一种基于语音深度表征映射的语音翻译方法及系统与流程

2022-11-09 23:15:04 来源：中国专利 TAG：

技术特征：
1.一种基于语音深度表征映射的语音翻译方法，其特征在于，包括如下步骤：s1：通过网络收集语音数据并保存，调整语音数据的长度，最后将语音数据转换成格式统一的数据集；s2：将s1得到的数据集训练wav2vec2.0网络，得到语音表征模型；s3：通过网络收集源语言语音数据和对应的目标翻译语言语音数据并保存，调整源语言语音数据和目标翻译语言语音数据的长度，最后将源语言语音数据和目标翻译语言语音数据转换成格式统一的数据集，得到源语言语音数据集和目标翻译语言语音数据集；s4：将s3得到的源语言语音数据集输入到s2得到的语音表征模型，得到源语言语音的深度表征；s5：将s3得到的目标翻译语言语音数据集输入到s2得到的语音表征模型，得到目标翻译语言的深度表征；s6：将s4得到的源语言语音的深度表征作为特征映射网络的输入，s5得到的目标翻译语言的深度表征作为特征映射网络的监督数据，训练特征映射网络，得到预测表征；s7：将s3得到的源语言语音数据集输入到开源的训练好的声纹识别模型，输入到开源的训练好的声纹识别模型，得到发音人的深度表征；s8：将s6得到的预测表征和s7得到的发音人的深度表征在时间维度进行拼接，作为神经网络声码器的输入，将s3得到的目标翻译语言语音数据集作为神经网络声码器的监督数据，训练神经网络声码器，从而得到最终生成预测的翻译语音。2.根据权利要求1所述的一种基于语音深度表征映射的语音翻译方法，其特征在于，所述的步骤s1通过网络收集语音数据，源语言语音数据和目标语言语音数据，语音数据按句子进行保存，并用语谱能量评估方法，去除语音句子前后静音，并保证每条语音数据控制在2秒到10秒长度，最后将语音通过ffmpeg软件转换成格式统一的数据集。3.根据权利要求1所述的一种基于语音深度表征映射的语音翻译方法，其特征在于，所述的步骤s3通过网络收集源语言语音数据和对应的目标翻译语言语音数据，源语言语音数据和目标翻译语言语音数据按句子进行保存，并用语谱能量评估方法，去除语音句子前后静音，并保证每条源语言语音数据和目标翻译语言语音数据控制在2秒到10秒长度，最后将源语言语音数据和目标翻译语言语音数据通过ffmpeg软件转换成格式统一的数据集，得到源语言语音数据集和目标翻译语言语音数据集。4.一种基于语音深度表征映射的语音翻译系统，其特征在于，包括按顺序依次连接的如下模块：语音信号采集模块，用于采集待翻译语音信号；语音信号预处理模块，用于将采集到的语音信号进行预处理，对语音进行人声检测，去除非人声部分，生成可用于神经网络处理的数据；信息传输模块，将预处理模块处理好的信息传输到云端后台处理，以及从云端获取翻译好的语音数据；云端语音翻译模块，采用如权利要求1所述的语音翻译方法训练好的翻译模型处理上传的语音数据，翻译成目标语言语音数据，并回传终端；语音播报模块，用于播放云端返回的语音信号；分析存储模块，用于利用mysql数据库，存储用户的语音数据以及翻译好的语音数据。
5.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统，其特征在于：所述语音信号采集模块采用高保真单麦克风或者麦克风阵列或者本地音频文件搜索算法。6.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统，其特征在于：所述预处理包括预加重、分帧、加窗、短时傅里叶变换、静音去除，人声检测，将语音信号从时域信号转换到频域信号。7.根据权利要求6所述的一种基于语音深度表征映射的语音翻译系统，其特征在于：所述静音去除采用谱减法，所述短时傅里叶变换用于对语音进行声谱特征提取，所述人声检测采用基于短时能量和过零率的方法进行。8.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统，其特征在于：所述的云端语音翻译模块采用如权利要求1所述的语音翻译方法训练好的翻译模型处理上传的语音数据，翻译成目标语言语音数据，并通过音频流方式分段回传终端，达到实时播放的目的。

技术总结
本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域，涉及人工智能领域，本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型，可以方便的使用海量影视等媒体数据进行模型训练，方便的应用于各种语言语音的互译，提供了一种便捷通用的语音互译方案；本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成，可实现语音翻译发音音色指定可控，并且能够使得合成的语音保真度更高；本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法，能够实现语音直接翻译任务，简化了语音翻译的流程，提高了语音翻译的精度。翻译的精度。翻译的精度。

技术研发人员：郑书凯李太豪阮玉平黄剑韬
受保护的技术使用者：之江实验室
技术研发日：2022.10.12
技术公布日：2022/11/8

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：说话人识别方法、识别装置、识别程序、性别识别模型生成方法以及说话人识别模型生成方法与流程

一种基于语音深度表征映射的语音翻译方法及系统与流程

相关文献

最热文献