一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

发音特征处理方法、装置、服务器及介质与流程

2021-09-17 23:14:00 来源:中国专利 TAG:发音 介质 语音 装置 特征

技术特征:
1.一种发音特征处理方法,其特征在于,所述方法包括:获取文本数据和所述文本数据对应的语音数据,所述文本数据中包括多个字符片段,所述语音数据中包括多个语音片段,且每个语音片段中的声音是按照一个字符片段发出的;对所述文本数据和所述语音数据进行识别,得到每个语音片段的第一发音特征,所述第一发音特征表示所述语音片段对应的字符片段的模板发音与所述语音片段之间的匹配度;将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合,得到所述每个语音片段的融合特征;分别根据所述每个语音片段的融合特征,对所述每个语音片段的第一发音特征进行调整,得到所述每个语音片段的第二发音特征。2.根据权利要求1所述的方法,其特征在于,所述将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合,得到所述每个语音片段的融合特征;分别根据所述每个语音片段的融合特征,对所述每个语音片段的第一发音特征进行调整,得到所述每个语音片段的第二发音特征,包括:调用噪声补偿模型,将所述每个语音片段的第一发音特征与所述其他语音片段的第一发音特征进行融合,得到所述每个语音片段的融合特征;分别根据所述每个语音片段的融合特征,对所述每个语音片段的第一发音特征进行调整,得到所述每个语音片段的第二发音特征。3.根据权利要求2所述的方法,其特征在于,所述噪声补偿模型的训练过程如下:获取样本数据,所述样本数据包括样本文本数据和所述样本文本数据对应的样本语音数据,所述样本文本数据中包括多个样本字符片段,所述样本语音数据中包括多个样本语音片段,且每个样本语音片段中的声音是按照一个样本字符片段发出的;获取每个样本语音片段的第一样本特征和第二样本特征,所述第一样本特征表示所述样本语音片段对应的样本字符片段的模板发音与所述样本语音片段之间的匹配度,所述第二样本特征为对所述第一样本特征进行去噪处理后得到的特征;调用所述噪声补偿模型,分别对所述每个样本语音片段的第一样本特征进行调整,得到所述每个样本语音片段的预测发音特征,根据所述每个样本语音片段的所述预测发音特征和所述第二样本特征之间的差异,训练所述噪声补偿模型。4.根据权利要求3所述的方法,其特征在于,所述样本数据还包括所述样本语音数据的样本准确率,所述噪声补偿模型包括噪声补偿网络和口语评测网络,所述调用所述噪声补偿模型,分别对所述每个样本语音片段的第一样本特征进行调整,得到所述每个样本语音片段的预测发音特征,根据所述每个样本语音片段的所述预测发音特征和所述第二样本特征之间的差异,训练所述噪声补偿模型,包括:调用所述噪声补偿网络,分别对所述每个样本语音片段的第一样本特征进行调整,得到所述每个样本语音片段的预测发音特征;调用所述口语评测网络,对多个样本语音片段的预测发音特征进行融合,得到所述样本语音数据的预测准确率;根据所述预测准确率和所述样本准确率之间的差异,训练所述噪声补偿网络。
5.根据权利要求3所述的方法,其特征在于,所述样本数据还包括所述样本语音数据的样本准确率,所述调用所述噪声补偿模型,分别对所述每个样本语音片段的第一样本特征进行调整,得到所述每个样本语音片段的预测发音特征之后,所述方法还包括:调用口语评测模型,对所述多个样本字符片段和所述多个样本语音片段的预测发音特征进行评测,得到所述样本语音数据的预测准确率;根据所述预测准确率和所述样本准确率之间的差异,训练所述噪声补偿模型。6.根据权利要求1或2所述的方法,其特征在于,所述对所述文本数据和所述语音数据进行识别,得到每个语音片段的第一发音特征,包括:对所述文本数据和所述语音数据进行识别,得到所述每个语音片段的第一发音特征和所述每个字符片段的字符特征,所述字符特征用于表示所述字符片段在所述文本数据中的位置和所属的字符类型;所述将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合,得到所述每个语音片段的融合特征,包括:将所述每个语音片段的第一发音特征与所述其他语音片段的第一发音特征进行融合,得到所述每个语音片段的融合发音特征;将所述每个字符片段的字符特征与其他字符片段的字符特征进行融合,得到所述每个字符片段的融合字符特征。7.根据权利要求1或2所述的方法,其特征在于,所述对所述文本数据和所述语音数据进行识别,得到每个语音片段的第一发音特征,包括:对所述文本数据和所述语音数据进行识别,得到所述每个语音片段的第一发音特征和所述每个语音片段的噪声特征,所述噪声特征用于描述所述语音片段中包含的噪声;所述分别根据所述每个语音片段的融合特征,对所述每个语音片段的第一发音特征进行调整,得到所述每个语音片段的第二发音特征,包括:分别根据所述每个语音片段的融合特征和噪声特征,对所述每个语音片段的第一发音特征进行调整,得到所述每个语音片段的第二发音特征。8.根据权利要求1所述的方法,其特征在于,所述分别根据所述每个语音片段的融合特征,对所述每个语音片段的第一发音特征进行调整,得到所述每个语音片段的第二发音特征之后,所述方法还包括:对所述多个字符片段和所述多个语音片段的第二发音特征进行评测,得到所述语音数据的发音准确率。9.根据权利要求8所述的方法,其特征在于,所述对所述多个字符片段和所述多个语音片段的第二发音特征进行评测,得到所述语音数据的发音准确率,包括:分别对所述多个字符片段和所述多个语音片段的第二发音特征进行评测,得到所述多个语音片段的发音准确率;将所述多个语音片段的发音准确率进行融合,得到所述语音数据的发音准确率。10.根据权利要求8所述的方法,其特征在于,所述对所述多个字符片段和所述多个语音片段的第二发音特征进行评测,得到所述语音数据的发音准确率,包括:调用口语评测模型,对所述多个字符片段和所述多个语音片段的第二发音特征进行评测,得到所述语音数据的发音准确率。
11.根据权利要求7所述的方法,其特征在于,所述对所述多个字符片段和所述多个语音片段的第二发音特征进行评测,得到所述语音数据的发音准确率之后,所述方法还包括:将所述语音数据的发音准确率发送给终端,所述终端用于在包含所述文本数据的跟读界面中显示所述发音准确率。12.根据权利要求1所述的方法,其特征在于,所述获取文本数据和所述文本数据对应的语音数据,包括:接收终端发送的所述文本数据和所述语音数据,所述终端用于显示包含所述文本数据的跟读界面,响应于跟读启动操作,采集所述语音数据。13.一种发音特征处理装置,其特征在于,所述装置包括:数据获取模块,用于获取文本数据和所述文本数据对应的语音数据,所述文本数据中包括多个字符片段,所述语音数据中包括多个语音片段,且每个语音片段中的声音是按照一个字符片段发出的;数据识别模块,用于对所述文本数据和所述语音数据进行识别,得到每个语音片段的第一发音特征,所述第一发音特征表示所述语音片段对应的字符片段的模板发音与所述语音片段之间的匹配度;特征融合模块,用于将所述每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合,得到所述每个语音片段的融合特征;特征调整模块,用于分别根据所述每个语音片段的融合特征,对所述每个语音片段的第一发音特征进行调整,得到所述每个语音片段的第二发音特征。14.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如权利要求1至12任一权利要求所述的发音特征处理方法中所执行的操作。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如权利要求1至12任一权利要求所述的发音特征处理方法中所执行的操作。

技术总结
本申请实施例公开了一种发音特征处理方法、装置、计算机设备及介质,属于语音处理技术领域。该方法包括:获取文本数据和文本数据对应的语音数据,语音数据中包括多个语音片段;对文本数据和语音数据进行识别,得到每个语音片段的第一发音特征;将每个语音片段的第一发音特征与其他语音片段的第一发音特征进行融合,得到每个语音片段的融合特征;分别根据每个语音片段的融合特征,对每个语音片段的第一发音特征进行调整,得到每个语音片段的第二发音特征。该方法实现了对第一发音特征的噪声补偿,使得到的第二发音特征能够更加准确地表示语音片段的发音特征,提高了语音数据的发音特征的准确率。征的准确率。征的准确率。


技术研发人员:林炳怀 王丽园
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2020.11.25
技术公布日:2021/9/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜