语音评估方法、训练方法、装置、电子设备以及存储介质与流程

2022-04-02 02:57:17 来源：中国专利 TAG：

技术特征：
1.一种语音评估方法，包括：对待评估语音数据进行特征提取，得到语音特征向量序列，其中，所述语音特征向量序列包括至少一个语音特征向量，所述语音特征向量用于表征全局特征和局部特征的特征向量；以及对所述语音特征向量序列和第一音素向量序列进行处理，得到针对所述待评估语音数据的第一评估结果，其中，所述第一评估结果用于表征所述待评估语音数据的音素准确度，所述第一音素向量序列是对音素序列进行编码得到的，所述音素序列与所述待评估语音数据相对应。2.根据权利要求1所述的方法，其中，所述第一音素向量序列包括与至少一个音素对应的第一音素向量；其中，所述对所述语音特征向量序列和第一音素向量序列进行处理，得到针对所述待评估语音数据的第一评估结果，包括：基于第一注意力策略和音素时间信息，对所述语音特征向量序列和所述第一音素向量序列进行处理，得到第二音素向量序列，其中，所述第二音素向量序列包括与所述至少一个音素对应的第二音素向量；对所述第二音素向量序列进行处理，得到针对所述待评估语音数据的第二评估结果；以及将所述第二评估结果确定为针对所述待评估语音数据的第一评估结果。3.根据权利要求2所述的方法，其中，所述基于第一注意力策略和音素时间信息，对所述语音特征向量序列和所述第一音素向量序列进行处理，得到第二音素向量序列，包括：根据所述音素时间信息，确定与所述至少一个音素对应的语音特征向量；以及基于所述第一注意力策略，对与所述至少一个音素对应的第一音素向量和语音特征向量进行处理，得到所述第二音素向量序列。4.根据权利要求2或3所述的方法，还包括：对所述语音特征向量序列和所述第二音素向量序列进行处理，得到针对所述待评估语音数据的第三评估结果；其中，所述将第二评估结果确定为针对所述待评估语音数据的第一评估结果，包括：根据所述第二评估结果和所述第三评估结果，得到针对所述待评估语音数据的第一评估结果。5.根据权利要求4所述的方法，其中，所述对所述语音特征向量序列和所述第二音素向量序列进行处理，得到针对所述待评估语音数据的第三评估结果，包括：对所述第二音素向量序列进行时序处理，得到第三音素向量序列，其中，所述第三音素向量序列包括与所述至少一个音素对应的第三音素向量；基于第二注意力策略，对所述语音特征向量序列和所述第三音素向量序列进行处理，得到第四音素向量序列；以及对所述第四音素向量进行处理，得到针对所述待评估语音数据的第三评估结果。6.根据权利要求5所述的方法，其中，所述对所述第四音素向量进行处理，得到针对所述待评估语音数据的第三评估结果，包括：对所述第四音素向量序列进行处理，得到与所述至少一个音素对应的预测概率值；
确定预期概率值，其中，所述预期概率值是与所述至少一个音素对应的预测概率值中满足预定条件的预测概率值；根据所述预期概率值和与所述至少一个音素对应的预测概率值，确定与所述至少一个音素对应的第一准确度；以及根据与所述至少一个音素对应的第一准确度，得到针对所述待评估语音数据的第三评估结果。7.根据权利要求6所述的方法，还包括：基于启发式搜索算法，利用与所述至少一个音素对应的预测概率值，得到预测音素序列；以及根据真实音素序列和所述预测音素序列，得到针对所述待评估语音数据的第四评估结果；其中，所述根据所述第二评估结果和所述第三评估结果，得到针对所述待评估语音数据的第一评估结果，包括：根据所述第二评估结果、所述第三评估结果和所述第四评估结果，得到针对所述待评估语音数据的第一评估结果。8.根据权利要求1～3中任一项所述的方法，还包括：基于隐马尔可夫算法对所述语音特征向量序列进行处理，得到与所述至少一个音素对应的隐藏状态；确定与所述至少一个音素对应的隐藏状态的出现概率值；根据音素时间信息和与所述至少一个音素对应的隐藏状态的出现概率值，确定与所述至少一个音素对应的第二准确度；根据与所述至少一个音素对应的第二准确度，得到针对所述待评估语音数据的第五评估结果；以及根据所述第一评估结果和所述第五评估结果，得到针对所述待评估语音数据的评估结果。9.根据权利要求1～8中任一项所述的方法，其中，所述对待评估语音数据进行特征提取，得到语音特征向量序列，包括：对所述待评估语音数据进行特征提取，得到声学特征序列；以及对所述声学特征序列进行特征提取，得到所述语音特征向量序列。10.根据权利要求9所述的方法，其中，所述对所述声学特征序列进行特征提取，得到所述语音特征向量序列，包括：利用编码器处理所述声学特征序列，得到所述语音特征向量序列。11.根据权利要求10所述的方法，其中，所述编码器包括级联的卷积神经网络模块和双体基网模块；其中，所述利用编码器处理所述声学特征序列，得到所述语音特征向量序列，包括：利用所述卷积神经网络模块处理所述声学特征序列，得到第一中间语音特征向量序列；以及利用所述双体基网模块处理所述第一中间语音特征向量序列，得到所述语音特征向量序列。
12.根据权利要求11所述的方法，其中，所述卷积神经网络模块包括d个级联的卷积神经网络单元，所述卷积神经网络单元包括第一深度卷积层和第一逐点卷积层，d是大于或等于1的整数；其中，所述利用所述卷积神经网络模块处理所述声学特征序列，得到第一中间语音特征向量序列，包括：在d＝1的情况下，利用第1层级的第一深度卷积层处理所述声学特征序列，得到第1层级的第二中间语音特征向量序列；利用第1层级的第一逐点卷积层处理所述第1层级的第二中间语音特征向量序列，得到第1层级的第三中间语音特征向量序列；以及根据所述第1层级的第三中间语音特征向量序列，得到所述第一中间语音特征向量序列；在d＞1且d＞1的情况下，利用第d层级的第一深度卷积层处理第(d-1)层级的第三中间语音特征向量序列，得到所述第d层级的第二中间语音特征向量序列；利用第d层级的第一逐点卷积层处理所述第d层级的第二中间特征向量序列，得到所述第d层级的第三中间语音特征向量序列；以及根据所述第e层级的第三中间语音特征向量序列，得到所述第一中间语音特征向量序列，其中，e是大于1且小于或等于d的整数。13.根据权利要求11或12所述的方法，其中，所述双体基网模块包括h个级联的双体基网单元，所述双体基网单元包括第一前向网络层、多头自注意力层、卷积层和第二前向网络层，h是大于或等于1的整数；其中，所述利用所述双体基网模块处理所述第一中间语音特征向量序列，得到所述语音特征向量序列，包括：在h＞1且h＞1的情况下，利用第h层级的第一前向网络层处理第(h-1)层级的第十一中间语音特征向量序列，得到第h层级的第四中间语音特征向量序列；根据所述第(h-1)层级的第十一中间语音特征向量序列和所述第h层级的第四中间语音特征向量序列，得到第h层级的第五中间语音特征向量序列；利用第h层级的多头自注意力层处理所述第h层级的第五中间语音特征向量序列，得到第h层级的第六中间语音特征向量序列；根据所述第h层级的第五中间语音特征向量序列和第六中间语音特征向量序列，得到第h层级的第七中间语音特征向量序列；利用第h层级的卷积层处理所述第h层级的第七中间语音特征向量序列，得到第h层级的第八中间语音特征向量序列；根据所述第h层级的第七中间语音特征向量序列和第八中间语音特征向量序列，得到第h层级的第九中间语音特征向量序列；利用第h层级的第二前向网络层处理所述第h层级的第九中间语音特征向量序列，得到第h层级的第十中间语音特征向量序列；根据所述第h层级的第九中间语音特征向量序列和第十中间语音特征向量序列，得到第h层级的第十一中间语音特征向量序列；以及根据第k层级的第十一中间语音特征向量序列，得到所述语音特征向量序列，其中，k是
大于1且小于或等于h的整数。14.一种训练方法，包括：对样本语音数据进行特征提取，得到样本语音特征向量序列，其中，所述样本语音特征向量序列包括至少一个样本语音特征向量，所述样本语音特征向量用于表征全局特征和局部特征的特征向量；对所述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对所述样本语音数据的第一样本评估结果，其中，所述样本评估结果用于表征所述样本语音数据的音素准确度，所述第一样本音素向量序列是对样本音素序列进行编码得到的，所述第一样本音素序列与所述样本语音数据相对应；以及利用样本真实结果和所述第一样本评估结果训练预定模型，得到语音评估模型。15.根据权利要求14所述的方法，其中，所述对样本语音数据进行特征提取，得到样本语音特征向量序列，包括：对所述样本语音数据进行特征提取，得到样本声学特征序列；以及对所述样本声学特征序列进行特征提取，得到所述样本语音特征向量序列。16.根据权利要求15所述的方法，其中，所述预定模型包括编码器；其中，所述对所述样本声学特征序列进行特征提取，得到所述样本语音特征向量序列，包括：利用所述编码器处理所述样本声学特征序列，得到所述样本语音特征向量序列。17.根据权利要求16所述的方法，其中，所述编码器包括级联的卷积神经网络模块和双体基网模块；其中，所述卷积神经网络模块包括d个级联的卷积神经网络单元，所述卷积神经网络单元包括第一深度卷积层和第一逐点卷积层，d是大于或等于1的整数；其中，所述双体基网单元包括h个级联的双体基网单元，所述双体基网单元包括第一前向网络层、多头自注意力层、卷积层和第二前向网络层，h是大于或等于1的整数。18.根据权利要求16或17所述的方法，其中，所述预定模型还包括解码器；其中，所述方法还包括：对所述样本语音特征向量序列进行处理，得到针对所述样本语音数据的第二样本评估结果；以及利用所述样本真实结果和所述第二样本评估结果训练所述编码器，得到训练完成的编码器；其中，所述利用样本真实结果和所述第一样本评估结果训练预定模型，得到语音评估模型，包括：在保持所述训练完成的编码器的模型参数不变的情况下，利用所述样本真实结果和所述第一样本评估结果训练所述解码器，得到所述语音评估模型。19.根据权利要求18所述的方法，其中，所述解码器包括第一评估模块，所述第一评估模块包括第一注意力层和第一线性层；其中，所述所述第一样本音素向量序列包括与至少一个样本音素对应的第一样本音素向量；其中，所述对所述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针
对所述样本语音数据的第一样本评估结果，包括：基于所述第一注意力层和第一样本音素时间信息，对所述样本语音特征向量序列和所述第一样本音素向量序列进行处理，得到第二样本音素向量序列，其中，所述第二样本音素向量序列包括与所述至少一个样本音素对应的第二样本音素向量；利用所述第一线性层处理所述所述第二样本音素向量序列，得到针对所述样本语音数据的第三样本评估结果；以及将所述第三样本评估结果确定为针对所述样本语音数据的第一样本评估结果。20.根据权利要求19所述的方法，其中，所述解码器还包括第二评估模块，所述第二评估模块包括循环神经网络层、第二注意力层和第二线性层；其中，所述方法还包括：利用所述循环神经网络层处理所述第二样本音素向量序列，得到第三样本音素向量序列，其中，所述第三样本音素向量序列包括与所述至少一个样本音素对应的第三样本音素向量；利用所述第二注意力层处理所述样本语音特征向量和所述第三样本音素向量序列，得到第四样本音素向量序列，其中，所述第四样本音素向量序列包括与所述至少一个样本音素对应的第四样本音素向量；以及利用所述第二线性层处理所述第四样本音素向量序列，得到针对所述样本数据的第四样本评估结果；其中，所述将所述第三样本评估结果确定为针对所述样本语音数据的第一样本评估结果，包括：根据所述第三样本评估结果和所述第四样本评估结果，得到针对所述样本语音数据的第一样本评估结果。21.根据权利要求20所述的方法，还包括：基于启发式搜索算法，利用与所述至少一个样本音素对应的预测样本概率值，得到预测样本音素序列；以及根据真实样本音素序列和所述预测样本音素序列，得到针对所述样本语音数据的第五样本评估结果；其中，所述根据所述第三样本评估结果和所述第四样本评估结果，得到针对所述样本语音数据的第一样本评估结果，包括：根据所述第三样本评估结果、所述第四样本评估结果和所述第五样本评估结果，得到针对所述样本语音数据的第一样本评估结果。22.一种语音评估装置，包括：第一获得模块，用于对待评估语音数据进行特征提取，得到语音特征向量序列，其中，所述语音特征向量序列包括至少一个语音特征向量，所述语音特征向量用于表征全局特征和局部特征的特征向量；以及第二获得模块，用于对所述语音特征向量序列和第一音素向量序列进行处理，得到针对所述待评估语音数据的第一评估结果，其中，所述第一评估结果用于表征所述待评估语音数据的音素准确度，所述第一音素向量序列是对音素序列进行编码得到的，所述音素序列与所述待评估语音数据相对应。
23.一种训练装置，包括：第三获得模块，用于对样本语音数据进行特征提取，得到样本语音特征向量序列，其中，所述样本语音特征向量序列包括至少一个样本语音特征向量，所述样本语音特征向量是用于表征全局特征和局部特征的特征向量；第四获得模块，用于对所述样本语音特征向量序列和第一样本音素向量序列进行处理，得到针对所述样本语音数据的第一样本评估结果，其中，所述样本评估结果用于表征所述样本语音数据的音素准确度，所述第一样本音素向量序列是对样本音素序列进行编码得到的，所述第一样本音素序列与所述样本语音数据相对应；以及第五获得模块，用于利用样本真实结果和所述第一样本评估结果训练预定模型，得到语音评估模型。24.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～13中任一项或权利要求14～21中任一项所述的方法。25.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～13中任一项或权利要求14～21中任一项所述的方法。26.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～13中任一项或权利要求14～21中任一项所述的方法。

技术总结
本公开提供了语音评估方法、训练方法、装置、电子设备以及存储介质，涉及人工智能技术领域，尤其涉及语音识别和深度学习技术领域。具体实现方案为：对待评估语音数据进行特征提取，得到语音特征向量序列，其中，语音特征向量序列包括至少一个语音特征向量，语音特征向量用于表征全局特征和局部特征的特征向量；对语音特征向量序列和第一音素向量序列进行处理，得到针对待评估语音数据的第一评估结果，其中，第一评估结果用于表征待评估语音数据的音素准确度，第一音素向量序列是对音素序列进行编码得到的，音素序列与待评估语音数据相对应。应。应。

技术研发人员：马洁
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.12.17
技术公布日：2022/4/1

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频处理方法、装置、设备、存储介质及程序与流程

语音评估方法、训练方法、装置、电子设备以及存储介质与流程

相关文献

最热文献