一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音质量评价方法和装置与流程

2022-03-16 02:13:55 来源:中国专利 TAG:

技术特征:
1.一种语音质量评价方法,其特征在于,包括:通过语音增强算法,对设备采集到的语音信号进行增强,得到增强后的语音;将所述增强后的语音输入至语音质量评价模型,获得所述增强后的语音的损失信息,所述语音质量评价模型包括至少两个声学模型,所述损失信息是基于所述至少两个声学模型的解码器对所述增强后的语音的解码结果作为真实值确定的;基于所述损失信息,判断所述增强后的语音的质量是否达标。2.根据权利要求1所述的方法,其特征在于,所述基于所述损失信息,判断所述增强后的语音的质量是否达标,包括:若所述损失信息小于或等于阈值,确定所述增强后的语音的质量达标;或者,若所述损失信息大于阈值,确定所述增强后的语音的质量不达标。3.根据权利要求1或2所述的方法,其特征在于,在所述判断所述增强后的语音的质量是否达标之后,所述方法还包括:若所述增强后的语音的质量达标,接受所述语音增强算法;或者,若所述增强后的语音的质量不达标,拒绝所述语音增强算法。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在所述增强后的语音的质量不达标的情况下,优化所述语音增强算法。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述至少两个声学模型包括下列声学模型中的全部或部分:基于卷积神经网络cnn结构和联结主义时间分类器ctc损失函数的模型;基于变换器transformer结构和转换器transducer损失函数的模型;基于交叉熵损失函数的听、注意和拼写las模型;基于交叉熵损失函数的隐马尔可夫-深度神经网络hmm-dnn模型。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述将所述增强后的语音输入至语音质量评价模型,获得所述增强后的语音的损失信息,包括:将所述增强后的语音分别输入至所述至少两个声学模型,获得至少两个子损失信息,所述至少两个子损失信息与所述至少两个声学模型对应;基于所述至少两个子损失信息,确定所述损失信息。7.根据权利要求6所述的方法,其特征在于,所述损失信息是通过对所述至少两个子损失信息进行加权求和得到的。8.根据权利要求6或7所述的方法,其特征在于,所述将所述增强后的语音分别输入至所述至少两个声学模型,获得至少两个子损失信息,包括:将所述增强后的语音输入至所述至少两个声学模型的第一声学模型,获得所述第一声学模型中的解码器的解码结果;将所述第一声学模型中的解码器的解码结果作为真实值,计算所述增强后的语音的第一子损失信息。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:基于已标注语料,对所述至少两个声学模型进行训练,获得所述语音质量评价模型。10.根据权利要求9所述的方法,其特征在于,所述已标注语料包括:理想近场语料和理想远场语料,所述理想近场语料对应近场场景,所述理想远场语料
对应远场场景。11.一种语音质量评价装置,其特征在于,包括:增强模块,用于通过语音增强算法,对设备采集到的语音信号进行增强,得到增强后的语音;处理模块,用于将所述增强后的语音输入至语音质量评价模型,获得所述增强后的语音的损失信息,所述语音质量评价模型包括至少两个声学模型,所述损失信息是基于所述至少两个声学模型的解码器对所述增强后的语音的解码结果作为真实值确定的;判断模块,基于所述损失信息,判断所述增强后的语音的质量是否达标。12.根据权利要求11所述的装置,其特征在于,所述判断模块具体用于:若所述损失信息小于或等于阈值,确定所述增强后的语音的质量达标;或者,若所述损失信息大于阈值,确定所述增强后的语音的质量不达标。13.根据权利要求11或12所述的装置,其特征在于,所述判断模块具体用于:若所述增强后的语音的质量达标,接受所述语音增强算法;或者,若所述增强后的语音的质量不达标,拒绝所述语音增强算法。14.根据权利要求13所述的装置,其特征在于,所述处理模块具体用于:在所述增强后的语音的质量不达标的情况下,优化所述语音增强算法。15.根据权利要求11至14中任一项所述的装置,其特征在于,所述至少两个声学模型包括下列声学模型中的全部或部分:基于卷积神经网络cnn结构和联结主义时间分类器ctc损失函数的模型;基于变换器transformer结构和转换器transducer损失函数的模型;基于交叉熵损失函数的听、注意和拼写las模型;基于交叉熵损失函数的隐马尔可夫-深度神经网络hmm-dnn模型。16.根据权利要求11至15中任一项所述的装置,其特征在于,所述处理模块具体用于:将所述增强后的语音分别输入至所述至少两个声学模型,获得至少两个子损失信息,所述至少两个子损失信息与所述至少两个声学模型对应;基于所述至少两个子损失信息,确定所述损失信息。17.根据权利要求16所述的装置,其特征在于,所述损失信息是通过对所述至少两个子损失信息进行加权求和得到的。18.根据权利要求16或17所述的装置,其特征在于,所述处理模块具体用于:将所述增强后的语音输入至所述至少两个声学模型的第一声学模型,获得所述第一声学模型中的解码器的解码结果;将所述第一声学模型中的解码器的解码结果作为真实值,计算所述增强后的语音的第一子损失信息。19.根据权利要求11至18中任一项所述的装置,其特征在于,所述装置还包括:训练模块,用于基于已标注语料,对所述至少两个声学模型进行训练,获得所述语音质量评价模型。20.根据权利要求19所述的装置,其特征在于,所述已标注语料包括:理想近场语料和理想远场语料,所述理想近场语料对应近场场景,所述理想远场语料对应远场场景。
21.一种语音质量评价装置,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储计算机程序,当所述处理器调用所述计算机程序时,使得所述装置执行如权利要求1至10中任一项所述的方法。22.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于实现如权利要求1至10中任一项所述的方法的指令。

技术总结
本申请提供了一种语音质量评价方法和装置,涉及人工智能领域。该方法包括:通过语音增强算法,对设备采集到的语音信号进行增强,得到增强后的语音;将增强后的语音输入至语音质量评价模型,获得该增强后的语音的损失信息,语音质量评价模型包括至少两个声学模型,上述损失信息是基于该至少两个声学模型的解码器对上述增强后的语音的解码结果作为真实值确定的;基于该损失信息,判断上述增强后的语音的质量是否达标。上述语音质量评价方法及装置能够与特定的语音增强算法、特定的ASR后端解耦,能反映语音增强算法对ASR后端的影响,可灵活适用于多种不同的场景。活适用于多种不同的场景。活适用于多种不同的场景。


技术研发人员:房雷
受保护的技术使用者:华为技术有限公司
技术研发日:2020.09.15
技术公布日:2022/3/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献