一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种发音评测方法、装置、电子设备和存储介质与流程

2021-06-18 20:18:00 来源:中国专利 TAG:电子设备 发音 装置 评测 公开

技术特征:

1.一种发音评测方法,其特征在于,包括:

获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的gop分值,其中,所述发音音频为基于参考文本的音频数据,所述第二音素状态序列不受所述参考文本的音素序列的约束;

对比所述第一音素状态序列和所述第二音素状态序列,得到所述发音音频的平均帧错误率;

在所述发音音频的gop分值高于所述平均帧错误率对应的参考分段时,对所述发音音频的gop分值进行降分校正,得到最终评测分值。

2.根据权利要求1所述的发音评测方法,其特征在于,获取强制对齐下的第一音素状态序列,包括:

获取所述发音音频和对应的参考文本;

提取所述发音音频的语音特征序列;

基于预设声学模型以及所述语音特征序列,将所述参考文本和所述发音音频进行强制对齐,计算得到所述第一音素状态序列。

3.根据权利要求2所述的发音评测方法,其特征在于,获取自由识别下的第二音素状态序列,包括:

基于所述语音特征序列,采用语音识别模型计算得到所述第二音素状态序列。

4.根据权利要求1所述的发音评测方法,其特征在于,获取发音音频的gop分值,包括:

基于所述第一音素状态序列和所述第二音素状态序列,采用gop算法对所述参考文本中每个音素的发音情况进行打分,得到每个音素的gop分值;

基于所述每个音素的gop分值确定所述发音音频的gop分值。

5.根据权利要求1所述的发音评测方法,其特征在于,对比所述第一音素状态序列和所述第二音素状态序列,得到所述发音音频的平均帧错误率,包括:

对比所述第一音素状态序列和所述第二音素状态序列中各对应帧的音素,确定所述第二音素状态序列中音素匹配错误的帧数,其中,所述匹配错误包括删除错误、插入错误和替换错误;

将所述匹配错误的帧数与所述发音音频的总帧数之比作为所述平均帧错误率。

6.根据权利要求1所述的发音评测方法,其特征在于,对所述发音音频的gop分值进行降分校正,得到最终评测分值,包括:

将所述发音音频的gop分值与预设惩罚因子相乘,得到所述最终评测分值,其中,所述预设惩罚因子大于0且小于1,在所述参考分段一定的情况下,所述预设惩罚因子与所述发音音频的gop分值负相关。

7.根据权利要求1所述的发音评测方法,其特征在于,所述方法还包括:

判断所述发音音频的gop分值是否高于所述平均帧错误率对应的参考分段;

判断所述发音音频的gop分值是否高于所述平均帧错误率对应的参考分段,包括:

基于预先设置的帧错误率与分段的对应关系,确定所述平均帧错误率对应的参考分段;

如果所述发音音频的gop分值大于所述参考分段的最大值,则所述发音音频的gop分值高于所述平均帧错误率对应的参考分段;

或者,判断所述发音音频的gop分值是否高于所述平均帧错误率对应的参考分段,包括:

确定所述发音音频的gop分值所属的目标分段;

基于预先设置的帧错误率与分段的对应关系,确定所述目标分段对应的目标平均帧错误率;

如果所述目标平均帧错误率小于所述平均帧错误率,则所述发音音频的gop分值高于所述平均帧错误率对应的参考分段。

8.一种发音评测装置,其特征在于,包括:

音频参数获取模块,用于获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的gop分值,其中,所述发音音频为基于参考文本的音频数据,所述第二音素状态序列不受所述参考文本的音素序列的约束;

帧错误率获取模块,用于对比所述第一音素状态序列和所述第二音素状态序列,得到所述发音音频的平均帧错误率;

评测模块,用于在所述发音音频的gop分值高于所述平均帧错误率对应的参考分段时,对所述发音音频的gop分值进行降分校正,得到最终评测分值。

9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的发音评测方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的发音评测方法的步骤。


技术总结
本公开实施例涉及一种发音评测方法、装置、电子设备和存储介质。其中,发音评测方法包括:获取强制对齐下的第一音素状态序列、自由识别下的第二音素状态序列以及发音音频的GOP分值,其中,所述发音音频为基于参考文本的音频数据,所述第二音素状态序列不受所述参考文本的音素序列的约束;对比所述第一音素状态序列和所述第二音素状态序列,得到所述发音音频的平均帧错误率;在所述发音音频的GOP分值高于所述平均帧错误率对应的参考分段时,对所述发音音频的GOP分值进行降分校正,得到最终评测分值。本公开技术方案提高了对发音进行评测打分的准确性。

技术研发人员:郭立钊;杨嵩
受保护的技术使用者:北京世纪好未来教育科技有限公司
技术研发日:2021.04.20
技术公布日:2021.06.18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜