技术特征:
1.一种发音质量检测方法,其特征在于,所述方法包括:
获取待检测音频和所述待检测音频对应的标准音频,并对所述待检测音频和所述标准音频进行音节对齐;
根据音节对齐结果对所述待检测音频和所述标准音频进行音段分割,得到待检测音段和目标音段,并对所述待检测音段和所述目标音段进行音频帧对齐,得到对齐路径;
根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度,并分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测;
根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度,并对所述停顿相似度和所述基频相似度进行权值计算,得到发音质量检测值;
若所述发音质量检测值大于检测阈值,则判定所述待检测音频的发音质量合格。
2.如权利要求1所述的发音质量检测方法,其特征在于,所述对所述待检测音段和所述目标音段进行音频帧对齐的步骤包括:
分别提取所述待检测音段和所述目标音段中音频帧的梅尔倒谱系数,得到待检测特征序列和目标特征序列;
分别获取所述待检测特征序列和所述目标特征序列的序列长度,得到第一长度和第二长度,并根据所述第一长度和所述第二长度构建音频帧对齐矩阵;
根据所述音频帧对齐矩阵对所述待检测音段和所述目标音段进行音频帧对齐,得到所述对齐路径。
3.如权利要求2所述的发音质量检测方法,其特征在于,所述根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度所采用的计算公式为:
其中,dtw是所述基频相似度,q是所述待检测特征序列,c是所述目标特征序列,w是所述对齐路径,wk是所述对齐路径上第k个点在所述音频帧对齐矩阵中的坐标。
4.如权利要求1所述的发音质量检测方法,其特征在于,所述分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测的步骤包括:
分别获取所述待检测音段和所述目标音段中发音单元的起止位置;
根据所述发音单元的起止位置查询对应所述待检测音段或所述目标音段中对应的停顿起止位置,得到所述停顿检测结果,所述停顿检测结果包括待检测停顿信息和目标停顿信息。
5.如权利要求4所述的发音质量检测方法,其特征在于,所述根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度的步骤包括:
将所述待检测停顿信息和所述目标停顿信息中的停顿起止位置进行位置比对,得到位置相似度,所述位置相似度用于表征所述待检测停顿信息和所述目标停顿信息之间停顿起止位置的相似度;
获取所述待检测停顿信息和所述目标停顿信息中停顿起止位置对应的停顿时长,得到第一停顿时长和第二停顿时长;
计算所述第一停顿时长与所述第二停顿时长之间的相似度,得到时长相似度,并对所述时长相似度和所述位置相似度进行权值计算,得到所述停顿相似度。
6.如权利要求1所述的发音质量检测方法,其特征在于,所述对所述待检测音频和所述标准音频进行音节对齐的步骤之前,所述方法还包括:
分别对所述待检测音频和所述标准音频进行音频强制对齐。
7.一种发音质量检测系统,其特征在于,所述系统包括:
音节对齐模块,用于获取待检测音频和所述待检测音频对应的标准音频,并对所述待检测音频和所述标准音频进行音节对齐;
音频帧对齐模块,用于根据音节对齐结果对所述待检测音频和所述标准音频进行音段分割,得到待检测音段和目标音段,并对所述待检测音段和所述目标音段进行音频帧对齐,得到对齐路径;
停顿检测模块,用于根据所述对齐路径计算所述待检测音段与所述目标音段之间的基频相似度,并分别对音频帧对齐后所述待检测音段与所述目标音段进行停顿检测;
发音质量检测模块,用于根据停顿检测结果计算所述待检测音段与所述目标音段之间的停顿相似度,并对所述停顿相似度和所述基频相似度进行权值计算,得到发音质量检测值;
发音质量判定模块,用于若所述发音质量检测值大于检测阈值,则判定所述待检测音频的发音质量合格。
8.如权利要求7所述的发音质量检测系统,其特征在于,所述音频帧对齐模块还用于:
分别提取所述待检测音段和所述目标音段中音频帧的梅尔倒谱系数,得到待检测特征序列和目标特征序列;
分别获取所述待检测特征序列和所述目标特征序列的序列长度,得到第一长度和第二长度,并根据所述第一长度和所述第二长度构建音频帧对齐矩阵;
根据所述音频帧对齐矩阵对所述待检测音段和所述目标音段进行音频帧对齐,得到所述对齐路径。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的发音质量检测方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的发音质量检测方法的步骤。
技术总结
本发明提供了一种发音质量检测方法、系统、移动终端及存储介质,该方法包括:对待检测音频和标准音频进行音节对齐和音段分割,得到待检测音段和目标音段,对待检测音段和目标音段进行音频帧对齐,得到对齐路径;根据对齐路径计算待检测音段与目标音段之间的基频相似度,对待检测音段与目标音段进行停顿检测;根据停顿检测结果计算待检测音段与目标音段之间的停顿相似度,对停顿相似度和基频相似度进行权值计算得到发音质量检测值;若发音质量检测值大于检测阈值,判定待检测音频的发音质量合格。本发明基于发音质量检测值能自动判断待检测音频的发音质量检测是否合格,无需采用人工的方式进行音频数据发音质量检测,提高了发音质量检测的准确性。
技术研发人员:陈剑超;肖龙源;李稀敏;叶志坚
受保护的技术使用者:厦门快商通科技股份有限公司
技术研发日:2021.03.02
技术公布日:2021.06.15
本文用于企业家、创业者技术爱好者查询,结果仅供参考。