技术特征:
1.一种针对小语种口语发音评价方法,其特征在于,包括:
获取目标文本、发音词典以及用户依据目标文本做出的朗读音频,并对所述朗读音频进行预处理,得到目标语音数据;
利用预先训练的语音识别模型,一方面对所述目标语音数据进行解码处理,生成音素解码结果,另一方面对所述目标语音数据进行基于目标文本的强制对齐处理,获取音素的对齐结果;
对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;
对目标语音数据进行音高分析,得到音高分析结果;
基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;
对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。
2.根据权利要求1所述的针对小语种口语发音评价方法,其特征在于,所述基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分,包括根据以下公式计算音素准确度得分:
cost_per_framealign=-log(p(f|qi))
其中,si为音素发音准确度得分,nf(o)为口语朗读音频包含的语音帧数量,fis为起始帧号,fie为终止帧号,
p(f|qi)的含义是给定音素qi,在该帧发音为f的对数似然函数值,
3.根据权利要求1所述的针对小语种口语发音评价方法,其特征在于,所述基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分,包括:
根据音素的对齐结果得到各个音拍在音频中的起止时间;
计算每个音拍的音高,获取音高特征曲线;
根据各个音拍在音频中的起止时间和所述音高特征曲线,算出各个音拍起止时间内的平均音高;
通过分析句尾的若干个音拍的平均音高来判断句子是平调或者是升调,并与预先配置的语调信息相比较,根据比较结果给出朗读音频的语调得分。
4.根据权利要求3所述的针对小语种口语发音评价方法,其特征在于,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的声调得分,包括:
获取朗读音频中每个单词内所有音拍的音高信息,和预先配置的单词声调相比较,根据比较结果给出朗读音频的声调得分。
5.根据权利要求1所述的针对小语种口语发音评价方法,其特征在于,对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到发音评价结果,包括:
对所述第一评价结果和第三评价结果进行加权处理,获得单词发音得分;
计算句子中所有单词发音得分的平均值作为句子发音得分;
将句子发音得分与第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。
6.根据权利要求1所述的针对小语种口语发音评价方法,其特征在于,还包括:根据音素对齐结果获取朗读音频的完整度得分作为发音第四评价结果;
相应的,对所述第一评价结果、第二评价结果、第三评价结果和第四评价结果进行融合处理,得到句子发音总得分。
7.根据权利要求6所述的针对小语种口语发音评价方法,其特征在于,还包括:根据音素对齐结果获取朗读音频的流利度得分作为发音第五评价结果;
相应的,对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果和第五评价结果进行融合处理,得到句子发音总得分。
8.根据权利要求7所述的针对小语种口语发音评价方法,其特征在于,还包括:根据音素对齐结果获取朗读音频的断句得分作为发音第六评价结果;
相应的,对所述第一评价结果、第二评价结果、第三评价结果、第四评价结果、第五评价结果和第六评价结果进行融合处理,得到句子发音总得分。
9.一种针对小语种口语发音评价装置,其特征在于,包括:
获取单元,用于获取目标文本、发音词典以及用户依据目标文本做出的朗读音频,并对所述朗读音频进行预处理,得到目标语音数据;
第一处理单元,用于利用预先训练的语音识别模型,一方面对所述目标语音数据进行解码处理,生成音素解码结果,另一方面对所述目标语音数据进行基于目标文本的强制对齐处理,获取音素的对齐结果;
第二处理单元,用于对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;
第二处理单元,用于对目标语音数据进行音高分析,得到音高分析结果;
评价单元,用于基于音素解码结果以及音素对齐结果获取朗读音频的准确度得分作为发音第一评价结果,基于音素的对齐结果、音拍分析结果及音高分析结果获取朗读音频的语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;
融合单元,对所述第一评价结果、第二评价结果和第三评价结果进行融合处理,得到句子发音总得分。
10.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序,其特征在于,所述处理器通过所述计算机程序运行执行所述权利要求1至8中任一项权利要求所述的方法。
技术总结
本发明提供一种针对小语种口语发音评价方法、系统及存储介质。方法包括:获取目标文本、发音词典以及用户依据目标文本做出的朗读音频;利用语音识别模型,生成音素解码结果和音素的对齐结果;对目标文本进行基于所述语种发音特征的音拍分析,得到音拍分析结果;对目标语音数据进行音高分析,得到音高分析结果;获取朗读音频的准确度得分、语调得分和声调得分,将所述语调得分作为发音第二评价结果,将所述声调得分作为发音第三评价结果;对所述准确度得分、语调得分和声调得分进行融合处理,得到句子发音总得分。本发明针对小语种发音特点,从准确度、完整度、流利度、断句、声调、语调等多个不同维度对语音进行计算和分析,获得评价结果。
技术研发人员:杨海斌;徐敏
受保护的技术使用者:早道(大连)教育科技有限公司
技术研发日:2021.02.02
技术公布日:2021.06.15
本文用于企业家、创业者技术爱好者查询,结果仅供参考。