技术特征:
1.一种发音评价方法,其特征在于,所述方法包括:
向用户展示例句文本;
采集用户基于所述例句文本朗读的待评价音频;
生成反映所述用户朗读所述例句文本时的发音器官的动作的发音器官动作视频;
基于所述发音器官动作视频和所述例句文本对应的发音器官标准动作视频生成发音评价信息;
向所述用户展示所述发音评价信息。
2.根据权利要求1所述的方法,其特征在于,所述发音评价信息包括对所述用户的发音打分信息、发音动作建议信息、所述发音器官动作视频与所述发音器官标准动作视频的对比视频中的至少一者。
3.根据权利要求1所述的方法,其特征在于,所述向用户展示例句文本,包括:
基于所述例句文本生成例句音频;
将所述例句音频与所述发音器官标准动作视频合成为例句演示视频;
向用户展示例句文本和所述例句演示视频。
4.根据权利要求2所述的方法,其特征在于,在所述发音评价信息包括所述发音打分信息和/或所述发音动作建议信息的情况下,所述基于所述发音器官动作视频和所述例句文本对应的发音器官标准动作视频生成发音评价信息,包括:
通过对比所述发音器官动作视频和所述例句文本对应的发音器官标准动作视频,得到动作差异信息;
根据所述动作差异信息生成发音打分信息,和/或,根据所述动作差异信息与预设的发音动作建议信息进行匹配,得到与所述动作差异信息相匹配的目标动作建议信息。
5.根据权利要求2所述的方法,其特征在于,所述对比视频是通过以下的方式生成的:
基于例句文本的单位文本内容,将所述发音器官动作视频和所述发音器官标准动作视频中表征同一单位文本内容的视频片段作为一组视频片段组;
将各视频片段组中属于所述发音器官动作视频和所述发音器官标准动作视频的视频片段进行对齐;
将对齐后的所述发音器官动作视频和所述发音器官标准动作视频拼接,得到所述对比视频。
6.根据权利要求1所述的方法,其特征在于,所述生成反映所述用户朗读所述例句文本时的发音器官的动作的发音器官动作视频,包括:将所述待评价音频转换成待处理音频特征向量;
将所述待处理音频特征向量输入视频生成模型,得到所述视频生成模型输出的与所述待评价音频对应的发音器官动作视频;
其中,所述视频生成模型是通过如下方式训练得到的:
根据样本音频以及与所述样本音频对应的样本发音器官动作视频构建模型训练数据;
根据所述模型训练数据训练得到所述视频生成模型。
7.根据权利要求1所述的方法,其特征在于,所述发音器官标准动作视频是通过以下方式生成的:
将所述例句文本分割为单位文本序列;
将所述单位文本序列输入视频特征生成模型,得到视频特征序列;
基于所述视频特征序列生成发音器官标准动作视频;
其中,所述视频特征生成模型是通过如下方式训练得到的:
将样本文本分割为样本单位文本序列;
根据样本单位文本序列以及与所述样本单位文本序列对应的样本发音器官动作视频的样本视频特征序列构建模型训练数据;
根据所述模型训练数据训练得到所述视频特征生成模型。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述发音器官动作视频和所述发音器官标准动作视频为基于核磁共振mri视频生成的发音器官动画视频,所述方法还包括:
通过动画生成模型,逐帧对所述发音器官动作视频或所述发音器官标准动作视频进行渲染,得到发音器官动画视频;
其中,所述动画生成模型的训练样本包括多张mri样本图像和各mri样本图像对应的动画发音器官图,所述动画生成模型的训练样本是通过以下方式得到的:
确定各mri样本图像中的发音器官的位置;
在各mri样本图像中的发音器官的位置,生成与所述发音器官的位置对应的动画发音器官,得到动画发音器官图。
9.一种发音评价装置,其特征在于,所述装置包括:
例句展示模块,用于向用户展示例句文本;
音频采集模块,用于采集用户基于所述例句文本朗读的待评价音频;
视频生成模块,用于生成反映所述用户朗读所述例句文本时的发音器官的动作的发音器官动作视频;
发音评价模块,用于基于所述发音器官动作视频和所述例句文本对应的发音器官标准动作视频生成发音评价信息;
评价展示模块,用于向所述用户展示所述发音评价信息。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-8中任一项所述方法的步骤。
11.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
技术总结
本公开涉及一种发音评价方法和装置、存储介质和电子设备,所述方法包括向用户展示例句文本;采集用户基于所述例句文本朗读的待评价音频;生成反映所述用户朗读所述例句文本时的发音器官的动作的发音器官动作视频;基于所述发音器官动作视频和所述例句文本对应的发音器官标准动作视频生成发音评价信息;向所述用户展示所述发音评价信息。本公开可以准确地对用户的发音进行评价,并直观地体现用户的发音是否准确。
技术研发人员:顾宇;马泽君
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2021.03.19
技术公布日:2021.07.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。