一种语音识别模型的训练、语音识别方法及装置

2022-11-28 10:01:55 来源：中国专利 TAG：

1.本发明涉及语音识别技术领域，具体涉及一种语音识别模型的训练、语音识别方法及装置。

背景技术：

2.语音识别是当前人工智能研究的热点，其涉及的场景包括智能家居，智能问答以及智能客服等领域。随着人们对便捷生活诉求的增加，语音识别技术正不断地发展和完善。
3.目前，现有的智能语音识别模型基本以标准普通话为训练样本，针对存在口音的普通话存在识别准确率较低的情况，同时，识别的同时，忽略了用户原本的情感状态，容易造成所表达意思的偏颇，用户的体验感较差。

技术实现要素：

4.为解决上述问题，本发明提供了一种语音识别模型的训练、语音识别方法及装置，可以显著提高带口音的普通话的识别准确率，同时引入情感描述特征，可以尽可能的避免表达意思出现偏颇的情况。
5.为实现上述目的，本发明采取的技术方案为：
6.一种语音识别模型的训练方法，包括如下步骤：
7.s1、构建包括基础情感词词组、程度词词组、否定和双否定词词组、转折词词组的情感词词典；
8.s2、基于情感词词典和标准普通话语音大数据训练构建以普通话文本情感描述为输出项的语音识别模型。
9.进一步地，基于预设的模板完成用户口音特征的识别，然后根据用户口音特征实现所述的语音识别模型微调的步骤。
10.进一步地，基于预设的模板实现用户音频数据的采集，基于用户音频数据的分析获取用户口音特征，然后构建用户口音特征与标准普通话之间的关联关系，基于该关联关系构建语音校正模型，基于语音校正模型与所述语音识别模型的串联生成新的语音识别模型。
11.进一步地，所述步骤s1中，首先基于爬虫模块在预设的网络基站上定向采集大规模文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模文本进行处理,然后从中自动抽取情感词、程度词、否定和双否定词、转折词，用人工和机器学习相结合的方式构建情感词词典。
12.进一步地，所述步骤s2中，首先基于情感词词典对标准普通话语音大数据进行自动标注,生成标注语料，然后以标注语料及其对应的普通话文本情感描述为训练数据训练构建语音识别模型。
13.本发明还提供了一种语音识别方法，采用上述的训练方法训练所得的语音识别模型实现语音的识别，包括如下步骤：
14.s1、基于预设的模板完成用户口音特征的识别，然后根据用户口音特征实现所述的语音识别模型微调，生成新的语音识别模型；
15.s2、基于所述新的语音识别模型实现用户语音的识别，将其转换成普通话文本情感描述的格式。
16.本实施例中还提供了一种语音识别装置，采用上述的语音识别方法实现用户语音的识别。
17.本发明具有以下有益效果：
18.可以显著提高带口音的普通话的识别准确率，从而得到个性化的语音识别模型，识别准确率达97.6％左右。
19.引入情感描述特征，可以尽可能的避免表达意思出现偏颇的情况，从而大大提高用户体验感。
附图说明
20.图1为本发明实施例1一种语音识别模型的训练方法的流程图。
21.图2为本发明实施例2一种语音识别方法的流程图。
具体实施方式
22.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。
23.实施例1
24.如图1所示，一种语音识别模型的训练方法，包括如下步骤：
25.s1、构建包括基础情感词词组、程度词词组、否定和双否定词词组、转折词词组的情感词词典；具体地，首先基于爬虫模块在预设的网络基站上定向采集大规模文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模文本进行处理,然后从中自动抽取情感词、程度词、否定和双否定词、转折词，用人工和机器学习相结合的方式构建情感词词典；
26.s2、基于情感词词典和标准普通话语音大数据训练构建以普通话文本情感描述为输出项的语音识别模型；具体地，首先基于情感词词典对标准普通话语音大数据进行自动标注,生成标注语料，然后以标注语料及其对应的普通话文本情感描述为训练数据训练构建语音识别模型；
27.s3、基于预设的模板完成用户口音特征的识别，然后根据用户口音特征实现所述的语音识别模型微调；具体地，基于预设的模板实现用户音频数据的采集，基于用户音频数据的分析获取用户口音特征，然后构建用户口音特征与标准普通话之间的关联关系，基于该关联关系构建语音校正模型，基于语音校正模型与所述语音识别模型的串联生成新的语音识别模型。
28.实施例2
29.如图2所示，一种语音识别方法，采用实施例1所述的训练方法训练所得的语音识
别模型实现语音的识别，包括如下步骤：
30.s1、基于预设的模板完成用户口音特征的识别，然后根据用户口音特征实现所述的语音识别模型微调，生成新的语音识别模型；具体地，系统初始化时，用户需要根据预设的模板完成对应音频数据的录制，一般的预设的模板内需包括至少20条常用词语条目和20条易携带口音文本条目，录制完成后，调用预设的数据分析程序获取用户口音特征，并构建用户口音特征与标准普通话之间的关联关系，最后基于该关联关系构建语音校正模型，基于语音校正模型与所述语音识别模型的串联生成新的语音识别模型；
31.s2、基于所述新的语音识别模型实现用户语音的识别，将其转换成普通话文本情感描述的格式。
32.实施例3
33.一种语音识别装置，包括装置本体以及内载于装置本体内的语音识别系统，该语音识别系统基于实施例2所述的语音识别方法实现用户语音的识别。
34.以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

技术特征：
1.一种语音识别模型的训练方法，其特征在于：包括如下步骤：s1、构建包括基础情感词词组、程度词词组、否定和双否定词词组、转折词词组的情感词词典；s2、基于情感词词典和标准普通话语音大数据训练构建以普通话文本情感描述为输出项的语音识别模型。2.如权利要求1所述的一种语音识别模型的训练方法，其特征在于：还包括：基于预设的模板完成用户口音特征的识别，然后根据用户口音特征实现所述的语音识别模型微调的步骤。3.如权利要求2所述的一种语音识别模型的训练方法，其特征在于：基于预设的模板实现用户音频数据的采集，基于用户音频数据的分析获取用户口音特征，然后构建用户口音特征与标准普通话之间的关联关系，基于该关联关系构建语音校正模型，基于语音校正模型与所述语音识别模型的串联生成新的语音识别模型。4.如权利要求1所述的一种语音识别模型的训练方法，其特征在于：所述步骤s1中，首先基于爬虫模块在预设的网络基站上定向采集大规模文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模文本进行处理,然后从中自动抽取情感词、程度词、否定和双否定词、转折词，用人工和机器学习相结合的方式构建情感词词典。5.如权利要求1所述的一种语音识别模型的训练方法，其特征在于：还包括：所述步骤s2中，首先基于情感词词典对标准普通话语音大数据进行自动标注,生成标注语料，然后以标注语料及其对应的普通话文本情感描述为训练数据训练构建语音识别模型。6.一种语音识别方法，其特征在于：采用如权利要求1-5任一项所述的训练方法训练所得的语音识别模型实现语音的识别。7.如权利要求6所述的一种语音识别方法，其特征在于：包括如下步骤：s1、基于预设的模板完成用户口音特征的识别，然后根据用户口音特征实现所述的语音识别模型微调，生成新的语音识别模型；s2、基于所述新的语音识别模型实现用户语音的识别，将其转换成普通话文本情感描述的格式。8.一种语音识别装置，其特征在于：采用如权利要求6-7任一项所述的语音识别方法实现用户语音的识别。

技术总结
本发明涉及语音识别技术领域，具体涉及一种语音识别模型的训练、语音识别方法及装置，该训练方法，包括如下步骤：S1、构建包括基础情感词词组、程度词词组、否定和双否定词词组、转折词词组的情感词词典；S2、基于情感词词典和标准普通话语音大数据训练构建以普通话文本情感描述为输出项的语音识别模型。本发明可以显著提高带口音的普通话的识别准确率，从而得到个性化的语音识别模型，识别准确率达97.6％左右；引入情感描述特征，可以尽可能的避免表达意思出现偏颇的情况，从而大大提高用户体验感。感。感。

技术研发人员：谭萍
受保护的技术使用者：兰州文理学院
技术研发日：2022.08.29
技术公布日：2022/11/25

再多了解一些

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于音频渲染的预渲染信号的方法、设备和系统与流程

一种语音识别模型的训练、语音识别方法及装置

相关文献

最热文献