技术特征:
1.语音识别文本的纠错方法,其特征在于,包括:
获取语音解码输出的待处理文本;
调用检错模型处理所述待处理文本,得到出错目标字和出错目标字对应的置信度topk候选字集;
根据所述出错目标字和所述置信度topk候选字集,对所述待处理文本进行纠错,得到第一纠错结果;
根据名词处理模型和所述第一纠错结果,得到出错目标词、目标词类别和名词集合数据;
根据所述出错目标词、所述目标词类别和所述名词集合数据,处理所述第一纠错结果,得到第二纠错结果;
输出所述第二纠错结果,得到纠错后的最终文本;
其中,k为正整数。
2.根据权利要求1所述的方法,其特征在于,调用检错模型处理所述待处理文本,得到出错目标字和出错目标字对应的置信度topk候选字集,具体包括:
根据bert模型,训练得到检错模型;
调用所述检错模型计算待处理文本中每个字的候选字集及候选字集中每个候选字对应的置信度;
按照所述置信度高低排序,选取置信度排在前k位的候选字组成topk候选字集;
匹配所述字和所述置信度topk候选字集;
当所述字匹配不到所述置信度topk候选字集时,对所述字进行出错标记,得到标记结果;
根据所述标记结果,得到的出错目标字和出错目标字对应的置信度topk候选字集。
3.根据权利要求2所述的方法,其特征在于,根据bert模型,训练得到检错模型,具体包括:
训练bert模型;
对所述训练的bert模型进行模型蒸馏,得到检错模型;
其中,所述检错模型为3层的bert模型。
4.根据权利要求1所述的方法,其特征在于,根据所述出错目标字和所述置信度topk候选字集,对所述待处理文本进行纠错,得到第一纠错结果,具体包括:
计算所述出错目标字和所述置信度topk候选字集中候选字的相似度值,得到相似度topn候选字集;
用所述相似度topn候选字集中的候选字分别替换所述出错目标字,得到n个替换后的待纠错语句;
分别计算所述n个待纠错语句的通顺度值,得到n个通顺度ppl值;
选取所述n个通顺度ppl值中最小值,得到最小ppl值;
选取所述最小ppl值对应的候选字,得到替换字;
用所述替换字替换所述出错目标字,得到第一纠错结果;
其中,n为正整数,n小于k。
5.根据权利要求4所述的方法,其特征在于,计算所述出错目标字和所述置信度topk候选字集中候选字的相似度值,得到相似度topn候选字集,具体包括:
根据相似度计算方法,计算所述出错目标字和所述置信度topk候选字集中候选字的相似度值,得到k个相似度值;
对所述k个候选字集按照相似度值从大到小排序,得到相似度值序列;
选取所述相似度值序列中前n个相似度值对应的候选字,得到相似度topn候选字集;
其中,所述相似度计算方法采用字的拼音的声韵母编辑距离加权计算方法。
6.根据权利要求1所述的方法,其特征在于,根据名词处理模型和所述第一纠错结果,得到出错目标词、目标词类别和名词集合数据,具体包括:
调用名词处理模型,构建按照名词类别存储名词的名词集合数据;
调用名词处理模型处理所述第一纠错结果,得到出错目标词和目标词类别;
其中,所述名词处理模型为bert-bilstm-crf模型;
所述名词集合数据包括名词类别为所述目标词类别的名词子集合。
7.根据权利要求1所述的方法,其特征在于,根据所述出错目标词、所述目标词类别和所述名词集合数据,处理所述第一纠错结果,得到第二纠错结果,具体包括:
确定所述出错目标词的名词类别,得到出错目标词类别;
当所述出错目标词类别属于所述目标词类别时,确定所述出错目标词类别在所述名词集合数据中对应的名词子集合;
根据所述出错目标词的第一个字的声母相似度,在所述名词子集合中选择对应名词,得到声母相似集合;
根据所述出错目标词的第一个字的韵母相似度,在所述声母相似集合中得到所述出错目标词的第一个字最相似的候选名词集合;
用所述出错目标词的剩下每个字匹配所述候选名词集合中剩下的字,得到相似度值;
当所述相似度值大于预设的相似度阈值时,在所述候选名词集合中得到最优候选词;
用所述最优候选词替换所述出错目标词,得到第二纠错结果。
8.根据权利要求1所述的方法,其特征在于,根据所述出错目标词、所述目标词类别和所述名词集合数据,处理所述第一纠错结果,得到第二纠错结果,具体包括:
确定所述出错目标词的名词类别,得到出错目标词类别;
当所述出错目标词类别属于所述目标词类别时,确定所述出错目标词类别在所述名词集合数据中对应的名词子集合;
根据所述出错目标词的第一个字的声母相似度,在所述名词子集合中选择对应名词,得到声母相似集合;
根据所述出错目标词的第一个字的韵母相似度,在所述声母相似集合中得到所述出错目标词的第一个字最相似的候选名词集合;
用所述出错目标词的剩下每个字匹配所述候选名词集合中剩下的字,得到相似度值;
当所述相似度值小于预设的相似度阈值时,根据预置的字典库构建所述出错目标词的候选词集;
用所述候选词集中的候选词分别替换所述出错目标词,得到候选词待纠错语句集合;
分别计算所述候选词待纠错语句集合中语句的通顺度ppl值,得到语句通顺度值集合;
选取所述语句通顺度值集合中通顺度ppl最小的值,得到最小ppl语句通顺度值;
选取所述最小ppl语句通顺度值对应的所述候选词集中的候选词,得到最优候选词;
用所述最优候选词替换所述出错目标词,得到第二纠错结果。
9.根据权利要求1所述的方法,其特征在于,根据所述出错目标词、所述目标词类别和所述名词集合数据,处理所述第一纠错结果,得到第二纠错结果,具体包括:
确定所述出错目标词的名词类别,得到出错目标词类别;
当所述出错目标词类别不属于所述目标词类别时,根据预置的字典库构建所述出错目标词的候选词集;
用所述候选词集中的候选词分别替换所述出错目标词,得到候选词待纠错语句集合;
分别计算所述候选词待纠错语句集合中语句的通顺度ppl值,得到语句通顺度值集合;
选取所述语句通顺度值集合中通顺度ppl最小的值,得到最小ppl语句通顺度值;
选取所述最小ppl语句通顺度值对应的所述候选词集中的候选词,得到最优候选词;
用所述最优候选词替换所述出错目标词,得到第二纠错结果。
10.根据权利要求8或9中任一项所述的方法,其特征在于,根据预置的字典库构建所述出错目标词的候选词集,具体包括:
在预置的字典库中分别选择所述出错目标词的每个字对应的m个最相似字;
分别组合所述出错目标词的每个字对应的所述m个最相似字,得到所述出错目标词的每个字对应的相似字候选集合;
按照所述出错目标词中每个字的顺序串联所述相似字候选集合中的候选字,得到所述出错目标词的候选词集;
其中,m为正整数。
技术总结
本申请公开了一种语音识别文本的纠错方法。所述方法,包括:获取语音解码输出的待处理文本;调用检错模型处理所述待处理文本,得到出错目标字和出错目标字对应的置信度TopK候选字集;根据所述出错目标字和所述置信度TopK候选字集,对所述待处理文本进行纠错,得到第一纠错结果;根据名词处理模型和所述第一纠错结果,得到出错目标词、目标词类别和名词集合数据;根据所述出错目标词、所述目标词类别和所述名词集合数据,处理所述第一纠错结果,得到第二纠错结果;输出所述第二纠错结果,得到纠错后的最终文本;其中,K为正整数。通过用语言模型对语音解码输出的待处理文本进行处理,能够更好实现对语音识别文本的纠错。
技术研发人员:沈来信;穆瑞斌;贾师惠;孙明东;董军华
受保护的技术使用者:北京华宇信息技术有限公司
技术研发日:2021.04.01
技术公布日:2021.08.03
本文用于企业家、创业者技术爱好者查询,结果仅供参考。