农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种应用于多人混杂场景下的模糊语句识别方法及系统与流程

2021-08-06 18:27:00 来源：中国专利 TAG：人工智能应用于混杂语句识别

技术特征：

1.一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，包括以下步骤：

s1、实时采集语音信号并转化为模糊语句文本并进行预处理；

s2、使用端到端拼音级文本纠错模型对所述模糊语句文本进行拼音级文本纠错，以获取拼音级无错文本；

s3、对所述拼音级无错文本进行语义级文本错误检测，以获取出错字体的位置；

s4、对文本进行语义级纠正，以获取到语义清晰的文本。

2.根据权利要求1所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，所述端到端拼音级文本纠错模型包括拼音纠错预训练模型和拼音转汉字预训练模型；所述拼音纠错预训练模型通过全连接层与所述拼音转汉字预训练模型相连，构成端到端拼音级文本纠错模型；

拼音纠错预训练模型和拼音转汉字预训练模型均包括拼音嵌入层和多个编码器；

所述拼音纠错预训练模型使用模糊音数据进行训练；

所述拼音转汉字预训练模型使用拼音-汉字数据进行训练；所述模糊音数据和拼音-汉字数据均从现代汉语词典中挑选得到。

3.根据权利要求2所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，所述拼音纠错预训练模型的拼音嵌入层，具体为：在拼音字典中查询文本中的词组对应的拼音；若能够查询到词组对应的拼音，则记录查询结果；若无法查询到词组对应的拼音，则将对应词组的语音信息转化为拼音并记录。

4.根据权利要求3所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，所述拼音纠错预训练模型将文本转化为拼音包括以下步骤：

a、设需要转化为拼音的文本为s，则有：

其中，wn是文本中的词组，n是文本中的词组个数；

s＝(w1，w2，…,wi…,wn)

b、根据词语字典dictionary，查询词组wi对应的拼音

其中，i是词组的序号；

c、根据词组的语音信息ti，在数据库database中匹配对应的拼音

d、当步骤b无法查询到词组的拼音时，使用步骤c的匹配结果作为词组的拼音，即：

其中，μ表示词组wi对应的拼音是否在词语字典dictionary中，yⁱ是词组的拼音；

e、i变为i 1，重复步骤b～步骤d。

5.根据权利要求4所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，所述拼音纠错预训练模型的编码器包括单头自注意力层和全连接层，具体拼音纠错包括以下步骤：

1)、将拼音嵌入层输出的拼音向量ei与拼音位置向量ki相加，作为编码器的输入向量xi：

xi＝ei ki

其中，n为句子中字的个数，xn为句子中每一个字的向量表示，x为输入句子的矩阵表示；

2)、根据单头自注意力机制计算输入矩阵x内部向量的关联矩阵z：

q＝xw^q

k＝xw^k

v＝xw^v

z＝attention(q,k,v)×w^o

其中，w^q、w^k、w^v、w^o为随机初始化的矩阵，通过训练迭代调整，q表示查询矩阵，k表示关键词矩阵，v表示值矩阵；

3)、将关联矩阵z与输入矩阵x相加，然后使用layernorm(层归一化)函数进行层归一化：

z＝layernorm(z x)

4)、将层归一化后的关联矩阵z输入全连接层,对全连接层的输出t再进行层归一化得到矩阵y：

t＝zw^f b^f

y＝layernorm(t)

其中，w^f是全连接层的权重矩阵，b^f是全连接层的偏置向量；

5)、若当前编码器不是最后一个编码器，则将矩阵y输入下个编码器，重复步骤b～步骤d；若当前编码器是最后一个编码器，则将编码器输出连接softmax层，得到拼音纠错结果。

6.根据权利要求5所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，所述语义级错误检测预训练模型包括双向连接的长短时记忆网络；所述双向连接的长短时记忆网络使用普通文本以及领域相关知识文本进行无监督训练；所述条件随机场层使用带有标注信息的文本进行有监督训练。

7.根据权利要求6所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，双向连接的长短时记忆网络为：

it＝σ(wi·[ht-1,xt] bi)

ft＝σ(wf·[ht-1,xt] bf)

ot＝σ(wo·[ht-1,xt] bo)

ct＝ft·ct-1 it·tanh(wc·[ht-1,xt] bc)

ht＝ot·tanh(ct)

其中，it、ft、ot、ct分别表示t时刻输入门，遗忘门，输出门和lstm单元的输出，xt表示t时刻的输入向量，ht-1表示t-1时刻的隐藏层向量，ht表示t时刻的隐藏层向量，σ表示sigmoid激活函数，wi和bi表示输入门结构中的权值矩阵和偏置向量，wf和bf表示遗忘门结构中的权值矩阵和偏置向量，wo和bo表示输出门结构中的权值矩阵和偏置向量，wc和bc表示权重矩阵和偏置向量属于遗忘门结构中的权值矩阵和偏置向量；

双向连接的lstm网络有两个方向相反的并行层，其在t时刻的输出ct为：

其中表示正向连接的lstm单元在t时刻的输出，表示反向连接的lstm单元在t时刻的输出；

所述双向连接的长短时记忆网络与条件随机场层相连，以获取文本中每个字的出错概率，具体为：

结合双向连接的长短时记忆网络与条件随机场，根据词序列x以及双向lstm网络输出的标注序列y＝(y1,y2,…,yn)，预测错误检测结果s(x,y)：

其中，a为状态转移矩阵，为从时刻i的状态转移到时刻i 1的状态的概率，通过训练迭代调整；表示双向连接的长短时记忆网络将第i个词预测为第j个标注的概率；yn表示双向连接的长短时记忆网络在词序列x中的每个词输出的标注。

8.根据权利要求7所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，所述对文本进行语义级纠正，包括以下步骤：

获取经过步骤s2和步骤s3得到的文本；

根据步骤s3错误检测的结果，对每个出错概率超过阈值的字分别进行遮掩处理；

将所述经过遮掩处理的文本输入到knowledge-roberta预训练模型中，knowledge-roberta预训练模型将预测字典中所有字出现在被遮掩位置的概率；

判断所述被遮掩的字在knowledge-roberta预训练模型预测结果中的概率值是否大于或等于设定的阈值；若大于或等于设定的阈值，则保留被遮掩的字；若低于设定的阈值，则进一步判断模型预测结果中最高概率值是否大于或等于设定的阈值；

若所述最高概率值大于或等于设定的阈值，则将被遮掩的字替换为最高概率值对应的字；若所述最高概率值小于设定的阈值，则将被遮掩的字删除。

9.根据权利要求8所述的一种应用于多人混杂场景下的模糊语句识别方法，其特征在于，所述knowledge-roberta预训练模型，包括：对普通鲁棒优化的bert预训练模型的注意力机制进行修改，引入计算知识距离的函数kdistance；知识距离的大小与两个词在知识图谱中的欧式距离成正比；当两个词在知识图谱中的欧式距离接近0时，知识距离接近0；当两个词在知识图谱中的欧式距离大于设定的阈值时，知识距离接近无穷大。

10.根据权利要求9所述的一种应用于多人混杂场景下的模糊语句识别方法的系统，其特征在于，包括：

语句采集模块，用于采集语音信号并将其转化为文字；

拼音级文本纠错模块，用于检测文本中的同音和近音字错误并修正；

语义级文本纠错模块，用于检测文本中的多余字和被错误使用字并修正；

输出模块，用于将识别后的语义清晰准确的文本输出。

技术总结
本发明公开了一种应用于多人混杂场景下的模糊语句识别方法及系统，所述方法包括以下步骤：S1、实时采集语音信号并转化为模糊语句文本并进行预处理；S2、使用端到端拼音级文本纠错模型对所述模糊语句文本进行拼音级文本纠错，以获取拼音级无错文本；S3、对所述拼音级无错文本进行语义级文本错误检测，以获取出错字体的位置；S4、对文本进行语义级纠正，以获取到语义清晰的文本。本发明可以通过自动拼音级文本纠错、语义级文本纠错从模糊语句文本中恢复出语义清晰的文本，在多人混杂场景中更准确地识别出用户语句。

技术研发人员：何克晶;李俊仪
受保护的技术使用者：华南理工大学
技术研发日：2021.04.28
技术公布日：2021.08.06

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种合成语音的评测方法、装置和设备与流程

一种应用于多人混杂场景下的模糊语句识别方法及系统与流程

相关文章

最热文献