结合语音信息的口语理解方法、装置、设备及存储介质与流程

2022-02-22 20:35:50 来源：中国专利 TAG：

技术特征：
1.一种结合语音信息的口语理解方法，其特征在于，所述方法包括：获取口语语音数据及所述口语语音数据对应的文本数据；利用预设的分词器对所述文本数据进行字符分词，得到字符序列，利用预设的n个分词器对所述文本数据进行分词，得到n个词语序列，利用投票机制，从所述n个词语序列中选取目标词语序列，其中所述n为大于等于2的自然数；获取训练得到的口语理解模型，其中所述口语理解模型包括编码层、融合层、意图识别任务层及语义槽填充任务层;利用所述编码层对所述字符序列、所述目标词语序列及口语语音数据进行编码，得到字符编码序列、词语编码序列、语音特征向量；利用所述融合层，基于注意力机制，对所述字符编码序列、词语编码序列及语音特征向量进行融合，得到融合向量；利用所述意图识别任务层对所述融合向量进行分类，得到意图标签；利用所述语义槽填充任务层对所述字符编码序列及所述词语编码序列进行预测，得到槽位标签。2.如权利要求1所述的结合语音信息的口语理解方法，其特征在于，所述利用所述编码层对所述字符序列、所述目标词语序列及口语语音数据进行编码，得到字符编码序列、词语编码序列、语音特征向量,包括：利用预设的字符编码器、预设的词语编码器、预设的语音编码器构建编码层；利用所述字符编码器对所述字符序列进行编码，得到字符编码序列；利用所述词语编码器对所述目标词语序列进行编码，得到词语编码序列；利用所述语音编码器对所述口语语音数据进行编码，得到语音特征向量。3.如权利要求2所述的结合语音信息的口语理解方法，其特征在于，所述利用所述词语编码器对所述目标词语序列进行编码，得到词语编码序列，包括：利用预设的自注意力机制模块及预设的双向长短期记忆网络构建所述词语编码器；利用所述自注意力机制模块抽取所述目标词语序列的上下文信息；利用所述双向长短期记忆网络获取所述目标词语序列的顺序信息；对所述上下文信息及所述顺序信息进行全连接处理，得到词语编码序列。4.如权利要求2所述的结合语音信息的口语理解方法，其特征在于，所述利用所述语音编码器对所述口语语音数据进行编码，得到语音特征向量，包括：在所述语音编码器中，对所述口语语音数据利用高通滤波器进行预加重处理；对所述预加重处理后的口语语音数据进行分帧加窗处理得到，得到加窗语音帧；对所述加窗语音帧进行快速傅立叶变换，得到对应的能量谱；利用三角带通滤波器对所述能量谱，进行频谱平滑及消除谐波，得到优化后的能量谱；计算所述优化后的能量谱的对数能量谱，对所述对数能量谱进行离散余弦变换，得到语音特征参数，并提取所述语音特征参数的一阶、二阶动态差分参数作为语音特征向量。5.如权利要求1至4中任一项所述的结合语音信息的口语理解方法，其特征在于，所述利用所述融合层，基于注意力机制，对所述字符编码序列、词语编码序列及语音特征向量进行融合，得到融合向量，包括：利用注意力模块及神经网络构建所述融合层；
利用所述注意力模块分别提取所述字符编码序列的字符综合表示向量，及所述词语编码序列的词语综合表示向量；利用所述神经网络中预设的融合函数对所述字符综合表示向量、所述词语综合表示向量及所述语音特征向量进行融合，得到融合向量。6.如权利要求1所述的结合语音信息的口语理解方法，其特征在于，所述利用所述意图识别任务层对所述融合向量进行分类，得到意图标签，包括：对所述融合向量进行横向等宽度切分成特征序列；利用所述意图识别任务层中的循环层对所述融合向量进行预测，得到所述特征序列的初步标签序列；利用所述意图识别任务层中的时间连接分类器对所述初步标签序列进行分类，得到所述文本数据及口语语音数据的意图标签。7.如权利要求1所述的结合语音信息的口语理解方法，其特征在于，所述利用所述语义槽填充任务层对所述字符编码序列及所述词语编码序列进行预测，得到槽位标签，包括：利用所述语义槽填充任务层中预设的字符解码器对所述字符编码序列进行解码，得到每个槽位的字符隐状态；利用所述语义槽填充任务层中预设的词语解码器对所述词语编码序列进行解码，得到每个槽位的词语隐状态；利用预设的融合函数将所述字符隐状态及词语隐状态进行融合，得到槽位隐状态；利用所述语义槽填充任务层中预设的分类器对所述槽位隐状态进行分类，得到槽位标签。8.如权利要求1所述的方法，其特征在于，所述获取训练得到的口语理解模型之前，所述方法还包括：联合所述意图标签及所述槽位标签的损失值来训练所述口语理解模型，利用如下公式计算所述损失值：其中，表示比例系数；取值在0到1之间；表示正确的意图标签；表示所述预测的意图标签；表示第i个槽位的正确的槽位标签；表示第i个槽位的预测的槽位标签。9.一种结合语音信息的口语理解装置，其特征在于，所述装置包括：分词模块，用于获取文本数据及口语语音数据；利用预设的分词器对所述文本数据进行字符分词，得到字符序列，利用预设的n个分词器对所述文本数据进行分词，得到n个词语序列，利用投票机制，从所述n个词语序列中选取目标词语序列，其中所述n为大于等于2的自然数；编码模块，用于获取训练得到的口语理解模型，其中所述口语理解模型包括编码层、融合层、意图识别任务层及语义槽填充任务层;利用所述编码层对所述字符序列、所述目标词
语序列及口语语音数据进行编码，得到字符编码序列、词语编码序列、语音特征向量；融合模块，用于利用所述融合层，基于注意力机制，对所述字符编码序列、词语编码序列及语音特征向量进行融合，得到融合向量；意图识别模块，用于利用所述意图识别任务层对所述融合向量进行分类，得到意图标签；语义槽填充模块，用于利用所述语义槽填充任务层对所述字符编码序列及所述词语编码序列进行预测，得到槽位标签。10.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的结合语音信息的口语理解方法。11.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的结合语音信息的口语理解方法。

技术总结
本发明涉及人工智能技术，揭露了一种结合语音信息的口语理解方法，包括：利用预设的分词器对口语语音数据对应的文本数据进行字符分词，得到字符序列，利用预设的N个分词器对所述文本数据进行分词，得到N个词语序列，利用投票机制，从所述N个词语序列中选取目标词语序列；利用训练得到的口语理解模型对所述字符序列、目标词语序列及口语语音数据进行编码、融合、并进行分类预测得到意图标签及槽位标签。本发明还提出一种结合语音信息的口语理解装置、电子设备以及存储介质。本发明可以提高口语理解的准确率。语理解的准确率。语理解的准确率。

技术研发人员：黄石磊汪雪蒋志燕程刚廖晨
受保护的技术使用者：深圳市北科瑞声科技股份有限公司
技术研发日：2021.12.30
技术公布日：2022/2/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于电子动画设备的机械眼球的制作方法

结合语音信息的口语理解方法、装置、设备及存储介质与流程

相关文献

最热文献