一种融合多模态语义不变性的语音识别文本增强系统的制作方法

2021-08-17 13:39:00 来源：中国专利 TAG：文本语音识别增强语义中英

技术特征：

1.一种融合多模态语义不变性的语音识别文本增强系统，其特征在于，包括：

声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对所述短时音频帧提取fbank声学特征，将所述声学特征输入到所述声学降采样模块进行降采样，得到声学表示；将所述语音数据输入现有语音识别模块，得到输入文本数据，将所述输入文本数据输入到所述编码器，得到输入文本编码表示；将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示。

2.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，将所述解码表示输入到softmax函数得到概率最大的目标。

3.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，对声学特征降采样的方法为：通过所述声学特征拼接得到降采样后的声学特征序列，即所述声学表示。

4.根据权利要求3所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述声学特征拼接的具体方法为：将前后5帧的所述声学特征进行拼接，将拼接后的所述声学特征通过全连接映射层进行维度转换，转换为256维特征向量。

5.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，训练数据扩增模块；所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据，具体方法为：

(1)将用于训练的语音数据分成10份，选择其中九份数据训练所述语音识别模块，剩下的一份识别出结果；

(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍，即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据；

(3)在识别时应用dropout模型扰动技术，谱文本增强数据扰动技术对所述10份语音数据添加扰动，通过使用不同的扰动比例进行多次识别，获得语音识别文本增强系统训练的输入文本数据。

6.根据权利要求5所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括词嵌入模块；

将所述输入文本数据输入到所述编码器之前，使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示，将所述连续特征向量表示输入到所述编码器。

7.根据权利要求6所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，对所述连续特征向量表示增加位置编码信息，对所述输入文本数据输入的时间先后顺序信息进行建模，得到输入文本位置编码序列，将所述输入文本位置编码序列输入到所述编码器。

8.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

所述基于多头自注意力的模块包括：两个子部分，第一子部分是多头自注意力层，后面接第二子部分，为全连接映射层，每个子部分进行层归一化操作；所述多头自注意力层和全连接映射层中间进行残差连接。

9.根据权利要求8所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，标注目标序列的高维表示模块，将所述输入文本数据对应的标注目标文本进行词嵌入表示，将所述词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，所述高维表示作为查询向量；

具体的方法为：

使用词嵌入模块将所述输入文本数据对应的标注目标文本表示为目标文本连续特征向量；

对目标文本连续特征向量增加位置编码信息，对特征向量的时间先后顺序信息进行建模，得到目标文本位置编码序列；

将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示。

10.根据权利要求9所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示的具体方法为：

将所述声学表示和所述输入文本编码表示输入到解码器中，作为待查询的声学键和声学值集合，文本键和文本值集合；

应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离，根据距离的大小得到声学的注意力分数和文本的注意力分数；

使用所述声学的注意力分数对声学值集合进行加权平均，得到声学上下文向量表示；

使用所述文本的注意力分数对文本值集合进行加权平均，得到文本上下文向量表示；

将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束，得到两种模态信号表示的相似性损失；

将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换，通过上述相似性损失，得到最终的解码表示。

技术总结
本发明提供一种融合多模态语义不变性的语音识别文本增强系统，包括：声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对短时音频帧提取声学特征，将声学特征输入到声学降采样模块进行降采样，得到声学表示；将语音数据输入现有语音识别模块，得到输入文本数据，将输入文本数据输入到编码器，得到输入文本编码表示；将声学表示和所述输入文本编码表示输入到解码器融合，声学模态和文本模态的表示进行相似性约束，得到解码表示；该方法通过融合跨模态语义不变性约束损失，减少模型对数据的依赖，提高模型的性能，适用于中英混合语音识别。

技术研发人员：陶建华;张帅;易江燕
受保护的技术使用者：中国科学院自动化研究所
技术研发日：2021.07.19
技术公布日：2021.08.17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频信号中噪声响度的获取方法、装置和电子设备与流程

一种融合多模态语义不变性的语音识别文本增强系统的制作方法

相关文章

最热文献