技术特征:
1.一种语音识别的方法,包括:
确定待识别语音信息的特征,所述待识别语音信息的特征用于表征所述待识别语音信息中各音素之间的关系;
利用所述待识别语音信息的特征,确定所述各音素对应的候选文字;
利用所述候选文字的特征以及所述待识别语音信息的特征,生成与所述待识别语音信息对应的目标文本信息,所述候选文字的特征用于表征任一候选文字与该候选文字前向的其他候选文字之间的关系。
2.根据权利要求1所述的方法,其中,所述确定待识别语音信息的特征,包括:
确定所述待识别语音信息的向量表示;
基于所述向量表示,确定所述待识别语音信息在不同维度的属性特征;
基于所述属性特征,确定所述待识别语音信息的特征。
3.根据权利要求2所述的方法,其中,所述基于所述属性特征,确定所述待识别语音信息的特征,包括:
将所述向量表示以及所述待识别语音信息在不同维度的属性特征进行融合处理,得到第一融合处理结果;
确定所述待识别语音信息的各音素之间的位置关系,利用所述第一融合处理结果以及所述各音素之间的位置关系,生成所述各音素之间的位置关系特征;
将所述第一融合处理结果,以及所述各音素之间的位置关系特征进行融合处理,得到第二融合处理结果;
将所述第二融合处理结果作为所述待识别语音信息的特征。
4.根据权利要求1所述的方法,其中,所述利用所述待识别语音信息的特征,确定所述各音素对应的候选文字,包括:
对于待识别语音信息中的第i个音素,确定第i-1个音素对应的每个候选文字的特征;所述i为正整数;
从所述待识别语音信息的特征中确定所述第i个音素的特征,利用所述第i个音素的特征,以及所述第i-1个音素对应的每个候选文字的特征,确定第i个音素对应的至少一个候选文字。
5.根据权利要求1所述的方法,其中,所述候选文字的特征的确定方式,包括:
对于任意候选文字,确定该候选文字的向量表示;
对该候选文字的向量表示进行处理,得到该候选文字的特征。
6.根据权利要求1所述的方法,其中,所述利用所述候选文字的特征以及所述待识别语音信息的特征,生成与所述待识别语音信息对应的目标文本信息,包括:
将所述候选文字的特征和所述待识别语音信息的特征进行拼接,得到拼接结果;
对所述拼接结果进行线性仿射变换,得到变换结果;
对所述变换结果进行数据筛选,将筛选后的数据进行全连接计算,得到合并处理结果;
利用所述合并处理结果,得到与所述待识别语音信息对应的目标文本信息。
7.根据权利要求1所述的方法,在所述确定待识别语音信息的特征之前,还包括:对所述待识别语音信息进行预处理,以降低噪声。
8.一种语音识别模型的训练方法,包括:
利用待训练的第一网络,分别提取语音信息样本的特征和文字信息样本的特征;所述语音信息样本的特征用于表征所述语音信息样本中各音素之间的关系,所述文字信息样本的特征用于表征所述文字信息样本中各文字之间的关系;
利用待训练的第二网络,根据所述语音信息样本的特征以及所述文字信息样本的特征,得到预测文本;
利用所述预测文本和所述文字信息样本的差异,对所述第一网络的参数和所述第二网络的参数进行联动调整,直至所述预测文本和所述文字信息样本的差异在允许范围内。
9.根据权利要求8所述的方法,其中,所述第一网络包括:
向量提取网络,用于提取向量表示;所述向量表示包括语音信息样本的向量表示,和/或,所述文字信息样本的向量表示;
多头自注意力网络,用于根据接收到的向量表示,确定不同维度的属性特征;
第一特征融合网络,用于将所述向量表示,以及所述不同维度的属性特征进行融合处理,得到第一融合处理结果;
位置关系网络,用于确定各元素之间的位置关系,利用所述第一融合处理结果以及所述各元素之间的位置关系生成所述各元素之间的位置关系特征;所述元素包括语音信息样本包含的音素,和/或,所述文字信息样本包含的文字;
第二特征融合网络,用于将第一融合处理结果,以及所述各元素之间的位置关系特征进行融合处理,得到第二融合处理结果;其中,所述语音信息样本的特征和/或所述文字信息样本的特征包括所述第二融合处理结果。
10.根据权利要求8所述的方法,其中,所述根据所述语音信息样本的特征以及所述文字信息样本的特征,得到预测文本,包括:
将所述语音信息样本的特征和所述文字信息样本的特征进行拼接,得到拼接结果;
对所述拼接结果进行线性仿射变换,得到变换结果;
对所述变换结果进行数据筛选,将筛选后的数据进行全连接计算,得到合并处理结果;
利用合并处理结果,得到所述预测文本。
11.根据权利要求8所述的方法,在所述提取语音信息样本的特征之前,还包括:对所述语音信息样本进行预处理,以降低噪声。
12.根据权利要求11所述的方法,还包括:对预处理后的语音信息样本进行数据增强处理,以对所述处理后的语音信息样本进行数据扩充。
13.一种语音识别的装置,包括:
待识别语音信息的特征提取模块,用于确定待识别语音信息的特征,所述待识别语音信息的特征用于表征所述待识别语音信息中各音素之间的关系;
候选文字确定模块,用于利用所述待识别语音信息的特征,确定所述各音素对应的候选文字;
目标文本信息确定模块,用于利用所述候选文字的特征以及所述待识别语音信息的特征,生成与所述待识别语音信息对应的目标文本信息,所述候选文字的特征用于表征任一候选文字与该候选文字前向的其他候选文字之间的关系。
14.根据权利要求13所述的装置,其中,所述待识别语音信息的特征提取模块包括:
向量确定子模块,用于确定所述待识别语音信息的向量;
属性特征提取子模块,用于基于所述向量表示,确定所述待识别语音信息在不同维度的属性特征;
特征确定子模块,用于确定所述待识别语音信息的特征。
15.根据权利要求14所述的装置,其中,所述特征确定子模块,包括:
第一融合处理单元,用于将所述向量表示以及所述待识别语音信息在不同维度的属性特征进行融合处理,得到第一融合处理结果;
位置关系特征确定单元,用于确定所述待识别语音信息的各音素之间的位置关系,利用所述第一融合处理结果以及所述各音素之间的位置关系生成所述各音素之间的位置关系特征;
第二融合处理单元,用于将所述第一融合处理结果,以及所述各音素之间的位置关系特征进行融合处理,得到第二融合处理结果;
将所述第二融合处理结果作为所述待识别语音信息的第二特征。
16.根据权利要求14所述的装置,其中,所述候选文字确定模块,包括:
候选文字特征确定子模块,对于待识别语音信息中的第i个音素,用于确定第i-1个音素对应的每个候选文字的特征;所述i为正整数;
候选文字确定执行子模块,用于从所述待识别语音信息的特征中获取所述第i个音素的特征,利用所述第i个音素的特征以及所述第i-1个音素对应的每个候选文字的特征,确定第i个音素所对应的至少一个候选文字。
17.根据权利要求14所述的装置,其中,所述候选文字特征确定子模块,包括:
候选文字的向量确定单元,用于对于任意候选文字,确定该候选文字的向量表示;
候选文字的特征确定单元,用于对该候选文字的向量表示进行处理,得到该候选文字的特征;所述候选文字的特征用于表征所述候选文字与所述候选文字前向的其他候选文字之间的关系。
18.根据权利要求14所述的装置,其中,所述目标文本信息确定模块,包括:
特征拼接子模块,用于将所述候选文字的特征和所述待识别语音信息的特征进行拼接,得到拼接结果;
特征变换子模块,用于对所述拼接结果进行线性仿射变换,得到变换结果;
特征筛选子模块,用于对所述变换结果进行数据筛选,将筛选后的数据进行全连接计算,得到合并处理结果;
目标文本信息生成子模块,用于利用合并处理结果,得到与所述待识别语音信息对应的目标文本信息。
19.根据权利要求14所述的装置,还包括预处理模块,用于对所述待识别语音信息进行预处理,以降低噪声。
20.一种语音识别模型的训练装置,包括:
特征提取模块,用于利用待训练的第一网络,分别提取语音信息样本的特征和文字信息样本的特征;所述语音信息样本的特征用于表征所述语音信息样本中各音素之间的关系,所述文字信息样本的特征用于表征所述文字信息样本中各文字之间的关系;
预测文本确定模块,用于利用待训练的第二网络,根据所述语音信息样本的特征以及所述文字信息样本的特征,得到预测文本;
训练模块,用于利用所述预测文本和所述文字信息样本的差异,对所述第一网络的参数和所述第二网络的参数进行联动调整,直至所述预测文本和所述文字信息样本的差异在允许范围内。
21.根据权利要求20所述的装置,其中,所述第一网络包括:
向量提取网络,用于提取向量表示;所述向量表示包括语音信息样本的向量表示,和/或所述文字信息样本的向量表示;
多头自注意力网络模块,用于根据接收到的向量表示,确定不同维度的属性特征;
第一特征融合网络模块,用于将所述向量表示,以及所述不同维度的属性特征进行融合处理,得到第一融合处理结果;
位置关系网络模块,用于确定各元素之间的位置关系,利用所述第一融合处理结果以及所述各元素之间的位置关系生成所述各元素之间的位置关系特征;所述元素包括语音信息样本包含的音素,和/或,所述文字信息样本包含的文字;
第二特征融合网络模块,用于第一融合处理结果,以及所述各元素之间的位置关系特征进行融合处理,得到第二融合处理结果;其中,所述语音信息样本的特征和/或所述文字信息样本的特征包括所述第二融合处理结果。
22.根据权利要求20所述的装置,其中,所述预测文本确定模块,包括:
特征拼接子模块,用于将所述语音信息样本的特征和所述文字信息样本的特征进行拼接,得到拼接结果;
特征变换子模块,用于对所述拼接结果进行线性仿射变换,得到变换结果;
特征筛选子模块,用于对所述变换结果进行数据筛选,将筛选后的数据进行全连接计算,得到合并处理结果;
预测文本生成子模块,用于利用合并处理结果,得到所述预测文本。
23.根据权利要求20所述的装置,还包括,预处理模块,用于对所述语音信息样本进行预处理,以降低噪声。
24.根据权利要求22所述的装置,还包括,数据增强处理模块,用于对预处理后的语音信息样本进行数据增强处理,以对所述处理后的语音信息样本进行数据扩充。
25.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1至12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据权利要求1至12中任一项所述的方法。
技术总结
本公开提供了语音识别的方法、语音识别模型的训练方法、装置、设备以及存储介质,涉及人工智能、语音技术、深度学习等领域。具体实现方案为:确定待识别语音信息的特征,待识别语音信息的特征用于表征待识别语音信息中各音素之间的关系;利用待识别语音信息的特征,确定各音素对应的候选文字;利用候选文字的特征以及待识别语音信息的特征,生成与待识别语音信息对应的目标文本信息,候选文字的特征用于表征任一候选文字与该候选文字前向的其他候选文字之间的关系。本公开可以提高语音信息识别的准确性。
技术研发人员:赵情恩
受保护的技术使用者:百度在线网络技术(北京)有限公司
技术研发日:2021.04.28
技术公布日:2021.07.23
本文用于企业家、创业者技术爱好者查询,结果仅供参考。