语音识别及编解码方法、装置、电子设备及存储介质与流程

2022-02-19 02:37:33 来源：中国专利 TAG：

技术特征：
1.一种语音识别方法，包括：获取待识别的语音的音频特征；对所述音频特征进行编码，得到编码特征；对所述编码特征进行截断处理，得到连续的n个特征片段，n为大于一的正整数；针对任一特征片段，获取对应的历史特征抽象信息，结合所述历史特征抽象信息对所述特征片段进行编码，并对编码结果进行解码，得到所述特征片段对应的识别结果，其中，所述历史特征抽象信息为对已识别的历史特征片段进行特征抽象得到的信息。2.根据权利要求1所述的方法，还包括：对所述音频特征进行卷积降采样，对降采样后的音频特征进行编码。3.根据权利要求1所述的方法，还包括：结合对所述音频特征进行的编码及连接时序分类损失，确定出所述编码特征对应的尖峰信息；其中，所述对所述编码特征进行截断处理包括：根据所述尖峰信息对所述编码特征进行截断处理。4.根据权利要求3所述的方法，其中，所述根据所述尖峰信息对所述编码特征进行截断处理包括：将位于每两个相邻尖峰之间的编码特征分别作为一个特征片段。5.根据权利要求1～4中任一项所述的方法，其中，所述对所述音频特征进行编码包括：利用第一编码器对所述音频特征进行编码，所述第一编码器中包括m层因果式卷积增强的转换器conformer模型，m为正整数，所述因果式conformer模型中同时融合了基于时间掩码的注意力模型以及因果式卷积模型。6.根据权利要求1～4中任一项所述的方法，其中，所述结合所述历史特征抽象信息对所述特征片段进行编码包括：结合所述历史特征抽象信息，利用第二编码器对所述特征片段进行编码；所述对编码结果进行解码包括：利用第一解码器对所述编码结果进行解码；其中，所述历史特征抽象信息为根据所述解码器的输出信息生成的。7.根据权利要求6所述的方法，其中，所述第二编码器中包括p层卷积增强的转换器conformer模型，p为正整数；所述第一解码器的数量为q个，q为正整数，q个第一解码器依次相连。8.根据权利要求7所述的方法，还包括：针对任一conformer模型，分别进行以下处理：利用从任一第一解码器中获取到的隐层特征，对所述conformer模型中当前处理的特征片段进行特征抽象，得到预定长度的特征向量，将所述特征向量作为所述当前处理的特征片段对应于所述conformer模型的历史特征向量；其中，所述获取对应的历史特征抽象信息包括：针对任一conformer模型，分别将各历史特征片段对应于所述conformer模型的历史特征向量进行拼接，将拼接结果作为所述历史特征抽象信息。9.一种编解码方法，包括：获取待处理对象对应的特征，所述特征至少包括：根据解码器的历史输出信息得到的
特征；利用编码器对所述特征进行编码，得到编码结果；利用所述解码器对所述编码结果进行解码，得到所述待处理对象对应的处理结果。10.根据权利要求9所述的方法，其中，所述输出信息包括：所述解码器输出的隐层特征。11.根据权利要求10所述的方法，其中，所述获取待处理对象对应的特征包括：获取所述待处理对象对应的历史特征抽象信息，所述历史特征抽象信息为对历史处理对象进行特征抽象得到的信息。12.根据权利要求11所述的方法，还包括：利用从所述解码器获取到的所述隐层特征，对所述待处理对象进行特征抽象，得到预定长度的特征向量，将所述特征向量作为所述待处理对象对应的历史特征向量；其中，所述获取所述待处理对象对应的历史特征抽象信息包括：分别将各历史处理对象对应的历史特征向量进行拼接，将拼接结果作为所述历史特征抽象信息。13.根据权利要求9～12中任一项所述的方法，其中，所述待处理对象包括：对待识别的语音对应的编码特征进行截断处理后得到的连续的n个特征片段中的任一特征片段，n为大于一的正整数，所述编码特征为对所述待识别的语音的音频特征进行编码后得到的特征；所述处理结果包括：所述特征片段对应的识别结果。14.一种语音识别装置，包括：特征获取模块、特征编码模块、片段获取模块以及片段编解码模块；所述特征获取模块，用于获取待识别的语音的音频特征；所述特征编码模块，用于对所述音频特征进行编码，得到编码特征；所述片段获取模块，用于对所述编码特征进行截断处理，得到连续的n个特征片段，n为大于一的正整数；所述片段编解码模块，用于针对任一特征片段，获取对应的历史特征抽象信息，结合所述历史特征抽象信息对所述特征片段进行编码，并对编码结果进行解码，得到所述特征片段对应的识别结果，其中，所述历史特征抽象信息为对已识别的历史特征片段进行特征抽象得到的信息。15.根据权利要求14所述的装置，其中，所述特征获取模块进一步用于，对所述音频特征进行卷积降采样。16.根据权利要求14所述的装置，其中，所述特征编码模块进一步用于，结合对所述音频特征进行的编码及连接时序分类损失，确定出所述编码特征对应的尖峰信息；所述片段获取模块根据所述尖峰信息对所述编码特征进行截断处理。17.根据权利要求16所述的装置，其中，所述片段获取模块将位于每两个相邻尖峰之间的编码特征分别作为一个特征片段。18.根据权利要求14～17中任一项所述的装置，其中，所述特征编码模块利用第一编码器对所述音频特征进行编码，所述第一编码器中包括m层因果式卷积增强的转换器conformer模型，m为正整数，所述因果式conformer模型中同
时融合了基于时间掩码的注意力模型以及因果式卷积模型。19.根据权利要求14～17中任一项所述的装置，其中，所述片段编解码模块结合所述历史特征抽象信息，利用第二编码器对所述特征片段进行编码，并利用第一解码器对所述编码结果进行解码，其中，所述历史特征抽象信息为根据所述解码器的输出信息生成的。20.根据权利要求19所述的装置，其中，所述第二编码器中包括p层卷积增强的转换器conformer模型，p为正整数；所述第一解码器的数量为q个，q为正整数，q个第一解码器依次相连。21.根据权利要求20所述的装置，其中，所述片段编解码模块进一步用于，针对任一conformer模型，分别进行以下处理：利用从任一第一解码器中获取到的隐层特征，对所述conformer模型中当前处理的特征片段进行特征抽象，得到预定长度的特征向量，将所述特征向量作为所述当前处理的特征片段对应于所述conformer模型的历史特征向量；所述片段编解码模块针对任一特征片段，分别按照以下方式获取对应的历史特征抽象信息：针对任一conformer模型，分别将各历史特征片段对应于所述conformer模型的历史特征向量进行拼接，将拼接结果作为所述历史特征抽象信息。22.一种编解码装置，包括：获取模块、编码模块以及解码模块；所述获取模块，用于获取待处理对象对应的特征，所述特征至少包括：根据解码器的历史输出信息得到的特征；所述编码模块，用于利用编码器对所述特征进行编码，得到编码结果；所述解码模块，用于利用所述解码器对所述编码结果进行解码，得到所述待处理对象对应的处理结果。23.根据权利要求22所述的装置，其中，所述输出信息包括：所述解码器输出的隐层特征。24.根据权利要求23所述的装置，其中，所述获取待处理对象对应的特征包括：获取所述待处理对象对应的历史特征抽象信息，所述历史特征抽象信息为对历史处理对象进行特征抽象得到的信息。25.根据权利要求24所述的装置，还包括：所述获取模块利用从所述解码器获取到的所述隐层特征，对所述待处理对象进行特征抽象，得到预定长度的特征向量，将所述特征向量作为所述待处理对象对应的历史特征向量；其中，所述获取模块分别将各历史处理对象对应的历史特征向量进行拼接，将拼接结果作为所述历史特征抽象信息。26.根据权利要求22～25中任一项所述的装置，其中，所述待处理对象包括：对待识别的语音对应的编码特征进行截断处理后得到的连续的n个特征片段中的任一特征片段，n为大于一的正整数，所述编码特征为对所述待识别的语音的音频特征进行编码后得到的特征；所述处理结果包括：所述特征片段对应的识别结果。27.一种电子设备，包括：
至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1
‑
13中任一项所述的方法。28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1
‑
13中任一项所述的方法。29.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1
‑
13中任一项所述的方法。

技术总结
本公开提供了语音识别及编解码方法、装置、电子设备及存储介质，涉及智能语音、深度学习及自然语言处理等人工智能领域，其中的语音识别方法可包括：获取待识别的语音的音频特征；对获取到的音频特征进行编码，得到编码特征；对得到的编码特征进行截断处理，得到连续的N个特征片段，N为大于一的正整数；针对任一特征片段，获取对应的历史特征抽象信息，结合历史特征抽象信息对该特征片段进行编码，并对编码结果进行解码，得到该特征片段对应的识别结果，其中，历史特征抽象信息为对已识别的历史特征片段进行特征抽象得到的信息。应用本公开所述方案，可提升识别结果的准确性及提升识别效率等。别效率等。别效率等。

技术研发人员：付晓寅陈志杰梁鸣心杨明顺贾磊王海峰
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.09.13
技术公布日：2022/1/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频信号播放方法、装置和电子设备与流程

语音识别及编解码方法、装置、电子设备及存储介质与流程

相关文献

最热文献