语音识别方法、装置、电子设备及计算机可读存储介质与流程

2021-11-09 20:00:00 来源：中国专利 TAG：

技术特征：
1.一种语音识别方法，其特征在于，包括：获取待处理的语音片段；基于识别网络提取所述语音片段的特征图，并对所提取的特征图进行分类，得到所述语音片段包含关键词的概率。2.根据权利要求1所述的方法，其特征在于，所述基于识别网络提取所述语音片段的特征图，并对所提取的特征图进行分类，得到所述语音片段包含关键词的概率，包括：基于所述识别网络中的特征提取子网络提取所述语音片段的第一特征图；基于所述识别网络中的至少一个特征图处理子网络对所述第一特征图进行处理，得到至少一个第二特征图；基于所述识别网络中的至少一个分类器对所述至少一个第二特征图进行分类，得到所述语音片段中包含关键词的概率。3.根据权利要求2所述的方法，其特征在于，对于所述至少一个特征图处理子网络中的任一特征图处理子网络，该特征图处理子网络包括第一数量的通道压缩卷积、深度可分离卷积和第二数量的通道恢复卷积。4.根据权利要求3所述的方法，其特征在于，对于所述至少一个特征图处理子网络中的任一特征图处理子网络，该特征图处理子网络的通道压缩卷积对应的通道数与该特征图处理子网络的输入的特征图对应的通道数相等；所述第一数量的数值小于该特征图处理子网络的输入的特征图对应的通道数的数值；该特征图处理子网络的通道恢复卷积对应的通道数的数值与所述第一数量的数值相等；所述第二数量的数值与该特征图处理子网络的输入的特征图对应的通道数的数值相等。5.根据权利要求3或4所述的方法，其特征在于，所述通道压缩卷积为1
×
1卷积；所述通道恢复卷积为1
×
1卷积。6.根据权利要求2至5任一项所述的方法，其特征在于，所述基于所述识别网络中的至少一个特征图处理子网络对所述第一特征图进行处理，得到至少一个第二特征图，包括：将所述第一特征图输入到依次堆叠的多个特征图处理子网络；其中，第一个特征图处理子网络的输入为所述第一特征图；对于多个特征图处理子网络中除所述第一个特征图处理子网络之外的任一特征图处理子网络，输入为上一个特征图处理子网络的输出；将最后一个特征图处理子网络的输出作为所述第二特征图。7.根据权利要求2至5任一项所述的方法，其特征在于，所述基于所述识别网络中的至少一个特征图处理子网络对所述第一特征图进行处理，得到至少一个第二特征图，包括：将所述第一特征图输入到依次堆叠的多组特征图处理子网络；其中，任一组特征图处理子网络包括至少一个特征图处理子网络；将每一组特征图处理子网络的输出作为与该组特征图处理子网络对应的第二特征图。8.根据权利要求2至7任一项所述的方法，其特征在于，所述对所述至少一个第二特征图进行分类，得到所述语音片段中包含关键词的概率，包括：针对所述至少一个第二特征图中的每一第二特征图，基于多个预设尺寸的窗，在该第二特征图中确定每一窗的滑动位置对应的子区域；
对每一第二特征图的每一子区域进行分类，以确定所述语音片段中包含关键词的概率。9.根据权利要求2至7任一项所述的方法，其特征在于，所述对所述至少一个第二特征图进行分类，得到所述语音片段中包含关键词的概率，包括：对所述语音片段进行语音端点检测，确定所述第一特征图中的有效语音区域；从多个候选尺寸的窗中，确定与所述有效语音区域相匹配的窗，并基于所述有效语音区域确定对应的滑动位置；针对所述至少一个第二特征图中的每一第二特征图，根据所确定的窗和滑动位置，在该第二特征图中确定每一窗的滑动位置对应的子区域；对每一第二特征图的每一子区域进行分类，以确定所述语音片段中包含关键词的概率。10.根据权利要求8或9所述的方法，其特征在于，所述对每一第二特征图的每一子区域进行分类，包括：对于该第二特征图中每一子区域进行平均池化；将平均池化后的每一子区域分别输入对应的全连接分类器进行分类，得到每一子区域属于每一预设类别的后验概率。11.根据权利要求10所述的方法，其特征在于，所述与每一子区域对应的全连接分类器中，至少两个全连接分类器的参数相同。12.根据权利要求8或9所述的方法，其特征在于，所述关键词的数量小于预设分类数量；所述对每一第二特征图的每一子区域进行分类，以确定所述语音片段中包含关键词的概率，包括：针对每一第二特征图，确定该第二特征图中每一子区域包含一个关键词的每一发声子单元的后验概率；基于每一子区域包含一个关键词的每一发声子单元的后验概率，确定每一子区域包含该一个关键词的置信度；将每一第二特征图中每一子区域包含该一个关键词的置信度中的最高置信度，作为所述语音片段包含该关键词的概率。13.根据权利要求8或9所述的方法，其特征在于，所述关键词的数量大于或等于所述预设分类数量；所述对每一第二特征图的每一子区域进行分类，以确定所述语音片段中包含关键词的概率，包括：确定每一第二特征图的每一子区域为正类的第一后验概率；其中，若任一子区域中包括多个关键词中的任一发声子单元，则该子区域为正类；基于最大的第一后验概率确定所述语音片段中包含关键词的概率。14.根据权利要求8或9所述的方法，其特征在于，所述关键词的数量大于或等于所述预设分类数量；所述对每一第二特征图的每一子区域进行分类，以确定所述语音片段中包含关键词的概率，包括：确定每一第二特征图的每一子区域为正类的第一后验概率；确定每一第二特征图的每一子区域为反类的第二后验概率；其中，若任一子区域中包括多个关键词中的任一发声子单元，则该子区域为正类；若任
一子区域中不包括多个关键词中的任一发声子单元，则该子区域为反类；基于最大的第一后验概率和最大的第二后验概率确定所述语音片段中包含关键词的概率。15.一种语音识别装置，其特征在于，包括：获取模块，用于获取待处理的语音片段；识别模块，用于提取所述语音片段的特征图，并对所提取的特征图进行分类，得到所述语音片段包含关键词的概率。16.一种电子设备，其特征在于，其包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1
‑
14任一项所述的语音识别方法。17.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1
‑
14任一项所述的语音识别方法。

技术总结
本申请实施例提供了一种语音识别方法、装置、电子设备及计算机可读存储介质，涉及信号处理技术领域。该方法包括：获取待处理的语音片段；基于识别网络对语音片段进行识别；基于识别网络提取所述语音片段的特征图，并对所提取的特征图进行分类，得到所述语音片段包含关键词的概率。本申请实施例提供的语音识别方法可以有效减少识别过程中的运算量，提高识别效率。本申请实施例提供的语音识别方法、装置、电子设备及计算机可读存储介质可以由人工智能(Artificial Intelligence,AI)模型实现。Intelligence,AI)模型实现。Intelligence,AI)模型实现。

技术研发人员：杨晨文学姚丽晓刘梦倩张晨浩宋黎明
受保护的技术使用者：三星电子株式会社
技术研发日：2021.03.18
技术公布日：2021/11/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频采集设备、无线耳机以及电子设备系统的制作方法

语音识别方法、装置、电子设备及计算机可读存储介质与流程

相关文献

最热文献