农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

特定场景下语音识别的方法、装置、电子设备和存储介质与流程

2021-08-31 17:44:00 来源：中国专利 TAG：语音识别电子设备特定场景方法

本发明涉及语音识别技术领域，具体涉及一种特定场景下语音识别的方法、电子设备和存储介质。

背景技术：

传统asr系统包括训练阶段和解码阶段,训练阶段：利用语音数据库，基于深度神经网络等技术，训练出声学模型(acousticmodel，am)；利用文本数据库，基于ngram和深度神经网络等技术，训练出语言模型(languagemodel，lm)。解码阶段：训练阶段得到的声学模型、语言模型，和发音词典一起组成一个解码网络。输入音频在经过特征提取以后，通过解码算法，可以从解码网络中找出一条最优路径，即得到最终的识别结果。

在通用的应用场景中，训练声学模型的海量数据来源是日常各种场景中采集到的数据或者开源数据，而通用场景中解码阶段的测试数据，与训练数据在声学信号方面，基本上是匹配的，所以能达到非常好的识别效果。

在特定领域的应用场景中，解码阶段的测试数据，与训练数据在声学信号方面，通常是不匹配的，声学不匹配，就会导致性能急剧下降。

技术实现要素：

本发明提供一种特定场景下语音识别的方法、装置、电子设备和存储介质，能够解决上述语音识别性能急剧下降的的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供一种特定场景下语音识别的方法，包括：

获取待识别的音频数据；

提取音频数据的特征；

将音频数据的特征输入到第一解码网络中得到识别文本。

其中，第一解码网络是通过以下步骤确定的：

将领域语音数据库的特征训练进声学模型得到领域声学模型；

领域声学模型、词典和语音模型组成第一解码网络。

在一些实施例中，上述方法中的领域语音数据库的特征是通过以下步骤确定的：

获取领域语音数据库；

提取领域语音数据库的特征。

在一些实施例中，上述方法中的领域语音数据库是带标注的领域语音数据库。

在一些实施例中，上述方法中的提取领域语音数据库的特征，至少包括：预加重、分帧、加窗和离散傅里叶变换。

在一些实施例中，上述方法中的领域语音数据库是不同的领域对应不同的领域语音数据库。

第二方面，本发明实施例还提供一种特定场景下语音识别的装置，包括：

获取模块：用于获取待识别的音频数据；

提取模块：用于提取音频数据的特征；

输入模块：用于将音频数据的特征输入到第一解码网络中得到识别文本；

其中，第一解码网络是通过以下步骤确定的：

将领域语音数据库的特征训练进声学模型得到领域声学模型；

领域声学模型、词典和语音模型组成第一解码网络。

在一些实施例中，上述装置中领域语音数据库的特征是通过以下步骤确定的：

获取领域语音数据库；

提取领域语音数据库的特征。

在一些实施例中，上述装置中领域语音数据库是带标注的领域语音数据库。

在一些实施例中，上述装置中提取领域语音数据库的特征，至少包括：预加重、分帧、加窗和离散傅里叶变换。

在一些实施例中，上述装置中领域语音数据库是不同的领域对应不同的领域语音数据库。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项特定场景下语音识别的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项特定场景下语音识别的方法。

本发明的有益效果是：获取待识别的音频数据；提取音频数据的特征；将音频数据的特征输入到第一解码网络中得到识别文本；其中，第一解码网络是通过以下步骤确定的：将领域语音数据库的特征训练进声学模型得到领域声学模型；领域声学模型、词典和语音模型组成第一解码网络。本申请中的待识别的音频数据在经过特征提取以后，输入到第一解码网络中，可以从解码网络中找出对应的领域声学模型，领域声学模型由于学习到了特定场景下的声学信号特征，与待识别的音频数据更匹配，得到的识别文本性能也会更好，提升了特定应用领域下的语音识别准确率，节省了时间和资源投入。

附图说明

图1为本发明实施例提供的一种特定场景下语音识别的方法图之一；

图2为本发明实施例提供的一种特定场景下语音识别的方法图之二；

图3为本发明实施例提供的一种特定场景下语音识别的方法图之三；

图4为本发明实施例提供的一种特定场景下语音识别的装置图；

图5为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

语音识别(asr)系统的准确率，受环境因素影响很大。不同应用场景的环境差别很大，如家居场景和车机场景就是两种完全不同的环境信号。同一个应用场景下的声学信号也可能差异很大，比如车载场景需要考虑汽车静止时、低速行驶、高速行驶、开/关空调、开/关车门等各种情况。

在特定环境下，语音识别系统由于数据匹配度等原因，性能往往不理想。想要在特定的领域进行深度定制，需要巨大的投入，采集大规模高质量的训练数据，才可能训练出一个针对该特定环境的声学模型，取得较好的识别效果。鉴于此，本申请提出了一种特定场景下语音识别的方法、装置、电子设备和存储介质，能够解决上述语音识别性能不好的的技术问题。

图1为本发明实施例提供的一种特定场景下语音识别的方法图之一。

第一方面，结合图1，本发明实施例提供一种特定场景下语音识别的方法，包括s101、s102和s103三个步骤。

s101：获取待识别的音频数据。

具体的，本申请中的待识别的音频数据可以是用户说的命令式语句，如语音控制空调场景下，用户说的“打开空调”，“调节温度至25摄氏度”，也可以是会议场景下，用户说的“打开会议ppt”等。

s102：提取音频数据的特征。

具体的，本申请中的提取音频数据的特征，将音频数据转换成计算机能够处理的特征向量。最常见的特征有mfcc即梅尔倒谱系数和filterbank即基于滤波器组的fbank特征。

s103：将音频数据的特征输入到第一解码网络中得到识别文本。

具体的，本申请中的待识别的音频数据在经过特征提取以后，输入到第一解码网络中，可以从第一解码网络中找出对应的领域声学模型，领域声学模型由于学习到了特定场景下的声学信号特征，与待识别的音频数据更匹配，得到的识别文本性能也会更好，提升了特定应用领域下的语音识别准确率，节省了时间和资源投入。

图2为本发明实施例提供的一种特定场景下语音识别的方法图之二。

结合图2，上述步骤s103中的第一解码网络是通过以下步骤s201和s202两个步骤确定的：

s201：将领域语音数据库的特征训练进声学模型得到领域声学模型。

s202：领域声学模型、词典和语音模型组成第一解码网络。

应理解，本申请中的领域声学模型是在已有通用模型的基础上，利用有限的领域语音数据，学习特定场景下的声学信号特性，得到的领域声学模型，“领域声学模型”将替代传统框架中的“通用声学模型”，与词典和语言模型，一起组成第一解码网络。领域声学模型能够与特定场景下的待识别的音频数据相匹配，进而提升特定场景下的语音识别准确率。

图3为本发明实施例提供的一种特定场景下语音识别的方法图之三。

在一些实施例中，结合图3，上述方法中的领域语音数据库的特征是通过以下s301和s302两个步骤确定的：

s301：获取领域语音数据库。

具体的，本申请实施例中的领域语音数据库与通用语音数据库不同，领域语音数据库规模要小得多。领域语音数据库的规模，根据任务难易程度的不同，仅需要数百句至数万句。对于文本较简单的应用，如命令式的场景，仅仅数百句就可以大幅提升识别性能，如打开音响、播放中国话等，对于自由说并且声学特性比较特殊的场景，就可能需要上万句级别的数据。比如在会议场景中，讲话内容很自由，并且不同讲话人与麦克风的相对位置不同，导致需要更多的训练数据，才能学习到该场景下的声学特征。总之，数据规模越大，对于特定场景下语音识别性能的提升的效果越好。

s302：提取领域语音数据库的特征。

具体的，本申请实施例中，提取领域语音数据库的特征，将数据库内的音频转换成计算机能够处理的特征向量。如特征有mfcc即梅尔倒谱系数和filterbank即基于滤波器组的fbank特征。

在一些实施例中，上述方法中的领域语音数据库是带标注的领域语音数据库。

具体的，本申请实施例中的领域语音数据库是带文本标注的领域语音数据库，例如，智能控制家电语音数据库带智能控制标注，家居场景语音数据库带家居场景标注，车载场景语音数据库带车载场景标注等等，应理解，通过标注将不同的领域语音数据库进行区分，可以更高效的训练领域声学模型。

在一些实施例中，上述方法中的提取所述领域语音数据库的特征，至少包括：预加重、分帧、加窗和离散傅里叶变换。

在一些实施例中，上述方法中的所述领域语音数据库是不同的领域对应不同的领域语音数据库。

应理解，如智能控制家电领域，对应智能控制家电语音数据库；如会议场景领域，对应会议场景领域数据库；如车载场景，对应车载场景的领域数据库；等等，在此不一一进行列举，并不以此限定本申请实施例的保护范围。还应理解，通过将不同的领域语音数据库进行区分，分的越详细得到的领域声学模型的精度就越高，得到的语音识别的精度就更高。

图4为本发明实施例提供的一种特定场景下语音识别的装置图。

第二方面，结合图4，本发明实施例还提供一种特定场景下语音识别的装置，包括：

获取模块401：用于获取待识别的音频数据。

具体的，本申请中的获取模块401获取到的待识别的音频数据可以是用户说的命令式语句，如语音控制空调场景下，用户说的“打开空调”，“调节温度至25摄氏度”，也可以是会议场景下，用户说的“打开会议ppt”等。

提取模块402：用于提取音频数据的特征。

具体的，本申请中的提取模块402提取音频数据的特征，将音频数据转换成计算机能够处理的特征向量。如特征有mfcc即梅尔倒谱系数和filterbank即基于滤波器组的fbank特征。

输入模块403：用于将音频数据的特征输入到第一解码网络中得到识别文本。

具体的，本申请中的待识别的音频数据在经过特征提取以后，输入模块403输入到第一解码网络中，可以从第一解码网络中找出对应的领域声学模型，领域声学模型由于学习到了特定场景下的声学信号特征，与待识别的音频数据更匹配，得到的识别文本性能也会更好，提升了特定应用领域下的语音识别准确率，节省了时间和资源投入。

上述装置中的第一解码网络是通过以下步骤确定的：

将领域语音数据库的特征训练进声学模型得到领域声学模型。

领域声学模型、词典和语音模型组成第一解码网络。

应理解，本申请中的领域声学模型是在已有通用模型的基础上，根据有限的领域语音数据，学习特定场景下的声学信号特性，得到的领域声学模型，“领域声学模型”将替代传统框架中的“通用声学模型”，与词典和语言模型，一起组成第一解码网络。领域声学模型能够与特定场景下的待识别的音频数据相匹配，进而提升特定场景下的语音识别准确率。

在一些实施例中，上述装置中领域语音数据库的特征是通过以下步骤确定的：

获取领域语音数据库。

具体的，本申请实施例中的领域语音数据库与通用语音数据库不同，领域语音数据库规模要小得多。领域语音数据库的规模，根据任务难易程度的不同，仅需要数百句至数万句。对于文本较简单的应用，如命令式的场景，仅仅数百句就可以大幅提升识别性能，如打开音响、播放中国话等，对于自由说并且声学特性比较特殊的场景，就可能需要上万句级别的数据。比如在会议场景中，讲话内容很自由，并且不同讲话人与麦克风的相对位置不同，导致需要更多的训练数据，才能学习到该场景下的声学特征。总之，数据规模越大，对于特定场景下语音识别性能的提升的效果越好。

提取领域语音数据库的特征。

具体的，本申请实施例中，提取领域语音数据库的特征，将数据库内的音频转换成计算机能够处理的特征向量。最常见的特征有mfcc即梅尔倒谱系数和filterbank即基于滤波器组的fbank特征。

在一些实施例中，上述装置中领域语音数据库是带标注的领域语音数据库。

在一些实施例中，上述装置中提取模块402提取所述领域语音数据库的特征，至少包括：预加重、分帧、加窗和离散傅里叶变换。

在一些实施例中，上述装置中领域语音数据库是不同的领域对应不同的领域语音数据库。

应理解，如智能控制家电领域，对应智能控制家电语音数据库；如会议场景领域，对应会议场景领域数据库；如车载场景，对应车载场景的领域数据库；等等，在此不一一进行列举，并不以此限定本申请实施例的保护范围。还应理解，通过将不同的领域语音数据库进行区分，分的越详细得到的领域声学模型的精度就越高，得到的语音识别的精度就更高。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项特定场景下语音识别的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项特定场景下语音识别的方法。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(mediaplayer)、浏览器(browser)等，用于实现各种应用业务。实现本申请实施例提供的特定场景下语音识别的方法中任一特定场景下语音识别的方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的特定场景下语音识别的方法各实施例的步骤。

获取待识别的音频数据；

提取音频数据的特征；

将音频数据的特征输入到第一解码网络中得到识别文本；

其中，第一解码网络是通过以下步骤确定的：将领域语音数据库的特征训练进声学模型得到领域声学模型；领域声学模型、词典和语音模型组成第一解码网络。

本申请实施例提供的特定场景下语音识别的方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(fieldprogrammablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的特定场景下语音识别的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成特定场景下语音识别的方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法与流程

特定场景下语音识别的方法、装置、电子设备和存储介质与流程

相关文章

最热文献