农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

模型训练方法及装置、存储介质及电子装置与流程

2021-06-18 20:18:00 来源：中国专利 TAG：装置模型训练通信方法

本发明涉及通信领域，具体而言，涉及一种模型训练方法及装置、存储介质及电子装置。

背景技术：

随着科技的发展，麦克风阵列在人工智能领域被广泛应用，如智能家居，包括：智能冰箱、洗衣机、热水器等，都会使用双麦、多麦等线阵或环阵，但不论是哪种麦克风阵列，都涉及到语音信号降噪处理技术，这是当今人机交互领域的一项关键技术。

降噪信号处理虽然能抑制噪声，但可能会使得语音频谱受到损伤，目前主要的降噪训练手段是给降噪模型较充足的纯净语料和各种噪声，让模型适应并实现噪声抑制。

针对相关技术，传统降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱可能会收到损伤等问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种模型训练方法及装置、存储介质及电子装置，以至少解决传统降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱可能会收到损伤等问题。

根据本发明实施例的一个实施例，提供了一种模型训练方法，获取麦克风阵列接收到的纯净语料和第一噪声数据，其中，纯净语料用于指示不包括噪声数据的语音信号；将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频；根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型。

在一个示例性实施例中，根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型之后，所述方法还包括：获取麦克风阵列从多个音频发声装置所获取到的唤醒词和第二噪声数据，得到与所述多个音频发声装置对应的多个唤醒词和多个第二噪声数据，其中，所述多个音频发声装置位于相对于所述麦克风阵列的多个方向上，每个方向对应一个唤醒词和一个第二噪声数据；将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据，其中，所述唤醒数据用于指示所述唤醒词对应的唤醒操作，每个第二噪声数据对应一个唤醒数据。

在一个示例性实施例中，获取麦克风阵列从多个音频发声装置所获取到的唤醒词和第二噪声数据，得到与所述多个音频发声装置对应的多个唤醒词和多个第二噪声数据，包括：以所述麦克风阵列为原点，确定相对于所述麦克风阵列的多个方向的多个目标位置；确定音频发生装置在所述多个目标位置播放的多个唤醒词，以及在所述多个目标位置的多个第二噪声数据。

在一个示例性实施例中，将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据，包括：按照不同的功率比叠加所述多个唤醒词和所述多个第二噪声数据，得到带噪声的唤醒词数据；将所述带噪声的唤醒词数据输入到所述训练好的降噪模型中，得到多个唤醒数据。

在一个示例性实施例中，将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据之后，所述方法还包括：将所述多个唤醒数据输入到唤醒模型中进行训练，得到训练后的唤醒模型；根据所述训练后的唤醒模型对接收到的唤醒词进行识别，得到所述唤醒词对应的唤醒操作。

在一个示例性实施例中，将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频，包括：获取不同混响程度的混响数据；向所述部分纯净预料中的每一个纯净预料中分别加入不同混响程度的混响数据，得到所述目标音频。

根据本发明实施例的又一实施例，包括：获取模块，用于获取麦克风阵列获取到的纯净语料和第一噪声数据，其中，纯净语料用于指示不包括噪声数据的语音信号；融合模块，用于将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频；训练模块，用于根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型。

在一个示例性实施例中，所述训练模块，用于获取麦克风阵列从多个音频发声装置所获取到的唤醒词和第二噪声数据，得到与所述多个音频发声装置对应的多个唤醒词和多个第二噪声数据，其中，所述多个音频发声装置位于相对于所述麦克风阵列的多个方向上，每个方向对应一个唤醒词和一个第二噪声数据；将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据，其中，所述唤醒数据用于指示所述唤醒词对应的唤醒操作，每个第二噪声数据对应一个唤醒数据。

根据本发明实施例的又一实施例，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述模型训练方法。

根据本发明实施例的又一实施例，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述模型训练方法。

通过本发明，引入一种模型训练方法，获取麦克风阵列接收到的纯净语料和第一噪声数据，将纯净语料和第一噪声数据输入到降噪模型中进行训练以前，将纯净语料中的部分纯净语料中加入混响数据，得到目标音频，随后才将目标音频和第一噪声数据一起输入到降噪模型中，对降噪模型进行训练，得到训练后的降噪模型。采用上述技术方案，解决了传统降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱可能会收到损伤等问题，进而通过在部分纯净语料中加入混响数据，使得训练处理的降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱不会收到损伤。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示例性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的模型训练方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的模型训练方法的流程图；

图3是根据本发明实施例的模型训练方法的rnn模型原理流程图；

图4是根据本发明实施例的模型训练方法的麦克风阵列语音信号降噪处理联合唤醒训练数据适配方法流程图；

图5是根据本发明实施例的模型训练装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种模型训练方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的模型训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(networkinterfacecontroller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radiofrequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。

相关技术中，仅仅为降噪模型提供纯净语音和噪声语料，可能会造成降噪处理后的语音过于“干净”，但是频谱可能会收到损伤，尤其是对于唤醒设备的唤醒词，经过降噪处理后，唤醒模型即使经过大量训练也不能较大程度地改善唤醒率。

目前主要的降噪训练手段是给降噪模型较充足的纯净语料和各种噪声，让模型适应并实现噪声抑制，并且解决信号处理和唤醒数据适配的传统方法是令麦克风阵列在噪声环境下录同时录唤醒词和噪声，将降噪处理后的语料数据加入到唤醒训练中，得到比较适应噪声环境的唤醒模型。

为了解决上述问题，在本实施例中提供了一种模型训练方法，图2是根据本发明实施例的模型训练方法的流程图，该流程包括如下步骤：

步骤s202，获取麦克风阵列接收到的纯净语料和第一噪声数据，其中，纯净语料用于指示不包括噪声数据的语音信号；

步骤s204，将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频；

步骤s206，根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型。

通过上述步骤，引入一种模型训练方法，获取麦克风阵列接收到的纯净语料和第一噪声数据，将纯净语料和第一噪声数据输入到降噪模型中进行训练以前，将纯净语料中的部分纯净语料中加入混响数据，得到目标音频，随后才将目标音频和第一噪声数据一起输入到降噪模型中，对降噪模型进行训练，得到训练后的降噪模型。采用上述技术方案，解决了传统降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱可能会收到损伤等问题，进而通过在部分纯净语料中加入混响数据，使得训练处理的降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱不会收到损伤。

为了更好的理解，上述纯净语料是用于指示不包括噪声数据的语音信号，并且，将目标音频和第一噪声数据加入到降噪模型进行人工智能训练的过程中，人工智能算法会对降噪模型的输出的结果进行判断，看是否满足预设要求，若不符合，则降噪模型就继续进行训练，若符合要求，此时的降噪模型就会被认为是训练好的降噪模型。

需要说明的是，上述步骤s204的实现方式有多种，在一个可选实施例中，将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频，可以通过以下方案实现：获取不同混响程度的混响数据；向所述部分纯净预料中的每一个纯净预料中分别加入的不同混响程度的混响数据，得到所述目标音频。在本实施例中，所述纯净语料一部分是纯净语音指令，一部分是纯净唤醒词，将纯净语音指令和纯净唤醒词连接起来得到纯净语料，随机取所有纯净数据的2/3或其他比例的纯净数据加入混响效果，对于加入的混响效果的程度，具体的可以是0.1、0.2、0.3、0.4等等，若有0.1程度的混响数据和0.2程度的混响数据，有纯净预料a和b，可以将0.1程度的数据加入到a和/或b中，也可以将0.2程度的混响数据加入到a和/或b，本发明实施例对此不进行限定，随后将未加入混响数据的纯净语料和带有混响数据的纯净语料混合连接在一起即可以得到所述目标音频。

此外，在一般室内环境中，不同方向的混响程度也可能不同，因此简单的带噪声的环境显然不能覆盖各种情况，并且采用同时录唤醒词和噪声的方式比较耗时，不能高效率地得到大量数据，导致唤醒模型的训练数据不容易充足，为了解决该技术问题，本发明实施例还提供了以下技术方案。

在执行完上述步骤s206以后，为了验证训练好的降噪模型，可选的，根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型之后，还包括：获取麦克风阵列从多个音频发声装置所获取到的唤醒词和第二噪声数据，得到与所述多个音频发声装置对应的多个唤醒词和多个第二噪声数据，其中，所述多个音频发声装置位于相对于所述麦克风阵列的多个方向上，每个方向对应一个唤醒词和一个第二噪声数据；将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据，其中，所述唤醒数据用于指示所述唤醒词对应的唤醒操作，每个第二噪声数据对应一个唤醒数据。例如：获取麦克风阵列从多个音频发声装置获取到的唤醒词，如：“小小，今天天气怎样”，“小小，今天是星期几”等，在获取唤醒词的同时也会获取到噪声数据，如旁人的讲话声，室外的雨声等，需要说明的是，需要在相对于麦克风阵列的多个音频发声装置上都获取一个唤醒词(每个方向都获取)，并且获取唤醒词的时候会获得对应一个噪声数据(即本实施例中第二噪声数据)，将带有这些噪声的唤醒词输入到训练好的降噪模型中进行降噪处理，得到进行降噪处理后的唤醒词(即本实施例中的唤醒数据)。

需要说明的是，在一个可选的实施例中，获取麦克风阵列从多个音频发声装置所获取到的唤醒词和第二噪声数据，得到与所述多个音频发声装置对应的多个唤醒词和多个第二噪声数据，包括：以所述麦克风阵列为原点，确定相对于所述麦克风阵列的多个方向的多个目标位置；确定音频发生装置在所述多个目标位置播放的多个唤醒词，以及在所述多个目标位置的多个第二噪声数据。

在本实施例中，具体可以以麦克风阵列的中点为原点，分别在原点30度、60度、90度、120度和150度的方向距离原点3米处作为定点，这5个定点出作为音箱可放置的5个位置；音箱分别在不同位置播放唤醒词，以及嘈杂的声音或者新闻等噪声，然后用麦克风阵列录音。需要说明的是，假设5个定点分别为a、b、c、d、e，在5个定点处播放唤醒词和嘈杂噪声的时候，具体的可以有多种形式，以下列举一部分进行说明，如在a点播放唤醒词“小小”，在b处播放新闻，在c播放高跟鞋落地的声音，在d处播放路人吵架的杂音，在e处播放下雨的声音，并且在录制的时候，可以结合不同的方向，将a、b、c、d、e的音响进行互换。需要说明的是，在录制唤醒词和第二噪声数据的时候，是将a、b、c、d、e出的音频进行单独的录制，后期按照不同的功率比叠加的方式，将唤醒词和第二噪声数据进行叠加。

为了将多个唤醒词和多个噪声数据相结合形成带噪声的语料，可选的，将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据，包括：按照不同的功率比叠加所述多个唤醒词和所述多个第二噪声数据，得到带噪声的唤醒词数据；将所述带噪声的唤醒词数据输入到所述训练好的降噪模型中，得到多个唤醒数据。

在本实施例中，为了将多个唤醒词和多个第二噪声数据叠加形成带噪声的语料，具体可以按照功率比叠加的方式，将唤醒词和噪声数据，按照20/15/10/5db的功率比进行叠加，利用以下公式将干扰噪声数据(相当于上述实施例的第二噪声数据)叠加到唤醒词上，得到带噪声的唤醒词语料，需要说明的是，功率比叠加的方式可以在移动设备或计算机终端上进行，并且叠加后的唤醒词是带回声、噪声和方向性干扰的。具体公式如下：

其中，s(t)为信号功率，n(t)为噪声功率。snr为信噪比，即为放大器的输出信号的功率与同时输出的噪声功率的比值，常常用分贝数表示。

需要说明的是，在一个可选的实施例中，将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据之后，所述方法还包括：将所述多个唤醒数据输入到唤醒模型中进行训练，得到训练后的唤醒模型；根据所述训练后的唤醒模型对接收到的唤醒词进行识别，得到所述唤醒词对应的唤醒操作。在本实施例中，将带噪声的语料输入到训练好的降噪模型中，降噪模型对其进行降噪处理，得到不带噪声的唤醒数据，将唤醒数据加入到唤醒训练中，得到新的唤醒模型。例如：现有一个唤醒语料为“小小，帮我随便播放一首音乐”，但该唤醒语料里面有很多噪声，如洗衣机运行产生的杂音、电视里面的新闻声等，故将带噪声的唤醒语料加入到训练好的降噪模型中进行降噪处理，得到不带噪声的唤醒数据，随后将唤醒数据加入到唤醒模型中进行唤醒训练，人工智能会判断这个唤醒模型是否符合要求，如果符合，则当前状态下的唤醒模型就是训练好的唤醒模型，训练结束以后，在实际使用中，将唤醒数据加入到训练好的唤醒模型中，使得可以成功的唤醒设备，设备进行唤醒操作。

显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。为了更好的理解上述模型训练方法，以下结合实施例对上述过程进行说明，但不用于限定本发明实施例的技术方案，具体地：

在一个可选的实施例中，针对传统降噪处理后的唤醒词频谱损伤问题，具体可以采用循环神经网络(recurrentneuralnetwork，简称为rnn)模型来进行降噪模型的训练，图3是根据本发明实施例的模型训练方法的rnn模型原理流程图，rnn模型为本领域技术人员所悉知的，在此不进行赘述，对于如何确定rnn模型的输入，主要步骤如下：

步骤一：准备纯净语料：一部分是纯净语音指令，一部分是纯净唤醒词，将数据混合连接；

步骤二：取所有纯净数据的2/3加入混响效果，程度为0.1/0.2/0.3/0.4；

步骤三：将纯净和带有混响效果的音频混合连接在一起；

步骤四：将以上数据作为rnn模型训练的纯净语料部分，噪声包括嘈杂的声音、新闻、电视杂音等各种类型，将加入混响效果方纯净预料和噪声作为rnn的输入，用于降噪模型的训练。

在一个可选的实施例中，图4是根据本发明实施例的模型训练方法的麦克风阵列语音信号降噪处理联合唤醒训练数据适配方法流程图，主要步骤如下：

步骤s402：以麦克风阵列的中点为原点，分别在30/60/90/120/150度方向距离3米处定点，作为音箱可放置的5个位置；

步骤s404：音箱分别在不同位置播放唤醒词，以及嘈杂的声音和新闻等噪声，利用麦克风阵列录音；

步骤s406：叠加唤醒词和噪声音频，按照20/15/10/5db的功率比，利用公式：

将干扰叠加到唤醒词上，得到带噪声的唤醒词语料；

步骤s408：将带方向性干扰的唤醒词过波束形成处理，作为训练波束形成模块的数据集，过降噪模型进行降噪处理；

步骤s410：将带噪声的唤醒词经过降噪处理后的数据加入到唤醒训练中得到新的唤醒模型。

为了方便理解，可以概况为：利用公式，将唤醒词叠加30/60/90/120/150度方向的babble/新闻/电视等噪声，形成带噪声唤醒词，将带噪声唤醒词过到降噪模型，用rnn做噪声抑制，最后将降噪处理后的数据用于唤醒训练。

此外，本发明实施例的上述技术方案，可以模拟实际环境中的混响环境，通过对语音训练数据进行不同权重和不同程度的加混响处理，能有效地避免频谱损伤。并且基于不同方向，录多种类型的噪声，采用基于不同信噪比叠加方式得到带噪唤醒词再过噪声抑制，这样能够较简单的得到大量模拟真实情况的带噪唤醒词数据，将这些信号处理后的唤醒词数据加入到唤醒模型中进行训练，就能较好地提高唤醒的鲁棒性，提升人机交互的良好体验感。另外，经过信号处理之后，若唤醒训练数据集中不包含这些处理后的唤醒词，那通常唤醒率会比较低，而经过数据适配可以大大提高唤醒率，在实际人机交互应用场景中有更好的唤醒体验。

同时本发明采用更优的麦克风阵列唤醒性能：考虑麦克风阵列在实际应用中唤醒词经过降噪处理后可能会造成频谱损伤，通过叠加制作不同程度的混响效果，基于rnn模型做降噪训练，能有效解决唤醒词经过降噪处理后的频谱损伤的问题；采用麦克风阵列录音和叠加方法得到带噪声的唤醒词，将经过处理后的语料数据投入到唤醒训练中，得到的唤醒模型具有对不同带噪环境都能适应的鲁棒性，提高了唤醒率。并且本发明采用简单明了的数据处理方式，即先录音，后期进行叠加，得到大量数据，易于实现。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

在本实施例中还提供了一种模型训练装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的设备较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种模型训练装置的结构框图，该装置包括：

获取模块52，用于获取麦克风阵列接收到的纯净语料和第一噪声数据，其中，纯净语料用于指示不包括噪声数据的语音信号；

融合模块54，用于将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频；

训练模块56，用于根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型。

通过本发明，引入一种模型训练装置，获取麦克风阵列接收到的纯净语料和第一噪声数据，将纯净语料和第一噪声数据输入到降噪模型中进行训练以前，将纯净语料中的部分纯净语料中加入混响数据，得到目标音频，随后才将目标音频和第一噪声数据一起输入到降噪模型中，对降噪模型进行训练，得到训练后的降噪模型。采用上述技术方案，解决了传统降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱可能会收到损伤等问题，进而通过在部分纯净语料中加入混响数据，使得训练处理的降噪模型对带噪声的语料进行降噪处理的过程中，语料频谱不会收到损伤。

为了更好的理解，上述纯净语料是用于指示不包括噪声数据的语音信号，并且，将目标音频和第一噪声数据加入到降噪模型进行人工智能训练的过程中，人工智能算法会对降噪模型的输出的结果进行判断，看是否满足预设要求，若不符合，则降噪模型就继续进行训练，若符合要求，此时的降噪模型就会被认为是训练好的降噪模型。

需要说明的是，在一个可选实施例中，融合模块54用于获取不同混响程度的混响数据；向所述部分纯净预料中的每一个纯净预料中分别加入的不同混响程度的混响数据，得到所述目标音频。在本实施例中，所述纯净语料一部分是纯净语音指令，一部分是纯净唤醒词，将纯净语音指令和纯净唤醒词连接起来得到纯净语料，随机取所有纯净数据的2/3或其他比例的纯净数据加入混响效果，对于加入的混响效果的程度，具体的可以是0.1、0.2、0.3、0.4等等，若有0.1程度的混响数据和0.2程度的混响数据，有纯净预料a和b，可以将0.1程度的数据加入到a和/或b中，也可以将0.2程度的混响数据加入到a和/或b，本发明实施例对此不进行限定，随后将未加入混响数据的纯净语料和带有混响数据的纯净语料混合连接在一起即可以得到所述目标音频。

此外，在一般室内环境中，不同方向的混响程度也可能不同，因此简单的带噪声的环境显然不能覆盖各种情况，并且采用同时录唤醒词和噪声的方式比较耗时，不能高效率地得到大量数据，导致唤醒模型的训练数据不容易充足，为了解决该技术问题，本发明实施例还提供了以下技术方案。

可选的，训练模块56还用于获取麦克风阵列从多个音频发声装置所获取到的唤醒词和第二噪声数据，得到与所述多个音频发声装置对应的多个唤醒词和多个第二噪声数据，其中，所述多个音频发声装置位于相对于所述麦克风阵列的多个方向上，每个方向对应一个唤醒词和一个第二噪声数据；将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据，其中，所述唤醒数据用于指示所述唤醒词对应的唤醒操作，每个第二噪声数据对应一个唤醒数据。例如：获取麦克风阵列从多个音频发声装置获取到的唤醒词，如：“小小，今天天气怎样”，“小小，今天是星期几”等，需要说明的是，需要在相对于麦克风阵列的多个音频发声装置上都获取一个唤醒词(每个方向都获取)，并且获取唤醒词的时候会获得对应一个噪声数据(即本实施例中第二噪声数据)，在获取唤醒词的同时也会获取到噪声数据，如旁人的讲话声，室外的雨声等，将带有这些噪声的唤醒词输入到训练好的降噪模型中继续降噪处理，得到进行降噪处理后的唤醒词(即本实施例中的唤醒数据)。

需要说明的是，在一个可选的实施例中，训练模块56用于获取相对于所述麦克风阵列从多个音频发声装置所获取到的唤醒词和第二噪声数据，得到与所述多个音频发声装置对应的多个唤醒词和多个第二噪声数据，包括：以所述麦克风阵列为原点，确定相对于所述麦克风阵列的多个方向的多个目标位置；确定音频发生装置在所述多个目标位置播放的多个唤醒词，以及在所述多个目标位置的多个第二噪声数据。

在本实施例中，具体可以以麦克风阵列的中点为原点，分别在原点30度、60度、90度、120度和150度的方向距离原点3米处作为定点，这5个定点出作为音箱可放置的5个位置；音箱分别在不同位置播放唤醒词，以及嘈杂的声音或者新闻等噪声，然后用麦克风阵列录音。需要说明的是，假设5个定点分别为a、b、c、d、e，在5个定点处播放唤醒词和嘈杂噪声的时候，具体的可以有多种形式，以下列举一部分进行说明，如在a点播放唤醒词“小小”，在b处播放新闻，在c播放高跟鞋落地的声音，在d处播放路人吵架的杂音，在e处播放下雨的声音，并且在录制的时候，可以结合不同的方向，将a、b、c、d、e的音响进行互换。需要说明的是，在录制唤醒词和第二噪声数据的时候，是将a、b、c、d、e出的音频进行单独的录制，后期按照不同的功率比叠加的方式，将唤醒词和第二噪声数据进行叠加。

可选的，训练模块56用于将所述多个唤醒词和所述多个第二噪声数据输入到所述训练好的降噪模型中，得到多个唤醒数据，包括：按照不同的功率比叠加所述多个唤醒词和所述多个第二噪声数据，得到带噪声的唤醒词数据；将所述带噪声的唤醒词数据输入到所述训练好的降噪模型中，得到多个唤醒数据。

在本实施例中，为了将多个唤醒词和多个第二噪声数据叠加形成带噪声的语料，具体可以按照功率比叠加的方式，将唤醒词和噪声数据，按照20/15/10/5db的功率比进行叠加，利用以下公式将干扰噪声数据(相当于上述实施例的第二噪声数据)叠加到唤醒词上，得到带噪声的唤醒词语料，需要说明的是，功率比叠加的方式可以在移动设备或计算机终端上进行，并且叠加后的唤醒词是带回声、噪声和方向性干扰的。具体公式如下：

其中，s(t)为信号功率，n(t)为噪声功率。snr为信噪比，即为放大器的输出信号的功率与同时输出的噪声功率的比值，常常用分贝数表示。

需要说明的是，训练模块56还用于将所述多个唤醒数据输入到唤醒模型中进行训练，得到训练后的唤醒模型；根据所述训练后的唤醒模型对接收到的唤醒词进行识别，得到所述唤醒词对应的唤醒操作。在本实施例中，将带噪声的语料输入到训练好的降噪模型中，降噪模型对其进行降噪处理，得到不带噪声的唤醒数据，将唤醒数据加入到唤醒训练中，得到新的唤醒模型。例如：现有一个唤醒语料为“小小，帮我随便播放一首音乐”，但该唤醒语料里面有很多噪声，如洗衣机运行产生的杂音、电视里面的新闻声等，故将带噪声的唤醒语料加入到训练好的降噪模型中进行降噪处理，得到不带噪声的唤醒数据，随后将唤醒数据加入到唤醒模型中进行唤醒训练，人工智能会判断这个唤醒模型是否符合要求，如果符合，则当前状态下的唤醒模型就是训练好的唤醒模型，训练结束以后，在实际使用中，将唤醒数据加入到训练好的唤醒模型中，使得可以成功的唤醒设备，让设备进行对应的操作。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

s1，获取麦克风阵列接收到的纯净语料和第一噪声数据，其中，纯净语料用于指示不包括噪声数据的语音信号；

s2，将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频；

s3，根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：u盘、只读存储器(read-onlymemory，简称为rom)、随机存取存储器(randomaccessmemory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

s1，获取麦克风阵列接收到的纯净语料和第一噪声数据，其中，纯净语料用于指示不包括噪声数据的语音信号；

s2，将所述纯净语料中的部分纯净语料中加入混响数据，得到目标音频；

s3，根据所述目标音频和所述第一噪声数据对降噪模型进行训练，得到训练后的降噪模型。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音端点检测方法、装置、电子设备及可读存储介质与流程

模型训练方法及装置、存储介质及电子装置与流程

相关文章

最热文献