农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种语音活动检测的方法、电子设备及装置与流程

2021-07-13 16:21:00 来源：中国专利 TAG：电子设备语音检测方法装置通信

本发明涉及通信领域，尤其涉及一种语音活动检测的方法、电子设备及装置。

背景技术：

语音活动检测(voiceactivitydetection，vad)是对声音信号的能量、过零率、谐波等特征进行分析，来判断声音信号中是否存在语音。vad技术主要用于简化语音处理。例如，在网际协议(internetprotocol，ip)电话应用中不对静音数据包进行编码或者传输，从而有效节省计算时间和带宽。

目前，市场上主要基于空气传导(ac，airconducted)麦克接收的空气传导信号来进行语音活动检测，但空气传导信号往往面临环境噪声的影响，大量的噪声会降低语音活动检测的准确性。

技术实现要素：

本申请提供一种语音活动检测的方法、电子设备及装置，有利于提高语音活动检测的准确性。

第一方面，本申请提出了一种语音活动检测的方法，该方法包括：获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；确定该第二总能量是否大于第一阈值；若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

在一种可能的实现方式中，基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音的具体实现方式为：确定目标能量值是否大于第二阈值，且小于或等于第三阈值，该目标能量值为该第一总能量和该第二总能量之比；若该目标能量值大于该第二阈值，且小于或等于该第三阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，若该目标能量值小于或等于该第二阈值，或目标能量值大于该第三阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，若该第二总能量小于或等于该第一阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，若连续确定接收到的该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

第二方面，本申请提出一种语音活动检测的装置，包括获取模块和语音检测模块：该获取模块，用于获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；该语音检测模块，用于：确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；确定该第二总能量是否大于第一阈值；若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

第三方面，本申请提出了一种电子设备，该电子设备包括空气传导麦克、骨传导麦克、存储器和至少一个处理器；该空气传导麦克用于接收第一声音信号；该骨传导麦克用于接收第二声音信号；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令；该处理器，具体用于从该存储器中调用该计算机程序执行上述第一方面所提出的方法。

第四方面，本申请提出了一种芯片，该芯片，用于：获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；确定该第二总能量是否大于第一阈值；若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

第五方面，本申请提出了一种模组设备，该模组设备包括空气传导麦克模组、骨传导麦克模组、电源模组、存储模组以及芯片模组，其中：该空气传导麦克模组用于接收第一声音信号；该骨传导麦克模组用于接收第二声音信号；该电源模组用于为该模组设备提供电能；该存储模组用于存储数据和指令；该芯片模组用于：获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；确定该第二总能量是否大于第一阈值；若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

第六方面，本申请提出了一种计算机可读存储介质，该计算机存储介质中存储有计算机可读指令，当该计算机可读指令在通信装置上运行时，使得该通信装置执行上述第一方面及其任意一种可能实现方式所提出的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音活动检测系统的结构示意图；

图2是本申请实施例提供的一种语音活动检测方法的流程图；

图3是本申请实施例提供的又一种语音活动检测方法的流程图；

图4是本申请实施例提供的一种电子设备的结构示意图；

图5是本申请实施例提供的一种装置的结构示意图；

图6是本申请实施例提供的一种模组设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“该”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

需要说明的是，本申请的说明书和权利要求书中及上述附图中的属于“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述以外的顺序实施。此外，术语“包括”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1为本申请实施例提供的一种语音活动检测系统的结构示意图。该语音活动检测系统包含了至少一个空气传导麦克、至少一个骨传导麦克以及至少一个语音活动检测模块，本申请实施例对空气传导麦克、骨传导麦克和语音活动检测模块的数量不作限定。空气传导麦克和骨传导麦克用于接收声音信号，空气传导麦克接收到的第一声音信号为空气传导信号，骨传导麦克接收到的第二声音信号为骨传导信号。语音活动检测模块用于对空气传导麦克接收的第一声音信号和骨传导麦克接收的第二声音信号进行检测，确定第一声音信号和第二声音信号中是否具有语音。该语音活动检测系统可以应用于耳机或者包含有骨传导麦克和空气传导麦克的电子设备等。

请参阅图2，图2是本申请实施例提供的一种语音活动检测方法的流程示意图。该方法应用于电子设备或电子设备中的芯片，具体的，如图2所示，图2以电子设备作为执行主体进行说明。本申请实施例的其他附图所示的语音活动检测方法的执行主语同理，后文不再赘述。本申请实施例的语音活动检测方法步骤201～步骤204：

201、电子设备获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号。

本申请实施例中，电子设备获取第一声音信号和第二声音信号的具体步骤为：电子设备从空气传导麦克获取第一声音信号的第一时域信号，从骨传导麦克获取第二声音信号的第二时域信号。电子设备在获取了第一时域信号和第二时域信号后，将对第一时域信号和第二时域信号进行分帧处理。电子设备在分帧处理后，对时域信号进行时频转换，将第一时域信号转化为第一频域信号，将第二时域信号转化为第二时域信号。在进行了时频转换后，电子设备得到第一声音信号的离散傅里叶变换函数，和第二声音信号的离散傅里叶变换函数，其中，第一声音信号的离散傅里叶变换函数为sa(k,m)，第二声音信号的离散傅里叶变换函数为sb(k,m)，k为频率索引，m为帧索引。

202、电子设备确定该第一声音信号的第一总能量和该第二声音信号的第二总能量。

本申请实施例中，第一总能量可以通过公式计算得出，第二总能量可以通过公式计算得出。其中，ea为第一总能量，eb为第二总能量，sa(k,m)为第一声音信号的离散傅里叶变换函数，sb(k,m)为第二声音信号的离散傅里叶变换函数，k为频率索引，m为帧索引。

203、电子设备确定该第二总能量是否大于第一阈值。

本申请实施例中，电子设备通过将第二总能量与第一阈值进行比较，若第二总能量大于第一阈值，则初步判断在第二声音信号中可能具有语音。骨传导麦克由于并不直接面对噪声，具有较强的噪声鲁棒性，通过第二总能量的大小可以初步判断接收到的第一声音信号和第二声音中是否具备语音。由于第二声音信号是通过骨传导麦克接收到的骨传导信号，而第一声音信号是通过空气传导麦克接收到的空气传导信号，空气传导信号相对于骨传导信号更容易掺杂较多的噪声，而骨传导信号不直接面对空气中的噪声，基于第二总能量大小初步判断第一声音信号和第二声音中是否具备语音，相对于基于第一总能量大小去判断，会更加精确。

204、若该第二总能量大于该第一阈值，则电子设备基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中具有语音。

其中，步骤204的具体实现方式，可以参见后续步骤305～步骤307。

通过上述所描述的方法，电子设备基于空气传导麦克接收到的第一声音信号和骨传导麦克接收到的第二声音信号进行语音活动检测，骨传导麦克由于并不直接面对空气中的噪声，因此接收到的第二声音信号具有较强的噪声鲁棒性，可以有效规避空气传导麦克接收到的第一声音信号容易被环境噪声影响的问题。通过这样的方式，有利于提高语音活动检测的准确性。

请参见图3，图3是本申请实施例提供的又一种语音活动的检测方法，具体步骤包括步骤301～步骤307。

301、电子设备获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号。

302、电子设备确定该第一声音信号的第一总能量和该第二声音信号的第二总能量。

303、电子设备确定该第二总能量是否大于第一阈值。若第二总能量大于第一阈值，则执行步骤305；若第二总能量小于或等于第一阈值，则执行步骤304。

其中，步骤301～步骤303与上述步骤201～步骤203的具体实现方式相同，本申请实施例在此不作赘述。

304、电子设备确定该第一声音信号和该第二声音信号中不具有语音。

本申请实施例中，骨传导麦克由于并不直接面对噪声，具有较强的噪声鲁棒性，通过第二总能量的大小可以初步判断接收到的第一声音信号和第二声音中是否具备语音。若第二总能量大于第一阈值，则说明可能有两种情况，一种情况是存在语音，另一种情况是可能存在大量的噪音，具体的情况还需要进一步去判断；但若确定了第二总能量小于或等于第一阈值，则确定第一声音信号和第二声音信号中一定不包含语音。通过先基于判断第二总能量的大小初步筛选第一声音信号和第二声音信号，有利于提高语音活动检测的准确度。

305、电子设备确定目标能量值是否大于第二阈值，且小于或等于第三阈值，该目标能量值为该第一总能量和该第二总能量之比。若确定目标能量值大于第二阈值，则执行步骤306；若确定目标能量值小于或等于第二阈值，则执行步骤307。

本申请实施例中，该目标能量值为第一总能量和第二总能量之比，目标能量值采用分贝的形式表示即为：其中，ea为第一总能量，eb为第二总能量，m为帧索引。

本申请实施例中，第二阈值用于排除骨传导麦克自身干扰导致的误差，第三阈值用于表示骨传导麦克对噪声的抑制能力。在实际情况下，骨传导麦克由于不直接面对空气中的噪声，因此，第二声音信号中存在的噪声小于第一声音信号中的噪声。在通常情况下，第二总能量略小于第一总能量，第三阈值用于表示骨传导麦克对噪声的抑制能力，若骨传导麦克对噪声的抑制能力越强，则第三阈值越大。因此，仅有当目标能量值大于第二阈值，且小于或等于第三阈值时，第一声音信号和第二声音信号才会包含语音，通过这样的方式，有利于提高语音活动检测的准确性。

306、电子设备确定该第一声音信号和该第二声音信号中具有语音。

307、电子设备确定该第一声音信号和该第二声音信号中不具有语音。

本申请实施例中，若目标能量值大于该第三阈值，则表示强噪声泄露导致，因此在第一声音信号和第二声音信号中不存在语音，例如，假设电子设备为耳机，用户戴着耳机时，有风大量吹向用户的耳朵，对电子设备形成了风噪，导致目标能量值大于第三阈值，即形成了强噪声泄露，因此在第一声音信号和第二声音信号中均不存在语音。若目标能量值小于或等于该第二阈值，表示第二声音信号中可能包含骨传导麦克自身接收到的噪音干扰，例如牙齿碰撞或者其他由骨头发出的声音。

可选的，若连续确定该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。如果多次确定第一声音信号和第二声音信号没有语音，则说明在可能有较长时间接收到的声音信号都不包含语音，因此电子设备可以等待预设时间后再获取第一声音信号和第二声音信号，通过这样的方式可以有效减轻电子设备的负载。

请参阅图4，图4是本申请实施例提供的一种电子设备的结构示意图，该电子设备可以为耳机等相关的设备。该电子设备40中包括处理器401、存储器402、空气传导麦克403和骨传导麦克404。

处理器401可以是中央处理单元(centralprocessingunit，cpu)，该处理器401还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现成可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器，可选的，该处理器401也可以是任何常规的处理器等。

存储器402可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。

可选的，该电子设备40还可以包括除上述所描述的器件以外的器件，例如通信接口，本申请实施例对此不作限定。

其中：

处理器401，用于调用存储器402中存储的程序指令。

存储器402，用于存储程序指令。

空气传导麦克403，用于接收第一声音信号。

骨传导麦克404，用于接收第二声音信号。

处理器401调用存储器402中存储的程序指令，使该电子设备40执行以下操作：从空气传导麦克403获取第一声音信号，从骨传导麦克404获取第二声音信号，该第一声音信号为空气传导麦克403接收的声音信号，该第二声音信号为骨传导麦克404接收的声音信号；确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；确定该第二总能量是否大于第一阈值；若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

如图5所示为本申请实施例提供的一种装置50，用于实现上述图2电子设备的功能。该装置可以是电子设备或用于电子设备的装置。用于电子设备的装置可以为电子设备内的芯片系统或芯片。其中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。图5所示的装置50可以包括获取模块501和语音检测模块502，其中：

该获取模块501，用于获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；该语音检测模块502，用于确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；该语音检测模块502，还用于确定该第二总能量是否大于第一阈值；该语音检测模块502，还用于若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

在一种可能的实现方式中，当该语音检测模块502在基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音时，确定目标能量值是否大于第二阈值，且小于或等于第三阈值，该目标能量值为该第一总能量和该第二总能量之比；若该目标能量值大于该第二阈值，且小于或等于该第三阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，该语音检测模块502，还用于若该目标能量值小于或等于该第二阈值，或目标能量值大于该第三阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，该语音检测模块502，还用于若该第二总能量小于或等于该第一阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，该语音检测模块502，还用于若连续确定接收到的该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

上述装置例如可以是：芯片、或者芯片模组。关于上述实施例中描述的各个装置、产品包含的各个模块，其可以是软件模块，也可以是硬件模块，或者也可以部分是软件模块，部分是硬件模块。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块可以都采用电路等硬件的方式实现，或者，至少部分模块可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块可以都采用电路等硬件的方式实现，不同的模块可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块可以都采用电路等硬件的方式实现，不同的模块可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块可以采用电路等硬件方式实现。

本申请实施例还提供一种芯片，该芯片可以执行前述方法实施例中电子设备的相关步骤。该芯片用于：

获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克接收的声音信号，该第二声音信号为骨传导麦克接收的声音信号；确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；确定该第二总能量是否大于第一阈值；若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

在一种可能的实现方式中，当该芯片在基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音时，确定目标能量值是否大于第二阈值，且小于或等于第三阈值，该目标能量值为该第一总能量和该第二总能量之比；若该目标能量值大于该第二阈值，且小于或等于该第三阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，该芯片，还用于若该目标能量值小于或等于该第二阈值，或目标能量值大于该第三阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，该芯片，还用于若该第二总能量小于或等于该第一阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，该芯片，还用于若连续确定接收到的该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

如图6所示，图6是本申请实施例提供的一种模组设备的结构示意图。该模组设备60可以执行前述方法实施例中终端设备的相关步骤，该模组设备60包括：通信模组601、电源模组602、存储模组603、芯片模组604、空气传导麦克模组605以及骨传导麦克模组606。

其中，所述电源模组602用于为所述模组设备提供电能；所述存储模组603用于存储数据和指令；所述通信模组601用于进行模组设备内部通信，或者用于所述模组设备与外部设备进行通信；所述空气传导麦克模组605用于接收第一声音信号；所述骨传导麦克模组606用于接收第二声音信号；所述芯片模组604用于：

获取第一声音信号和第二声音信号，该第一声音信号为空气传导麦克模组605接收的声音信号，该第二声音信号为骨传导麦克模组606接收的声音信号；确定该第一声音信号的第一总能量和该第二声音信号的第二总能量；确定该第二总能量是否大于第一阈值；若该第二总能量大于该第一阈值，则基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音。

在一种可能的实现方式中，当该芯片模组604在基于该第一总能量和该第二总能量确定该第一声音信号和该第二声音信号中是否具有语音时，确定目标能量值是否大于第二阈值，且小于或等于第三阈值，该目标能量值为该第一总能量和该第二总能量之比；若该目标能量值大于该第二阈值，且小于或等于该第三阈值，则确定该第一声音信号和该第二声音信号中具有语音。

在一种可能的实现方式中，该芯片模组604，还用于若该目标能量值小于或等于该第二阈值，或目标能量值大于该第三阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，该芯片模组604，还用于若该第二总能量小于或等于该第一阈值，则确定该第一声音信号和该第二声音信号中不具有语音。

在一种可能的实现方式中，该芯片模组604，还用于若连续确定接收到的该第一声音信号和该第二声音信号中不具有语音的次数超过预设次数，则等待预设时间后再获取该第一声音信号和该第二声音信号。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在处理器上运行时，上述方法实施例的方法流程得以实现。

本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在处理器上运行时，上述方法实施例的方法流程得以实现。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些操作可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请提供的各实施例的描述可以相互参照，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。为描述的方便和简洁，例如关于本申请实施例提供的各装置、设备的功能以及执行的操作可以参照本申请方法实施例的相关描述，各方法实施例之间、各装置实施例之间也可以互相参考、结合或引用。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音生物识别认证实时检测方法及系统与流程

一种语音活动检测的方法、电子设备及装置与流程

相关文章

最热文献