一种双讲状态的检测方法、装置、计算机设备及存储介质与流程

2021-09-04 10:00:00 来源：中国专利 TAG：信号处理检测方法装置音频状态

1.本发明实施例涉及音频信号处理技术领域，尤其涉及一种双讲状态的检测方法、装置、计算机设备及存储介质。

背景技术：

2.随着信息技术的不断发展，各种各样的分布式智能硬件在各个领域的应用日益广泛，回声抑制成为相关领域技术人员研究的热点。在因特网上进行语音的实时传输已经应用广泛，影响语音质量的关键的因素之一即是回声问题。其中，回声消除算法的一个关键指标是双讲检测，如果在回声消除算法中双讲检测不准，那么就会出现语音断续。因此，在回声消除处理中，双讲检测对于语音质量至关重要。
3.目前，双讲检测大多是基于传统时/频域计算来实现的，即通过远端语音与近端语音的互相关系数、频谱计算等思想来进行的。然而，现有技术中至少存在如下问题：由于网络电话(voip)语音通信中，回声产生的原因比较复杂，具有回声源复杂、回声路径延迟大、通话场景多变、通话设备类型多变等特点，而传统的双讲检测算法迭代的因子和采用的参数基本是固定的，因此具有局限性，无法随着说话语境/场景的变换进行有效的调整。

技术实现要素：

4.本发明实施例提供一种双讲状态的检测方法、装置、计算机设备及存储介质，以提高双讲状态检测的准确性，并适应多种场景，以减少由于误检而造成的语音断续的问题。
5.第一方面，本发明实施例提供了一种双讲状态的检测方法，该方法包括：
6.获取远端语音参考信号和近端信号；
7.根据所述远端语音参考信号和所述近端信号确定近端麦克风输入信号；
8.将所述远端语音参考信号经过预设的自适应滤波器，得到估计回声信号；
9.根据所述近端麦克风输入信号和所述估计回声信号确定残留回声输出信号；
10.根据所述估计回声信号、所述近端信号和所述残留回声输出信号计算双讲检测判定值；
11.根据所述双讲检测判定值确定当前是否为双讲状态。
12.第二方面，本发明实施例还提供了一种双讲状态的检测装置，该装置包括：
13.信号获取模块，用于获取远端语音参考信号和近端信号；
14.近端麦克风输入信号确定模块，用于根据所述远端语音参考信号和所述近端信号确定近端麦克风输入信号；
15.估计回声信号获得模块，用于将所述远端语音参考信号经过预设的自适应滤波器，得到估计回声信号；
16.残留回声输出信号确定模块，用于根据所述近端麦克风输入信号和所述估计回声信号确定残留回声输出信号；
17.双讲检测判定值计算模块，用于根据所述估计回声信号、所述近端信号和所述残
留回声输出信号计算双讲检测判定值；
18.双讲状态确定模块，用于根据所述双讲检测判定值确定当前是否为双讲状态。
19.第三方面，本发明实施例还提供了一种计算机设备，该计算机设备包括：
20.一个或多个处理器；
21.存储器，用于存储一个或多个程序；
22.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的双讲状态的检测方法。
23.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的双讲状态的检测方法。
24.本发明实施例提供了一种双讲状态的检测方法，首先获取远端语音参考信号和近端信号，然后根据该远端语音参考信号和近端信号确定近端麦克风输入信号，同时可将远端语音参考信号经过预设的自适应滤波器，得到估计回声信号，再根据得到的近端麦克风输入信号和估计回声信号确定残留回声输出信号，最终即可根据得到的估计回声信号、近端信号以及残留回声输出信号计算双讲检测判定值，从而根据该双讲检测判定值确定当前是否为双讲状态。本发明实施例所提供的双讲状态的检测方法，通过每次根据估计回声信号、近端信号和残留回声输出信号自适应的计算双讲检测判定值来判断当前是否为双讲状态，提高了双讲状态检测的准确性，并可以适应多种说话语境或场景，相比于现有技术具有更高的鲁棒性，减少了由于误检测而造成的语音断续的问题。
附图说明
25.图1为本发明实施例一提供的双讲状态的检测方法的流程图；
26.图2为本发明实施例二提供的双讲状态的检测装置的结构示意图；
27.图3为本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
28.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
29.在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
30.实施例一
31.图1为本发明实施例一提供的双讲状态的检测方法的流程图。本实施例可适用于消除麦克风采集信号中的回声的情况，该方法可以由本发明实施例所提供的双讲状态的检测装置来执行，该装置可以由硬件和/或软件的方式来实现，一般可集成于计算机设备中。如图1所示，具体包括如下步骤：
32.s11、获取远端语音参考信号和近端信号。
33.具体的，如在因特网上进行语音的实时传输过程中，本地的计算机设备可以通过麦克风采集近端信号并向外传输，同时还可以通过扬声器将接收到的音频信号进行播放，则麦克风在采集近端信号的同时，还可能实际采集到扬声器所播放的音频信号，从而产生回声，则可以将扬声器所播放的音频信号作为远端语音参考信号。
34.s12、根据所述远端语音参考信号和所述近端信号确定近端麦克风输入信号。
35.具体的，在获取到远端语音参考信号和近端信号之后，可以根据这两个信号计算得到麦克风实际采集得到的信号，即近端麦克风输入信号。
36.其中，可选的，所述根据所述远端语音参考信号和所述近端信号确定近端麦克风输入信号，包括：
37.y(n)＝z(n) ξ*x(n)
38.其中，y(n)表示所述近端麦克风输入信号，z(n)表示所述近端信号，x(n)表示所述远端语音参考信号，ξ*x(n)表示所述远端语音参考信号的直接声音与反射声音的叠加。
39.s13、将所述远端语音参考信号经过预设的自适应滤波器，得到估计回声信号。
40.具体的，在获取到远端语音参考信号之后，还可以将远端语音参考信号输入预设的自适应滤波器，从而得到估计回声信号。其中，经过自适应滤波器所得到的估计回声信号可以是其中的n可以是划分子带的数量。
41.s14、根据所述近端麦克风输入信号和所述估计回声信号确定残留回声输出信号。
42.具体的，在得到近端麦克风输入信号和估计回声信号之后，可以根据这两个信号计算得到残留回声输出信号，即可以是去除回声后的信号。
43.其中，可选的，所述根据所述近端麦克风输入信号和所述估计回声信号确定残留回声输出信号，包括：
[0044][0045]
其中，e(n)表示所述残留回声输出信号，y(n)表示所述近端麦克风输入信号，表示所述估计回声信号。
[0046]
s15、根据所述估计回声信号、所述近端信号和所述残留回声输出信号计算双讲检测判定值。
[0047]
具体的，在得到估计回声信号、近端信号和残留回声输出信号之后，即可根据这三个信号计算得到双讲检测判定值，从而根据该双讲检测判定值确定当前是否处于双讲状态。
[0048]
其中，可选的，所述根据所述估计回声信号、所述近端信号和所述残留回声输出信号计算双讲检测判定值，包括：
[0049][0050]
其中，λ表示所述双讲检测判定值，表示所述估计回声信号，e(n)表示所述残留回声输出信号，z(n)表示所述近端信号，表示所述估计回声信号的均方差，表
示所述残留回声输出信号的均方差，表示所述近端信号的均方差，μ表示放大因子，具体可以是μ≥1。通过计算时域信号的统计特性均方差来计算双讲检测判定值，可以使得该方法具有更高的鲁棒性。
[0051]
s16、根据所述双讲检测判定值确定当前是否为双讲状态。
[0052]
可选的，所述双讲检测判定值包括各子带的所述双讲检测判定值，所述根据所述双讲检测判定值确定当前是否为双讲状态，包括：分别将各子带的所述双讲检测判定值与预设判定值阈值进行比较，并统计对应的所述双讲检测判定值大于等于所述预设判定值阈值的子带数量；将所述子带数量与预设数量进行比较，若所述子带数量大于等于所述预设数量，则确定当前为单讲状态，否则确定当前为双讲状态。其中，可选的，所述预设判定值阈值为0
‑
1，因为残留回声输出信号远小于自适应滤波器的输出信号，当近端信号接近0时，双讲检测判定值接近1，当近端信号不为0时，双讲检测判定值将明显小于1。由于预设判定值阈值可以是0
‑
1，同时通过放大因子μ的作用，对双讲检测可以有很高的区分度。具体的，在计算得到各个子带的双讲检测判定值之后，可以分别与预设判定值阈值进行比较，并统计双讲检测判定值大于等于预设判定值阈值的子带数量，再将该子带数量与预设数量进行比较，若存在超过预设数量的子带的双讲检测判定值大于等于预设判定值阈值的情况时，则可判定当前为单讲状态，否则即为双讲状态。通过设置预设数量，可以调整双讲检测的灵敏度，且预设数量的设定并不受限于环境因素。
[0053]
在上述技术方案的基础上，可选的，在所述根据所述双讲检测判定值确定当前是否为双讲状态之后，还包括：若确定当前为双讲状态，则将所述残留回声输出信号作为最终的输出信号，以完成回声抑制。具体的，若确定当前处于双讲状态，则需要对回声进行消除，具体可以包括：获取远端语音参考信号x(n)；将x(n)经过自适应滤波器，得到输出信号同时可获得近端麦克风输入信号为y(n)＝z(n) ξ*x(n)，其中，z(n)为近端信号，ξ*x(n)为远端语音参考信号的直接声音与反射声的叠加；计算输出信号完成回声抑制。
[0054]
本发明实施例所提供的技术方案，首先获取远端语音参考信号和近端信号，然后根据该远端语音参考信号和近端信号确定近端麦克风输入信号，同时可将远端语音参考信号经过预设的自适应滤波器，得到估计回声信号，再根据得到的近端麦克风输入信号和估计回声信号确定残留回声输出信号，最终即可根据得到的估计回声信号、近端信号以及残留回声输出信号计算双讲检测判定值，从而根据该双讲检测判定值确定当前是否为双讲状态。通过每次根据估计回声信号、近端信号和残留回声输出信号自适应的计算双讲检测判定值来判断当前是否为双讲状态，提高了双讲状态检测的准确性，并可以适应多种说话语境或场景，相比于现有技术具有更高的鲁棒性，减少了由于误检测而造成的语音断续的问题。
[0055]
实施例二
[0056]
图2为本发明实施例二提供的双讲状态的检测装置的结构示意图，该装置可以由硬件和/或软件的方式来实现，一般可集成于计算机设备中，用于执行本发明任意实施例所提供的双讲状态的检测方法。如图2所示，该装置包括：
[0057]
信号获取模块21，用于获取远端语音参考信号和近端信号；
[0058]
近端麦克风输入信号确定模块22，用于根据所述远端语音参考信号和所述近端信号确定近端麦克风输入信号；
[0059]
估计回声信号获得模块23，用于将所述远端语音参考信号经过预设的自适应滤波器，得到估计回声信号；
[0060]
残留回声输出信号确定模块24，用于根据所述近端麦克风输入信号和所述估计回声信号确定残留回声输出信号；
[0061]
双讲检测判定值计算模块25，用于根据所述估计回声信号、所述近端信号和所述残留回声输出信号计算双讲检测判定值；
[0062]
双讲状态确定模块26，用于根据所述双讲检测判定值确定当前是否为双讲状态。
[0063]
本发明实施例所提供的技术方案，首先获取远端语音参考信号和近端信号，然后根据该远端语音参考信号和近端信号确定近端麦克风输入信号，同时可将远端语音参考信号经过预设的自适应滤波器，得到估计回声信号，再根据得到的近端麦克风输入信号和估计回声信号确定残留回声输出信号，最终即可根据得到的估计回声信号、近端信号以及残留回声输出信号计算双讲检测判定值，从而根据该双讲检测判定值确定当前是否为双讲状态。通过每次根据估计回声信号、近端信号和残留回声输出信号自适应的计算双讲检测判定值来判断当前是否为双讲状态，提高了双讲状态检测的准确性，并可以适应多种说话语境或场景，相比于现有技术具有更高的鲁棒性，减少了由于误检测而造成的语音断续的问题。
[0064]
在上述技术方案的基础上，可选的，双讲状态确定模块26，包括：
[0065]
子带数量统计单元，用于分别将各子带的所述双讲检测判定值与预设判定值阈值进行比较，并统计对应的所述双讲检测判定值大于等于所述预设判定值阈值的子带数量；
[0066]
子带数量比较单元，用于将所述子带数量与预设数量进行比较，若所述子带数量大于等于所述预设数量，则确定当前为单讲状态，否则确定当前为双讲状态。
[0067]
在上述技术方案的基础上，可选的，所述预设判定值阈值为0
‑
1。
[0068]
在上述技术方案的基础上，可选的，近端麦克风输入信号确定模块22具体用于：
[0069]
y(n)＝z(n) ξ*x(n)
[0070]
其中，y(n)表示所述近端麦克风输入信号，z(n)表示所述近端信号，x(n)表示所述远端语音参考信号，ξ*x(n)表示所述远端语音参考信号的直接声音与反射声音的叠加。
[0071]
在上述技术方案的基础上，可选的，残留回声输出信号确定模块24具体用于：
[0072][0073]
其中，e(n)表示所述残留回声输出信号，y(n)表示所述近端麦克风输入信号，表示所述估计回声信号。
[0074]
在上述技术方案的基础上，可选的，双讲检测判定值计算模块25具体用于：
[0075][0076]
其中，λ表示所述双讲检测判定值，表示所述估计回声信号，e(n)表示所述残
留回声输出信号，z(n)表示所述近端信号，表示所述估计回声信号的均方差，表示所述残留回声输出信号的均方差，表示所述近端信号的均方差，μ表示放大因子。
[0077]
在上述技术方案的基础上，可选的，该双讲状态的检测装置，还包括：
[0078]
回声抑制模块，用于在所述根据所述双讲检测判定值确定当前是否为双讲状态之后，若确定当前为双讲状态，则将所述残留回声输出信号作为最终的输出信号，以完成回声抑制。
[0079]
本发明实施例所提供的双讲状态的检测装置可执行本发明任意实施例所提供的双讲状态的检测方法，具备执行方法相应的功能模块和有益效果。
[0080]
值得注意的是，在上述双讲状态的检测装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
[0081]
实施例三
[0082]
图3为本发明实施例三提供的计算机设备的结构示意图，示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图3显示的计算机设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图3所示，该计算机设备包括处理器31、存储器32、输入装置33及输出装置34；计算机设备中处理器31的数量可以是一个或多个，图3中以一个处理器31为例，计算机设备中的处理器31、存储器32、输入装置33及输出装置34可以通过总线或其他方式连接，图3中以通过总线连接为例。
[0083]
存储器32作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的双讲状态的检测方法对应的程序指令/模块(例如，双讲状态的检测装置中的信号获取模块21、近端麦克风输入信号确定模块22、估计回声信号获得模块23、残留回声输出信号确定模块24、双讲检测判定值计算模块25及双讲状态确定模块26)。处理器31通过运行存储在存储器32中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述的双讲状态的检测方法。
[0084]
存储器32可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器32可进一步包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0085]
输入装置33可用于获取远端语音参考信号和近端信号，以及产生与计算机设备的用户设置和功能控制有关的键信号输入等。输出装置34可用于输出处理后的目标音频数据等。
[0086]
实施例四
[0087]
本发明实施例四还提供一种包含计算机可执行指令的存储介质，该计算机可执行指令在由计算机处理器执行时用于执行一种双讲状态的检测方法，该方法包括：
[0088]
获取远端语音参考信号和近端信号；
[0089]
根据所述远端语音参考信号和所述近端信号确定近端麦克风输入信号；
[0090]
将所述远端语音参考信号经过预设的自适应滤波器，得到估计回声信号；
[0091]
根据所述近端麦克风输入信号和所述估计回声信号确定残留回声输出信号；
[0092]
根据所述估计回声信号、所述近端信号和所述残留回声输出信号计算双讲检测判定值；
[0093]
根据所述双讲检测判定值确定当前是否为双讲状态。
[0094]
存储介质可以是任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如cd
‑
rom、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如dram、ddr ram、sram、edo ram、兰巴斯(rambus)ram等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
[0095]
当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的双讲状态的检测方法中的相关操作。
[0096]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0097]
计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0098]
通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read
‑
only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
[0099]
注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于萤火虫算法与梯度评估的对抗音频生成方法及系统与流程

一种双讲状态的检测方法、装置、计算机设备及存储介质与流程

相关文章

最热文献