音频处理方法、装置、设备及存储介质与流程

2021-11-10 02:57:00 来源：中国专利 TAG：

1.本发明实施例涉及音频处理领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术：

2.目前，随着远程通讯需求的日益加强，会议系统已逐渐成为大众远程会议的主要媒介，但是传统电话会议机形态笨重，便携性差，近年来会议系统的相关产品逐渐向小型化发展，越来越多大众选择使用小型会议宝产品进行远程多人会议，该会议宝产品可同时多方通话提供高质、快捷、高效的音频会议服务。
3.相关技术中，会议宝产品使用范围较小，声音功率不大，若在一个较大会议室中连接至少两个会议宝以保证整个会议室的参会人员均可听到会议内容，但是会议宝之间会存在音频干扰(例如，会议宝会a同时收到会议宝会a收到的声音以及会议宝会b发送给会议宝会a的声音，会议宝a若同时传输这两种语音，则会出现音频干扰的情况)，会降低音频会议的体验。

技术实现要素：

4.鉴于此，为解决上述技术问题或部分技术问题，本发明实施例提供一种音频处理方法、装置、设备及存储介质。
5.第一方面，本发明实施例提供一种音频处理方法，包括：
6.第一设备接收第一语音和第二语音，其中，所述第一语音为第一设备接收到的语音，所述第二语音为第二设备接收到的、且发送给第一设备的语音；
7.确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合，所述第一信号参数集合包括多个第一信号参数，所述第二信号参数集合包括多个第二信号参数，所述第一信号参数和所述第二信号参数均用于指示信号强弱；
8.对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；
9.对所述第一语音和所述第二语音进行语音活动检测，得到检测结果；
10.根据所述检测结果和所述目标语音对所述第一设备当前的传输语音进行控制，所述传输语音为所述第一语音或所述第二语音。
11.在一个可能的实施方式中，所述根据所述检测结果和所述目标语音对所述第一设备当前的传输语音进行控制，包括：
12.若所述检测结果为所述第一语音或所述第二语音中存在有话帧，则控制所述第一设备保持当前的所述传输语音不变；若所述检测结果为所述第一语音和所述第二语音中均不存在有话帧，则判断所述目标语音与所述传输语音是否相同；在所述目标语音与所述传输语音不同时，控制所述第一设备将当前的所述传输语音切换为所述目标语音；在所述目
标语音与所述传输语音相同时，控制所述第一设备保持当前的所述传输语音不变。
13.在一个可能的实施方式中，所述确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合，包括：
14.对所述第一语音和第二语音进行预处理，得到所述第一语音对应的多帧语音信号，以及所述第二语音对应的多帧语音信号，其中，所述预处理至少包括：分帧处理和下采样处理；
15.确定所述第一语音中每帧语音信号对应的第一信号参数，得到第一信号参数集合，所述第一信号参数集合中的每个所述第一信号参数携带有第一时序信息，所述第一时序信息与所述第一语音中每帧语音信号的时序相同；
16.确定所述第二语音中每帧语音信号对应的第二信号参数，得到第二信号参数集合，所述第二信号参数集合中的每个所述第二信号参数携带有第二时序信息，所述第二时序信息与所述第二语音中每帧语音信号的时序相同。
17.在一个可能的实施方式中，所述对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音，包括：
18.在第一时序信息与第二时序信息一致的情况下，对所述第一语音中每帧语音信号对应的第一信号参数和所述第二语音中每帧语音信号的第二信号参数对应的信号强弱进行比对；
19.从所述第一语音或第二语音中确定一帧或连续多帧语音信号对应的信号参数对应的信号强度最大的作为目标语音。
20.在一个可能的实施方式中，所述第一信号参数包括信噪比，所述第二信号参数包括信噪比；
21.所述确定所述第一语音中每帧语音信号对应的第一信号参数，包括：
22.采用维纳滤波对所述第一语音中的每帧语音信号进行滤波处理；
23.确定滤波后的所述第一语音中的每帧语音信号对应的第一信噪比；
24.所述确定所述第二语音中每帧语音信号对应的第二信号参数，包括：
25.采用维纳滤波对所述第二语音中的每帧语音信号进行滤波处理；
26.确定滤波后的所述第二语音中的每帧语音信号对应的第二信噪比。
27.在一个可能的实施方式中，所述方法还包括：
28.在根据时序信息确定所述第一语音和所述第二语音存在延迟时，通过互相关函数确定所述第一语音和所述第二语音之间的延迟时间；
29.基于所述延迟时间执行所述第一语音和所述第二语音的时间对齐操作。
30.在一个可能的实施方式中，所述方法还包括：在所述第一设备当前的所述传输语音执行切换操作过程中，控制当前的所述传输语音淡出以及控制所述目标语音淡入，以使由所述传输语音切换至所述目标语音的过程趋于平滑。
31.第二方面，本发明实施例提供一种音频处理装置，包括：
32.接收模块，用于接收第一语音和第二语音，其中，所述第一语音为第一设备接收到的语音，所述第二语音为第二设备接收到的、且发送给第一设备的语音；
33.第一确定模块，用于确定所述第一语音对应的第一信号参数集合，以及所述第二
语音对应的第二信号参数集合，所述第一信号参数集合包括多个第一信号参数，所述第二信号参数集合包括多个第二信号参数，所述第一信号参数和所述第二信号参数均用于指示信号强弱；
34.第二确定模块，用于对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；
35.检测模块，用于对所述第一语音和所述第二语音进行语音活动检测，得到检测结果；
36.控制模块，用于根据所述检测结果和所述目标语音对所述第一设备当前的传输语音进行控制，所述传输语音为所述第一语音或所述第二语音。
37.第三方面，本发明实施例提供一种设备，包括：处理器和存储器，所述处理器用于执行所述存储器中存储的音频处理程序，以实现上述第一方面中任一项所述的音频处理方法。
38.第四方面，本发明实施例提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面中任一项所述的音频处理方法。
39.本发明实施例提供的音频处理方案，通过第一设备接收第一语音和第二语音；确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合；对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；对所述目标语音和第三语音进行语音活动检测，所述第三语音为第一设备的传输语音；根据检测结果对所述第一设备的所述传输语音进行控制，通过检测信号参数的方式判断是否需要进行传输语音的切换，避免出现收到语音直接进行切换造成的语音波动的情况，以及通过语音活动检测避免出现语音中断提升语音传输的稳定性。
附图说明
40.图1为本发明实施例提供的一种音频处理方法的流程示意图；
41.图2为本发明实施例提供的另一种音频处理方法的流程示意图；
42.图3为本发明实施例提供的一种音频处理装置的结构示意图；
43.图4为本发明实施例提供的一种的设备的结构示意图。
具体实施方式
44.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。
46.图1为本发明实施例提供的一种音频处理方法的流程示意图，如图1所示，该方法
具体包括：
47.s11、第一设备接收第一语音和第二语音，其中，所述第一语音为第一设备接收到的语音，所述第二语音为第二设备接收到的、且发送给第一设备的语音。
48.本发明实施例提供的音频处理方法应用于音视频会议领域，通过对当前设备收到的至少两个语音进行信号强度检测、语音活动检测，进而确定当前设备是否需要执行传输语音切换。
49.在本实施例中，第一设备和第二设备为音视频会议中具备音频收发功能的设备，该第一设备和第二设备可设置于同一会议室中，或不同会议室中，第一设备为主设备，第二设备为从设备，第一设备的数量为一个，第二设备的数量可以为一个或多个，其中，第二设备与第一设备建立有线(如，网线、数据线等)或无线(如，局域网等)连接。
50.第一设备实时接收外部的语音以及第二设备发送给第一设备的语音，将第一语音作为第一设备接收到的外部语音，将第二语音作为第二设备接收到的、且发送给第一设备的语音。
51.进一步地，在第一设备接收到两个语音后才会涉及语音的切换，也即第一设备播放哪个语音，以及第一设备将哪个语音发送给第二设备，以使第二设备进行播放。
52.s12、确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合，所述第一信号参数集合包括多个第一信号参数，所述第二信号参数集合包括多个第二信号参数，所述第一信号参数和所述第二信号参数均用于指示信号强弱。
53.在本实施例中，将第一设备接收到的第一语音和第二语音进行分帧，也即按照固定的时间长度将第一语音和第二语音进行拆分，得到第一语音对应的多个第一语音帧集合以及第二语音对应的多个第二语音帧集合。
54.进一步地，针对第一语音帧集合中的每个语音帧进行信号参数的获取，该信号参数用于指示信号的强弱，该信号参数可以是信噪比或信号强度等，进而得到第一语音帧集合对应的第一信号参数集合，以及第二语音帧集合对应的第二信号参数集合。
55.s13、对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音。
56.针对第一语音对应的第一信号参数集合，第二语音对应的第二信号参数集合，进行信号参数比对，由于第一语音与第一信号参数存在对应关系，第二语音与第二信号参数存在对应关系，将第一信号参数与第二信号参数进行信号强度比对后，可对应确定第一语音与第二语音的信号优劣，从而可确定将第一语音作为目标语音还是将第二语音作为目标语音，这里的信号优劣可以为信号比的对比优劣或是音量大小的对比优劣等。该目标语音可以理解为可能需要切换的语音，但还需要对目标语音作进一步判断。
57.信号参数的对比方式，可以理解是按照时序或其它等形式将第一语音对应的第一语音帧集合和第二语音对应的第二语音帧集合进行信号参数的对比，具体可以是：将第一语音帧集合与第二语音帧集合时序相同的语音帧进行信号参数对应的信号强度的比对。
58.s14、对所述第一语音和所述第二语音进行语音活动检测，得到检测结果。
59.s15、根据所述检测结果和所述目标语音对所述第一设备当前的传输语音进行控制，所述传输语音为所述第一语音或所述第二语音。
60.在本实施例中，在对第一设备当前的传输语音进行控制前，需要对第一语音和第二语音进行语音活动检测(voice activity detection，vad)，得到检测结果；vad检测的过程可以理解为对语音进行有话帧检测，也即判断该语音中是否存在会议参与者说话。
61.若所述检测结果为第一语音或第二语中存在有话帧，则控制所述第一设备保持当前的所述传输语音不变；若所述检测结果为第一语音和第二语音中均不存在有话帧，则控制所述第一设备执行将所述传输语音切换至目标语音的操作。
62.具体地，通过对第一语音和第二语音进行vad检测，在检测结果为第一语音或第二语音中存在有话帧，表明第一设备和第二设备接收到的语音均存在会议参与者说话，此时，第一设备当前的传输语音为第一语音或第二语音，为保持该第一语音或第二语音的传输不被打断，因此控制第一设备保持当前的所述传输语音不变；在检测结果为第一语音和第二语音中均不存在有话帧，表明第一设备和第二设备接收到的语音均不存在会议参与者说话，且目标语音的信号参数又最好，则控制所述第一设备执行将所述传输语音切换至目标语音的操作，在不丢失会议参与者存在说话语音的前提下又将传输语音切换至信号参数最好的语音，提升整个音视频会议的体验。本发明实施例提供的音频处理方法，通过第一设备接收第一语音和第二语音；确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合；对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；对所述目标语音和第三语音进行语音活动检测，所述第三语音为第一设备的传输语音；根据检测结果对所述第一设备的所述传输语音进行控制，通过检测信号参数的方式判断是否需要进行传输语音的切换，避免出现收到语音直接进行切换造成的语音波动的情况，以及通过语音活动检测避免出现语音中断提升语音传输的稳定性。
63.图2为本发明实施例提供的另一种音频处理方法的流程示意图，如图2所示，该方法具体包括：
64.s21、第一设备接收第一语音和第二语音，其中，所述第一语音为第一设备接收到的语音，所述第二语音为第二设备接收到的、且发送给第一设备的语音。
65.在本实施例中，以下将以第一设备和第二设备设置于同一会议室中，第二设备的数量为1个，相应地，第二语音的数量也为1个，为例进行介绍，需要说明的是在第二设备的数量多于1个时，判断过程与控制逻辑与第二设备为1个时类似，可参照本实施例的相关介绍。
66.进一步地，第一设备实时接收外部的语音以及第二设备发送给第一设备的语音，将第一语音作为第一设备接收到的外部语音，将第二语音作为第二设备接收到的、且发送给第一设备的语音。
67.第一语音和第二语音可以是包含有一个语音帧或多个语音帧的集合，语音帧的长度可以根据对语音按照时间长度进行分帧的结果确定，例如，一个语音帧的长度为20ms。
68.需要说明的是，在第一设备和第二设备采用有线的形式连接时，第一设备和第二设备之间的语音延迟可忽略不记，在第一设备和第二设备采用无线的形式连接时，第一设备和第二设备之间可能存在语音延迟，难以得到第一语音与第二语音的准确对比信息，因此，需要根据二者语音之间的延迟时间对第一语音和第二语音进行对齐处理，以便于对第一信号参数、第二信号参数进行对比，得出第一语音与第二语音的信号强弱。
69.具体地，在根据时序信息(该时序信息是指第一语音或第二语音中每帧语音信号的时序)确定所述第一语音和所述第二语音存在延迟时，通过互相关函数确定所述第一语音和所述第二语音之间的延迟时间；基于所述延迟时间执行所述第一语音和所述第二语音的时间对齐操作。
70.互相关函数可以是：
[0071][0072]
其中，x1、x2分别为第一语音和第二语音进行快速傅立叶运算后的信号，w为频域，也即，x1为第一语音在频域上的第一信号，x2为第二语音在频域上的第二信号。
[0073]
再根据上述公式对第一信号和第二信号进行逆傅立叶运算，把频域上的信号转为时域信号，具体可采用如下公式：
[0074][0075][0076]
在r取最大值时，可得到其最优的延迟时间
[0077][0078]
s22、对所述第一语音和第二语音进行预处理，得到所述第一语音对应的多帧语音信号，以及所述第二语音对应的多帧语音信号，其中，所述预处理至少包括：分帧处理和下采样处理。
[0079]
在本实施例中，为提升整个传输语音切换过程的计算效率，对第一语音和第二语音进行预处理，该预处理的步骤可以包括：分帧处理和下采样处理等分帧处理的过程可以理解为将语音按照一定的时间长度进行拆分，使得经过分帧后的语音帧对应的时间区间一致，下采样处理可以包括：将语音按照预设的频率进行采样，使得采样后的语音帧频率相同。
[0080]
在本实施例的一示例中，对第一语音和第二语音按照每语音帧为20ms的标准进行分帧处理，以及下采样到8k频率。
[0081]
对于分帧对应的时间区间以及下采样的频域，可根据实际需求进行设定，对此，本实施例不作具体限定。
[0082]
s23、确定所述第一语音中每帧语音信号对应的第一信号参数，得到第一信号参数集合，所述第一信号参数集合中的每个所述第一信号参数携带有第一时序信息，所述第一时序信息与所述第一语音中每帧语音信号的时序相同。
[0083]
将第一语音进行分帧后，得到一带有时序信息的语音帧集合，在该集合中包含有一帧或多帧语音信号，根据该集合中的每帧语音信号得到其对应的第一信号参数，进而得到第一语音对应的第一信号参数集合。
[0084]
因分帧后的语音帧携带有时序信息，所以得到的第一信号参数集合中也携带有时序信息，也即，第一信号参数集合中的每个所述第一信号参数携带有第一时序信息，所述第一时序信息与所述第一语音中每帧语音信号的时序相同。
[0085]
在本实施例中，第一信号参数可以是信噪比，相应地，获取第一信号参数信息可以包括：采用维纳滤波对所述第一语音中的每帧语音信号进行滤波处理；确定滤波后的所述第一语音中的每帧语音信号对应的第一信噪比。
[0086]
具体地，在实际应用中，因噪声过大会造成语音的信噪比计算不准确，因此，对接收到的每帧语音信号进行噪声估计，再修正其语音概率，得到降噪的参数，再经过滤波器，得到一相对准确的信噪比，也即，先预估信噪比，再经过滤波器得到准确的信噪比。
[0087]
在本发明实施例的一示例中，可采用“robust signal
‑
to
‑
noise ratio estimation based on waveform amplitude distribution analysis”的方式进行预估信噪比，该方式是基于把语音帧用gamma分布而噪声用gaussian的函数来模拟(可提前采用维纳滤波进行滤波，对接收到的每帧语音信号进行噪声估计，再修正其语音概率，得到降噪的参数)，得到预估的信噪比；将预估的信噪比采用卡尔曼滤波，得到一相对准确的信噪比。
[0088]
在本发明实施例的一可选方案中，在音视频会议的环境没有噪声或噪声较小可忽略不记时，第一参数信息可以是信号强度，可以直接根据第一语音中的每帧语音信号得到其对应的信号强度值。
[0089]
s24、确定所述第二语音中每帧语音信号对应的第二信号参数，得到第二信号参数集合，所述第二信号参数集合中的每个所述第二信号参数携带有第二时序信息，所述第二时序信息与所述第二语音中每帧语音信号的时序相同。
[0090]
根据第二语音得到其对应的第二语音参数集合的步骤与得到低于语音参数集合的步骤类似，为简洁描述，可参照s22中的相关描述，在此，不做赘述。
[0091]
s25、在第一时序信息与第二时序信息一致的情况下，对所述第一语音中每帧语音信号对应的第一信号参数和所述第二语音中每帧语音信号的第二信号参数对应的信号强弱进行比对。
[0092]
在本实施例中，根据前述步骤得到的携带有时序信息的第一信号参数集合和第二信号参数集合，在第一时序信息与第二时序信息一致的情况下即不存在延时，对第一语音中每帧语音信号对应的第一信号参数和所述第二语音中每帧语音信号的第二信号参数对应的信号强弱进行比对，比对的过程可以是比对信噪比或信号强度的大小。
[0093]
在一示例中，第一语音对应的语音帧集合包括：语音帧a1(20ms)、语音帧a2(40ms)、语音帧a3(60ms)
…
，第一语音对应的语音帧集合包括：语音帧b1(20ms)、语音帧b2(40ms)、语音帧b3(60ms)
…
，将语音帧a1的信号参数与语音帧b1的信号参数对应的信号强弱进行比对。
[0094]
s26、从所述第一语音或第二语音中确定一帧或连续多帧语音信号对应的信号参数对应的信号强度最大的作为目标语音。
[0095]
在本实施例中，在对第一语音中每帧语音信号对应的第一信号参数和所述第二语音中每帧语音信号的第二信号参数对应的信号强弱进行比对过程中，将第一语音或第二语音中确定一帧或连续多帧语音信号对应的信号参数对应的信号强度最大的作为目标语音。
[0096]
在一示例中，若连续五个语音帧对应的信号参数对应的信号强度均最大时，将该语音作为目标语音，也即，若在1s中内，该语音对应的信号参数对应的信号强度最大，则将该语音作为目标语音。
[0097]
在确定目标语音后，为避免非必要的切换(信号参数最大并不代表当前待传输语
音)，因此，还需要对目标语音和当前的传输语音进行vad检测。
[0098]
s27、对所述第一语音和所述第二语音进行语音活动检测，得到检测结果。
[0099]
s28、若所述检测结果为所述第一语音或所述第二语音中存在有话帧，则控制所述第一设备保持当前的所述传输语音不变。
[0100]
在本实施例中，对第一语音和第二语音进行vad检测，检测的过程是判断第一语音和第二语音中是否存在有话帧(也即是否存在会议参与人员说话)，包括：判断同一句话语中是否存在前后字句的间断时刻，如，当前检测到的音频为“今天天气很好”，则检测是否处于“天”与“气”之间的间断时刻，或，未检测到音频输入的静默时刻。经vad检测，在第一语音或第二语音中任一个存在有话帧时，也即，目标语音虽然信号强度最好，但因第一语音或第二语音中存在会议参与人员说话，为保持该第一语音或第二语音的传输不被打断，因此，不能做传输语音切换，控制第一设备保持当前的所述传输语音不变，也即，第一设备的传输语音保持不变，仍需对第一语音和第二语音的下一语音帧进行判断。避免造成突然断句，如，不会出现一个读音“天”被无故断掉一半、导致单字音节不全的语音切换现象。
[0101]
s29、若所述检测结果为所述第一语音和所述第二语音中均不存在有话帧，则判断所述目标语音与所述传输语音是否相同；在所述目标语音与所述传输语音不同时，控制所述第一设备将当前的所述传输语音切换为所述目标语音；在所述目标语音与所述传输语音相同时，控制所述第一设备保持当前的所述传输语音不变。
[0102]
在本实施例中，经vad检测，在第一语音和第二语音中均不存在有话帧时，也即，目标语音信号强度最好，且第一语音和第二语音中没有会议参与人员说话，因此，可以执行传输语音的切换，具体的切换过程需要对第一设备当前的传输语音与目标语音进行判断。
[0103]
具体地，在检测结果为所述第一语音和所述第二语音中均不存在有话帧时，执行判断所述目标语音与所述传输语音是否相同的步骤，在所述目标语音与所述传输语音不同时(例如，目标语音为第一语音，传输语音为第二语音；又如，目标语音为第二语音，传输语音为第一语音)，控制所述第一设备将当前的所述传输语音切换为所述目标语音；在所述目标语音与所述传输语音相同时(例如，目标语音与传输语音均为第一语音或第二语音)，控制所述第一设备保持当前的所述传输语音不变。
[0104]
在本发明实施例的一可选方案中，在所述第一设备当前的所述传输语音执行切换操作过程中，控制当前的所述传输语音淡出以及控制所述目标语音淡入，以使由所述传输语音切换至所述目标语音的过程趋于平滑。
[0105]
需要说明的是：控制当前的所述传输语音执行切换至目标语音的条件可以包括：目标语音为第一语音，传输语音为第二语音；或，目标语音为第二语音，传输语音为第一语音；也即，该过程可以理解为第一语音切换至第二语音的过程，或，第二语音切换至第一语音的过程。
[0106]
具体地，切换过程中的控制当前的所述传输语音淡出以及控制所述目标语音淡入，当前的传输语音淡出是指传输语音对应的语音信号从当前声音大小，逐渐变为静音，目标语音淡入是指目标语音对应的语音信号从静音逐渐变大至目标语音的声音大小，对当前的传输语音和目标语音进行淡入淡出的目的在于：使传输语音切换至目标语音的过程趋于平滑，用户在无感的情况下即可完成切换，避免直接切换带来的卡顿等问题，提升用户体验。淡入淡出的时间可以根据实际需求进行设置(例如，20ms)，对此，本实施例不作具体限
定。
[0107]
本发明实施例提供的音频处理方法，通过第一设备接收第一语音和第二语音；确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合；对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；对所述目标语音和第三语音进行语音活动检测，所述第三语音为第一设备的传输语音；根据检测结果对所述第一设备的所述传输语音进行控制，通过检测信号参数以及对语音进行语音活动检测的方式判断是否需要进行传输语音的切换，采用信号质量好的语音作为待切换的语音，并进行有话帧的检测，判断语音中是否存在会议参与者说话，避免出现收到语音直接进行切换造成的会议体验差的问题，在需要进行传输语音切换时，采用淡出淡入的方式使得切换过程趋于平滑，提升会议参与者的用户体验。
[0108]
在实际应用中，大型会议室内时常会放置多个音频接收设备，且与会人员也会存在一边说话一边走动的情况，当与会人员处于靠近第一设备的一端，通过本实施例的上述方案可对比出第一语音信号更优质从而播放第一语音，当与会人员在走动过程中逐渐靠近第二设备，通过上述方案可对比出第二语音更优质从而播放第二语音，由于通过vad检测话帧，即使这一走动过程中一直在说话也不会出现任何语音突然中断的情况，更可保音量始终稳定，不会出现音量因距离的变大而变小的现象。
[0109]
图3为本发明实施例提供的一种音频处理装置的结构示意图，如图3所示，该装置具体包括：
[0110]
接收模块31，用于接收第一语音和第二语音，其中，所述第一语音为第一设备接收到的语音，所述第二语音为第二设备接收到的、且发送给第一设备的语音；
[0111]
第一确定模块32，用于确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合，所述第一信号参数集合包括多个第一信号参数，所述第二信号参数集合包括多个第二信号参数，所述第一信号参数和所述第二信号参数均用于指示信号强弱；
[0112]
第二确定模块33，用于对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；
[0113]
检测模块34，用于对所述第一语音和所述第二语音进行语音活动检测，得到检测结果；
[0114]
控制模块35，用于若所述检测结果为所述第一语音或所述第二语音中存在有话帧，则控制所述第一设备保持当前的所述传输语音不变；若所述检测结果为所述第一语音和所述第二语音中均不存在有话帧，则判断所述目标语音与所述传输语音是否相同；在所述目标语音与所述传输语音不同时，控制所述第一设备将当前的所述传输语音切换为所述目标语音；在所述目标语音与所述传输语音相同时，控制所述第一设备保持当前的所述传输语音不变。
[0115]
在一个可能的实施方式中，所述控制模块35，具体用于若所述检测结果为所述目标语音中存在有话帧，或，所述第三语音中存在有话帧，则控制所述第一设备不执行所述传输语音的切换操作；若所述检测结果为所述目标语音和所述第三语音中均不存在有话帧，
则控制所述第一设备执行将所述传输语音由所述第三语音切换为所述目标语音。
[0116]
在一个可能的实施方式中，所述第一确定模块32，具体用于对所述第一语音和第二语音进行预处理，得到所述第一语音对应的多帧语音信号，以及所述第二语音对应的多帧语音信号，其中，所述预处理至少包括：分帧处理和下采样处理；确定所述第一语音中每帧语音信号对应的第一信号参数，得到第一信号参数集合，所述第一信号参数集合中的每个所述第一信号参数携带有第一时序信息，所述第一时序信息与所述第一语音中每帧语音信号的时序相同；确定所述第二语音中每帧语音信号对应的第二信号参数，得到第二信号参数集合，所述第二信号参数集合中的每个所述第二信号参数携带有第二时序信息，所述第二时序信息与所述第二语音中每帧语音信号的时序相同。
[0117]
在一个可能的实施方式中，所示第二确定模块33，具体用于在第一时序信息与第二时序信息一致的情况下，对所述第一语音中每帧语音信号对应的第一信号参数和所述第二语音中每帧语音信号的第二信号参数对应的信号强弱进行比对；从所述第一语音或第二语音中确定一帧或连续多帧语音信号对应的信号参数对应的信号强度最大的作为目标语音。
[0118]
在一个可能的实施方式中，所述第一信号参数包括信噪比，所述第二信号参数包括信噪比；
[0119]
所述第一确定模块32，具体用于采用维纳滤波对所述第一语音中的每帧语音信号进行滤波处理；确定滤波后的所述第一语音中的每帧语音信号对应的第一信噪比；采用维纳滤波对所述第二语音中的每帧语音信号进行滤波处理；确定滤波后的所述第二语音中的每帧语音信号对应的第二信噪比。
[0120]
在一个可能的实施方式中，所述装置还包括：延迟处理模块36，用于在根据时序信息确定所述第一语音和所述第二语音存在延迟时，通过互相关函数确定所述第一语音和所述第二语音之间的延迟时间；基于所述延迟时间执行所述第一语音和所述第二语音的时间对齐操作。
[0121]
在一个可能的实施方式中，所述控制模块35，还用于在所述第一设备当前的所述传输语音执行切换操作过程中，控制当前的所述传输语音淡出以及控制所述目标语音淡入，以使由所述传输语音切换至所述目标语音的过程趋于平滑。
[0122]
本实施例提供的音频处理装置可以是如图3中所示的音频处理装置，可执行如图1
‑
2中音频处理方法的所有步骤，进而实现图1
‑
2所示音频处理方法的技术效果，具体请参照图1
‑
2相关描述，为简洁描述，在此不作赘述。
[0123]
图4为本发明实施例提供的一种的设备的结构示意图，图4所示的设备400包括：至少一个处理器401、存储器402、至少一个网络接口404和其他用户接口403。设备400中的各个组件通过总线系统405耦合在一起。可理解，总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统405。
[0124]
其中，用户接口403可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。
[0125]
可以理解，本发明实施例中的存储器402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read
‑
only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。
[0126]
在一些实施方式中，存储器402存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统4021和应用程序4022。
[0127]
其中，操作系统4021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序4022，包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。
[0128]
在本发明实施例中，通过调用存储器402存储的程序或指令，具体的，可以是应用程序4022中存储的程序或指令，处理器401用于执行各方法实施例所提供的方法步骤，例如包括：
[0129]
接收第一语音和第二语音，其中，所述第一语音为第一设备接收到的语音，所述第二语音为第二设备接收到的、且发送给第一设备的语音；确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合，所述第一信号参数集合包括多个第一信号参数，所述第二信号参数集合包括多个第二信号参数，所述第一信号参数和所述第二信号参数均用于指示信号强弱；对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；对所述第一语音和所述第二语音进行语音活动检测，得到检测结果；根据所述检测结果和所述目标语音对所述第一设备当前的传输语音进行控制，所述传输语音为所述第一语音或所述第二语音。
[0130]
在一个可能的实施方式中，若所述检测结果为所述第一语音或所述第二语音中存在有话帧，则控制所述第一设备保持当前的所述传输语音不变；若所述检测结果为所述第一语音和所述第二语音中均不存在有话帧，则判断所述目标语音与所述传输语音是否相同；在所述目标语音与所述传输语音不同时，控制所述第一设备将当前的所述传输语音切换为所述目标语音；在所述目标语音与所述传输语音相同时，控制所述第一设备保持当前的所述传输语音不变。
[0131]
在一个可能的实施方式中，对所述第一语音和第二语音进行预处理，得到所述第一语音对应的多帧语音信号，以及所述第二语音对应的多帧语音信号，其中，所述预处理至少包括：分帧处理和下采样处理；确定所述第一语音中每帧语音信号对应的第一信号参数，得到第一信号参数集合，所述第一信号参数集合中的每个所述第一信号参数携带有第一时序信息，所述第一时序信息与所述第一语音中每帧语音信号的时序相同；确定所述第二语
音中每帧语音信号对应的第二信号参数，得到第二信号参数集合，所述第二信号参数集合中的每个所述第二信号参数携带有第二时序信息，所述第二时序信息与所述第二语音中每帧语音信号的时序相同。
[0132]
在一个可能的实施方式中，在第一时序信息与第二时序信息一致的情况下，对所述第一语音中每帧语音信号对应的第一信号参数和所述第二语音中每帧语音信号的第二信号参数对应的信号强弱进行比对；从所述第一语音或第二语音中确定一帧或连续多帧语音信号对应的信号参数对应的信号强度最大的作为目标语音。
[0133]
在一个可能的实施方式中，所述第一信号参数包括信噪比，所述第二信号参数包括信噪比；采用维纳滤波对所述第一语音中的每帧语音信号进行滤波处理；确定滤波后的所述第一语音中的每帧语音信号对应的第一信噪比；采用维纳滤波对所述第二语音中的每帧语音信号进行滤波处理；确定滤波后的所述第二语音中的每帧语音信号对应的第二信噪比。
[0134]
在一个可能的实施方式中，在根据时序信息确定所述第一语音和所述第二语音存在延迟时，通过互相关函数确定所述第一语音和所述第二语音之间的延迟时间；基于所述延迟时间执行所述第一语音和所述第二语音的时间对齐操作。
[0135]
在一个可能的实施方式中，在所述第一设备当前的所述传输语音执行切换操作过程中，控制当前的所述传输语音淡出以及控制所述目标语音淡入，以使由所述传输语音切换至所述目标语音的过程趋于平滑。
[0136]
上述本发明实施例揭示的方法可以应用于处理器401中，或者由处理器401实现。处理器401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402，处理器401读取存储器402中的信息，结合其硬件完成上述方法的步骤。
[0137]
可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dspdevice，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field
‑
programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0138]
对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0139]
本实施例提供的设备可以是如图4中所示的设备，可执行如图1
‑
2中音频处理方法
的所有步骤，进而实现图1
‑
2所示音频处理方法的技术效果，具体请参照图1
‑
2相关描述，为简洁描述，在此不作赘述。
[0140]
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。
[0141]
当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在音频处理设备侧执行的音频处理方法。
[0142]
所述处理器用于执行存储器中存储的音频处理程序，以实现以下在音频处理设备侧执行的音频处理方法的步骤：
[0143]
接收第一语音和第二语音，其中，所述第一语音为第一设备接收到的语音，所述第二语音为第二设备接收到的、且发送给第一设备的语音；确定所述第一语音对应的第一信号参数集合，以及所述第二语音对应的第二信号参数集合，所述第一信号参数集合包括多个第一信号参数，所述第二信号参数集合包括多个第二信号参数，所述第一信号参数和所述第二信号参数均用于指示信号强弱；对比所述第一信号参数与所述第二信号参数的信号强弱以确定所述第一语音和第二语音的信号强度，选择所述第一语音和所述第二语音中信号强度最大的一个作为目标语音；对所述第一语音和所述第二语音进行语音活动检测，得到检测结果；根据所述检测结果和所述目标语音对所述第一设备当前的传输语音进行控制，所述传输语音为所述第一语音或所述第二语音。
[0144]
在一个可能的实施方式中，若所述检测结果为所述第一语音或所述第二语音中存在有话帧，则控制所述第一设备保持当前的所述传输语音不变；若所述检测结果为所述第一语音和所述第二语音中均不存在有话帧，则判断所述目标语音与所述传输语音是否相同；在所述目标语音与所述传输语音不同时，控制所述第一设备将当前的所述传输语音切换为所述目标语音；在所述目标语音与所述传输语音相同时，控制所述第一设备保持当前的所述传输语音不变。
[0145]
在一个可能的实施方式中，对所述第一语音和第二语音进行预处理，得到所述第一语音对应的多帧语音信号，以及所述第二语音对应的多帧语音信号，其中，所述预处理至少包括：分帧处理和下采样处理；确定所述第一语音中每帧语音信号对应的第一信号参数，得到第一信号参数集合，所述第一信号参数集合中的每个所述第一信号参数携带有第一时序信息，所述第一时序信息与所述第一语音中每帧语音信号的时序相同；确定所述第二语音中每帧语音信号对应的第二信号参数，得到第二信号参数集合，所述第二信号参数集合中的每个所述第二信号参数携带有第二时序信息，所述第二时序信息与所述第二语音中每帧语音信号的时序相同。
[0146]
在一个可能的实施方式中，在第一时序信息与第二时序信息一致的情况下，对所述第一语音中每帧语音信号对应的第一信号参数和所述第二语音中每帧语音信号的第二信号参数对应的信号强弱进行比对；从所述第一语音或第二语音中确定一帧或连续多帧语音信号对应的信号参数对应的信号强度最大的作为目标语音。
[0147]
在一个可能的实施方式中，所述第一信号参数包括信噪比，所述第二信号参数包括信噪比；采用维纳滤波对所述第一语音中的每帧语音信号进行滤波处理；确定滤波后的
所述第一语音中的每帧语音信号对应的第一信噪比；采用维纳滤波对所述第二语音中的每帧语音信号进行滤波处理；确定滤波后的所述第二语音中的每帧语音信号对应的第二信噪比。
[0148]
在一个可能的实施方式中，在根据时序信息确定所述第一语音和所述第二语音存在延迟时，通过互相关函数确定所述第一语音和所述第二语音之间的延迟时间；基于所述延迟时间执行所述第一语音和所述第二语音的时间对齐操作。
[0149]
在一个可能的实施方式中，在所述第一设备当前的所述传输语音执行切换操作过程中，控制当前的所述传输语音淡出以及控制所述目标语音淡入，以使由所述传输语音切换至所述目标语音的过程趋于平滑。
[0150]
专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0151]
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd
‑
rom、或技术领域内所公知的任意其它形式的存储介质中。
[0152]
以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于样本均衡和最大均值差异的跨库语音情感识别方法与流程

音频处理方法、装置、设备及存储介质与流程

相关文献

最热文献