音频处理方法、装置、系统和存储介质与流程

2022-04-02 07:37:28 来源：中国专利 TAG：

1.本公开涉及音频处理技术领域，尤其涉及一种在视频会议场景下用于音频增强的音频处理方法、装置、系统和存储介质。

背景技术：

2.现代企业的规模越来越大，人员分布也越来越广且越来越分散。因此，人们对异地协同办公的需求越来越急迫。由于视频会议能够通过实时传输声音和图像数据，已成为异地协同办公的有效沟通工具。
3.例如，多人在会议室与远端他人进行音视频通讯时，为了获得优质的通话效果，可采用专业的音频设备，来采集近端语音，播放远端语音。市场上有许多会议麦克风供用户挑选，但是能提供优质体验的音频设备大都价格不菲。另外，随着移动互联网的发展，人们也可使用智能手机、平板电脑等设备进行视频会议。如果在一个房间中有多人参加视频会议时，仅使用一个参会者的电脑或手机加入会议，则在会议期间会造成其他参会人的声音采集播放效果不均衡，离加入视频会议的设备近的参会者能够获得较好的播放效果，而离加入视频会议的设备远的参会者获得的播放效果差。如果同一房间的每个参会者都使用自己的设备进行视频会议，则会出现很大的啸叫。这是因为，一个设备采集的声音，通过网络传输到同一个房间中的另一个设备后，被这个设备放大并且播放出来。这个声音再次被设备采集，形成了一个正反馈，引起啸叫，这样严重影响会议体验。

技术实现要素：

4.本公开提供一种音频处理方法、音频处理装置、音频处理系统、电子设备以及存储介质，以至少解决上述提及的问题。
5.根据本公开实施例的第一方面，提供一种音频处理方法，应用于第一设备，所述第一设备属于第一空间中的多个设备之一，所述音频处理方法可包括：采集所述第一空间中的用户发出的语音信号；将包括所述语音信号的信息发送到服务器，其中，所述信息还包括所述第一空间的空间标识，使得服务器基于所述空间标识向与所述空间标识不同的空间中的设备发送所述语音信号，以实现所述第一空间中的用户与所述不同的空间中的用户之间的语音通信。
6.可选地，所述音频处理方法还可包括：从服务器接收由与所述第一空间不同的另一空间中的多个设备采集的多个语音信号；对所述多个语音信号执行同步处理，并且播放同步处理后的所述多个语音信号。
7.可选地，对所述多个语音信号执行同步处理，可包括：按照预设时间间隔，基于所述多个语音信号播放到的当前帧的时间戳和所述多个语音信号的抖动缓冲区的目标水位中的至少一个来对所述多个语音信号执行同步处理，其中，抖动缓冲区的目标水位表示帧数据的缓存量。
8.可选地，抖动缓冲区的目标水位可基于所述多个语音信号在当前网络中的传输延
时和网络抖动确定。
9.可选地，基于所述多个语音信号播放到的当前帧的时间戳和所述多个语音信号的抖动缓冲区的目标水位中的至少一个来对所述多个语音信号执行同步处理，可包括：在所述多个语音信号中的当前帧的时间戳大于预设阈值的语音信号前面插入空白帧，使得所述多个语音信号的播放到的当前帧的时间戳对齐；将插入空白帧的语音信号的抖动缓冲区的目标水位更新为当前目标水位与所插入的空白帧之和。
10.根据本公开实施例的第二方面，提供一种第一设备，所述第一设备属于第一空间中的多个设备之一，所述第一设备可包括：采集模块，被配置为采集所述第一空间中的用户发出的语音信号；发送模块，被配置为将包括所述语音信号的信息发送到服务器，其中，所述信息还包括所述第一空间的空间标识，使得服务器基于所述空间标识向与所述空间标识不同的空间中的设备发送所述语音信号，以实现所述第一空间中的用户与所述不同的空间中的用户之间的语音通信。
11.可选地，所述第一设备还可包括：接收模块，被配置为从服务器接收由与所述第一空间不同的另一空间中的多个设备采集的多个语音信号；以及同步模块，被配置为对所述多个语音信号执行同步处理，并且播放同步处理后的所述多个语音信号。
12.可选地，同步模块可被配置为：按照预设时间间隔，基于所述多个语音信号播放到的当前帧的时间戳和所述多个语音信号的抖动缓冲区的目标水位中的至少一个来对所述多个语音信号执行同步处理，其中，抖动缓冲区的目标水位表示帧数据的缓存量。
13.可选地，抖动缓冲区的目标水位可基于所述多个语音信号在当前网络中的传输延时和网络抖动确定。
14.可选地，同步模块可被配置为：在所述多个语音信号中的当前帧的时间戳大于预设阈值的语音信号的前面插入空白帧，使得所述多个语音信号的播放到的当前帧的时间戳对齐；将插入空白帧的语音信号的抖动缓冲区的目标水位修改为当前目标水位与所插入的空白帧之和。
15.根据本公开实施例的第三方面，提供一种音频处理方法，应用于服务器，可包括：从在第一空间中的多个第一设备分别接收多条信息，其中，所述多条信息中的每条信息包括由所述第一设备采集的语音信号和所述第一空间的空间标识；基于所述空间标识向与所述空间标识不同的第二空间中的至少一个第二设备发送所述多条信息中包括的多个语音信号，以实现所述第一空间中的用户与所述第二空间中的用户之间的语音通信。
16.根据本公开实施例的第四方面，提供一种服务器，可包括：接收模块，被配置为从在第一空间中的多个第一设备分别接收多条信息，其中，所述多条信息中的每条信息包括由所述第一设备采集的语音信号和所述第一空间的空间标识；发送模块，被配置为基于所述空间标识向与所述空间标识不同的第二空间中的至少一个第二设备发送所述多条信息中包括的多个语音信号，以实现所述第一空间中的用户与所述第二空间中的用户之间的语音通信。
17.根据本公开实施例的第五方面，提供一种音频处理方法，可包括：由第一空间中的多个第一设备分别采集所述第一空间中的用户发出的语音信号；由所述多个第一设备分别将多条信息发送到服务器，其中，所述多条信息中的每条信息包括由所述第一设备采集的语音信号和所述第一空间的空间标识；由服务器基于所述空间标识向与所述空间标识不同
的第二空间中的至少一个第二设备发送所述多条信息中包括的多个语音信号；由所述至少一个第二设备播放所述多个语音信号，以实现所述第一空间中的用户与所述第二空间中的用户之间的语音通信。
18.可选地，由所述至少一个第二设备播放所述多个语音信号，可包括：对所述多个语音信号执行同步处理，并且播放同步处理后的所述多个语音信号。
19.可选地，对所述多个语音信号执行同步处理，可包括：按照预设时间间隔，基于所述多个语音信号播放到的当前帧的时间戳和所述多个语音信号的抖动缓冲区的目标水位中的至少一个来对所述多个语音信号执行同步处理，其中，抖动缓冲区的目标水位表示帧数据的缓存量。
20.可选地，抖动缓冲区的目标水位可基于所述多个语音信号在当前网络中的传输延时和网络抖动确定。
21.可选地，基于所述多个语音信号播放到的当前帧的时间戳和所述多个语音信号的抖动缓冲区的目标水位中的至少一个来对所述多个语音信号执行同步处理，可包括：在所述多个语音信号中的当前帧的时间戳大于预设阈值的数据流的前面插入空白帧，使得所述多个语音信号的播放到的当前帧的时间戳对齐；将插入空白帧的数据流的抖动缓冲区的目标水位更新为当前目标水位与所插入的空白帧之和。
22.可选地，所述音频处理方法还可包括：由所述多个第一设备从服务器接收由所述至少一个第二设备采集的语音信号；由所述多个第一设备分别对所述至少一个第二设备采集的所述语音信号执行同步处理并且播放同步处理后的所述语音信号。
23.根据本公开实施例的第六方面，提供一种音频处理系统，可包括：多个第一设备，位于第一空间中，并且每个第一设备被配置为采集所述第一空间中的用户发出的语音信号并且发送包括所述语音信号的信息，其中，所述信息还包括所述第一空间的空间标识；至少一个第二设备，位于不同于第一空间的第二空间中；以及服务器，被配置为基于所述空间标识向与所述空间标识不同的所述至少一个第二设备发送所述多个第一设备采集的多个语音信号，以实现所述第一空间中的用户与所述第二空间中的用户之间的语音通信。
24.可选地，所述至少一个第二设备可被配置为：对所述多个语音信号执行同步处理，并且播放同步处理后的所述多个语音信号。
25.可选地，所述至少一个第二设备可被配置为：按照预设时间间隔，基于所述多个语音信号播放到的当前帧的时间戳和所述多个语音信号的抖动缓冲区的目标水位中的至少一个来对所述多个语音信号执行同步处理，其中，抖动缓冲区的目标水位表示帧数据的缓存量。
26.可选地，抖动缓冲区的目标水位可基于所述多个语音信号在当前网络中的传输延时和网络抖动确定。
27.可选地，所述至少一个第二设备可被配置为：在所述多个语音信号中的当前帧的时间戳大于预设阈值的语音信号的前面插入空白帧，使得所述多个语音信号的播放到的当前帧的时间戳对齐；将插入空白帧的语音信号的抖动缓冲区的目标水位更新为当前目标水位与所插入的空白帧之和。
28.可选地，所述多个第一设备中的每个第一设备可被配置为：从服务器接收由所述至少一个第二设备采集的语音信号，并且对所述至少一个第二设备采集的所述语音信号执
行同步处理并且播放同步处理后的所述语音信号。
29.根据本公开实施例的第七方面，提供一种电子设备，第一电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。
30.根据本公开实施例的第八方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的音频处理方法。
31.根据本公开实施例的第九方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的音频处理方法。
32.本公开的实施例提供的技术方案至少带来以下有益效果：
33.保证同一房间的多设备都正常采集和播放语音信号，即同一房间中的每个设备的语音信号都向外发送，同时播放所有非此房间的所有语音信号，避免了啸叫现象，同时获得均衡的播放效果。此外，通过考虑当前播放的帧的时间戳和抖动缓冲区的目标水位对与同一语音相关的多个语音信号执行同步操作，提高了用户的收听体验。此外，本公开所提供的音频处理系统可解决在现有的视频会议中为了获得好的收听体验而需要依赖专业会议麦克风的问题，从而降低了设备成本。
34.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
35.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
36.图1是根据本公开的实施例的用于视频会议的应用环境的示图；
37.图2是根据本公开的实施例的音频处理方法的流程图；
38.图3是根据本公开的实施例的同步处理方法的示意图；
39.图4是根据本公开的实施例的用于第一设备的音频处理方法的流程图；
40.图5是根据本公开的实施例的用于服务器的音频处理方法的流程图；
41.图6是根据本公开的实施例的音频处理系统的框图；
42.图7是根据本公开的实施例的第一设备的框图；
43.图8是根据本公开的实施例的服务器的框图；
44.图9是根据本公开的实施例的音频处理设备的结构示意图；
45.图10是根据本公开的实施例的电子设备的框图。
46.在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。
具体实施方式
47.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
48.提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施
例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。
49.以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。
50.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
51.现有的视频会议方案不能预知增强的是否是语音信号，信噪比提升有限，同时，对于噪声与语音在同一方向以及散射噪声的场景，并不能有效提升语音质量。基于此，本公开设计了一套视频会议系统来解决这些问题。
52.在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置和系统进行详细描述。
53.图1是根据本公开的实施例的用于视频会议的应用环境的示图。
54.参照图1，a房间中有四个设备，b房间中有一个设备，c房间中有一个设备。所有接入设备通过例如tcp/ip进行音频会议，在a、b和c房间中所有设备都可采取耳机模式，也可采取外放模式。
55.每个房间中的设备可以是用户所在终端。例如，每个用户在进行视频会议时所使用的终端。终端可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。终端可安装有目标应用，用于诸如用于视频会议的应用软件等。本领域技术人员可知晓，图1示出的房间数量和房间中的终端数量仅是示例性的。本公开实施例不对房间数量以及终端的数量和设备类型进行任何限定。
56.每个房间的设备可通过tcp/ip与服务器(诸如多端控制器(mcu))通信连接，使得同一房间中的设备以及不同房间中的设备之间可进行实时通信。mcu可实时地从参加视频会议的设备接收数据流(包括诸如用户发出的语音)并且将接收到的数据流转发给这些设备。这样，使用设备参加会议的用户可实时地获得相应的会议信息，诸如参会者的语音。
57.如图1所示，在进入视频会议之前，所有a房间中的参会者使用自己的设备选择同一房间来加入视频会议。这样，a房间中的设备能够记录每个参会者的房间id号。a房间中的每个设备的麦克风都可采集音频(诸如用户语音)，并且每个设备都向mcu发送所采集的音频。发送到mcu的数据流可包含设备所在房间的房间id号。mcu可根据房间id号来决定是否向加入视频会议的各个房间的每个设备发送相应数据流。如果发送数据流的设备所在房间的id号和接收数据流的设备所在房间的id号一致，则mcu可不再向发送数据流的设备发送这个数据流。这样，可避免以下问题：同一房间中的参会者已经直接能够听到其他人的语音，再传送这个语音会导致重音(即空气传播一次，通过网络传播又一次)；同一房间中的参会者的语音如果通过其他人设备播放出来，再被另外的设备采集，就会形成正反馈而造成
啸叫，严重影响会议体验。
58.此外，在远端非同一房间的参会者，他们将听到多路从同一房间传过来的语音。例如，b房间中的参会者能够听到从a房间中的每个设备采集的语音信号。然而，这种不同延时的声音叠加在一起，如果相互延时比较小，诸如小于50ms，则对听感的影响有限。如果相互延时大于诸如100ms甚至到1s以上，则人是能够清晰地听出是多个声音叠加在一起，像在山谷中呼喊时的回声。这样会使参会者收听的体验很差，因此，需要对同一房间的多路语音信号进行同步/对齐处理，使得它们在同一时间播放。
59.作为示例，每个房间的设备可考虑与同一语音相关的各个语音信号播放的当前帧的时间戳(time stamp)和各个语音信号的抖动缓冲区(jitter buffer)的目标水位来执行对齐处理。下面将参照图3详细地描述如何对与同一语音相关的各个语音信号执行同步处理。
60.根据本公开的实施例，为了保证同一房间的多个设备都正常采集和播放，同一房间的每个设备的数据流都向外(诸如服务器)发送数据，同时播放所有非此房间的所有数据流。而对于相同房间语音信号的同步，既考虑了时间戳，也考虑了抖动缓冲区的目标水位，使得每个参会者的设备对所有参会者的声音采集播放效果更加均衡，有效提升语音质量，从而提高用户体验。
61.图2是根据本公开的实施例的音频处理方法的流程图。图2所述的音频处理方法可被应用于视频会议系统，诸如图1所述的整个系统。
62.参照图2，在步骤s201，由第一空间中的多个第一设备分别采集第一空间中的用户发出的语音信号并且向服务器发送包括语音信号的信息，其中，信息可另外包括第一空间的空间标识。在本公开中，由一个设备采集的语音信号和对应的空间标识可被视为该设备所发送的数据流。
63.例如，当第一空间中的一个参会者发表意见时，第一空间中的多个设备都会对该参会者所说的语音进行采集，并且每个设备将采集到的数据发送给服务器，诸如图1中的mcu。根据本公开的实施例，在发送相应的语音信号时，会将设备所在空间的空间标识(诸如房间id号)一起发送。
64.在步骤s202，由服务器基于接收的信息中的空间标识向与该空间标识不同的第二空间中的至少一个第二设备发送第一空间中的多个设备采集的多个语音信号。
65.例如，mcu在决定是否向每个房间的各个设备发送下行码流时，可根据房间id号来决定是否发送这个码流。如果发送码流的发送端的房间号和接收码流的接收端的房间号一致，则不再向该发送端发送这个码流。
66.在步骤s203，由第二空间中的至少一个第二设备播放第一空间中的多个设备采集的多个语音信号。
67.作为示例，由至少一个第二设备中的每个第二设备对接收的多个语音信号执行同步处理，并且播放同步处理后的多个语音信号。例如，第二设备可按照预设时间间隔，基于多个语音信号播放到的当前帧的时间戳和多个语音信号的抖动缓冲区的目标水位中的至少一个来对多个语音信号执行同步处理。抖动缓冲区的目标水位可表示帧数据的缓存量。
68.第二设备可基于多个语音信号在当前网络中的传输延时和网络抖动来确定抖动缓冲区的当前目标水位。
69.第二设备可在多个语音信号中的当前帧的时间戳大于预设阈值的语音信号的前面插入空白帧，使得多个语音信号的播放到的当前帧的时间戳对齐，然后将插入空白帧的语音信号的抖动缓冲区的目标水位更新为当前目标水位与所插入的空白帧之和。下面将参照图3详细地描述如何基于播放到的当前帧的时间戳和抖动缓存区来执行同步操作。
70.图3是根据本公开的实施例的同步处理方法的示意图。在图3中，示出了房间a中的四个设备的语音信号在b房间中的设备进行播放时执行的同步操作。
71.参照图3，不同语音信号(1)、(2)、(3)和(4)在播放到当前帧的时间戳(time stamp)不一样。为了使这些语音信号对齐，可在时间戳大于预设阈值的语音信号(2)和(3)前面插入空白帧，而时间戳在后面的语音信号(1)和(4)可保持不变。例如，可在语音信号(2)的前面补入40ms的空白帧(即空帧)，在语音信号(3)的前面补入60ms的空白帧，使得语音信号(1)、(2)、(3)和(4)当前播放到的当前帧的时间戳对齐。这里，预设阈值可根据设计需求被不同地设置。
72.同时，可调整每个语音信号的抖动缓冲区的目标水位，使得b房间中的设备不会加速播放各个语音信号，以避免导致新的不对齐问题。例如，可将语音信号(2)的目标水位从当前目标水位40ms更新为新目标水位80ms，将语音信号(3)的目标水位从当前目标水位60ms更新为新目标水位120ms，而语音信号(1)和(4)的目标水位可保持不变。图3所示的示例仅是示例性的，本公开不限于此。
73.在本公开中，整个同步/对齐操作可按照预定间隔执行一次，例如，每隔几秒钟执行一次。短时间内语音信号的传输和播放相对稳定，而长时间的视频会议需要持续间隔地执行对齐操作以保证语音信号的对齐。
74.图4是根据本公开的实施例的用于第一设备的音频处理方法的流程图。第一设备可属于第一空间中的多个设备之一。图4所示的方法可由参加视频会议的参会者所携带的终端来实现。
75.参照图4，在步骤s401，采集第一空间中的用户发出的语音信号。当第一空间中的参会者发言时，第一设备可采集相应的语音。
76.在步骤s402，将包括所采集的语音信号的信息发送到服务器，其中，该信息还可包括第一空间的空间标识，使得服务器可基于该空间标识来确定向与该空间标识不同的空间中的设备发送语音信号。
77.在步骤s403，从服务器接收由与第一空间不同的另一空间中的多个设备采集的与另一音频相关的多个语音信号。例如，另一音频可以是由另一空间(不同于第一空间)中的用户发出语音，该另一空间中的多个设备采集该语音。
78.在步骤s404，对从服务器接收的多个语音信号执行同步处理，并且播放同步处理后的多个语音信号。例如，第一设备在视频会议期间可按照预设时间间隔，基于多个语音信号(诸如a房间中的多个设备各自采集的语音信号)播放到的当前帧的时间戳和多个语音信号的抖动缓冲区的目标水位中的至少一个来对多个语音信号执行同步处理。第一设备在多个语音信号中的当前帧的时间戳大于预设阈值的语音信号的前面插入空白帧，使得多个语音信号的播放到的当前帧的时间戳对齐，将插入空白帧的语音信号的抖动缓冲区的目标水位更新为当前目标水位与所插入的空白帧之和。当前目标水位可语音信号在当前网络中的传输延时和网络抖动确定。
79.图4所示的步骤仅是示例性的，本公开不限于上述步骤顺序。
80.图5是根据本公开的实施例的用于服务器的音频处理方法的流程图。图5示出的方法可由视频会议系统的服务器实现。
81.参照图5，在步骤s501，从在第一空间中的多个第一设备分别接收多条信息，其中，每条信息可包括由第一设备采集的语音信号和第一空间的空间标识。
82.在步骤s502，基于接收的空间标识向与该空间标识不同的第二空间中的至少一个第二设备发送多条信息中包括的多个语音信号，以实现第一空间中的用户与第二空间中的用户之间的语音通信。
83.图5所示的方法避免了：同房间中的人已经直接能够听到其他人的语音，再传这个声音会导致重音(空气传播一次，通过网络传播又一次)；同房间中人的语音如果通过其他人设备播放出来，再被另外的设备采集，就会形成正反馈而造成啸叫，严重影响会议体验。
84.图6是根据本公开的实施例的音频处理系统的框图。
85.参照图6，音频处理系统600包括第一空间中的多个第一设备、第二空间中的至少一个第二设备以及服务器。
86.第一空间中的多个第一设备可分别采集第一空间中的用户发出的音频信号并且发送包括该语音信号的信息，其中，信息中还可包括第一空间的空间标识。
87.服务器可基于接收的空间标识向与该空间标识不同的第二空间中的至少一个第二设备发送由第一空间中的多个第一设备传输的多个语音信号。
88.至少一个第二设备可对由第一空间中的多个第一设备传输的多个语音信号执行同步处理，并且播放同步处理后的多个语音信号。
89.至少一个第二设备可按照预设时间间隔，基于接收的多个语音信号播放到的当前帧的时间戳和这些语音信号的抖动缓冲区的目标水位中的至少一个来对这些语音信号执行同步处理，其中，抖动缓冲区的目标水位表示帧数据的缓存量。
90.抖动缓冲区的目标水位可基于语音信号在当前网络中的传输延时和网络抖动确定。
91.至少一个第二设备可在接收的多个语音信号中的当前帧的时间戳大于预设阈值的语音信号的前面插入空白帧，使得这些语音信号的播放到的当前帧的时间戳对齐，然后将插入空白帧的语音信号的抖动缓冲区的目标水位更新为当前目标水位与所插入的空白帧之和。
92.此外，第一空间中的多个第一设备中的每个第一设备可从服务器接收由至少一个第二设备采集的与另一音频(诸如由第二空间中的用户发出的语音)相关的语音信号，并且对至少一个第二设备采集的语音信号执行同步处理并且播放同步处理后的语音信号。
93.图6所示的系统中的空间数据和设备数量仅是示例性的，本公开不限于此。
94.图7是根据本公开的实施例的第一设备的框图。第一设备属于第一空间中的多个设备之一。图7所示的第一设备可作为电子设备的一部分或者单独的设备用于视频会议。
95.参照图7，第一设备700可包括采集模块701、发送模块702、接收模块703和同步模块704。第一设备700中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略第一设备700中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且
因此可等效地执行相应模块/元件在组合之前的功能。
96.采集模块701可采集第一空间中的用户发出的语音信号。
97.发送模块702可将包括语音信号的信息发送到服务器。信息还可包括第一空间的空间标识，使得服务器基于空间标识向与空间标识不同的空间中的设备发送语音信号，以实现第一空间中的用户与不同的空间中的用户之间的语音通信。
98.接收模块703可从服务器接收由与第一空间不同的另一空间中的多个设备采集的多个语音信号。
99.同步模块704可对多个语音信号执行同步处理，并且播放同步处理后的多个语音信号。
100.同步模块704可按照预设时间间隔，基于多个语音信号播放到的当前帧的时间戳和多个语音信号的抖动缓冲区的目标水位中的至少一个来对多个语音信号执行同步处理，其中，抖动缓冲区的目标水位表示帧数据的缓存量。
101.抖动缓冲区的目标水位可基于多个语音信号在当前网络中的传输延时和网络抖动确定。
102.同步模块704可在多个语音信号中的当前帧的时间戳大于预设阈值的语音信号的前面插入空白帧，使得多个语音信号的播放到的当前帧的时间戳对齐，将插入空白帧的语音信号的抖动缓冲区的目标水位更新为当前目标水位与所插入的空白帧之和。
103.图8是根据本公开的实施例的服务器的框图。
104.参照图8，服务器800可包括发送模块801和接收模块802。服务器800中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略服务器800中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。
105.接收模块802可从在第一空间中的多个第一设备分别接收多条信息，其中，每条信息可包括由第一设备采集的语音信号和第一空间的空间标识。
106.发送模块801可基于空间标识向与该空间标识不同的第二空间中的至少一个第二设备发送多条信息中包括的多个语音信号，以实现第一空间中的用户与第二空间中的用户之间的语音通信。
107.图9是本公开实施例的硬件运行环境的音频处理设备的结构示意图。
108.如图9所示，音频处理设备900可包括：处理组件901、通信总线902、网络接口903、输入输出接口904、存储器905以及电源组件906。其中，通信总线902用于实现这些组件之间的连接通信。输入输出接口904可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口904还可包括标准的有线接口、无线接口。网络接口903可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器905可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器905可选的还可以是独立于前述处理组件901的存储装置。
109.本领域技术人员可以理解，图5中示出的结构并不构成对音频处理设备900的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
110.如图5所示，作为一种存储介质的存储器905中可包括操作系统(诸如mac操作系
统)、数据存储模块、网络通信模块、用户接口模块、音频处理程序以及数据库。
111.在图5所示的音频处理设备900中，网络接口903主要用于与外部电子设备/终端进行数据通信；输入输出接口904主要用于与用户进行数据交互；音频处理设备900中的处理组件901、存储器905可被设置在音频处理设备900中，音频处理设备900通过处理组件901调用存储器905中存储的音频处理方法程序以及由操作系统提供的各种api，执行本公开实施例提供的音频处理方法。
112.处理组件901可以包括至少一个处理器，存储器905中存储有计算机可以执行指令集合，当计算机可以执行指令集合被至少一个处理器执行时，执行根据本公开实施例的音频处理方法。此外，处理组件901可执行编码操作和解码操作等。然而，上述示例仅是示例性的，本公开不限于此。
113.以音频处理设备900作为终端为例，音频处理设备900可采集用户发出的语音信号，将采集的与该语音相关的信息发送到服务器，其中，信息还包括设备所在空间的空间标识，使得服务器基于该空间标识向与该空间标识不同的空间中的设备发送语音信号。此外，音频处理设备900可从服务器接收由与音频处理设备900所在空间不同的另一空间中的多个设备采集的与另一语音相关的多个语音信号，对这些语音信号执行同步处理，并且播放同步处理后的这些语音信号。
114.以音频处理设备900作为服务器为例，音频处理设备900可根据接收到的信息中包括的空间标识(诸如房间id号)来判断是否向每个终端发送语音信号。
115.音频处理设备900可作为电子设备或服务器来执行对应的音频处理方法。音频处理设备900可通过输入输出接口904从电子设备接收数据并且可发送/转发数据。
116.作为示例，音频处理设备900可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，音频处理设备900并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。音频处理设备900还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。
117.在音频处理设备900中，处理组件901可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件901还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
118.处理组件901可运行存储在存储器中的指令或代码，其中，存储器905还可以存储数据。指令和数据还可以经由网络接口903而通过网络被发送和接收，其中，网络接口903可以采用任何已知的传输协议。
119.存储器905可以与处理组件901集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储器905可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件901可以在操作上进行耦合，或者可以例如通过i/o端口、网络连接等互相通信，使得处理组件901能够读取存储在存储器905中的数据。
120.根据本公开的实施例，可提供一种电子设备。图10是根据本公开实施例的电子设备的框图，该电子设备1000可包括至少一个存储器1002和至少一个处理器1001，所述至少一个存储器1002存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理
器1001执行时，执行根据本公开实施例的音频处理方法。例如，电子设备1000可作为电子设备或者作为服务器。
121.处理器1001可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器1001还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
122.作为一种存储介质的存储器1002可包括操作系统(例如，mac操作系统)、数据存储模块、网络通信模块、用户接口模块、音频处理方法程序以及数据库。
123.存储器1002可与处理器1001集成为一体，例如，可将ram或闪存布置在集成电路微处理器等之内。此外，存储器1002可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1002和处理器1001可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器1001能够读取存储在存储器1002中的文件。
124.此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。
125.本领域技术人员可理解，图8中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
126.根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的音频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(rom)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、随机存取存储器(ram)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd r、cd-rw、cd rw、dvd-rom、dvd-r、dvd r、dvd-rw、dvd rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如，多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
127.根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述音频处理方法。
128.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
129.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于智能语音交互的多模态拒识方法和系统与流程

音频处理方法、装置、系统和存储介质与流程

相关文献

最热文献