语音流处理方法及装置、计算机可读存储介质、电子设备与流程

2021-12-01 01:18:00 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种语音流处理方法与语音流处理装置、计算机可读存储介质及电子设备。

背景技术：

2.随着计算机技术的发展，出现了很多丰富人们生活的方式，例如玩虚拟游戏、看主播直播、进入语音聊天室聊天等，为了维护健康的网络环境，需要对这些方式中存在语音流进行监管。
3.在现有技术中，语音流的录制通常是在终端中实现的，具体地，终端在录制语音流的过程中，需要不断的监听相应的事件，并且在监听到相应的事件后，需要通过语音机器人的方式将语音流转发至后续对语音流监管的服务器中，以对语音流实现监管，在这种方式下，必须依赖于事件的监听以及语音机器人的转发，才可以实现对语音流的监管，并且，由于语音流的录制发生在终端中，因此每一次对语音流进行修改，都必须从终端中重新获取语音流，进而增加了语音流监管的复杂度，降低了语音流监管的效率。
4.鉴于此，本领域亟需开发一种新的语音流处理方法及装置。
5.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

6.本公开的目的在于提供一种语音流处理方法、语音流处理装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术导致的语音流监管复杂度高，进而造成的语音流监管效率低的问题。
7.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
8.根据本发明实施例的第一个方面，提供语音流处理方法，所述方法包括：获取客户端发送的分段语音流，并确定与所述分段语音流对应的语音流标识；聚集具有同一所述语音流标识的所述分段语音流得到语音包，并基于所述语音包，对所述分段语音流进行监管。
9.在本发明的一种示例性实施例中，所述获取客户端发送的分段语音流之前，所述方法还包括：将客户端接入语音传输系统，以建立所述客户端与所述语音传输系统之间的数据通信；基于所述客户端与所述语音传输系统之间的数据通信，利用所述语音传输系统中的语音传输节点，对所述客户端中的语音进行录制以得到分段语音流；获取目标转发地址，并基于所述目标转发地址，将所述分段语音流发送，以使与所述目标传输地址对应的目标服务器接收所述客户端发送的所述分段语音流。
10.在本发明的一种示例性实施例中，所述基于所述目标转发地址，将所述分段语音流发送，包括：基于所述目标转发地址，利用无连接的传输协议将所述分段语音流发送。
11.在本发明的一种示例性实施例中，所述分段语音流包括单个用户的语音流；所述
聚集具有同一所述语音流标识的所述分段语音流得到语音包，包括：若所述分段语音流为单个所述用户的，根据所述语音流标识对所述分段语音流进行划分得第一划分结果；获取与所述分段语音流对应的用户标识，并确定与所述用户标识对应的哈希值；在所述第一划分结果中，根据所述哈希值，将具有同一所述用户标识的所述分段语音流聚集得到语音包。
12.在本发明的一种示例性实施例中，所述分段语音流为多个所述用户的混合语音流；所述聚集具有同一所述语音流标识的所述分段语音流得到语音包，包括：若所述分段语音流为所述混合语音流，根据所述语音流标识对所述混合语音流进行划分得到第二划分结果；获取与所述第二划分结果对应的频道标识，在所述第二划分结果中，聚集具有同一所述频道标识的所述混合语音流得到聚集结果；在所述聚集结果中，确定所述混合语音流中多个所述用户的用户标识，并确定与所述用户标识对应的哈希值；在所述聚集结果中，根据所述哈希值，提取所述混合语音流中具有同一所述用户标识的用户分段语音流，以聚集所述用户分段语音流得到语音包。
13.在本发明的一种示例性实施例中，所述语音包中包括至少一个用户分段语音流；所述基于所述语音包，对所述分段语音流进行监管，包括：获取所述语音包中的所述用户分段语音流，并获取与所述用户分段语音流对应的音量值和声音连续值；其中，所述声音连续值用于表征声音的连续性；在所述用户分段语音流中确定所述音量值小于音量阈值的第一目标语音流，并在所述语音文件中确定所述声音连续值小于连续值阈值的第二目标语音流；在所述语音包中删除所述第一目标语音流和所述第二目标语音流，以得到删除后的所述语音包；基于删除后的所述语音包，对所述分段语音流进行监管。
14.在本发明的一种示例性实施例中，所述对所述分段语音流进行监管，包括：对所述分段语音流进行识别，以得到与所述分段语音流对应的文字信息；对所述分段语音流进行转码处理以得到与所述分段语音流对应的语音，结合与所述语音对应的上下语境，对所述文字信息进行敏感词汇判断，以实现对所述分段语音流的监管。
15.根据本发明实施例的第二个方面，提供一种语音流处理装置，所述装置包括：获取模块，被配置为获取客户端发送的分段语音流，并确定与所述分段语音流对应的语音流标识；登录模块，被配置为聚集具有同一所述语音流标识的所述分段语音流得到语音包，并基于所述语音包，实现对所述分段语音流的监管。
16.根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的语音流处理方法。
17.根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的语音流处理方法。
18.由上述技术方案可知，本发明示例性实施例中的语音流处理方法、语音流处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果：
19.在本公开的示例性实施例提供的方法及装置中，一方面，对语音流的处理，不再依赖于客户端，避免了必须通过对客户端中的事件进行监听来获取语音流的情况发生，降低了获取语音流的复杂度，提升了获取语音流的效率；另一方面，避免了若需要对分段语音流进行修改，客户端必须重新发送分段语音流，增加了修改分段语音流过程中的灵活度，扩大
了语音流监管的应用场景。
20.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
21.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1示意性示出本公开实施例中语音流处理方法的流程示意图；
23.图2示意性示出本公开实施例中获取客户端发送的分段语音流之前的流程示意图；
24.图3示意性示出本公开实施例中聚集具有同一语音流标识的分段语音流得到语音包的流程示意图；
25.图4示意性示出本公开实施例中聚集具有同一语音流标识的分段语音流得到语音包的流程示意图；
26.图5示意性示出本公开实施例中基于语音包，对分段语音流进行监管的流程示意图；
27.图6示意性示出本公开实施例中对分段语音流进行监管的流程示意图；
28.图7示意性示出本公开实施例中实现对分段语音流监管的流程示意图；
29.图8示意性示出本公开实施例中语音监管后台的界面；
30.图9示意性示出本公开实施例中向目标客户端发送警告信息之后的流程示意图；
31.图10示出了一应用场景下语音流处理方法的流程示意图；
32.图11示意性示出本公开实施例中一种语音流处理装置的结构示意图；
33.图12示意性示出本公开实施例中一种用于语音流处理方法的电子设备；
34.图13示意性示出本公开实施例中一种用于语音流处理方法的计算机可读存储介质。
具体实施方式
35.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
36.本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出
的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。
37.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。
38.针对相关技术中存在的问题，本公开提出了一种语音流处理方法。图1示出了语音流处理方法的流程示意图，如图1所示，语音流处理方法至少包括以下步骤：
39.步骤s110.获取客户端发送的分段语音流，并确定与分段语音流对应的语音流标识。
40.步骤s120.聚集具有同一语音流标识的分段语音流得到语音包，并基于语音包，对分段语音流进行监管。
41.在本公开的示例性实施例提供的方法及装置中，一方面，对语音流的处理，不再依赖于客户端，避免了必须通过对客户端中的事件进行监听来获取语音流的情况发生，降低了获取语音流的复杂度，提升了获取语音流的效率；另一方面，避免了若需要对分段语音流进行修改，客户端必须重新发送分段语音流，增加了修改分段语音流过程中的灵活度，扩大了语音流监管的应用场景。
42.下面对语音流处理方法的各个步骤进行详细说明。
43.在步骤s110中，获取客户端发送的分段语音流，并确定与分段语音流对应的语音流标识。
44.在本公开的示例性实施例中，分段语音流通常以分钟为单位进行分段处理后的语音信息，并且该分段语音流是从客户端发送过来的，之所以需要按照分钟为单位进行分段处理，是为了防止语音流占用内存过大的现象发生，例如，在终端的直播客户端中，主播a进行了3个小时的直播，此时不能将3个小时的语音流一次性从客户端发送，这会导致客户端所在的终端资源的过度消耗，进而降低了服务器对于语音流的接收速度，因此，通常在直播客户端中以分钟为单位对主播a的语音流进行分段得到分段语音流，然后将分段语音流发送。
45.具体地，分段语音流可以是从终端中的虚拟游戏客户端发送而来的，可以是从终端中观众客户端发送而来的，还可以是从终端中的直播客户端发送而来的，本示例性实施例对此不做特殊限定。并且，获取分段语音流的可以是服务器，也可以是服务器集群，本示例性实施例对此不做特殊限定。
46.基于此，分段语音流中可以包括单个用户的语音信息，还可以包括同一个客户端中多个用户的语音信息，例如在直播客户端中，分段语音流可以是主播一个人的语音信息，在虚拟游戏或语音聊天室中，分段语音流可以是具体的一个虚拟游戏队伍中多个用户的语音信息，可以是一个语音聊天房间中多个用户的语音信息，本示例性实施例对此不做特殊限定。
47.值得说明的是，每一个分段语音流都具有与之对应的语音流标识，例如分段语音流为直播客户端中主播的语音流时，语音流标识为与直播客户端对应的标识，以此来表明该语音流是从直播客户端中产生的，例如分段语音流为语音聊天室中多个观众用户的语音流时，语音流标识为与语音聊天室中多个观众客户端对应的标识，以此表明多个用户的语
音流是从语音里聊天室对应的观众客户端产生的。
48.其中，客户端在向服务器或服务器集群发送分段语音流时，会自动建立分段语音流与语音流标识之间的映射关系，并且该语音流标识与生成分段语音流的客户端对应，服务器或服务器集群在接收到分段语音流时，可以通过确定与分段语音流对应的语音流标识，来获知分段语音流来自于哪一个客户端，进而有助于后续对分段语音流的监管。
49.举例而言，服务器集群获取到了来自客户端a的分段语音流1，还获取到了来自客户端b的分段语音流2，还获取到了来自客户端c的分段语音流3以及分段语音流4，分别获取与分段语音流1、分段语音流2、分段语音流3以及分段语音流4对应的语音流标识，以得到语音流标识d、语音流标识e、语音流标识f以及语音流标识g。
50.在可选的实施例中，图2示出了语音流处理方法中获取客户端发送的分段语音流之前的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤s210中，将客户端接入语音传输系统，以建立客户端与语音传输系统之间的数据通信。
51.其中，语音传输系统指的是设置有语音传输节点的系统，具体地，语音传输系统通过与客户端建立数据通信，以使客户端将分段语音流传输至语音传输系统中的语音传输节点。当语音传输节点接收到客户端发出的分段语音流时，会将分段语音流传输至后续需要的服务器或服务器集群中。
52.举例而言，存在2个客户端，分别为直播客户端以及观众客户端，并且在直播客户端和观众客户端中都存在语音软件开发工具包，此时直播客户端以及观众客户端接入语音传输系统，以使直播客户端和语音聊天室分别与语音传输系统建立起数据通信。
53.在步骤s220中，基于客户端与语音传输系统之间的数据通信，利用语音传输系统中的语音传输节点，对客户端中的语音进行录制以得到分段语音流。
54.其中，当客户端与语音传输系统之间建立起数据通信后，可以利用语音传输系统中的语音传输节点，从客户端中的语音软件开发工具包中获取语音，以对客户端中的语音进行录制，以得到分段语音流。
55.举例而言，在直播客户端和语音聊天室分别与语音传输系统建立起数据通信的基础上，利用语音传输系统中的语音传输节点对直播客户端和观众客户端中的语音进行实时的录制，并且录制的过程中通常以分钟为单位，以得到上述两个客户端中的分段语音流。
56.在步骤s230中，获取目标转发地址，并基于目标转发地址，将分段语音流发送，以使与目标传输地址对应的目标服务器接收客户端发送的分段语音流。
57.其中，目标服务器指的是下游中需要使用到分段语音流的服务器，例如可以是语音流监管服务器。目标服务器可以是分段语音流的接收服务器，还可以是分段语音流的接收服务器集群，本示例性实施例对此不做特殊限定。基于此，目标转发地址指的是目标服务器的接收地址。每当语音传输系统实时得到分段语音流后，就会将分段语音流发送至与目标转发地址对应的目标服务器中，以使目标服务器接收到分段语音流。
58.举例而言，目标转发地址为xxx，将语音传输系统实时得到的分段语音流传输至与目标转发地址xxx对应的服务器集群中。
59.在本示例性实施例中，一方面，通过语音传输系统对客户端中的语音进行录制，使得语音录制的过程不再依赖于客户端，避免了必须通过对客户端中的事件进行监听来获取语音流的情况发生，降低了获取语音流的复杂度，提升了获取语音流的效率，另一方面，若
后续需要对分段语音流进行修改，可直接从语音传输系统获取分段语音流，不必依赖于客户端重新发送的分段语音流，增加了修改分段语音流过程中的灵活度，扩大了语音流监管的应用场景。
60.在可选的实施例中，基于目标转发地址，将分段语音流发送，包括：基于目标转发地址，利用无连接的传输协议将分段语音流发送。
61.其中，通过无连接的传输协议，可以在语音传输系统与目标服务器之间不存在连接的情况下，将分段语音流成功发送至目标服务器，并且，语音传输系统在传输分段语音流的过程中还可以将大量的分段语音流分摊在多个操作单元上实现。
62.举例而言，利用无连接的传输协议将分段语音流发送至与目标转发地址xxx对应的服务器集群中。
63.在本示例性实施例中，分段语音流的传输利用的是无连接的传输协议，加强了整个分段语音流监管过程的系统稳定性。
64.在步骤s120中，聚集具有同一语音流标识的分段语音流得到语音包，并基于语音包，对分段语音流进行监管。
65.在本公开的示例性实施例中，将具有同一语音流标识的语音流聚集起来，得到的聚集结果即为语音包，通过对语音包进行监管，来实现对客户端发送的语音流的监管。
66.举例而言，获取到不同客户端发送的分段语音流a、分段语音流b、分段语音流c以及分段语音流d，并且，与分段语音流a对应的语音流标识为a1，与分段语音流b对应的语音流标识为a1，与分段语音流c对应的语音流标识为c1，与分段语音流d对应的语音流标识为d1。
67.基于此，将具有同一语音流标识的语音流聚集在一起，可以得到3个语音包，分别为包含了分段语音流a和分段语音流b的语音包a，包含了分段语音流c的语音包b以及包含了分段语音流d的语音包c。
68.在可选的实施例中，图3示出了语音流处理方法中聚集具有同一语音流标识的分段语音流得到语音包的流程示意图，分段语音流包括单个用户的语音流，如图3所示，该方法至少包括以下步骤：在步骤s310中，若分段语音流为单个用户的，根据语音流标识对分段语音流进行划分得第一划分结果。
69.其中，由于存在不同类型的客户端，因此分段语音流可以是只包括单个用户语音的分段语音流，首先根据与客户端对应的语音流标识对分段语音流进行划分，以得到第一划分结果，值得说明的是，第一划分结果为来自于同一个客户端的分段语音流。
70.举例而言，获取的分段语音流包括分段语音流a、分段语音流b以及分段语音流c，并且获取分段语音流a的语音流标识为123xxx，获取分段语音流b的语音流标识为123xxx，获取语音流c的语音流标识为234xxx。
71.基于此，根据语音流标识对上述3个分段语音流进行划分得到两个部分，其中第一个部分包括分段语音流a和分段语音流b，第二个部分包括分段语音流c。
72.在步骤s320中，获取与分段语音流对应的用户标识，并确定与用户标识对应的哈希值。
73.其中，通过语音流标识可以明确该分段语音流所属于的客户端，并根据客户端类型明确该分段语音流为单个用户的语音流，因此，还存在与分段语音流对应的用户标识。当
只存在单个用户语音流的客户端产生语音流时，不仅会建立分段语音流与语音流标识之间的映射关系，还会建立分段语音流与用户标识之间的映射关系，以明确该分段语音流是哪个客户端中的哪个用户发出的。
74.哈希值指的是一种用于区分用户标识的，具有固定长度的值，通过与用户标识对应的哈希值，可以明确哪些分段语音流具有相同的用户标识。
75.举例而言，分段语音流包括分段语音流a、分段语音流b以及分段语音流c，基于此，获取分段语音流a的用户标识为xxxx1，获取分段语音流b的用户标识为xxxx1，获取语音流c的用户标识为2xxxx，并且，与获取与第一个用户标识xxxx1对应的哈希值xx0，获取与第二个用户标识xxxx1对应的哈希值为xx0，获取与用户标识为2xxxx对应的哈希值为xx2。
76.在步骤s330中，在第一划分结果中，根据哈希值，将具有同一用户标识的分段语音流聚集得到语音包。
77.其中，基于与用户标识对应的哈希值，对第一划分结果中的分段语音流进行聚集以得到语音包。
78.举例而言，分段语音流包括分段语音流a、分段语音流b以及分段语音流c，基于此，获取分段语音流a的用户标识为xxxx1，获取分段语音流b的用户标识为xxxx1，获取语音流c的用户标识为2xxxx，并且，与获取与第一个用户标识xxxx1对应的哈希值xx0，获取与第二个用户标识xxxx1对应的哈希值为xx0，获取与用户标识为2xxxx对应的哈希值为xx2。
79.并且，根据语音流标识对上述3个分段语音流进行划分为两个部分，其中第一个部分包括分段语音流a和分段语音流b，第二个部分包括分段语音流c。
80.基于此，得到两个语音包分别为包含了分段语音流a和分段语音流b的语音包以及包含了分段语音流c的语音包。
81.在本示例性实施例中，提供了一种将单个用户所产生的分段语音流聚集的方式，有助于后续对单个用户的分段语音流进行监管。
82.在可选的实施例中，图4示出了语音流处理方法中聚集具有同一语音流标识的分段语音流得到语音包的流程示意图，分段语音流包括多个用户的混合语音流，如图4所示，该方法至少包括以下步骤：在步骤s410中，若分段语音流为混合语音流，根据语音流标识对混合语音流进行划分得到第二划分结果。
83.其中，混合语音流指的是含有多个用户声音的分段语音流，例如在语音聊天室中，按照每分钟生成的分段语音流中可能存在语音聊天室中的多个用户的语音。
84.举例而言，存在分段语音流a、分段语音流b以及分段语音流c，并且，与分段语音流a对应的语音流标识为xxxx23，分段语音流b对应的语音流标识为xxxx23，与分段语音流c对应的语音流标识为xxxx31，则第二划分结果包括两个部分，其中第一部分包括分段语音流a以及分段语音流b，第二个结果包括分段语音流c。
85.在步骤s420中，获取与第二划分结果对应的频道标识，在第二划分结果中，聚集具有同一频道标识的混合语音流得到聚集结果。
86.其中，频道标识指的是多个用户所处于的频道的标识，例如在观众客户端中，可以存在多个语音聊天室，其中包括聊天室a和聊天室b，则根据频道标识可以确定分段语音流来自于哪个聊天室。
87.举例而言，存在分段语音流a、分段语音流b以及分段语音流c，并且，与分段语音流
a对应的语音流标识为xxxx23，分段语音流b对应的语音流标识为xxxx23，与分段语音流c对应的语音流标识为xxxx31，则第二划分结果包括两个部分，其中第一部分包括分段语音流a以及分段语音流b，第二个结果包括分段语音流c。
88.分段语音流a的频道标识为xxx01，分段语音流b的频道标识为xxx01，分段语音流c的频道标识为xxx01，因此，聚集结果有三部分，第一部分为分段语音流a，第二部分为分段语音流b，第三部分为分段语音流c。
89.在步骤s430中，在聚集结果中，确定混合语音流中多个用户的用户标识，并确定与用户标识对应的哈希值。
90.其中，聚集结果中可能存在包括多个用户的混合语音流，则确定与混合语音流对应的多个用户的用户标识，以确定出与用户标识对应的哈希值。
91.举例而言，聚集结果有三部分，第一部分为分段语音流a，第二部分为分段语音流b，第三部分为分段语音流c。
92.分段语音流a中包括三个用户标识，分别为x1、x2、x1以及x3，分段语音流b中包括两个用户标识，分别为x4以及x5，分段语音流c中包括2个用户标识，分别为x6以及x1。
93.在步骤s440中，在聚集结果中，根据哈希值，提取混合语音流中具有同一用户标识的用户分段语音流，以聚集用户分段语音流得到语音包。
94.其中，根据哈希值在聚集结果中提取同一用户标识的用户分段语音流，以得到语音包。
95.举例而言，聚集结果有三部分，第一部分为分段语音流a，第二部分为分段语音流b，第三部分为分段语音流c。
96.分段语音流a中包括三个用户标识，分别为x1、x2、x1以及x3，分段语音流b中包括两个用户标识，分别为x4以及x5，分段语音流c中包括2个用户标识，分别为x6以及x1。
97.基于此，在聚集结果的第一部分中，可以提取出三个语音包，分别为包括2个与用户标识x1对应的分段语音流的语音包，包括1个与用户标识x2对应的分段语音流的语音包，包括1个与用户标识x3对应的分段语音流的语音包，除此之外，在聚集结果的第二部分中，可以提取两个语音包，分别为包括1个用户标识x4对应的分段语音流的语音包，包括1个与用户标识x5对应的分段语音流的语音包，在聚集结果的第三部分中，可以提取两个语音包，分别为包括1个用户标识x6对应的分段语音流的语音包，包括1个与用户标识x1对应的分段语音流的语音包。
98.在本示例性实施例中，提供了一种将混合语音流聚集的方式，使得不仅可以对单个用户的分段语音流进行监管，也可以对混合语音流进行监管，不仅扩大了语音流监管的使用场景，而且在后续对语音流进行监管的过程中，可以结合单个用户语音流以及混合语音流这两个维度，得出更为精准的监管结果。
99.在可选的实施例中，图5示出了语音流处理方法中基于语音包，对分段语音流进行监管的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤s510中，获取语音包中的用户分段语音流，并获取与用户分段语音流对应的音量值和声音连续值；其中，声音连续值用于表征声音的连续性。
100.其中，音量值代表的是与分段语音流对应的声音的音量大小，声音连续值指代表的是与分段语音流对应的声音的连续性。
101.举例而言，语音包中包含了3个用户分段语音流，分别为用户分段语音流1、用户分段语音流2以及用户分段语音流3，其中，与用户分段语音流1对应的音量值为1，与用户分段语音流1对应的声音连续值为0.5，与用户分段语音流2对应的音量值为7，与用户分段语音流2对应的声音连续值为8，与用户分段语音流3对应的音量值为6，与用户分段语音流3对应的声音连续值为7。
102.在步骤s520中，在用户分段语音流中确定音量值小于音量阈值的第一目标语音流，并在语音文件中确定声音连续值小于连续值阈值的第二目标语音流。
103.其中，音量阈值指的是衡量声音大小的值，若音量值小于音量阈值，则代表该音量值太小，以至于很难分辨清该声音所要表达的内容，连续性阈值指的是衡量声音连续性的值，若声音连续值小于连续值阈值，则表明该声音的连续性较差，难以分辨该声音所要表达的内容。
104.举例而言，语音包中包含了3个用户分段语音流，分别为用户分段语音流1、用户分段语音流2以及用户分段语音流3，其中，与用户分段语音流1对应的音量值为1，与用户分段语音流1对应的声音连续值为6，与用户分段语音流2对应的音量值为7，与用户分段语音流2对应的声音连续值为4，与用户分段语音流3对应的音量值为6，与用户分段语音流3对应的声音连续值为7。
105.音量阈值为5，连续值阈值为5，此时在用户分段语音流1、用户分段语音流2以及户分段语音流3中，户分段语音流1的音量值小于音量阈值，则户分段语音流1为第一目标语音流，户分段语音流2的声音连续值小于连续值阈值，则户分段语音流2为第二目标语音流。
106.在步骤s530中，在语音包中删除第一目标语音流和第二目标语音流，以得到删除后的语音包。
107.在语音包中删除第一目标语音流和第二目标语音流，以避免在语音包中存在无法分辨声音内容的语音文件。
108.举例而言，语音包中包含了3个用户分段语音流，分别为用户分段语音流1、用户分段语音流2以及用户分段语音流3，用户分段语音流1为第一目标语音流，用户分段语音流2为第二目标语音流，则将用户分段语音流1和用户分段语音流2删除，得到包含了用户分段语音流3的语音包。
109.在步骤s540中，基于删除后的语音包，对分段语音流进行监管。
110.根据删除后的语音包，实现对分段语音流的监管。
111.举例而言，对删除后的语音包中的分段语音流进行文字识别，并根据文字识别的结果实现对分段语音流的监管。
112.在本示例性实施例中，在语音包中删除了音量值小于音量阈值的第一目标语音流和声音连续值小于连续值阈值的第二目标语音流，以确保语音包中包含的分段语音流是可以分辨出声音的分段语音流，避免对无法分辨声音内容的分段语音流进行无效监管，提高了分段语音流监管的效率。
113.在可选的实施例中，图6示出了语音流处理方法中对分段语音流进行监管的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤s610中，对分段语音流进行识别，以得到与分段语音流对应的文字信息。
114.其中，对分段语音流进行识别，例如，可以是利用文字识别模块对分段语音流进行
识别，以得到与分段语音流对应的文字信息。
115.举例而言，分段语音流包括分段语音流a和分段语音流b，利用语音识别模块对分段语音流a进行识别，以得到与分段语音流a对应的文字信息a1，对分段语音流b进行识别，以得到与分段语音流b对应的文字信息b1。
116.在步骤s620中，对分段语音流进行转码处理以得到与分段语音流对应的语音，结合与语音对应的上下语境，对文字信息进行敏感词汇判断，以实现对分段语音流的监管。
117.其中，对分段语音流进行转码处理以得到可以播放的语音。对文字信息进行敏感词汇判断，存在两种方式，其中一种是首先使用敏感词汇判断模块对文字信息进行判断，然后根据需求播放语音，结合语音的上下语境再次对文字信息进行敏感词汇判断，另一种方式是直接播放语音，结合语音的上下语境，对文字信息进行敏感词汇判断。
118.若在文字信息中存在敏感词汇，则可以发出相应的警告信息，以起到语音流监管的作用，其中，敏感词汇可以是辱骂性词汇，可以是涉及政治敏感词的词汇，可以是涉及法律的词汇，还可以是任何一种不应该在客户端中出现的词汇，本示例性实施例对此不做特殊限定。
119.举例而言，利用敏感词汇判断模块对文字信息进行敏感词汇判断，并且判断结果为文字信息中存在敏感信息，此时生成警告信息，用于警告生成与文字信息对应的分段语音流的用户，以起到对分段语音流的监管作用。
120.用户在收到警告信息后，假设用户认为自己的语音中不存在敏感词汇，可以发出质疑信息，此时需要相关工作人员播放语音，结合与语音对应的上下语境，对用户产生的分段语音流进行敏感词汇判断，以维持原判断结果，或对原判断结果进行修改。
121.在本示例性实施例中，通过结合与语音对应的上下语境，对文字信息进行敏感词汇判断，提高了分段语音流监管的准确度。
122.在可选的实施例中，图7示出了语音流处理方法中实现对分段语音流监管的流程示意图，如图7所示，该方法至少包括以下步骤，在步骤s710中，对文字信息进行敏感词汇识别，若文字信息中包含敏感词汇，则确定分段语音流的监管结果为第一结果。
123.其中，监管结果指的是敏感性词汇识别的识别结果，其中，若文字信息中包含敏感性词汇，则确定分段语音流监管的结果为第一结果。
124.举例而言，如图8为语音监管后台的界面，如图8所示，其中，上传时间为获取到语音包的时间，来源指的是与该语音包对应的分段语音流所属于的客户端，角色标识表示的是与语音包的用户标识对应的用户所玩的游戏角色，文字指的是对语音包进行文字识别后得到的文字信息，当后台监管人员触控语音转文字中的文字识别控件时，可以对该控件对应的语音包进行文字识别，以得到文字信息，也可以自动对语音包进行文字识别，以得到文字信息，本示例性实施例对此不做特殊限定。
125.显然在图8中的第一行，文字中包括敏感词汇“神经病”，因此第一行中与监管结果对应的单元格中显示的为第一结果。
126.在步骤s720中，若文字信息中不包含敏感词汇，则确定分段语音流的监管结果为第二结果。
127.其中，若文字信息中不包含敏感词汇，监管结果可以为第二结果，即该文字信息为符合监管要求的结果。
128.举例而言，若文字信息中不包括敏感词汇，则在图8中与监管结果对应的单元格中显示第二结果。
129.在本示例性实施例中，通过对语音包进行文字识别，以得到文字信息，并对文字信息进行敏感词汇识别，以获得第一结果或第二结果，提供了一种对分段语音流进行监管的方法，进而实现对语音流的监管。
130.在可选的实施例中，确定分段语音流的监管结果为第一结果之后，方法还包括：确定与语音包对应的用户标识，并根据用户标识，确定与用户标识对应的用户所在的目标终端，以向目标客户端发送警告信息。
131.其中，当监管结果为第一结果时，获取与语音包对应的用户标识，并确定与该用户标识对应的目标客户端，并向该目标客户端发送警告信息。
132.举例而言，与语音包a对应的用户标识为123xxxx，确定与该用户标识对应的用户为“xx”，并且“xx”所在的目标客户端为客户端a，此时需要向目标客户端a发送警告信息，以用来警告“xx”所说的话中涉及到敏感词汇。
133.在本示例性实施例中，当监管结果为第一结果时，向目标客户端发送警告信息，以警告产生语音包的用户，不仅提高了监管的效率，还提升了目标客户端中其他用户的用户体验度。
134.在可选的实施例中，图9示出了语音流处理方法中向目标客户端发送警告信息之后的流程示意图，如图9所示，该方法至少包括以下步骤：在步骤s910中，若获取到针对于第一结果的质疑信息，获取与语音包对应的生成时间。
135.值得说明的是，第一结果是确定语音包中包含敏感词汇的结果，由于在进行敏感词汇识别的过程中可能存在错误，或得出第一结果并没有得到用户的认可，此时可能会接收到用户发送的针对于第一结果的质疑信息，此时需要获取该语音包对应的语音，以根据语音进行语境分析，即上下语境分析，以确定第一结果是否正确，并且在确定与语音包对应的语音时，首先要确定语音包的生成时间。
136.举例而言，当对虚拟游戏客户端中的用户a所产生的语音包中的分段语音流进行敏感词识别后，得出了监管结果为第一结果的结果，将该结果发送至虚拟游戏客户端，并对用户a进行禁言处理，此时用户a认为该监管结果是错误的，可以发送针对于第一结果的质疑信息，基于此，获取语音包a的生成时间2点23分。
137.在步骤s920中，根据生成时间，确定与语音包对应的分段语音流，并对分段语音流进行语境分析。
138.其中，因为分段语音流通常是以分钟为分割单位进行分割后得到的结果，所以根据语音包的生成时间，可以在众多分段语音流中确定与语音包对应的分段语音流，以对分段语音流进行语境分析，进而通过再一次确定来判断第一结果的正确性。
139.举例而言，语音包a的生成时间为2点23分，与语音包a具有相同语音流标识的语音流有3个，分别为分段语音流1、分段语音流2以及分段语音流3，其中分段语音流1的生成时间为2点22分，分段语音流2的生成时间为2点25分，分段语音流3的生成时间为2点30分，因此，根据生成时间，确定与语音包a对应的分段语音流为分段语音流1，以对分段语音流1中的进行语境分析。
140.在步骤s930中，根据语境分析的结果，对第一结果进行更新。
141.其中，若语境分析的结果为与第一结果相反的结果，则对第一结果进行更新，除此之外，若语境分析结果为与第一结果相同的结果，则维持第一结果不变。
142.举例而言，语音包a的生成时间为2点23分，可以确定出与语音包a对应的分段语音流为分段语音流1，在分段语音流1中包括1分钟内产生语音包a的用户的声音，并且在分段语音流1中还可以包括其他用户的声音，对分段语音流1进行语境分析，得出的语境分析结果为第二结果，基于此，将第一结果更新为第二结果。
143.在本示例性实施例中，即对语音包进行敏感词汇识别，也对分段语音流进行语境分析，并结合敏感词汇识别的识别结果以及语境分析的分析结果，确定监管结果，提高了确定出的监管结果的准确性，避免了监管结果错误的情况发生。
144.在本公开的示例性实施例提供的方法及装置中，一方面，对语音流的处理，不再依赖于客户端，避免了必须通过对客户端中的事件进行监听来获取语音流的情况发生，降低了获取语音流的复杂度，提升了获取语音流的效率；另一方面，避免了若需要对分段语音流进行修改，客户端必须重新发送分段语音流，增加了修改分段语音流过程中的灵活度，扩大了语音流监管的应用场景。
145.下面结合一应用场景对本公开实施例中语音流处理方法做出详细说明。
146.图10出了一应用场景下语音流处理方法的流程示意图，如图10所示，其中，工具包1001为虚拟游戏客户端语音软件开发工具包，节点1002为服务器集群中的语音传输节点，步骤s1010为节点1002获取工具包1001中发送的语音的过程，服务器集群1003为目标服务器集群，步骤s1020为节点1002将不同线程收集的分段语音流复制一份给转发线程，然后转发线程基于无连接的数据传输协议，和负载均衡的方式将不同的分段语音流分担在服务器集群1003中的过程，在这样的传输模式下，即使获取的分段语音流数量巨大，也对性能的稳定性几乎不造成损耗。
147.步骤s1030为根据语音流标识对分段语音流进行聚集得到语音包的过程，步骤s1040为将语音包进行存储的过程，步骤s1050为对语音包进行编码处理的过程，步骤s1060为确定语音包中的第一目标语音流和第二目标语音流，并删除语音包中第一目标语音流和第二目标语音流的过程，步骤s1070为对语音包中进行文字识别和敏感词汇识别，以得到监管结果的过程，服务器1004为下游服务器，步骤s1080为将语音包发送至下游服务器，以作为下游服务器中的数据源的过程。
148.在本应用场景中，一方面，对语音流的处理，不再依赖于客户端，避免了必须通过对客户端中的事件进行监听来获取语音流的情况发生，降低了获取语音流的复杂度，提升了获取语音流的效率；另一方面，避免了若需要对分段语音流进行修改，客户端必须重新发送分段语音流，增加了修改分段语音流过程中的灵活度，扩大了语音流监管的应用场景。
149.此外，在本公开的示例性实施例中，还提供一种语音流处理装置。图11示出了语音流处理装置的结构示意图，如图11所示，语音流处理装置1100可以包括：获取模块1110和登录模块1120。其中：
150.获取模块1110，被配置为获取客户端发送的分段语音流，并确定与分段语音流对应的语音流标识；登录模块920，被配置为聚集具有同一语音流标识的分段语音流得到语音包，并基于语音包，实现对分段语音流的监管。
151.上述语音流处理装置1100的具体细节已经在对应的语音流处理方法中进行了详
细的描述，因此此处不再赘述。
152.应当注意，尽管在上文详细描述中提及语音流处理装置1100的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
153.此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。
154.下面参照图12来描述根据本发明的这种实施例的电子设备1200。图12显示的电子设备1200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
155.如图12所示，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230、显示单元1240。
156.其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1210执行，使得所述处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
157.存储单元1220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)1021和/或高速缓存存储单元1222，还可以进一步包括只读存储单元(rom)1223。
158.存储单元1220还可以包括具有一组(至少一个)程序模块1225的程序/使用工具1224，这样的程序模块1225包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包含网络环境的现实。
159.总线1230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
160.电子设备1200也可以与一个或多个外部设备1270(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1200交互的设备通信，和/或与使得该电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1250进行。并且，电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器1260通过总线1230与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
161.通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd
‑
rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
162.在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述
程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
163.参考图13所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1300，其可以采用便携式紧凑盘只读存储器(cd
‑
rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
164.所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
165.计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
166.可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
167.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
168.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音转换模型训练方法、装置、电子设备及存储介质与流程

语音流处理方法及装置、计算机可读存储介质、电子设备与流程

相关文献

最热文献