语音处理方法、装置、设备、存储介质及程序与流程

2021-11-06 06:42:00 来源：中国专利 TAG：

1.本发明涉及智能语音技术领域，尤其涉及一种语音处理方法、装置、设备、存储介质及程序。

背景技术：

2.智能外呼系统可以自动呼叫用户的客户端，并通过智能机器人与用户进行简单的语音交流。例如，智能外呼系统根据用户的语音信息，生成语音信息对应的应答语音以和用户进行交流。
3.目前，智能外呼系统在生成应答语音时，智能外呼系统中的各个设备之间需要建立通信连接，以传输媒体信息。例如，语音网关通过通信连接向语音转换设备发送用户的语音。但是，现有的智能外呼系统之间的通信连接是通过轮询的方式获取媒体信息，例如，语音转换设备每隔一段时间向语音网关发送语音获取请求，语音网关接收到语音获取请求时，才可以向语音转换设备发送用户语音。这样使得智能外呼系统之间的媒体信息传输的实时性较差，进而导致语音处理的效率较低。

技术实现要素：

4.本发明的主要目的在于提供一种语音处理方法、装置、设备、存储介质及程序，旨在解决现有技术中语音处理的效率较低的技术问题。
5.为实现上述目的，第一方面，本发明实施例提供一种语音处理方法，应用于语音系统，所述语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，所述方法包括：
6.所述控制设备通过websocket连接从所述呼叫中心设备接收用户的第一语音信息，所述控制设备与所述呼叫中心设备通过websocket连接；
7.所述控制设备通过websocket连接从所述语音转换设备获取所述第一语音信息对应的第一文本，所述控制设备与所述语音转换设备通过websocket连接；
8.所述控制设备从所述应答设备获取所述第一文本对应的应答文本，并通过websocket连接从所述语音合成设备获取所述应答文本对应的应答语音；
9.所述控制设备通过websocket连接向所述呼叫中心设备发送所述应答语音，以使所述呼叫中心设备向所述用户的客户端发送所述应答语音。
10.在一种可能的实施方式中，所述控制设备通过websocket连接从所述语音转换设备获取所述第一语音信息对应的第一文本之后，还包括：
11.所述控制设备获取所述第一文本中包括的字符数量、以及所述控制设备上一次向所述呼叫中心设备发送的历史应答语音的时间信息，时间信息包括第一发送时刻和所述第一应答语音的第一时长；
12.所述控制设备根据所述第一文本中包括的字符数量和所述时间信息，生成打断指令。
13.在一种可能的实施方式中，根据所述第一文本中包括的字符数量和所述时间信息，生成打断指令，包括：
14.根据当前时刻、所述第一发送时刻和所述历史应答语音的第一时长，确定所述呼叫中心设备是否正在播放所述第一应答语音；
15.若是，则在所述第一文本中包括的字符数量大于或等于预设阈值时，生成所述打断指令。
16.在一种可能的实施方式中，所述控制设备通过websocket连接从所述语音转换设备获取所述第一语音信息对应的第一文本，包括：
17.所述控制设备通过websocket连接向所述语音转换设备发送所述第一语音信息；
18.所述控制设备通过websocket连接接收所述语音转换设备发送的所述第一文本。
19.在一种可能的实施方式中，通过websocket连接从所述语音合成设备获取所述应答文本对应的应答语音，包括：
20.所述控制设备通过websocket连接向所述语音合成设备发送所述应答文本；
21.所述控制设备通过websocket连接从所述语音合成设备接收所述应答语音。
22.在一种可能的实施方式中，所述控制设备从所述应答设备获取所述第一文本对应的应答文本，包括：
23.所述控制设备通过http连接向所述应答设备发送所述第一文本；
24.所述控制设备通过http连接从所述应答设备接收所述应答文本。
25.在一种可能的实施方式中，所述控制设备通过websocket连接从所述呼叫中心设备接收用户的第一语音信息之前，包括：
26.所述控制设备接收所述呼叫中心设备发送的websocket连接建立请求；
27.所述控制设备根据所述websocket连接建立请求，与所述呼叫中心设备建立websocket连接。
28.在一种可能的实施方式中，所述控制设备通过websocket连接从所述语音转换设备获取所述第一语音信息对应的第一文本之前，还包括：
29.所述控制设备在确定所述客户端与所述呼叫中心设备建立呼叫连接之后，向所述语音转换设备发送websocket连接建立请求；
30.所述控制设备接收所述语音转换设备发送的websocket连接建立请求对应的websocket连接建立响应；
31.所述控制设备根据websocket连接建立响应，与所述语音转换设备建立websocket连接。
32.在一种可能的实施方式中，所述控制设备通过websocket连接从所述语音合成设备获取所述应答文本对应的应答语音之前，包括：
33.所述控制设备在确定所述客户端与所述呼叫中心设备建立呼叫连接之后，向所述语音合成设备发送websocket连接建立请求；
34.所述控制设备接收所述语音合成设备发送的websocket连接建立请求对应的websocket连接建立响应；
35.所述控制设备根据websocket连接建立响应，与所述语音合成设备建立websocket连接。
36.第二方面，本技术实施例提供一种语音系统，包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，其中，
37.所述呼叫中心设备用于，通过websocket连接向所述控制设备发送用户的第一语音信息；
38.所述控制设备用于，通过websocket连接向所述语音转换设备发送所述第一语音信息；
39.所述语音转换设备用于，将所述第一语音信息转换为第一文本，并通过websocket连接向所述控制设备发送所述第一文本；
40.所述控制设备还用于，向所述应答设备发送所述第一文本；
41.所述应答设备用于，确定所述第一文本对应的应答文本，并向所述控制设备发送所述应答文本；
42.所述控制设备还用于，通过websocket连接向所述语音合成设备发送所述应答文本；
43.所述语音合成设备用于，将所述应答文本转换为应答语音，并通过websocket连接向所述控制设备发送所述应答语音；
44.所述控制设备还用于，通过websocket连接向所述呼叫中心设备发送所述应答语音；
45.所述呼叫中心设备还用于，向所述用户的客户端发送所述应答语音。
46.在一种可能的实施方式中，所述控制设备还用于，执行第一方面所述的方法。
47.第三方面，本技术实施例提供一种语音处理装置，应用于语音系统，所述语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，所述语音处理装置包括接收模块、第一获取模块、第二获取模块和发送模块，其中：
48.所述接收模块用于，通过websocket连接从所述呼叫中心设备接收用户的第一语音信息，所述控制设备与所述呼叫中心设备通过websocket连接；
49.所述第一获取模块用于，通过websocket连接从所述语音转换设备获取所述第一语音信息对应的第一文本，所述控制设备与所述语音转换设备通过websocket连接；
50.所述第二获取模块用于，从所述应答设备获取所述第一文本对应的应答文本，并通过websocket连接从所述语音合成设备获取所述应答文本对应的应答语音；
51.所述发送模块用于，通过websocket连接向所述呼叫中心设备发送所述应答语音，以使所述呼叫中心设备向所述用户的客户端发送所述应答语音。
52.在一种可能的实施方式中，所述第一获取模块具体用于：
53.通过websocket连接向所述语音转换设备发送所述第一语音信息；
54.通过websocket连接接收所述语音转换设备发送的所述第一文本。
55.在一种可能的实施方式中，所述第一获取模块具体用于：
56.通过websocket连接向所述语音合成设备发送所述应答文本；
57.通过websocket连接从所述语音合成设备接收所述应答语音。
58.在一种可能的实施方式中，所述第二获取模块具体用于：
59.通过http连接向所述应答设备发送所述第一文本；
60.通过http连接从所述应答设备接收所述应答文本。
61.在另一种可能的实施方式中，所述接收模块还用于：
62.接收所述呼叫中心设备发送的websocket连接建立请求；
63.根据所述websocket连接建立请求，与所述呼叫中心设备建立websocket连接。
64.在另一种可能的实施方式中，所述发送模块还用于：
65.所述控制设备在确定所述客户端与所述呼叫中心设备建立呼叫连接之后，向所述语音转换设备发送websocket连接建立请求；
66.所述控制设备接收所述语音转换设备发送的websocket连接建立请求对应的websocket连接建立响应；
67.所述控制设备根据websocket连接建立响应，与所述语音转换设备建立websocket连接。
68.在另一种可能的实施方式中，所述发送模块还用于：
69.所述控制设备在确定所述客户端与所述呼叫中心设备建立呼叫连接之后，向所述语音合成设备发送websocket连接建立请求；
70.所述控制设备接收所述语音合成设备发送的websocket连接建立请求对应的websocket连接建立响应；
71.所述控制设备根据websocket连接建立响应，与所述语音合成设备建立websocket连接。
72.在另一种可能的实施方式中，所述第一获取模块还用于：
73.所述控制设备获取所述第一文本中包括的字符数量、以及所述控制设备上一次向所述呼叫中心设备发送的历史应答语音的时间信息，时间信息包括第一发送时刻和所述第一应答语音的第一时长；
74.所述控制设备根据所述第一文本中包括的字符数量和所述时间信息，生成打断指令。
75.在一种可能的实施方式中，所述第一获取模块用于：
76.根据当前时刻、所述第一发送时刻和所述历史应答语音的第一时长，确定所述呼叫中心设备是否正在播放所述第一应答语音；
77.若是，则在所述第一文本中包括的字符数量大于或等于预设阈值时，生成所述打断指令。
78.第四方面，本技术实施例提供一种语音处理设备，包括处理器和存储器；
79.所述存储器存储计算机执行指令；
80.所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面所述的语音处理方法。
81.第五方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现第一方面所述的语音处理方法。
82.第六方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的语音处理方法。
83.本发明实施例提供一种语音处理方法、装置、设备、存储介质及程序，应用于语音系统，语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，控
制设备通过websocket分别与呼叫中心设备、语音转换设备和语音合成设备连接，控制设备通过websocket连接从呼叫中心设备接收用户的第一语音信息，控制设备通过websocket连接从语音转换设备获取第一语音信息对应的第一文本，控制设备从应答设备获取第一文本对应的应答文本，并通过websocket连接从语音合成设备获取应答文本对应的应答语音，控制设备通过websocket连接向呼叫中心设备发送应答语音，以使呼叫中心设备向用户的客户端发送应答语音，这样，websocket连接可以直接进行数据传输，无需进行轮询，不仅可以降低语音系统的复杂度，并且控制设备可以通过语音转换设备、应答设备、语音转换设备，实时的获取用户的语音对应的应答语音，进而提高语音处理的效率。
附图说明
84.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
85.图1为本技术实施例提供的一种语音系统的结构示意图；
86.图2为本技术实施例提供的一种语音处理方法的流程示意图；
87.图3为本技术实施例提供的一种控制设备接收第一语音信息的过程示意图；
88.图4为本技术实施例提供的一种控制设备获取第一文本的过程示意图；
89.图5为本技术实施例提供的一种获取应答语音的过程示意图；
90.图6为本技术实施例提供的一种控制设备和呼叫中心设备的连接方法流程图；
91.图7为本技术实施例提供的一种控制设备与语音合成设备和语音转换设备的连接建立方法示意图；
92.图8为本技术实施例提供的一种语音处理装置的结构示意图；
93.图9为本技术提供的语音处理设备的硬件结构示意图。
94.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
95.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
96.在相关技术中，智能外呼系统中的各个设备之间需要建立通信连接，以传输媒体信息。例如，语音网关通过通信连接向语音转换设备发送用户语音，向语音应答设备发送应答文本。但是现有的智能外呼系统之间的通信连接是通过轮询的方式获取媒体信息。例如，语音应答设备每隔一段时间向语音网关发送文本获取请求，语音网关接收到文本获取请求时，才可以向语音应答设备发送用户语音对应的文本。这样使得智能外呼系统之间的媒体信息传输的实时性较差，进而导致语音处理的效率较低。
97.为了解决相关技术中语音处理的效率较低的技术问题，本技术实施例提供一种语音处理方法，应用于语音系统，语音系统中包括控制设备、呼叫中心设备、语音转换设备、应
答设备和语音合成设备，控制设备通过websocket连接从呼叫中心设备接收用户的第一语音信息，并通过websocket连接向语音转换设备发送第一语音信息，语音转换设备将第一语音信息转换为对应的文本信息，并通过websocket连接向控制设备发送该文本信息，控制设备接收到文本信息时，通过超文本传输协议(hyper text transfer protocol，http)向应答设备发送文本信息，应答设备根据文本信息确定应答文本，并通过http向控制设备发送应答文本，控制设备接收到应答文本时，通过websocket连接向语音合成设备发送该应答文本，语音合成设备将该应答文本合成语音后，websocket连接向控制设备发送应答语音，控制设备接收到应答语音时，通过websocket连接向呼叫中心设备发送应答语音，以使呼叫中心设备向用户的客户端发送该应答语音，这样，通过websocket连接降低语音系统的复杂度，由于websocket连接可以直接进行数据传输，无需进行轮询，因此，通过控制设备，可以灵活、实时的对第一语音信息进行处理，在获取用户的第一语音信息时，语音系统可以实时的合成第一语音信息对应的应答语音，提高语音处理的效率。
98.下面，结合图1，对本技术涉及的语音系统的结构进行说明。
99.图1为本技术实施例提供的一种语音系统的结构示意图。请参见图1，包括语音系统和客户端。其中，语音系统中包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备。语音系统可以接收用户在客户端输入的语音信息，以及根据接收到的语音信息，确定应答语音，语音系统确定应答语音时，可以向客户端发送应答语音，以使用户可以通过客户端和语音系统进行会话，这样可以提高语音处理的效率。
100.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
101.图2为本技术实施例提供的一种语音处理方法的流程示意图。请参见图2，该方法可以包括：
102.s201、呼叫中心设备通过websocket连接向控制设备发送用户的第一语音信息，控制设备与呼叫中心设备通过websocket连接。
103.本技术实施例的执行主体可以为语音系统，也可以为设置在语音系统中的语音处理装置，语音处理装置可以通过软件实现，也可以通过软件和硬件的结合实现。
104.websocket是一种在单个传输控制连接上进行全双工通信的协议。例如，设备a和设备b通过websocket连接之后，可以同时进行双向的数据传输。控制设备和呼叫中心设备通过websocket连接。可选的，呼叫中心设备可以呼叫用户的客户端。例如，在呼叫中心设备接收到用户的电话号码时，呼叫中心设备可以向用户的电话号码拨打电话。可选的，在呼叫中心设备呼叫用户的客户端时，呼叫中心设备可以为本次呼叫建立会话房间，本次通话的语音信息都在会话房间中保存。可选的，呼叫中心设备可以包括外呼管理系统和呼叫中心中间件，外呼管理系统可以获取用户的客户端的账号，并分别为每个账号建立会话房间，呼叫中心中间件可以呼叫客户端的账号。
105.呼叫中心设备用于，通过websocket连接向控制设备发送用户的第一语音信息。例如，在控制设备和呼叫中心设备通过websocket连接之后，呼叫中心设备可以通过websocket连接向控制设备发送用户的第一语音信息。第一语音信息为用户的客户端输出的语音信息。例如，呼叫中心设备可以向用户的手机拨打电话，在用户接听之后，手机可以
向呼叫中心设备发送用户接听之后的语音信息。例如，呼叫中心设备与用户的手机建立通话连接之后，若用户发出的语音为“你好”，则呼叫中心设备接收到的第一语音信息为“你好”，呼叫中心设备接收到第一语音信息时，可以通过websocket连接直接向控制设备发送第一语音信息“你好”。例如，在呼叫中心设备获取到第一语音信息时，呼叫中心设备可以向控制设备发送第一语音信息，控制设备根据websocket连接接收第一语音信息。
106.下面，结合图3，对控制设备通过websocket连接从呼叫中心设备接收用户的第一语音信息的过程进行说明。
107.图3为本技术实施例提供的一种控制设备接收第一语音信息的过程示意图。请参见图3，包括控制设备、呼叫中心设备和客户端。其中，在呼叫中心设备呼叫客户端之后，客户端接受呼叫中心设备的呼叫，呼叫中心设备与控制设备建立websocket连接。
108.请参见图3，客户端向呼叫中心设备发送语音信息“今天天气怎么样”，呼叫中心设备接收客户端发送的语音信息，并通过websocket连接向控制设备发送该语音信息。
109.s202、控制设备通过websocket连接从所述语音转换设备获取第一语音信息对应的第一文本，控制设备与语音转换设备通过websocket连接。
110.语音转换设备用于，将第一语音信息转换为第一文本，并通过websocket连接向控制设备发送第一文本。第一文本为第一语音信息对应的文本内容。例如，若第一语音信息为语音“早饭吃的什么”，则第一文本为文本“早饭吃的什么”。
111.语音转换设备可以将语音信息转换为文本信息。例如，语音转换设备可以对控制设备发送的第一语音信息进行语音识别，并将识别到的语音转换为对应的文本。例如，语音转换设备接收到的语音为“今天天气如何”，语音转换设备可以将该语音转换为本文内容“今天天气如何”。例如，语音转换设备可以为支持asr技术的设备，在asr接收到语音信息时，可以将语音信息转换为本文信息。
112.控制设备与语音转换设备通过websocket连接。可选的，控制设备可以通过如下可行的实现方式，获取第一语音信息对应的第一文本：控制设备通过websocket连接向语音转换设备发送第一语音信息。例如，在控制设备接收到呼叫中心设备发送的用户的第一语音信息时，控制设备可以通过websocket连接向语音转换设备发送该第一语音信息。
113.控制设备通过websocket连接接收语音转换设备发送的第一文本。例如，语音转换设备接收到控制设备发送的第一语音信息时，语音转换设备可以实时的将第一语音信息转换为第一文本，并通过websocket连接实时的向控制设备发送第一语音信息对应的第一文本。例如，控制设备通过websocket连接从呼叫中心设备获取的用户语音为“你好”，控制设备通过websocket连接向语音转换设备发送语音“你好”，语音转换设备通过websocket连接接收到语音“你好”之后，语音转换设备对语音进行识别，并将识别出的语音转换为文本“你好”，语音转换设备可以通过websocket连接向控制设备发送“你好”的文本。
114.下面，结合图4，对控制设备通过websocket连接从语音转换设备获取第一语音信息对应的第一文本的过程进行说明。
115.图4为本技术实施例提供的一种控制设备获取第一文本的过程示意图。请参见图4，包括控制设备、呼叫中心设备和语音转换设备。其中，呼叫中心设备与控制设备通过websocket连接，控制设备与语音转换设备通过websocket连接。呼叫中心向控制设备发送的第一语音信息为“今天下雨了吗”，控制设备接收到第一语音信息时，通过websocket连接
向语音转换设备发送第一语音信息，语音转换设备接收到“今天下雨了吗”的语音信息时，可以对语音信息进行处理，将语音信息转换为“今天下雨了吗”的文本内容，并通过websocket连接向控制设备发送“今天下雨了吗”的文本内容。
116.可选的，控制设备获取第一文本之后，控制设备还可以根据第一文本生成打断指令。可以根据如下可行的实现方式生成打断指令：控制设备获取第一文本中包括的字符数量、以及控制设备上一次向呼叫中心设备发送的历史应答语音的时间信息。字符数量为第一文本中的字符数。例如，若第一文本中包括10个字符，则字符数量为10。历史应答语音为控制设备上一次向呼叫中心设备发送的应答语音。例如，在用户与语音系统进行交流的过程中，控制设备可以向呼叫中心设备发送用户语音对应的应答语音，历史应答语音可以为当前时刻发送的最后一个应答语音。时间信息包括第一发送时刻和历史应答语音的第一时长。第一发送时刻为发送历史应答语音的时刻。第一时长为历史应答语音的播放时长。例如，若历史应答语音的播放时长为10秒，则历史应答语音的第一时长为10秒。可选的，控制设备可以根据历史应答语音的语音片，确定历史应答语音的第一时长。例如，若控制设备接收到历史应答语音对应的10个语音片，每个语音片为20毫秒，则历史应答语音的第一时长为200毫秒。
117.根据第一文本中包括的字符数量和时间信息，确定打断指令。可选的，可以根据当前时刻、第一发送时刻和历史应答语音的第一时长，确定呼叫中心设备是否正在播放历史应答语音。例如，根据当前时刻和第一发送时刻确定时间差，进而根据第一时长和时间差确定呼叫中心设备是否正在播放历史应答语音。例如，在当前时刻和第一发送时刻之间的时间差为10秒时，若第一时长为5秒，则确定呼叫中心设备已经完成历史应答语音的播放，若第一时长为15秒，则确定呼叫中心设备未完成历史应答语音的播放，呼叫中心设备正在播放历史应答语音。
118.若呼叫中心设备正在播放历史应答语音，则在第一文本中包括的字符数量大于或等于预设阈值时，生成打断指令。例如，在呼叫中心设备正在播放历史应答语音时，若控制设备从语音转换设备获取的第一文本中的字符数量大于或等于预设阈值，说明用户正在通过用户设备发出用户语音，此时，控制设备可以判断用户打断呼叫中心设备播放的语音，控制设备生成打断指令；若控制设备从语音转换设备获取的第一文本中的字符数量小于预设阈值，说明用户设备发出的用户语音为无效语音(如环境杂音等)，此时控制设备判断用户未打断呼叫中心设备播放的语音，控制设备不生成打断指令。控制设备通过第一文本的字符数量和历史应答语音的时间信息，可以灵活的确定是否生成打断指令，进而提高控制设备语音处理的灵活度。s203、控制设备从应答设备获取第一文本对应的应答文本，并通过websocket连接从语音合成设备获取应答文本对应的应答语音。
119.可选的，控制设备还用于向应答设备发送第一文本。应答设备用于确定第一文本对应的应答文本，并向控制设备发送应答文本。可选的，应答设备可以包括多轮会话管理系统dm和自然语言理解系统nlu。例如，应答设备可以通过多轮会话管理系统获取第一文本对应的多个应答的文本，自然语音理解系统可以在多个应答的文本中确定第一文本对应的应答文本。
120.可选的，控制设备与应答设备通过http连接。控制设备可以根据如下可行的实现方式获取第一文本对应的应答文本：控制设备通过http连接向应答设备发送第一文本。例
如，控制设备接收到语音转换设备发送的第一文本时，控制可以通过http连接向应答设备发送第一文本。例如，控制设备接收到语音转换设备发送的文本“你好”之后，可以通过http连接，向应答设备发送文本“你好”。可选的，控制设备与应答设备也可以通过websocket连接，进而通过websocket连接发送第一文本。这样，可以通过http快速的向应答设备发送第一文本，提高语音处理的实时性。
121.控制设备通过http连接从应答设备接收应答文本。可选的，应答设备可以通过第一文本确定第一文本对应的应答文本。例如，应答设备接收到第一文本时，应答设备通过多轮会话管理系统dm对第一文本的多种场景的应答结果进行模拟，进而得到第一文本在多种场景下的应答文本，并通过自然语言理解系统nlu在多种场景下的应答文本中，确定第一文本对应的唯一的一个应答文本。应答设备确定应答文本之后，应答设备可以通过http向控制设备发送第一文本对应的应答文本。
122.控制设备与语音合成设备通过websocket连接，控制设备还用于通过websocket连接向语音合成设备发送应答文本。例如，控制设备接收到应答设备发送的第一文本对应的应答文本时，控制设备可以通过websocket连接向语音合成设备发送应答文本。
123.语音合成设备用于，将应答文本转换为应答语音，并通过websocket连接向控制设备发送应答语音。例如，语音合成设备可以为tts，在tts接收到应答文本时，tts可以将应答文本转换为应答语音。例如，若第一文本对应的应答文本为文本内容“今天是晴天”，则tts可以将该文本内容转换为语音信息“今天是晴天”。
124.可选的，控制设备通过websocket连接向语音合成设备发送应答文本，以及通过websocket连接从语音合成设备接收应答语音。例如，在控制设备通过应答设备获取第一文本对应的应答文本时，控制设备可以通过websocket向语音合成设备发送该应答文本，语音合成设备接收到该应答文本时，可以将该应答文本转换为应答语音，并向控制设备发送该应答语音。例如，控制设备向应答设备发送的第一文本为“今天是什么天气”，应答设备通过第一文本确定应答文本为“今天是晴天”，控制设备向语音合成设备发送文本内容“今天是晴天”，语音合成设备可以生成“今天是晴天”的语音信息，并向控制设备发送该语音信息。
125.下面，结合图5，对控制设备获取应答文本对应的应答语音的过程进行说明。
126.图5为本技术实施例提供的一种获取应答语音的过程示意图。请参见图5，包括语音转换设备、控制设备、应答设备和语音合成设备。其中，语音转换设备与控制设备通过websocket连接，应答设备与控制设备通过http连接，控制设备和语音合成设备通过websocket连接。
127.请参见图5，语音转换设备通过websocket连接向控制设备发送第一文本“今天的天气如何”，控制设备通过websocket接收到第一文本时，通过http向应答设备发送第一文本。应答设备通过http接收到第一文本时，可以根据第一文本，确定第一文本对应的应答文本“今天雨很大”，并通过http向控制设备发送应答文本，控制设备接收到应答文本时，通过websocket向语音合成设备发送应答文本，语音合成设备通过应答文本生成应答语音“今天雨很大”，并通过websocket向控制设备发送“今天雨很大”的应答语音。
128.s204、控制设备通过websocket连接向呼叫中心设备发送应答语音，以使呼叫中心设备向用户的客户端发送应答语音。
129.可选的，控制设备还用于，通过websocket连接向呼叫中心设备发送应答语音。例
如，控制设备接收语音合成设备发送的应答语音时，控制设备可以通过websocket连接向呼叫中心设备发送应答语音。
130.可选的，呼叫中心设备还用于，向用户的客户端发送应答语音。例如，呼叫中心设备接收到控制设备发送的应答语音时，可以向用户的客户端发送应答语音。例如，控制设备接收到第一语音信息对应的应答语音为“今天雨很大”，控制设备可以向呼叫中心设备发送该应答语音，呼叫中心设备接收到应答语音时，可以向用户的客户端发送该应答语音，以使用户可以通过客户端听到“今天雨很大”的语音。例如，用户通过客户端向呼叫中心设备发送“今天天气如何”的用户语音，呼叫中心设备接收到用户语音之后，向控制设备发送用户语音，控制设备可以向语音转换设备发送“今天天气如何”的用户语音，语音转换设备对“今天天气如何”的用户语音进行识别，得到“今天天气如何”的用户文本，语音转换设备向控制设备发送用户文本，控制设备接收到用户文本之后，可以向应答设备发送用户文本，应答设备根据用户文本生成“今天晴天”的应答文本，并向控制设备发送应答文本，控制设备接收到应答文本时，向语音合成设备发送应答文本，语音合成设备将应答文本转换为应答语音“今天晴天”，并向控制设备发送应答语音，控制设备接收到应答语音时，向呼叫中心设备发送应答语音，呼叫中心设备接收到应答语音之后可以向用户的客户端播放“今天晴天”的应答语音。
131.本技术实施例提供一种语音处理方法，呼叫中心设备通过websocket连接向控制设备发送用户的第一语音信息，控制设备与呼叫中心设备通过websocket连接，控制设备通过websocket连接从所述语音转换设备获取第一语音信息对应的第一文本，控制设备与语音转换设备通过websocket连接，控制设备从应答设备获取第一文本对应的应答文本，并通过websocket连接从语音合成设备获取应答文本对应的应答语音，控制设备通过websocket连接向呼叫中心设备发送应答语音，以使呼叫中心设备向用户的客户端发送应答语音。根据上述方法，语音系统中的控制设备分别与呼叫中心设备、语音转换设备和语音合成设备通过websocket连接，降低语音系统的复杂度，降低语音系统的成本，并且，控制设备可以实时的生成第一语音信息对应的应答语音，使得用户可以通过客户端快速的获取应答语音，提高语音生成的效率。
132.在图2所示的实施例的基础上，在控制设备通过websocket连接从呼叫中心设备接收用户的第一语音信息之前，上述语音处理方法还包括控制设备与呼叫中心设备的连接过程，下面，结合图6，对控制设备与呼叫中心设备的连接过程进行说明。
133.图6为本技术实施例提供的一种控制设备和呼叫中心设备的连接方法流程图。请参见图6，该方法包括：
134.s601、控制设备接收呼叫中心设备发送的websocket连接建立请求。
135.可选的，在呼叫中心设备呼叫用户的客户端时，若用户的客户端与呼叫中心设备建立呼叫连接，则呼叫中心设备向控制设备发送websocket连接建立请求。例如，呼叫中心设备向用户的手机拨打电话时，若用户接听呼叫，则呼叫中心设备向控制设备发送websocket连接建立请求，若用户未接听呼叫，则呼叫中心设备不向控制设备发送websocket连接建立请求。这样，在呼叫中心设备确定已经与用户的客户端建立呼叫连接之后，呼叫中心设备才会向控制设备发送websocket连接建立请求，进而避免控制设备与呼叫中心设备建立websocket连接，而用户的客户端未与呼叫中心设备建立呼叫连接导致资源
浪费的情况，提高语音系统的资源利用率。
136.可选的，呼叫中心设备也可以在呼叫用户的客户端之前向控制设备发送websocket连接建立请求。
137.s602、控制设备根据websocket连接建立请求，与呼叫中心设备建立websocket连接。
138.可选的，控制设备接收到呼叫中心设备发送的websocket连接请求时，可以与呼叫中心设备建立websocket连接。
139.本技术实施例提供一种控制设备与呼叫中心设备建立websocket连接的方法，在呼叫中心设备确定与用户的客户端建立呼叫连接之后，呼叫中心设备再向控制设备发送websocket连接建立请求，这样可以避免资源浪费，提高语音系统的资源利用率。
140.在上述任意一个实施例的基础上，本技术的语音处理方法还包括控制设备与语音转换设备和语音合成设备之间的websocket连接建立的过程。下面，结合图7，对控制设备与语音合成设备和语音转换设备建立websocket连接的过程进行说明。
141.图7为本技术实施例提供的一种控制设备与语音合成设备和语音转换设备的连接建立方法示意图。请参见图7，该方法包括：
142.s701、控制设备在确定客户端与呼叫中心设备建立呼叫连接之后，向语音转换设备和语音合成设备发送websocket连接建立请求。
143.可选的，控制设备通过websocket连接从语音转换设备获取第一语音信息对应的第一文本之前，控制设备还可以确定客户端与呼叫中心设备是否建立呼叫连接，若客户端与呼叫中心设备已经建立呼叫连接，则控制设备向语音转换设备发送websocket连接建立请求。例如，控制设备在确定客户端与呼叫中心设备建立呼叫连接之后，向语音转换设备发送websocket连接建立请求。
144.可选的，控制设备通过websocket连接从语音合成设备获取应答文本对应的应答语音之前，控制设备还可以确定客户端与呼叫中心设备是否建立呼叫连接，若客户端与呼叫中心设备已经建立呼叫连接，则控制设备向语音合成设备发送websocket连接建立请求。例如，控制设备在确定客户端与呼叫中心设备建立呼叫连接之后，向语音合成设备发送websocket连接建立请求。
145.可选的，控制设备可以同时向语音合成设备和语音转换设备发送websocket连接建立请求，也可以按照预设的顺序向语音合成设备和语音转换设备发送websocket连接建立请求，本技术实施例对此不作限定。
146.s702、控制设备接收语音转换设备和语音合成设备发送的websocket连接建立请求对应的websocket连接建立响应。
147.可选的，语音转换设备接收到websocket连接建立请求时，可以向控制设备发送websocket连接建立响应，语音合成设备接收到websocket连接建立请求时，可以向控制设备发送websocket连接建立响应。
148.s703、控制设备根据websocket连接建立响应，与语音转换设备和语音合成设备建立websocket连接。
149.控制设备根据语音合成设备的websocket连接建立响应与语音合成设备建立websocket连接，控制设备根据语音转换设备的websocket连接建立响应与语音转换设备建
立websocket连接。
150.本技术实施例提供一种控制设备与语音合成设备和语音转换设备的连接建立方法，控制设备在确定客户端与呼叫中心设备建立呼叫连接之后，向语音转换设备和语音合成设备发送websocket连接建立请求，控制设备接收语音转换设备和语音合成设备发送的websocket连接建立请求对应的websocket连接建立响应，控制设备根据websocket连接建立响应，与语音转换设备和语音合成设备建立websocket连接。根据上述方法，可以提高语音系统的资源利用率，降低语音系统的复杂度，提高语音处理的效率。
151.图8为本技术实施例提供的一种语音处理装置的结构示意图。请参见图8，语音处理装置10应用于语音系统，所述语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，所述语音处理装置10包括接收模块11、第一获取模块12、第二获取模块13和发送模块14，其中：
152.所述接收模块11用于，通过websocket连接从所述呼叫中心设备接收用户的第一语音信息，所述控制设备与所述呼叫中心设备通过websocket连接；
153.所述第一获取模块12用于，通过websocket连接从所述语音转换设备获取所述第一语音信息对应的第一文本，所述控制设备与所述语音转换设备通过websocket连接；
154.所述第二获取模块13用于，从所述应答设备获取所述第一文本对应的应答文本，并通过websocket连接从所述语音合成设备获取所述应答文本对应的应答语音；
155.所述发送模块14用于，通过websocket连接向所述呼叫中心设备发送所述应答语音，以使所述呼叫中心设备向所述用户的客户端发送所述应答语音。
156.在一种可能的实施方式中，所述第一获取模块12具体用于：
157.通过websocket连接向所述语音转换设备发送所述第一语音信息；
158.通过websocket连接接收所述语音转换设备发送的所述第一文本。
159.在一种可能的实施方式中，所述第一获取模块12具体用于：
160.通过websocket连接向所述语音合成设备发送所述应答文本；
161.通过websocket连接从所述语音合成设备接收所述应答语音。
162.在一种可能的实施方式中，所述第二获取模块13具体用于：
163.通过http连接向所述应答设备发送所述第一文本；
164.通过http连接从所述应答设备接收所述应答文本。
165.在另一种可能的实施方式中，所述接收模块11还用于：
166.接收所述呼叫中心设备发送的websocket连接建立请求；
167.根据所述websocket连接建立请求，与所述呼叫中心设备建立websocket连接。
168.在另一种可能的实施方式中，所述发送模块14还用于：
169.所述控制设备在确定所述客户端与所述呼叫中心设备建立呼叫连接之后，向所述语音转换设备发送websocket连接建立请求；
170.所述控制设备接收所述语音转换设备发送的websocket连接建立请求对应的websocket连接建立响应；
171.所述控制设备根据websocket连接建立响应，与所述语音转换设备建立websocket连接。
172.在另一种可能的实施方式中，所述发送模块14还用于：
173.所述控制设备在确定所述客户端与所述呼叫中心设备建立呼叫连接之后，向所述语音合成设备发送websocket连接建立请求；
174.所述控制设备接收所述语音合成设备发送的websocket连接建立请求对应的websocket连接建立响应；
175.所述控制设备根据websocket连接建立响应，与所述语音合成设备建立websocket连接。
176.在另一种可能的实施方式中，所述第一获取模块12还用于：
177.所述控制设备获取所述第一文本中包括的字符数量、以及所述控制设备上一次向所述呼叫中心设备发送的历史应答语音的时间信息，时间信息包括第一发送时刻和所述第一应答语音的第一时长；
178.所述控制设备根据所述第一文本中包括的字符数量和所述时间信息，生成打断指令。
179.在一种可能的实施方式中，所述第一获取模块12用于：
180.根据当前时刻、所述第一发送时刻和所述历史应答语音的第一时长，确定所述呼叫中心设备是否正在播放所述第一应答语音；
181.若是，则在所述第一文本中包括的字符数量大于或等于预设阈值时，生成所述打断指令。
182.本技术实施例提供的语音处理装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
183.本技术实施例所示的语音处理装置可以为芯片、硬件模组、处理器等。当然，语音处理装置可以为其它形态，本技术实施例对此不作具体限定。
184.图9为本技术提供的语音处理设备的硬件结构示意图。请参见图9，该语音处理设备20可以包括：处理器21和存储器22，其中，处理器21和存储器22可以通信；示例性的，处理器21和存储器22通过通信总线23通信，所述存储器22用于存储程序指令，所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的语音处理方法。
185.可选的，语音处理设备20还可以包括通信接口，通信接口可以包括发送器和/或接收器。
186.可选的，上述处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
187.本技术实施例提供一种语音系统，包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，其中，所述呼叫中心设备用于，通过websocket连接向所述控制设备发送用户的第一语音信息；
188.所述控制设备用于，通过websocket连接向所述语音转换设备发送所述第一语音信息；
189.所述语音转换设备用于，将所述第一语音信息转换为第一文本，并通过websocket连接向所述控制设备发送所述第一文本；
190.所述控制设备还用于，向所述应答设备发送所述第一文本；
191.所述应答设备用于，确定所述第一文本对应的应答文本，并向所述控制设备发送所述应答文本；
192.所述控制设备还用于，通过websocket连接向所述语音合成设备发送所述应答文本；
193.所述语音合成设备用于，将所述应答文本转换为应答语音，并通过websocket连接向所述控制设备发送所述应答语音；
194.所述控制设备还用于，通过websocket连接向所述呼叫中心设备发送所述应答语音；
195.所述呼叫中心设备还用于，向所述用户的客户端发送所述应答语音。
196.所述控制设备还用于，执行上述任意一项实施例的语音处理方法。
197.本技术提供一种可读存储介质，所述可读存储介质上存储有计算机程序；所述计算机程序用于实现如上述任意实施例所述的语音处理方法。
198.本技术实施例提供一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行上述语音处理方法。
199.实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(英文：read
‑
only memory，缩写：rom)、ram、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetic tape)、软盘(英文：floppy disk)、光盘(英文：optical disc)及其任意组合。
200.本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理单元以产生一个机器，使得通过计算机或其他可编程终端设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
201.这些计算机程序指令也可存储在能引导计算机或其他可编程终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
202.这些计算机程序指令也可装载到计算机或其他可编程终端设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
203.显然，本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。
204.在本技术中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可
以指“和/或”。本技术中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本技术中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
205.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音处理方法、装置、设备、存储介质及程序与流程

语音处理方法、装置、设备、存储介质及程序与流程

相关文献

最热文献