语音控制方法、装置、设备、存储介质及程序与流程

2021-11-06 06:42:00 来源：中国专利 TAG：

1.本发明涉及智能语音技术领域，尤其涉及一种语音控制方法、装置、设备、存储介质及程序。

背景技术：

2.智能外呼系统可以自动呼叫用户的客户端，并通过智能机器人与用户进行简单的语音交流。
3.目前，在智能外呼系统接收到用户的语音信息时，可以将语音信息转换为文本信息，根据文本信息确定对应的应答文本，并合成应答文本对应的应答语音，智能外呼系统向用户发送应答语音以和用户进行交流。但是，智能外呼系统和用户进行交流的场景是多变的(如用户挂断会话、打断对话等)，而在用户挂断会话或者打断会话时，智能外呼系统依然会对未处理完的语音信息进行处理，并继续生成对应的语音，进而导致智能外呼系统的语音控制的灵活度较低。

技术实现要素：

4.本发明的主要目的在于提供一种语音控制方法、装置、设备、存储介质及程序，旨在解决现有技术中语音控制的灵活度较低的技术问题。
5.第一方面，本技术实施例提供一种语音控制方法，应用于语音系统，所述语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，所述呼叫中心设备与用户设备之间具有通话连接；所述方法包括：
6.所述控制设备获取第一指令，所述第一指令为所述通话连接的通话挂断指令或者打断指令，所述打断指令用于指示用户语音打断所述呼叫中心设备的语音播放；
7.所述控制设备根据所述第一指令，生成暂停指令，所述暂停指令包括所述语音通话的通话标识；
8.向所述语音转换设备、所述应答设备和所述语音合成设备发送暂停指令，所述暂停指令用于指示所述语音转换设备、所述应答设备和所述语音合成设备暂停所述通话连接对应的处理任务。
9.在一种可能的实施方式中，所述控制设备获取第一指令，包括：
10.所述控制设备接收所述呼叫中心设备发送的用户挂断指令，并将所述用户挂断指令确定为所述第一指令；或者，
11.所述控制设备接收所述呼叫中心设备发送的用户语音，并根据所述用户语音确定所述第一指令，所述第一指令为所述打断指令或者系统挂断指令；所述通话挂断指令包括所述用户挂断指令和所述系统挂断指令。
12.在一种可能的实施方式中，所述第一指令为打断指令；根据所述用户语音信息确定所述第一指令，包括：
13.所述控制设备向所述语音转换设备发送所述用户语音；
14.所述控制设备接收所述语音转换设备发送的所述用户语音对应的用户文本；
15.所述控制设备获取所述用户文本中包括的字符数量、以及所述控制设备上一次向所述呼叫中心设备发送的第一应答语音的时间信息，时间信息包括第一发送时刻和所述第一应答语音的第一时长；
16.根据所述用户文本中包括的字符数量和所述时间信息，确定所述打断指令。
17.在一种可能的实施方式中，根据所述用户文本中包括的字符数量和所述时间信息，确定所述打断指令，包括：
18.根据当前时刻、所述第一发送时刻和所述第一应答语音的第一时长，确定所述呼叫中心设备是否正在播放所述第一应答语音；
19.若是，则在所述用户文本中包括的字符数量大于或等于预设阈值时，生成所述打断指令。
20.在一种可能的实施方式中，所述第一指令为系统挂断指令；根据所述用户语音信息确定所述第一指令，包括：
21.所述控制设备向所述语音转换设备发送所述用户语音；
22.所述控制设备接收所述语音转换设备发送的所述用户语音对应的用户文本；
23.所述控制设备向所述应答设备发送所述用户文本；
24.所述控制设备设备接收所述应答设备发送的系统挂断指令；
25.所述控制设备将所述系统挂断指令确定为所述第一指令。
26.在一种可能的实施方式中，所述方法还包括：
27.所述控制设备向呼叫中心设备发送第二应答语音之后，所述控制设备获取所述第二应答语音的第二发送时刻和第二时长；
28.若所述控制设备在所述第二发送时刻之后的第三时长之内未接收到用户语音，则所述控制设备执行预设操作，所述预设操作包括：所述控制设备向所述呼叫中心设备发送预设语音、所述控制设备向所述呼叫中心设备发送系统挂断指令，所述第三时长大于或等于所述第二时长与预设时长之和。
29.在一种可能的实施方式中，所述控制设备与所述呼叫中心设备、所述语音转换设备、所述语音合成设备之间分别通过websocket连接；所述websocket连接用于传输控制指令和多媒体信息，所述控制指令包括所述第一指令和所述暂停指令，所述多媒体信息包括文本信息和语音信息。
30.第二方面，本技术实施例提供一种语音系统，包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，其中，
31.所述呼叫中心设备用于，通过websocket连接向控制设备发送用户语音或者用户挂断指令；
32.所述控制设备用于，通过websocket连接向所述语音转换设备发送用户语音；
33.所述语音转换设备用于，将所述用户语音转换为用户文本，并通过websocket连接向所述控制设备发送用户文本；
34.所述控制设备还用于，根据所述用户文本，确定打断指令；
35.所述控制设备还用于，向所述应答设备发送用户文本；
36.所述应答设备用于，根据所述用户文本，确定系统挂断指令，并向所述控制设备发
送系统挂断指令；
37.所述控制设备还用于，将所述打断指令、所述系统挂断指令或所述用户挂断指令，确定为第一指令，并根据第一指令生成暂停指令；
38.所述控制设备还用于，向所述语音转换设备、所述应答设备和所述语音合成设备发送所述暂停指令。
39.在一种可能的实施方式中，所述控制设备还用于，执行第一方面所述的方法。
40.第三方面，本技术实施例提供一种语音控制装置，应用于语音系统，所述语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，所述呼叫中心设备与用户设备之间具有通话连接；所述语音控制装置包括第一获取模块、生成模块和发送模块，其中：
41.所述第一获取模块用于，获取第一指令，所述第一指令为所述通话连接的通话挂断指令或者打断指令，所述打断指令用于指示用户语音打断所述呼叫中心设备的语音播放；
42.所述生成模块用于，根据所述第一指令，生成暂停指令，所述暂停指令包括所述语音通话的通话标识；
43.所述发送模块用于，向所述语音转换设备、所述应答设备和所述语音合成设备发送暂停指令，所述暂停指令用于指示所述语音转换设备、所述应答设备和所述语音合成设备暂停所述通话连接对应的处理任务。
44.在一种可能的实施方式中，所述第一获取模块具体用于：
45.所述控制设备接收所述呼叫中心设备发送的用户挂断指令，并将所述用户挂断指令确定为所述第一指令；或者，
46.所述控制设备接收所述呼叫中心设备发送的用户语音，并根据所述用户语音确定所述第一指令，所述第一指令为所述打断指令或者系统挂断指令；所述通话挂断指令包括所述用户挂断指令和所述系统挂断指令。
47.在一种可能的实施方式中，所述第一获取模块具体用于：
48.所述控制设备向所述语音转换设备发送所述用户语音；
49.所述控制设备接收所述语音转换设备发送的所述用户语音对应的用户文本；
50.所述控制设备获取所述用户文本中包括的字符数量、以及所述控制设备上一次向所述呼叫中心设备发送的第一应答语音的时间信息，时间信息包括第一发送时刻和所述第一应答语音的第一时长；
51.根据所述用户文本中包括的字符数量和所述时间信息，确定所述打断指令。
52.在一种可能的实施方式中，所述第一获取模块具体用于：
53.根据当前时刻、所述第一发送时刻和所述第一应答语音的第一时长，确定所述呼叫中心设备是否正在播放所述第一应答语音；
54.若是，则在所述用户文本中包括的字符数量大于或等于预设阈值时，生成所述打断指令。
55.在一种可能的实施方式中，所述第一获取模块具体用于：
56.所述控制设备向所述语音转换设备发送所述用户语音；
57.所述控制设备接收所述语音转换设备发送的所述用户语音对应的用户文本；
58.所述控制设备向所述应答设备发送所述用户文本；
59.所述控制设备设备接收所述应答设备发送的系统挂断指令；
60.所述控制设备将所述系统挂断指令确定为所述第一指令。
61.在另一种可能的实施方式中，所述语音控制装置还包括第二获取模块，所述第二获取模块用于：
62.所述控制设备向呼叫中心设备发送第二应答语音之后，所述控制设备获取所述第二应答语音的第二发送时刻和第二时长；
63.若所述控制设备在所述第二发送时刻之后的第三时长之内未接收到用户语音，则所述控制设备执行预设操作，所述预设操作包括：所述控制设备向所述呼叫中心设备发送预设语音、所述控制设备向所述呼叫中心设备发送系统挂断指令，所述第三时长大于或等于所述第二时长与预设时长之和。
64.在一种可能的实施方式中，所述控制设备与所述呼叫中心设备、所述语音转换设备、所述语音合成设备之间分别通过websocket连接；所述websocket连接用于传输控制指令和多媒体信息，所述控制指令包括所述第一指令和所述暂停指令，所述多媒体信息包括文本信息和语音信息。
65.第四方面，本技术实施例提供一种语音控制设备，包括处理器和存储器；
66.所述存储器存储计算机执行指令；
67.所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如第一方面所述的语音控制方法。
68.第五方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当所述计算机执行指令被处理器执行时用于实现第一方面所述的语音控制方法。
69.第六方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的语音控制方法。
70.本发明实施例提供一种语音控制方法、装置、设备、存储介质及程序，应用于语音系统，语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，呼叫中心设备与用户之间具有通话连接，控制设备获取第一指令，其中，第一指令为通话连接的通话挂断指令或者打断指令，打断指令用于指示用户语音打断呼叫中心设备的语音播放，控制设备根据第一指令，生成暂停指令，并向语音转换设备、应答设备和语音合成设备发送暂停指令，以使语音转换设备、应答设备和语音合成设备暂停通话连接对应的处理任务。根据上述方法，在控制设备确定用户打断对话或者挂断对话时，控制设备可以及时的生成暂停指令，并通过暂停指令控制语音转换设备、应答设备和语音合成设备暂停通话连接对应的处理任务，不仅可以节约语音系统的资源，还可以灵活的制定暂停的策略，进而提高语音控制的灵活度。
附图说明
71.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以
根据这些附图获得其他的附图。
72.图1为本技术实施例提供的一种语音系统的结构示意图；
73.图2为本技术实施例提供的一种语音控制方法的流程示意图；
74.图3为本技术实施例提供的一种生成打断指令的过程示意图；
75.图4为本技术实施例提供的一种生成系统挂断指令的过程示意图；
76.图5a为本技术实施例提供的语音转换设备接收到暂停指令的处理过程；
77.图5b为本技术实施例提供的语音合成设备接收到暂停指令的处理过程；
78.图6为本技术实施例提供的打断指令对应的呼叫中心设备的控制示意图；
79.图7为本技术实施例提供的一种会话超时的控制方法流程示意图；
80.图8为本技术实施例提供的一种会话超时的控制过程示意图；
81.图9为本技术实施例提供的一种语音控制方法的过程示意图；
82.图10为本技术实施例提供的一种语音控制装置的结构示意图；
83.图11为本技术实施例提供的另一种语音控制装置的结构示意图；
84.图12为本技术提供的语音控制设备的硬件结构示意图。
85.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
86.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
87.在相关技术中，智能外呼系统接收到用户的语音时，可以生成用户语音对应的应答语音，并向用户播放应答语音，以实现人机之间的语音交流。但是，在实际的应用过程中，智能外呼系统和用户进行交流的场景是多变的，例如，在智能外呼系统通过通话连接向用户的客户端播放语音时，用户可能会打断播放的语音，或者，直接挂断此次通话连接，而智能外呼系统只能固定的对未处理完的语音进行处理，并继续生成对应的语音，例如，用户打断智能外呼系统正在播放的语音，但是智能外呼系统会继续播放语音，这样会导致智能外呼系统的语音控制的灵活度较低。
88.为了解决相关技术中语音控制的灵活度较低的技术问题，本技术实施例提供一种语音控制方法，应用于语音系统，语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，呼叫中心设备与用户设备之间具有通话连接，控制设备接收呼叫中心设备发送的用户挂断指令，并将用户挂断指令确定为第一指令，或者，控制设备接收呼叫中心设备发送的用户语音，并根据用户语音确定打断指令或者系统挂断指令，以及将打断指令或者系统挂断指令确定为第一指令，控制设备根据第一指令，生成暂停指令，并向语音转换设备、应答设备和语音合成设备发送暂停指令，以使语音转换设备、应答设备和语音合成设备暂停通话连接对应的处理任务。这样，在语音系统和用户进行语音交互的过程中，若用户打断语音或者挂断通话连接，语音系统通过websocket连接向语音转换设备和语音合成设备发送暂停指令，以及通过超文本传输协议(hyper text transfer protocol，http)向应答设备发送暂停指令，这样可以避免用户打断语音，而语音系统依然在播放语音
的情况，提高用户的体验，同时，由于控制设备通过websocket连接向语音转换设备和语音合成设备发送暂停指令，因此，在语音转换设备和语音合成设备中无需设置http协议，降低语音转换设备和语音合成设备的复杂度，并且，在用户打断语音或者挂断通话连接时，语音系统可以及时的停止对通话连接对应的语音的处理，不仅可以节约语音系统的资源，还可以灵活的制定暂停的策略，进而提高语音控制的灵活度。
89.下面，结合图1，对本技术涉及的语音系统的结构进行说明。
90.图1为本技术实施例提供的一种语音系统的结构示意图。请参见图1，包括语音系统和用户设备。其中，语音系统中包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备。在语音系统和用户设备进行通话连接时，若用户通过用户设备打断语音系统的语音播报，或者，用户通过用户设备挂断通话连接时，控制设备可以向语音转换设备、应答设备和语音合成设备发送暂停指令，以使语音转换设备、应答设备和语音合成设备暂停通话连接对应的处理任务，这样可以节约语音系统的资源，并且提高语音控制的灵活度。
91.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
92.图2为本技术实施例提供的一种语音控制方法的流程示意图。请参见图2，该方法可以包括：
93.s201、控制设备获取第一指令，第一指令为通话连接的通话挂断指令或者打断指令。
94.本技术实施例的执行主体可以为语音系统中的控制设备，也可以为设置在控制设备中的语音控制装置，语音控制装置可以通过软件实现，也可以通过软件和硬件的结合实现。
95.语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备。其中，呼叫中心设备与用户设备之间具有通话连接。用户设备可以为电话、电脑等设备。例如，呼叫中心设备可以与用户的电话建立通话连接。控制设备与呼叫中心设备、语音转换设备、语音合成设备之间分别通过websocket连接。控制设备与应答设备通过http连接。
96.websocket连接用于传输控制指令和多媒体信息。控制指令包括第一指令和暂停指令。可选的，暂停指令用于指示语音转换设备、应答设备和语音合成设备暂停通话连接对应的处理任务。多媒体信息包括文本信息和语音信息。例如，多媒体信息可以为呼叫中心设备从用户设备接收的用户语音，多媒体信息也可以为语音转换设备根据用户语音生成的对应的文本信息。
97.呼叫中心设备用于，通过websocket连接向控制设备发送用户语音或者挂断指令。例如，呼叫中心设备可以获取用户设备发送的用户语音，并通过websocket连接向控制设备发送用户语音。例如，在用户主动挂断通话连接时，呼叫中心设备可以生成挂断指令，并通过websocket连接向控制设备发送挂断指令。
98.语音转换设备可以将语音转换为文本。例如，语音转换设备接收到的语音为“今天天气如何”，语音转换设备可以将该语音转换为本文内容。例如，语音转换设备可以为asr，在asr接收到语音时，可以将语音转换为文本。
99.语音合成设备可以将文本转换为语音。例如，语音合成设备可以为tts，在tts接收
到应答文本时，tts可以将应答文本转换为应答语音。
100.通话挂断指令包括用户挂断指令和系统挂断指令。其中，用户挂断指令用于指示用户挂断呼叫中心设备与用户设备之间的通话连接。例如，在用户通过电话与语音系统进行语音交流时，若用户挂断电话，则语音系统生成挂断指令。系统挂断指令为语音系统主动挂断呼叫中心设备与用户设备之间的通话连接。例如，在用户通过电话与语音系统进行语音交流时，若语音系统生成系统挂断指令，则语音系统主动挂断与用户设备之间的通话连接。
101.打断指令用于指示用户语音打断呼叫中心设备的语音播放。例如，在呼叫中心设备向用户设备播放语音时，若用户发出语音打断呼叫中心设备的语音播放，则语音系统生成打断指令。
102.可以根据如下可行的实现方式获取第一指令：在用户主动挂断用户设备和语音系统之间的连接时，呼叫中心设备可以生成用户挂断指令，并通过websocket连接向控制设备发送用户挂断指令。控制设备接收到用户挂断指令之后，将用户挂断指令确定为第一指令。例如，在用户主动挂断电话和呼叫中心设备之间的通话连接时，控制设备获取的第一指令为用户挂断指令。
103.在呼叫中心设备向控制设备发送用户语音时，控制设备接收呼叫中心设备发送的用户语音，并根据用户语音确定第一指令。其中，第一指令为打断指令或者系统挂断指令。
104.可选的，控制设备根据用户语音确定第一指令有如下两种情况：
105.情况1：第一指令为打断指令。
106.在第一指令为打断指令时，控制设备可以根据如下可行的实现方式确定第一指令：控制设备向语音转换设备发送用户语音。例如，控制设备从呼叫中心设备获取用户语音，并通过websocket连接向语音转换设备发送用户语音。
107.控制设备接收语音转换设备发送的用户语音对应的用户文本。可选的，语音转换设备用于，将用户语音转换为用户文本，并通过websocket连接向控制设备发送用户文本。例如，语音转换设备接收控制设备发送的用户语音，并将用户语音转换为对应的用户文本，以及通过websocket连接向语音转换设备发送该用户文本。
108.控制设备获取用户文本中包括的字符数量、以及控制设备上一次向呼叫中心设备发送的第一应答语音的时间信息。字符数量为用户文本中的字符数。例如，若用户文本中包括10个字符，则字符数量为10。第一应答语音为控制设备上一次向呼叫中心设备发送的应答语音。例如，在用户与语音系统进行交流的过程中，控制设备可以向呼叫中心设备发送用户语音对应的应答语音，第一应答语音可以为当前时刻发送的最后一个应答语音。时间信息包括第一发送时刻和第一应答语音的第一时长。第一发送时刻为发送第一应答语音的时刻。第一时长为第一应答语音的播放时长。例如，若第一应答语音的播放时长为10秒，则第一应答语音的第一时长为10秒。可选的，控制设备可以根据第一应答语音的语音片，确定第一应答语音的第一时长。例如，若控制设备接收到第一应答语音对应的10个语音片，每个语音片为20毫秒，则第一应答语音的第一时长为200毫秒。
109.根据用户文本中包括的字符数量和时间信息，确定打断指令。可选的，可以根据当前时刻、第一发送时刻和第一应答语音的第一时长，确定呼叫中心设备是否正在播放第一应答语音。例如，根据当前时刻和第一发送时刻确定时间差，进而根据第一时长和时间差确
定呼叫中心设备是否正在播放第一应答语音。例如，在当前时刻和第一发送时刻之间的时间差为10秒时，若第一时长为5秒，则确定呼叫中心设备已经完成第一应答语音的播放，若第一时长为15秒，则确定呼叫中心设备未完成第一应答语音的播放，呼叫中心设备正在播放第一应答语音。
110.若呼叫中心设备正在播放第一应答语音，则在用户文本中包括的字符数量大于或等于预设阈值时，生成打断指令。例如，在呼叫中心设备正在播放第一应答语音时，若控制设备从语音转换设备获取的用户文本中的字符数量大于或等于预设阈值，说明用户正在通过用户设备发出用户语音，此时，控制设备可以判断用户打断呼叫中心设备播放的语音，控制设备生成打断指令，并将打断指令确定为第一指令；若控制设备从语音转换设备获取的用户文本中的字符数量小于预设阈值，说明用户设备发出的用户语音为无效语音(如环境杂音等)，此时控制设备判断用户未打断呼叫中心设备播放的语音，控制设备不生成打断指令。
111.下面，结合图3，对该种情况中生成的打断指令进行说明。
112.图3为本技术实施例提供的一种生成打断指令的过程示意图。请参见图3，包括：控制设备、呼叫中心设备和语音转换设备。其中，控制设备向呼叫中心设备发送10秒的语音，呼叫中心设备接收到10秒的语音之后开始播放语音。在5秒之后，语音转换设备向控制设备发送用户文本。控制设备接收用户文本，并确定用户文本中的字符数量，在用户文本中的字符数量大于预设阈值时，控制设备生成打断指令，并将打断指令确定为第一指令。
113.在该种情况中，在第一指令为打断指令时，控制设备可以根据用户文本的字符数量和上一次向呼叫中心设备发送的第一应答语音的时间信息，准确的确定用户是否打断播放的语音，进而准确的确定用户是否生成打断指令，提高语音控制的准确度和灵活度。
114.情况2：第一指令为系统挂断指令。
115.在第一指令为系统挂断指令时，控制设备可以根据如下可行的实现方式确定第一指令：控制设备向语音转换设备发送用户语音，以及接收语音转换设备发送的用户语音对应的用户文本。例如，控制设备通过websocket连接向语音转换设备发送用户语音，语音转换设备接收到用户语音后生成用户语音对应的用户文本，并通过websocket连接向控制设备发送用户语音对应的用户文本。
116.控制设备向应答设备发送用户文本，以及接受应答设备发送的系统挂断指令。其中，应答设备用于，确定用户文本对应的应答文本，并根据应答文本确定本次通话连接是否结束，若是，则生成系统挂断指令，并向控制设备发送系统挂断指令。可选的，应答设备可以包括多轮会话管理系统dm和自然语言理解系统nlu。例如，应答设备可以通过多轮会话管理系统获取用户文本对应的多个应答文本，自然语音理解系统可以在多个应答文本中确定用户文本对应的应答文本。
117.可选的，控制设备与应答设备通过http连接，并通过http连接向应答设备发送用户文本。可选的，应答设备根据用户文本确定本次通话连接是否结束。例如，应答设备接收到用户文本时，应答设备通过多轮会话管理系统dm对用户文本的多种场景的应答结果进行模拟，进而得到用户文本在多种场景下的应答文本，并通过自然语言理解系统nlu在多种场景下的应答文本中，确定用户文本对应的唯一的一个应答文本，进而根据应答文本确定本次通话连接是否结束。例如，若应答设备接收到的用户文本为“我很忙，没有时间”，则应答
设备确定应答文本为“好的，再见”，并确定本次通话连接结束。
118.应答设备确定本次通话连接结束时，应答设备可以通过http连接向控制设备发送系统挂断指令。例如，应答设备确定本次通话连接结束时，应答设备通过http向控制设备发送hangup信令。控制设备接收到系统挂断指令时，将系统挂断指令确定为第一指令。
119.下面，结合图4，对生成系统挂断指令的过程进行说明。
120.图4为本技术实施例提供的一种生成系统挂断指令的过程示意图。请参见图4，包括语音转换设备、控制设备和应答设备。控制设备向语音转换设备发送语音“我这会不方便接电话”，语音转换设备将语音转换为对应的文本，并向控制设备发送文本“我这会不方便接电话”。控制设备接收到文本后向应答设备发送文本“我这会不方便接电话”，应答设备根据语音对应的文本确定应答文本为“好的再见”，在应答设备确定应答文本为“好的再见”时，应答设备确定本次通话连接结束，并向控制设备发送系统打断指令。可选的，应答设备确定的“好的再见”文本可以不向控制设备发送，而直接发送系统打断指令，也可以向控制设备发送“好的再见”文本，进而通过控制设备和语音合成设备生成“好的再见的”应答语音，本技术实施例对此不作限定。
121.在该种情况中，在第一指令为系统挂断指令时，控制设备可以向应答设备发送用户语音对应的用户文本，若应答设备确定用户文本对应的应答文本指示本次通话连接结束，则应答设备可以向控制设备发送系统挂断指令，控制设备接收到系统挂断指令之后，可以主动挂断语音系统与用户设备之间的通话连接，这样不仅可以提高语音控制定制化的多样性，并且可以提高语音控制的灵活度。
122.s202、控制设备根据第一指令，生成暂停指令。
123.可选的，在呼叫中心设备呼叫用户设备时，呼叫中心设备可以为本次呼叫建立会话房间，本次通话的语音信息都在会话房间中保存。可选的，呼叫中心设备可以包括外呼管理系统和呼叫中心中间件，外呼管理系统可以获取用户设备的账号，并分别为每个账号建立会话房间，呼叫中心中间件可以呼叫用户设备的账号。
124.可选的，每个会话房间都需要建立控制设备与呼叫中心设备、语音转换设备、应答设备、语音合成设备之间的连接。例如，语音系统同时呼叫2个用户设备，则呼叫中心设备分别建立2个会话房间，每个会话房间中，控制设备通过websocket分别与呼叫中心设备、语音转换设备和语音合成设备连接，以及通过http与应答设备连接。
125.暂停指令包括语音通话的通话标识。其中，通话标识可以为会话房间的标识。例如，语音系统可以同时呼叫多个用户设备，并分别为每个用户设备建立会话房间，控制设备在生成暂停指令时，可以在暂停指令中添加会话房间的标识，这样可以准确的对每个会话房间进行控制，提高语音控制的准确度。
126.可选的，控制设备根据第一指令，生成暂停指令的具体过程为：若控制设备接收到第一指令，则控制设备生成暂停指令。例如，若控制设备接收到呼叫中心设备发送的用户挂断指令，则控制设备生成暂停指令，暂停指令中包括本次语音通话的通话标识；若控制设备根据用户语音，确定第一指令为打断指令或者系统挂断指令，则控制设备生成暂停指令。
127.可选的，暂停指令可以为自定义指令。例如，若用户预先自定义暂停指令为eos信令，则在控制设备接收到第一指令时，控制设备生成eos信令。
128.s203、向语音转换设备、应答设备和语音合成设备发送暂停指令。
129.暂停指令用于指示语音转换设备、应答设备和语音合成设备暂停通话连接对应的处理任务。其中，语音转换设备的处理任务为本次通话连接未处理的用户语音，应答设备的处理任务为本次通话连接未处理的用户文本，语音合成设备的处理任务为本次通话连接未处理的应答文本。
130.可选的，控制设备还用于通过websocket连接向语音转换设备和语音合成设备发送暂停指令，以及通过http连接向应答设备发送暂停指令。在语音转换设备、语音合成设备和应答设备接收到暂停指令时，语音转换设备、语音合成设备和应答设备暂停本次会话连接的处理任务。
131.可选的，控制设备通过http连接向应答设备发送暂停指令时，应答设备停止本次通话连接的处理任务。
132.下面，结合图5a
‑
图5b，详细说明控制设备向语音转换设备和语音合成设备发送暂停指令的过程。
133.图5a为本技术实施例提供的语音转换设备接收到暂停指令的处理过程。请参见图5a，包括控制设备和语音转换设备。控制设备和语音转换设备之间通过websocket连接。控制设备通过websocket连接向语音转换设备发送暂停指令，可选的，暂停指令可以为用户自定义的信令。例如，暂停指令可以为eos信令。语音转换设备接收到暂停指令时，停止对本次通话连接的剩余用户语音进行处理，在语音转换设备处理完当前正在解析的用户语音之后，通过websocket连接向控制设备发送处理结束指令。其中，处理结束指令可以为用户自定义的指令。例如，处理结束指令可以为ended＝1的信令。控制设备接收到处理结束指令时，控制设备断开和语音转换设备之间的websocket连接。
134.图5b为本技术实施例提供的语音合成设备接收到暂停指令的处理过程。请参见图5b，包括控制设备和语音合成设备。控制设备和语音合成设备之间通过websocket连接。控制设备通过websocket连接向语音合成设备发送暂停指令，语音合成设备接收到暂停指令时，停止对本次通话连接的剩余应答文本进行处理，在语音合成设备处理完当前正在解析的应答文本之后，通过websocket连接向控制设备发送处理结束指令。控制设备接收到处理结束指令时，控制设备断开和语音合成设备之间的websocket连接。这样在用户挂断或者系统挂断通话连接时，控制设备可以控制语音合成设备、语音转换设备和应答设备停止本次通话连接的处理任务，进而可以节省语音系统的资源，同时，控制设备可以通过websocket连接向语音转换设备和语音合成设备发送多媒体信息和控制指令，语音转换设备和语音合成设备中只需要设置websocket协议，无需设置信令传输的http协议，进而降低语音系统的复杂度，控制设备可以准确的识别语音系统与用户设备之间语音交流的场景，进而准确的制定控制策略，提高语音控制的准确度和灵活度。
135.可选的，若控制设备获取的第一指令为系统挂断指令，则控制设备还可以通过websocket连接向呼叫中心设备发送暂停指令，呼叫中心设备接收到暂停指令之后，通过sip协议的bye信令挂机，在呼叫中心设备与用户设备之间的通话连接中断时，控制设备断开与呼叫中心设备之间的websocket连接。
136.可选的，在第一指令为打断指令时，控制设备还可以通过websocket连接向呼叫中心设备发送暂停指令。
137.下面，结合图6，对第一指令为打断指令时，控制设备向呼叫中心设备发送暂停指
令的过程进行说明。
138.图6为本技术实施例提供的打断指令对应的呼叫中心设备的控制示意图。请参见图6，包括控制设备和呼叫中心设备。其中，控制设备与呼叫中心设备之间通过websocket连接。在控制设备获取的第一指令为打断指令时，控制设备向呼叫中心设备发送暂停指令。例如，暂停指令可以为用户自定义的clear信令。在呼叫中心设备接收到暂停指令时，呼叫中心设备可以清空缓存区的语音转换设备生成的语音。这样，在用户打断呼叫中心设备播放的语音时，呼叫中心设备可以及时的清空还未播放的语音，避免用户和语音系统的语音重叠，提高语音控制灵活度。
139.本技术实施例提供一种语音控制方法，应用于语音系统，语音系统包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，呼叫中心设备和用户设备之间具有通话连接，控制设备接收呼叫中心设备发送的用户挂断指令，并将用户挂断指令确定为第一指令，或者，控制设备接收呼叫中心设备发送的用户语音，并根据用户语音确定第一指令，控制设备根据第一指令生成暂停指令，并向语音转换设备、应答设备和语音合成设备发送暂停指令，以使语音转换设备、语音合成设备和应答设备暂停通话连接对应的处理任务。这样，在语音系统和用户进行语音交互的过程中，若用户打断语音或者通话连接挂断，控制设备可以通过websocket连接向语音转换设备和语音合成设备发送暂停指令，以及通过http连接向应答设备发送暂停指令，这样可以避免用户打断语音，而语音系统依然在播放语音的情况，提高用户的体验，同时，由于控制设备通过websocket连接向语音转换设备和语音合成设备发送多媒体信息和暂停指令，因此，在语音转换设备和语音合成设备中无需设置http协议，降低语音转换设备和语音合成设备的复杂度，并且，在用户打断语音或者挂断通话连接时，语音系统可以及时的停止对通话连接对应的语音的处理，不仅可以节约语音系统的资源，还可以灵活的制定暂停的策略，进而提高语音控制的灵活度。
140.本技术实施例提供的语音控制方法还包括会话超时的控制过程，在图2所示的实施例的基础上，下面，结合图7，对会话超时的控制过程进行说明。
141.图7为本技术实施例提供的一种会话超时的控制方法流程示意图。请参见图7，该方法包括：
142.s701、控制设备向呼叫中心设备发送第二应答语音之后，获取第二应答语音的第二发送时刻和第二时长。
143.会话超时为用户设备获取应答语音之后的一段时长内未发出新的用户语音。例如，在呼叫中心设备将应答语音播放结束10秒之后，若呼叫中心设备未接收到新的用户语音，则确定本次通话连接的会话超时。
144.可选的，第二应答语音可以为控制设备向呼叫中心设备发送的任意应答语音。第二发送时刻为控制设备向呼叫中心设备发送第二应答语音的时刻。第二时长为第二应答语音的时长。可选的，在语音合成设备向控制设备发送第二应答语音时，语音合成设备可以分片向控制设备发送第二应答语音，控制设备根据接收的语音片确定第二应答语音的第二时长。例如，语音转换设备通过8khz的采样率，每个分片320字节，向控制设备发送应答语音，应答语音的总字节数t添加在第一个4字节的分片中，其中，第一个分片为one
‑
piece信令，控制设备接收到第一个分片时，可以获取总字节数，并确定应答语音的总分片数，进而通过每个分片的时长，确定应答语音播放的时长。例如，若语音合成设备向控制设备发送的应答
语音的总分片数为100，每个分片20毫秒，则应答语音对应的播放时长为2000毫秒。
145.s702、若控制设备在第二发送时刻之后的第三时长之内未接收到用户语音，则控制设备执行预设操作。
146.第三时长大于或等于第二时长与预设时长之和。其中，预设时长可以为预先设置的会话超时判定的时长。例如，若用户听到应答语音10秒之后还未发出语音时为会话超时，则预设时长为10秒。
147.可选的，预设操作包括：控制设备向呼叫中心设备发送预设语音、控制设备向呼叫中心设备发送系统挂断指令。其中，预设语音可以为预先设置的话术语音。例如，预设语音可以为“您看怎么样”“您觉得呢”等话术语音。例如，若用户设备接收到应答语音预设时长之后还未发出新的用户语音，则控制设备向呼叫中心设备发送“您觉得呢”的语音，呼叫中心设备向用户设备播放该语音。例如，若用户设备接收到应答语音预设时长之后还未发出新的用户语音，则控制设备向呼叫中心设备发送系统挂断指令，呼叫中心设备通过sip协议中的bye信令主动挂断通话连接。
148.下面，结合图8，对会话超时的控制过程进行说明。
149.图8为本技术实施例提供的一种会话超时的控制过程示意图。请参见图8，包括：语音合成设备、控制设备、呼叫中心设备和用户设备。其中，控制设备分别和语音合成设备和呼叫中心设备通过websocket连接，呼叫中心设备与用户设备通话连接。
150.请参见图8，语音合成设备向控制设备发送应答语音片，控制设备根据应答语音片确定应答语音的播放时长，在第三时长后，控制设备未接收到呼叫中心设备发送的用户语音，控制设备向呼叫中心设备发送系统挂断指令，呼叫中心设备接收到系统挂断指令时，向用户设备发送sip协议中的bye信令，以挂断呼叫中心设备和用户设备之间的通话连接。
151.本技术实施例提供一种会话超时的控制方法，控制设备向呼叫中心设备发送第二应答语音之后，获取第二应答语音的第二发送时刻和第二时长，若控制设备在第二发送时刻之后的第三时长之内未接收到用户语音，则控制设备执行预设操作，其中，第三时长大于或等于第二时长与预设时长之和。这样，在用户长时间未回复呼叫中心设备发送的应答语音时，控制设备可以主动判定本次会话超时，并向呼叫中心设备发送系统挂断指令，以使呼叫中心设备主动挂断与用户设备之间的通话连接，进而节约语音系统的资源，并且提高语音控制的灵活度。
152.在上述任意一个实施例的基础上，下面，结合图9，通过举例说明的方式对上述语音控制方法的过程进行说明。
153.图9为本技术实施例提供的一种语音控制方法的过程示意图。在图9所示的实施例中，系统挂断指令为第一指令，请参见图9，包括：用户设备、呼叫中心设备、控制设备、语音转换设备、应答设备和语音合成设备。其中，控制设备通过websocket分别与呼叫中心设备、语音转换设备和语音合成设备，控制设备通过http与应答设备连接，呼叫中心设备与用户设备通话连接。
154.请参见图9，用户设备向呼叫中心设备发送用户语音，呼叫中心设备通过websocket连接向控制设备发送用户语音，控制设备通过websocket连接向语音转换设备发送用户语音，语音转换设备接收到用户语音后，生成用户语音对应的用户文本，并通过websocket连接向控制设备发送用户文本。控制设备通过http连接向应答设备发送用户文
本，应答设备根据用户文本确定本次通话结束，并确定系统主动挂断通话。
155.请参见图9，应答设备通过http连接向控制设备发送系统挂断指令，控制设备生成暂停指令，并向语音转换设备、应答设备和语音合成设备发送暂停指令，以使语音转换设备、应答设备和语音合成设备暂停本次通话连接的处理任务。控制设备断开与语音合成设备和语音转换设备之间的websocket连接。
156.请参见图9，控制设备还可以向呼叫中心设备发送暂停指令，呼叫中心设备接收到暂停指令时，向用户设备发送sip协议中的bye信令，以断开与用户设备之间的通话连接。在用户设备和呼叫中心设备之间的通话连接断开时，控制设备断开与呼叫中心设备之间的websocket连接。这样，由于控制设备通过websocket连接向语音转换设备和语音合成设备发送多媒体信息和暂停指令，因此，在语音转换设备和语音合成设备中无需设置http协议，降低语音转换设备和语音合成设备的复杂度，在语音系统主动挂断通话连接时，控制设备可以通过暂停指令使得语音转换设备、应答设备和语音合成设备暂停本次通话连接的处理任务，节约语音系统的处理资源，并且可以灵活的制定暂停的策略，进而提高语音控制的灵活度。
157.图10为本技术实施例提供的一种语音控制装置的结构示意图。请参见图10，该语音控制装置10可以设置在控制设备中，所述语音控制装置10包括第一获取模块11、生成模块12和发送模块13，其中：
158.所述第一获取模块11用于，获取第一指令，所述第一指令为所述通话连接的通话挂断指令或者打断指令，所述打断指令用于指示用户语音打断所述呼叫中心设备的语音播放；
159.所述生成模块12用于，根据所述第一指令，生成暂停指令，所述暂停指令包括所述语音通话的通话标识；
160.所述发送模块13用于，向所述语音转换设备、所述应答设备和所述语音合成设备发送暂停指令，所述暂停指令用于指示所述语音转换设备、所述应答设备和所述语音合成设备暂停所述通话连接对应的处理任务。
161.在一种可能的实施方式中，所述第一获取模块11具体用于：
162.所述控制设备接收所述呼叫中心设备发送的用户挂断指令，并将所述用户挂断指令确定为所述第一指令；或者，
163.所述控制设备接收所述呼叫中心设备发送的用户语音，并根据所述用户语音确定所述第一指令，所述第一指令为所述打断指令或者系统挂断指令；所述通话挂断指令包括所述用户挂断指令和所述系统挂断指令。
164.在一种可能的实施方式中，所述第一获取模块11具体用于：
165.所述控制设备向所述语音转换设备发送所述用户语音；
166.所述控制设备接收所述语音转换设备发送的所述用户语音对应的用户文本；
167.所述控制设备获取所述用户文本中包括的字符数量、以及所述控制设备上一次向所述呼叫中心设备发送的第一应答语音的时间信息，时间信息包括第一发送时刻和所述第一应答语音的第一时长；
168.根据所述用户文本中包括的字符数量和所述时间信息，确定所述打断指令。
169.在一种可能的实施方式中，所述第一获取模块11具体用于：
170.根据当前时刻、所述第一发送时刻和所述第一应答语音的第一时长，确定所述呼叫中心设备是否正在播放所述第一应答语音；
171.若是，则在所述用户文本中包括的字符数量大于或等于预设阈值时，生成所述打断指令。
172.在一种可能的实施方式中，所述第一获取模块11具体用于：
173.所述控制设备向所述语音转换设备发送所述用户语音；
174.所述控制设备接收所述语音转换设备发送的所述用户语音对应的用户文本；
175.所述控制设备向所述应答设备发送所述用户文本；
176.所述控制设备设备接收所述应答设备发送的系统挂断指令；
177.所述控制设备将所述系统挂断指令确定为所述第一指令。
178.本技术实施例提供的语音控制装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
179.本技术实施例所示的语音控制装置可以为芯片、硬件模组、处理器等。当然，语音控制装置可以为其它形态，本技术实施例对此不作具体限定。
180.图11为本技术实施例提供的另一种语音控制装置的结构示意图。在图10所示的实施例的基础上，请参见图11，该语音控制装置10还包括第二获取模块14，所述第二获取模块14用于：
181.所述控制设备向呼叫中心设备发送第二应答语音之后，所述控制设备获取所述第二应答语音的第二发送时刻和第二时长；
182.若所述控制设备在所述第二发送时刻之后的第三时长之内未接收到用户语音，则所述控制设备执行预设操作，所述预设操作包括：所述控制设备向所述呼叫中心设备发送预设语音、所述控制设备向所述呼叫中心设备发送系统挂断指令，所述第三时长大于或等于所述第二时长与预设时长之和。
183.在一种可能的实施方式中，所述控制设备与所述呼叫中心设备、所述语音转换设备、所述语音合成设备之间分别通过websocket连接；所述websocket连接用于传输控制指令和多媒体信息，所述控制指令包括所述第一指令和所述暂停指令，所述多媒体信息包括文本信息和语音信息。
184.本技术实施例提供的语音控制装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。
185.本技术实施例所示的语音控制装置可以为芯片、硬件模组、处理器等。当然，语音控制装置可以为其它形态，本技术实施例对此不作具体限定。
186.图12为本技术提供的语音控制设备的硬件结构示意图。请参见图12，该语音控制设备20可以包括：处理器21和存储器22，其中，处理器21和存储器22可以通信；示例性的，处理器21和存储器22通过通信总线23通信，所述存储器22用于存储程序指令，所述处理器21用于调用存储器中的程序指令执行上述任意方法实施例所示的语音控制方法。
187.可选的，语音控制设备20还可以包括通信接口，通信接口可以包括发送器和/或接收器。
188.可选的，上述处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路
(application specific integrated circuit，asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
189.本技术实施例提供一种语音系统，包括控制设备、呼叫中心设备、语音转换设备、应答设备和语音合成设备，其中，
190.所述呼叫中心设备用于，通过websocket连接向控制设备发送用户语音或者用户挂断指令；
191.所述控制设备用于，通过websocket连接向所述语音转换设备发送用户语音；
192.所述语音转换设备用于，将所述用户语音转换为用户文本，并通过websocket连接向所述控制设备发送用户文本；
193.所述控制设备还用于，根据所述用户文本，确定打断指令；
194.所述控制设备还用于，向所述应答设备发送用户文本；
195.所述应答设备用于，根据所述用户文本，确定系统挂断指令，并向所述控制设备发送系统挂断指令；
196.所述控制设备还用于，将所述打断指令、所述系统挂断指令或所述用户挂断指令，确定为第一指令，并根据第一指令生成暂停指令；
197.所述控制设备还用于，向所述语音转换设备、所述应答设备和所述语音合成设备发送所述暂停指令。
198.本技术提供一种可读存储介质，所述可读存储介质上存储有计算机程序；所述计算机程序用于实现如上述任意实施例所述的语音控制方法。
199.本技术实施例提供一种计算机程序产品，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行上述语音控制方法。
200.实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储器(存储介质)包括：只读存储器(英文：read
‑
only memory，缩写：rom)、ram、快闪存储器、硬盘、固态硬盘、磁带(英文：magnetic tape)、软盘(英文：floppy disk)、光盘(英文：optical disc)及其任意组合。
201.本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程终端设备的处理单元以产生一个机器，使得通过计算机或其他可编程终端设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
202.这些计算机程序指令也可存储在能引导计算机或其他可编程终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
203.这些计算机程序指令也可装载到计算机或其他可编程终端设备上，使得在计算机
或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
204.显然，本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。
205.在本技术中，术语“包括”及其变形可以指非限制性的包括；术语“或”及其变形可以指“和/或”。本技术中术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。本技术中，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
206.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音处理方法、装置、设备、存储介质及程序与流程

语音控制方法、装置、设备、存储介质及程序与流程

相关文献

最热文献