人机语音对话的控制方法、装置及电子设备与流程

2022-09-02 19:15:00 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，更具体地，涉及一种人机语音对话的控制方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着计算机技术的不断发展，人机对话技术、尤其是人机语音对话技术被广泛应用于各种领域，极大的方便了人们生活。
3.目前在实现人机语音对话时，通常是基于人机文本对话模式进行对话，例如，在用户与智能音箱进行交互时，需要用户先唤醒设备，再发出语音，然后智能音箱基于用户语音进行应答；之后，需要用户再次唤醒设备并发出语音，设备才会再次进行应答。
4.在实现本技术的过程中，发明人发现，与文本对话不同，语音对话往往具有持续性和独占性的特点，在一方传达语音信息的过程中，另一方可以同时理解该信息以及打断以进行及时回复，而目前的人机语音对话方法是基于人机文本对话模式实现，在对话过程中存在不能及时、准确的进行对话反馈的问题。

技术实现要素：

5.本公开实施例的一个目的是提供一种控制人机语音对话的新技术方案。
6.本公开的第一方面，提供了一种人机语音对话的控制方法，该方法包括：
7.接收用户端进行人机语音对话的第一语音流及监控机器端进行所述人机语音对话的第二语音流；
8.获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征；
9.根据所述第一状态特征和所述第二状态特征，从设定的控制指令集中选择对应的控制指令；其中，所述控制指令集包括控制机器端播报的指令和控制机器端静音的指令；
10.在所述第一时间切片之后，根据所述控制指令控制所述机器端进行所述人机语音对话。
11.可选地，所述控制机器端播报的指令包括继续当前播报的第一控制指令、开始新的播报的第二控制指令、播报设定的句中承接内容的第三控制指令、播报设定的首轮问答内容的第四控制指令、播报设定的静音提示内容的第五控制指令中的至少一项；和/或，
12.所述控制机器端静音的指令包括停止当前播报的第六控制指令、机器端保持静音的第七控制指令中的至少一项。
13.可选的，所述获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征，包括：
14.检测触发事件的发生；
15.根据检测到的触发事件，获取所述第一语音流在检测到触发事件前的第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征。
16.可选的，所述触发事件包括开启所述人机语音对话的事件、所述第一语音流出现非静音片段的事件、所述第一语音流出现静音片段的事件、所述第二语音流出现非静音片段的事件、所述第二语音流出现静音片段的事件、到达设定的触发时间中的至少一项。
17.可选的，所述触发事件包括所述第一语音流出现非静音片段的事件，检测所述第一语音流出现非静音片段的事件的步骤，包括：
18.拆分所述第一语音流，获得相邻的第一静音片段和第二静音片段，其中，所述第一静音片段早于所述第二静音片段；
19.在所述第一静音片段和所述第二静音片段的时序不相连的情况下，提取所述第一静音片段与所述第二静音片段之间的语音片段作为非静音片段，并判定所述第一语音流出现非静音片段的事件。
20.可选的，所述在设定的控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
21.根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果；
22.根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令。
23.可选的，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：
24.在所述第二状态特征为所述机器端保持非静音或者所述机器端由静音转为非静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；
25.所述控制机器端播报的指令包括继续当前播报的第一控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
26.在所述机器端具有话语权的情况下，选择所述第一控制指令作为所述对应的控制指令。
27.可选的，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：
28.在所述第一状态特征表示所述第一语音流出现非静音片段，及所述第二状态特征为所述机器端保持非静音或者所述机器端由静音转为非静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；
29.所述控制机器端静音的指令包括停止当前播报的第六控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
30.在所述机器端不具有话语权的情况下，选择所述第六控制指令作为所述对应的控制指令。
31.可选的，所述第一状态特征表示所述第一语音流出现非静音片段包括：所述用户端由静音转为非静音和/或所述用户端由非静音转为静音。
32.可选的，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：
33.在所述第一状态特征和所述第二状态特征均为对话起始状态的情况下，确定所述机器端在所述第一时间切片之后具有话语权；
34.所述控制机器端播报的指令包括播报设定的首轮问答内容的第四控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
35.在所述机器端具有话语权的情况下，选择所述第四控制指令作为所述对应的控制指令。
36.可选的，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：
37.在所述第一状态特征为所述用户端由非静音转变为静音及所述第二状态特征为所述机器端保持静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；
38.所述控制机器端播报的指令包括开始新的播报的第二控制指令和/或播报设定的句中承接内容的第三控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
39.在所述机器端具有话语权的情况下，选择所述第二控制指令或者所述第三控制指令作为与所述对应的控制指令。
40.可选的，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：
41.在所述第一状态特征为所述用户端由非静音转变为静音及所述第二状态特征为所述机器端保持静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；
42.所述控制机器端静音的指令包括机器端保持静音的第七控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
43.在所述机器端不具有话语权的情况下，选择所述第七控制指令作为所述对应的控制指令。
44.可选的，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：
45.在所述第一状态特征为所述用户端保持静音及所述第二状态特征为所述机器端由非静音转变为静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；
46.所述控制机器端播报的指令包括播报设定的静音提示内容的第五控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
47.在所述机器端具有话语权的情况下，选择所述第五控制指令作为所述对应的控制指令。
48.可选的，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：
49.在所述第一状态特征为所述用户端保持静音及所述第二状态特征为所述机器端由非静音转变为静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；
50.所述控制机器端静音的指令包括机器端保持静音的第七控制指令，所述根据所述
判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：
51.在所述机器端不具有话语权的情况下，选择所述第七控制指令作为所述对应的控制指令。
52.可选的，所述根据所述控制指令控制所述机器端进行所述人机语音对话，包括：
53.将所述控制指令发送至所述机器端，以使所述机器端根据所述控制指令进行所述人机语音对话。
54.可选的，所述机器端根据所述对应的控制指令进行所述人机语音对话，包括：
55.所述机器端根据预存的映射数据，获得对应于所述对应的控制指令的响应信息，其中，所述映射数据反映所述控制指令集中各控制指令与设定的各响应信息之间的对应关系；
56.根据获得的响应信息进行人机语音对话。
57.本公开的第二方面，还提供一种人机语音对话的控制装置，包括：
58.语音流接收模块，用于接收用户端进行人机语音对话的第一语音流；
59.语音流监控模块，用于监控机器段及逆行所述人机语音对话的第二语音流。
60.状态获取模块，用于获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征；
61.决策模块，用于在设定的控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令；其中，所述控制指令集包括控制机器端播报的指令和控制机器端静音的指令；以及，
62.执行模块，用于在所述第一时间切片之后，根据所述控制指令控制所述机器端进行所述人机语音对话。
63.根据本公开的第三方面，还提供一种电子设备，包括根据本公开的第二方面所述的装置；或者，包括：
64.存储器，用于存储可执行的指令；
65.处理器，用于根据所述可执行的指令的控制，运行所述电子设备执行根据本公开的第一方面所述的方法。
66.根据本公开的第四方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有可被计算机读取执行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行根据本公开的第一方面所述的方法。
67.根据本公开的实施例，在人机语音对话的过程中，电子设备通过接收用户端进行人机语音对话的第一语音流及监控机器端进行该人机语音对话的第二语音流，可以不必等待用户发出一轮语音之后再控制机器端进行响应，而是在接收该第一语音流的过程中，通过获取该第一语音流在第一时间切片的第一状态特征以及该第二语音流在该第一时间切片的第二状态特征，从而根据该第一状态特征和该第二状态特征，选择用于控制机器端在该第一时间切片之后进行该人机语音对话的控制指令，以根据该控制指令控制机器端在该第一时间切片之后及时、准确的对用户端的输出语音进行响应。该方法使得在进行人机语音对话时，可以以语音双工模式进行对话，从而使得电子设备可以在任意时刻及时、准确的控制机器端响应用户发出的语音流，降低响应延迟，提升用户体验。
68.通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其他特征及其优点将会变得清楚。
附图说明
69.被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例，并且连同其说明一起用于解释本公开的原理。
70.图1是本公开实施例提供的现有的人机语音对话过程中的数据处理示意图。
71.图2是本公开实施例提供的人机语音对话的控制方法的场景示意图。
72.图3是可用于实现本公开实施例的人机语音对话的控制方法的人机语音对话控制系统的硬件配置结构图。
73.图4是本公开实施例提供的一种人机语音对话的控制方法的流程示意图。
74.图5是本公开实施例提供的获取非静音片段的示意图。
75.图6是本公开实施例提供的控制人机语音对话的架构示意图。
76.图7是本公开实施例提供的人机语音对话的控制装置的示意性原理框图。
77.图8a是根据本公开一个实施例的电子设备的示意性原理框图。
78.图8b是根据本公开另一个实施例的电子设备的示意性原理框图。
具体实施方式
79.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
80.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
81.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
82.在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其他例子可以具有不同的值。
83.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
84.在实现本技术的过程中，发明人发现目前在控制人机语音对话时，其实现原理一般是在现有文本对话的、基于轮次的对话交互(tbc，turn-basedconversation)模式的基础上，通过增加自动语音识别技术(asr，automaticspeechrecognition)以及文本语音合成(tts，text-to-speech)技术实现。如图1所示，现有方法一般是由电子设备针对用户发出的一轮语音，通过内置的自动语音识别技术识别获得该语音的文本；通过自然语言理解(nlu，naturallanguageunderstanding)得到该文本的语义信息；通过对话控制模块获得该语义信息的响应语义信息；通过自然语言生成(nlg，naturallanguagegeneration)技术得到该响应语义信息对应的响应文本；之后，再通过文本语音合成技术针对该响应文本合成并控制输出响应语音。
85.正如背景技术中所述，目前控制人机语音对话的方法并没有针对语音对话具有持
续性、独占性的特点进行处理，因此，在人机对话过程中机器端可能不能及时、准确的进行对话反馈，使得响应延迟高，导致用户体验较差。
86.针对上述问题，本公开实施例提供了一种可以实现语音双工的人机语音对话的控制方法，即，在人机语音对话时，使得语音对话双方或多方在对话过程中互不阻塞，可以在任意时刻进行对话的方法，请参看图2，其是本公开实施例提供的人机语音对话的控制方法的场景示意图。在实际中，本实施例提供的方法可以应用于企业的语音对话机器人，例如，热线智能客服中，其中，该语言对话机器人可以是通过语音方式向用户提供产品售前、售后等服务的电子设备，例如，可以为图2所示的服务器1100。在具体实施时，用户通过终端设备1200与服务器1100建立连接，并向服务器1100发出第一语音流，例如，可以发出咨询产品使用问题的语音流，服务器1100可以接收该第一语音流，并监控获取其进行该人机语音对话的第二语音流；之后，通过分别获取该第一语音流在第一时间切片的第一状态特征以及该第二语音流在该第一时间切片的第二状态特征，以根据该第一状态特征和该第二状态特征选择在该第一时间切片之后控制进行该人机语音对话的控制指令；进而在该第一时间切片之后，根据该控制指令获得用于进行人机语音对话的响应信息，并根据该响应信息，持续输出第二语音流，以及时、准确的对用户发出的第一语音流中的语音内容进行响应。
87.例如，当用户在描述一较长的问题，并且服务器1100持续保持静音时，在某一时间切片，服务器1100检测到第一语音流的语音片段中出现了静音片段，即，在该时间切片内，第一语音流的第一状态特征表示用户端由非静音转为静音状态，以及第二语音流的第二状态特征表示机器端持续保持静音状态的情况下，可以选择该时间切片之后的控制指令为控制播报设定的句中承接内容的控制指令，以根据该控制指令，控制其播报句中承接内容，即，在该时间切片之后，服务器1100可以发出句中承接语音，例如，“嗯”、“对的”、“请继续”等，以表征当前对话连接正常；又或者，在该时间切片内，服务器1100根据用户在该时间切片之前发出的语音已经可以理解用户问题的情况下，可以确定该时间切片之后的控制指令为开始新的播报的控制指令，以根据该控制指令，在该时间切片之后，打断用户当前的语音，并控制其播报针对用户问题的响应语音，进而使得用户问题能够被及时响应，降低响应延迟，提升用户体验。
88.需要说明的是，以上是可实施该方法的一种场景，在具体实施时，该方法也可以应用于其他场景，例如，在物联网领域(iot，internetofthings)，可以在智能语音交互设备中使用该方法，以使得智能交互设备可以及时、准确的与用户进行交互。例如，针对智能音箱，区别于基于轮次的对话交互模式，智能音箱可以在接收到用户唤醒词之后，接收用户发出的第一语音流，以及监控自身发出的第二语音流，在该过程中，根据第一语音流在某一时间切片内的第一状态特征以及该第二语音流在该时间切片内的第二状态特征，选择对应的控制指令，以根据该控制指令与用户进行交互。例如，用户向智能音箱问询“今天的天气怎么样”的时候，在用户发出“今天的天气”的语音时，智能音箱即可打断用户，并向用户播放当前的天气信息，从而降低响应延迟，提升用户体验；当然，如果用户咨询的不是今天天气信息，而是“今天的天气是不是应该去旅游”时，用户可以在智能音箱基于语音“今天的天气”播放当前天气信息的过程中持续发出“是不是应该去旅游”的语音，而智能音箱则可以根据该实时语音，中断当前正在播放的天气信息，并输出类似“今天的天气适合去室内景点，根据距离远近，推荐去xxx博物馆”的响应语音。
89.图3为可用于实现本公开实施例的人机语音对话的控制方法的一种人机语音对话的控制系统的硬件配置结构图。
90.如图3所示，本实施例的人机语音对话的控制系统1000包括服务器1100、终端设备1200以及通信网络1300。
91.服务器1100例如可以是刀片服务器、机架式服务器等，服务器1100也可以是部署在云端的服务器集群，在此不做限定。
92.如图3所示，服务器1100可以包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150和输入装置1160。处理器1110例如可以是中央处理器cpu等。存储器1120例如包括rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括usb接口、串行接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏。输入装置1160例如可以包括触摸屏、键盘等。
93.本实施例中，服务器1100可用于参与实现根据本公开任意实施例的方法。
94.应用于本公开实施例中，服务器1100的存储器1120用于存储指令，所述指令用于控制所述处理器1110进行操作以支持实现根据本公开任意实施例的方法。技术人员可以根据本公开所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。
95.本领域技术人员应当理解，尽管在图3中示出了服务器1100的多个装置，但是，本公开实施例的服务器1100可以仅涉及其中的部分装置，例如，只涉及处理器1110和存储器1120。
96.如图3所示，终端设备1200可以包括处理器1210、存储器1220、接口装置1230、通信装置1240、显示装置1250、输入装置1260、音频输出装置1270、音频输入装置1280，等等。其中，处理器1210可以是中央处理器cpu、微处理器mcu等。存储器1220例如包括rom(只读存储器)、ram(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1230例如包括usb接口、耳机接口等。通信装置1240例如能够进行有线或无线通信。显示装置1250例如是液晶显示屏、触摸显示屏等。输入装置1260例如可以包括触摸屏、键盘等。终端设备1200可以通过音频输出装置1270输出音频信息，该音频输出装置1270例如包括扬声器。终端设备1200可以通过音频拾取装置1280拾取用户输入的语音信息，该音频拾取装置1280例如包括麦克风。
97.终端设备1200可以是智能手机、便携式电脑、台式计算机、平板电脑、可穿戴设备等。
98.本领域技术人员应当理解，尽管在图3中示出了终端设备1200的多个装置，但是，本公开实施例的终端设备1200可以仅涉及其中的部分装置，例如，只涉及处理器1210、存储器1220等。
99.通信网络1300可以是无线网络也可以是有线网络，可以是局域网也可以是广域网。终端设备1200可以通过通信网络1300与服务器1100进行通信。
100.图3所示的人机语音对话的控制系统1000仅是解释性的，并且决不是为了要限制本公开、其应用或用途。例如，尽管图3仅示出一个服务器1100和一个终端设备1200，但不意味着限制各自的数量，该系统1000中可以包含多个服务器1100和/或多个终端设备1200。
101.需要说明的是，本公开任意实施例提供的方法可以用于服务器1100中，当然，在具
体实施时，也可以根据需要，将该方法应用于终端设备1200中，此处不做特殊限定。
102.图4是本公开实施例提供的人机语音对话的控制方法的流程示意图。本实施例提供的方法可以应用于电子设备中，例如，可以应用于图3所示的服务器1100中。另外，在本实施中，如无特殊说明，以人机语音对话为用户通过终端设备与服务器交互的场景为例进行说明，即，用户通过终端设备向服务器发送第一语音流，服务器根据该第一语音流，实时生成响应信息，并根据该响应信息向终端设备发送第二语音流。
103.如图4所示，本实施例的人机语音对话的控制方法可以包括如下步骤s4100-s4400，以下予以详细说明。
104.步骤s4100，接收用户端进行人机语音对话的第一语音流及监控机器端进行所述人机语音对话的第二语音流。
105.在本实施例中，第一语音流，是在用户端进行人机语音对话的过程中、由用户发出的语音形成的数据流，该第一语音流可以由用户终端设备的音频拾取装置，例如，麦克风采集用户发出的语音生成。
106.第二语音流，是在机器端进行人机语音对话的过程中，由机器端发出的语音形成的数据流，即，机器端对第一语音流中的语音内容进行响应而形成的数据流；在具体实施时，该语音流中的语音例如可以由服务器通过识别第一语音流中的语音，得到对应的响应语义，并通过自然语言生成技术得到对应的响应文本，再通过文本语音合成技术得到对应的响应语音，并通过输出该响应语音形成该语音流中的语音。
107.步骤s4200，获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征。
108.在实际中，在开始人机语音对话或者在进行人机语音对话时，用户在发出语音的过程中，一般在词与词之间、句与句之间，或者在段与段之间往往存在较短的静音，例如，用户在向热线智能机器人咨询产品问题时，通常在说“你好，我想
…”
时，在用户发出“你好”对应的语音之后，通常会间隔一段静音时间，例如300ms左右，才会继续发出之后的语音。
109.因此，为了使机器端可以及时、准确的对用户端发出的实时语音内容进行响应，电子设备可以通过检测特定触发事件，来触发控制机器端做出响应，在本实施例中，该触发事件例如可以为：开启人机语音对话的事件、第一语音流出现非静音片段的事件、第一语音流出现静音片段的事件、第二语音流出现非静音片段的事件、第二语音流出现静音片段的事件以及到达设定的触发时间中的至少一项。
110.其中，静音片段，可以为静音时长在预设时长内的语音片段，该预设时长例如可以为200ms—400ms，当然，该预设时长也可以根据需要设置，此处不做特殊限定；相对应的，非静音片段，可以为包含语音内容的语音片段。
111.具体来讲，所述获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征，包括：检测触发事件的发生；根据检测到的触发事件，获取所述第一语音流在检测到触发事件前的第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征。
112.在本实施例中，时间切片，可以是以相邻两个触发事件的发生时间作为起止时间的切片。例如，在语音流中，事件1为非静音片段，事件2为静音片段，并且事件1和事件2在时序上相连，则在检测到事件2时，可以以事件1的开始时间和事件2的开始时间分别作为起止
时间得到一时间切片，并将该时间切片视为事件2前的时间切片。当然，在具体实施时，也可以根据需要划分时间切片，此处不做特殊限定。
113.第一状态特征，可以是表示用户端的第一语音流在一时间切片内的状态变化的特征，例如，表征第一语音流从静音转变为非静音、非静音转变为静音、持续静音以及持续非静音等；相对应的，第二状态特征，可以是表示第二语音流在对应时间切片内的状态变化的特征。
114.在一个实施例中，当触发事件包括第一语音流出现非静音片段的时间时，检测第一语音流出现非静音片段的事件的步骤，包括：拆分所述第一语音流，获得相邻的第一静音片段和第二静音片段，其中，所述第一静音片段早于所述第二静音片段；在所述第一静音片段和所述第二静音片段的时序不相连的情况下，提取所述第一静音片段与所述第二静音片段之间的语音片段作为非静音片段，并判定所述第一语音流出现非静音片段的事件。
115.即，在具体实施时，可以通过识别用户端发出的语音流中的静音片段，并将该静音片段作为该语音流中的语音边界，将时序不相连的两个相邻静音片段之间的语音片段作为非静音片段，进而判定该语音流中出现非静音片段的事件，其中，语音流中的静音片段可以通过语音活动检测(vad，voiceactivitydetection)技术检测获得，其详细处理过程此处不再赘述。
116.请参看图5，其是本公开实施例提供的获取非静音片段的示意图。如图5所示，在具体实施时，可以通过识别语音流中的静音片段作为语音边界，将时序不相连的两个相邻语音边界之间的语音片段视为非静音片段，即，并将该非静音片段视为人机语音对话中的最小处理单元，即micro-turn。
117.综上所述，在检测到触发事件的发生，并分别获取到第一语音流在该触发事件前的第一时间切片的第一状态特征以及第二语音流在第一时间切片的第二状态特征之后，即可根据该第一状态特征和该第二状态特征所表征的当前人机语音对话的实时对话状态，确定用于控制机器端在该时间切片之后进行响应的控制指令，以下予以详细说明。
118.步骤s4300，根据所述第一状态特征和所述第二状态特征，从设定的控制指令集中选择对应的控制指令；其中，所述控制指令集包括控制机器端播报的指令和控制机器端静音的指令。
119.由于在人机语音对话过程中，在检测到触发事件的情况下，针对人机语音对话中的语音流的不同状态变化，机器端均可能做出不同响应，例如，在用户端长时间发出语音时，为表征通话连接正常，机器端可以适时的播报类似“嗯”、“对的”等句中承接语，或者也可以保持沉默；或者，还可以根据情况打断用户端的当前发言并选择直接播报响应语音；或者，在机器端播报语音的过程中，用户端可能抢话，即，用户端可能打断机器端的当前播报，在该情况下，机器端可以选择保持继续播报语音，也可以根据情况选择保持静音，或者根据用户打断时所发出的语音，选择重新播报新的响应语音等。
120.因此，在本实施例中，为便于电子设备根据人机语音对话中的用户端以及机器端分别发出的语音流的状态变化做出准确的控制指令，在本实施例中，设定的控制指令集中的控制指令可以为以下表1中的至少一项：
121.表1：
[0122][0123]
在本实施例中，用于控制机器端播报的指令可以包括继续当前播报的第一控制指令、开始新的播报的第二控制指令、播报设定的句中承接内容的第三控制指令、播报设定的首轮问答内容的第四控制指令、播报设定的静音提示内容的第五控制指令中的至少一项；和/或，控制机器端静音的指令包括停止当前播报的第六控制指令、机器端保持静音的第七控制指令中的至少一项；当然，在具体实施时，也可以根据需要，设置其他控制指令，以控制机器端进行人机语音对话，此处不再赘述。
[0124]
在一个实施例中，所述在设定的控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果；根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令。
[0125]
在具体实施时，根据第一状态特征和第二状态特征所分别表示的第一语音流和第二语音流在第一时间切片的语音变化情况，可以先决策机器端在第一时间切片之后是否具有话语权，即，是否需要发出响应语音；如果具有话语权，则可以进一步决策响应语音是保持当前播报还是中断当前播报而针对用户语音做出新的播报等，而如果不具有话语权，则可以根据第二状态特征所表征的状态，选择控制机器端中断当前播报并保持静音，或者继续保持静音等。
[0126]
即，在本实施例中，所述在设定的控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果；根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，以下针对不同情况，分别予以详细说明。
[0127]
为便于说明，请参看表2，其为根据第一状态特征和第二状态特征，判断机器端在第一时间切片之后是否具有话语权以及选择控制指令的示意表，以下结合表2，对各实施例进行说明，其中，在表2中，以s_1表示第一状态特征，以s_2表示第二状态特征。
[0128]
表2：
[0129][0130][0131]
如表2所示，在一个实施例中，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：在所述第二状态特征为所述机器端保持非静音或者所述机器端由静音转为非静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；所述控制机器端播报的指令包括继续当前播报的第一控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：在所述机器端具有话语权的情况下，选择所述第一控制指令作为所述对应的控制指令。
[0132]
即，在机器端发出的第二语音流在第一时间切片的第二状态特征表示机器端在当前时刻之前在持续发出响应语音，或者机器端已经开始对用户语音做出响应的情况下，则在下一时刻，可以判定机器端具有话语权，即，可以控制机器端持续发出当前的响应语音。
[0133]
请继续参看表2，在一个实施例中，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：在所述第一状态特征表示所述第一语音流出现非静音片段，及所述第二状态特征为所述机器端保持非静音或者所述机器端由静音转为非静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；所述控制机器端静音的指令包括停止当前播报的第六控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：在所述机器端不具有话语权的情况下，选择所述第六控制指令作为所述对应的控制指令，其中，所述第一状态特征表示所述第一语音流出现非静音片段包括：所述用户端由静音转为非静音和/或所述用户端由非静音转为静音。
[0134]
即，在机器端和用户端均在发言时，由于存在机器端当前发言内容不正确，用户端在重新描述问题的可能性，因此，当存在该种情况时，可以确定机器端在该时间切片之后不具有话语权，即，通过向机器端下发停止当前播报的第六控制指令，以控制机器端在该时间切片之后停止发言，保持静音，以重新理解用户发言内容。
[0135]
请继续参看表2，在一个实施例中，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：在所述第一状态特征和所述第二状态特征均为对话起始状态的情况下，确定所述机器端在所述第一时间切片之后具有话语权；所述控制机器端播报的指令包括播报设定的首轮问答内容的第四控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：在所述机器端具有话语权的情况下，选择所述第四控制指令作为所述对应的控制指令。
[0136]
即，在开始人机语音对话的起始时刻，为提升用户体验，可以控制机器端先发言，以确定用户要咨询什么问题，例如，可以根据用户最新订单，先用户问询是否是要咨询产品使用或者是否需要退货等等。
[0137]
请继续参看表2，在一个实施例中，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：在所述第一状态特征为所述用户端由非静音转变为静音及所述第二状态特征为所述机器端保持静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；所述控制机器端播报的指令包括开始新的播报的第二控制指令和/或播报设定的句中承接内容的第三控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：在所述机器端具有话语权的情况下，选择所述第二控制指令或者所述第三控制指令作为与所述对应的控制指令。
[0138]
即，在第一状态特征表示用户端停止发言的情况下，则此时可能是用户以描述完问题，在等待机器端响应；或者，是问题较长，用户进行了短暂的休息；为表征当前人机语音对话的连接状态正常，可以判定该时间切片之后机器端具有话语权，以使得机器端或是直接开始针对用户发言内容进行响应，或是发出句中承接语以表示机器端在持续聆听。
[0139]
请继续参看表2，在一个实施例中，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：在所述第一状态特征为所述用户端由非静音转变为静音及所述第二状态特征为所述机器端保持静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；所述控制机器
端静音的指令包括机器端保持静音的第七控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：在所述机器端不具有话语权的情况下，选择所述第七控制指令作为所述对应的控制指令。
[0140]
即，用户端停止发言时并转为静音时，由于用户可能并未描述完问题，因此，电子设备可以根据用户端的上下文内容，确定用户问题是否描述完，如果未描述完，则机器端需要静音以使得用户可以继续描述问题，此时，可以判定机器端在第一时间切片之后不具有话语权，并向机器端下发保持静音的第七控制指令。
[0141]
请继续参看表2，在一个实施例中，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：在所述第一状态特征为所述用户端保持静音及所述第二状态特征为所述机器端由非静音转变为静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；所述控制机器端播报的指令包括播报设定的静音提示内容的第五控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：在所述机器端具有话语权的情况下，选择所述第五控制指令作为所述对应的控制指令。
[0142]
即，在用户端保持静音，同时机器端针对用户发言播放完响应语音并也转换为静音状态的情况下，可以判定机器端准备释放话语权并等待用户端重新接管话语权以咨询新的问题，此时，电子设备可以判定机器端具有话语权，并向机器端下发播放设定的静音提示内容的控制指令，其中吗，该设定的静音提示内容例如可以为“请问还有别的问题吗”，此处不做特殊限定。
[0143]
请继续参看表2，在一个实施例中，所述根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果，包括：在所述第一状态特征为所述用户端保持静音及所述第二状态特征为所述机器端由非静音转变为静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；所述控制机器端静音的指令包括机器端保持静音的第七控制指令，所述根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令，包括：在所述机器端不具有话语权的情况下，选择所述第七控制指令作为所述对应的控制指令。
[0144]
即，在用户端保持静音，同时机器端针对用户发言播放完响应语音并也转换为静音状态的情况下，也可以判定机器端已经释放话语权，并等待用户端重新阶段话语权以咨询新的问题，此时，电子设备可以判定机器端不再具有话语权，并向机器端下发保持静音的控制指令。
[0145]
以上，对电子设备如何根据第一状态特征以及第二状态特征，选择对应的控制指令进行了详细说明，在确定该控制指令之后，即可在该第一时间切片之后，根据该控制指令控制机器端继续进行人机语音对话。
[0146]
需要说明的是，在具体实施时，在获得上述第一状态特征以及第二状态特征之后，可以通过将该第一状态特征以及第二状态特征输入到预先训练获得的指令决策模型中，以决策出对应的控制指令，其中，在训练该决策模型时，还可以通过获取机器端实时响应语音的总时长(currentttsduration)、实时响应语音的已播放时长(currentttsplaystarttime)、第一语音流的实时总时长(currentsaytime)、用户端静音总时长(silencetime)、对话总时长(sessiontime)、对话历史上下文信息
(microturncontext)以及用户问询文本(query)中的至少一项作为特征信息，以提升该决策模型的准确度，该模型的训练获得过程此处不再赘述。
[0147]
在步骤s4300之后，执行步骤s4400，在所述第一时间切片之后，根据所述控制指令控制所述机器端进行所述人机语音对话。
[0148]
在具体实施时，所述根据所述控制指令控制所述机器端进行所述人机语音对话，包括：将所述控制指令发送至所述机器端，以使所述机器端根据所述控制指令进行所述人机语音对话。
[0149]
其中，所述机器端根据所述对应的控制指令进行所述人机语音对话，包括：所述机器端根据预存的映射数据，获得对应于所述对应的控制指令的响应信息，其中，所述映射数据反映所述控制指令集中各控制指令与设定的各响应信息之间的对应关系；根据获得的响应信息进行人机语音对话。
[0150]
请参看表3，其为控制指令与不同响应信息的对应关系示意表：
[0151]
表3：
[0152][0153]
请参看图6，其是本公开实施例提供的人机语音对话的架构示意图。如图6所示，针对用户端发出的第一语音流以及监控机器端获得的第二语音流，通过触发事件检测处理，检测是否发生特定触发事件；如果检测到触发事件的发生，则分别获取该触发事件前的第一时间切片的第一语音流的第一状态特征以及第二语音流的第二状态特征；再通过指令决策模型决策获得对应的控制指令，并根据控制指令的指令类型，确定控制机器端是否停止当前播报，或是通过问答处理模块获得响应文本，再通过对该响应文本进行文本语音合成处理，控制机器端持续发出针对第一语音流中的实时语音的响应语音。
[0154]
综上所述，本实施例提供的人机语音对话的控制方法，在人机语音对话的过程中，电子设备通过接收用户端进行人机语音对话的第一语音流及监控机器端进行该人机语音对话的第二语音流，可以不必等待用户发出一轮语音之后再控制机器端进行响应，而是在接收该第一语音流的过程中，通过获取该第一语音流在第一时间切片的第一状态特征以及该第二语音流在该第一时间切片的第二状态特征，从而根据该第一状态特征和该第二状态特征，选择用于控制机器端在该第一时间切片之后进行该人机语音对话的控制指令，以根据该控制指令控制机器端在该第一时间切片之后及时、准确的对用户端的输出语音进行响应。该方法使得在进行人机语音对话时，可以以语音双工模式进行对话，从而使得机器端可以在任意时刻及时、准确的响应用户端发出的语音流，降低响应延迟，提升用户体验。
[0155]
与上述实施例对应，本实施例还提供一种人机语音对话的控制装置，如图7所示，
其是本公开实施例提供的人机语音对话的控制装置的示意性原理框图。
[0156]
根据图7所示，本实施例的人机语音对话的控制装置7000包括语音流接收模块7100、语音流监控模块7200、决策模块7300和执行模块7400。
[0157]
该语音流接收模块7100，用于接收用户端进行人机语音对话的第一语音流。
[0158]
该语音流监控模块7200，用于监控机器端进行所述人机语音对话的第二语音流。
[0159]
在一个实施例中，该语音流监控模块7200在获取所述第一语音流在第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征时，可以用于：检测触发事件的发生；根据检测到的触发事件，获取所述第一语音流在检测到触发事件前的第一时间切片的第一状态特征和所述第二语音流在所述第一时间切片的第二状态特征。
[0160]
在一个实施例中，所述触发事件包括所述第一语音流出现非静音片段的事件，该语音流监控模块7200在检测所述第一语音流出现非静音片段的事件时，可以用于：拆分所述第一语音流，获得相邻的第一静音片段和第二静音片段，其中，所述第一静音片段早于所述第二静音片段；在所述第一静音片段和所述第二静音片段的时序不相连的情况下，提取所述第一静音片段与所述第二静音片段之间的语音片段作为非静音片段，并判定所述第一语音流出现非静音片段的事件。
[0161]
该状态获取模块7300，用于在设定的控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令；其中，所述控制指令集包括控制机器端播报的指令和控制机器端静音的指令。
[0162]
在一个实施例中，该状态获取模块7300在设定的控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于包括：根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果；根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令。
[0163]
在一个实施例中，所述控制机器端播报的指令包括继续当前播报的第一控制指令，该状态获取模块7300在根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果时，可以用于：在所述第二状态特征为所述机器端保持非静音或者所述机器端由静音转为非静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；该状态获取模块7300在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于：在所述机器端具有话语权的情况下，选择所述第一控制指令作为所述对应的控制指令。
[0164]
在一个实施例中，所述控制机器端静音的指令包括停止当前播报的第六控制指令，该状态获取模块7300在根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果时，可以用于：在所述第一状态特征表示所述第一语音流出现非静音片段，及所述第二状态特征为所述机器端保持非静音或者所述机器端由静音转为非静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；该状态获取模块7300在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于：在所述机器端不具有话语权的情况下，选择所述第六控制指令作为所述对应的控制指令。
[0165]
在一个实施例中，所述控制机器端播报的指令包括播报设定的首轮问答内容的第
四控制指令，该状态获取模块7300在根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果时，可以用于：在所述第一状态特征和所述第二状态特征均为对话起始状态的情况下，确定所述机器端在所述第一时间切片之后具有话语权；该状态获取模块7300在根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于：在所述机器端具有话语权的情况下，选择所述第四控制指令作为所述对应的控制指令。
[0166]
在一个实施例中，所述控制机器端播报的指令包括开始新的播报的第二控制指令和/或播报设定的句中承接内容的第三控制指令，该状态获取模块7300在根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果时，可以用于：在所述第一状态特征为所述用户端由非静音转变为静音及所述第二状态特征为所述机器端保持静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；该状态获取模块7300在根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于：在所述机器端具有话语权的情况下，选择所述第二控制指令或者所述第三控制指令作为与所述对应的控制指令。
[0167]
在一个实施例中，所述控制机器端静音的指令包括机器端保持静音的第七控制指令，该状态获取模块7300在根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果时，可以用于：在所述第一状态特征为所述用户端由非静音转变为静音及所述第二状态特征为所述机器端保持静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；该状态获取模块7300在根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于：在所述机器端不具有话语权的情况下，选择所述第七控制指令作为所述对应的控制指令。
[0168]
在一个实施例中，所述控制机器端播报的指令包括播报设定的静音提示内容的第五控制指令，该状态获取模块7300在根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果时，可以用于：在所述第一状态特征为所述用户端保持静音及所述第二状态特征为所述机器端由非静音转变为静音的情况下，确定所述机器端在所述第一时间切片之后具有话语权；该状态获取模块7300在根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于：在所述机器端具有话语权的情况下，选择所述第五控制指令作为所述对应的控制指令。
[0169]
在一个实施例中，所述控制机器端静音的指令包括机器端保持静音的第七控制指令，该状态获取模块7300在根据所述第一状态特征和所述第二状态特征，判断所述机器端在所述第一时间切片之后是否具有话语权，得到判断结果时，可以用于：在所述第一状态特征为所述用户端保持静音及所述第二状态特征为所述机器端由非静音转变为静音的情况下，确定所述机器端在所述第一时间切片之后不具有话语权；该状态获取模块7300在根据所述判断结果，在所述控制指令集中选择与所述第一状态特征和所述第二状态特征对应的控制指令时，可以用于：在所述机器端不具有话语权的情况下，选择所述第七控制指令作为所述对应的控制指令。
[0170]
该执行模块7400，用于在所述第一时间切片之后，根据所述控制指令控制所述机器端进行所述人机语音对话。
[0171]
在一个实施例中，该执行模块7400在根据所述控制指令控制所述机器端进行所述人机语音对话时，可以用于：将所述控制指令发送至所述机器端，以使所述机器端根据所述控制指令进行所述人机语音对话。
[0172]
在该实施例中，该执行模块7400在根据所述对应的控制指令进行所述人机语音对话时，可以用于：所述机器端根据预存的映射数据，获得对应于所述对应的控制指令的响应信息，其中，所述映射数据反映所述控制指令集中各控制指令与设定的各响应信息之间的对应关系；根据获得的响应信息进行人机语音对话。
[0173]
与上述实施例对应，本实施例提供一种电子设备，如图8a所示，该电子设备100包括根据本公开任意实施例的人机语音对话的控制装置7000。
[0174]
在另一个实施例中，如图8b所示，该电子设备100可以包括存储器110和处理器120，该存储器110用于存储可执行的指令；该处理器120用于根据该可执行的指令的控制，执行如本公开任意方法实施例的方法。
[0175]
与上述实施例对应，在本实施例中，还提供一种计算机可读存储介质，该计算机可读存储介质存储有可被计算机读取并运行的计算机程序，所述计算机程序用于在被所述计算机读取运行时，执行如本公开以上任意实施例所述的方法。
[0176]
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
[0177]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0178]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0179]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c 等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机
可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。
[0180]
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
[0181]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0182]
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0183]
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
[0184]
以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音端点检测数据的标注方法、装置、设备和介质与流程

人机语音对话的控制方法、装置及电子设备与流程

相关文献

最热文献