语音交互方法、语音交互系统、服务器和存储介质与流程

2021-09-22 21:49:00 来源：中国专利 TAG：语音交互特别服务器方法

1.本发明涉及语音技术领域，特别涉及一种语音交互方法、语音交互系统、服务器和存储介质。

背景技术：

2.随着语音技术和车辆智能化的快速发展，在车辆中运用语音技术服务于车内用户的方式大幅提高了用户体验。tts(text to speech)能够实现从文本到语音的转换，是人工智能技术中人机交互的重要技术，tts广泛应用于车载语音交互。
3.然而，现有的tts播报方式，会有很多个性化播报内容需要在线合成音频的情况，这个过程响应速度较慢，导致内容播报响应速度也较慢，影响用户体验。

技术实现要素：

4.本发明的实施方式提供一种语音交互方法、语音交互系统、服务器和存储介质。
5.本发明实施方式的一种语音交互方法，包括：
6.车机端获取语音指令并上传至云端；
7.所述云端处理所述语音指令以得到回复文本数据，并根据所述回复文本数据获取相应的回复音频文件，以使得所述云端在接收到所述车机端发送的音频请求时，将所述回复音频文件发送至所述车机端进行播放。
8.在某些实施方式中，所述云端包括第一云端，云端处理所述语音指令以得到回复文本数据，包括：所述第一云端处理所述语音指令以得到所述回复文本数据。
9.在某些实施方式中，所述云端包括第二云端，根据所述回复文本数据获取相应的回复音频文件，包括：
10.所述第二云端根据所述回复文本数据，查找所述第二云端的缓存存储的音频文件；
11.将在所述第二云端的缓存查找到的音频文件作为所述回复音频文件。
12.在某些实施方式中，所述第二云端包括预加载模块，根据所述回复文本数据获取相应的回复音频文件，包括：
13.在所述第二云端的缓存查找不到音频文件时，所述第二云端发送合成请求至第三方服务端，以使得所述第三方服务端根据所述合成请求合成所述回复音频文件；
14.所述第二云端接收所述第三方服务端发送的回复音频文件并存储在所述预加载模块。
15.在某些实施方式中，所述回复音频文件包括多个音频包，所述第二云端接收所述第三方服务端发送的回复音频文件并存储在所述预加载模块，包括：
16.所述第二云端逐一接收所述多个音频包并存储至所述预加载模块，以使得在所述车机端请求所述回复音频文件时，所述第二云端将已存储的音频包发送至所述车机端进行播放。
17.在某些实施方式中，所述语音交互方法，包括：
18.所述云端发送所述回复文本数据至所述车机端；
19.所述车机端在确定需要向所述云端请求所述回复音频文件时，发送所述音频请求至所述云端；
20.所述云端在接收到所述音频请求时，将存储的所述回复音频文件发送至所述车机端；
21.所述车机端播放已接收到的所述回复音频文件。
22.在某些实施方式中，所述回复音频文件包括多个音频包，所述云端在接收到所述音频请求时，将存储的所述回复音频文件发送至所述车机端，包括：
23.所述云端逐一发送所述多个音频包至所述车机端；
24.所述车机端播放已接收到的所述回复音频文件，包括：
25.所述车机端逐一接收所述音频包并播放接收到的音频包。
26.本发明实施方式的一种语音交互系统，包括车机端和云端，
27.所述车机端用于获取语音指令并上传所述云端；
28.所述云端用于获取所述语音指令，处理所述语音指令以得到回复文本数据，并根据所述回复文本数据获取所述回复音频文件，以使得所述云端在接收到所述车机端发送的音频请求时，将所述回复音频文件发送至所述车机端。
29.本发明实施方式的一种服务器，包括第一云端和第二云端：
30.所述第一云端用于接收车机端上传的语音指令，处理所述语音指令以得到回复文本数据，并发送所述回复文本数据至所述第二云端；
31.所述第二云端用于根据所述回复文本数据，获取相应的回复音频文件，以使得所述第二云端在接收到所述车机端发送的音频请求时，将所述回复音频文件发送至所述车机端进行播放。
32.本发明实施方式又提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现上述任一实施方式的语音交互方法的步骤。
33.上述语音交互方法、语音交互系统、服务器和计算机可读存储介质，云端可根据回复文本数据，提前获取到相应的回复音频文件，这样在所述云端接收到所述车机端发送的音频请求时，就可以将所述回复音频文件发送至所述车机端进行播放，进而节省了网络开销，提升了播报响应速度和用户体验。
34.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
35.本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
36.图1是本发明实施方式的语音交互方法的流程示意图；
37.图2是本发明实施方式的语音交互系统的模块示意图；
38.图3是本发明实施方式的语音交互系统的另一模块示意图；
39.图4是本发明实施方式的语音交互方法的另一流程示意图；
40.图5是本发明实施方式的语音交互方法的又一流程示意图；
41.图6是本发明实施方式的语音交互方法的再一流程示意图；
42.图7是本发明实施方式的车辆的结构示意图；
43.图8是本发明实施方式的语音交互方法的场景示意图。
具体实施方式
44.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
45.在本发明的实施方式的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
46.请参阅图1和图2，本发明实施方式提供的一种语音交互方法，包括：
47.步骤s10，车机端100获取语音指令并上传至云端200；
48.步骤s20，云端200处理所述语音指令以得到回复文本数据，并根据所述回复文本数据获取相应的回复音频文件，以使得所述云端200在接收到所述车机端100发送的音频请求时，将所述回复音频文件发送至所述车机端100进行播放。
49.上述语音交互方法，云端200可根据回复文本数据，提前获取到相应的回复音频文件，这样在所述云端200接收到所述车机端100发送的音频请求时，就可以将所述回复音频文件发送至所述车机端100进行播放，进而节省了网络开销，提升了播报响应速度和用户体验。
50.具体地，相关技术中的语音交互方法，为车机端获取语音指令并上传至云端，云端根据语音指令获取回复文本数据并发送至车机端，车机端根据回复文本数据确定向云端请求回复音频文件，云端再根据车机端的请求才获取回复音频文件。然而，这样导致，在云端并没存储该回复音频文件时(特别是在很多个性化播报场景下)，需要云端合成或请求第三方服务合成，这样就导致在服务链路上增加了网络开销，使得车机端响应速度变慢，降低了用户体验。
51.本发明实施方式的语音交互方法，在云端200根据语音指令获取回复文本数据时就能够提前根据回复文本数据获取相应的回复音频文件，从而提升播报响应速度和用户体验。
52.为方便理解，下面进行举例说明：例如，云端将回复文本数据发送至车机端以及车机端根据回复文本数据确定向云端请求回复音频文件的时间共计200ms，在云端中无法查找到该回复音频文件时，云端根据回复文本数据获取回复音频文件的时间为250ms。在相关技术中，需要云端将回复文本数据发送至车机端、车机端根据回复文本数据向云端请求回复音频文件后，云端再根据回复文本数据获取回复音频文件，即所需时间为200ms 250ms＝450ms。
53.在本发明的一实施方式中，云端200将回复文本数据发送至车机端100以及车机端100根据回复文本数据确定向云端200请求回复音频文件的200ms内，云端200也进行了根据
回复文本数据获取回复音频文件。因而在云端200中无法查找到该回复音频文件时，云端200将回复文本数据发送至车机端100以及车机端100根据回复文本数据确定向云端200请求回复音频文件、云端200根据回复文本数据获取回复音频文件的所需时间为250ms。即相较于现有技术，节省了200ms，达到了提升播报响应速度的效果。
54.具体地，在一个实施方式中，请参阅图7，车机端100可以安装在车辆400上。车机端100可以是固定安装在车辆400上，车机端100也可以是可拆卸安装在车辆400上，在此不做具体限制。车辆400包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等。
55.云端200可以与车机端100进行有线或无线连接，以实现数据和信号传输。无线连接的方式包括但不限于wifi、移动通信网络等。移动通信网络可包括4g、5g、6g等移动通信方式。
56.在一个实施方式中，请参阅图2，车机端100可以包括交互模块102和语音助手模块104。
57.交互模块102可包括显示屏，显示屏用于显示图形用户界面，例如控制面板界面，导航界面，音乐界面等。显示屏可以是触摸显示屏，除显示与车机终端相关的图形用户界面外，还提供用户输入的方式。用户通过触摸触摸显示屏上的相关按键或输入相关手势来实现指令的输入。在一个实施方式中，显示屏可以包括车辆400的中控显示屏、仪表显示屏和副驾驶显示屏、主副驾驶座背面的娱乐大屏的至少一者。用户可以通过车辆400上的按键或语音输入相关指令，进入到想要的图形用户界面。显示屏也可显示回复音频文件的文本内容，而且，显示的词与语音播报时所说的词可同步出现。
58.语音助手模块102用于采集用户语音并生成语音指令及播报音频，例如，语音助手模块102可包括麦克风和扬声器，语音助手模块102通过麦克风采集到用户语音并生成语音指令，发送给交互模块，上传至云端200，云端200对该语音指令进行自然语言理解处理，获取相应的操作指令及回复文本数据。语音助手模块102可利用扬声器播放回复音频文件。
59.在某些实施方式中，请参阅图3，云端200包括第一云端202，步骤s20包括：
60.步骤s21：第一云端202处理语音指令以得到回复文本数据。
61.如此，第一云端202获取到语音指令之后，可对语音指令进行自然语言理解以得到回复文本数据，以为后续根据回复文本数据获取相应的回复音频文件提供根据。
62.具体的，语音指令可以是具有用户指令内容的音频，第一云端202可以对语音指令进行自然语言理解，再根据自然语言理解的结果提供与自然语言理解的结果相应的回复文本数据。例如：在本发明一实施方式中，语音指令为具有用户“打开空调”指令内容的音频，第一云端202对该语音指令进行自然语言理解，得到自然语言理解的结果“打开空调”，再根据自然语言理解的结果“打开空调”提供与自然语言理解的结果“打开空调”相应的回复文本数据“好的，已为您打开”。第一云端202也可根据该指令，下发打开空调的操作指令至车机端，使车机端控制车辆的空调打开。
63.值得注意的是，回复文本数据可包含有回复文本的数据，特别是在一些人性化回复场景中，车机端100本地可能并没有存储相应的回复音频文件，在这种情况下，车机端100可以发送音频请求至云端，云端将提前获取的回复音频文件发送至车机端进行行播放，从而实现交互。
64.在一个例子中，第一云端202可包括中控云端，中控云端可为整车厂商的服务器，该服务器包括但不限于用于进行自然语言理解。
65.在某些实施方式中，请参阅3和图4，云端200包括第二云端204，步骤s20包括：
66.步骤s23：第二云端204根据回复文本数据，查找第二云端204的缓存存储的音频文件；
67.步骤s25：将在第二云端204的缓存查找到的音频文件作为回复音频文件。
68.如此，查找第二云端204的缓存的音频文件获得回复音频文件，可以快速地响应播放需求，提升了用户体验。
69.具体的，第二云端的缓存可以是存储音频文件的数据模块，第二云端204可以根据回复文本数据，查找第二云端204的缓存存储的音频文件，并将查找到的音频文件作为回复音频文件。
70.在一个实施方式中，第二云端204可以包括tts(text to speech)云端，tts云端可为整车厂商的服务器，该服务器包括但不限于用于处理回复话术及合成回复音频文件等。第二云端204与第一云端202进行有线或无线连接，以使得第二云端204能够获取第一云端202发送的回复文本数据。无线连接的方式包括但不限于wifi、移动通信网络等。移动通信网络可包括4g、5g、6g等移动通信方式。
71.进一步地，请参阅3和图5，第二云端204包括预加载模块2041，步骤s20包括：
72.步骤s27：在第二云端204的缓存查找不到音频文件时，发送合成请求至第三方服务端，以使得第三方服务端根据合成请求合成回复音频文件；
73.步骤s29：第二云端204接收第三方服务端发送的回复音频文件并存储在预加载模块2041。
74.如此，当在第二云端查找不到音频文件时，即无法命中时，发送合成请求至第三方服务端，以提前将回复音频文件存储在预加载模块2041，节省了网络开销，提升了播放响应速度和用户体验。
75.具体的，当在第二云端204的缓存中查找不到与回复文本数据相应的回复音频文件时，则进行步骤s27和步骤s29，将第三方服务端发送的相应回复音频文件储存至预加载模块2041中，以在车机端100发送音频请求时，快速从预加载模块2041中获取回复音频文件并发送至车机端100，供车机端100播放。
76.进一步的，回复音频文件包括多个音频包，步骤s29，包括：
77.第二云端204逐一接收多个音频包并存储至预加载模块2041，以使得在车机端100请求回复音频文件时，第二云端204将已存储的音频包发送至车机端100进行播放。
78.如此，第三方服务端先合成的音频包能够先发送并存储至第二云端204，在车机端100发送音频请求时，第二云端204将先存储的音频包发送至车机端100，在车机端100播放已接收到的音频包的同时，第三方服务端可以继续合成并发送剩下的音频包，第二云端204也可以继续接收并存储音频包再发送至车机端100，从而无需回复音频文件全部合成完毕即可为车机端100提供音频包，进一步提升了播报响应速度和用户体验。
79.具体地，在传输音频包的过程中，相当于以音频流的形式来传输音频数据。可以对整体回复音频文件划分为多个音频包，每个音频包相当于一帧音频数据。
80.在一个例子中，回复音频文件为“好的，已为您打开”，回复音频文件包括多个音频
包，音频包可以根据词边界信息来划分，“好的，已为您打开”的词为“好的”、“已”、“为您”以及“打开”，每个词之间为边界信息，一个词的音频数据可包括一个或若干个音频包，根据一个音频包的长度来决定。第三方服务端合成包括“好的”的音频包后，继续合成包括“已”的音频包的同时，将包括“好的”的音频包发送至第二云端204，以便于第二云端204接收到车机端100发送音频请求时，将包括“好的”的音频包发送至车机端100进行播放。以此类推，第二云端204逐一接收包括“好的”、“已”、“为您”以及“打开”的音频包并存储至预加载模块2041，并在车机端100发送音频请求时，将已存储的音频包发送至车机端100播放播放。
81.值得补充的是，在第二云端204将已存储的音频包发送至车机端100进行播放后，在一个实施方式中，预加载模块2041既可以将已存储的音频包继续存储，也可以将已存储的音频包发送至第二云端204的其他缓存或存储模块进行存储，以便下次收到与该回复音频文件相应的回复文本数据时，能够快速响应。在一个实施方式中，预加载模块2041也可以在发送回复音频文件至车机端后，将相应的回复音频文件清除，以节省存储空间。预加载模块可包括缓存或其它存储模块。
82.在某些实施方式中，请参阅图6，语音交互方法包括：
83.步骤s30：云端200发送回复文本数据至车机端100；
84.步骤s40：车机端100在确定需要向云端200请求回复音频文件时，发送音频请求至云端200；
85.步骤s50：云端200在接收到音频请求时，将存储的回复音频文件发送至车机端100；
86.步骤s60：车机端100播放已接收到的回复音频文件。
87.如此，车机端100在确定需要向云端200请求回复音频文件时，可发送音频请求至云端200，云端200即可将回复音频文件发给车机端100播放，提升了播放响应速度和用户体验。
88.具体的，车机端100可以通过云端200发送的回复文本数据判断是否需要向云端200请求回复音频文件，在一个实施方式中，车机端100接收第一云端202发送的回复文本数据。例如，车机端100接收到第一云端202发送的回复文本数据为“好的，已为你打开”，而此时，车机端又接收到需要其它语音回复的业务时(在一些实施方式中，这些业务可定义为打断业务)，车机端可能会干预回复话术的顺序，这种情况下，车机端可能取消发送“好的，已为你打开”的音频请求，或延迟发送音频请求。若车机端100未接收到其它语音回复的业务时，则车机端100确定需要向第二云端发送“好的，已为你打开”的音频请求。第二云端204获取回复音频文件的整个文件，或一个或多个音频包，发送给车机端100进行播放。
89.值得注意的是，在一个实施方式中，在第一云端202发送回复文本数据至车机端100，及车机端100发送音频请求至第二云端204时，第一云端202也提前通知第二云端204，获取相应的回复音频文件，例如，在预加载模块2041中没有该回复音频文件时，第二云端204可请求第三服务端合成并存储在预加载模块2041中，第二云端204可直接从预加载模块2041获取回复音频文件，在保证播放响应速度的同时，使得车机端100的回复能够适应用户个性化请求。
90.在某些实施方式中，回复音频文件包括多个音频包，步骤s50包括：
91.步骤s51：云端200逐一发送所述多个音频包至所述车机端100。
92.步骤s60包括：
93.步骤s61：车机端100逐一接收所述音频包并播放接收到的音频包。
94.如此，可使得车机端100能够先接收到一部分音频包并播放已接收的音频包，车机端100在播放已接收的音频包时，能够继续接收音频包，从而进一步提升了播报响应速度和用户体验。
95.请参图8，图8所示的是，本发明实施方式的语音交互方法的一个场景图。在图8中，车机端100包括语音助手模块104和交互模块102。第一云端202可以为中控云端，中控云端可为整车厂商的服务器，该服务器包括但不限于用于进行自然语言理解。第二云端204可以包括tts(text to speech)云端，tts云端可为整车厂商的服务器，该服务器包括但不限于用于处理回复话术及合成回复音频文件等。
96.语音助手模块收到用户语音请求，如“打开空调”，上传至中控云端进行解析；
97.中控云端经过自然语音理解处理，得到用户意愿，中控云端生成回复文本数据，将回复文本数据和打开空调的操作指令发送至交互模块102，同时，中控云端将生成的回复文本数据发至tts云端，做到提前通知，tts云端；
98.tts云端根据回复文本数据查找tts云端的缓存存储的音频文件，将在tts云端的缓存查找到的音频文件作为回复音频文件；
99.在tts云端根据回复文本数据查找不到回复音频文件时，发送合成请求至第三方服务端，以使得第三方服务端根据合成请求合成回复音频文件，tts云端接收第三方服务端发送的回复音频文件并存储在预加载模块2041；
100.交互模块接收回复文本数据，如“好的，已为你打开”，根据回复文本数据向tts云端发出音频请求；
101.tts云端接收音频请求，查找tts云端的缓存存储的音频文件，查找到相应的回复音频文件后，将回复音频文件发送至交互模块，由交互模块发送至语音助手模块进行播报，本次处理结束，回复音频文件的播报内容为“好的，已为你打开”；
102.在tts云端根据音频请求查找不到回复音频文件时，获取预加载模块2041存储的回复音频文件，将回复音频文件由预加载模块2041发送至交互模块，由交互模块发送至语音助手模块进行播报，本次处理结束，回复音频文件的播报内容为“好的，已为你打开”。
103.以上处理完本次流程结束，本发明实施方式tts云端提前获取到相应的回复音频文件，在tts云端接收到交互模块发送的音频请求时，可以将回复音频文件发送至语音助手模块进行播放，节省网络开销，提升播报响应速度和用户体验。
104.请参阅图2和图3，本发明实施方式的一种语音交互系统300，包括车机端100和云端200：
105.车机端100用于获取语音指令并上传云端200；
106.云端200用于获取语音指令，处理语音指令以得到回复文本数据，并根据回复文本数据获取并存储相应的回复音频文件，以使得云端200在接收到车机端100发送的音频请求时，将回复音频文件发送至车机端100进行播放。
107.上述语音交互系统300，云端200可根据回复文本数据，提前获取到相应的回复音频文件，这样在云端200接收到车机端100发送的音频请求时，就可以将回复音频文件发送至车机端100进行播放，进而节省了网络开销，提升了播报响应速度和用户体验。
108.本发明实施方式的一种服务器，服务器可包括云端200，服务器包括第一云端202和第二云端204，
109.第一云端202用于接收车机端100上传的语音指令，处理语音指令以得到回复文本数据，并发送回复文本数据至第二云端204；
110.第二云端204用于根据回复文本数据，获取相应的回复音频文件，以使得第二云端204在接收到车机端100发送的音频请求时，将回复音频文件发送至车机端100进行播放。
111.上述服务器，第二云端204可以根据回复文本数据，提前获取到相应的回复音频文件，这样在第二云端204接收到车机端100发送的音频请求时，就可以将回复音频文件发送至车机端100进行播放，进而节省了网络开销，提升了播报响应速度和用户体验。
112.本发明实施方式提供一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时，实现上述任一实施方式的语音交互方法的步骤。
113.上述存储介质，可根据回复文本数据，提前获取相应的回复音频文件，这样在接收到音频请求时，可以将回复音频文件发送至车机端100进行播放，进而节省了网络开销，提升了播报响应速度和用户体验。
114.计算机可读存储介质可设在车辆400，也可设在云端200服务器。车辆400能够与云端200服务器进行通讯来获取到相应的程序。可以理解，计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、以及软件分发介质等。
115.计算机可读存储介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
116.需要说明的是，上述对语音交互方法的实施方式和有益效果的说明，也适应于本发明实施方式的语音交互系统300、服务器和计算机可读介质，为避免冗余，在此不再详细展开。
117.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
118.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括
一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
119.尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：分布式麦克风阵列的自校准方法、装置和电子设备与流程

语音交互方法、语音交互系统、服务器和存储介质与流程

相关文章

最热文献