语音交互方法及装置、服务器及存储介质与流程

2022-04-09 10:20:25 来源：中国专利 TAG：

1.本发明涉及语音技术领域，特别涉及一种语音交互方法、语音交互装置、服务器和计算机可读存储介质。

背景技术：

2.随着智能汽车的发展，语音交互能够为用户在驾驶车辆的过程中提供越来越多的便利。然而，对于某些应用场景中用户的语音请求，并不能准确识别用户的真实目的，例如，如果用户需要调整音量，可以通过对车上调整汽车音量的机械旋钮进行操作，将机械旋钮旋转到想要的音量，但是如果使用语音调整音量，只能够调大或者调小。在如下示例中：
3.用户：音量大大大
4.在该对话中，用户希望将当前音量调大三个刻度，然而，当前车辆的车载系统对音量大大大不能准确识别，或者提示听不懂，这样情况不能满足用户对类似机械旋钮一样精准的刻度连续调节的需求，用户体验较差。

技术实现要素：

5.有鉴于此，本发明提供了一种语音交互方法，包括：
6.对车辆预设功能调节的语音请求进行语音识别得到待识别文本，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；
7.利用意图识别模型对所述待识别文本进行意图识别，所述意图识别模型通过训练数据训练得到，所述训练数据与可进行刻度调节的车辆零部件和所述车辆零部件的刻度调节范围相关；
8.在所述意图识别的结果满足第一预设条件的情况下，确定所述语音请求对应的目标意图。
9.如此，本发明的语音交互方法可以在接收到用户对于车辆零部件进行刻度调节的语音请求后，利用意图识别模型进行意图识别。由于该意图识别模型的训练数据与可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关。因而，能够准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图，满足用户以语音交互方式实现对车辆零部件进行刻度调节，丰富了语音交互的应用场景，改善了用户体验。
10.所述语音交互方法包括：
11.确定所述车辆零部件的控制范围及非控制范围。
12.如此，通过收集车辆零部件信息，确认可通过零部件进行刻度调节的功能，从而确定车辆零部件的控制范围，也即是可通过语音交互进行刻度调节的控制范围。
13.所述语音交互方法包括：
14.确定所述车辆零部件的可调节范围。
15.如此，确定每个车辆零部件的可调节范围。
16.所述语音交互方法包括：
17.将所述控制范围和所述可调节范围映射到预设意图。
18.如此，将在先确认的车辆零部件控制范围和每个车辆零部件的可调节范围与预设意图形成映射，在后续语音交互过程中，可根据语音请求快速确定预设意图。
19.所述将所述控制范围和所述可调节范围映射到预设意图包括：
20.将所述控制范围内每个所述车辆零部件的可调节范围，映射到一个所述预设意图。
21.如此，在语音交互过程中，使得对于同一车辆零部件不同调节刻度的语音请求都对应到相同的预设意图。
22.所述预设意图为多个，所述在所述意图识别的结果满足第一预设条件的情况下，确定所述语音请求对应的目标意图，包括：
23.获取所述意图识别的结果对应各个所述预设意图的判别概率；
24.将所述判别概率大于概率阈值的一个所述预设意图确定为所述目标意图。
25.如此，对于通过模型识别得到的意图结果再对应每一个预设意图进行判别，并将概率值超过概率阈值的一个预设意图确认为语音请求所对应的意图，提高意图识别的准确率。
26.所述预设意图包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前和椅背向后中的至少一种。
27.如此，可根据车辆的具体情况制定多个预设意图，完善可能遇到的语音交互场景。
28.所述语音交互方法包括：
29.在各个所述预设意图的所述判别概率均不大于概率阈值的情况下，确定所述语音请求为非刻度调节意图。
30.如此，对于经过意图识别模型识别及概率判别后，未满足概率要求的语音请求，确认为该语音请求的意图并非进行车辆零部件的刻度调节，需进一步进行识别处理。
31.本发明还提供了一种语音交互装置，包括：
32.语音识别模块，用于对车辆预设功能调节的语音请求进行语音识别得到待识别文本，所述预设功能指模拟对车辆零部件的操作进行刻度调节的功能；
33.意图识别模块，用于利用意图识别模型对所述待识别文本进行意图识别，所述意图识别模型通过训练数据训练得到，所述训练数据与可进行刻度调节的车辆零部件和所述车辆零部件的刻度调节范围相关；
34.目标意图确定模块，用于在所述意图识别的结果满足第一预设条件的情况下，确定所述语音请求对应的目标意图。
35.如此，本发明的语音交互装置可以在接收到用户对于车辆零部件进行刻度调节的语音请求后，利用意图识别模型进行意图识别。由于该意图识别模型的训练数据与可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关。因而，能够准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图，满足用户以语音交互方式实现对车辆零部件进行刻度调节，丰富了语音交互的应用场景，改善了用户体验。
36.本发明还提供了一种服务器，所述车辆包括存储器和处理器，所述存储器中存储
有计算机程序，所述计算机程序被所述处理器执行时，实现所述的语音交互方法。
37.如此，本发明的服务器可以在接收到用户对于车辆零部件进行刻度调节的语音请求后，利用意图识别模型进行意图识别。由于该意图识别模型的训练数据与可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关。因而，能够准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图，满足用户以语音交互方式实现对车辆零部件进行刻度调节，丰富了语音交互的应用场景，改善了用户体验。
38.本发明还提供一种计算机程序的非易失性计算机可读存储介质，当所述计算机程序被一个或多个处理器执行时，实现所述的语音交互方法。
39.本发明的非易失性计算机可读存储介质储存的计算机程序被处理器执行时，可以在接收到用户对于车辆零部件进行刻度调节的语音请求后，利用意图识别模型进行意图识别。由于该意图识别模型的训练数据与可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关。因而，能够准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图，满足用户以语音交互方式实现对车辆零部件进行刻度调节，丰富了语音交互的应用场景，改善了用户体验。
40.本发明实施方式的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
41.本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：
42.图1是本发明的语音交互方法的流程示意图；
43.图2是本发明的语音交互装置的模块示意图；
44.图3是本发明的语音交互方法的流程示意图；
45.图4是本发明的语音交互方法的流程示意图；
46.图5是本发明的语音交互方法的流程示意图；
47.图6是本发明的语音交互方法的流程示意图；
48.图7是本发明的语音交互方法的流程示意图；
49.图8是本发明的语音交互方法的流程示意图。
具体实施方式
50.下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中，相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。
51.请参阅图1，本发明提供了一种语音交互方法，包括：
52.01：对车辆预设功能调节的语音请求进行语音识别得到待识别文本，预设功能可通过车辆的零部件进行刻度调节；
53.02：利用意图识别模型对待识别文本进行意图识别，意图识别模型通过训练数据训练得到，训练数据与可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关；
54.03：在意图识别的结果满足第一预设条件的情况下，确定语音请求对应的目标意图。
55.相应地，请参阅图2，本发明实施方式还提供了一种语音交互装置100，本发明实施方式的语音交互方法可以由语音交互装置100实现。语音交互装置100包括语音识别模块110、意图识别模块120和目标意图确定模块130。步骤01可以由语音识别模块110实现，步骤02可以由意图识别模块120实现，步骤03可以由目标意图确定模块130实现。或者说，语音识别模块110用于对车辆预设功能调节的语音请求进行语音识别得到待识别文本。意图识别模块120用于利用意图识别模型对待识别文本进行意图识别。目标意图确定模块130用于在意图识别的结果满足第一预设条件的情况下，确定语音请求对应的目标意图。
56.本发明还提供了一种服务器。服务器包括存储器和处理器。存储器中存储有计算机程序，处理器用于对车辆预设功能调节的语音请求进行语音识别得到待识别文本；及用于利用意图识别模型对待识别文本进行意图识别；以及用于在意图识别的结果满足第一预设条件的情况下，确定语音请求对应的目标意图。
57.在车辆中通常具有一些如按键、旋钮等可用来进行刻度调节的车辆零部件。随着语音技术在车辆交互中的应用，在一些应用场景中，可以通过语音请求来进行对车辆的空调、座椅、扬声器、屏幕等进行控制，如“打开车窗”，“音量调高”等，但是并不能通过语音交互来实现类似旋钮等车辆零部件进行刻度连续调节。也即是说，在相关技术中，对于如“音量大大大”等相类似的语音请求，通常只会控制调节音量增大一次，而不能理解用户的真实意图来进行3次音量增大的调节，或者提示听不懂，用户相关需求得不到满足，体验较差。
58.本发明中，用户使用语音交互模拟对车辆零部件进行刻度调节的过程，对应的语音请求可以包括但不限于“屏幕亮亮亮”、“音量大大大”、“座椅后后后”。其中，预设功能是指通过车辆零部件完成刻度调节的功能，其中的车辆零部件可以指机械旋钮或按钮等实体部件，这些是可以进行调节刻度的零部件。
59.意图识别模型在交互前预先构建并通过相关的训练数据进行训练，训练数据与可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关。
60.意图识别模型训练完成后进行部署，提供可访问的接口。在语音交互过程中，利用意图识别模型可以有效识别到用户希望通过语音交互实现等同于通过零部件手动进行刻度调节的需求。
61.在接收到用户对于车辆预设功能调节的语音请求后，通过语音识别技术进行语音识别，得到待识别文本以便后续处理，例如，对用户输入的语音请求“屏幕亮亮亮”进行语音识别，得到待识别文本“屏幕亮亮亮”。
62.在实际交互环境中，可能受车辆硬件限制，或者因为网络的不稳定性，用户表述口语化或者方言化等原因，导致语音识别后得到的待识别文本不够清晰准确，需要通过预处理进行一些常规文本纠错，比如将一些表达进行近义或同义纠正，以及一些无意义词语的去除等。
63.然后将经过预处理的待识别文本送入意图识别模型意图识别模型中进行意图识别。最后对意图识别得到的结果进行条件判别，例如概率判别，对于满足相关判别条件的结果可以确认为用户的语音请求所对应的目标意图。该目标意图可以进一步下发给下游的相关服务，例如将目标意图组装成控制指令下发给车辆，车辆执行与目标意图相应的调节。
64.综上所述，本发明中可以在接收到用户对于车辆零部件进行刻度调节的语音请求后，利用意图识别模型进行意图识别。由于该意图识别模型的训练数据与可进行刻度调节的车辆零部件和车辆零部件的刻度调节范围相关。因而，能够准确识别出通过语音交互来模拟对车辆零部件的操作实现刻度调节的用户意图，满足用户以语音交互方式实现对车辆零部件进行刻度调节，丰富了语音交互的应用场景，改善了用户体验。
65.请参阅图3，语音交互方法包括：
66.04：确定车辆零部件的控制范围及非控制范围。
67.语音交互装置100还包括控制范围确定模块，步骤04可以由控制范围确定模块来实现。或者说，控制范围确定模块用于确定车辆零部件的控制范围及非控制范围。
68.处理器用于确定车辆零部件的控制范围及非控制范围。
69.可以理解地，车辆并非所有功能的调节都可以、能够或有需要进行精准的刻度调节。例如，座椅在各个方向上的移动可以通过车辆零部件进行调节。而车门则没有类似旋钮、按键等车辆零部件来实现刻度调节，而通常仅通过车门把手进行开关。因此，座椅调节是属于车辆零部件的控制范围、而车门调节则属于车辆零部件的非控制范围。
70.获取车辆零部件的信息，根据车辆零部件的信息，确定可通过零部件进行刻度调节的硬件，确定为车辆零部件的控制范围，将不可通过车辆零部件进行调节的硬件确定为非控制范围。
71.首先，确定在车辆上可以进行刻度调节的车辆零部件，例如：“音量旋钮”，“屏幕亮度按钮”，“空调风量旋钮/按钮”，“座椅调节旋钮/按钮”等。进一步，确定车辆零部件的控制范围可包括：车载音响、车辆内的屏幕、车辆空调、车辆座椅、车内的氛围灯、车辆外部的车灯、或车窗等。车辆零部件的非控制范围可包括：车门、后视镜、后备箱等。
72.在后续语音交互的过程中，可在语音请求针对车辆零部件的非控制范围的情况下进行语音提示。
73.如此，通过收集车辆零部件信息，确认可通过零部件进行刻度调节的功能，从而确定车辆零部件的控制范围，也即是可通过语音交互进行刻度调节的控制范围。
74.请参阅图4，语音交互方法包括：
75.05：确定车辆零部件的可调节范围。
76.语音交互装置100还包括可调节范围确定模块，步骤05可以由可调节范围模块来实现。或者说，可调节范围确定模块用于确定车辆零部件的可调节范围。
77.处理器用于确定车辆零部件的可调节范围。
78.可以理解地，在确定车辆零部件的控制范围和非控制范围后，需要针对控制范围中的每一个车辆零部件确定的可调节范围。车辆零部件的可调节范围与通过操作该车辆零部件进行调节的刻度范围相对应。对应不同车辆零部件，可调节范围可以是档位或量程。例如，屏幕亮度按钮累计连续按压5次，屏幕亮度依次调整1至5个档位的亮度至最大亮度，则该屏幕亮度按钮的可调节范围为1至5个档位。又如，对座椅进行前后调节的旋钮的总刻度值为90，则该座椅调节旋钮的可调节范围为刻度值1～90。
79.如此，可确定每个车辆零部件的可调节范围。
80.请参阅图5，所述语音交互方法包括：
81.06：将控制范围和可调节范围映射到预设意图。
82.语音交互装置100还包括可映射模块，步骤06可以由映射模块来实现。或者说，映射模块用于将控制范围和可调节范围映射到预设意图。
83.处理器用于将控制范围和可调节范围映射到预设意图。
84.将车辆零部件的控制范围和每个车辆零部件的可调节范围，映射到意图识别模型所能够理解的意图体系。针对车辆零部件的控制范围中的对象和对应的车辆零部件的可调节范围均制定一个相应的预设意图。例如：车辆零部件的控制范围中包括车载音响，对应的音量调节旋钮的可调节范围为刻度值1-30，则可以将二者映射到音量调大以及音量调小两个预设意图。system_volume_up代表预设意图“音量调大”、system_volume_down代表预设意图“音量调小”。
85.如此，将在先确认的车辆零部件的控制范围和车辆零部件的可调节范围映射到预设意图形成映射，在后续语音交互过程中，根据意图识别模型和映射关系，可以确认语音请求的意图。
86.请参阅图6，06包括：
87.061：将控制范围内每个车辆零部件的可调节范围，映射到一个预设意图。
88.步骤061可以由映射模块来实现。或者说，映射模块用于将零部件控制范围内每个车辆零部件的可调节范围，映射到一个预设意图。
89.处理器用于将零部件控制范围内每个车辆零部件的可调节范围，映射到一个预设意图。
90.每个车辆零部件的可调节范围包括多个档位或多个刻度值，在建立映射时需要将对应每个车辆部件的可调节范围都映射到同一个预设意图。例如，空调风量调节按键的可调节范围包括5个档位，对应风量增大的语音请求的说法可包括从“风量大”到“风量大大大大大”共5个，需要将这5个风量调大的说法都映射到同一个预设意图，即风量调大。
91.如此，在语音交互过程中，使得对于同一车辆零部件不同调节刻度的语音请求都对应到相同的预设意图。
92.为了简化用户语音请求的表达方式，可将一次调节操作对应多个调节刻度，例如，音量调节的旋钮的量程对应30个刻度值，可以将每次调大或调小的操作对应3个刻度值，也即是在量程范围内，音量调大最多可进行10次，相对应的语音请求也将最多可包含10个“大”。避免由于调节刻度过多，使得用户语音请求表达的复杂化。
93.预设意图可包括：音量调大、音量调小、风量调大、风量调小、温度调高、温度调低、地图放大、地图缩小、屏幕调亮、屏幕调暗、屏幕上滑、屏幕下滑、仪表调亮、仪表调暗、氛围灯调亮、氛围灯调暗、座椅向前、座椅向后、座椅升高、座椅降低、椅背向前、椅背向后、车窗上升和车窗下降中的至少一种。
94.应当理解地，本发明中的预设意图仅为示意性说明，对于车辆中可进行刻度调节的对象都可以根据其实际的操作设定相应的预设意图。
95.如此，可根据车辆的具体情况制定多个预设意图，完善可能遇到的语音交互场景。
96.本发明中的意图识别模型，在使用前预先训练，意图训练的数据可在取得相关用户权限的情况下，收集一定数量的用户语音请求的历史记录，对收集到的语音请求进行筛选，将其中明显语义不明确的指令，以及仅包含语义词且长度较短的指令等筛除，进而留下语义明确且包含具体目的的语音请求，如“导航到某处”，“请帮我打开空调”，“音量调大一
点”，“音量再大一点”等。
97.对筛选后的语音请求参照制定的预设意图进行标注，对标注后的语音请求进行质检，将不符合预设意图的标注数据再次筛掉，留下可用于进行意图模型训练的数据。将可用数据划分为训练集和验证集，划分比例可根据需求设定，在此不做限定，例如训练集80％，验证集20％。利用训练集中的数据进行意图识别模型的训练。模型训练可利用bert、albert、xlnet、roberta等模型。然后针对模型使用验证集中的数据模型的效果进行校验，如果效果满足预设目标，则该模型可以完成训练进行部署。而如果效果不满足预设目标，则需要获取更多的训练数据来进行训练，直至满足预设目标。
98.请参阅图7，预设意图为多个，03包括：
99.031：获取意图识别的结果对应各个预设意图的判别概率；
100.032：将判别概率大于概率阈值的一个预设意图确定为目标意图。
101.步骤031和032可以由目标意图确定模块130来实现。或者说，目标意图确定模块130用于获取意图识别的结果对应各个预设意图的判别概率以及用于将判别概率大于概率阈值的一个预设意图确定为目标意图。
102.处理器用于获取意图识别的结果对应各个预设意图的判别概率以及用于将判别概率大于概率阈值的一个预设意图确定为目标意图。
103.具体地，将语音识别得到的待识别文本输入意图识别模型进行意图识别得到初步意图，分别判断该初步意图为上述预设意图中每一个的概率，例如某一语音请求q经过意图识别模型后得到初步意图x，判断x为上述预设意图中每一个的概率，例如x为音量调大的概率为0、音量调小的概率为0、风量调大的概率为0、风量调小的概率为0、温度调高的概率为0、温度调低的概率为0、地图放大的概率为0、地图缩小的概率为0、屏幕调亮的概率为p1、屏幕调暗的概率为0、屏幕上滑的概率为0、屏幕下滑的概率为0、仪表调亮的概率为p2、仪表调暗的概率为0、氛围灯调亮的概率为0、氛围灯调暗的概率为0、座椅向前的概率为0、座椅向后的概率为0、座椅升高的概率为0、座椅降低的概率为0、椅背向前的概率为0、椅背向后的概率为0、车窗上升的概率为0和车窗下降的概率为0。
104.概率阈值可根据经验设定例如可以是0.9、0.95等在此不做限定，如果上述概率判别中存在大于概率阈值的结果，则对应的预设意图认为是语音请求所对应的目标意图。例如，上例中如果p1大于0.9，那么则认为语音请求的目标意图为屏幕调亮。
105.如此，对于通过模型识别得到的意图结果再对应每一个预设意图进行判别，并将概率值超过概率阈值的一个预设意图确认为语音请求所对应的意图，提高意图识别的准确率。
106.请参阅图8，语音交互方法包括：
107.033：在各个预设意图的判别概率均不大于概率阈值的情况下，确定语音请求为非刻度调节意图。
108.步骤033可以由目标意图确定模块130来实现。或者说，目标意图确定模块130用于在各个预设意图的判别概率均不大于概率阈值的情况下，确定所述语音请求为非刻度调节意图。
109.处理器用于在各个预设意图的判别概率均不大于概率阈值的情况下，确定所述语音请求为非刻度调节意图。
110.可以理解，如果初步意图为任一预设意图的概率均小于概率阈值，那么则可以认为语音请求存在其他意图，可通过布置其他语义识别的模型来进行识别，此处不做赘述。
111.如此，对于经过意图识别模型识别及概率判别后，未满足概率要求的语音请求，确认为该语音请求的意图并非进行车辆零部件的刻度调节，需进一步进行识别处理。
112.本发明实施方式还提供了一种计算机可读存储介质。一个或多个存储有计算机程序的非易失性计算机可读存储介质，当计算机程序被一个或多个处理器执行时，实现上述任一实施方式的语音交互方法。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的软件来完成。程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等。
113.在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。同时，参考术语“第一”、“第二”等的描述意在将同类或相似操作区别开来，“第一”与“第二”之间在中具有前后逻辑关系，在中并不一定具有逻辑或前后关系，需要根据实际实施例进行判定，不应该仅通过字面意思进行判定。
114.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
115.尽管上面已经示出和描述了本发明的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施方式进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：声码器的降噪方法及其声码器、电子设备和存储介质与流程

语音交互方法及装置、服务器及存储介质与流程

相关文献

最热文献