基于车内子区域的语音控制方法和系统与流程

2022-08-03 00:58:48 来源：中国专利 TAG：

1.本发明涉及汽车领域，更具体地，涉及基于车内子区域的语音控制方法和系统。

背景技术：

2.近年来，随着智能网联汽车技术的发展，智能座舱随之也进入发展快车道，相对于传统座舱而言，智能座舱通过搭载智能化/网联化的车载设备或服务(例如，数字化仪表、中控大屏、流媒体后视镜、抬头显示(hud)、智能空调、智能氛围灯、语音/视觉交互等)而使得“人-车-路-云”之间的交互内容更加丰富，使驾驶人和乘车人有更佳的体验。然而，随着中国“二孩”政策的开放，家用车的车内人数增多，5座乘用车可能往往不够大，因而存在对7座及7座以上乘用车的越来越多的需求。此外，车内驾驶员和乘员通常具有各种不同的需求，或者不希望被别人干扰，例如，当车内某个人说“关闭车窗”，他只想关闭靠他那一侧的车窗而并非车内的所有车窗。然而，目前并不存在针对车内不同区域的语音识别和控制系统。
3.因此，为了改进用户画像和增强多模态交互，需要提供一种改进的基于车内子区域的语音控制系统和方法。

技术实现要素：

4.提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。
5.针对以上问题，根据本发明的一个方面，提供了一种用于汽车的语音控制方法，所述方法包括：
6.接收来自车内说话者的语音输入，其中所述说话者处于汽车内划分成的多个子区域中的一个；
7.确定说话者所在的子区域；
8.对所述语音输入进行解析以识别其中包含的控制指令；以及
9.基于所确定的子区域和所识别的控制指令来作出响应。
10.根据本发明的一个实施例，基于所确定的子区域和所识别的控制指令来作出响应进一步包括：
11.基于所确定的子区域修改所识别的控制指令；以及
12.控制所述汽车执行与经修改的控制指令相对应的汽车功能。
13.根据本发明的进一步实施例，基于所确定的子区域和所识别的控制指令来作出响应进一步包括：
14.基于所确定的子区域来确定说话者是否具有通过语音来控制所识别的控制指令的授权；以及
15.如果确定说话者具有该授权，则控制所述汽车执行与所识别的控制指令相对应的汽车功能，否则拒绝所述控制指令。
16.根据本发明的进一步实施例，所述方法进一步包括：
17.基于所确定的子区域对所述语音输入进行自动增强。
18.根据本发明的进一步实施例，所述方法进一步包括：
19.确定接收的语音输入中是否存在语音控制唤醒指令，并且
20.响应于存在语音控制唤醒指令而确定说话者所在的子区域。
21.根据本发明的进一步实施例，所述多个子区域是基于汽车内的座位数和/或座椅排数来划分的。
22.根据本发明的进一步实施例，所述方法进一步包括：
23.对接收的语音输入进行声纹识别以确定说话者的身份。
24.根据本发明的进一步实施例，所述方法进一步包括：基于所确定的说话者的身份及其所在的子区域，执行或调整一项或多项汽车功能。
25.根据本发明的进一步实施例，执行或调整的一项或多项汽车功能进一步包括：
26.多人语音游戏；
27.调节一个或多个子区域的空调温度；
28.调节一个或多个子区域的音响音量；
29.打开或关闭一个或多个子区域的车窗；或者
30.打开或关闭天窗。
31.根据本发明的另一方面，提供了一种具有语音控制功能的汽车，所述汽车包括：
32.语音采集模块，所述语音采集模块被配置成接收来自车内说话者的语音输入，其中所述说话者处于汽车内划分成的多个子区域中的一个；
33.语音控制模块，所述语音控制模块被配置成：
34.确定说话者所在的子区域；
35.对所述语音输入进行解析以识别其中包含的控制指令；以及
36.汽车控制模块，所述汽车控制模块被配置成基于所确定的子区域和所识别的控制指令来作出响应。
37.根据本发明的一个实施例，基于所确定的子区域和所识别的控制指令来作出响应进一步包括：
38.基于所确定的子区域修改所识别的控制指令；以及
39.控制所述汽车执行与经修改的控制指令相对应的汽车功能。
40.根据本发明的进一步实施例，基于所确定的子区域和所识别的控制指令来作出响应进一步包括：
41.基于所确定的子区域来确定说话者是否具有通过语音来控制所识别的控制指令的授权；以及
42.如果确定说话者具有该授权，则控制所述汽车执行与所识别的控制指令相对应的汽车功能，否则拒绝所述控制指令。
43.根据本发明的进一步实施例，所述语音交互接口是车内现有的麦克风或由多个麦克风组成的麦克风阵列。
44.根据本发明的进一步实施例，所述语音控制模块被进一步配置成基于所确定的子区域对所述语音输入进行自动增强。
45.根据本发明的进一步实施例，所述语音控制模块被进一步配置成：
46.确定接收的语音输入中是否存在语音控制唤醒指令，并且
47.响应于存在语音控制唤醒指令而确定说话者所在的子区域。
48.针对现有技术中存在的问题，本发明提供了基于车内子区域的语音控制方法和系统，该解决方案可以实现车内的分区语音识别和控制，并至少具有以下优点：
49.1.通过将车内划分成不同子区域来对处于不同子区域内的乘员下发的命令进行适应化响应，从而在不打扰别人的情况下实现汽车的分区智能化控制。
50.2.在旅程较远且车内人数较多的情况下，能够通过分区语音识别和控制进行车内多人娱乐和互动，从而使旅程更有趣且改进用户体验。
51.通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。
附图说明
52.为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。
53.图1是根据本发明的一个实施例的具有语音控制功能的汽车的示意架构图。
54.图2示出了根据本发明的一个实施例的车内子区域划分以及针对不同子区域的不同需求进行适应化响应的示例。
55.图3是根据本发明的一个实施例的基于车内子区域的语音控制方法的示意流程图。
具体实施方式
56.下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。
57.图1是根据本发明的一个实施例的具有语音控制功能的汽车的示意架构图。如图1所示，汽车100可至少包括语音采集模块101、语音控制模块102和汽车控制模块103。
58.语音采集模块101可用于采集车内驾驶员和乘员的语音输入，其中汽车内部被划分成多个子区域，而车内驾驶员和乘员处于该多个子区域中的一个子区域。语音采集模块101可以是车内现有的麦克风，也可以是由多个麦克风组成的麦克风阵列。作为一个示例，对于5座乘用车，可设置多个麦克风，其分别靠近并用于采集驾驶员、副驾驶、左后乘员和右后乘员的语音输入。可选地，语音采集模块101可在采集语音命令时对其进行适当的增强和降噪。例如，在麦克风仅被设置在前排的情况下，可对来自后排的语音命令进行自动增强以更清晰地捕获该命令，从而使后排乘客可以与前排乘客一样使用语音控制和交互，而无需刻意提高其说话音量。
59.语音控制模块102可定位声源所在子区域以及识别声纹。具体而言，对于车内子区域的划分，(1)可以依据车内座椅的排数来进行划分，例如可将具有2排座椅的5座乘用车划
分为2个区域，将具有3排座椅的七座乘用车划分为3个区域；(2)针对低于7座以下的乘用车，可以依据座椅的个数来进行区域划分，例如将5座乘用车划分为5个区域，将7座乘用车划分为7个区域，而针对7座以上的乘用车，仍然按照座椅的排数来进行区域划分；或者(3)可以将驾驶员和副驾驶位置分别划分为一个区域，对于后排的乘员，则按照座椅排数进行区域划分，例如，将5座乘用车划分成3个区域，将7座乘用车划分成4个区域。对于不同车型，可以依照该车型的座位数和座椅排数来综合考虑如何进行区域划分。参考图2，图2示出了将5座乘用车划分成4个子区域的示例。语音控制模块102可例如通过基于到达时间差(tdoa)的两步算法、基于空间谱估计的方法或基于波束成形的方法来计算出声源位置并确定其所处子区域。作为一个示例，语音控制模块102可基于所采集的语音输入来确定是否存在语音控制唤醒指令(例如“你好，宝马！”)，若存在，则根据语音控制唤醒指令的波前分别到达不同麦克风阵列的时间差来定位声源的位置。优选地，语音控制模块102可仅在确定接收到语音控制唤醒指令之后才开始进行声源定位。语音控制模块102还可对所接收到的语音输入进行声纹识别，其中语音控制模块102调用用户简档中所存储的用户的声纹信息与所接收到的语音的声纹进行对比以确定说话者的身份信息。
60.语音控制模块102还可对所接收到的语音输入进行语义识别和分析以识别其中包含的控制指令。作为一个示例，语音控制模块102可采用基于cnn的关键词识别方法，利用训练好的模型，对所接收到的语音命令进行关键词识别。基于cnn的语音识别技术由多个卷积层、池化层交替出现构成整个网络的前端用于特征提取，在后端由多个全连接层用于对提取到的局部特征进行全局上的整合与变换。相比于传统方法，cnn能够从大量的训练数据中提取有效且泛化能力强的特征，从而提高识别率。在对语音命令进行关键词识别之后，语音控制模块102可随后对识别的结果进行分析以确定其中包含的控制指令(例如，控制车窗升降、调节空调等)。该分析可例如采用相关性计算方法，在系统内部预先设定需要实现的功能并依据统计方法确定各自的阈值，然后将关键词识别的结果分别与各功能指令进行相关性计算，若超过某一指令的阈值，则将该指令传输到汽车控制模块103以供进一步执行，若未发现相关功能，则可将反馈信息传输至音频输入输出单元，经d/a转换后输出系统，提醒说话者重新下发命令。
61.汽车控制模块103可基于所确定的子区域和所识别的控制指令来作出响应。更具体而言，汽车控制模块103可基于所确定的子区域修改所识别的控制指令，并且控制汽车执行与经修改的控制指令相对应的汽车功能。例如，当左后乘员说出“关窗”时，汽车控制模块103可基于所确定的子区域“左后方”和所识别的控制指令“关窗”来将控制指令修改为“关左后方的窗”，并且随后控制汽车的左后车窗关闭。可选地，汽车控制模块103还可基于所确定的子区域来确定说话者是否具有通过语音来控制所识别的控制指令的授权，如果确定说话者具有该授权，则控制汽车执行与所识别的控制指令相对应的汽车功能，否则拒绝该控制指令。作为一个示例，处于驾驶员区域的用户被授予最高授权等级，该授权等级允许用户控制所有可以通过语音控制的功能，包括所有与行驶有关的控制功能(例如关闭/启动发动机等)、与乘坐舒适性有关的控制功能(例如开/关车窗等)、以及与车内娱乐系统有关的控制功能(例如播放音乐等)。处于副驾驶区域的用户被授予中等授权等级，该授权等级允许用户控制大部分功能，但不包括与驾驶有关的控制功能。处于后排区域的用户被授予最低授权等级，该授权等级仅允许控制有限的功能(例如，开/关车窗等)。
62.汽车控制模块103还可基于所确定的说话者的身份及其所在的子区域，执行或调整一项或多项汽车功能，包括但不限于多人语音游戏、调节一个或多个子区域的空调温度、调节一个或多个子区域的音响音量、打开或关闭一个或多个子区域的车窗、打开或关闭天窗等。例如，在确定说话者的身份为父母且其所在子区域为汽车前排时，汽车将自动切换为动态模式，播放一些摇滚乐等，而在确定说话者的身份为小孩且其所在子区域为汽车后排时，汽车将自动切换为静音模式，关闭后排车窗，调高后排空调温度以及降低后排音乐音量等。
63.在图2所示的场景中，车内被划分为四个子区域(即，区域1(驾驶员区域)、区域2(副驾驶区域)、区域3(右后乘员区域)和区域4(左后乘员区域))，汽车控制模块分别对处于这四个子区域的说话者的语音命令作出分区响应，例如，当驾驶员说出“关闭天窗”，则汽车控制模块可确定声源所在子区域为区域1并且控制天窗关闭；当副驾驶说出“给我讲个笑话”，则汽车控制模块可确定声源所在子区域为区域2并且仅控制区域2的音频输出设备播放笑话；当右后乘员说出“打开空调”，则汽车控制模块可确定声源所在子区域为区域3并且仅打开区域3的空调；当左后乘员说出“天气如何”，则汽车控制模块可确定声源所在子区域为区域4并且仅控制区域4的音频输出设备播报天气情况。在一可选示例中，还可基于与接收到的语音命令相关联的区域信息来确定该说话者是否有权限进行该语音控制。例如，当确定诸如“导航到机场”、“打开雨刮器”或“关闭引擎”之类的与驾驶有关的或可能影响驾驶的语音命令来自于非驾驶员区域的说话者时，汽车控制模块可不作出响应，并可提供反馈以表示该命令需要由驾驶员来给出。
64.在另一场景中，例如在家庭自驾出行时，可提供一些基于语音识别的多人互动和娱乐，例如问答游戏、成语接龙等，坐在不同座位的家庭成员可以一起进行游戏，该系统可以判断哪个座位的哪位家庭成员说了什么并且记录分数，从而使旅途充满乐趣。
65.图3是根据本发明的一个实施例的基于车内子区域的语音控制方法300的示意流程图。在步骤301，语音采集模块101接收来自车内说话者的语音输入，其中所述说话者处于汽车内划分成的多个子区域中的一个。
66.在步骤302，语音控制模块102确定说话者所在的子区域。例如，可以通过诸如到达时间差之类的方法来对声源进行定位。在进行声源定位之前，可先判断是否存在语音控制唤醒指令，若存在，则根据语音控制唤醒指令的波前分别到达不同麦克风阵列的时间差来定位声源的位置。
67.在步骤303，语音控制模块102对接收的语音输入进行解析以识别其中包含的控制指令。可选地，方法还可进一步包括基于所确定的子区域对所述语音输入进行自动增强，使得可以更清楚地识别语音，并可使车内的各个子区域的乘员都可以同样地进行语音控制和交互。
68.在步骤304，汽车控制模块103基于所确定的子区域和所识别的控制指令来作出响应。如之前提到的，多个子区域可以是基于汽车内的座位数和/或座椅排数来划分的。
69.可选地，语音控制模块102还可对接收的语音输入进行声纹识别以确定说话者的身份，基于所确定的说话者的身份及其所在的子区域，可执行或调整一项或多项汽车功能，包括但不限于多人语音游戏、调节一个或多个子区域的空调温度、调节一个或多个子区域的音响音量、打开或关闭一个或多个子区域的车窗、打开或关闭天窗等等。
70.以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于动态调节测试文本的口语测试方法及装置与流程

基于车内子区域的语音控制方法和系统与流程

相关文献

最热文献