多音区语音识别方法、装置、车辆及存储介质与流程

2022-12-06 19:26:38 来源：中国专利 TAG：

1.本公开涉及信息技术领域，尤其涉及一种多音区语音识别方法、装置、车辆及存储介质。

背景技术：

2.现在车载语音助手已经越来越普及，用户可与车载语音助手进行语音交互，来实现导航、播放语音以及车辆控制等功能。
3.为满足用户的需求，车载语音助手已经可实现车辆座舱内的全员语音服务。但是，全员语音服务会持续允许车辆座舱内各个位置的人同时与车载语音助手进行语音交互，如果用户在某些情况下仅希望车辆座舱内某些位置的人可以与车载语音助手进行语音交互，则无法满足用户的需求。

技术实现要素：

4.为了解决上述技术问题，本公开提供了一种多音区语音识别方法、装置、车辆及存储介质。
5.本公开实施例的第一方面提供了一种多音区语音识别方法，该方法包括：
6.获取位于目标车辆的座舱内的用户发出的语音；判断语音的来源音区是否为预先设置的锁定音区，锁定音区为允许对目标车辆进行语音控制的音区；若来源音区为锁定音区，对语音进行语音识别。
7.本公开实施例的第二方面提供了一种多音区语音识别装置，该装置包括：
8.获取模块，用于获取位于目标车辆的座舱内的用户发出的语音；判断模块，用于判断语音的来源音区是否为预先设置的锁定音区，锁定音区为允许对目标车辆进行语音控制的音区；识别模块，用于若来源音区为锁定音区，对语音进行语音识别。
9.本公开实施例的第三方面提供了一种车辆，该车辆包括存储器和处理器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时，实现如上述第一方面的多音区语音识别方法。
10.本公开实施例的第四方面提供了一种计算机可读存储介质，存储介质中存储有计算机程序，当计算机程序被处理器执行时，实现如如上述第一方面的多音区语音识别方法。
11.本公开实施例提供的技术方案与现有技术相比具有如下优点：
12.本公开实施例，通过在获取位于目标车辆的座舱内的用户发出的语音后，判断语音的来源音区是否为预先设置的允许对目标车辆进行语音控制的音区的锁定音区，若来源音区为锁定音区，对语音进行语音识别，如果用户在某些情况下仅希望车辆座舱内某些位置的人可以与车载语音助手进行语音交互，可以根据用户需求预先设置进行语音控制的区域进行锁定，即根据用户需求预先设置允许对目标车辆进行语音控制的音区的锁定音区，仅对来源于锁定音区的语音进行语音识别，能够避免其他音区的声音造成的干扰，提高了用户体验。
附图说明
13.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
14.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
15.图1是本公开实施例提供的一种多音区语音识别方法的车辆座舱的示意图；
16.图2是本公开实施例提供的一种多音区语音识别方法的流程图；
17.图3是本公开实施例提供的一种多音区语音识别的音区设置界面示意图；
18.图4是本公开实施例提供的另一种多音区语音识别方法的流程图；
19.图5是本公开实施例提供的一种多音区语音识别装置的结构示意图；
20.图6是本公开实施例提供的一种车辆的结构示意图。
具体实施方式
21.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
22.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
23.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
24.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
25.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
26.本公开实施例提供的多音区语音识别方法，可以应用于一种车辆座舱中，为了使座舱中全体成员都能使用语音服务，在车辆座舱中可设置一个或多个麦克风，一个麦克风接收声音的范围叫做一个音区，一个音区可以对应一个或多个座位区域，麦克风可以将车内空间细分为多个独立音区，可以对每个音区独立采集语音信号，麦克风使得每个音区之间都具有足够的隔离度，可以隔离来自其他音区的声音，麦克风可以将采集的语音信号发送至多音区语音识别装置，多音区语音识别装置可以对各个音区的语音信号进行处理，实现语音识别和语音交互，还可以将语音识别的结果发送到车机屏幕上，车机屏幕将结果进
行显示，将语音识别的过程可视化。其中，麦克风主要由多个数字麦克风、一颗数字信号处理(digital signal processing，dsp)芯片以及一颗汽车音频总线(automotive audio bus，a2b)芯片组成。
27.例如，图1为本公开实施例提供的一种多音区语音识别方法的车辆座舱示意图，将座舱空间100按车头到车尾方向划分为六个音区，101为主驾音区，范围为主驾座椅区域；102为副驾音区，范围为副驾座椅区域；103为二排左音区，范围为第二排左边座椅区域；104为二排右音区，范围为第二排右边座椅区域；105为三排左音区，范围为第三排左边座椅区域；106为三排右音区，范围为第三排右边座椅区域，每个音区安装有对应收音范围的麦克风，六个音区可以实现独立拾音，且能够自动屏蔽其他音区的声源。例如，在某个音区内有人正在打电话，这时对于其他音区可以正常进行语音识别，不会受到干扰。107为中控台的车机屏幕，可以将语音识别的过程可视化。图1只是多音区语音识别方法的车辆座舱的示例性说明，而不是唯一说明。
28.相关技术为满足用户的需求，车载语音助手已经可实现车辆座舱内的全员语音服务。但是，全员语音服务会持续允许车辆座舱内各个位置的人同时与车载语音助手进行语音交互，如果用户在某些情况下仅希望车辆座舱内某些位置的人可以与车载语音助手进行语音交互，则无法满足用户的需求。
29.针对相关技术在语音交互功能中存在的缺陷，本公开实施例提供了一种多音区语音识别方法、装置、车辆及存储介质，可以根据用户需求预先设置进行语音控制的区域进行锁定，即根据用户需求预先设置允许对目标车辆进行语音控制的音区的锁定音区，仅对来源于锁定音区的语音进行语音识别，能够避免其他音区的声音造成的干扰，提高了用户体验。
30.为了更好的理解本公开实施例的发明构思，下面结合示例性的实施例对本公开实施例的技术方案进行说明。
31.图2是本公开实施例提供的一种多音区语音识别方法的流程图，该方法可以由设置于目标车辆内的多音区语音识别装置执行。如图2所示，本实施例提供的多音区语音识别方法包括如下步骤：
32.步骤201、获取位于目标车辆的座舱内的用户发出的语音。
33.本公开实施例中，在位于目标车辆的座舱内的用户想要与目标车辆内的车载语音助手进行语音交互时，用户可以发出语音，多音区语音识别装置可以获取用户发出的语音。
34.可选的，目标车辆中安装的麦克风可以采集座舱内的用户发出的语音，并且发送至多音区语音识别装置，使多音区语音识别装置可以获取用户发出的语音。
35.步骤202、判断语音的来源音区是否为预先设置的锁定音区，锁定音区为允许对目标车辆进行语音控制的音区。
36.本公开实施例中，多音区语音识别装置在获取到用户发出的语音后，可以对语音的来源音区是否为预先设置的锁定音区进行判断。
37.本公开实施例中的来源音区可以理解为发出该语音的用户所处的音区，由于一个音区为一个麦克风接收声音的范围，即麦克风与音区是一一对应的，因此，可以通过接收该语音的麦克风所对应的音区确定用户所处的音区，即语音的来源音区。
38.在一些实施例中，在步骤202之前，该多音区语音识别方法还可以包括：确定采集
语音的目标麦克风；将目标麦克风所属的音区确定为来源音区。
39.具体的，多音区语音识别装置可以首先确定采集用户语音的麦克风，进而将采集用户语音的麦克风确定为目标麦克风，然后根据目标麦克风接收声音的范围确定目标麦克风所属的音区，将目标麦克风所属的音区确定为来源音区。
40.其中，每个音区可以具有一个唯一的音区标识，目标车辆可以预先存储有每个麦克风接收声音的范围对应的各个音区的音区标识，由此，当目标车辆确定目标麦克风之后，可以获取预先存储的目标麦克风对应的音区标识，进而将获取到的音区标识对应的音区作为来源音区。
41.本公开实施例中的锁定音区可以理解为允许对目标车辆进行语音控制的音区，用户可以在锁定音区发声以通过语音交互实现对目标车辆的语音控制，非锁定音区可以理解为禁止对目标车辆进行语音控制的音区，用户即使在非锁定音区发声也无法通过语音交互实现对目标车辆的语音控制。
42.由于音区可以具有一个唯一的音区标识，因此，判断语音的来源音区是否为预先设置的锁定音区，可以将来源音区的音区标识与预先设置的锁定音区的音区标识进行比较，如果音区标识相同，则确定来源音区为锁定音区，否则确定来源音区不是锁定音区。
43.步骤203、若来源音区为锁定音区，对语音进行语音识别。
44.本公开的一些实施例中，在多音区语音识别装置对语音的来源音区是否为预先设置的锁定音区进行判断之后，若判断来源音区为锁定音区，则说明用户是在锁定音区发出的语音，因此，目标车辆可以对获取的语音信号进行语音识别。
45.具体的，多音区语音识别装置可以先对语音进行语音识别得到语音对应的语音文本，然后对语音文本进行语义识别得到语音对应的语义。如果语音对应的语义为控制指令，则执行该控制指令；如果语音对应的语义为用户与车载语音助手的对话内容，则可以针对该对话内容生成答案，并播报或者显示答案。
46.本公开实施例，通过在获取位于目标车辆的座舱内的用户发出的语音后，判断语音的来源音区是否为预先设置的允许对目标车辆进行语音控制的音区的锁定音区，若来源音区为锁定音区，对语音进行语音识别，如果用户在某些情况下仅希望车辆座舱内某些位置的人可以与车载语音助手进行语音交互，可以根据用户需求预先设置进行语音控制的区域进行锁定，即根据用户需求预先设置允许对目标车辆进行语音控制的音区的锁定音区，仅对来源于锁定音区的语音进行语音识别，能够避免其他音区的声音造成的干扰，提高了用户体验。
47.本公开的另一些实施例中，若判断来源音区不是锁定音区，则多音区语音识别装置可以输出提示信息，该提示信息可以用于提示来源音区为禁止对目标车辆进行语音控制的音区。
48.在一些实施例中，提示信息可以是在屏幕上显示的图文提示信息，例如，可以在车机屏幕上显示文本“来源音区不是锁定音区”或者“来源音区为禁止对目标车辆进行语音控制的音区”。
49.在一些实施例中，提示信息可以通过扬声器播放的语音提示信息，例如可以通过目标车辆上的扬声器播放语音“来源音区不是锁定音区”或者“来源音区为禁止对目标车辆进行语音控制的音区”。
50.用户收到提示信息后，若想继续在该音区进行语音交互，则可以对该来源音区进行锁定设置操作，将该来源音区设置为锁定音区。
51.在本公开的又一些实施例中，用户还可以根据需要将目标车辆设置为音区抑制模式。
52.其中，音区抑制模式可以理解为目标车辆的所有音区均无法对目标车辆进行语音控制，即目标车辆的语音识别功能全部无法使用。只有在目标车辆未处于音区抑制模式的情况下，目标车辆的麦克风才可以获取位于目标车辆的座舱内的用户发出的语音。
53.在一些实施例中，在目标车辆未处于音区抑制模式的情况下，多音区语音识别装置可以获取位于目标车辆的座舱内的用户发出的语音。在目标车辆处于音区抑制模式的情况下，多音区语音识别装置无法获取位于目标车辆的座舱内的用户发出的语音。
54.由此，可以保证目标车辆在非音区抑制模式下获取位于目标车辆的座舱内的用户发出的语音。
55.在另一些实施例中，多音区语音识别装置在获取到位于目标车辆的座舱内的用户发出的语音之后，可以判断目标车辆是否处于音区抑制模式，并且在目标车辆未处于音区抑制模式的情况下，判断所述语音的来源音区是否为预先设置的锁定音区；在目标车辆处于音区抑制模式的情况下，无法进行判断所述语音的来源音区是否为预先设置的锁定音区的步骤。
56.由此，可以保证判断所述语音的来源音区是否为预先设置的锁定音区的步骤是在非音区抑制模式下执行的。
57.在这些实施例中，可选的，在座舱内所有用户均结束与目标车辆的语音交互后，或者，当座舱内所有的用户暂时不需要对目标车辆进行语音控制时，用户可以向多音区语音识别装置输入对目标车辆的音区抑制操作，使得多音区语音识别装置可以响应于对目标车辆的音区抑制操作，将目标车辆设置为音区抑制模式。
58.其中，音区抑制操作可以包括对车机屏幕内的音区抑制虚拟按钮的点击操作，还可以包括对目标车辆上的音区抑制实体按钮的点击操作，这里不作限制，目标车辆的多音区语音识别装置响应于对目标车辆的音区抑制操作，将目标车辆设置为音区抑制模式，可以做到音区抑制模式的一键切换。
59.进一步的，在目标车辆处于音区抑制模式的情况下，当座舱内的用户需要对目标车辆进行语音控制时，用户可以向多音区语音识别装置输入对目标车辆的音区抑制取消操作，使得目标车辆离开音区抑制模式。
60.其中，音区抑制取消操作可以包括对车机屏幕内的音区抑制取消虚拟按钮的点击操作，还可以包括对目标车辆上的音区抑制取消实体按钮的点击操作，这里不作限制，目标车辆的多音区语音识别装置响应于对目标车辆的音区抑制取消操作，可以一键取消音区抑制模式，使得多音区语音识别装置可以响应于对目标车辆的音区抑制取消操作，使目标车辆进入非音区抑制模式。
61.由此，用户可根据实际需要在音区抑制模式和非音区抑制模式下进行切换，提高用户体验。
62.在本公开再一些实施例中，用户还可以根据需要设置锁定音区和非锁定音区。
63.在一些实施例中，在用户想要允许多个音区中的第一音区内的声音对目标车辆进
行语音控制时，用户可以向多音区语音识别装置输入对第一音区的锁定设置操作，使得多音区语音识别装置可以响应于检测到对第一音区的锁定设置操作，将第一音区设置为锁定音区。
64.第一音区可以为用户想要允许对目标车辆进行语音控制的音区，第一音区可以包括该目标车辆的一个或多个音区。
65.锁定设置操作可以包括对车机屏幕内的音区锁定虚拟按钮的点击操作，还可以包括对目标车辆上的音区锁定实体按钮的点击操作，这里不作限制，目标车辆的多音区语音识别装置响应于检测到对第一音区的锁定设置操作，将第一音区设置为锁定音区，第一音区之外的音区设置为非锁定音区。
66.在另一些实施例中，在用户想要禁止多个音区中的第二音区内的声音对目标车辆进行语音控制时，用户可以向多音区语音识别装置输入对第二音区的锁定取消操作，使得多音区语音识别装置可以响应于检测到对第二音区的锁定取消操作，将第二音区设置为非锁定音区。
67.第二音区可以为用户想要禁止对目标车辆进行语音控制的音区，第二音区可以包括该目标车辆的一个或者多个锁定音区。
68.锁定取消操作可以包括对车机屏幕内的锁定取消虚拟按钮的点击操作，还可以包括对目标车辆上的锁定取消实体按钮的点击操作，这里不作限制，目标车辆的多音区语音识别装置响应于检测到对第二音区的锁定取消操作，将第二音区设置为非锁定音区。
69.可选地，第二音区可以与第一音区为相同的音区，即用户在将第一音区设置为锁定音区之后，在第一音区内的声音与目标车辆进行语音交互之前、进行语音交互的过程中或者进行语音交互之后，即用户在将第一音区设置为锁定音区之后的任何时刻，如果用户又想要禁止第一音区内的声音对目标车辆进行语音控制，则可以将第一音区由锁定音区切换为非锁定音区。
70.在一些示例中，车机屏幕或实体按钮可以安装于目标车辆的中控台上，中控台可以理解为位于主驾和副驾区域前面的车辆控制区域，用户可以通过中控台上的车机屏幕或实体按钮进行音区抑制、音区抑制取消、音区锁定、锁定取消等操作。
71.在另一些示例中，车机屏幕或实体按钮除安装于目标车辆的中控台之外，还可以分别安装于目标车辆的每个音区内，即每个音区都有该音区对应的车机屏幕或实体按钮，用户可以通过中控台上的车机屏幕或实体按钮进行音区抑制、音区锁定、锁定取消等操作，也可以通过用户所在音区内的车机屏幕或实体按钮进行音区抑制、音区抑制取消、音区锁定、锁定取消等操作。
72.图3为本公开实施例提供的一种多音区语音识别的音区设置界面示意图，如图所示，该界面可以在车机屏幕上进行界面操作和显示，301为音区抑制虚拟按钮，302为抑制取消虚拟按钮，303为音区锁定虚拟按钮，304为锁定取消虚拟按钮，305为音区选择区域，当用户需要进行音区抑制操作时，可以直接点击界面上的音区抑制按钮，多音区语音识别装置响应于音区抑制操作，进入音区抑制模式，当用户需要进行抑制取消操作时，可以直接点击界面上的抑制取消按钮，多音区语音识别装置响应于音区取消操作，进入非音区抑制模式；当用户需要进行音区锁定操作时，可以在音区选择界面中选择需要锁定的音区，选择好后点击确定选择按钮，然后点击音区锁定按钮，多音区语音识别装置响应于音区锁定操作，即
可将确定选择的音区进行音区锁定，当用户需要进行锁定取消操作时，可以在音区选择界面中选择需要取消锁定的音区，选择好后点击确定选择按钮，然后点击取消锁定按钮，多音区语音识别装置响应于锁定取消操作，即可将取消锁定确定选择的音区。
73.在本公开再一些实施例中，多音区语音识别装置可以直接基于采集语音的麦克风确定语音的来源音区，也可以对确定的来源音区进行修正，以更准确地确定语音的来源。
74.在一些实施例中，多音区语音识别装置可以在获取位于目标车辆的座舱内的用户发出的语音之后，确定采集语音的目标麦克风，将目标麦克风所属的音区确定为来源音区，然后判断语音的来源音区是否为预先设置的锁定音区，若来源音区为锁定音区，则对语音进行语音识别。
75.在另一些实施例中，多音区语音识别装置在判断语音的来源音区是否为预先设置的锁定音区之前，还可以对来源音区进行音区修正，然后判断修正后的来源音区是否为预先设置的锁定音区，若来源音区为锁定音区，对语音进行语音识别，如图4所示。
76.图4是本公开实施例提供的另一种多音区语音识别方法的流程图。如图4所示，本实施例提供的多音区语音识别方法包括如下步骤：
77.步骤401、获取位于目标车辆的座舱内的用户发出的语音。
78.步骤402、确定采集语音的目标麦克风，将目标麦克风所属的音区确定为来源音区。
79.本公开实施例中的步骤401-402可以参考上述步骤201-202，这里不再赘述。
80.步骤403、对来源音区进行音区修正。
81.本公开实施例中，对来源音区进行音区修正可以理解为对来源音区的音区位置进行修正，目标车辆可以在每排座椅所属音区的前面布置至少一个车机屏幕，或者在每个音区的前排座椅靠背后部布置车机屏幕，车机屏幕可以显示所处音区的语音识别的指令和结果，方便用户与车辆的语音交互，当座椅躺倒或侧脸说话导致人的头部和臀部分离时，基于采集语音的目标麦克风所属音区确定的来源音区会与实际需求不相符，使音区对应的车机屏幕显示的指令不在说话人的前方，例如，用户坐在主驾座椅上，并将主驾座椅躺倒至二排左，此时用户进行语音交互时，二排左音区的麦克风会采集到用户的语音，并将语音显示在二排所属音区的车机屏幕或者主驾座椅靠背后部的车机屏幕上，造成主驾座椅上的用户很难看到车机屏幕上显示的语音指令。因此，有必要对来源音区进行音区修正，使来源音区内车机屏幕显示的指令始终处于说话人的前方，符合实际使用需求。
82.在一些实施例中，可以基于座椅数据，对来源音区进行音区修正，可以包括步骤4031-4032：
83.步骤4031、接收座椅数据，座椅数据包括座椅压力数据和座椅位姿数据中的至少一种。
84.本公开实施例中，目标车辆的多音区语音识别装置接收所有座椅的座椅数据，其中，座椅压力数据可以理解为座椅表面的压力，可以通过座椅内部的压力传感器获得，座椅位姿数据可以包括车辆从车头到车尾的纵向方向的座椅靠背角度。
85.步骤4032、基于座椅数据，对来源音区进行音区修正。
86.本公开实施例中，音区的位置可以按照音区座椅的位置来划分，以三排座椅车辆为例，音区的排位置按照从车头到车尾的方向包括一排、二排和三排，相同排位置的音区的
预设音区修正系数相同，一排的第一预设音区修正系数大于二排的第二预设音区修正系数，二排的第二预设音区修正系数大于三排的第三预设音区修正系数，其中，预设音区修正系数可以理解为对音区修正的权重大小，本实施例中的每排座椅对音区修正的权重大小可以理解为根据实际应用的场景次数总结得出，假设每排有两个座椅，一排的一个座椅的位置为第一位置，另一个座椅的位置为第二位置，二排的一个座椅的位置为第三位置，另一个座椅的位置为第四位置，三排的一个座椅的位置为第五位置，另一个座椅的位置为第六位置。
87.在一些示例中，可以基于座椅压力数据，对来源音区进行修正，可以包括：
88.可选的，当来源音区的座椅的压力大于预设压力阈值，其他任意位置的座椅的压力小于预设压力阈值时，对来源音区不进行修正。
89.可选的，当来源音区的位置为一排中的第一位置，第一位置的座椅的压力小于预设压力阈值时，若一排中的第二位置的座椅的压力大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，确定第二位置的音区为修正音区，例如，当来源音区的位置为主驾区域，主驾座椅压力小于预设压力阈值时，若副驾座椅压力大于等于预设压力阈值，其余座椅压力小于预设压力阈值时，确定副驾位置的音区为修正音区；
90.若二排和三排的任意位置的座椅的压力大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，对来源音区不进行修正。
91.可选的，当来源音区的位置为二排中的第三位置，第三位置的座椅的压力小于预设压力阈值时，若一排的第一位置的座椅的压力大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，确定第一位置为修正音区，例如，来源音区的位置为二排左区域，二排左区域的座椅压力小于预设压力阈值，若主驾座椅压力大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，确定主驾位置的音区为修正音区；若二排的第四位置的座椅的压力大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，确定第四位置的音区为修正音区；
92.若第四位置和三排中的任意位置的座椅的压力大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，确定第三位置的音区为修正音区。
93.可选的，当来源音区的位置为三排中的第五位置，第五位置的座椅的压力小于预设压力阈值时，若二排中的第四位置的座椅的压力大于等于预设压力阈值，其余座椅的表面压力小于预设压力阈值，确定第四位置的音区为修正音区。
94.在另一些示例中，可以基于座椅压力数据和座椅位姿数据，对来源音区进行修正，可以包括：
95.可选的，当来源音区的位置为二排中的第三位置，第三位置的座椅的压力小于预设压力阈值时，若第三位置对应的前排位置的座椅的压力和二排中的第四位置的座椅的压力均大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，前排位置的座椅靠背角度大于等于预设角度阈值，确定前排位置的音区为修正音区。例如，当来源音区的位置为二排左区域，二排左区域的座椅压力小于预设压力阈值时，若主驾座椅压力和二排右的座椅压力均大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，确定主驾位置的音区为修正音区。此时的场景为主驾座椅躺倒到二排左，用户在二排左区域说话，二排右区域有人，来源音区为二排左，通过音区修正后，将主驾位置的音区确定为最终的来源音区。
96.可选的，当来源音区的位置为三排中的第五位置，第五位置的座椅的压力小于预设压力阈值时，若第五位置对应的前排位置的座椅的压力和后排位置的座椅的压力均大于等于预设压力阈值，其余座椅的压力小于预设压力阈值，前排位置的座椅靠背角度大于等于预设角度阈值，确定前排位置的音区为修正音区。
97.本公开实施例中的预设压力阈值和预设角度阈值可以根据需要设置，这里不作具体限制，当座椅的压力大于等于预设压力阈值时，可以认为该座椅上边有人，当座椅的压力小于预设压力阈值时，可以认为该座椅上边没人；当座椅靠背角度大于等于预设角度阈值时，可以认为该座椅靠背向后排区域倾斜，当座椅靠背角度小于预设角度阈值时，可以认为该座椅靠背向所处区域倾斜。
98.在另一些实施例中，可以基于图像数据，对来源音区进行修正，可以包括步骤4033-4034：
99.步骤4033、接收座舱内的图像数据。
100.本公开实施例中的图像数据可以理解为摄像头发送给多音区语音识别装置的图像数据，具体的，
101.目标车辆可以在每排座椅所属音区的前面布置至少一个摄像头，或者在每个音区的前排座椅靠背后部布置摄像头，或者在座舱的最前方布置一个摄像头，使摄像头可以拍摄到目标车辆座舱内部任意一个音区的图像，摄像头将拍摄到的图像转换为图像数据后，将图像数据发送给多音区语音识别装置。
102.步骤4034、基于座椅数据和图像数据，对来源音区进行音区修正。
103.在一些实施例中，可以基于图像数据，对来源音区进行音区修正：
104.可选的，对图像中位于该来源音区对应的座椅范围内的人像进行检测，如果检测到图像中该座椅范围内有一个人头，则判断该人的坐姿，如果坐姿为人头在该座椅区域对应的音区，但身体在其他音区，这里的身体为人体除人头之外的其他部分，则将身体的位置所处的音区作为修正后的来源音区，如果坐姿为人头和身体均在该座椅区域对应的音区，则无需修正；如果检测到图像中该座椅范围内的有两个人头，则无需修正。
105.在又一些实施例中，可以基于座椅数据和图像数据，对来源音区进行修正：
106.可选的，多音区语音识别装置可以同时获取座椅数据和图像数据，也可以在基于座椅数据修正第二来源音区之后，再获取图像数据。多音区语音识别装置可以先基于座椅数据对来源音区进行修正，得到第一次确认的来源音区，然后通过分析图像数据，判断第一次确认的来源音区是否有人，若第一次确认的来源音区有人，则不再进行修正，将该第一次确认的来源音区确定为最终的来源音区；若第一次确认的来源音区没人，则将第一次确认之前的来源音区确定为最终的来源音区。
107.步骤404、判断语音的来源音区是否为预先设置的锁定音区。
108.步骤405、若来源音区为锁定音区，对语音进行语音识别。
109.本公开实施例中的步骤404-405可以参考上述步骤202-203，这里不再赘述。
110.本公开实施例，通过获取位于目标车辆的座舱内的用户发出的语音，确定采集语音的目标麦克风，将目标麦克风所属的音区确定为来源音区；对来源音区进行音区修正；判断语音的来源音区是否为预先设置的锁定音区；若来源音区为锁定音区，对语音进行语音识别，对来源音区进行音区修正，使来源音区内车机屏幕显示的语音控制指令始终处于说
话人的前方，符合用户的实际使用需求，并且可以根据用户需求预先设置进行语音控制的区域进行锁定，即根据用户需求预先设置允许对目标车辆进行语音控制的音区的锁定音区，仅对来源于锁定音区的语音进行语音识别，能够避免其他音区的声音造成的干扰，提高了用户体验。
111.图5是本公开实施例提供的一种多音区语音识别装置的结构示意图，该装置可以被理解为上述车辆的部分功能模块。如图5所示，该多音区语音识别装置500包括：
112.获取模块501，用于获取位于目标车辆的座舱内的用户发出的语音；
113.判断模块502，用于判断语音的来源音区是否为预先设置的锁定音区，锁定音区为允许对目标车辆进行语音控制的音区；
114.识别模块503，用于若来源音区为锁定音区，对语音进行语音识别。
115.本公开实施例，通过获取模块在获取位于目标车辆的座舱内的用户发出的语音后，判断模块判断语音的来源音区是否为预先设置的允许对目标车辆进行语音控制的音区的锁定音区，若来源音区为锁定音区，识别模块对语音进行语音识别，如果用户在某些情况下仅希望车辆座舱内某些位置的人可以与车载语音助手进行语音交互，可以根据用户需求预先设置进行语音控制的区域进行锁定，即根据用户需求预先设置允许对目标车辆进行语音控制的音区的锁定音区，仅对来源于锁定音区的语音进行语音识别，能够避免其他音区的声音造成的干扰，提高了用户体验。
116.可选的，上述多音区语音识别装置500包括：
117.输出模块，用于若来源音区不是所述锁定音区，输出提示信息，提示信息用于提示来源音区为禁止对目标车辆进行语音控制的音区。
118.可选的，上述多音区语音识别装置500包括：
119.第一确定模块，用于确定采集语音的目标麦克风；
120.第二确定模块，用于将目标麦克风所属的音区确定为来源音区。
121.可选的，上述多音区语音识别装置500包括：
122.第一接收模块，用于接收座椅数据，座椅数据包括座椅压力数据和座椅位姿数据中的至少一种；
123.第一修正模块，用于基于座椅数据，对来源音区进行音区修正。
124.可选的，上述多音区语音识别装置500包括：
125.第二接收模块，用于接收座舱内的图像数据；
126.第二修正模块，用于基于图像数据，对来源音区进行音区修正。
127.可选的，上述多音区语音识别装置500包括：
128.第一设置模块，用于响应于检测到对第一音区的锁定设置操作，将第一音区设置为锁定音区。
129.可选的，上述多音区语音识别装置500包括：
130.第二设置模块，用于响应于检测到对第二音区的锁定取消操作，将第二音区设置为非锁定音区，非锁定音区为禁止对目标车辆进行语音控制的音区。
131.本实施例提供的多音区语音识别装置能够执行上述任一实施例所述的方法，其执行方式和有益效果类似，在这里不再赘述。
132.图6示出了本公开实施例提供的一种车辆的结构示意图。
133.如图6所示，该车辆可以包括处理器601以及存储有计算机程序指令的存储器602。
134.具体地，上述处理器601可以包括中央处理器(cpu)，或者特定集成电路(applicationspecific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
135.存储器602可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器602可以包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(read-onlymemory，rom)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(programmablerom，prom)、可擦除prom(electrical programmable rom，eprom)、电可擦除prom(electrically erasable programmable rom，eeprom)、电可改写rom(electrically alterable rom，earom)或闪存，或者两个或及其以上这些的组合。
136.处理器601通过读取并执行存储器602中存储的计算机程序指令，以执行本公开实施例所提供的多音区语音识别方法的步骤。
137.在一个示例中，该车辆还可包括收发器603和总线604。其中，如图6所示，处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。
138.总线604包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(accelerated graphics port，agp)或其他图形总线、增强工业标准架构(extended industry standard architecture，eisa)总线、前端总线(front side bus，fsb)、超传输(hypertransport，ht)互连、工业标准架构(industrial standard architecture，isa)总线、无限带宽互连、低引脚数(low pin count，lpc)总线、存储器总线、微信道架构(micro channel architecture，mca)总线、外围控件互连(peripheral component interconnect，pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment，sata)总线、视频电子标准协会局部(video electronics standards association local bus，vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线404可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
139.进一步的，车辆还可以包括人机交互设备，如车机屏幕，其可以通过总线和处理器通信，人机交互设备可以将语音控制指令和对应的执行结果展示给用户，使语音交互可视化，提高用户的语音交互体验。
140.本公开实施例还提供了一种计算机可读存储介质，该存储介质可以存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现本公开实施例所提供的多音区语音识别方法。
141.上述的存储介质可以例如包括计算机程序指令的存储器602，上述指令可由语音控制设备的处理器601执行以完成本公开实施例所提供的多音区语音识别方法。可选的，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是rom、随机存取存储器(random access memory，ram)、光盘只读存储器(compact disc rom，
cd-rom)、磁带、软盘和光数据存储设备等。上述计算机程序可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
142.以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种语音识别方法、装置、电子设备及存储介质与流程

多音区语音识别方法、装置、车辆及存储介质与流程

相关文献

最热文献