用于玩具车的语音控制方法和装置与流程

2021-06-04 14:47:00 来源：中国专利 TAG：玩具车语音装置用于控制

1.本发明属于玩具车技术领域，尤其涉及用于玩具车的语音控制方法和装置。

背景技术：

2.目前市面上还没有现成的通过语音来控制载人儿童玩具车的案例，大多数载人儿童玩具车，是通过遥控器来控制，遥控器通过蓝牙或者红外线向玩具车发送指令，从而控制玩具车。
3.通过遥控器来控制载人儿童玩具车的方式是，遥控器上有很多按钮，对应玩具车的各种功能，比如前进、后退、转向，每一个功能对应一个按钮，遥控器通过蓝牙或红外线，实现和玩具车的通信，按下某一个按钮之后，玩具车实现相应的动作。
4.通过遥控器的方式来控制，首先，在众多的按键中找某一个按键，会出现找不到的情况，用起来不太方便；其次，某些复杂的动作，需要频繁多次使用不同的按键来控制，对使用者来说，熟练使用也有点困难；
5.发明人在实现本申请的过程中发现这些缺陷产生的原因是，遥控器的每个按键的控制功能单一，不同的功能需要不同的按键来控制，这就导致遥控器上排列了很多个按键。

技术实现要素：

6.本发明实施例提供一种用于玩具车的语音控制方法和装置，用于至少解决上述技术问题之一。
7.第一方面，本发明实施例提供一种用于玩具车的语音控制方法，包括：响应于获取到的第一语音，判断所述第一语音是否包含唤醒词；若所述第一语音包含唤醒词，获取说话人位置信息；基于所述说话人位置信息，判断是否获取到第二语音；若获取到第二语音，判断所述第二语音是否是有效指令；若所述第二语音是有效指令，执行所述第二语音对应的有效指令。
8.第二方面，本发明实施例提供一种用于玩具车的语音控制装置，包括：第一判断程序模块，配置为响应于获取到的第一语音，判断所述第一语音是否包含唤醒词；获取程序模块，配置为若所述第一语音包含唤醒词，获取说话人位置信息；第二判断程序模块，配置为基于所述说话人位置信息，判断是否获取到第二语音；第三判断程序模块，配置为若获取到第二语音，判断所述第二语音是否是有效指令；执行程序模块，配置为若所述第二语音是有效指令，执行所述第二语音对应的有效指令。
9.第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于玩具车的语音控制方法的步骤。
10.第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当
所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的用于玩具车的语音控制方法的步骤。
11.本申请的方法和装置通过将语音模块安装在玩具车上，从而可以不需要遥控器直接通过语音指令来控制玩具车，进一步的，在快速上手的同时还节约了成本。
附图说明
12.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
13.图1为本发明一实施例提供的一种用于玩具车的语音控制方法的流程图；
14.图2为本发明一实施例提供的另一种用于玩具车的语音控制方法的流程图；
15.图3为本发明一实施例提供的又一种用于玩具车的语音控制方法的流程图；
16.图4为本发明一实施例提供的再一种用于玩具车的语音控制方法的流程图；
17.图5为本发明一实施例提供的用于玩具车的语音控制方法的一个具体语音控制玩具车流程图；
18.图6为本发明一实施例提供的一种用于玩具车的语音控制装置的框图；
19.图7是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
20.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
21.请参考图1，其示出了本申请的用于玩具车的语音控制方法一实施例的流程图。
22.如图1所示，在步骤101中，响应于获取到的第一语音，判断所述第一语音是否包含唤醒词；
23.在步骤102中，若所述第一语音包含唤醒词，获取说话人位置信息；
24.在步骤103中，基于所述说话人位置信息，判断是否获取到第二语音；
25.在步骤104中，若获取到第二语音，判断所述第二语音是否是有效指令；
26.在步骤105中，若所述第二语音是有效指令，执行所述第二语音对应的有效指令。
27.在本实施例中，对于步骤101，用于玩具车的语音控制装置响应于获取到的第一语音，判断第一语音是否包含唤醒词；之后，对于步骤102，若第一语音包含唤醒词，获取说话人位置信息，例如，玩具车启动之后，麦克风阵列进行360度的录音，并对获取到的语音进行固定多个方向的波束成形，能够在每个方向上进行唤醒监听，例如，获取到唤醒词之后，可以对获取到的唤醒词的声源进行定位，从而获取说话人位置信息；然后。对于步骤103，用于玩具车的语音控制装置基于说话人位置信息，判断是否获取到第二语音；之后。对于步骤104，若获取到第二语音，判断第二语音是否是有效指令，例如，获取到第二语音之后，对第二语音进行识别并判断第二语音识别结果是否为玩具车所支持的控制指令，例如，玩具车
的有效指令为前进、后退、左转、右转、后退和播放音乐等控制指令，若第二语音的识别结果不是玩具车所支持的有效指令，能够将判断结果反馈给用户并重新进行语音采集；最后，对于步骤105，若第二语音是有效指令，执行第二语音对应的有效指令。
28.本实施例的方法通过将语音模块安装在玩具车上，从而可以不需要遥控器直接通过语音指令来控制玩具车，进一步的，在快速上手的同时还节约了成本。
29.在上述实施例所述的方法中，所述玩具车上安装有环形麦克风阵列，用于360度拾音，所述获取说话人位置信息包括：
30.基于环形麦克风阵列采集音频，并对固定多个方向的音频进行波束成形，以对第一语音进行声源定位。
31.本实施例的方法通过环形麦克风阵列采集音频，从而可以对第一语音进行声源定位。
32.在上述实施例所述的方法中，所述玩具车上还安装有与环形麦克风阵列连接的语音处理模块，用于处理用户的语音指令，并发送给玩具车的控制模块进行处理，以实现语音控制玩具车。
33.本实施例的方法通过将用户的语音指令发送给玩具车的控制模块进行处理，从而可以实现语音控制玩具车。
34.进一步参考图2，其示出了本申请一实施例提供的另一种用于玩具车的语音控制方法的流程图。该流程图主要是对流程图1中在所述“若所述第一语音包含唤醒词”之后的流程进一步限定的步骤的流程图。
35.如图2所示，在步骤201中，将所述第一语音的声纹信息与预设的声纹信息进行对比，判断所述第一语音的声纹信息是否与预设的声纹信息一致；
36.在步骤202中，若一致，对所述第一语音进行识别处理。
37.在本实施例中，对于步骤201，用于玩具车的语音控制装置将所述第一语音的声纹信息与预设的声纹信息进行对比，判断第一语音的声纹信息是否与预设的声纹信息一致，例如，对玩具车的语音控制熟练度不是很高的儿童，尤其对于载人的儿童玩具车是具有一定的危险性；之后，对于步骤202，若第一语音的声纹信息与预设的声纹信息一致，对第一语音进行识别处理，进一步的，若第一语音的声纹信息与预设的声纹信息不一致，表示此说话人没有权限进行控制，重新第一语音采集并将判断结果反馈给玩具车的车主。
38.本实施例的方法通过将获取到的第一语音的声纹信息与预设的声纹信息进行对比，从而可以增加玩具车的安全性。
39.进一步参考图3，其示出了本申请一实施例提供的又一种用于玩具车的语音控制方法的流程图。该流程图主要是对流程图2中的附加流程进一步限定的步骤的流程图。
40.如图3所示，在步骤301中，响应于获取到多个包含唤醒词的用户语音，判断所述用户语音的声纹信息是否与预设的声纹信息一致；
41.在步骤302中，若一致，基于所述用户语音中的声纹信息，获取在所述多个用户语音中权限分级最高的用户语音进行识别处理。
42.在本实施例中，对于步骤301，用于玩具车的语音控制装置响应于获取到多个包含唤醒词的用户语音，判断用户语音的声纹信息是否与预设的声纹信息一致；之后，对于步骤302，若多个用户语音的声纹信息与预设的声纹信息一致，获取声纹信息权限分级最高的用
户语音进行识别处理，若多个用户语音中只有一个用户语音的声纹信息与预设的声纹信息一致，则只识别这一用户语音，若多个用户语音的声纹信息全部与预设的声纹信息不一致，重新获取第一语音。
43.本实施例的方法通过获取在所述多个用户语音中权限分级最高的用户语音进行识别处理，从而可以实现语音识别更加的准确。
44.进一步参考图4，其示出了本申请一实施例提供的又一种用于玩具车的语音控制方法的流程图。该流程图主要是对流程图1中“若所述第二语音是有效指令，执行所述第二语音对应的有效指令”的流程进一步限定的步骤的流程图。
45.如图4所示，在步骤401中，若所述第二语音是有效指令，获取所述第一语音的声纹信息和所述第二语音的声纹信息，并将所述第一语音的声纹信息与所述第二语音的声纹信息进行比对；
46.在步骤402中，若所述第一语音的声纹信息与所述第二语音的声纹信息一致，执行所述第二语音对应的有效指令；
47.在步骤403中，若所述第一语音的声纹信息与所述第二语音的声纹信息不一致，不执行所述第二语音对应的有效指令。
48.在本实施例中，对于步骤401，若第二语音是有效指令，获取第一语音的声纹信息和第二语音的声纹信息，并将第一语音的声纹信息与第二语音的声纹信息进行比对；之后，对于步骤402，若第一语音的声纹信息与第二语音的声纹信息一致，执行第二语音对应的有效指令；最后，对于步骤403，若第一语音的声纹信息与第二语音的声纹信息不一致，不执行第二语音对应的有效指令；例如，获取到的第二语音是儿童的，获取到的第一语音是监护人的，在儿童对事物不具备清楚的认知时，或不能熟练的操控玩具车时，在经由监护人预设声纹信息后，在判断第一语音的声纹信息与预设的声纹信息一致后，进一步的判断第一语音的声纹信息与第二语音的声纹信息是否一致，在一致的情况下表示获取的第一语音与第二语音是同一个人发出的，才可以执行第二语音对应的有效指令。
49.本实施例的方法通过判断第一语音的声纹信息与第二语音的声纹信息是否一致，从而可以确保获取到的操控玩具车的指令更加准确与安全。
50.在上述实施例所述的方法中，在所述判断所述第一语音是否包含唤醒词之后，所述方法还包括：
51.若第一语音中不包含唤醒词，继续持续采集用户语音；和/或
52.在所述判断是否获取到第二语音之后，所述方法还包括：
53.若没有获取到所述第二语音，重新获取第一语音；和/或
54.在所述判断所述第二语音是否是有效指令之后，所述方法还包括：
55.若第二语音不是有效指令，重新获取第一语音；和/或
56.在所述执行所述第二语音对应的有效指令之后，所述方法还包括：
57.重新获取第一语音。
58.需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。
59.下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。
60.发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：
61.遥控器的每个按键的控制功能单一，不同的功能需要不同的按键来控制，这就导致遥控器上排列了很多个按键
62.发明人还发现，语音控制载人玩具车还是一个比较新的技术，暂时还没有已实现的完整方案，而遥控器的控制方案，已经成熟使用多年，大部分产品在控制端的改进，都是针对局部功能，通过合并功能按键的方式，来稍微减少一些按键的数量，比如将摇摆和音乐播放，做成一个按键，实现两个功能。
63.本申请的方案主要从以下几个方面入手进行设计和优化：
64.通过在载人玩具车上安装环形麦克风阵列和语音处理模块，可以完全替代遥控器，从而实现语音对玩具车的控制；环形麦克风可以360度拾音，使用者可以在任意方向对玩具车，说出想要的指令，语音处理模块，识别到合法指令之后，形成控制指令，发送到控制模块，让玩具车执行对应的动作；复杂的动作，也只要一条语音指令，就可以控制。
65.请参考图5，其示出了本发明一实施例提供的用于玩具车的语音控制方法的一个具体语音控制玩具车流程图；
66.如图5所示，玩具车启动之后，麦克风阵列进入拾音过程，进行360度的录音，对录到的音频进行固定几个方向的波束成形，在每个方向上进行唤醒监听，如果触发了唤醒的动作，再进一步进行声源定位，确定说话人的方向，以保证后续识别的准确率；接下来，判断使用者是否说话，如果说话，则进行识别，识别到结果之后，需要对识别的结果进行判断，判断说话内容是否为，玩具车支持的合法指令，如果是合法指令，(比如，前进、后退、左转等)，则发送控制指令到控制模块，让玩具车完成对应的动作；动作响应完成之后，继续进入一开始的拾音过程，接收使用者的下一条指令；在整个监听、执行的过程中，任一过程出现错误，则重新回到拾音过程，重新监听指令。
67.发明人在实现本发明的过程中发现达到更深层次的效果：
68.本方案能够让使用者，快速上手，不需要学习，直接通过说出指令的方式，来控制载人儿童玩具车完成前进、后退、转向、播放音乐等动作。而且，不再需要遥控器，可以节约成本。
69.发明人在实现本发明的过程中形成的beta版：
70.我们第一个方案是在遥控器上增加语音模块，替换掉遥控器上的按键，使用者只要对着遥控器，说出合法的指令，遥控器上的语音模块，会进行识别，识别到结果之后，通过遥控器上的蓝牙或者红外接口，发送控制指令给玩具车，玩具车执行对应的动作。该方案的缺点是语音模块比较耗电，遥控器一般都是电池供电，这样电池的电量会很快耗尽，另外将语音模块安装在玩具车上，就不需要遥控器了，可以节约成本。
71.请参考图6，其示出了本发明一实施例提供的用于玩具车的语音控制装置的框图。
72.如图6所示，用于玩具车的语音控制装置600，包括第一判断程序模块610、获取程序模块620、第二判断程序模块630、第三判断程序模块640和执行程序模块650。
73.其中，第一判断程序模块610，配置为响应于获取到的第一语音，判断所述第一语音是否包含唤醒词；获取程序模块620，配置为若所述第一语音包含唤醒词，获取说话人位置信息；第二判断程序模块630，配置为基于所述说话人位置信息，判断是否获取到第二语
音；第三判断程序模块640，配置为若获取到第二语音，判断所述第二语音是否是有效指令；执行程序模块650，配置为若所述第二语音是有效指令，执行所述第二语音对应的有效指令。
74.应当理解，图6中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块，在此不再赘述。
75.值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如第一判断程序模块可以描述为响应于获取到的第一语音，判断所述第一语音是否包含唤醒词的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如第一判断程序模块也可以用处理器实现，在此不再赘述。
76.在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于玩具车的语音控制方法；
77.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
78.响应于获取到的第一语音，判断所述第一语音是否包含唤醒词；
79.若所述第一语音包含唤醒词，获取说话人位置信息；
80.基于所述说话人位置信息，判断是否获取到第二语音；
81.若获取到第二语音，判断所述第二语音是否是有效指令；
82.若所述第二语音是有效指令，执行所述第二语音对应的有效指令。
83.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于玩具车的语音控制装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至用于玩具车的语音控制装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
84.本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项用于玩具车的语音控制方法。
85.图7是本发明实施例提供的电子设备的结构示意图，如图7所示，该设备包括：一个或多个处理器710以及存储器720，图7中以一个处理器710为例。用于玩具车的语音控制方法的设备还可以包括：输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接，图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于玩具车的语音控制方法。输入装置730可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等
显示设备。
86.上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
87.作为一种实施方式，上述电子设备应用于用于玩具车的语音控制装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：
88.响应于获取到的第一语音，判断所述第一语音是否包含唤醒词；
89.若所述第一语音包含唤醒词，获取说话人位置信息；
90.基于所述说话人位置信息，判断是否获取到第二语音；
91.若获取到第二语音，判断所述第二语音是否是有效指令；
92.若所述第二语音是有效指令，执行所述第二语音对应的有效指令。
93.本申请实施例的电子设备以多种形式存在，包括但不限于：
94.(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。
95.(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。
96.(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
97.(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
98.(5)其他具有数据交互功能的电子装置。
99.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
100.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
101.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和
范围。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种便于固定乐器的乐器放置架的制作方法

用于玩具车的语音控制方法和装置与流程

相关文章

最热文献