车载虚拟人物的语音控制方法、装置及具有其的车辆与流程

2022-06-18 03:32:34 来源：中国专利 TAG：

1.本技术涉及车辆技术领域，特别涉及一种车载虚拟人物的语音控制方法、装置及具有其的车辆。

背景技术：

2.目前，车辆上的语音语义模块大多是用来集成语音语义的处理，根据用户的指令控制车辆执行相应的动作，例如，打开/关闭空调，升降窗户等。
3.然而，相关技术中还没有在车辆中根据用户的语音语义衍生相应的情绪动作的技术方案。
4.申请内容
5.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
6.为此，本发明的第一目的在于提出一种车载虚拟人物的语音控制方法，通过在本地无网络或大数据网络分析判断使用者目前的心理情绪状况，并结合音频振幅的深浅，作为情绪动作的依据，让中控大屏集成显示，从而丰富了车辆的使用乐趣，大大提升了用户的使用体验。
7.本发明的第二个目的在于提出一种车载虚拟人物的语音控制装置。
8.本发明的第三个目的在于提出一种车辆。
9.为达到上述目的，本技术第一方面实施例提供一种车载虚拟人物的语音控制方法，包括以下步骤：
10.采集用户的音频信息，并由所述音频信息识别情绪文字；
11.从所述情绪文字中分析用户语义，以根据所述用户语义解析所述用户的当前心理状况；以及
12.根据所述音频信息的振幅生成与所述当前心理状况对应的情绪动作，并控制车载人物表现所述当前心理状况和/或执行所述情绪动作。
13.另外，根据本发明上述实施例的车载虚拟人物的语音控制方法还可以具有以下附加的技术特征：
14.可选地，在所述采集用户的音频信息之前，还包括：
15.判断用户的语音指令是否为唤醒指令；
16.在检测到所述语音指令为所述唤醒之后，对所述用户进行拾音，以得到所述音频信息。
17.可选地，在所述采集用户的音频信息之前，还包括：
18.判断是否触发唤醒按键；
19.在检测到触发所述唤醒按键之后，对所述用户进行拾音，以得到所述音频信息。
20.可选地，所述从所述情绪文字中分析用户语义，还包括：
21.将所述情绪文字与所述本地数据库的用户语义匹配；
22.若匹配成功，则根据匹配结果确定所述用户语义，否则将所述情绪文字发送至服
务器，并接收所述服务器根据所述情绪文字得到的匹配结果。
23.可选地，所述根据所述音频信息的振幅生成与所述当前心理状况对应的情绪动作，包括：
24.对所述音频信息进行处理，筛选出符合预设要求的音频信息；
25.计算所述音频信息的平均振幅，根据所述平均振幅生成所述情绪动作。
26.为达到上述目的，本技术第二方面实施例提供一种车载虚拟人物的语音控制装置，包括：
27.采集模块，用于采集用户的音频信息，并由所述音频信息识别情绪文字；
28.解析模块，用于从所述情绪文字中分析用户语义，以根据所述用户语义解析所述用户的当前心理状况；以及
29.控制模块，用于根据所述音频信息的振幅生成与所述当前心理状况对应的情绪动作，并控制车载人物表现所述当前心理状况和/或执行所述情绪动作。
30.可选地，在所述采集用户的音频信息之前，所述采集模块，还包括：
31.第一判断单元，用于判断用户的语音指令是否为唤醒指令；
32.第二获取单元，用于在检测到所述语音指令为所述唤醒之后，对所述用户进行拾音，以得到所述音频信息。
33.可选地，在所述采集用户的音频信息之前，所述采集模块，还包括：
34.第一判断单元，用于判断是否触发唤醒按键；
35.第二获取单元，用于在检测到触发所述唤醒按键之后，对所述用户进行拾音，以得到所述音频信息。
36.可选地，所述解析模块，还包括：
37.匹配单元，用于将所述情绪文字与所述本地数据库的用户语义匹配；
38.接收单元，用于若匹配成功，则根据匹配结果确定所述用户语义，否则将所述情绪文字发送至服务器，并接收所述服务器根据所述情绪文字得到的匹配结果；
39.所述控制模块，包括：
40.处理单元，用于对所述音频信息进行处理，筛选出符合预设要求的音频信息；
41.计算单元，用于计算所述音频信息的平均振幅，根据所述平均振幅生成所述情绪动作。
42.为达到上述目的，本技术第三方面实施例提供一种车辆，其包括上述的车载虚拟人物的语音控制装置。
43.由此，可以采集用户的音频信息，并由音频信息识别情绪文字，并从情绪文字中分析用户语义，以根据用户语义解析用户的当前心理状况，并根据音频信息的振幅生成与当前心理状况对应的情绪动作，并控制车载人物表现当前心理状况和/或执行情绪动作。由此，通过在本地无网络或大数据网络分析判断使用者目前的心理情绪状况，并结合音频振幅的深浅，作为情绪动作的依据，透过语音语义模块的uart等接口，让中控大屏集成显示，从而丰富了车辆的使用乐趣，大大提升了用户的使用体验。
44.本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
45.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
46.图1为根据本技术实施例提供的一种车载虚拟人物的语音控制方法的流程图；
47.图2为根据本技术一个实施例的中控大屏集成界面的示例图；
48.图3为根据本技术一个实施例的中控大屏集成界面的示例图；
49.图4为根据本技术另一个实施例中控大屏集成界面的示例图；
50.图5为根据本技术又一个实施例的中控大屏集成界面的示例图；
51.图6为根据本技术一个实施例的车载虚拟人物的语音控制方法的流程图；
52.图7为根据本技术一个实施例的语音语义模块架构示意图；
53.图8为根据本技术实施例的车载虚拟人物的语音控制装置的方框示意图；
54.图9为根据本技术实施例的车辆的方框示意图。
具体实施方式
55.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本技术，而不能理解为对本技术的限制。
56.下面参照附图描述根据本发明实施例提出的车载虚拟人物的语音控制方法、装置及具有其的车辆，首先将参照附图描述根据本发明实施例提出的车载虚拟人物的语音控制方法。
57.具体而言，图1为本技术实施例所提供的一种车载虚拟人物的语音控制方法的流程示意图。
58.如图1所示，该车载虚拟人物的语音控制方法包括以下步骤：
59.在步骤s101中，采集用户的音频信息，并由音频信息识别情绪文字。
60.可以理解的是，本技术实施例可以通过电子设备采集用户的音频信息，以针对用户的音频信息进行分析和处理。其中，音频信息指电子设备对用户所说的话进行采集得到的电子信息，例如开启麦克风后，进行拾音，并将拾音的语音音频转成文字，例如，采集用户的音频信息为“我要生气了”，则由音频信息识别到的情绪文字可以为“生气”，再如采集用户的音频信息为“好无聊啊”，则由音频信息识别到的情绪文字可以为“无聊”。
61.需要说明的是，本实施例的执行主体可以是具有相关数据处理功能的电子设备，如麦克风、平板电脑(pad)、带无线收发功能的电脑、无人驾驶(self driving)中的电子设备等，在此不做具体限定。
62.另外，电子设备可以通过但不限于以下几种方式获取用户的音频数据：
63.(1)通过电子设备内的音频处理软件捕获用户的音频数据；
64.(2)利用电子设备内设置的麦克风等音频处理装置采集用户的音频数据。
65.以上两种方法均可在本步骤中择一使用，或者结合使用。
66.需要说明的是，为提高音频采集的准确性，本技术实施例可以在采集用户的音频信息之前，判断是否需要采集，下面结合具体实施例进行阐述。
67.作为一种可能实现的方式，在一些实施例中，在采集用户的音频信息之前，还包
括：判断用户的语音指令是否为唤醒指令；在检测到语音指令为唤醒之后，对用户进行拾音，以得到音频信息。
68.可以理解的是，当检测到用户的音频信息时，本技术实施例判断用户的语音指令是否为唤醒指令，例如，唤醒指令为“你好，小白(可根据个人喜好情况进行更换)”，当判断用户的语音指令为“你好，小白”时，则开始采集用户所说的话作为音频信息。
69.作为另一种可能实现的方式，在一些实施例中，在采集用户的音频信息之前，还包括：判断是否触发唤醒按键；在检测到触发唤醒按键之后，对用户进行拾音，以得到音频信息。
70.可以理解的是，唤醒按键可以为设置在车辆上的一个物理操作按钮，当用户短按或长按该唤醒按键时，可以触发拾音功能，从而采集用户的音频信息。
71.在步骤s102中，从情绪文字中分析用户语义，以根据用户语义解析用户的当前心理状况。
72.可选地，在一些实施例中，从情绪文字中分析用户语义，还包括：将情绪文字与本地数据库的用户语义匹配；若匹配成功，则根据匹配结果确定用户语义，否则将情绪文字发送至服务器，并接收服务器根据情绪文字得到的匹配结果。
73.其中，本地数据库可以为本领域技术人员预先设置好的数据库，也可以为经过大数据分析得到的数据库，在此不做具体限定。
74.可以理解的是，本技术实施例可以将在根据步骤s101中识别到的情绪文字与本地数据库中的文字进行匹配，例如，识别到的情绪文字为“生气”，本地数据库中的用户语义存在有“生气”，则说明情绪文字与本地数据库的用户语义匹配成功，如果，识别到的情绪文字为“无聊”，而本地数据库中的用户语义不存在有“无聊”，也没有相关的词语，则说明情绪文字与本地数据库的用户语义匹配失败，此时需要将将情绪文字发送至服务器，由服务器进行进一步解析，并接收服务器解析完毕后的匹配结果。
75.需要说明的是，无论服务器是否解析成功，均会返回解析结果。
76.在步骤s103中，根据音频信息的振幅生成与当前心理状况对应的情绪动作，并控制车载人物表现当前心理状况和/或执行情绪动作。
77.可选地，在一些实施例中，根据音频信息的振幅生成与当前心理状况对应的情绪动作，包括：对音频信息进行处理，筛选出符合预设要求的音频信息；计算音频信息的平均振幅，根据平均振幅生成情绪动作。
78.可以理解的是，本技术实施例可以根据采集到的用户的音频的平均振幅深浅(oodb)生成情绪动作。因此，本技术需要提前解析振幅的深浅，例如，a《＝xxdb为小，b》＝xxdb为中，c》＝xxdb为大，其中，处理过的音频平均在39分贝以下判断为小，如处理过的音频平均在40分贝以上判断为中，如处理过的音频平均在60分贝以上判断为大，则a《＝39db为小，b》＝40db为中，c》＝60db为大。需要说明的是，在进行平均振幅或分贝大小之前，本技术实施例可以先对音频做降躁以及回声消除；一段音频平均振幅则做情绪深浅判断如微笑、一般笑、狂笑。例如，假设处理过的音频平均在39分贝以下，则进行微笑；如果在处理过的音频平均在40分贝至60分贝，则进行一般笑；如果在处理过的音频平均在60分贝以上，则进行狂笑，该笑脸可以在车辆的中控大屏中进行显示。
79.举例而言，结合图2至图5，假设采集到的情绪文字为“脾气要爆发了”，当处理过的
音频平均在39分贝以下，则可以在车辆的中控大屏中进行显示如图2或图3所示的界面，此时，图像可以为生气状态，旁边有倒立的小手，或者闪电；当处理过的音频平均在40分贝以上，60分贝以下，则可以在车辆的中控大屏中进行显示如图4所示的界面，此时，图像可以变大一点，并且旁边手的也对应变大；当处理过的音频平均在60分贝以上，则可以在车辆的中控大屏中进行显示如图5所示的界面，图像更大，闪电也更大，从而进一步凸显脾气要爆发了，十分形象。
80.由此，本技术实施例通过语音语义模块，可以先行在本地语义做情绪判断，如果没结果再由云端语义做情绪判断，这种多样混合型来判断使用者主要情绪，可以有效模拟揣测驾驶心理状态外，再藉由一段音频的平均振幅(＝情绪动作)的深浅如微笑、大笑、狂笑等辅助，再衍生缩小、放大的小赞、普通赞、大赞等动作图示。
81.最后，语音语义模块先行处理好语义理解情绪动作两部分，再由uart(universal asynchronous receiver/transmitter，通用异步收发传输器)等方式传送给中控大屏，做模块预先处理动作，减少中控大屏再处理，从软件层面来看，亦可避免代码被开放抄袭，中控大屏也可以做代码减量动作。
82.为使得本领域技术人员进一步了解本技术实施例的车载虚拟人物的语音控制方法，下面结合具体实施例进行详细阐述。
83.如图6所示，该车载虚拟人物的语音控制方法，包括以下步骤：
84.s601，用户在车辆上唤醒麦克风。
85.其中，麦克风可以设置在车辆的中控大屏上，也可以设置在其他位置，在此不做具体限定。本技术实施例可以透过物理方控语音按键或语音唤醒词唤醒，从硬件层面(常驻)去开启软件语音识别(短暂)。
86.s602，采集用户的音频信息。
87.s603，根据音频信息识别情绪文字。
88.可以理解的是，在开启软件语音识别时，会把拾音的音频暂存起来，做后续的语音转文字。
89.s604，本地对文字进行语义理解。
90.s605，判断本地对文字进行语义理解是否有结果，如果是，执行步骤s607，否则，执行步骤s606。
91.可以理解的是，本技术实施例可以预先判断本地对文字的语义理解是否有与情绪相关的，以便于后续处理。
92.s606，通过云端服务器对文字进行语义理解，并跳转执行步骤s609。
93.可以理解的是，通过云端服务器对文字进行语义理解则表示本地对情绪解析无结果，需要交由云端对情绪进行解析。
94.s607，本地语义解析完与情绪相关。
95.可以理解的是，此处表示本地解析完情绪相关语义成功。
96.s608，计算一段音频平均振幅oodb(已扣除回声、噪音等)，并提前解析深浅当作情绪动作依据，音频平均振幅辅助做深浅(小、中、大)判定，a《＝xxdb为小、b》＝xxdb为中、c》＝xxdb为大。
97.需要说明的是，无论本地或云端有无语义结果，一段话的音频平均振幅会被计算
出来，来提供情绪动作的深浅。
98.s609，语音语义模块提前处理语义本地或云端情绪动作深浅，藉由uart等方式提供中控大屏集成。
99.也就是说，本技术实施例可以将语音语义模块处理完的本地或云端的语义，在加上判别后的情绪动作深浅，藉由uart针脚信号输入到中控大屏，如图7所示，该语音语义模块至少包含：5v针脚、接地gnd(ground，地线)针脚、uartrx接收针脚、uarttx传送针脚、语音芯片mcu(microcontroller unit，微控制单元)、存储空间flash、麦克风，具体针脚的作用与功能，与相关技术中的使用方法一致，为避免冗余，在此不做详细赘述。
100.s610，中控大屏情绪信息接收。
101.也就是说，本技术实施例可以从如uart等收集包含本地情绪语义理解信息或云端情绪语义理解信息，以及情绪动作深浅的信息，两者解析信息。
102.s611，中控大屏从uart取得语义主要情绪情绪动作深浅结果。
103.也就是说，中控大屏从uart，主要先透过解析完的语义来判断主要情绪，而再由情绪深浅判断推测如微笑、一般笑、狂笑。
104.s612，可依据uart情绪深浅结果更改动作图示，放大或缩小2d/3d动作图示。
105.也就是说，本技术实施例的中控大屏可以从uart得知情绪深浅来指定该有的动作，如小赞、中赞、大赞等等，并缩小或放大2d/3d的情绪动作图示。
106.s613，情绪衍生动作判定完成，改变ui(user interface design，界面设计)。
107.也就是说，情绪判定结束，将结果信息通知ui，进而去改变人物情绪表情动作。
108.综上所述，本技术是一个车载人物情绪动作之语音语义模块，主要透过语音识别后的文字，这段文字再从大数据平台进行语义理解，透过大数据分析完后，可以从语义理解剖析的语义(喜怒哀乐)猜测心理状况，映射到中控大屏显示本人人物头像情绪；其中，语音语义模块可以提前处理本地语义或云端语义音频振幅深浅信息，并提供如uart等接口，让中控大屏处理。
109.其次，再次由音频头到尾的平均振幅大小深浅，来分析反应的动作深浅大小，如此段音频振幅平均较小，则ui人物头像比倒赞，且动作缩小图示；音频平均振幅较大，则ui人物头像显示如紧紧握拳，且动作放大图示。
110.根据本技术实施例提出的车载虚拟人物的语音控制方法，可以采集用户的音频信息，并由音频信息识别情绪文字，并从情绪文字中分析用户语义，以根据用户语义解析用户的当前心理状况，并根据音频信息的振幅生成与当前心理状况对应的情绪动作，并控制车载人物表现当前心理状况和/或执行情绪动作。由此，通过在本地无网络或大数据网络分析判断使用者目前的心理情绪状况，并结合音频振幅的深浅，作为情绪动作的依据，透过语音语义模块的uart等接口，让中控大屏集成显示，从而丰富了车辆的使用乐趣，大大提升了用户的使用体验。
111.其次参照附图描述根据本技术实施例提出的车载虚拟人物的语音控制装置。
112.图8是本技术实施例的车载虚拟人物的语音控制装置的方框示意图。
113.如图8所示，该车载虚拟人物的语音控制装置10包括：采集模块100、解析模块200和控制模块300。
114.其中，采集模块100用于采集用户的音频信息，并由音频信息识别情绪文字；
115.解析模块200用于从情绪文字中分析用户语义，以根据用户语义解析用户的当前心理状况；以及
116.控制模块300用于根据音频信息的振幅生成与当前心理状况对应的情绪动作，并控制车载人物表现当前心理状况和/或执行情绪动作。
117.可选地，在一些实施例中，在采集用户的音频信息之前，采集模块100还包括：
118.第一判断单元，用于判断用户的语音指令是否为唤醒指令；
119.第二获取单元，用于在检测到语音指令为唤醒之后，对用户进行拾音，以得到音频信息。
120.可选地，在一些实施例中，在采集用户的音频信息之前，采集模块100还包括：
121.第一判断单元，用于判断是否触发唤醒按键；
122.第二获取单元，用于在检测到触发唤醒按键之后，对用户进行拾音，以得到音频信息。
123.可选地，在一些实施例中，解析模块200还包括：
124.匹配单元，用于将情绪文字与本地数据库的用户语义匹配；
125.接收单元，用于若匹配成功，则根据匹配结果确定用户语义，否则将情绪文字发送至服务器，并接收服务器根据情绪文字得到的匹配结果；
126.控制模块300包括：
127.处理单元，用于对音频信息进行处理，筛选出符合预设要求的音频信息；
128.计算单元，用于计算音频信息的平均振幅，根据平均振幅生成情绪动作。
129.需要说明的是，前述对车载虚拟人物的语音控制方法实施例的解释说明也适用于该实施例的车载虚拟人物的语音控制装置，此处不再赘述。
130.根据本技术实施例提出的车载虚拟人物的语音控制装置，可以采集用户的音频信息，并由音频信息识别情绪文字，并从情绪文字中分析用户语义，以根据用户语义解析用户的当前心理状况，并根据音频信息的振幅生成与当前心理状况对应的情绪动作，并控制车载人物表现当前心理状况和/或执行情绪动作。由此，通过在本地无网络或大数据网络分析判断使用者目前的心理情绪状况，并结合音频振幅的深浅，作为情绪动作的依据，透过语音语义模块的uart等接口，让中控大屏集成显示，从而丰富了车辆的使用乐趣，大大提升了用户的使用体验。
131.此外，如图9所示，本技术实施例还提出一种车辆20，该车辆20包括上述的车载虚拟人物的语音控制装置10。
132.根据本技术实施例提出的车辆，通过上述的车载虚拟人物的语音控制装置，可以在本地无网络或大数据网络分析判断使用者目前的心理情绪状况，并结合音频振幅的深浅，作为情绪动作的依据，透过语音语义模块的uart等接口，让中控大屏集成显示，从而丰富了车辆的使用乐趣，大大提升了用户的使用体验。
133.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
134.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“n个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
135.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
136.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或n个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
137.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
138.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
139.此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
140.上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限
制，本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于重构群延迟-常数Q变换语谱图的声纹欺诈检测方法

车载虚拟人物的语音控制方法、装置及具有其的车辆与流程

相关文献

最热文献