一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音转化文本的显示方法、装置、车辆和存储介质与流程

2022-03-19 16:00:54 来源:中国专利 TAG:


1.本发明实施例涉及语音转换技术,尤其涉及一种语音转化文本的显示方法、装置、车辆和存储介质。


背景技术:

2.车辆在道路行驶时,车和车、车和非机动车、车和行人之间经常需要进行快速、简短的信息交流,比如让对方先行通过、告知后车保持车距、前方故障等。
3.由于物理隔离,车内对车外对象的沟通通常停留在手势交流,交流的信息复杂度有限,且无法和后方车辆进行交流。如何将车内语音信息以视觉展示方式对车外进行展示成为亟待解决的问题。


技术实现要素:

4.本发明实施例提供一种语音转化文本的显示方法、装置、车辆和存储介质,可以实现准确快速的将车内语音信息转化为显示在车内对外的视觉展示的方式。
5.第一方面,本发明实施例提供了一种语音转化文本的显示方法,至少一个显示屏设置于车辆外部,用于对外显示文本,所述方法包括:
6.获取语音指令中除唤醒词之外的音频段;
7.将所述音频段转化为文本,按照句子成分将所述文本划分为至少一个词组;
8.根据所述词组中每个文字对应的音频信息与所述文本中所有文字的音频信息的比例关系,调整同一词组中每个文字的显示属性,其中,所述音频信息用于反映所述文字对应的音频段的声音属性;
9.根据调整后的所述显示属性控制所述显示屏显示所述文本。
10.第二方面,本发明实施例还提供了一种语音转化文本的显示装置,包括:
11.音频段获取模块,用于获取语音指令中除唤醒词之外的音频段;
12.词组划分模块,用于将所述音频段转化为文本,按照句子成分将所述文本划分为至少一个词组;
13.属性调整模块,用于根据所述词组中每个文字对应的音频信息与所述文本中所有文字的音频信息的比例关系,调整同一词组中每个文字的显示属性,其中,所述音频信息用于反映所述文字对应的音频段的声音属性;
14.文本显示模块,用于根据调整后的所述显示属性控制所述显示屏显示所述文本。
15.第三方面,本发明实施例还提供了一种车辆,所述电子设备包括:
16.一个或多个处理器;
17.存储装置,用于存储一个或多个程序;
18.显示屏,用于显示文本;
19.收音装置,用于监听和获取音频;
20.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理
器实现如本发明任意实施例提供的语音转化文本的显示方法。
21.第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例提供的语音转化文本的显示方法。
22.本发明实施例通过获取语音指令中除唤醒词之外的音频段,按照句子成分将音频段转化的文本划分为至少一个词组,根据词组中每个文字对应的音频信息与文本中所有文字的音频信息的比例关系,调整词组中每个文字的显示属性,根据同一词组包含的文字的显示属性调整对应词组内每个文字的显示属性,根据调整后的显示属性控制显示屏显示文本,本发明实施例根据文字的音频信息调整文字的显示属性,根据同一词组内文字的显示属性调整对应词组的显示属性,并将文本通过显示屏以视觉化的方式对车外显示,解决了现有技术中车内对车外对象的沟通通常停留在手势交流的问题,实现了根据语音内容自动变化文本的显示属性,并通过视觉方式对外呈现语音内容。
附图说明
23.图1是本发明实施例一提供的一种语音转化文本的显示方法的流程图;
24.图2是本发明实施例二提供的另一种语音转化文本的显示方法的流程图;
25.图3是本发明实施例二提供的一种语音转化文本的显示方法的工作流程图;
26.图4是本发明实施例三提供的另一种语音转化文本的显示方法的流程图;
27.图5是本发明实施例四提供的一种语音转化文本的显示装置的结构示意图;
28.图6为本发明实施例五提供的一种车辆的结构示意图。
具体实施方式
29.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
30.实施例一
31.图1是本发明实施例一提供的一种语音转化文本的显示方法的流程图,本实施例可适用于车载对外显示屏显示文本的情况,该方法可以由语音转化文本的显示装置来执行,该装置可以采用软件和/或硬件的方式实现。该装置可配置于车辆中。如图1所示,该方法包括:
32.步骤s101、获取语音指令中除唤醒词之外的音频段。
33.其中,语音指令是包括唤醒词和意图在显示屏上显示的语音内容的音频信息。唤醒词是触发语音转化文本的显示装置工作的音频信息。例如,“xx请告诉后车关掉远光灯”这个语音指令中,“xx”就是语音指令中的唤醒词,“请告诉后车关掉远光灯”就是语音指令中除唤醒词之外的音频段。
34.具体地,当用户说出指令时,用户可以连同需要显示的文本和唤醒词一起说出,终端实时监听唤醒词,当终端监听到唤醒词时,终端将唤醒词部分切除,将语音指令中除唤醒词之外的音频段发送给云端,云端获取用户语音指令中除唤醒词之外的音频段。
35.可选地,在获取语音指令中除唤醒词之外的音频段之前,还包括:对收音装置采集
的音频进行唤醒词实时监听识别。具体地,当本发明实施例提供的语音转化文本的显示方法在终端中执行时,终端实时监听识别唤醒词,当监听到唤醒词时,终端获取语音指令中除唤醒词之外的音频段。
36.需要说明的是,本发明实施例的终端可以是车辆中的本地设备,云端可以是执行软件算法的服务器。本发明实施例提供的语音转化文本的显示方法可以在终端中执行,也可以在云端执行,本发明对此不作具体限定。
37.步骤s102、将音频段转化为文本,按照句子成分将文本划分为至少一个词组。
38.具体地,处理器通过语音识别将音频段转化为文本,对该文本进行句式和实体的切分,将该文本划分为至少一个词组。由于在句子中,词组与词组之间有一定的组合关系,按照不同的关系,可以将文本分为不同的组成成分,例如,可以将文本按照主语、谓语、宾语、动语、定语、状语、补语和中心语,将文本划分为一个或多个词组。
39.示例性地,处理器通过自动语音识别技术(automatic speech recognition,asr)将用户的语音指令“把远光灯关了”对应的音频段转化为文本,按照句子成分将这段文本以“把/远光灯/关了”形式进行划分,划分为三个词组,分别为“把”、“远光灯”和“关了”。
40.需要说明的是,至少一个显示屏设置于车辆外部,用于对外显示文本。例如,通过显示屏向本车的前车和/或后车显示文本。显示屏可以设置在车辆的前部和/或后部,也可以设置在车辆的顶部,显示屏可以是led显示屏或其他可以显示文本的显示屏,本发明对显示屏的材料和位置均不作具体限定。
41.步骤s103、根据词组中每个文字对应的音频信息与文本中所有文字的音频信息的比例关系,调整同一词组中每个文字的显示属性。
42.其中,音频信息用于反映文字对应的音频段的声音属性,可以包括音量和/或停顿等。例如,若音频信息是音量,可以根据音频波形图中波形幅度确定每个文字对应的音量,或可以根据频谱中对每个文字的音量进行加权平均,得到每个文字统计后的音量。若音频信息是停顿,即每两个相邻文字对应音频段的间隔时间,可以通过统计音量是0时频谱的停留时间。根据音频信息可以反映文字对应的音频段的音量、停顿和/或其他声音属性。
43.显示属性是每个文字在显示屏上显示的属性,用于反映每个文字在显示屏上的显示状态,可以包括字号、字间距离、字间切换时间、突出显示、颜色、字体和/或发光状态等。
44.可选地,根据词组中每个文字对应的音频信息与文本中所有文字的音频信息的比例关系,确定词组中每个文字的显示属性,根据同一词组包含的文字的显示属性调整对应词组内每个文字的显示属性。
45.示例性地,将文本划分为“把/讨厌的/远光灯/给关了”,根据词组“远光灯”中文字“远”对应的音频信息与文本中所有文字的音频信息的比例关系,确定文字“远”的显示属性,根据文字“光”对应的音频信息与文本中所有文字的音频信息的比例关系,确定文字“光”的显示属性,根据文字“灯”对应的音频信息与文本中所有文字的音频信息的比例关系,确定文字“灯”的显示属性。根据“远”、“光”和“灯”的显示属性,调整词组“远光灯”的显示属性。
46.可选地,根据词组中所有文字对应的音频信息的平均值与文本中所有文字的音频信息的平均值之间的比例关系,确定词组中每个文字的显示属性。
47.示例性地,将文本划分为“把/讨厌的/远光灯/给关了”,将词组“远光灯”中所有文
字对应的音频信息进行平均值计算,将文本中所有文字的音频信息进行平均值计算,根据词组“远光灯”对应的音频信息的平均值与文本对应的音频信息的平均值之间的比例关系,确定词组“远光灯”的显示属性。
48.步骤s104、根据调整后的显示属性控制显示屏显示文本。
49.具体地,处理器根据调整后的文本中每个文字的显示属性控制显示屏显示该文本。例如,调整前文本“把远光灯关了”的显示属性是默认字号10,“把”和“关了”调整后的文本显示属性仍是默认字号10,“远光灯”扩大为字号12,则处理器控制显示屏在显示文本“把远光灯关了”时,将“远光灯”的字号显示为12。
50.本发明实施例通过获取语音指令中除唤醒词之外的音频段,按照句子成分将音频段转化的文本划分为至少一个词组,根据词组中每个文字对应的音频信息与文本中所有文字的音频信息的比例关系,调整词组中每个文字的显示属性,根据同一词组包含的文字的显示属性调整对应词组内每个文字的显示属性,根据调整后的显示属性控制显示屏显示文本,本发明实施例根据文字的音频信息调整文字的显示属性,根据同一词组内文字的显示属性调整对应词组的显示属性,并将文本通过显示屏以视觉化的方式对车外显示,解决了现有技术中车内对车外对象的沟通通常停留在手势交流的问题,实现了根据语音内容自动变化文本的显示属性,并通过视觉方式对外呈现语音内容。
51.实施例二
52.图2是本发明实施例二提供的另一种语音转化文本的显示方法的流程图,本实施例在上述实施例的基础上进行优化,如图2所示,该方法包括:
53.步骤s201、获取语音指令中除唤醒词之外的音频段。
54.图3是本发明实施例二提供的一种语音转化文本的显示方法的工作流程图。如图3所示,收音装置采集实时音频流,终端对收音装置采集的音频进行唤醒词实时监听识别,当监听到包括唤醒词的语音指令时,终端接收切分指令,将唤醒词对应的音频段切掉,将语言指令中除唤醒词之外的音频段发送给asr进行处理。
55.示例性地,用户说出的语音指令是“xx告诉后车把讨厌的远光灯给关了”,这里xx是唤醒词,当终端监听到xx时,终端将xx对应的音频段切掉,然后将除xx之外的“告诉后车把讨厌的远光灯给关了”对应的音频段发送给云端,云端获取“告诉后车把讨厌的远光灯给关了”对应的音频段。
56.步骤s202、将音频段转化为文本,根据句式结构从文本中获取意图显示文本和显示屏意图,将意图显示文本按照句子成分划分为至少一个词组。
57.其中,意图显示文本用于确定用户意图在显示屏上显示的文本,显示屏意图用于确定意图显示文本对应的显示屏。例如,语音指令中除唤醒词之外的音频段是“告诉后车把讨厌的远光灯给关了”,则“把讨厌的远光灯给关了”即为意图显示文本,以及“后车”用于指示意图显示文本的显示屏是车辆后端的显示屏。
58.具体地,处理器将用户语音指令中除唤醒词之外的音频段转化为文本,通过对句式结构的切分,从文本中获取用户意图在显示屏上显示的文本和意图将该文本对应的显示屏,然后将意图显示的文本按照句子成分划分为至少一个词组。例如,如图3所示,自然语言理解(natural language understanding,nlu)技术可以实现对句式结构的切分,并从文本中分析用户的意图显示文本和显示屏意图。
59.示例性地,处理器通过asr将语音指令中“告诉后车把讨厌的远光灯给关了”对应的音频段转化为文本,对该文本进一步进行nlu处理,通过对句式结构的切分,从文本中将用户的意图显示文本“把讨厌的远光灯给关了”和显示屏意图“后车”切分出来,也就是说,用户意图告诉“后车”“把讨厌的远光灯给关了”,而告诉“后车”的方法可以通过将“把讨厌的远光灯给关了”在车辆的后显示屏或车顶的显示屏后侧进行显示,达到将用户的语音信息通过视觉化的方式展现出来。在将意图显示文本“把讨厌的远光灯给关了”和显示屏意图“后车”切分之后,将意图显示文本“把讨厌的远光灯给关了”按照句式成分划分为“把/讨厌的/远光灯/给关了”,得到多个词组“把”、“讨厌的”、“远光灯”和“给关了”。
60.步骤s203、计算词组中每个文字对应的音量与文本的平均音量之间的比值,得到文字的第一放大倍数。
61.具体地,当音频信息是音量时,处理器计算词组中每个文字对应的音量与文本的平均音量之间的比值,得到词组中每个文字对应的第一放大倍数。其中,文本的平均音量是文本中所有文字的音量之和与文字的数量的比值。
62.示例性地,词组“远光灯”中“远”对应的音量相对整句话“把讨厌的远光灯给关了”的平均音量之间的比值是1.5,则“远”的第一放大倍数是1.5。“光”对应的音量相对整句话“把讨厌的远光灯给关了”的平均音量之间的比值是1.3,则“光”的第一放大倍数是1.3。“灯”对应的音量相对整句话“把讨厌的远光灯给关了”的平均音量之间的比值是1.2,则“灯”的第一放大倍数是1.2。
63.步骤s204、根据第一放大倍数调整文字的字号。
64.其中,文字的字号不超过第一阈值。第一阈值可以预先设置于处理器中,可以根据显示屏的尺寸进行设置,例如可以设置为20或其他字号大小。
65.具体地,处理器根据文字的默认字号和第一放大倍数,确定文字的字号。其中,默认字号可以是预先存储在处理器中固定的数值或由用户自定义。调整后文字的字号可以是文字的默认字号与第一放大倍数的乘积。可见,用户说话的音量越大,调整文字的字号越大,实现根据用户的音量自动变化文字的显示大小。
66.示例性地,“远”的默认字号是10,“远”对应的第一放大倍数是1.5,则调整后的“远”的字号是15。“光”的默认字号是10,“光”对应的第一放大倍数是1.3,则调整后的“光”的字号是13。“灯”的默认字号是10,“灯”对应的第一放大倍数是1.2,则调整后的“灯”的字号是12。
67.步骤s205、根据文本中各词组中每个文字的字号,计算同一词组中所有文字的字号的平均值,根据平均值调整对应词组中每个文字的字号。
68.如图3所示,根据文本中各词组中每个文字的字号,计算同一词组中所有文字的字号的平均值,该平均值用于反映该词组中所有文字对应音频段的平均音量,该平均音量可以实现该词组中所有文字的音量统一,可以理解为通过该统一的音量对词组中每个文字的字号进行统一调整。
69.示例性地,根据nlu对文本中各词组的分类,“远光灯”为一组词,调整后的“远”的字号是15,“光”的字号是13,“灯”的字号是12,计算这三个字的字号的平均值为13.3,调整“远光灯”中每个文字的字号统一为13。
70.可选地,可以通过对平均值四舍五入的方法调整对应词组中每个文字的字号,或
可以通过对平均值执行其他预设算法调整对应词组中每个文字的字号。例如,当“远光灯”三个文字的字号的平均值为13.3时,可以通过四舍五入的方法确定统一字号为13,也可以根据取整的方法选取13或14作为统一字号。本发明对统一字号的方式不作具体限定。
71.可选地,计算词组中所有文字对应的平均音量,得到该词组对应的第一平均音量,计算文本中所有文字对应的平均音量,得到文本对应的第二平均音量,计算第一平均音量与第二平均音量的比值,将比值作为第三放大倍数,根据第三放大倍数,调整该词组中所有文字的字号。
72.示例性地,计算词组“远光灯”中三个文字对应的平均音量,得到“远光灯”对应的第一平均音量,计算文本“把讨厌的远光灯给关了”中所有文字对应的平均音量,得到第二平均音量,计算第一平均音量与第二平均音量的比值,得到“远光灯”三个文字的第三放大倍数,例如可以为1.3,根据默认字号10,调整“远光灯”三个文字的字号为13。
73.需要说明的是,本发明不限于这里所述的利用音量调整文字的字号,还可以利用音量调整文字的其他显示属性,例如颜色、字体深浅或字间距离等,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代的均不脱离本发明的保护范围。
74.步骤s206、获取每两个相邻文字对应音频段的间隔时间。
75.其中,相邻文字是用户说出时间相邻的语音信息。例如,在用户说出“远光灯”时,“远”和“光”是两个相邻文字,“光”和“灯”是两个相邻文字。
76.具体地,处理器获取每两个相邻文字对应的音频段之间的间隔时间。其中,间隔时间可以是用户在说出每两个相邻文字时中间的停顿时间。
77.示例性地,用户在说出词组“远光灯”时存在停顿,获取“远”与“光”对应音频段的间隔时间,以及“光”与“灯”对应音频段的间隔时间。
78.步骤s207、计算文本中各词组中所有相邻文字对应音频段的间隔时间的平均值,得到词组对应的第一间隔时间。
79.示例性地,计算“远光灯”中“远”与“光”对应音频段的间隔时间,以及“光”与“灯”对应音频段的间隔时间,将两个间隔时间求和,并求平均值,将平均值作为词组“远光灯”的第一时间间隔。
80.步骤s208、计算文本中所有相邻文字对应音频段的间隔时间的平均值,得到文本对应的第二间隔时间。
81.示例性地,计算“把讨厌的远光灯给关了”中所有相邻文字对应音频段的间隔时间的平均值,将平均值作为第二间隔时间。
82.步骤s209、计算第一间隔时间与第二间隔时间的比值,将比值作为第二放大倍数。
83.示例性地,“远光灯”三个文字的第一间隔时间与整句话“把讨厌的远光灯给关了”的第二间隔时间的比值是1.15,将比值1.15作为第二放大倍数。
84.步骤s210、根据第二放大倍数,调整词组中所有相邻文字的字间距离。
85.其中,字间距离不超过第二阈值。第二阈值可以预先设置于处理器中,可以根据显示屏的尺寸进行设置,例如可以设置为默认字间距离的三倍或其他字间距离。默认字间距离可以以厘米或显示屏单元格为单位预先设置于处理器中、由用户自定义或根据文本中所有相邻文字对应音频段的间隔时间的平均值确定。例如,用户在说出“把讨厌的远光灯给关了”时,将所有相邻文字对应音频段的间隔时间的平均值对应一个默认字间距离。
86.具体地,处理器根据默认相邻文字的字间距离和第二放大倍数,调整词组中所有相邻文字的字间距离。调整后相邻文字的字间距离可以是文字的默认相邻文字的字间距离与第二放大倍数的乘积。可见,用户说话的停顿时间越长,调整文字的字间距离越大,实现根据用户的停顿时间自动变化文字的字间距离。
87.示例性地,“远光灯”三个字的第二放大倍数是1.15,说明用户在说出“远光灯”三个文字时说话间隔比整句话中所有相邻文字对应音频段的间隔时间的平均值长15%,则调整该词组内每个文字的字间距离比其他文字的字间距离大15%。
88.步骤s211、根据显示屏意图确定意图显示文本对应的显示屏。
89.具体地,至少一个显示屏设置于车辆外部,用于对外显示文本。显示屏可以设置在车辆的前部和后部,也可以设置在车辆的顶部。当显示屏设置在车辆的前部和后部时,处理器根据显示屏意图可以确定用户意图将意图显示文本显示在车辆的前显示屏还是后显示屏上。当显示屏设置在车辆的顶部时,显示屏可以是双面显示屏,处理器根据显示屏意图可以确定用户意图将意图显示文本显示在双面显示屏的前屏面还是后屏面上。需要说明的是,本发明对显示屏的位置和型号不作具体限定,只要满足能够显示文本的显示屏均在本发明的保护范围之内。
90.示例性地,处理器对文本“告诉后车把远光灯给关了”进行nlu处理,从文本中将用户的意图显示文本“把远光灯给关了”和显示屏意图“后车”切分出来,根据显示屏意图“后车”确定用户意图将文本“把远光灯给关了”显示在车辆的后显示屏或车辆顶部的双面显示屏的后部,用于告诉“后车”“把远光灯给关了”。
91.步骤s212、根据调整后的显示属性控制显示屏意图对应的显示屏显示文本。
92.具体地,如图3所示,处理器根据调整后的各词组的统一字号和相邻文字的间隔,控制显示屏意图对应的显示屏显示文本,其中,相邻文字的间隔可以是字间距离。
93.示例性地,“把”和“关了”调整后的显示属性是字号10,“远光灯”扩大为字号12,则处理器控制车辆的后显示屏在显示文本“把远光灯关了”时,将“把”和“关了”的字号显示为10,将“远光灯”的字号显示为12。调整后的“远光灯”三个文字的字间距离比其他文字的字间距离大15%,则在显示屏上将“远光灯”三个文字的字间距离显示为比其他文字的字间距离大15%。
94.可选地,当文本的字数大于预设字数时,根据调整后的显示属性控制显示屏以滚动方式显示文本。
95.其中,滚动方式可以是在显示屏上文本从右至左滚动显示,可以是显示屏的预设显示方式,或由用户自定义。例如,当文本的字数超过5个字时,根据调整后的显示属性控制显示屏以滚动方式显示文本。预设字数可以是根据显示屏大小预设的固定数值,或由用户自定义确定。
96.可选地,根据调整后的显示属性控制显示屏反复以滚动方式显示文本。例如,在显示屏上呈现的文本表现为反复滚动显示“把远光灯关了”。
97.需要说明的是步骤s203至步骤s205和步骤s206至步骤s210可以分别单独执行,也可以结合执行。步骤s203至步骤s212的顺序并不限于本实施例列举的顺序,这些步骤还可以以其他的顺序执行,例如,步骤s203至步骤s205与步骤s206至步骤s210可以并行执行,并在执行完步骤s205和步骤s210之后,继续执行步骤s211。或者,先执行步骤s206至步骤
s210,再执行步骤s203至步骤s205,然后再继续执行步骤s211至步骤s212。或者,步骤s203至步骤s205、步骤s206至步骤s210与步骤s211可以并行执行,并在执行完步骤s205、步骤s210与步骤s211之后,继续执行步骤s212。或者其他可以执行的顺序,本发明对此不作具体限定,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。
98.可选地,利用句子分类器分析文本的情绪性质,得到文本对应的情绪类型,根据情绪类型,确定文本的显示属性。
99.其中,句子分类器是利用句子级情绪分类方法对用户在说出语音指令时的情绪进行分析,用于对文本的情绪类型进行分类。情绪类型可以包括负向情绪和正向情绪。负向情绪可以是愤怒、焦急、沮丧、痛苦或其他消极情绪,正向情绪可以是愉快、幽默、热情或其他积极情绪,正向情绪还可以包括用户正常状态下的情绪。
100.可选地,当情绪类型是负向情绪时,突出显示文本和/或调整文本的颜色。
101.其中,突出显示文本可以是对文本进行加粗、倾斜、下划线、高亮或其他可以对文本进行突出显示的处理。文本的颜色可以是普通颜色或艺术效果等。本发明对突出显示文本和对文本进行颜色设定的方式不作具体限定,能够起到突出显示文本和显示文本颜色的方式均不会脱离本发明的保护范围。
102.示例性地,利用句子分类器分析文本的情绪类型是负向情绪,将文字使用粗体并用红色显示,最终呈现的文字表现为反复滚动显示的“把讨厌的远光灯给关了”,其中,文本中的每个文字使用粗体并用红色显示。还可以根据音量和停顿确定的文本的字号和字间距离,调整文本中每个文字的字号和字间距离。
103.可选地,当情绪类型是正向情绪时,以默认显示属性显示文本或由用户自定义显示属性。
104.示例性地,当情绪类型是正向情绪时,以默认黑色字体显示文本,或根据用户自定义显示属性显示文本。
105.本发明实施例通过将语音指令中除唤醒词之外的音频段转化为文本,根据句式结构从文本中获取意图显示文本和显示屏意图,实现根据用户的意图将语音内容显示在对应的显示屏上,避免了车辆在道路行驶时车内对车外对象的沟通只能停留在手势交流的问题,便于车内的用户与车外对象的沟通。本发明实施例根据文字对应的音量确定对应文字的字号,根据相邻文字对应音频段的间隔时间确定文字的字间距离,根据文本的情绪类型确定文本的其他显示属性,实现将车内用户期望对外显示的语音信息识别为文字,并根据音量、语气和语义理解,自动变化文字的显示大小、间隔和颜色效果,通过视觉方式呈现语音内容和情绪信息。
106.实施例三
107.图4是本发明实施例三提供的另一种语音转化文本的显示方法的流程图,本实施例在上述实施例的基础上进行优化,如图4所示,该方法包括:
108.步骤s301、获取语音指令中除唤醒词之外的音频段。
109.步骤s302、将音频段转化为文本,按照句子成分将文本划分为至少一个词组。
110.步骤s303、获取每两个相邻文字对应音频段的间隔时间。
111.步骤s304、计算文本中各词组中所有相邻文字对应音频段的间隔时间的平均值,
得到词组对应的第一间隔时间。
112.步骤s305、计算文本中所有相邻文字对应音频段的间隔时间的平均值,得到文本对应的第二间隔时间。
113.步骤s306、计算第一间隔时间与第二间隔时间的比值,将比值作为第二放大倍数。
114.步骤s307、根据第二放大倍数,调整词组中每两个相邻文字的切换时间。
115.其中,每两个相邻文字的切换时间指文字以切换方式显示时每两个相邻文字的显示时间间隔。切换方式是以切换时间为间隔逐字在显示屏上显示文本。切换时间不超过第三阈值。第三阈值可以预先设置于处理器中,例如可以设置为2秒。默认切换时间可以预先设置于处理器中、由用户自定义或根据文本中所有相邻文字对应音频段的间隔时间的平均值确定。例如,用户在说出“把讨厌的远光灯给关了”时,将所有相邻文字对应音频段的间隔时间的平均值对应一个默认切换时间。
116.具体地,处理器根据默认相邻文字的切换时间和第二放大倍数,调整词组中所有相邻文字的切换时间。调整后相邻文字的切换时间可以是文字的默认相邻文字的切换时间与第二放大倍数的乘积。可见,用户说话的停顿时间越长,调整文字的切换时间越长,实现根据用户的停顿时间自动变化文字的切换时间。
117.示例性地,“远光灯”三个字的第二放大倍数是1.15,说明用户在说出“远光灯”三个文字时说话间隔比整句话中所有相邻文字对应音频段的间隔时间的平均值长15%,则调整该词组内每个文字的切换时间比其他文字的切换时间长15%。
118.步骤s308、根据调整后的所述显示属性控制所述显示屏以切换方式显示所述文本。
119.可选地,当文本的字数小于或等于预设字数时,根据调整后的显示属性控制显示屏以切换方式显示文本。
120.示例性地,当文本的字数小于或等于5个字时,根据调整后的显示属性控制显示屏以切换方式显示文本。
121.可选地,当显示屏是单字显示屏时,根据调整后的显示属性控制显示屏以切换方式单字显示文本,其中,单字显示屏是在显示屏上仅能显示单字的显示屏。例如,在单字显示屏上,将文本“把远光灯关了”以调整后的显示属性在单字显示屏上逐字显示。
122.可选地,当显示屏是多字显示屏时,根据调整后的显示属性控制显示屏以逐字出现的方式显示文本。例如,在显示屏上先显示第一个字“把”,然后以一定切换时间为间隔,在显示屏上显示第二个字“把远”,以此类推,直至将文本“把远光灯关了”显示完成。
123.可选地,根据调整后的显示属性控制显示屏反复以切换方式显示文本。例如,在显示屏上呈现的文本表现为反复切换显示“把远光灯关了”。
124.需要说明的是,本发明实施例三中的步骤s303至步骤s308还可以与本发明实施例二中的步骤s203至步骤s205结合执行,例如,先执行步骤s203至步骤s205,再执行步骤s303至步骤s307,然后再继续执行步骤s308。或者,步骤s203至步骤s205与步骤s303至步骤s307可以并行执行,并在执行完步骤s205和步骤s307之后,继续执行步骤s308。或者其他可以执行的顺序,本发明对此不作具体限定,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。
125.本发明实施例根据相邻文字对应音频段的间隔时间确定相邻文字的切换时间,根
据调整后的显示属性控制显示屏以切换方式显示文本,进一步实现将语音的内容通过视觉的方式呈现出来。
126.实施例四
127.图5是本发明实施例四提供的一种语音转化文本的显示装置的结构示意图。该装置可由软件和/或硬件实现,一般可集成在车辆中,可以通过执行语音转化文本的显示方法实现准确快速的将车内语音信息转化为显示在车内对外的视觉展示的方式。如图5所示,该装置包括:
128.音频段获取模块410,用于获取语音指令中除唤醒词之外的音频段;
129.词组划分模块420,用于将所述音频段转化为文本,按照句子成分将所述文本划分为至少一个词组;
130.属性调整模块430,用于根据所述词组中每个文字对应的音频信息与所述文本中所有文字的音频信息的比例关系,调整同一词组中每个文字的显示属性,其中,所述音频信息用于反映所述文字对应的音频段的声音属性;
131.文本显示模块440,用于根据调整后的所述显示属性控制所述显示屏显示所述文本。
132.可选地,所述词组划分模块420,具体用于:
133.将所述音频段转化为文本,根据句式结构从所述文本中获取意图显示文本和显示屏意图,其中,所述意图显示文本用于确定用户意图在显示屏上显示的文本,所述显示屏意图用于确定所述意图显示文本对应的显示屏;
134.将所述意图显示文本按照句子成分划分为至少一个词组。
135.可选地,所述文本显示模块440,具体用于:
136.根据所述显示屏意图确定所述意图显示文本对应的显示屏;
137.根据调整后的所述显示属性控制所述显示屏意图对应的显示屏显示所述文本。
138.可选地,当音频信息是音量时,所述属性调整模块430,具体用于:
139.计算所述词组中每个文字对应的音量与所述文本的平均音量之间的比值,得到所述文字的第一放大倍数;
140.根据所述第一放大倍数调整所述文字的字号,其中,所述文字的字号不超过第一阈值;
141.根据所述文本中各词组中每个文字的字号,计算同一词组中所有文字的字号的平均值,根据所述平均值调整对应词组中每个文字的字号。
142.可选地,所述属性调整模块430,具体用于:
143.获取所述每两个相邻文字对应音频段的间隔时间;
144.计算所述文本中各词组中所有相邻文字对应音频段的间隔时间的平均值,得到所述词组对应的第一间隔时间;
145.计算所述文本中所有相邻文字对应音频段的间隔时间的平均值,得到所述文本对应的第二间隔时间;
146.计算所述第一间隔时间与所述第二间隔时间的比值,将所述比值作为第二放大倍数;
147.根据所述第二放大倍数,调整所述词组中所有相邻文字的字间距离,其中,所述字
间距离不超过第二阈值。
148.可选地,当所述文本的字数大于预设字数时,所述文本显示模块440,具体用于:
149.根据调整后的所述显示属性控制所述显示屏以滚动方式显示所述文本。
150.可选地,所述属性调整模块430,具体用于:
151.获取所述每两个相邻文字对应音频段的间隔时间;
152.计算所述文本中各词组中所有相邻文字对应音频段的间隔时间的平均值,得到所述词组对应的第一间隔时间;
153.计算所述文本中所有相邻文字对应音频段的间隔时间的平均值,得到所述文本对应的第二间隔时间;
154.计算所述第一间隔时间与所述第二间隔时间的比值,将所述比值作为第二放大倍数;
155.根据所述第二放大倍数,调整所述词组中每两个相邻文字的切换时间,其中,所述切换时间不超过第三阈值。
156.可选地,当所述文本的字数小于或等于预设字数时,所述文本显示模块440,具体用于:
157.根据调整后的所述显示属性控制所述显示屏以切换方式显示所述文本,其中,所述切换方式是以切换时间为间隔逐字在所述显示屏上显示文本。
158.可选地,所述语音转化文本的显示装置,还包括:
159.情绪分类模块,用于利用句子分类器分析所述文本的情绪性质,得到所述文本对应的情绪类型,其中,所述句子分类器用于对所述文本的情绪类型进行分类;
160.属性确定模块,用于根据所述情绪类型,确定所述文本的显示属性。
161.可选地,所述属性确定模块,具体用于:
162.当所述情绪类型是负向情绪时,突出显示所述文本和/或调整所述文本的颜色。
163.本发明实施例所提供的语音转化文本的显示装置可执行本发明任意实施例所提供的语音转化文本的显示方法,具备执行方法相应的功能模块和有益效果。
164.实施例五
165.图6为本发明实施例五提供的一种车辆的结构示意图,如图6所示,该车辆包括处理器500、存储器510、收音装置520、显示屏530、信号处理装置540和供电装置550;车辆中处理器500的数量可以是一个或多个,图6中以一个处理器500为例;车辆中的处理器500、存储器510、输入装置520、输出装置530、信号处理装置540和供电装置550可以通过总线或其他方式连接,图6中以通过总线连接为例。
166.存储器510作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音转化文本的显示方法对应的程序指令和/或模块(例如,语音转化文本的显示装置中的音频段获取模块410、词组划分模块420、属性调整模块430和文本显示模块440)。处理器500通过运行存储在存储器510中的软件程序、指令以及模块,从而执行车辆的各种功能应用以及数据处理,即实现上述的语音转化文本的显示方法。
167.存储器510可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器510可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个
磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器510可进一步包括相对于处理器500远程设置的存储器,这些远程存储器可以通过网络连接至车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
168.收音装置520可包括麦克风或麦克风阵列等具有收音功能的设备。显示屏530可以是用于显示文本的显示设备,例如车内前后两个对外显示屏或车顶的双面显示屏。信号处理装置540可用于对获取的语音信号进行降噪处理。供电装置550可用于给显示屏供电。
169.实施例六
170.本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语音转化文本的显示方法,该方法包括:
171.获取语音指令中除唤醒词之外的音频段;
172.将所述音频段转化为文本,按照句子成分将所述文本划分为至少一个词组;
173.根据所述词组中每个文字对应的音频信息与所述文本中所有文字的音频信息的比例关系,调整同一词组中每个文字的显示属性,其中,所述音频信息用于反映所述文字对应的音频段的声音属性;
174.根据调整后的所述显示属性控制所述显示屏显示所述文本。
175.当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音转化文本的显示方法中的相关操作。
176.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
177.值得注意的是,上述语音转化文本的显示装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
178.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献