车辆中的言语辨识的制作方法

2023-02-19 14:16:56 来源：中国专利 TAG：

1.本公开涉及车辆中的言语辨识系统。

背景技术：

2.车辆可以配备有计算装置、网络、传感器和控制器以获取车辆内的数据并基于所述数据操作车辆。车辆传感器可以提供关于车辆的用户操作的数据，包括用于致动子系统的语音命令。车辆和/或其子系统的操作可以基于获取对在车辆内收集的音频数据的文本解析。

技术实现要素：

3.一种系统包括计算机，所述计算机包括处理器和存储器，所述存储器存储指令，所述指令可由处理器执行以：将包括言语和环境声音的音频样本传输到车辆计算机；从车辆计算机接收记录的音频以及从记录的音频中辨识的言语，所述记录的音频包括由车辆计算机广播并由车辆计算机记录的音频样本；将辨识的言语和言语的文本输入到机器学习程序，所述机器学习程序输出辨识的言语是否与所述文本匹配；并且当来自机器学习程序的输出指示辨识的言语与所述文本不匹配时，将辨识的言语和所述文本包括在用于机器学习程序的训练数据集中。
4.所述指令还可以包括用于进行以下操作的指令：用被训练以输出包括言语和环境声音的音频样本的第二机器学习程序来生成音频样本。
5.音频样本可以包括用于致动一个或多个车辆子系统的语音命令的言语。
6.所述指令还可以包括用于进行以下操作的指令：从车辆计算机接收指示车辆计算机未辨识来自记录的音频广播的言语的消息，以及将音频样本和消息包括在训练数据集中。
7.所述指令还可以包括用于进行以下操作的指令：从车辆计算机接收指示车辆计算机所在的车辆是静止的消息，以及然后将音频样本传输到车辆计算机。
8.机器学习程序被进一步训练以从记录的音频输出对来自车辆子系统的振动的检测，并且所述指令还可以包括用于进行以下操作的指令：基于输出的检测到的振动和车辆子系统的预测模型来检测车辆子系统的变化。
9.所述指令还可以包括用于将检测到的变化传输到车辆计算机的指令。
10.所述指令还可以包括用于将检测到的振动输入到用于机器学习程序的训练数据集中的指令。
11.车辆计算机可以还被编程为在接收到音频样本时致动扬声器以广播音频样本并且致动传声器以记录广播的音频样本。
12.车辆计算机可以还被编程为将记录的音频输入到被训练为输出从记录的音频辨识的言语的言语辨识程序。
13.车辆计算机可以还被编程为致动多个扬声器中的每一个以广播音频样本并且致
动传声器以记录来自多个扬声器中的每一个的音频样本广播。
14.所述指令还可以包括用于进行以下操作的指令：将音频样本传输到多个车辆计算机中的每一个，每个车辆计算机位于相应的车辆中，以及从多个车辆计算机中的每一个接收记录的音频和辨识的言语。
15.所述指令还可以包括用于进行以下操作的指令：将来自多个车辆计算机中的每一个的相应辨识的言语和所述言语的文本输入到机器学习程序的训练数据集。
16.所述指令还可以包括用于进行以下操作的指令：用训练数据集来重新训练机器学习程序以及将重新训练的机器学习程序传输到车辆计算机。
17.一种方法包括：将包括言语和环境声音的音频样本传输到车辆计算机；从车辆计算机接收记录的音频以及从记录的音频中辨识的言语，所述记录的音频包括由车辆计算机广播并由车辆计算机记录的音频样本；将辨识的言语和言语的文本输入到机器学习程序，所述机器学习程序输出辨识的言语是否与所述文本匹配；并且当来自机器学习程序的输出指示辨识的言语与所述文本不匹配时，将辨识的言语和所述文本包括在用于机器学习程序的训练数据集中。
18.所述方法还可以包括用被训练为输出包括言语和环境声音的音频样本的第二机器学习程序来生成音频样本。
19.所述方法还可以包括：从车辆计算机接收指示车辆计算机未辨识来自记录的音频广播的言语的消息，以及将音频样本和消息包括在训练数据集中。
20.所述方法还可以包括：从车辆计算机接收指示车辆计算机所在的车辆是静止的消息，以及然后将音频样本传输到车辆计算机。
21.机器学习程序被进一步训练以从记录的音频输出对来自车辆子系统的振动的检测，并且所述方法还可以包括基于输出的检测到的振动和车辆子系统的预测模型来检测车辆子系统的变化。
22.所述方法还可以包括将检测到的变化传输到车辆计算机。
23.所述方法还可以包括将检测到的振动输入到用于机器学习程序的训练数据集中。
24.所述方法还可以包括：将音频样本传输到多个车辆计算机中的每一个，每个车辆计算机位于相应的车辆中，以及从多个车辆计算机中的每一个接收记录的音频和辨识的言语。
25.所述方法还可以包括：将来自多个车辆计算机中的每一个的相应辨识的言语和所述言语的文本输入到机器学习程序的训练数据集。
26.所述方法还可以包括：用训练数据集来重新训练机器学习程序以及将重新训练的机器学习程序传输到车辆计算机。
27.还公开了一种计算装置，所述计算装置被编程为执行上述方法步骤中的任一者。还公开了一种包括计算装置的车辆。还公开了一种计算机程序产品，所述计算机程序产品包括计算机可读介质，所述计算机可读介质存储指令，所述指令可由计算机处理器执行以执行上述方法步骤中的任一个。
28.用户可以向车辆提供语音命令以致动一个或多个车辆子系统。例如，用户可以提供语音命令以致动娱乐子系统以调整输出音频的音量。在另一个示例中，用户可以提供语音命令以致动气候控制子系统以调整内部车厢温度。准确检测语音命令中的言语允许计算
机致动正确的子系统以遵循语音命令。训练言语辨识程序以准确地检测音频中的言语通过致动用户预期的子系统来改进车辆的操作。
29.相对于使用来自单个车辆的数据训练的言语辨识程序，用来自多个车辆的数据构建数据集以在外部服务器中训练言语辨识程序可以提高言语辨识程序的准确性。此外，生成具有在真实世界车辆环境中可能不容易产生的文本、口音和环境声音的音频样本可以在车辆中出现这些不太常见的声音时改进言语辨识程序。车辆中的计算机可以从服务器接收音频样本并在车辆的内部广播音频样本。然后，计算机可以记录广播的音频并将音频输入到言语辨识程序，所述程序与存储在服务器中的程序相同。计算机可以将言语辨识程序的输出、记录的音频和原始音频样本发送到服务器，并且服务器可以将接收到的数据输入到训练数据集。因此，服务器可以使用来自车辆的数据来重新训练服务器中的言语辨识程序，并且可以将重新训练的言语辨识程序的更新发送到计算机，从而改进车辆的计算机中的言语辨识程序。
附图说明
30.图1是用于识别音频样本中的文本的示例性系统的框图。
31.图2是广播音频样本的车辆的视图。
32.图3是服务器和车辆计算机的框图。
33.图4是用于识别音频样本中的文本的示例性过程的框图。
34.图5是用于基于音频样本识别车辆子系统的变化的示例性过程的框图。
具体实施方式
35.图1是用于辨识广播音频中的言语的示例性系统100的框图。系统100包括车辆105，所述车辆包括车辆计算机110。车辆计算机110包括处理器和存储器。存储器包括一种或多种形式的计算机110可读介质，并且存储指令，所述指令可由车辆计算机110执行以执行包括如本文所公开的各种操作。例如，计算机110可以是具有如上所述的处理器和存储器的通用计算机110，和/或可以包括用于特定功能或功能集的电子控制单元(ecu)或控制器，和/或可以包括专用电子电路，所述专用电子电路包括针对特定操作而制造的asic，例如用于处理传感器115数据和/或传送传感器115数据的asic。在另一个示例中，计算机110可以包括fpga(现场可编程门阵列)，所述fpga是被制造为可由用户配置的集成电路。通常，在电子设计自动化中使用诸如vhdl(超高速集成电路硬件描述语言)的硬件描述语言来描述诸如fpga和asic的数字和混合信号系统。例如，asic是基于制造前提供的vhdl编程而制造的，而fpga内部的逻辑部件可基于例如存储在电连接到fpga电路的存储器中的vhdl编程来配置。在一些示例中，处理器、asic和/或fpga电路的组合可以包括在计算机110中。存储器可以是任何类型，例如，硬盘驱动器、固态驱动器、服务器130或任何易失性或非易失性介质。存储器可以存储从传感器115发送的所收集的数据。存储器可以是与计算机110分离的装置，并且计算机110可以经由车辆105中的网络(例如，通过can总线、无线网络等)检索由存储器存储的信息。替代地或另外，存储器可以是计算机110的一部分，例如作为计算机110的存储器。计算机110可以包括编程以操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆105的加速度)、转向、气候控制、内部
灯和/或外部灯等中的一者或多者，以及确定计算机110(而非人类操作员)是否和何时控制此类操作。另外，计算机110可以被编程为确定人类操作员是否以及何时控制此类操作。计算机110可以包括或通信地耦合到(例如，经由车辆网络，诸如如下文进一步描述的通信总线)多于一个处理器，例如，所述多于一个处理器包括在车辆105中所包括的部件诸如传感器115、电子控制单元(ecu)等中以用于监测和/或控制各种车辆部件，例如动力传动系统控制器、制动控制器、转向控制器等。计算机110通常被布置用于在车辆通信网络上进行通信，所述车辆通信网络可以包括车辆105中的总线，诸如控制器局域网can等，和/或其他有线和/或无线机制。替代地或另外，在计算机110实际上包括多个装置的情况下，车辆通信网络可以用于在本公开中表示为计算机110的装置之间的通信。此外，如下文所提及的，各种控制器和/或传感器115可以经由车辆通信网络向计算机110提供数据。
36.车辆105(诸如自主或半自主车辆)通常包括各种传感器115。传感器115是可以获得一个或多个物理现象的一个或多个测量值的装置。一些传感器115检测车辆105的内部状态，例如车轮转速、车轮取向以及发动机和变速器变量。一些传感器115检测车辆105的位置或取向，例如全球定位系统gps传感器115；加速度计，诸如压电或微机电系统mems；陀螺仪，诸如速率陀螺仪、环形激光陀螺仪或光纤陀螺仪；惯性测量单元imu；和磁力计。一些传感器115检测外部世界，所述传感器例如雷达传感器115、扫描激光测距仪、光探测和测距lidar装置以及图像处理传感器115(诸如，相机)。lidar装置通过发射激光脉冲并测量脉冲行进到对象并返回的飞行时间来检测距对象的距离。一些传感器115是通信装置，例如车辆对基础设施v2i或车辆对车辆v2v装置。传感器115的操作可能会受到遮挡物(例如灰尘、雪、昆虫等)的影响。通常但不一定，传感器115包括数模转换器以将感测到的模拟数据转换成数字信号，所述数字信号可以例如经由网络提供给数字计算机110。传感器115可以包括各种装置，并且可以被设置成以各种方式感测环境、提供关于机器的数据等。例如，传感器115可以安装到道路上、道路上方或附近的静止基础设施元件。此外，车辆105中的各种控制器可以操作为传感器115以经由车辆网络或总线提供数据，例如与车辆105速度、加速度、位置、子系统120和/或部件状态等有关的数据。此外，其他传感器115(在车辆105、固定基础设施元件等中或上)基础设施可以包括相机、短程雷达、远程雷达、lidar和/或超声换能器、重量传感器115、加速度计、运动检测器等，即，用于提供各种数据的传感器115。仅提供几个非限制性示例，传感器115数据可以包括用于确定部件的位置、对象的位置、对象的速度、对象的类型、道路的坡度、温度、水分的存在或量、燃料水平、数据速率等的数据。
37.车辆网络是经由其可以在车辆105中的各种装置之间交换消息的网络。计算机110一般可以被编程为经由车辆网络向车辆105中的其他装置(例如，ecu、传感器115、致动器、部件、通信模块、人机界面(hmi)等中的任一者或全部)发送消息和/或从其接收消息。另外或替代地，消息可以经由车辆网络在车辆105中的各种这样的其他装置之间交换。在计算机110实际上包括多个装置的情况下，车辆网络125可以用于在本公开中表示为计算机110的装置之间进行通信。此外，如以下所提及，各种控制器和/或车辆传感器115可以向计算机110提供数据。在一些实现方式中，车辆网络可以是其中经由车辆通信总线传达消息的网络。例如，车辆网络可以包括其中经由can总线传达消息的控制器局域网can，或者其中经由局域互连网lin总线传达消息的lin。在一些实现方式中，车辆网络可以包括其中使用其他有线通信技术和/或无线通信技术(例如，以太网、wifi、蓝牙等)传达消息的网络。在一些实
现方式中，可以用于通过车辆网络进行通信的协议的附加示例包括但不限于面向媒体的系统传输most、时间触发协议ttp和flexray。在一些实现方式中，车辆网络可以表示支持车辆105中的装置之间的通信的可能是不同类型的多个网络的组合。例如，车辆网络可以包括：can，其中车辆105中的一些装置经由can总线进行通信；以及有线或无线局域网，其中车辆中的一些装置根据以太网或wi-fi通信协议进行通信。
38.车辆子系统120是一组部件或零件，包括硬件部件，并且通常还包括软件和/或编程，以执行车辆105中的功能或一组操作。车辆子系统120通常包括但不限于制动系统、推进系统和转向系统。推进子系统120将能量转换为车辆105车轮的旋转以向前和/或向后推进车辆105。制动子系统120可以减慢和/或停止车辆105的移动。转向子系统120可以在车辆105移动时控制它的横摆，例如左转和右转、保持直线路径。
39.计算机110可以被编程为经由广域网125与诸如服务器130的一个或多个远程站点通信。广域网125可以包括车辆计算机110可以通过其与例如远程服务器130进行通信的一种或多种机制。因此，网络125可以包括各种有线或无线通信机制中的一种或多种，包括有线(例如，电缆和光纤)和/或无线(例如，蜂窝、无线、卫星、微波和射频)通信机制的任何期望的组合以及任何期望的网络拓扑结构(或当利用多种通信机制时的多种拓扑结构)。示例性通信网络包括提供数据通信服务的无线通信网络，例如使用低功耗ble、ieee 802.11、车辆对车辆v2v或车辆对外界v2x(诸如蜂窝v2x cv2x、专用短程通信dsrc等)、局域网lan和/或包括互联网的广域网wan。
40.图2是车辆105的内部的视图。如下所述，车辆105中的计算机110可以从外部服务器130接收音频样本。音频样本可以包括言语和环境声音。计算机110可以广播音频样本并记录广播音频200。然后，计算机110可以辨识广播音频中的言语并将所辨识的言语传输到服务器130。
41.车辆105包括至少一个扬声器205。扬声器205生成声音并将其广播到车辆105的内部，例如音频样本的广播音频200。例如，扬声器205可以是声学换能器。在图2的示例中，车辆105包括两个扬声器205。
42.车辆105包括传声器210。传声器210从车辆105的内部收集音频数据。也就是说，传声器210收集车辆105中的音频波并将音频波记录为表示车辆105内部的广播音频200的音频数据。
43.计算机110可以经由扬声器205广播来自服务器130的音频样本。也就是说，计算机110可以致动扬声器205以将广播音频200生成到车辆105的内部中。计算机110可以致动传声器210以记录由扬声器205生成的广播音频200。也就是说，计算机110可以致动传声器210以准备记录广播音频200，然后计算机110可以致动扬声器205以广播音频样本。来自扬声器205的该广播音频200由传声器210收集并存储在计算机110的存储器中。
44.图3是服务器130和车辆105的计算机110的框图。服务器130可以用音频样本生成器程序300生成音频样本305，如下所述。服务器130和计算机110可以辨识在车辆105中广播的音频样本305的广播音频200中的言语，并且可以基于辨识的言语来训练言语辨识程序310，如下所述。
45.服务器130可以包括音频样本生成器程序300。音频样本生成器程序300生成计算机110可以在车辆105中广播的音频样本305。音频样本生成器程序300可以是被训练以基于
输入的音频数据生成音频样本305的机器学习程序。例如，可以训练音频样本生成器程序300以输出包括一个或多个指定的文本串(诸如用于致动一个或多个车辆子系统120的语音命令)、口音或环境声音的音频样本305。也就是说，音频样本生成器程序300可以生成具有在真实世界情况下可能不容易记录的文本、口音和环境声音的音频样本305。因此，音频样本305可以训练言语辨识程序310以辨识与常规的真实世界数据集中可以获得的口音不同的和具有不同的环境声音的文本。因此，音频样本生成器程序300可以生成在不同周围环境中具有不同口音的与常规音频数据集可能包括的相比与用户的实际言语更相似的音频样本305。音频样本生成器程序300可以是例如生成式对抗网络(gan)，诸如wavegan(由donahue等人在提交时在https://arxiv.org/abs/1802.04208处描述的)或voicegan(由gao等人在提交时在https://arxiv.org/abs/1802.06840处描述的)，其被训练以基于包括训练文本、训练口音和训练环境声音的输入训练数据来生成音频样本305。
46.服务器130可以将音频样本305传输到车辆105的计算机110。如上所述，服务器130可以经由广域网125传输音频样本305。在从服务器130接收到音频样本305时，计算机110可以经由扬声器205广播音频样本305，并且可以用传声器210记录广播音频200。服务器130可以将音频样本305传输到多个车辆计算机110，如下所述，每个计算机110被编程为广播音频样本305并检测广播音频200中的言语。
47.在记录音频时，计算机110可以将记录的音频输入到言语辨识程序310。言语辨识程序310是接收输入音频并输出指示输入音频中说出的文本的辨识的声音的机器学习程序。也就是说，在有记录的音频的情况下，言语辨识程序310识别记录的音频中计算机110可以使用来执行动作(例如，致动一个或多个子系统120)的文本。基于由言语辨识程序310辨识的言语，计算机110可以致动一个或多个子系统120，如下所述。言语辨识程序310可以是常规的机器学习程序，诸如神经网络，例如，描述于如graves等人的在提交时在http://proceedings.mlr.press/v32/graves14.pdf处可获得的“towards end-to-end speech recognition with recurrent neural networks(用递归神经网络实现端到端言语辨识)”或zhang等人的在提交时在https://arxiv.org/pdf/1610.03022.pdf处可获得的“very deep convolutional networks for end-to-end speech recognition(用于端到端言语辨识的非常深的卷积网络)”。
48.计算机110可以确定言语辨识程序310的输出是否与由服务器130提供的音频样本305的言语的文本匹配。当输出的相似性度量在来自服务器130的文本的相似性阈值内时，言语辨识程序310的输出“匹配”音频样本305的言语的文本。例如，相似性度量可以是从言语辨识程序310的机器学习算法输出的概率，并且相似性阈值可以是机器学习算法的成本函数低于训练阈值时的值。也就是说，作为言语辨识程序310基础的机器学习算法可以输出输出文本是正确的概率。当输出文本是正确的概率高于制造商确定的阈值时，计算机110可以确定言语辨识程序310的输出与来自服务器130的音频样本305的言语的文本匹配。在另一个示例中，当计算机110可以根据言语辨识程序310的输出来致动与根据来自服务器130的文本致动的子系统120相同的子系统120时，所述输出与来自服务器130的文本匹配。也就是说，如果来自言语辨识程序310的输出使计算机110以与来自服务器130的文本相同的方式操作，则输出与文本“匹配”。
49.计算机110可以将记录的音频、言语辨识程序310的输出和匹配确定发送到服务器
130。例如，仅当计算机110确定来自言语辨识程序310的输出与来自服务器130的文本不匹配时，计算机110才可以确定将记录的音频发送到服务器130。也就是说，当来自言语辨识程序310的输出与来自服务器130的文本不匹配时，计算机110可以发送记录的音频、言语辨识程序310的输出以及指示计算机110未能正确地识别广播音频200中的文本的消息。替代地，计算机110可以发送记录的音频、言语辨识程序310的输出以及匹配确定，而不管来自言语辨识程序310的输出是否与来自服务器130的文本匹配。服务器130可以将接收到的记录的音频、言语辨识输出和匹配确定添加到训练数据集315以重新训练安装在服务器130中的言语辨识程序310。服务器130可以将来自多个车辆计算机110的收集的记录的音频、言语辨识输出以及匹配确定输入到训练数据集315，从而与来自单个车辆105的数据相比改进训练数据集315。因此，服务器130可以重新训练言语辨识程序310并将更新的程序传输到车辆105。
50.服务器130可以在从计算机110接收到车辆105是静止的消息时传输音频样本305。当车辆105正在移动时，除了广播音频样本305之外，传声器210还可以记录环境声音。为了减少除广播音频样本305之外的记录的声音，当计算机110确定车辆105是静止(例如，车辆105断电并处于停放状态)时，计算机110可以请求音频样本305。然后，服务器130可以将音频样本305传输到计算机110。
51.服务器130可以基于记录的音频来检测指示来自车辆105子系统120的振动的声音。除了从广播音频样本305识别言语之外，言语辨识程序310还可以识别由传声器210记录的来自子系统120的声音。来自子系统120的振动可以在子系统120的相应寿命中的预测点处和/或在子系统120发生变化时发生。“变化”是子系统120的指示子系统120应进行维护的状况。例如，检测到的振动可以指示制动器的变化，从而指示应更换制动块。在另一个示例中，检测到的振动可以指示悬架的变化，从而指示应调整悬架刚度。可以在经验测试设置中识别指示变化的声音，并将其存储在音频数据集中，所述音频数据集包括当检测到指示振动的声音时识别变化和应进行维护的子系统120的注解。
52.服务器130可以基于子系统120的预测模型来从记录的音频检测子系统120中的发生变化的子系统(即，通过确定记录的音频中的一个或多个声音(在置信度内)与预测模型输出的一个或多个声音匹配)。预测模型是基于输入的操作数据(即，描述子系统120的操作的数据)对在典型工况下在子系统120的整个寿命期间子系统120的操作进行建模的程序。例如，预测模型可以输出子系统120在子系统120的寿命中的特定点处可能产生的特定振动。在另一个示例中，预测模型可以输出当子系统120中发生一个或多个变化时产生的振动。子系统120的示例性预测模型可以在taheri等人的在提交时在https://arxiv.org/abs/1912.02708处可获得的“survey of prognostics methods for condition-based maintenance in engineering systems(工程系统中的基于状况的维护的预测方法的调查)”中找到。
53.服务器130可以将指示在来自计算机110的记录的音频中识别的振动的声音与从预测模型预测的振动进行比较。当来自记录的音频的振动与来自预测模型的指示变化的振动匹配时，服务器130可以检测子系统120的变化并将检测到的变化传输到计算机110。服务器130可以将记录的音频和来自预测模型的输出输入到训练数据集315。
54.另外或替代地，服务器130可以基于检测到的变化向计算机110提供命令以致动一个或多个子系统120。例如，在检测到指示混合动力电动车辆中的消声器变化的振动时，服
务器130可以指示计算机110转换到纯电动模式。在另一个示例中，在检测到指示试图关闭车门的振动并且从门传感器接收到指示门未关闭的数据时，服务器130可以指示计算机110致动喇叭以提供警报。在另一个示例中，在检测到指示气候控制子系统120的风扇的变化的振动时，服务器130可以指示计算机110以与默认转速不同的转速致动风扇以减少由风扇引起的噪声。在另一个示例中，在检测到指示制动块磨损的振动时，服务器130可以指示计算机110防止致动半自主地或自主地致动制动子系统120的巡航控制程序。服务器130可以提供警报的其他变化示例包括检测指示经过打开的车窗的风噪的振动和/或指示低油位的咔哒声。
55.图4是用于检测记录的音频中的言语的示例性过程400的框图。过程400在框405中开始，其中服务器130中的音频样本生成器程序300生成音频样本305。如上所述，音频样本生成器程序300生成计算机110可以在车辆105中广播的音频样本305。音频样本生成器程序300可以是被训练以基于输入的音频数据生成音频样本305的机器学习程序。音频样本305可以包括指定口音的言语和/或附加的背景声音。
56.接下来，在框410中，服务器130将音频样本305传输到车辆105的计算机110。如上所述，服务器130可以经由广域网125传输音频样本305。
57.接下来，在框415中，计算机110可以致动车辆105中的传声器210。如上所述，传声器210记录在车辆105中广播的声音。计算机110致动传声器210以准备记录来自扬声器205的广播音频200。
58.接下来，在框420中，计算机110将音频样本305从一个或多个扬声器205广播到车辆105的内部。如上所述，计算机110可以致动扬声器205以根据从服务器130接收的音频样本305来生成广播音频200。
59.接下来，在框425中，计算机110用传声器210记录广播音频样本305。如上所述，传声器210记录车辆105中的广播音频200作为音频数据。
60.接下来，在框430中，计算机110将记录的音频数据输入到言语辨识程序310以识别音频数据中的言语。如上所述，言语辨识程序310是被训练为输出记录的音频中的辨识的言语的机器学习程序。例如，言语辨识程序310可以是神经网络。
61.接下来，在框435中，计算机110将记录的音频和辨识的言语传输到服务器130。计算机110可以经由广域网125传输记录的音频和来自言语辨识程序310的输出。
62.接下来，在框440中，服务器130确定来自计算机110的辨识的言语是否与由服务器130确定的音频样本305的文本匹配。如上所述，服务器130可以将音频样本305输入到存储在服务器130上的言语辨识程序310以输出音频样本305中的言语的文本。服务器130确定计算机110的言语辨识程序310是否正确地辨识音频样本305中的言语，即，辨识的言语是否与音频样本305中的言语的文本“匹配”。
63.接下来，在框445中，服务器130将音频样本305、接收到的记录的音频和匹配确定输入到用于言语辨识程序310的训练数据集315。如上所述，通过使用来自一个或多个车辆105的数据，服务器130可以生成比车辆105可以单独生成的更多样化的数据集。服务器130可以用训练数据集315来重新训练言语辨识程序310并将更新的言语辨识程序310传输到一个或多个车辆105。在框445之后，过程400结束。
64.图5是用于识别车辆105子系统120的变化的示例性过程500的框图。过程500在框
505中开始，其中服务器130从车辆105的计算机110接收记录的音频样本305和一个或多个子系统120的操作数据。如上所述，记录的音频样本305是来自车辆105内部的传声器210的音频数据的记录。
65.接下来，在框510中，服务器130识别记录的音频样本305中的振动。如上所述，存储在服务器130中的言语辨识程序310可以识别记录的音频样本305中的子系统120的一个或多个振动。
66.接下来，在框515中，服务器130将振动和从计算机110接收的操作数据输入到预测模型。如上所述，预测模型是被训练以识别一个或多个车辆子系统120的操作变化的程序。
67.接下来，在框520中，服务器130从预测模型输出对子系统120的变化的检测。如上所述，预测模型可以输出来自子系统120的数据是否不同于子系统120的预期操作的确定，即，变化。基于输出，服务器130可以将变化检测与对子系统120执行维护的指令一起传输到计算机110。在框520之后，过程500结束。
68.计算机110可执行指令可以由使用各种编程语言和/或技术创建的计算机110程序来编译或解译，所述编程语言和/或技术单独地或组合地包括但不限于java、c、c、visual basic、java script、perl、html等。通常，处理器(例如，微处理器)例如从存储器、计算机110可读介质等接收指令，并且执行这些指令，由此执行一个或多个过程，其包括本文所述的过程中的一者或多者。此类指令和其他数据可以使用各种计算机110可读介质来存储和传输。联网装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机110可读介质上的数据的集合。
69.计算机可读介质(也称为处理器可读介质)包括参与提供可以由计算机(例如，由计算机的处理器)读取的数据(例如，指令)的任何非暂时性(例如，有形)介质。此类介质可采用许多形式，包括但不限于非易失性介质和易失性介质。指令可以由一种或多种传输介质传输，所述传输介质包括光纤、电线、无线通信，包括内部构件，所述内部构件包括耦合到计算机处理器的系统总线。常见形式的计算机可读介质包括例如ram、prom、eprom、flash-eeprom、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。
70.本文中“响应于”、“基于”和“在确定
……
时”的使用指示因果关系，而不仅仅是时间关系。
71.如本文所使用的，副词“基本上”意指形状、结构、测量结果、数量、时间等因为材料、机加工、制造等的缺陷而可能偏离精确描述的几何形状、距离、测量结果、数量、时间等。
72.在附图中，相同的附图标记指示相同的元素。另外，可以改变这些元素中的一些或全部。就本文所描述的介质、过程、系统、方法等而言，应理解，虽然此类过程的步骤等已经被描述为按照特定的顺序发生，但除非另有说明或从上下文中可以看出，可在按照本文所述顺序以外的顺序执行所述步骤的情况下实践此类过程。同样，还应当理解，可同时执行某些步骤，可添加其他步骤，或者可省略本文描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。
73.根据本发明，提供了一种系统，所述系统具有计算机，所述计算机包括处理器和存储器，所述存储器存储指令，所述指令可由处理器执行以：将包括言语和环境声音的音频样本传输到车辆计算机；从车辆计算机接收记录的音频以及从记录的音频中辨识的言语，所述记录的音频包括由车辆计算机广播并由车辆计算机记录的音频样本；将辨识的言语和言
语的文本输入到机器学习程序，所述机器学习程序输出辨识的言语是否与所述文本匹配；并且当来自机器学习程序的输出指示辨识的言语与所述文本不匹配时，将辨识的言语和所述文本包括在用于机器学习程序的训练数据集中。
74.根据实施例，所述指令还包括用于进行以下操作的指令：用被训练为输出包括言语和环境声音的音频样本的第二机器学习程序来生成音频样本。
75.根据实施例，音频样本包括用于致动一个或多个车辆子系统的语音命令的言语。
76.根据实施例，所述指令还包括用于进行以下操作的指令：从车辆计算机接收指示车辆计算机未辨识来自记录的音频广播的言语的消息，以及将音频样本和消息包括在训练数据集中。
77.根据实施例，所述指令还包括用于进行以下操作的指令：从车辆计算机接收指示车辆计算机所在的车辆是静止的消息，以及然后将音频样本传输到车辆计算机。
78.根据实施例，机器学习程序被进一步训练以从记录的音频输出对来自车辆子系统的振动的检测，并且所述指令还包括用于进行以下操作的指令：基于输出的检测到的振动和车辆子系统的预测模型来检测车辆子系统的变化。
79.根据实施例，所述指令还包括用于将检测到的变化传输到车辆计算机的指令。
80.根据实施例，所述指令还包括用于将检测到的振动输入到用于机器学习程序的训练数据集中的指令。
81.根据实施例，车辆计算机还被编程为在接收到音频样本时致动扬声器以广播音频样本并且致动传声器以记录广播的音频样本。
82.根据实施例，车辆计算机还被编程为将记录的音频输入到被训练为输出从记录的音频辨识的言语的言语辨识程序。
83.根据实施例，车辆计算机还被编程为致动多个扬声器中的每一个以广播音频样本并且致动传声器以记录来自多个扬声器中的每一个的音频样本广播。
84.根据实施例，所述指令还包括用于进行以下操作的指令：将音频样本传输到多个车辆计算机中的每一个，每个车辆计算机位于相应的车辆中，以及从多个车辆计算机中的每一个接收记录的音频和辨识的言语。
85.根据实施例，所述指令还包括用于进行以下操作的指令：将来自多个车辆计算机中的每一个的相应辨识的言语和所述言语的文本输入到机器学习程序的训练数据集。
86.根据实施例，所述指令还包括用于进行以下操作的指令：用训练数据集来重新训练机器学习程序以及将重新训练的机器学习程序传输到车辆计算机。
87.根据本发明，一种方法包括：将包括言语和环境声音的音频样本传输到车辆计算机；从车辆计算机接收记录的音频以及从记录的音频中辨识的言语，所述记录的音频包括由车辆计算机广播并由车辆计算机记录的音频样本；将辨识的言语和言语的文本输入到机器学习程序，所述机器学习程序输出辨识的言语是否与所述文本匹配；并且当来自机器学习程序的输出指示辨识的言语与所述文本不匹配时，将辨识的言语和所述文本包括在用于机器学习程序的训练数据集中。
88.在本发明的一个方面，所述方法包括用被训练为输出包括言语和环境声音的音频样本的第二机器学习程序来生成音频样本。
89.在本发明的一个方面，所述方法包括：从车辆计算机接收指示车辆计算机未辨识
来自记录的音频广播的言语的消息，以及将音频样本和消息包括在训练数据集中。
90.在本发明的一个方面，所述方法包括：从车辆计算机接收指示车辆计算机所在的车辆是静止的消息，以及然后将音频样本传输到车辆计算机。
91.在本发明的一个方面，机器学习程序被进一步训练以从记录的音频输出对来自车辆子系统的振动的检测，并且所述方法还包括基于输出的检测到的振动和车辆子系统的预测模型来检测车辆子系统的变化。
92.在本发明的一个方面，车辆计算机还被编程为在接收到音频样本时致动扬声器以广播音频样本并且致动传声器以记录广播的音频样本。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：行驶控制装置、行驶控制方法及行驶控制用计算机程序与流程

车辆中的言语辨识的制作方法

相关文献

最热文献