针对口罩的言语滤波的制作方法

2022-07-20 06:45:24 来源：中国专利 TAG：

1.本公开总体上涉及用于车辆的语音识别系统，并且更具体地涉及当车辆乘员佩戴着口罩时的言语滤波系统和方法。

背景技术：

2.许多现代车辆包括语音识别系统。这种系统包括传声器。所述系统将由传声器检测到的口头词语转换成文本或可以与命令匹配的另一种形式。所识别的命令可以包括调整气候控制、选择要播放的媒体等。

技术实现要素：

3.一种计算机包括处理器和存储指令的存储器，所述指令能够由所述处理器执行以：接收车辆的乘员的传感器数据；基于所述传感器数据识别所述乘员佩戴的口罩类型；根据所述口罩类型从存储在所述存储器中的多个声音滤波器中选择声音滤波器；接收声音数据；将所选择的声音滤波器应用于所述声音数据；以及使用经滤波的声音数据执行操作。
4.所述传感器数据可以是示出所述乘员的图像数据。
5.所述操作可以是识别语音命令以激活特征。
6.所述操作可以是在电话呼叫中传输经滤波的声音数据。
7.所述操作可以是由所述车辆的扬声器输出经滤波的声音数据。
8.所述指令可以包括用于在确定所述乘员未佩戴口罩时使用未滤波的声音数据来执行所述操作的指令。
9.所述指令可以包括在将所述口罩类型识别为未知类型时从所述多个声音滤波器中选择通用声音滤波器。所述指令可以包括用于在将所述口罩类型识别为所述未知类型时向远程服务器传输更新的指令。所述更新可以包括所述口罩的图像数据。
10.所述指令可以包括用于基于所述乘员的输入来识别所述乘员佩戴的口罩类型的指令。所述指令可以包括用于在接收到所述输入时利用基于所述输入的所述识别来超驰基于所述传感器数据的所述识别的指令。
11.所述指令可以包括用于在确定所述乘员佩戴着口罩时提示所述乘员提供所述输入的指令。
12.所述指令可以包括用于在确定所述乘员中的一个佩戴的口罩的类型以低于置信度阈值的置信度分数识别或者所述口罩的所述类型是未知类型时提示所述乘员提供所述输入的指令。
13.所述指令可以包括用于响应于所述输入指示所述口罩的所述类型不在存储在所述存储器中的所述口罩类型中而向远程服务器传输更新的指令。
14.所述指令可以包括用于基于来自相应传声器的声音数据的音量从多个乘员中选择要识别所述口罩类型的所述乘员的指令。
15.所述指令可以包括用于基于所述乘员处于所述图像数据的预先指定区域中从多
个乘员中选择要识别所述口罩类型的所述乘员的指令。
16.每个声音滤波器可以将所述声音数据的音量调整取决于频率而变化的量。每个声音滤波器以至少一个频率增加所述声音数据的所述音量。
17.所述指令可以包括用于从远程服务器接收改变存储在所述存储器中的所述多个声音滤波器的更新的指令。
18.一种方法包括：接收车辆的乘员的传感器数据；基于所述传感器数据识别所述乘员佩戴的口罩类型；根据所述口罩类型从存储在存储器中的多个声音滤波器中选择声音滤波器；接收声音数据；将所选择的声音滤波器应用于所述声音数据；以及使用经滤波的声音数据执行操作。
附图说明
19.图1是示例性车辆的俯视图，其中为了进行说明而暴露出了乘客舱。
20.图2是车辆的系统的框图。
21.图3是用于对佩戴着口罩的车辆乘员的言语进行滤波的示例性过程的过程流程图。
22.图4是针对多个口罩的佩戴着口罩时言语的声压与频率的曲线图。
具体实施方式
23.参考附图，计算机100包括处理器和存储指令的存储器，所述指令能够由处理器执行以：接收车辆102的乘员的传感器数据；基于传感器数据识别乘员佩戴的口罩类型；根据口罩类型从存储在存储器中的多个声音滤波器中选择声音滤波器；接收声音数据；将所选择的声音滤波器应用于声音数据；以及使用经滤波的声音数据执行操作。
24.计算机100可用于通过选择口罩类型并由此应用最适合于均衡言语的滤波器来提高来自佩戴着口罩的乘员的言语的清晰度。滤波器的选择允许放大被该特定口罩压低的频率。因此，经滤波的声音数据可以可靠地用于执行操作，诸如激活车辆102的特征的语音命令、电话呼叫中的传输或以电信形式到车辆102中其他地方的扬声器114的广播。语音命令可以被可靠地识别，电话呼叫可以被在乘员另一端的人可靠地理解，并且电信消息可以被车辆102的其他乘员可靠地理解。
25.参考图1，车辆102可为任何合适类型的汽车，例如乘用车或商用车，诸如四门轿车、双门小轿车、卡车、运动型多用途车、跨界车、厢式货车、小型货车、出租车、公共汽车等。例如，车辆102可为自主车辆。换句话说，可自主地操作车辆102，以使得可在无须驾驶员持续注意的情况下驾驶车辆102，即车辆102可在没有人为-输入的情况下自驾驶。
26.车辆102包括用于容纳车辆102的乘员的乘客舱104。乘客舱104包括设置在乘客舱104的前部的一个或多个前座椅106以及设置在前座椅106后面的一个或多个后座椅106。乘客舱104还可以包括在乘客舱104的后部的第三排座椅106(未示出)。
27.车辆102包括至少一个相机108。相机108可以检测在某个波长范围内的电磁辐射。例如，相机108可以检测可见光、红外辐射、紫外光或包括可见光、红外光和/或紫外光的某个范围的波长。例如，相机108可以是热成像相机。
28.相机108被定位成使得相机108的视野涵盖座椅106中的至少一者，例如，驾驶员座
椅106或前和后座椅106。例如，相机108可以定位在仪表板118或后视镜上并且相对于乘客舱104向后取向。
29.车辆102包括至少一个传声器110，例如，第一传声器110a和第二传声器110b。传声器110是将声音转换成电信号的换能器。传声器110可以是用于检测车辆102的乘员的言语的任何合适类型的传声器，例如，动态式、电容式、接触式等。
30.传声器110可以布置在乘客舱104中的相应地点或位置处，以共同检测来自不同座椅106中的乘员的言语。例如，第一传声器110a可以定位在仪表板118中，并且第二传声器110b可以定位在前座椅106之间并且被取向成拾取来自后座椅106的声音。
31.用户界面112向车辆102的乘员呈现信息并且从所述乘员接收信息。用户界面112可以位于例如乘客舱104中的仪表板118上，或者位于乘员容易看到它的任何地方。用户界面112可以包括用于向乘员提供信息的刻度盘、数字读出装置、屏幕、扬声器114等，例如，诸如已知的人机界面(hmi)元件。用户界面112可以包括用于从乘员接收信息的按钮、旋钮、小键盘、传声器110等。
32.扬声器114是将电信号转换成声音的电声换能器。扬声器114可以是用于产生乘员可听到的声音的任何合适的类型，例如动态式。扬声器114可以布置在乘客舱104中的相应地点或位置处，以便为相应座椅106中的乘员共同产生声音。
33.参考图2，计算机100是基于微处理器的计算装置，例如，通用计算装置(包括处理器和存储器、电子控制器等)、现场可编程门阵列(fpga)、专用集成电路(asic)等。因此，计算机100可以包括处理器、存储器等。计算机100的存储器可以包括用于存储能够由处理器执行的指令以及用于以电子方式存储数据和/或数据库的介质，和/或计算机100可以包括诸如提供编程的前述结构的结构。计算机100可以是耦合在一起的多个计算机。
34.计算机100可通过通信网络116(诸如控制器局域网(can)总线、以太网、局域互连网(lin)、车载诊断连接器(obd-ii))和/或通过任何其他有线或无线通信网络传输和接收数据。计算机100可以经由通信网络116通信地耦合到相机108、传声器110、用户界面112、扬声器114、收发器118和其他部件。
35.收发器118可以连接到通信网络。收发器118可适用于通过任何合适的无线通信协议(诸如蜂窝、低功耗(ble)、超宽频(uwb)、wifi、ieee 802.11a/b/g、其他rf(射频)通信等)无线地发射信号。收发器118可适用于与远程服务器120(即，与车辆102不同且间隔开的服务器)通信。远程服务器120可位于车辆102的外部。例如，远程服务器120可与另一个车辆相关联(例如，v2v通信)，与基础设施部件相关联(例如，经由专用短程通信(dsrc)等进行的v2i通信)，与紧急响应者相关联，与和车辆102的所有者相关联的移动装置相关联，等等。收发器118可以是一个装置或者可以包括单独的发射器和接收器。
36.参考图4，计算机100将多个声音滤波器存储在存储器中。每个声音滤波器指定根据频率调整声音数据的声压(即，音量)的程度，例如，每个声音滤波器提供作为频率的数学函数的声压，sp＝f(f)，其中sp是声压，f是声音滤波器，并且f是频率。声音滤波器fi可以是基线声压sp
base
与一种类型的口罩的声压spi之差，即，fi(f)＝sp
base
(f)
–
spi(f)，其中i是该类型口罩的索引。当频率为500hz或更低时，口罩通常对音量的影响较小，并且在1000hz和更高频率时将声音更多地压低到取决于口罩类型的程度。存储在存储器中的声音滤波器中
的一个与未知类型的口罩相关联，并且该声音滤波器可以是通用声音滤波器，例如，存储在存储器中的其他声音滤波器的平均。
37.可以从远程服务器120更新存储在存储器中的声音滤波器，例如经由收发器118进行空中下载(ota)更新。更新可以为计算机100尚未为其存储声音滤波器的新类型的口罩添加新的声音滤波器。替代地或另外地，更新可以改变计算机100已经存储的声音滤波器中的一个或多个。因此，当引入新类型口罩、现有口罩的材料改变等时，可以更新由计算机100存储的声音滤波器。所述更新可以周期性地或按需发生。
38.图3是示出了用于对车辆102的佩戴着口罩的乘员的言语进行滤波的示例性过程300的过程流程图。计算机100的存储器存储用于执行过程300的步骤的可执行指令和/或可以以诸如上述的结构来实施编程。作为过程300的总体概述，计算机100从相机108和传声器110接收数据，基于所述数据检测乘员佩戴的口罩，并且识别所述口罩的类型。如果乘员佩戴的口罩的类型以高于置信度阈值的置信度分数识别，则计算机100选择与口罩类型相对应的声音滤波器。如果乘员佩戴的口罩的类型以高于置信度阈值的置信度分数识别，则计算机100提示来自乘员的关于口罩类型的输入并选择与由乘员输入或由计算机100识别的口罩类型相对应的声音滤波器。计算机100将所选择的声音滤波器应用于声音数据，并且使用经滤波的声音数据执行操作。如果没有口罩，则计算机100基于未滤波的声音数据执行操作。
39.过程300在框305中开始，其中计算机100接收车辆102的至少一个乘员的传感器数据，例如，来自相机108的示出乘员的图像数据和/或来自传声器110的乘员的言语的声音数据。
40.接下来，在框310中，计算机100检测乘员中的一个佩戴的口罩。如果乘客舱104中有多个乘员，则计算机100选择乘员中的一个。例如，计算机100可以基于乘员处于图像数据的预先指定区域(例如，对应于坐在诸如操作员座椅106的特定座椅106中的乘员)中来选择乘员，并且然后检测该乘员佩戴的口罩。这可以允许计算机100检测车辆102的操作员佩戴的口罩。又例如，计算机100可以基于来自相应传声器110的声音数据的音量(例如，基于具有最高音量的传声器110)来选择乘员，并且然后检测最靠近该传声器110的乘员佩戴的口罩。这可以允许计算机100在来自传声器110b的音量大于来自传声器110a的音量时检测最可能为执行操作而说话的乘员(例如，坐在后座椅106中的乘员)佩戴的口罩。计算机100可使用常规图像识别技术例如卷积神经网络来识别佩戴口罩或未佩戴口罩的面部，所述卷积神经网络被编程为接受图像作为输入并且输出所识别的口罩存在或不存在。来自相机108的图像数据可以用作输入。卷积神经网络可以使用由位于与相机108相同的位置的相机产生的佩戴和未佩戴口罩的车辆乘员的图像。卷积神经网络包括一系列层，其中每一层使用前一层作为输入。每个层包含多个神经元，所述多个神经元接收由前一层的神经元的子集产生的数据作为输入，并且产生发送给下一层中的神经元的输出。层的类型包括：卷积层，其计算权重和小区域的输入数据的点积；池化层，其沿着空间维度执行下采样操作；以及全连接层，其基于前一层的所有神经元的输出而生成输出。卷积神经网络的最后一层为佩戴口罩和未佩戴口罩的面部生成置信度分数，并且最终输出是佩戴口罩或未佩戴口罩的面部具有最高置信度分数的任一个。出于本公开的目的，“置信度分数”是识别正确的概率的量度。可以针对乘客舱104中的相应乘员执行将乘员面部识别为佩戴口罩或未佩戴口罩。替代
地或另外地，计算机100可以检测多个乘员佩戴的口罩。
41.接下来，在框315中，计算机100识别乘员佩戴的口罩类型。计算机100可以使用图像数据对每个检测到的口罩执行如上所述的卷积神经网络，并且输出是针对每个乘员的具有最高置信度分数的口罩类型。卷积神经网络可以对口罩的图像数据进行操作，或者替代地对口罩上的徽标的图像数据进行操作。口罩类型可以由例如制造商和型号(例如，3m 1860、3m 1870、kimberly-clark 49214、scott xcel等)指定。可能的口罩类型中的一种是未知类型，即，不是存储在存储器中的任一口罩的口罩。替代地，可以针对框310和315执行单个卷积神经网络，并且针对每个乘员的输出是具有最高置信度分数的口罩类型、未知类型或未佩戴口罩的面部中的一者。替代地或另外地，计算机100可以识别多个乘员佩戴的口罩类型(或未佩戴口罩的面部)。如果口罩类型的识别是未知类型，则计算机100经由收发器118向远程服务器120传输更新。所述更新可以包括示出未知类型的口罩的图像数据。
42.接下来，在决策框320中，计算机100确定乘员是否佩戴着口罩，即，一个或多个卷积神经网络的输出是否为乘员的口罩和/或口罩类型，并且计算机100确定所述口罩类型的置信度分数是否高于置信度阈值。可以选择置信度阈值以指示正确地识别口罩类型的高可能性。在确定乘员佩戴着口罩并且口罩类型的置信度分数低于阈值分数时(或者如果所识别的口罩类型是未知类型)，过程300前进到框325。
43.在确定乘员佩戴着口罩并且口罩类型的置信度分数高于阈值分数时，过程300前进到框335。在确定乘员未佩戴口罩时，过程300前进到框355。
44.在框325中，计算机100提示乘员通过用户界面112提供指定乘员佩戴的口罩类型的输入。例如，用户界面112可以呈现口罩类型列表以供乘员从中进行选择。所述列表可以是存储在存储器中的默认列表。替代地，所述列表可以包括如在框315中确定的具有最高置信度分数的口罩类型，或者用户界面112可以显示具有最高置信度分数的单种口罩类型并要求乘员确认所述口罩类型是正确的。所述列表可以包括用于指示口罩的类型不在由计算机100存储的口罩类型中的选项，例如“其他”。选择该选项可以被视为乘员选择了口罩的类型是未知类型。当选择该选项时，计算机100可以经由收发器118向远程服务器120传输更新，如果计算机100在框315中尚未这样做的话。所述更新可以包括示出未知类型的口罩的图像数据。
45.接下来，在决策框330中，计算机100响应于框325中的提示而确定乘员是否输入了口罩类型。乘员通过从列表中选择口罩类型来提供输入，并且乘员可以通过选择拒绝提供口罩类型的选项(例如，标记为“自动选择口罩”的选项)或通过未能在时间阈值内选择口罩类型而未能提供输入。可以选择时间阈值以向乘员提供足够的时间来响应提示。如果乘员没有选择口罩类型，则过程300前进到框335。如果乘员选择了口罩类型，则过程300前进到框340。
46.在框335中，计算机100根据在框315中识别的口罩类型从存储在存储器中的多个声音滤波器中选择声音滤波器。从多个声音滤波器中进行选择可以提供最准确地将声音数据调整到基线水平的声音滤波器。
47.替代地，当计算机100已经识别出多种类型的口罩时，计算机100可以选择多个声音滤波器，每个声音滤波器与所识别的口罩类型中的一种相关联。计算机100可以例如通过简单平均或通过加权将声音滤波器组合在一起。可以基于佩戴着口罩的乘员相对于生成声
音数据的传声器110中的一个的位置(例如，基于来自相应传声器110的声音数据的音量)来对声音滤波器进行加权。如果第一传声器110a以比第二传声器110b更大的音量生成声音数据，则根据每种类型的口罩距所选择的传声器110a的相对距离来对声音滤波器进行加权。例如，如果类型1的口罩与所选择的传声器110a的距离为d1，并且类型2的口罩与所选择的传声器110a的距离为d2，则权重可以是w1＝d1/(d1 d2)和w2＝d2/(d1 d2)，并且所组合的声音滤波器可以是f
combo
(f)＝w1*f1(f) w2*f2(f)。在框335之后，过程300前进到框345。
48.在框340中，计算机100基于乘员的输入来识别口罩类型，并且从存储器中选择与所识别的口罩类型相关联的声音滤波器。换句话说，计算机100在接收到输入时通过执行框340而不是框335来用基于输入的识别来超驰基于图像数据或声音数据的识别。在框340之后，过程300前进到框345。
49.在框345中，计算机100从传声器110接收声音数据。声音数据可以包括乘员的言语。
50.接下来，在框350中，计算机100将所选择的声音滤波器或所选择的声音滤波器的组合应用于声音数据。声音滤波器将声音数据的音量调整一个取决于频率而变化的量。例如，对于声音数据的每个频率f，声音滤波器调整声压(即，调整音量)以针对该频率的声音滤波器的值，例如，sp
filt
(f)＝f(f) sp
unfilt
(f)。例如，当频率为500hz或更低时，声音滤波器可以仅略微调整音量，并且在1000hz和更高频率时将音量更多地增加到取决于口罩类型的程度。在框350之后，过程300前进到框360。
51.在框355中，即，在未检测到任何口罩之后，计算机100从传声器110接收声音数据。声音数据可以包括乘员的言语。在框355之后，过程300前进到框360。
52.在框360中，计算机100使用声音数据(来自框350的经滤波的声音数据或来自框355的未滤波的声音数据)执行操作。例如，所述操作可以是识别语音命令以激活特征，例如，将声音数据转换成文本，诸如“给披萨店打电话”、“播放播客”、“降低温度”等(或转换成识别命令的等效数据)。使用经滤波的声音数据可以帮助计算机100准确地识别语音命令。又例如，所述操作可以是在电话呼叫中传输声音数据。移动电话可以与用户界面112配对并用于拨打电话。使用经滤波的声音数据可以使呼叫的接收者容易理解乘员在说的话。又例如，所述操作可以是由扬声器114中的一个或多个输出经滤波的声音数据。源自第一传声器110的声音数据可以由乘客舱104后部的扬声器114使用和输出；换句话说，第一传声器110和扬声器114形成电信。使用经滤波的声音数据可以使后座椅106中的乘员更容易理解前座椅106中的乘员在说的话，而不是直接听到被口罩蒙住的乘员说话。在框360之后，过程300结束。
53.计算机可执行指令可以由使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术单独地或组合地包括但不限于c、c 、visual basic、java script、perl、html等。通常，处理器(例如，微处理器)例如从存储器、计算机100可读介质等接收指令，并且执行这些指令，由此执行一个或多个过程，其包括本文所述的过程中的一者或多者。此类指令和其他数据可使用各种计算机可读介质来存储和传输。联网装置中的文件通常是存储在计算机可读介质(诸如存储介质、随机存取存储器等)上的数据的集合。计算机可读介质包括参与提供可以由计算机读取的数据(例如，指令)的任何介质。此类介质可以采用许多形式，所述形式包括但不限于非易失性介质、易失性介质等。
非易失性介质包括例如光盘或磁盘和其他永久性存储器。易失性介质包括动态随机存取存储器(dram)，其通常构成主存储器。计算机可读介质的常见形式包括例如软盘、软磁盘、硬盘、磁带、任何其他磁性介质、cd rom、dvd、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、ram、prom、eprom、快闪eeprom、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。
54.已经以说明性方式描述了本公开，并且应当理解，已经使用的术语意图具有描述性词语而非限制性词语的性质。“响应于”和“在确定
……
时”的使用指示因果关系，而不仅是时间关系。形容词“第一”和“第二”贯穿本文档用作标识符，并且不意图表示重要性、顺序或数量。鉴于以上教导，本公开的许多修改和变化是可能的，并且本公开可以不同于具体描述的其他方式来实践。
55.根据本发明，提供了一种计算机，其具有处理器和存储指令的存储器，所述指令能够由所述处理器执行以：接收车辆的乘员的传感器数据；基于所述传感器数据识别所述乘员佩戴的口罩类型；根据所述口罩类型从存储在所述存储器中的多个声音滤波器中选择声音滤波器；接收声音数据；将所选择的声音滤波器应用于所述声音数据；以及使用经滤波的声音数据执行操作。
56.根据实施例，所述传感器数据是示出所述乘员的图像数据。
57.根据实施例，所述操作是识别语音命令以激活特征。
58.根据实施例，所述操作是在电话呼叫中传输经滤波的声音数据。
59.根据实施例，所述操作是由所述车辆的扬声器输出经滤波的声音数据。
60.根据实施例，所述指令包括用于在确定所述乘员未佩戴口罩时使用未滤波的声音数据来执行所述操作的指令。
61.根据实施例，所述指令包括用于在将所述口罩类型识别为未知类型时从所述多个声音滤波器中选择通用声音滤波器的指令。
62.根据实施例，所述指令包括用于在将所述口罩类型识别为所述未知类型时向远程服务器传输更新的指令。
63.根据实施例，所述更新包括所述口罩的图像数据。
64.根据实施例，所述指令包括用于基于所述乘员的输入来识别所述乘员佩戴的口罩类型的指令。
65.根据实施例，所述指令包括用于在接收到所述输入时利用基于所述输入的所述识别来超驰基于所述传感器数据的所述识别的指令。
66.根据实施例，所述指令包括用于在确定所述乘员佩戴着口罩时提示所述乘员提供所述输入的指令。
67.根据实施例，所述指令包括用于在确定所述乘员中的一个佩戴的口罩的类型以低于置信度阈值的置信度分数识别或者所述口罩的所述类型是未知类型时提示所述乘员提供所述输入的指令。
68.根据实施例，所述指令包括用于响应于所述输入指示所述口罩的所述类型不在存储在所述存储器中的所述口罩类型中而向远程服务器传输更新的指令。
69.根据实施例，所述指令包括用于基于来自相应传声器的声音数据的音量从多个乘员中选择要识别所述口罩类型的所述乘员的指令。
70.根据实施例，所述指令包括用于基于所述乘员处于所述图像数据的预先指定区域中从多个乘员中选择要识别所述口罩类型的所述乘员的指令。
71.根据实施例，每个声音滤波器将所述声音数据的音量调整取决于频率而变化的量。
72.根据实施例，每个声音滤波器以至少一个频率增加所述声音数据的所述音量。
73.根据实施例，所述指令包括用于从远程服务器接收改变存储在所述存储器中的所述多个声音滤波器的更新的指令。
74.根据本发明，一种方法包括：接收车辆的乘员的传感器数据；基于所述传感器数据识别所述乘员佩戴的口罩类型；根据所述口罩类型从存储在存储器中的多个声音滤波器中选择声音滤波器；接收声音数据；将所选择的声音滤波器应用于所述声音数据；以及使用经滤波的声音数据执行操作。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种骨科手术检查用轨迹球的制作方法

针对口罩的言语滤波的制作方法

相关文献

最热文献