一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多模态融合模型对单源对抗的防御的制作方法

2022-12-19 20:36:12 来源:中国专利 TAG:
多模态融合模型对单源对抗的防御
1.政府权利本发明的至少一个或多个部分可以在国防高级研究计划局(darpa)授予的美国政府合同号1190060-430433下得到政府支持。因此,美国政府可以对本发明享有一定的权利。
技术领域
2.本公开总体地涉及鲁棒的多模态机器学习系统。更具体地,本技术涉及经由训练并使用具有鲁棒融合层的剔除异常项网络(找出异常项网络,odd-one-out network)来改进多模态机器学习系统的鲁棒性。


背景技术:

3.在现实世界中,信息可以由不同的模态捕获和表达。例如,图像中的一组像素可以与标签和文本解释相关联;声音可以与由于速度、操作条件或环境条件而引起的振动相关联;并且超声可以与距离、大小和密度相关联。不同的模态可以由非常不同的统计特性来表征。例如,图像通常被表示为特征提取器的像素强度或输出,而声音可以是时间序列,并且超声可以产生点云。由于不同信息资源的不同统计特性,发现不同模态之间的关系是非常重要的。多模态学习是表示不同模态的联合表示的良好模型。多模态学习模型还能够在考虑到观察到的模态的情况下填充缺失的模态。


技术实现要素:

4.一种多模态感知系统包括控制器。所述控制器可以被配置为,从第一传感器接收第一信号,从第二传感器接收第二信号,以及从第三传感器接收第三信号,从所述第一信号提取第一特征向量,从所述第二信号提取第二特征向量,从所述第三信号提取第三特征向量,基于不一致的模态预测,经由机器学习网络的剔除异常项网络从所述第一、第二和第三特征向量确定剔除异常项向量(odd-one-out vector),将所述第一、第二和第三特征向量以及剔除异常项向量融合成融合特征向量,以及输出所述融合特征向量。
5.一种多模态感知方法,包括接收来自第一传感器的第一信号、来自第二传感器的第二信号和来自第三传感器的第三信号,从第一信号提取第一特征向量,从第二信号提取第二特征向量,和从第三信号提取第三特征向量,基于不一致的模态预测经由机器学习网络的剔除异常项网络从第一、第二和第三特征向量确定剔除异常项向量,将第一、第二和第三特征向量和剔除异常项向量融合成融合的特征向量,并输出融合特征向量。
6.一种用于自主车辆的多模态感知系统包括第一传感器和控制器,所述第一传感器是视频、radar(雷达)、lidar(激光雷达)或超声传感器中的一种。该控制器可以被配置为,从第一传感器接收第一信号,从第二传感器接收第二信号,并且从第三传感器接收第三信号,从第一信号提取第一特征向量,从第二信号提取第二特征向量,从第三信号提取第三特征向量,基于不一致的模态预测经由机器学习网络的剔除异常项网络从第一、第二和第三特征向量确定剔除异常项向量,将第一、第二和第三特征向量以及剔除异常项向量融合成
融合特征向量,输出融合特征向量,并且基于融合特征向量控制自主车辆。
附图说明
7.图1是用于训练神经网络的系统的框图。
8.图2是具有易损(脆弱,vulnerable)和鲁棒的输出的多模态模型上的示例性单源对抗扰动的图形表示。
9.图3是利用机器学习模型的数据注释系统的框图。
10.图4是多模态混合网络的图形表示。
11.图5是电子计算系统的框图。
12.图6是具有剔除异常项网络的多模态融合网络的图形表示。
13.图7是剔除异常项网络的图形表示。
14.图8是具有剔除异常项的输入的鲁棒特征融合层的图形表示。
15.图9是用于特征融合和剔除异常项网络的鲁棒训练策略的流程图。
16.图10a是示例性动作识别结果的图形表示。
17.图10b是示例性二维对象检测结果的图形表示。
18.图10c是示例性情感分析结果的图形表示。
19.图11是被配置为控制车辆的控制系统的示意图。
20.图12是被配置为控制制造机器的控制系统的示意图。
21.图13是配置成控制电动工具的控制系统的示意图。
22.图14是被配置为控制自动化个人助理的控制系统的示意图。
23.图15是被配置为控制监测系统的控制系统的示意图。
24.图16是配置成控制医学成像系统的控制系统的示意图。
具体实施方式
25.根据需要,在本文公开了本发明的详细实施例;然而,应当理解,所公开的实施例仅仅是本发明的示例,本发明可以以各种和替代的形式实施。附图不一定是按比例的;一些特征可能被夸大或最小化以示出特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。
26.术语“基本上”可以在本文中用于描述所公开的或要求保护的实施例。术语“基本上”可以修饰本公开中公开或要求保护的值或相对特性。在此类情况下,“基本上”可表示其修改的值或相对特性在该值或相对特性的
±
0%、0.1%、0.5%、1%、2%、3%、4%、5%或10%内。
27.术语传感器是指检测或测量物理性质并记录、指示或以其他方式响应物理性质的装置。术语传感器包括光学、光、成像或光子传感器(例如,电荷耦合器件(ccd)、cmos有源像素传感器(aps)、红外传感器(ir)、cmos传感器)、声学、声音或振动传感器(例如,麦克风、地震检波器、水听器)、汽车传感器(例如,车轮速度、停车、雷达、氧气、盲点、扭矩)、化学传感器(例如,离子敏感场效应晶体管(isfet)、氧气、二氧化碳、化敏电阻器、全息传感器)、电流、电势、磁或射频传感器(例如,霍尔效应、磁力计、磁阻、法拉第杯、电流计)、环境、天气、湿气或湿度传感器(例如,天气雷达、日射表)、流量或流体速度传感器(例如,质量空气流量
传感器、风速计)、电离辐射或亚原子粒子传感器(例如,电离室、盖革计数器、中子探测器)、导航传感器(例如,全球定位系统(gps)传感器、磁流体动力学(mhd)传感器)、位置、角度、位移、距离、速度或加速度传感器(例如,lidar、加速计、超宽带雷达、压电传感器)、力、密度或液位传感器(例如,应变仪、核密度仪)、热传感器、热量传感器或温度传感器(例如,红外线温度计、高温计、热电偶、热敏电阻、微波辐射计),或其目的是检测或测量物理性质并记录、指示或以其他方式对其作出响应的其他装置、模块、机器或子系统。
28.除了在许多视觉任务中实现高性能之外,由于模态之间冗余信息的可用性,预期多模态模型对于单源故障是鲁棒的。本公开提供了一种针对多模态神经网络对抗单个模态上的最坏情况(即,对抗)扰动的鲁棒性的解决方案。本公开将说明标准多模态融合模型易受单源对抗的攻击,例如,对任何单一模态的攻击可克服来自多个未受扰动模态的正确信息并导致模型失败。这种意外的弱点在各种多模态任务中存在,并且需要解决方案。本公开提出了一种对抗地鲁棒的融合策略,其训练模型以比较来自所有输入源的信息,检测与其他模态相比扰动的模态中的不一致性,并且仅允许来自未扰动的模态的信息通过。该方法显著地改进了现有技术方法的单源鲁棒性,实现了对动作识别的7.8-25.2%的增益、对目标检测的19.7-48.2%的增益、以及对情感分析的1.6-6.7%的增益,而不会降低基于实验结果的对未受扰动(即,干净(纯净,clean))数据的性能。
29.图1示出了用于训练神经网络的系统100。系统100可以包括用于访问神经网络的训练数据192的输入接口。例如,如图1中所示,输入接口可以由可以从数据存储装置190访问训练数据192的数据存储接口180构成。例如,数据存储接口180可以是存储器接口或永久存储接口,例如硬盘或ssd接口,但也可以是个人、局域或广域网接口,诸如蓝牙、zigbee或wi-fi接口或以太网或光纤接口。数据存储装置190可以是系统100的内部数据存储装置,诸如硬盘驱动器或ssd,但也可以是外部数据存储装置,例如网络可访问的数据存储装置。
30.在一些实施方式中,数据存储装置190还可以包括神经网络的未训练变型的数据表示194,其可以由系统100从数据存储装置190访问。然而,将理解的是,未训练的神经网络的训练数据192和数据表示194还可以各自从不同的数据存储装置访问,例如,经由数据存储接口180的不同子系统。每个子系统可以是如上针对数据存储接口180所述的类型。在其他实施例中,未训练的神经网络的数据表示194可以由系统100基于神经网络的设计参数在内部生成,并且因此可以不被明确地存储在数据存储装置190上。系统100还可以包括处理器子系统160,其可以被配置为在系统100的操作期间提供迭代函数作为要训练的神经网络的层的堆叠的替代。在一个实施例中,被替代的层堆叠的相应层可具有相互共享的权重,并且可接收前一层的输出或针对层堆叠的第一层而言接收初始激活以及层堆叠的输入的一部分作为输入。该系统还可以包括多个层。处理器子系统160还可以被配置为使用训练数据192迭代地训练神经网络。这里,处理器子系统160的训练迭代可以包括前向传播部分和后向传播部分。处理器子系统160可以被配置为通过确定迭代函数收敛到固定点的迭代函数的平衡点以及通过提供平衡点作为神经网络中的层堆叠的输出的替代来执行前向传播部分,其中确定平衡点包括使用数值求根算法来找到迭代函数减去其输入的根解,以及限定可以执行的前向传播部分的其他操作。系统100还可以包括用于输出经训练的神经网络的数据表示196的输出接口,该数据还可以被称为经训练的模型数据196。例如,也如图1中所示,输出接口可以由数据存储接口180构成,在这些实施例中所述接口是输入/输出(“io”)
接口,经由该接口,经训练的模型数据196可以被存储在数据存储装置190中。例如,限定“未训练”神经网络的数据表示194可以在训练期间或训练之后至少部分地被已训练神经网络的数据表示196替换,因为神经网络的参数,诸如神经网络的权重、超参数和其他类型的参数,可以适于反映对训练数据192的训练。这也在图1中通过参考数字194、196表示数据存储装置190上的相同数据记录来说明。在其他实施例中,数据表示196可以与限定“未训练”神经网络的数据表示194分开存储。在一些实施例中,输出接口可以与数据存储接口180分离,但是通常可以是如上文针对数据存储接口180所描述的类型。
31.图2是具有易损和鲁棒的输出的多模态模型上的示例性单源对抗扰动的图形表示200。通过不同的模态204分析沿着道路行进的卡车的场景202。在该示例中,不同的模态包括视频相机204a、lidar传感器204b和麦克风204c。来自不同模态的数据由多模态模型206中的处理器或控制器处理,并且输出场景208的预测,其可以用于控制诸如机器人系统、自主车辆、工业系统或其他电气/机电系统之类的系统。如果对模态之一(例如,视频相机204a)发生了对抗扰动,则场景的预测206可能是不准确的珍贵预测206a。然而,使用鲁棒多模态模型206可以产生卡车的鲁棒预测206b,即使存在对视频相机204a的对抗性扰动。本公开将提出一种在对模态的对抗扰动的情况下产生鲁棒预测的系统和方法,以及一种训练鲁棒多模态模型的系统和方法。
32.图3描绘了实现用于注释数据的系统的数据注释系统300。数据注释系统300可以包括至少一个计算系统302。计算系统302可以包括至少一个处理器304,其可操作地连接到存储器单元308。处理器304可以包括实现中央处理单元(cpu) 306的功能的一个或多个集成电路。cpu 306可以是市场上可买到的处理单元,其实现指令集,诸如x86、arm、power或mips指令集系列之一。在操作期间,cpu 306可以执行从存储器单元308检索的存储的程序指令。所存储的程序指令可以包括控制cpu 306的操作以执行本文描述的操作的软件。在一些示例中,处理器304可以是将cpu 306、存储器单元308、网络接口和输入/输出接口的功能集成到单个集成设备中的片上系统(soc)。计算系统302可以实现用于管理操作的各个方面的操作系统。
33.存储器单元308可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器,诸如nand闪存、磁和光存储介质、或在计算系统302被去激活或失去电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(ram)。例如,存储器单元308可以存储机器学习模型310或算法、用于机器学习模型310的训练数据集312、原始源数据集315。模型310可以包括如本公开中所描述的以及图7中所图示的剔除异常项网络。此外,训练数据集312可以包括如本公开中所描述的以及图4、图6、图7和图8中所图示的特征和特征提取器。并且原始源315可以包括来自如本公开中所描述的以及图4和图6中所图示的多个输入模态的数据。
34.计算系统302可包括被配置成提供与外部系统和设备的通信的网络接口设备322。例如,网络接口设备322可以包括由电气和电子工程师协会(ieee) 802.11标准族定义的有线和/或无线以太网接口。网络接口设备322可以包括用于与蜂窝网络(例如,3g、4g、5g)通信的蜂窝通信接口。网络接口设备322可以进一步被配置为提供到外部网络324或云的通信接口。
35.外部网络324可以被称为万维网或因特网。外部网络324可以在计算设备之间建立标准通信协议。外部网络324可以允许信息和数据在计算设备和网络之间容易地交换。一个或多个服务器330可以与外部网络324通信。
36.计算系统302可包括输入/输出(i/o)接口320,其可被配置成提供数字和/或模拟输入和输出。i/o接口320可以包括用于与外部设备通信的附加串行接口(例如,通用串行总线(usb)接口)。
37.计算系统302可包括人机接口(hmi)设备318,其可包括使系统300能够接收控制输入的任何设备。输入设备的示例可以包括诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备之类的人机接口输入。计算系统302可以包括显示设备332。计算系统302可以包括用于向显示设备332输出图形和文本信息的硬件和软件。显示设备332可以包括电子显示屏、投影仪、打印机或用于向用户或操作者显示信息的其他合适的设备。计算系统302还可被配置成允许经由网络接口设备322与远程hmi和远程显示设备交互。
38.系统300可以使用一个或多个计算系统来实现。虽然该示例描绘了实现所有所描述的特征的单个计算系统302,但是旨在各种特征和功能可以由彼此通信的多个计算单元来分离和实现。所选择的特定系统架构可以取决于各种因素。
39.系统300可以实现被配置为分析原始源数据集315的机器学习算法310。原始源数据集315可以包括原始或未处理的传感器数据,其可以表示用于机器学习系统的输入数据集。原始源数据集315可以包括视频、视频片段、图像、基于文本的信息以及原始或部分处理的传感器数据(例如,对象的雷达地图)。在一些示例中,机器学习算法310可以是被设计成执行预定功能的神经网络算法。例如,神经网络算法可以被配置在汽车应用中以识别视频图像中的行人。
40.计算机系统300可以存储用于机器学习算法310的训练数据集312。训练数据集312可以表示用于训练机器学习算法310的一组先前构建的数据。训练数据集312可以由机器学习算法310使用以学习与神经网络算法相关联的权重因子。训练数据集312可以包括具有机器学习算法310试图经由学习过程复制的相应产出或结果的源数据集。在该示例中,训练数据集312可以包括具有和不具有行人的源视频以及对应的存在和位置信息。源视频可以包括其中识别行人的各种场景。
41.机器学习算法310可以使用训练数据集312作为输入在学习模式中操作。机器学习算法310可以使用来自训练数据集312的数据在多次迭代中执行。对于每次迭代,机器学习算法310可以基于所获得的结果更新内部权重因子。例如,机器学习算法310可以将输出结果(例如,注释)与训练数据集312中包括的那些结果进行比较。由于训练数据集312包括预期结果,因此机器学习算法310可以确定何时性能是可接受的。在机器学习算法310达到预定性能水平(例如,与训练数据集312相关联的结果100%一致)之后,机器学习算法310可以使用不在训练数据集312中的数据来执行。经训练的机器学习算法310可被应用于新数据集以生成经注释的数据。
42.机器学习算法310可以被配置为识别原始源数据315中的特定特征。原始源数据315可以包括需要注释结果的多个实例或输入数据集。例如,机器学习算法310可以被配置为识别视频图像中行人的存在并且注释该出现。机器学习算法310可以被编程为处理原始源数据315以识别特定特征的存在。机器学习算法310可被配置成将原始源数据315中的特
征识别为预定特征(例如,行人)。原始源数据315可以从各种源得出。例如,原始源数据315可以是由机器学习系统收集的实际输入数据。原始源数据315可以是用于测试系统的机器生成的。作为示例,原始源数据315可以包括来自相机的原始视频图像。
43.在该示例中,机器学习算法310可以处理原始源数据315并且输出图像的表示的指示。输出还可以包括图像的增强表示。机器学习算法310可以为每个生成的输出生成置信水平或因子。例如,超过预定高置信度阈值的置信度值可以指示机器学习算法310确信所识别的特征对应于特定特征。小于低置信度阈值的置信度值可以指示机器学习算法310具有特定特征存在的某种不确定性。
44.图4是多模态融合系统400的图形表示。多模态融合网络402接收输入模态404a、404b、404c,并从每个模态提取特征406a、406b、406c,并将其混合在融合层408和随后的下游层410中,以产生输出。这种多模态融合系统400可以在电子计算系统上实现。该系统400可以在理想条件下很好地操作,然而,如果模态之一经历了对抗扰动(例如,输入模态404b),则系统可能提供无效输出。
45.示例机器架构和机器可读介质。图5是适于实现系统或适于执行本文公开的方法的电子计算系统的框图。图5的机器被示为独立设备,其适于实现本公开内的构思。对于上述服务器方面,可以使用在数据中心、云架构的一部分等中操作的多个这样的机器。在服务器方面,并非所有示出的功能和设备都被利用。例如,虽然用户用来与服务器和/或云架构交互的系统、设备等可以具有屏幕、触摸屏输入等,但是服务器通常不具有屏幕、触摸屏、相机等,并且通常通过具有适当的输入和输出方面的连接系统与用户交互。因此,下面的架构应当被认为包含多种类型的设备和机器,并且各个方面可以存在于或不存在于任何特定设备或机器中,这取决于其形状因子和目的(例如,服务器很少具有相机,而可穿戴设备很少包括磁盘)。然而,图5的示例性解释适于允许本领域技术人员确定如何通过硬件和软件的适当组合、通过对所使用的特定设备、机器等的所示出的实施例的适当修改来实现先前描述的实施例。
46.虽然仅示出了单个机器,但是术语“机器”还应被理解为包括单独地或联合地执行一组(或多组)指令以执行本文所讨论的方法中的任何一个或多个的机器的任何集合。
47.机器500的示例包括至少一个处理器502 (例如,控制器、微控制器、中央处理单元(cpu)、图形处理单元(gpu)、张量处理单元(tpu)、高级处理单元(apu)或其组合)、一个或多个存储器,诸如主存储器504、静态存储器506或其他类型的存储器,其经由链路508彼此通信。链路508可以是总线或其它类型的连接信道。机器500可包括其它可选方面,诸如包括任何类型的显示器的图形显示单元510。机器500还可以包括其他可选方面,诸如字母数字输入设备512 (例如,键盘、触摸屏等)、用户接口(ui)导航设备514 (例如,鼠标、轨迹球、触摸设备等)、存储单元516 (例如,磁盘驱动器或其他存储设备)、信号生成设备518 (例如,扬声器)、传感器521 (例如,全球定位传感器、加速度计、麦克风、相机等)、输出控制器528 (例如,用于连接一个或多个其他设备和/或与一个或多个其他设备通信的有线或无线连接,所述有线或无线连接诸如通用串行总线(usb)、近场通信(nfc)、红外(ir)、串行/并行总线等)以及用于连接到一个或多个网络和/或通过一个或多个网络通信的网络接口设备520 (例如,有线和/或无线)。
48.各种存储器(即,504、506和/或处理器502的存储器)和/或存储单元516可存储一
组或多组指令和数据结构(例如,软件) 524,其体现本文描述的方法或功能中的任何一者或多者或由本文描述的方法或功能中的任何一者或多者利用。这些指令在由(一个或多个)处理器502执行时引起各种操作以实现所公开的实施例。
49.图6是具有剔除异常项网络的多模态融合系统的图形表示。多模态融合网络602接收输入模态604a、604b、604c,并从每个模态提取特征606a、606b、606c,所述特征是特征向量。特征提取器606的输出被馈送到剔除异常项网络612中。剔除异常项网络612生成“不一致的”模态预测,其与特征提取器606的输出一起被馈送到鲁棒融合层608。鲁棒融合层608输出融合的特征向量,该融合的特征向量随后被馈送到下游层610以产生输出。这种多模态融合系统600可以在电子计算系统上实现。
50.图7是诸如图6的剔除异常项网络612的剔除异常项网络700的图形表示,网络700接收诸如来自特征提取器602a、602b和602c的输出的特征702,并生成模态预测权重704,使得对于每个特征通道是相关联的模态预测权重704a、704b和704c。这些模态预测权重704a、704b和704c产生剔除异常项向量,该向量被转发到鲁棒特征融合层。
51.图8是具有剔除异常项的输入的鲁棒特征融合层800的图形表示。该融合层800从每个模态接收特征802并且对每个模态执行融合804以产生用于每个模态的融合特征806。融合特征806与来自图7的模态预测704融合以产生输出。
52.考虑图2中所示的多模态神经网络,其融合来自k个不同源的输入以识别自主驾驶系统的对象。如果模态之一(例如,红绿蓝相机)接收到最坏情况或对抗性扰动,则模型未能检测到场景中的卡车替代地,该模型使用剩余的k-1个无扰动模态(例如,lidar传感器、音频麦克风等)做出鲁棒预测该示例示出了在真实世界多模态系统中,单源对抗鲁棒性(single-source adversarial robustness)对于避免灾难性故障的重要性。在实际设置中,任何单个模态可能受到最坏情况扰动的影响,而多个模态通常不会同时失效,尤其是在物理传感器未耦合的情况下。
53.在对抗鲁棒性的领域中,大多数研究已经集中于单模态设置而不是多模态设置。用于防御单模态模型以抵抗对抗的有效策略是对抗训练(adversarial training)(即,在对抗示例上模型的端到端训练)。原则上,对抗训练也可以扩展到多模态模型,但是它具有若干不利方面:(1)它是资源密集型的,并且可能不能很好地扩展到包含比它们的单模态对应物更多的参数的大的多模态模型;(2)它显著降低了干净数据的性能。由于这些原因,端到端的对抗训练对于在现实任务中使用的多模态系统可能是不实际的。
54.本公开在具有三种模态(k=3)的不同基准任务上呈现了针对单源对抗的多模态鲁棒性:epic-kitchens的动作识别、kitti的目标检测和cmu-mosi的情感分析。虽然本公开使用三种模态作为示例,但本公开不限于3种模态,而是可以扩展到3种以上。本公开将说明标准多模态融合实践易受单源对抗扰动。即使当存在多个可以产生正确预测的无扰动模态时,使用来自受扰动模态的特征与来自干净模态的特征的自然混淆可能不会自动产生鲁棒预测。如图4中所示,在多模态模型的任何单一模态的最坏情况输入可能比其他模态重要,并导致模型失败。事实上,与预期相反,在一些情况下,在相同攻击下,单源扰动下的多模态模型(k = 3)并不优于单模态模型(k = 1)。
55.本公开提出了一种对抗鲁棒的融合策略,其可应用于中期融合模型到后期融合模
型以防御该脆弱性而不降低干净性能。基于这样的假设,即,可以训练多模态模型以检测来自不同模态的特征之间的对应(或缺乏对应),并使用该信息来执行抵御受扰动模态的鲁棒特征融合。该方法利用基于剔除异常项学习(odd-one-out learning)的鲁棒融合训练过程来扩展关于自适应门控策略(gating strategy)的现有工作,以在不降低干净的性能的情况下提高单源对抗鲁棒性。通过广泛的实验,该方法甚至对于使用鲁棒融合策略的自适应白盒攻击也是有效的。该系统的示例性实施例在单源鲁棒性方面显著地优于现有技术方法。测试该示例性系统和方法的结果在对epickitchens的动作识别上实现了7.8-25.2%的增益,在对kitti的2d对象检测上实现了19.7-48.2%的增益,并且在cmu-mosi上实现了1.6-6.7%的情感分析。
56.通常,多模态模型对于单源对抗不是固有地鲁棒的,但是本公开示出了如何在没有与单模态模型中的端到端对抗训练相关联的缺点的情况下改进多模态模型的鲁棒性。鲁棒融合架构与鲁棒融合训练的组合可以是用于防御现实世界系统免受对抗攻击的实际策略,并且为未来的研究建立了有前途的方向。
57.对抗鲁棒性。基于深度学习模型的视觉系统易受对抗性攻击的影响,所述对抗性攻击即对输入的附加的、最坏情况的和察觉不到的扰动,这导致错误的预测。已经提出了许多抵抗对抗攻击的防御方法,其中两个最有效的防御是端对端对抗训练,其综合对抗示例并将它们包括在训练数据中,以及可证实地的鲁棒训练,其提供了对性能的理论限制。然而,这些方法集中在单模态设置上,其中输入是单个图像。与这些工作相反,考虑多模态设置中的单源对抗扰动,并且利用模态之间的一致信息来提高模型融合步骤的鲁棒性。这种训练过程在某种意义上与对抗性训练有关,即它也使用扰动的输入,但是代替模型参数的端到端训练,焦点在于以鲁棒的方式设计和训练特征融合。该策略带来来自对抗训练的益处,同时保持对干净数据的性能并且显著减少需要对扰动数据训练的参数的数量。
58.多模态融合模型。多模态神经网络在各种视觉任务上具有良好的性能,所述视觉任务诸如场景理解、对象检测、情感分析、语音识别和医学成像。在融合方法方面,门控网络根据输入自适应地对源进行加权。这些融合方法利用多种模态来改进任务的干净执行,但是不评估或扩展这些方法来改进单源鲁棒性,这是本公开的焦点之一。
59.单源鲁棒性。最近的几项工作提供了对单源损坏(例如遮挡、缺失和高斯噪声)对具有两种模态(k=2)的对象检测系统的影响的重要理解。与此相反,本公开考虑单源对抗性扰动,其探究由于一个扰动模态而导致的多模态系统的最坏情况故障。本公开考虑除了对象检测之外的其他任务,并且利用三种模态(k=3)评估模型,其中存在比扰动源更多的干净源。在防御策略方面,基于端到端鲁棒训练和自适应门控融合层的鲁棒多模态融合方法提高了对破坏的单源鲁棒性。本公开通过开发鲁棒融合策略来扩展这一点,该策略平衡了未受扰动模态之间的对应关系以防御受扰动模态,并且有效地抵御更具挑战性的对抗扰动。
60.单源对抗扰动。
61.设 表示具有k个输入模态(即,)的多模态模型。考虑f的性能由于任何单一模态(其中)上的最坏情况扰动而降低到的程度,而其他k-1模态保持不受扰动。为此,将针对模态i上的f的单源对抗扰动定义为等式1,
其中是损耗函数,并且定义了扰动的允许范围。假设从分布d中采样多模态输入x和输出y,则f相对于模态的单源对抗性能由下式给出,f对未受扰动数据的性能,即,与其在等式(2)中规定的单源对抗性能之间的差异平均起来表示f对其在模态i上的最坏情况输入的灵敏度。理想地,可以访问具有冗余信息的多个输入模态的多模态模型不应该对单个输入上的扰动敏感;它应当能够通过利用剩余的k-1无扰动模态来做出正确的预测。然而,可以看出,在各种多模态基准任务中,标准多模态融合模型令人惊讶地易受这些扰动的影响,即使干净模态的数量超过了扰动模态。实验和结果在本公开的稍后部分中提供,但是这种弱点使得需要一种解决方案。
62.对抗鲁棒融合策略。
63.设是标准的多模态神经网络,其被预训练以实现对未受扰动的数据的可接受的性能,即,其最小化。本文公开的鲁棒融合策略旨在通过利用未受扰动模态之间的对应关系来检测和防御受扰动模态,从而提高的单源鲁棒性。假设具有中期到后期融合架构,其由应用于它们各自模态的模态特定特征提取器以及融合子网络h的成分组成:为了使更具鲁棒性,为其配备了辅助的剔除异常项网络和鲁棒的特征融合层,以代替默认的特征融合操作,如图2(a)中所示。然后基于剔除异常项学习和集中于这些新模块的对抗训练来执行鲁棒训练。当被呈现不同模态的特征表示时(例如,剔除异常项学习),训练剔除异常项网络o以检测不一致或扰动的模态。鲁棒特征融合层使用剔除异常项网络的输出集合不同的多模态融合操作,从而确保只有彼此一致的模态被传递到下游层(例如鲁棒特征融合层)。将配备有鲁棒特征融合层的融合子网络h表示为,并且将完整的、增强的多模态模型表示为,如等式4所表示的,最后,联合训练剔除异常项网络o和融合子网络,同时保持特征提取器的权重和架构从固定(例如,鲁棒训练过程)。
64.剔除异常项学习。
65.剔除异常项学习是旨在从一组原本一致的元素(例如,图7)中识别不一致的元素的自监督任务。为了利用模态之间的共享信息,用剔除异常项网络来扩充多模态模型。给定
从k模态输入提取的特征集合,剔除异常项网络预测多模态特征是否彼此一致(即,输入全部是干净的)或者一个模态是否与其它模态不一致(即,一些输入已经被扰动)。为了执行这个任务,剔除异常项网络必须比较来自不同模态的特征,识别它们之间的共享信息,并且检测与其它模态不一致的任何模态。为了方便起见,将特征作为应用于其相应模态的特征提取器网络的最终输出。然而,原则上,这些特征也可以来自特征提取器的任何中间层。
66.具体地,剔除异常项网络是将特征z映射到大小为k 1的向量的神经网络o,如图7中所示。该向量的第i个条目指示模态i已经被扰动的概率,即与其它特征不一致。向量的第k 1个条目指示模态中没有一个被扰动的概率。通过最小化以下交叉熵损耗(cross-entropy loss)来训练剔除异常项网络o以执行剔除异常项预测:其中是从在训练期间生成的扰动输入中提取的特征。
67.鲁棒特征融合层。
68.为了将剔除异常项网络o的输出集成到多模态模型中,考虑由专家混合层(mixture-of-experts layer)激发的特征融合层(例如,图8)。该层由k 1个特征融合操作的集合组成,每个操作专门排除一个模态,如图8中所示。形式上,每个融合操作采用多模态特征z作为输入,并如下地执行特征子集的融合:其中表示拼接操作(concatenation operation),并且nn表示浅层神经网络(shallow neural network)。根据定义,负责执行来自除针对i之外的所有模态的特征的融合,并且仅融合来自所有模态的特征。
69.如果特征由于是由扰动的输入产生的而与来自其它k-1模态的特征不一致,则基于剔除异常项网络的输出接收比其它融合操作更多的权重:然后通过为融合子网络h配备这个鲁棒特征融合层来形成鲁棒融合子网络。然后训练和o以优化干净性能,如等式8所表示的,以及单源鲁棒性能,如等式9所表示的
关于每个模态,其中是从在训练期间生成的扰动的输入提取的特征。注意,到融合网络的参数中的一者现在是o的输出。
70.时空维度。公式假定是一维特征表示,在这种情况下,剔除异常项网络o和融合操作可以被实现为浅层的全连接网络(例如,两个全连接层)。在许多多模态模型中,特征还具有在不同模态之间对齐的时空维度,即,,其中是特征通道的数量,而是共享的时空维度(例如,从视频中提取的音频和视觉特征沿时间轴对齐,从不同的视觉模态中提取的特征沿空间轴对齐)。在那些情况下,剔除异常项网络和融合操作被更有效地实现为具有滤波器的卷积神经网络。这使得能够在时空维度上并行计算等式(5)和(7)中的损耗。
71.鲁棒训练程序配备了剔除异常项网络o和融合子网络的多模态包含一种机制,该机制比较来自所有输入源的信息,检测扰动的模态与其他未扰动的模态不一致,并且仅允许来自未扰动的模态的信息通过。在训练期间,使用来自等式1的单源对抗性扰动来生成扰动输入,即,让注意,这种对抗扰动是针对生成的。换言之,该方法执行融合网络的对抗性训练并且还利用对抗性示例来提供用于剔除异常项学习的自监督标签。如算法1中所示,关于等式(5)、(8)和(9)中的损耗优化剔除异常项网络o和融合子网络的参数。注意到,没有必要重新训练已经在干净数据上预训练的特征提取器。
72.图9是用于特征融合和剔除异常项网络的鲁棒训练策略900的流程图。该流程图对应于上述算法1。在步骤902中,控制器初始化如算法1的行2中所示的剔除异常项损耗(odd-one-out loss)。在步骤904中,控制器初始化如算法1的行3中所示的任务损耗。在步骤906中,控制器从如算法1的行4中所示的训练数据集接收样本,并且进行到步骤908,其中控制器使用如算法1的行5中所示的函数g处理样本。在步骤910中,控制器使用如算法1的行6中所示的没有扰动的样本更新剔除异常项损耗,在步骤912中,控制器使用如算法1的行7中所示的没有扰动的样本更新任务损耗。在步骤914中,控制器针对每个模态生成扰动。在步骤916中,控制器使用具有如算法1的行11中所示的对抗扰动的样本更新剔除异常项损耗。在步骤918中,控制器使用具有如算法1的行12中所示的对抗扰动的样本更新任务损耗。并且在步骤920中,响应于满足停止准则,控制器将分支回到步骤914以提供另一扰动的迭代。并且响应于满足停止准则,控制器将分支到步骤924。在步骤924中,控制器将计算包括如算法1的行13中所示的剔除异常项损耗和任务损耗的总损耗。在步骤926中,控制器将更新如算法1的行14中所示的融合函数和剔除异常项网络。在步骤920中的停止准则可以包括预定的迭代次数、预定的运行时间、收敛到阈值、或其组合。
73.示例性实验数据。
74.多模态模型的单源对抗鲁棒性的示例性评估在三个基准任务上执行:epic-kitchen上的动作识别、kitti上的2d对象检测、以及mosi上的情感分析。被考虑的基准涉及三种输入模态,并且跨越更大的各种任务和数据源,确保所得出的结论的一般性。在表1中可以找到总结。
75.示例性多模态基准任务。
76.epic-kitchens的示例性动作识别。epic-kitchens是由39,596个视频剪辑组成的
大型自我中心视频数据集。目的是预测在视频中发生的动作,该动作分别由126和331类中的一个动词和一个名词组成。从原始数据集可以获得三种模态:视觉信息(rgb帧)、运动信息(光流)和音频信息。图10a是示例性动作识别结果的图形表示。
77.在kitti上的示例性对象检测。kitti是自主驾驶数据集,其包含用于2d对象检测的立体相机和lidar信息,其中目标是在来自预定义类别的感兴趣对象周围绘制边界框,所述感兴趣对象即汽车、行人、骑行者等。现有的工作使用可用数据模态的不同组合和处理变型来进行对象检测。对于所提出的基准,考虑以下三种模态:(1)大多数检测方法所使用的rgb帧,(2)投影到稀疏深度图的lidar点,以及(3)从立体视图估计的深度图。图10b是示例性二维对象检测结果的图形表示。
78.cmu-mosi的示例性情感分析。多模态意见级情感强度语料库(cmu-mosi)是用于情感分析的多模态数据集,其由电影评论的93个视频剪辑组成,每个视频剪辑被分成平均23.2个片段。每个片段用[

3,3]之间的连续情感强度来标记。目的是在二进制尺度(二元尺度,binary scale)(即负对比正)或7级尺度(7-class scale)(即舍入到最接近的整数)上预测情感。mosi包含三种模态:文本、视频和音频。图10c是示例性情感分析结果的图形表示。
[0079]
示例性实现细节。
[0080]
示例性模型架构和训练。对于每个任务,考虑使用表1的第4列中总结的体系结构的中期到后期多模态模型。对干净数据执行每个任务的第一训练基线多模态模型以获得。然后根据对抗鲁棒融合策略,将这些模型与剔除异常项网络和鲁棒特征融合层进行扩充,得到,并根据算法1进行鲁棒训练。
[0081]
示例性的对抗性攻击。在表1的第5列中总结了每个任务的对抗扰动,使用投影梯度下降(pgd)攻击除了文本之外的各个模态,在文本中,使用了单词替换。注意,这些扰动是白盒自适应攻击,即,完全了解而生成攻击。还执行其他类型的攻击,例如转移攻击、目标攻击和特征级攻击。
[0082]
示例性评估度量。表1的第6列总结了用于每个任务的度量。对于动作识别,考虑动词、名词和动作的分类准确度。对于对象检测,在表中所示的交集-并集(交并比,intersection-over-union)(iou)阈值处以及在kitti评估服务器之后的三个难度级考虑汽车、行人和骑行者检测的平均准确度。对于情感分析,考虑二进制和7级预测精度。对于每个度量,考虑干净的性能以及在单源攻击下的性能。
[0083]
基线除了本公开中呈现的方法之外,评估了两种类型的方法:用干净数据训练的标准多模态模型(标准训练)和具有鲁棒训练的现有技术鲁棒多模态模型用以下融合评估。
[0084]
具有标准训练的拼接融合(concatenation fusion)(“concat fusion”)。使用具有相同特征提取器以及在最终层之前的拼接特征的多模态模型,这是用于融合特征的标准方法。
[0085]
具有标准训练的平均融合(均值融合,“mean fusion”)。对于每个模态,利用与干净数据上的多模态模型相同的特征提取器和最终层来训练单模态模型。然后通过取它们的平均值,即,融合单模态模型输出。对于动作识别和情感分析,在logits层
(logits layer)上执行平均融合。对于对象检测,在yolo层(yolo layer)之前执行融合。平均融合是在最近的融合模型中使用的常见融合实践,并且在对抗扰动的防御的背景下,其等同于不同模态之间的软投票策略。
[0086]
具有鲁棒训练的潜在集合层(“lel robust”)。该方法包括(1)在干净数据和其中每个单源损坏以交替方式进行的数据上进行训练,以及(2)使用拼接融合,随后是线性网络,来使多模态特征集合。通过在用单源扰动增强的数据上用lel robust融合层训练这些多模态模型,使该策略适应本公开中呈现的模型。
[0087]
具有鲁棒训练的信息选通融合(information-gated fusion)(“gating robust”)。该方法在将来自不同模态的特征集合之前将乘法门控函数应用于来自不同模态的特征。在干净数据和具有单源损坏的数据上训练自适应门控函数(gating function)。通过在用单源对抗扰动增强的数据上用这些多模态模型的门控特征融合层训练这些多模态模型,使该鲁棒策略适应于本公开中呈现的模型。
[0088]
上限(“oracle (upper bound)”)。为了获得在针对每个模态的攻击下鲁棒性能的经验上限,训练并评估排除扰动模态的2模态模型。这个模型被称为“oracle”,因为它假设完全知道哪个模态被攻击(即,完全的剔除异常项网络),这在实践中是不可用的。
[0089]
表4. mosi上的二进制和七级分类结果(%)。
[0090]
表5. 使用来自每个模态的特征的未对齐表示和对齐表示对比的剔除异常项网络的检测率(%)。
[0091]
表6. 本发明的特征提取器以及多模态模型的融合网络中的参数的数量(以百万计)。
[0092]
图11-图16示出了示例性实施例,然而本公开的构思可应用于另外的实施例。一些示例性实施例包括:其中模态可以包括视频、重量、ir、3d相机和声音的工业应用;动力工具或器具应用,其中模态可以包括扭矩、压力、温度、距离或声音;医学应用,其中模态可以包括超声、视频、cat扫描、mri或声音;机器人应用,其中模态可以包括视频、超声、lidar、ir或声音;以及其中模态可以包括视频、声音、ir或lidar的安全应用。模态可以具有不同的数据集,例如,视频数据集可以包括图像,lidar数据集可以包括点云,以及麦克风数据集可以包括时间序列。
[0093]
图11是被配置为控制车辆的控制系统1102的示意图,该车辆可以是至少部分自主的车辆或至少部分自主的机器人。车辆包括传感器1104和致动器1106。传感器1104可以包括一个或多个基于波能的传感器(例如,电荷耦合器件ccd或视频)、雷达、lidar、麦克风阵列、超声波、红外、热成像、声成像或其它技术(例如,诸如gps的定位传感器)。一个或多个特定传感器中的一个或多个可以集成到车辆中。替代地或除了以上标识的一个或多个特定传感器之外,控制模块1102可以包括被配置成在执行时确定致动器1104的状态的软件模块。
[0094]
在车辆是至少部分自主的车辆的实施例中,致动器1106可以实施在车辆的制动系统、推进系统、发动机、传动系或转向系统中。可以确定致动器控制命令,使得致动器1106被控制,使得车辆避免与检测到的对象碰撞。还可以根据分类器认为检测到的对象最可能是什么来对它们进行分类,诸如行人或树木。致动器控制命令可以根据分类来确定。例如,控制系统1102可以将来自传感器1104的图像(例如,光学、声学、热学)或其他输入分割成一个或多个背景类和一个或多个对象类(例如,行人、自行车、车辆、树木、交通标志、交通灯、道路碎片或建筑桶状物/锥形物等),并且向致动器1106发送控制命令,以避免与对象碰撞,在这种情况下,致动器被实施在制动系统或推进系统中。在另一示例中,控制系统1102可以将图像分割成一个或多个背景类和一个或多个标记类(例如,车道标志、护栏、道路边缘、车辆轨道等),并且将控制命令发送到在此实施在转向系统中的致动器1106,以使车辆避免越过标记并且保持在车道中。在可能发生对抗性攻击的场景中,上述系统可以被进一步训练以更好地检测对象或识别车辆上的传感器或相机的照明条件或角度的变化。
[0095]
在车辆1100是至少部分自主的机器人的其他实施例中,车辆1100可以是被配置为执行诸如飞行、游泳、潜水和踏步之类的一个或多个功能的移动机器人。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这样的实施例中,致动器控制命令1106可以被确定为使得移动机器人的推进单元、转向单元和/或制动单元可以被控制为使得移动机器人可以避免与识别的对象碰撞。
[0096]
在另一实施例中,车辆1100是园艺机器人形式的至少部分自主的机器人。在这样的实施例中,车辆1100可以使用光学传感器作为传感器1104以确定在接近车辆1100的环境中的植物的状态。致动器1106可以是被配置为喷射化学品的喷嘴。根据识别的种类和/或识别的植物的状态,可以确定致动器控制命令1102以使致动器1106用合适量的合适化学品喷洒植物。
[0097]
车辆1100可以是家用电器形式的至少部分自主的机器人。家用电器的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这种车辆1100中,传感器1104可以是光学或声学传感器,其被配置成检测将由家用电器进行处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器1104可以检测洗衣机内的衣物的状态。致动器控制命令可以基于所
检测的衣物的状态来确定。
[0098]
在该实施例中,控制系统1102将从传感器1104接收图像(光学或声学)和注释信息。使用这些和存储在系统中的规定数量的类别k和相似性度量,控制系统1102可以使用图10中描述的方法来对从传感器1104接收的图像的每个像素进行分类。基于该分类,信号可以被发送到致动器1106,例如,以制动或转向以避免与行人或树木碰撞,以转向以保持在检测到的车道标志之间,或如上所述由致动器1106执行的任何动作。基于该分类,信号也可被发送到传感器1104,例如,以聚焦或移动相机镜头。
[0099]
图12描绘了被配置成控制制造系统102的系统1200(例如,制造机器) 、诸如制造系统102的冲压切割机、切割机或深孔钻的控制系统1202的示意图,该制造系统102诸如是生产线的一部分。控制系统1202可以被配置为控制致动器14,致动器被配置为控制系统100 (例如,制造机器)。
[0100]
系统1200 (例如,制造机器)的传感器1204可以是波能传感器,诸如被配置成捕获所制造的产品的一个或多个属性的光学或声学传感器或传感器阵列。控制系统1202可以被配置为根据所捕获的属性中的一个或多个来确定制造产品的状态。致动器1206可以被配置为根据针对制作出的产品的后续制造步骤确定的制作出的产品104的状态来控制系统1202 (例如,制造机器)。致动器1206可以被配置为根据先前制造的产品的所确定的状态来控制图11的对系统(例如,制造机器)的后续制造的产品的功能。
[0101]
在该实施例中,控制系统1202将从传感器1204接收图像(例如,光学或声学)和注释信息。使用这些和存储在系统中的规定数量的类别k和相似性度量,控制系统1202可以使用图10中描述的方法来对从传感器1204接收的图像的每个像素进行分类,例如,将制造对象的图像分割成两个或更多类别,检测制造产品中的异常,以确保制造产品上存在诸如条形码的对象。基于该分类,信号可以被发送到致动器1206。例如,如果控制系统1202检测到产品中的异常,则致动器1206可以从生产线标记或移除异常或有缺陷的产品。在另一示例中,如果控制系统1202检测到被放置在产品上的条形码或其他对象的存在,那么致动器1106可以应用这些对象或移除它们。基于该分类,信号也可被发送到传感器1204,例如,以聚焦或移动相机镜头。
[0102]
图13示出了被配置为控制具有至少部分自主模态的电动工具1300的控制系统1302的示意图,所述电动工具例如电钻或驱动器。控制系统1302可以被配置为控制致动器1306,该致动器被配置为控制电动工具1300。
[0103]
电动工具1300的传感器1304可以是波能传感器,例如光学或声学传感器,其被配置成捕获工作表面和/或被驱动到工作表面中的紧固件的一个或多个属性。控制系统1302可被配置成根据所捕获的属性中的一个或多个来确定工作表面和/或紧固件相对于工作表面的状态。
[0104]
在该实施例中,控制系统1302将从传感器1304接收图像(例如,光学或声学)和注释信息。使用这些和存储在系统中的规定数量的类别k和相似性度量,控制系统1302可使用图10中描述的方法来分类从传感器1304接收的图像的每个像素,以便将工作表面或紧固件的图像分割成两个或更多类别,或检测工作表面或紧固件中的异常。基于该分类,信号可以被发送到致动器1306,例如发送到工具的压力或速度,或者由致动器1306执行的任何动作,如以上部分中所描述的。基于该分类,还可以将信号发送到传感器1304,例如,以聚焦或
移动相机镜头。在另一示例中,图像可以是来自电动工具1300的信号的时间序列图像,所述信号例如压力、扭矩、每分钟转数、温度、电流等,其中电动工具是锤钻、钻、锤(旋转或拆除)、冲击驱动器、往复锯、振荡多用工具,并且电动工具是无线的或有线缆的。
[0105]
图14描绘经配置以控制自动化个人助理1401的控制系统1402的示意图。控制系统1402可被配置成控制致动器1406,该致动器被配置成控制自动化个人助理1401。自动化个人助理1401可被配置成控制家用电器,诸如洗衣机、炉子、烤箱、微波炉或洗碗机。
[0106]
在该实施例中,控制系统1402将从传感器1404接收图像(例如,光学或声学)和注释信息。使用这些和存储在系统中的规定数量的类别k和相似性度量,控制系统1402可使用图10中描述的方法来对从传感器1404接收的图像的每个像素进行分类,例如,分割要操纵或操作的器具或其他对象的图像。基于该分类,信号可被发送到致动器1406,例如以控制自动化个人助理1401的移动部分来与家用电器交互,或由致动器1406执行的任何动作,如以上部分中所描述的。基于该分类,信号也可以被发送到传感器1404,例如,以聚焦或移动相机镜头。
[0107]
图15描绘了被配置为控制监测系统1500的控制系统1502的示意图。监测系统1500可以被配置成物理地控制通过门252的进入。传感器1504可以被配置为检测与决定是否准许访问相关的场景。传感器1504可以是被配置为生成和发送图像和/或视频数据的光学或声学传感器或传感器阵列。这样的数据可以由控制系统1502用来检测人的面部。
[0108]
监测系统1500也可以是监视系统。在这样的实施例中,传感器1504可以是波能传感器,诸如光学传感器、红外传感器、被配置为检测监视下的场景的声传感器,并且控制系统1502被配置为控制显示器1508。控制系统1502被配置成确定场景的分类,例如,由传感器1504检测的场景是否可疑。扰动对象可以用于检测某些类型的对象,以允许系统在非最佳条件(例如,夜晚、有雾、有雨、干扰背景噪声等)下识别这样的对象。控制系统1502被配置为响应于该分类将致动器控制命令传输到显示器1508。显示器1508可经配置以响应于致动器控制命令而调整所显示的内容。例如,显示器1508可突出显示被控制器1502认为可疑的对象。
[0109]
在该实施例中,控制系统1502将从传感器1504接收图像(光学或声学)和注释信息。使用这些和存储在系统中的规定数量的类别k和相似性度量,控制系统1502可以使用图10中描述的方法来对从传感器1504接收的图像的每个像素进行分类,以便例如检测场景中可疑或不期望对象的存在、检测照明或观看条件的类型、或检测运动。基于此分类,可将信号发送到致动器1506,例如,以锁定或解锁门或其他入口通道,以激活警报或其他信号,或由致动器1506执行的动作中的任一者,如以上部分中所描述。基于该分类,信号也可被发送到传感器1504,例如,以聚焦或移动相机镜头。
[0110]
图16描绘了被配置成控制成像系统1600的控制系统1602的示意图,所述成像系统例如mri装置、x射线成像装置或超声装置。传感器1604可以例如是成像传感器或声学传感器阵列。控制系统1602可经配置以确定所感测图像的全部或部分的分类。控制系统1602可以被配置为响应于由经训练的神经网络获得的分类来确定或选择致动器控制命令。例如,控制系统1602可将感测图像(光学或声学)的区域解释为潜在异常。在这种情况下,可以确定或选择致动器控制命令以使显示器1606显示成像和突出显示潜在异常区域。
[0111]
在该实施例中,控制系统1602将从传感器1604接收图像和注释信息。使用这些和
存储在系统中的规定数量的类别k和相似性度量,控制系统1602可使用图10中描述的方法来对从传感器1604接收的图像的每个像素进行分类。基于该分类,信号可以被发送到致动器1606,例如,以检测图像的异常区域或由致动器1606执行的任何动作,如以上部分中所描述的。
[0112]
实施本文描述的算法和/或方法的程序代码能够作为程序产品以各种不同形式单独或共同分发。程序代码可以使用其上具有计算机可读程序指令的计算机可读存储介质来分发,所述计算机可读程序指令用于使处理器执行一个或多个实施例的各方面。固有地非暂时性的计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、以及可移除和不可移除的有形介质。计算机可读存储介质还可包括ram、rom、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、闪存或其它固态存储器技术、便携式光盘只读存储器(cd-rom)或其它光存储、磁带盒、磁带、磁盘存储或其它磁存储设备、或可用于存储所需信息且可由计算机读取的任何其它介质。计算机可读程序指令可以从计算机可读存储介质下载到计算机、另一类型的可编程数据处理装置或另一设备,或者经由网络下载到外部计算机或外部存储设备。
[0113]
存储在计算机可读介质中的计算机可读程序指令可以用于指导计算机、其它类型的可编程数据处理装置或其它设备以特定方式工作,使得存储在计算机可读介质中的指令产生包括实现流程图或图表中指定的功能、动作和/或操作的指令的制品。在某些替代实施例中,流程图和图表中指定的功能、动作和/或操作可以与一个或多个实施例一致地被重新排序、串行处理和/或并发处理。此外,流程图和/或图表中的任何一个可以包括比根据一个或多个实施例示出的那些更多或更少的节点或块。
[0114]
虽然通过各种实施例的描述已经说明了本发明的全部,并且虽然已经相当详细地描述了这些实施例,但是申请人的意图不是将所附权利要求的范围约束或以任何方式限制到这样的细节。本领域技术人员将容易地想到附加的优点和修改。因此,本发明在其更广泛的方面不限于所示出和描述的具体细节、代表性装置和方法以及说明性示例。因此,在不脱离本发明总体构思的精神或范围的情况下,可以偏离这些细节。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献