一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

利用深度生成模型的合成孔径声学成像的制作方法

2022-12-07 03:23:17 来源:中国专利 TAG:
利用深度生成模型的合成孔径声学成像
1.相关申请的交叉引用。
技术领域
2.本公开总体上涉及使用声音进行感测的系统和方法。更具体地,本技术涉及经由生成器网络和鉴别器网络的生成对抗网络(gan)使用声音来产生合成有孔声学图像而在成像方面的改进。


背景技术:

3.声学成像使用声音来检测和描述位于流体中的对象、特征或对象内的操作状态。流体可以是液体,如水、油、废水,或者流体可以是气体,如空气。声学成像可以被动地收听环境并构造声学图像,或者主动发射声脉冲并收听反射和散射的声音以返回来创建声学图像。例如,声纳(声音测距)通过向水中发射出声音并收听反射和散射的声音以返回来探索水体。声纳频繁地用于检测海底、沉没对象、寻找鱼类,以及标识具有异常密度变化或湍流的海洋区域。


技术实现要素:

4.一种声学成像系统包括控制器。所述控制器可以被配置为接收来自麦克风的信号和混响通道数据,基于信号和混响通道数据的优化来更新潜在变量、潜在标注、源振幅和相位估计,以获得更新的潜在变量、更新的潜在标注、更新的源振幅和更新的相位估计,经由更新的潜在变量和更新的潜在标注的条件生成对抗网络(cgan)生成经由更新的源振幅和更新的相位估计调谐的声源图,优化所述声源图,并输出优化的声源图。
5.一种对区域进行声学成像的方法包括:基于区域的时空数据来训练条件生成对抗网络(cgan)以获得经训练的cgan,接收来自麦克风的信号和来自所述区域内的混响通道数据,经由经训练的cgan生成声学图像,基于信号和混响通道数据的优化来更新经训练的cgan以获得更新的经训练的cgan,经由更新的经训练的cgan生成声源图,优化声源图以获得优化的声源图,以及输出优化的声源图。
6.一种波能成像系统包括控制器。控制器可以被配置为接收来自波能传感器的信号和混响通道数据,生成潜在变量、潜在标注、源振幅和相位估计,基于信号和混响通道数据的优化更新潜在变量、潜在标注、源振幅和相位估计,经由更新的潜在变量和更新的潜在标注的cgan生成经由源振幅和相位估计调谐的波能源图,优化波能源图以获得优化的波能源图,并输出优化的波能源图。
附图说明
7.图1是经由可移动麦克风的房间声学成像系统的图示。
8.图2是几何形状分量和由经训练的cgan生成的对应几何形状分量的图形表示。
9.图3是所选基本真值(ground truth)源图、利用合成孔径和静态麦克风阵列的声
学成像结果的图形表示,其中每列与一图像相关联。
10.图4是归一化图像的重构误差相对于初始化次数的图形表示。
11.图5是电子计算系统的框图。
12.图6是声学成像系统架构的框图。
13.图7是声学成像系统的训练条件gan的流程图。
14.图8是声学成像系统中声学成像的流程图。
15.图9是声学成像系统的流程图。
16.图10a是具有鉴别器和生成器的声学成像系统的框图。
17.图10b是图10a的声学成像系统的生成器的框图。
18.图10c是图10a的声学成像系统的鉴别器的框图。
19.图11是配置为控制载具的控制系统的示意图。
20.图12是配置为控制制造机器的控制系统的示意图。
21.图13是配置为控制电动工具的控制系统的示意图。
22.图14是配置为控制自动化个人助理的控制系统的示意图。
23.图15是配置为控制监视系统的控制系统的示意图。
24.图16是配置为控制医学成像系统的控制系统的示意图。
具体实施方式
25.根据需要,本文公开了本发明的详细实施例;然而,应理解的是,所公开的实施例仅仅是本发明的示例,本发明可以以各种以及替代形式体现。各图不一定成比例;一些特征可能被放大或缩小以示出特定组件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为教导本领域技术人员以不同方式采用本发明的代表性基础。
26.术语“基本上”在本文中可以用于描述公开的或要求保护的实施例。术语“基本上”可以修饰在本公开中公开或要求保护的值或相对特性。在这样的实例中,“基本上”可以表示它所修饰的值或相对特性在该值或相对特性的0%、0.1%、0.5%、1%、2%、3%、4%、5%或10%之内。
27.术语“传感器”是指检测或测量物理属性并记录、指示或以其他方式响应该属性的设备。术语传感器包括光学、光、成像或光子传感器(例如电荷耦合器件(ccd)、cmos有源像素传感器(aps)、红外传感器(ir)、cmos传感器)、声学、声音或振动传感器(例如麦克风、地震检波器、水听器)、汽车传感器(例如车轮速度、停车、雷达、氧气、盲点、扭矩)、化学传感器(例如离子敏感场效应晶体管(isfet)、氧气、二氧化碳、化学电阻、全息传感器)、电流、电势、磁性或射频传感器(例如霍尔效应、磁力计、磁阻、法拉第杯、电流计)、环境、天气、水分或湿度传感器(例如,天气雷达、辐射计)、流量或流体速度传感器(例如,质量空气流量传感器、风速计)、电离辐射或亚原子粒子传感器(例如,电离室、盖革计数器、中子检测器)、导航传感器(例如,全球定位系统(gps)传感器、磁流体动力学(mhd)传感器)、位置、角度、位移、距离、速度或加速度传感器(例如,lidar、加速度计、超宽带雷达、压电传感器)、力、密度或液位传感器(例如,应变仪、核子密度仪)、热、热量或温度传感器(例如,红外温度计、高温计、热电偶、热敏电阻、微波辐射计),或者其目的是检测或测量物理属性并记录、指示或以
其他方式对物理属性做出响应的其他设备、模块、机器或子系统。
28.具体而言,传感器可以在给定的时间和空间位置测量波的属性/波的能量值。该波可以包括机电、声、光、电磁、rf。该技术可以应用于利用其他传感器(例如,用于无线电磁波的天线)的成像。
29.术语“图像”是指描绘对物理特性(例如,可听声音、可见光、红外光、超声、水下声学)的感知的表示或制品,诸如照片或其他二维图片,其类似于主题(例如,物理对象、场景或属性)并因此提供对其的描绘。图像可以是多维的,因为它可以包括时间、空间、强度、浓度或其他特性的分量。例如,图像可以包括时间序列图像。这项技术还可以扩展到对3d声源或对象进行成像。
30.声学成像具有广泛的真实世界应用,诸如机器健康监视。常规上,在成像过程中利用大型麦克风阵列来实现有用的空间分辨率。位置感知自主移动机器人平台的出现为将合成孔径技术应用于声学成像问题开辟了独特的机会。通过利用运动和位置线索以及关于源分布的一些可用先验信息,小型移动麦克风阵列有可能实现远远超出物理孔径限制的成像分辨率。在本公开中,我们提出了利用合成孔径及其由条件生成对抗网络(cgan)建模的几何结构的组合来对大型声源进行成像的解决方案。声学成像问题被公式化为线性逆问题,并利用基于梯度的方法来求解。数值模拟示出了,这种合成孔径成像框架可以从麦克风记录重构声源分布,并且性能优于静态麦克风阵列。
31.声学成像作为一种使用麦克风阵列记录的声音信号来重构源图的技术,已经广泛应用于许多真实世界场景中。具体而言,房间声学成像在包括机器和基础设施健康监视、汽车诊断、声学场景理解(仅举几例)的应用中具有重大意义。传统的声学相机通常由许多麦克风组成,并经由波束形成来定位声源。由于室内环境中可听源的大波长,这样的相机通常非常大且昂贵,导致在更广泛的应用中不方便。位置感知型自主移动机器人平台的发展为甚至利用具有少量元件的低成本小型麦克风阵列进行声学成像开辟了可能性。合成孔径技术聚集利用安装在移动平台上的麦克风顺序记录的声音信号,并利用移动轨迹形成虚拟阵列进行成像。无论设备约束如何,精心设计的轨迹都创建比真实麦克风阵列大得多的合成孔径。这有可能以相对低的成本进一步改进声学成像分辨率。
32.为了求解声学成像问题,传统的波束形成算法形成波束以针对成像区域进行扫描并分别定位每个源。扫描波束通常基于自由场传播通道形成,并且可能不能利用通道信息集成混响。另一方面,利用在许多场景中可用的混响知识,声学成像问题可以作为线性逆问题来求解。当需要高成像分辨率时,这样的逆问题通常是欠定的,因为即使利用合成孔径,与成像像素相比,记录样本通常也是有限的。因此,关于源分布的先验知识通常是必要的,以使基本真值估计问题易于处理或较少不适定。假设声源在空间上稀疏分布,这意味着仅考虑点源,并使用压缩感测方法来定位声源。然而,在许多情况下,声源的大小和形状不应该被忽略。这样的源难以被建模为单独的点,并且在由线性基础定义的域中被稀疏地表示。
33.提出了一种定义逆问题的解的结构的新方法,该方法利用预先训练的生成模型来表示解的可能分布。一种方法是训练生成对抗网络(gan)来对地震波形反演中的地质不均匀性进行建模。由于声源的多样性,将这种方法集成到房间声学成像问题的挑战是找到一种方式来表示室内环境中所有潜在类型的源。在本公开中,提出将大型声源建模为简单几何形状分量的组合,而不是直接针对所有类型的源训练单个模型。结果,仅需要训练简单的
模型来表示基本的形状分量,并且然后可以针对具有任何任意结构的声源求解一般成像问题。
34.在本公开中,构建了一种新的框架用于求解合成孔径声学成像问题,其中源结构由基本几何形状分量的组合来近似。训练条件gan (cgan)架构来对两种类型的基本形状——即椭圆和矩形进行建模,然而该技术不限于那些形状,而是包括许多形状(例如,三角形、圆形、正方形、平行四边形、星形、梯形、菱形、五边形、六边形、七边形、八边形等),并且正则化声学成像问题用自适应矩估计(adam)方法来公式化和求解。数值结果说明,这种合成孔径框架可以成功地从移动麦克风记录重构声源图,并且性能优于利用静态阵列的成像。
35.本公开提出了一种使用合成孔径方法对房间中的声源进行成像的系统,如图1中所示。图1是经由可移动麦克风的房间声学成像系统100的图示。可移动麦克风102在具有第一声源108和第二声源110的区域106中沿着路径104行进。尽管这可以更一般地应用,但是假设房间106是一个盒子,并且声源108、110都在同一成像平面上。下面的分析可以容易地推广到其中声源任意分布的情况。假设房间106的地图和声学属性是已知的,而声源108、110的分布是不可用的。该系统将成像平面离散成n个像素,并且每个像素n被假设为具有信号sn(t)的潜在声源。然后模型sn(t)作为具有恒定频率f0和振幅an的连续正弦波。这可以由下面的等式1表达,(1)。
36.可以应用等式1来对机器或基础设施生成的声波进行建模。注意,an可以是0,这意味着在像素n处没有真实的声源。
37.麦克风阵列102在房间106内部移动,并记录沿着路径104的不同位置处的声学信号,以形成合成孔径。然后假设麦克风阵列由m0个元件组成。移动阵列102停止并在沿路径104的mr位置处记录声音,各自持续固定的持续时间t。不失一般性,第一次记录在时间t=0开始,并且相邻记录位置之间的移动时间被假设为不重要。然后麦克风记录的位置总数被定义为m,其可以被视为合成麦克风阵列上的元件数量。通常,m=m0mr。然后定义p
mn
(t)作为来自合成孔径的每个麦克风m处的成像像素n的记录信号,其可以表达为等式2,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)。
38.这里w
t
(t)是指示记录周期的窗函数,其被定义为w
t
(t)=1(对于);否则w
t
(t)=0。时间延迟tm表示移动孔径在麦克风m处引入的记录延迟。声学传播通道的特征在于从成像像素n到麦克风m的房间脉冲响应h
mn
(t)。在本公开中,假设h
mn
(t)受制于模型,并且可以被计算以利用房间地图和房间声学属性进行成像。这里,*用来标示卷积运算符。为了恢复sn(t),将等式(2)变换到角频率域,其可以表达为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)。
39.这里表示p
mn
(t)的傅立叶变换,表示sn(t)的傅立叶变换,并且表示源像素n和麦克风位置m之间的传递函数。窗函数具有傅立叶变换。由于在本公开中,假设源信号为等式(1)中频率f0处的纯音,那么在感兴趣的角频率处,
频域信号可以由等式4表达,(4)。
40.上述近似意味着负频率分量是不重要的,这在对于所有声源的记录持续时间的情况下是有效的,因为是相移sinc函数。本公开假设传播在线性介质中。因此,在频域中,来自麦克风m所记录的所有源的总和信号可以在频率处由来表示。为了基于等式(4)从记录中恢复源信号,在该模型中只有振幅an是未知的。因此,对重构问题的公式化是通过将每对m和n的等式(4)以矩阵形式概括为线性逆问题。具体来说,定义与成比例的源信号向量和记录向量和记录向量,其中标示转置运算符。通道矩阵定义为,其第m行和第n列的元素与成比例。如果在实际应用中可用,则可以根据测量数据构造通道矩阵。那么在感兴趣的频率处的传播可以近似地由下面所示的等式5来表征
ꢀꢀꢀ
(5)。
41.目的是从和中恢复。对于高分辨率成像,假设成像像素的数量。将上述公式推广以包括多个窄带信号是简单的。从每个记录信号的频谱中,可以找到每个感兴趣的频率,并且可以单独求解等式(5)。
42.可以假设声源可以被建模为单独的点。然而,许多真实世界的声学资源(如空调和工业机器)占据了大的空间,并且不适合被建模为点源。为了求解这个问题,在本公开中,假设包含具有特定形状并且在成像平面上占据大的连续区域的源。用于重构这样的声源的方法将在下一章节中详细讨论。
43.根据等式(5)重构是欠定的线性逆问题,其引入了近似唯一基本真值解的挑战。因此,关于源分布的先验信息对于求解问题是必要的。由于真实世界场景中的许多声源在成像平面上占用大的连续区域,因此在本公开中,这些源可以通过几何形状分量的线性组合来近似。cgan模型中的条件生成器g(z,l),它被训练为用l=1表示椭圆分量或用l=0表示矩形分量。该方法可以被推广以包括更多的其他几何形状分量或真实世界声源的分量。那么声源图可以通过下面的等式6来近似(6)其中k标示对于表示所有源所需的几何形状分量的数量。应注意,这些分量可以相互重叠。每个形状分量k的相对振幅被定义为,这意味着同一形状分量中的所有像素具有相同的振幅。向量标示对于生成器产生类型l的形状分量k的潜在输入。的输出被重新整形为匹配的维度的向量。为了根据满足等式(5)的记录重构声学图像,考虑通过优化和来最小化如下的正则化目标函数,这可以表达为下面的等式7。
ꢀꢀꢀꢀ
(7)。
44.第一范数项标示给定从等式(6)生成的近似源图的声学记录误差。第二项充当鼓励在潜在空间中搜索的正则化。在等式(7)中的函数定义为的情况下,相对于每个实向量的梯度可以表达为
ꢀꢀꢀꢀꢀꢀ
(8)其中标示可以数值计算的生成器函数的雅可比矩阵。运算符计算每个向量元素的实部,并且运算符计算共轭转置。对于振幅变量,我们不强迫是实数,这允许不同的形状源具有不同的相位。为了求解等式(7)中的优化问题,首先将所有变量映射到实域,并且在这种情况下,相对于每个的导数等价于下面的等式9
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)。
45.基于求导的梯度和导数,采用adam优化器通过迭代更新变量来求解问题。在一定数量的迭代之后或者当步长大小低于阈值时,该过程停止。这个说明性示例用最多250次迭代、以1e-4的步长大小阈值来迭代地求解。阈值以及迭代次数可以根据应用/环境/数据进行适配。
46.为了在更大的潜在空间中搜索并避免陷入局部最小值,研究人员已经提出使用潜在向量的多次随机初始化。然而,gan模型有时不能完美地学习目标分布,这可能导致整个形状分量集的不平衡表示,即使在均匀选取的情况下亦如此。为了改进所生成的分量的表示,本公开旨在强制初始化的形状分量从整个形状集中近似均匀地选取。更具体地说,对于每次初始化,首先随机生成形状分量的2k个边界框,其大小和位置是均匀绘制的。然后,对于每个边界框,随机选取,直到和边界框之间的误差低于阈值。这个说明性示例要求在每个方向上不超过边界框4个像素(相当于0.4m)。该阈值应该根据应用/分辨率要求/环境/数据进行适配。
47.以此方式,从几何形状集中更均匀地选取初始化,并且可以直观地帮助找到全局最优解。振幅被初始化为非常接近0。我们利用总共x次初始化来进行优化,并且最终选取导致最小声学记录误差的和的集合。
48.通过数值模拟评估了该框架的性能。声学成像房间的尺寸设置为4
×4×
4 m3。声源位于靠近房间一侧的成像平面上,并且成像平面被分成个像素。cgan首先被训练成在具有相同大小的图像上对基本几何形状进行建模。鉴别器将图像和编码之后集成的形状标注l取作输入。在到达输出层之前,集成的输入通过两个卷积层,每层具有256个4
×
4滤波器,并且维度缩小到10
×
10。生成器具有维度为32的潜在输入,它被线性编码为10
×
10图像。然后,集成了标注的图像通过两个转置卷积层,并放大为40
×
40输出,从而与成
像平面的大小相匹配。输出图像一般具有二进制像素值。对于每种类型的形状分量,随机生成2000个样本作为训练数据。鉴别器和生成器的学习率分别为10-5
和10-4
。图2中评估了经训练的cgan的性能。图2是几何形状分量的图形表示200和由经训练的cgan生成的对应几何形状分量。该表示被分解成几何形状分量200和由经训练的cgan生成的对应几何形状分量250。第一202、第二204和第三206矩形几何形状分量以及由经训练的cgan生成的对应的第一252、第二254和第三256矩形几何形状分量。同样,第一208、第二210和第三212椭圆形几何形状分量以及由经训练的cgan生成的对应的第一258、第二260和第三262椭圆形几何形状分量。左边的图示出了用于训练的随机几何形状分量,而右边的图示出了由经训练的生成器随机生成的几何形状分量。第一行呈现矩形分量,并且第二行呈现椭圆分量。一般地,生成的数据以小的失真捕获训练图像中的大部分形状特征。同时,应注意,生成的椭圆的大小与训练数据不完全匹配,这意味着生成器不能完美地学习训练数据的分布。
49.上面经训练的生成器用于根据模拟声音记录来重构声源。pyroomacoustics软件包用于模拟声波在房间中的传播。房间中的声速设置为343 m/s,墙壁的吸声设置为0.1。假设所有声源都操作在相同的频率f
0 = 1600 hz,并且麦克风的采样频率设置为44.1 khz。将该合成孔径声学成像框架的性能与利用静态麦克风阵列的基准设置进行比较。静态阵列由m0=8个麦克风组成,并且近似位于成像平面的中心轴上。相比之下,合成孔径设置仅假设m0=1个移动麦克风。假设麦克风近似沿着平行于成像平面的直线移动,并且假设记录位置的总数为mr=39。在两种设置中,从麦克风到成像平面的轴向距离设置为大约2.9 m,并且记录持续时间为t= 0.1s。为了求解声学成像问题(7),使用x=100初始化,每次最多迭代250次。adam优化器的学习率设置为2
×
10-2
,并且正则化系数设置为。上述相同的成像算法和参数被应用于两种麦克风设置。
50.图3是所选基本真值源图300、利用合成孔径的声学成像结果330和利用静态麦克风阵列的声学成像结果360的图形表示,其中每列与一图像相关联。在图像302中,存在两个声源——矩形声源312和椭圆形声源322,它们图示了这些源的基本真值位置。通过使用合成孔径方法,可以如图像332中那样重构声源的位置,其中342是矩形源,并且352是椭圆形源。通过使用静态麦克风阵列,可以如图像362中那样重构声源的位置,其中372是矩形源,并且382是椭圆形源。在图像304中,存在两个声源——矩形声源314和椭圆形声源324,它们图示了这些源的基本真值位置。通过使用合成孔径方法,可以如图像334中那样重构声源的位置,其中344是矩形源,并且354是椭圆形源。通过使用静态麦克风阵列,可以如图像364中那样重构声源的位置,其中374是矩形源,并且384是椭圆形源。在图像306中,存在两个声源——矩形声源316和椭圆形声源322,它们图示了这些源的基本真值位置。通过使用合成孔径方法,可以如图像336中那样重构声源的位置,其中346是矩形源,并且356是椭圆形源。通过使用静态麦克风阵列,可以如图像366中那样重构声源的位置,其中376是矩形源,并且386是椭圆形源。在图像308中,存在两个声源——矩形声源318和椭圆形声源328,它们图示了这些源的基本真值位置。通过使用合成孔径方法,可以如图像338中那样重构声源的位置,其中348是矩形源,并且358是椭圆形源。通过使用静态麦克风阵列,可以如图像368中那样重构声源的位置,其中378是矩形源,并且388是椭圆形源。
51.图3是在不同所选基本真值图像的情况下两种设置的重构声学图像之间的比较。在第一行中示出了基本真值源图,其取中每个元素的绝对值,并且基于等式(6)随机生
成该基本真值源图。在第二行中示出了来自合成孔径的重构图像,其取中每个元素的绝对值,而第三行中列出了来自静态麦克风阵列的图像。应注意,所有图像都已经用最大像素值为1进行了归一化,以更清楚地示出形状重构准确度。示出的是,当真实声源可以由生成器建模时,该框架一般可以根据麦克风记录重构源图。利用合成孔径的图3中图像的平均2范数重构误差约为4.70,而静态阵列重构的平均误差约为7.98。与静态麦克风阵列相比,合成孔径技术通常导致更高的重构准确度,因为基于轨迹的孔径可以超越麦克风阵列的大小约束,并允许更高的成像分辨率。应注意,尽管这里没有示出,但是由于结果对随机初始化的源结构的强烈依赖性,在有限的初始化内存在未成功重构的可能性。
52.图4是归一化图像的重构误差402相对于初始化次数404的图形表示400。使用合成孔径(实线)和静态麦克风阵列(虚线)的平均源图重构误差用表示标准偏差的误差条来绘制。在图4中,我们旨在评估初始化次数x如何影响平均声学图像重构准确度。在图3中相同的基本真值源图的情况下,我们仍然总共使用100次初始化。然而,对来自第一x次初始化的重构误差进行评估和绘制。实曲线表示我们的合成孔径成像方法,而虚曲线表示静态阵列的成像结果。误差条标示重构误差的标准偏差。我们的合成孔径方法的重构误差比静态阵列低得多,这与图3中的图示一致。此外,在大约40次初始化之后,静态阵列的误差没有显著改变,而对于合成孔径方法,误差几乎可以连续减小。这样的现象揭示了记录样本的数量m和收敛性之间的关系。一般地,记录样本越多,重构误差收敛越慢,但收敛到更小的值。因此,为了将该声学成像框架应用于真实世界的应用,需要基于记录样本考虑计算时间和成像性能之间的折衷来仔细选择初始化次数x。
53.本公开提出了用于通过使用基于cgan的几何形状分量来近似实际的源分布来求解合成孔径声学成像问题的框架。数值模拟说明,声学成像框架可以根据移动麦克风的记录来成功地重构源图,并且合成孔径技术在房间声学成像中可以提供比静态阵列更好的重构准确度。这些技术可以应用于合成孔径声学成像方法,用于重构具有多得多的几何形状分量的复杂声源。这样的形状分量也可能来自真实数据和来自不完美的房间通道信息。
54.示例机器架构和机器可读介质。图5是适用于实现本文公开的系统或用于执行本文公开的方法的电子计算系统的框图。图5的机器被示为独立设备,其适合于实现上述概念。对于上述服务器方面,可以使用在数据中心、云架构的一部分等中操作的多个这样的机器。在服务器方面,没有利用所有图示的功能和设备。例如,虽然用户用于与服务器和/或云架构交互的系统、设备等可以具有屏幕、触摸屏输入等,但服务器通常没有屏幕、触摸屏、相机等,并且通常通过具有适当输入和输出方面的连接系统与用户交互。因此,以下架构应该被视为包含多种类型的设备和机器,并且各个方面可能存在也可能不存在于任何特定的设备或机器中,这取决于其形状因子和目的(例如,服务器很少具有相机,而可穿戴设备很少包含磁盘)。然而,图5的示例解释适于允许本领域技术人员确定如何利用硬件和软件的适当组合,在对所使用的特定设备、机器等的图示实施例进行适当修改的情况下来实现先前描述的实施例。
55.虽然仅图示了单个机器,但是术语“机器”也应被理解为包括单独或联合执行一组(或多组)指令以执行本文讨论的任何一种或多种方法技术的任何机器集合。
56.机器500的示例包括至少一个处理器502(例如,控制器、微控制器、中央处理单元(cpu)、图形处理单元(gpu)、张量处理单元(tpu)、高级处理单元(apu)或其组合)、一个或多
个存储器(诸如主存储器504、静态存储器506或其他类型的存储器),它们经由链路508彼此通信。链路508可以是总线或其他类型的连接通道。机器500可以包括另外的可选方面,诸如包括任何类型的显示器的图形显示单元510。机器500还可以包括其他可选方面,诸如字母数字输入设备512(例如,键盘、触摸屏等)、用户接口(ui)导航设备514(例如,鼠标、轨迹球、触摸设备等)、存储单元516(例如,磁盘驱动器或(一个或多个)其他存储设备)、信号生成设备518(例如,扬声器)、(一个或多个)传感器521(例如,全球定位传感器、(一个或多个)加速度计、(一个或多个)麦克风、(一个或多个)相机等)、输出控制器528(例如,有线或无线连接,用于与一个或多个其他设备连接和/或通信,诸如通用串行总线(usb)、近场通信(nfc)、红外(ir)、串行/并行总线等),以及连接到一个或多个网络526和/或通过一个或多个网络526通信的网络接口设备520(例如,有线和/或无线)。
57.各种存储器(即,504、506和/或(一个或多个)处理器502的存储器)和/或存储单元516可以存储一组或多组指令和数据结构(例如,软件)524,这些指令和数据结构524体现了本文所述的任何一种或多种方法技术或功能或由它们所利用。当由(一个或多个)处理器502执行时,这些指令引起各种操作来实现所公开的实施例。
58.如本文所使用的,术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意味着相同的事物,并且在本公开中可以可互换地使用。这些术语指的是存储可执行指令和/或数据的单个或多个存储设备和/或介质(例如,集中式或分布式数据库,和/或相关联的高速缓存和服务器)。因此,这些术语应被认为包括存储设备(诸如固态存储器),以及光和磁介质,包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括非易失性存储器,作为举例包括半导体存储器设备,例如可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、fpga和闪速存储器设备;磁盘,诸如内部硬盘和可移动盘;磁光盘;和dvd-rom盘。术语机器存储介质、计算机存储介质和设备存储介质具体且明确地排除了载波、调制数据信号和其他这样的暂时介质,其中至少一些被在下面讨论的术语“信号介质”覆盖。
59.术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意味着相同的事物,并且在本公开中可以可互换地使用。这些术语被定义为包括机器存储介质和信号介质两者。因此,这些术语包括存储设备/介质和载波/调制数据信号两者。
60.体现本文描述的算法和/或方法技术的程序代码能够以各种不同的形式作为程序产品单独或共同分发。可以使用其上具有计算机可读程序指令的计算机可读存储介质来分发程序代码,用于引起处理器实行一个或多个实施例的方面。本质上非暂时性的计算机可读存储介质可以包括以任何方法或技术实现的易失性和非易失性以及可移动和不可移动的有形介质,用于存储信息,诸如计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以进一步包括ram、rom、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、闪速存储器或其他固态存储器技术、便携式致密盘只读存储器(cd-rom)或其他光存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备,或者可以用于存储期望信息并且可以由计算机读取的任何其他介质。计算机可读程序指令可以从计算机可读存储介质下载到计算机、另一种类型的可编程数据处理装置或另一种设备,或者经由网络下载到外部计算机或外部存储设备。
61.存储在计算机可读介质中的计算机可读程序指令可以用于引导计算机、其他类型
的可编程数据处理装置或其他设备以特定方式运转,使得存储在计算机可读介质中的指令产生包括实现流程图或图表中指定的功能、动作和/或操作的指令的制品。在某些替代实施例中,与一个或多个实施例相一致的,流程图和图表中指定的功能、动作和/或操作可以被重新排序、串行处理和/或并发处理。此外,任何流程图和/或图表可以包括比与一个或多个实施例一致地图示的更多或更少的节点或块。
62.虽然已经通过各种实施例的描述说明了本发明的全部,并且已经相当详细地描述了这些实施例,但是申请人并不意图将所附权利要求的范围限制或以任何方式限定到这样的细节。对于本领域技术人员来说,附加的优点和修改将是容易清楚的。因此,本发明在其更广泛的方面不限于具体的细节、代表性的装置和方法以及所示出和描述的说明性示例。因此,在不脱离本发明总体构思的精神或范围的情况下,可以偏离这样的细节。
63.图6是声学成像系统架构600的框图,其使用鉴别器网络604和生成器网络606的条件生成对抗网络(cgan)602来产生合成的有孔声学图像608。
64.图7是声学成像系统700的训练条件gan的流程图。在块702中,控制器接收源图训练数据和标注。在块704中,控制器经由鉴别器网络处理源图训练数据和标注。在块706中,控制器产生随机潜在变量和标注。在块708中,控制器经由生成器网络产生声学图像源图,控制器在块710中输出该声学图像源图。然后,该输出连同源图训练数据和标注702以及鉴别器网络的输出被反馈到鉴别器网络块704,以训练网络。为清楚起见,再次声明训练是迭代的。在每次迭代中,鉴别器将702、706中的标注、710以及它自己在最后一次迭代中的输出取作输入。接下来,其在当前迭代中的输出以及706将被馈送到生成器网络708中,以更新710。然后下一次迭代开始。控制器在每次训练迭代中随机生成706,但是706不取决于鉴别器网络的输出。
65.图8是声学成像系统800中的声学成像的流程图。在块802中,麦克风阵列接收输入并输出信号,该信号用于在块804中产生麦克风记录。来自块804的麦克风记录和混响通道数据806被输入到块808,在块808中,控制器执行优化算法。混响通道数据806可以包括房间、区域或场景的模型,并且可以由诸如lidar传感器、红外传感器、雷达传感器或超声传感器之类的另一种类型的传感器生成,以创建数据生成模型。优化算法808的输出用于在块810中生成潜在变量和标注,并在块812中生成源振幅和相位估计数据。优化算法808可以由要被最小化的等式7来表示。生成器网络814向优化器算法808提供反馈,并产生声源图816。生成器网络814可以由等式6表示。为清楚起见,再次声明等式6是发生在生成器网络814中的,其由814和816之间的箭头传递。声源图816的反馈可以是固定的迭代次数、可变的迭代次数,或者它可以基于声源图的收敛,使得差异低于阈值,诸如像素数量或百分比。如果迭代是可接受的,则输出重构的声源图820。
66.图9是声学成像系统900中的声学成像的流程图。在块902中,麦克风阵列接收输入并输出用于在块904中产生麦克风记录的信号。在块906中,控制器源图训练数据和标注908。在块910中,控制器经由cgan 906、来自块916的源振幅&相位估计以及来自优化器算法914的反馈来生成声源图。控制器然后在优化器块914中优化麦克风记录904、cgan输出906、生成的声源图910和混响通道912数据。混响通道数据912可以包括房间、区域或场景的模型,并且可以由诸如lidar传感器、红外传感器、雷达传感器或超声传感器之类的另一种类型的传感器生成,以创建数据生成模型。优化算法914的输出用于在块810中生成潜在变量
和标注,并在块916中生成源振幅和相位估计数据。优化算法914可以由要被最小化的等式7来表示。生成器网络814向优化器算法808提供反馈,并产生声源图916。cgan块906可以由等式6表示,或者换句话说,等式6是在906和910之间的箭头上发生的。声源图910的反馈可以是固定的迭代次数、可变的迭代次数,或者它可以基于声源图的收敛,使得差异低于阈值,诸如像素数量或百分比。如果迭代是可接受的,则输出重构的声源图918。
67.图10a是使用条件生成对抗网络(cgan)的声学成像系统1000的框图,该网络接收真实数据1002、类输入1004和潜在数据1006,并经由生成器网络1008和鉴别器网络1010进行处理以产生声学图像。
68.图10b是图10a的声学成像系统的生成器网络1008的框图。1012是种子,并且1014是卷积层。
69.1012是全连接层并且1018是全连接层,它们去往由两个转置卷积层和最后的一个卷积层组成的1014。
70.图10c是图10a的声学成像系统的鉴别器的框图。1018是全连接层,而1020由两个卷积层组成。此外,图10c中的1002不等同于图10a中的1002,因为它包括图10a中的1002和图10a中的1008的输出两者。
71.图11是配置为控制载具的控制系统1102的示意图,该载具可以是至少部分自主的载具或至少部分自主的机器人。该载具包括传感器1104和致动器1106。传感器1104可以包括一个或多个基于波能的传感器(例如,电荷耦合器件ccd或视频)、雷达、lidar、麦克风阵列、超声、红外、热成像、声学成像或其他技术(例如,诸如gps的定位传感器)。一个或多个特定传感器中的一个或多个可以集成到载具中。替代地或除了上面标识的一个或多个特定传感器之外,控制模块1102可以包括软件模块,该软件模块被配置为在执行时确定致动器1104的状态。
72.在载具是至少部分自主的载具的实施例中,致动器1106可以体现在载具的制动系统、推进系统、发动机、传动系或转向系统中。可以确定致动器控制命令,从而控制致动器1106,使得载具避免与检测到的对象碰撞。检测到的对象也可以根据分类器认为它们最可能是什么来分类,诸如行人或树木。可以取决于分类来确定致动器控制命令。例如,控制系统1102可以将来自传感器1104的图像(例如,光学的、声学的、热的)或其他输入分割成一个或多个背景类和一个或多个对象类(例如,行人、自行车、载具、树木、交通标志、交通灯、道路碎片或建筑桶/锥等),并向致动器1106——在这种情况下体现在制动系统或推进系统中——发送控制命令,以避免与对象碰撞。在另一个示例中,控制系统1102可以将图像分割成一个或多个背景类和一个或多个标记类(例如,车道标记、护栏、道路边缘、载具轨迹等),并向致动器1106——在这里体现在转向系统中——发送控制命令,以使载具避开交叉标记并保持在车道中。在可能发生对抗攻击的场景中,上述系统可以被进一步训练以更好地检测对象或标识载具上传感器或相机的照明条件或角度的改变。
73.在载具1100是至少部分自主的机器人的其他实施例中,载具1100可以是移动机器人,其被配置为实行一个或多个功能,诸如飞行、游泳、潜水和行走。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这样的实施例中,可以确定致动器控制命令1106,使得可以控制移动机器人的推进单元、转向单元和/或制动单元,使得移动机器人可以避免与标识的对象碰撞。
74.在另一个实施例中,载具1100是以园艺机器人形式的至少部分自主的机器人。在这样的实施例中,载具1100可以使用光学传感器作为传感器1104来确定载具1100附近环境中的植物状态。致动器1106可以是配置为喷洒化学物质的喷嘴。取决于植物的所标识种类和/或所标识状态,可以确定致动器控制命令1102,以使致动器1106向植物喷洒适当量的适当化学物质。
75.载具1100可以是以家用电器形式的至少部分自主的机器人。家用电器的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这样的载具1100中,传感器1104可以是光学或声学传感器,其被配置为检测将由家用电器进行处理的对象的状态。例如,在家用电器是洗衣机的情况下,传感器1104可以检测洗衣机内部衣物的状态。可以基于检测到的衣物状态来确定致动器控制命令。
76.在该实施例中,控制系统1102将从传感器1104接收图像(光学的或声学的)和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量,控制系统1102可以使用图10中描述的方法来对从传感器1104接收的图像的每个像素进行分类。基于这种分类,信号可以被发送到致动器1106,例如,制动或转动以避免与行人或树木碰撞,转向以保持在检测到的车道标记之间,或者由致动器1106执行的任何动作,如上所述。基于这种分类,信号也可以被发送到传感器1104,例如,以聚焦或移动相机镜头。
77.图12描绘了控制系统1202的示意图,控制系统1202被配置为控制制造系统102的系统1200(例如,制造机器),诸如冲压机、切割机或枪钻,诸如生产线的一部分。控制系统1202可以被配置为控制致动器14,致动器14被配置为控制系统100(例如,制造机器)。
78.系统1200(例如,制造机器)的传感器1204可以是波能传感器,诸如被配置为捕获制造产品的一个或多个属性的光学或声学传感器或传感器阵列。控制系统1202可以被配置为根据一个或多个捕获的属性来确定制造产品的状态。致动器1206可以被配置为取决于所确定的制造产品104的状态来控制系统1202(例如,制造机器),用于制造产品的后续制造步骤。致动器1206可以被配置为取决于先前制造的产品的确定状态来控制系统(例如制造机器)的后续制造的产品上的图11(例如制造机器)的功能。
79.在该实施例中,控制系统1202将从传感器1204接收图像(例如,光学或声学)和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量,控制系统1202可以使用图10中描述的方法来对从传感器1204接收的图像的每个像素进行分类,例如,将制造的对象的图像分割成两个或更多个类,检测制造的产品中的异常,确保制造的产品上存在对象(诸如条形码)。基于这种分类,信号可以被发送到致动器1206。例如,如果控制系统1202检测到产品中的异常,致动器1206可以从生产线标记或移除异常或有缺陷的产品。在另一个示例中,如果控制系统1202检测到条形码或其他要放置在产品上的对象的存在,则致动器1106可以应用这些对象或移除它们。基于这种分类,信号也可以被发送到传感器1204,例如,以聚焦或移动相机镜头。
80.图13描绘了控制系统1302的示意图,控制系统1302被配置为控制具有至少部分自主模式的电动工具1300,诸如电钻或驱动器。控制系统1302可以被配置为控制致动器1306,致动器1306被配置为控制电动工具1300。
81.电动工具1300的传感器1304可以是波能传感器,诸如光学或声学传感器,其被配置为捕获工作表面和/或被驱动到工作表面中的紧固件的一个或多个属性。控制系统1302
可以被配置为根据一个或多个捕获的属性来确定工作表面和/或紧固件相对于工作表面的状态。
82.在该实施例中,控制系统1302将从传感器1304接收图像(例如,光学或声学)和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量,控制系统1302可以使用图10中描述的方法来对从传感器1304接收的图像的每个像素进行分类,以便将工作表面或紧固件的图像分割成两个或更多个类,或者检测工作表面或紧固件中的异常。基于这种分类,信号可以被发送到致动器1306,例如工具的压力或速度,或者由致动器1306执行的任何动作,如以上章节中所述。基于这种分类,信号也可以被发送到传感器1304,例如,以聚焦或移动相机镜头。在另一个示例中,图像可以是来自电动工具1300的信号的时间序列图像,诸如压力、扭矩、每分钟转数、温度、电流等,其中电动工具是锤钻、钻头、锤子(旋转或拆卸)、冲击式驱动器、往复锯、振荡多工具,并且电动工具是无线的或有线的。
83.图14描绘了配置为控制自动化个人助理1401的控制系统1402的示意图。控制系统1402可以被配置为控制致动器1406,致动器1406被配置为控制自动化个人助理1401。自动化个人助理1401可以被配置为控制家用电器,诸如洗衣机、炉子、烤箱、微波炉或洗碗机。
84.在该实施例中,控制系统1402将从传感器1404接收图像(例如,光学或声学)和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量,控制系统1402可以使用图10中描述的方法来对从传感器1404接收的图像的每个像素进行分类,例如,对要操纵或操作的电器或其他对象的图像进行分割。基于这种分类,信号可以被发送到致动器1406,例如,以控制自动化个人助理1401的移动部件与家用电器交互,或者由致动器1406执行的任何动作,如以上章节中所描述的。基于这种分类,信号也可以被发送到传感器1404,例如,以聚焦或移动相机镜头。
85.图15描绘了配置为控制监视系统1500的控制系统1502的示意图。监视系统1500可以被配置为物理地控制通过门252的进入。传感器1504可以被配置为检测与决定是否准许进入相关的场景。传感器1504可以是被配置为生成和传输图像和/或视频数据的光学或声学传感器或传感器阵列。控制系统1502可以使用这样的数据来检测人脸。
86.监视系统1500也可以是监控系统。在这样的实施例中,传感器1504可以是波能传感器,诸如光学传感器、红外传感器、声学传感器,其被配置为检测处于监控下的场景,并且控制系统1502被配置为控制显示器1508。控制系统1502被配置为确定场景的分类,例如传感器1504检测到的场景是否可疑。扰动对象可以用于检测某些类型的对象,以允许系统在非最佳条件下(例如,夜晚、雾、雨、干扰背景噪声等)标识这样的对象。控制系统1502被配置为响应于该分类向显示器1508传输致动器控制命令。显示器1508可以被配置为响应于致动器控制命令来调整显示的内容。例如,显示器1508可以突出显示控制器1502认为可疑的对象。
87.在该实施例中,控制系统1502将从传感器1504接收图像(光学或声学)和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量,控制系统1502可以使用图10中描述的方法来对从传感器1504接收的图像的每个像素进行分类,以便例如检测场景中可疑或不期望的对象的存在,检测照明类型或查看条件,或者检测移动。基于这种分类,信号可以被发送到致动器1506,例如,锁定或解锁门或其他入口通道,以激活警报或其他信号,或者由致动器1506执行的任何动作,如以上章节中所述。基于这种分类,信号也可以被
发送到传感器1504,例如,以聚焦或移动相机镜头。
88.图16描绘了控制系统1602的示意图,控制系统1602被配置为控制成像系统1600,例如mri装置、x射线成像装置或超声装置。传感器1604例如可以是成像传感器或声学传感器阵列。控制系统1602可以被配置为确定全部或部分感测图像的分类。控制系统1602可以被配置为响应于由经训练的神经网络获得的分类来确定或选择致动器控制命令。例如,控制系统1602可以将感测图像(光学或声学)的区域解释为潜在异常。在这种情况下,可以确定或选择致动器控制命令,以使显示器1606显示成像并突出显示潜在异常区域。
89.在该实施例中,控制系统1602将从传感器1604接收图像和注释信息。使用这些以及存储在系统中的规定数量的类k和相似性度量,控制系统1602可以使用图10中描述的方法来对从传感器1604接收的图像的每个像素进行分类。基于这种分类,信号可以被发送到致动器1606,例如,以检测图像的异常区域或由致动器1606执行的任何动作,如以上章节所述。
90.体现本文描述的算法和/或方法技术的程序代码能够以各种不同的形式作为程序产品单独或共同分发。可以使用其上具有计算机可读程序指令的计算机可读存储介质来分发程序代码,用于引起处理器实行一个或多个实施例的方面。本质上非暂时性的计算机可读存储介质可以包括以任何方法或技术实现的易失性和非易失性以及可移动和不可移动的有形介质,用于存储信息,诸如计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以进一步包括ram、rom、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、闪速存储器或其他固态存储器技术、便携式致密盘只读存储器(cd-rom)或其他光存储装置、磁带盒、磁带、磁盘存储装置或其他磁存储设备,或者可以用于存储期望信息并且可以由计算机读取的任何其他介质。计算机可读程序指令可以从计算机可读存储介质下载到计算机、另一种类型的可编程数据处理装置或另一种设备,或者经由网络下载到外部计算机或外部存储设备。
91.存储在计算机可读介质中的计算机可读程序指令可以用于引导计算机、其他类型的可编程数据处理装置或其他设备以特定方式运转,使得存储在计算机可读介质中的指令产生包括实现流程图或图表中指定的功能、动作和/或操作的指令的制品。在某些替代实施例中,与一个或多个实施例相一致的,流程图和图表中指定的功能、动作和/或操作可以被重新排序、串行处理和/或并发处理。此外,任何流程图和/或图表可以包括比与一个或多个实施例一致地图示的更多或更少的节点或块。
92.虽然已经通过各种实施例的描述说明了本公开的全部,并且已经相当详细地描述了这些实施例,但是申请人并不意图将所附权利要求的范围限制或以任何方式限定到这样的细节。对于本领域技术人员来说,附加的优点和修改将是容易清楚的。因此,本公开在其更广泛的方面不限于具体的细节、代表性的装置和方法以及所示出和描述的说明性示例。因此,在不脱离本发明总体构思的精神或范围的情况下,可以偏离这样的细节。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献