一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于互信息变分自编码器的图像声音检索方法与流程

2022-11-19 11:07:04 来源:中国专利 TAG:


1.本发明涉及到人工智能、机器视觉、跨膜态检索领域,具体涉及到一种基于互信息变分自编码器的图像声音检索方法。


背景技术:

2.早先研究表明从声音可以推断出一个人的长相,平时我们在打电话时会根据对方的声音形成对方相貌的一个粗浅概念。这是因为,年龄、性别、嘴巴形状、面部骨骼结构,所有这些都会影响人发出的声音。此外,语言、口音、速度通常会体现出一个人的民族、地域、文化特征。而人工智能网络正是根据语音和相貌的关联性做出推测。跨膜态人脸声音检索的核心任务可以看作是跨模态生物特征识别与匹配,即给定脸部图像或视频,确定它对应于给定的音频中的哪一个;或者给定声音的音频片段,确定它对应于两个或多个面部图像或视频中的哪一个。
3.同时,基于变分自编码器(vae,variational auto-encoder)的图像生成技术日益成熟,变分自编码器是一类重要的生成模型,它于2013年由diederikp.kingma和max welling等人提出,被广泛应用于图像生成、压缩、隐写等领域。在音视频跨模态领域,变分自编码器可以将原始数据拆分成模态专一(modality specific)的数据以及模态共享的数据。此外,互信息(mutual information,mi)是衡量两个随机变量之间相互依赖程度的量。具体来说,对于两个随机变量,mi是在获得一个随机变量的信息之后,观察另一个随机变量所获得的“信息量”,这一概念最早来自信息论。将互信息引入跨模态声音图像检索任务,旨在提高检索准确性、提升效率。
4.传统的图像声音检索技术存在以下两点主要问题和解决上述问题的难度为:一是图像和声音特征对齐度难度高,传统方法在进行声音图像检索时通常使用对比学习的方法拉近同属于一个来源(同一个人)的声音和图像的距离,同时将不属于同一个来源的声音和图像特征分隔开,这需要精心匹配的正样本和负样本对,这些样本对的选取既要满足广泛性又要满足特殊样本的独特性,制作难度高、成本大;二是以往的声音图像匹配的方法将图像和声音提取后的特征直接进行匹配,忽略了特征中的“噪声”即模态专属部分特征,模态专属特征是来自声音、图像两个模态的无法用于匹配的特征,检索准确度受此影响将进一步下降。
5.解决上述问题对于提高检索准确性、提升效率具有重要意义。


技术实现要素:

6.本发明提供了一种基于互信息变分自编码器的图像声音检索方法,是一种结合互信息变分自编码器的跨模态特征提取神经网络图像声音互检索方法,在进行人脸图像和声音相互检索时,通过vae编码和特征蒸馏技术获得模态共享特征、互信息损失以及推土机损失等技术手段,有效提升了声音、人脸检索的准确率及系统执行效率。
7.本发明的技术方案如下:
8.本发明的基于互信息变分自编码器的图像声音检索方法,包括以下步骤:s1.对人脸图像及声音进行预处理,将声音转化为语谱图并提取声音特征;s2.将人脸图像和声音送入特征提取网络进行特征提取,提取后的特征通过变分自编码器(vae)进行编码,编码后的均值对应模态共享图像特征μf和模态共享声音特征μv,方差对应模态专属特征,之后通过特征蒸馏,摒弃模态专属特征,仅保留模态共享图像特征μf和模态共享声音特征μv;s3.将s2的输出模态共享图像特征μf和模态共享声音特征μv进行拼接,并通过一个相同的通用变分自编码器(vae)解码器进行解码和重建,得到重建后的人脸和声音对z1,z2;s4.计算编码和特征蒸馏后的共享图像特征μf和共享声音特征μv的互信息损失值、推土机距离损失,计算特征对μf,μv和重建后的人脸声音对z1,z2间的均方误差损失,计算kl散度损失值,并计算上述损失的加权平均作为网络的最终损失函数;s5.将s4的输出作为优化目标,采用adam优化器进行迭代优化。
9.优选地,在上述基于互信息变分自编码器的图像声音检索方法中,在步骤s1中,模态专属特征为模态专属图像特征σf和模态专属声音特征σv。
10.优选地,在上述基于互信息变分自编码器的图像声音检索方法中,在步骤s1中,将人脸图像进行旋转、剪切的随机变换,对声音波形进行标准化处理,并通过快速傅里叶变换生成语谱图,再对语谱图进行锐化处理,抑制背景噪音。
11.优选地,在上述基于互信息变分自编码器的图像声音检索方法中,在步骤s2中,通过两个不同的互信息变分自编码器对特征提取后的人脸图像和语谱图特征进行编码。
12.优选地,在上述基于互信息变分自编码器的图像声音检索方法中,在步骤s4中,通过互信息、均方误差损失函数增强μf和μv的相关性,重建后的图像声音特征对就代表原始的图像和声音来自同一个人。
13.根据本发明的技术方案,产生的有益效果是:
14.本发明的基于互信息变分自编码器的图像声音检索方法,使用无监督训练方式,不依赖于精心设计的正负样本对,减少了训练过程的数据预处理操作,降低了算法复杂度,极大的节省了训练成本;同时,本方法采用脑启发算法,模拟大脑皮层在处理听觉和视觉信号时的工作方式-处理视觉信号的大脑皮层和处理听觉信号的大脑皮层部分重叠,通过vae(变分自编码器)将图像特征和声音特征进一步分解为模态共享的特征和模态专属的特征之后再进行蒸馏和匹配,成功地规避了模态专属特征对匹配效果造成的影响,并极大的增加了检索结果的准确性。
15.为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
16.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
17.图1是本发明的基于互信息变分自编码器的图像声音检索方法的流程图;
18.图2是本发明方法涉及的网络结构图。
具体实施方式
19.为使本发明的目的、技术方法及优点更加清晰,下面结合附图及具体实例,对本发明做进一步的详细说明。这些实例仅仅是说明性的,而并非对本发明的限制。
20.本发明的基于互信息变分自编码器的图像声音检索方法,利用深度学习技术,学习人脸图像和语谱图二者之间的对应关系。如图1和图2所示,该方法从开始到结束,具体包括以下步骤:
21.s1.对人脸图像及声音进行预处理,将声音转化为语谱图并提取声音特征。具体地,对人脸图像和语谱图进行一定的预处理增强数据。将人脸图像进行一些随机变换,如旋转、剪切等,对声音波形进行标准化处理,并通过快速傅里叶变换生成语谱图,再对语谱图进行锐化处理,抑制背景噪音。
22.s2.将人脸图像和声音送入特征提取网络进行特征提取,提取后的特征通过变分自编码器(vae)进行编码,编码后的均值对应模态共享特征,方差对应模态专属特征,其中,模态共享特征为模态共享图像特征μf和模态共享声音特征μv,方差对应模态专属特征为模态专属图像特征σf和模态专属声音特征σv;之后通过特征蒸馏,摒弃模态专属特征,仅保留模态共享特征μf和μv进行之后的匹配操作。
23.s3.将s2的输出模态共享特征μf和μv进行拼接,并通过一个相同的vae通用解码器进行解码和重建,得到重建后的人脸和声音对(z1,z2)。(即,重建后的人脸记作z1,声音记作z2)。
24.s4.计算编码和特征蒸馏后的共享图像特征μf和声音共享特征μv的互信息损失值、推土机距离损失,计算特征对(μf,μv)和重建后的人脸声音对(z1,z2)间的均方误差损失,计算kl散度损失值,并计算上述损失的加权平均作为网络的最终损失函数。
25.在该步骤中,计算特征对(μf,μv)和重建后的人脸声音对(z1,z2)间的均方误差损失,即欧式距离,同时计算编码和特征蒸馏后的共享图像特征μf和声音共享特征μv的互信息损失值、推土机距离损失、kl散度损失值,之后采用加权平均的方式将多种损失一起构成网络的最终损失函数。
26.s5.将s4的输出作为优化目标,采用adam优化器进行迭代优化。
27.本发明的基于互信息变分自编码器的图像声音检索方法,首先将声音转化为语谱图,对声音和人脸进行特征提取,之后通过两个不同的互信息变分自编码器对提取后的人脸图像和语谱图特征进行编码,编码结果将人脸特征编码为模态共享人脸特征、模态专属人脸特征,声音特征编码为模态共享声音特征、模态专属声音特征;通过特征蒸馏,过滤掉模态专属特征σf,σv,保留模态共享特征μf,μv。之后对两个不同的特征空间的特征重采样并通过一个相同的通用解码器重建成新的人脸z1和声音z2,通过互信息、均方误差损失函数增强μf和μv的相关性,重建后的图像声音特征对就代表原始的图像和声音来自同一个人。
28.本发明方法采用互信息算法衡量两个随机分布的相关性,将信息论的相关概念引入深度学习领域,提出互信息损失概念,提高了匹配的准确性;参考大脑皮层视觉、听觉不同区域感知信息的模式,提出“模态共享”匹配概念,将声音和图像经过特征提取后通过vae进行特征编码,编码后对特征进行蒸馏,保存各个模态共享的特征,将模态专属的特征摒弃;引入推土机距离损失函数,使用sinkhorn(一种最优传输算法)算法实现推土机损失;通过多次实验,证明kl散度系数在0.001时效果最优。
29.本发明提出的基于互信息变分自编码器的图像声音检索方法的具体实施方案,整体操作流程现分述如下,图像声音检索方法的网络结构图见图2。
30.1)在预处理阶段,首选准备训练所需数据,人脸图像为“.jpg”格式,声音为“.wav”格式,之后使用声音处理软件读取“.wav”文件,将其转化为对应的声波,之后使用快速傅里叶变换将声波转化为语谱图。语谱图的横轴表示时间,纵轴表示频率,坐标值为语音的强弱;
31.2)采用预训练的特征提取网络对人脸图像和声音进行特征提取,人脸图像特征提取网络选用resnet50,声音特征提取网络选用vgg-m。最终输出512维特征向量vf,vv。vf和vv分别表示人脸图像的特征向量及语谱图的特征向量。将vf和vv分别送到vae声音编码器和vae图像编码器中进行特征编码,编码后得到模态共享人脸图像特征、模态共享声音特征,模态专属人脸图像特征,模态专属声音特征,分别记作μf,μv,σf,σv。之后进行特征蒸馏,保留模态共享特征μf,μv,过滤掉模态专属特征σf,σv。
32.3)根据标注,将s2的输出的模态共享特征μf,μv拼接成一个特征对(μf,μv),通过同一个通用解码器对μf,μv进行解码(decode)和重建,重建采用vae变分自编码器中的重参数化(reparameterize)实现,重建后的人脸记作z1,声音记作z2,人脸声音对记作(z1,z2)
33.4)计算特征μf和μv的互信息损失miloss,计算μf和μv的推土机距离损失wassloss,计算重建后的数据对(z1,z2)和(μf,μv)间的均方误差损失mseloss,计算两个vae编码器encoder-v和encoder-a各自的kl散度损失值klloss。最终加权计算总损失函数totalloss;
34.其中klloss=klv kla,
[0035][0036]
其中σ和μ分别是对应特征空间内特征分布的方差和均值。
[0037]

[0038][0039][0040]
互信息miloss可以用以下公式表示:
[0041]
h(x,y)=h(x) h(y|x)=h(y) h(y|x)
[0042]
上式x、y分别代表μf和μv[0043]
推土机距离损失w度量两个概率分布之间的距离,定义如下:
[0044][0045]
π(p1,p2)是p1和p2分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布γ,可以从中采样(x,y)~γ得到一个样本x和y,并计算出这对样本的距离||x-y||,所以可以计算该联合分布γ下,样本对距离的期望值e(x,y)~γ[||x-y||]。在所有可能的联合分布中能够对这个期望值取到的下界infγ~π(p1,p2)e(x,y)~γ[||x-y||]就是推土机距离。实际中使用sinkhorn(一种最优传输)算法,近似计算推土机距离损失wassloss。
[0046]
5)使用两个adam优化器对上述损失进行优化。
[0047]
此优选实施例在名人语音数据集voxceleb1以及voxceleb2上进行训练并测试,并用目前公认的评价标准mrr(平均检索排名)对实验结果进行了评估,实际测试结果见表1,表明本发明提出的方法达到了目前领先的检测精度。
[0048]
表1是对本发明的优选实施例的方法进行评估的实验结果表
[0049][0050]
以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献