一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于双向CNN的跨模态语义聚类方法与流程

2021-10-24 05:58:00 来源:中国专利 TAG:方法 模态 语义 双向 深度

一种基于双向cnn的跨模态语义聚类方法
技术领域
1.本发明涉及计算机视觉领域,尤其涉及基于深度学习的跨模态检索方法。


背景技术:

2.在新媒体信息爆炸的时代,每一位新媒体用户都会随时随地发布各种各样的不同模态的多媒体信息,例如图片、音乐、视频或是文字。由于多媒体信息的迅速发展,随着多媒体信息数量、种类的增多,用户想要准确的获取自己想要的信息也变得困难起来,获取信息的同时,总是附随着相关度不同的其他信息。这些数据,不仅数量庞大,而且多数都是没有标签的数据,而且不同的模态,数据之间存在着“异构鸿沟”,所以跨模态检索的主要技术问题就是跨过这些不同模态数据之间的“鸿沟”,提取检索数据的精度和准确度。
3.跨模态检索技术的核心是衡量不同数据之间的相似性。由于“异构鸿沟”的存在,所以跨模态检索的关键在于如何匹配不同模态的信息。迄今为止,大多数跨模态检索是将不同模态的样本映射到同一子空间。还可以根据使用信息分类为非监督方法和监督方法。监督方法则是使用了样本所带有的标签信息。
4.虽然,跨模态检索都是基于映射于同一子空间,但是根据损失函数的选取和设置,也会有不同的效率以及准确度。在这项发明中,我们设计了一项在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失来帮助语义聚类,不仅加强了不同类别间的识别能力,而且增强了不同模式之间的相关性。


技术实现要素:

5.本发明提出一种基于双向cnn的跨模态语义聚类方法。该方法可以有效提高跨模态检索的效率和准确率。
6.本发明分别利用两个cnn网络结构分别进行,一个深层cnn用来提取图片样本的特征向量。一个浅层cnn,利用不同尺寸的多核卷积来提取文本样本的特征向量。
7.传统的利用标签信息的跨模态检索,往往只考虑到了模态间的内容相似度,本发明提出一种跨模态检索方式,提出了一种新颖的语义聚类方式。根据类别相同的样本应该具有一致的分布,为了使样本在目标空间中可以对应到相应的类别分布,计算了目标空间的聚类中心。定义损失函数为在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失。
8.该方法具体包括以下步骤:
9.步骤1:数据的预处理,对训练集的文本样本进行预训练。
10.采用现有的数据集,按设定比例将其分为训练集和测试集,对训练集的文本样本进行预训练。
11.步骤2:构建跨模态检索网络。
12.跨模态检索网络采用双cnn同时进行。通过resnet

50网络提取图片样本的特征向量。对于文本样本,先利用word2vec预训练词向量,再通过textcnn提取文本的特征向量。
13.步骤3:通过训练集训练跨模态检索网络。
14.步骤4:计算网络的损失函数。进行反向传播,通过选定的优化器和相应参数对连接权重进行优化。训练多轮后得到最终的网络模型。
15.寻找一个有效的转移矩阵将样本从源空间投射到目标空间。样本转移后,在其类别聚类中心对应的目标空间中进行聚类。定义损失函数为在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失。目标空间中样本和聚类中心的损失即学习了一个维不变矩阵,使类别分布的方差最小。通过最小化类别分布的mmd来缩小不同模态之间的类别分布差异。判别损失即为标签预测损失,应用分类器来预测公共空间种样本的类别标签。
16.步骤5:对网络模型进行测试:
17.通过测试集的对训练好的模型进行测试,计算各项评价指标。
18.步骤2具体方法如下:
19.跨模态检索网络采用双层cnn结构,包含resnet

50网络和文本cnn网络即textcnn。网络结构采用双cnn同时进行。通过resnet

50网络提取图片样本的特征向量。对于文本样本,先利用word2vec预训练词向量,再通过textcnn提取文本的特征向量。
20.采用resnet

50来进行对图片样本的信息特征向量的提取,然后进行公共表示学习得到每个图片的公共表示。
21.词嵌入是将文本中的词转换成数字向量的方法。textcnn包括嵌入层、卷积层、池化层和全连接softmax层。对于每个句子,根据词向量得到一个二维句子矩阵,然后选择不同的大小的过滤器进行卷积操作得到多个特征,然后进行最大池化,并且将其拼接起来,最后经过softmax全连接层进行分类。同样,采用多个完全连通的层来学习文本的公共表示。
22.用u=[u1,u2,

,u
n
],v=[v1,v2,

,v
n
]以及y=[y1,y2,

,y
n
]分别表示所有实例的图像表示矩阵、文本表示矩阵和标签矩阵,其中n是类别的数量。表示转移矩阵,表示维不变矩阵,用于优化损失函数,其中,d
s
是源空间的维数,d
τ
是目标空间的维数。
[0023]
步骤3具体方法如下:
[0024]
通过训练集训练双向cnn网络,使用sgd优化器,其动量为0.9。
[0025]
步骤4具体方法如下:
[0026]
将损失函数设定为在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失的组合。为了减少不同类别分布在目标空间中的重叠,学习一个维不变的矩阵,减小类别分布的方差,能够有效降低语义信息的丢失和维数选择的困难。
[0027]
首先计算语义聚类的目标中心,通过平均类别样本计算c个聚类中心因此:
[0028][0029]
其中x
τ
是聚类中心的集合,n0是样本的数量,d
τ
是目标空间的维数,n是类别的数量。
[0030]
由此可得,在目标空间中样本和聚类中心的损失如下:
[0031][0032]
表示目标空间中样本和聚类中心的损失损失,x目标空间中的样本。
[0033]
通过最小化类别分布的mmd来缩小不同模式之间的类别分布差异,通过最小化x
s
w与x
τ
h之间的最大平均差的平方
[0034][0035]
其中,是n0×
1的向量,x
s
表示源域的样本。
[0036]
最后利用交叉熵来计算预测损失,即所得结果和真实值的差距:
[0037][0038]
p
*,i
是每个图像或文本生成的概率分布,y
i
是他的真实标签值。
[0039]
所以最终共同的损失函数表示为:
[0040][0041]
其中,θ是将要优化的模型的变量,λ为权重系数。
[0042]
步骤5:对网络模型进行测试;
[0043]
将测试集的图像文本输入到训练好的模型,得到预测的图像文本的高级语义表示,通过计算得到的平均精度均值(map)对模型进行评估。最后保存好训练结束的模型,通过测试集对进行测试,计算各项评价指标。
[0044]
本发明有益效果如下:
[0045]
本发明方法利用语义信息的聚类,来提高了跨模态检索的精确度和效率。本发明设计了一项在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失来帮助语义聚类,不仅加强了不同类别间的识别能力,而且增强了不同模式之间的相关性。
附图说明
[0046]
图1为跨模态检索网络的结构示意图;
具体实施方式
[0047]
下面根据附图详细说明本发明,本发明的目的和效果将变得更加明显。
[0048]
步骤1:数据的预处理,对训练集的文本样本进行预训练。
[0049]
采用现有的数据集,按设定比例将其分为训练集和测试集,对训练集的文本样本进行预训练。
[0050]
步骤2:构建跨模态检索网络。
[0051]
如图1所示,跨模态检索网络采用双层cnn结构,包含resnet

50网络和文本cnn网络即textcnn。网络结构采用双cnn同时进行。通过resnet

50网络提取图片样本的特征向量。对于文本样本,先利用word2vec预训练词向量,再通过textcnn提取文本的特征向量。
[0052]
resnet

50主要思想是在网络中增加了直连通道,允许原始输入信息直接传到后
面的层中,对于信息丢失或梯度爆炸和网络过深无法计算的问题具有一定的改善,所以我们这里采用resnet

50来进行对图片样本的信息特征向量的提取,然后进行公共表示学习得到每个图片的公共表示。
[0053]
词嵌入是将文本中的词转换成数字向量的方法。textcnn包括嵌入层、卷积层、池化层和全连接softmax层。对于每个句子,根据词向量得到一个二维句子矩阵,然后选择不同的大小的过滤器进行卷积操作得到多个特征,然后进行最大池化,并且将其拼接起来,最后经过softmax全连接层进行分类。同样,采用多个完全连通的层来学习文本的公共表示。
[0054]
用u=[u1,u2,

,u
n
],v=[v1,v2,

,v
n
]以及y=[y1,y2,

,y
n
]分别表示所有实例的图像表示矩阵、文本表示矩阵和标签矩阵,其中n是类别的数量。表示转移矩阵,表示维不变矩阵,用于优化损失函数,其中,d
s
是源空间的维数,d
τ
是目标空间的维数。
[0055]
步骤3:通过训练集训练双向cnn网络,使用sgd优化器,其动量为0.9。
[0056]
步骤4:构造损失函数,并计算每一次向前传播的误差,通过反向传播算法对网络的权重进行更新。
[0057]
将损失函数设定为在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失的组合。为了减少不同类别分布在目标空间中的重叠,学习一个维不变的矩阵,减小类别分布的方差,能够有效降低语义信息的丢失和维数选择的困难。
[0058]
首先计算语义聚类的目标中心,具有相同概念的样本应该具有均匀分布,所是以通过平均类别样本计算c个聚类中心因此:
[0059][0060]
其中x
τ
是聚类中心的集合,n0是样本的数量,d
τ
是目标空间的维数,n是类别的数量。
[0061]
由此可得,在目标空间中样本和聚类中心的损失如下:
[0062][0063]
表示目标空间中样本和聚类中心的损失损失,x目标空间中的样本。
[0064]
类别相同但是模态不同的样本的分布也并不是完全相同,mmd可以构造统计检验来确定两个样本是否来自不同的分布。所以,通过最小化类别分布的mmd来缩小不同模式之间的类别分布差异,通过最小化x
s
w与x
τ
h之间的最大平均差的平方
[0065][0066]
其中,是n0×
1的向量,x
s
表示源域的样本。
[0067]
最后利用交叉熵来计算预测损失,即所得结果和真实值的差距:
[0068][0069]
p
*,i
是每个图像或文本生成的概率分布,y
i
是他的真实标签值。
[0070]
所以最终共同的损失函数表示为:
[0071][0072]
其中,θ是将要优化的模型的变量,λ为权重系数。
[0073]
步骤5:对网络模型进行测试;
[0074]
将测试集的图像文本输入到训练好的模型,得到预测的图像文本的高级语义表示,通过计算得到的平均精度均值(map)对模型进行评估。最后保存好训练结束的模型,通过测试集对进行测试,计算各项评价指标。
[0075]
在这次实施例子中进行实施的数据集是pascal sentence dataset。该数据集总共有1000幅图像组成,被分为20个类别,每个图像都有5个对应的句子。我们选择40个图像

文本样本对进行训练,5个用于测试,5个用于验证。
[0076]
在这次实施的过程中采取的评价指标是平均精度均值(map),平均精度均值是预测目标位置以及类别这一类算法的性能度量标准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜