一种基于胶囊自-导协同注意力机制的视觉问答方法与流程

2021-10-19 23:56:00 来源：中国专利 TAG：问答视觉协同胶囊注意力

技术特征：
1.一种基于胶囊自
‑
导协同注意力机制的视觉问答方法，其特征在于，该流程具体包括以下步骤：步骤1，从互联网上下载图像数据，针对每个图像提出问题并给出答案，以此形成<图像，问答>对，构造视觉问答数据集；步骤2，对图像数据进行预处理，然后由检测区域中的图像数据提取图像数据的平均池化卷积特征作为物体特征；该步骤具体包括：针对图像数据，对图像中能检测到的物体的概率设置置信度阈值，将输入图像特征集表示为m表示物体的数量，d
x
表示在x这个集合里每个特征的维度；步骤3，对文本数据进行预处理，然后提取文本数据的深度特征，具体处理如下：所述预处理具体包括：对文本数据进行去分隔词处理、词汇转换成小写、句子裁剪；构成问题中的单词被送入一个300维的glove词嵌入，将词嵌入再送入含有d
y
个隐藏单元的单层lstm网络，提取单层lstm网络的最后一个隐状态的输出作为整个问题的深度特征；步骤4，进行基于胶囊自
‑
导协同注意力机制学习图像和问题文本的联合表征；该步骤具体包括以下处理：构造两个组件即自注意力组件self
‑
attention和引导注意力组件guided
‑
attention；给定一个输入图像集合特征多头注意力层捕捉成对的输入样本<x
i
，x
j
>之间的配对关系，然后计算出被关注的特征z∈r
n
×
d
；接着，多头注意力层的输出特征被送入前馈神经网络，通过实现动态路由过程学习到联合表征；步骤5，将该联合表征进行进一步多模态融合过程，最终得到预测的答案。2.如权利要求1所述的一种基于胶囊自
‑
导协同注意力机制的视觉问答方法，其特征在于，所述实现动态路由过程的具体处理包括：初始化映射矩阵w
x
和w
y
，获往和y
p
，即y
p
＝w
y
·
y其中，表示映射后的图像特征向量，y
p
表示映射后的问题文本特征向量，y表示问题的文本特征向量，n表示输入图像特征集x中的元素个数，x
i
表示输入图像特征集x里的第i个元素，即第i个图像特征，定示映射后的第i个图像特征，y表示问题的文本特征向量，y
p
表示映射后的文本特征向量；分别对映射后的问题文本向量和图像特征向量使用自注意力机制，即y
p
＝selfattention(y
p
)其中，selfattention()表示自注意力函数，用映射后的问题文本向量得到胶囊的输出的初始化向量v0，即
v0＝y
p
其中，v0表示胶囊输出的初始值；进入循环体，设循环次数为n，t∈[1，n]；令t＝0；计算耦合系数c
i
＝softmax(b
i
)；其中，b
i
表示内部变量；计算加权求和后的图像特征其中，表示映射后的图像特征向量，c
i
表示在参考向量y的引导下，特征向量集中每个向量x
i
的权重参数，由模型习得并由动态路由协同注意力算法更新，n表示输入的图像特征集x中的元素个数；将此时胶囊的输出与加权求和后的图像特征送入引导注意力组件，以此来更新胶囊下一次的输出v
t
表示在路由协同注意力算法中胶囊的输出，即，参考向量集合和特征向量的联合表示，t表示当前的迭代次数；更新内部变量结束循环体，获得胶囊最终的输出v；最终的v就表示参考向量和特征向量的联合表征。3.如权利要求1所述的一种基于胶囊自
‑
导协同注意力机制的视觉问答方法，其特征在于，所述步骤5具体包括以下步骤：5.1、输入图像x和y的联合分布[x，y]
(t)
，；将其拆分成两部分x
(t)
和y
(t)
；5.2、将这两部分分别送入两层的多层感知机(multi
‑
layer perceptron，简称mlp)，来分别获得各自的有效特征x
attd
和y
attd
：α＝softmax(mlp(x
(t)
))β＝softmax(mlp(y
(t)
)))其中，x
(t)
、y
(t)
表示输入图像x和y的联合分布根据路由过程的迭代次数拆分出来的两部分结果，t表示路由过程的迭代次数，mlp()表示多层感知函数，x
(t)
和y
(t)
表示图像和问题互相融合对方冗余信息的特征集oftmax()表示激活函数，表示y
(t)
中的第i个元素，和分别是x
(t)
、y
(t)
中的第i个元素，计算过程中属于中间变量，最终的目的是计算出各自的有效特征x
attd
和y
attd
，α
i
和β
i
分别表示对两种特征进行加权求和时的权重，是获得最终结果的中间参数；5.3、再采用线性模型来融合两个特征，融合后的有效联合分布由以下表达式计算得到：
其中，w
x_attd
和w
y_attd
表示参考向量和特征向量集这两个线性投影矩阵，z表示融合后的有效联合分布特征，layernorm()表示适用于rnn等时序网络的归一化方法，分别表示w
x
和w
y
两个矩阵的转置；融合后的有效联合分布特征z被送入一个sigmoid函数用以投影成一个向量z
proj
∈r
k
，其中k表示训练集中最频繁答案的个数，使用adam优化器进行训练优化；训练过程中，设置的损失函数loss表达式如下：训练过程中，设置的损失函数loss表达式如下：其中，p
i
表示第i类的概率分布。

技术总结
本发明公开了一种基于胶囊自

技术研发人员：浦俊韩亚洪
受保护的技术使用者：天津大学
技术研发日：2021.07.09
技术公布日：2021/10/18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种机器学习系统及模型训练方法与流程
下一篇：基于PMML模型及配置自动生成dubbo服务的方法与流程

一种基于胶囊自-导协同注意力机制的视觉问答方法与流程

相关文献

最热文献