基于注意力机制的自然语言视觉推理方法与流程

2022-03-26 16:20:44 来源：中国专利 TAG：

技术特征：
1.一种基于注意力机制的自然语言视觉推理方法，其特征在于步骤如下：步骤1：采用one-hot编码将输入语言表达式中的每个单词编码到嵌入表示向量e
t
中，再使用bilstm编码每个单词的上下文，将得到的前后两个方向上的隐藏向量相连接，得到每个单词的隐藏表示向量h
t
，t表示表达式中的单词序号，t＝1,2,
…
,t，t表示表达式包含的单词个数；步骤2：按照下式计算得到不同模块对每个单词的关注度：其中，m∈{sub,loc,rel}，m＝sub表示主语模块，m＝loc表示位置模块，m＝rel表示关系模块，a
m,t
表示模块m对第t个单词的关注度，f
m
表示模块m可训练的向量；按下式计算单词嵌入表示向量的加权和，作为每个模块的短语嵌入表示向量：其中，q
m
表示模块m的短语嵌入；步骤3：连接第一个单词和最后一个单词的隐藏表示向量，使用一个全连接层将其转换成三个模块的权重，具体如下：其中，w
sub
表示主语模块的权重，w
loc
表示位置模块的权重，w
rel
表示关系模块的权重，softmax(
·
)表示归一化指数函数，用于计算每个模块的权重，w
m
表示每个模块对单词的关注度；h1表示语言表达式中第一个单词的隐藏表示向量，h
t
表示最后一个单词的隐藏表示向量，b
m
表示偏置；步骤4：利用mask r-cnn检测器对输入图像进行目标检测，以检测得到的目标作为图像的候选对象；其中，采用残差网络作为mask r-cnn检测器的特征提取网络；步骤5：将残差网络conv3_x模块输出的特征c3和conv4_x模块输出的特征c4通过1
×
1的卷积合并得到主语特征，将主语特征输入到主语模块中的属性预测分支，得到预测的属性；将主语特征划分成14
×
14的空间网格，再计算主语模块的短语嵌入表示向量与每个网格的相似度，此过程的计算表达式如下：h
a
＝tanh(w
v
v w
q
q
sub
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中，h
a
表示空间网格上主语模块的短语嵌入，tanh(
·
)表示tanh激活函数，w
v
表示空间网格的权重；w
q
表示主语模块对每个单词的关注度；v表示空间网格的特征；w
h,a
表示网格上每个单词的权重；a
v
表示网格的注意力值；按下式计算空间网格特征v的各个分量v
i
的加权和，得到候选对象的视觉表示向量：其中，表示候选对象i的主语视觉表示，表示第i个网格上的注意力值，v
i
表示第i个网格的特征，g表示网络数量；
计算视觉表示向量和短语嵌入表示向量q
sub
之间的相似度，以相似度值作为主语模块的匹配得分，其计算表达式为：其中，o
i
表示第i个候选对象，s(o
i
|q
sub
)表示第i个候选对象的主语的视觉表示和主语短语嵌入的匹配分数，f(
·
)表示匹配函数，由两个多层感知机和l2正则化构成；步骤6：将候选对象位置的视觉表示和位置短语嵌入输入到位置模块，首先采用5维向量编码候选对象的左上角位置、右下角位置以及与图像的相对面积：其中，l
i
表示第i个候选对象的绝对位置的视觉表示，i＝1,2,
…
,n，n是mask r-cnn检测器检测识别出的候选对象个数，表示第i个候选对象边界框左上角的横坐标值，表示第i个候选对象边界框左上角的纵坐标值，表示第i个候选对象边界框右下角的横坐标值，表示第i个候选对象边界框右下角的纵坐标值，w
i
表示第i个候选对象的边界框的宽，h
i
表示第i个候选对象的边界框的高，w表示输入图像的宽，h表示输入图像的高；然后，通过计算偏移量和面积比来编码候选对象的相对位置表示：其中，δl
ij
表示第i个候选对象和第i个候选对象的相对位置表示，i,j＝1,2,
…
,n，[δx
tl
]
ij
表示第i个候选对象和第j个候选对象的边界框左上角的横坐标值之差的绝对值，[δy
tl
]
ij
表示第i个候选对象和第j个候选对象的边界框左上角的纵坐标值之差的绝对值，[δx
br
]
ij
表示第i个候选对象和第j个候选对象的边界框右下角的横坐标值之差的绝对值，[δy
br
]
ij
表示第i个候选对象和第j个候选对象的边界框右下角的纵坐标值之差的绝对值，w
j
表示第j个候选对象的边界框的宽，h
j
表示第j个候选对象的边界框的高；候选对象的位置表示向量为：最后，计算候选对象的位置表示向量和短语嵌入表示向量q
loc
之间的相似度，以相似度值作为位置模块的匹配得分，其计算表达式为：其中，s(o
i
|q
loc
)表示第i个候选对象的位置的视觉表示和位置短语嵌入的匹配分数；步骤7：将候选对象关系的视觉表示和关系短语嵌入输入到关系模块，首先编码周围对象到候选对象的相对位置表示：其中，δm
ij
表示第i个候选对象和其第j个周围对象的相对位置表示，每个候选对象有8个周围对象，周围对象是指与候选对象欧氏距离最小的候选对象，i＝1,2,
…
,n，j＝1,2,
…
,8，[δx
tl
]
ij
表示第i个候选对象和其第j个周围对象的边界框左上角的横坐标值之差
的绝对值，[δy
tl
]
ij
表示第i个候选对象和其第j个周围对象的边界框左上角的纵坐标值之差的绝对值，[δx
br
]
ij
表示第i个候选对象和其第j个周围对象的边界框右下角的横坐标值之差的绝对值，[δy
br
]
ij
表示第i个候选对象和其第j个周围对象的边界框右下角的纵坐标值之差的绝对值，w
j
表示第j个周围对象的边界框的宽，h
j
表示第j个周围对象的边界框的高；然后，按下式计算每个候选对象和其周围对象的关系视觉表示：其中，表示第i个候选对象和其第j个周围对象的关系的视觉表示，wr(
·
)表示关系模块的权重；v
ij
表示第i个候选对象的第j个周围对象的特征c4，b
r
表示关系模块的偏置；最后，计算每个候选对象和其周围对象的关系视觉表示与短语嵌入表示向量q
rel
之间的相似度，以最大相似度值作为关系模块的匹配得分，即：其中，s(o
i
|q
rel
)表示第i个候选对象和其周围对象的关系视觉表示和关系短语嵌入的匹配分数；步骤8：按照下式计算得到每个候选对象的总体匹配得分s
i
：s
i
＝w
sub
×
s(o
i
|q
sub
) w
loc
×
s(o
i
|q
loc
) w
rel
×
s(o
i
|q
rel
)
ꢀꢀꢀ
(15)其中，i＝1,2,
…
,n；以总体匹配得分最高的候选对象作为语言表达式描述的对象，输出其位置框，完成图像的视觉推理。

技术总结
本发明提供了一种基于注意力机制的自然语言视觉推理方法。主要包括一个语言解析处理和三个视觉处理模块，首先，输入语言表达式，利用one-hot编码、BiLSTM编码等进行处理，并据此计算三个视觉处理模块用的短语嵌入表示和权重；然后，利用Mask R-CNN检测器对输入图像进行目标检测，并将其检测结果分别输入到主语模块、位置模块和关系模块，每个模块分别计算其匹配得分；最后，计算三个模块匹配得分的加权和作为总体匹配得分，以总体匹配得分最高的候选对象作为语言表达式描述的对象，输出其位置框，完成图像的视觉推理。本发明具有更好的上下文信息理解力，且能够处理多种结构的表达式。式。式。

技术研发人员：王琦许杰袁媛
受保护的技术使用者：西北工业大学
技术研发日：2021.12.06
技术公布日：2022/3/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于增强现实的复杂易变形舱段对接可视化装配辅助方法与流程

基于注意力机制的自然语言视觉推理方法与流程

相关文献

最热文献