一种基于跨模态自注意力的无候选框指代表达理解方法与流程

2022-03-26 12:12:13 来源：中国专利 TAG：

技术特征：
1.一种基于跨模态自注意力的无候选框指代表达理解方法，其特征在于，包括如下步骤：步骤1：图像及语言信息的提取和编码；步骤1-1：将图像经过yolov3卷积神经网络提取得到一个特征图；将图像分为多个区域，在特征图中加入图像各个区域的位置信息，将得到的图像特征记为域，在特征图中加入图像各个区域的位置信息，将得到的图像特征记为g∈r
w
×
h
×
d
，w、h、d分别表示特征图的宽、高以及特征的维度，g
i
表示特征图中第i个特征向量；步骤1-2：设定最长的语句词数为t，词数不足t的语句空白处用pad标识填充，语句开始位置添加cls标识，语句结尾添加sep标识；将语句分解为词，通过词嵌入后得到各个词对应的特征向量；再对词的特征向量进行位置编码，将经过位置编码后的词向量输入进bert网络，得到语言特征e∈r
t
×
dim
，dim表示表达每个单词特征向量的维度，e
t
表示第t个词汇的特征向量；步骤2：基于多头注意力机制的跨模态特征加强；步骤2-1：将语句特征e和图像特征g输入到跨模态交互注意力模块中；所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块；语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由n个相同注意力层构成；在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中，e1表示语言特征g1表示图像特征在之后的n-1个注意力层中，e
n
表示经过n-1层图像注意力引导得到的语言特征g
n
表示经过n-1层语言注意力引导得到的图像特征n为当前层数；步骤2-2：在语言引导的视觉注意力模块中，语言特征作为查询矩阵q的输入，图像特征作为键矩阵k和值矩阵v的输入；语言引导的视觉注意力模块的输入由语言特征和图像特征构成；对于每一个e
t
和g
i
计算点积，并除以系数计算点积，并除以系数之后再利用softmax函数计算注意力权重，其中m为多头注意力的头数，d为输入的特征向量的维度；每一层语言引导的视觉注意力模块用公式(1)-(3)表示：(3)表示：(3)表示：其中是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征，分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对q、k、v的参数；为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征，concat为拼接操作，为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数，q
i
、k
i
、v
i
分别为第i个注意力头的查询矩阵、键矩阵和值矩阵；每一层图像引导的语言注意力模块中用公式(4)-(6)表示：
其中是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征，分别表示图像引导的语言注意力模块第n层中第i个头针对q、k、v的参数；为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征，concat为拼接操作，为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数；经过跨模态交互注意力模块的迭代后，得到经过注意力加强后的图像特征和语言特征；步骤3：基于多头自注意力机制的跨模态特征融合；对语言特征和图像特征进行拼接，作为多头自注意力模块的输入对语言特征和图像特征进行拼接，作为多头自注意力模块的输入经过多头跨模态融合之后，提取视觉部分的输出得到h
f
∈r
(w
×
h)
×
d
；步骤4：目标定位；将h
f
输入含有5个卷积核、步长为1的卷积层，得到形状为w
×
h
×
5的预测结果向量，对图像进行等长等宽的区域的划分，按照位置关系将w
×
h个预测结果分别对应于图像的w
×
h个区域，每个区域称为一个格子；其中的5指5个预测值，分别为t
x
、t
y
、t
w
、t
h
，为预测框中心点的置信度即当前格子含有检测目标的可能性，t
x
、t
y
分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量，t
w
、t
h
分别为预测目标长宽相对于实际目标长宽的偏移量；设定目标框真值为bbox＝x
b
，y
b
，w
b
，h
b
，(x
b
，y
b
)为目标框的中心点坐标，w
b
、h
b
分别为目标框的宽和高的真值；采用作为在计算损失时用到的目标框相对宽高，w、h分别为输入图像长和宽的大小；网络训练损失函数定义如下：l
off
＝(δx-t
x
)2 (δy-t
y
)2，
ꢀꢀꢀꢀꢀꢀꢀ
(8)式中，c
ij
＝1表示当前格子中含有真值目标的中心点，c
ij
＝0表示当前格子中不含有真值目标的中心点；表示真值目标的中心点对于该格中心的偏移，i、j分别指int(
·
)表示该操作将分数舍入到最接近的整数，用来表示目标中心点真值所在的格子的实际位置；表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度；
只对真值目标的中心点所在的格子进行l
off
、l
rgr
的计算；增加了giou损失作为辅助；总损失函数如下：loss＝l
cls
λ
off
l
off
λ
rgr
l
rgr
l
giou
ꢀꢀꢀꢀꢀꢀꢀ
(10)式中，λ
off
为l
off
的权重参数，λ
rgr
为l
rgr
的权重参数；步骤5：训练完成后，对网络进行测试，最终选择置信度最高的格子中心点作为预测位置中心，以此为基础产生预测框，最终预测的目标边界框如下：其中，(x
t
、y
t
)表示预测框中心点的横纵坐标，w
t
、h
t
分别表示预测框的长、宽。2.根据权利要求1所述的一种基于跨模态自注意力的无候选框指代表达理解方法，其特征在于，所述t＝20。

技术总结
本发明公开了一种基于跨模态自注意力的无候选框指代表达理解方法，该方法无需预先提取候选区域，能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下：第一部分为对语言及图像信息的提取和编码过程，采用YOLOv3卷积神经网络对图片信息进行特征提取，采用BERT预训练模型对语言信息进行特征提取；第二部分为基于多头注意力机制的跨模态特征加强过程，采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化；第三部分为基于多头自注意力机制的跨模态特征融合过程，利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合；第四部分为目标的定位过程，采用无锚方法，实现对目标的定位。的定位。的定位。

技术研发人员：王鹏索伟孙梦阳马瑞阳
受保护的技术使用者：西北工业大学
技术研发日：2021.12.19
技术公布日：2022/3/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种适用于小卫星批量测试的方法及系统与流程

一种基于跨模态自注意力的无候选框指代表达理解方法与流程

相关文献

最热文献