基于知识引导深度注意力网络的场景文字视觉问答方法与流程

2021-12-14 23:51:00 来源：中国专利 TAG：

技术特征：
1.基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于包括如下步骤：步骤(1)、数据集的划分对数据集进行划分；步骤(2)：构建问题的语言特征一个问题由k个单词组成，针对每个单词k，使用预先训练好的词向量模型将其转换为包含语义信息的词向量其中d
ques
指的是问题单词的词向量维数；将一个问题中k个单词的词向量拼接成一个完整问题的语言特征，再经过线性变换映射至d维空间，得到特征步骤(3)：构建图像的物体综合特征对于一张输入图像，使用训练好的目标检测网络计算出图像中包含物体的m个候选框；针对每一个候选框m，获得其空间特征将该候选框在图像中对应的区域输入到目标检测网络中，并提取网络的某一层的输出作为该候选框的视觉特征使用可学习的线性变换将视觉特征和空间特征投影到d维空间，得到该候选框m的综合特征将一张图像中所有物体的综合特征拼接成总的物体综合特征为步骤(4)：获取图像的文本综合特征对于一张输入图像，使用离线的ocr系统获取图像中包含文本的n个文本信息，包括候选框信息和框内字符信息；针对每一个候选框信息n，获得其空间特征将该候选框在图像中对应的区域输入到训练好的目标检测网络中并提取网络的某一层的输出作为该候选框的视觉特征针对每一个框内字符信息n使用fasttext算法获得一个文本字符特征使用phoc算法获得另一个文本字符特征利用线性变换将获得的空间特征视觉特征文本字符特征和投影到d维空间，得到该文本信息n的文本综合特征将一张图像中所有文本综合特征拼接成总的文本综合特征为征为步骤(5)：构建前预测词的特征模型通过从ocr文本或固定词汇表中选择单词来迭代解码生成答案，在迭代自回归的解码过程中，将第t次解码时预测单词的特征、来源、位置，构建得到前一个预测词的综合特征并将作为第t 1次解码的输入；一个完整的答案由t次解码预测的单词组成，将所有前预测词的特征拼接成完整的前预测词特征步骤(6)：构建相对空间关系特征
针对图像中的任意两个对象i,j来生成相对空间关系特征将一张图像中所有的对象，共计m n个，都构建成总相对空间关系特征所述的对象包括物体和文本；步骤(7)：构建相对语义关系特征在迭代自回归的解码过程中，第t次解码时，将第t
‑
1次解码得到的预测单词c和图像中的字符信息n，利用余弦相似度计算得到单词c和字符信息n之间的相对语义关系特征一个完整的答案由t次解码预测的单词组成，将答案中所有预测单词和图像中所有文本对象的相对语义关系特征拼接成总相对语义关系特征步骤(8)：构建深度神经网络将问题的语言特征q、图像的物体综合特征x
obj
、图像的文本综合特征x
ocr
、前预测词的特征x
dec
拼接成特征将特征i和相对空间关系特征f
sp
输入到推理模块中，产生融合各模态信息的向量中，产生融合各模态信息的向量第t次解码时，将输出z
t
对应的文本特征和前预测词特征输入到动态指针网络中，动态指针网络的输出结合相对语义关系特征f
se
，预测得到文本中单词的答案概率和固定词汇表中单词的答案概率将拼接成拼接成从中选择概率最大的单词作为第t次解码的预测答案，并迭代预测下一个单词，直至结束；步骤(9)：损失函数将步骤(8)中输出的预测答案同对应的正确答案一起输入到损失函数中，计算得到损失值；步骤(10)：训练模型根据步骤(8)中的损失函数产生的损失值利用反向传播算法对步骤(8)中的深度神经网络模型参数进行梯度回传，不断优化，直至整个网络模型收敛；步骤(11)：网络预测值计算根据步骤(8)中输出的从中选择概率最大的单词作为第t次解码的预测答案，并迭代预测下一个单词，直至结束，生成最终的答案。2.根据权利要求书1所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(2)所述的构建问题的语言特征，具体如下：使用预先训练好的词向量模型将问题中的每个单词k转换为包含语义信息的词向量其中d
ques
指的是问题单词的词向量维数；.将k个单词组成的问题拼接成一个完整问题的语言特征，再经过线性变换映射至d维空间，具体公式如下：其中，linear是线性变换。3.根据权利要求书2所述的基于知识引导深度注意力网络的的场景文字视觉问答方
法，其特征在于步骤(3)所述的构建图像的物体综合特征，具体如下：对于每一个候选框m，其空间位置坐标为(x
min
,y
min
,x
max
,y
max
)，(x
min
,y
min
)表示候选框的左上角点的位置坐标，(x
max
,y
max
)表示候选框的右下角点的位置坐标，其空间特征表示为具体公式如下：其中，w、h分别是图像的宽、高；对于每一个候选框m，视觉特征为使用可学习的线性变换将视觉特征、空间特征投影到d维空间，得到该候选框i的综合特征具体公式如下：其中w1、w2是可学习的映射矩阵，ln是层标准化；每张图像选取包含物体的m个候选框，将每张图像中所有的候选框拼接成总的物体综合特征具体公式如下：4.根据权利要求书3所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(4)所述的构建图像的文本综合特征，具体如下：对于每一个候选框n，其空间位置坐标为(x
min
,y
min
,x
max
,y
max
,)，(x
min
,y
min
)表示候选框的左上角点的位置坐标，(x
max
,y
max
)表示候选框的右下角点的位置坐标，其空间特征表示为具体公式如下：对于每一个候选框n，视觉特征为一个字符特征为一个字符特征为另一个字符特征为利用线性变换将空间特征、视觉特征、字符特征投影到d维空间，得到该候选框n的文本综合特征具体公式如下：其中w3、w4、w5是可学习的映射矩阵，ln是层标准化；将每张图像中所有文本综合特征拼接成总的文本综合特征为具体公式如下：5.根据权利要求书4所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(5)所述的构建前预测词的特征，具体如下：在迭代自回归的解码过程中，将第t次解码时预测单词的特征、来源、位置，构建得到前
一个预测词的综合特征并将作为第t 1次解码的输入，其中第1次解码的输入是一个特殊字符’<s>’；一个完整的答案由t次解码预测的单词组成，将所有前预测词的特征拼接成完整的前预测词特征具体公式如下：6.根据权利要求书5所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(6)所述的构建相对空间关系特征，具体如下：通过任意两个候选框之间的相对位置进行建模来生成相对空间关系特征；将第i个对象的空间位置定义为(x
i
,y
i
,w
i
,h
i
)，该四维坐标分别表示对象的中心点横纵坐标、宽、高；第i个对象和第j个对象之间的相对空间关系特征表示为具体公式如下：将每张图像中的所有对象关系对特征拼接成总相对空间关系特征为具体公式如下：其中，p＝m n。7.根据权利要求书6所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(7)所述的构建相对语义关系特征，具体如下：使用预先训练好的词向量模型分别将先前预测的单词c、图像中文本的单词n转换为包含语义信息的词向量利用余弦相似度计算先前预测的单词c与图像中文本的单词n之间的相对语义关系特征其中第1次预测时，先前预测的单词是一个特殊字符’<s>’，具体公式如下：一个完整的答案由t个单词组成，图像中有n个文本单词，将答案中所有预测单词和图像中所有文本单词的相对语义关系特征拼接成成总相对语义关系特征具体公式如下：
8.根据权利要求书7所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(8)所述的构建深度神经网络，具体如下：8
‑
1.融合问题的语言特征、图像的物体综合特征、图像的文本综合特征、前预测词的特征；问题的语言特征q、图像的物体综合特征x
obj
、图像的文本综合特征x
ocr
、前预测词的特征x
dec
是来自各模态的特征，经过线性映射，可以映射到相同纬度d，并且拼接上述四种特征为具体公式如下：i＝[q,x
obj
,x
ocr
,x
dec
]
ꢀꢀꢀꢀ
(公式13)8
‑
2.构建知识增强自注意力网络ksa将特征i和相对空间关系特征f
sp
作为ksa的输入，输出具体公式如下：b'＝ln(i kmsa(i,i,i,f
sp
))
ꢀꢀꢀꢀ
(公式14)b＝ln(b' ffn(b'))
ꢀꢀꢀꢀ
(公式15)其中，kmsa是知识增强多头自注意力网络，是ksa网络的一部分，它的输入是i和f
sp
，输出是富含多模态信息的特征向量具体公式如下：q＝linear[i]
ꢀꢀꢀꢀ
(公式16)k＝linear[i]
ꢀꢀꢀꢀ
(公式17)v＝linear[i]
ꢀꢀꢀꢀ
(公式18)其中q、k、分别由i经过全连接层映射得到；∈＝1e
‑6，以避免下溢问题；其中，mlp是两层感知机，具体公式如下：其中，relu是激活函数，fc1、是全连接层；其中，ffn结构的输入是b'，具体公式如下：ffn(b')＝fc
d
(drop(relu(fc
4d
(b'))))
ꢀꢀꢀꢀꢀ
(公式21)8
‑
3.深度堆叠ksa网络以融合后的特征i和相对空间关系特征f
sp
作为输入，深度堆叠ksa网络[ksa
(1)
,ksa
(2)
,
…
,ksa
(e)
]；将第e层ksa
(e)
的输出特征和相对空间关系特征f
sp
作为第e 1层ksa
(e 1)
的输入，迭代往复，公式如下：
i
(e 1)
＝ksa
(e 1)
(i
(e)
,f
sp
)
ꢀꢀꢀꢀ
(公式22)其中，i
(0)
＝i，对不同层的ksa，关系特征f
sp
保持不变；8
‑
4.多头注意力的特征融合将步骤8
‑
3的输出i
(e 1)
作为输入，经过全连接层，输出单头z
u
，公式如下：z
u
＝linear(i
(e 1)
)linear(i
(e 1)
)
t
ꢀꢀꢀꢀ
(公式23)多头注意力z由u个相互独立的单头组成，进一步提高注意特征的表征能力，具体公式如下：z＝[z1,z2,
…
,z
u
,
…
,z
u
]
ꢀꢀꢀꢀ
(公式24)8
‑
5迭代解码计算概率第t次解码时，将步骤8
‑
4的第t次输出z
t
对应的文本特征对应的文本特征和前预测词特征输入到动态指针网络中，预测得到原始的ocr文本单词的答案概率具体公式如下：其中，w
ocr
、b
ocr
、将与相对语义关系特征相结合，形成最终的ocr文本单词的答案概率具体公式如下：通过计算得到固定词汇表中单词的答案概率具体公式如下：其中，将拼接成具体公式如下：从中选择概率最大的单词作为第i次解码的答案，并迭代预测下一个单词，直至结束。9.根据权利要求书8所述的基于知识引导深度注意力网络的的场景文字视觉问答方法，其特征在于步骤(9)所述的损失函数，具体如下：计算预测答案与真实标签之间的差距，这里使用二元交叉熵损失(binary cross
‑
entropyloss)，具体公式如下：10.根据权利要求书9所述的基于知识引导深度注意力网络的的场景文字视觉问答方
法，其特征在于步骤(10)所述的训练模型，具体如下：根据步骤(9)中的损失函数产生的损失值利用反向传播算法对步骤(8)中神经网络的模型参数进行梯度回传，不断优化，直至整个网络模型收敛。

技术总结
本发明公开了一种基于知识引导深度注意力网络的的场景文字视觉问答方法。本发明步骤：1、数据预处理及数据集的划分，2、构建问题的语言特征，3、构建图像的物体综合特征，4、获取图像的文本综合特征，5、构建前预测词的特征，6、构建相对空间关系特征，7、构建相对语义关系特征，8、构建深度神经网络，9、损失函数，10、训练模型，11、网络预测值计算。本发明通过建模物体对象和文本对象间的相对空间关系特征、前预测词和文本对象的相对语义关系特征，得到先验知识关系，并深度堆叠知识增强自注意力网络层数来获得更加丰富的信息，相比于先前基于卷积神经网络和构建对象间浅层关系的方法性能有了很大提升。法性能有了很大提升。法性能有了很大提升。

技术研发人员：余宙朱俊杰俞俊
受保护的技术使用者：杭州电子科技大学
技术研发日：2021.08.05
技术公布日：2021/12/13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像识别模型的训练方法、图像识别方法、装置及设备与流程

基于知识引导深度注意力网络的场景文字视觉问答方法与流程

相关文献

最热文献