基于图片和句子的多模态联合事件检测方法与流程

2021-10-24 06:13:00 来源：中国专利 TAG：检测方法多模事件抽取句子

技术特征：
1.基于图片和句子的多模态联合事件检测方法，其特征在于包括如下步骤：步骤1、文本事件检测模块首先对文本特征进行编码，获取句中单词的特征向量表示序列对于第j个候选触发词，然后将其对应的候选触发词特征向量输入文本事件分类器softmax
t
，获取第j个候选触发词触发的事件类型概率分布，其中文本事件分类器的损失函数定义为l
t
；步骤2、图片事件检测模块对图片特征进行编码，获取图片中描述动作以及多个实体的图片实体特征向量表示序列然后将图片实体特征向量输入图片事件分类器softmax
i
，获取当前图片描述的事件类型概率分布，其中图片事件分类器的损失函数定义为l
i
；步骤3、图片句子匹配模块首先利用跨模态注意力机制cmam计算每一对图片实体与单词之间的关联权值；根据第j个单词，cmam能够定位重要的图片实体并分配权重，通过加权平均聚合与单词相关的图片实体特征，获取单词在图片模态的特征表示同时对于图片中的第i个实体，首先在待匹配的句子中搜索相关的单词，并为单词分配权重，通过加权平均捕获与图片实体相关的语义信息，从而获取图片实体在文本模态的特征表示然后将每个待匹配句子与其在图片模态中的特征表示序列的欧氏距离d
t
←
i
，与图片中所有实体与其在文本模态中的特征表示序列的欧氏距离d
i
←
t
进行相加，作为图片和句子的相似度；其中，图片句子匹配模块的损失函数定义为l
m
；步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块，从而获取共享事件分类器；步骤5、在测试阶段，对于多模态文章，首先利用图片句子匹配模块找出相似度最高的图片和句子，并获取第i个图片实体在文本模态的特征表示以及第j个单词在图片模态的特征表示然后利用门控注意力机制为图片实体特征向量和特征表示分配权重，通过加权平均获取第i个图片实体对应的多模态特征向量；接着利用共享事件分类器获取图片描述的事件类型；同样，利用另外一个门控注意力机制为候选触发词特征向量和特征表示分配权重，通过加权平均获取第j个单词的多模态特征表示，接着利用共享事件分类器获取第j个单词触发的事件类型。2.根据权利要求1所述的基于图片和句子的多模态联合事件检测方法的步骤1具体实现如下：1
‑
1.在kbp2017英文数据集上训练文本事件分类器softmax
t
，首先对标注数据进行预处理，获取实体类型、事件触发词及其对应的事件类型；其中包含5种实体类型和18种事件类型；然后利用stanford corenlp对原始文本进行分句、分词，获取词性和句子的语法依存结构；并分别创建词性向量表、实体类型向量表，其中每一种向量表都有类型“空”对应的初始化向量；1
‑
2.查询预训练的glove词向量矩阵，获取句子中每个词的词向量w
emd
,然后查询词性
向量表得到词性向量w
pos
和查询实体类型向量表得到实体类型向量w
entity
，每个词的实值向量x＝{w
emd
,w
pos
,w
entity
}，因此句子实值向量序列表示为w＝{x1,x2,...,x
n
‑1,x
n
},其中n是句子的长度；1
‑
3.将句子实值向量序列w＝{x1,x2,...,x
n
‑1,x
n
}作为bi
‑
lstms的输入，获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络，接着将h
l
输入gcns中，获取句子的卷积向量序列最后利用注意力计算序列h
t
中的每个元素对候选触发词的影响权重，从而获取句子的编码序列同时将c
t
作为单词序列在公共空间的特征表示序列；1
‑
4.将句子中的每个单词视为候选触发词，对于j(j≤n)第个候选触发词，然后将其对应的特征向量输入文本事件分类器:输入文本事件分类器:其中，w
t
和b
t
作为文本事件分类器softmax
t
的权重矩阵和偏置项,表示句子s中第j个候选触发词w
j
触发的事件类型概率分布，而type
w,j
表示w
j
触发的事件类型；同时，文本事件分类器的损失函数定义为：其中，t是kbp 2017英文数据集中标注的句子数量，作为单词w
j
标注的事件类型，s
i
表示数据集中第i个句子，句子长度为n。3.根据权利要求2所述的基于图片和句子的多模态联合事件检测方法的步骤2具体实现如下：2
‑
1.在imsitu图片数据集上训练图片事件分类器，其中，一共定义了504个动词记录图片描述的动作，以及11538种实体类型描述图片中出现的实体；首先利用vgg16
v
去提取图片中的动作特征，并利用多层感知机mlp
v
将动词特征转换成动词向量同时，利用另外一个vgg16
o
提取图片中的实体集合o＝{o1,o2,...,o
m
‑1,o
m
}，然后通过多层感知机mlp
o
将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片，根据其描述的动作和实体构建网状结构；其中，图片描述的动作作为网状结构的中心节点，同时将实体与动作节点进行连接；接着采用图卷积网络对图片特征对应的单词向量序列进行编码，从而使得动作节点卷积计算后的向量保存实体特征信息；其中，编码后的图片实体特征向量序列为其中，用来表示图片动作节点的卷积向量；同样，h
i
被视图片动作以及实体集合在公共空间的特征表示序列；2
‑
2.将图片i中动作卷积向量作为图片事件分类器的输入，获取图片描述事件类型的概率分布为：type
i
＝argmax(p(y
i
|i))
其中，w
i
和b
i
作为图片事件分类器softmax
i
的权重矩阵和偏置项,p(y
i
|i)表示图片i
i
触发的事件类型概率分布，而type
i
表示图片i中描述的事件类型；同时，图片事件分类器的损失函数定义为：其中，n代表着imsitu中图片标注事件样例的个数，y
i
作为图片i
i
标注的事件类型，i
i
表示图片数据集中第i个图片样例。4.根据权利要求3所述的基于图片和句子的多模态联合事件检测方法的步骤3具体实现如下：3
‑
1.给出图片i对应的实体特征向量序列以及句子s的单词特征向量序列首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示；3
‑
2.为了获取基于单词的图片实体特征表示，首先利用跨模态注意力机制计算图片中第i个实体与句子中第j单词的关联程度score
ij
：：其中，表示图片中第i个实体的特征向量与句子中第j单词的特征向量的余弦相似度，值域为[0,1]；然后根据score
ij
，计算第i个图片实体对第j单词的影响权重a
ij
为：最后，通过加权平均的方式聚合基于第j个单词的图片实体特征表示用表示整个句子在图片模态的特征表示序列；3
‑
3.为了获得基于图片实体的单词特征表示，采用和获取向量相同的计算过程，对于图片中第i个实体，根据第j个单词与当前图片实体的相关性，为第j个单词分配注意力权重：权重：然后，通过加权平均捕获基于图片第i个实体的单词特征表示同
样图片中所有实体在文本模态的表示为：3
‑
4.采用弱一致性的对齐方式，将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离，与每个句子与其在图片模态中的特征表示序列的欧氏距离之和；首先，计算每个句子与其在图片模态中的特征表示序列的欧氏距离：然后计算图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为：因此，图片i和句子s的语义相似度定义为＜i,s＞＝d
t
←
i
d
i
←
t
；为了获取语义相似度＜i,s＞最高的图片句子对，使用tripletloss优化图片句子匹配模块；对于每一对正确匹配的图片和句子，额外抽取一个与句子s不匹配的图片i
‑
，以及一个与图片i不匹配的句子s
‑
，构成两个否定对＜i,s
‑
＞和＜i
‑
,s＞；最后图片句子匹配模块的损失函数定义为：l
m
＝max(0,(1 ＜i,s＞
‑
＜i,s
‑
＞)) max(0,(1 ＜i,s＞
‑
＜i
‑
,s＞))。5.根据权利要求4所述的基于图片和句子的多模态联合事件检测方法的步骤4具体实现如下：4
‑
1.为了获取共享权重和偏置项的事件分类器，将单词和图片动作在公共空间的特征表示分别作为文本和图片事件分类器的输入，最后通过最小化目标函数l＝l
t
l
i
l
m
，对模型进行联合优化；使文本事件分类器softmax
t
和图片事件分类器softmax
i
能够共享权重矩阵和偏置项；从而，在测试阶段，利用共享事件分类器同时预测图片和句子描述的事件类型。6.根据权利要求5所述的基于图片和句子的多模态联合事件检测方法的步骤5具体实现如下：5
‑
1.利用m2e2多模态标注数据对训练好的模型进行测试，对于包含k个句子s1,s2...,s
k
‑1,s
k
和l张图片i1,i2...,i
l
‑1,i
l
的文章，首先利用图片句子匹配模块找出语义相似度＜i,s＞最高的图片句子对，同时获取基于图片实体的单词特征表示序列h
i
←
t
、以及基于单词的图片实体特征表示序列h
t
←
i
；5
‑
2.在特征融合时，对于候选触发词w
j
，认为和对候选触发词w
j
的事件类型预测贡献不同程度的特征信息；因此利用门控注意力机制为不同的特征信息分配权重，的权值计算方式如下：计算方式如下：
其中，表示第j个候选触发词特征向量与其在图片模态中的特征表示的余弦相似度，值域为[
‑
1,1]；然后，通过加权平均的方式融合与w
j
相关的图片特征信息，获取w
j
对应的多模态特征表示向量征表示向量其中，的结果通常为0至1间的数值，控制着对融合后的多模态特征的影响程度；当较小时，融合后的特征保存更多的文本信息，而较大时，说明图片特征对单词w
j
在事件分类过程中贡献更多的信息；最后将候选触发词w
j
对应的多模态特征输入共享事件分类器，从而获取单词w
j
触发的事件类型5
‑
3.同样，对于图片i，利用另外一个门控注意力控制着单词特征对图片事件分类的影响；首先利用门控注意力机制为图片动作对应的原始特征与其在文本模态的特征表示分别分配权重和其中，的计算方式为：然后，通过加权平均融合第i个图片实体的原始特征及其在文本模态中的特征表示获取更新后的多模态特征向量最后利用共享事件分类器对进行分类，获取图片描述动作所属的事件类型argmax(p(y
i
|i)，其中，i＝1。

技术总结
本发明公开了一种基于图片和句子的多模态联合事件检测方法，同时从图片和句子中识别事件。本发明一方面利用现有的单模态数据集分别学习图片和文本事件分类器；另一方面利用已有的图片与标题对训练图片句子匹配模块，找出多模态文章中语义相似度最高的图片和句子，从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数，得到共享事件分类器。最后，利用少量的多模态标注数据对模型进行测试，利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性，不仅提高了单模态事件分类的性能，而且可以发现文章中更完整的事件信息。件信息。件信息。

技术研发人员：张旻曹祥彪汤景凡姜明
受保护的技术使用者：杭州电子科技大学
技术研发日：2021.06.15
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于图片和句子的多模态联合事件检测方法与流程

相关文献

最热文献