一种多模态事件本体半自动构建方法

2022-12-19 22:55:41 来源：中国专利 TAG：

1.本发明涉及事件本体构建技术领域，尤其涉及一种多模态事件本体半自动构建方法。

背景技术：

2.事件本体是一种以事件作为知识表示单元的知识表示系统，它通过事件类和事件关系对某个领域进行知识建模，事件本体作为知识库可广泛应用在事件知识获取、信息检索、事件推理、服务推荐和突发事件应急决策等领域。
3.得益于计算机与网络的飞速发展，信息的表达手段逐渐多样化，单一的文本模态不足以表达出信息的全貌，如何充分利用多种信息模态来实现更加智能的应用是当前人工智能领域亟待解决的问题，在传统事件本体构建领域中，现有的事件本体构建技术主要针对文本单一模态下的事件本体构建，存在一定局限性，且构建方法多为手工构建，通常需要知识工程师在领域专家指导下开展构建工作，较低的构建效率影响了事件本体的应用。

技术实现要素：

4.本发明的目的是解决现有技术中存在的缺点，而提出的一种多模态事件本体半自动构建方法。
5.为了实现上述目的，本发明采用了如下技术方案：一种多模态事件本体半自动构建方法，包括以下步骤：
6.s1：基于现有的事件本体构建流程和文本事件信息自动抽取技术，提出半自动构建多模态事件本体的方法；
7.s2：面向事件本体视觉模态融合的图像场景分类以及目标检测；
8.s3：图像要素相关性评估以及代表性选取；
9.s4：事件类多模态信息补充与归纳。
10.进一步的，所述基于现有的事件本体构建流程和文本事件信息自动抽取技术，提出半自动构建多模态事件本体的方法具体包括：
11.s101：确定事件本体的领域和范畴，根据领域特点采集领域文本数据；
12.s102：复用现有事件本体模式，利用事件本体模式快速生成领域内事件类和事件关系，作为领域事件本体构建的候选事件类和事件关系，如没有可复用的本体模式，则进入第三步；
13.s103：通过对文本分词后，利用现有的基于注意力机制和bi-gru的事件触发词抽取模型抽取出事件的类型，再利用现有的基于bert和注意力机制的事件元素抽取模型抽取出事件要素，再采用bi-lstm对两个事件的信息进行编码并分类，实现事件关系抽取，最终获得候选事件类和事件关系；
14.s104：由领域专家对步骤s102和s103获得的事件和事件关系进行人工筛选和补充，获得领域核心事件类和事件关系；
15.s105：按照事件六元组模型，结合s102获得的事件要素，定义核心事件类的主要要素，如事件类的动作、对象、时间、地点、前置状态和后置状态等；
16.s106：通过定义候选事件类之间的层次关系，形成领域事件类层次结构，领域专家根据领域常识对事件类层次进行上下位扩充，最终形成较完整的领域事件类层次模型；
17.s107：基于步骤s104获得的领域事件类和事件关系，基于领域常识针对领域核心事件类构建其事件情景模型，事件情景模型由事件类和事件逻辑关系构成，如组成、因果、跟随、并发等；
18.s108：根据事件文本数据的来源采集图片，并根据事件及其要素制定多关键字搜索图片，关键字由事件名、对象、地点、动作组成，以空格分隔，最终将图片集l＝{p1,p2,
…
,pn}补充到事件的多模态信息中，等待后续融合。
19.进一步的，所述采用bi-lstm对两个事件的信息进行编码并分类，实现事件关系抽取，具体表示如下：
20.将事件信息输入bi-lstm进行编码，具体表示为：
21.bi-lstm(x)＝xc＝{x0,x1,
…
xn}
22.其中x表示输入字向量，可以通过word2vec预训练模型向量化，xc表示模型输出的具有上下文信息的中间向量，
23.最后经过输出维度为4的全连接层和以softmax作为激活函数的输出层，得到分类结果，具体表示为：
[0024][0025]
其中，w为待学习的权重矩阵，b为偏置项，为softmax输出的概率，分别表示组成、因果、跟随和并发关系的分类概率。
[0026]
进一步的，所述面向事件本体视觉模态融合的图像场景分类以及目标检测，具体包括：
[0027]
s201：采用现有的在places365数据集预训练的vgg16-places365模型，对事件的每张图片做场景识别标注，取分数前n的场景标签p
sce
＝{s1,s2,
…
,sn}，补充到事件中的多模态信息中；
[0028]
s202：采用现有的yolov5模型，对事件的每张图片做目标检测标注，得到n个实体标签p
obj
＝{o1,o2,
…
,on}，补充到事件的多模态信息中。
[0029]
进一步的，所述图像要素相关性评估以及代表性评估，具体包括：
[0030]
s301：对于每个事件类的所有事件，采用词向量预训练模型计算事件中每张图片的n个场景标签和所属事件类地点要素的向量表示，计算n个场景标签和事件地点要素的余弦相似度取相似度平均值作为该张图片的图像场景要素匹配度score1，补充到事件的多模态信息中；
[0031]
s302：对于每个事件类的所有事件，采用词向量预训练模型计算事件中每张图片的n个图片实体标签和所属事件类对象要素的向量表示，计算事件类对象要素中每个对象与n个图片实体标签的余弦相似度取相似度平均值作为该对象的匹配度，最终取事件对象要素中所有对象的匹配度平均分，作为该张图片的图像对象要素匹配度score2，补
充到事件的多模态信息中；
[0032]
s303：结合图像场景要素匹配度score1和图像对象要素匹配度score2，计算图片的综合要素匹配度score，从每个事件类的所有事件中取分数前m的图片作为事件类的候选图片集l＝{p1,p2,
…
,pm}，将图片的综合要素匹配度和候选图像集补充到事件的多模态信息中；
[0033]
s304：采用代表性图像选取技术筛选候选图片集中的代表性图片。
[0034]
进一步的，所述计算n个场景标签和事件地点要素的余弦相似度，取相似度平均值作为该张图片的图像场景要素匹配度，具体满足以下公式：
[0035][0036][0037]
其中，pi表示第i个场景标签的嵌入表示，a表示事件地点要素的嵌入表示，表示第i个场景标签与事件地点要素的相似度，n表示场景标签的个数，score1表示图像场景要素匹配度。
[0038]
进一步的，所述计算事件对象要素中每个对象与n个图片实体标签的余弦相似度，取相似度平均值作为该对象的匹配度，最终取事件对象要素中所有对象的匹配度平均分，作为该张图片的图像对象要素匹配度，具体满足以下公式：
[0039][0040][0041]
其中，oi表示第i个图片实体标签的嵌入表示，bj表示事件对象要素中第j个对象的嵌入表示，表示第i个图片实体标签与事件对象要素中第j个对象的相似度，m表示事件对象要素中对象的个数，n表示图片实体标签的个数，score2表示图像实体要素匹配度。
[0042]
进一步的，所述结合图像场景要素匹配度和图像对象要素匹配度，计算图片的综合要素匹配度，取分数前m的图片作为候选图片集，具体满足以下公式：
[0043]
score＝α
×
score1 β
×
score2(α β＝1)
[0044]
其中，α表示图片场景要素匹配度的权重，β表示图片实体要素匹配度的权重。
[0045]
进一步的，所述采用代表性图像选取技术筛选候选图片集中的代表性图片，具体包括：
[0046]
对于事件类中候选图像集中的每张图像，提取图像的sift特征ti，采用余弦相似度计算图像间的相似度，得到图像相似度特征矩阵hn×n；基于特征矩阵使用ap算法进行图像
聚类；计算每个簇的视觉特征重合率vj＝match_avg(pj)，其中match_avg(
·
)表示计算簇内图像之间的sift特征匹配点数的平均值，pj表示第j个簇的图像特征集合；最后从排名第一的簇的聚类中心作为代表性图像p
rep
。
[0047]
进一步的，所述事件类多模态信息补充与归纳，具体包括：
[0048]
将候选图片集，代表性图片、图片实体集合、图片场景标签、图片场景匹配度、图片实体匹配度、图片综合匹配度补充到事件类的多模态信息要素的视觉描述中，即m
visual
＝{l,p
rep
,p
obj
,p
sce
,score1,score2,score}。
[0049]
与现有技术相比，本发明的优点和积极效果在于：
[0050]
本发明中，在现有事件本体构建方法的基础上加以改进，结合事件信息抽取技术形成事件本体半自动构建技术，进一步融合视觉描述信息，提高本体中多模态的表达能力，解决单模态事件本体表达能力不足的问题，通过提出图片场景要素匹配度和图片实体要素匹配度来提高图片与事件要素的相似性，通过提出使用代表性图片选取技术从图片集中归纳得到事件类多模态信息要素。
附图说明
[0051]
图1为本发明提出一种多模态事件本体半自动构建方法的多模态事件本体的体系结构图；
[0052]
图2为本发明提出一种多模态事件本体半自动构建方法的多模态事件本体半自动构建流程图。
具体实施方式
[0053]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0054]
在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
[0055]
实施例一
[0056]
请参阅图1，本发明提供一种技术方案：一种多模态事件本体半自动构建方法，包括以下步骤：
[0057]
s1：基于现有的事件本体构建流程和文本事件信息自动抽取技术，提出半自动构建多模态事件本体的方法；
[0058]
s2：面向事件本体视觉模态融合的图像场景分类以及目标检测；
[0059]
s3：图像要素相关性评估以及代表性选取；
[0060]
s4：事件类多模态信息补充与归纳。
[0061]
事件类(event class)指具有共同特征的事件的集合，用ec表示：
[0062]
ec＝(e,o,a,p,t,s,m)
[0063]
其中，e是事件的集合，o、a、p、t、s、m称为事件类要素，分别是e中的每个事件的对应要素具有共同特性的集合，o(对象)：在这类事件中涉及的对象(包括参与者、实体事件等)的共性特征；a(动作)：这类事件的变化过程及其特征；p(地点)：事件类中所有事件发生的场所的共性特征；t(时间)：事件类中所有事件发生的时间共性特征；s(状态)：事件类中所有事件的共性前置状态和后置状态；m(多模态信息)：事件类中所有事件的多模态信息共性描述特征，包括文本描述和视觉描述，其中文本描述包括触发词搭配集合、核心词集合、各要素称谓；视觉描述包括代表性图片、图片实体集合、图片场景标签、图片实体匹配度、图片场景匹配度、图片综合匹配度等。
[0064]
事件(event)：在某个特定的时候和地点下发生的、由若干角色参与、表现出若干动作特征的一件事情，形式上，事件可表示为e，定义为一个六元组：
[0065]
e＝(o,a,p,t,s,m)
[0066]
其中，事件六元组中的元素称为事件要素，分别表示对象、动作、时间、地点、状态、多模态信息，o(对象)：事件涉及的对象(包括参与者、实体事物等)；a(动作)：事件中发生的动作；p(地点)：事件发生的场所；t(时间)：事件发生的时间(段)；s(状态)：事件发生的前置状态和后置状态；m(多模态信息)：结构化的事件模态信息集合，包括文本描述和视觉描述，其中文本描述包括触发词搭配、核心词、各要素称谓；视觉描述包括图片集合、图片实体集合、图片场景标签等。
[0067]
请参阅图2，在s1中，首先确定事件本体的领域和范畴，根据领域特点采集领域文本数据，文本数据来源于新闻网站的报导，通过自动化手段扒取文本数据并保留其来源；其次如果有可复用的现有事件本体模式，可以利用事件本体模式快速生成领域内事件类和事件关系，作为领域事件本体构建的候选事件类和事件关系，如果没有可复用的本体模式，则通过对文本分词后，利用现有的基于注意力机制和bi-gru的事件触发词抽取模型抽取出事件的类型，再利用现有的基于bert和注意力机制的事件元素抽取模型抽取出事件要素，再采用bi-lstm对两个事件的信息进行编码并分类，实现事件关系抽取，最终获得候选事件类和事件关系；然后由领域专家对获得的事件和事件关系进行人工筛选和补充，获得领域核心事件类和事件关系；然后领域专家按照事件六元组模型，结合事件要素，定义核心事件类的主要要素，如事件类的动作、对象、时间、地点、前置状态和后置状态等；然后通过定义候选事件类之间的层次关系，形成领域事件类层次结构，领域专家根据领域常识对事件类层次进行上下位扩充，最终形成较完整的领域事件类层次模型；然后基于领域事件类、事件关系和领域常识针对领域核心事件类构建其事件情景模型，事件情景模型由事件类和事件逻辑关系构成(如顺序、因果、并发等)；最后根据事件文本数据的来源采集图片，并根据事件及其要素制定关键字搜索图片，关键字由事件名、对象、地点、动作组成，以空格分隔，最终将图片集l＝{p1,p2,
…
,pn}补充到事件的多模态信息中，等待后续融合。
[0068]
s1中，采用bi-lstm对两个事件的信息进行编码并分类，实现事件关系抽取，具体表示如下：
[0069]
将事件信息输入bi-lstm进行编码，具体表示为：
[0070]
bi-lstm(x)＝xc＝{x0,x1,
…
xn}
[0071]
其中x表示输入字向量，可以通过word2vec预训练模型向量化，xc表示模型输出的具有上下文信息的中间向量。
[0072]
最后经过输出维度为4的全连接层和以softmax作为激活函数的输出层，得到分类结果，具体表示为：
[0073][0074]
其中，w为待学习的权重矩阵，b为偏置项，为softmax输出的概率，分别表示组成、因果、跟随和并发关系的分类概率。
[0075]
在s2中，首先采用现有的在places365数据集预训练的vgg16-places365模型，对事件的每张图片做场景识别标注，取分数前n的场景标签p
sce
＝{s1,s2,
…
,sn}，补充到事件的多模态信息中；其次采用现有的yolov5模型，对事件的每张图片做目标检测标注，得到n个实体标签p
obj
＝{o1,o2,
…
,on}，补充到事件的多模态信息中。
[0076]
在s3中，首先采用bert词向量预训练模型计算事件中每张图片n个场景标签和所属事件类地点要素的向量表示，计算n个场景标签和事件地点要素的余弦相似度，取相似度平均值作为该张图片的图像场景要素匹配度score1；其次采用bert词向量预训练模型计算每张图片n个图片实体标签和文本事件对象要素的向量表示，计算事件对象要素中每个对象与n个图片实体标签的余弦相似度，取相似度平均值作为该对象的匹配度，最终取事件对象要素中所有对象的匹配度平均分，作为该张图片的图像对象要素匹配度score2；之后结合图像场景要素匹配度和图像对象要素匹配度，计算图片的综合要素匹配度score，从每个事件类的所有事件中取分数前m的图片作为事件类的候选图片集l＝{p1,p2,
…
,pm}，将图片的综合要素匹配度和候选图像集补充到事件类的多模态信息中；最后采用代表性图像选取技术筛选候选图片集中的代表性图片。
[0077]
s3中计算n个场景标签和事件地点要素的余弦相似度，取相似度平均值作为该张图片的图像场景要素匹配度，具体满足以下公式：
[0078][0079][0080]
其中，pi表示第i个场景标签的嵌入表示，a表示事件地点要素的嵌入表示，表示第i个场景标签与事件地点要素的相似度，n表示场景标签的个数，score1表示图像场景要素匹配度。
[0081]
s3中计算事件对象要素中每个对象与n个图片实体标签的余弦相似度，取相似度平均值作为该对象的匹配度，最终取事件对象要素中所有对象的匹配度平均分，作为该张图片的图像对象要素匹配度，具体满足以下公式：
[0082]
[0083][0084]
其中，oi表示第i个图片实体标签的嵌入表示，bj表示事件对象要素中第j个对象的嵌入表示，表示第i个图片实体标签与事件对象要素中第j个对象的相似度，m表示事件对象要素中对象的个数，n表示图片实体标签的个数，score2表示图像实体要素匹配度。
[0085]
s3中结合图像场景要素匹配度和图像对象要素匹配度，计算图片的综合要素匹配度，取分数前m的图片作为候选图片集，具体满足以下公式：
[0086]
score＝α
×
score1 β
×
score2(α β＝1)
[0087]
其中，α表示图片场景要素匹配度的权重，β表示图片实体要素匹配度的权重。
[0088]
s3中采用代表性图像选取技术筛选候选图片集中的代表性图片，具体表示如下：
[0089]
提取图像的sift特征ti，采用余弦相似度计算图像间的相似度，得到图像相似度特征矩阵hn×n；基于特征矩阵使用ap算法进行图像聚类；计算每个簇的视觉特征重合率vj＝match_avg(pj)，其中match_avg(
·
)表示计算簇内图像之间的sift特征匹配点数的平均值，pj表示第j个簇的图像特征集合；最后从排名第一的簇的聚类中心作为代表性图像p
rep
。
[0090]
在s4中，将候选图片集，代表性图片、图片实体集合、图片场景标签、图片场景匹配度、图片实体匹配度、图片综合匹配度补充到事件类的多模态信息要素的视觉描述中，即m
visual
＝{l,p
rep
,p
obj
,p
sce
,score1,score2,score}。
[0091]
工作原理：首先基于现有的事件本体构建流程和文本事件信息自动抽取技术，提出半自动构建多模态事件本体的方法，而后面向事件本体视觉模态融合的图像场景分类以及目标检测，其次进行图像要素相关性评估以及代表性选取，最后进行事件类多模态信息补充与归纳。
[0092]
以上，仅是本发明的较佳实施例而已，并非对本发明作其他形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其他领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：行为相似度的确定方法、装置、存储介质及电子装置与流程

一种多模态事件本体半自动构建方法

相关文献

最热文献