一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于论元子图提示生成与引导的篇章级多事件抽取方法

2022-05-21 10:03:23 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,尤其涉及一种基于论元子图提示生成与引导的篇章级多事件抽取方法。


背景技术:

2.随着互联网技术的迅速发展,海量数据涌入人们的生活。为了快速处理大规模数据,挖掘数据中具有潜在价值的信息,人们对于信息抽取技术的需求日益增长。事件抽取是信息抽取领域中的一项重要任务,旨在从非结构化的自然语言文本中检测事件的发生,判断事件的类型,将参与事件的重要元素抽取出来,并将结果以结构化的方式呈现。事件抽取具有广泛的应用价值,一方面,事件抽取可以辅助提供结构化的多元关系信息,为机器阅读理解、知识图谱构建带来性能的提升。另一方面,事件抽取在实际应用领域可以帮助人们理解事件的运行过程,辅助分析决策。
3.目前,针对事件抽取的研究多数利用深度学习方法,将事件抽取建模为序列标注问题。首先抽取触发词,若包含触发词则视作有事件发生。然后再从文本中抽取论元。最后判断触发词和论元之间是否有关系,从而确定该论元是否属于触发词指代的事件。然而,这样的方法有以下的缺点:
4.1.仅关注句子层面的信息,忽略了篇章级别的信息。在实际场景中,事件具有论元分散的特点,在一篇文档中描述事件的文本通常分布于多个句子中,需要考虑篇章级信息才能获得完整的抽取结果。
5.2.对于多事件抽取准确率不高。实际领域的一篇文档中往往有多个事件交错分布,现有方法依赖触发词指代事件来进行多事件抽取,而真实场景的触发词常常难以判断,存在一个事件包含多个触发词、一个触发词对应多个事件类型、无明显触发词等现象。所以依赖触发词的方法会造成抽取结果的冗余或遗漏,导致最终多事件抽取效果不佳。
6.3.过于依赖触发词为数据标注带来负担。现有的方法往往以触发词作为媒介,但是触发词只是事件抽取的中间结果,不是必需的,而且标注难度非常大,加重了人工构建数据集时的负担。
7.综上所述,现有的技术方案存在忽略篇章级信息,多事件抽取准确率不高,过度依赖触发词等缺点。


技术实现要素:

8.针对以上现有方法的缺陷,本发明提出了一种新颖的基于论元子图提示生成与引导的篇章级多事件抽取方法。该方法使用篇章级长文本编码器,可以同时利用篇章级信息和句子级信息。通过多元论元关系抽取生成的事件草图来实现多事件的指代和定位,使用基于提示范式的预训练模型方法进行事件槽填充来实现论元的分类,从而提升多事件抽取准确率。该方法无需使用触发词,降低了对于数据集的标注负担。
9.本发明的技术方案如下:
10.一种基于论元子图提示生成与引导的篇章级多事件抽取方法,其包括以下步骤:
11.s1:对输入文本进行候选论元的抽取;
12.s2:抽取输入文本中包含的事件草图;
13.s3:基于事件草图构建论元子图提示,在论元子图提示引导下填充事件槽,形成事件记录;
14.s4:设置迭代次数,将s3得到的事件记录转化成新的事件草图,迭代重复 s3的步骤,得到矫正后的最终事件记录。
15.作为本发明的优选方案,所述的步骤s1,包括如下步骤:
16.s11:在训练阶段,对于输入的事件文本,将其处理成符合longformer模型的输入形式,表示为文本序列每个元素的标签通过“bio”的标注方式进行标注;
17.s12:对于s11输入的文本序列d,经过基于longformer预训练模型的编码器进行编码后,得到中间向量hf:
[0018][0019]
s13:将s12得到的中间向量hf通过全连接层fc得到最终的元素表示向量 zf:
[0020][0021]
s14:通过softmax层来计算每个元素输出标签li的后验概率p(li|zfi),其中ws和 bs是可训练参数:
[0022]
p(li|zfi)=softmax(wszfi bs)
[0023]
s15:对于序列中的每个元素输出拥有最大概率的标签类别
[0024][0025]
s16:将s15得到的文本序列元素的标签序列进行“bio”标签的解析,得到该文档包含的全部候选论元实例,通过实体消歧与融合将候选论元实例进行合并,并关联到对应的候选论元实体上,每个实例称作该候选论元实体的一个提及;最后得到的候选论元实体集合表示为候选论元ei的所有提及实例表示为
[0026]
作为本发明的优选方案,所述的步骤s2,包括如下步骤:
[0027]
s21:判断候选论元之间两两的关系,将关系判断建模为多标签分类问题,关系类别等于事件类别加上额外的一类“阈值类”;
[0028]
s22:使用已经得到的所有候选论元和其中的关系构建全局候选论元关系图;全局候选论元关系图表示为无向图g=(v,e),其中v表示顶点集合,每个点vi是已经抽取出的候选论元;e代表边的集合,每一条边(vi,vj)∈e,(i,j≤ne,i≠j)代表vi与vj之间有关系,关系的类别是r(vi,vj);
[0029]
s23:在全局论元关系图上抽取子图;
[0030]
s24:根据抽取出来的子图构建事件草图,所有得到的事件草图表示为其中每个事件草图si的事件类型是ti,也就是子图中的边的类型;事件草图
si中包含的论元后选集合以表示为也就是候选论元子图中所有顶点构成的集合。
[0031]
作为本发明的优选方案,所述的步骤s3,包括如下步骤:
[0032]
s31:对于事件草图si,构建相应的事件提示模板,构建方法如下:“在[事件类型]中,[论元角色1]是[ans_slot_1],[论元角色2]是[ans_slot_2],
…”
,其中“[事件类型]”是该事件草图的类型ti,“[论元角色1]”和“[论元角色2]”等是该事件类型下预定义的论元角色,“[ans_slot_1]”和“[ans_slot_2]”是答案槽,由一个或多个预定义的标识符组成;
[0033]
s32:构建事件草图模板;对于事件草图中包含的候选论元,将其使用如下方式转化成文本序列:“[候选论元1][rd][候选论元2][rd][候选论元3]
…”
,其中“[候选论元1]”和“[候选论元2]”等是事件草图中抽取出的候选论元“[rd]”是特定的分隔符,由一个或多个预定义的标识符组成;
[0034]
s33:将s31中的事件提示模板和s32中得到的事件草图模板拼接起来,加上前缀“[cls]”,并使用“[sep]”间隔开,组成论元子图提示;
[0035]
s34:填充事件槽。
[0036]
作为本发明的优选方案,所述的步骤s4,包括如下步骤:
[0037]
s41:设置迭代矫正次数cnt;
[0038]
s42:将s3得到的事件记录中包含的事件论元转化为新的事件草图;
[0039]
s43:将s42得到的新的事件草图输入s3,重新进行事件槽填充,重复迭代填充cnt次,最终结果就是事件抽取的结构化结果。
[0040]
与现有技术相比,本发明所具有的有益效果有:
[0041]
(1)本发明使用了可以处理超长文本的基于longformer的预训练模型作为文本编码器,因此可以直接利用篇章级信息,实现文档全局信息和局部信息的流通,提升事件抽取结果的完整性。
[0042]
(2)本发明构建了一种框架方法并运用多种优化方式来提升篇章级多事件抽取效果。首先应用了自适应阈值方法和基于派系过滤的子图抽取方法构建事件草图指代多事件并得到初步事件记录。然后将事件抽取任务转化为槽填充任务,应用基于提示范式的预训练模型方法,引入预训练模型蕴含的大量背景知识,以提升事件槽填充的准确率。最后将结果多次迭代矫正,提高整体抽取效果。
[0043]
(3)本发明使用了首先判断论元候选之间的二元关系,然后在全局候选论元关系图上进行多元子图抽取的方法最终得到了具有论元多元关系的事件草图作为多事件的指代。在无需标注触发词的情况下即可实现多事件抽取,降低了对于数据集标注的要求,减轻了数据集构建时的人力和时间负担。
附图说明
[0044]
图1为本发明基于论元子图提示生成与引导的篇章级多事件抽取方法流程图。
具体实施方式
[0045]
为了更清楚地阐述本发明提出的技术方法,以chfinann公开事件数据集为例,具
体阐述本发明提出的一种基于论元子图提示生成与引导的篇章级多事件抽取方法的实现步骤。
[0046]
如图1所示,本发明的方法包括如下四个步骤:
[0047]
s1:对输入文本进行候选论元的抽取;
[0048]
s2:抽取输入文本中包含的事件草图;
[0049]
s3:基于事件草图构建论元子图提示,在论元子图提示引导下填充事件槽,形成事件记录;
[0050]
s4:设置迭代次数,将s3得到的事件记录转化成新的事件草图,迭代重复 s3的步骤,得到矫正后的最终事件记录。
[0051]
优选地,s1的步骤如下:
[0052]
s11.对于输入的事件文本,将其处理成符合longformer模型的输入形式,可表示为文本序列每个元素的标签通过“bio”的标注方式进行标注。
[0053]
s12.对于输入的文本序列,经过基于longformer预训练模型的编码器进行编码后,得到中间向量hf:
[0054][0055]
s13.将得到的中间向量hf通过全连接层fc得到最终的元素表示向量zf:
[0056][0057]
s14.通过softmax层来计算每个元素输出标签li的后验概率p(li|zfi),其中 ws和bs是可训练参数:
[0058]
p(li|zfi)=softmax(wszfi bs)
[0059]
s15.对于序列中的每个元素输出拥有最大概率的标签类别
[0060][0061]
s16.将得到的文本序列元素的标签序列进行“bio”标签的解析,得到该文档包含的全部候选论元实例,通过实体消歧与融合将候选论元实例进行合并,并关联到对应的候选论元实体上,每个实例称作该候选论元实体的一个提及。最后得到的候选论元实体集合可表示为候选论元ei的所有提及实例可表示为
[0062]
优选地,s2的步骤如下:
[0063]
s21:判断候选论元之间两两的关系,将关系判断建模为多标签分类问题,关系类别等于事件类别加上额外的一类“阈值类”,具体如s211-s217所示:
[0064]
s211.对于输入的文本序列使用longformer编码器进行编码,得到中间向量hs:
[0065][0066]
s212.将候选论元ei包含的提及的序列位置表示为的序列位置表示为代表开始位置,代表结束位置。使用平均池化的方式聚合形成该提及的表示向量
[0067][0068]
s213.通过计算候选论元ei所有提及的表示向量的平均池化值,计算每个候选论元的表示向量
[0069][0070]
s214.依次选择两个不相同的候选论元ei和ej,通过一个线性层linear和一个非线性层tanh转换成隐藏向量和
[0071][0072][0073]
其中wi和wj是可训练参数;
[0074]
s215:通过双线性映射bilinear计算关系类别r的概率pr,其中σ表示softmax 函数,wr和br是可训练参数:
[0075][0076]
s216.使用如下的自适应动态阈值损失函数进行训练:
[0077][0078][0079]
l
total
=l1 l2[0080]
其中正类构成的关系集合为c
t
,负类构成的关系集合为cn;阈值类的符号是 th;在l1中,r属于正类,r

属于正类与阈值类,pr表示r类别的概率,pr′
表示 r

类别的概率;在l2中,r

属于负类和阈值类,pr′
表示r

类别的概率,p
th
表示阈值类的概率;l1损失优化正类的概率大于阈值类,l2损失使得阈值类的损失大于负类;最终的损失l
total
是l1和l2的总和;
[0081]
s217:在预测的时候,通过判断每个关系类别的概率是否大于该样例预测的阈值类的概率,来得到该对候选论元是否具有该类别的关系,其中r表示某一类别,rel表示候选论元ei和ej之间的关系:
[0082]
if pr(ei,ej)》p
th
(ei,ej),then rel(ei,ej)=r
[0083]
s22.使用已经得到的所有候选论元和其中的关系构建全局候选论元关系图。这张图可以表示为无向图g=(v,e),其中v表示顶点集合,每个点vi是模型已经抽取出的候选论元;e代表边的集合,每一条边(vi,vj)∈e,(i,j≤ne,i≠j)代表vi与vj之间有关系,关系的类别是r(vi,vj)。
[0084]
s23:在全局论元关系图上抽取子图,具体如s231-s234所示:
[0085]
s231.找到g中所有的大小为k的完全子图k-cliques={c1,c2,

,cn};
[0086]
s232.将k-cliques的每个完全子图定义为一个新顶点,当每两个新顶点之间包含的相同的原始顶点的数量大于等于k-1时,赋予这两个新顶点一条边,由此可以组成一张新图g
new
,之后会在新图上继续分析;
[0087]
s233.找到g
new
中所有的完全子图;
[0088]
s234.每个完全子图中包含的所有原始顶点构成了一个子图,也就是最终要抽取的候选论元子图。
[0089]
s24.根据抽取出来的子图构建事件草图。所有得到的事件草图可以表示为其中每个事件草图si的事件类型是ti,也就是子图中的边的类型;事件草图si中包含的论元后选集合可以表示为也就是候选论元子图中所有顶点构成的集合。
[0090]
优选地,s3的步骤如下:
[0091]
s31.对于事件草图si,构建相应的事件提示模板,构建方法如下:“在[事件类型]中,[论元角色1]是[ans_slot_1],[论元角色2]是[ans_slot_2],
…”
,其中“[事件类型]”是该事件草图的类型ti,“[论元角色1]”和“[论元角色2]”等是该事件类型下预定义的论元角色,“[ans_slot_1]”和“[ans_slot_2]”是答案槽,由一个或多个预定义的标识符组成,在本实施例中,每个答案槽使用例如“[unused1][unused2]”这两个标识符的样式,序号递增。
[0092]
s32.构建事件草图模板。对于事件草图中包含的候选论元,将其使用如下方式转化成文本序列:“[候选论元1][rd][候选论元2][rd][候选论元3]
…”
,其中“[候选论元1]”和“[候选论元2]”等是事件草图中抽取出的候选论元“[rd]”是特定的分隔符,由一个或多个预定义的标识符组成,在本实施例中,分隔符使用“[unused80]”。
[0093]
s33.将s31中的事件提示模板和s32中得到的事件草图模板拼接起来,加上前缀“[cls]”,并使用“[sep]”间隔开,可以组成论元子图提示。
[0094]
s34:填充事件槽,具体步骤如s341-s349所示:
[0095]
s341.将s33中得到的论元子图提示与文本拼接起来,使用“[sep]”作为间隔符,输入文本表示为
[0096]
s342.经过longformer编码后,产生了中间向量ht:
[0097][0098]
s343.得到的候选论元提及在新文本序列的事件草图和原始文本部分的位置表示为区间。通过对一个候选论元提及包含的所有元素的中间向量的平均池化来得到候选论元提及的表示向量
[0099][0100]
s344.通过对候选论元的全部提及的表示向量进行平均池化,可以得到该候选论元的表示向量
asp)在该数据集的具体实验结果如下表1和表2所示:
[0119]
表1事件类型分类结果
[0120] dmee-asp股份冻结-f1值100.0股份回购-f1值100.0股份减持-f1值99.3股份增持-f1值99.5股份质押-f1值99.9
[0121]
表2事件论元抽取实验结果
[0122][0123][0124]
从表1和表2可知,本发明在无需触发词的情况下,可以完成篇章级多事件抽取任务中事件类型分类和事件论元抽取两个子任务,而且实验结果良好,在事件类型分类中f1
值均达到99以上,在事件论元抽取中总体的f1值达到了目前的最好水平。该方法有效提升了事件抽取结果的准确率,具有一定的通用性和优越性。
[0125]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献