一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

结合BIGRU和多头注意的事件主体提取方法及装置

2023-02-10 13:48:50 来源:中国专利 TAG:

结合bigru和多头注意的事件主体提取方法及装置
技术领域
1.本发明涉及一种结合bigru和多头注意的事件主体提取方法及装置,对中文事件进行提取,属于自然语言处理领域。


背景技术:

2.事件主体的提取是舆论监督和金融领域的重要任务之一。在金融领域,“事件”是进行投资分析和资产管理的重要决策参考。金融事件由于其金融专业领域的特性,表现出高复杂度、高多样性的特点。
3.传统的信息提取方法主要有三种,分别是基于规则,基于统计信息和基于规则与统计信息结合的方法。但是,这三种方法都有很强的局限性。他们太依赖手动规则,过程复杂,人为工程庞大,人为因素影响太大。后来,随着深度学习技术的逐渐成熟,深度学习方法被应用于信息提取。
4.基于深度学习的方法实现了不再依赖人工特征的端到端提取方法,并降低了传统方法所需的人工成本。反过来,工作效率也得到了提高,所以将神经网络框架引入了命名实体。
5.基于深度学习的实体识别任务在2008年首次进行。特征向量输入由英语单词拼写特征,字典和字典组成。随后在2011年再次改进了模型,并用word替换了人工构建的特征嵌入,可以在n维空间中显示单词并保留单词信息。该方法是完全无监督的学习过程,仅通过单词附近的共现特征来提取单词的特征。2015年提出了一个动态多池卷积神经网络(dmcnn)模型。卷积神经网络(cnn)具有很强的局部学习能力,可以提取深层短语特征,但是由于cnn网络本身的局限性,因此无法学习其特征句子系统而忽略了上下文语义特征。2016年提出了基于c-cbow语言和训练模型的jrnn模型,并且使用了双向长期短期记忆(bilstm)对所得向量进行编码。bilstm是两个相反方向的lstm的组合,为了获得比lstm更全面的句子功能,它弥补了cnn的不足。但是,由于bilstm网络的局限性,在现实生活中提取工作时间成本太高。
6.bigru网络加上多头注意力机制模型在文本分类领域中得到一定的应用,例如中国专利申请cn112732872a与cn110826336a,并取得了较好的效果;在信息抽取类任务中,中国专利申请cn112364654a使用该模型实现了特定领域的实体和关系的联合抽取。但在事件信息提取类任务中,如何使用bigru网络加上多头注意力机制模型进行复杂的事件类型判断并进行事件主体提取,仍是一个待解决的难题。


技术实现要素:

7.针对上述问题,本发明公开了一种结合bigru和多头注意的事件主体提取方法及装置,利用bigru网络加上多头注意力机制模型来处理事件主体提取任务,从而增强了模型学习文本功能的能力。
8.为达到上述目的,本发明采用具体技术方案是:
9.一种结合bigru和多头注意的事件主体提取方法,其步骤包括:
10.1)把文本数据转化为文本输入序列x;
11.2)利用bigru网络捕获事件类型与事件主体之间的上下文语义信息,获取文本输入序列x对应的向量xb;
12.3)基于文本输入序列x与向量xb进行多头注意力计算,得到向量xm;
13.4)依据所述向量xm,获取事件主体提取结果。
14.进一步地,事件主体包括:公司或机构。
15.进一步地,事件类型包括:资金帐户风险、怀疑欺诈、绩效下降、违反信函批准、怀疑的传销、交易违规、财务欺诈、费率调整、重组失败、实际控制人股东变更、无法履行职责、怀疑非法、怀疑非法集资、不良资产、业务倒闭、困难撤回、负主管、对维权的投诉、失去联系并逃跑、产品违规或公司股票市场异常。
16.进一步地,通过以下步骤得到向量xm:
17.1)依据向量xb,获取变量q、变量k及变量v;
18.2)对变量q、变量k及变量v分别进行独立的线性转换,并结合文本输入序列x,将线性转换结果传递给定点产品注意;
19.3)重复定点产品注意操作h次,得到h个注意力值;
20.4)拼接h个注意力值,得到向量xm。
21.进一步地,通过以下步骤获取事件主体提取结果:
22.1)通过两个softmax分类器,分别计算向量xm相应的预测结果开始及预测结果和结束;
23.2)根据预测结果开始及预测结果和结束,获取事件主体提取结果。
24.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
25.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
26.与现有技术相比,本发明的积极效果:
27.1)使用bigru网络学习上下文语义特征可以减少模型的时间成本,并且提高了模型的工作效率;
28.2)通过引入多头注意力机制,从多个方面捕获序列中的关键特征信息,提取进一步提高了提取工作的准确性;
29.3)实验结果表明,bigru引入多头注意力机制的方法可以有效地提高中文事件主体的提取精度。
附图说明
30.图1为本发明的模型结构示意图。
31.图2为本发明的bigru网络结构示意图。
具体实施方式
32.为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的
目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术核心作进一步详细的说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
33.事件主体提取的复杂性在于对事件类型和事件主体的判断。例如,“公司a的产品中有添加剂,对子公司b和公司c进行了调查”。对于“产品违规”事件类型,此句子中的主体为“公司a”,而不是“公司b”或“公司c”。可以说,特定事件类型的主体成为事件的主体。此任务中事件主体的范围限于:公司和机构。事件类型确定为:[“资金帐户风险”,“怀疑欺诈”,“绩效下降”,“违反信函批准”,“怀疑的传销”,“交易违规”,“财务欺诈”,“费率调整”,“重组失败”,“实际控制人股东变更”,“无法履行职责”,“怀疑非法”,“非法集资”,“不良资产”,“业务倒闭”、“困难撤回”,“负主管”,“对维权的投诉”,“失去联系并逃跑”,“产品违规”,“公司股票市场异常”]。
[0034]
本发明的事件主体提取方法主要分为三部分:一是双向门控循环单元(bigru),另一是多头注意力(ma),第三是解码功能。模型结构如图1所示。
[0035]
1、bigru model
[0036]
gru是lstm的改进,它将忘记门和输入门组合到一个更新门中,该更新门具有更简单的结构,更少的参数并减少了模型时间成本。bigru是由前向gru,反向gru,正向和反向gru的输出状态连接层组成的神经网络。bigru可以在保持其优势的同时很好地解决gru的缺点。也就是说,bigru可以学习相对全局的功能,并且减少了所需的参数。与bilstm相比,网络结构相对简单,提高了模型训练速度。
[0037]
如果在时间t前向gru输出的隐藏状态为而反向gru输出的隐藏状态为则隐藏bigru输出的状态为h
t
。bigru的网络结构如图2所示。
[0038]
2、multi-head attention
[0039]
注意力机制起源于人类的视觉注意力,后者模拟了人类观察信息时,他们将专注于信息的某些特定部分。目前,注意力已经成功地应用于多种任务,例如机器翻译,文本分类,图像识别等。多头注意机制(ma),多头注意可以从多个方面捕获序列的关键信息,即可以学习更深的文本特征信息。
[0040]
该模型将bigru层的输出作为向量xb,文本输入序列为x=(x1,x2,...,x
t
),其中xi表示第i个单词的单词向量,维度为d,x∈r
n*d
。多头注意力层的输入为[xb,xb,xb,x,x],变量q=k=v=xb,变量q、k和v经过三个独立的线性变换,公式如下所示。
[0041]
q=qw
iq
[0042]
k=kw
ik
[0043]
v=qw
iv
[0044]
将三个独立的线性转换后的q,k和v值传递给定点产品注意,然后重复定点产品注意操作h次,h是多头注意的“头”数,wi是用于线性变换的矩阵。
[0045]
最后,将所有attention值(head)拼接在一起,作为multi-head attention层的最终输出。
[0046]
3、decoding function
[0047]
使用两个softmax分别预测结果的开始和结束,下面公式显示了softmax函数。
[0048]
softmax(x)=exp(x-max(x))/sum(exp(x-max(x)))
[0049]
以上所述实施例仅表达了本发明的实施方式,其描述较为具体,但并不能因此理解为对本发明范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应当以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献