一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于文档级图卷积网络的事件检测方法和系统与流程

2022-02-22 23:12:43 来源:中国专利 TAG:


1.本公开涉及事件检测方法和系统,尤其是基于文档级图卷积网络的事件检测方法和系统。


背景技术:

2.事件检测可包括对文本数据进行分析,以检测文本中是否包含事件以及包含哪些事件。现有的文本分类方法虽然可以判断文本中是否包含事件,但这些方法却无法识别文本中包含哪些事件,每个事件分别是什么类型的事件,事件之间的相互关系,等等。
3.本公开针对但不限于上述诸多因素进行了改进。


技术实现要素:

4.为了解决上述问题,本文提供一种对文档级别长文建模的事件检测方法,从而进一步提高事件检测的自动化效率,更准确地识别出文本中的事件,并能够识别出事件类型和事件之间的依存关系。
5.本公开使用了文档级图卷积网络(graph convolution network,gcn)结构,对长文本文档进行端到端的训练,一方面能够在句子内部通过图卷积网络建模学习句子级的知识,同时使用全局节点来连接不同句子级别的子图,以使得信息能够跨句子传递。如此,本公开一方面解决了文档级长文本的建模问题,另一方面能够通过事件之间信息交互来学习到事件之间的关系。本公开的方法由此大大提高了事件检测的识别效果。例如,本公开的评估指标f1值(综合精准率和召回率这两个指标的评估指标,用于综合反映整体的指标)优于现有的图卷积网络模型,提高了2.9百分点。
6.根据本公开的第一方面,提供了一种基于文档级图卷积网络的事件检测方法,包括:接收输入文档,所述输入文档包括多个句子;通过文档级图卷积网络模型来检测所述输入文档中的事件,所述文档级图卷积网络模型包括全局节点和候选触发词节点,其中所述全局节点连接到每一候选触发词节点,并且所述全局节点的初始向量是随机初始化的,所述候选触发词是与所述事件相关联的;以及输出检测到的事件以及与该事件相对应的事件类型。
7.根据一实施例,通过文档级图卷积网络模型来检测所述输入文档中的事件还包括对于所述输入文档中包括的每一句子:通过词嵌入将该句子在词级别转换成向量;通过句法分析器来确立该句子中的各词之间的句法联系;对所述向量执行建模以生成上下文感知的向量;以及将所生成的上下文感知的向量以及所确立的各词之间的联系输入到所述文档级图卷积网络模型中,以供检测该句子中的事件。
8.根据又一实施例,所述词嵌入拼接了词本身的信息、来自命名实体识别(ner)的实体类型、来自词的相对位置关系的位置信息、和/或来自于词性标签(pos tag)的词性信息。
9.根据又一实施例,所述上下文感知的向量是通过bilstm来进行建模的。
10.根据又一实施例,所述全局节点是如下更新的:
[0011][0012]
其中,q
l
是更新后全局节点的向量,m是图卷积网络函数,ad是与候选触发词对应的向量矩阵和全局节点的向量的邻接矩阵,是更新前与候选触发词对应的向量矩阵,q
l-1
是更新前全局节点的向量,wd是可学习的参数,l是大于等于1的整数。
[0013]
根据又一实施例,所述邻接矩阵是通过将所述输入文本中与候选触发词对应的向量矩阵与所述全局节点的向量进行拼接来构造的。
[0014]
根据又一实施例,词节点是如下更新的:
[0015][0016][0017]
其中,是更新后与所述输入文档中的第i个句子相对应的向量矩阵,m是图卷积网络函数,是与所述输入文档中的第i个句子相对应的向量矩阵和全局节点的向量的邻接矩阵,是更新前与所述输入文档中的第i个句子相对应的向量矩阵, q
l
是更新后全局节点的向量,ws是可学习的参数,h
l
是更新后与所述输入文档相对应的向量矩阵,n是所述输入文档中的句子数目,l是大于等于1的整数,i是大于等于1且小于等于n的整数。
[0018]
根据又一实施例,所述邻接矩阵是通过将所述输入文本中与所述输入文档中的相应句子相对应的向量矩阵与所述全局节点的向量进行拼接来构造的。
[0019]
根据又一实施例,全局节点和词节点是交替更新的。
[0020]
根据又一实施例,所述文档级图卷积网络模型是使用端到端的训练方法来训练的。
[0021]
根据本公开的第二方面,提供了一种基于文档级图卷积网络的事件检测系统,所述系统包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被所述处理器执行时使所述处理器执行根据本公开的第一方面所描述的方法。
[0022]
各方面一般包括如基本上在本文参照附图所描述并且如通过附图所解说的方法、装备、系统、计算机程序产品和处理系统。
[0023]
前述内容已较宽泛地勾勒出根据本公开的示例的特征和技术优势以使下面的详细描述可以被更好地理解。附加的特征和优势将在此后描述。所公开的概念和具体示例可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。此类等效训练并不背离所附权利要求书的范围。本文所公开的概念的特性在其组织和操作方法两方面以及相关联的优势将因结合附图来考虑以下描述而被更好地理解。每一附图是出于解说和描述目的来提供的,且并不定义对权利要求的限定。
附图说明
[0024]
为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中解说。然而应该注意,附图仅解说
了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。不同附图中的相同附图标记可标识相同或相似的元素。
[0025]
图1示出了现有的图卷积网络的示例结构图;
[0026]
图2示出了根据本公开的一实施例的基于文档级图卷积网络的示例事件检测方法的流程图;
[0027]
图3示出了根据本公开的一实施例的基于文档级图卷积网络的事件检测模型的示图;
[0028]
图4结合一具体示例示出了根据本公开的基于文档级图卷积网络的事件检测方法的示例流程;
[0029]
图5示出了在全局节点的更新过程中,候选触发词和全局节点的邻接矩阵的示例构建方式;
[0030]
图6示出了在词节点的更新过程中,相应句子和全局节点的邻接矩阵的示例构建方式;
[0031]
图7示出了全局节点和词节点的示例更新过程;
[0032]
图8示出了根据本公开的一实施例的针对两个文档的相应事件检测结果;以及
[0033]
图9示出了基于文档级图卷积网络的示例事件检测系统900的示意图。
具体实施方式
[0034]
以下结合附图1-9阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。
[0035]
术语解释:
[0036]
事件检测:在本公开中指的是,对于输入的文本数据,通过机器学习的方式来判断文本数据中包含哪些事件,具体包括定位事件触发词的位置,判断事件类型。
[0037]
图卷积网络(gcn):一种深度学习的模型,用于学习图结构中各节点之间的关系。
[0038]
图结构:一种算法结构,每个节点和其他节点的一个子集建立边关系。
[0039]
事件检测算法有很多,其中图卷积网络算法是其中之一。如图1所示,其给出了现有的图卷积网络的模型结构图,其中输入图经由隐藏层、relu等建模和处理以得到输出。但是,随着图卷积网络模型的广泛应用,该模型的缺点也逐渐明显。首先,图卷积网络模型只能在句子级建模,这主要因为图卷积网络边连接关系来自于句法分析器,从而只能建立句子级节点依存关系;其次图卷积网络识别出的事件是彼此孤立的,事件之间相互影响和依存关系是缺失的。
[0040]
由此,本公开提出了一种对文档级别长文建模的事件检测方法,从而进一步提高事件检测的自动化效率,更准确地识别出文本中的事件,并能够识别出事件类型和事件之间的依存关系。本公开提出了文档级图卷积网络模型来解决长文构图问题,并通过句子级子图和文档级图这两者交替更新的方式来解决计算开销过大的问题,同时还提供了端到端的训练方法来训练文档级图卷积网络模型。从而,本公开大大提高了事件检测的识别效果。
[0041]
下面结合图2来描述本公开的基于文档级图卷积网络的事件检测方法。如图所示,其示出了根据本公开的一实施例的基于文档级图卷积网络的示例事件检测方法200的流程
图。
[0042]
参考图2,方法200可包括在框210,接收输入文档。在一示例中,输入文档可包括多个句子。例如,输入文档可以是html格式的网页中包括的新闻文章。本领域技术人员可以明白,输入文档可以是包括多个句子的任何合适格式。
[0043]
接着,方法200可包括在框220,通过文档级图卷积网络模型来检测输入文档中的事件。在本公开的一实施例中,文档级图卷积网络模型可包括全局节点和候选触发词节点。在该实施例中,候选触发词是与事件相关联的触发词,即如果文本中存在该候选触发词,则可认为文本中有一定概率存在相关事件。在该文档级图中,全局节点连接到每一候选触发词节点。这样,触发词在训练的过程中,一方面能够吸收句子内部信息以用于识别触发词的对应事件类型,另一方面全局节点可充当句子之间的信息桥梁,以使得文档级的信息在句子之间交互。在本公开的又一优选实施例中,全局节点并没有和句子中的所有词节点全部建立连接,从而能够减少不必要的噪音信息。
[0044]
在本公开的一实施例中,通过文档级图卷积网络模型来检测输入文档中的事件还可包括首先对输入文档进行预处理,例如通过嵌入层(embedding)、bilstm层、句法分析器等处理输入文档。
[0045]
如图3所示,本公开的示例文档级图卷积网络模型可包括嵌入层、bilstm层、文档级图卷积网络层、crf(conditional random fields,条件随机场)层,等等。在该实施例中,通过文档级图卷积网络模型来检测输入文档中的事件可包括对于输入文档中包括的每一句子:通过词嵌入将该句子在词级别转换成向量;对该向量执行建模(诸如通过 bilstm建模)以生成上下文感知的向量;通过句法分析器来确立该句子中的各词之间的句法联系(从而形成与该句子相对应的子图中的与各词相对应的节点之间的边连接关系);以及将所生成的上下文感知的向量以及所确立的各词之间的联系输入到文档级图卷积网络模型中,以供检测该句子中的事件。进一步根据该实施例,词嵌入可拼接词本身的信息、来自命名实体识别(ner)的实体类型、来自词的相对位置关系的位置信息、和/或来自于词性标签(pos tag)的词性信息,等等。
[0046]
概括而言,词嵌入负责词级别的编码,bilstm负责上下文感知的词编码,文档级图卷积网络负责文档级多事件感知的词编码,crf层用于综合对输出概率和转移概率进行建模,且句法分析器负责构建节点之间的边连接关系。
[0047]
例如,图4结合一具体文档示例示出了根据本公开的基于文档级图卷积网络的事件检测方法的示例流程。在该示例中,该示例文档包括
“……
上海银行被罚款450万。
……”
。且事件是反洗钱相关事件,从而“罚款”被识别为候选触发词。
[0048]
如图4所示,输入文本在词级别转化成数值向量,诸如句子“上海银行被罚款450 万”通过词嵌入被分成各个词“上海”、“银行”、“被”、“罚款(fined)”、“450 万”;这些词向量经由bilstm处理来学习上下文感知的向量,正向执行一次且反向执行一次,两层向量做拼接。随后,其被送入文档级图卷积网络中。将明白,文档中的每一句子可以在文档级图卷积网络中作为一个子图。在图4中可以看到,全局节点连接到每一候选触发词节点,从而能够充当句子之间的信息桥梁,以使得文档级的信息在句子之间交互。还可以看到,全局节点并没有和句子中的所有词节点全部建立连接,从而减少了不必要的噪音信息,使得事件检测结果更加精确。
[0049]
在本公开的一实施例中,文档级图卷积网络是可以更新的。考虑到受限于gpu性能,在一实施例中,并非将整个图一次性进行迭代,而是全局节点(对应于文档级图)和词节点(对应于句子级子图)是交替更新的。例如,先使用全局节点和触发词候选节点构图(例如,图4中的全局节点和候选触发词节点以及它们之间的实线连接线)来更新全局节点;然后再使用经更新的全局节点来依次更新每个子图(例如,图4中各子图内部的词节点和候选触发词节点以及它们之间的连接线)。
[0050]
在一实施例中,在全局节点更新过程中,可以取出输入文本中与候选触发词相对应的向量矩阵,拼接上全局节点的向量q(例如,全局节点的初始向量是随机初始化的,并且随着网络不断学习更新参数),以构建邻接矩阵ad,以此计算更新向量矩阵。图5示出了在全局节点的更新过程中,候选触发词和全局节点的邻接矩阵的示例构建方式。
[0051]
在更新完成后,取全局节点的向量作为q的一次更新。例如,全局节点是如下更新的:
[0052][0053]
其中,q1是更新后全局节点的向量,m是图卷积网络函数,ad是与候选触发词对应的向量矩阵和全局节点的向量的邻接矩阵,是更新前与候选触发词对应的向量矩阵,q
l-1
是更新前全局节点的向量,wd是可学习的参数,l是大于等于1的整数。
[0054]
在又一实施例中,在词节点更新过程中,可以取每一句子的子图向量和全局节点的向量,将它们拼接在一起,以构建相应的邻接矩阵,并进行计算更新。例如,图6 示出了在词节点的更新过程中,相应句子和全局节点的邻接矩阵的示例构建方式。在更新完成后,取词向量的对应部分来作为词向量的一次更新。
[0055]
例如,词节点是如下更新的:
[0056][0057][0058]
其中,是更新后与所述输入文档中的第i个句子相对应的向量矩阵,m是图卷积网络函数,是与所述输入文档中的第i个句子相对应的向量矩阵和全局节点的向量的邻接矩阵,是更新前与所述输入文档中的第i个句子相对应的向量矩阵, q1是更新后全局节点的向量,ws是可学习的参数,h
l
是更新后与所述输入文档相对应的向量矩阵,n是所述输入文档中的句子数目,l是大于等于1的整数,i是大于等于1且小于等于n的整数。
[0059]
按上述方式,全局节点和词节点可交替更新。在实际计算过程中,因为多层文档级图卷积网络的原因,在每层内部先更新全局节点再更新词节点,而从整体来看,这二者不断交替更新。在这一更新过程中的向量矩阵和邻接矩阵操作示意图见图7,其示出了全局节点和词节点的示例更新过程。从图7中可见,首先更新全局节点的嵌入,随后全局节点的经更新嵌入被用于每一句子的相应子图的各词节点的更新,从而形成各句子的经更新嵌入。
[0060]
继续参考图2,最后,方法200可包括在框230,输出检测到的事件以及与该事件相对应的事件类型。例如,如以上结合图3所述,crf层可以用于综合对输出概率和转移概率进
行建模,并输出检测到的事件以及与该事件相对应的事件类型。在又一实施例中,输出结果还可包括各事件之间的依存关系。
[0061]
下面以反洗钱相关事件为例,来给出本公开的方法200所输出的检测结果。
[0062]
如图8所示,其示出了根据本公开的一实施例的通过如上所述的方法(例如,方法200)针对两个文档的相应事件检测结果。
[0063]
第一个文档包括如下内容:
……
银行保险监督管理委员会近日公布了广东银保监局行政处罚信息公开表。
……
对〔per〕警告并罚款4万元。
……
[0064]
方法200的输出结果显示,它识别出“公布”、“警告”、“罚款”等是事件触发词,还识别出两个反洗钱事件:“反洗钱监管公布”事件和“反洗钱监管惩罚”事件,且识别出这两个事件之间的依存关系。
[0065]
第二个文档包括如下内容:
……
多家企业社区团购业务遭市监局触发。
……
〔com〕被处以50万元人民币罚款。
……
[0066]
方法200的输出结果显示,它识别出“处罚”、“罚款”等事件触发词,但还识别出两个事件并非是反洗钱事件,且还识别出这两个事件之间的依存关系。
[0067]
由此可见,本公开的方法能够识别出事件的类型、事件之间的相互影响和依存关系,大大提高了事件检测的识别效果。
[0068]
图9示出了基于文档级图卷积网络的示例事件检测系统900的示意图。系统900可包括处理器905以及被安排成存储计算机可执行指令915的存储器910,计算机可执行指令915在被处理器905执行时可使处理器905执行根据本公开的图2-8所描述的方法200。
[0069]
以上具体实施方式包括对附图的引用,附图形成具体实施方式的部分。附图通过说明来示出可实践的特定实施例。这些实施例在本文中也称为“示例”。此类示例可以包括除所示或所述的那些元件以外的元件。然而,还构想了包括所示或所述元件的示例。此外,还构想出的是使用所示或所述的那些元件的任何组合或排列的示例,或参照本文中示出或描述的特定示例(或其一个或多个方面),或参照本文中示出或描述的其他示例(或其一个或多个方面)。
[0070]
在所附权利要求书中,术语“包括”和“包含”是开放式的,也就是说,在权利要求中除此类术语之后列举的那些元件之外的元件的系统、设备、制品或过程仍被视为落在那项权利要求的范围内。此外,在所附权利要求书中,术语“第一”、“第二”和“第三”等仅被用作标记,并且不旨在表明对它们的对象的数字顺序。
[0071]
另外,本说明书中所解说的各操作的次序是示例性的。在替换实施例中,各操作可以按与附图所示的不同次序执行,且各操作可以合并成单个操作或拆分成更多操作。
[0072]
以上描述旨在是说明性的,而非限制性的。例如,可结合其他实施例来使用以上描述的示例(或者其一个或多个方面)。可诸如由本领域普通技术人员在审阅以上描述之后来使用其他实施例。摘要允许读者快速地确定本技术公开的性质。提交该摘要,并且理解该摘要将不用于解释或限制权利要求的范围或含义。此外,在以上具体实施方式中,各种特征可以共同成组以使本公开流畅。然而,权利要求可以不陈述本文中公开的每一特征,因为实施例可以表征所述特征的子集。此外,实施例可以包括比特定示例中公开的特征更少的特征。因此,所附权利要求书由此被结合到具体实施方式中,一项权利要求作为单独的实施例而独立存在。本文中公开的实施例的范围应当参照所附权利要求书以及此类权利要求所赋予
权利的等价方案的完整范围来确定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献