一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于双重注意力机制的面向大坝应急工况事件抽取方法与流程

2022-02-20 13:45:16 来源:中国专利 TAG:


1.本发明涉及一种基于双重注意力机制的面向大坝应急工况事件抽取方法,属于自然语言处理技术领域。


背景技术:

2.在水利工程领域,大坝集防洪、蓄水、发电等功能于一身,在其长周期运行过程中,会遇到很多自然风险事件,如地震、洪水、暴雨等事件。在这些特殊事件发生后,全面地专项检查对大坝维护来说至关重要,此外,大坝的日常检查与检修也是保障大坝安全的重要措施。历年来,大坝应急工况下的安全运行记录会产出繁多的专项检查报告和日常巡检报告,报告都相对冗长,如何从这些大量的非结构化的文本数据中挖掘出有使用价值的信息,仍是一个难题。信息抽取研究正是这种背景下应运而生的,事件抽取是信息抽取研究中最具挑战性的任务之一。在信息时代的背景下,单纯依靠手工劳动来识别事件论元并整理成结构化数据费时又费力,因此大坝应急工况事件的自动抽取具有重要的意义。
3.我们在事件抽取的研究中发现,现有的卷积神经网络和递归神经网络等深度学习网络已被用于生成低维向量,以自动表示文本语义信息,并基于这些语义向量进一步提取事件论元。虽然深度神经网络可以自动学习底层特征,但没有充分利用句法关系,且事件信息通常分散在文档的多个句子中,易出现论元角色缺失的现象。


技术实现要素:

4.发明目的:为了克服现有技术中存在的问题与不足,本发明引入依赖关系,提出基于双重注意力机制的面向大坝应急工况事件抽取方法。将大坝历年专项检查报告和日常巡检报告里的信息,以结构化的方式存储和展现,供用户查询和研究人员分析利用,极大地提高从非结构化信息中获取重要信息的效率。
5.技术方案:一种基于双重注意力机制的面向大坝应急工况事件抽取方法,能够基于图转换注意网络和注意力网络来挖掘句法关系,对大坝应急工况语料库进行事件论元角色抽取和填充,包括以下步骤:
6.(1)数据预处理:包括对大坝应急工况语料库的标记处理以及将包含大坝应急工况事件信息的句子和文档进行编码;
7.(2)构建依赖关系图:引入依赖关系,借助句子结构和语义结构构建依赖关系图,以识别和分类大坝应急工况事件的所有参数;
8.(3)构建双重注意力网络:基于图转换注意网络生成新的依赖弧,并聚合节点信息,捕获长程依赖关系和潜在交互;然后,引入注意力网络,将图转换注意网络层和注意力网络层提取的特征按设定比例融合,捕捉句中关键的语义信息,抽取句子级事件论元;
9.(4)文档级论元填充:检测大坝应急工况文档中具备关键事件的句子,利用孪生神经网络将周围句子中相似度最高的论元角色填充到关键事件缺失的部分,从而实现了面向大坝应急工况事件抽取。
10.进一步的,所述应急工况指的是:大坝在自然灾害下的工作状态。
11.进一步的,所述大坝应急工况语料库包括大坝历年专项检查报告和日常巡检报告。
12.进一步的,所述步骤(1)中数据预处理的具体步骤如下:采用bio模式将大坝专项检查报告和日常巡检报告的数据进行标注;用albert模型最后一层312维向量作为词嵌入向量,串联事件类型嵌入向量、实体类型嵌入向量和词性标注嵌入向量;通过双向长短记忆网络挖掘串联后的嵌入向量,得到隐藏向量h=h1,...,hn;所述事件类型嵌入向量为地震、暴雨、泄洪、汛前安全大检查、全面专项检查、日常检修、日常检查等典型事件所对应的数学向量,所述实体类型嵌入向量为人名、组织、位置、时间、日期、数值、百分比等对应的数学向量,所述词性标注嵌入向量为名词、动词、形容词、数量词、代词等对应的数学向量。
13.进一步的,所述步骤(2)中构建依赖关系图的具体步骤如下:根据大坝应急工况语料库中的单词关系构建依赖树的邻接矩阵ad和依赖标签分数矩阵通过计算步骤(1)获得的隐藏向量hi和hj之间分数得到语义分数矩阵as;将ad、as串联得到依赖关系图矩阵
14.进一步的,所述步骤(3)中构建双重注意力网络的具体步骤如下:提出图转换注意网络,将图卷积网络替换为图注意网络,进行合理的权重分配,图转换注意网络是对图转化网络的改进,将图转换网络中的图卷积网络替换成图注意网络。为依赖关系中触发器和关键论元的弧赋予更高的权重是合理的,能充分发挥依赖关系的作用;图转换注意网络通过图转换器层对邻接矩阵a集合采用1
×
1卷积,通过矩阵相乘生成新的元路径图a
l
(新的依赖弧);图注意层对元路径图a
l
每个通道应用图注意网络,并将多个节点表示串联为z向量;计算注意力网络层权重矩阵αa,将αa点乘隐藏向量h生成向量用超参数λ连接图转换注意网络层生成的z向量和注意力网络层生成的向量得到融合向量融合公式如下:
[0015][0016]
其中,σ是sigmoid函数,最后通过序列标注的方式进行事件抽取,利用条件随机场crf挖掘特征融合向量以预测每个字符的标签,以focal loss损失函数和adam优化器解决无用信息o冗余导致的样本不均衡问题。
[0017]
进一步的,所述步骤(4)中文档级论元填充的具体步骤如下:将大坝专项检查报告和日常巡检报告的论元标签、实体类型、句子信息和文档信息四种嵌入向量进行串联;建立文本卷积神经网络,将串联后的向量作为输入向量,检测事件中关键句子并判别关键事件;使用基于曼哈顿长短记忆网络的孪生神经网络,计算句子间语义相似性,进行论元角色填充。
[0018]
基于双重注意力机制的面向大坝应急工况事件抽取系统,其特征在于,包括以下模块:
[0019]
(1)数据预处理模块:包括对大坝应急工况语料库的标记处理以及将包含大坝应急工况事件信息的句子和文档进行编码;
[0020]
(2)构建依赖关系图模块:引入依赖关系,借助句子结构和语义结构构建依赖关系图,以识别和分类大坝应急工况事件的所有参数;
time1i-time8i-time年i-time8i-time月i-time1i-time3i-time日i-time在o云b-place南i-place玉i-place溪i-place市i-place通i-place海i-place县i-place发生mb-magnitude5i-magnitude.i-magnitude0i-magnitude级i-magnitude地o震o,o震o源o深o度o7b-depth公i-depth里i-depth,o地o震o震o中o距o漫b-place湾i-place电i-place站i-place大i-place坝i-place直o线o距o离o约o为o2b-range3i-range1i-range公i-range里i-range。o
[0035]
(1.2)给定一个长为n的句子w=w1,w2,...,wn;
[0036]
(1.3)用albert模型最后一层312维向量作为词嵌入向量,事件类型嵌入向量、实体类型嵌入向量和词性标注嵌入向量通过可训练查找表生成;
[0037]
(1.4)将词嵌入向量、事件类型嵌入向量、实体类型嵌入向量和词性标注嵌入向量进行串联,通过bilstm挖掘串联后的嵌入向量,捕获上下文重要信息,得到隐藏向量序列h=h1,...,hn,并作为下一步表示向量。
[0038]
步骤(2)构建依赖关系图:引入依赖关系,借助句子结构和语义结构构建依赖关系图,以识别和分类大坝应急工况事件的所有参数;
[0039]
(2.1)使用依赖树的邻接矩阵ad作为事件抽取的句法结构之一,ad是一个n
×
n的二元矩阵,当单词wi和wj在依赖树中有链接,则ad(i,j)值设为1,否则为0;
[0040]
(2.2)根据依赖标签初始化矩阵a
dl
,当单词wi和wj之间存在依赖边且依赖标签为r,a
dl
(i,j)从可训练的嵌入查找表中找到r的嵌入向量,该向量维度为p,否则用p维全零向量初始化a
dl
(i,j);
[0041]
(2.3)将依赖标签矩阵a
dl
转化成依赖标签分数矩阵转换公式如下:
[0042][0043]
其中,u是可训练权重矩阵;
[0044]
(2.4)计算隐藏向量hi和hj之间分数获得语义分数矩阵as,计算公式如下:
[0045]ki
=u
khi
,qi=u
qhi
,
[0046][0047]
其中,uk和uq是可训练权重矩阵;
[0048]
(2.5)依赖关系图矩阵其中ad是依赖树的邻接矩阵,是依赖标签分数矩阵,as是语义分数矩阵。
[0049]
步骤(3)构建双重注意力网络:基于图转换注意网络生成新的依赖弧,并聚合节点信息,捕获长程依赖关系和潜在交互;然后,引入注意力网络,将图转换注意网络层和注意力网络层提取的特征按设定比例融合,捕捉句中关键的语义信息,抽取句子级事件论元;
[0050]
(3.1)提出图转换注意网络,将图卷积网络替换为图注意网络,进行合理的权重分配,图注意层生成的向量经过dropout层,防止模型过拟合;图转换注意网络是对图转化网络的改进,将图转换网络中的图卷积网络替换成图注意网络。为依赖关系中触发器和关键论元的弧赋予更高的权重是合理的,能充分发挥依赖关系的作用。
[0051]
(3.2)图转换注意网络由图转换层和图注意层两部分组成,图转换层对邻接矩阵a
集合采用1
×
1卷积,软选择1x1卷积后的矩阵向量中两个中间邻接矩阵q1和q2,通过矩阵q1和q2相乘生成新的元路径图a
l

[0052]
(3.3)图注意层对元路径图a
l
每个通道应用图注意网络,并将多个节点表示串联为z,串联公式如下:
[0053][0054]
其中,中||是连接运算符,c表示通道数量,是a
l
的第i个通道的邻接矩阵,是的度矩阵,v是一个跨通道共享的可训练权重矩阵,x是一个特征矩阵,i是单位矩阵。
[0055]
(3.4)计算注意力网络层权重矩阵计算公式如下:
[0056][0057]
其中,hk是bilstm生成的隐藏向量h中的第k个向量,wa是可训练权重矩阵,bk是偏置;
[0058]
(3.5)将注意力网络层权重矩阵αa点乘隐藏向量h生成新的向量用超参数λ连接图转换注意网络层生成的z向量和注意力网络层生成的向量得到融合向量融合公式如下:
[0059][0060]
其中,σ是sigmoid函数;
[0061]
(3.6)利用条件随机场挖掘特征融合向量来预测每个字符的标签。
[0062]
步骤(4)文档级论元填充:检测大坝应急工况文档中具备关键事件的句子,利用孪生神经网络将周围句子中相似度最高的论元角色填充到关键事件缺失的部分;
[0063]
(4.1)采用one-hot标签形式,设置事件论元标签初始向量由1和0组成,关键论元位置为1,其他为0,然后利用word2vec将随机生成的初始向量训练成128维的嵌入向量;
[0064]
(4.2)通过查找随机初始化的嵌入表生成实体类型,设置其嵌入向量维度为128;
[0065]
(4.3)通过albert将句子信息和文档信息各转化成312维的嵌入向量;
[0066]
(4.4)将论元标签、实体类型、句子信息和文档信息四种嵌入向量进行串联,生成880维新向量;
[0067]
(4.5)建立文本卷积神经网络,方法框架如图2所示,将步骤(4.4)获得的880维新向量作为输入向量,检测事件中关键句子并判别关键事件,文本卷积神经网络由嵌入层、卷积层、池化层和全连接层四部分组成,嵌入层通过一个隐藏层将输入的880维向量投影到维度为128的低维空间,以助于编码语义特征;卷积层设置3、4、5三种卷积核尺寸,每种卷积核个数都为128,其宽度与特征向量维度一致,通过向下移动卷积核,提取词与词间的局部相关性;池化层通过抽取每个特征向量最大值表示该特征,并拼接各个池化值来生成最终的特征向量,最后通过全连接层判断句子是否包含关键事件;
[0068]
(3.6)基于曼哈顿长短记忆网络的孪生神经网络,方法框架如图3所示,处理《关键句,相邻句》句子对,以表征空间中的相似性进而推断句子潜在的语义相似性,取卷积网络中的最终隐藏状态作为两个句子的向量表示,用曼哈顿距离度量两个句子的相似度,计算
关键句与其上下文句子的相似度值,按照相似度按从高到低排序,寻找对应缺失论元且用相似度最高的相邻句中的论元角色进行填充。
[0069]
为了验证本发明的有效性,采用大坝应急工况语料库进行实验。该预料库的案例如表1所示,事件类型及对应的事件论元情况如表2所示。实验选用的评价标准是p、r和f1值,其中p是精确率,r为召回率,f1值时评价一般分类问题的综合评价标准。参与比较的事件抽取方法包括:“dmcnn”表示根据事件触发器和论元使用动态多池层来进行事件抽取;“c-bilstm”表示用卷积双向长短记忆模型从字符级序列标记范式的角度进行中文事件提取;“jrnn”表示采用基于循环神经网络的事件抽取联合模型进行事件抽取;“hmeae”表示基于概念层次,为每个基本单元设计神经模块网络,再运用逻辑运算组成面向角色的模块网络,去分类特定的论元角色;“jmcee”表示基于预先训练的语言模型的共享特征表示,联合执行对事件触发器和事件论元的预测。
[0070]
表1大坝数据集案例
[0071][0072]
表2大坝数据集中事件类型和对应的事件论元
[0073][0074][0075]
本发明实施例与dmcnn、c-bilstm、jrnn、hmeae和jmcee五种方法相比较的结果如表3所示。结果表明本发明实施例充分利用句法关系和语义结构,对于大坝应急工况语料库的事件抽取效果优于所比较的五种方法。
[0076]
表3不同事件抽取方法对比实验结果
[0077][0078]
基于双重注意力机制的面向大坝应急工况事件抽取系统,其特征在于,包括以下模块:
[0079]
(1)数据预处理模块:包括对大坝应急工况语料库的标记处理以及将包含大坝应急工况事件信息的句子和文档进行编码;
[0080]
(2)构建依赖关系图模块:引入依赖关系,借助句子结构和语义结构构建依赖关系图,以识别和分类大坝应急工况事件的所有参数;
[0081]
(3)构建双重注意力网络模块:基于图转换注意网络生成新的依赖弧,并聚合节点信息,捕获长程依赖关系和潜在交互;然后,引入注意力网络,将图转换注意网络层和注意力网络层提取的特征按设定比例融合,捕捉句中关键的语义信息,抽取句子级事件论元;
[0082]
(4)文档级论元填充模块:检测大坝应急工况文档中具备关键事件的句子,利用孪生神经网络将周围句子中相似度最高的论元角色填充到关键事件缺失的部分。
[0083]
系统的具体实现与方法相同。
[0084]
显然,本领域的技术人员应该明白,上述的本发明实施例的基于双重注意力机制的面向大坝应急工况事件抽取方法各步骤或基于双重注意力机制的面向大坝应急工况事件抽取系统各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献