一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种地质文本实体关系联合抽取方法及系统

2022-06-01 02:26:13 来源:中国专利 TAG:


1.本发明涉及地质文本分析领域,尤其涉及一种地质文本实体关系联合抽取方法及系统。


背景技术:

2.在大数据的时代背景下,随着理论知识和计算机技术的进步,在地质调查和工作中产生了海量的数据,对于这些大量的非结构化的文本资料,自动信息提取成为了整合分类信息的主要手段。
3.实体关系抽取是信息提取的主要任务,因此许多的学者开始研究地质实体关系的抽取,但是地质领域实体关系的抽取还存在很多的问题,如实体间关系类型复杂、句法语法复杂多变、地质文本冗余、文本三元组之间存在复杂的实体重叠或者关系重叠等。
4.对于传统的实体关系的抽取方法,人工训练语料在地质实体关系抽取将会耗费大量的时间和人力,难以取得较好的效果。
5.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

6.为解决上述技术问题,本发明提供一种地质文本实体关系联合抽取方法,包括步骤:
7.s1:获取地质文本资料,对所述地质文本资料进行数据清洗、分句和分词操作,获得句子文本集;
8.s2:划分实体的类别,确定各实体间的关系类别,通过所述关系类别对所述句子文本集进行筛选,获得筛选后的句子文本集;
9.s3:对所述筛选后的句子文本集中的各句子进行词级切分,获得各句子的词向量;通过所述实体和所述关系类别对各句子进行标注,获得各句子的词标签;通过依存解析器对各句子进行依存分析,获得依存关系树;将所述筛选后的句子文本集分为训练样本集和测试样本集;
10.s4:获取提取模型,所述提取模型包括:bert预训练模型、双向长短期记忆神经网络bi-lstm、图卷积神经网络gcn和crf模型;将所述训练样本集中,各所述句子的词向量输入所述bert预训练模型,获得每个词联系上下文的连续嵌入表示;
11.s5:将各所述词联系上下文的连续嵌入表示输入所述双向长短期记忆神经网络bi-lstm进行上下文特征提取,获得每个词当前时间步的包含上下文信息的隐藏层状态向量;
12.s6:通过所述依存关系树获得词语间关系图的邻接矩阵,将所述词语间关系图的邻接矩阵和各所述词当前时间步的包含上下文信息的隐藏层状态向量输入所述图卷积神经网络gcn,获得包含丰富邻域信息和语义特征的词向量表示;
13.s7:将所述包含丰富邻域信息和语义特征的词向量表示和各所述句子的词标签输入所述crf模型进行训练,当获得各标签的概率时表示所述提取模型训练完成,获得训练好的提取模型;
14.s8:将所述测试样本集输入所述训练好的提取模型,获得所述测试样本集的实体间关系的三元组。
15.优选的,步骤s2具体为:
16.s21:设置待抽取的实体的类别,确定各实体间的关系类别,所述实体的类别包括:岩体、标志性地区、地质构造和地层;
17.s22:各所述实体间的关系类别包括:包含关系、方向关系和位置关系;
18.s23:将不属于所述关系类别的句子从所述句子文本集中剔除,获得所述筛选后的句子文本集。
19.优选的,步骤s3中,通过所述实体和所述关系类别对各句子进行标注,获得各句子的词标签具体为:
20.各句子的词标签的标注样式均为:《“entity”,[{“type”:“e-type”,“start“:e-s,“end”:e-e}]》,《“relation”,[{“type”:“r-type”,“head“:r-s,“tail”:r-e}]》,其中entity表示实体的名称,e-type表示实体的类别,e-s表示实体在句子中的开始位置索引,loc_2表示实体在句子中的结束位置索引,r-type表示实体对应的关系词类型,r-s和r-e分别表示关系词对应的头实体与尾实体索引。
[0021]
优选的,步骤s4具体为:
[0022]
s41:所述句子的词向量hn表示为:hn=w
t
ws w
p
;其中w
t
表示词嵌入矩阵,ws表示句子嵌入矩阵,w
p
表示位置嵌入矩阵;
[0023]
s42:将所述句子的词向量输入所述bert预训练模型进行计算,获得输出句向量;
[0024]
s43:将所述输出句向量的隐藏层状态通过所述bert预训练模型的transformer编码器进行n次转换,具体公式表示为:h
α
=trans(h
α-1
),α∈[1,n];其中α表示转换层数,h
α
表示第α层转换时输出句向量的隐藏层状态,trans表示transformer编码器的转换函数,n表示转换的总次数;
[0025]
s44:将所述输出句向量的隐藏层状态进行n次转换后,获得各所述词联系上下文的连续嵌入表示。
[0026]
优选的,步骤s5具体为:
[0027]
s51:通过所述双向长短期记忆神经网络bi-lstm对各所述词联系上下文的连续嵌入表示进行从后向前的特征学习,具体公式表示为:
[0028][0029]
其中,t表示计算时间,表示t时刻的从后向前的特征学习获得的特征向量,表示t时刻的从后向前的单元状态,lstm表示特征提取函数,x
t
表示t时刻的信息输入,表示t-1时刻的从后向前的特征学习获得的特征向量,表示t-1时刻的从后向前的单元状态;
[0030]
s52:通过所述双向长短期记忆神经网络bi-lstm对各所述词联系上下文的连续嵌入表示进行从前向后的特征学习,具体公式表示为:
[0031][0032]
其中,表示t时刻的从前向后的特征学习获得的特征向量,表示t时刻的从前向后的单元状态,表示t-1时刻的从前向后的特征学习获得的特征向量,表示t-1时刻的从前向后的单元状态;
[0033]
s53:通过拼接和获得在t时刻的各所述词当前时间步的包含上下文信息的隐藏层状态向量,表示为:
[0034]
优选的,步骤s6具体为:
[0035]
s61:获取所述依存关系树中的所有节点,将每一个节点的特征信息经过变换后发送给邻居节点;
[0036]
s62:将各节点的邻居节点的特征信息聚集起来,获得节点特征信息集合;
[0037]
s63:对所述节点特征信息集合进行非线性变换,获得非线性的节点特征信息集合;
[0038]
s64:将所述非线性的节点特征信息集合和所述词当前时间步的包含上下文信息的隐藏层状态向量,输入所述图卷积神经网络gcn,计算获得所述包含丰富邻域信息和语义特征的词向量表示,具体公式表示为:
[0039][0040]
其中,n(v)表示结点v最邻近结点的集合,u表示在n(v)集合中的节点编号,l表示图卷积神经网络gcn的层级数,表示结点v在第l层级的包含丰富邻域信息和语义特征的词向量表示,relu表示激活函数,w
l-1
表示第l-1层级的词语间关系图的邻接矩阵,表示第l-1层级的节点u的词当前时间步的包含上下文信息的隐藏层状态向量,b
(l-1)
表示第l-1层级的偏差。
[0041]
优选的,步骤s7具体为:
[0042]
s71:计算获得各词向量对应的标签分数;
[0043]
s72:计算获得句子的标签序列概率;
[0044]
s73:计算获得句子中各词向量的标签的概率。
[0045]
一种地质文本实体关系联合抽取系统,包括:
[0046]
句子文本集获取模块,用于获取地质文本资料,对所述地质文本资料进行数据清晰和分句操作,获得句子文本集;
[0047]
筛选模块,用于划分实体的类别,确定各实体间的关系类别,通过所述关系类别对所述句子文本集进行筛选,获得筛选后的句子文本集;
[0048]
数据标注模块,用于对所述筛选后的句子文本集中的各句子进行词级切分,获得各句子的词向量;通过所述实体和所述关系类别对各句子进行标注,获得各句子的词标签;通过依存解析器对各句子进行依存分析,获得依存关系树;将所述筛选后的句子文本集分为训练样本集和测试样本集;
[0049]
语义学习模块,用于学习文本词向量,将所述训练样本集中,各所述句子的词向量
输入所述bert预训练模型,获得每个词联系上下文的连续嵌入表示;
[0050]
深层次语义学习模块,用于将各所述词联系上下文的连续嵌入表示输入所述双向长短期记忆神经网络bi-lstm进行上下文特征提取,获得每个词当前时间步的包含上下文信息的隐藏层状态向量;
[0051]
语义区域特征提取模块,用于通过所述依存关系树获得词语间关系图的邻接矩阵,将所述词语间关系图的邻接矩阵和各所述词当前时间步的包含上下文信息的隐藏层状态向量输入所述图卷积神经网络gcn,获得包含丰富邻域信息和语义特征的词向量表示;
[0052]
词标签校准模块,用于将所述包含丰富邻域信息和语义特征的词向量表示和各所述句子的词标签输入所述crf模型进行训练,当获得各标签的概率时表示所述提取模型训练完成,获得训练好的提取模型;
[0053]
三元组获取模块,用于将所述测试样本集输入所述训练好的提取模型,获得所述测试样本集的实体间关系的三元组。
[0054]
本发明具有以下有益效果:
[0055]
基于图卷积神经网络的实体关系联合抽取方法能够有效地解决地质文本中语义关系复杂多变、存在大量一词多义的问题,为地质领域提供一种高效的信息抽取方法,使大量非结构化数据得以有效利用,并且可以通过训练大量数据自动获取模型,而不需要人工提取特征,节省了大量时间与人工成本。
附图说明
[0056]
图1为本发明实施例方法流程图;
[0057]
图2为bert预训练模型的输入表示示例;
[0058]
图3为本发明实施例系统结构图;
[0059]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0060]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0061]
参照图1,本发明提供一种地质文本实体关系联合抽取方法,包括步骤:
[0062]
s1:获取地质文本资料,对所述地质文本资料进行数据清洗、分句和分词操作,获得句子文本集;
[0063]
具体的,将需要提取实体和关系类别的地质文本资料进行清洗,删除地质图、表格等非文本的内容;其次对清洗后的地质文本资料进行分句,将地质文本资料划分成一系列句子的形式;然后采用中文jieba分词工具对这些句子进行分词操作,在分词时可以引入相关地质词典,避免分词错误;接着采用地质实体识别方法识别并提取出地质文本资料中的实体和实体间的关系类别,将所有含有两个及以上实体的句子的集合作为句子文本集;
[0064]
s2:划分实体的类别,确定各实体间的关系类别,通过所述关系类别对所述句子文本集进行筛选,获得筛选后的句子文本集;
[0065]
s3:对所述筛选后的句子文本集中的各句子进行词级切分,获得各句子的词向量;通过所述实体和所述关系类别对各句子进行标注,获得各句子的词标签;通过依存解析器对各句子进行依存分析,获得依存关系树;将所述筛选后的句子文本集分为训练样本集和
测试样本集;
[0066]
具体的,将筛选后的句子文本集按照1:1等比例划分为训练样本集和测试样本集;
[0067]
s4:获取提取模型,所述提取模型包括:bert预训练模型、双向长短期记忆神经网络bi-lstm、图卷积神经网络gcn和crf模型;将所述训练样本集中,各所述句子的词向量输入所述bert预训练模型,获得每个词联系上下文的连续嵌入表示;
[0068]
s5:将各所述词联系上下文的连续嵌入表示输入所述双向长短期记忆神经网络bi-lstm进行上下文特征提取,获得每个词当前时间步的包含上下文信息的隐藏层状态向量;
[0069]
s6:通过所述依存关系树获得词语间关系图的邻接矩阵,将所述词语间关系图的邻接矩阵和各所述词当前时间步的包含上下文信息的隐藏层状态向量输入所述图卷积神经网络gcn,获得包含丰富邻域信息和语义特征的词向量表示;
[0070]
s7:将所述包含丰富邻域信息和语义特征的词向量表示和各所述句子的词标签输入所述crf模型进行训练,当获得各标签的概率时表示所述提取模型训练完成,获得训练好的提取模型;
[0071]
s8:将所述测试样本集输入所述训练好的提取模型,获得所述测试样本集的实体间关系的三元组。
[0072]
具体的,假设有以下地质文本资料:
[0073]
涅如组三段的下部和顶部板岩中见有深灰色灰岩透镜体(或似层状),局部见有铁质结核体,顶部所见灰岩中产少量双壳和菊石化石,在下部见有槽模沉积构造、滑移和重力成因的包卷层理,上部见有重荷模沉积构造,发育大量鲍玛序列;
[0074]
从该地质文本资料中可以提取出的地质实体有“涅如组”、“板岩”、“灰岩”、“透镜体”、“沉积构造”、“菊石”、“槽模”、“重荷模”等,两两判断关系,因而需要判断的关系类别的实体对有28组,例如“涅如组”与“板岩”、“灰岩”与“菊石”等,这里不一一列举。
[0075]
采用本发明方法后,可以根据标注的两个实体对,例如“涅如组”与“板岩”,计算计算当前句子的标签概率,得到最大可能的输出标签,最终可以判断出“下部和顶部”为“涅如组”与“板岩”的关系词,构成《涅如组,下部和顶部,板岩》三元组;
[0076]
当实体对间不存在关系时,例如“槽模”与“重荷模”,本发明会根据得分是否超过阈值判断该实体对间不存在关系,即unknown,构成《槽模,unknown,重荷模》三元组。
[0077]
本实施例中,步骤s2具体为:
[0078]
s21:设置待抽取的实体的类别,确定各实体间的关系类别,所述实体的类别包括:岩体、标志性地区、地质构造和地层;这四种实体均是可以在地质空间中直观表达的类别;
[0079]
s22:各所述实体间的关系类别包括:包含关系、方向关系和位置关系;
[0080]
s23:将不属于所述关系类别的句子从所述句子文本集中剔除,获得所述筛选后的句子文本集。
[0081]
本实施例中,步骤s3中,通过所述实体和所述关系类别对各句子进行标注,获得各句子的词标签具体为:
[0082]
采用人工标注和自动标注相结合的方法对筛选后的句子文本集中的句子逐个进行标注;
[0083]
各句子的词标签的标注样式均为:《“entity”,[{“type”:“e-type”,“start“:e-s,“end”:e-e}]》,《“relation”,[{“type”:“r-type”,“head“:r-s,“tail”:r-e}]》,其中entity表示实体的名称,e-type表示实体的类别,e-s表示实体在句子中的开始位置索引,loc_2表示实体在句子中的结束位置索引,r-type表示实体对应的关系词类型,r-s和r-e分别表示关系词对应的头实体与尾实体索引。
[0084]
本实施例中,在步骤s4中采用bert预训练模型作为词向量嵌入层来编码上下文信息,其中作为输入的句子的词向量,通过叠加的输入向量序列,不仅能够获取词语语义上的特征,而且能够对句子级别上的深层次语义进行学习;
[0085]
步骤s4具体为:
[0086]
s41:如图2所示,所述句子的词向量hn表示为:hn=w
t
ws w
p
;其中w
t
表示词嵌入矩阵,ws表示句子嵌入矩阵,w
p
表示位置嵌入矩阵;
[0087]
s42:将所述句子的词向量输入所述bert预训练模型进行计算,获得输出句向量;
[0088]
s43:将所述输出句向量的隐藏层状态通过所述bert预训练模型的transformer编码器进行n次转换,具体公式表示为:h
α
=trans(h
α-1
),α∈[1,n];其中α表示转换层数,h
α
表示第α层转换时输出句向量的隐藏层状态(即句子在α层的上下文信息),trans表示transformer编码器的转换函数,n表示转换的总次数;
[0089]
其中transformer编码器的输入会经过self-attention层,该层通过自注意机制可以有效的捕捉词语之间的依赖关系;
[0090]
s44:将所述输出句向量的隐藏层状态进行n次转换后,获得各所述词联系上下文的连续嵌入表示。
[0091]
本实施例中,步骤s5利用双向长短期记忆神经网络bi-lstm对步骤s4获得的词联系上下文的连续嵌入表示做进一步的上下文特征提取,通过从前向后和从后向前两个方式学习句子的特征,得到每个词当前时间步的包含上下文信息的隐藏层状态向量;为s6步骤的图卷积神经网络gcn的输入层做数据准备;
[0092]
步骤s5具体为:
[0093]
s51:通过所述双向长短期记忆神经网络bi-lstm对各所述词联系上下文的连续嵌入表示进行从后向前的特征学习,具体公式表示为:
[0094][0095]
其中,t表示计算时间,表示t时刻的从后向前的特征学习获得的特征向量,表示t时刻的从后向前的单元状态,lstm表示特征提取函数,x
t
表示t时刻的信息输入,表示t-1时刻的从后向前的特征学习获得的特征向量,表示t-1时刻的从后向前的单元状态;
[0096]
s52:通过所述双向长短期记忆神经网络bi-lstm对各所述词联系上下文的连续嵌入表示进行从前向后的特征学习,具体公式表示为:
[0097][0098]
其中,表示t时刻的从前向后的特征学习获得的特征向量,表示t时刻的从前向后的单元状态,表示t-1时刻的从前向后的特征学习获得的特征向量,表示t-1
时刻的从前向后的单元状态;
[0099]
s53:通过拼接和获得在t时刻的各所述词当前时间步的包含上下文信息的隐藏层状态向量,表示为:
[0100]
本实施例中,基于步骤s3获得的依存关系树生成的词语间关系图的邻接矩阵,同时利用步骤s5输出的词当前时间步的包含上下文信息的隐藏层状态向量,得到更加精确的语义信息;
[0101]
步骤s6具体为:
[0102]
s61:获取所述依存关系树中的所有节点,将每一个节点的特征信息经过变换后发送给邻居节点;
[0103]
s62:将各节点的邻居节点的特征信息聚集起来,获得节点特征信息集合;
[0104]
s63:对所述节点特征信息集合进行非线性变换,获得非线性的节点特征信息集合;
[0105]
s64:将所述非线性的节点特征信息集合和所述词当前时间步的包含上下文信息的隐藏层状态向量,输入所述图卷积神经网络gcn,计算获得所述包含丰富邻域信息和语义特征的词向量表示,具体公式表示为:
[0106][0107]
其中,n(v)表示结点v最邻近结点的集合,u表示在n(v)集合中的节点编号,l表示图卷积神经网络gcn的层级数,表示结点v在第l层级的包含丰富邻域信息和语义特征的词向量表示,relu表示激活函数,w
l-1
表示第l-1层级的词语间关系图的邻接矩阵,表示第l-1层级的节点u的词当前时间步的包含上下文信息的隐藏层状态向量,b
(l-1)
表示第l-1层级的偏差。
[0108]
本实施例中,在输出识别实体层方面,使用crf模型引入各实体标签之间的依赖关系,得到各个标签的概率;
[0109]
步骤s7具体为:
[0110]
s71:计算获得各词向量对应的标签分数;
[0111]
s72:计算获得句子的标签序列概率;
[0112]
s73:计算获得句子中各词向量的标签的概率;
[0113]
具体的,通过转移矩阵避免实体标签的第一个字非b或一个实体标签中出现不同的类别的不合理情况的出现,降低实体标签识别错误率。
[0114]
参考图3,本发明提供一种地质文本实体关系联合抽取系统,包括:
[0115]
句子文本集获取模块,用于获取地质文本资料,对所述地质文本资料进行数据清晰和分句操作,获得句子文本集;
[0116]
筛选模块,用于划分实体的类别,确定各实体间的关系类别,通过所述关系类别对所述句子文本集进行筛选,获得筛选后的句子文本集;
[0117]
数据标注模块,用于对所述筛选后的句子文本集中的各句子进行词级切分,获得各句子的词向量;通过所述实体和所述关系类别对各句子进行标注,获得各句子的词标签;
通过依存解析器对各句子进行依存分析,获得依存关系树;将所述筛选后的句子文本集分为训练样本集和测试样本集;
[0118]
语义学习模块,用于学习文本词向量,将所述训练样本集中,各所述句子的词向量输入所述bert预训练模型,获得每个词联系上下文的连续嵌入表示;
[0119]
深层次语义学习模块,用于将各所述词联系上下文的连续嵌入表示输入所述双向长短期记忆神经网络bi-lstm进行上下文特征提取,获得每个词当前时间步的包含上下文信息的隐藏层状态向量;
[0120]
语义区域特征学习模块,用于通过所述依存关系树获得词语间关系图的邻接矩阵,将所述词语间关系图的邻接矩阵和各所述词当前时间步的包含上下文信息的隐藏层状态向量输入所述图卷积神经网络gcn,获得包含丰富邻域信息和语义特征的词向量表示;
[0121]
词标签校准模块,用于将所述包含丰富邻域信息和语义特征的词向量表示和各所述句子的词标签输入所述crf模型进行训练,当获得各标签的概率时表示所述提取模型训练完成,获得训练好的提取模型;
[0122]
三元组获取模块,用于将所述测试样本集输入所述训练好的提取模型,获得所述测试样本集的实体间关系的三元组。
[0123]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0124]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
[0125]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献