一种基于改进神经网络的页岩气实体识别方法

2022-06-05 09:05:39 来源：中国专利 TAG：

1.本发明涉及页岩气与自然语言处理领域，具体涉及是一种基于改进神经网络的页岩气实体识别方法。

背景技术：

2.随着非常规油气勘探开发节奏加快，为进一步深化页岩气数据信息化处理，构建智能分析系统，需先对其底层数据进行分析处理，抽取相应实体对象。但传统页岩气数据分析中大多是对结构化数据进行研究，利用数据仓库工具进行挖掘。并未使用到先进的命名体识别(ner)技术。
3.命名体识别技术(ner)作为语义抽取的技术关键，对样本中实体名称识别，并分类。在ner研究的多年中，大多针对英文文本，少数中文ner又使用在一些特定领域，未在页岩气领域使用。如：孙德刚提出医学ner的lstm-crf模型，结合拼写特征、上下文特征及字向量来构建单词特征；chiu和nichols提出使用lstm和cnn网络来学习单词和字符级特征；cho等人则是引入多种语料库训练模型,提出一个生物医学ner的lstm-crf模型,提高模型精度。
4.然而页岩气领域与其它领域相比，数据结构杂乱，存在大量术语缩写及不完整文本；无固定表达模式，所以复制其他领域实体识别方法到页岩气领域富具挑战。

技术实现要素：

5.本发明的出发点在于克服原有技术的不足，而提供一种基于改进神经网络的页岩气实体识别方法，该方法通过引入注意力机制，解决页岩气领域数据结构杂乱，存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题，使之更适配页岩气领域，成为页岩气领域首个实体识别方法。
6.为实现所述发明目的，所提供的技术方案是一种基于改进神经网络的页岩气实体识别方法，其特征在于，包括以下步骤：
7.1)对页岩气人工标注原始数据进行预处理，将字逐一映射为具有上下文语义的密集向量序列；
8.2)将步骤1)中所得密集向量序列上传至卷积神经网络，通过约束卷积神经网络中的过滤器大小，过滤句中局部语境对页岩气实体识别的影响，得到过滤后的语义特征；
9.3)将步骤2)中所得语义特征上传至双向长短期记忆网络，根据语义特征上下文序列信息来捕获标记的隐藏状态，得到页岩气的全局语义特征；
10.4)将步骤3)中全局语义特征上传至注意力机制，通过训练其关注句中标注，利用相似信息预测字符标签，来解决人工标注数据中实体标签前后不一致的问题；
11.5)将最终数据上传至条件随机场，通过一阶线性链条件随机场联合解码，进一步约束其输出结果，得到训练样本的负对数似然损失函数，优化其函数，得到页岩气实体识别结果。
12.根据以上所述，对页岩气领域因使用综上所述实体识别方案，本发明的有益效果是:
13.本发明根据页岩气领域实际复杂情况出发，使用了一个基于混合神经网络的改进实体识别框架；通过卷积神经网络很好的过滤掉了句中局部语境对页岩气实体识别的影响，进一步与双向长短期记忆网络相结合，根据上下文序列信息来捕获标记的隐藏状态，更好的统领页岩气的全局语义特征，再引入注意力机制，有效的解决页岩气领域数据结构杂乱，存在大量术语缩写及不完整文本所导致的实体标签前后不一致的问题，使之更适配页岩气领域。最后再由一阶线性链条件随机场联合解码，进一步约束其输出结果，保证其实体识别方法的高效精准性。
附图说明
14.图1是本页岩气实体识别方法的整体流程图；
15.图2是本页岩气实体识别方法具体实施的框架结构分析图；
16.图3是本页岩气实体识别方法中的双向长短期记忆网络(bilstm)原理图。
具体实施方式
17.本发明是一种基于改进神经网络的页岩气实体识别方法，其具体流程，如图1所示，其特征在于，包括以下步骤：
18.1)对页岩气人工标注原始数据进行预处理，将字逐一映射为具有上下文语义的密集向量序列；
19.2)将步骤1)中所得密集向量序列上传至卷积神经网络，通过约束卷积神经网络中的过滤器大小，过滤句中局部语境对页岩气实体识别的影响，得到过滤后的语义特征；
20.3)将步骤2)中所得语义特征上传至双向长短期记忆网络，根据语义特征上下文序列信息来捕获标记的隐藏状态，得到页岩气的全局语义特征；
21.4)将步骤3)中全局语义特征上传至注意力机制，通过训练其关注句中标注，利用相似信息预测字符标签，来解决人工标注数据中实体标签前后不一致的问题；
22.5)将最终数据上传至条件随机场，通过一阶线性链条件随机场联合解码，进一步约束其输出结果，得到训练样本的负对数似然损失函数，优化其函数，得到页岩气实体识别结果。
23.再具体而言，如图2所示，为页岩气实体识别具体实施的框架结构分析图。
24.框架结构自下而上依次为：字向量层、卷积神经网络(cnn)层、双向长短期记忆网络(bilstm)层、注意力机制层、和条件随机场(crf)层。
25.在第一层，输入句子的字向量xi通过字向量层将字映射为具有上下文语义的密集向量序列，得到输出向量[x1,x2,...,xn]。
[0026]
xi＝ewi∈rd，
[0027]
式中，e∈rd×v为每个字符映射为密集向量的嵌入矩阵，d为向量维数，v为词汇量。s＝[w1,w2,...,wn]为输入句子，n为句子长度，wi∈rv为第i字向量的one-hot表示。
[0028]
在第二层，cnn过滤句中局部语境对页岩气实体识别的影响。如：“2018”可以是时间实体中的“2018年”,也可以是无用信息中的量词；为区分信息实体，提取语义信息，用w∈rkd
作为cnn层中的过滤器，k为通道窗口尺寸；使用多个窗口大小不同的过滤器来学习上下文语义特征，将过滤器提取的第i个语义特征表示为：
[0029][0030]
式中为到的字向量，f为激活函数relu，则cnn层输出为c＝[c1,c1,...,cn]，ci∈rm，m为过滤器编号。
[0031]
在第三层，bilstm网络层可根据长距离序列信息捕获标记的隐藏状态，如图3所示，为正向隐层输出序列，为反向隐层输出序列；cnn层输出c＝[c1,c1,...,cn]在bilstm层作为各时刻输入，使和进行拼接，得到bilstm层的输出b；
[0032]
b＝[b1,b2,...,bn]，
[0033]
式中为第i个字符的隐藏层输出；bi∈r
2s
,s为bilstm中隐藏状态的维度；
[0034][0035][0036]
此外，该模型在bilstm和crf层之间还存在一注意力机制层；通过训练模型关注句中标注，利用相似信息预测字符标签，以解决标注不一致问题；
[0037]
用ρ＝[w1,w2,...,w
t
,wn]作为输入句子，通过计算句中目标词w
t
和其他词wi的得分函数，来计算两词之间相似度：
[0038]
score(w
t
,wi)＝wa|w
t-wi|，
[0039]
式中wa为可训练权重矩阵；
[0040]
然后用softmax函数将其标准化，生成以w
t
为条件的注意力权重α
t,i
：
[0041][0042]
进一步为每个目标词生成一个上下文向量
[0043][0044]
从而，对目标词来说，形成注意力层输出ο
t
：
[0045][0046]
在第五层为条件随机场(crf)。crf是一种概率模型，可通过相邻标签具有强相关性，进一步约束其输出结果，保证最终输出的有效性；
[0047]
相比独立标签解码，本层使用一阶线性链crf联合解码来提高模型效率；用y＝[y1,y2,...,yn]表示为s的标签序列，yi∈r
l
为第i个字符的one-hot表达，l为标签数；o＝[o1,o2,...,on]为crf层输入,标签序列y为crf层输出，得到y与ο的计算公式：
[0048][0049]
式中ν(s)为全部句子s的标签序列集合，ψ(oi,yi,y
i-1
)为势函数，θ为参数集；
[0050][0051]
式中m∈r
2s
×
l
,t∈r
l
×
l
；等式中θ＝{m,t}
[0052]
训练样本的负对数似然损失函数，如下：
[0053][0054]
s是训练数据中的句子集，os与ys是注意力机制层与bilstm联合输出和标签序列；
[0055]
最后再使用adam优化器对训练样本中的负对数似然损失函数进行优化，提高页岩气实体识别方法精度。在crf层输出结果中，选择得分最高的标签序列作为改进神经网络页岩气实体识别结果。
[0056]
综上所述，仅为本页岩气实体识别方法效果较佳实施例而已，并不是用来约束本发明，凡在本发明的精神与原则范围内所作的相关修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种分布式调度方法、装置、系统及计算机可读存储介质与流程

一种基于改进神经网络的页岩气实体识别方法

相关文献

最热文献