一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Bi-LSTM与CRF融合的非结构化信息提取方法与流程

2022-11-09 21:55:56 来源:中国专利 TAG:

一种基于bi-lstm与crf融合的非结构化信息提取方法
技术领域
1.本发明涉及自然语言处理技术领域,尤其涉及到一种基于bi-lstm与crf融合的非结构化信息提取方法。


背景技术:

2.自然语言处理(natural language processing,nlp)是人工智能和语言学的交叉学科,能实现对人类语言的各种智能化处理。nlp技术应用广泛,在金融、军事及医疗等许多领域发挥出重要商业价值。nlp的重要任务之一就是命名实体识别(named entitv recognition,ner),它通常作为信息抽取的技术支撑。命名实体指人名、地名、组织机构名、日期等以名词为标识的特殊对象,而ner技术可以按照实际的需求从非结构化的文本信息中抽取出特定的实体。随着机器学习方法的广泛研究,ner的研究也开始融合了机器学习方法。基于传统机器学习的ner方法分为有监督方法和半监督方法。其中,有监督的方法包括hmm、me、crf和svm,这四种方法都可以用于命名实体的序列化标注;半监督的方法有bootstrapping,adaboost等,克服了缺少带标签的语料库和数据稀疏问题。此外,近年来深度学习在nlp领域中也解决了很多复杂的问题。
3.信息提取是指从一段文本中抽取指定的一类信息,并将其填入一个数据库中供用户查询使用的过程。目标是研究和实现文本信息的自动查找、收集汇总和存储,以期望把人们从大量、低效的文本阅读劳动中解放出来。信息提取的相关处理技术有信息检索、自动文摘、文本理解等。一般有三种方法:
4.第一种是完整解析。先将信息的标记形式完整解析,再提取关键信息。这种方式一般要使用标记解析器,信息的解析比较准确,但是提取的过程较慢。
5.第二种是直接搜索。无视标记,直接搜索关键的信息,这种方式提取过程简单,速度更快,但是准确性不高。
6.第三种是融合方法。融合第一和第二种方法,需要使用标记解析器和文本查找函数。
7.非结构化信息提取方法现有技术具有以下缺陷:
8.1.非结构化信息提取困难。传统数据挖掘虽然也进行了信息提取的研究,但通常针对结构化的数据,人工构建抽取规则,利用数据仓库工具完成,对非结构化的数据难以灵活处理。
9.2.bio标签针对长实体特征不适用。对于长文本实体来说,bio标注会使大量的文字属于同一类标签,不利于模型的学习,因而提取效果会很差。


技术实现要素:

10.本发明的主要目的在于提供一种基于bi-lstm与crf融合的非结构化信息提取方法,旨在解决目前非结构化数据难以处理、bio标签针对长实体特征不适用的技术问题。
11.为实现上述目的,本发明提供一种基于bi-lstm与crf融合的非结构化信息提取方
法,所述方法包括以下步骤:
12.s1:对数据集进行分句、分词预处理;
13.s2:对分词后的数据进行b-i-ii-o标签标注;
14.s3:建立字词向量表示;
15.s4:建立bi-lstm神经网络层,并利用所述bi-lstm神经网络层获得每个单词对应于每个标签的得分概率;
16.s5:建立crf层,并利用所述crf层获得最大概率的输出标注序列;
17.s6:对抽取信息进行后处理。
18.可选的,所述步骤s2,具体包括:对分词后的数据中同一属性的长文本拆分为总句和分句,并进行标注。
19.可选的,所述步骤s3,具体包括:
20.s31:建立字典;
21.s32:编码词向量;
22.s33:训练向量矩阵。
23.可选的,所述步骤s32中,所述字典将电装设计数据中所有字符进行统计,为每个字建立数字索引。
24.可选的,所述步骤s32,具体包括:通过输入层读取每个字的数字索引,在查找层使用word2vec的cbow模型将其映射为词向量。
25.可选的,所述步骤s4,具体包括:
26.s41:将一个句子x的序列{x1,x2,

,xn}作为各个时间步的输入;
27.s42:将正向lstm隐藏层输出序列(h1,h2,

,hn)和反向lstm隐藏层输出序列(h1,h2,

,hn)进行拼接;
28.s43:将拼接后的结果pi=hj

hj,1<<j<<n作为bi-lstm的输出,bi-lstm层的输出表示每个单词对应各个类别的分数。
29.可选的,所述步骤s5,具体包括:
30.s51:概率计算;
31.s52:参数估计;
32.s53:序列标注。
33.可选的,建立的crf层表达式为:
[0034][0035]
其中,z(x)=∑yexp(w
·
f(y,x)),f(y,x)表示包含特征权重和特征函数的全局特征向量,w是梯度下降法中的梯度。
[0036]
可选的,所述最大概率的输出标注序列表达式为:
[0037][0038]
可选的,所述步骤s6,具体包括:根据最大概率的输出标注序列,执行非结构化信息提取。
[0039]
本发明实施例提出的一种基于bi-lstm与crf融合的非结构化信息提取方法,该方
法包括对数据集进行分句、分词等预处理;对分词后的数据进行b-i-ii-o标签标注;建立字词向量表示;建立bi-lstm神经网络层;建立crf层;对抽取信息进行后处理。本发明通过使用bi-lstm与crf两个模型进行融合,可以对标签序列给予相应的约束,来解决信息提取输出逻辑混乱的问题,针对传统bio标签标注对长实体特征不适用这一问题,提出b-i-ii-o标注方法,在标注上加入层级关系,提升长文本的信息提取效果,解决了目前非结构化数据难以处理、bio标签针对长实体特征不适用的技术问题。
附图说明
[0040]
图1为本技术基于bi-lstm与crf融合的非结构化信息提取方法的流程示意图。
[0041]
图2为本技术基于bi-lstm与crf融合的非结构化信息提取方法的模型示意图。
[0042]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0043]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0044]
目前,在相关技术领域,目前非结构化数据难以处理、bio标签针对长实体特征不适用。
[0045]
为了解决这一问题,提出本发明的基于bi-lstm与crf融合的非结构化信息提取方法的各个实施例。本发明提供的基于bi-lstm与crf融合的非结构化信息提取方法通过使用bi-lstm与crf两个模型进行融合,可以对标签序列给予相应的约束,来解决信息提取输出逻辑混乱的问题,针对传统bio标签标注对长实体特征不适用这一问题,提出b-i-ii-o标注方法,在标注上加入层级关系,提升长文本的信息提取效果,解决了目前非结构化数据难以处理、bio标签针对长实体特征不适用的技术问题。
[0046]
本发明实施例提供了一种基于bi-lstm与crf融合的非结构化信息提取方法,如图1-图2所示,包括以下步骤:
[0047]
s1:对数据集进行分句、分词等预处理;
[0048]
s2:对分词后的数据进行b-i-ii-o标签标注;
[0049]
s3:建立字词向量表示;
[0050]
s4:建立bi-lstm神经网络层;
[0051]
s5:建立crf层;
[0052]
s6:对抽取信息进行后处理。
[0053]
进一步地,所述步骤s2是对分字后的每个字打上标签,便于模型学习到其标签规律。例如,在数据中有两类需提取的非结构化信息,分别为测试步骤与端口信号,用cs作为测试步骤的简写,用dk作为端口信号的简写,则利用b-i-ii-o标注时,在数据集中总共有七类标签:
[0054]

b-cs(测试步骤的开始部分)
[0055]

i-cs(测试步骤的总句部分)
[0056]

ii-cs(测试步骤的分句部分)
[0057]

b-dk(端口信号的开始部分)
[0058]

i-dk(端口信号的总句部分)
[0059]

ii-dk(端口信号的分句部分)
[0060]

o(非实体信息)。
[0061]
区别与bio的标注方式:
[0062]

b-cs(测试步骤的开始部分)
[0063]

i-cs(测试步骤的中间部分)
[0064]

b-dk(端口信号的开始部分)
[0065]

i-dk(端口信号的中间部分)
[0066]

o(非实体信息)。
[0067]
bio标注仅有五类,只表示了每类标签的开头和中间内容,对于长文本实体来说,会使大量的文字属于同一类标签,不利于模型的学习,因而提取效果会很差。b-i-ii-o标注方式将同一属性的长文本拆分为总句和分句进行标注,不仅会让标注在逻辑上更有条理,而且会让信息通过标签表现出内容上的层级关系,一类标签下的内容也会更少便于机器更好地学习,进而提高信息提取的准确率。
[0068]
进一步地,所述步骤s3是将句子转化为字词向量序列,字词向量事先训练好或随机初始化,模型训练时还可以再训练,包括以下子步骤:
[0069]
s31:建立字典。字典将电装设计数据中所有字符进行统计,对每个字建立一个数字索引。字典可以自定义,随着数据量增大,字典容量也会增大。例如,字典格式为{“测”:1,“试”:2,
……
,“步”:9999,“骤”:10000}
[0070]
s32:编码词向量。输入层先读取每个字的索引,在查找层使用word2vec的cbow模型将其映射为词向量。
[0071]
s33:训练向量矩阵。
[0072]
进一步地,所述步骤s4的bi-lstm层能自动地从前向和后向获取句子级别的特征,词向量进入bi-lstm层后通过学习上下文的信息,输出每个单词对应于每个标签的得分概率,包括以下子步骤:
[0073]
s41:各时间步的输入。将一个句子x的序列{x1,x2,

,xn}作为各个时间步的输入。
[0074]
s42:拼接正反序列。将正向lstm隐藏层输出序列和反向lstm隐藏层输出序列进行拼接。
[0075]
s43:输出隐藏层。将s42拼接后的结果1<<j<<n作为bi-lstm的输出,bi-lstm层的输出表示每个单词对应各个类别的分数。如对于“测”这一字,bi-lstm节点的输出是1.2(b-cs),0.7(i-cs),0.3(ii-cs),0.05(b-dk),0.03(i-dk),0.02(ii-dk),0.01(o),也是crf的输入。
[0076]
进一步地,所述步骤s5是建立crf层,为了解决输出中出现的一些不合逻辑的情况。例如:输出序列若是b-cs i-dk则是不合逻辑的,因为测试步骤的开头,后面只可能是接测试步骤的内容,不可能是端口信号的中间内容。crf便会根据制定的逻辑规则对输出的序列进行校正,保证输出是符合逻辑且为最优标签序列,包括以下子步骤:
[0077]
s51:概率计算。先将crf进行矩阵化表示,x=(x1,x2,

,xn),y=(y1,y2,

,yn),
x和y均为随机序列,非结构化信息提取任务中则表示输出的标签序列,对于给定条件随机场p(y|x)表示给定x的条件下y的条件概率分布。
[0078]
s52:参数估计。crf的参数估计问题就是在给定训练集条件下的模型学习问题,本质上是一种定义在序列数据上的对数线性模型,学习算法主要是极大似然估计,具体的优化算法包括梯度下降法、改进的迭代尺度法和拟牛顿法等。
[0079]
s53:序列标注。此步骤是为了在给定条件随机场p(y|x)和输入观测序列x的条件下,求最大概率的输出标注序列y*,基本的求解算法是基于动态规划的维特比算法。
[0080]
可以将crf简写成如下形式:
[0081][0082]
其中:
[0083]
的梯度。
[0084]
在此基础上,可将最大概率的输出标注序列y*表示为:
[0085][0086]
由此可知,crf的预测问题可以转化为求非规范化概率最大值的最优路径问题,在非结构化信息提取任务中,最优解即为最优的标注序列。
[0087]
进一步地,所述步骤s6是对输出标签进行后处理操作来得到目标提取信息,例如,最终输出的最优标签序列为b-cs i-cs ii-cs,则“测试步骤”这一目标提取信息即为后缀为“cs”的标签对应字的集合,即可完成非结构信息的提取。
[0088]
本实施例提供一种基于bi-lstm与crf融合的非结构化信息提取方法,针对上述非结构化数据难以处理、bio标签针对长实体特征不适用等问题,提供一种双向长短时记忆网络加条件随机场(bi-lstm crf)的技术,构建基于b-i-ii-o标注的模型,并对非结构化的信息进行实体识别并提取。能够完善现有信息提取工作利用规则构建方式的不足,通过深度学习的方法提取非结构化数据,省时省力提高效率。同时,改善bio标注对非结构化长文本信息提取的适配性,使用b-i-ii-o标注方式将同一属性的长文本拆分为总句和分句进行标注,不仅会让标注在逻辑上更有条理,而且会让信息通过标签表现出内容上的层级关系,一类标签下的内容也会更少便于机器更好地学习,进而提高信息提取的准确率。
[0089]
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下所做出若干简单的推演或替换都应当视为属于本发明由所提交的
权利要求书确定专利保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献