一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种嵌套命名实体识别方法、系统、计算机和存储介质与流程

2021-11-24 21:14:00 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,特别是涉及一种基于长短期记忆网络的嵌套命名实体的识别方法、系统、计算机设备和存储介质。


背景技术:

2.命名实体识别(ner,named entity recognition),也称为专名识别,是指识别文本中具有特定意义的实体(如人名,地名,组织等),是自然语言处理领域构造知识图过程中一个重要的基础任务,其作用在于定位实体的边界并预测其类别。自然语言序列中存在一个实体中包含一个或多个实体的嵌套实体现象,如英文文本“activation of the cd28surface receptor provides”,“cd28 surface”是一个protein类型的实体,而“cd28 surface receptor”也是一个protein类型的实体;同理,中文文本序列“广州大学”中,“广州”是一个地名,而“广州大学”则是一个学校名。然而,基于非嵌套命名实体展开的识别应用在嵌套实体现象的处理上并不能取得预期结果,针对嵌套实体的嵌套命名实体识别(ne sted ner)也渐引起了更多学者的重视。
3.嵌套实体识别问题的重点和难点在于如何确定实体的边界和预测实体的类别。现有的嵌套实体识别方法主要分为三类:1)通过设计文本的匹配规则来抽取自然语言中的实体,如采用领域专家手工编写规则来匹配文本中的实体的基于领域词典的实体识别方法;2)基于特征工程的有监督学习方法,如通过设计特征模板、结合维特比算法来对文本序列中的文本类别进行预测的条件随机场方法;3)基于实体跨度的深度学习的方法,如利用神经网络来提取文本的特征的基于字符级特征的深度学习方法,以及通过枚举出可能为实体的子序列,然后对子序列进行预测的穷举候选实体的嵌套实体识别方法。上述三种方法虽然在能够一定程度上能够解决嵌套实体识别问题,但其分别对应的缺陷也是显而易见的:第一类方法主要依赖领域语言专家手工编写的规则,不仅非常耗时耗力,而且不同领域间的可迁移性较差;第二类方法尽管不再依赖于领域专家手工编写的规则,但其特征模板的设计仍就依赖于专家的经验,且具体的应用效果受领域文本语料的分布情况的影响较大;第三类方法是目前主流的方法,虽然能够利用深度学习抽取文本的字符和单词特征,但其深度学习本身参数多,计算的复杂度较高,穷举候选实体的方法更是增加了模型的时间复杂度,且不利于模型性能的提升。
4.因此,亟需提供一种能够有效识别实体的边界和缩减候选实体子序列数目,同时使得实体的解码复杂度大大降低,有效解决嵌套命名实体识别过程中实体边界难以确定以及嵌套实体解码问题的嵌套命名实体识别方法。


技术实现要素:

5.本发明的目的是提供一种基于长短期记忆网络改进的嵌套命名实体识别方法,通过将长短期记忆网络与多层感知机结合用于解决嵌套命名实体识别过程中实体边界难以确定以及嵌套实体解码问题,能够有效识别中英文命名实体的边界,有效缩减候选实体子
序列的数目,有效降低命名实体的解码复杂度,进一步提高嵌套实体的预测识别能力和实用性。
6.为了实现上述目的,有必要针对上述技术问题,提供了一种嵌套命名实体识别方法、系统、计算机设备和存储介质。
7.第一方面,本发明实施例提供了一种嵌套命名实体识别方法,所述方法包括以下步骤:
8.获取待识别文本的第一文本词向量表示;所述待识别文本包括中文文本和英文文本;
9.对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示;
10.对所述边界文本向量表示进行解码和标注,得到第一实体识别结果;
11.根据所述边界词概率和预设概率阈值,判断所述边界文本向量表示中是否存在嵌套命名实体边界词;
12.若所述边界文本向量表示中存在嵌套命名实体边界词,则将相邻所述嵌套命名实体边界词之间的所述边界文本向量表示进行合并,得到第二文本词向量表示,并对所述第二文本词向量表示进行边界检测,开始下一轮实体识别迭代,反之,则停止迭代,将所述第一实体识别结果作为所述待识别文本的实体识别结果。
13.进一步地,所述获取待识别文本的第一文本词向量表示的步骤包括:
14.当所述待识别文本为中文文本时,采用分词词库得到所述中文文本的文本词语列表,并将所述文本词语列表输入word2vec模型,得到所述第一文本词向量表示;
15.当所述待识别文本为英文文本时,采用双向lstm网络编码器得到所述英文文本的字符向量表示和单词向量表示,并将所述字符向量表示和单词向量表示拼接,得到所述第一文本词向量表示。
16.进一步地,所述对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示的步骤包括:
17.将所述文本词向量表示输入lstm单元,得到文本词特征向量;所述lstm单元为长短期记忆网络模型的基本单元;
18.将所述文本词特征向量输入多层感知机mlp,得到所述边界词概率;所述边界词概率的公式为:
[0019][0020]
式中,为待识别文本中第t个文本词对应的边界词概率;f
t
为经过2个非线性激活函数求和线性变换后的词向量表示,w
i
和b
i
分别为第i个非线性激活函数对应的权重系数和偏置参数;h

t
=lstm(x

t
),h

t
、x

t
分别为待识别文本中第t个文本词对应文本词特征向量和第一文本词向量表示;
[0021]
将所述第一文本词向量表示与对应的所述边界词概率融合,得到所述边界文本向量表示;所述边界文本向量表示的公式为:
[0022][0023]
式中,x

t
、分别为待识别文本中第t个文本词对应的边界文本向量表示、第一文本词向量表示和边界词概率;w为边界融合权重系数。
[0024]
进一步地,所述对所述边界文本向量表示进行解码和标注,得到第一实体识别结果的步骤包括:
[0025]
采用条件随机场对所述边界文本向量表示进行解码,并判断解码结果是否为命名实体;
[0026]
若所述解码结果为所述命名实体,则输出对应的实体类型,反之,则采用bio标记法将所述边界文本向量表示标注为o类型。
[0027]
进一步地,所述根据所述边界词概率和预设概率阈值,判断所述边界文本向量表示中是否存在嵌套命名实体边界词的步骤包括:
[0028]
预先统计所述待识别文本的嵌套命名实体比例,并将所述嵌套命名实体比例作为预设概率阈值;
[0029]
判断是否存在所述边界词概率大于所述预设概率阈值,若存在,则判定所述边界文本向量表示中存在嵌套命名实体边界词,反之,则判定所述边界文本向量表示中不存在嵌套命名实体边界词。
[0030]
进一步地,所述若所述边界文本向量表示中存在嵌套命名实体边界词,则将相邻所述嵌套命名实体边界词之间的所述边界文本向量表示进行合并,得到第二文本词向量表示的步骤包括:
[0031]
采用一维卷积神经网络对相邻所述嵌套命名实体边界词之间的文本进行合并,得到所述第二文本词向量表示。
[0032]
第二方面,本发明实施例提供了一种嵌套命名实体识别系统,所述系统包括:
[0033]
预处理模块,用于获取待识别文本的第一文本词向量表示;所述待识别文本包括中文文本和英文文本;
[0034]
边界检测模块,用于对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示;
[0035]
实体解码模块,用于对所述边界文本向量表示进行解码和标注,得到第一实体识别结果;
[0036]
嵌套检测模块,用于根据所述边界词概率和预设概率阈值,判断所述边界文本向量表示中是否存在嵌套命名实体边界词;
[0037]
结果获取模块,用于若所述边界文本向量表示中存在嵌套命名实体边界词,则将相邻所述嵌套命名实体边界词之间的所述边界文本向量表示进行合并,得到第二文本词向量表示,并对所述第二文本词向量表示进行边界检测,开始下一轮实体识别迭代,反之,则停止迭代,将所述第一实体识别结果作为所述待识别文本的实体识别结果。
[0038]
进一步地,所述边界检测模块由在lstm单元的输出隐藏层上增加多层感知机mlp得到;所述lstm单元为长短期记忆网络模型的基本单元。
[0039]
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述
方法的步骤。
[0040]
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0041]
上述本技术提供了一种嵌套命名实体识别方法、系统、计算机设备及存储介质,通过所述方法,实现了获取待识别文本的第一文本词向量表示,再对第一文本词向量表示进行边界检测得到对应的边界词概率和边界文本向量表示,采用条件随机场对边界文本向量表示进行解码和标注得到第一实体识别结果,以及根据边界词概率和预设概率阈值判断边界文本向量表示中是否存在嵌套命名实体边界词,并在边界文本向量表示中存在嵌套命名实体边界词时,将相邻嵌套命名实体边界词之间的边界文本向量表示进行合并得到第二文本词向量表示,并对该第二文本词向量表示进行边界检测开始下一轮实体识别迭代,反之,则停止迭代,将第一实体识别结果作为待识别文本的实体识别结果的技术方案。与现有技术相比,该嵌套命名实体识别方法通过将长短期记忆网络与多层感知机结合用于解决嵌套命名实体识别过程中实体边界难以确定以及嵌套实体解码问题,能够有效识别中英文文本语料中的命名实体的边界,有效缩减了候选实体子序列的数目,有效降低了命名实体的解码复杂度,进一步提高了嵌套实体的预测识别能力和实用性。
附图说明
[0042]
图1是本发明实施例中嵌套命名实体识别方法的应用场景示意图;
[0043]
图2是本发明实施例中嵌套命名实体识别方法方法的流程示意图;
[0044]
图3是图2中步骤s11根据待识别文本类型获取对应的第一文本向量表示的流程示意图;
[0045]
图4是本发明实施例中边界检测模块的现有lstm单元的结构示意图示意图;
[0046]
图5是本发明实施例中边界检测模块的结构示意图;
[0047]
图6是图2中步骤s12对文本向量表示进行边界词概率检测,并将边界词概率融入文本向量表示的流程示意图;
[0048]
图7是图2中步骤s13对边界文本向量表示进行解码和标注的流程示意图;
[0049]
图8是图2中步骤s14根据预设概率阈值判断边界文本向量表示中是否存在嵌套命名实体边界词的流程示意图;
[0050]
图9是本发明实施例中嵌套命名实体识别方法中的一维卷积神经网络应用示意图;
[0051]
图10是本发明实施例中嵌套命名实体识别方法应用于英文文本的实体识别过程和结果示意图;
[0052]
图11是本发明实施例中嵌套命名实体识别系统的结构示意图;
[0053]
图12是本发明实施例中计算机设备的内部结构图。
具体实施方式
[0054]
为了使本技术的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人
员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055]
本发明提供的嵌套命名实体识别方法可以应用于如图1所示的终端或服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可以基于待分析的中文文本或英文文本,采用本发明提供的嵌套命名实体识别方法完成对相应文本语料中的普通命名实体和嵌套命名实体的识别,并将最终得到的命名实体识别结果应用于服务器上其他学习任务,或者将其传送至终端,以供终端使用者接收使用。
[0056]
在一个实施例中,如图2所示,提供了一种嵌套命名实体识别方法,包括以下步骤:
[0057]
s11、获取待识别文本的第一文本词向量表示;所述待识别文本包括中文文本和英文文本;
[0058]
其中,第一文本词向量表示即词嵌入向量表示,为利用基于待识别文本的上下文联系得到的稠密向量表示,其具体获取方式与文本的语言类型有直接关系,且对于同种语言类型的文本处理方式也可以根据使用需求从现有技术中按需选取,此处不作具体限制。优选地,如图3所示,所述获取待识别文本的第一文本词向量表示的步骤包括:
[0059]
s111、当所述待识别文本为中文文本时,采用分词词库得到所述中文文本的文本词语列表,并将所述文本词语列表输入word2vec模型,得到所述第一文本词向量表示;
[0060]
其中,分词词库可以根据实际需求进行选取,如可采用jieba分词、第三方词库等得到对应文本词语列表。word2vec模型是一种把自然语言中的每一个词都表示成一个统一意义统一维度上的短向量的模型,特别适用于数据间存在着较强关联性的文本序列的处理。虽然,使用中文文本词语序列得到第一文本词向量表示也可以采用lstm模型、glove、fast text等词向量训练工具实现,但本实施优选采用word2vec模型来实现,不仅保证了训练速度,而且能很好的保留了上下文词语之间的语义相关性。
[0061]
s112、当所述待识别文本为英文文本时,采用双向lstm网络编码器得到所述英文文本的字符向量表示和单词向量表示,并将所述字符向量表示和单词向量表示拼接,得到所述第一文本词向量表示。
[0062]
其中,双向lstm网络编码器如图4所示,首先使用该双向lstm网络编码器按顺序输入文本序列编码英文文本中的英文字符,依照下述公式(1)

(6)得到该英文文本的正向字符向量表示
[0063][0064][0065][0066][0067][0068][0069]
其中,为英文文本中第t个词的字符;h
t
‑1、和分别英文文本
中第t个词的字符的前一时刻细胞状态、遗忘门输出、记忆门输出、临时细胞状态、当前细胞状态和输出门。
[0070]
同上所述,再采用双向lstm网络编码器按逆序输入文本序列编码英文文本中的英文字符,得到该英文文本的逆向字符向量表示
[0071][0072]
在采用上述步骤得到正向字符向量表示和逆向字符向量表示后,将二者拼接得到字符向量表示
[0073][0074]
式中,concat(
·
)表示将两个向量按行横向拼接的函数,如x1=[0.1,0.2,0.3],x2=[0.4,0.1,0.2],则concat(x1,x2)=[0.1,0.2,0.3,0.4,0.1,0.2]。
[0075]
为了保证后续使用字符向量处理的高效性,此处进一步对上述得到的字符向量表示进行归一化处理,得到最终的英文文本的字符向量表示
[0076][0077]
式中,layernorm(
·
)为层归一化,用于对隐藏层状态进行逐层归一化。
[0078]
上述(1)

(8)式表示的双向lstm网络编码器执行过程,为了下文叙述方便,统称为lstm,同理,采用双向lstm网络编码器得到英文文本的单词向量表示
[0079][0080]
将公式(9)和(10)得到的字符向量表示和单词向量表示拼接,并经过线性激活函数对拼接得到的文本词向量进行线性变化,确保结果在同一尺度内,得到下述第一文本词向量表示x

t
,并对其进行后续的边界检测。
[0081][0082]
s12、对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示;
[0083]
其中,边界检测使用如图5所示的边界检测模块,其由在lstm单元的输出隐藏层上增加多层感知机mlp得到;所述lstm单元为长短期记忆网络模型的基本单元。需要说明的是,该边界检测模块相比于lstm单元,在输出隐藏层的基础上增加了两个非线性激活层和一个softmax全连接层分类器,即图5示出的mlp部分,其用于判断当前第一文本词向量表示为边界词的概率,且将得到的边界词概率融入到该第一文本词向量表示中。如图6所示,所述对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示的步骤s12包括:
[0084]
s121、将所述文本词向量表示输入lstm单元,得到文本词特征向量;所述lstm单元为长短期记忆网络模型的基本单元;
[0085]
其中,lstm单元如图4所示,具体如何根据文本词向量表示得到文本词特征向量的
过程参见前文公式(1)

(6)的lstm单元处理过程,此处不再赘述。
[0086]
s122、将所述文本词特征向量输入多层感知机mlp,得到所述边界词概率;所述边界词概率的公式为:
[0087][0088]
式中,为待识别文本中第t个文本词对应的边界词概率;f
t
为经过2个非线性激活函数求和线性变换后的词向量表示,w
i
和b
i
分别为第i个非线性激活函数对应的权重系数和偏置参数;h

t
=lstm(x

t
),h

t
、x

t
分别为待识别文本中第t个文本词对应文本词特征向量和第一文本词向量表示;
[0089]
s123、将所述第一文本词向量表示与对应的所述边界词概率融合,得到所述边界文本向量表示;所述边界文本向量表示的公式为:
[0090][0091]
式中,x

t
、分别为待识别文本中第t个文本词对应的边界文本向量表示、第一文本词向量表示和边界词概率;w为边界融合权重系数。
[0092]
本实施例使用引入多层感知机mlp的lstm单元进行对文本进行边界词识别,通过在lstm单元的输出隐藏层的基础上增加两个非线性激活层和一个softmax分类器函数,不仅准确地获取了待识别文本对应的每个第一文本词向量表示的边界概率信息,而且还将对应的边界概率信息融入到词向量表示中,为后续的普通实体识别和嵌套实体识别提供了可靠且有效的依据。
[0093]
s13、对所述边界文本向量表示进行解码和标注,得到第一实体识别结果;
[0094]
其中,边界文本向量表示是通过上述步骤得到的融合边界词概率信息的文本向量表示,本实施例中针对此种情况,选择条件随机场对边界文本向量表示进行解码和标注。如图7所示,所述对所述边界文本向量表示进行解码和标注,得到第一实体识别结果的步骤s13包括:
[0095]
s131、采用条件随机场对所述边界文本向量表示进行解码,并判断解码结果是否为命名实体;
[0096]
其中,条件随机场crf是随机场的一种,是在给定一组输入随机变量x的条件下输出另一组随机变量y的马尔可夫随机场的条件概率分布模型p(y|x),其可被看作是最大熵马尔可夫模型在标注问题上的推广,常用于序列标注或分析时序序列资料等问题,如自然语言文字或是生物序列。将边界文本向量表示通过条件随机场解码,即可根据对应的解码结果得到对应的实体,具体的在边界文本向量表示的第一次解码时就可以实现对文本中的普通命名实体进行识别。本实施例中使用的条件随机场crf模型如下所示:
[0097][0098]
[0099]
式中,λ为待训练模型参数,为归一化因子,f
j
为特征函数。
[0100]
s132、若所述解码结果为所述命名实体,则输出对应的实体类型,反之,则采用bio标记法将所述边界文本向量表示标注为o类型。
[0101]
其中,bio标记法是一种通用的序列标注标记法,采用b(begin)表示起始位置,i(inside)表示序列的中间位置,b和i一起组成命名实体的标记,o(outside)表示非命名实体部分。具体如何使用bio标记法进行标记,参考现有技术实现即可,此处不再详述。
[0102]
s14、根据所述边界词概率和预设概率阈值,判断所述边界文本向量表示中是否存在嵌套命名实体边界词;
[0103]
其中,预设概率阈值可以根据实际应用需求选取确定,本实施例中优选采用预先统计待识别文本中嵌套命名实体的比例作为预设概率阈值的方法对待识别文本中是否存在嵌套命名实体的情况进行有效的判断,如图8所示,所述根据所述边界词概率和预设概率阈值,判断所述边界文本向量表示中是否存在嵌套命名实体边界词的步骤s14包括:
[0104]
s141、预先统计所述待识别文本的嵌套命名实体比例,并将所述嵌套命名实体比例作为预设概率阈值;
[0105]
其中,预设概率阈值的选取方法中英文通用,此处仅以英文文本语料进行说明,实验所用语料为生物医学的英文数据集genia,统计语料中训练集总的单词数w约为412936,所含嵌套实体数目ne约为74328,则ne/w约等于0.18,此时将ne/w对应的数值向下取整作为预设概率阈值。
[0106]
s142、判断是否存在所述边界词概率大于所述预设概率阈值,若存在,则判定所述边界文本向量表示中存在嵌套命名实体边界词,反之,则判定所述边界文本向量表示中不存在嵌套命名实体边界词。
[0107]
其中,嵌套命名实体边界词的识别判断即等同于对待识别文本中是否存在嵌套命名实体的判断,本实施例通过引入预设概率阈值作为检测文本中是否存在嵌套命名实体的方法,有效提高嵌套命名实体识别的准确率的同时,还有效降低了嵌套命名实体识别的复杂度。
[0108]
s15、若所述边界文本向量表示中存在嵌套命名实体边界词,则将相邻所述嵌套命名实体边界词之间的所述边界文本向量表示进行合并,得到第二文本词向量表示,并对所述第二文本词向量表示进行边界检测,开始下一轮实体识别迭代,反之,则停止迭代,将所述第一实体识别结果作为所述待识别文本的实体识别结果。
[0109]
其中,第二文本词向量表示是基于嵌套命名实体的检测,对检测到的相邻嵌套命名实体边界词及其中间的边界文本向量表示进行合并得到。具体的对文本合并的方法也可以根据实际应用需求进行选择,本实施例优选的采用一维卷积神经网络实现。一维卷积神经网络选用的滑窗大小、卷积核的大小与数量,都可根据实际情况确定,此处不作具体限制。如滑窗大小n可根据实际检测到的向量嵌套命名实体边界词之间的文本词数目而定,即使用一维卷积神经网络合并后得到的第二文本词向量表示对应的文本区域起始范围为[t,t n],且该一维卷积神经网络表示为:
[0110][0111]
式中,和分别为第l次命名实体识别迭代对应的合并前第t个词第
一文本词向量表示、第t n个词第一文本词向量表示,以及合并后第t个词第二文本词向量表示;max(
·
)为最大池化函数;f(
·
)为对第t个词第一文本词向量表示、第t n个词第一文本词向量表示进行特征值提取合并的函数;conv1d(
·
)为一维卷积神经网络。
[0112]
下面以如图9所示的一维卷积网络应用实例进行说明,输入一维卷积神经网络的数据维度为8*7,共7个文本词:activation、of、the、cd28、surface、receptor和provides,每个文本词的词向量表示维度为8,识别的嵌套命名实体边界词为cd28、surface和provides,此时选用包含两个核8*2和8*3的一维卷积神经网络对上述识别的向量嵌套命名实体边界词之间的文本进行合并,在前三个第一文本向量词表示维持不变的基础上,得到两个新的特征向量:cd28 surface和surface receptor provides,即经过一维卷积神经网络处理后得到数据大小为8*5,可见第二文本向量表示的数量为5个:activation、of、the、cd28 surface和surface receptor provides。
[0113]
通过上述方法步骤得到合并后的第二文本向量表示后,并不代表实体识别任务的结束,而是要将该第二文本向量表示再次进行边界检测得到与之对应的边界词概率和边界文本向量表示,并在采用条件随机场对新的边界文本向量表示进行解码和标注后,通过判断第二文本向量表示检测得到的边界词概率是否存在大于预设概率阈值的嵌套命名实体边界词来判定是否需要继续进行卷积合并得到新的文本词向量表示再进行命名实体识别迭代。本实施例中以命名实体没有变化为判断实体识别任务结束的标准,即通过对合并后的第二文本向量表示进行边界检测得到的边界词概率均小于预设概率阈值时,认为当前的嵌套命名实体识别任务结束,停止实体识别迭代,把得到的实体识别结果做为最终的命名实体识别结果即可。对应于图9给出的一维卷积神经网络应用实例的最终命名实体识别的结果如图10所示,即给出的标记个数为4个,分别为:activation、of、the、cd28 surface receptor provides。
[0114]
本实施例采用长短期记忆网络lstm和word2vec分别对英文文本和中文文本序列进行编码得到对应的文本词向量表示后,使用引入多层感知机的长短期记忆网络lstm单元对命名实体的边界进行划分给出边界词概率信息,以及将该边界词概率信息融入到文本词向量表示中进行命名实体解码和标注,再结合预设概率阈值判断是否存在嵌套命名实体,当存在时,再使用一维卷积神经网络将相邻嵌套命名实体边界及中间的边界文本向量表示合并得到第二文本词向量表示,再开始新的命名实体识别的方法,能够有效识别中英文自然语言序列中具有特定意义实体的边界,有效缩减了候选实体子序列的数目,进而降低实体识别模型的计算和解码复杂度且有效提高了嵌套命名实体识别的召回率和f1分数,进而提升了模型预测嵌套实体的能力和实用性。
[0115]
为了验证本发明嵌套命名实体识别方法的技术效果,将上述方法对应的模型采用交叉熵损失函数和随机梯度下降(sgd)法分别针对获取的中英文文本语料进行训练优化后,基于新浪财经收集的上市高管简历数据集和genia测试集进行嵌套命名实体的识别验证,并与同类型的其他模果进行比对,结果分别如表1和表2所示,从给出的精确度、召回率和f1分数可见本发明的嵌套命名实体识别方法应用在英文文本集和中文文本集上对应的综合效果都比同类命名体识别模型的有所提升。
[0116]
表1基于genia英文文本测试集的实验结果比对
[0117]
modelprecisionrecallf1

score
hmm81.2956.4766.39crf88.1755.8667.99bilstm85.3561.6171.32bilstm

crf88.0461.7472.14span

based73.368.370.7hypergraph

based75.466.871.1our model(flat layer)87.5663.9773.50our model(nested layer)85.4972.1877.97
[0118]
表2基于新浪财经收集的上市公司高管简历数据集的实验结果比对
[0119][0120][0121]
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。
[0122]
在一个实施例中,如图11所示,提供了一种嵌套命名实体识别系统,所述系统包括:
[0123]
预处理模块1,用于获取待识别文本的第一文本词向量表示;所述待识别文本包括中文文本语料和英文文本语料;
[0124]
边界检测模块2,用于对所述第一文本词向量表示进行边界检测,得到对应的边界词概率和边界文本向量表示;
[0125]
其中,边界检测模块2的结构如图5所示,其由在lstm单元的输出隐藏层上增加多层感知机mlp得到;所述lstm单元为长短期记忆网络模型的基本单元。
[0126]
实体解码模块3,用于对所述边界文本向量表示进行解码和标注,得到第一实体识别结果;
[0127]
嵌套检测模块4,用于根据所述边界词概率和预设概率阈值,判断所述边界文本向量表示中是否存在嵌套命名实体边界词;
[0128]
结果获取模块5,用于若所述边界文本向量表示中存在嵌套命名实体边界词,则将相邻所述嵌套命名实体边界词之间的所述边界文本向量表示进行合并,得到第二文本词向量表示,并对所述第二文本词向量表示进行边界检测,开始下一轮实体识别迭代,反之,则停止迭代,将所述第一实体识别结果作为所述待识别文本的识别结果。
[0129]
关于一种嵌套命名实体识别系统的具体限定可以参见上文中对于一种嵌套命名
实体识别方法的限定,在此不再赘述。上述一种嵌套命名实体识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0130]
图12示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图12所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种嵌套命名实体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0131]
本领域普通技术人员可以理解,图12中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
[0132]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
[0133]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
[0134]
综上,本发明实施例提供的一种嵌套命名实体识别方法、系统、计算机设备及存储介质,其嵌套命名实体识别方法通过采用长短期记忆网络lstm和word2vec分别对英文文本和中文文本序列进行编码得到对应的文本词向量表示后,使用引入多层感知机的长短期记忆网络lstm单元对命名实体的边界进行划分给出边界词概率信息,以及将该边界词概率信息融入到文本词向量表示中进行命名实体解码和标注,再结合预设概率阈值判断是否存在嵌套命名实体,当存在时,再使用一维卷积神经网络将相邻嵌套命名实体边界及中间的文本合并得到第二文本词向量表示,再开始新的命名实体识别直至不再得到新的命名实体停止命名实体识别迭代,并将当前得到的命名实体识别结果作为对应文本的最终命名实体识别结果的技术方案。与现有技术相比,该嵌套体命名实体识别方法,能够有效识别中英文自然语言序列中具有特定意义实体的边界,有效缩减了候选实体子序列的数目,进而降低实体识别模型的计算和解码复杂度且有效提高普通命名实体和嵌套命名实体识别的召回率和f1分数,进而提升了模型预测嵌套实体的能力和实用性。
[0135]
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0136]
以上所述实施例仅表达了本技术的几种优选实施方式,其描述较为具体和详细,
但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本技术的保护范围。因此,本技术专利的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献