一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于路径扩展的非连续实体识别方法与流程

2022-02-19 02:51:52 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术,具体涉及一种基于路径扩展的非连续实体识别方法。


背景技术:

2.实体识别是自然语言处理中的一项基本任务,其目的是从文本中检测出实体的边界并划分实体类别。目前,大多数方法将实体识别形式化为序列标注任务。然而,这些方法难以解决非连续、嵌套等不规则实体识别问题。
3.近年来,主流的非连续实体识别方法主要包括:字符级方法和句子级方法。字符级方法依然基于序列标注架构,将bio标签扩展为更复杂的标签来表示非连续实体。例如,文献[1]引入bh、ih、bd和id等四个标签以表示非连续实体。句子级方法将句子建模为一个整体结构来构建更有效的推理系统,以整体预测句子中的实体
[2]
。例如,文献[3]提出使用超图将字符表示为图中不同类型的节点,使用图中两点之间的路径表示句子中的非连续实体。但是上述方法在最后的解码阶段都会遭受一定程度的模糊性(对应多种解码结果),导致无法准确识别非连续实体
[4]

[0004]
[1]metke

jimenez a,karimi s.concept identification and normalisation for adverse drug event discovery in medical forums[c]//the first international workshop on biomedical data integration and discovery.2016.
[0005]
[2]muis a o,lu w.learning to recognize discontiguous entities[j].2018.
[0006]
[3]lu w,roth d.joint mention extraction and classification with mention hypergraphs[c]//proceedings of the 2015conference on empirical methods in natural language processing.2015:857

867.
[0007]
[4]dai x,karimi s,hachey b,et al.an effective transition

based model for discontinuous ner[c]//proceedings of the 58th annual meeting of the association for computational linguistics.2020.


技术实现要素:

[0008]
本发明的目的在于提出一种基于路径扩展的非连续实体识别方法,以解决非连续实体识别因解码模糊性造成的识别精度不高等问题。
[0009]
实现本发明目的的技术解决方案为:一种基于路径扩展的非连续实体识别方法,具体步骤如下:
[0010]
步骤1,对文本序列使用transformer

1编码器编码;
[0011]
步骤2,将transformer

1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到字符标签预测值,以获得实体首字符的索引值;
[0012]
步骤3,针对预测的每个实体首字符,将其对应的transformer

1编码器输出向量
与其后字符的transformer

1编码器输出向量拼接,使用transformer

2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到字符标签预测值,以获得对应实体首字符的实体尾字符索引值;
[0013]
步骤4,针对每对实体首字符和实体尾字符区间字符使用路径扩展方法,得到实体表示的路径;
[0014]
步骤5,解码获得的实体表示路径,得到识别出的实体。
[0015]
进一步的,步骤1中,对文本序列使用transformer

1编码器编码,具体公式如下:
[0016]
h=transformer

1(x)(1)
[0017]
其中,h={h1,h2,...,h
n
}表示transformer

1编码器的输出,x={x1,x2,...,x
n
}表示文本序列,n表示文本序列长度。
[0018]
进一步的,步骤2中,将transformer

1编码器的输出通过一层线性映射层映射到实体首字符的分类类别数,并使用softmax函数得到第i个字符标签预测值具体公式如下:
[0019][0020]
其中,w1是transformer

1编码器的权重矩阵,b1是transformer

1编码器的偏置量,h
i
是第i个字符的transformer

1编码器输出,表示该字符是实体首字符,表示该字符不是实体首字符。
[0021]
进一步的,步骤3中,针对预测的每个实体首字符x
k
,将其对应的transformer

1编码器输出向量与其后字符对应的transformer

1编码器输出向量拼接,使用transformer

2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别向量,并使用softmax函数得到第j个字符标签预测值具体公式如下:
[0022][0023][0024]
其中,表示向量拼接操作,w2是transformer

2编码器的权重矩阵,b2是transformer

2编码器的偏置量,是第j个字符与h
k
拼接后通过transformer

2编码的向量,表示该字符是首字符序号为k的实体的尾字符,表示该字符不是首字符序号为k的实体的尾字符。
[0025]
进一步的,步骤4中,针对首字符为x
k
尾字符为x
j
的实体区间[x
k
,...,x
j
]使用路径扩展方法,得到实体表示的路径,具体方法为:
[0026]
将路径扩展视为字符的多分类问题,同时对每条路径设置记忆向量,将记忆向量与transformer

1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类,具体公式如下:
[0027][0028][0029]
其中,表示向量拼接操作,w3是线性映射层的权重矩阵,b3是偏置量,表示第p
条路径第i个字符的记忆向量,h
i
是第i个字符的transformer

1编码器输出,是一个多维向量,表示第p条路径第i个字符的分类向量,第一维向量为1表示该字符不是当前实体表示路径上的点,其余维向量为1表示该字符是对应类别实体表示路径上的点,当在多个维度上的值都为1,第p条路径分支出多个新路径,新路径的初始记忆向量等于
[0030]
一种基于路径扩展的非连续实体识别系统,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
[0031]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
[0032]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
[0033]
本发明与现有技术相比,其显著优点为:首先判断出实体的首字符索引和尾字符索引,针对实体首尾字符索引直接的实体表示区间,使用路径扩展方法得到实体表示路径,最终解码实体表示路径得到实体,避免了目前大部分非连续实体识别方法遭遇的解码模糊性问题,有效提高了非连续实体识别的准确率。
附图说明
[0034]
图1是基于路径扩展的非连续实体识别方法的流程图;
[0035]
图2是路径扩展的模型结构图。
具体实施方式
[0036]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0037]
如图1

2所示,基于路径扩展的非连续实体识别方法,具体实现步骤如下:
[0038]
步骤1,对文本序列使用transformer

1编码器编码,具体公式如下:
[0039]
h=transformer

1(x)(1)
[0040]
其中,h={h1,h2,...,h
n
}表示transformer

1编码器的输出,x={x1,x2,...,x
n
}表示文本序列,n表示文本序列长度。
[0041]
步骤2,将transformer

1编码器的输出通过一层线性映射层映射为实体首字符判别向量,并使用softmax函数得到第i个字符标签预测值(1表示该字符是实体首字符,0表示该字符不是实体首字符),具体公式如下:
[0042][0043]
其中,w1是transformer

1编码器的权重矩阵,b1是transformer

1编码器的偏置量,h
i
是第i个字符的transformer

1编码器输出。
[0044]
步骤3,针对预测的每个实体首字符x
k
,将其输出向量与其后字符的输出向量拼接,使用transformer

2编码器进行编码,接着通过一层线性映射层映射为实体尾字符判别
向量,并使用softmax函数得到字符标签预测值(1表示该字符是首字符序号为k的实体的尾字符,0表示该字符不是首字符序号为k的实体的尾字符)具体公式如下:
[0045][0046][0047]
其中,表示向量拼接操作,w2是transformer

2编码器的权重矩阵,b2是transformer

2编码器的偏置量,是第j个字符与h
k
拼接后通过transformer

2编码的向量。
[0048]
步骤4,针对首字符为x
k
尾字符为x
j
的实体区间[x
k
,...,x
j
]使用路径扩展方法,得到实体表示的路径。
[0049]
将路径扩展视为字符的多分类问题,即判断字符是否是当前实体表示路径上的点。同时为了增强对当前路径和历史上下文感知,对每条路径设置记忆向量,将记忆向量与transformer

1编码后的字符输出向量拼接,通过一层线性映射层进行路径扩展分类。具体公式如下:
[0050][0051][0052]
其中,表示向量拼接操作,w3是线性映射层的权重矩阵,b3是偏置量,表示第p条路径第i个字符的记忆向量,是一个多维向量,表示第p条路径第i个字符的分类向量,第一维向量为1表示该字符不是当前实体表示路径上的点,其余维向量为1表示该字符是对应类别实体表示路径上的点,当在多个维度上的值都为1,第p条路径分支出多个新路径,新路径的初始记忆向量等于
[0053]
步骤5,针对所有获得的实体表示路径,解码路径得到识别出的实体。
[0054]
本发明还提出一种基于路径扩展的非连续实体识别系统,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
[0055]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
[0056]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于路径扩展的非连续实体识别方法,实现基于路径扩展的非连续实体识别。
[0057]
实施例
[0058]
为了验证本发明方案的有效性,进行如下仿真实验。
[0059]
给定文本序列[couldn

t walk or even sleep comfortably],其中,实体1是类别为adr的couldn

t walk comfortably,实体2是类别为adr的couldn

t sleep comfortably。采用本发明方法识别出文本序列中的2个非连续实体(即实体1和实体2),具体实现步骤如下:
[0060]
步骤1,使用transformer

1编码字符串得到h=[h1,h2,...,h8];
[0061]
步骤2,将h通过一层线性映射层,得到(1表示该字符是实体首字符,0表示该字符不是实体首字符);
[0062]
步骤3,将h1与[h2,h3,...,h8]拼接,使用transformer

2编码,接着通过一层线性映射层,得到首字符为couldn的实体的尾字符预测标签
[0063]
步骤4,针对首字符为couldn,尾字符为comfortably的实体表示区间[h1,h2,...,h8],使用路径扩展方法,得到实体表示的路径。
[0064]
步骤4.1,初始化记忆向量将其与h1拼接,通过一层线性映射层,得到
[0065]
步骤4.2,将记忆向量与h2拼接,通过一层线性映射层,得到拼接,通过一层线性映射层,得到
[0066]
步骤4.3,将记忆向量与h3拼接,通过一层线性映射层,得到拼接,通过一层线性映射层,得到
[0067]
步骤4.4,将记忆向量与h4拼接,通过一层线性映射层,得到拼接,通过一层线性映射层,得到
[0068]
步骤4.5,针对第一条路径,将记忆向量与h5拼接,通过一层线性映射层,得到针对第二条路径,将记忆向量与h5拼接,通过一层线性映射层,得到
[0069]
步骤4.6,针对第一条路径,将记忆向量与h6拼接,通过一层线性映射层,得到针对第二条路径,将记忆向量与h6拼接,通过一层线性映射层,得到
[0070]
步骤4.7,针对第一条路径,将记忆向量与h7拼接,通过一层线性映射层,得到针对第二条路径,将记忆向量与h7拼接,通过一层线性映射层,得到
[0071]
步骤4.8,针对第一条路径,将记忆向量与h8拼接,通过一层线性映射层,得到针对第二条路径,将记忆向量与h7拼接,通过一层线性映射层,得到
[0072]
步骤5,针对获得的路径[1,1,1,1,0,0,0,1]和[1,1,1,0,0,0,1,1],提取路径中标签非0的字符,得到识别出的adr实体1 couldn

t walk comfortably和adr实体2 couldn

t sleep comfortably。
[0073]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0074]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护
范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献