一种基于路径扩展的非连续实体识别方法与流程

2022-02-19 02:51:52 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术，具体涉及一种基于路径扩展的非连续实体识别方法。

背景技术：

2.实体识别是自然语言处理中的一项基本任务，其目的是从文本中检测出实体的边界并划分实体类别。目前，大多数方法将实体识别形式化为序列标注任务。然而，这些方法难以解决非连续、嵌套等不规则实体识别问题。
3.近年来，主流的非连续实体识别方法主要包括：字符级方法和句子级方法。字符级方法依然基于序列标注架构，将bio标签扩展为更复杂的标签来表示非连续实体。例如，文献[1]引入bh、ih、bd和id等四个标签以表示非连续实体。句子级方法将句子建模为一个整体结构来构建更有效的推理系统，以整体预测句子中的实体
[2]
。例如，文献[3]提出使用超图将字符表示为图中不同类型的节点，使用图中两点之间的路径表示句子中的非连续实体。但是上述方法在最后的解码阶段都会遭受一定程度的模糊性(对应多种解码结果)，导致无法准确识别非连续实体
[4]
。
[0004]
[1]metke
‑
jimenez a,karimi s.concept identification and normalisation for adverse drug event discovery in medical forums[c]//the first international workshop on biomedical data integration and discovery.2016.
[0005]
[2]muis a o，lu w.learning to recognize discontiguous entities[j].2018.
[0006]
[3]lu w,roth d.joint mention extraction and classification with mention hypergraphs[c]//proceedings of the 2015conference on empirical methods in natural language processing.2015:857
‑
867.
[0007]
[4]dai x,karimi s,hachey b,et al.an effective transition
‑
based model for discontinuous ner[c]//proceedings of the 58th annual meeting of the association for computational linguistics.2020.

技术实现要素：

[0008]
本发明的目的在于提出一种基于路径扩展的非连续实体识别方法，以解决非连续实体识别因解码模糊性造成的识别精度不高等问题。
[0009]
实现本发明目的的技术解决方案为：一种基于路径扩展的非连续实体识别方法，具体步骤如下：
[0010]
步骤1，对文本序列使用transformer
‑
1编码器编码；
[0011]
步骤2，将transformer
‑
1编码器的输出通过一层线性映射层映射为实体首字符判别向量，并使用softmax函数得到字符标签预测值，以获得实体首字符的索引值；
[0012]
步骤3，针对预测的每个实体首字符，将其对应的transformer
‑
1编码器输出向量
与其后字符的transformer
‑
1编码器输出向量拼接，使用transformer
‑
2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别向量，并使用softmax函数得到字符标签预测值，以获得对应实体首字符的实体尾字符索引值；
[0013]
步骤4，针对每对实体首字符和实体尾字符区间字符使用路径扩展方法，得到实体表示的路径；
[0014]
步骤5，解码获得的实体表示路径，得到识别出的实体。
[0015]
进一步的，步骤1中，对文本序列使用transformer
‑
1编码器编码，具体公式如下：
[0016]
h＝transformer
‑
1(x)(1)
[0017]
其中，h＝{h1，h2，...，h
n
}表示transformer
‑
1编码器的输出，x＝{x1，x2，...，x
n
}表示文本序列，n表示文本序列长度。
[0018]
进一步的，步骤2中，将transformer
‑
1编码器的输出通过一层线性映射层映射到实体首字符的分类类别数，并使用softmax函数得到第i个字符标签预测值具体公式如下：
[0019][0020]
其中，w1是transformer
‑
1编码器的权重矩阵，b1是transformer
‑
1编码器的偏置量，h
i
是第i个字符的transformer
‑
1编码器输出，表示该字符是实体首字符，表示该字符不是实体首字符。
[0021]
进一步的，步骤3中，针对预测的每个实体首字符x
k
，将其对应的transformer
‑
1编码器输出向量与其后字符对应的transformer
‑
1编码器输出向量拼接，使用transformer
‑
2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别向量，并使用softmax函数得到第j个字符标签预测值具体公式如下：
[0022][0023][0024]
其中，表示向量拼接操作，w2是transformer
‑
2编码器的权重矩阵，b2是transformer
‑
2编码器的偏置量，是第j个字符与h
k
拼接后通过transformer
‑
2编码的向量，表示该字符是首字符序号为k的实体的尾字符，表示该字符不是首字符序号为k的实体的尾字符。
[0025]
进一步的，步骤4中，针对首字符为x
k
尾字符为x
j
的实体区间[x
k
，...，x
j
]使用路径扩展方法，得到实体表示的路径，具体方法为：
[0026]
将路径扩展视为字符的多分类问题，同时对每条路径设置记忆向量，将记忆向量与transformer
‑
1编码后的字符输出向量拼接，通过一层线性映射层进行路径扩展分类，具体公式如下：
[0027][0028][0029]
其中，表示向量拼接操作，w3是线性映射层的权重矩阵，b3是偏置量，表示第p
条路径第i个字符的记忆向量，h
i
是第i个字符的transformer
‑
1编码器输出，是一个多维向量，表示第p条路径第i个字符的分类向量，第一维向量为1表示该字符不是当前实体表示路径上的点，其余维向量为1表示该字符是对应类别实体表示路径上的点，当在多个维度上的值都为1，第p条路径分支出多个新路径，新路径的初始记忆向量等于
[0030]
一种基于路径扩展的非连续实体识别系统，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。
[0031]
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。
[0032]
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。
[0033]
本发明与现有技术相比，其显著优点为：首先判断出实体的首字符索引和尾字符索引，针对实体首尾字符索引直接的实体表示区间，使用路径扩展方法得到实体表示路径，最终解码实体表示路径得到实体，避免了目前大部分非连续实体识别方法遭遇的解码模糊性问题，有效提高了非连续实体识别的准确率。
附图说明
[0034]
图1是基于路径扩展的非连续实体识别方法的流程图；
[0035]
图2是路径扩展的模型结构图。
具体实施方式
[0036]
为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
[0037]
如图1
‑
2所示，基于路径扩展的非连续实体识别方法，具体实现步骤如下：
[0038]
步骤1，对文本序列使用transformer
‑
1编码器编码，具体公式如下：
[0039]
h＝transformer
‑
1(x)(1)
[0040]
其中，h＝{h1，h2，...，h
n
}表示transformer
‑
1编码器的输出，x＝{x1，x2，...，x
n
}表示文本序列，n表示文本序列长度。
[0041]
步骤2，将transformer
‑
1编码器的输出通过一层线性映射层映射为实体首字符判别向量，并使用softmax函数得到第i个字符标签预测值(1表示该字符是实体首字符，0表示该字符不是实体首字符)，具体公式如下：
[0042][0043]
其中，w1是transformer
‑
1编码器的权重矩阵，b1是transformer
‑
1编码器的偏置量，h
i
是第i个字符的transformer
‑
1编码器输出。
[0044]
步骤3，针对预测的每个实体首字符x
k
，将其输出向量与其后字符的输出向量拼接，使用transformer
‑
2编码器进行编码，接着通过一层线性映射层映射为实体尾字符判别
向量，并使用softmax函数得到字符标签预测值(1表示该字符是首字符序号为k的实体的尾字符，0表示该字符不是首字符序号为k的实体的尾字符)具体公式如下：
[0045][0046][0047]
其中，表示向量拼接操作，w2是transformer
‑
2编码器的权重矩阵，b2是transformer
‑
2编码器的偏置量，是第j个字符与h
k
拼接后通过transformer
‑
2编码的向量。
[0048]
步骤4，针对首字符为x
k
尾字符为x
j
的实体区间[x
k
，...，x
j
]使用路径扩展方法，得到实体表示的路径。
[0049]
将路径扩展视为字符的多分类问题，即判断字符是否是当前实体表示路径上的点。同时为了增强对当前路径和历史上下文感知，对每条路径设置记忆向量，将记忆向量与transformer
‑
1编码后的字符输出向量拼接，通过一层线性映射层进行路径扩展分类。具体公式如下：
[0050][0051][0052]
其中，表示向量拼接操作，w3是线性映射层的权重矩阵，b3是偏置量，表示第p条路径第i个字符的记忆向量，是一个多维向量，表示第p条路径第i个字符的分类向量，第一维向量为1表示该字符不是当前实体表示路径上的点，其余维向量为1表示该字符是对应类别实体表示路径上的点，当在多个维度上的值都为1，第p条路径分支出多个新路径，新路径的初始记忆向量等于
[0053]
步骤5，针对所有获得的实体表示路径，解码路径得到识别出的实体。
[0054]
本发明还提出一种基于路径扩展的非连续实体识别系统，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。
[0055]
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。
[0056]
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于路径扩展的非连续实体识别方法，实现基于路径扩展的非连续实体识别。
[0057]
实施例
[0058]
为了验证本发明方案的有效性，进行如下仿真实验。
[0059]
给定文本序列[couldn
′
t walk or even sleep comfortably]，其中，实体1是类别为adr的couldn
′
t walk comfortably，实体2是类别为adr的couldn
′
t sleep comfortably。采用本发明方法识别出文本序列中的2个非连续实体(即实体1和实体2)，具体实现步骤如下：
[0060]
步骤1，使用transformer
‑
1编码字符串得到h＝[h1，h2，...，h8]；
[0061]
步骤2，将h通过一层线性映射层，得到(1表示该字符是实体首字符，0表示该字符不是实体首字符)；
[0062]
步骤3，将h1与[h2，h3，...，h8]拼接，使用transformer
‑
2编码，接着通过一层线性映射层，得到首字符为couldn的实体的尾字符预测标签
[0063]
步骤4，针对首字符为couldn，尾字符为comfortably的实体表示区间[h1，h2，...，h8]，使用路径扩展方法，得到实体表示的路径。
[0064]
步骤4.1，初始化记忆向量将其与h1拼接，通过一层线性映射层，得到
[0065]
步骤4.2，将记忆向量与h2拼接，通过一层线性映射层，得到拼接，通过一层线性映射层，得到
[0066]
步骤4.3，将记忆向量与h3拼接，通过一层线性映射层，得到拼接，通过一层线性映射层，得到
[0067]
步骤4.4，将记忆向量与h4拼接，通过一层线性映射层，得到拼接，通过一层线性映射层，得到
[0068]
步骤4.5，针对第一条路径，将记忆向量与h5拼接，通过一层线性映射层，得到针对第二条路径，将记忆向量与h5拼接，通过一层线性映射层，得到
[0069]
步骤4.6，针对第一条路径，将记忆向量与h6拼接，通过一层线性映射层，得到针对第二条路径，将记忆向量与h6拼接，通过一层线性映射层，得到
[0070]
步骤4.7，针对第一条路径，将记忆向量与h7拼接，通过一层线性映射层，得到针对第二条路径，将记忆向量与h7拼接，通过一层线性映射层，得到
[0071]
步骤4.8，针对第一条路径，将记忆向量与h8拼接，通过一层线性映射层，得到针对第二条路径，将记忆向量与h7拼接，通过一层线性映射层，得到
[0072]
步骤5，针对获得的路径[1，1，1，1，0，0，0，1]和[1，1，1，0，0，0，1，1]，提取路径中标签非0的字符，得到识别出的adr实体1 couldn
′
t walk comfortably和adr实体2 couldn
′
t sleep comfortably。
[0073]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0074]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护
范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于多模态数据融合的特殊人员情感识别方法及系统与流程

一种基于路径扩展的非连续实体识别方法与流程

相关文献

最热文献