一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于全局指针和对抗训练的命名实体识别方法

2023-02-04 15:41:45 来源:中国专利 TAG:


1.本发明涉及信息处理技术领域,尤其涉及一种基于全局指针和对抗训练的命名实体识别方法。


背景技术:

2.早期的命名实体识别研究方法主要是基于规则和字典的方法。基于规则的ner方法主要依赖于人工构建规则,针对特定领域或特定语法来设计规则。因此,该方法的效果与特定领域词典大小紧密相关,当特定领域词汇比较丰富时,该方法表现较好。已有的基于规则的命名实体识别系统有:sra、fastus和ltg。这些系统主要通过手工设计规则来识别实体。由于不同领域之间的规则和词典通常不相同,所以使用该方法构建的系统只能应用于单一领域,不能在多个领域中使用。
3.随着机器学习和深度学习的发展,大量命名实体识别方法被提出,包括浅层机器学习方法和深度学习方法。浅层机器学习方法也称为基于统计学习的方法,主要有隐马尔可夫模型(hidden markov model,hmm)、支持向量机(svm)和条件随机场(conditional random fields,crf)等。但是这些方法需要人工标注提取特征,使用特征模板来解释实体上下文的特征,使机器理解实体上下文含义。因此特征模板的选择很重要,需要人工参与并且非常依赖语料库。深度学习方法使用神经网络模型来进行命名实体识别,例如长短时记忆网络(long short-term memory,lstm)和卷积神经网络(convolutional neural network,cnn)进行实体识别,在深度学习中,命名实体识别任务一般有两种标注方法,分别是:(1)序列标注,即将句子的每个token使用一个标签tag进行标注。该方法的优点是当实体类别较少时,速度较快,但是当实体类别数量很大时,计算成本高。缺点是一个token只用一个标签tag标注,而在现实中,一个token可能属于多个实体或不同实体类型,因此该方法不能解决嵌套实体问题。(2)指针标注,该方法仅关注实体的头部和尾部位置,优点是能够解决嵌套实体问题,不足之处在于,每个指针网络采用两个模块分别识别实体首尾,单个模块只能关注实体首部或尾部的信息,无法注意实体的全局信息。
4.综合以上实体识别方法,有以下缺点:(1)序列标注方法使用条件随机场作为标签解码器,当标签数量太大时,计算成本较高;且无法解决嵌套实体识别问题。(2)指针标注方法对于多个实体关系类别,分别使用多个指针网络,每个指针网络采用两个模块分别识别实体首尾,单个模块训练评估时仅能注意实体头部或尾部的信息,无法注意实体的全局信息,而在预测时按照整个实体进行预测,导致了训练和预测时的不一致性。(3)神经网络模型具有局部不稳定性,模型的鲁棒性和泛化性较差。


技术实现要素:

5.本发明的目的是要提供一种基于全局指针和对抗训练的命名实体识别方法。采用全局指针作为标签解码器来处理嵌套实体问题,并利用对抗训练生成对抗样本加强模型的鲁棒性和泛化性。基于上述条件,本发明基于全局指针和对抗训练的命名实体识别方法。该
方法由四个部分组成:chinesebert模块、注意力机制模块、全局指针模块和对抗训练模块。该方法采用chinesebert作为句子编码器,利用对抗训练添加扰动生成对抗样本,并在计算注意力分数时融入相对位置信息,以此增强实体之间的位置关系,最后通过全局指针进行解码。
6.本发明包括以下步骤:
7.s1:通过bert模块将长度为n的输入序列s={c1,c2,

,cn}进行编码得到向量x,表示为x={x1,x2,

,xn};
8.s2:通过对抗训练模块对向量x添加扰动δx得到对抗样本x
adv

9.s3:将向量x和对抗样本x
adv
经过线性层模块进行编码,得到向量h,表示为:h={h1,h2,

,hn};
10.s4:将向量h输入到注意力机制模块中得到向量q和k。向量q和向量k分别代表查询向量和关键词向量,向量q和k做内积得到加权后的注意力分数。在注意力模块中,使用相对位置编码为向量q和k添加相对位置信息
11.s5:通过全局指针模块将注意力模块的输出解码为多个span矩阵。
12.本发明的有益效果是:
13.本发明是一种基于全局指针和对抗训练的命名实体识别方法,与现有技术相比,本发明具有如下技术效果:
14.1、能够处理标签规模较大的数据集的实体识别问题;可识别嵌套实体,能够覆盖更多的实体识别场景;
15.2、具有全局性,可以关注到实体的全局信息;
16.3、通过对抗训练提高了网络模型的鲁棒性和泛化性,在多个公共数据集上的表现均有提升;
17.4、能够利用原始文本数据中的潜在信息,如拼音信息,大大提升信息丰富度。
附图说明
18.图1是本发明的整体模型架构图;
19.图2为本专利的全局指针模块。
具体实施方式
20.下面结合附图以及具体实施例对本发明作进一步描述,在此发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
21.本发明提出的基于全局指针和对抗训练的命名实体识别模型(at-cbgp)的整体架构如图1所示,模型主要由以下模块组成:chinesebert-base、对抗训练、注意力机制和全局指针。
22.模型的初始输入序列是s={c1,c2,

,cn},首先,chinesebert-base模块将长度为n的输入序列s={c1,c2,

,cn}进行编码得到向量表示x={x1,x2,

,xn}。其次,对抗训练模块对向量x添加扰动δx,得到对抗样本x
adv
,再将原始向量x和对抗样本x
adv
经过线性层模块进行编码,得到向量h={h1,h2,

,hn},接着将向量h输入到注意力机制模块中得到向量q和k。向量q和向量k分别代表查询向量和关键词向量,向量q和k做内积得到加权后的注意力分
数。在注意力模块中,使用相对位置编码为向量q和k添加相对位置信息。最终通过全局指针模块将注意力模块的输出解码为多个span矩阵。
23.模型由以下各个模块组成:
24.1、chinesebert
25.本发明采用chinesebert,将文本的词嵌入和拼音嵌入相结合。chinesebert-base包含12层transformer,每层transformer都包含12-heads自注意力,768个隐藏层单元。假设输入长度为n的序列s={c1,c2,

,cn},c
t
表示句子中的第t个字。
26.2、注意力机制
27.注意力机制中的位置编码可分为绝对位置编码和相对位置编码。虽然绝对位置编码可以向字向量中加入位置信息,但是该位置信息是与固定位置相关的,无法表示固定位置的上下文信息。因此,为了表示上下文信息,提出了相对位置编码,相对位置编码不依赖于固定位置,而只依赖相对位置。
28.本发明采用旋转式相对位置编码为模型注入相对位置信息,从而使得模型对实体间的相对位置更加敏感,能更好地识别实体。
29.3、全局指针
30.全局指针能够解决嵌套实体问题;而相较于普通指针网络,全局指针将实体首尾视为一个整体去进行判别,更具有全局性,同时避免了训练和预测时的不一致性。
31.全局指针模块是以实体为基本单位进行实体识别。对于长度为seq的句子,它构建c个seq
×
seq大小的span矩阵,对于句子中的每一类实体,都对应一个矩阵,c是实体类别。矩阵中行标记为1表示实体头部,列标记为1表示实体尾部。如图2所示,图中列出了句中两类实体对应的矩阵,其中span{妈}{爱}=1,代表“妈咪爱”是一个药物实体,span{助}{化}=1,代表“助消化”是一个药物类别实体。
32.全局指针模块将实体识别问题看作多标签分类问题。然而,句子中通常只有少量的部分类别实体,从而产生严重的类别不均衡问题。为了解决这个问题,本发明采用统一损失函数形式:
[0033][0034]
其中,i属于负样本集合ω
neg
,j属于正样本集合ω
pos
,γ是缩放因子,si是非目标类得分,sj是目标类得分,m是间隔。
[0035]
该损失函数适合总类别数较大、目标类别数较小的多标签分类问题,它将多标签分类问题变为目标类得分和非目标类得分两两做差进行比较,从而限制目标类得分大于非目标类得分。此外,由于每个句子中的实体类别和数量不固定,从而设置阈值s0=0来确定输出哪些类,使得每个目标类得分sj都大于0,每个非目标类得分si都小于0。
[0036]
在本发明中,具体的损失函数为公式(2)。其中,所有类型为α的实体首尾集合(i,j)组成了正样本集合p
α
,所有类型为非α的实体或非实体的首尾集合(i,j)组成了负样本集合n
α
。其中,s
α
(i,j)表示输入序列s中从第i个元素到第j个元素组成的子序列为第α类实体的得分。
[0037][0038]
4、对抗训练
[0039]
对抗训练可以提高模型应对恶意样本时的鲁棒性,其次,它作为一种正则化的方式,可减缓模型过拟合,提高泛化能力。如图1所示,在at-cbgp模型中,经过chinesebert-base编码后得到的嵌入向量为x={x1,x2,...,xn},通过对原始嵌入x添加扰动δx来生成对抗嵌入向量x
adv
,计算公式如下:
[0040][0041]
g=

x
l(x,y;θ)
ꢀꢀ
(4)
[0042]
x
adv
=x δx
ꢀꢀ
(5)
[0043]
其中,∈是表示扰动程度的超参数,该参数依据具体实验情况需要手动调整,本发明中设置为1;g是损失函数的梯度,l(x,y;θ)是损失函数,θ是模型参数。
[0044]
与现有技术的对比案例如图,分别在4个公共数据集上进行对比,实验结果表明,本发明能够达到较好的效果。
[0045][0046][0047]
本发明的技术方案不限于上述具体实施例的限制,凡是根据本发明的技术方案做出的技术变形,均落入本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献