一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于全局指针和对抗训练的命名实体识别方法

2023-02-04 15:41:45 来源:中国专利 TAG:

技术特征:
1.一种基于全局指针和对抗训练的命名实体识别方法,其特征在于,包括以下步骤:s1:通过bert模块将长度为n的输入序列s={c1,c2,...,c
n
}进行编码得到向量x,表示为x={x1,x2,...,x
n
};s2:通过对抗训练模块对向量x添加扰动δx得到对抗样本x
adv
;s3:将向量x和对抗样本x
adv
经过线性层模块进行编码,得到向量h,表示为:h={h1,h2,...,h
n
};s4:将向量h输入到注意力机制模块中得到向量q和k;向量q和向量k分别代表查询向量和关键词向量,向量q和k做内积得到加权后的注意力分数;在注意力模块中,使用相对位置编码为向量q和k添加相对位置信息;s5:通过全局指针模块将注意力模块的输出解码为多个span矩阵。2.根据权利要求1所述的基于全局指针和对抗训练的命名实体识别方法,其特征在于:所述bert采用chinesebert-base,所述chinesebert-base包含12层transformer,每层transformer都包含12-heads自注意力和768个隐藏层单元。3.根据权利要求1所述的基于全局指针和对抗训练的命名实体识别方法,其特征在于:所述全局指针模块采用损失函数形式:其中,所有类型为α的实体首尾集合(i,j)组成了正样本集合p
α
,所有类型为非α的实体或非实体的首尾集合(i,j)组成了负样本集合n
α
;s
α
(i,j)表示输入序列s中从第i个元素到第j个元素组成的子序列为第α类实体的得分。4.根据权利要求1所述的基于全局指针和对抗训练的命名实体识别方法,其特征在于:所述步骤s2的计算公式如下:g=

x
l(x,y;θ)x
adv
=x δx其中,∈是表示扰动程度的超参数,该参数依据具体实验情况需要手动调整,本发明中设置为1;g是损失函数的梯度,l(x,y;θ)是损失函数,θ是模型参数。

技术总结
本发明公开了一种基于全局指针和对抗训练的命名实体识别方法,该方法由四个部分组成:BERT模块、注意力机制模块、全局指针模块和对抗训练模块。该方法采用BERT作为句子编码器,利用对抗训练添加扰动生成对抗样本,并在计算注意力分数时融入相对位置信息,以此增强实体之间的位置关系,最后通过全局指针进行解码。能够处理标签规模较大的数据集的实体识别问题;可识别嵌套实体,能够覆盖更多的实体识别场景;具有全局性,可以关注到实体的全局信息,通过对抗训练提高了网络模型的鲁棒性和泛化性,在多个公共数据集上的表现均有提升;能够利用原始文本数据中的潜在信息,提升信息丰富度。富度。富度。


技术研发人员:程明哲 李红军
受保护的技术使用者:成都理工大学
技术研发日:2022.10.26
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献