一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种结合远程监督和有监督的关系分类方法

2022-06-01 20:12:21 来源:中国专利 TAG:

技术特征:
1.一种结合远程监督和有监督的关系分类方法,其特征在于,包括以下步骤:步骤1,获取关系分类文本数据,包括有监督的关系分类文本数据和远程监督的关系分类文本数据;步骤2,在有监督的关系分类文本数据上训练关系分类教师模型;步骤3,在远程监督的关系分类文本数据上训练关系分类学生模型,通过实体遮掩和蒸馏技术对远程监督数据进行降噪;步骤4,在有监督的关系分类文本数据上微调步骤3训练得到的学生模型;步骤5,使用步骤4训练得到的学生模型进行关系预测。2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1-1,通过标注的方式获取有监督的关系分类文本数据;步骤1-2,通过远程监督技术获取自动标注的关系分类文本数据。3.根据权利要求2所述的方法,其特征在于,步骤1-2包括:步骤1-2-1,获取知识图谱中的三元组信息,三元组信息包含实体对和实体对之间的关系,构成三元组集合r={(h1,t1,r1),...,(h
i
,t
i
,r
i
),...,(h
n
,t
n
,r
n
)},其中,n为收集得到的三元组的数量,h
i
表示第i个三元组中的头实体,r
i
表示第i个三元组中的关系,t
i
表示第i个三元组中的尾实体;步骤1-2-2,从互联网获取文本,构建非结构化的语料库d={(text1,h1,t1),...,(text
i
,h
i
,t
i
),...,(text
m
,h
m
,t
m
)},其中,m表示收集到的文本的数量,text
i
表示第i个文本;步骤1-2-3,使用远程监督方法,对于文本语料库d中的每一个文本text,标记其中出现的头尾实体对(h,r)的关系,基于远程监督的假设进行标注:如果实体对在三元组r中出现,则标注为r中指示的关系,如果三元组没有在r中出现,则标注为没有关系;将通过远程监督标注得到的数据集记为将通过远程监督标注得到的数据集记为其中,m表示远程监督标注样本的数量,表示远程监督得到的第i个标注样本的标签,以独热方式进行编码,标注的关系对应位置为1,其余位置为0。4.根据权利要求3所述的方法,其特征在于,步骤2包括:步骤2-1,初始化教师模型的参数θ
t
;步骤2-2,输入有监督的关系分类文本数据其中,n表示有监督的样本数量,text
i
表示第i个样本的文本,h
i
和t
i
表示第i个样本中的头实体和尾实体,表示第i个标注样本的标签,采用独热方式进行编码;步骤2-3,教师模型进行前向计算:通过编码器编码输入的标注样本x
t
={w1,...,w
i
,...,h,...,t,...,w
n
},得到每个词token的表示e={e1,...,e
i
,...,e
h
,...,e
t
,...,e
n
},其中,w
i
表示上下文中的第i个单词,h和t分别表示头尾实体,e
i
代表经过编码器编码之后第i个单词的表示,e
h
和e
t
分别代表经过编码器编码之后头实体的表示和尾实体的表示;步骤2-4,获取e
h
和e
t
,将它们输入双线性层,得到每个关系类别上的输出结果z
i
,计算公式为:z
i
=e
h
w
i
e
t
,其中w
i
表示第i个关系类别对应的参数矩阵,i={1,2,...,c},c表示关
系类别总数;再经过softmax函数得到每个关系上的预测概率:其中,exp代表指数函数,表示第i个关系的概率值;步骤2-5,计算概率分布和标注的标签y
t
的交叉熵损失loss
t
::将交叉熵损失作为教师模型的预测损失;其中,为第i个关系的真实标签,表示教师模型在第i个关系上的预测概率;步骤2-6,计算梯度,反向传播更新教师模型的参数θ
t
;步骤2-7,经过迭代训练后,得到教师模型。5.根据权利要求4所述的方法,其特征在于,步骤3包括:步骤3-1,初始化学生模型的参数θ
s
;步骤3-2,输入远程监督的关系分类文本数据;步骤3-3,利用步骤2训练得到的教师模型对输入的远程监督标注样本x
ds
={w1,...,w
i
,h,...,t,...,w
n
}进行预测,得到每个关系上的输出结果{z1,...,z
i
,...,z
c
},z
i
表示教师模型在第i个关系上归一化前的预测结果;经过softmax函数计算得到每个关系上的概率值型在第i个关系上归一化前的预测结果;经过softmax函数计算得到每个关系上的概率值参数t用于表示蒸馏的温度;计算得到的概率分布称为soft target;步骤3-4,对输入的远程监督数据样本x
ds
中的实体部分进行随机遮掩,随机遮掩的变量m服从伯努利分布,遮掩的概率为p(m=1)=q,q是一个超参数,用于控制遮掩实体的比例,输入的远程监督数据样本表示为:其中,[e1]和[e2]是两个特殊的符号,分别用来遮掩头实体和尾实体;步骤3-5,学生模型进行前向计算:通过编码器编码输入的样本,编码得到的结果表示为e:e
[e1]
和e
[e2]
分别表示遮掩后的头、尾实体经过编码之后的表示,e
i
表示第i个单词经过编码器编码之后的表示;步骤3-6,获取3-5中的实体表示,当m=1时,取e
[e1]
和e
[e2]
;当m=0时,取e
h
和e
t
;将实体表示输入双线性层和softmax层,得到学生模型预测的概率分布p
s
;步骤3-7,计算概率分布p
s
和远程监督的标签y
ds
的交叉熵损失loss
ds
:步骤3-8,计算学生模型预测的概率分布和教师模型预测的概率分布之间的差异;步骤3-9,将步骤3-6和步骤3-7中的损失相加,作为学生模型最终的预测损失loss
s
;步骤3-10,计算梯度,反向传播更新学生模型的参数θ
s
;步骤3-11,经过迭代训练后,得到学生模型。6.根据权利要求5所述的方法,其特征在于,步骤3-7包括:采用如下公式计算概率分布p
s
和远程监督的标签y
ds
的交叉熵损失loss
ds
:其中,为第i个关系的远程监督标签,表示学生模型在第i个关系上的预测概率。7.根据权利要求6所述的方法,其特征在于,步骤3-8包括:选择kl散度作为衡量方式,
具体计算公式为:loss
kl
表示了学生模型和教师模型预测概率分布的kl散度值。8.根据权利要求7所述的方法,其特征在于,步骤3-9包括:loss
s
计算公式为:loss
s
=α*loss
ds
(1-α)*loss
kl
,其中α是一个超参数。

技术总结
本发明提供了一种结合远程监督和有监督的关系分类方法,通过有监督数据训练得到教师模型,在使用远程监督数据训练学生模型时对实体进行随机遮掩,同时利用蒸馏技术引入教师模型的监督信号,从而达到降噪的目的。得到学生模型后,在有监督数据上微调学生模型,进一步利用有监督数据增强学生模型。利用有监督数据增强学生模型。利用有监督数据增强学生模型。


技术研发人员:戴新宇 郑楠涛 何亮 黄书剑 张建兵 陈家骏
受保护的技术使用者:南京大学
技术研发日:2022.02.18
技术公布日:2022/5/31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献