一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

不同标注程度下文档级关系抽取的统一正无标记学习方法

2023-01-01 17:46:59 来源:中国专利 TAG:


1.本发明涉及自然语言处理中文档级关系抽取技术领域,尤其是一种不同标注程度下文档级关系抽取的统一正无标记学习方法。


背景技术:

2.随着大数据和人工智能时代的来临,互联网上各类信息以爆炸般的速度增长,从海量的数据中获取信息成为一个亟待解决的问题。信息抽取作为自然语言理解的一个重要分支,其主要目标是将嵌入在文本中的无结构信息通过自动提取进而转化为结构化数据,与其相关的技术研究逐渐兴起。关系抽取,作为信息抽取的一个重要的子任务,旨在识别给定文本中两个实体之间的关系。关系抽取作为自然语言理解领域的一项常见的基础任务,在各个方面都有着广泛的应用:例如创建新的结构化知识库并增强现有知识库;构建垂直领域的知识图谱;支持上层的高级应用如文本摘要、自动问答、机器翻译、语义网标注等。关系抽取任务主要集中与从一个句子中抽取实体对间的相互关系,而最近的研究中,从跨越多个句子的实体对之间抽取关系的文档级关系抽取任务得到了越来越多的关注。
3.现有技术的文档级关系抽取方法主要集中于完全监督场景下的任务,即所有的关系对都被标注。而在实际场景下,由于实体对的数量会随着实体数量的增加而呈二次增长,完全标注所有的关系对十分困难,导致不完全标注成为文档级关系抽取中的一个常见问题,在不完全标注的训练数据上训练的模型倾向于在实际场景中过度拟合,得到较低的召回率从而导致欠佳的结果。然而在现实世界中,由于文档中实体对的数量随着实体数量的增加而呈平方倍增长,完全标注文档中的所有关系是昂贵而困难的。因此,不完全标注下的文档级关系抽取成为了一个紧急需求。


技术实现要素:

4.本发明的目的是针对现有技术的不足而提出的一种不同程度标注下文档级关系抽取的统一正无标记学习方法,将未标注的样本视为混杂着正样本和负样本的结合,使用一种正无标记学习方法,从嘈杂的未标记样本中学习出对应关系的模式,考虑到原始数据的标注可能会导致先验的偏移,进一步采用了先验偏移下的正无标记学习和平方排序损失函数,更好的区分无类和预定义类,即使预定义正向标签的排名高于无类标签,而预定义负向标签的排名更低,这种损失函数可以很好地适应正无标记学习,方法简便、易行,可以灵活和方便的嵌入到各种骨架模型当中,只需更改对应的损失函数,适合多种多标签分类且不完全标注的任务,大量节省训练文档级关系抽取模型的所需数据标注成本,只需要标注文档中的部分关系即可训练出一个合理的模型,具有广泛的应用前景。
5.实现本发明目的的具体技术方案是:一种不同标注程度下文档级关系抽取的统一正无标记学习方法,其特点是该方法具体包括以下步骤:
6.步骤一:正无标记学习
7.首先对多标签文档级关系抽取的每一个关系类别进行先验估计,估计正样本分布
的占比,再对每一个类别采用二元的正无标记学习方法,将其转化为多标签的正无标记学习。
8.步骤二:先验转移的正无标记学习
9.通过估计的先验和已经标注的数据得到先验转移后的正无标记学习公式,解决未标记数据的先验分布和总体先验分布之间的偏差;
10.步骤三:平方排名损失
11.采用无类别分数作为自适应阈值,更好的区分无类关系和预定义类关系,使预定义正向标签的排名高于无类标签,而预定义负向标签的排名更低。
12.所述文档级关系抽取中的正无标记学习具体包括:对于每种关系类别估计出大概的先验,即正样本的占比,再对每种关系类别采用二元的正无标记学习方法,实现多标签文档级关系抽取中的正无标记学习。
13.所述先验转移的正无标记学习具体包括:计算出当前每种关系类别在当前训练数据中的占比,通过公式转换得到先验转移的正无标记学习方法。
14.所述平方排名损失具体包括:增加一个无关系的类别,即无类别,以平方损失为基础,优化使得正向关系的分数大于无类别分数,负向关系分数小于无类别分数,预测时无类别分数即可充当为自适应阈值,当对应关系分数大于其时为正向关系,否则为负。
15.本发明与现有技术相比具有方法简、易行,使用效果好,可以大量节省训练文档级关系抽取模型的所需数据标注成本,只需要标注文档中的部分关系即可训练出一个合理的模型。并且可以灵活和方便的嵌入到各种骨架模型当中,只需更改对应的损失函数,适合多种多标签分类且不完全标注的任务,相对于传统的完全监督方法在不完全标注的文档级关系抽取数据集上取得了大量的提升。
附图说明
16.图1为本发明流程图;
17.图2为本发明实施过程示意图;
18.图3为发生先验转移示意图。
具体实施方式
19.参阅图1,本发明具体包括以下步骤:
20.步骤一:正无标记学习
21.首先对多标签文档级关系抽取的每一个关系类别进行先验估计,估计正样本分布的占比,再对每一个类别采用二元的正无标记学习方法,将其转化为多标签的正无标记学习。
22.步骤二:先验转移的正无标记学习
23.通过估计的先验和已经标注的数据得到先验转移后的正无标记学习公式,解决未标记数据的先验分布和总体先验分布之间的偏差。
24.步骤三:平方排名损失
25.采用无类别分数作为自适应阈值,更好的区分无类关系和预定义类关系,使预定义正向标签的排名高于无类标签,而预定义负向标签的排名更低。
26.结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
27.实施例1
28.参阅图2,本发明将首先未标注的样本视为混杂着正样本和负样本的结合,使用一种正无标记学习方法,从嘈杂的未标记样本中学习出对应关系的模式。考虑到原始数据的标注可能会导致先验的偏移,本发明进一步采用了先验偏移下的正无标记学习。最后为了更好的区分无类和预定义类,提出了一个无类排序的平方排序损失,即使预定义正向标签的排名高于无类标签,而预定义负向标签的排名更低,这种损失函数可以很好地适应正无标记学习,具体操作按以下步骤进行:
29.(一)文档级关系抽取的正无标记学习
30.文档级的re可以看作是一个多标签分类任务,其中每个实体对都是一个实例,相关的关系都是标签样本。设x是一个实例空间,y={-1, 1}k是一个标签空间,其中k是预定义类的数量。实例x∈x与标签子集相关联,由二进制向量y∈y=(y1,

,yk)标识。其中,如果第i个标签对x为正,则为yi= 1,否则为yi=-1;分数函数定义为f(x)=(f1(x)、f2(x)、...,fk(x))(下文中用fi表示分数函数)。
31.对于第i类,假设数据遵循未知的概率分布,密度p(x,yi),为正边际,为负边际,pi(x)为边际。在普通正负(pn)学习中,目标是最小化预期的分类风险r
pn
(f)由下述(a)式定义为:
[0032][0033]
其中,l为损失函数;p(x,yi)为密度分布;fi为分数函数;yi为对应标签。
[0034]
这里分类风险r
pn
(f)可由下述(b)式的正样本和负样本的误差之和来等价计算:
[0035][0036]
其中,πi=p(yi= 1)和(1-πi)=(1-p(yi= 1))=p(yi=-1)是第i类的正和负先验;损失函数用l表示。
[0037]
在正未标记(pu)学习中,由于缺乏负样本,不能从数据中估计假设未标记的数据可以反映真实的总体分布,即所以正无标记期望分类风险公式可由下述(c)式定义为:
[0038][0039]
其中,为未标记数据总体期望,因为为未标记数据总体期望,因为所以可以代替表示
[0040]
当使用一个高度灵活的模型时,普通可能容易发生过拟合。因此,使用下述一种非负风险估计器来缓解过拟合问题,即由下述(d)式表示为:
[0041]
[0042]
最后重写此式为利用数据近似的形式由下述(e)式表示为:
[0043][0044]
其中,表示类i的第j个样本为正的情况;为第i类的阳性样本数;表示第j个样本未标记为第i类的情况;为未标记为第i类的样本数量。
[0045]
(二)先验转移的正无标记学习
[0046]
普通的正无标记学习需要假设总体分布需要与未标记数据的分布相同。相比之下,在常见的文档级关系抽取数据集,许多关系可能已经被标注了,特别是常见的关系,这导致了训练集的未标记数据的先验转移。当这个假设被打破时,普通正无标记学习将产生一个有偏的结果。为了解决这个问题,引入训练数据先验转移下的pu学习。
[0047]
对于每个类,假设原始先验为πi=p(yi= 1),设置π
labeled,i
=p(si= 1)和(1-π
labeled,i
)=(1-p(si= 1))=p(si=-1)。其中,si= 1或si=-1分别表示第i类被标记或未标记。
[0048]
参阅原图3,未标记数据下的阳性样本的条件概率与整体阳性样本的概率不同,未标记数据下的阳性样本的条件概率由下述(f)式表示为:
[0049][0050]
其中,p(yi=1,si=-1)=π
i-π
labeled,i
,可以获得经过标注后的新未标记数据中的的阳性样本先验
[0051]
最后,训练数据的类前偏移下的非负风险估计量如下述(g)式表示为:
[0052][0053]
普通正负学习和普通正无标记学习是此函数的一个特例,当π
u,i
=0时,这个方程简化为正负学习的形式;当π
u,i
=πi时,这个方程简化为正无标记学习的形式。
[0054]
(三)平方排名损失
[0055]
为了更好的区分预定义类别与无类别的关系,原始的平方损失函数由下述(h)式表示为:
[0056][0057]
将平方损失函数改写为下述(i)式表示的平方排名损失函数:
[0058][0059]
其中,margin为超参数;f0为无类分数,当fi大于f0时,标签存在,否则不存在。这一损失函数优化使得正向的预定义标签的排名高于无类别标签并且负向预定义标签排名低于无类别标签。
[0060]
本发明针对自然语言处理中文档级关系抽取的大量不完全标注现象进行改进,文档级关系抽取(re)旨在识别跨越多个句子的实体之间的关系。以前的大多数文档级关系抽取方法侧重于完全监督的场景,然而在现实世界中,由于文档中实体对的数量随着实体数量的增加而呈平方倍增长,因此完全标注文档中的所有关系是昂贵而困难的。本发明提出了一个统一的正向无标记学习框架,首次在文档级关系抽取任务上使用正向无标记(pu)学习,很好的解决这一常见的不完整标注问题。考虑到数据集的标记数据可能会导致未标记数据的先验转移,采用训练数据的先验转移下的pu学习。同时,使用无类别分数作为自适应阈值和平方排名损失。最后在不完全标注下文档级关系抽取数据集docred的充分实验表明,该方法相对于以前的只考虑到完全监督情况的基线,实现了大量的提升。此外,它在完全监督和极度无标签的情况下,它的表现也超过了以前的最先进的结果。
[0061]
以上只是本发明的较佳实现而已,并非对本发明做任何形式上的限制,故凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实现方法所做的任何的简单修改、等同变化与修饰,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献