一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

实体链接方法、实体链接模型训练方法及电子设备

2022-04-09 06:06:04 来源:中国专利 TAG:


1.本发明涉及模型训练技术领域,尤其涉及一种实体链接方法、实体链接模型训练方法及电子设备。


背景技术:

2.实体链接是自然语言处理领域的重要任务,其旨在将非结构化文本中的某一实体的提及项正确链接到知识库中对应的实体。实体链接为无结构文本引入了丰富的知识库信息,从而可以帮助其他很多自然语言处理任务,如关系抽取、问题回答等。目前的实体链接模型对于一些典型的知识库已经能够达到较高的链接准确率,但针对特定领域知识库的实体链接相关的研究还比较少。
3.特定领域知识库的链接主要面临以下几方面挑战:一是缺少大量的训练数据,难以稳定地训练出神经网络模型。二是知识库辅助信息缺乏,前人研究常会利用到如别名表、实体间的结构化关系、链接先验概率等辅助信息,这些辅助信息在特定领域知识库中都很难获得。
4.因此,如何通过小样本训练得到实体链接模型成为了本领域技术人员亟需解决的技术问题。


技术实现要素:

5.本发明提供一种实体链接方法、实体链接模型训练方法及电子设备,用以解决现有技术中实体链接模型训练样本获取困难的缺陷,实现通过小样本数据进行训练得到实体链接模型,从而更准确地实现实体链接。
6.本发明提供一种实体链接方法,包括:
7.获取文本中的待链接实体;
8.将所述待链接实体输入至实体链接模型,获取所述实体链接模型输出的所述待链接实体与知识库中各实体的匹配分值;其中,所述实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,所述真实数据样本用于通过元学习规则调整所述弱监督数据样本的权重为目标训练权重,所述弱监督数据样本和所述真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,所述第一预设数量大于所述第二预设数量;
9.将所述待链接实体链接至所述知识库中所述匹配分值最高的实体。
10.根据本发明提供的一种实体链接方法,所述实体链接模型的训练过程,包括:
11.获取目标领域的第一预设数量的弱监督数据样本;
12.基于所述目标领域的第二预设数量的真实数据样本和元学习规则,调整所述弱监督数据样本的权重为目标训练权重;
13.以所述目标训练权重对应的弱监督数据样本作为训练样本进行神经网络模型训练,得到实体链接模型。
14.根据本发明提供的一种实体链接方法,所述获取目标领域的第一预设数量的弱监督数据样本,包括:
15.在目标领域对应的知识库中获取第一预设数量的初始训练样本,所述初始训练样本包括实体名称、实体提及和实体提及的上下文;
16.将与所述实体名称对应的描述文档输入预训练模型进行语义概括,得到所述预训练模型输出的与所述实体名称对应的新实体提及,所述预训练模型是基于通用领域的实体训练样本训练得到的;
17.将所述新实体提及替换掉所述初始训练样本中的实体提及,得到第一预设数量的弱监督数据样本。
18.根据本发明提供的一种实体链接方法,所述将所述新实体提及替换掉所述初始训练样本中的实体提及,得到第一预设数量的弱监督数据样本之后,还包括:
19.基于任务类型,更新所述预训练模型;
20.将所述弱监督数据样本输入至更新后的预训练模型,得到所述更新后的预训练模型输出的实体提及;
21.根据所述更新后的预训练模型输出的实体提及得到第一预设数量的弱监督数据样本,所述弱监督数据样本包括实体名称、更新后的预训练模型输出的实体提及和实体提及上下文。
22.根据本发明提供的一种实体链接方法,所述在目标领域对应的知识库中获取第一预设数量的初始训练样本,包括:
23.识别目标领域对应的知识库中的每篇描述文档的实体提及;
24.将所述实体提及链接至与所述知识库中实体名称一致的实体,得到第一预设数量的初始训练样本,所述初始训练样本为实体提及与实体名称一致的样本。
25.根据本发明提供的一种实体链接方法,所述基于所述目标领域的第二预设数量的真实数据样本和元学习规则,调整所述弱监督数据样本的目标训练权重,包括:
26.根据初始权重的所述弱监督数据样本,对神经网络模型进行更新,得到更新后的神经网络模型;
27.根据所述更新后的神经网络模型的损失优化所述更新后的神经网络模型的参数为初始模型参数;
28.基于元学习规则,根据所述初始模型参数对应的神经网络模型在第二预设数量的真实数据样本上的损失,调整所述初始权重为目标训练权重。
29.根据本发明提供的一种实体链接方法,所述基于元学习规则,根据所述初始模型参数对应的神经网络模型在第二预设数量的真实数据样本上的损失,调整所述初始权重为目标训练权重,包括:
30.将第二预设数量的真实数据样本输入至所述初始模型参数对应的神经网络模型,计算所述初始模型参数对应的神经网络模型的损失;
31.根据所述述初始模型参数对应的神经网络模型的损失,优化所述弱监督数据的初始权重;
32.基于元学习规则,更新所述优化后的初始权重为目标训练权重。
33.根据本发明提供的一种实体链接方法,所述得到实体链接模型之后,还包括:
34.通过召回率对所述实体链接模型的召回阶段进行性能评价;
35.通过归一化准确率对所述实体链接模型的重排序阶段进行性能评价。
36.本发明还提供一种实体链接模型训练方法,包括:
37.获取目标领域的第一预设数量的弱监督数据样本;
38.基于所述目标领域的第二预设数量的真实数据样本和元学习规则,调整所述弱监督数据样本的目标训练权重,所述弱监督数据样本和所述真实数据样本均包括实体名称样本、实体提及样本和实体提及的上下文样本,所述第一预设数量大于所述第二预设数量;
39.以所述目标训练权重调整后的弱监督数据样本作为训练样本进行神经网络模型训练,得到实体链接模型。
40.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述方法的步骤。
41.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述方法的步骤。
42.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。
43.本发明提供的一种实体链接方法、实体链接模型训练方法及电子设备,方法通过获取文本中的待链接实体;将待链接实体输入至实体链接模型,获取实体链接模型输出的待链接实体与知识库中各实体的匹配分值;其中,实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,真实数据样本用于通过元学习规则调整弱监督数据样本的权重为目标训练权重,弱监督数据样本和真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;将待链接实体链接至知识库中匹配分值最高的实体,由于结合元学习的方法基于第二预设数量即少量的人工标注的真实数据样本对弱监督数据进行权重调整,能够通过少量的真实数据样本提高实体链接模型的精确度,更准确的实现了实体链接。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1是本发明实施例提供的实体链接方法的流程示意图;
46.图2是本发明实施例提供的实体链接模型训练方法的流程示意图;
47.图3是图2中的实体链接模型训练方法的原理示意图;
48.图4是本实施例提供的blink结构的链接原理示意图;
49.图5为本实施例提供的元学习有效性的验证实验的结果示意图;
50.图6是本发明实施例提供的实体链接装置的结构示意图;
51.图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
52.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.下面结合图1-图7描述本发明的一种实体链接方法、实体链接模型训练方法及电子设备。
54.首先对以下名词进行解释:元学习方法常常用于小样本场景下,指利用其他类别或者其他领域的少量样本就可以使得模型迅速适应新的类别或领域,从而在目标类别或领域也能达到较好的效果。尽管元学习的方法多种多样,但本质上都是希望基于现有的训练数据,让模型在参数空间中收敛到一个较好的点。本实施例使用元学习的方法利用目标域少量真实数据样本对训练数据进行权重调整,以使得模型在目标领域的少量真实数据样本微调时能够快速适应该领域。
55.小样本(few-shot)是样本的一种,是指与“大样本”相对,通常指样本容量小于或等于50的样本,必须使用统计量的精确分布来进行统计推断。
56.实体链接任务的目标是将文本中出现的实体名称正确地匹配到知识库中对应的实体。端到端的实体链接包括命名实体识别(named entity recognition,ner)和实体消歧(entity disambiguation)两部分,ner识别出文本中的实体出现位置,但不会指明对应实体,实体消歧进一步将识别出来的实体名称匹配到对应的知识库实体。由于这两个阶段相对独立,也有大量研究将实体链接等同于实体消歧,本发明同样遵循这一设定,假设文本中的实体出现位置已经明确,只关注模型链接到正确实体的性能。这里首先将涉及到的专用术语定义如下,之后叙述时统一用术语表达:实体名称(title),知识库中实体的名字,一般知识库中不会存在相同名称的实体。实体描述(description),除名称外,知识库中的实体往往会有一段文本来描述该实体的含义,常见的比如维基百科中每个实体都有一个完整的页面,该页面可作为实体的描述。实体提及(mention),知识库中的实体在句子中的文本形式,实体提及可能和实体名称完全一致,也有可能是别名或简称等。实体提及的上下文(context),指实体提及一定范围内的上下文文本,这些文本中包含着丰富的信息,可以作为推断实体提及对应实体的依据。
57.候选实体生成(candidate generation)的任务是对于上下文中的某一个实体提及,从知识库中召回最有可能为正确答案的小规模实体集合,这个集合数量往往在一百个之内,大部分情况下正确答案会在该集合中。候选实体生成是实体链接的第一阶段,它将选择的范围从上万量级缩小到了数十量级,是下一步候选实体排序的基础。衡量候选实体生成阶段的指标是召回率(recall,r),指的是正确答案在候选实体集合中的概率,在召回数目相同的情况下,召回率越高越好。选择召回实体的数目也是一个权衡的过程,因为召回数目越多,正确答案在集合中的概率也会越大,但同时也会给第二阶段候选实体排序造成更大的困难。传统的模型在第一阶段使用统计方法或辅助信息进行,但是近些年有研究者提出使用神经网络进行召回。
58.候选实体排序(candidate ranking)的任务是根据实体提及所在的上下文和实体自身的描述之间的语义相关性,对第一步已经筛选出的候选实体进行重排序,可以看做是
一次更为精细的筛选。同样字面上虽然无法判断与实体提及匹配的是哪一个实体,但是根据实体提及的上下文的含义和每个实体描述的信息可以轻松地判断出应该链接到真正匹配的实体。候选实体排序将相关性最高的实体作为预测答案,因此可以用准确率(accuracy)来衡量这一模块的效果。由于正确答案不一定在第一阶段召回的候选实体集合中,可以把准确率进一步分为归一化准确率(n.acc.)和未归一化准确率(u.acc.),其中归一化准确率只考虑候选实体集合中包含正确答案情况下排序的准确率,而未归一化准确率考则将候选实体集合不包含正确答案的情况也考虑在内,因此可以认为归一化准确率衡量第二个模块的性能,未归一化准确率衡量模型整体的性能。
59.图1是本发明实施例提供的实体链接方法的流程示意图。
60.如图1所示,本发明实施例提供的一种实体链接方法,包括以下步骤:
61.101、获取文本中的待链接实体。
62.其中,待链接实体包括实体名称、实体提及和实体提及的上下文。
63.102、将待链接实体输入至实体链接模型,获取实体链接模型输出的待链接实体与知识库中各实体的匹配分值;其中,实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,真实数据样本用于通过元学习规则调整弱监督数据样本的权重为目标训练权重,弱监督数据样本和真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量。
64.在获取到待链接实体之后,将其输入至预先训练得到的实体链接模型,实体链接模型便会输出知识库中的各个实体与待链接实体的匹配分值,因为可能实体链接模型会在知识库中查找到多个匹配的实体,以具体的匹配度即匹配分值进行区分。通过真实数据样本调整弱监督数据样本的权重为目标训练权重的目的是保证实体链接模型的准确性,在不调整弱监督数据样本的权重为目标训练权重时,也能得到实体链接模型,但是模型不准确,因此需要将不准确模型对应的权重调整为更加准确的实体链接模型对应的目标训练权重。
65.103、将待链接实体链接至知识库中匹配分值最高的实体。
66.最后,将待链接实体链接至知识库中匹配分值最高的实体,即完成了最终的实体链接任务。
67.本发明提供的一种实体链接方法,通过获取文本中的待链接实体;将待链接实体输入至实体链接模型,获取实体链接模型输出的待链接实体与知识库中各实体的匹配分值;其中,实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,真实数据样本用于通过元学习规则调整弱监督数据样本的权重为目标训练权重,弱监督数据样本和真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;将待链接实体链接至知识库中匹配分值最高的实体,由于结合元学习的方法基于第二预设数量即少量的人工标注的真实数据样本对弱监督数据进行权重调整,能够通过少量的真实数据样本提高实体链接模型的精确度,更准确的实现了实体链接。
68.图2是本发明实施例提供的实体链接模型训练方法的流程示意图。
69.201、获取目标领域的第一预设数量的弱监督数据样本。
70.具体的,定义某一难以获取大量训练样本且辅助信息缺乏的特殊领域作为目标领
域。若是只采用少量的训练样本进行模型训练,由于目标领域的训练样本过少,很容易造成神经网络模型过拟合,难以达到好的效果,于是采用一种全新的方法在目标领域生成弱监督数据。第一预设数量指的是大量的弱监督数据样本,主要通过两个步骤获取得到,首先基于文本匹配生成训练样本,然后基于自然语言生成模型在目标领域产生大量的弱监督数据样本,其中,弱监督数据样本为预训练模型对通用领域的训练样本进行领域迁移得到的目标领域的数据样本,目标领域为所述待链接实体所在的领域。
71.202、基于目标领域的第二预设数量的真实数据样本和元学习规则,调整弱监督数据样本的权重为目标训练权重。
72.在获取得到大量的即第一预设数量的弱监督数据样本之后,通过第二预设数量的真实数据样本和元学习规则,调整弱监督数据的样本的权重为目标训练权重,也就是说基于目标领域已有的少量的即第二预设数量的真实数据样本,通过元学习的方式对产生的弱监督数据样本进行训练中的权重调整,从而筛选出与目标领域真实样本更接近的监督样本用于训练,以保证得到的神经网络模型更加准确。其中,弱监督数据样本指的是未进行标记或者是标记不准确的样本,真实数据样本则是进行人工标注的准确的数据样本。
73.203、以目标训练权重对应的弱监督数据样本作为训练样本进行神经网络模型训练,得到实体链接模型。
74.在得到权重调整之后的弱监督数据样本之后,便可以通过弱监督数据样本进行神经网络模型的训练,从而得到实体链接模型。由于已经调整了弱监督数据样本的目标训练权重,从而能够保证利用调整权重后的弱监督数据样本进行模型训练之后得到的实体链接模型更加的精确。
75.图3是图2中的实体链接模型训练方法的原理示意图。
76.进一步的,如图3所示,监督样本即调整权重为目标训练权重的弱监督数据样本的生成主要包括两个大的环节,一个是大量的目标领域弱监督数据样本的生成,另一个便是基于元学习调整弱监督数据样本的权重。得到弱监督数据样本的过程中具体为:在目标领域对应的知识库中获取第一预设数量的初始训练样本,所述初始训练样本包括实体名称、实体提及和实体提及的上下文,可以包括:识别目标领域对应的知识库中的每篇描述文档的实体提及;目标领域的已知信息只有实体库中的每个实体所对应的描述文档,因此第一步需要使用命名实体识别(named entity recognition,ner)工具识别出文档中的实体提及,然后将实体提及链接至知识库中,得到实体提及与实体名称一致的第一预设数量的初始训练样本。这里不同的一点是由于目标领域没有更多辅助信息可以用于进一步筛选,为了减少噪声,实施例只选取了实体提及与实体名字完全一致的样本,通过该方式每个目标领域可以生成上千数量的初始训练样本。
77.在得到通用领域的上千的训练样本之后,通过预训练模型,改写初始训练样本的实体提及,得到更新训练样本来修正通用领域的初始训练样本,得到的更新训练样本更加接近真实样本分布。也就是将与所述实体名称对应的描述文档输入预训练模型进行语义概括,得到所述预训练模型输出的与所述实体名称对应的新实体提及,所述预训练模型是基于通用领域的实体训练样本训练得到的。其中,其中,m表示实体提及,c表示实体提及的上下文,e表示实体名字及其文本描述,(m,c,e)表示训练样本,m为上下文c中的提及,e为m对应的实体,m’为更新后的实体提及。
78.具体的更新训练样本的过程可以是,确定预训练模型;例如,可以是t5预训练模型,t5预训练模型将自然语言理解(natural language understanding,nlu)任务和自然语言生成(natural language generation,nlg)任务都转化成了文本到文本的形式,从而做到了使用统一的模型架构、训练目标、训练流程应对不同的下游任务,如文本翻译、问题回答、情感分类、文档概括等。t5的架构仍然是基于transformer的编码器-解码器结构,其能够无差别训练不同任务的关键在于在原始的输入文本序列前加入了指定任务类别的前缀:如t5会在翻译任务的文本前加上“translate languagea to languageb:”的前缀;在文档概括任务的文本前加上“summarize:”。这样模型就可以根据不同的前缀调整内部的策略,最终输出对应任务的答案。t5在c4(the colossal clean crawled corpus)数据集上进行了预训练,c4是一个经过数据清洗的巨大规模的自然语言语料集,达到750gb。大规模的语料和巨大的参数量使得t5能够学习到丰富的语法和语义知识。本实施例选择t5的原因主要有两点:首先本任务涉及到领域的迁移,不同领域的主题和行文风格可能有很大不同,而t5由于已经在巨大的语料上进行了预训练,因此可以认为内部蕴含着丰富的语义知识,可以很好地应对领域的改变。另外t5性能优越,在多种nlg任务中都能达到先进水平,其擅长的“概括”(summarize)任务恰好适配于本实施例。
79.在确定了预训练模型之后,将与所述实体名称对应的描述文档e输入预训练模型进行语义概括,得到所述预训练模型输出的与所述实体名称对应的新实体提及m’;根据语义概括后的实体提及m’,得到第一预设数量的弱监督数据样本(m’,c,e)。由于预训练模型内部具有丰富的语法和语义知识,其生成的提及m’会更加符合自然文本的分布,同时在语义层面上与实体有很强的联系,因此训练样本的质量更高。
80.而为了更好地保证在目标领域中的应用,在得到弱监督数据样本之后,还包括了基于任务类型,更新所述预训练模型,首先将t5在通用领域的训练样本上进行了微调,通用领域数据可来源于维基百科或其他样本丰富的领域如式(1):
81.m=t5(summarize∶e)
ꢀꢀꢀ
(1)
82.其中,加入了前缀“summarize”使得t5可以明确任务类型,更好地收敛。e代表某一个实体的描述文本,m为通用领域训练样本中真实的实体提及。
83.确定任务类型后,推理预训练模型至目标领域,得到弱监督数据样本,即在通用领域微调的生成模型,可以在目标领域进行推理,也就是将所述弱监督数据样本输入至更新后的预训练模型,得到所述更新后的预训练模型输出的实体提及,如式(2):
84.m’=t5(summarize∶e)
ꢀꢀꢀ
(2)
85.其中,e为目标领域的实体的描述文本,生成的m’将会作为新的实体提及插入到上下文中,从而根据更新后的预训练模型输出的实体提及得到第一预设数量的弱监督数据样本,弱监督数据样本包括实体名称、更新后的预训练模型输出的实体提及和实体提及上下文。
86.进一步的,在上述实施例的基础上,本实施例中对基于所述目标领域的第二预设数量的真实数据样本和元学习规则,调整所述弱监督数据样本的目标训练权重进行解释,如图3所示,可以包括:根据初始权重的所述弱监督数据样本,对神经网络模型进行更新,得到更新后的神经网络模型;根据所述更新后的神经网络模型的损失优化所述更新后的神经网络模型的参数为初始模型参数;基于元学习规则,根据所述初始模型参数对应的神经网
络模型在第二预设数量的真实数据样本上的损失,调整所述初始权重为目标训练权重。
87.本实施例将目标领域的少量真实数据样本{(mi,ci,ei),1≤i≤m}定义为元数据集(meat set),生成的大量的弱监督数据{(m’j
,c’j
,e’j
),1≤j≤n}(m<<n)定义为弱监督数据集(syn set),元学习模块的目标是为每个弱监督数据样本找到一个最佳的权重w
*
,使得用加权后的样本训练出的模型可以在目标领域达到最优。然而由于无法拥有目标领域的全部信息,只有少量的真实样本,因此可以通过观察弱监督数据更新后的模型在真实数据样本上的损失来决定赋予该弱监督数据样本的权重大小,以此来寻找近似解。如图3右半部分所示,整个过程存在两次嵌套的更新:前向更新和后向求导更新,这两次更新的对象是不同的。在假定了弱监督数据样本的初始权重的情况下,第一次更新是用弱监督数据样本更新神经网络模型,第二次更新是根据第一次更新后的模型在真实数据样本上的损失更新初始权重。
88.其中,根据初始权重的所述弱监督数据样本,对神经网络模型进行更新,得到更新后的神经网络模型,然后根据所述更新后的神经网络模型的损失优化所述更新后的神经网络模型的参数为初始模型参数,可以包括:复制神经网络模型的初始参数θ,复制后的参数定义为初始参数θ为神经网络模型根据初始权重的弱监督数据样本确定的;对于第j个弱监督数据样本(m’j
,c’j
,e’j
),定义其损失l’j
(θ),图中所示公式表示j个弱监督数据样本的总损失,则的优化目标为式(3):
[0089][0090]
本方法采用了小批量梯度更新的方式来达到近似的效果,比如在第t步更新后模型的参数为θ
t
,那么对于弱监督数据样本中取出的小批量的n个样本,赋予其初始权重那么更新后的参数为式(4):
[0091][0092]
其中,α为学习率,需要注意的是为了方便解释,可以采用最为基本的小批量梯度下降(mini-batch gradient descent,mbgd)的方式来描述,在实际的训练过程中可以采用不同的优化器,最后根据更新后的神经网络模型的损失优化更新后的神经网络模型的参数为初始模型参数。
[0093]
具体的基于元学习规则,根据所述初始模型参数对应的神经网络模型在第二预设数量的真实数据样本上的损失,调整所述初始权重为目标训练权重,可以包括:将第二预设数量的真实数据样本输入至所述初始模型参数对应的神经网络模型,计算所述初始模型参数对应的神经网络模型的损失,根据所述述初始模型参数对应的神经网络模型的损失,优化所述弱监督数据的初始权重,基于元学习规则,更新所述优化后的初始权重为目标训练权重。即得到伪更新的参数后,便可以通过目标领域少量的第二预设数量的真实数据样本上的损失优化弱监督数据样本的初始权重如式(5):
[0094][0095]
其中,li(θ)是第i个真实样本(mi,ci,ei)上的模型损失。
[0096]
同样,在mbgd的优化下,更新优化后的初始权重为目标训练权重可以是,假设从少量真实数据中取出m个小批量样本,目标训练权重的更新方法为式(6):
[0097][0098]
其中,η为权重更新的学习率。
[0099]
具体的,可以是将小批量内的样本初始权重置零,得到新的中间权重,如式(7):
[0100][0101]
由于求出的导数可正可负,而样本权重为负数没有实际意义,因此将中间权重为负数的弱监督数据样本的中间权重置零,如式(8):
[0102][0103]
同时,为了保持训练过程的稳定,对所有的弱监督数据样本的中间权重进行归一化处理,得到弱监督数据样本的目标训练权重,如式(9):
[0104][0105]
其中,仅在为0时为1,预防小批量内训练样本权重全部为0。
[0106]
在进行加权后的弱监督数据上进行训练,通过元学习得到样本的新权重w
*
之后,模型就可以按照正常的训练过程更新,优化目标如式(10):
[0107][0108]
总的来说,就是一次完整的更新过程是模型首先从弱监督数据样本中取出小批量数据,根据其对少量真实样本的影响对其进行加权,最后用加权后的小批量数据更新模型。这些少量的真实数据样本虽然没有直接参与训练,但是作为正则项监督了训练过程。
[0109]
需要注意的是,实体链接模型一般分为候选实体生成模型和候选实体排序模型两部分,本实施例对这两部分模型都使用了上述元学习方法进行优化。在效果验证过程中由于受到显存的限制,候选实体排序模型的批大小只能为1,即一个batch内只有一个样本,这时权重计算公式退化为式(11):
[0110][0111]
其中,sign为符号函数。
[0112]
实体链接模型metalinker的核心思路是在目标领域产生弱监督数据样本,然后用元学习方法赋予这些数据最优的权重,而不依赖于具体的模型结构,因此metalinker几乎可以用于任何已有的实体链接模型,具体到特定领域实体链接的场景,例如选用了blink模型作为基本的链接模型,其参数对应于上述实施例中元学习模块中的θ。下面对blink的链
接方法进行简要介绍。
[0113]
图4是本实施例提供的blink结构的链接原理示意图,blink是近期提出的具有无样本链接能力的链接结构,图4概括了blink的链接过程:第一阶段使用bi-encoder分别将实体提及tb上下文和知识库中的实体编码为稠密向量(dense space),通过向量距离确定候选实体集合;第二阶段使用cross-encoder,输入为实体提及上下文与实体描述的拼接,输出为匹配程度分数0.8和0.2的实体tc,通过分数比较直接确定0.8对应的实体为最终答案。
[0114]
bi-encoder包含两个独立的transformer结构,对于一个训练样本(m,c,e),其首先将实体提及信息和实体描述信息分别转换为如下字符表示如式(12)和(13):
[0115]
τm=[cls]ctxt
l
[ms]mention[me]ctxtr[sep]
ꢀꢀ
(12)
[0116]
τe=[cls]title[ent]description[sep]
ꢀꢀꢀ
(13)
[0117]
其中,[cls]、[sep]、ms、me为特殊字符,ctxt
l
、ctxtr代表上文和下文字符。
[0118]
接着实体提及和实体的表示被transformer编码为稠密向量并计算点积相似度,如式(14)、(15)和(16):
[0119]
ym=red(transformer(τm))
ꢀꢀꢀ
(14)
[0120]
ye=red(transformer(τe))
ꢀꢀꢀ
(15)
[0121]
sim(m,c,e)=ym*yeꢀꢀꢀ
(16)
[0122]
其中,red表示取出[cls]的隐层编码作为文本的语义表示。
[0123]
损失函数的目标被设定为最大化正确样本的分数,最小化错误样本的分数,如式(17):
[0124][0125]
其中,(mi,ci,ej)代表错误样本,即实体提及与实体不匹配,负采样的策略是将一个batch内除ei外的所有实体作为mi的错误搭配,需要注意的是在推理时,知识库中所有实体的稠密向量可以预先计算并存储,以便快速进行相似度计算。
[0126]
cross-encoder仍然是一个预训练transformer架构,不过这里将实体提及和实体描述的表示拼接起来作为输入,并在顶层增加线性层直接给出匹配分数,如式(18)、(19)和(20):
[0127]
τ
m,e
=[cls]ctxt
l
[ms]mention[me]ctxtr[sep]title[ent]description[sep](18)
[0129]ym,e
=red(transformer(τ
m,e
))
ꢀꢀꢀ
(19)
[0130]
score(m,c,e)=y
m,ewꢀꢀꢀ
(20)
[0131]
由于bi-encoder已经给出了一个提及对应的候选实体集合,因此cross-encoder的优化目标是最大化提及与正确实体的匹配分数,最小化与其他候选实体的匹配分数。
[0132]
总结来说,blink采用了非常简单的相似度计算方式,但是依靠着预训练模型的强大语义编码能力,达到了很好的链接效果。
[0133]
进一步的,目前主流的实体链接模型一般分为两阶段:召回阶段和重排序阶段,本实施例中在利用监督样本进行模型训练,得到实体链接模型之后,还可以包括:通过召回率(recall@k)对实体链接模型的召回阶段进行性能评价;通过归一化准确率(normalized accuracy)对实体链接模型的重排序阶段进行性能评价,保证了模型的精确度。
[0134]
以下通过举例的方式对采用本发明的模型训练方法得到的实体链接模型的效果进行具体说明。
[0135]
使用的数据集是无样本实体链接数据集,在此对该数据集进行简单的说明。该数据集来源于wikia,wikia是一个类似维基百科的由社区共同编辑维护的网站,不同的是wikia中按多种主题分类,如一部动漫或一种游戏。每个主题下的实体都与该主题相关,并且不同领域之间的实体没有交集,从而自然地形成了特定领域的知识库。另外wikia页面同样包含丰富的超链接,因此训练样本可以利用超链接自动构建。该数据集共包含了16个特定领域实体库,其中8个用于训练模型,4个领域作为验证集,剩下4个领域作为测试集。详细信息表1所示。
[0136][0137]
表1,无样本实体链接数据集
[0138]
1、high overlap:实体提及与实体名称完全相同。该类样本只占总数量的5%。
[0139]
2、multiple categories:实体名称在实体提及的基础上多了一个用于细分的短语,如实体提及为batman,对应的实体名称为batman(lego)。此类比例占28%。
[0140]
3、ambiguous substring:实体提及是对应实体名称的一个子串。此类比例占8%。
[0141]
4、low overlap:不符合以上三种类别的样本。占59%。
[0142]
由此可见数据集中相当大比例样本的实体提及与实体名称之间都没有明确的规
律可循,这加大了实体链接的难度。本实施例选取了原数据集中用于测试的4个数据集作为评测基准,并根据小样本实体链接的场景做了调整:将50个样本作为目标领域小样本,另50个作为验证集,剩余样本作为测试集。形成如表2所示的小样本实体链接数据集。
[0143][0144]
表2,小样本实体链接数据集
[0145]
目前主流的实体链接模型一般分为两阶段:召回阶段和重排序阶段。这两个阶段对应的指标分别为召回率(recall@k)和归一化准确率(normalizedaccuracy,简写为n.acc.),二者的乘积为非归一化准确率(unnormalized accuracy,简写为u.acc.)。
[0146]
以blink的模型框架作为主要的对比对象,目前在解决领域无样本问题时首先通过启发式方法产生噪音数据,然后提出了一个噪音检测模块进行训练中的降噪,本实施例将其降噪方法代称为dl4el。dl4el的核心思路是假设数据中噪音数据所占的比例(为超参数),并将假设噪音比例与模型预测噪音比例的kl散度项加入训练损失项如式(21):
[0147][0148]
其中,pn(1|m,c,e)代表该训练样本是噪音样本的概率,由一个前向神经网络决定,第二项损失约束了模型预测出噪音样本的比例不至于过高或过低,与此同时第一项损失代表将噪音数据“过滤”之后的真实样本的损失。
[0149]
本发明所提出的元学习方法同样可以视为一种对弱监督数据的降噪,因此将元学习方法与dl4el进行了对比。需要注意的是,dl4el原文中使用lstm编码的特征作为噪音检测模块的输入,本实施例将其替换为transformer编码的特征,其余超参数基本与原文保持一致。
[0150]
本实施例将基于元学习的小样本实体链接模型称做metalinker,为了与基线进行公平的对比,metalinker中除元学习模块外的超参数均与原始模型相同。以基于blink的metalinker为例,详细的超参数如表3和表4所示。需要注意的是metalinker本实施例在使用元数据集对训练数据加权之后会在元数据集上微调。
[0151][0152]
表3,metalinker召回模型超参数
[0153][0154]
表4,metalinker重排序模型超参数
[0155]
为了验证metalinker框架的有效性,首先在仅有特定领域的少量训练数据场景下测试了metalinker的效果。实验时本实施例针对bi-encoder和cross-encoder都使用了提出的元学习方法进行了优化,并汇报了第一阶段的召回率和第二阶段的归一化准确率。结果如表5和表6所示:
[0156][0157]
表5,lego和yugioh领域上的详细效果
[0158][0159]
表6,forgotten realms和star trek领域上的整体效果
[0160]
其中,meta代表目标领域的少量真实样本,syn代表使用本实施例的弱监督数据模块产生的样本。比较的基线方法有以下几种:
[0161]
name matching,最基本的文本匹配方法:如果实体提及包含于某一实体名称,则认为实体提及链接到该实体,如果有多个实体符合要求,按照知识库中实体顺序选择匹配到的第一个。
[0162]
blink meta,将blink直接在少量样本上微调。blink meta与blink syn meta同理。
[0163]
dl4el,基于概率约束的降噪方法。其中cross-encoder由于批大小为1无法使用dl4el进行批内降噪,可认为其归一化准确率等同于以上基线模型中的最好结果。
[0164]
根据不同方法在测试领域上的表现可以有以下观察:
[0165]
1、由于该数据集在构建时就刻意弱化实体提及与实体名称在文本上的相关性,name matching方法在该数据集上表现极差,这要求实体链接系统必须能够建模实体提及与实体之间语义层面的相关性。
[0166]
2、比较blink分别在少量真实样本meta与大量弱监督数据样本syn上的微调结果可以发现,meta样本数量过少导致bi-encoder难以学到从上万实体中筛选出候选实体的能力,召回率低于大量弱监督数据样本训练下的结果;但是排序模型cross-encoder却对数据质量更加敏感,将少量高质量样本用于训练得到的归一化准确率即可大大超越弱监督数据的效果。这说明本实施例产生的弱监督数据质量参差不齐,其中质量较低的样本对排序准确率影响较大。
[0167]
3、blink syn meta一栏的结果体现了弱监督数据的意义,syn和meta两种数据来源各有数量和质量上的优势,将blink在大量弱监督数据微调后进一步在高质量的meta上微调可以结合两者的优势,使得模型能够稳定收敛的同时充分利用少量样本的信息,相比于仅在少量样本上训练能过获得巨大提升。
[0168]
4、dl4el方法并没有能带来提升,甚至会导致部分结果下降。本实施例认为这是因为一方面弱监督数据通过exact match方法构造,不存在明显的“噪声”。另外dl4el本质是自己学习降噪,缺乏真实样本信号的监督,因此可能导致错误的优化方向。
[0169]
5、相比于直接在质量参差不齐的弱监督数据上进行微调,metalinker采用元学习的方法最大化弱监督信号的价值,在少量高质量样本的监督下,模型会增大对训练更有帮助的样本的权重,降低无帮助样本权重,从而训练出更好的模型。与直接微调相比,
realms领域和star trek领域上模型效果提升较小,只有不到5%,而logeswaran在论文中提到同一个领域下cross-encoder在见到过(seen)和未见到过(unseen)的实体上测试结果都有5%的差距,这说明通用领域已经蕴含了forgotten realms领域和star trek领域的知识,这也决定了模型在这两个领域上的迁移提升空间很小。基于以上观察,本实验在报领域迁移效果时本实施例筛去了forgotten realms和star trek领域,只汇报了lego和yugioh领域的结果。
[0180][0181]
表7,四个测试领域与通用领域之间的gap
[0182]
实验结果分析
[0183]
目标领域元数据集为通过启发式方法得到的syn_meta,而在有通用领域的训练样本时,训练数据的来源既可以是弱监督数据(syn),也可以是通用领域上的数据(general)。首先仍以弱监督数据作为数据源,证明了metalinker在领域迁移时的良好表现,之后同时考虑了通用领域数据,获得了进一步的提升。
[0184]
以弱监督信号为数据源时,数据源为弱监督数据时的实验结果如表8所示。其中blink syn_meta表示blink在目标领域元数据集上微调后的结果,metalinker(syn)表示以syn_meta为元数据集在弱监督数据上训练的结果。根据表中数据可以有以下发现:(1)模型在syn_meta上微调之后已经可以有超过一个百分点的提升,这证明了启发式产生元数据集的有效性。(2)metalinker相比于基线和微调后的模型都取得了进一步提升,说明从模型从弱监督数据中获取到了更多有用的信息。综上,同时利用弱监督数据信息和元数据信息的metalinker能够有效地进行领域迁移,相比于基线能够在归一化准确率指标上获得2.6%的提升。
[0185][0186]
表8,使用弱监督数据训练的领域迁移效果
[0187]
以通用领域为数据源时,通用领域的实体虽然和目标领域的实体没有交集,但是样本的质量比较高,因此本节也尝试了使用通用领域的训练样本作为训练数据来源,如表9所示。同时利用弱监督数据和通用领域数据的实验结果如表10所示,最后一栏为分别尝试两种数据来源并取最好结果。
[0188][0189]
表9,lego和yugioh领域上的迁移效果
[0190][0191]
表10,同时考虑弱监督和通用领域数据的领域迁移效果
[0192]
对比表9和表10中数据可以有以下观察:
[0193]
1、在通用领域的样本辅助下,lego领域效果有了进一步提升,但是yugioh领域仍是以弱监督数据为数据源效果最好。本实施例认为这是因为yugioh领域在语义空间中与通用领域距离相对来说较远,无法提供更为有效的训练信息。
[0194]
2、通过同时考虑弱监督数据和通用领域数据,metalinker相对于基线模型能够有约3%的提升,展示出元学习方法在领域迁移中的有效性。
[0195]
验证生成式弱监督数据的有效性。继续通过设计实验证明metalinker的两个模块:弱监督数据产生模块和元学习模块的有效性。首先比较了模型在启发式exact match方法产生的数据和使用预训练模型改写后的弱监督数据(syn)上的训练效果。
[0196]
如表11为使用相同数目的exact match数据和syn数据对blink进行微调的结果,在lego领域与yugioh领域上的测试结果显示,使用syn数据训练的模型在第一阶段的召回率和第二阶段的归一化准确率上都明显高于exact match数据。本实施例认为这是由于exact match数据中实体提及与实体名称文本形式完全一致这一偏置(bias)导致了模型倾向于直接考虑提及与实体名称的文本相似度,而忽略了深层的语义联系。另外可以观察到syn带来的提升没有预期中的高,本实施例认为这是由于syn中存在一些质量较差的样本影响了模型优化方向,改进产生弱监督数据的方式应该可以带来更大的提升。
[0197][0198]
表11,yugioh领域上弱监督数据的有效性验证元学习方法的有效性。上文已经说明了本实施例使用的元学习方法相比于以往降噪方式(dl4el)的优越性。本节进行了验证
性实验更加直观地显示元学习方法在训练过程中的有效性。
[0199]
图5为本实施例提供的元学习有效性的验证实验的结果示意图,图5中左图显示了元学习机制在少量真实样本监督下对于normal data和bad data的选择比例差距,其中normal data指正常产生的弱监督数据,bad data指将实体提及和实体对应关系打乱后的错误数据。右图展示了模型在元数据集上的损失(loss)随着元数据集按照预设步长(step)的样本数量的增加而不断降低。
[0200]
综合以上两张图可以看出,正如本实施例所假设的,模型依靠元数据集的监督可以区分出数据质量的高低,并对高质量数据给予较大的权重,同时模型在元数据集上的损失也会不断减小,说明模型通过权重加权的弱监督数据学习到了目标领域的知识。
[0201]
本实施例中的实验表明,在特定领域仅有少量真实数据样本的情况下,本实施例的方法相比于基线方法有巨大的提升。同时在额外拥有通用领域训练数据的领域迁移的场景下,本方法同样能够作为一种提高领域迁移能力的途径,在无样本数据集上取得了更好的链接效果。
[0202]
基于同一总的发明构思,本技术还保护一种实体链接装置,下面对本发明提供的实体链接装置进行描述,下文描述的实体链接装置与上文描述的实体链接装置可相互对应参照。
[0203]
图6是本发明实施例提供的实体链接装置的结构示意图。
[0204]
如图6所示,本发明实施例提供的一种实体链接装置,包括:
[0205]
获取模块61,用于获取文本中的待链接实体;
[0206]
大数据模块62,用于将所述待链接实体输入至实体链接模型,获取所述实体链接模型输出的所述待链接实体与知识库中各实体的匹配分值;其中,所述实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,所述真实数据样本用于通过元学习规则调整所述弱监督数据样本的权重为目标训练权重,所述弱监督数据样本和所述真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;
[0207]
匹配模块63,用于将所述待链接实体链接至所述知识库中所述匹配分值最高的实体。
[0208]
本实施例提供的一种实体链接装置,通过获取文本中的待链接实体;将待链接实体输入至实体链接模型,获取实体链接模型输出的待链接实体与知识库中各实体的匹配分值;其中,实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,真实数据样本用于通过元学习规则调整弱监督数据样本的权重为目标训练权重,弱监督数据样本和真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;将待链接实体链接至知识库中匹配分值最高的实体,由于结合元学习的方法基于第二预设数量即少量的人工标注的真实数据样本对弱监督数据进行权重调整,能够通过少量的真实数据样本提高实体链接模型的精确度,更准确的实现了实体链接。
[0209]
进一步的,本实施例中的大数据模块62,包括:
[0210]
弱监督数据生成单元,用于获取目标领域的第一预设数量的弱监督数据样本;
[0211]
基于元学习的训练单元,用于基于所述目标领域的第二预设数量的真实数据样本
和元学习规则,调整所述弱监督数据样本的权重为目标训练权重;以所述目标训练权重对应的弱监督数据样本作为训练样本进行神经网络模型训练,得到实体链接模型。
[0212]
进一步的,本实施例中的弱监督数据生成单元,具体用于:
[0213]
在目标领域对应的知识库中获取第一预设数量的初始训练样本,所述初始训练样本包括实体名称、实体提及和实体提及的上下文;
[0214]
将与所述实体名称对应的描述文档输入预训练模型进行语义概括,得到所述预训练模型输出的与所述实体名称对应的新实体提及,所述预训练模型是基于通用领域的实体训练样本训练得到的;
[0215]
将所述新实体提及替换掉所述初始训练样本中的实体提及,得到第一预设数量的弱监督数据样本。
[0216]
进一步的,本实施例中的弱监督数据生成单元,具体还用于:
[0217]
基于任务类型,更新所述预训练模型;
[0218]
将所述弱监督数据样本输入至更新后的预训练模型,得到所述更新后的预训练模型输出的实体提及;
[0219]
根据所述更新后的预训练模型输出的实体提及得到第一预设数量的弱监督数据样本,所述弱监督数据样本包括实体名称、更新后的预训练模型输出的实体提及和实体提及上下文。
[0220]
进一步的,本实施例中的弱监督数据生成单元,具体还用于:
[0221]
识别目标领域对应的知识库中的每篇描述文档的实体提及;
[0222]
将所述实体提及链接至与所述知识库中实体名称一致的实体,得到第一预设数量的初始训练样本,所述初始训练样本为实体提及与实体名称一致的样本。
[0223]
进一步的,本实施例中的基于元学习的训练单元,具体用于:
[0224]
根据初始权重的所述弱监督数据样本,对神经网络模型进行更新,得到更新后的神经网络模型;
[0225]
根据所述更新后的神经网络模型的损失优化所述更新后的神经网络模型的参数为初始模型参数;
[0226]
基于元学习规则,根据所述初始模型参数对应的神经网络模型在第二预设数量的真实数据样本上的损失,调整所述初始权重为目标训练权重。
[0227]
进一步的,本实施例中的基于元学习的训练单元,具体还用于:
[0228]
将第二预设数量的真实数据样本输入至所述初始模型参数对应的神经网络模型,计算所述初始模型参数对应的神经网络模型的损失;
[0229]
根据所述述初始模型参数对应的神经网络模型的损失,优化所述弱监督数据的初始权重;
[0230]
基于元学习规则,更新所述优化后的初始权重为目标训练权重。
[0231]
进一步的,本实施例中还包括评价模块,用于:
[0232]
通过召回率对所述实体链接模型的召回阶段进行性能评价;
[0233]
通过归一化准确率对所述实体链接模型的重排序阶段进行性能评价。
[0234]
基于同一总的发明构思,本实施例还提供的一种实体链接模型训练方法,包括以下步骤:
[0235]
获取目标领域的第一预设数量的弱监督数据样本;
[0236]
基于所述目标领域的第二预设数量的真实数据样本和元学习规则,调整所述弱监督数据样本的目标训练权重,所述弱监督数据样本和所述真实数据样本均包括实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;
[0237]
以所述目标训练权重调整后的弱监督数据样本作为训练样本进行神经网络模型训练,得到实体链接模型。
[0238]
图7是本发明实施例提供的电子设备的结构示意图。
[0239]
如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行实体链接方法,该方法包括:获取文本中的待链接实体;将所述待链接实体输入至实体链接模型,获取所述实体链接模型输出的所述待链接实体与知识库中各实体的匹配分值;其中,所述实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,所述真实数据样本用于通过元学习规则调整所述弱监督数据样本的权重为目标训练权重,所述弱监督数据样本和所述真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;将所述待链接实体链接至所述知识库中所述匹配分值最高的实体。
[0240]
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0241]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的实体链接方法,该方法包括:获取文本中的待链接实体;将所述待链接实体输入至实体链接模型,获取所述实体链接模型输出的所述待链接实体与知识库中各实体的匹配分值;其中,所述实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,所述真实数据样本用于通过元学习规则调整所述弱监督数据样本的权重为目标训练权重,所述弱监督数据样本和所述真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;将所述待链接实体链接至所述知识库中所述匹配分值最高的实体。
[0242]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的实体链接方法,该方法包括:获取文本中的待链接实体;将所述待链接实体输入至实体链接模型,获取所述实体链接
模型输出的所述待链接实体与知识库中各实体的匹配分值;其中,所述实体链接模型是基于第一预设数量的弱监督数据样本、第二预设数量的真实数据样本和预先确定的实体标签训练后得到的,所述真实数据样本用于通过元学习规则调整所述弱监督数据样本的权重为目标训练权重,所述弱监督数据样本和所述真实数据样本均包括目标领域的实体名称样本、实体提及样本和实体提及的上下文样本,第一预设数量大于第二预设数量;将所述待链接实体链接至所述知识库中所述匹配分值最高的实体。
[0243]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0244]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0245]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献