一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

联合字符感知和句子感知的小样本实体识别方法与模型

2022-06-01 06:35:58 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,尤其指一种联合字符感知和句子感知的 小样本实体识别方法与模型。


背景技术:

2.在自然语言学习中,命名实体识别是信息抽取中一项重要任务,旨在识别文 本中表示实体的成分并分类。在通用语料库中,命名实体识别任务已经获得了相 当高质量的解决方法。但是在实际应用中,丰富的语料库是不常见的,经常会出 现资源不足的情况,例如数据标注缺少,语料中某一类别实体数量较少不足以通 过训练获得准确实体类别等。为了解决上述问题,小样本学习(few-shot learning, fsl)技术被提出并得到迅速的推广,小样本学习不仅可以减小标注数据的负担, 而且使得模型能够在不需要从头训练的情况下,快速推广到新的任务中(通常每 个类别只给予1个或5个参照样本)。小样本学习在许多领域中取得了显著性的 进展,例如在计算机视觉领域以及自然语言处理领域的关系抽取中,小样本学习 都受到了广泛的研究并取得突破。
3.在过去,命名实体识别只在大样本场景下和有限的实体类别(人名、地名、 组织机构名)中取得不错的结果,与其它信息检索任务相比,在数据较少的情况 下,更容易产生过拟合。为了缓解这个弊端,小样本学习模型被用于命名实体识 别(named entity recognition,ner)任务中,原型网络(prototypical network) 是其中一个简单且高效的模型。原型网络对于小样本命名的基本思想是学习每个 预定义类别的原型表示,然后根据距离最近的原型对样本进行分类。大多数现有 的小样本实体识别模型,主要关注隐藏在实体空间中的海量语义信息。例如,在 以往的实体识别中,属于非预定义类别的实体通常都被归为同一种类别(otherclass,o-class),为了进一步学习原型表示,(tong et al.2021)利用聚类的方法 对预定义类别之外的实体类别(other-class)进行了更细的划分。然而,他们忽 略了包含多个实体类别的句子的丰富语义,同时这些方法均在粗粒度的实体分类 或对话任务的槽填充上进行,对于小样本实体识别来说,效率相对低下。因此, 可以说现有的原型方法仅仅粗略的考虑support set与queryset中实体之间的相似 性,而忽略了包含这些实体的句子之间的语义相关性。


技术实现要素:

4.本发明所要解决的技术问题是提供一种联合字符感知和句子感知的小样本 实体识别方法与模型,该方法利用句子之间的相关性和字符之间的相关性来改善 模型在小样本实体识别任务上的性能,提高模型的鲁棒性和精度。
5.为了解决上述技术问题,本发明采用如下技术方法:一种基于原型网络的小 样本实体识别方法,其特征在于,包括如下步骤:
6.s1、通过一个具有学习参数θ的嵌入函数f
θ
(),将支持集和查询集中的每一 个字符编码成一个连续的d维嵌入向量;
7.xi=f
θ
(xi),xi∈rdꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
8.s2、构建捕捉小样本中支持集与查询集句子间相关性的句子感知模型或捕捉 小样本中支持集与查询集字符间相关性的字符感知模型,原型网络根据支持集中 的样例以及句子感知模型得到的支持集与查询集句子间的相关性或字符感知模 型得到的支持集与查询集字符间的相关性,得到所有实体类别的原型;
9.s3、计算查询实体与每个类别原型之间的距离;
10.s4、根据步骤s3得到的距离确定查询实体的类别分布。
11.进一步地,步骤s2中,所述句子感知模型采用如下方法获得支持集与查询 集句子间的相关性:
12.先使用一维卷积神经网络提取查询集中每个句子sq的特征,并将其编码成一 个连续低维的句向量hq;
13.hq=conv(sq《q1,.....,qn》)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
14.再使用一维卷积神经网络提取支持集中每个句子s
l
的特征,并将其编码成一 个连续低维的句向量
[0015][0016]
最后通过如下方式计算句子之间的相关性α
l

[0017][0018]
步骤s2中,原型网络根据支持集中的样例以及支持集与查询集句子间的相 关性所得到所有实体类别的原型为:
[0019][0020]
式中,|ci|是属于实体类别ci的字符数量;
[0021]
步骤s3中,查询实体与每个类别原型之间的距离为:
[0022][0023]
步骤s4中,采用如下式确定查询实体的类别分布。
[0024][0025]
或者,步骤s2中,所述字符感知模型采用如下式获得小样本中支持集与查 询集字符间的相关性;
[0026][0027]
式中,βj表示查询实体q与ci类中的xj实体之间的相关系数;
[0028]
步骤s2中,原型网络根据支持集中的样例以及支持集与查询集句子间的相 关性所得到所有实体类别的原型为:
[0029][0030]
式中,|ci|是属于实体类别ci的字符数量;
[0031]
步骤s3中,查询实体与每个类别原型之间的距离为:
[0032][0033]
步骤s4中,采用如下式确定查询实体的类别分布。
[0034][0035]
优选地,在构建句子感知模型或字符感知模型时,通过如下式最小化句子感 知模型或字符感知模型的交叉熵损失函数;
[0036][0037]
式中,g
θ
为句子感知模型或字符感知模型;λ为权重衰减参数;l为 成本函数,用于计算真值标签和预测标签之间的交叉熵。
[0038]
作为本发明的另一面,一种联合字符感知和句子感知的小样本实体识别方法, 包括如下步骤:
[0039]
s1、采用如权利要求2中的方法得到小样本中查询实体的类别分布;
[0040]
s2、采用如权利要求3中的方法得到小样本中查询实体的类别分布;
[0041]
s3、结合步骤s1和s2中得到的类别分布得到小样本查询实体最终的类别 分布。
[0042]
进一步地,步骤s3中,通过下式结合步骤s1和s2中得到的类别分布得到 小样本查询实体最终的类别分布;
[0043][0044]
式中,δ是表示句子感知模型可信度的超参数,γ是表示字符感知模型可信 度的超参数。
[0045]
再进一步地,所述联合字符感知和句子感知的小样本实体识别方法还包括步 骤s4:在步骤s3中得到类别分布后,使用维特比解码器获取相邻实体标签之间 的转移规则,并通过转移分布g(y

,y)来修正类别分布。
[0046][0047]
作为本发明的另一面,一种基于原型网络的小样本实体识别模型,包括原型 网络,还包括前述句子感知模型。
[0048]
或者,一种基于原型网络的小样本实体识别模型,包括原型网络,还包括前 述字符感知模型。
[0049]
作为本发明的另一面,联合字符感知和句子感知的小样本实体识别模型,包 括原型网络,还包括前述句子感知模型和字符感知模型。
[0050]
为了解决传统少样本实体识别方法会受到语义相近信息干扰,导致偏差并难 以精准捕捉类别的问题,本发明提出了一种新的模型,联合字符感知和句子感知 进行小样本命名实体识别,句子感知用来探索句子之间的语义相关性,字符感知 用于探索字符之间的相关性,利用句子之间的相关性和字符之间的相关性可改善 模型在小样本实体识别任务上的性能,而利用字符和句子感知各自的优势来提升 模型的鲁棒性和精度。实验结果表明,在两个最新的小样本命名实体识别数据集 上,本发明提供的模型性能都优于现有最先进的模型。
附图说明
[0051]
图1为本发明所涉联合字符感知和句子感知的小样本实体识别模型jsta的架构图;
[0052]
图2为本发明所涉字符感知模型sap在训练过程中f1值在验证集和训练集上的变化图;
[0053]
图3为本发明所涉句子感知模型tap在训练过程中f1值在验证集和训练集上的变化图;
[0054]
图4为本发明实施方式中sap、tap和jtsa分别从句子中预测实体“jakartastockexchange”的类标图;
[0055]
图5为本发明实施方式中sap、tap和jtsa分别从句子中预测实体“republicofthephilippinescommissiononelections”的类标图;
[0056]
图6为本发明实施方式中protonet、struct、sap、tap、jsta的错误指标对比图。
具体实施方式
[0057]
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
[0058]
前面背景技术有提及,在当前众多的小样本模型中,原型网络对于小样本命名实体识别来说,是一种很有效的模型,但它忽略了包含多个实体类别的句子的丰富语义,同时这些方法均在粗粒度的实体分类或对话任务的槽填充上进行,对于小样本实体识别来说,效率相对低下。句子层面的语义信息对小样本实体识别的帮助可以被归因于以下两个方面:(1)实体关系,大量的句子包含两个及以上的实体,某种程度上,句子体现了两个实体之间的关系,尽管这种关系在实体识别任务中不需要识别和分类。但是句子中的实体关系可以用来改善小样本实体识别中的类别原型。(2)o-class正面与负面的影响。句子级别的语义可以用other-class(o-class)中的丰富语义来学习实体原型。句子语义嵌入在句子级表示中,专注于句子中的上下文信息,而不受其他类标签的影响。句子嵌入可以表示每个预定义的实体类。这种方法可以处理o-class的噪声问题。
[0059]
为了解决上述问题,本发明人基于原型网络提出了一种新的模型,联合字符感知和句子感知的小样本实体识别模型(jsta)。字符感知考虑实体之间的相关性(实体由字符组成),然后在字符感知的基础上设计了句子感知模块,从句子中学习语义信息,关注包含实体的语句之间的相关性。通过着两种相关信息辅助实体识别并改善模型在小样本场景下的实体识别能力。事实上,句子往往包含着丰富的实体语义,可以为发现每个实体类的最佳原型提供丰富的知识。为了进一步改善小样本实体识别,还可以联合分别带有字符感知的模型(sap)和句子感知的模型(tap)进行分类,这样可以更好的学习到句子中的实体原型。作为最终模型jsta联合了字符感知和句子感知,实现了字符和句子之间的深度交互,能够吸收它们各自有用的语义信息,该模型通过句子级(sentence-level)原型来校准字符级(token-level)原型,可以有效的缓解o-class类别实体带来的噪声,改善小样本实体识别。下面详细介绍本发明。
[0060]
实施例1
[0061]
一种基于原型网络的小样本实体识别方法,包括如下步骤:
[0062]
s1、通过一个具有学习参数θ的嵌入函数f
θ
(),将支持集和查询集中的每一 个字符编码成一个连续的d维嵌入向量;
[0063]
xi=f
θ
(xi),xi∈rdꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0064]
s2、获取所有实体类别的原型;
[0065]
s21、构建句子感知模型tap,使用该句子感知模型tap获得支持集与查询 集句子间的相关性:先使用一维卷积神经网络提取查询集中每个句子sq的特征, 并将其编码成一个连续低维的句向量hq,其中作为提取支持集与查询集特征的编 码器是共享参数的;
[0066]hq
=conv(sq《q1,.....,qn》)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0067]
再使用一维卷积神经网络提取支持集中每个句子s
l
的特征,并将其编码成一 个连续低维的句向量
[0068][0069]
最后通过如下方式计算句子之间的相关性α
l

[0070][0071]
s22、原型网络根据支持集中的样例以及句子感知模型tap得到的支持集与 查询集句子间的相关性,得到所有实体类别的原型;在句子感知中,类别原型被 重新定义如下,它能够把更多的注意力给查询语句sq和支持集语句s
l
之间的关联 信息;
[0072][0073]
式中,|ci|是属于实体类别ci的字符数量;
[0074]
s3、利用相似性度量函数计算查询实体与每个类别原型之间的距离;
[0075][0076]
s4、采用如下公式确定查询实体的类别分布。
[0077][0078]
在小样本实体识别中,o_class是一种特殊的查询实体,它包含了所有不属 于预定义类别的实体,这些实体之间存在巨大的差异,这给实体识别带来了很大 的挑战,该实施例1利用句子语义来缓解了这个问题。
[0079]
实施例2
[0080]
一种基于原型网络的小样本实体识别模型,包括前述实施例1中的原型网络 和句子感知模型tap。
[0081]
值得一提的是,本发明的模型是基于原型网络进行改进的,因为原型网络是 一个简单且高效的小样本学习方法。对于小样本实体识别任务,原型网络假设对 于每个实体类别都有一个能够代表该类别的原型,每个实体都聚集在它们所属的 类原型周围。因此,原型网络的主要目的是为每个实体类别计算一个原型表示。 原型网络通过三个步骤预测查询实体q的类别标签。首先,原型网络根据支持集 中的样例得到所有实体类别的原型p={p1,p2,
……
,pn}。其次,分别计算查询实 体q与所有类别原型之间的距离。最后,将查询实体分类到最近的类别中。具体 而言:
[0082]
第一步,通过一个具有可学习参数θ的嵌入函数f
θ
(),将支持集和查询集中 的每一个字符编码成一个连续的d维嵌入向量;
[0083]
xi=f
θ
(xi),xi∈rdꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0084]
在原型网络中,采用预训练语言模型bert作为编码器f
θ
,然后按照如下的 方式计算每个类的原型:
[0085][0086]
式中,|ci|是属于实体类别ci的字符数量。
[0087]
第二步,利用相似性度量函数计算查询实体q与每个类别原型pi之间的距离。
[0088]
d(f
θ
(xq),pi)=(f
θ
(xq)-pi)2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0089]
第三步,我们通过以下等式得到查询实体q的类别分布;
[0090][0091]
式中,|c|表示类别集合c中的类别数,此外,在元测试期间,增加维特比 解码器来获取相邻实体标签之间的转移规则,然后通过转移分布g(y

,y)来修正 类别分布。
[0092][0093]
传统的原型网络通过平均每个实体类别的所有词嵌入来得到类原型。然而, 在实际中,由于句子语义关系的不同,每个句子中的实体对于预测查询实体标签 的贡献是不同的。句子感知模型tap依赖于支持集句子和查询集句子之间的相 似性。当对句子sq中的查询实体q进行预测的时候,句子感知模型tap会从支持 集中捕捉与sq相似的句子,这些句子中的实体与查询实体q具有更高的相关性。 因此,为了获取到更好的实体类别原型,本发明在原型网络的基础上设计实施例 1和实施例2中的句子感知模型tap,以得到一个任务自适应的类别原型。
[0094]
实施例3
[0095]
一种基于原型网络的小样本实体识别方法,包括如下步骤:
[0096]
s1、通过一个具有学习参数θ的嵌入函数f
θ
(),将支持集和查询集中的每一 个字符编码成一个连续的d维嵌入向量;
[0097]
xi=f
θ
(xi),xi∈rdꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0098]
s2、获取所有实体类别的原型;
[0099]
s21、构建字符感知模型sap,使用该字符感知模型sap获得支持集与查询 集字符间的相关性:
[0100][0101]
式中,βj表示查询实体q与ci类中的xj实体之间的相关系数;
[0102]
s22、原型网络根据支持集中的样例以及支持集与查询集字符间的相关性所 得到所有实体类别的原型为:
[0103]
[0104]
式中,|ci|是属于实体类别ci的字符数量;
[0105]
s3、利用相似性度量函数计算查询实体与每个类别原型之间的距离;
[0106][0107]
s4、采用如下公式确定查询实体的类别分布。
[0108][0109]
实施例4
[0110]
一种基于原型网络的小样本实体识别模型,包括前述实施例3中的原型网络 和字符感知模型sap。
[0111]
对于原型网络,详见前述实施例2中的内容,基于该原型网络,为了获取到 更好的实体类别原型,本发明在原型网络的基础上设计实施例3和实施例4中的 句子感知模型tap,它可以让整个模型更关注支持集中与查询实体相关性更大、 相似性特征更多的实体。
[0112]
对于上述实施例1-4采用句子感知模型sap和字符感知模型tap,优化目 标是使交叉熵损失函数最小化,如下式:
[0113][0114]
式中,g
θ
为sap或tap;λ为权重衰减参数;l为成本函数,用于 计算真值标签和预测标签之间的交叉熵。
[0115]
实施例5
[0116]
在小样本学习中,不同的小样本任务设定和实体粒度对模型有不同的要求。 实际中,在预测细粒度的实体类别并且支持集提供的示例样本极少时,更加注重 句子之间相关性的句子感知具有更好的效果。字符感知模型则侧重于实体之间的 信息共享,在预测粗粒度的实体类别并且支持集提供的样本较多的情况下能起到 很大的帮助。因此,为了更好地协调这两个模块,使我们的模型在各种场景下都 能取得良好的性能,我们探索了一种简单且经过验证的方法,联合两个模型后组 成jtsa模型,具体如下。
[0117]
一种联合字符感知和句子感知的小样本实体识别方法,包括如下步骤:
[0118]
s1、采用前述实施例1中的方法得到小样本中查询实体的类别分布;
[0119]
s2、采用前述实施例3中的方法得到小样本中查询实体的类别分布;
[0120]
s3、通过下式结合步骤s1和s2中得到的类别分布得到小样本查询实体最 终的类别分布;
[0121][0122]
式中,δ是表示sap可信度的超参数,γ是表示tap可信度的超参数,该两 个超参数根据验证结果获得。
[0123]
对于最终的预测结果本发明最好是使用维特比编码器进行修正:获取相邻实 体标签之间的转移规则,并通过转移分布g(y

,y)来修正类别分布。
[0124][0125]
实施例6
[0126]
一种联合字符感知和句子感知的小样本实体识别模型,包括前述实施例5 中的原
型网络、句子感知模型sap和字符感知模型tap。
[0127]
对于原型网络、句子感知模型sap、字符感知模型tap,前述实施例1-4还 有更详细的描述,可参考如上。
[0128]
为了证明本发明所涉字符感知模型tap、句子感知模型sap以及联合字符 感知和句子感知模型jtsa的有效性和优越性。接下来通过详细的实验进行说明。 首先,此处给出了模型中使用的超参数和数据集。然后,在不同粒度的数据集上 对本发明的模型进行评价,并与现有的先进模型进行了比较。最后,进行消融实 验,分别研究了句子感知模型、字符感知模型和联合字符感知和句子感知模型的 有效性。
[0129]
实验
[0130]
1、数据集
[0131]
对于n-way k-shot的小样本实体识别任务设定,本实验一在两个开放的数 据集few-nerd(intra)和few-nerd(inter)上评估本发明的模型。如下表1 所示,few-nerd是一个基于维基百科标注的大规模实体识别数据集,它包含 188200个句子,4601223个字符和491711个实体。所有实体被分成8种粗粒度 的类别和66种细粒度的类别。删除不含实体的句子后,根据实体类型粒度的粗 细,数据集可以被分成两个基准few-nerd(intra)和few-nerd(inter)。 few-nerd(intra)是一个粗粒度数据集。它的训练集由四种粗粒度的实体类型 组成:people、misc、art、product,并且拥有属于这四种类型的所有细粒度类型。 然后,“event”和“building”被分配给验证集,而“org”和“loc”在测试集中。 few-nerd(inter)共享所有的粗粒度实体类型,但是将每个粗粒度类型下所 属的细粒度类型的60%分配给训练集、20%分配给验证集、20%分配测试集。
[0132]
表1:数据集
[0133][0134]
2、实验设置
[0135]
实验中分别在5-way 1-shoy、5-way 5-shot、10-way 1-shot、10-way 5-shot四 种小样本任务下评估我们的jtsa。模型的超参数如下表所示,实验采用预训练 语言模型bert来提取模型的初始词嵌入表示,训练的批处理大小为2,查询实体 的数量为1。训练迭代10000次,验证迭代1000次,测试迭代500次。使用adamw 作为优化器,学习率设置为1e-4。
[0136]
表2:超参数设置
[0137]
[0138][0139]
3、整体性能
[0140]
基于两个基准数据集few-nerd(inter)和few-nerd(intra)从不同角 度评估本发明提出的字符感知模型tap、句子感知模型sap以及联合字符感知 和句子感知模型jtsa,并将本发明所涉方法与现有的最先进的方法进行比较。
[0141]
对于细粒度的few-nerd(inter),首先采用sap和tap。如表3所示, 与现有的最先进的模型相比,sap在1-shot任务上实现了更高的性能。在5-way 1-shot任务中,相比于最好的基线模型,sap的f1值提高了5.78%,并且在10-way 1-shot任务中,也提高了4%左右。这充分说明了在支持集提供的参照样本极少 的情况下,句子感知通过整合语句的结构信息来帮助识别实体类型的有效性。在 支持集样本较多的情况下(5-shot),本发明提出的字符感知模型tap具有更大 的优势,获得了更高的f1值。由于实体识别任务的特殊性,当实体不属于预定 义的类型时,都被视为other-class类,这不可避免的会引入大量的无用样本。本 发明的字符感知专门为此而设计,利用实体之间的相关性过滤掉可能对实体识别 产生干扰的样本。
[0142]
表3:模型few-nerd(inter)上的性能比较
[0143][0144][0145][0146]
对于粗粒度的few-nerd(intra),表4中报告的经验结果表明,该数据集 对所有现
有模型都具有挑战性,因为查询样本与支持集中的参照样本共享的信息 很少。然而,在各种小样本任务设定中,tap的性能也具有较大的提升。因为查 询实体和支持集中的实体之间存在巨大的差距,而字符感知可以过滤掉支持集中 与查询实体相关性小的参照样本。
[0147]
表4:模型few-nerd(intra)上的性能比较
[0148][0149][0150]
为了综合利用实体和句子之间的关联信息,本发明构建了联合字符感知和句 子感知模型jtsa。字符感知模型和句子感知模型相互补充,发挥各自在不同场 景下的优势。从表3和表4可以看出,jsta在各种小样本任务设定下都有较好 的表现,不仅在1-shot上超过了表现最好的基线structshot并且在5-shot上也超 过了表现最好的基线prototypical network。
[0151]
4、收敛速度
[0152]
首先,实验中采用few-nerd(inter)数据集,在5-way 1-shot的小样本任 务下,比较sap与现有最先进的模型structshot和prototypical network的收敛速 度。如图2所示,带圆点曲线表示本发明所涉sap,带方形点曲线是structshot 模型,带三角形点曲线是prototypical network。图2中左图和右图分别显示了模 型在验证过程和训练过程的f1值变化。如图2所示,sap只需要一半的时间就 能到达最优点,与structshot模型相比性能提高了约15%。
[0153]
其次,实验中还将tap与两种基线方法在5-shot任务上进行了比较,如图3 所示。虽然最初的收敛速度几乎相同,但本发明所涉tap在验证集上有更好的 性能,这表明本发明所涉模型具有很强的泛化能力。在后半段时间内,tap的收 敛速度更快,最优点也更高,并且超过了原型网络。
[0154]
5、消融研究
[0155]
为了进一步说明本发明所涉联合字符感知和句子感知模型的效果,本实验随 机抽取了两组数据,并在5-way 1-shot任务上评估本发明模型。图4表明了,字 符感知模型tap是如何修正带有句子感知模型sap预测出的错误结果。在图中, 我们分别展示了sap、
tap、jtsa识别“stock”实体在预定义类别上的概率分布。 实体“stock”出现在句子“it began focusing on foreign exchangetransaction in 1976and listed its shares on the jakarta stockexchange in 1989”中。实体“stock”的真实标 签是“organization-government/governmentagency”(g),但是sap认为该实体有 55%的可能性是“building-hospital”(h)类型。在这种情况下,我们的jsta利用 字符感知模型tap修正该结果,认为该实体有80%的可能性属于“g”标签,并且 在类别分布在占比最大。图5,展示了句子感知模型sap在预测“the”时的修正 过程。字符“the”出现在实体短语“republic of the philippines commission onelections(comelec)”中。由此可以发现字符感知模型tap对于“the”是属于
ꢀ“
other-class”还是“event-election”存在争议,因为模型认为属于这两种类别的概率 相差无几。先比之下,sap对于“the”属于“event-election”具有很大的信心,认为 有67%的可能性,在所有类别中占比最大。jsta综合考虑后,得出正确的分类 结果。综上所述,有理由认为jtsa即联合字符感知和句子感知模型是有意义的, 在各种场景下都能取得最佳的学习效果。
[0156]
6、错误指标分析
[0157]
本实验从四个方面分析本发明所涉模型,图6展示本发明提出的模型与基线 之间的比较结果,图中,fp错误表示o类别实体被错误预测成其它实体类别; fn错误表示其它类别的实体被错误预测成o类别;“within”错误表示实体被错 误分类为同一粗粒度类型中的另一种类型;而“outer”错误表示实体被错误分类 为另一种不同粗粒度类型中的另一种类型。本发明所有的模型sap、tap、jsta 在大多数情况下(“fp”,“within”,和“outer”)的错误率都低于基线,例如,
ꢀ“
fp”的错误率比传统的原型网络减少了50%,这个实验结果充分说明了字符感知 和句子感知能有效地识别“other-class”类实体,缓解“other-class”类别歧义导致的 相似度比较问题。另一方面,我们的模型对“within”和“outer”的错误率也 是最低的,相比于基线分别降低了10%-24%和30%-40%,这说明了,我们的字 符感知和句子感知在预定义类别的识别上也是更加优越的,特别是在语义差异更 显著的粗粒度类型上。此外,本发明提供的jsta与tap、sap相比,在“fp”,
ꢀ“
within”,和“outer”上又有所降低,进一步说明了本发明联合模型的重要 性。
[0158]
上述实施例为本发明较佳的实现方案,除此之外,本发明还可以其它方式现 实,在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范 围之内。
[0159]
为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之 处,本发明的一些附图和描述已经被简化,并且为了清楚起见,本技术文件还省 略了一些其他元素,本领域普通技术人员应该意识到这些省略的元素也可构成本 发明的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献