基于预训练模型与决策树的增量式论文同名作者消歧方法

2022-11-14 00:43:05 来源：中国专利 TAG：

1.本发明涉及神经网络与作者同名消歧相关领域，尤其是基于预训练模型与决策树的增量式论文同名作者消歧方法。

背景技术：

2.随着信息技术的发展，信息的规模、存储方式、获取方式等都出现了较大的变化，各种学术搜索引擎例如知网、aminer、dblp、微软学术搜索、谷歌学术、pubmed等也随之出现。这些搜索引擎也成了学者获取各种论文信息的主要途径。当然，在使用搜索引擎时并不只是使用关键字进行搜索，还会使用作者的名称进行搜索。但是由于近年来各类学科的发展和研究者的增多，各种搜索引擎的数据库中的数据量也随之增多，同名作者数量也随之出现大量增长的情况。为了解决这些问题，对于作者同名消歧的研究也随之出现。
3.作者同名消歧属于实体消歧的一种研究领域，最初同名消歧研究的重点主要是根据数据库中已有的文献进行冷启动消歧，又称批处理消歧。这种方法需要对数据库已有的全部文献进行同名消歧处理，但该方法计算量大，时间复杂度高，人工纠错后的数据难以在消歧系统更新后保存。在现实中，每天都有大量的不同文献被加入到数据库中，再使用这样的消歧算法会导致消歧算法的时效性变得很差。同时，如果每次都在新文献加入到数据库中之后都使用消歧算法重新计算一次，那么服务器的负担也会变得巨大无比。因此，对增量消歧算法的研究有着重要的研究意义。
4.增量消歧就是在已有的消歧结果基础上，对每一条新增的数据进行单独的处理，而不是在新增数据后对整个数据库重新进行消歧处理，新增数据的处理结果有两种，一种是分配给已有的作者，另一种是创建一名新的作者。相较于冷启动消歧而言，增量消歧具有避免对数据库频繁进行整体重新消歧操作，从而降低了算法的时间复杂度以及服务器的负担。虽然增量消歧有众多优点，但也不可避免的存在着缺点，那就是增量消歧需要一个规模较大且精准的已完成消歧的数据集上。
5.总而言之，作者同名消歧是一个具有挑战性且工作量较大的数据管理任务。消除作者同名造成的歧义问题可以使搜索引擎的搜索结果更加准确，而搜索结果的准确性又会影响到知识图谱的构建以及个性化服务。因此，研究相关的算法来解决作者同名歧义问题有着巨大的研究价值。

技术实现要素：

6.本发明需要解决的技术问题是提供基于预训练模型与决策树的增量式论文同名作者消歧方法，针对论文信息利用不够充分的问题，从增量消歧和充分利用论文信息两个方向出发，以充分利用信息、关注新增论文为目的。
7.为解决上述技术问题，本发明所采用的技术方案是：
8.一种基于预训练模型与决策树的增量式论文同名作者消歧方法，包括以下步骤：
9.s1，构建数据集，对作者名称、候选集id、论文id、论文信息进行数据预处理；
10.s2，使用人工定义规则的方式提取不含语义信息字段的第一特征，使用xlnet预训练模型提取含有语义信息字段的第二特征，将第一特征和第二特征合并到一起得到所需特征向量；
11.s3，将s2中得到的特征向量输入到xgboost中获取待分配论文属于该候选集的概率，并据此判断是否将待分配论文分配给该候选集；
12.s4、构建基于凝聚式层次聚类的增量消岐后处理框架，对增量s3中未能分配出去的论文进行后处理操作。
13.本发明技术方案的进一步改进在于：所述第一特征至少包括作者名称、机构，所述第二特征至少包括论文标题、摘要。
14.本发明技术方案的进一步改进在于：s2具体包括：
15.2.1，比较待分配论文与候选集中所有论文之间的作者信息，各值表示如下：
16.counta：同名作者的数量，每次出现同名作者时都会令该值 1，当一个作者名重复出现时同样会对该值进行 1操作；
17.count
oa
：同名且同组织作者的数量，每次出现同名且同组织作者时都会令该值 1，当一个同名且同组织作者重复出现时同样会对该值进行 1操作；
18.ra：同名作者数量与候选集中论文数量的比值，即
19.r
oa
：同名且同组织作者与候选集中论文数量的比值，即
20.count
ca
：共同作者的数量，每次出现共同作者时都会令该值 1，当一个作者重复出现时，不再对该值进行操作；
21.r
ca
：共同作者的数量与待分配论文中作者数量的比值，即
22.t
ca
：共同作者在这个候选集ck中一共出现的次数；
23.共同作者出现次数与该候选集ck中作者总数ta的比值，即
24.在完成比较后将这些值排列在一起组成一个向量一，所述向量一为提取出的作者名称相关特征；
25.2.2，比较待分配论文与候选集中所有论文之间的作者机构信息，各值表示如下：
26.count
org
：待分配论文pa与候选集ck中所有相同机构的数量；
27.r
org
：相同机构数量与所有机构数量count
aorg
之间的比值，即之间的比值，即
28.jaccard
max
：分词合并处理后，待分配论文pa与候选集ck中所有论文之间的jaccard相似系数的最大值，即
29.jaccard
mean
：分词合并处理后，待分配论文pa与候选集ck中所有论文之间的jaccard相似系数的均值，即
30.jaccard
pooling
：分词合并处理后，经过高斯核函数处理后的jaccard相似系数，为一个n维向量，其中n表示输入的中心点数量；
31.r
′
max
：分词合并处理后，待分配论文pa与候选集ck中所有论文之间相同机构数与所
有机构数比值的最大值，即
32.r
′
mean
：分词合并处理后，待分配论文pa与候选集ck中所有论文之间相同机构数与所有机构数比值的平均值
33.r
′
pooling
：分词合并处理后，经过高斯核函数处理后的相同机构数与所有机构数的比值，为一个n维向量，其中n表示输入的中心点数量；
34.在完成比较后将这些值排列在一起组成一个向量二，所述向量二为提取出的作者机构相关特征；
35.2.3，比较待分配论文与候选集中所有论文之间的标题信息，各值表示如下：
36.count
title
：分词合并过程后，相同词在待分配论pa文中出现的次数；
37.count
′
title
：分词合并过程后，相同词在候选集ck的所有论文中出现的次数；
38.r
title
′
：分词合并过程后，相同词在待分配论文pa中出现的次数与待分配论文pa中所有词总数的比值，即
39.r
′
title
′
：分词合并过程后，相同词在候选集ck的所有论文中出现的次数与候选集ck中所有词总数的比值，即
40.jaccard
pooling
：分词合并过程后，经过高斯核函数处理后的jaccard相似系数，为一个n维向量，其中n表示输入的中心点数量；
41.cos
pooling
：使用xlnet提取论文的标题特征，之后计算待分配论文pa的标题与候选集ck中每一篇论文标题的余弦相似度，之后通过高斯核函数处理得到cos
pooling
；
42.在完成比较后将这些值排列在一起组成一个向量三，所述向量三为提取出的论文标题的非语义特征；
43.2.4，对含有语义信息的论文字段使用xlnet预训练模型提取语义特征；
44.2.5，将2.1、2.2、2.3得到的向量一、向量二、同量三及2.4提取的语义特征组合到一起得到最终的特征向量。
45.本发明技术方案的进一步改进在于：s3具体包括：
46.3.1，将步骤2得到的特征输入到xgboost决策树中，确定待分配论文是分配给相应作者还是不进行分配；
47.假设与当前待分配论文相对应的候选集共有i篇，那么通过步骤2中会得到i个特征向量，将这些特征向量输入到xgboost中，能够得到对应的i个得分score，0《score《1，将概率最高的那个候选集记作最可能的候选集，最高得分记作score_max；
48.3.2，对于较为简单的情况使用阈值进行判断，一般阈值选取0.9；加入score_max≥0.9，那么将待分配论文分配给score_max对应的候选集，否则将该待分配论文记作未分配论文，在对所有待分配论文进行操作后，将所有未分配论文进行汇总，并将该集合记作未分配论文集；
49.3.3，将每个未分配论文看作一个簇，使用步骤2中的方法，将这些簇进行两两比
较，能够得到若干个特征向量；
50.3.4，将3.3中得到的特征向量输入到xgboost或者训练好的mlp中进行概率预测，将概率最高的两个簇看作最近的两个簇，将这两个簇合并到一起，当最大簇中的论文数量大于5时，认为这是主聚簇，停止层次聚类；
51.3.5，将未分配候选集中剩余的论文向3.4中得到的主聚簇进行3.1和3.2中提到的增量消岐操作，分配失败的返回未分配候选集，成功的直接加入主聚簇，将最终增量后的主聚簇作为一个新的候选集，此时完成一整轮增量消岐操作。
52.由于采用了上述技术方案，本发明取得的技术进步是：
53.1、本发明针对大部分消歧方法未能充分利用论文信息的问题提出了一种人工定义特征与xlnet提取特征相结合的特征提取方法，分别提取论文中那些无需提取语义特征属性的特征，例如提取论文作者名称、机构数量的特征等，xlnet则是用来提取论文中那些需要提取语义特征属性的特征，例如提取论文摘要的语义信息等。使用xlnet优于使用bert等其他模型，且与其他增量消歧方法进行对比证明了这种特征提取方式有助于提高消歧结果的准确率。
54.2、本发明针对一些方法中使用传统预测模型导致的准确率较低的问题，将xgboost作为匹配模块的核心代替传统的神经网络模型来进行预测，并通过决策模块判断是否将论文分配出去。使用xgboost的效果要明显优于使用传统的神经网络模型。
55.3、本发明针对增量消歧不能分配所有论文的问题提出了一种基于凝聚式层次聚类的冷启动消歧方法，该冷启动消歧方法被置于增量消歧方法之后对增量消歧未能处理的论文进行后处理，进而使得整体增量消歧方法可以获得更好的结果。过添加该冷启动消歧框架确实更有效地对那些候选集中论文数量较少的作者进行增量消歧操作。
附图说明
56.图1为本发明实施例中的增量消歧框架图；
57.图2为本发明实施例中的特征提取流程图；
58.图3为本发明实施例中增量消歧中的决策图；
59.图4为本发明实施例中冷启动消歧框架图；
60.图5为本发明实施例中基于预训练模型与决策树的增量式论文同名作者消歧方法的整体框架图；
61.图6为本发明实施例中aminer训练集论文数量分析图一；
62.图7为本发明实施例中aminer测试集论文数量分析图二；
63.图8为本发明实施例中各模型时间消耗对比图一；
64.图9为本发明实施例中各模型时间消耗对比图二；
65.图10为本发明实施例中各方法在筛选测试集上的时间消耗对比图；
66.图11为本发明实施例中各方法在完整测试集上的时间消耗对比图。
具体实施方式
67.本技术实施例通过提供一种基于预训练模型与决策树的增量式论文同名作者消歧方法，解决了现有技术中存在的同名作者的文献没有被分配给正确作者的现象，从而使
得通过名称检索文献的准确率较低的问题，大致思路：
68.首先，本发明针对论文信息利用不够充分的问题提出了一种基于xlnet预训练模型与人工定义规则相结合的特征提取方法；该方法首先使用人工定义特征提取论文中作者名称、机构等字段的信息，使用xlnet提取论文标题、摘要等字段的信息，之后利用xgboost与提取出的特征来预测每篇论文应该归属的正确作者。
69.其次，本发明针对增量消歧不能分配所有论文的问题提出了一种基于凝聚式层次聚类的冷启动消歧方法，该方法置于增量消歧方法之后对增量消歧未能分配出的论文进行后处理。该方法会对未成功分配的论文进行凝聚式聚类，之后通过增量消歧向主聚簇中添加论文以获得主聚簇作为一个新的作者。
70.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
71.下面结合附图及实施例对本发明做进一步详细说明：
72.如图1-5所示，基于预训练模型与决策树的增量式论文同名作者消歧方法，包括以下步骤：
73.s1，构建数据集，对作者名称、候选集id、论文id、论文信息等进行数据预处理；
74.s2，使用人工定义规则的方式提取不含语义信息字段的第一特征，例如：作者名称、机构等；使用xlnet预训练模型提取含有语义信息字段的第二特征，例如：论文标题，摘要等；将第一特征和第二特征合并到一起得到所需特征向量；
75.2.1，比较待分配论文与候选集中所有论文之间的作者信息，各值如下表1所示：
76.表1
[0077][0078][0079]
在完成比较后将这些值排列在一起组成一个向量一，该向量一为提取出的作者名称相关特征；
[0080]
2.2，比较待分配论文与候选集中所有论文之间的作者机构信息，各值如下表2所示：
[0081]
表2
[0082][0083]
在完成比较后将这些值排列在一起组成一个向量二，该向量二为提取出的作者机构相关特征；
[0084]
2.3，比较待分配论文与候选集中所有论文之间的标题信息，各值如下表3所示：
[0085]
表3
[0086][0087]
在完成比较后将这些值排列在一起组成一个向量三，该向量三为提取出的论文标题的非语义特征；
[0088]
2.4，对对含有语义信息的论文字段(如标题，摘要等)使用xlnet预训练模型提取语义特征；
[0089]
2.5，将2.1、2.2、2.3、2.4得到的所有向量和语义特征组合到一起得到最终的特征向量。
[0090]
s3，将s2中得到的特征向量输入到xgboost中获取待分配论文属于该候选集的概率，并据此判断是否将待分配论文分配给该候选集；
[0091]
具体包括以下步骤：
[0092]
3.1，将上述s2中得到的特征输入到xgboost决策树中，确定待分配论文是分配给相应作者还是不进行分配；
[0093]
假设与当前待分配论文相对应的候选集共有i篇，那么通过2中所述步骤中会得到i个特征向量。将这些特征向量输入到xgboost中，可以得到对应的i个得分score(0《score《1)，将概率最高的那个候选集记作最可能的候选集，最高得分记作score_max。
[0094]
3.2，对于较为简单的情况使用阈值进行判断，一般来说阈值选取0.9即可。加入score_max》＝0.9，那么将待分配论文分配给score_max对应的候选集，否则将该待分配论文记作未分配论文。在对所有待分配论文进行操作后，将所有未分配论文进行汇总，并将该集合记作未分配论文集。
[0095]
3.3，将每个未分配论文看作一个簇，使用步骤2中的方法，将这些簇进行两两比较，可以得到若干个特征向量。
[0096]
3.4，将3.3中得到的特征向量输入到xgboost或者训练好的mlp中进行概率预测，将概率最高的两个簇看作最近的两个簇，将这两个簇合并到一起，当最大簇中的论文数量大于5时，认为这是主聚簇，停止层次聚类。
[0097]
3.5，将未分配候选集中剩余的论文向3.4中得到的主聚簇进行3.1和3.2中提到的增量消岐操作，分配失败的返回未分配候选集，成功的直接加入主聚簇。将最终增量后的主聚簇作为一个新的候选集。此时完成一整轮增量消岐操作。
[0098]
s4、构建基于凝聚式层次聚类的增量消岐后处理框架，对增量s3中未能分配出去的论文进行后处理操作。
[0099]
4.1冷启动消歧特征提取，如下表4所示：
[0100]
表4
[0101][0102][0103]
对于论文作者属性来说，需要计算同名作者的数量c
ca
，以及同名作者数量在两篇论文所有作者数量之中所占的比例r
ca
。此外，由于计算属性的减少，可以计算出的值设置一些权重来增强或减弱该值对最终相似度的影响。这样就可以得到论文同名作者数量的特征f
ca
＝w
cacca
与论文同名作者占比的特征其中w
ca
为影响论文同名作者数量特征的权重，为影响论文同名作者占比特征的权重。对于论文的出版商属性，会对其进行
步骤2中增量消歧框架中所提过的分词合并操作，之后计算分词合并过程后的两个集合的jaccard相似系数，将结果记作jv。对于论文作者机构这一属性，处理与步骤2中增量消歧框架中对作者机构的处理大致相同。首先对这一属性进行分词合并操作，在进行这一步时还会添加停用词操作，将university等常见且不影响结果的单词忽略，在这之后计算相同词的数量c
co
以及相同词所占的比例r
co
。最后是对于论文标题属性的操作，会对该属性进行分词合并操作，在这之后计算相同词的数量c
ct
以及相同词所占的比例r
ct
，并分别给它们附加一个权重得到f
ct
＝w
ctcct
和其中w
ct
和分别为影响标题相同词数量和相同词占比的权重。
[0104]
4.2冷启动消歧算法
[0105]
现在有未分配论文集合p'＝{p1,p2,
…
,p
n'
}，在经过上述处理之后可以得到一组向量集合v＝{v1,v2,
…
,v
n'
}，之后所提出的冷启动消歧框架就会利用这一组代表未分配论文的向量集合来进行层次聚类。首先会计算两篇论文之间的相似度，之后利用该相似度对输入的论文集合进行凝聚式层次聚类，当主聚类中包含论文的数量大于等于阈值γ时，进行增量分配操作，这里的增量分配操作不同于增量消歧框架中的操作，主要区别就是论文特征的使用。在完成一次层次聚类和增量分配后，会尝试继续进行循环操作，直到完成聚类操作即循环执行知道无法再次进行聚类操作。具体如下表5所示：
[0106]
表5
[0107][0108][0109]
实施例
[0110]
基于预训练模型与决策树的增量式论文同名作者消歧方法，本实施例将aminer数据集与dblp结合构建了一个新的数据集进行对本发明方法的验证，最终的实验结果证明本发明提出的增量消歧算法的可行性。
[0111]
本实施例使用的编程语言是python，python有着大量的开源算法库，这使得不需要从零开始进行所有相关程序的编写，除此之外，还有着pytorch和tensorflow等常用深度学习框架。
[0112]
硬件：inter core i5-9600k处理器，16gb内存，geforce gtx 2080ti显卡；软件：windows10操作系统，python3.7.4，pytorch-gpu编程语言。
[0113]
1、构建数据集：
[0114]
使用近几年中aminer提供的增量消歧数据集和经典的dblp消歧数据集。对于增量消歧任务来说，aminer提供的数据集已对整体数据进行了处理，完成了对训练集和测试集
的划分等操作。
[0115]
(1)aminer数据集由aminer平台整理并开放下载，该数据集共有三个版本，aminer将其分别记作v1、v2、v3。v1和v2是两个人工标注的数据集，结果较为准确，但由于人工标注的工作量较大，所以这两个数据集相对较小。相对于前面两个数据集，v3是一个较大的数据集，但是存在一些噪声。aminer数据将数据分为了训练集和测试集两部分，其比例为8:2，该数据集中的字段如表6所示。
[0116]
表6 aminer数据集字段
[0117][0118][0119]
(2)不同于aminer数据集，dblp数据集并没有进行特别处理，需要自己进行处理。dblp是digital bibliography&library project的缩写，是一个计算机领域内以作者为核心的一个英文文献的集成数据库系统。与aminer数据集不同，dblp并没有将数据集分割为训练集和测试集，但是该数据集中的字段较多，具体如表7表所示。
[0120]
表7 dblp数据集字段
[0121][0122]
首先对数据集进行预处理，因此需要对数据集的各方面信息进行分析，包含每个候选集中的论文数量、每个作者对应的候选集数量。
[0123]
如图6、图7所示，aminer训练集候选集中论文数量小于5的候选集共有28220个，占总数的84.54％，测试集中论文数量小于5的候选集共有5333个，占总数的83.34％。在这种情况下，可能无法使用增量消歧框架中的候选集粗排模块，因为数据的问题该模块筛选放弃的候选集可能过多，对结果造成影响。dblp数据集中虽然也出现了类似的情况，但是本质上与aminer数据集中该问题的本质相同，因此不再进行赘述。
[0124]
虽然aminer数据集已经将数据按照8:2的比例将数据分为了训练集和测试集，但是只有作者名称对应的候选集和候选集对应的论文，仅仅这样该数据集是无法用于增量消歧方法的。对于所有的论文数据，不可能将其全部读取到内存之中进行处理，因此将论文的id以及其各种属性全部存入mongo数据库中，之后根据论文的id来获取论文的相关属性。除此之外，还要构建属于自己的训练集和测试集。对于训练集的构建，以其中一个作者名为例，将其所有的候选集记作一个集合c＝{c1,c2,
…
,cm}，其中m为候选集的数量，将每个候选集中所含的所有论文记作一个集合其中ck代表第k个候选集中的论文总数。对于某一作者候选集的具体构造方式如表8表所示，其中值得注意的是，对于只有一个候选集的作者名称选择忽略该作者名称，由于在数据分析过程中发现并没有仅有一篇论文的候选集，所以未对相应问题进行额外处理。对于测试集来说，对数据的处理过程与训练集类似，只有两个不同点：一个是需要记录下哪个是正确的候选集，另一个则是结果字典的value列表中应该包含该作者名称下所有候选集对应的所有论文集合。
[0125]
表8单一候选集对应的训练集构造流程
[0126][0127][0128]
除了对单一候选集进行相应的处理外，还需要构建属于自己的训练集与测试集。首先是完整训练集的构建，将dblp按照作者数量8:2的比例分为训练集与测试集，之后将dblp与aminer训练集结合起来形成新的训练集，并执行表3中的处理。随后将dblp与aminer测试集结合起来形成新的测试集，并按照aminer测试集的形式进行重构，记作完整测试集。其中值得注意的是，对于dblp与aminer中可能出现的同名作者，会随机选取一个而不是将它们合并到一起以防引入误差。其次在此基础上，还会再创建一组新的测试集，该测试集是将完整测试集中论文数量小于5的候选集删除构造而来，将该测试集记作筛选测试集，该测试集相较于完整测试集是一个更加完美的测试集。
[0129]
2、基线方法
[0130]
本实施例采用了近几年被提出的增量消歧方法作者基线方法，分别是conna，zhang等人提出非参数贝叶斯框架和zhao等人提出的概率模型，由于后两个框架作者并没有给出相应英文缩写，因此本实施例将这两个框架分别记作zhang非参数贝叶斯框架和zhao概率模型，其相关模型的简介如下。
[0131]
(1)conna是由chen等人提出的一个增量消歧框架，conna通过强化学习联合训练匹配组件和决策组件，且该框架已经被部署在一个大型学术搜索系统aminer上。
[0132]
(2)zhang非参数贝叶斯框架使用dpgmm(dirichlet process gaussian mixture model)作为核心作为同名消歧任务的核心，并使用一种sisr(sequential importance sampling with resampling)技术来推理在线分类与新类别的发现。
[0133]
(3)zhao概率模型使用了一组丰富的元数据并减少新文章所需要的对比次数，并采用增量分类的方式来进行同名消歧，除此之外，该模型还使用了比其他算法更少的参数。
[0134]
3、评价标准
[0135]
由于同名作者的增量消歧的本质还是一个多分类问题，因此本实施例选择最常用的三个评价指标作为增量消歧结果的评价指标，分别为准确率(precision)、召回率(recall)和f1值，它们的计算分别如公式(1)、公式(2)、公式(3)所示。
[0136][0137]
[0138][0139]
式中，tp为预测答案正确结果数量，fp表示错误地将其他类归为本类的结果数量，fn表示将本类标签预测为其他类标的结果数量。
[0140]
4、增量消歧匹配模块中对比实验分析
[0141]
对于论文标题与论文摘要的提取方法，本实施例采用了5种模型作为基线方法，分别为bert、gpt、gpt-2、transformer-xl以及roberta。
[0142]
表9完整测试集对比实验结果测试
[0143][0144]
如表9所示，在完整测试集上，使用xlnet最终得到的准确率为0.9035，召回率0.6843，最终的f1得分为0.7788也是最高的。其中准确率相较于第二的gpt-2模型的0.8626提高了4.74％，召回率相较于第二的bert模型的0.6554提高了1.89％，最终f1-score相较于第二的gpt-2模型的0.7421提高了4.95％。这充分说明了xlnet模型在未经处理较为杂乱的数据集上的优秀。
[0145]
表10筛选测试集对比实验结果
[0146][0147]
如表10所示，在筛选测试集上，使用xlnet最终得到的准确率为0.9491是最高的，召回率为0.9623仅仅比召回率最高的bert模型低0.0011，最终的f1-score为0.9556也是最高的。由于数据集经过筛选，因此xlnet最终的f1-score虽然是最高的，但并仅仅比bert和
gpt高出0.46％，这可以在某种程度上说明在整体数据足够优秀的数据集上，使用不同模型导致的最终结果的差距并没有想象之中那么大，甚至可以认为这几个模型是可以相互替换的。
[0148]
在上述两个数据集上，可以明显看出不同数据集对于实验结果的影响，虽然一个优秀的数据集可以缩小两个不同模型之间的差距，但总的来说并不会改变两个模型孰优孰劣。xlnet能够取得更好效果的原因还是因为其新颖的排列语言模型、不引入遮罩以及从transformer-xl中引入的相对位置编码和片段循环机制，这四个特征使得xlnet基本具有了该实施例的对照模型的所有优点。在时间消耗方面，本实施例主要计算的是整个特征提取过程，而不仅仅是所提到的各个模型单独的消耗时间，仅计算模型的单独时间消耗与计算整体的时间消耗差距在理论上是一个固定值，因为除模型之外的其余部分是并没有改动的。各模型的时间消耗如图8所示。
[0149]
如图8所示，使用各个模型的时间消耗差距并不大，而且存在较为特殊的bert模型在筛选测试集与完整测试集上的两种极端表现，这极有可能是由服务器等硬件设备等原因导致的。总而言之，xlnet的在筛选测试集上的表现中规中矩，在完整测试集上的时间消耗与其他模型相差不大，综合来说效果还是比较好的。
[0150]
对于匹配模块中的评分部分，本实施例使用dnn、梯度提升决策树gbdt(gradient boosting decision tree)两种模型作为基线方法，相关模型的间接如下。
[0151]
(1)dnn是基于感知机的扩展，可以理解为有着许多隐藏层的神经网络。本发明使用了多个不同层数的dnn进行对比实验，目的是比较不同层数对实验结果以及算法运行时间造成的不同影响。
[0152]
(2)gbdt是一种迭代的决策树模型，该模型有多棵决策树组成，最终将所有决策树的结果累加起来得到最终结果。
[0153]
在实施过程中除了更改匹配模块中的评分部分，还会相同上述自己构建的两个测试集，分别为完整测试集与筛选测试集，并在之后给出实施结果及其相应的分析。对于dnn模型的选择，本实施例会在名称之后标注其内部含有多少层隐藏层，例如一个dnn含有5层隐藏层，本实施例会将其标注为dnn-5。
[0154]
对于dnn的损失函数，本实施例选择使用三元损失函数，优化器的选择为adam优化器，将epoch设置为100，batch_size设置为32，将学习率(learning rate)设置为0.1，此外还会使用早停(early stopping)机制来获取效果最好的模型。
[0155]
对于gbdt的参数设置，树的最大深度设置为12，将学习率设置为0.1，将最大迭代次数设置为100，模型选择回归模型，损失函数为均方差损失函数(mean squared error,mse)。
[0156]
对于xgboost的参数设置，树的最大深度设置为12，将学习率设置为0.1，将最大迭代次数设置为100，模型选择回归模型，损失函数为均方差损失函数。
[0157]
实验结果如表11表与表12所示。
[0158]
表11完整测试集对比实验结果
[0159][0160]
如表11所示，在完整测试集上，使用xgboost模型最终得到的准确率为0.9035是最高的，相较于第二的gbdt提高了5.24％，召回率为0.6843也是最高的，相较于第二的gbdt提高了9.44％，自然而然最终的f1-score也是最高的0.7788，相较于第二的gbdt提高了7.90％。而对于这几个dnn模型，准确率、召回率以及f1-score三个评价标准会随着dnn模型的层数增加而逐增高。
[0161]
表12筛选测试集对比实验结果
[0162][0163]
如表12表所示，在筛选数据集上，使用xgboost模型最终得到的准确率为0.9491是最高的，相较于第二的dnn-9提高了1.48％，召回率为0.9623也是最高的，相较于第二的dnn-9提高了0.28％，自然而然最终的f1-score也是最高的0.9556，相较于第二的dnn-9提高了0.88％。对于几个dnn模型，在筛选测试集上的表现虽然不如xgboost，但与其的差距并没有像完整测试集那么大。
[0164]
如图9所示，各模型的时间消耗不包含特征提取部分，仅仅为预测部分。在其余部分相同的情况下，xgboost模型相较于gbdt的时间消耗有这大约7％的提升，但相较于dnn仅仅时间消耗方面并没有什么优势。结合表11与表12的结果，可以在确保基础数据足够优秀的情况下，使用dnn-9替换xgboost，值得注意的是，这里提到的dnn-9并不是特指含有9层隐藏层的dnn模型，而是与实验中所使用的dnn-9有着相似特质的模型，也就是模型结构较为简单且得到效果较好的模型。
[0165]
5、增量消歧的对比实验结果分析
[0166]
主要目的是对增量消歧框架进行对比实验分析，因此在实验中仅仅使用了增量消歧框架，并没有结合增量后处理消歧框架，因此也仅仅使用了筛选测试集进行实验。对比实验结果如表13表所示。
[0167]
表13增量消歧框架对比实验结果
[0168][0169]
如表13表所示，conna有着最高的准确率0.9675，本发明的模型为0.9491，相比之下conna的准确率比本发明的模型高了1.94％，zhao提出的模型有着最高的召回率0.9703，本发明的模型为0.9623，相比之下zhao提出模型的召回率比本发明的模型高出了0.83％，本发明的模型有着最高的f1-score为0.9556，相较于第二的0.9538高了0.19％。综上所述，虽然本发明提出模型的准确率与召回率并不是最高的，但综合得分f1-score是最高的，也就是说本发明模型的综合性能相较于其他三个对照模型还是较为优秀的。
[0170]
除了对筛选测试集整体进行实验外，本发明还取了其中几个作者姓名来进行单独处理，看不同方法对于具体作者姓名的得到的f1-score。对比实验结果表14所示。
[0171]
表14各方法对不同姓名的f1-score
[0172][0173]
如表14表所示，不同方法对于筛选测试集中的不同作者名称得到的结果相似，这表示在筛选测试集上的4种不同方法的差距并不大，在这种情况下应更多地关注时间消耗，
时间消耗结果如图10所示。
[0174]
由表13、表14以及图10的结果可以得出，虽然本发明模型在筛选测试集上的综合表现较好，但是在时间消耗方面与其余三个模型差距巨大。
[0175]
6、整体框架的对比实验结果分析
[0176]
主要目的是对整体框架进行对比实验分析，因此在实验中使用了增量消歧框架与冷启动消歧框架联合起来组成的整体消歧框架进行实验来与其他方法进行对比，相应的对于测试集的使用也应该使用完整测试集进行测试。对比实验结果如表15所示。
[0177]
表15消歧框架对比实验结果
[0178][0179]
如表15所示，conna有着最高的准确率0.9341，本发明的模型为0.9035，相比之下conna的准确率比本发明的模型高了3.39％，本发明的模型有着最高的召回率0.6843，相较于第二的0.6534高出了4.73％，本发明的模型有着最高的f1-score为0.7788，相较于第二的0.7533高了3.39％。综上所述，虽然本发明提出模型的准确率不如conna，但召回率以及f1-score是最高的，这表示本发明模型的综合效果较好。
[0180]
除了对完整测试集整体进行实验外，本发明还取了其中几个作者姓名来进行单独处理，看不同方法对于具体作者姓名的得到的f1-score。对比实验结果如表16所示。
[0181]
表16各方法对不同姓名的f1-score
[0182][0183]
如表16所示，8位作者中存在一名特殊的作者hongbin liang，在完整测试集中该
作者下有着许多论文数量过少的候选集，这会为增量消歧带来困难，而本发明模型在该作者上的表现要明显优于第二名，f1-score高于第二名足足5.90％，这在某种程度上可以说明本发明模型引入的冷启动消歧框架能够使消歧结果更加优秀。
[0184]
如图11所示，本发明模型运行所消耗的时间明显高于其他三个对比模型。
[0185]
由表15、表16和图11的结果可以得出，本发明方法虽然对于候选集中论文数量较少的作者的消歧上相比于其余三个方法有着微弱的优势，但是在运行所消耗的时间明显高于其他三个对比模型，其中的差距甚至高于上一小节中的时间消耗差距。这是因为本发明方法在完成增量消歧之后又进行了冷启动消歧，虽然冷启能够处理这部分论文，但会明显增加算法的时间消耗。
[0186]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于组合覆盖的循环代码模糊测试方法

基于预训练模型与决策树的增量式论文同名作者消歧方法

相关文献

最热文献