一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于富文本特征的新闻实体链接方法和系统与流程

2022-04-30 15:51:30 来源:中国专利 TAG:


1.本发明涉及新闻传媒技术领域,特别涉及一种基于富文本特征的新闻实体链接方法和系统。


背景技术:

2.在新闻结构化过程中常常需要利用nlp技术识别其中的人物、机构、地理等指称实体并链接至知识图谱中对应的目标实体,通过知识图谱中详细的实体信息有助于解析新闻从而更好服务于下游应用,其中实体链接是将新闻中提及的指称实体与知识图谱中唯一对应实体进行匹配的关键技术。由于自然语言存在复杂的歧义性,新闻中指称实体可能在知识图谱中存在较多同名实体,同时不同的上下文信息对链接结果也会造成较大影响,这些条件使得实体链接极具挑战性。
3.现有方案中,主要是抽取实体在新闻中的上下文,将其与知识图谱中候选实体的描述文本联合构建深度学习模型进行相似度对比,根据相似度分数判断是否链接成功。另外还有利用分词等辅助手段计算指称实体与候选实体描述文本的分词匹配度进行判断。然而现有技术方案存在如下技术问题:
4.目前实体链接方法的主要问题在于往往新闻中指称实体有多段上下文,每段上下文包含了不同程度的信息,而建模时通常只使用指称实体首次出现的上下文,单一的特征使模型没有充分感知到指称实体与候选实体之间的联系与差异,导致模型学习不充分模型准确度不足;在建模中只使用了知识图谱中候选实体的描述文本,没有使用到候选实体的其他属性,比如候选实体的类别、别名等等,这些结构化属性相比纯文本能够提供明确的先验知识从而提高模型的区分度;通过分词计算匹配度的方案难以评估文本间的语义信息,泛化性不足,难以支持不同场景、语义下的新闻文本链接。


技术实现要素:

5.本发明其中一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系统,所述方法和系统将原始单一的文本特征替换为由三个部分组成的富文本特征,其中富文本特征由上下文信息、知识图谱的描述文本和知识图谱的附加属性融合构建,通过多维度数据训练模型可以提高指称新闻实体和候选新闻实体差异的区分能力。
6.本发明另一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系统,所述方法和系统结合attention计算让模型综合性考虑了不同描述方式下的文本语境,极大程度上提高了模型在复杂文本场景下的辨识度。
7.本发明另一个发明目的在于提供一种基于富文本特征的新闻实体链接方法和系统,所述方法和系统通过联合候选实体描述文本与附加属性得到富文本特征以构建深度学习分类模型并在历史海量新闻数据的基础上进行训练,从而可以提高实体连接模型分类判断的准确率。
8.为了实现至少一个上述发明目的,本发明进一步提供一种基于富文本特征的新闻
实体链接方法,所述方法包括如下步骤:
9.构建候选实体的知识图谱,其中所述知识图谱包括指称实体和候选实体;
10.获取新闻数据,从所述新闻数据中识别指称实体,根据所述指称实体从所述知识图谱中查找候选实体;
11.将所述新闻数据进行分句获取上下文短句列表,筛选包含所述指称实体的所有上下文短句,生成上下文特征列表;
12.获取候选实体的描述文本特征和附加属性特征,构建富文本特征;
13.将所述富文本特征输入到二分类模型中训练,训练完毕后用于预测指称实体和候选实体的匹配的分类概率。
14.根据本发明其中一个较佳实施例,获取新闻数据后,根据新闻数据中文本的标点符号进行分句,遍历所有分句后筛选出包括所述指称实体的上下问短句作为所述上下文特征列表。
15.根据本发明另一个较佳实施例,所述实体的抽取方法包括:调用分词算法或实体识别算法抽取新闻数据文本中的包括人物、机构和地理信息,生成指称实体列表。
16.根据本发明另一个较佳实施例,在所述知识图谱中通过调用搜索获取指称实体对应的候选实体列表。
17.根据本发明另一个较佳实施例,通过对所述知识图谱的搜索获取所述指称实体对应的描述文本特征和对应候选实体的附属属性特征,将所述上下文特征列表、描述文本特征和附属属性特征组装成富文本特征,输入到二分类模型中训练。
18.根据本发明另一个较佳实施例,所述富文本特征的组装方法包括:遍历上下文特征列表,将所述上下文特征列表的每个上下文特征输入到bert模型中,输出上下文特征向量,所有的上下文特征向量进行累加得到上下文输入值v1。
19.根据本发明另一个较佳实施例,获取候选实体对应的知识图谱描文本,并将所述描述文本输入到bert模型中输出描述文本输入值,将所述描述文本输入值结合所述上下文输入值进行自注意力attention计算得到第一结合输入值v2,将候选实体的附加属性进行编码得到属性输入值v3,将所述属性输入值v3和第一结合输入值v2累加得到最终的模型输入值v作为富文本特征。
20.根据本发明另一个较佳实施例,设置所述二分类模型的分数阈值,当输出的候选实体和指称实体的二分类分数大于所述分类阈值,则判定候选实体和指称实体匹配成功。
21.为了实现至少一个上述发明目的,本发明进一步提供一种基于富文本特征的新闻实体链接系统。
22.本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被处理器执行所述一种基于富文本特征的新闻实体链接方法。
附图说明
23.图1显示的是本发明一种基于富文本特征的新闻实体链接方法的流程示意图。
24.图2显示的是本发明中训练的模型结构示意图。
具体实施方式
25.以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
26.可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
27.请结合图1和图2,本发明公开了一种基于富文本特征的新闻实体链接方法和系统,其中所述方法主要包括如下步骤:首先预先构建新闻实体的知识图谱,其中所述知识图谱包括候选实体和指称实体,获取历史新闻数据,从所述历史新闻数据识别并提取指称实体,将提取的所述指称实体输入到所述知识图谱中进行搜索获取对应的候选实体,进一步从所述知识图谱中搜索获取候选实体的描述文本信息,生成描述文本特征,以及搜索获取所述候选实体的属性信息,生成属性特征,获取所述指称实体的上下文特征,将所述描述文本特征、属性特征和上下文特征进行组装生成富文本特征,将所述富文本特征输入到二分类模型中进行指称实体和候选实体的匹配判断,根据二分类模型输出的分类概率得出最终的指称实体和匹配的候选实体。通过多特征的融合形成的富文本特征可以从多维度增加区分指称实体和候选实体的差异,从而可以提高模型在新闻复杂文本场景下实体链接判断的准确率。
28.具体而言,在获取历史新闻数据后,需要对所述历史新闻数据进行短句切分,本发明将根据所述历史新闻数据中的逗号或句号等标点符号进行短句切分,将切分后的短句组成上下文短句列表,进一步遍历所述上下文短句列表,过滤后获取包含当前指称实体的所述上下文短句,生成上下文特征列表f1。进一步的,根据预先构建的包含指称实体和候选实体的知识图谱中进行搜索,搜索到每个指称实体对应的候选实体的描述文本特征f2,搜索到所述候选实体的附加属性特征f3,其中所述附加属性特征包括但不仅限于候选实体的类别和别名。进一步将获取的上下文特征列表f1,描述文本特征f2和附加属性特征f3进行组装生成富文本特征,将组装好的富文本特征输入到二分类神经网络模型中,采用包括但不仅限于人工标注的方式表明指称实体和候选实体正确的匹配关系,并将建立正确匹配关系的指称实体和候选实体以正负样本比为1:3的训练数据输入所述二分类模型中进行训练,采用包括但不仅限于梯度下降法检测训练结果,将训练好的二分类模型保存。需要说明的是,本发明采用的二分类模型为现有技术,本发明对该模型的具体训练过程不再详细描述。
29.由于获取的历史新闻数据可能存在杂质数据,因此本发明在构建所述上下文短句列表前对所述历史新闻数据进行数据清洗操作,其中所述数据清洗包括但不仅限于去除历史新闻数据中的电头、电尾以及包含无效实体的文本等影响连接结果的数据。其中采用现有的分词算或实体识别算法从所述历史新闻数据的文本中抽取包括但不仅限于人物、机构、地理等数据获得指称实体列表。调用知识图谱的搜索功能获取每个指称实体所对应的候选实体列表。
30.其中所述训练好的模型的对实体链接的预测方法包括如下步骤:将新闻数据中识别到的指称实体和知识图谱中查找到的候选实体输入到训练好的二分类模型中,进行匹配
预测概率值,本发明设置二分类概率阈值,若所述预测的概率值大于所述二分类概率阈值,则说明该指称实体和候选实体之间是正确链接关系,否则继续计算当前指称实体和下一个候选实体的匹配概率,直到所有的指称实体都完成二分类模型的匹配结果后,输出完整的指称实体和候选实体的匹配结果。
31.本发明核心技术特征是所述富文本特征的构建,以及利用所述富文本特征进行模型训练,从而可以从多维度进行指称实体和候选实体链接的辨认,提高所述指称实体和候选实体的辨认度,所述富文本特征的构建具体包括如下步骤:遍历上下文特征列表f1后,将每个上下文输入到bret模型中,通过所述bret模型输出每个上下文特征向量fi,并将每个上下文特征向量进行累加,得到上下文输入值v1,其中将从知识图谱中获取的候选实体的描述文本输入到bert模型中,从所述bret模型中输出的描述文本输入值横向拼接所述上下文输入值v1,此处若描述文本输入值长度为64,上下文输入值长度为64则最终拼接后的输入值长度为128,进行自注意力attention计算,得到第一结合输入值v2,将获取的候选实体的类别、别名等附加属性进行数值编码,其中分别将附加属性输入任意公开的静态词向量库映射得到对应的词向量编码,此处的词向量编码长度与v2相同,最后将所有附加属性的词向量编码累加并取平均可得到附加属性输入值v3,将所述第一结合输入值v2和附加属性输入值v3进行累加并取均值,得到累加结果v作为最终的富文本特征,例如输入值v2为[1,0,2,1,3,0],附加属性输入值v3为[2,2,1,0,0,3],则最终的富文本特征v为[1.5,1,1.5,0.5,1.5,1.5]。将所述富文本特征经过全链接层进行二分类预测得到输出的概率值。
[0032]
值得一提的是,本发明通过构建上述多维度特征的输入值作为富文本特征,利用了知识图谱中的丰富的结构化候选实体属性进行多中数据的融合,从而使得训练的二分类模型可以大幅地提高对指称实体和候选实体差异化的区分能力,从而使得所述训练的二分类模型可以提高在新闻复杂文本场景下实体链接的准确率。
[0033]
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时,执行本技术的方法中限定的上述功能。需要说明的是,本技术上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线段、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线段的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执
行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线段、电线段、光缆、rf等等,或者上述的任意合适的组合。
[0034]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0035]
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明,本发明的目的已经完整并有效地实现,本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献