一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于双知识图谱的新闻标题短文本分类方法

2022-09-03 20:17:37 来源:中国专利 TAG:


1.本发明涉及一种基于双知识图谱的新闻标题短文本分类方法,特别是针对领域性新闻标题的分类。本发明利用中文文本分词工具提取每个新闻标题中的若干个关键词,通过实体链接技术将关键词链接到外部知识库中的实体。如果链接失败,则从领域知识图中查询一个合适的节点来替换原有的关键词。反之,则将实体加入候选实体集合。将候选实体重新链接到外部知识库,就可以得到与实体相关的解释信息。本发明利用bert获取新闻标题短文本和解释信息的向量表示,最后通过softmax进行分类。本发明涉及概率模型,语音模型,深度学习等领域,具体涉及基于深度学习的自然语言处理领域。


背景技术:

2.随着新闻网络平台的普及,新闻行业数字化发展十分迅猛,海量数据不断产生,新闻种类也变得越来越多。与段落和文档相比,新闻标题词汇个数较少且缺乏上下文语义信息,具有稀疏性和歧义性。将这些新闻标题正确归类可以更好的组织和利用这些信息,因此,如何将海量新闻标题数据精准的划分到正确的类别具有十分重要的意义。
3.面对规模巨大且不断增长的新闻数据信息,单纯依靠人工将新闻标题数据分类效率不高并且成本巨大。近年来,随着机器学习和深度学习的迅速发展,越来越多的问题可以借助计算机来完成,这也成为了大数据时代的热门技术。因此,利用深度学习来解决繁琐的新闻标题分类任务已经成为当下的趋势。近年来,人们提出了许多新闻标题短文本分类方法,大致分为两种:
4.1)基于机器学习的分类方法:这一类方法主要是对新闻标题进行预处理、特征提取,然后将处理后的文本向量化,最后通过常见的机器学习算法对训练数据进行建模,如空间向量模型、决策树模型和支持向量机模型。
5.2)基于深度学习的分类方法:这一类方法主要是将新闻标题中的每个字符向量化,然后采用卷积神经网络cnn或循环神经网络rnn获取文本深层次的局部信息或顺序信息。近年来,越来越多的方法使用外部知识库获取短文本的相关概念来增强新闻标题短文本的语义信息。
6.基于机器学习的分类方法较为简单,但是文本特征提取的质量对分类精度有很大的影响,并且这些方法严重依赖于人工设计的特征,成本很高。此外,这些特征表示往往是非常稀疏的,特征表达能力弱,不能很好地满足新闻标题短文本分类的需求。
7.基于深度学习的分类方法可以免去繁杂的人工特征工程,对分类精度影响更多的是数据量以及训练的迭代次数。通过词向量技术,可以把文本数据转化为低维稠密向量,不依赖手工设计特征,并且可以学习到深层次的语义信息。
8.但是,使用深度学习技术来实现新闻标题分类还存在以下几个问题:
9.(1)新闻标题大多是短文本类型,词汇个数较少且缺乏上下文语义信息,具有稀疏性和歧义性,这导致目前主流的自然语言处理方法无法较好的实现分类。
10.(2)目前很多方法通过外部知识库来增强短文本的语义信息,通过关键词获取实
体时可能会得到多个领域的实体。如何对实体消歧以获得一个正确合理的实体是一个挑战。
11.(3)由于中文的分词界限不像英文一样界限分明,导致分词的准确性会受到分词工具的影响,因此在进行实体链接时不可避免的一个问题就是out-of-vocabulary(oov)问题,如何避免oov问题对于新闻标题短文本分类也是一个挑战。
12.在自然语言处理领域,为了从短文本中捕获更多语义和句法信息,目前主流的方法是使用外部知识库来丰富短文本的语义信息。首先,使用常见的分词工具对短文本进行分词。然后,通过实体链接技术将关键词链接到外部知识库获取相关的实体,并从外部知识库获取和实体相关的概念。最后,将原始文本信息和概念信息拼接以增强短文本的语义信息。
13.上述方法在短文本分类领域取得了一些有效进展,但是也忽略了新闻标题在分词时可能会出现不规则的关键词,这些关键词会导致oov问题。oov问题是指关键词在实体链接时不能成功链接到外部知识库,这会导致分类性能的下降。因此,本发明基于全局关键词信息构建了一个面向特定领域的图。当出现oov问题时,可以从领域知识图中检索合适的关键词来替换oov单词。
14.因此,如何解决新闻标题短文本信息不足和oov的问题是当今大数据时代急待解决的难题。


技术实现要素:

15.为了解决现有技术不能很好的处理短文本信息不足以及在实体链接时的oov问题,本发明提出了一种基于双知识图谱的新闻标题短文本分类方法。
16.借助外部知库,本发明可以提取额外的解释信息来丰富短文本的语义。当实体链接失败时,可以使用领域知识库重新选择合适的关键词来纠正实体链接的结果并解决oov问题。最后,将短文本的字符级特征和外部知识特征结合起来提取语义信息,得到最终的分类结果。相较于目前已有的方法,该方法可以取得更为先进的性能。
17.为解决上述问题,本发明提供的技术方案为:
18.一种基于双知识图谱的新闻标题短文本分类方法,包含以下步骤:
19.步骤1:对新闻标题短文本进行预处理,主要是去除一些特殊字符以及停用词。
20.步骤2:通过jieba分词工具提取新闻标题中的关键词。
21.步骤3:通过cndbpedia外部知识库提供的api,将关键词链接到外部知识库获取实体集合。
22.步骤4:通过余弦相似度对获取到的实体集合进行消岐,得到候选实体集合。
23.步骤5:基于全局关键词共现信息,构建一张领域知识图,解决oov问题。
24.步骤6:对于候选实体集合中的每个实体,通过链接到外部知识库获取与该实体相关的解释信息,丰富上下文语义信息。
25.步骤7:使用bert获取原始新闻标题和实体链接的解释信息的字符级向量表示,并融合这两部分的向量表示,以弥补短文本信息不足的缺点。
26.步骤8:使用textcnn来提取多个连续单词之间的n-grams特征,捕捉深层次的语义信息。
27.步骤9:最后通过softmax函数进行分类,得到最终的分类结果。
28.本发明通过提取新闻标题短文本中的关键词,从外部知识库中检索与之相关的实体,并结合实体链接技术获得实体的解释来增强短文本的语义信息。不仅如此,本发明还基于本地数据集构建一个领域知识图,用来解决实体链接时出现的oov问题,增强新闻短文本的领域信息。最后,采用textcnn模型捕捉新闻标题短文本的深层次语义特征,完成相应的分类。相较于以往的方法,本发明在准确度以及效率上有一定的提升。
29.本发明的优点是:
30.1.本发明利用双知识图谱来获得更多额外的信息,弥补了短文本信息不足的缺点,提高了新闻标题短文本分类的准确性。
31.2.本发明构建了领域知识图来解决oov问题,为解决自然语言处理中的oov问题提供了新的思路。
附图说明
32.图1是本发明的整体流程示意图。
33.图2是本发明的textcnn的核心架构图。
具体实施方式
34.下面结合附图进一步说明本发明的技术方案。
35.本实施例以新浪新闻rss订阅频道的thucnews公开数据集为例进行展示:
36.一种基于双知识图谱的新闻标题短文本分类方法,包含以下步骤:
37.步骤1:对新闻标题短文本进行预处理,主要是去除一些特殊字符,比如中英文标点符号、英文字符、数字和特殊符号。此外,根据哈工大停用词表去除停用词。部分新闻标题预处理结果如表一所示。
38.表一新闻标题预处理结果示例
39.原始新闻预处理后的新闻首款td单芯片商用中移动再打成本牌首款单芯片商用中移动再打成本牌谷歌再买ibm千项专利应对苹果诉讼谷歌再买千项专利应对苹果诉讼全金属机身摩托罗拉发布新机klassic全金属机身摩托罗拉发布新机京东:符合条件的iphone用户可差价补偿京东符合条件的用户可差价补偿超轻超薄三洋新款线性pcm录音笔上市超轻超薄三洋新款线性录音笔上市
40.步骤2:通过jieba分词工具,对预处理后的新闻标题短文本提取关键词。比如:对于短文本s1:“谷歌再买icm千项专利应对苹果诉讼”,可以得到关键词集合{“专利”,“苹果”}。
41.步骤3:本发明使用由复旦大学知识工场实验室研发的cndbpedia外部知识库,根据其提供的ment2ent实体链接api获取与关键词相关的实体。
42.步骤4:对于上一步获得的实体集合,使用bert获取实体集合和新闻标题的向量表示。然后使用余弦相似度计算实体ei与新闻标题si的相似度,选取相似度得分最高的实体加入候选实体集合。对于“苹果”这个关键词,可以获得实体集合e={“苹果公司”,“苹果(电影作品)”,“苹果(水果)”},在经过余弦相似度的计算后,得到以下结果e={“苹果公司”:
90.26,“苹果(电影作品)”:87.74,“苹果(水果)”:87.88},因此,这里将得分最高的“苹果公司”加入候选实体集合。
[0043][0044]
步骤5:由于短文本本身可能存在不规则的表达,因此并不是每一个关键词都可以成功链接到外部知识库中的实体,这里可能会出现oov问题。
[0045]
对于中文实体链接,出现oov问题主要有两个原因:(1)实体没有被外部知识库覆盖。(2)短文本分词结果不正确。
[0046]
为了解决oov问题,本发明以关键词为节点构建一张领域知识图。具体来说,本发明使用固定大小的滑动窗口来收集关键词共现信息。使用逐点互信息(pmi)来计算两个关键词节点之间的权重。文本中两个关键词同时出现的概率越高,就表明这两个关键词之间的相关性越强。当pmi的值小于0时,就认为这两个关键词之间的关系是弱相关的。只有pmi值大于0,才会在两个关键词之间创建一条边。pmi的计算过程如下所示:
[0047][0048][0049][0050]
这里#w(i)代表语料库中包含关键词i的滑动窗口的数量,#w(i,j)代表同时包含关键词i和关键词j的滑动窗口的数量,#w代表滑动窗口的总数量。
[0051]
在领域知识图的帮助下,当实体链接出现oov问题时,就可以从领域知识图中查询这个关键词的邻居信息。根据pmi计算的权重值排序,取出排名前三的邻居。首先使用排名最低的邻居替换原有的关键词,重新从外部知识库中链接实体,如果依旧出现oov问题,则依次取出下一个排名的邻居重新链接,直至成功或遍历结束为止。
[0052]
在新闻标题短文本s
2“万方数据认同论文侵权案判决结果”中,对于关键词“侵权案”在ment2ent操作时则会出现oov的问题。此时,以“侵权案”作为节点,查询领域知识图中的邻居信息,得到节点集合{“诉讼请求”,“版权法”,“诉谷”},使用“诉讼请求”替换“侵权案”关键词,并重新链接到外部知识库,没有出现oov问题,因此将“诉讼请求”加入候选实体集合。
[0053]
步骤6:语义增强可以弥补短文本信息不足的缺点。对于上一步获得候选实体集合,依次将它们链接到外部知识库,可以得到与实体相关的解释信息,丰富短文本的语义信息。
[0054]
对于候选实体“诉讼请求”,可以得到它的解释信息k1={“诉讼请求的概念在外国民事诉讼有广义和狭义之分。从广义上讲,诉讼请求是向法院提出的,要求法院予以判决的请求”};
[0055]
对于候选实体“苹果公司”,可以得到它的解释信息k2={“苹果公司是美国一家高科技公司”}。
[0056]
步骤7:对于中文短文本来讲,词的分布不均匀,因此这里采用微调的预训练模型bert来获取字符级语义信息。使用字符级嵌入代替词嵌入有两个原因:(1)新闻标题长度较短,词嵌入存在数据稀疏的问题。(2)方便textcnn提取多个连续单词之间的n-grams信息。
[0057]
假设新闻标题短文本s长度为n,解释信息k长度为l,向量维度为d。若新闻标题或解释信息的长度不够长,则使用《pad》来填充句子,反之截断多余的部分。这样我们就可以获得短文本语义矩阵ws和解释信息语义矩阵wk。
[0058][0059][0060]
代表新闻标题短文本s中的第i个单词的d维向量表示,代表向量拼接操作。因此,语义增强后的特征表示矩阵
[0061]
步骤8:虽然cnn不适合学习长距离语义信息,但它可以更好地学习新闻标题短文本的局部信息。因此本发明采用textcnn来捕获深层次的语义信息,主要包括卷积层、池化层和全连接层。
[0062]
卷积层采用大小的卷积核作用于长度为n l个单词的语义矩阵,可以得到深层次的语义特征。
[0063]ci
=f(w
·
x
i:i h-1
b)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0064]
这里代表偏置项,f是非线性激活函数,最终就可以得到一个新的特征矩阵c。
[0065]
c=[c1,c2,

,c
n-h 1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0066]
池化层用来捕获最重要的特征值,并采用dropout随机初始化特征值为0。这是一种正则化手段,用来避免模型过拟合。然后将不同大小卷积核得到的特征矩阵拼接到一块,输入全连接层用于分类。
[0067]
步骤9:使用softmax激活函数输出每个类别的概率值,得到最终的分类结果。
[0068]
本发明主要解决了自然语言处理中短文本信息不足和oov问题。提出了一种基于外部知识库和领域知识库的双知识库模型。该模型利用cndbpedia外部知识库获取短文本的语义增强信息。当实体链接失败时,通过在领域知识图中寻找合适的关键词进行替换。然后使用textcnn来捕捉多个连续单词之间的特征。最后,使用全连接层进行分类。
[0069]
本发明已经通过上述实例进行了说明,但是很显然,这里的实例只是起到解释说明的目的,而非将本发明局限于该实例范围内。本发明技术领域的研究人员可以根据上述的步骤作出形式和内容方面非实质性的改变而不偏离本发明所实质保护的范围,因此,本发明不局限于上述具体的形式和细节。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献