一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于异构信息网络的新闻事件发现算法及装置的制作方法

2021-12-04 00:17:00 来源:中国专利 TAG:


1.本发明涉及信息网络技术领域,尤其涉及种基于异构信息网络的新闻事件发现算法。


背景技术:

2.从海量文本数据中快速查找目标信息,实时跟踪当前热点话题的发展趋势逐渐成为用户实实在在的需求。以实时检测和追踪为目标的话题检测与追踪(tdt)技术逐渐迎来了大放异彩的时代,如今在科技企业、政府部门为了实时跟踪社会舆论导向,面向新闻事件的话题检测与跟踪算法已经成为计算机科研人员的重点研究方向。但目前的话题检测或事件发现算法没有考虑到各个关键词的情感信息,无法推荐有着相同感情色彩的文章。其次,目前传统的文本相似度算法通过tf

idf计算文本的词频逆文档概率值,但会出现频率相同的关键词,这将导致对其所在的文档产生不同程度的影响。而只通过关键词的相似度进行事件发现,也会导致用户的情感与文章大量的隐藏信息的流失。无法进行准确地完成事件发现任务。
3.目前相近似的方法:
4.1.只根据tf

idf计算文本词频来进行相关度比较的新闻推荐;
5.2.对关键词进行提取后,直接通过异构信息网络(hin)进行推荐;
6.3.文章根据图注意力网络(gat)进行推荐。
7.但是基于目前的方法有诸如以下的缺点:
8.1)没有很好地考虑文章的感情色彩
9.比如文章为科比去世,关键信息是nba、科比、去世。其感情悲伤的,用户想关注的是为什么科比去世,这个信息的更多报道。而非nba别的球星在这个时间段做了什么,谁又获得mvp。
10.2)异构图神经网络的复杂性
11.异构图神经网络虽然是一种基于多条元路径处理可以识别节点特征和语义特征的框架,但该框架需要提前指定元路径数量并会针对每条元路径的邻接矩阵与相同特征矩阵一起经过一次图注意力网络的训练,这极大提高了模型训练的时间复杂度。
12.异构图的产生主要由人工设置路径的样式来产生,如n

k

n,其中n表示新闻(news),k表示关键词(keys),这条元路径代表新闻报道之间存在相同的关键词,通过相同关键词进行联系。


技术实现要素:

13.本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
14.为此,本发明的第一个目的在于提出一种基于异构信息网络的新闻事件发现算法,以实现更加准确的对用户进行准确的推荐。
15.本发明的第二个目的在于提出一种基于异构信息网络的新闻事件发现装置。
16.为达上述目的,本发明第一方面实施例提出了一种基于异构信息网络的新闻事件发现算法,包括以下步骤:
17.步骤s1,对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据所述多个关键词生成关键词集合;
18.步骤s2,将所述关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
19.步骤s3,将所述事件群进行元路径或元图的构造,得到构造矩阵,并根据所述构造矩阵生成距离矩阵;
20.步骤s4,将所述距离矩阵与所述事件群通过图注意力网络进行特征提取,得到特征矩阵;
21.步骤s5,根据所述特征矩阵构建推荐簇;
22.步骤s6,选取所述推荐簇中大于所述原始文章相似度预设阈值的新闻进行推荐。
23.可选地,在本技术的一个实施例中,其特征在于,
24.所述预处理包括通过结巴分词对所述文章进行分词处理,以及,所述各关键词的重要程度为:
25.a

tfidf=tfidf w
26.其中w公式定义为:
27.w=n*o
28.其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e

16。
29.可选地,在本技术的一个实施例中,其特征在于,所述s2包括:
30.对所述预测模型进行训练;
31.将训练好的预测模型进行话题预测,得到预测结果;
32.将所述预测结果与所述多种话题对应,得到相应的新闻事件群集合。
33.可选地,在本技术的一个实施例中,其特征在于,所述对所述预测模型进行训练,包括:
34.对所述关键词集合进行词嵌入,得到关键词集合词向量;
35.对关键词的情感信息进行词嵌入,得到关键词情感信息词向量;
36.将所述关键词集合词向量和所述关键词情感信息词向量进行拼接处理,并通过全连接层进行降维;
37.将降维后的关键词集合词向量和关键词的情感信息词向量放进所述预测模型,进行话题的预测。
38.可选地,在本技术的一个实施例中,其特征在于,所述s3,包括:
39.通过选取nkn路径、nun路径、nln路径,对所述事件群进行元路径的构造,得到元路径构造矩阵;
40.通过选取nk(l\u)kn对所述事件群进行进行元图构造,得到元图构造矩阵;
41.其中,n表示新闻实例,u表示人名,k表示关键词,l表示地点。
42.可选地,在本技术的一个实施例中,其特征在于,所述s3,还包括:
43.将所述元路径构造矩阵和所述元图构造矩阵进行pathsim计算,得到所述距离矩阵,所述距离矩阵的计算公式为:
[0044][0045]
可选地,在本技术的一个实施例中,其特征在于,s4包括:
[0046]
所述通过图注意力网络进行特征提取时,保证图注意力网络节点之间存在的关联性;
[0047]
使用softmax进行规范化操作,对比所述图注意力网络节点造成影响的注意力系数,其中,所述注意力系数公式为:
[0048][0049]
可选地,在本技术的一个实施例中,其特征在于,s5包括:
[0050]
通过对所述聚类算法的参数进行调整,以使所述推荐簇达到准确性的预设阈值。
[0051]
本发明的基于异构信息网络的新闻事件发现方法,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本技术提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过hin进行距离矩阵的构建,减少了模型训练的时间复杂度。
[0052]
为达上述目的,本技术第二方面实施例提出本发明一种基于异构信息网络的新闻事件发现装置,包括以下模块:
[0053]
数据预处理模块,用于对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据所述多个关键词生成关键词集合;
[0054]
预测模块,用于将所述关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
[0055]
构造模块,用于将所述事件群进行元路径或元图的构造,得到构造矩阵,并通过对所述构造矩阵的计算,得到距离矩阵;
[0056]
特征提取模块,用于将所述距离矩阵与所述事件群通过图注意力网络进行特征提取,得到特征矩阵;
[0057]
特征聚类模块,用于根据所述特征矩阵构建推荐簇;
[0058]
推荐模块,用于选取所述推荐簇中大于所述原始文章相似度预设阈值的新闻进行推荐。
[0059]
可选地,在本技术的一个实施例中,其特征在于,所述数据预处理模块,包括:
[0060]
通过结巴分词对所述文章进行分词处理,以及,所述各关键词的重要程度为:
[0061]
a

tfidf=tfidf w
[0062]
其中w公式定义为:
[0063]
w=n*o
[0064]
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e

16。
[0065]
本发明的基于异构信息网络的新闻事件发现装置,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本技术提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过hin进行距离矩阵的构建,减少了模型训练的时间复杂度。
[0066]
本技术的技术效果:第一、将文章的感情信息进行融入可以在一定程度上提高新闻话题推荐的准确性,并以此来更好的进行新闻报道的推荐;第二、只是通过hin进行距离矩阵的构建,并在特征矩阵形成的过程中添加了感情色彩,减少了模型训练的时间复杂度。以上两点可以更加准确的对用户进行准确的推荐。
[0067]
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0068]
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0069]
图1为本发明实施例的一种基于异构信息网络的新闻事件发现算法的流程示意图;
[0070]
图2为本发明实施例的一种基于异构信息网络的新闻事件发现装置的结构示意图。
具体实施方式
[0071]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0072]
下面参考附图描述本发明实施例的一种基于异构信息网络的新闻事件发现算法。
[0073]
如图1所示,为达上述目的,本发明第一方面实施例提出了一种基于异构信息网络的新闻事件发现算法,包括以下步骤:
[0074]
步骤s1,对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;
[0075]
步骤s2,将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
[0076]
步骤s3,将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;
[0077]
步骤s4,将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;
[0078]
步骤s5,根据特征矩阵构建推荐簇;
[0079]
步骤s6,选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。
[0080]
在本技术的一个实施例中,预处理包括通过结巴分词对文章进行分词处理,以及,各关键词的重要程度为:
[0081]
a
ꢀ‑
tfidf=tfidf w
[0082]
其中w公式定义为:
[0083]
w=n*o
[0084]
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e

16。
[0085]
在本技术的一个实施例中,进一步地,s2包括:
[0086]
对改进的模型训练;
[0087]
s211、对关键词集合进行词嵌入;
[0088]
s212、对关键词的感情信息进行词嵌入;
[0089]
s213、将上述两个词向量进行拼接处理,并通过全连接层进行降维;
[0090]
s214、将降维后的向量放进的模型进行话题的预测;
[0091]
s215、重复s211

s214过程直到话题预测的准确率不再提升;
[0092]
s22、将训练好的模型进行话题预测;
[0093]
s23、将预测结果与数据库中的话题对应,得到相应的新闻事件群集合。
[0094]
在本技术的一个实施例中,进一步地,s3,包括:
[0095]
s31、选取nkn路径、nun路径、nln路径,以此来对事件群进行元路径的构造。其中n表示新闻实例,u表示人名,k表示关键词,l表示地点。
[0096]
s32、选取nk(l\u)kn为元图进行构造,其代表一篇新闻报道可以通过地点和用户多种方式与另一篇产生联系,表示文档的相关性更强。
[0097]
s33、将构造出来的矩阵进行pathsim计算,产生距离矩阵。其计算公式为:
[0098][0099]
在本技术的一个实施例中,进一步地,s4包括:
[0100]
s41、将距离矩阵通过图注意力网络进行更强的特征提取,来保证各节点之间存在一定的关联性;
[0101]
s42、为了对比节点造成影响的注意力系数,我们使用softmax进行规范化操作,其公式为:
[0102][0103]
在本技术的一个实施例中,进一步地,s5包括:
[0104]
通过对dbscan算法中eps,min_samples参数的不断调整,来保证推荐簇构成的准确性,防止相似度高的文章成为噪声点。
[0105]
基于本技术实施例的基于异构信息网络的新闻事件发现算法,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事
件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本技术提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过hin进行距离矩阵的构建,减少了模型训练的时间复杂度。
[0106]
如图2所示,为达上述目的,本技术第二方面实施例提出本发明一种基于异构信息网络的新闻事件发现装置10,包括以下模块:
[0107]
数据预处理模块100,用于对多种话题的新闻进行抽取,并对抽取的新闻进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;
[0108]
预测模块200,用于将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;
[0109]
构造模块300,用于将事件群进行元路径或元图的构造,得到构造矩阵,并通过对构造矩阵的计算,得到距离矩阵;
[0110]
特征提取模块400,用于将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;
[0111]
特征聚类模块500,用于根据特征矩阵构建推荐簇;
[0112]
推荐模块600,用于选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。
[0113]
可选地,在本技术的一个实施例中,上述数据预处理模块,包括:
[0114]
通过结巴分词对文章进行分词处理,以及,各关键词的重要程度为:
[0115]
a

tfidf=tfidf w
[0116]
其中w公式定义为:
[0117]
w=n*o
[0118]
其中,n为数值相同的关键词中前面相同数值的个数,o为统一的极小值1.0e

16。
[0119]
基于本技术实施例的基于异构信息网络的新闻事件发现装置,通过对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本技术提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过hin进行距离矩阵的构建,减少了模型训练的时间复杂度。
[0120]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0121]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性
或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献