一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

新闻稿件传播分析方法、系统、电子设备及存储介质与流程

2022-06-05 06:35:49 来源:中国专利 TAG:


1.本发明涉及传播分析算法领域,具体涉及到一种新闻稿件传播分析方法、系统、电子设备及存储介质。


背景技术:

2.随着新技术(大数据、人工智能)的广泛应用,新闻稿件的传播情况,可以通过计算机实时统计,并绘制传播链路图,更加客观地评价传播情况,便于宣传管理人员实时查看,把握新闻稿件的传播影响力。稿件在传播和转发的过程中,可以对标题或者内容做部分微调,微调情况比较复杂多变,传播分析算法不易识别,常常出现首发媒体不准,遗漏部分传播稿件等情况,导致新闻稿件传播分析不准确。


技术实现要素:

3.有鉴于此,本发明实施例提供了一种新闻稿件传播分析方法、系统、电子设备及存储介质,以解决现有技术中新闻稿件传播分析不准确的缺点。
4.为此,本发明实施例提供了如下技术方案:
5.根据第一方面,本发明实施例提供了一种新闻稿件传播分析方法,包括:获取目标新闻稿件和海量稿件数据库,所述海量稿件数据库中包括多个待分析新闻稿件;根据目标新闻稿件确定目标新闻稿件的标题所对应的标题主题词库,标题主题词库包括第一预设数量的标题主题词;根据目标新闻稿件确定目标新闻稿件的内容所对应的内容主题词库,内容主题词库包括第二预设数量的内容主题词;将海量稿件数据库中每一个待分析新闻稿件的标题分别与目标新闻稿件的标题主题词库进行比较,将待分析新闻稿件标题中至少包含第三预设数量的标题主题词的待分析新闻稿件形成标题主题词匹配稿件库,所述第三预设数量小于第一预设数量;将海量稿件数据库中每一个待分析新闻稿件的内容分别与目标新闻稿件的内容主题词库进行比较,将待分析新闻稿件内容中至少包含第四预设数量的内容主题词的待分析新闻稿件形成内容主题词匹配稿件库,所述第四预设数量小于第二预设数量;将标题主题词匹配稿件库和内容主题词匹配稿件库进行去重处理,得到去重稿件库;将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行相似度比较,得到相似度比较结果;根据相似度比较结果进行相似度过滤处理,得到传播稿件库;根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的发稿网站,将发稿网站作为传播节点;根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的转载信息和发稿时间,得到传播节点之间的转载关系;根据传播节点和转载关系绘制传播链路图。
6.可选地,根据目标新闻稿件确定目标新闻稿件的标题所对应的标题主题词库,标题主题词库包括第一预设数量的标题主题词的步骤中,包括:根据目标新闻稿件确定目标新闻稿件的标题;对目标新闻稿件的标题进行分词,得到目标新闻稿件标题对应的标题分词;对标题分词进行词频统计,得到目标新闻稿件标题中每一个标题分词的词频值;将词频值高的第一预设数量的标题分词作为目标新闻稿件标题对应的标题主题词,形成标题主题
词库。
7.可选地,根据目标新闻稿件确定目标新闻稿件的内容所对应的内容主题词库,内容主题词库包括第二预设数量的内容主题词的步骤中,包括:根据目标新闻稿件确定目标新闻稿件的内容;对目标新闻稿件的内容进行分词,得到目标新闻稿件内容对应的内容分词;对内容分词进行词频统计,得到目标新闻稿件内容中每一个内容分词的词频值;将词频值高的第二预设数量的内容分词作为目标新闻稿件内容对应的内容主题词,形成内容主题词库。
8.可选地,将标题主题词匹配稿件库和内容主题词匹配稿件库进行去重处理,得到去重稿件库的步骤中,包括:将标题主题词匹配稿件库和内容主题词匹配稿件库进行合并,得到合并稿件库;去除合并稿件库中url相同的待分析新闻稿件,得到去重稿件库。
9.可选地,将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行相似度比较,得到相似度比较结果的步骤中,包括:根据目标新闻稿件的内容进行句子字数统计,得到目标新闻稿件对应的字数统计值高的第五预设数量的句子作为目标稿件句子;根据去重稿件库中每一个待分析新闻稿件的内容分别进行句子字数统计,得到去重稿件库中每一个待分析新闻稿件对应的字数统计值高的第五预设数量的句子作为每一个待分析新闻稿件对应的去重稿件句子;将目标新闻稿件对应的目标稿件句子分别与去重稿件库中的每一个待分析新闻稿件对应的去重稿件句子进行相似度比较,得到相似度比较结果。
10.可选地,根据相似度比较结果进行相似度过滤处理,得到传播稿件库的步骤中,包括:获取预设相似度阈值;分别判断去重稿件库中的每一个待分析新闻稿件的相似度比较结果是否小于预设相似度阈值;若相似度比较结果小于预设相似度阈值,则去除相似度比较结果对应的待分析新闻稿件;若相似度比较结果大于或者等于预设相似度阈值,则保留相似度比较结果对应的待分析新闻稿件,保留下来的待分析新闻稿件构成传播稿件库。
11.可选地,根据传播节点和转载关系绘制传播链路图的步骤之后,还包括:根据传播链路图确定新闻稿件首发点、爆发点、推测点、关联关系和推测关系中的至少之一。
12.根据第二方面,本发明实施例提供了一种新闻稿件传播分析系统,包括:获取模块,用于获取目标新闻稿件和海量稿件数据库,所述海量稿件数据库中包括多个待分析新闻稿件;第一处理模块,用于根据目标新闻稿件确定目标新闻稿件的标题所对应的标题主题词库,标题主题词库包括第一预设数量的标题主题词;第二处理模块,用于根据目标新闻稿件确定目标新闻稿件的内容所对应的内容主题词库,内容主题词库包括第二预设数量的内容主题词;第三处理模块,用于将海量稿件数据库中每一个待分析新闻稿件的标题分别与目标新闻稿件的标题主题词库进行比较,将待分析新闻稿件标题中至少包含第三预设数量的标题主题词的待分析新闻稿件形成标题主题词匹配稿件库,所述第三预设数量小于第一预设数量;第四处理模块,用于将海量稿件数据库中每一个待分析新闻稿件的内容分别与目标新闻稿件的内容主题词库进行比较,将待分析新闻稿件内容中至少包含第四预设数量的内容主题词的待分析新闻稿件形成内容主题词匹配稿件库,所述第四预设数量小于第二预设数量;第五处理模块,用于将标题主题词匹配稿件库和内容主题词匹配稿件库进行去重处理,得到去重稿件库;第六处理模块,用于将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行相似度比较,得到相似度比较结果;第七处理模块,用于根
据相似度比较结果进行相似度过滤处理,得到传播稿件库;第八处理模块,用于根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的发稿网站,将发稿网站作为传播节点;第九处理模块,用于根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的转载信息和发稿时间,得到传播节点之间的转载关系;第十处理模块,用于根据传播节点和转载关系绘制传播链路图。
13.可选地,所述第一处理模块包括:第一处理单元,用于根据目标新闻稿件确定目标新闻稿件的标题;第二处理单元,用于对目标新闻稿件的标题进行分词,得到目标新闻稿件标题对应的标题分词;第三处理单元,用于对标题分词进行词频统计,得到目标新闻稿件标题中每一个标题分词的词频值;第四处理单元,用于将词频值高的第一预设数量的标题分词作为目标新闻稿件标题对应的标题主题词,形成标题主题词库。
14.可选地,所述第二处理模块包括:第五处理单元,用于根据目标新闻稿件确定目标新闻稿件的内容;第六处理单元,用于对目标新闻稿件的内容进行分词,得到目标新闻稿件内容对应的内容分词;第七处理单元,用于对内容分词进行词频统计,得到目标新闻稿件内容中每一个内容分词的词频值;第八处理单元,用于将词频值高的第二预设数量的内容分词作为目标新闻稿件内容对应的内容主题词,形成内容主题词库。
15.可选地,所述第五处理模块包括:第九处理单元,用于将标题主题词匹配稿件库和内容主题词匹配稿件库进行合并,得到合并稿件库;第十处理单元,用于去除合并稿件库中url相同的待分析新闻稿件,得到去重稿件库。
16.可选地,所述第六处理模块包括:第十一处理单元,用于根据目标新闻稿件的内容进行句子字数统计,得到目标新闻稿件对应的字数统计值高的第五预设数量的句子作为目标稿件句子;第十二处理单元,用于根据去重稿件库中每一个待分析新闻稿件的内容分别进行句子字数统计,得到去重稿件库中每一个待分析新闻稿件对应的字数统计值高的第五预设数量的句子作为每一个待分析新闻稿件对应的去重稿件句子;第十三处理单元,用于将目标新闻稿件对应的目标稿件句子分别与去重稿件库中的每一个待分析新闻稿件对应的去重稿件句子进行相似度比较,得到相似度比较结果。
17.可选地,所述第七处理模块包括:获取单元,用于获取预设相似度阈值;判断单元,用于分别判断去重稿件库中的每一个待分析新闻稿件的相似度比较结果是否小于预设相似度阈值;第十四处理单元,用于若相似度比较结果小于预设相似度阈值,则去除相似度比较结果对应的待分析新闻稿件;第十五处理单元,用于若相似度比较结果大于或者等于预设相似度阈值,则保留相似度比较结果对应的待分析新闻稿件,保留下来的待分析新闻稿件构成传播稿件库。
18.可选地,还包括:第十一处理模块,用于根据传播链路图确定新闻稿件首发点、爆发点、推测点、关联关系和推测关系中的至少之一。
19.根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的新闻稿件传播分析方法。
20.根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的新闻
稿件传播分析方法。
21.本发明实施例技术方案,具有如下优点:
22.本发明实施例提供了一种新闻稿件传播分析方法、系统、电子设备及存储介质,其中,该方法包括:获取目标新闻稿件和海量稿件数据库,所述海量稿件数据库中包括多个待分析新闻稿件;根据目标新闻稿件确定目标新闻稿件的标题所对应的标题主题词库,标题主题词库包括第一预设数量的标题主题词;根据目标新闻稿件确定目标新闻稿件的内容所对应的内容主题词库,内容主题词库包括第二预设数量的内容主题词;将海量稿件数据库中每一个待分析新闻稿件的标题分别与目标新闻稿件的标题主题词库进行比较,将待分析新闻稿件标题中至少包含第三预设数量的标题主题词的待分析新闻稿件形成标题主题词匹配稿件库,所述第三预设数量小于第一预设数量;将海量稿件数据库中每一个待分析新闻稿件的内容分别与目标新闻稿件的内容主题词库进行比较,将待分析新闻稿件内容中至少包含第四预设数量的内容主题词的待分析新闻稿件形成内容主题词匹配稿件库,所述第四预设数量小于第二预设数量;将标题主题词匹配稿件库和内容主题词匹配稿件库进行去重处理,得到去重稿件库;将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行相似度比较,得到相似度比较结果;根据相似度比较结果进行相似度过滤处理,得到传播稿件库;根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的发稿网站,将发稿网站作为传播节点;根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的转载信息和发稿时间,得到传播节点之间的转载关系;根据传播节点和转载关系绘制传播链路图。上述步骤,根据目标新闻稿件的标题主题词和内容主题词两个方面在海量稿件数据库的多个待分析新闻稿件中进行相似新闻稿件的查找,得到与目标新闻稿件相关联的标题主题词匹配稿件库和内容主题词匹配稿件库;将这两个主题词匹配稿件库进行合并去重后得到去重稿件库;再根据稿件内容进行相似度比较,得到相似度比较结果;之后根据相似度比较结果进行稿件内容相似度过滤,去除内容相似度低的稿件,得到传播稿件库;根据传播稿件库确定传播节点和节点之间的转载关系,得到目标新闻稿件对应的传播链路图。该方法先从标题主题词和内容主题词两个方面进行匹配得到去重稿件库,避免传播稿件的遗漏;之后再根据内容进一步进行稿件相似度过滤,筛选出相似度较高的稿件,得到传播稿件,提高了传播稿件的精准度,基于上述传播稿件得到的传播链路图也更加精准,提高了新闻稿件传播分析的准确性。
附图说明
23.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1为本发明实施例的新闻稿件传播分析方法的一个具体示例的流程图;
25.图2为本发明实施例的新闻稿件传播分析方法的另一个具体示例的流程图;
26.图3为本发明实施例的新闻稿件传播分析方法的传播链路图的一个具体示例的示意图;
27.图4为本发明实施例的新闻稿件传播分析系统的一个具体示例的框图;
28.图5为本发明实施例的电子设备的示意图。
具体实施方式
29.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
30.本发明实施例提供了一种新闻稿件传播分析方法,如图1所示,该方法包括步骤s1-s11。
31.步骤s1:获取目标新闻稿件和海量稿件数据库,所述海量稿件数据库中包括多个待分析新闻稿件。
32.本实施例中,目标新闻稿件是根据用户需求确定的,用户需要分析该新闻稿件的传播情况,根据该新闻稿件确定待分析新闻稿件以便对待分析新闻稿件进行传播分析。
33.本实施例中,海量稿件数据库是互联网上和目标新闻稿件相关的稿件,这些相关的稿件即为待分析的稿件,每一个相关稿件便是一个待分析新闻稿件。具体的,用户通过搜索需要的新闻稿件的标题,进行查找,得到互联网上标题匹配的稿件,这些标题匹配的稿件构成海量稿件数据库;本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,还可以通过稿件内容在互联网上查找相关联的稿件得到海量稿件数据库,在实际应用中根据需要合理设置即可。
34.步骤s2:根据目标新闻稿件确定目标新闻稿件的标题所对应的标题主题词库,标题主题词库包括第一预设数量的标题主题词。
35.本实施例中,第一预设数量可以是5;本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,第一预设数量还可以是其它数值,如4或者6等,根据需要合理设置即可。
36.本实施例中,先根据目标新闻稿件找到该稿件的标题;然后,对标题进行分词,得到标题对应的标题分词;之后,对标题分词进行词频统计,将词频高的第一预设数量的标题分词作为标题主题词,第一预设数量的标题主题词构成标题主题词库。
37.步骤s3:根据目标新闻稿件确定目标新闻稿件的内容所对应的内容主题词库,内容主题词库包括第二预设数量的内容主题词。
38.本实施例中,第二预设数量可以是5;本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,第二预设数量还可以是其它数值,如4或者6等,根据需要合理设置即可。
39.本实施例中,先根据目标新闻稿件找到该稿件的内容;然后,对内容进行分词,得到内容对应的内容分词;之后,对内容分词进行词频统计,将词频高的第二预设数量的内容分词作为内容主题词,第二预设数量的内容主题词构成内容主题词库。
40.步骤s4:将海量稿件数据库中每一个待分析新闻稿件的标题分别与目标新闻稿件的标题主题词库进行比较,将待分析新闻稿件标题中至少包含第三预设数量的标题主题词的待分析新闻稿件形成标题主题词匹配稿件库,所述第三预设数量小于第一预设数量。
41.本实施例中,第三预设数量小于第一预设数量,当第一预设数量为5时,第三预设数量可以是4;当然,在其它实施例中,第三预设数量的具体数值还可以设置为其它数值,根
据需要合理设置即可。
42.本实施例中,分别将每一个待分析新闻稿件的标题与目标新闻稿件的标题主题词库进行比较,找到待分析新闻稿件的标题中与标题主题词相同的词语的个数,也就是待分析新闻稿件标题中包含多少个标题主题词。当待分析新闻稿件标题中包含的标题主题词的个数大于或者等于第三预设数量时,则说明该待分析新闻稿件的标题与目标稿件的标题匹配度较高,两个稿件较近似,该待分析新闻稿件作为标题主题词匹配稿件,并将其保留至标题主题词匹配稿件库中;当待分析新闻稿件标题中包含的标题主题词的个数小于第三预设数量时,则说明该待分析新闻稿件的标题与目标稿件的标题匹配度较低,两个新闻稿件相似程度低,将该待分析新闻稿件不能作为标题主题词匹配稿件。
43.例如,标题主题词库包括5个标题主题词,将海量稿件数据库的待分析新闻稿件标题中包括至少4个标题主题词的待分析新闻稿件存入标题主题词匹配稿件库中。
44.步骤s5:将海量稿件数据库中每一个待分析新闻稿件的内容分别与目标新闻稿件的内容主题词库进行比较,将待分析新闻稿件内容中至少包含第四预设数量的内容主题词的待分析新闻稿件形成内容主题词匹配稿件库,所述第四预设数量小于第二预设数量。
45.本实施例中,第四预设数量小于第二预设数量,当第二预设数量为5时,第四预设数量可以是4;当然,在其它实施例中,第四预设数量的具体数值还可以设置为其它数值,根据需要合理设置即可。
46.本实施例中,分别将每一个待分析新闻稿件的内容与目标新闻稿件的内容主题词库进行比较,找到待分析新闻稿件的内容中与内容主题词相同的词语的个数,也就是待分析新闻稿件内容中包含多少个内容主题词。当待分析新闻稿件内容中包含的内容主题词的个数大于或者等于第四预设数量时,则说明该待分析新闻稿件的内容与目标稿件的内容匹配度较高,两个稿件较近似,该待分析新闻稿件作为内容主题词匹配稿件,并将其保留至内容主题词匹配稿件库中;当待分析新闻稿件内容中包含的内容主题词的个数小于第四设数量时,则说明该待分析新闻稿件的内容与目标稿件的内容匹配度较低,两个新闻稿件相似程度低,将该待分析新闻稿件不能作为内容主题词匹配稿件。
47.步骤s6:将标题主题词匹配稿件库和内容主题词匹配稿件库进行去重处理,得到去重稿件库。
48.本实施例中,由于标题主题词匹配稿件库仅是通过标题主题词匹配得到的,内容主题词匹配稿件库仅是通过内容主题词匹配得到的,两个主题词匹配稿件库是独立进行稿件匹配的。当一个待分析新闻稿件与目标新闻稿件的标题主题词和内容主题词同时匹配时,这种情况下,这两个主题词匹配稿件库中均包含该待分析新闻稿件。将标题主题词匹配稿件库和内容主题词匹配稿件库中的待分析新闻稿件合并后还需要进行去重处理,去掉重复出现的待分析新闻稿件,减少数据量,提高处理速度。
49.步骤s7:将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行相似度比较,得到相似度比较结果。
50.本实施例中,将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行内容相似度比较,进一步确定稿件内容的相似程度,内容比较后得到去重稿件库中每一个待分析新闻稿件的内容相似度比较结果。
51.本实施例中,内容的相似度比较具体是通过比较待分析新闻稿件内容中最长的3
个句子和目标新闻稿件内容中最长的3个句子的句子相似度。
52.步骤s8:根据相似度比较结果进行相似度过滤处理,得到传播稿件库。
53.本实施例中,通过预设相似度阈值对相似度比较结果进行相似度过滤,将相似度比较结果小于预设相似度阈值的待分析新闻稿件过滤去除,保留相似度比较结果不小于预设相似度阈值的待分析新闻稿件,这些保留下来的新闻稿件组成传播稿件库。
54.步骤s9:根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的发稿网站,将发稿网站作为传播节点。
55.本实施例中,根据传播稿件库中每一个待分析新闻稿件的来源得到待分析新闻稿件的发稿网站,这些发稿网站便是传播链路图中的传播节点。
56.步骤s10:根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的转载信息和发稿时间,得到传播节点之间的转载关系。
57.本实施例中,根据传播稿件库中每一个待分析新闻稿件的稿件信息得到待分析新闻稿件的转载信息和发稿时间,通过发稿时间的先后顺序和转载信息确定传播节点之间的转载关系。
58.例如,待分析新闻稿件1的稿件信息是发稿时间9月1日,转载b网站发布的待分析新闻稿件2,发布在a网站;待分析新闻稿件2的稿件信息是发稿时间8月31日,在b网站发布;待分析新闻稿件3的稿件信息是发稿时间9月2日,转载b网站发布的待分析新闻稿件2,发布在c网站。那么,待分析新闻稿件1和2的转载关系是b网站
‑‑
a网站,待分析新闻稿件2和3的转载关系是b网站
‑‑
c网站。
59.步骤s11:根据传播节点和转载关系绘制传播链路图。
60.本实施例中,根据传播节点和转载关系进行传播链路图的绘制,具体通过前端vue技术进行绘制,绘制树形结构的链路图,即传播链路图为树形结构,这样便得到了新闻稿件的传播关系。
61.上述步骤,根据目标新闻稿件的标题主题词和内容主题词两个方面在海量稿件数据库的多个待分析新闻稿件中进行相似新闻稿件的查找,得到与目标新闻稿件相关联的标题主题词匹配稿件库和内容主题词匹配稿件库;将这两个主题词匹配稿件库进行合并去重后得到去重稿件库;再根据稿件内容进行相似度比较,得到相似度比较结果;之后根据相似度比较结果进行稿件内容相似度过滤,去除内容相似度低的稿件,得到传播稿件库;根据传播稿件库确定传播节点和节点之间的转载关系,得到目标新闻稿件对应的传播链路图。该方法先从标题主题词和内容主题词两个方面进行匹配得到去重稿件库,避免传播稿件的遗漏;之后再根据内容进一步进行稿件相似度过滤,筛选出相似度较高的稿件,得到传播稿件,提高了传播稿件的精准度,基于上述传播稿件得到的传播链路图也更加精准,提高了新闻稿件传播分析的准确性。
62.作为示例性的实施例,步骤s2根据目标新闻稿件确定目标新闻稿件的标题所对应的标题主题词库,标题主题词库包括第一预设数量的标题主题词的步骤中,包括步骤s201-s204。
63.s201:根据目标新闻稿件确定目标新闻稿件的标题。
64.本实施例中,根据目标新闻稿件找到其对应的标题,具体可通过现有技术中的标题提取方法,如使用es中ik-mask算法,本实施例中对此仅作示意性说明,不以此为限。
65.s202:对目标新闻稿件的标题进行分词,得到目标新闻稿件标题对应的标题分词。
66.本实施例中,将目标新闻稿件的标题进行分词处理,具体的分词方法可以是使用es中ik-mask算法;本实施例中对此仅作示意性说明,不以此为限;当然,在其它实施例中,还可以通过现有技术中的其它分词方法进行标题的分词。
67.s203:对标题分词进行词频统计,得到目标新闻稿件标题中每一个标题分词的词频值。
68.本实施例中,对分词后的标题分词进行词频统计,统计出每一个词语出现的频次,得到每一个标题分词的词频值。
69.s204:将词频值高的第一预设数量的标题分词作为目标新闻稿件标题对应的标题主题词,形成标题主题词库。
70.本实施例中,第一预设数量可以是5;本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,第一预设数量还可以是其它数值,如4或者6等,根据需要合理设置即可。
71.本实施例中,对标题分词的词频值进行排序,将词频值高的第一预设数量的标题分词作为目标新闻稿件标题对应的标题主题词,这些标题主题词构成标题主题词库。具体的将词频值高的5个标题分词形成标题主题词库,也就是标题主题词库中包括5个词频值高的标题分词。
72.上述步骤,基于分词技术,将目标新闻稿件的标题分词后提取标题对应的第一预设数量的标题分词,将这些标题分词作为标题主题词,以便后续通过标题主题词对海量稿件数据库中的待分析新闻稿件进行标题匹配得到标题主题词匹配的待分析新闻稿件,从标题特征找到相似的新闻稿件。
73.作为示例性的实施例,步骤s3根据目标新闻稿件确定目标新闻稿件的内容所对应的内容主题词库,内容主题词库包括第二预设数量的内容主题词的步骤中,包括步骤s301-s304。
74.s301:根据目标新闻稿件确定目标新闻稿件的内容。
75.本实施例中,根据目标新闻稿件找到其对应的内容,具体可通过现有技术中的内容提取方法,本实施例中对此仅作示意性说明,不以此为限
76.s302:对目标新闻稿件的内容进行分词,得到目标新闻稿件内容对应的内容分词。
77.本实施例中,将目标新闻稿件的内容进行分词处理,具体的分词方法可以是使用es中ik-mask算法,内容分词后需要去停用词;本实施例中对此仅作示意性说明,不以此为限;当然,在其它实施例中,还可以通过现有技术中的其它分词方法进行内容的分词。
78.s303:对内容分词进行词频统计,得到目标新闻稿件内容中每一个内容分词的词频值。
79.本实施例中,对分词后的内容分词进行词频统计,统计出每一个词语出现的频次,得到每一个内容分词的词频值。
80.s304:将词频值高的第二预设数量的内容分词作为目标新闻稿件内容对应的内容主题词,形成内容主题词库。
81.本实施例中,第二预设数量可以是5;本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,第二预设数量还可以是其它数值,如4或者6等,根据需要合理设
置即可。
82.本实施例中,对内容分词的词频值进行排序,将词频值高的第二预设数量的内容分词作为目标新闻稿件内容对应的内容主题词,这些内容主题词构成内容主题词库。具体的将词频值高的5个内容分词形成内容主题词库,也就是内容主题词库中包括5个词频值高的内容分词。
83.上述步骤,基于分词技术,将目标新闻稿件的内容分词后提取内容对应的第二预设数量的内容分词,将这些内容分词作为内容主题词,以便后续通过内容主题词对海量稿件数据库中的待分析新闻稿件进行内容匹配得到内容主题词匹配的待分析新闻稿件,从内容特征找到相似的新闻稿件。
84.作为示例性的实施例,步骤s6将标题主题词匹配稿件库和内容主题词匹配稿件库进行去重处理,得到去重稿件库的步骤中,包括步骤s601-s602。
85.s601:将标题主题词匹配稿件库和内容主题词匹配稿件库进行合并,得到合并稿件库。
86.本实施例中,将标题主题词匹配稿件库和内容主题词匹配稿件库中的待分析新闻稿件进行合并,也就是将这两个主题词匹配库中的待分析新闻稿件放入合并稿件库中。
87.s602:去除合并稿件库中url相同的待分析新闻稿件,得到去重稿件库。
88.本实施例中,当一个待分析新闻稿件的标题和内容均与目标新闻稿件匹配时,通过标题匹配后该待分析新闻稿件会存在于标题主题词匹配稿件库中;通过内容匹配后该待分析新闻稿件会存在于内容主题词匹配稿件库中;将两个主题词匹配稿件库简单合并后,该待分析新闻稿件会重复出现。为了去除重复出现的新闻稿件,对合并稿件库进行去重处理,每一个待分析新闻稿件具有唯一的url,通过url进行去重,去除url相同的待分析新闻稿件,去重处理后得到去重稿件库。
89.上述步骤,将标题主题词匹配稿件库和内容主题词匹配稿件库中的待分析新闻稿件合并后进行去重处理,去掉重复出现的待分析新闻稿件,减少数据量,提高处理速度,去重稿件库中的待分析新闻稿件是从标题和内容两个方面共同筛选出来的传播稿件,使得筛选出的传播稿件更加准确。
90.作为示例性的实施例,步骤s7将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行相似度比较,得到相似度比较结果的步骤中,包括步骤s701-s703。
91.s701:根据目标新闻稿件的内容进行句子字数统计,得到目标新闻稿件对应的字数统计值高的第五预设数量的句子作为目标稿件句子。
92.本实施例中,第五预设数量可以是3;本实施例中对此仅作示意性描述,不以此为限;当然,在其它实施例中,第五预设数量还可以是其它数值,如2或者4等,根据需要合理设置即可,
93.本实施例中,对目标新闻稿件的内容进行句子字数的统计,也就是统计目标新闻稿件内容中每一个句子的字数;之后,对目标新闻稿件内容对应的句子字数统计值进行排序,将字数统计值高的第五预设数量的句子作为目标稿件句子。
94.s702:根据去重稿件库中每一个待分析新闻稿件的内容分别进行句子字数统计,得到去重稿件库中每一个待分析新闻稿件对应的字数统计值高的第五预设数量的句子作为每一个待分析新闻稿件对应的去重稿件句子。
95.本实施例中,分别对去重稿件库中每一个待分析新闻稿件的内容进行句子字数的统计,也就是分别统计去重稿件库中每一个待分析新闻稿件内容中每一个句子的字数;之后,分别对每一个待分析新闻稿件内容对应的句子字数统计值进行排序,将字数统计值高的第五预设数量的句子作为对应的待分析新闻稿件的去重稿件句子。
96.s703:将目标新闻稿件对应的目标稿件句子分别与去重稿件库中的每一个待分析新闻稿件对应的去重稿件句子进行相似度比较,得到相似度比较结果。
97.本实施例中,分别将目标新闻稿件对应的目标稿件句子与去重稿件库中的每一个待分析新闻稿件对应的去重稿件句子进行相似度比较,相似度比较具体可以是余弦相似度比较或者现有技术中的相似度比较,通过相似度比较得到去重稿件库中的每一个待分析新闻稿件的相似度比较结果。
98.上述步骤,通过第五预设数量的目标新闻稿件对应的目标稿件句子和待分析新闻稿件对应的去重稿件句子进行稿件内容的相似度比较,得到相似度比较结果,以便后续根据相似度比较结果进一步筛选出稿件内容相似度高的待分析新闻稿件,提高了待分析新闻稿件的精准度。
99.作为示例性的实施例,步骤s8根据相似度比较结果进行相似度过滤处理,得到传播稿件库的步骤中,包括步骤s801-s803。
100.s801:获取预设相似度阈值。
101.本实施例中,预设相似度阈值是基于经验值确定的,具体数值可以是70%,本实施例中对此仅作示意性说明,不以此为限,在其它实施例中还可设置为其它数值,如60%或者80%等,根据实际需要合理设置即可。预设相似度阈值的数值越大,后续筛选出的新闻稿件的相似度越高。
102.s802:分别判断去重稿件库中的每一个待分析新闻稿件的相似度比较结果是否小于预设相似度阈值。
103.本实施例中,将去重稿件库中的每一个待分析新闻稿件的相似度比较结果分别与预设相似度阈值进行比较。当相似度比较结果小于预设相似度阈值时,则执行步骤s803;当相似度比较结果不小于预设相似度阈值时,则执行步骤s804。
104.s803:若相似度比较结果小于预设相似度阈值,则去除相似度比较结果对应的待分析新闻稿件。
105.本实施例中,当待分析新闻稿件的相似度比较结果小于预设相似度阈值时,说明待分析新闻稿件与目标新闻稿件的内容差异较大,故去除该待分析新闻稿件。
106.s804:若相似度比较结果大于或者等于相似度阈值,则保留相似度比较结果对应的待分析新闻稿件,保留下来的待分析新闻稿件构成传播稿件库。
107.本实施例中,当待分析新闻稿件的相似度比较结果大于或者等于预设相似度阈值时,说明待分析新闻稿件与目标新闻稿件的内容较接近,故保留该待分析新闻稿件,这些保留下来的待分析新闻稿件构成传播稿件库。
108.上述步骤,通过预设相似度阈值对相似度比较结果进行相似度过滤,将相似度比较结果小于预设相似度阈值的待分析新闻稿件过滤掉,保留相似度比较结果不小于预设相似度阈值的待分析新闻稿件,这些保留下来的新闻稿件组成传播稿件库,提高了传播稿件库中新闻稿件的内容匹配度。
109.作为示例性的实施例,步骤s11根据传播节点和转载关系绘制传播链路图的步骤之后,还包括步骤s12。
110.s12:根据传播链路图确定新闻稿件首发点、爆发点、推测点、关联关系和推测关系中的至少之一。
111.本实施例中,前端vue技术可以通过以下方法判断,并绘制颜色、图形。
112.首发点:没有父节点的点;
113.爆发点:拥有多个子节点的点;
114.推测点:基于推测关系产生的节点。
115.上述步骤,通过传播链路图进一步分析稿件传播情况,更加客观地评价传播情况,便于实时查看传播情况,把握新闻稿件的传播影响力。
116.下面以一个具体示例详细说明,如图2所示。
117.先根据用户需求确定需要分析的目标新闻稿件;对目标新闻稿件进行稿件标题主题词计算,具体的基于分词技术,提取标题的5个标题特征词;基于5个标题特征词,从采集的海量稿件数据库中,查找满足4个标题特征词的稿件,形成稿件清单1。对目标新闻稿件进行稿件内容主题词计算,具体的基于分词技术,提取稿件内容的5个内容特征词;基于5个内容特征词,从采集的海量稿件数据库中,查找满足4个内容特征词的稿件,形成稿件清单2。之后,对稿件清单1和2进行稿件合并去重,具体是将上述获取的稿件清单1和2合并,去重url相同的稿件。之后,对合并去重后的稿件进行稿件内容比对,每篇稿件抽取最长3句,与目标新闻稿件的最长3句进行比对,相似度70%以下过滤,形成传播稿件清单。计算传播节点,具体过程为获取传播稿件清单的发稿网站信息,形成传播节点。绘制传播图,具体过程是根据传播稿件清单的每篇稿件的转载信息、发稿时间等数据,计算传播节点间的转载关系,绘制传播链路图,传播链路图为树形结构,传播链路图如图3所示。
118.在本实施例中还提供了一种新闻稿件传播分析系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
119.本实施例还提供一种新闻稿件传播分析系统,如图4所示,包括:
120.获取模块1,用于获取目标新闻稿件和海量稿件数据库,所述海量稿件数据库中包括多个待分析新闻稿件;
121.第一处理模块2,用于根据目标新闻稿件确定目标新闻稿件的标题所对应的标题主题词库,标题主题词库包括第一预设数量的标题主题词;
122.第二处理模块3,用于根据目标新闻稿件确定目标新闻稿件的内容所对应的内容主题词库,内容主题词库包括第二预设数量的内容主题词;
123.第三处理模块4,用于将海量稿件数据库中每一个待分析新闻稿件的标题分别与目标新闻稿件的标题主题词库进行比较,将待分析新闻稿件标题中至少包含第三预设数量的标题主题词的待分析新闻稿件形成标题主题词匹配稿件库,所述第三预设数量小于第一预设数量;
124.第四处理模块5,用于将海量稿件数据库中每一个待分析新闻稿件的内容分别与目标新闻稿件的内容主题词库进行比较,将待分析新闻稿件内容中至少包含第四预设数量
的内容主题词的待分析新闻稿件形成内容主题词匹配稿件库,所述第四预设数量小于第二预设数量;
125.第五处理模块6,用于将标题主题词匹配稿件库和内容主题词匹配稿件库进行去重处理,得到去重稿件库;
126.第六处理模块7,用于将目标新闻稿件的内容分别与去重稿件库中的待分析新闻稿件的内容进行相似度比较,得到相似度比较结果;
127.第七处理模块8,用于根据相似度比较结果进行相似度过滤处理,得到传播稿件库;
128.第八处理模块9,用于根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的发稿网站,将发稿网站作为传播节点;
129.第九处理模块10,用于根据传播稿件库确定传播稿件库中每一个待分析新闻稿件的转载信息和发稿时间,得到传播节点之间的转载关系;
130.第十处理模块11,用于根据传播节点和转载关系绘制传播链路图。
131.作为示例性的实施例,所述第一处理模块包括:第一处理单元,用于根据目标新闻稿件确定目标新闻稿件的标题;第二处理单元,用于对目标新闻稿件的标题进行分词,得到目标新闻稿件标题对应的标题分词;第三处理单元,用于对标题分词进行词频统计,得到目标新闻稿件标题中每一个标题分词的词频值;第四处理单元,用于将词频值高的第一预设数量的标题分词作为目标新闻稿件标题对应的标题主题词,形成标题主题词库。
132.作为示例性的实施例,所述第二处理模块包括:第五处理单元,用于根据目标新闻稿件确定目标新闻稿件的内容;第六处理单元,用于对目标新闻稿件的内容进行分词,得到目标新闻稿件内容对应的内容分词;第七处理单元,用于对内容分词进行词频统计,得到目标新闻稿件内容中每一个内容分词的词频值;第八处理单元,用于将词频值高的第二预设数量的内容分词作为目标新闻稿件内容对应的内容主题词,形成内容主题词库。
133.作为示例性的实施例,所述第五处理模块包括:第九处理单元,用于将标题主题词匹配稿件库和内容主题词匹配稿件库进行合并,得到合并稿件库;第十处理单元,用于去除合并稿件库中url相同的待分析新闻稿件,得到去重稿件库。
134.作为示例性的实施例,所述第六处理模块包括:第十一处理单元,用于根据目标新闻稿件的内容进行句子字数统计,得到目标新闻稿件对应的字数统计值高的第五预设数量的句子作为目标稿件句子;第十二处理单元,用于根据去重稿件库中每一个待分析新闻稿件的内容分别进行句子字数统计,得到去重稿件库中每一个待分析新闻稿件对应的字数统计值高的第五预设数量的句子作为每一个待分析新闻稿件对应的去重稿件句子;第十三处理单元,用于将目标新闻稿件对应的目标稿件句子分别与去重稿件库中的每一个待分析新闻稿件对应的去重稿件句子进行相似度比较,得到相似度比较结果。
135.作为示例性的实施例,所述第七处理模块包括:获取单元,用于获取预设相似度阈值;判断单元,用于分别判断去重稿件库中的每一个待分析新闻稿件的相似度比较结果是否小于预设相似度阈值;第十四处理单元,用于若相似度比较结果小于预设相似度阈值,则去除相似度比较结果对应的待分析新闻稿件;第十五处理单元,用于若相似度比较结果大于或者等于预设相似度阈值,则保留相似度比较结果对应的待分析新闻稿件,保留下来的待分析新闻稿件构成传播稿件库。
136.作为示例性的实施例,还包括:第十一处理模块,用于根据传播链路图确定新闻稿件首发点、爆发点、推测点、关联关系和推测关系中的至少之一。
137.本实施例中的新闻稿件传播分析系统是以功能单元的形式来呈现,这里的单元是指asic电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
138.上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
139.本发明实施例还提供了一种电子设备,如图5所示,该电子设备包括一个或多个处理器71以及存储器72,图5中以一个处理器71为例。
140.该控制器还可以包括:输入装置73和输出装置74。
141.处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图5中以通过总线连接为例。
142.处理器71可以为中央处理器(central processing unit,cpu)。处理器71还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
143.存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本技术实施例中的新闻稿件传播分析方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的新闻稿件传播分析方法。
144.存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
145.输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
146.一个或者多个模块存储在存储器72中,当被一个或者多个处理器71执行时,执行如图1所示的方法。
147.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述新闻稿件传播分析方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;存储介质还可以包括上述种类的存储器的组合。
148.虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献