一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于网络突发热点的舆情监测方法

2022-05-26 20:03:01 来源:中国专利 TAG:


1.本发明涉及信息收集分析技术领域,尤其涉及一种基于网络突发热点的舆情监测方法。


背景技术:

2.据最新的《中国互联网络发展状况统计报告》显示我国互联网普及率已经达到71.6%,拥有10亿互联网用户,且这一数据还处于持续增长阶段。巨大的网民数量是产生网络舆情的重要基础。网络突发热点事件是网络舆情的一种特殊表现形式,突出反映了集聚的各种社会矛盾和热点问题。当下网络突发热点事件在互联网上激增,加之网络媒介的复杂性、网民结构的差异化及互联网技术多元化,使网络突发热点事件变得更加复杂和难以预见。但网络热点事件若能及时监测,引导得当,便能够促进社会稳定和经济发展,反之,则会使政府公信力下降,带来经济损失,影响社会稳定。
3.目前我国关于网络舆情方面在相关理论和关键技术上处于初级阶段,仍需要进一步研究,舆情监测方法主要是从时空维度出发重点关注舆情演化的过程,缺乏对网络突发热点事件舆情演化全部周期的关注,且均是基于抓取关键词的舆情监测服务,而在舆情监测过程中也存在监测范围有限、监测内容不够精确、热点信息收集效率较低等问题。


技术实现要素:

4.本发明的目的在于提供一种基于网络突发热点的舆情监测方法,避免了现有的舆情监测方法存在的监测范围有限、监测内容不够精确以及热点信息收集效率较低问题。
5.为实现上述目的,本发明提供了一种基于网络突发热点的舆情监测方法,包括下列步骤:
6.通过分布式爬取采集数据;
7.对获取的数据进行数据清洗和降噪处理;
8.采用tg_lstm文本分析算法进行舆情分析;
9.生成舆情分析报告;
10.划分舆情等级。
11.其中,采集数据的信息来源为具有代表性的网络社交媒体平台,采集时间每日从0点到24点。
12.其中,在通过分布式爬取采集数据的过程中,分别对不同的网络社交媒体的热搜内容分属性进行爬取,经过spider、schedule中间件对数据进行去重,通过item pipelines管道存储在数据库中。
13.其中,在对获取的数据进行数据清洗和降噪处理的过程中,采用基于统计的分词操作对舆情数据进行分词,对目标长句进行分词切割,将主题词汇分为娱乐话题、时政话题、公共安全、民生话题、国际话题、经济话题和社会热点七大类。
14.其中,分类后再分别获取多个舆情词语和最新的热度指数,将获取的舆情词语带
入提前写好的舆情数据算法采集模板中进行反向筛选,将爆点话题的关键字和关键信息利用算法进行有针对性的内容筛选,反向获取更多的关于相关话题的舆情信息,重复上述步骤,再次将关键词进行二次搜索,然后利用自动化工具提取搜索出来的关键词和热度指数。
15.其中,所述tg_lstm文本分析算法基于时间线融合关键词向量,获得具有上下文信息的高层文本特征向量,将文本进行分类。
16.其中,在生成舆情分析报告的过程中,舆情分析指标分为两个等级,一级指标为政府影响力、传统媒体影响力、新兴网络影响力、普通网民影响力和事件触发力五个指标,二级指标以数量为评价值。
17.其中,所述舆情等级以预警警告等级分为轻度、中度、重度以及特重四个等级,依次对应为蓝色、黄色、橙色和红色。
18.本发明提供了一种基于网络突发热点的舆情监测方法,通过不间断地对多平台热搜进行采集处理,扩大了信息的覆盖面积,利用不同平台之间进行信息比对和信息补充,能够让舆情监测更加精准,让预判结果更具有说服力,同时在lstm的算法模型的基础之上,创新提出了tg_lstm的算法模型,在输入关键词向量后不仅能更好的表述关键词特征,还能使得数据足够的丰富,得到更加准确地数据刻画。采用的tg_lstm算法模型也在时间线上弥补历史信息损失导致信息缺失的问题,另外采用的舆情数据算法采集模板,根据主题词反向筛选舆情信息,不仅能根据相关话题的爆点关键词进行信息提取,采集范围也足够广,能够让提取的相关信息更加全面。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本发明的一种基于网络突发热点的舆情监测方法的流程示意图。
21.图2是本发明的具体实施例的执行步骤示意图。
具体实施方式
22.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
23.请参阅图1,本发明提出了一种基于网络突发热点的舆情监测方法,包括下列步骤:
24.s1:通过分布式爬取采集数据;
25.s2:对获取的数据进行数据清洗和降噪处理;
26.s3:采用tg_lstm文本分析算法进行舆情分析;
27.s4:生成舆情分析报告;
28.s5:划分舆情等级。
29.采集数据的信息来源为具有代表性的网络社交媒体平台,采集时间每日从0点到
24点。
30.以下就微博、抖音、百度以及知乎等常见网络社交媒体平台为具体实施例进行步骤说明(请参阅图2):
31.步骤s101,对具有代表性的网络社交媒体平台进行信息收集,具体如微博、抖音、百度、知乎等。
32.步骤s102,数据采集。采用分布式爬取,以微博为例,对微博热搜文本内容、微博热搜指数、发布时间、点赞量、评论数、转发数量等属性进行爬取,经过spider、schedule中间件对数据进行去重,通过item pipelines管道存储在数据库中。
33.步骤s103,数据处理,对获取的数据进行数据清洗和pac降噪处理,采用基于统计的分词操作对舆情数据进行分词,对目标长句进行分词切割,将主题词汇分为娱乐话题、时政话题、公共安全、民生话题、国际话题、经济话题、社会热点六大类,分别获取多个舆情词语和最新的热度指数,将获取的舆情词语带入提前写好的舆情数据算法采集模板中进行反向筛选,将爆点话题的关键字和关键信息利用算法进行有针对性的内容筛选,反向获取更多的关于相关话题的舆情信息,重复上述步骤,再次将关键词进行二次搜索,然后利用自动化工具提取搜索出来的关键词和热度指数。
34.步骤s104,词库统计。采用jieba中文分词,具有海量的语料库作为支撑。
35.步骤s105,判断关键词是否是敏感字。例如,例如带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明语、带有反动色彩、挑拨民族感情、分裂国家等词语,和异常热搜指数(热搜指数超过提前设定的热搜阈值),若不是敏感字,也不是异常热搜指数,那么不进行下一步分析,仅做记录。
36.步骤s106,若是敏感字,那么匹配该关键字对应的热搜指数,判断是异常热搜指数,匹配该异常热搜指数对应的关键字。将经过数据处理获得的关键词和热搜指数进行向量化处理获得关键词向量和热搜指数词向量。
37.步骤s107,将热搜指数词向量带入事先训练好的基于时间线的融合关键词向量的tg_lstm文本分析算法,该算法融合了关键字,在本发明中命名tg_lstm,其中,将模型分为6层,模型的输入层是f0,词向量通过f0来实现,将模型的分类层定义为f5,模型层间连接的权重就分别对应f1,f2,f3,f4,层间连接权重集合对应为w1,w2,w3,w4,模型层间连接权重对应f1,f2,f3,f4,则输入h={《x,s》},词向量集合x={x1,x2,x3,.....,xn},关键词向量集合s={s1,s2,s3,......,sn}关键词向量在tg_lstm模型中被融合,lstm处理单元(cell)基础上构建关键词lstm处理单元(tcell)。在输入关键词向量后,两个单层lstm模型就会处理这些输入的数据,得出具有上下文信息的高层文本特征向量,就可以将文本进行分类。
38.步骤s108,生成舆情分析报告。对步骤s105中舆情分析结果进行总结,形成舆情分析报告,将舆情分析指标分为两个等级,一级指标为政府影响力、传统媒体影响力、新兴网络影响力、普通网民影响力、事件触发力五个指标,二级指标以微博为例,分为微博发帖量、微博转发量、微博评论量、微博阅读量,其它网络平台均是如此。
39.步骤s109,通过舆情分析报告结果,判断该事件是否属于舆情事件,若该事件不属于舆情事件则结束对该事件的分析,若该事件属于舆情事件,再次判断该事件属于正面事件还是负面事件,若该事件是正面事件,则不做处理,若该事件属于负面舆情事件,则进行舆情等级划分。
40.步骤s110,划分舆情等级。基于模糊理论建立预警模型,将舆情分析报告中舆情指标带入事先训练好的舆情预警模型中,通过对各指标利用模糊推理技术进行评判确定其隶属度,将其与舆情预警预警阈值进行比较,再根据预警分级进行预警判断。其中预警警告等级分为轻度(蓝色)、中度(黄色)、重度(橙色)、特重(红色)四个等级,分别以四种颜色代替,根据不同的预警等级反馈给相关部门不同的预警提示,轻度:舆情话题传播速度慢,舆情不会转化为突发热点舆情。中度:舆情话题传播速度加快,但尚未转化为突发热点舆情。重度:舆情话题传播速度快,已经转化为突发热点舆情,需要时刻关注动态。特重:舆情话题传播非常快,已经转化为突发热点舆情并且亟待处理。
41.最后通过比较判别预警等级进行预警。
42.以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献