一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种舆情分析系统的制作方法

2023-01-15 12:31:42 来源:中国专利 TAG:


1.本发明涉及网站用户评论语义分析技术领域,具体为一种舆情分析系统。


背景技术:

2.随着互联网技术以及国民经济的不断发展,参与互联网社交的人数日益增长,孕育出越来越多的社交平台,使得互联网中的“网民声音”与日俱增。这些“网民声音”在互联网发展中,慢慢形成网络舆情,这些舆情对事物影响及事件的发展都有着重要的意义。所以,为了更好的改进事件及发展事件,对舆情的语义分析也成为互联网大数据分析的主流。
3.在消费品行业,品牌商会在各大社交平台进行新品发布、活动预热。当经过一段时间后,需要对用户的反馈信息进行收集,来分析用户对新品及活动的情绪。
4.品牌商通常会安排运营人员,去各个平台收集用户言论数据,收集方式通常都是人工浏览社交平台下的数据,将其统计到excel中,并逐一人工分析用户的对新品及活动的情绪。
5.现有技术存在的不足之处在于:首先,通过人工搜集用户言论数据,效率地下,且增加了分析时间、人工成本;其次,社交平台种类繁多,人工收集往往不够及时,且会漏统计,导致数据分析不全面;还有,用户言论数据收集后,只能简单分析用户对产品的情绪,无法直观的展示收集的数据。


技术实现要素:

6.针对背景技术中提出的现有技术的问题,本发明提供了一种舆情分析系统,解决了上述背景技术中提出的问题。
7.为实现以上目的,本发明通过以下技术方案予以实现:一种舆情分析系统,包括:
8.数据收集模块,用于获取网站页面html数据;
9.数据解析模块,用于解析数据收集模块获取的网站页面html数据;
10.数据存储模块,用于存储数据解析模块解析得到的数据;
11.数据分析模块,用于对数据存储模块中存在的数据进行分析;以及数据展示模块,用于进行用户评论汇总展示、云图展示等工作。
12.优选的,所述数据收集模块包括开源包requests,该开源包requests用于http请求,以获取网站页面数据。
13.优选的,所述数据解析模块包括:
14.开源爬虫框架scrapy,所述开源爬虫框架scrapy用于抓取web站点并从页面中提取结构化的数据;
15.开源包fonttools.ttlib,所述开源包fonttools.ttlib用于对网站页面编码字体进行解码;
16.开源包lxml,用于获取网页中的标签内容;
17.开源包os,用于对文件的操作,例如读取azure相关配置;以及
18.开源包json,用于对json字符串的序列化、反序列化。
19.利用开源爬虫框架scrapy7,进行模拟点击下一页操作,在请求过程中,如果请求次数过于频繁会导致请求ip被禁止访问,所以需要增加代理服务,在scrapy框架的setting.py文件中设置useragent及ip代理proxies,在中间件middlewares.py文件中调用设置的代理数据,解决了人工收集数据效率低、成本高的问题。
20.优选的,所述数据存储模块包括用于存储数据至csv文件的开源包csv以及用于超大规模的数据存储的开源关系数据库。
21.优选的,所述数据分析模块包括:
22.开源包azure.core.credentials,用于提供azure授权的api;以及
23.开源包azure.ai.textanalytics,用于提供文本分析的api。
24.优选的,所述数据展示模块包括软件服务power bi,该软件服务power bi用于读取存储在开源关系数据库中的用户言论数据,并汇总展示用户言论数据的语言分析。
25.本发明提供了一种舆情分析系统,具备以下有益效果:
26.该舆情分析系统基于scrapy框架及azure认知服务,统一各大社交平台的用户评论获取、分析、与展示。后台基于开源爬虫框架scrapy定时获取用户对某个产品、某个事件的评论,利用azure认知服务,对用户的评论进行语义分析,从而判断出用户对产品、事件的情绪,再通过软件服务powerbi对分析完的用户评论进行云图展示,可以更加直观的展现出用户对产品、事件的情感,根据用户评论的情绪及云图展示出用户关注点,对产品进行及时的改善以及对事件发展的方向进行及时的调控,从而降低了分析时间以及人工成本,并提高实际的工作效率,而且收集数据的及时性好,且数据分析全面彻底。
附图说明
27.图1为本发明的模块图;
28.图2为本发明数据收集模块的模块结构示意图;
29.图3为本发明数据解析模块的模块结构示意图;
30.图4为本发明数据存储模块的模块结构示意图;
31.图5为本发明数据分析模块的模块结构示意图;
32.图6为本发明数据展示模块的模块结构示意图。
33.图中:1、数据收集模块;2、数据解析模块;3、数据存储模块;4、数据分析模块;5、数据展示模块;6、开源包requests;7、开源爬虫框架scrapy;8、开源包fonttools.ttlib;9、开源包lxml;10、开源包os;11、开源包json;12、开源包csv;13、开源关系数据库;14、开源包azure.core.credentials;15、开源包azure.ai.textanalytics;16、软件服务powerbi。
具体实施方式
34.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
35.本发明提供一种舆情分析系统,如图1所示,该系统包括数据收集模块1、数据解析模块2、数据存储模块3、数据分析模块4和数据展示模块5;其中,数据收集模块1用于获取网站页面html数据,数据解析模块2用于解析数据收集模块1获取的网站页面html数据,数据
存储模块3用于存储数据解析模块2解析得到的数据,数据分析模块4用于对数据存储模块3中存在的数据进行分析,数据展示模块5用于进行用户评论汇总展示、云图展示等工作;下面对上述五个模块进行详细的说明。
36.如图2所示,数据收集模块1包括开源包requests6,通过该开源包requests6,可以对各个社交平台的网站进行请求,以获取网站页面html数据,并利用开源爬虫框架scrapy7,进行模拟点击下一页操作,在请求过程中,如果请求次数过于频繁会导致请求ip被禁止访问,所以需要增加代理服务,在scrapy框架的setting.py文件中设置useragent及ip代理proxies,在中间件middlewares.py文件中调用设置的代理数据,解决了人工收集数据效率低、成本高的问题。
37.如图3所示,数据解析模块2包括开源爬虫框架scrapy7、开源包fonttools.ttlib8、开源包lxml9、开源包os10和开源包json11,开源爬虫框架scrapy7用于抓取web站点并从页面中提取结构化的数据;开源包fonttools.ttlib8用于对网站页面编码字体进行解码;开源包lxml9用于获取网页中的标签内容;开源包os10用于对文件的操作,例如读取azure相关配置;开源包json11用于对json字符串的序列化、反序列化。
38.在数据解析模块2解析过程中,开源爬虫框架scrapy7可以解析html,获取到网页指定的用户言论数据;此过程中,有些网站会对网页数据进行字体编码处理,导出解析出的数据是乱码,所以需要引入python的开源包fonttools.ttlib8对编码的字体进行解码。
39.如图4所示,数据存储模块3包括用于存储数据至csv文件的开源包csv12以及用于超大规模的数据存储的开源关系数据库13;通过数据解析模块2获取到用户信息评论的结构化数据,在开源爬虫框架scrapy7的pipelines.py文件中配置多个管道,在管道中将数据写入csv文件及开源关系数据库13。
40.如图5所示,数据分析模块4包括开源包azure.core.credentials14、开源包azure.ai.textanalytics15,其中,开源包azure.core.credentials14用于提供azure授权的api;开源包azure.ai.textanalytics15用于提供文本分析的api;在数据分析模块4中,通过python的开源包azure.core.credentials14获取azure身份授权,再通过python的azure.ai.textanalytics15,对存入至csv或开源关系数据库13中的用于言论数据进行语义分析,在分析过程中,尽量将获取多条言论数据进行一起分析,以降低分析成本。
41.如图6所示,数据展示模块5包括软件服务powerbi16,该软件服务powerbi16用于读取存储在开源关系数据库13中的用户言论数据,并汇总展示用户言论数据的语言分析;在数据展示模块5中,powerbi16通过数据连接器连接开源关系数据库13,编写脚本读取言论数据,选择多样化的展示图表,展现用户言论数据,汇总展示用户言论数据的语言分析,云图展示用户对新品及活动的关注方向,解决了分析不全面、不直观问题。
42.使用时,该基于scrapy框架及azure认知服务的舆情分析系统,使用时,首先搭建开源爬虫框架scrapy 7,在框架代码中引用开源包fonttools.ttlib8、开源包lxml 9、开源包os 10、开源包json 11,在进行至数据存储模块时,安装开源包csv 12和\或开源关系数据库13,在进行至数据展示模块时,安装软件服务powerbi16。
43.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献