一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种网络舆情数据处理方法及系统与流程

2021-11-22 13:40:00 来源:中国专利 TAG:


1.本技术涉及舆情数据处理技术领域,尤其涉及一种网络舆情数据处理方法及系统。


背景技术:

2.舆情分析主要技术涉及信息采集,现有的舆情分析的爬虫技术主要部署在pc服务器上进行数据采集,对网络、pc硬件采集及维护、部署成本相对比较高,不利于爬虫节点的扩展,严重限制了舆情数据采集、处理的效率。


技术实现要素:

3.本技术提供了一种网络舆情数据处理方法及系统,用于解决现有的舆情分析的爬虫技术主要部署在pc服务器上进行数据采集,对网络、pc硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
4.有鉴于此,本技术第一方面提供了一种网络舆情数据处理方法,包括:
5.服务端响应于舆情处理任务调度指令,生成与所述舆情处理任务调度指令对应的任务信息;
6.所述服务端将所述任务信息发送给移动端,使得所述移动端根据接收到的所述任务信息,结合所述移动端中保存的,且与所述任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,所述舆情数据分析算法的获得方式为所述移动端接收所述服务端下发的所述舆情数据分析算法,并保存在所述移动端本地。
7.优选地,所述舆情处理任务调度指令的生成方式为:所述服务端根据用户输入的操作指令生成的。
8.优选地,所述舆情数据分析算法具体包括:网络舆情数据爬取子算法和舆情数据标注处理子算法。
9.优选地,所述生成与所述舆情处理任务调度指令对应的任务信息之后,且将所述任务信息发送给所述移动端之前还包括:
10.所述服务端确定各个所述移动端的任务状态,以便将所述任务信息发送给所述任务状态为可用状态的移动端。
11.优选地,所述任务状态的确定过程为:
12.所述服务端判断所述移动端是否正在执行舆情数据分析任务,若否,则所述移动端的任务状态为可用状态,若是,则判断所述舆情数据分析任务的任务进度是否大于预置的任务进度阈值,若是,则所述移动端的任务状态为可用状态,若否,则所述移动端的任务状态为繁忙状态。
13.优选地,所述生成与所述舆情处理任务调度指令对应的任务信息之后,且将所述任务信息发送给所述移动端之前还包括:
14.所述服务端判断所述移动端是否保存有与所述任务信息对应的舆情数据分析算
法,若否,则将所述舆情数据分析算法发送给所述移动端,以便所述移动端接收所述舆情数据分析算法,并将所述舆情数据分析算法保存在所述移动端本地。
15.优选地,所述舆情数据分析算法发送给所述移动端具体包括:
16.通过预设的算法封装协议,对所述舆情数据分析算法进行压缩封装处理,得到算法数据包,并将所述算法数据包发送给所述移动端,其中所述算法数据包包括:算法包序号、算法名称、算法包大小、算法包类型、算法语义内容、要求开始执行时间、执行顺序、接收成功标志、算法执行进度反馈、算法包校验。
17.优选地,所述将所述算法数据包发送给所述移动端之前还包括:
18.通过数据压缩算法,对所述算法数据包进行二次压缩。
19.优选地,还包括:
20.所述服务端响应于新移动端发送的节点扩展请求,根据所述节点扩展请求中包含的移动端信息,对所述新移动端进行注册以及配置。
21.本技术第二方面提供了一种网络舆情数据处理系统,包括:服务端和移动端,所述移动端与所述服务端通信连接;
22.所述服务端被配置为:响应于舆情处理任务调度指令,生成与所述舆情处理任务调度指令对应的任务信息,并将所述任务信息发送给所述移动端;
23.所述移动端被配置为:根据接收到的任务信息,结合所述移动端中保存的,且与所述任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,所述舆情数据分析算法的获得方式为所述移动端接收所述服务端下发的所述舆情数据分析算法,并保存在所述移动端本地。
24.从以上技术方案可以看出,本技术具有以下优点:
25.本技术提供的网络舆情数据处理方法,通过将传统的舆情分析技术与移动终端技术相结合,利用移动终端成本低的特点,使得在相同的成本下,可以配置更多移动终端进行舆情数据处理,同时充分利用移动终端的运算能力,将集中处理的任务分发给移动终端本地化处理,减轻了服务器的运算要求,大大的降低的服务器的采购成本使得舆情数据的爬取和处理的效率得到较大的提升,解决了现有的舆情分析的爬虫技术主要部署在pc服务器上进行数据采集,对网络、pc硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
附图说明
26.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
27.图1为本技术提供的一种网络舆情数据处理方法的第一个实施例的流程示意图;
28.图2为本技术提供的一种网络舆情数据处理方法的第二个实施例的流程示意图;
29.图3为本技术提供的一种网络舆情数据处理系统的第一个实施例结构示意图。
具体实施方式
30.本技术实施例提供了一种网络舆情数据处理方法及系统,用于解决现有的舆情分析的爬虫技术主要部署在pc服务器上进行数据采集,对网络、pc硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
31.为使得本技术的发明目的、特征、优点能够更加的明显和易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本技术一部分实施例,而非全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
32.随着移动终端技术的进步,在当今移动互联网已经普及的时代,移动终端已经拥有了不输给pc主机的运算能力,而且成本已经降到非常低的水平。
33.请参阅图1,本技术第一个实施例提供了一种网络舆情数据处理方法,包括:
34.步骤101、服务端响应于舆情处理任务调度指令,生成与舆情处理任务调度指令对应的任务信息;
35.步骤102、服务端将任务信息发送给移动端,使得移动端根据接收到的任务信息,结合保存在移动端中,且与任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,舆情数据分析算法的获得方式为移动端接收服务端下发的舆情数据分析算法,并保存在移动端本地。
36.为了降低硬件的采购成本,本技术实施例优选采取支持基于arm架构的移动端,达到与windows相同的性能,但硬件要求、功耗更低,性能更强大。并基于arm架构的移动端为例进行说明。
37.在本技术实施例的网络舆情数据处理方法中,移动端只负责执行算法加载、算法执行等工作,其余的动态性的工作交由服务端自动分发,移动端在接收相关任务后,即可开始加载与该任务信息对应的舆情数据分析算法的执行,在完成舆情数据分析算法的运算后,即可得到网络舆情数据处理结果。而获得的网络舆情数据处理结果还可以根据实际应用需要选择相应的保存方式,可以进行打包合并后上传给服务端进行汇总保存,也可以直接保存在移动端中。将网络舆情分析主体设计由重变轻,减小了终端对硬件性能的要求,降低了硬件成本。一般舆情爬虫节点的硬件成本在3000或更高,而现在普通的移动终端硬件成本可以控制在500以下。每台pc的功率一台在150瓦以上,移动终端一般在5瓦左右,电量消耗相差巨大。在性能、价格、效率上的比较,基于移动终端的数据采集处理技术更具优势。
38.本实施例提供的网络舆情数据处理方法,通过将传统的舆情分析技术与移动终端技术相结合,利用移动终端成本低的特点,使得在相同的成本下,可以配置更多移动终端进行舆情数据处理,同时充分利用移动终端的运算能力,将集中处理的任务分发给移动终端本地化处理,减轻了服务器的运算要求,大大的降低的服务器的采购成本,使得舆情数据的爬取和处理的效率得到较大的提升,解决了现有的舆情分析的爬虫技术主要部署在pc服务器上进行数据采集,对网络、pc硬件采集及维护、部署成本高而限制了舆情数据采集、处理的效率的技术问题。
39.以上为本技术提供的一种网络舆情数据处理方法的第一个实施例的详细说明,下面为本技术提供的一种网络舆情数据处理方法的第二个实施例的详细说明。
40.请参阅图2,本技术第二个实施例在上述第一个实施例的基础上,提供了一种网络舆情数据处理方法。
41.进一步地,舆情处理任务调度指令的生成方式为:服务端根据用户输入的操作指令生成的。
42.进一步地,舆情数据分析算法具体包括:网络舆情数据爬取子算法和舆情数据标注处理子算法。
43.其中,网络舆情数据爬取子算法用于控制移动端进行舆情数据的采集,其具体实施过程可以参考以下示例:通过appium和puppeteer提供的api直接控制浏览器及app,模拟大部分用户操作作为爬虫访问页面来收集数据。创建一个browser实例,通过.launch启动一个chorme实例。如网站需要登陆,则模拟用户登录操作,通过.setcookie的保存登录的cookie,维持网站登录的有效性。登录成功,通过page.waitforxpath的api等待对应的元素出现,返回对应的elementhandle实例。根据已编辑好的抓取逻辑,操作页面的page dom environment,获取对应的数据,页面获取完成通过page.close关闭对应页面,返回获取的数据集,分析数据结构,通过与后台的接口,将数据保存到数据仓库,以便通过舆情数据标注处理子算法进行后续的数据处理。
44.舆情数据标注处理子算法用于对爬取得到的舆情数据进行标注分析,其具体实施过程可以参考以下示例:结合hanlp自然语言处理工具包,通过计算语义相似度和词性标注的功能,筛选出与关键词词义距离相近的数据。设定的指定关键词,结合抓取的数据,计算两者词语语义的相似度,根据相似度范围设定,判定本条数据属于该关键词或不属于该关键词的数据。筛选出属于该关键词的数据,运用词性标注的功能,对数据进一步的筛选,从而得出更接近关键词的数据。
45.进一步地,生成与舆情处理任务调度指令对应的任务信息之后,且将任务信息发送给移动端之前还包括:
46.步骤1001、服务端确定各个移动端的任务状态,以便将任务信息发送给任务状态为可用状态的移动端。
47.需要说明的是,服务端通过scheduler,定时从后台发出的查询指令,检测各移动端的任务状态,在检测到可用状态的移动端时,自主分配到该移动端当中执行,实现自主化操作。
48.其中,任务状态的确定过程为:
49.服务端判断移动端是否正在执行舆情数据分析任务,若否,则移动端的任务状态为可用状态,若是,则判断舆情数据分析任务的任务进度是否大于预置的任务进度阈值,若是,则移动端的任务状态为可用状态,若否,则移动端的任务状态为繁忙状态,例如,在移动端的任务进度超过70%的时候,可以将该移动端的任务状态配置为可用状态,以便服务端提前下达下一个任务给移动端,缩短移动端任务空档时间。
50.进一步地,生成与舆情处理任务调度指令对应的任务信息之后,且将任务信息发送给移动端之前还包括:
51.步骤1002、服务端判断移动端是否保存有与任务信息对应的舆情数据分析算法,若否,则执行步骤1003,若是,则执行步骤102。
52.步骤1003、将舆情数据分析算法发送给移动端,以便移动端接收舆情数据分析算
法,并将舆情数据分析算法保存在移动端本地。
53.进一步地,步骤1003中的将舆情数据分析算法发送给移动端具体包括:
54.通过预设的算法封装协议,对舆情数据分析算法进行压缩封装处理,得到算法数据包,并将算法数据包发送给移动端,其中算法数据包包括:算法包序号、算法名称、算法包大小、算法包类型、算法语义内容、要求开始执行时间、执行顺序、接收成功标志、算法执行进度反馈、算法包校验。
55.进一步地,在得到算法数据包之后,且在将算法数据包发送给移动端之前还可以包括:
56.通过数据压缩算法,对算法数据包进行二次压缩。
57.需要说明的是,本技术实施例利用arm架构的优势,利用终端的gpu运算能力对舆情数据进行标注处理。以往数据标注都是在服务器集中处理,对服务器的性能要求极高。现在只需要在服务器上定制好各类计算策略,即可以分发给轻app执行。为了确保算法数据包的独立性及传输性能,算法数据包采用自编协议进行定义,协议主要内容包括:算法数据包序号、算法名称、算法数据包大小、算法数据包类型、算法语义内容、要求开始执行时间、执行顺序、接收成功标志、算法执行进度反馈、算法数据包校验。算法数据包采用数据压缩算法,如zip压缩算法等进行二次压缩,减轻算法数据包文件大小,减少网络带宽的占用,提高传输速度。
58.进一步地,还包括:
59.步骤1005、服务端响应于新移动端发送的节点扩展请求,根据节点扩展请求中包含的移动端信息,对新移动端进行注册以及配置。
60.需要说明的是,本技术实施例还包括:新移动端节点的扩展。当需要扩展节点的时候,在新移动端上访问一键部署地址,访问地址后就会自动root,并自动安装应用,服务端完成对该新移动端的注册,并自动分发一个节点编码给移动端,移动端此时进入就绪状态,并已经完成节点的注册,可以自动开始接收任务、执行任务。
61.以上为本技术提供的一种网络舆情数据处理方法的第二个实施例的详细说明,下面为本技术提供的一种网络舆情数据处理系统的第一个实施例的详细说明。
62.请参阅图3,本技术第三个实施例提供了一种网络舆情数据处理系统,包括:服务端s和移动端c,移动端c与服务端s通信连接;
63.服务端s被配置为:响应于舆情处理任务调度指令,生成与舆情处理任务调度指令对应的任务信息,并将任务信息发送给移动端c;
64.移动端c被配置为:根据接收到的任务信息,结合保存在移动端c中,且与任务信息对应的舆情数据分析算法,执行舆情数据分析任务,以获得网络舆情数据处理结果,其中,舆情数据分析算法的获得方式为移动端c接收服务端s下发的舆情数据分析算法,并保存在移动端本地。
65.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
66.在本技术所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结
合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
67.本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
68.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
69.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
70.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
71.以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献