一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

新闻采集系统的制作方法

2021-11-09 22:34:00 来源:中国专利 TAG:

技术特征:
1.一种新闻采集系统,其特征在于,所述系统至少包括:配置模块,用于获取用户对通用采集模块的采集配置信息和对通用解析模块的解析配置信息;通用采集模块,用于根据配置模块所获取的采集配置信息实现对应的采集器功能,对不同数据流类型的数据源进行新闻数据采集;通用解析模块,用于根据配置模块所获取的解析配置信息实现对应的解析器功能,对通用采集模块采集到的不同数据流类型的新闻数据进行解析,获取格式化新闻数据。2.根据权利要求1所述的系统,其特征在于,所述不同数据流类型包括:html类型、rss类型或json类型。3.根据权利要求2所述的系统,其特征在于,当数据源的数据流类型为html类型时,所述通用采集模块用于根据配置模块所获取的、针对html类型的采集配置信息实现对应于html类型的采集器功能,对所述html类型的数据源进行新闻数据采集;所述通用解析模块用于根据配置模块所获取的、针对html类型解析配置信息实现对应于html类型的解析器功能,对通用采集模块采集到的、html类型的新闻数据进行解析,获取格式化新闻数据。4.根据权利要求2所述的系统,其特征在于,当数据源的数据流类型为rss类型时,所述通用采集模块用于根据配置模块所获取的、针对rss类型的采集配置信息实现对应于rss类型的采集器功能,对所述rss类型的数据源进行新闻数据采集;所述通用解析模块用于根据配置模块所获取的、针对rss类型解析配置信息实现对应于rss类型的解析器功能,对通用采集模块采集到的、rss类型的新闻数据进行解析,获取格式化新闻数据。5.根据权利要求2所述的系统,其特征在于,当数据源的数据流类型为json类型时,所述通用采集模块用于根据配置模块所获取的、针对json类型的采集配置信息实现对应于json类型的采集器功能,对所述json类型的数据源进行新闻数据采集;所述通用解析模块用于根据配置模块所获取的、针对json类型解析配置信息实现对应于json类型的解析器功能,对通用采集模块采集到的、json类型的新闻数据进行解析,获取格式化新闻数据。6.根据权利要求2所述的系统,其特征在于,格式化新闻数据的字段可以包括以下至少任意一项:新闻地址、标题、摘要、正文、封面图、作者、发布时间、关键词和网站名称。7.根据权利要求6所述的系统,其特征在于,所述通用解析模块在对html类型的新闻数据进行解析时,通过开源库goquery根据html dom节点对新闻数据进行解析或者通过文章提取器,获取格式化新闻数据的字段;所述通用解析模块在对rss类型的新闻数据进行解析时,通过开源库gofeed对新闻数据进行解析,获取格式化新闻数据的字段;所述通用解析模块在对json类型的新闻数据进行解析时,通过开源库gjson结合预先配置的解析规则对新闻数据进行解析,获取格式化新闻数据的字段。8.根据权利要求7所述的系统,其特征在于,所述通用解析模块在解析获取格式化新闻的正文字段时,通过开源模块goquery根据新闻数据页面的原始配置获取格式化新闻数据的正文字段。
9.根据权利要求1所述的系统,其特征在于,所述通用采集模块和通用解析模块采用分布式的方式部署于多个服务器上,并根据预设的调度策略选择目标服务器作为实际执行节点,实现进行新闻数据采集和解析,所述目标服务器是一个或多个服务器。10.根据权利要求1所述的系统,其特征在于,所述系统还包括任务管理模块,用于根据预设的采集间隔或采集时间对所述通用采集模块进行新闻数据采集的任务进行管理,以控制所述通用采集模块按照预设的采集时间或采集时间对不同数据流类型的数据源进行新闻数据采集。

技术总结
本申请实施例提供了新闻采集系统,该系统中采用了通用的采集模块和解析模块的设计,在针对不同的数据流类型时,可以根据采集配置信息和解析配置信息,实现对应于各种数据流类型的采集器功能和解析器功能,使得新闻采集系统可以适用于各种数据流类型的新闻数据的采集和解析,提高采集成功率和及时性,并且在针对不同的数据流类型时,仅需要改变通用采集模块和通用解析模块的配置,无需人工构造完全不同的爬虫程序,因此代码复用率高,能够提升采集效率。效率。效率。


技术研发人员:韩文波
受保护的技术使用者:杭州隆埠科技有限公司
技术研发日:2021.08.03
技术公布日:2021/11/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献