面向用户角色的网络特定信息智能获取系统及交互方法

2022-04-27 13:02:17 来源：中国专利 TAG：

1.本发明涉及智能信息获取技术领域，特别涉及面向用户角色的网络特定信息智能获取系统及交互方法。

背景技术：

2.随着大数据时代的到来，数据几乎渗透到了每一个行业和领域，已逐渐成为最具战略性的重要资产。但同时因其数量巨大、种类繁多，也造成了其价值密度低的现象。有价值的信息蕴含在大量的数据中，面对海量的数据，依靠人工去搜集、分析、研判显然不现实，因此大量研究机构目前利用爬虫技术获取相关数据。
3.目前现有网页爬虫技术，首先需要获取目标网页的url（uniform resource locator），同时下发爬虫任务，下载网页全部数据，并转化为字符串，最后再进行数据清洗、预处理、解析，从而获取有用信息。正因为数据数量大、采集频率高，因此爬虫技术大多聚焦于提高网络爬虫的爬行效率以及解决在分布式环境中网络爬虫的负载均衡问题。专利cn201710372282.1公开一种分布式爬虫系统及周期性增量抓取方法，利用协调组件周期性导入任务到分布式url任务队列，实现周期性增量爬取；专利cn202011618649.1公开一种基于网络爬虫的数据处理方法、系统及云平台，通过获取用户输入的网页爬虫指令，获取与目标网页信息和爬取对象集合对应的目标爬虫数据，并保存至目标分布式保存节点中，以提升大规模数据爬取时数据保存的可靠性以及数据爬取的完整性。
4.然而通过现有爬虫技术获取到的网页数据，距离用户真正需求数据还有相当长的距离。实际应用中，爬虫工程师负责全网爬取相关网页数据，再交由数据分析师结合用户业务需求完成数据清洗、数据分析和数据可视化，数据使用用户无法直接使用爬虫系统快速、精准地获取特定信息，更无法根据用户角色的不同、数据需求不同而自动全网获取特定信息。
5.结合数据行业实际情况，面向用户角色的网络特定信息智能获取领域，现有爬虫技术存在的问题主要包括：1、面向数据使用需求，需要以爬虫工程师和数据分析师作为中介对数据进行处理，无法以端对端的形式直接面向用户，实现用户按需求交互式获取信息；2、数据获取系统与用户数据使用意图尚未自主适配，对于已爬取的大量网页数据，难以准确快速定位用户需要的信息；3、大部分数据爬取系统部署运营过于复杂，计算、存储、网络资源成本过高；4、采集没有针对性，对网页上的内容全部爬取，造成资源的浪费。

技术实现要素：

6.本发明针对现有技术中的不足，提供面向用户角色的网络特定信息智能获取系统及交互方法，直面数据使用最终用户，以智能交互的方式实现海量数据的个性化信息精准获取。
7.为实现上述目的，本发明采用以下技术方案：面向用户角色的网络特定信息智能获取系统，包括：任务理解模块、数据采集模
块、网络代理模块、数据汇聚增强模块；所述任务理解模块，用于获取用户给定的目标网页和信息获取需求后，生成需求表达式；所述数据采集模块分别与任务理解模块、网络代理模块相连接，用于在网络代理模块提供的代理访问ip地址的支撑下，对任务理解模块中的目标网页进行分布式增量数据爬取，完成数据采集；所述网络代理模块，用于给数据采集模块提供代理访问ip地址的支撑；所述数据汇聚增强模块分别与任务理解模块、数据采集模块、数据存储模块相连接，用于对数据采集模块所收集的数据进行分析扩展，并将扩展后的数据与任务理解模块中生成的需求表达式进行自适应匹配、汇聚和排序并存储到数据存储模块中。
8.为优化上述技术方案，采取的具体措施还包括：进一步地，所述任务理解模块，用于获取用户需要检索的目标网页以及信息获取需求，并判断用户发出的信息获取请求是否明确；若已明确给出信息获取需求，即给出需要检索的数据表头字段名称，则直接根据待检索的数据表头字段名称生成对应的需求表达式；若未明确给出信息获取需求，即未提供需要检索的数据表头字段名称、只提供泛化的需求关键词描述，则根据关键词进行语义识别，推理扩展关键词，并根据关键词生成对应的需求表达式。
9.进一步地，所述数据采集模块包括爬取控制器、数据封装器、智能响应器、任务缓冲器；爬取控制器，用于在网络代理模块的支持下对目标网页进行访问，并进行源码解析提取下载网页内容；数据封装器，用于将爬取控制器下载到的网页内容的数据进行安全封装，以确保数据的完全性和完整性；智能响应器，用于对封装好的数据进行进一步调整解析，即对数据中的xml路径语言、层叠样式表、正则表达式进行解析以并调整网页数据乱码以避免数据出现乱码；任务缓冲器，用于对调整解析完成后的数据进行暂存，等聚集一定量级后批量输入到pipeline组件中完成数据入库。
10.进一步地，所述网络代理模块，用于提供不同的代理访问ip地址资源池，并划分为1级代理和2级代理，1级代理中的代理访问ip地址是特定的代理访问ip地址，其专用于目标网页在访问时容易受限的情况，2级代理中的代理访问ip地址是常规的代理访问ip地址，其用于目标网页处于开放状态，即访问不受限的情况；所述网络代理模块，还用于判断当前所访问的目标网页是否受限；若受限，则采用1级代理中的代理访问ip地址；若不受限，则采用2级代理中的代理访问ip地址；所述网络代理模块，还用于在使用1级代理中的代理访问ip地址进行访问目标网页的过程中，若目标网页启动自身保护机制，则停止当前代理访问ip地址的代理访问请求，将代理访问请求的任务转移给1级代理中其它的代理访问ip地址；所述网络代理模块，还用于在使用2级代理中的代理访问ip地址进行访问目标网页的过程中，若目标网页启动自身保护机制，则停止当前代理访问ip地址的代理访问请求，将代理访问请求的任务转移给2级代理中其它的代理访问ip地址。
11.进一步地，所述数据汇聚增强模块，用于通过对库中采集的数据进行多语种翻译、语句实体识别、语义关联分析的多种方式结合找到与需求表达式所表达内容的相关联的数据，并进行自适应匹配、汇聚和排序。
12.进一步地，提供面向用户角色的网络特定信息智能获取交互方法，包括s1：获取用户需要检索的目标网页以及信息获取需求，并判断用户发出的信息获取请求是否明确；若已明确给出信息获取需求，即给出需要检索的数据表头字段名称，则直接根据待检索的数据表头字段名称生成对应的需求表达式；若未明确给出信息获取需求，即未提供需要检索的数据表头字段名称、只提供泛化的需求关键词描述，则根据关键词进行语义识别，推理扩展关键词，并根据关键词生成对应的需求表达式；s2：通过网络多代理调度控制对用户需要检索的目标网页进行访问，并进行源码解析提取下载网页内容；将下载的数据内容进行安全封装处理，封装完成后对下载的数据内容进行调整解析；调整解析完成后进行暂存，等聚集一定量级后批量输入到pipeline组件中完成数据入库；s3：通过对库中采集的数据进行多语种翻译、语句实体识别、语义关联分析的多种方式结合找到与需求表达式所表达内容的相关联的数据，并进行自适应匹配、汇聚和排序；s4：将匹配、汇聚和排序后的内容进行存储。
13.进一步地，步骤s2中，采用的网络多代理调度控制的具体内容为：判断当前所访问的目标网页是否受限；若受限，则采用1级代理中的代理访问ip地址；若不受限，则采用2级代理中的代理访问ip地址。
14.进一步地，使用1级代理中的代理访问ip地址进行访问目标网页的过程中，若目标网页启动自身保护机制，则停止当前代理访问ip地址的代理访问请求，将代理访问请求的任务转移给1级代理中其它的代理访问ip地址；使用2级代理中的代理访问ip地址进行访问目标网页的过程中，若目标网页启动自身保护机制，则停止当前代理访问ip地址的代理访问请求，将代理访问请求的任务转移给2级代理中其它的代理访问ip地址。
15.进一步地，步骤s2中封装完成后对下载的内容进行调整解析，所述调整解析的具体内容包括对xml路径语言、层叠样式表、正则表达式进行解析以并调整防止网页数据乱码。
16.本发明的有益效果是：1、本发明解决了传统数据获取模式中的“最后一公里”，改变了用户提出数据分析需求、爬虫工程师采集数据、数据分析师清洗处理等复杂流程，通过人机交互理解的方式，实现面向用户角色的网络特定信息快速、精准获取。
17.2、本发明提高用户使用粘性的同时，能减小现有数据采集的资源消耗。特别是本发明不再是对全网数据的爬取，而是首先通过任务理解模块，将爬虫任务分解为特定信息需求，以任务需求表达式的形式既减轻爬虫资源消耗、海量数据存储等压力，也更贴近用户
最终的特定目标信息需求，提高实用性。
18.3、本发明能够提供更精准、更深层次的信息获取。传统爬虫系统在爬取用户资源池网页数据后，一般进行基于html标签、结构解析等普通数据标签处理，并不能对内容进行理解，而本发明是在目标网页数据爬取后，按需利用多语言分析处理技术，实现多语种自动翻译增强功能，并能够基于分词、实体识别、关联分析等技术，根据任务理解模块生成的信息需求表达式进行自适应匹配与汇聚。
19.4、本发明比普通爬虫系统在信息获取方面更为智能、高效。数据汇聚增强模块结合用户关心的信息要素进行语义信息理解的特定信息爬取，同时基于分布式计算框架实现，减少了海量信息处理时间，提高汇聚时效性。
20.5、本发明能够实现数据爬取批量入库，节省大量的工程时间。现有的分布式爬虫技术往往不支持信息的批量入库，大量数据入库时效率十分低下，本发明引入任务缓冲器，能够将产生的数据暂存系统的内存队列，等积攒一定量级后批量传入pipeline，实现批量入库，缓解紧张的爬虫ip资源与任务压力。
21.6、本发明配置更为灵活。任务信息需求可以通过人机交互界面直接得到，也可以采用语义识别的方式，进行意图推理得到，其生成的任务需求表达式，既可采用默认配置模板，又自主设定模板，也可根据用户历史信息自动推荐匹配，满足用户的自主化、个性化需求。
22.7、本发明在减少爬虫资源消耗的同时，还最大化提高ip地址利用效率。目前目标网站反爬虫策略相当完善，爬虫系统想实现定期大量的数据获取，需要一定的ip资源。本发明使用多代理优化策略，由纵向分级与横向优化共同解决访问受限、ip被封等问题，提高地址利用率。
附图说明
23.图1是本发明整体系统结构连接关系示意图。
24.图2是本发明整体流程示意图。
具体实施方式
25.现在结合附图对本发明作进一步详细的说明。
26.如图1所示，本发明提出面向用户角色的网络特定信息智能获取系统，包括任务理解模块、数据采集模块、网络代理模块，数据汇聚增强模块以及数据存储模块。
27.任务理解模块以人机交互界面的方式获取用户给定的目标网页以及用户关心的信息要素，生成任务需求表达式，数据采集模块在网络代理模块提供ip代理的支撑下，进行目标网页的分布式增量数据爬取，数据汇聚增强模块根据任务理解模块生成的信息需求表达式进行自适应匹配与汇聚，最终数据存储模块实现用户特定信息的分级分类个性化存储。
28.任务理解模块，接收到用户信息获取请求，进行信息要素描述判断，针对用户已经明确给定的数据表头字段名称，则直接将给定信息作为任务信息需求；针对用户不够明确的泛化爬取需求，任务理解模块采用语义识别的方式，进行意图推理，将爬取任务分解转换为任务信息需求。两种模式均最终生成任务需求表达式，从而始终聚焦用户最关心的信息
内容，避免全网页数据爬取。所建立的任务需求表达式能够满足不同需求，既可采用默认配置模板，又可以自主设定模板，也可根据用户历史信息自动推荐匹配。
29.数据采集模块，包括爬取控制器、任务缓冲器、数据封装器以及智能响应器。爬取控制器，通过调度数据解析，实现对任务理解模块中的用户目标网页资源池源码解析与网络多代理调度控制；爬取控制器接收到待爬取网页的地址后，会将初始任务添加到任务缓冲器的队列中，任务开始后便对网页内容进行下载；下载完成后，爬取控制器将已下载的内容传入数据封装器对数据做进一步封装处理，以确保数据的安全性和完整性；封装好的数据会返回到爬取控制器，控制器调度智能响应器解析返回的数据，智能响应器支持xpath（xml路径语言）、css（层叠样式表）、re（正则表达式）等解析方式，能够处理中文网页乱码问题，解决编码的自适应；解析后的一条条数据再被分发到任务缓冲器，任务缓冲器能将数据暂存系统的内存队列，等集聚一定量级后再批量传入pipeline，以解决现有采集框架在存储海量数据时只能依次存入而无法批量入库的问题，且能够通过设置数据集聚的上限，来避免数据放入内存而造成的系统拥堵。
30.网络代理模块，提供不同的ip地址资源池，利用多代理优化策略解决访问受限、ip被封等问题，提高爬虫效率。多代理优化策略由纵向分级与横向优化构成，纵向分级指ip地址分为1级代理与2级代理，1级代理提供特定少量的ip地址，专门用于使用常规ip地址时目标网站访问受限情况，2级代理提供较易获得的ip地址，用于目标网站访问不受限情况；（有些情况下，网站为了防止过多访问会对异常的ip地址有一定的受限作用，本技术中的ip地址资源池中有两部分等级，1级中的ip地址不较为常见易获得，该ip地址访问、使用的次数较少，因此可以避免受限的情况，2级中的ip地址较为普通，应对网站没有设置受限的情况）横向优化则在不同级别地址上，分别提供代理ip动态更换功能，通过将访问请求转发到不同的代理ip，从而在目标网站保护机制下保障ip可用状态。
31.数据汇聚增强模块，在数据采集器进行目标网页数据爬取后，按需利用多语言分析处理技术，实现多语种自动翻译增强功能，并能够基于分词、实体识别、关联分析等技术，根据任务理解模块生成的信息需求表达式进行自适应匹配与汇聚。自适应匹配与汇聚，基于分布式计算框架实现，在map端完成本地并行匹配任务，在reduce端进行匹配结果合并、排序等处理工作，从而完成用户特定信息深层次精准获取。
32.数据存储模块，支持mysql、redis、mongodb、内存数据库等多种类型的数据库，能够根据用户角色实现不同主题分类存储与共享，并提供数据统一访问服务供其他系统调用。
33.下面结合流程图对面向用户角色的网络特定信息智能获取交互方法的原理进行详细描述，如图2所示。
34.步骤1，用户发出信息获取请求，任务理解模块判断信息要素是否明确，如已明确数据表头字段名称，直接生成任务信息需求表达式，如信息字段不明确，仅提供任务描述等泛化需求，任务理解模块进行意图推理，生成任务需求表达式。
35.步骤2，数据采集模块开始对任务理解模块中的用户目标网页资源池源码解析与网络多代理调度控制，进行任务缓冲，对请求函数的封装与爬取数据的安全封装，并完成编码的自适应响应。
36.步骤3，网络代理模块在数据采集模块的控制调度下，进行网络代理优化，提供代
理ip动态更换功能，进一步的，判断目标网站访问受限情况，若受限则启动1级代理服务，若不受限则启动2级代理服务。
37.步骤4，数据汇聚增强模块，在数据采集器进行目标网页数据爬取后，进行多语种自动翻译增强，以及基于分词、实体识别、关联分析等语义处理，再根据任务理解模块生成的信息需求表达式进行基于分布式计算框架的自适应匹配与汇聚，在map端完成本地并行匹配任务，在reduce端进行匹配结果合并、排序等处理工作，从而完成用户特定信息深层次精准获取。
38.步骤5，数据存储模块，根据用户角色实现不同主题分类存储与共享，并提供数据统一访问服务，供其他系统调用。
39.需注意的是，对以下内容进行补充解释：1、源码解析的目的以及解析的后续处理网页源码中包含html语言、网页内容以及少量的javascript和css语言，解析源码是为了提取出网页内容；将内容解析出来后，再通过关键字匹配、字符定位等技术，自定义规则解析出所需的内容。
40.2、任务队列里具体是什么任务解释是对资源池里的网页进行数据下载任务。
41.3、pipeline的概念以及传入到pipeline后的作用pipeline是组件名称，在爬虫模块中，其主要作用是将解析返回的一条条数据写入数据库、文件等持久化模块中，即传入pipeline的数据会被入到数据库中。
42.需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。
43.以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于语义认知的无人机区域侦察价值评估方法与流程

面向用户角色的网络特定信息智能获取系统及交互方法

相关文献

最热文献