一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据采集方法、装置、平台、设备及存储介质与流程

2022-03-31 09:33:43 来源:中国专利 TAG:


1.本技术涉及数据处理技术,尤其涉及一种数据采集方法、装置、平台、设备及存储介质。


背景技术:

2.通过从不同数据平台获取不同维度的数据,进行网络服务质量的分析,能够获得网络服务质量,进而针对网络服务质量较差的用户改善网络服务,提升用户的网络服务质量。
3.目前,是通过人工手动从不同数据平台的数据库中采集不同维度的数据,并对采集的不同数据平台的数据进行处理,再存储至用于进行数据分析的目标数据库中。之后,可以从目标数据库中采集不同数据平台的数据进行网络服务质量分析。
4.然而,手动采集数据的方式存在数据采集效率低的问题。


技术实现要素:

5.本技术提供一种数据采集方法、装置、平台、设备及存储介质,用以解决手动采集数据的方式存在数据采集效率低的问题。
6.第一方面,本技术提供一种数据采集方法,包括:接收目标任务的触发消息;所述触发消息用于触发数据采集平台执行所述目标任务,所述目标任务用于采集多个业务平台的数据;对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第一目标数据;存储每个所述业务平台的第一目标数据。
7.第二方面,本技术提供一种数据采集装置,包括:接收模块,用于接收目标任务的触发消息;所述触发消息用于触发数据采集平台执行所述目标任务,所述目标任务用于采集多个业务平台的数据;数据提取模块,用于对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的目标数据;存储模块,用于存储每个所述业务平台的目标数据。
8.第三方面,本技术提供一种数据采集平台,用于执行如第一方面所述的方法。
9.第四方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
10.第五方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
11.本技术提供的数据采集方法、装置、平台、设备及存储介质,通过接收目标任务的触发消息,触发消息用于触发数据采集平台执行目标任务,目标任务用于采集多个业务平台的数据;对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第一目标数据;存储每个业务平台的第一目标数据。由于是通过接收目标任务的触发消息来触发数
据采集平台采集多个业务平台的数据,因此,能够实现自动采集多个业务平台的数据。另外,由于是对每个业务平台的网页进行数据提取,因此,提取得到的数据能够直接用于数据分析,而不需要将从各个业务平台的数据库中获取各个业务平台的源数据转换为各个业务平台的网页展示的数据,再存储至数据采集平台对应的数据库中,提高了数据采集效率。进一步可以提高数据分析效率。
附图说明
12.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
13.图1为现有技术的数据采集系统的架构图;
14.图2为适用于本技术实施例的应用场景图;
15.图3为本技术实施例提供的数据采集方法的流程图一;
16.图4为本技术实施例提供的数据采集平台的逻辑框图;
17.图5为本技术实施例提供的数据采集方法的流程图二;
18.图6为本技术实施例提供的数据采集方法的流程图三;
19.图7为本技术实施例提供的数据采集装置的结构示意图;
20.图8为本技术实施例提供的电子设备的结构示意图。
21.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
22.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
23.图1为现有技术的数据采集系统的架构图。如图1所示,该数据采集系统的架构包括:多个业务平台11、每个业务平台对应的数据库12、数据存储中心13和数据分析平台14;
24.其中,多个业务平台包括网络运维平台、客户服务质量平台等。每个业务平台对应的数据库中存储每个业务平台的业务数据。
25.在相关技术中,用户手动从每个业务平台11的数据库12中采集每个业务平台产生的业务数据,进而将采集的每个业务平台的业务数据存储至数据存储中心13中。当数据分析平台14需要进行数据分析时,可以从数据存储中心13获取各个业务平台的业务数据进行数据分析。
26.其中,每个业务平台的数据库中存储的业务数据为源数据,源数据需要经过处理才能呈现业务平台的网页展示的数据。也就是说,相关技术中需要重建构建一数据存储中心的架构,并将从各个业务平台的数据库中获取各个业务平台的源数据,转换为各个业务平台的网页展示的数据,再存储至数据采集平台对应的数据库中,从而实现对不同业务平台的统一管理。如此,用户即可直接从数据采集平台对应的数据库获取各个业务平台的业
务数据进行数据分析。
27.然而,重新构建数据存储中心的架构需要较长的时间和较大的资源投入,如此,使得整个数据采集过程耗时较长,导致数据采集效率低,进而会影响数据分析时效。在一些实时性数据分析的场景中,就会导致用户体验较差。
28.针对上述技术问题,本技术提出如下技术构思:通过自动采集的方式对不同业务平台的开放的网站接口进行访问,并自动从各个业务平台的网页中提取出所需的数据进行存储。如此,获得的数据能够直接用于数据分析,而不需要获取业务平台的网页显示的数据的源数据,以及源数据,转换为各个业务平台的网页展示的数据,再存储至数据存储中心的过程,不需要重新构建数据存储中心,因而能够减少数据采集所耗费的时间,从而提高数据采集效率,进而提高数据分析效率。
29.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
30.图2为适用于本技术实施例的应用场景图。如图2所示,该应用场景包括:多个业务平台21、数据采集平台22、数据库23和数据分析平台24;
31.多个业务平台21与相关技术中的多个业务平台11相同。
32.数据采集平台22可以是终端设备,也可以是服务器。当数据采集平台22为终端设备时,终端设备可以是智能手机、平板电脑、台式电脑等。另外,还可以对终端设备配置一数据库,用于存储从多个业务平台21采集的业务数据。
33.当数据采集平台22为服务器时,服务器可以是数据库服务器。而服务器可以是单独的一台服务器,也可以是包括多台服务器的服务器集群,这些服务器可以部署在同一个地方,也可以分布式部署在不同的地方。数据采集平台中的一台服务器可以对多个业务平台21进行数据采集,也可以是多个服务器共同配合对多个业务平台21进行数据采集。
34.当数据分析平台24需要进行数据分析时,即可从数据采集平台对应的数据库23获取数据分析所需要的数据。
35.基于图2所示的应用场景,本技术实施例还提出一种数据采集方法,以解决上述技术问题。下面结合图2所示的应用场景,对本技术实施例的数据采集方法进行详细介绍:
36.图3为本技术实施例提供的数据采集方法的流程图一。如图3所示,该数据采集方法,包括如下方法步骤:
37.s301、接收目标任务的触发消息;触发消息用于触发数据采集平台执行目标任务,目标任务用于采集多个业务平台的数据。
38.本实施例的执行主体可以是数据采集平台。
39.其中,目标任务的触发消息可以有如下至少两种可选的实施方式:
40.在一种可选的实施方式中,图4为本技术实施例提供的数据采集平台的逻辑框图。如图4所示,数据采集平台40包括定时单元41和采集单元42;定时单元41可以为定时器,采集单元42中部署有采集程序,定时单元41通过定时触发的方式向采集单元42发送目标任务的触发消息,以指示采集单元42采集多个业务平台的数据。采集单元42接收到目标任务的触发消息时,即通过采集程序从各个业务平台进行数据采集。
41.在另一种可选的实施方式中,请继续参阅图2,还可以是数据分析平台24向数据采
集平台22发送数据分析请求,以触发数据采集平台22采集多个业务平台的数据。则数据采集平台22接收到数据分析请求时,即通过采集程序从各个业务平台进行数据采集。该种实施方式可以应用于实时数据分析场景中。
42.s302、对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第一目标数据。
43.网页可以划分为静态网页和动态网页,静态网页可以理解为所需提取的数据直接在网页上展示的网页,动态网页可以理解为所需提取的数据未直接在网页上展示,动态网页上往往展示的下载链接,需要通过点击下载链接进入下载页面进行下载才能够得到。因此,针对静态网页,可以直接从网页中进行数据提取。而针对动态网页,数据无法直接提取得到,需要通过点击下载链接进入下载页面进行下载。
44.因此,本步骤可以确定每个业务平台的网页的数据提取方式,并根据每个业务平台的网页的数据提取方式进行数据提取,从而得到待存储的每个业务平台的第一目标数据。
45.s303、存储每个业务平台的第一目标数据。
46.具体的,是将每个业务平台的第一目标数据存储至数据库中。之后,第一目标数据就可以用于进行数据分析。
47.为了方便数据查询,可以对各个业务平台分别配置一数据表,并将各个业务平台的第一目标数据分别存储至各个业务平台对应的数据表中。
48.而为了方便数据查询,还可以在数据库中对各个业务平台分别设置一存储区域,用于分别存储各个业务平台的第一目标数据。举例来说,针对业务平台a、业务平台b和业务平台c,可以在数据库中设置存储区域a、存储区域b和存储区域c,每个存储区域设置有标签,用于标识该存储区域用于存储的业务平台的标识。假设存储区域a的标签为业务平台a,存储区域b的标签为业务平台b,存储区域c的标签为业务平台c,则将业务平台a的第一目标数据存储至存储区域a,将业务平台b的第一目标数据存储至存储区域b,以及将业务平台c的第一目标数据存储至存储区域c。
49.本实施例通过接收目标任务的触发消息,触发消息用于触发数据采集平台执行目标任务,目标任务用于采集多个业务平台的数据;对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第一目标数据;存储每个业务平台的第一目标数据。由于是通过接收目标任务的触发消息来触发数据采集平台采集多个业务平台的数据,因此,能够实现自动采集多个业务平台的数据。另外,由于是对每个业务平台的网页进行数据提取,因此,提取得到的数据能够直接用于数据分析,而不需要将从各个业务平台的数据库中获取各个业务平台的源数据转换为各个业务平台的网页展示的数据,再存储至数据采集平台对应的数据库中,提高了数据采集效率。进一步可以提高数据分析效率。
50.在上述实施例的基础上,步骤s302可以通过对每个业务平台的网页进行文档对象模型(document object model,dom)分析,从而确定每个业务平台的网页对应的数据提取方式,并根据每个业务平台的网页对应的数据提取方式,对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第一目标数据。
51.具体的,若每个业务平台的网页的文档对象模型指示的网页显示数据为非下载链接,则确定业务平台的网页对应的数据提取方式为提取网页显示的数据;并根据业务平台
的网页对应的提取网页显示的数据的数据提取方式,直接提取业务平台的网页的数据,得到每个业务平台的第一目标数据。
52.若每个业务平台的网页的文档对象模型指示的网页显示数据为下载链接,则确定业务平台的网页对应的数据提取方式为通过点击网页上的链接下载数据;并根据业务平台的网页对应的通过点击网页上的链接下载数据的数据提取方式,基于网页上的链接,跳转至下载页面对数据进行下载,得到每个业务平台的目标数据。
53.在一些场景中,一些业务平台需要登录才能够进入业务平台,进而才能够进行数据提取。基于此,本实施例提出如下的自动登录的具体实施方式,具体包括:
54.步骤a、根据目标任务的触发消息,获取预先存储的每个业务平台的登录信息。
55.具体的,可以在数据采集平台中预先存储每个业务平台的登录信息,登录信息包括账号和密码。当接收到目标任务的触发消息时,则获取预先存储的各个业务平台的登录信息,并将各个业务平台的登录信息输入各个业务平台提供的登录页面中,以实现自动登录。
56.而在自动登录过程中,可能还存在需要输入验证码图片的场景。针对需要输入验证码图片的场景,本技术还可以提供如下实施例:
57.步骤a1、若检测到业务平台的登录页面中包括验证码图片,则获取业务平台的网页登录时所需的验证码图片,验证码图片包括验证码。
58.具体的,验证码图片中的验证码可以是数字、字母等字符。
59.步骤a2、识别验证码图片中的验证码。
60.步骤a3、将验证码图片中的验证码输入验证码输入框,以登录每个业务平台。
61.示例性地,可以通过截取登录页面中的验证码图片,并使用tesseract-光学字符识别(optical character recognition,ocr)对验证码图片进行识别。
62.具体的识别过程包括:
63.1、对验证码图片进行二值化处理,得到二值化图片。
64.2、对二值化图片进行计算机视觉(computer vision,cv)处理。
65.具体的,可以根据自适应阈值算法确定自适应阈值,并根据自适应阈值对验证码图片进行二值化处理,得到二值化图片。之后,则可以根据二值化图片进行cv处理,从而识别图片中的验证码。
66.可选的,在得到二值化图片之后,还可以针对二值化图片进行预处理,并根据预处理后的二值化图片进行cv处理。
67.步骤b、根据预先存储的每个业务平台的登录信息登录每个业务平台。
68.步骤c、对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第一目标数据。
69.举例来说,假设多个业务平台包括业务平台a、业务平台b和业务平台c,则数据采集平台需要预先存储业务平台a的登录信息a、业务平台b的登录信息b和业务平台c的登录信息c。并在接收到目标任务的触发消息时,将登录信息a输入业务平台a的登录页面中,以登录至业务平台a,将登录信息b输入业务平台b的登录页面中,以登录至业务平台b,以及,将登录信息c输入业务平台c的登录页面中,以登录至业务平台c。之后,再分别对业务平台a、业务平台b和业务平台c的网页进行数据提取,分别得到业务平台a、业务平台b和业务平
台c的待存储的第一目标数据。
70.下面通过一个完整的示例对以上实施例进行介绍:
71.示例性地,业务平台a的网站所提供的网页中显示的数据包括文本、图片、表格和下载链接。以下将分别针对本、图片、表格这类可以直接提取的数据和下载链接这类无法直接提取的数据分别举例说明:
72.针对文本、图片和表格等可以直接提取的数据,就可以直接从网页中提取该数据。具体的,是在基于上述实施例登录至各个业务平台之后,输入预先设定的检索信息,则统一资源定位符(uniform resource locator,url)即会跳转到需要下载信息的页面,之后,使用request库通过post方法获取网站文本信息,并进行数据提取。上述过程可以总结为:通过检索页面获取待提取数据的页面的url连接地址;解析待提取数据的页面中待获取数据的dom路径,得到第一目标数据;将第一目标数据按照预设的格式进行存储。以网页为投诉列表页面为例,待提取数据为投诉列表,则根据request获取的cookies获取投诉列表页面,从投诉列表提取投诉信息,之后生成投诉列表并存储至数据库。投诉列表包括工单流水号、工单类型、工单主题、当前步骤、紧急程度、发起人、发起部门、发起时间、要求完成时间、当前环节时限、是否超时、操作、备注等内容。
73.针对下载链接这类需要基于网页上的链接跳转至下载页面对数据进行下载,才能得到的数据,则需要通过自动跳转至下载页面对数据进行下载。示例性地,对于通过页面点击链接直接存储为本地压缩文件、excel、csv文件之类的数据的下载,在url跳转到需要下载的信息页面后,通过如下步骤完成数据提取:
74.(1)模拟浏览器操作,运行每个业务平台的网页对应的数据服务器,用于数据查询的js文件;
75.(2)通过时间探针,判断数据库服务器端的数据查询进程是否结束;
76.(3)若数据库服务器端的数据查询进程结束,则得到第一目标数据。
77.其中,js文件的运行过程包括如下步骤:
78.1、获取当前窗口句柄集合;
79.2、切换前窗口句柄;
80.3、切换frame;
81.4、输入检索信息,检索信息包括:用户号码、网元、位置区识别(location area identification,lai)和网元编码;
82.5、根据检索信息跳转至下载页面;
83.6、判断是否可以下载;
84.7、若可以下载,则执行下载操作;
85.8、移除下载目录下文件;
86.9、判断是否下载完成;
87.具体的,是通过判断下载目录下文件的格式来确定是否下载完成,若下载目录下文件的格式为临时文件,则表示正在下载;若下载目录下文件的格式为第一目标数据的格式,则表示已下载完成。
88.10、若完成下载,则解压缩和读取下载文件;
89.11、若未完整下载,则继续等待,直至下载完成。
90.在上述实施例的基础上,存储各个业务平台的第一目标数据之后,还可以包括如下步骤:当接收到数据分析平台发送的数据获取请求,数据获取请求用于请求结果数据,数据分析平台用于根据结果数据进行数据分析;根据数据获取请求,从每个业务平台的目标数据中获取结果数据;向数据分析平台发送结果数据。
91.可选的,根据数据获取请求,从每个业务平台的目标数据中获取结果数据时,还可以采用每个业务平台对应的线程,获取每个业务平台的第一目标数据,并传输至数据分析平台。
92.本实施例采用多线程技术进行数据获取,并发送至数据分析平台,能够满足在实时性监控、多维度数据分析、长周期间隔的比较分析场景中,以及对于数据获取的及时性要求较高,往往要求数据能短时间内传递到数据分析平台以进行数据分析的场景下,快速获取数据,从而提高数据获取效率。
93.进一步的,也可以在数据采集过程中基于多线程技术实现多个业务平台的数据采集。具体的,可以针对每个业务平台设置一线程,并采用每个业务平台对应的线程,对每个业务平台的网页进行数据提取。可以理解为是采用多线程技术采集多个业务平台的数据。举例来说,假设多个业务平台包括业务平台a、业务平台b和业务平台c,业务平台a、业务平台b和业务平台c分别对应线程a、线程b和线程c,则可以同时使用线程a、线程b和线程c对业务平台a、业务平台b和业务平台c进行数据采集,即使用线程a对业务平台a进行数据采集的过程、使用线程b对业务平台b进行数据采集的过程和使用线程c对业务平台c进行数据采集的过程同时执行。如此,便可以进一步提高数据采集效率。
94.在上述实施例的基础上,图5为本技术实施例提供的数据采集方法的流程图二。在存储每个业务平台的目标数据之后,本实施例还可以包括如下方法步骤:
95.步骤s501、对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第二目标数据。
96.其中,第一目标数据与第二目标数据是在相邻两个数据采集周期中采集得到的数据。例如,在第一个数据采集周期中进行数据采集,得到第一目标数据,以及在第二个数据采集周期中进行数据采集,得到第二目标数据。
97.步骤s502、若第二目标数据与第一目标数据为同一对象的数据,则使用第二目标数据替换第一目标数据。
98.本实施例中,例如,第二目标数据与第一目标数据均为投诉列表,则可视为是同一对象的数据。
99.示例性地,例如,在第一个数据采集周期中进行数据采集,得到第一投诉列表,以及在第二个数据采集周期中进行数据采集,得到第二投诉列表。则是将第一投诉列表替换为第二投诉列表。
100.步骤s503、若第二目标数据与第一目标数据为不同对象的数据,则存储第二目标数据。
101.本实施例通过对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第二目标数据,以及在第二目标数据与第一目标数据为同一对象的数据时,则使用第二目标数据替换第一目标数据,可以实现对第一目标数据进行实时性更新存储。
102.在上述实施例的基础上,图6为本技术实施例提供的数据采集方法的流程图三。则
在存储每个业务平台的目标数据之后,本实施例还可以包括如下步骤:
103.步骤s601、对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第三目标数据。
104.其中,第一目标数据与第三目标数据是在相邻两个数据采集周期中采集得到的数据。例如,在第一个数据采集周期中进行数据采集,得到第一目标数据,以及在第二个数据采集周期中进行数据采集,得到第二目标数据。
105.步骤s602、若第三目标数据与第一目标数据为同一对象的数据,且第三目标数据相较于第一目标数据存在变化,则确定第三目标数据中针对第一目标数据的变化数据。
106.具体的,在确定第三目标数据是否相较于第一目标数据发生变化时,可以根据md5算法进行确定。示例性地,可以根据预设数据块大小将第一目标数据划分为多个第一数据块,以及根据预设数据块大小将第三目标数据划分为多个第三数据块,则可以针对每个第一数据块使用md5算法计算得到一md5值,以及针对每个第三数据块使用md5算法计算得到一md5值,再根据第一数据块和第三数据块的md5值是否相等,确定第一数据块和第三数据块是否存在变化。如此,通过每个第一数据块和第三数据块的比对,即可确定第三目标数据是否相较于第一目标数据发生变化。
107.本实施例中,例如,第三目标数据与第一目标数据均为投诉列表,则可视为是同一对象的数据。
108.可选的,若第三目标数据与第一目标数据为不同对象的数据,则直接存储第三目标数据。
109.步骤s603、存储第三目标数据中针对第一目标数据的变化数据。
110.本实施例通过对每个业务平台的网页进行数据提取,得到待存储的每个业务平台的第三目标数据,以及在第三目标数据与第一目标数据为同一对象的数据,且第三目标数据相较于第一目标数据存在变化时,存储第三目标数据中针对第一目标数据的变化数据。能够实现对第一目标数据的增量存储。
111.在上述方法实施例的基础上,图7为本技术实施例提供的数据采集装置的结构示意图。如图7所示,该数据采集装置包括:接收模块71、数据提取模块72和存储模块73;
112.接收模块71,用于接收目标任务的触发消息;所述触发消息用于触发数据采集平台执行所述目标任务,所述目标任务用于采集多个业务平台的数据;
113.数据提取模块72,用于对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第一目标数据;
114.存储模块73,用于存储每个所述业务平台的第一目标数据。
115.在一些实施例中,所述数据提取模块72对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第一目标数据,具体包括:
116.获取每个所述业务平台的网页对应的数据提取方式;
117.根据每个所述业务平台的网页对应的数据提取方式,对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第一目标数据。
118.在一些实施例中,所述数据提取模块72获取每个所述业务平台的网页对应的数据提取方式,具体包括:
119.对每个所述业务平台的网页进行文档对象模型分析,确定每个所述业务平台的网
页对应的数据提取方式。
120.在一些实施例中,所述数据提取模块72对每个所述业务平台的网页进行文档对象模型分析,确定每个所述业务平台的网页对应的数据提取方式,具体包括:
121.若每个所述业务平台的网页的文档对象模型指示的网页显示数据为非下载链接,则确定所述业务平台的网页对应的数据提取方式为提取网页显示的数据;
122.所述根据每个所述业务平台的网页对应的数据提取方式,对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的目标数据,包括:
123.根据所述业务平台的网页对应的提取网页显示的数据的数据提取方式,提取所述业务平台的网页的数据,得到每个所述业务平台的第一目标数据。
124.在一些实施例中,所述数据提取模块72对每个所述业务平台的网页进行文档对象模型分析,确定每个所述业务平台的网页对应的数据提取方式,具体包括:
125.若每个所述业务平台的网页的文档对象模型指示的网页显示数据为下载链接,则确定所述业务平台的网页对应的数据提取方式为通过点击网页上的链接下载数据;
126.所述根据每个所述业务平台的网页对应的数据提取方式,对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第一目标数据,包括:
127.根据所述业务平台的网页对应的通过点击网页上的链接下载数据的数据提取方式,基于所述网页上的链接,跳转至下载页面对数据进行下载,得到每个所述业务平台的目标数据。
128.在一些实施例中,所述数据提取模块72对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的目标数据,包括:
129.根据所述目标任务的触发消息,获取预先存储的每个所述业务平台的登录信息;
130.根据所述预先存储的每个所述业务平台的登录信息登录每个所述业务平台;
131.对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第一目标数据。
132.在一些实施例中,所述数据提取模块72对每个所述业务平台的网页进行数据提取,包括:采用每个所述业务平台对应的线程,对每个所述业务平台的网页进行数据提取。
133.在一些实施例中,所述装置还包括:获取模块74和发送模块75;
134.其中,所述接收模块71,还用于接收数据分析平台发送的数据获取请求,所述数据获取请求用于请求结果数据,所述数据分析平台用于根据所述结果数据进行数据分析;
135.获取模块74,用于根据所述数据获取请求,从每个所述业务平台的目标数据中获取结果数据;
136.发送模块75,用于向所述数据分析平台发送所述结果数据。
137.在一些实施例中,所述数据提取模块72,还用于对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第二目标数据;所述存储模块73,还用于若所述第二目标数据与所述第一目标数据为同一对象的数据时,则使用所述第二目标数据替换所述第一目标数据。
138.在一些实施例中,该装置还包括:确定模块76;
139.其中,所述数据提取模块72,还用于对每个所述业务平台的网页进行数据提取,得到待存储的每个所述业务平台的第三目标数据;所述确定模块76,还用于若所述第三目标
数据与所述第一目标数据为同一对象的数据,且所述第三目标数据相较于所述第一目标数据存在变化,则确定所述第三目标数据中针对所述第一目标数据的变化数据;存储模块73,还用于存储所述第三目标数据中针对所述第一目标数据的变化数据。
140.本技术实施例提供的数据采集装置,可用于执行上述实施例中数据采集方法的技术方案,其实现原理和技术效果类似,在此不再赘述。
141.需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,数据提取模块72可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上数据提取模块72的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
142.图8为本技术实施例提供的电子设备的结构示意图。如图8所示,该电子设备可以包括:收发器81、处理器82、存储器83。
143.处理器82执行存储器存储的计算机执行指令,使得处理器82执行上述实施例中的方案。处理器82可以是通用处理器,包括中央处理器cpu、网络处理器(network processor,np)等;还可以是数字信号处理器dsp、专用集成电路asic、现场可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
144.存储器83通过系统总线与处理器82连接并完成相互间的通信,存储器133163用于存储计算机程序指令。
145.收发器81可以用于接收目标任务的触发消息。
146.系统总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,ram),也可能还包括非易失性存储器(non-volatile memory)。
147.本技术实施例提供的电子设备,可以是上述实施例的数据采集平台所在的设备。
148.本技术实施例还提供一种运行指令的芯片,该芯片用于执行上述实施例中数据采集方法的技术方案。
149.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行上述实施例数据采集方法的技术方案。
150.本技术实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,其存储在计算机可读存储介质中,至少一个处理器可以从计算机可读存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现上述实施例中数据采集方法的技术方案。
151.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
152.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献