一种网页解析方法、系统及电子设备与流程

2022-06-08 21:02:02 来源：中国专利 TAG：

1.本技术涉及网页解析领域，尤其涉及一种网页解析方法、系统及电子设备。

背景技术：

2.目前，对于网页信息采集，通常采用通用网页采集或聚焦网页采集。
3.其中，通用网页采集，其对于多类网页采集采用一套通用的处理方法，并未考虑网页本身的特性，网页信息采集完整性很难保证；而聚焦网页采集，其仅能采集一种类型的网页信息，网页采集的类别有限。

技术实现要素：

4.有鉴于此，本技术提供一种网页解析方法、系统及电子设备，其具体方案如下：
5.一种网页解析方法，包括：
6.从待采集网页列表中确定第一待采集网页，确定所述第一待采集网页的地址信息，所述待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；
7.基于所述第一待采集网页的地址信息确定所述第一待采集网页的特性信息；
8.基于所述第一待采集网页的特性信息确定符合所述特性信息的采集模式，基于所述采集模式采集所述第一待采集网页的网页信息；
9.解析并存储所述网页信息。
10.进一步的，所述基于所述第一待采集网页的地址信息确定所述第一待采集网页的特性信息，包括：
11.基于所述第一待采集网页的地址信息确定所述第一待采集网页是否为特定类型渲染网页，以及，确定所述第一待采集网页是否对所述第一待采集网页中存在的网页链接进行采集。
12.进一步的，所述基于所述第一待采集网页的特性信息确定符合所述特性信息的采集模式，包括：
13.若确定所述第一待采集网页为所述特定类型渲染网页，且仅对所述第一待采集网页进行采集，则确定所述第一待采集网页为动态非扩展类型的网页，确定动态非扩展采集模式；
14.若确定所述第一待采集网页为所述特定类型渲染网页，且对所述第一待采集网页中存在的网页链接进行采集，则确定所述第一待采集网页为动态扩展类型的网页，确定动态扩展采集模式；
15.若确定所述第一待采集网页为非特定类型渲染网页，且仅对所述第一待采集网页进行采集，则确定所述第一待采集网页为静态非扩展类型的网页，确定动态非扩展采集模式；
16.若确定所述第一待采集网页为非特定类型渲染网页，且对所述第一待采集网页中存在的网页链接进行采集，则确定所述第一待采集网页为静态扩展类型的网页，确定静态
扩展采集模式。
17.进一步的，所述基于所述采集模式采集所述第一待采集网页的网页信息，包括：
18.基于所述采集模式下载所述第一待采集网页；
19.从下载的所述第一待采集网页中获取网页信息。
20.进一步的，还包括：
21.获得下载的所述第一待采集网页中存在的网页链接；
22.确定所述第一待采集网页中的网页链接是否与所述待采集网页列表中的待采集网页的地址信息相同；
23.若所述网页链接与所述待采集网页列表中每一待采集网页的地址信息均不相同，将所述网页链接作为一个地址信息存储至所述待采集网页列表。
24.进一步的，所述解析并存储所述网页信息，包括：
25.确定解析模板列表中是否有与所述网页信息匹配的解析模板；
26.若解析模板列表中存在与所述网页信息匹配的解析模板，则通过所述解析模板解析所述网页信息；
27.若所述解析模板列表中不存在与所述网页信息匹配的解析模板，则选择通用解析模板解析所述网页信息。
28.进一步的，还包括：
29.获得解析模板生成指令；
30.基于所述解析模板生成指令生成与所述网页信息匹配的特定解析模板；
31.基于所述特定解析模板解析所述网页信息。
32.一种网页解析系统，包括：
33.第一确定单元，用于从待采集网页列表中确定第一待采集网页，确定所述第一待采集网页的地址信息，所述待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；
34.第二确定单元，用于基于所述第一待采集网页的地址信息确定所述第一待采集网页的特性信息；
35.采集单元，用于基于所述第一待采集网页的特性信息确定符合所述特性信息的采集模式，基于所述采集模式采集所述第一待采集网页对的网页信息；
36.解析单元，用于解析并存储所述网页信息。
37.一种电子设备，包括：
38.处理器，用于从待采集网页列表中确定第一待采集网页，确定所述第一待采集网页的地址信息，所述待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于所述第一待采集网页的地址信息确定所述第一待采集网页的特性信息；基于所述第一待采集网页的特性信息确定符合所述特性信息的采集模式，基于所述采集模式采集所述第一待采集网页的网页信息；解析并存储所述网页信息；
39.存储器，用于存储所述处理器执行上述处理过程的程序。
40.一种可读存储介质，用于至少存储一组指令集；
41.所述指令集用于被调用并至少执行如上任一项的网页解析的方法。
42.从上述技术方案可以看出，本技术公开的网页解析方法、系统及电子设备，从待采
集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息，基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息，解析并存储网页信息。本方案中在对网页进行采集时，首先基于该网页的地址信息确定其特性信息，以便于基于特性信息选择对应的采集模式对该网页进行采集，实现了针对具有不同特性的网页采用不同的采集模式进行采集，保证了不同网页的信息完整性及精确性，同时能够实现对不同类别的网页进行的采集。
附图说明
43.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
44.图1为本技术实施例公开的一种网页解析方法的流程图；
45.图2为本技术实施例公开的一种网页解析方法的流程图；
46.图3为本技术实施例公开的一种网页解析方法的流程图；
47.图4为本技术实施例公开的一种网页解析方法的流程图；
48.图5为本技术实施例公开的一种网页解析系统的结构示意图；
49.图6为本技术实施例公开的一种电子设备的结构示意图。
具体实施方式
50.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
51.本技术公开了一种网页解析方法，其流程图如图1所示，包括：
52.步骤s11、从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；
53.步骤s12、基于第一待采集网页的地址信息确定第一待采集网页的特性信息；
54.步骤s13、基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息；
55.步骤s14、解析并存储网页信息。
56.网页采集，即通过一定的规则策略，自动抓取互联网网页，获取网页信息。目前网页采集通常为通用网页采集及聚焦网页采集。
57.通用网页采集，其对网页没有固定的抽取规则，是通过一套通用的处理方法处理所有的网页，解析的网页信息无法满足用户的多样化需求；而聚焦网页采集，其是选择性的采集相关主题的网站，仅采集与主题相关的一种类型的网页信息，采集的类别有限。
58.而本方案中，能够基于不同待采集网页的特性采用不同的采集模式，对不同的待
采集网页进行信息的采集，以保证对于不同类型的网页能够选用针对其特性的采集模式进行信息采集，提高网页中信息采集的精确性及完整性。
59.首先，设置待采集网页列表，该待采集网页列表用于存储待采集的网页的地址信息，其地址信息可以为：统一资源定位符url，即该待采集网页列表其实际是多个待采集的网页的地址信息的列表，而每个地址信息用于访问一个网页，不同的地址信息用于访问不同的网页。设置待采集网页列表，以使得所有还未进行采集的网页的地址信息以列表的形式呈现出来，以便于从该列表中依次调取不同的地址信息，从而实现依次对待采集的网页进行采集。
60.当需要进行网页采集时，可直接从该待采集网页列表中确定当前需要采集的第一待采集网页，其实际确定的是第一待采集网页的地址信息，即第一待采集网页的url信息。
61.当获得第一待采集网页的地址信息时，能够直接基于地址信息确定该第一待采集网页的特性信息，具体可通过待采集网页的url信息的扩展名确定待采集网页的类型，不同类型的网页具有不同的特性。
62.相应的，不同类型的网页通过不同的采集模式进行信息的采集，即网页类型与网页特性一一对应，网页特性与采集模式一一对应。那么，在确定第一待采集网页的特性后，可选择与该特性对应的采集模式，通过与该特性对应的采集模式对该待采集网页进行信息采集。由于与该特性对应的采集模式能够对该类型的网页进行更精确的信息采集，这就使得采集后的网页信息能够更符合该网页的特性，符合该网页的展示需求。
63.预先设置不同的采集模式，每种采集模式对应一种类型的网页，当有待采集网页时，确定其类型，在网页类型确定后，用于采集该网页信息的采集模式也就相应确定了。
64.当基于第一待采集网页的特性信息选择相应的采集模式后，通过该采集模式对第一待采集网页进行信息的采集，在信息采集完成后，还需要对信息进行解析，并在解析完成后对其进行存储。
65.将网页的解析数据存储至文件或数据库。通常将元信息保存在关系型数据库，网页文件保存在磁盘；对于大规模的网页采集，可使用基于文档的数据库进行解析数据的存储。
66.本实施例公开的网页解析方法，从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息，基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息，解析并存储网页信息。本方案中在对网页进行采集时，首先基于该网页的地址信息确定其特性信息，以便于基于特性信息选择对应的采集模式对该网页进行采集，实现了针对具有不同特性的网页采用不同的采集模式进行采集，保证了不同网页的信息完整性及精确性，同时能够实现对不同类别的网页进行的采集。
67.本实施例公开了一种网页解析方法，其流程图如图2所示，包括：
68.步骤s21、从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；
69.步骤s22、基于第一待采集网页的地址信息确定第一待采集网页是否为特定类型渲染网页，以及，确定第一待采集网页是否对第一待采集网页中存在的网页链接进行采集；
70.步骤s23、基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息；
71.步骤s24、解析并存储网页信息。
72.网页的特性信息至少包括：是否为特定类型渲染网页，是否对当前网页中存在的网页链接进行采集。
73.其中，特定类型渲染网页可以为javascript渲染网页，若网页为javascript渲染网页，则该网页属于动态网页；对于非特定类型渲染网页，可以为html网页，若网页为html网页，则该网页属于静态网页。其中，静态网页为一种网页形态，即单纯的html网页；动态网页为一种javascript渲染出的网页形态，在这些网页页面中，网页在浏览器中展示的内容可能不会出现在html源代码中，有用的信息更多依赖javascript渲染。
74.若网页对当前网页中存在的网页链接进行采集，则表明该网页为扩展型网页；若仅对当前网页进行采集，而不对该当前网页中存在的其他网页链接进行采集，则表明该网页为非扩展型网页。
75.具体的，若待采集网页为特定类型渲染网页，且仅对当前网页进行采集，则该待采集网页为动态非扩展型网页；若待采集网页为特定类型渲染网页，且对当前网页中存在的网页链接进行采集，则该待采集网页为动态扩展型网页；若待采集网页为非特定类型渲染网页，且仅对当前网页进行采集，则该待采集网页为静态非扩展型网页；若待采集网页为非特定类型渲染网页，且对当前网页中存在的网页链接进行采集，则该待采集网页为静态扩展型网页。
76.对于不同类型的网页基于其特性选用不同的采集模式。
77.若待采集网页为动态非扩展型网页，则选用动态非扩展采集模式对该待采集网页进行采集；若待采集网页为动态扩展型网页，则选用动态扩展采集模式对该待采集网页进行采集；若待采集网页为静态非扩展型网页，则选用静态非扩展采集模式对该待采集网页进行采集；若待采集网页为静态扩展型网页，则选用静态扩展采集模式对该采集网页进行采集。
78.其中，静态扩展采集模式适合单纯html网页的且需要扩展网页链接url的采集；静态非扩展采集模式适合单纯html网页的且网页链接url数量固定的采集；动态扩展采集模式适合javascript渲染的网页且需要扩展网页链接url的采集；动态非扩展采集模式适合javascript渲染的网页且网页链接url数量固定的采集。
79.优选的，确定待采集网页是否为特定类型渲染网页，可通过确定待采集网页的地址信息中是否包含特定字符，若包含特定字符，则表明待采集网页为特定类型渲染网页，属于动态网页。
80.例如：确定待采集网页的url连接的扩展名中是否包含第一特定字符，第一特定字符，如：.asp、.jsp、.php等，或者链接中是否包含第二特定字符，第二特定字符，如：“？”、“＝”、“％”、“&”、“￥”、“id”等。
81.在确定与待采集网页的特性信息对应的采集模式后，还需要对采集模式进行封装。
82.进一步的，当确定某个网页进行了更新，则可根据该网页的地址信息选择待触发的采集模式，以便于通过该对应的采集模式对该网页的网页信息进行重新获取。
83.在确定待触发的采集模式时，还需要进一步确定该采集模式对应的待采集队列，即是否需要通过该采集模式对其他待采集网页进行网页信息的采集；若确定该采集模式对应的待采集队列为空，则需要重置该队列，以便于开启新一轮的网页采集。
84.本实施例公开的网页解析方法，从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息，基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息，解析并存储网页信息。本方案中在对网页进行采集时，首先基于该网页的地址信息确定其特性信息，以便于基于特性信息选择对应的采集模式对该网页进行采集，实现了针对具有不同特性的网页采用不同的采集模式进行采集，保证了不同网页的信息完整性及精确性，同时能够实现对不同类别的网页进行的采集。
85.本实施例公开了一种网页解析方法，其流程图如图3所示，包括：
86.步骤s31、从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；
87.步骤s32、基于第一待采集网页的地址信息确定第一待采集网页的特性信息；
88.步骤s33、基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式下载第一待采集网页，从下载的第一待采集网页中获取网页信息；
89.步骤s34、解析并存储网页信息。
90.基于采集模式采集第一待采集网页的网页信息，其具体可通过对第一待采集网页进行下载，在下载完成后，从该第一待采集网页中获取网页信息。
91.由于待采集网页至少分为静态网页及动态网页，那么，采集模式至少分为静态采集模式及动态采集模式。
92.对于静态采集模式，在对待采集网页的网页信息进行获取时，可通过：从资源池获取地址url域名对应的http client实例，之后封装http请求以及http client上下文，在封装完成后，对该待采集网页进行下载，下载完成后，回收http client的连接，以便于http client能够用于对其他待采集网页的下载。在待采集网页下载完成后，还需要进一步判断该待采集网页下载是否成功，若下载成功，则从下载的该待采集网页中获取网页信息对象；若未下载成功，则直接终止上述获取网页信息的流程。
93.而对于动态采集模式，在该动态采集模式获得网页下载请求时，首先向资源池请求浏览器驱动，资源池从空闲队列中选择一个浏览器驱动分配至该动态采集模式，动态采集模式加载动态网页，并使用获得的浏览器驱动进行网页下载，在下载完成后释放该浏览器驱动，将浏览器驱动归还资源池，资源池将回收的驱动加入至空闲队列，以便于当有其他网页需要下载时，能够调用该浏览器驱动。在待采集网页下载完成后，还需要进一步判断该待下载网页是否下载成功，若下载成功，则从下载的该待采集网页中获取网页信息对象；若下载未成功，则直接终止上述获取网页信息的流程。
94.进一步的，在从下载的第一待采集网页中获取网页信息的同时，还包括：
95.获得下载的第一待采集网页中存在的网页链接，确定第一待采集网页中的网页链接是否与待采集网页列表中的待采集网页的地址信息相同，若网页链接与待采集网页列表中每一待采集网页的地址信息均不相同，则将网页链接作为一个地址信息存储至待采集网
页列表。
96.从下载的第一待采集网页中获取网页信息的同时，还需要确定该网页中是否存在针对其他网页的链接，若第一待采集网页中不存在针对其他网页的链接，则终止当前流程；若第一待采集网页中存在针对其他网页的链接，则需要提取该网页链接。
97.在提取网页链接后，需要判断该网页链接与待采集网页列表中的各待采集网页的地址信息是否相同，进行去重判断。若该网页链接与待采集网页列表中的某一个地址信息相同，则无需对该网页链接进行存储，即无需将该网页链接放入待采集网页列表中；若该网页链接与待采集网页列表中的每一个地址信息均不相同，则表明该待采集网页列表中不存在该网页链接对应的网页，因此，将该网页链接存储至待采集网页列表，使该网页链接对应的网页作为待采集网页列表中的一个。
98.具体的，在确定第一待采集网页中的网页链接是否与待采集网页列表中的待采集网页的地址信息相同之前，还包括：判断网页链接是否符合种子地址url域名正则表达式，若不符合，则终止当前流程，删除该网页链接；若符合，则将符合的网页链接与待采集网页列表中的待采集网页的地址信息是否相同进行判断。
99.另外，需要说明的是，判断待采集网页中是否存在针对其他网页的链接，若确定待采集网页中存在针对其他网页的链接，则需要进一步判断当前的待采集网页是否为扩展型网页，若为非扩展型网页，则仅对该待采集网页进行采集并解析即可，无需提取该待采集网页中存在的网页链接；若为扩展型网页，则需要提取该待采集网页中存在的网页链接，并在提取该网页链接后，进一步判断该网页链接是否与待采集网页列表中的待采集网页的地址信息相同。
100.若网页采集规模较小的，可使用内存队列保存该待采集网页列表，若网页采集的规模较大，则可使用外部存储设备保存该待采集网页列表，以保证既能够保存大数量的网页链接地址，也便于多个网页采集实例同时下载网页，加快网页下载速度。
101.本实施例公开的网页解析方法，从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息，基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息，解析并存储网页信息。本方案中在对网页进行采集时，首先基于该网页的地址信息确定其特性信息，以便于基于特性信息选择对应的采集模式对该网页进行采集，实现了针对具有不同特性的网页采用不同的采集模式进行采集，保证了不同网页的信息完整性及精确性，同时能够实现对不同类别的网页进行的采集。
102.本实施例公开了一种网页解析方法，其流程图如图4所示，包括：
103.步骤s41、从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；
104.步骤s42、基于第一待采集网页的地址信息确定第一待采集网页的特性信息；
105.步骤s43、基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息；
106.步骤s44、确定解析模板列表中是否有与网页信息匹配的解析模板；
107.步骤s45、若解析模板列表中存在与网页信息匹配的解析模板，则通过解析模板解
析网页信息；
108.步骤s46、若解析模板列表中不存在与网页信息匹配的解析模板，则选择通用解析模板解析网页信息。
109.解析模板是基于待采集网页的地址信息确定的，从而实现网页信息的解析。
110.网页信息的解析，对于页面结构不同的网页，需要解析的数据内容会不同，因此，针对不同类型的网站，根据需要解析的网页内容，设置相应的解析模板。
111.解析模板包括：网页链接前缀正则表达式、网页链接url、抽取字段、xpath等。
112.进行网页解析时，首先利用待采集网页的地址url正则表达式进行解析模板的匹配，若存在匹配的解析模板，则将匹配到的解析模板中的字段抽取xpath表达式解析相应内容；若url正则表达式未匹配到相应的解析模板，则选择通用解析模板，利用通用解析模板(//body/alltext())抽取网页全文信息进行解析。
113.进一步的，若解析模板列表中不存在与待采集网页的url正则表达式匹配的解析模板，还可以通过解析模板生成的方式实现对该待采集网页的网页信息进行解析。
114.具体的，获得解析模板生成指令，基于解析模板生成指令生成与网页信息匹配的特定解析模板，基于特定解析模板解析网页信息。
115.当url正则表达式未匹配到相应的解析模板时，可以选择通用解析模板进行网页信息的解析，也可以选择生成新的解析模板以进行网页信息的解析，若用户预先设置在这种情况下选择生成新的解析模板进行网页信息的解析，则执行特定解析模板生成的步骤。
116.当获得解析模板生成指令时，根据待采集网页选择抽取字段，设置该待采集网页链接前缀正则表达式，由于解析模板列表中不存在网页链接前缀正则表达式，则设置字段的抽取表达式，将其加入至解析模板列表，生成特定解析模板，以便通过该特定解析模板对该待采集网页的网页信息进行解析。
117.例如：待采集网页(http://test.test/)，抽取字段为title，对应网页标签为《test class＝“title”》，经过解析模板生成器，生成的解析模板为：网页链接前缀正则表达式：^(https？)://test\.test/，抽取xpath表达式：//test[@class＝'title']/tidytext()。
[0118]
在网页信息解析完成后，将解析得到的解析结果进行存储。在存储过程中获得解析结果的信息摘要，判断信息摘要是否发生变化，若其发生变化，则需要对解析结果进行更新。
[0119]
另外，为了保证网页更新与解析结果的实时一致性，本方案还可设置实时触发网页采集。
[0120]
本实施例公开的网页解析方法，从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息，基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息，解析并存储网页信息。本方案中在对网页进行采集时，首先基于该网页的地址信息确定其特性信息，以便于基于特性信息选择对应的采集模式对该网页进行采集，实现了针对具有不同特性的网页采用不同的采集模式进行采集，保证了不同网页的信息完整性及精确性，同时能够实现对不同类别的网页进行的采集。
[0121]
本实施例公开了一种网页解析系统，其结构示意图如图5所示，包括：
[0122]
第一确定单元51，第二确定单元52，采集单元53及解析单元54。
[0123]
其中，第一确定单元51用于从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；
[0124]
第二确定单元52用于基于第一待采集网页的地址信息确定第一待采集网页的特性信息；
[0125]
采集单元53用于基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页对的网页信息；
[0126]
解析单元54用于解析并存储网页信息。
[0127]
进一步的，第二确定单元用于：
[0128]
基于第一待采集网页的地址信息确定第一待采集网页是否为特定类型渲染网页，以及，确定第一待采集网页是否对第一待采集网页中存在的网页链接进行采集。
[0129]
进一步的，采集单元用于：
[0130]
若确定第一待采集网页为特定类型渲染网页，且仅对第一待采集网页进行采集，则确定第一待采集网页为动态非扩展类型的网页，确定动态非扩展采集模式；若确定第一待采集网页为特定类型渲染网页，且对第一待采集网页中存在的网页链接进行采集，则确定第一待采集网页为动态扩展类型的网页，确定动态扩展采集模式；若确定第一待采集网页为非特定类型渲染网页，且仅对第一待采集网页进行采集，则确定第一待采集网页为静态非扩展类型的网页，确定动态非扩展采集模式；若确定第一待采集网页为非特定类型渲染网页，且对第一待采集网页中存在的网页链接进行采集，则确定第一待采集网页为静态扩展类型的网页，确定静态扩展采集模式。
[0131]
进一步的，采集单元用于：
[0132]
基于采集模式下载第一待采集网页；从下载的第一待采集网页中获取网页信息。
[0133]
进一步的，本实施例公开的网页解析系统还可以包括：
[0134]
网页链接存储单元，用于获得下载的第一待采集网页中存在的网页链接；确定第一待采集网页中的网页链接是否与待采集网页列表中的待采集网页的地址信息相同；若网页链接与待采集网页列表中每一待采集网页的地址信息均不相同，将网页链接作为一个地址信息存储至待采集网页列表。
[0135]
进一步的，解析单元用于：
[0136]
确定解析模板列表中是否有与网页信息匹配的解析模板；若解析模板列表中存在与网页信息匹配的解析模板，则通过解析模板解析网页信息；若解析模板列表中不存在与网页信息匹配的解析模板，则选择通用解析模板解析网页信息。
[0137]
进一步的，本实施例公开的网页解析系统还可以包括：
[0138]
解析模板生成单元，用于获得解析模板生成指令；基于解析模板生成指令生成与网页信息匹配的特定解析模板；基于特定解析模板解析网页信息。
[0139]
本实施例公开的网页解析系统是基于上述实施例公开的网页解析方法实现的，在此不再赘述。
[0140]
本实施例公开的网页解析系统，从待采集网页列表中确定第一待采集网页，确定
第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息，基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息，解析并存储网页信息。本方案中在对网页进行采集时，首先基于该网页的地址信息确定其特性信息，以便于基于特性信息选择对应的采集模式对该网页进行采集，实现了针对具有不同特性的网页采用不同的采集模式进行采集，保证了不同网页的信息完整性及精确性，同时能够实现对不同类别的网页进行的采集。
[0141]
本实施例公开了一种电子设备，其结构示意图如图6所示，包括：
[0142]
处理器61及存储器62。
[0143]
处理器61用于从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息；基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息；解析并存储网页信息；
[0144]
存储器62用于存储处理器执行上述处理过程的程序。
[0145]
本实施例公开的电子设备是基于上述实施例公开的网页解析方法实现的，在此不再赘述。
[0146]
本实施例公开的电子设备，从待采集网页列表中确定第一待采集网页，确定第一待采集网页的地址信息，待采集网页列表中包括多个待采集网页，每个待采集网页对应一个地址信息；基于第一待采集网页的地址信息确定第一待采集网页的特性信息，基于第一待采集网页的特性信息确定符合特性信息的采集模式，基于采集模式采集第一待采集网页的网页信息，解析并存储网页信息。本方案中在对网页进行采集时，首先基于该网页的地址信息确定其特性信息，以便于基于特性信息选择对应的采集模式对该网页进行采集，实现了针对具有不同特性的网页采用不同的采集模式进行采集，保证了不同网页的信息完整性及精确性，同时能够实现对不同类别的网页进行的采集。
[0147]
本技术实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器加载并执行，实现上述网页解析方法的各步骤，具体实现过程可以参照上述实施例相应部分的描述，本实施例不做赘述。
[0148]
本技术还提出了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述网页解析方法方面或网页解析系统方面的各种可选实现方式中所提供方法，具体实现过程可以参照上述相应实施例的描述，不做赘述。
[0149]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0150]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和
软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0151]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0152]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：激光线扫轮胎侧面偏心成像矫正处理方法

一种网页解析方法、系统及电子设备与流程

相关文献

最热文献