一种新型网页信息获取分析系统的设计方法与流程

2022-02-20 04:57:00 来源：中国专利 TAG：

1.本系统主要属于网页信息获取及分析领域，这项技术通过将网页存入xml数据库，然后使用不同的xquery进行查询来满足不同的需求，是一项新型的融合技术。

背景技术：

2.该系统包含的背景技术包含网页信息抽取领域，网页分析技术，xml数据库的背景技术。

技术实现要素：

3.该项技术主要包含网页信息采集，数据处理，数据存储和数据分析四个部分。主要思路是先将不同的网页信息采集下来，然后预处理，存入xml数据库，之后使用不同的查询语言进行查询，获得不同的信息。
4.网页信息采集主要是将不同的网页的内容完整的采集下来，我们可以使用不同的编程语言，不同的方法采集到原始网页，比如使用selenium方法，curl方法，httpclient方法，urllib方法，beautifulsoup方法，scratch方法，scrapy方法，php语言的curl方法，c 语言的chilkat的方法，jsoup方法，tbselenium方法等。
5.比如，如果我们使用selenium的技术，编程语言是python，可以有如下选择，比如webdriver.chrome, webdriver.firefox, webdriver.ie, webdriver.phantomjs等获取到driver，我们也可以采用其他的编程语言及方法，比如编程语言是java，则采用，driver = new firefoxdriver，driver = new phantomjsdriver等方法获取到driver, 其他编程语言以此类推，获取到driver之后，通过驱动driver访问目标网站的url来获取原始网页信息，不同的编程语言略有不同，一般形式为driver.get(url)。在driver获取到url成功之后，从driver中获取到原始网页信息，一般形式是driver.page_source的形式获取，不同的编程语言略有不同。大体类似。
6.如果使用urllib的方法，则是，使用weburl = urllib.request.urlopen(url)的方法获取到目标网站，然后使用weburl.read的方法获取到原始网页信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
7.如果是jsoup的方法，大致方法是使用jsoup.connect(url).get().html()获取原始网页信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
8.如果是curl的方法，则是使用curl http://www.example.com的方法来获取原始网页信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
9.如果是beautifulsoup方法，则是使用requests.get(url)的方法获得req，其他方法略有不同，大体类似，主要是获取原始网页信息。
10.如果是scratch方法，底层方法是使用requests.get(url)的方法获取目标网页，从而获得原始网页信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
11.如果是scrapy方法，底层方法是使用scrapy.request(url)的方法获取目标网页，
从而获取原始网页信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
12.如果是php语言的curl方法，底层方法是先对$handle进行赋值，然后使用curl_exec($handle)的方法获取目标网页，其他方法略有不同，大体类似，主要是获取原始网页信息。
13.如果是c 语言的chikat方法，底层方法是使用spider.initialize(url)的方法来获取目标网页的原始网页信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
14.如果是httpclient的方法，则底层方法是使用httpget get= new httpget(url)的方法创建访问请求，通过httpresponse response = httpclient.execute(get)的方法来获取目标网页的信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
15.如果是使用tbseleium方法，底层方法是使用torbrowserdriver(path_to_torbrowserbundle)方法获得driver，使用driver.get(url)的方法，获得原始网页信息，其他方法略有不同，大体类似，主要是获取原始网页信息。
16.还有其他的方法，主要目标是获取到网页的原始网页信息。
17.第二部分是，数据预处理部分，该部分是将原始网页处理成xml数据库可以存储的格式，主要步骤是去除原始网页中style元素部分和script元素部分，剩余部分保持不变，并且将文件格式保存为xml文件格式。如果我们使用python，主要方式为先将文件保存为beautifulsoup的一个实例，称之为parse_soup，然后通过extract方法，去除所有的script元素和style元素部分。有其他的方法，目的都是去除script元素和style元素部分，保留剩下的部分。
18.第三部分，数据存储部分，该部分就是将处理之后的xml文件整体保存入xml数据库，不同的xml数据库有不同的版本，如果我们使用basex，使用 python接口的话，我们会使用session.execute(“open db database”)的凡是打开数据库，然后使用session.execute(“add test.xml”)的方式加入xml文件，也可以使用其他方式，比如gui方式加入xml文件到目标数据库，我们也可以使用其他的xml数据库，用于存储处理之后的xml文件，并且全部保存到特定数据库中。
19.第四部分，数据分析部分，该部分是根据需求，使用不同的xpath和xquery查询语言对目标信息进行查询，如果我们需要查找所有段落中的邮件信息，一般形式为，for $i in db:open(
‘
test’)//p[contains(.,’@’)] return data($i)的形式，可以根据不同的需求来采用不同的xquery查询语言来满足需求，如果我们使用python接口的话，我们会使用session.query(query_command)的方法来获取信息。我们也能够使用其他的编程语言，比如java, c, c 等，主要是使用不同的xquery或则xpath从目标数据库中获取到相关信息。不同的目标信息使用不同的查询语言就能够满足。

技术特征：
1.对整套系统设计及其衍生方法进行保护，即将原始网页信息抓取，预处理，存入xml数据库，使用xquery查询信息。2.对原始网页信息抓取的不同方法及其衍生方法进行保护，比如selenium，jsoup等说明书中提到的方法，衍生方法以及其他的方法。3.对将原始网页预处理的方法及其衍生方法进行保护，比如，将网页信息中的style元素部分和script元素部分去掉，保留剩下的部分，并且改成xml文件。4.对将数据存入xml数据库的方法及其衍生方法进行保护，比如，网页变成xml文件之后，存入xml数据库的指定数据库中，用于后续查询。5.对使用xquery或xpath查询网页信息以满足不同需求的方法及其衍生方法申请保护，比如，通过将网页处理之后存入xml数据库后，查询邮件用一个语句，查询时间用另一个，不同的需求，使用不同的查询语句就能实现。

技术总结
本发明提出了一种新的网页信息获取系统的设计方法，该系统主要是将原始网页信息采集下来，然后进行预处理，之后存入xml数据库，对于不同的信息查询需求使用不同的xpath或者xquery进行查询以满足需求。xquery进行查询以满足需求。

技术研发人员：ꢀ(51)Int.Cl.G06F16/951
受保护的技术使用者：天津挺哥网络科技有限公司
技术研发日：2020.07.07
技术公布日：2022/1/10

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种新型网页信息获取分析系统的设计方法与流程

相关文献

最热文献