一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种新型网页信息获取分析系统的设计方法与流程

2022-02-20 04:57:00 来源:中国专利 TAG:

1.本系统主要属于网页信息获取及分析领域,这项技术通过将网页存入xml数据库,然后使用不同的xquery进行查询来满足不同的需求,是一项新型的融合技术。


背景技术:

2.该系统包含的背景技术包含网页信息抽取领域,网页分析技术,xml数据库的背景技术。


技术实现要素:

3.该项技术主要包含网页信息采集,数据处理,数据存储和数据分析四个部分。主要思路是先将不同的网页信息采集下来,然后预处理,存入xml数据库,之后使用不同的查询语言进行查询,获得不同的信息。
4.网页信息采集主要是将不同的网页的内容完整的采集下来,我们可以使用不同的编程语言,不同的方法采集到原始网页,比如使用selenium方法,curl方法,httpclient方法,urllib方法,beautifulsoup方法,scratch方法,scrapy方法,php语言的curl方法,c 语言的chilkat的方法,jsoup方法,tbselenium方法等。
5.比如,如果我们使用selenium的技术,编程语言是python,可以有如下选择,比如webdriver.chrome, webdriver.firefox, webdriver.ie, webdriver.phantomjs等获取到driver,我们也可以采用其他的编程语言及方法,比如编程语言是java,则采用,driver = new firefoxdriver,driver = new phantomjsdriver等方法获取到driver, 其他编程语言以此类推,获取到driver之后,通过驱动driver访问目标网站的url来获取原始网页信息,不同的编程语言略有不同,一般形式为driver.get(url)。在driver获取到url成功之后,从driver中获取到原始网页信息,一般形式是driver.page_source的形式获取,不同的编程语言略有不同。大体类似。
6.如果使用urllib的方法,则是,使用weburl = urllib.request.urlopen(url)的方法获取到目标网站,然后使用weburl.read的方法获取到原始网页信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
7.如果是jsoup的方法,大致方法是使用jsoup.connect(url).get().html()获取原始网页信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
8.如果是curl的方法,则是使用curl http://www.example.com的方法来获取原始网页信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
9.如果是beautifulsoup方法,则是使用requests.get(url)的方法获得req,其他方法略有不同,大体类似,主要是获取原始网页信息。
10.如果是scratch方法,底层方法是使用requests.get(url)的方法获取目标网页,从而获得原始网页信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
11.如果是scrapy方法,底层方法是使用scrapy.request(url)的方法获取目标网页,
从而获取原始网页信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
12.如果是php语言的curl方法,底层方法是先对$handle进行赋值,然后使用curl_exec($handle)的方法获取目标网页,其他方法略有不同,大体类似,主要是获取原始网页信息。
13.如果是c 语言的chikat方法,底层方法是使用spider.initialize(url)的方法来获取目标网页的原始网页信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
14.如果是httpclient的方法,则底层方法是使用httpget get= new httpget(url)的方法创建访问请求,通过httpresponse response = httpclient.execute(get)的方法来获取目标网页的信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
15.如果是使用tbseleium方法,底层方法是使用torbrowserdriver(path_to_torbrowserbundle)方法获得driver,使用driver.get(url)的方法,获得原始网页信息,其他方法略有不同,大体类似,主要是获取原始网页信息。
16.还有其他的方法,主要目标是获取到网页的原始网页信息。
17.第二部分是,数据预处理部分,该部分是将原始网页处理成xml数据库可以存储的格式,主要步骤是去除原始网页中style元素部分和script元素部分,剩余部分保持不变,并且将文件格式保存为xml文件格式。如果我们使用python,主要方式为先将文件保存为beautifulsoup的一个实例,称之为parse_soup,然后通过extract方法,去除所有的script元素和style元素部分。有其他的方法,目的都是去除script元素和style元素部分,保留剩下的部分。
18.第三部分,数据存储部分,该部分就是将处理之后的xml文件整体保存入xml数据库,不同的xml数据库有不同的版本,如果我们使用basex,使用 python接口的话,我们会使用session.execute(“open db database”)的凡是打开数据库,然后使用session.execute(“add test.xml”)的方式加入xml文件,也可以使用其他方式,比如gui方式加入xml文件到目标数据库,我们也可以使用其他的xml数据库,用于存储处理之后的xml文件,并且全部保存到特定数据库中。
19.第四部分,数据分析部分,该部分是根据需求,使用不同的xpath和xquery查询语言对目标信息进行查询,如果我们需要查找所有段落中的邮件信息,一般形式为,for $i in db:open(

test’)//p[contains(.,’@’)] return data($i)的形式,可以根据不同的需求来采用不同的xquery查询语言来满足需求,如果我们使用python接口的话,我们会使用session.query(query_command)的方法来获取信息。我们也能够使用其他的编程语言,比如java, c, c 等,主要是使用不同的xquery或则xpath从目标数据库中获取到相关信息。不同的目标信息使用不同的查询语言就能够满足。


技术特征:
1.对整套系统设计及其衍生方法进行保护,即将原始网页信息抓取,预处理,存入xml数据库,使用xquery查询信息。2.对原始网页信息抓取的不同方法及其衍生方法进行保护,比如selenium,jsoup等说明书中提到的方法,衍生方法以及其他的方法。3.对将原始网页预处理的方法及其衍生方法进行保护,比如,将网页信息中的style元素部分和script元素部分去掉,保留剩下的部分,并且改成xml文件。4.对将数据存入xml数据库的方法及其衍生方法进行保护,比如,网页变成xml文件之后,存入xml数据库的指定数据库中,用于后续查询。5.对使用xquery或xpath查询网页信息以满足不同需求的方法及其衍生方法申请保护,比如,通过将网页处理之后存入xml数据库后,查询邮件用一个语句,查询时间用另一个,不同的需求,使用不同的查询语句就能实现。

技术总结
本发明提出了一种新的网页信息获取系统的设计方法,该系统主要是将原始网页信息采集下来,然后进行预处理,之后存入xml数据库,对于不同的信息查询需求使用不同的xpath或者xquery进行查询以满足需求。xquery进行查询以满足需求。


技术研发人员:ꢀ(51)Int.Cl.G06F16/951
受保护的技术使用者:天津挺哥网络科技有限公司
技术研发日:2020.07.07
技术公布日:2022/1/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献