基于疲劳仿真模型的拟人爬虫方法与流程

2022-06-01 09:11:23 来源：中国专利 TAG：

1.本发明涉及信息获取领域。

背景技术：

2.随着社会的进步和互联网的快速发展，更多的数据趋向于数字化。然而如何获取这些数据成为学者们的研究热点，以往的手工方式，一条一条的搜索显然已经不能满足，效率低下，耗费时间长，网络爬虫的出现改变了这一现状。根据人们对数据的需求不同以及应用的场合不同，网络爬虫也进行了分类，如通用网络爬虫和主题网络爬虫。传统的网络爬虫从一个或若干个起始url开始，获取初始网页的url，在对网页进行抓取的过程中不断的，将新的url放入url队列中，不断重复整个过程，直到满足爬虫终止的条件。
3.然而随着网络爬虫技术的发展，其对网络的影响越来越大。各大网站出于对数据保护的目的，都或多或少的设计了一些反爬虫的技术，如对请求头的检测，对用户的流量监控从而进行ip的限制，异步加载，在下载时设置验证码等，用各种手段限制爬虫程序。针对这些问题，目前所采用的方法分为两种，一种是对爬虫进行伪装，即反爬措施很难识别爬虫程序，然而此类方法采用统一的休息间隔；另外一种方法是针对出现的问题采用具体的措施，如针对网站的ip限制，采取的策略是更换ip或者采用ip池的方法。这两种方式在使用时都会使爬虫的爬取效率下降，因此，以上问题亟需解决。

技术实现要素：

4.本发明目的是为了解决现有针对反爬虫技术的爬虫方法，爬取效率低的问题，本发明提供了一种基于疲劳仿真模型的拟人爬虫方法。
5.基于疲劳仿真模型的拟人爬虫方法，包括如下步骤：
6.s1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集，获得初始数据集；所述的初始数据集由所有个体对所有目标文章进行采集操作获得的m
×
n组时间间隔序列构成；m和n均为整数；
7.s2、对初始数据集进行预处理，获得预处理后的数据集；
8.s3、构建疲劳仿真模型；所述疲劳仿真模型采用lstm的神经网络模型实现；
9.s4、将预处理后的数据集划分为两部分，一部分作为训练集，另一部分作为验证集；利用训练集对疲劳仿真模型进行训练，使疲劳仿真模型对训练集进行深度学习，获得训练后的疲劳仿真模型；
10.s5、利用验证集和训练后的疲劳仿真模型，获得进行当前爬虫任务所需的休眠时间间隔后，将休眠时间间隔与爬虫程序进行整合，获得整合后的爬虫程序，再利用整合后的爬虫程序进行网络爬虫，从而实现拟人爬虫。
11.本发明带来的有益效果是，现有技术中应对反爬的策略还未将人对网站的浏览过程考虑进来，因此，本发明根据人下载浏览文件的过程，构建了适用于人的疲劳仿真模型，实现对网站反爬措施的规避。
12.本发明利用疲劳仿真模型拟合出人类访问网站时点击鼠标的时间间隔，在爬虫爬取目标网站数据时以拟合出的人类访问网站时鼠标点击的时间间隔为基准设置休眠时间，且通过训练后的疲劳仿真模型可随机的生成进行当前爬虫任务所需的休眠时间间隔，减少规律性，实现以拟人的方式进行爬虫。本发明中利用疲劳仿真模型对爬虫进行拟人化可在保证爬虫爬取目标网站的效率的同时，降低被封禁的概率，而人类访问网站时，很少出现被封禁的情况，原因在于人类访问网站采取数据时的频率较为适中，在浏览及下载的过程中，为间歇式的采集数据，浏览过程中处于非点击状态，故人类访问网站时不会被封禁。所述基于疲劳仿真模型的拟人爬虫方法为应对反爬虫提供了一种新的解决方案。
附图说明
13.图1是本发明所述基于疲劳仿真模型的拟人爬虫方法的流程图；
14.图2是获得初始数据集的流程图。
具体实施方式
15.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
16.需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
17.具体实施方式一：下面结合图1说明本实施方式，本实施方式所述基于疲劳仿真模型的拟人爬虫方法，包括如下步骤：
18.s1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集，获得初始数据集；所述的初始数据集由所有个体对所有目标文章进行采集操作获得的m
×
n组时间间隔序列构成；m和n均为整数；
19.s2、对初始数据集进行预处理，获得预处理后的数据集；
20.s3、构建疲劳仿真模型；所述疲劳仿真模型采用lstm的神经网络模型实现；
21.s4、将预处理后的数据集划分为两部分，一部分作为训练集，另一部分作为验证集；利用训练集对疲劳仿真模型进行训练，使疲劳仿真模型对训练集进行深度学习，获得训练后的疲劳仿真模型；
22.s5、利用验证集和训练后的疲劳仿真模型，获得进行当前爬虫任务所需的休眠时间间隔后，将休眠时间间隔与爬虫程序进行整合，获得整合后的爬虫程序，再利用整合后的爬虫程序进行网络爬虫，从而实现拟人爬虫。
23.本实施方式中，本发明利用疲劳仿真模型拟合出人类访问网站时点击鼠标的时间间隔，在爬虫爬取目标网站数据时以拟合出的人类访问网站时鼠标点击的时间间隔为基准设置休眠时间，且通过训练后的疲劳仿真模型可随机的生成进行当前爬虫任务所需的休眠时间间隔，减少规律性，实现以拟人的方式进行爬虫。本发明中利用疲劳仿真模型对爬虫进行拟人化可在保证爬虫爬取目标网站的效率的同时，降低被封禁的概率，而人类访问网站时，很少出现被封禁的情况，原因在于人类访问网站采取数据时的频率较为适中，在浏览及
下载的过程中，为间歇式的采集数据，浏览过程中处于非点击状态，故人类访问网站时不会被封禁。所述基于疲劳仿真模型的拟人爬虫方法为应对反爬虫提供了一种新的解决方案。
24.所述的疲劳仿真模型是采用lstm的神经网络模型实现，lstm的神经网络模型是现有技术，在对其训练的过程可通过现有技术实现，具体为可将初始数据集中的多组时间上连续的时间间隔序列作为疲劳仿真模型的输入，疲劳仿真模型不断的对输入的多组时间间隔序列进行深度学习，从而预测出执行下一目标任务的时间间隔序列，利用预测出的时间间隔序列与初始数据集中的真实的时间间隔序列比较，直至疲劳仿真模型收敛，完成训练。
25.所述的爬虫程序为现有技术。
26.具体实施方式二：下面结合图2说明本实施方式，本实施方式对实施方式一作进一步说明，步骤s1中、利用m个个体均对任意目标网站下的n个目标文章依次进行采集，获得初始数据集的实现方式为：
27.步骤s11、进入任意目标网站；
28.步骤s12、利用m个个体均对同一目标网站下的第i个目标文章进行点击，并记录每个个体的点击时间t
pi1
，i的初始值为1；其中，
29.t
pi1
为第p个个体对第i个目标文章进行点击的时间；
30.p和i均为整数，且i＝1,2,3
……
，n，p＝1,2,3
……
，m；
31.步骤s13、m个个体均选择所需下载的第i个目标文章属性，并进行点击选择属性操作，同时记录每个个体的点击时间t
pi2
，所述目标文章属性为pdf或word；其中，
32.t
pi2
为第p个个体对第i个目标文章的属性进行点击选择操作的时间；
33.步骤s14、m个个体均根据选择的第i个目标文章的属性，进行点击下载操作，并记录每个个体的点击时间t
pi3
；
34.t
pi3
为第p个个体对第i个目标文章的属性选择后，对所选择的属性的目标文章进行点击下载操作的时间；
35.步骤s15、每个个体点击返回上一级目录，回到目标网站，并记录进行该操作时每个个体的点击时间t
pi4
；
36.t
pi4
为第p个个体对第i个目标文章进行点击下载后，点击返回上一级目录时的点击时间；
37.步骤s16、根据t
pi1
、t
pi2
、t
pi3
和t
pi4
，获得每个个体对第i个目标文章进行采集操作的时间间隔序列s
pi
＝{t
pi2-t
pi1
，t
pi3-t
pi2
，t
pi4-t
pi3
}，其中，
38.s
pi
为第p个个体对第i个目标文章进行采集操作获得的一组时间间隔序列；
39.步骤s17、使i＝i 1，返回步骤s12，直至获得所有个体对所有文章进行采集操作获得的m
×
n组时间间隔序列，并由所有个体对所有目标文章进行采集操作获得的m
×
n组时间间隔序列构成初始数据集。
40.本优选实施方式中，构建的初始数据集是通过真实执行任务获得的数据集，保证数据集的真实性。
41.具体实施方式三：下面结合图1说明本实施方式，本实施方式对实施方式一作进一步说明，步骤s2中、对初始数据集进行预处理，获得预处理后的数据集的实现方式为：
42.依据离群点算法去除初始数据集中离群的时间间隔序列进行剔除，从而获得预处理后的数据集。
43.具体实施方式四：下面结合图1说明本实施方式，本实施方式对实施方式一作进一步说明，步骤s5中、利用验证集和训练后的疲劳仿真模型，获得进行当前爬虫任务所需的休眠时间间隔的实现方式为：
44.利用训练后的疲劳仿真模型进行实时、且随机的读取验证集中的连续的k组时间间隔序列，训练后的疲劳仿真模型通过读取的k组时间间隔序列，预测对当前爬虫任务进行采集操作所需的时间间隔序列，并输出其对当前爬虫任务进行采集操作所需的时间间隔序列；
45.再将训练后的疲劳仿真模型输出的时间间隔序列作为当前爬虫任务所需的休眠时间间隔；
46.所述的爬虫任务为待采集的目标文章，k为大于或等于2的整数。
47.具体实施方式五：下面结合图1说明本实施方式，本实施方式对实施方式一作进一步说明，步骤s5中、将休眠时间间隔与爬虫程序进行整合的具体实现方式为：
48.将休眠时间间隔添加到爬虫程序中，获得整合后的爬虫程序。
49.具体应用时，将休眠时间间隔添加到爬虫程序中，使得现有的爬虫程序可实现间歇式的爬虫，以模拟人类采取数据的过程，进行爬虫，保证爬虫爬取目标网站的效率的同时，降低被封禁的概率。
50.具体实施方式六：下面结合图1说明本实施方式，本实施方式对实施方式一作进一步说明，k的取值为3。
51.虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：界面开发的视觉还原测试方法及装置与流程

基于疲劳仿真模型的拟人爬虫方法与流程

相关文献

最热文献