一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

反爬虫方法、装置、计算机设备和存储介质与流程

2022-02-22 06:57:51 来源:中国专利 TAG:


1.本技术涉及反爬虫技术领域,特别是涉及一种反爬虫方法、装置、计算机设备和存储介质。


背景技术:

2.随着大数据时代的来临,无论是个人还是企业,对于数据的需求都越来越大。这种需求不仅促进了数据采集技术的日益完善,也使得网络爬虫日益猖獗。
3.目前,我国医疗行业正在向着现代化、信息化的方向发展,大数据建设已经逐渐成为医疗领域中不可或缺的重要部分。
4.但是,医疗领域中有很多涉及个人隐私的医疗信息,因此亟需可靠有效地反爬虫措施来防止个人隐私的泄露。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够有效地反爬虫、防止个人隐私泄露的反爬虫方法、装置、计算机设备和存储介质。
6.一种反爬虫方法,该方法包括:
7.利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
8.根据目标标签获取敏感信息对应的文本数据;
9.对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
10.在其中一个实施例中,上述对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据,包括:
11.利用预先设置的转换脚本对文本数据进行转换处理,得到图像数据;
12.在文本数据对应的网页节点上添加图像数据,并删除文本数据。
13.在其中一个实施例中,在上述利用预先训练的目标识别模型对目标网页中的各标签进行识别之前,该方法还包括:
14.获取第一样本集;第一样本集包括多个第一样本和各第一样本对应的标注;标注用于表征第一样本是否包含敏感信息;
15.基于第一样本集进行神经网络模型的训练,得到中间识别模型;
16.利用中间识别模型对多个第一样本进行筛选得到多个第二样本,并根据多个第二样本确定第二样本集;
17.基于第二样本集进行中间识别模型的训练,得到目标识别模型。
18.在其中一个实施例中,上述获取第一样本集,包括:
19.获取多个包含敏感信息的第一样本;
20.构建多个与包含敏感信息的第一样本相似但不包含敏感信息的第一样本;
21.根据多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本得到第一
样本集。
22.在其中一个实施例中,上述利用中间识别模型对多个第一样本进行筛选得到多个第二样本,包括:
23.将多个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果;
24.对多个第一识别结果进行聚类分析,得到聚类分析结果;聚类分析结果用于表征各第一样本与聚类中心之间的距离;
25.筛选出距离小于预设距离阈值的第一样本作为第二样本。
26.在其中一个实施例中,第一样本集包括训练样本集和测试样本集;上述基于第一样本集进行神经网络模型的训练,得到中间识别模型,包括:
27.基于训练样本集进行神经网络模型的训练,得到初始识别模型;
28.基于测试样本集对初始识别模型进行测试,得到测试结果;
29.若根据测试结果确定初始识别模型的灵敏度小于预设灵敏度阈值,则调整初始识别模型中的可调参数继续训练;
30.若根据测试结果确定初始识别模型的灵敏度大于或等于预设灵敏度阈值,则结束训练得到中间识别模型。
31.在其中一个实施例中,上述基于第二样本集进行中间识别模型的训练,得到目标识别模型,包括:
32.将多个第二样本输入到中间识别模型中,中间识别模型输出的各第二样本对应的第二识别结果;
33.根据多个第二识别结果确定中间识别模型的假负率和特性曲线;
34.若假负率和/或特征曲线不符合预设条件,则调整中间识别模型中的可调参数继续训练;
35.若假负率和特性曲线均符合预设条件,则结束训练得到目标识别模型。
36.在其中一个实施例中,该方法还包括:
37.对于目标网页中的任一标签,确定标签是否为静态标签;
38.若确定标签不为静态标签,则监听标签;
39.若监听到标签中输入敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
40.在其中一个实施例中,在上述确定标签是否为静态标签之后,该方法还包括:
41.若确定标签为静态标签,则确定标签中是否包含敏感信息;
42.若确定包含敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
43.一种反爬虫装置,该装置包括:
44.标签识别模块,用于利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
45.文本获取模块,用于根据目标标签获取敏感信息对应的文本数据;
46.第一替换模块,用于对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
47.在其中一个实施例中,上述第一替换模块,具体用于利用预先设置的转换脚本对文本数据进行转换处理,得到图像数据;在文本数据对应的网页节点上添加图像数据,并删除文本数据。
48.在其中一个实施例中,该装置还包括:
49.第一样本集获取模块,用于获取第一样本集;第一样本集包括多个第一样本和各第一样本对应的标注;标注用于表征第一样本是否包含敏感信息;
50.第一模型训练模块,用于基于第一样本集进行神经网络模型的训练,得到中间识别模型;
51.第二样本集获取模块,用于利用中间识别模型对多个第一样本进行筛选得到多个第二样本,并根据多个第二样本确定第二样本集;
52.第二模型训练模块,用于基于第二样本集进行中间识别模型的训练,得到目标识别模型。
53.在其中一个实施例中,上述第一样本集获取模块,具体用于获取多个包含敏感信息的第一样本;构建多个与包含敏感信息的第一样本相似但不包含敏感信息的第一样本;根据多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本得到第一样本集。
54.在其中一个实施例中,上述第二样本集获取模块,具体用于将多个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果;对多个第一识别结果进行聚类分析,得到聚类分析结果;聚类分析结果用于表征各第一样本与聚类中心之间的距离;筛选出距离小于预设距离阈值的第一样本作为第二样本。
55.在其中一个实施例中,第一样本集包括训练样本集和测试样本集;上述第一模型训练模块,具体用于基于训练样本集进行神经网络模型的训练,得到初始识别模型;基于测试样本集对初始识别模型进行测试,得到测试结果;若根据测试结果确定初始识别模型的灵敏度小于预设灵敏度阈值,则调整初始识别模型中的可调参数继续训练;若根据测试结果确定初始识别模型的灵敏度大于或等于预设灵敏度阈值,则结束训练得到中间识别模型。
56.在其中一个实施例中,上述第二模型训练模块,具体用于将多个第二样本输入到中间识别模型中,中间识别模型输出的各第二样本对应的第二识别结果;根据多个第二识别结果确定中间识别模型的假负率和特性曲线;若假负率和/或特征曲线不符合预设条件,则调整中间识别模型中的可调参数继续训练;若假负率和特性曲线均符合预设条件,则结束训练得到目标识别模型。
57.在其中一个实施例中,该装置还包括:
58.标签确定模块,用于对于目标网页中的任一标签,确定标签是否为静态标签;
59.监听模块,用于若确定标签不为静态标签,则监听标签;
60.第二替换模块,用于若监听到标签中输入敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
61.在其中一个实施例中,该装置还包括:
62.信息确定模块,用于若确定标签为静态标签,则确定标签中是否包含敏感信息;
63.第三替换模块,用于若确定包含敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
64.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
65.利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
66.根据目标标签获取敏感信息对应的文本数据;
67.对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
68.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
69.利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
70.根据目标标签获取敏感信息对应的文本数据;
71.对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
72.上述反爬虫方法、装置、计算机设备和存储介质,利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;根据目标标签获取敏感信息对应的文本数据;对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。通过本公开实施例,终端可以自动识别出包含敏感信息的目标标签,将目标标签中敏感信息对应的文本数据替换为图像数据,这样,可以防止爬虫从目标网页爬取敏感信息,进而可以避免个人隐私的泄露。
附图说明
73.图1为一个实施例中反爬虫方法的应用环境图;
74.图2为一个实施例中反爬虫方法的流程示意图;
75.图3为一个实施例中转换处理和替换步骤的流程示意图;
76.图4为一个实施例中模型训练过程的流程示意图;
77.图5为一个实施例中获取第一样本集步骤的流程示意图;
78.图6为一个实施例中基于第一样本集训练步骤的流程示意图;
79.图7为一个实施例中筛选第二样本步骤的流程示意图;
80.图8为一个实施例中基于第二样本集训练步骤的流程示意图;
81.图9为另一个实施例中反爬虫方法的流程示意图之一;
82.图10为另一个实施例中反爬虫方法的流程示意图之二;
83.图11为一个实施例中反爬虫装置的结构框图;
84.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
85.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
86.本技术提供的反爬虫方法,可以应用于如图1所示的应用环境中。该应用环境包括终端102和服务器104,其中,终端102通过网络与服务器104进行通信。例如,由服务器104预
先进行目标识别模型的训练,终端102通过网络与服务器104通信后,从服务器104获取目标识别模型。上述终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,上述服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
87.在一个实施例中,如图2所示,提供了一种反爬虫方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
88.步骤201,利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签。
89.其中,网页中可以设置多个标签,并且各标签的展示内容不同。
90.可选地,敏感信息包括用户个人信息、诊断结果、病理数据中的至少一种。用户个人信息可以包括患者的姓名、性别、联系方式、身份证号码和家庭住址中的至少一种;诊断结果可以包括病灶类型,如结节、磨玻璃;病理数据可以包括层厚、窗宽和窗位中的至少一种。本公开实施例对敏感信息不做限定。
91.终端中设置有预先训练好的目标识别模型。在实际应用中,将目标网页中的各标签的展示内容输入到目标识别模型中,目标识别模型输出各标签是否包含敏感信息;之后,将包含敏感信息的标签确定为目标标签。
92.步骤202,根据目标标签获取敏感信息对应的文本数据。
93.终端获取目标标签的展示内容,根据目标标签的展示内容确定敏感信息对应的文本数据。
94.例如,根据目标标签a的展示内容确定敏感信息对应的文本数据包括姓名“王某”、身份证号“1
……
x”;根据目标标签b的展示内容确定敏感信息对应的文本数据包括病灶类型“磨玻璃”;根据目标标签c的展示内容确定敏感信息对应的文本数据包括层厚m等。以此类推,可以获取到其他目标标签中的文本数据。
95.步骤203,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
96.终端获取到文本数据后,对文本数据进行转换处理得到图像数据。之后,终端将目标标签中的文本数据删除,并在目标标签中添加图像数据。本公开实施例对转换处理方式不做限定。
97.例如,将目标标签a中的文本数据姓名“王某”、身份证号“1
……
x”转换为图像数据,然后在目标标签a中删除文本数据姓名“王某”、身份证号“1
……
x”,并在目标标签a中添加转换好的图像数据。以此类推,可以对其他目标标签进行转换处理和替换操作。
98.上述反爬虫方法中,利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;根据目标标签获取敏感信息对应的文本数据;对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。通过本公开实施例,终端可以自动识别出包含敏感信息的目标标签,将目标标签中敏感信息对应的文本数据替换为图像数据,这样,可以防止爬虫从目标网页爬取敏感信息,进而可以避免个人隐私的泄露。
99.在一个实施例中,如图3所示,上述的是对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据的过程,可以包括如下步骤:
100.步骤2031,利用预先设置的转换脚本对文本数据进行转换处理,得到图像数据。
101.终端中可以预先设置转换脚本,在获取到文本数据后,利用转换脚本对文本数据进行转换处理得到图像数据。
102.其中,转换脚本可以是html2canvas,html2canvas可以将页面渲染成一个canvas图片。本公开实施例对转换脚本不做限定。
103.步骤2032,在文本数据对应的网页节点上添加图像数据,并删除文本数据。
104.各文本数据有对应的网页节点,在实际应用中,采用图像数据替换文本数据,可以是在文本数据对应的网页节点上添加图像数据,并删除文本数据。还可以采用其他替换方式,本公开实施例对此不做限定。
105.上述实施例中,利用预先设置的转换脚本对文本数据进行转换处理,得到图像数据;在文本数据对应的网页节点上添加图像数据,并删除文本数据。通过本公开实施例,可以快速有效地将文本数据转换为图像数据,进而可以有效地防止爬虫爬取敏感信息。
106.在一个实施例中,如图4所示,在上述利用预先训练的目标识别模型对目标网页中的各标签进行识别之前,本公开实施例还可以包括如下步骤:
107.步骤301,获取第一样本集。
108.其中,第一样本集包括多个第一样本和各第一样本对应的标注;标注用于表征第一样本是否包含敏感信息。
109.获取多个第一样本和各第一样本对应的标注,得到第一样本集。其中,如果标注表征第一样本包含敏感信息,则该第一样本为正样本;如果标注表征第一样本不包含敏感信息,则该第一样本为负样本。本公开实施例对第一样本集中正样本和负样本的数量不做限定,可以根据实际情况进行设置。
110.步骤302,基于第一样本集进行神经网络模型的训练,得到中间识别模型。
111.将第一样本集中的一个第一样本输入到神经网络模型中,得到神经网络模型输出的训练结果;利用预先设置的损失函数计算训练结果与该第一样本所对应的标注之间的损失值。如果该损失值符合预设收敛条件,则训练结束;如果该损失值不符合预设收敛条件,则调整神经网络模型的可调参数,再将第一样本集中的另一个第一样本输入到调整后的神经网络模型中进行训练。直到计算出的损失值符合预设收敛条件时,结束训练,并将结束训练时的神经网络模型确定为中间识别模型。
112.步骤303,利用中间识别模型对多个第一样本进行筛选得到多个第二样本,并根据多个第二样本确定第二样本集。
113.第一样本集中可能存在不适合训练神经网络模型的第一样本,因此,可以将第一样本输入到中间识别模型中,得到中间识别模型输出的识别结果;然后,根据中间识别模型输出的识别结果确定该第一样本是否适用于训练。如果适用于训练,则将该第一样本筛选为第二样本;如果不适用于训练,则不将该第一样本筛选为第二样本。以此类推,对多个第一样本进行筛选,可以得到多个第二样本,并由多个第二样本组成第二样本集。
114.例如,第一样本m1对应的标注为包含敏感信息,将第一样本m1输入到中间识别模型中,中间识别模型输出第一样本m1包含敏感信息的概率为80%。可以看出,中间识别模型输出的识别结果,与第一样本m1对应的标注匹配,第一样本m1适用于训练,将第一样本m1筛选出作为第二样本。
115.又如,第一样本m2对应的标注为包含敏感信息,将第一样本m2输入到中间识别模
型中,中间识别模型输出第一样本m2包含敏感信息的概率为20%。可以看出,中间识别模型输出的识别结果,与第一样本m2对应的标注不匹配,第一样本m2不适用于训练,不将第一样本m2作为第二样本。
116.步骤304,基于第二样本集进行中间识别模型的训练,得到目标识别模型。
117.利用筛选出的第二样本集对中间识别模型进行训练,得到目标识别模型。具体训练过程可以参照步骤302,在此不再赘述。
118.上述实施例中,获取第一样本集;基于第一样本集进行神经网络模型的训练,得到中间识别模型;利用中间识别模型对多个第一样本进行筛选得到多个第二样本,并根据多个第二样本确定第二样本集;基于第二样本集进行中间识别模型的训练,得到目标识别模型。通过本公开实施例,先基于第一样本集进行初步训练,再利用训练得到的中间识别模型对第一样本进行筛选得到第二样本集,并基于第二样本集对中间识别模型进一步训练得到目标识别模型。这样,可以得到更适用于训练的样本集,也可以提高目标识别模型的识别准确率,进而可以更为准确地从目标网页中识别出包含敏感信息的目标标签。
119.在一个实施例中,如图5所示,上述获取第一样本集的过程,可以包括如下步骤:
120.步骤3011,获取多个包含敏感信息的第一样本。
121.获取历史诊疗记录,从历史诊疗记录中获取多个包含敏感信息的第一样本。
122.步骤3012,构建多个与包含敏感信息的第一样本相似但不包含敏感信息的第一样本。
123.由于训练神经网络模型需要大量的样本,但是样本的获取并不容易实现,因此,可以采用构建样本的方式来获得足够数量的样本。具体地,根据包含敏感信息的第一样本的结构、内容构建相似的但不包含敏感信息的第一样本。
124.例如,检测结果为磨玻璃,与磨玻璃相似但不包含敏感信息的是肺部疾病;病理数据为窗宽,与窗宽类似的但不包含敏感信息的是窗体。这样,就可以构建出与包含敏感信息的第一样本相似但不包含敏感信息的第一样本。
125.在其中一个实施例中,还可以构建其他类型的第一样本。例如,将播放、保存、翻页、布局等软件操作构建为第一样本。
126.在其中一个实施例中,将第一样本表示为离散的数据格式,建立词典或者单词索引,采用词典或单词索引存储数据格式与第一样本之间的对应关系。
127.步骤3013,根据多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本得到第一样本集。
128.对多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本进行汇总,得到第一样本集。这样,第一样本集中既包括正样本,又包括负样本。
129.上述实施例中,获取多个包含敏感信息的第一样本;构建多个与包含敏感信息的第一样本相似但不包含敏感信息的第一样本;根据多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本得到第一样本集。通过本公开实施例,获取正样本,根据正样本构建负样本,不仅可以扩展样本数量,更好地训练模型,而且可以节省样本获取时间,提高样本获取效率,节约样本获取成本。
130.在一个实施例中,如图6所示,第一样本集包括训练样本集和测试样本集;上述基于第一样本集进行神经网络模型的训练,得到中间识别模型的过程,可以包括如下步骤:
131.步骤3021,基于训练样本集进行神经网络模型的训练,得到初始识别模型。
132.可以将第一样本集中的部分第一样本和第一样本对应的标注划分到训练样本集,将另一部分第一样本和第一样本对应的标注划分到测试样本集。采用训练样本集中的第一样本和标注进行神经网络模型的训练,得到初始识别模型。训练过程可以参见上述实施例,本公开实施例在此不再赘述。
133.步骤3022,基于测试样本集对初始识别模型进行测试,得到测试结果。
134.其中,测试结果用于指示第一样本是否包含敏感信息。
135.将测试样本集中的多个第一样本分别输入到初始识别模型中,得到初始识别模型对各第一样本进行识别输出的测试结果。
136.步骤3023,若根据测试结果确定初始识别模型的灵敏度小于预设灵敏度阈值,则调整初始识别模型中的可调参数继续训练。
137.其中,灵敏度用于指示测试结果的真正率(true positive ratio,tpr)。真正率为模型将正样本识别为正样本的正确率。例如,从测试样本集中选出10个第一样本,每个第一样本对应的标注均为包含敏感信息;将10个第一样本依次输入到初始识别模型中,初始识别模型依次输出每个第一样本对应的测试结果。如果有8个第一样本的测试结果为包含敏感信息的概率大于预设概率阈值,表明初始识别模型将8个正样本识别为正样本,则初始识别模型输出的测试结果的灵敏度为tpr=8/10=0.8。本公开实施例对预设概率阈值不做限定。
138.在得到初始识别模型对各第一样本进行识别输出的测试结果后,可以根据多个测试结果计算初始识别模型的灵敏度。如果初始识别模型的灵敏度小于预设灵敏度阈值,表明初始识别模型的真正率较低,即识别准确率较低,因此,需要调整初始识别模型中的可调参数继续训练。
139.步骤3024,若根据测试结果确定初始识别模型的灵敏度大于或等于预设灵敏度阈值,则结束训练得到中间识别模型。
140.如果初始识别模型的灵敏度大于或者等于预设灵敏度阈值,表明初始识别模型的真正率较高,识别准确率较高,此时结束训练得到中间识别模型。
141.上述实施例中,基于训练样本集进行神经网络模型的训练,得到初始识别模型;基于测试样本集对初始识别模型进行测试,得到测试结果;若根据测试结果确定初始识别模型的灵敏度小于预设灵敏度阈值,则调整初始识别模型中的可调参数继续训练;若根据测试结果确定初始识别模型的灵敏度大于或等于预设灵敏度阈值,则结束训练得到中间识别模型。通过本公开实施例,利用灵敏度对训练出的模型进行评估,可以提升中间识别模型的灵敏度,从而提升目标识别模型的识别准确率。
142.在一个实施例中,如图7所示,上述利用中间识别模型对多个第一样本进行筛选得到多个第二样本的过程,可以包括如下步骤:
143.步骤3031,将多个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果。
144.其中,第一识别结果用于表征第一样本包含敏感信息的概率。
145.例如,将10个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果。
146.步骤3032,对多个第一识别结果进行聚类分析,得到聚类分析结果。
147.其中,聚类分析结果用于表征各第一样本与聚类中心之间的距离。
148.在得到多个第一识别结果后,筛选出概率最大的第一识别结果,并将筛选出的第一识别结果所对应的第一样本作为聚类中心。之后,计算其他第一样本与聚类中心之间的距离,得到聚类分析结果。
149.例如,得到10个第一识别结果,其中,第一识别结果n1的概率最大,将第一识别结果n1所对应的第一样本m1确定为聚类中心。之后,分别第一样本m2、第一样本m3
……
第一样本m10与第一样本m1之间的距离,得到聚类分析结果。
150.步骤3033,筛选出距离小于预设距离阈值的第一样本作为第二样本。
151.将计算出的每个距离与预设距离阈值进行比较,如果计算出的距离小于预设距离阈值,则将第一样本作为第二样本。
152.例如,第一样本m2与第一样本m1之间的距离为l2,与预设距离阈值l0进行比较,距离l2小于预设距离阈值l0,则将第一样本m2作为第二样本。第一样本m3与第一样本m1之间的距离为l3,与预设距离阈值l0进行比较,距离l3大于预设距离阈值l0,则不将第一样本m3作为第二样本。以此类推可以筛选出其他第二样本。
153.上述实施例中,将多个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果;对多个第一识别结果进行聚类分析,得到聚类分析结果;筛选出距离小于预设距离阈值的第一样本作为第二样本。通过本公开实施例,可以筛选出更合适的训练样本,从而提升训练效果,得到识别准确率更高的目标识别模型。
154.在一个实施例中,如图8所示,上述基于第二样本集进行中间识别模型的训练,得到目标识别模型的过程,可以包括如下步骤:
155.步骤3041,将多个第二样本输入到中间识别模型中,中间识别模型输出的各第二样本对应的第二识别结果。
156.其中,第二识别结果用于表征第二样本包含敏感信息的概率。
157.例如,将10个第二样本输入到中间识别模型中,得到中间识别模型输出的各第二样本对应的第二识别结果。
158.步骤3042,根据多个第二识别结果确定中间识别模型的假负率和特性曲线。
159.其中,假负率(false negative ratio,fnr)为将正样本识别为负样本的错误率。例如,选出10个第二样本,每个第二样本对应的标注均为包含敏感信息;将10个第二样本依次输入到中间识别模型中,中间识别模型依次输出每个第二样本对应的第二识别结果。如果有2个第二样本的第二识别结果为包含敏感信息的概率小于预设概率阈值,表明中间识别模型将2个正样本识别为负样本,则中间识别模型的假负率为fnr=2/10=0.2。本公开实施例对预设概率不做限定。
160.其中,特性曲线(eceiver operating characteristic curve,roc曲线),又称为感受性曲线(sensitivity curve),曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。
161.在实际应用中,得到多个第二识别结果,根据多个第二识别结果确定中间识别模型的假负率和特征曲线。
162.步骤3043,若假负率和/或特征曲线不符合预设条件,则调整中间识别模型中的可
调参数继续训练。
163.其中,假负率对应的预设条件可以包括:假负率小于预设假负阈值。特征曲线对应的预设条件可以包括:曲线上具有相同反应的点的数量大于预设数量值。本公开实施例对预设条件不做限定。
164.如果假负率不符合预设条件,则调整中间识别模型中的可调参数继续训练;如果特征曲线不符合预设条件,则调整中间识别模型中的可调参数继续训练;如果假负率和特征曲线均不符合预设条件,则调整中间识别模型中的可调参数继续训练。
165.步骤3044,若假负率和特性曲线均符合预设条件,则结束训练得到目标识别模型。
166.如果假负率和特性曲线均符合预设条件,表明模型将正样本识别为负样本的错误率较低,并且曲线上具有相同反应的点较多,即模型的识别准确率较高,此时结束训练,并将结束训练时的中间识别模型确定为目标识别模型。
167.上述实施例中,将多个第二样本输入到中间识别模型中,中间识别模型输出的各第二样本对应的第二识别结果;根据多个第二识别结果确定中间识别模型的假负率和特性曲线;若假负率和/或特征曲线不符合预设条件,则调整中间识别模型中的可调参数继续训练;若假负率和特性曲线均符合预设条件,则结束训练得到目标识别模型。通过本公开实施例,利用假负率和特性曲线对训练出的模型进行评估,可以降低中间识别模型的假负率,使得中间识别模型的特性曲线更好,从而提升目标识别模型的识别准确率。
168.在一个实施例中,如图9所示,本公开实施例还可以包括如下步骤:
169.步骤401,对于目标网页中的任一标签,确定标签是否为静态标签。
170.其中,静态标签为内容固定的标签。若标签不为静态标签,表明该标签中的内容可以变化。例如,目标网页中显示患者姓名的标签,标签中的内容可以随着用户的输入而变化,因此,该标签不为静态标签。
171.对于目标网页中的任一标签,终端根据该标签中是否为固定内容确定标签是否为静态标签。
172.步骤402,若确定标签不为静态标签,则监听标签。
173.如果确定标签不为静态标签,表明该标签中的内容可能会发生变化。此时,对该标签设置一个监听事件,对该标签进行监听。
174.步骤403,若监听到标签中输入敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
175.如果监听到标签中输入了敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。转换处理和替换方式可以参照上述实施例,在此不再赘述。
176.上述实施例中,对于目标网页中的任一标签,确定标签是否为静态标签;若确定标签不为静态标签,则监听标签;若监听到标签中输入敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。通过本公开实施例,对非静态标签进行监听,以便监听到敏感信息后可以及时采用图像数据进行替换,防止爬虫爬取敏感信息,避免个人隐私泄露。
177.在一个实施例中,如图10所示,在上述确定标签是否为静态标签之后,本公开实施例还可以包括:
178.步骤404,若确定标签为静态标签,则确定标签中是否包含敏感信息。
179.如果确定标签为静态标签,则无需对该标签设置监听事件,直接判断标签中是否包含敏感信息。
180.步骤405,若确定包含敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
181.如果确定标签包含敏感信息,则参照上述实施例,获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
182.上述实施例中,若确定标签为静态标签,则确定标签中是否包含敏感信息;若确定包含敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。通过本公开实施例,在标签为静态标签且包含敏感信息的情况下,采用图像数据进行替换,可以防止爬虫爬取敏感信息,避免个人隐私泄露。
183.应该理解的是,虽然图2至图10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
184.在一个实施例中,如图11所示,提供了一种反爬虫装置,包括:
185.标签识别模块501,用于利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
186.文本获取模块502,用于根据目标标签获取敏感信息对应的文本数据;
187.第一替换模块503,用于对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
188.在其中一个实施例中,上述第一替换模块503,具体用于利用预先设置的转换脚本对文本数据进行转换处理,得到图像数据;在文本数据对应的网页节点上添加图像数据,并删除文本数据。
189.在其中一个实施例中,该装置还包括:
190.第一样本集获取模块,用于获取第一样本集;第一样本集包括多个第一样本和各第一样本对应的标注;标注用于表征第一样本是否包含敏感信息;
191.第一模型训练模块,用于基于第一样本集进行神经网络模型的训练,得到中间识别模型;
192.第二样本集获取模块,用于利用中间识别模型对多个第一样本进行筛选得到多个第二样本,并根据多个第二样本确定第二样本集;
193.第二模型训练模块,用于基于第二样本集进行中间识别模型的训练,得到目标识别模型。
194.在其中一个实施例中,上述第一样本集获取模块,具体用于获取多个包含敏感信息的第一样本;构建多个与包含敏感信息的第一样本相似但不包含敏感信息的第一样本;根据多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本得到第一样本集。
195.在其中一个实施例中,上述第二样本集获取模块,具体用于将多个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果;对多个第一识别结果进行聚类分析,得到聚类分析结果;聚类分析结果用于表征各第一样本与聚类中心之间的距离;筛选出距离小于预设距离阈值的第一样本作为第二样本。
196.在其中一个实施例中,第一样本集包括训练样本集和测试样本集;上述第一模型训练模块,具体用于基于训练样本集进行神经网络模型的训练,得到初始识别模型;基于测试样本集对初始识别模型进行测试,得到测试结果;若根据测试结果确定初始识别模型的灵敏度小于预设灵敏度阈值,则调整初始识别模型中的可调参数继续训练;若根据测试结果确定初始识别模型的灵敏度大于或等于预设灵敏度阈值,则结束训练得到中间识别模型。
197.在其中一个实施例中,上述第二模型训练模块,具体用于将多个第二样本输入到中间识别模型中,中间识别模型输出的各第二样本对应的第二识别结果;根据多个第二识别结果确定中间识别模型的假负率和特性曲线;若假负率和/或特征曲线不符合预设条件,则调整中间识别模型中的可调参数继续训练;若假负率和特性曲线均符合预设条件,则结束训练得到目标识别模型。
198.在其中一个实施例中,该装置还包括:
199.标签确定模块,用于对于目标网页中的任一标签,确定标签是否为静态标签;
200.监听模块,用于若确定标签不为静态标签,则监听标签;
201.第二替换模块,用于若监听到标签中输入敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
202.在其中一个实施例中,该装置还包括:
203.信息确定模块,用于若确定标签为静态标签,则确定标签中是否包含敏感信息;
204.第三替换模块,用于若确定包含敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
205.关于反爬虫装置的具体限定可以参见上文中对于反爬虫方法的限定,在此不再赘述。上述反爬虫装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
206.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种反爬虫方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
207.本领域技术人员可以理解,图12中示出的结构,仅仅是与本技术方案相关的部分
结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
208.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
209.利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
210.根据目标标签获取敏感信息对应的文本数据;
211.对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
212.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
213.利用预先设置的转换脚本对文本数据进行转换处理,得到图像数据;
214.在文本数据对应的网页节点上添加图像数据,并删除文本数据。
215.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
216.获取第一样本集;第一样本集包括多个第一样本和各第一样本对应的标注;标注用于表征第一样本是否包含敏感信息;
217.基于第一样本集进行神经网络模型的训练,得到中间识别模型;
218.利用中间识别模型对多个第一样本进行筛选得到多个第二样本,并根据多个第二样本确定第二样本集;
219.基于第二样本集进行中间识别模型的训练,得到目标识别模型。
220.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
221.获取多个包含敏感信息的第一样本;
222.构建多个与包含敏感信息的第一样本相似但不包含敏感信息的第一样本;
223.根据多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本得到第一样本集。
224.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
225.将多个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果;
226.对多个第一识别结果进行聚类分析,得到聚类分析结果;聚类分析结果用于表征各第一样本与聚类中心之间的距离;
227.筛选出距离小于预设距离阈值的第一样本作为第二样本。
228.在一个实施例中,第一样本集包括训练样本集和测试样本集;处理器执行计算机程序时还实现以下步骤:
229.基于训练样本集进行神经网络模型的训练,得到初始识别模型;
230.基于测试样本集对初始识别模型进行测试,得到测试结果;
231.若根据测试结果确定初始识别模型的灵敏度小于预设灵敏度阈值,则调整初始识别模型中的可调参数继续训练;
232.若根据测试结果确定初始识别模型的灵敏度大于或等于预设灵敏度阈值,则结束训练得到中间识别模型。
233.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
234.将多个第二样本输入到中间识别模型中,中间识别模型输出的各第二样本对应的
第二识别结果;
235.根据多个第二识别结果确定中间识别模型的假负率和特性曲线;
236.若假负率和/或特征曲线不符合预设条件,则调整中间识别模型中的可调参数继续训练;
237.若假负率和特性曲线均符合预设条件,则结束训练得到目标识别模型。
238.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
239.对于目标网页中的任一标签,确定标签是否为静态标签;
240.若确定标签不为静态标签,则监听标签;
241.若监听到标签中输入敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
242.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
243.若确定标签为静态标签,则确定标签中是否包含敏感信息;
244.若确定包含敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
245.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
246.利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
247.根据目标标签获取敏感信息对应的文本数据;
248.对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
249.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
250.利用预先设置的转换脚本对文本数据进行转换处理,得到图像数据;
251.在文本数据对应的网页节点上添加图像数据,并删除文本数据。
252.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
253.获取第一样本集;第一样本集包括多个第一样本和各第一样本对应的标注;标注用于表征第一样本是否包含敏感信息;
254.基于第一样本集进行神经网络模型的训练,得到中间识别模型;
255.利用中间识别模型对多个第一样本进行筛选得到多个第二样本,并根据多个第二样本确定第二样本集;
256.基于第二样本集进行中间识别模型的训练,得到目标识别模型。
257.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
258.获取多个包含敏感信息的第一样本;
259.构建多个与包含敏感信息的第一样本相似但不包含敏感信息的第一样本;
260.根据多个包含敏感信息的第一样本和多个不包含敏感信息的第一样本得到第一样本集。
261.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
262.将多个第一样本输入到中间识别模型中,得到中间识别模型输出的各第一样本对应的第一识别结果;
263.对多个第一识别结果进行聚类分析,得到聚类分析结果;聚类分析结果用于表征
各第一样本与聚类中心之间的距离;
264.筛选出距离小于预设距离阈值的第一样本作为第二样本。
265.在一个实施例中,第一样本集包括训练样本集和测试样本集;处理器执行计算机程序时还实现以下步骤:
266.基于训练样本集进行神经网络模型的训练,得到初始识别模型;
267.基于测试样本集对初始识别模型进行测试,得到测试结果;
268.若根据测试结果确定初始识别模型的灵敏度小于预设灵敏度阈值,则调整初始识别模型中的可调参数继续训练;
269.若根据测试结果确定初始识别模型的灵敏度大于或等于预设灵敏度阈值,则结束训练得到中间识别模型。
270.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
271.将多个第二样本输入到中间识别模型中,中间识别模型输出的各第二样本对应的第二识别结果;
272.根据多个第二识别结果确定中间识别模型的假负率和特性曲线;
273.若假负率和/或特征曲线不符合预设条件,则调整中间识别模型中的可调参数继续训练;
274.若假负率和特性曲线均符合预设条件,则结束训练得到目标识别模型。
275.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
276.对于目标网页中的任一标签,确定标签是否为静态标签;
277.若确定标签不为静态标签,则监听标签;
278.若监听到标签中输入敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
279.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
280.若确定标签为静态标签,则确定标签中是否包含敏感信息;
281.若确定包含敏感信息,则获取敏感信息对应的文本数据,对文本数据进行转换处理得到图像数据,并采用图像数据替换文本数据。
282.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
283.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
284.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并
不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献