一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

网站类型确定方法、网站类型预测模型的训练方法及装置与流程

2023-02-10 16:08:15 来源:中国专利 TAG:


1.本技术涉及人工智能领域,尤其涉及一种网站类型确定方法、网站类型预测模型的训练方法及装置。


背景技术:

2.随着互联网技术的不断发展,人们经常性的通过访问不同的网址来获取资讯、工作或者娱乐等,因此如何有效准确地对网址对应的网站的类型进行判断,如如何判断包含敏感信息的恶意网址成为重中之重。
3.现有的类型判断方法主要是通过提取网站中的文本和图片等信息,对文本和图片信息进行分类来判断网站类型,或者在恶意网站往往采用相似的模板的情况下,基于一定数量的网站模板,通过聚类等手段对网站类型进行判断。但是现有技术往往只停留在对网址对应的网站自身的检测判断之上,从而导致确定网站类型的准确性较差,适用性低。


技术实现要素:

4.本技术实施例提供一种网站类型确定方法、网站类型预测模型的训练方法及相关装置,可提升确定网站类型的准确性,适用性高。
5.一方面,本技术实施例提供一种网站类型确定方法,该方法包括:
6.将上述待检测网址输入网站类型预测模型,得到上述待检测网址的网站类型预测结果,基于上述网站类型预测结果确定上述待检测网址的网站类型;
7.其中,上述网站类型预测模型基于以下方式确定上述网站类型预测结果:
8.确定与上述待检测网址具有关联关系的关联网址,并确定上述待检测网址和上述关联网址的初始特征;
9.基于各网址的初始特征以及各上述网址间的关联关系,确定上述待检测网址的目标特征;
10.基于上述待检测网址的目标特征确定上述待检测网址的网站类型预测结果。
11.另一方面,本技术实施例提供了一种网站类型预测模型的训练方法,该方法包括:
12.获取训练样本集,上述训练样本集中的各样本网址标注有样本标签,上述样本标签表征了样本网址的真实网站类型;
13.将各上述样本网址输入至初始模型,得到各上述样本网址的网站类型预测结果,基于上述网站类型预测结果确定相对应的样本网址的预测网站类型;
14.基于各上述样本网址的样本标签和预测网站类型,确定训练损失值,根据上述训练损失值和上述训练样本集对上述初始模型进行迭代训练,直至上述训练损失值符合训练结束条件时,将训练结束时的模型确定为网站类型预测模型;
15.其中,上述初始模型基于以下方式确定每一上述样本网址的网站类型预测结果:
16.确定与该样本网址具有关联关系的样本关联网址,并确定该样本网址和上述样本关联网址的样本初始特征;
17.基于该样本网址和各上述样本关联网址的样本初始特征、以及该样本网址和各上述样本关联网址的关联关系,确定该样本网址的样本目标特征;
18.基于该样本网址的样本目标特征确定该样本网址的网站类型预测结果。
19.另一方面,本技术实施例提供了一种网站类型确定装置,该装置包括:
20.网址获取模块,用于获取待检测网址;
21.网站类型确定模块,用于将上述待检测网址输入网站类型预测模型,得到上述待检测网址的网站类型预测结果,基于上述网站类型预测结果确定上述待检测网址的网站类型;
22.其中,上述网站类型预测模型具体用于:
23.确定与上述待检测网址具有关联关系的关联网址,并确定上述待检测网址和上述关联网址的初始特征;
24.基于各网址的初始特征以及各上述网址间的关联关系,确定上述待检测网址的目标特征;
25.基于上述待检测网址的目标特征确定上述待检测网址的网站类型预测结果。
26.另一方面,本技术实施例提供了一种网站类型预测模型的训练装置,该装置包括:
27.样本获取模块,用于获取训练样本集,上述训练样本集中的各样本网址标注有样本标签,上述样本标签表征了样本网址的真实网站类型;
28.训练模块,用于将各上述样本网址输入至初始模型,得到各上述样本网址的网站类型预测结果,基于上述网站类型预测结果确定相对应的样本网址的预测网站类型;
29.训练评估模块,用于基于各上述样本网址的样本标签和预测网站类型,确定训练损失值,根据上述训练损失值和上述训练样本集对上述初始模型进行迭代训练,直至上述训练损失值符合训练结束条件时,将训练结束时的模型确定为网站类型预测模型;
30.其中,在确定每一上述样本网址的网站类型预测结果时,上述初始模型具体用于:
31.确定与该样本网址具有关联关系的样本关联网址,并确定该样本网址和上述样本关联网址的样本初始特征;
32.基于该样本网址和各上述样本关联网址的样本初始特征、以及该样本网址和各上述样本关联网址的关联关系,确定该样本网址的样本目标特征;
33.基于该样本网址的样本目标特征确定该样本网址的网站类型预测结果。
34.另一方面,本技术实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
35.上述存储器用于存储计算机程序;
36.上述处理器被配置用于在调用上述计算机程序时,执行本技术实施例提供的网站类型确定方法或者本技术实施例提供的网站类型预测模型的训练方法。
37.另一方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本技术实施例提供的网站类型确定方法或者本技术实施例提供的网站类型预测模型的训练方法。
38.另一方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得
该计算机设备执行本技术实施例提供的网站类型确定方法或者本技术实施例提供的网站类型预测模型的训练方法。
39.在本技术实施例中,通过待检测网址和关联网址的关联关系、以及各网址的初始特征来确定待检测网址的目标特征,可在考虑待检测网址自身的特征基础之上,进一步考虑各网址间的特征关联性,从而使得待检测网址的目标特征可表征待检测网址自身和关联网址的共同特征,进而基于目标特征可提升确定网站类型的准确性,并且可在较广的网址范围中确定网站类型,适用性高。
附图说明
40.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本技术实施例提供的网站类型确定方法的流程示意图;
42.图2是本技术实施例提供的确定网站类型预测结果的流程示意图;
43.图3是本技术实施例提供的网址关系图的一示意图;
44.图4是本技术实施例提供的确定网址的初始特征的一场景示意图;
45.图5是本技术实施例提供的确定网址特征的一场景示意图;
46.图6是本技术实施例提供的确定属性特征的一场景示意图;
47.图7a是本技术实施例提供的确定网页特征的一场景示意图;
48.图7b是本技术实施例提供的确定网页特征的另一场景示意图;
49.图7c是本技术实施例提供的确定网页特征的又一场景示意图;
50.图8是本技术实施例提供的网址关系图的一示意图;
51.图9是本技术实施例提供的确定第一特征的方法的流程示意图;
52.图10是本技术实施例提供的确定目标特征的场景示意图;
53.图11是本技术实施例提供的确定网站类型预测结果的一场景示意图;
54.图12是本技术实施例提供的网站类型预测模型的训练方法的一流程示意图;
55.图13是本技术实施例提供的网站类型确定装置的结构示意图;
56.图14是本技术实施例提供的网站类型预测模型的训练装置的结构示意图;
57.图15是本技术实施例提供的电子设备的结构示意图。
具体实施方式
58.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
59.本技术实施例提供的网站类型确定方法可确定任一待检测网址对应的网站的网站类型,如教育类网站、体育类网站以及包含敏感信息的恶意网站等,进而可基于网站类型来确定待检测网址为教育类网址、体育类网址或者恶意网址等。
60.其中,上述网站类型的划分粒度和划分维度具体可基于实际应用场景需求确定,如可将网站类型划分为企业类网站、公益类网站以及游戏类网站等,也可将网站类型划分为包含敏感信息的恶意网站以及不包含敏感信息的正常网站,在此不做限制。
61.本技术实施例提供的网站类型确定方法以及网站类型预测模型的训练方法可适用于计算机、人工智能(artificial intelligence,ai)等领域。
62.其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能,本技术实施例可基于人工智能中的机器学习、自然语言处理等技术手段训练得到网站类型预测模型,进而基于训练得到的网站类型预测模型对待检测网址对应的网站类型进行预测。
63.本技术实施例提供的网站类型确定方法可基于服务器或者终端执行。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但并不局限于此。
64.参见图1,图1是本技术实施例提供的网站类型确定方法的流程示意图,本技术实施例提供的网站类型确定方法可包括如下步骤:
65.步骤s11、获取待检测网址。
66.在一些可行的实施方式中,上述待检测网址可以为用户实时访问的网址,即在用户访问某网址时,获取用户所访问的网址并将其作为待检测网址,以确定待检测网址的网站类型,进而实时提醒用户其访问的网址的网站类型。
67.可选地,上述待检测网址可以为网络管理系统中网址白名单外的网址,对于每一白名单外的网址,可将其作为待检测网址并基于本技术实施例提供的网站类型确定方法确定该网址的网站类型,以根据确定出的网站类型确定是否将该网址放入网址白名单中。
68.需要特别说明的是,上述获取待检测网址的方式仅为示例,互联网中的任一网址均可作为待检测网址并基于本技术实施例提供的网站类型确定方法确定其网站类型,在此不做限制。
69.步骤s12、将待检测网址输入网站类型预测模型,得到待检测网址的网站类型预测结果,基于网站类型预测结果确定待检测网址的网站类型。
70.在一些可行的实施方式中,在获取到待检测网址之后,可将待检测网址输入网站类型预测模型中,进而基于网站类型预测模型的输出结果得到待检测网址的网站类型预测结果。
71.其中,上述网站类型预测模型可包括多个任务模块,用于执行网站类型预测结果确定过程中不同的数据处理任务。
72.其中,网站类型预测模型确定待检测网址的网站类型预测结果的具体实现方式可参见图2。图2是本技术实施例提供的确定网站类型预测结果的流程示意图,本技术实施例提供的确定网站类型预测结果具体可包括如下步骤:
73.步骤s21、确定与待检测网址具有关联关系的关联网址,并确定待检测网址和关联
网址的初始特征。
74.在一些可行的实施方式中,与待检测网址具有关联关系的关联网址包括但不限于与待检测网址具有单向连接关系或者双向连接关系的网址。其中,单向连接关系表示从待检测网址可跳转至关联网址,但无法从关联网址跳转至待检测网址,或者,从关联网址可跳转至待检测网址,但无法从待检测网址跳转至关联网址。双向连接关系表示从待检测网址可跳转至关联网址,也可从关联网址跳转至待检测网址。
75.可选的,与待检测网址具有关联关系的关联网址还包括通过至少一个网址与待检测网址具有间接连接关系的网址。如网址a与待检测网址具有单向连接关系或者双向关联关系,网址b与待检测网址具有单向连接关系或者双向关联关系,则可将网址b确定为与待检测网址具有关联关系的关联网址。
76.再如,若网址a与待检测网址具有单向连接关系或者双向关联关系,网址b与网址a具有单向连接关系或者双向关联关系,网址c与网址b具有单向连接关系或者双向关联关系,则可同样将网址c确定为与待检测网址具有关联关系的关联网址。
77.其中,待检测网址与任一关联网址之间的网址数量具体可基于实际应用场景需求确定,在此不做限制。
78.在一些可行的实施方式中,在确定与待检测网址具有关联关系的关联网址时,还可通过网址采样的方式来确定。
79.具体地,确定采样深度和相对应的采样数量,将待检测网址确定为初始采样网址,进而基于上述采样深度和相对应的采样数量进行网址采样,得到与待检测网址具有关联关系的关联网址。其中,上述采样深度和相对应的采用数量具体可基于实际应用场景需求确定,在此不做限制。
80.其中,在基于上述采样深度和相对应的采样数量进行网址采样时,可先确定万维网或者网址数据库中各网址之间的单向连接关系以及双向连接关系,进而在万维网或者网址数据库中各网址之间的连接关系的基础之上进行网址采样。
81.其中,万维网是一个典型的异构图数据,它不仅包含了网址信息,还包含了诸如互联网协议(internet protocol,ip)地址,备案等诸多信息,同时网址之中还包含了网址之间存在的单向连接关系和双向连接关系。
82.在此基础上可对万维网出现的多种网址进行梳理后,构建成网址关系图,如构建异构图。其中,异构图中每个节点对应一个网址,节点之间的边表示相对应的两个网址之间的连接关系。如表1所示,可基于表1所列举的网址数据库中的网址以及各网址之间的连接关系,构建如图3所示的网址关系图。
83.表1
84.[0085][0086]
其中,统一资源定位符(uniform resource locator,url)、site(站点)、domain(域名)、ip以及email表示不同的网址类型,也用于表示网址不同的指向范围。其中,url表示完整的网址,如www.aaaaa.com/index.html,site用于表示指向网站站点的网址,domain为域名网址,如www.aaaaa.com,ip表示ip地址,email表示email地址。其中,网站站点是一个存储区,它存储了一个网站包含的所有文件。通俗一点的说,一个站点就是一个网站所有内容所存放的文件夹。
[0087]
基于采样的方式,可较为准确地确定出与待检测网址关联性较强的关联网址,同时也节省了确定待检测网址的关联网址的确定时间,适用性高。
[0088]
参见图3,图3是本技术实施例提供的网址关系图的一示意图。如图3所示,若url1和url2具有单向连接关系,且可从url1跳转到url2,则可将网址关系图中url1和url2采用虚线连接。若url6单方面引用url5,则即url6和url5具有单向连接关系,则可将网址关系图中url6和url5采用虚线连接。对于具有双向连接关系的网址之间,可采用实线进行连接。
[0089]
进一步地,在基于采样深度和相对应的采样数量后,可确定采样深度对应的得到的采样网址,并将采样网址确定为与待检测网址具有关联关系的关联网址。
[0090]
若待检测网址为图3中的url1,且采样深度为1时相对应的采样数量为2,采样深度为2时,采样数量为2。则以url1作为初始采用网址进行采样所得到的采样网址如表2所示:
[0091]
表2
[0092][0093][0094]
需要特别说明的是,在进行网址采样时,可基于随机广度优先采样算法进行采样,也可基于其他采样算法进行采样,具体可基于实际应用场景需求确定,在此不做限制。
[0095]
并且,在确定与待检测网址具有关联关系的关联网址时,在关联网址较多的情况
下,可只确定出一定数量的关联网址即可,具体可基于实际应用场景需求确定,在此不做限制。
[0096]
可选地,在确定与待检测网址具有关联关系的关联网址时,还可基于万维网或者网址数据库中各网址的网址关系,如基于两个网址的网址关系可确定该两个网址是否具有跳转关系,从而确定出待检测网址的关联网址。或者,可确定万维网或者网址数据库中各网址间的相似度,进而基于各网址件的相似度确定各网址间的关联关系,从而从中确定出与待检测网址具有关联关系的关联网址。
[0097]
需要特别说明的时,上述确定与待检测网址具有关联关系的关联网址的实现方式仅为示例,具体可基于实际应用场景需求确定,在此不做限制。
[0098]
在一些可行的实施方式中,在确定出待检测网址的关联网址之后,可确定待检测网址和关联网址中每一个网址的网址特征。具体地,对于每一网址,可确定该网址对应的网址特征、属性特征或者网页特征中的至少一项,进而基于确定出的网址特征、属性特征或者网页特征中的至少一项,确定该网址的初始特征。
[0099]
作为一示例,对于待检测网址,可确定待检测网址的网址特征、属性特征以及网页特征,进而基于确定出的网址特征、属性特征以及网页特征,确定待检测网址的初始特征。
[0100]
其中,对于待检测网址和关联网址中的任一网址,若仅确定出该网址的网址特征、属性特征或者网址特征中的任一特征,则可将确定出的特征确定为该网址的初始特征。若确定出该网址的网址特征、属性特征或者网址特征中的至少两项特征,则可进一步将确定出的两项特征进行特征融合处理,得到该网址的网址特征。
[0101]
参见图4,图4是本技术实施例提供的确定网址的初始特征的一场景示意图。如图4所示,待检测网址为www.aaabbb.com,基于该网址可确定出相对应的网址特征、属性特征以及网页特征,进而将网址特征、属性特征以及网页特征进行特征融合,得到待检测网址的初始特征。
[0102]
其中,对多项特征进行特征融合包括但不限于特征纵向拼接、特征横向拼接等方式,也可基于特征融合模型实现,具体可基于实际应用需求确定,在此不做限制。
[0103]
具体地,对于待检测网址和关联网址中的每一网址,在确定该网址的网址特征时,可确定该网址中各词的词向量,基于该网址中各词的词向量确定该网址的网址特征。
[0104]
作为一示例,对于待检测网址和关联网址中的每一网址,确定该网址中各词的词向量,将该网址中各词的词向量输入神经网络模型,通过神经网络模型将各词的词向量转换为采用单一向量表示的网址特征。或者,对于待检测网址和关联网址中的每一网址,可将该网址直接输入至神经网络模型,基于神经网络模型确定该网址中各词的词向量,并将各词的词向量转换为采用单一向量表示的网址特征。
[0105]
参见图5,图5是本技术实施例提供的确定网址特征的一场景示意图。如图5所示,待检测网址为www.aaabbb.com,在确定待检测网址的网址特征时,可将待检测网址输入神经网络模型。基于神经网络模型可确定待检测网址中各词的词向量,如确定待检测网址中每一字符对应的词向量,并进一步将待检测网址中各词的词向量进行进一步处理,得到待检测网址的网址特征。
[0106]
其中,上述神经网络可以为循环神经网络(recurrent neural network,rnn),也可为其他神经网络,还可以为基于多种神经网络构建的网址特征转换模型,具体可基于实
际应用场景需求确定,在此不做限制。
[0107]
具体地,对于待检测网址和关联网址中的每一网址,在确定该网址的属性特征时,可确定该网址的属性信息,进而基于该网址的属性信息确定该网址对应的属性特征。
[0108]
其中,对于任一网址,该网址的属性信息包括但不限于网址字符数量、是否包含预设字符、对应域名是否为ip域名、对应站点是否包含随机字符串、域名注册时间、域名首次出现时间、该网址对应的网站中文和/或英文字符数量、网址访问热度、预设时间段内是否存在热度突变、网络内容提供商(internet content provider,icp)备案信息是否为可以备案信息、是否包含端口信息等与该网址或者该网址对应的网站相关的属性信息,具体可基于实际应用需求确定,在此不做限制。
[0109]
具体地,对于待检测网址和关联网址中的每一网址,可确定该网址的各项属性信息所对应的属性向量,进而基于各项属性信息对应的属性向量,确定该网址的、由单一向量表示的属性特征。或者,对于待检测网址和关联网址中的每一网址,可确定该网址的各项属性信息对应的属性特征值,基于各项属性信息对应的属性特征值,构建该网址的属性特征。即对于任一网址,可对该网址的各项属性信息进行统计,进而将统计后的属性信息转换为通过向量表示的属性特征。
[0110]
参见图6,图6是本技术实施例提供的确定属性特征的一场景示意图。如图6所示,待检测网址为www.aaabbb.com,且可确定出待检测网址中的字符数量、待检测网址是否包含预设字符、待检测网址是否为ip域名以及待检测网址对应的站点是否包含随机字符串等属性信息,进而将确定出的属性信息转化为待检测网址对应的属性特征。
[0111]
其中,基于任一网址的属性信息确定该网址的属性特征同样可基于一种或者多种神经网络所构建的神经网络模型实现,具体可基于实际应用场景需求确定,在此不做限制。
[0112]
具体地,对于待检测网址和关联网址中的每一网址,在确定该网址的网页特征时,可确定该网址对应的网页内容,基于该网址对应的网页内容确定该网页的文本特征或者图像特征中的至少一项,进而基于确定出的文本特征或者图像特征中的至少一项,确定该网址对应的网页特征。
[0113]
其中,对于待检测网址和关联网址中的每一网址,在确定该网址对应的文本特征时,可确定该网址对应的网页中的文本信息,并确定文本信息中各词的词向量,基于文本信息中各词的词向量确定该网址对应的网页的文本特征。
[0114]
作为一示例,对于待检测网址和关联网址中的每一网址,确定该网址对应的网页中文本信息中各词的词向量,进一步基于文本信息中各词的词向量确定该网址对应的网页的文本特征。
[0115]
参见图7a,图7a是本技术实施例提供的确定网页特征的一场景示意图。如图7a所示,对于待检测网址www.aaabbb.com,可确定待检测网址对应的网页中的文本信息,进而确定网页中文本信息中各词的词向量。如确定待检测网址对应的网页中文本信息“今明天淮河以南
…”
中各词的词向量,以基于各词的词向量确定文本信息对应的文本特征,并将确定出的文本特征确定为待检测网址的网页特征。
[0116]
其中,对于待检测网址和关联网址中的每一网址,在确定该网址对应的图像特征时,可确定该网址对应的网页中的图像信息,进而对图像信息进行特征提取得到该网址对应的图像特征。
[0117]
参见图7b,图7b是本技术实施例提供的确定网页特征的另一场景示意图。如图7b所示,对于待检测网址www.aaabbb.com,可确定待检测网址对应的网页中的图像信息,进而确定网页中图像信息的图像特征,并将确定出的图像特征确定为待检测网址的网页特征。
[0118]
其中,对于待检测网址和关联网址中的每一网址,在确定该网址的网页特征时,还可基于该网址的网页内容生成包括该网页的文本信息和/或图像信息的网页图像,如确定该网址对应的网页的网页快照、对该网址对应的网页进行截图等。进而对网页图像进行特征提取得到网页图像的图像特征,并将确定出的图像特征确定为该网址的网页特征。
[0119]
其中,在确定图像信息的图像特征时,具体可通过图神经网络或者相关模型确定,具体可基于实际应用场景需求确定,在此不做限制。
[0120]
其中,对于待检测网址,可确定待检测网址对应的网页中的文本信息和图像信息,并进一步确定文本信息对应的文本特征以及图像信息对应的图像特征。如图7c所示,图7c是本技术实施例提供的确定网页特征的又一场景示意图,在确定文本信息对应的文本特征和图像信息对应的图像特征之后,可对文本特征和图像特征进行特征融合,将融合特征确定为待检测网址对应的网页特征。或者,还可对文本特征和图像特征进行横向拼接或者纵向拼接等,得到待检测网址的网页特征。
[0121]
步骤s22、基于各网址的初始特征以及各网址间的关联关系,确定待检测网址的目标特征。
[0122]
在一些可行的实施方式中,基于待检测网址和关联网址中各网址间的关联关系,构建网址同构图或者网址异构图,将构建出的网址同构图或者网址异构图确定为网址关系图,以基于网址关系图确定待检测网址的目标特征。
[0123]
作为一示例,若待检测网址与各关联网址为相同网址类型,且各网址间的关联关系均相同,如待检测网址与各关联网址均为url网址,且任意两个具有关联关系的网址之间的关联关系为双向连接,则基于待检测网址和各关联网址中各网址的关联关系,可构建网址同构图,并将其作为网址关系图。
[0124]
作为一示例,若待检测网址与各关联网址中存在多种网址类型的网址,且各网址件的关联关系中存在多种关联关系,如待检测网址与各关联网址中包括url网址和email地址,各网址间的关联关系中包括单向连接和双向连接,则基于待检测网址和各关联网址中各网址的关联关系,可构建网址异构图,并将其作为网址关系图。
[0125]
其中,上述网址关系图中包括第一网址和第二网址,第一网址为各网址中除待检测网址外的、仅与一个网址具有关联关系的网址,第二网址为各网址中除第一网址外的其他网址。
[0126]
其中,上述网址关系图中任意两个网址之间的连线可用于表示该两个网址之间的关联关系。待检测网址和关联网址中的每一个网址分别对应网址异构图或者网址同构图中的节点,节点之间的边表示网址间的关联关系,如单向连接关系或者双向连接关系。
[0127]
例如,若基于网址采样得到的关联网址如上述表2中所示,则基于关联网址和待检测网址中各网址的关联关系可确定出图8所示的网址关系图。图8是本技术实施例提供的网址关系图的一示意图,在图8中,url1为待检测网址,url3仅与url2具有关联关系,site2仅与url2具有关联关系,domain1仅与site1具有关联关系,则将url3、site2以及domain1确定为第一网址,进而可将url1、url2以及site1确定为第二网址。
[0128]
进一步地,对于网址关系图中的每一第二网址,基于该第二网址的初始特征、以及该第二网址的第一邻居网址的第一特征,确定该第二网址的第一特征,该第二网址的第一邻居网址为该第二网址的邻居网址中除该第二网址的上一级网址外的其他邻居网址,若该第二网址的第一邻居网址包括第一网址,则该第一网址的第一特征为该第一网址的初始特征。
[0129]
其中,对于每一第二网址,若待检测网址与该第二网址具有直接的单向连接关系或者双向连接关系,则待检测网址即为该第二网址的上一级网址。若该第二网址通过某一网址与待检测网址建立关联关系,则该网址即为该第二网址的上一级网址。
[0130]
基于上述方式可确定出网址关系图中各个第二网址的第一特征,进而从各个第二网址的第一特征中确定待检测网址的目标特征。即从各个第二网址中确定出待检测网址,并将待检测网址的第一特征确定为待检测网址的目标特征。
[0131]
可选地,可在得到待检测网址第一特征之后,还可将第一特征进行非线性变换,将变换后的特征确定为待检测网址的目标特征。
[0132]
可选地,为进一步防止特征拟合,可对待检测网址的目标特征进行正则化处理,如确定目标特征的范数,基于目标特征的范数得到最终用于预测网站类型的目标特征。具体方式通过h
′v=hv/‖hv‖2实现,其中,hv为目标特征,‖hv‖2表示hv的范数,h
′v为最终的目标特征。
[0133]
继续参见图8,对于url2而言,可基于url2的初始特征、以及url2的邻居网址(url3和url1)中除url2的上一级网址(url1)外的第一邻居网址(url3)的第一特征,确定url2的第一特征。由于url3为第一网址,则对于url2而言,可基于url2的初始特征以及url3的初始特征,确定url2的第一特征。同理,基于相同的方式可确定出site1的第一特征。
[0134]
对于url1而言,可基于url1的初始特征、以及url1的第一邻居网址(url2和site1)的第一特征,确定url1的第一特征,进而将url1的第一特征确定为url1的目标特征。
[0135]
其中,对于网址关系图中的任一第二网址,在基于该第二网址的初始特征、以及该第二网址的第一邻居网址的第一特征,确定该第二网址的第一特征的方式可参见图9。图9是本技术实施例提供的确定第一特征的方法的流程示意图,如图9所示,本技术实施例提供的确定第一特征的方法具体可包括如下步骤:
[0136]
步骤s221、基于第二网址的第一邻居网址的第一特征,确定第二网址对应的邻居聚合特征。
[0137]
在一些可行的实施方式中,对于网址关系图中的任一第二网址,可确定该第二网址的第一邻居网址的网址类型,并对对应于相同网址类型的第一特征进行聚合,得到第一聚合特征。
[0138]
继续参见图8,对于第二网址url2而言,url2的第一邻居网址,存在url类型的两个url3,以及存在site类型的两个site2,则可对两个url3的第一特征进行聚合,对两个site2的第一特征进行聚合。由于url3和site2为网址关系图中的第一节点,则实质为对对两个url3的初始特征进行聚合,对两个site2的初始特征进行聚合,得到对应于url类型的第一聚合特征和对应于site类型的第一聚合特征。
[0139]
进一步地,确定各网址类型对应的权重特征,对于每一网址类型,可基于对应于该网址类型的第一聚合特征和权重特征,确定对应于该网址类型的第二聚合特征。其中,对于
每一网址类型,基于该网址类型的第一聚合特征和权重特征,确定对应于该网址类型的第二聚合特征的实质为,将对应于不同网址类型的第一聚合特征统一映射至相同维度的第二聚合特征。其中,不同网址类型对应的权重特征不同,且在确定不同第二节点的第二聚合特征时,同网址类型的权重特征也可能不同,每一网址类型对应的权重特征具体可基于实际应用场景需求确定,在此不做限制。
[0140]
在确定出对应于各网址类型的第二聚合特征之后,可基于各第二聚合特征确定该第二网址对应的邻居聚合特征。具体可将各第二聚合特征进行拼接,得到拼接特征,进而对拼接特征进行聚合,从而得到该第二网址对应的邻居聚合特征。其中,对于任一第二网址,该第二网址对应的邻居聚合特征表示该第二网址的所有第一邻居网址的特征。
[0141]
步骤s222、基于第二网址的初始特征以及邻居聚合特征,确定第二网址的第一特征。
[0142]
在一些可行的实施方式中,对于网址关系图中的任一第二网址,在确定该第二网址的邻居聚合特征之后,可对该第二网址的初始特征和邻居局和特征进行拼接,得到该第二网址的第一特征。基于此方式,可确定出网址关系图中各第二网址的第一特征。
[0143]
需要特别说明的是,上述对基于第二聚合特征得到的拼接特征进行聚合、以及对各第一特征进行聚合(或者对各初始特征进行聚合)的具体方式,包括但不限于均值聚合、最大值聚合或者最小值聚合等,具体可基于实际应用场景需求确定,在此不做限制。
[0144]
需要特别说明的是,上述对第二聚合特征进行拼接、以及对第二网址的初始特征和相对应的邻居聚合特征进行拼接的具体方式,包括但不限于纵向拼接、横向拼接或者特征融合等,具体可基于实际应用场景需求确定,在此不做限制。
[0145]
下面结合图8中通过采样深度为2层(采样深度为1和采样深度为2),采样个数依次为1和2进行采样得到的,url1为待检测网址的网址关系图,通过图10所示的特征处理过程确定待检测网址的目标特征。图10是本技术实施例提供的确定目标特征的场景示意图,如图10所示:
[0146]
步骤(1),将url2的第一邻居网址(两个url3和两个site2)中对应于相同网址类型的网址的初始特征进行最大值聚合处理,如对两个url3的初始特征做最大值聚合后得到第一聚合特征对两个site2的初始特征做最大值聚合后得到第一聚合特征将site1的第一邻居网址(两个domain1)的初始特征做最大值聚合后得到第一聚合特征其中,max()表示最大值聚合函数。
[0147]
步骤(2),将步骤(1)得到的第一聚合特征乘以对应于同网址类型的权重特征,得到相对应的第二聚合特征。如到相对应的第二聚合特征。如到相对应的第二聚合特征。如以将不同维度的第一聚合特征将映射为相同维度的特征向量,即第二聚合特征的维度是一致的。
[0148]
其中,以及表示不同网址类型对应的权重特征。
[0149]
步骤(3),将url2对应的各第二聚合特征进行纵向拼接后再进行最大值聚合处理,得到用于表征url2的各第一邻居网址的邻居信息的邻居聚合特征。即其中,vstack()表示纵向拼接。同理,将site1对应的各第二聚合特征进行纵向拼接后再进行最大值聚合处理,得到用于表征url1的各第一邻居网址的邻居信息的邻居聚合特征,即
[0150]
步骤(4),将url2的初始特征和相对应的邻居聚合特征进行横向拼接,得到url2的第一特征,即同理,将site的初始特征和相对应的邻居聚合特征进行横向拼接,得到site1的第一特征即其中,hstack()表示横向拼接函数。
[0151]
步骤(5),对于url1,将url1的第一邻居网址url2的第一特征进行最大值聚合处理,得到对应于url类型的第一聚合特征将url1的第一邻居网址site1的第一特征进行最大值聚合处理,得到对应于site类型的第一聚合特征
[0152]
步骤(6),将步骤(5)得到的各第一聚合特征乘以对应于同网址类型的权重特征,得到相对应的第二聚合特征。如得到相对应的第二聚合特征。如其中,和同样表示不同网址类型对应的权重特征。
[0153]
步骤(7),将步骤(6)得到的各第二聚合特征进行纵向拼接后再进行最大值聚合处理,得到用于表征url1的各第一邻居网址的邻居信息的邻居聚合特征。即
[0154]
步骤(8),将url1的初始特征和邻居聚合特征进行横向拼接,得到url1的第一特征,即也即url1的第一特征为其目标特征
[0155]
步骤s23、基于待检测网址的目标特征确定待检测网址的网站类型预测结果。
[0156]
在一些可行的实施方式中,在确定出待检测网址的目标特征之后,可基于全连接层以及softmax函数等,确定待检测网址的网站为各个预设类型的概率,并将待检测网址的网站为各个类型的概率确定为待检测网址的网址类型预测结果。
[0157]
可选地,还可基于待检测网址的目标特征,得到待检测网址对应的网站类型的预测类型标识等,并将其作为待检测网址的网站类型预测结果。
[0158]
下面结合图11对本技术实施例中确定待检测网址的网站类型预测结果的具体实施方式进行进一步说明。参见图11,图11是本技术实施例提供的确定网站类型预测结果的一场景示意图。在图11中,待检测网址(url1)为www.aaabbb.com,对于待检测网址,可确定待检测网址中各词的词向量,基于待检测网址中各词的词向量确定待检测网址的网址特征。并且,确定待检测网址的各项属性信息,基于待检测网址的各项属性信息确定待检测网址对应的属性特征,如基于待检测网址的各项属性信息的属性向量,构建待检测网址的属性特征。并且,若待检测网址的网页中包括文本信息,可确定文本信息中各词的词向量,基于各词的词向量确定待检测网址的网页特征。进一步基于待检测网址对应的网址特征、属性特征以及网页特征,确定待检测网址的初始特征,如将待检测网址对应的网址特征、属性特征以及网页特征进行拼接,得到待检测网址的初始特征。
[0159]
进一步地,可基于万维网中各网址类型的网址以及各网址间的关联关系,构建万维网异构图。其中,万维网异构图可视为万维网中各网址的网址关系图,如构建如图3所示的网址,每个节点表示一个网址,节点间的边表示相对应的两个网址间的关联关系,如单向连接、双向连接等。
[0160]
在万维网异构图的基础之上,可基于采样深度和相对应的采样数量进行网址采样,将采样网址确定为与待检测网址具有关联关系的关联网址。如采样深度为1时相对应的采样数量为2,采样深度为2时采样数量为2,基于此,在万维网异构图的基础之上进行网址采样,可得到如上述表2所示的采样网址。基于表2所示的待检测网址与各采样网址的关联关系可构建用于表示待检测网址和各关联网址的网址关系的网址异构图,如图8所示的网址关系图。
[0161]
在用于表示待检测网址和各关联网址的网址关系的网址异构图的基础上,将url2的第一邻居网址中两个url3的初始特征进行最大值聚合处理得到第一聚合特征,以及将两个site2的初始特征进行最大值聚合处理得到第一聚合特征。将两个url3对应的第一聚合特征乘以对应于url类型的权重特征,得到第二聚合特征,将两个site2对应的第一聚合特征乘以对应于site网址类型的权重特征,得到第二聚合特征。对于url2,将url2对应的各第二聚合特征进行纵向拼接后在进行最大值聚合处理,可得到用于表征url2的各第一邻居网址的邻居信息的邻居聚合特征,并将该邻居聚合特征和url2的初始特征进行横向拼接,得到url2的第一特征。同理,基于相同方式可得到site1的第一特征。
[0162]
进一步地,将url1的第一邻居网址url2的第一特征进行最大值聚合处理得到对应于url类型的第一聚合特征,将url1的第一邻居网址site1的第一特征进行最大值聚合处理,得到对应于site类型的第一聚合特征。将url1的各第一邻居网址的第一聚合特征乘以相应网址类型的权重特征,得到url1的各第一邻居网址对应的第二聚合特征。将url1对应的各第二聚合特征进行纵向拼接后再进行最大值聚合处理,得到用于表征url1的各第一邻居网址的邻居信息的邻居聚合特征,将url1对应的邻居聚合特征和其初始特征进行横向拼接即得到url1的第一特征,也即得到待检测网址的目标特征。
[0163]
其中,用于表示待检测网址和各关联网址的网址关系的网址异构图中各网址的初始特征的确定方式,与待检测网址的初始特征的确定方式相同。
[0164]
其中,图11中确定url1的目标特征的具体过程仅为简单示例,具体可参见图10所述的确定待检测网址的目标特征的实施方式。
[0165]
在确定待检测网址(url1)的目标特征之后,可基于待检测网址的目标特征确定待检测女王之的网站类型预测结果,进而可基于网站类型预测结果确定待检测网址的网站类型。如基于待检测网址的网站为各个预设类型的概率,将最大概率对应的预设类型确定为待检测网址的网站类型。或者,基于类型标识与各预设类型的对应关系,将预测类型标识对应的预设类型确定为待检测网址的网站类型。
[0166]
在本技术实施例中,通过待检测网址和关联网址的关联关系、以及各网址的初始特征来确定待检测网址的目标特征,可在考虑待检测网址自身的特征基础之上,进一步考虑各网址间的特征关联性,从而使得待检测网址的目标特征可表征待检测网址自身和关联网址的共同特征,进而基于目标特征可提升确定网站类型的准确性,并且可在较广的网址范围中确定网站类型,适用性高。
[0167]
进一步地,在确定各网址的第一特征的过程中,通过特征聚合可减少特征处理量,提升特征处理效果,并且通过相对应的权重特征使得第二聚合特征具有相同的特征维度,降低了特征处理难度,提升了第一特征的准确性。
[0168]
本技术除提供一种网站类型确定方法之外,还提供一种网站类型预测模型的训练方法。本技术实施例提供的网站类型预测模型的训练方法同样可基于服务器或者终端执行。其中,服务器同样可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端同样可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但并不局限于此。
[0169]
本技术实施例提供的网站类型预测模型的训练方法具体参见图12,图12是本技术实施例提供的网站类型预测模型的训练方法的一流程示意图。如图12所示,该训练方法具体可包括如下步骤:
[0170]
步骤s41、获取训练样本集。
[0171]
在一些可行的实施方式中,训练样本集中包括多个样本网址,且每个样本网址标注有样本标签。其中,对于每一样本网址,该样本网址的样本白浅保证了该样本网址对应的网站的真实网站类型。
[0172]
其中,上述训练样本集中的样本网址可通过获取用户历史访问记录、网址采样以及大数据(big data)等方式获取,也可从用于存储网址的数据库(database)、云存储(cloud storage)或者区块链(blockchain)中获取,具体可基于实际应用场景需求确定,在此不做限制。其中,数据库简而言之可视为电子化的文件柜——存储电子文件的处所,在本技术中可用于存储样本训练集。
[0173]
其中,基于大数据中的数据挖掘等技术,可对网址进行挖掘以形成本技术中的训练样本集。
[0174]
其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块。在本技术中,区块链中的每一个数据块均可存储上述训练样本集中。
[0175]
其中,云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同存储大量的
网址。
[0176]
步骤s42、将各样本网址输入至初始模型,得到各样本网址的网站类型预测结果,基于网站类型预测结果确定相对应的样本网址的预测网站类型。
[0177]
在一些可行的实施方式中,上述初始模型确定基于以下方式确定每一样本网址的网站类型预测结果:
[0178]
确定与该样本网址具有关联关系的样本关联网址,并确定该样本网址和样本关联网址的样本初始特征;
[0179]
基于该样本网址和各样本关联网址的样本初始特征、以及该样本网址和各样本关联网址的关联关系,确定该样本网址的样本目标特征;
[0180]
基于该样本网址的样本目标特征确定该样本网址的网站类型预测结果。
[0181]
进一步地,基于该样本网址的网站类型预测结果可确定该样本网址的网站类型,具体确定方式与基于待检测网址的网站类型预测结果确定待检测网址的网站类型的实现方式相同,在此不再赘述。
[0182]
其中,上述初始模型确定每一样本网址的网站类型预测结果的具体方式,可参见图2中步骤s21至步骤s23所示的确定待检测网址的网站类型预测结果的实现方式,在此不再赘述。
[0183]
作为一示例,对于每一样本网址,确定该样本网址和样本关联网址的样本初始特征,包括:
[0184]
确定该样本网址和样本关联网址中每一网址对应的样本网址特征、样本属性特征或者样本网页特征中的至少一项,基于该网址对应的样本网址特征、样本属性特征或者样本网页特征中的至少一项,确定该网址的样本初始特征。
[0185]
其中,确定该样本网址和样本关联网址中每一网址的样本初始特征的具体实现方式,可参见图2中步骤s21确定待检测网址和关联网址的初始特征的实施方式,在此不再赘述。
[0186]
作为一示例,对于每一样本网址,基于该样本网址和各样本关联网址的样本初始特征、以及该样本网址和各样本关联网址的关联关系,确定该样本网址的样本目标特征,包括:
[0187]
基于该样本网址和各样本关联网址间的关联关系,确定样本网址关系图,,样本网址关系图中包括第一样本网址和第二样本网址,第一样本网址为该样本网址和样本关联网址中除该样本网址外的、仅与一个网址具有关联关系的网址,第二样本网址为该样本网址和各样本关联网址中除第一样本网址外的网址;
[0188]
对于每一第二样本网址,基于该第二样本网址的样本初始特征、以及该第二样本网址的第二邻居网址的第一样本特征,确定该第二样本网址的第一样本特征,该第二样本网址的第二邻居网址为该第二样本网址的邻居网址中除该第二样本网址的上一级网址外的其他邻居网址,若该第二样本网址的第二邻居网址包括第一样本网址,则该第一样本网址的第一样本特征为该第一样本网址的样本初始特征;
[0189]
从各第二样本网址的第一样本特征中确定该样本网址的样本目标特征。
[0190]
其中,确定该样本网址的样本目标特征的具体实现方式,可参见图2中步骤s22确定待检测网址的目标特征的实施方式,在此不再赘述。
[0191]
步骤s43、基于各样本网址的样本标签和预测网站类型,确定训练损失值,根据训练损失值和训练样本集对初始模型进行迭代训练,直至训练损失值符合训练结束条件时,将训练结束时的模型确定为网站类型预测模型。
[0192]
在一些可行的实施方式中,基于各样本网址的样本标签和预测网站类型,可确定训练损失值,该训练损失值表征了样本网址的真实网站类型和预测网站类型之间的差异。其中,上述训练损失值可通过交叉熵损失函数确定,也可基于其他损失函数确定,具体可基于实际应用场景需求确定,在此不做限制。
[0193]
在一些可行的实施方式中,根据训练损失值和训练样本集中的各样本网址,可基于上述实现方式对初始模型进行迭代训练,并在每次训练过程中通过反向传播网络对初始模型中的相关参数进行调整。当训练损失值符合训练结束条件时,可将训练结束时的模型确定为最终的网址站类型预测模型。其中,上述训练结束条件可以为上述训练损失值达到收敛状态,或者为上述训练损失值低于预设阈值等,具体可基于实际应用场景需求确定,在此不做限制。
[0194]
在一些可行的实施方式中,上述初始模型可包括多个子模型,每个子模型用于执行不同的数据处理任务。例如,上述初始模型可包括特征构建子模型、目标特征构建子模型以及预测子模型等,特征构建子模型用于确定与每一样本网址具有关联关系的样本关联网址,并确定该样本网址和样本关联网址的样本初始特征,目标特征构建子模型用于基于每一样本网址和各样本关联网址的样本初始特征、以及该样本网址和各样本关联网址的关联关系,确定该样本网址的样本目标特征,预测子模型用于基于每一样本网址的样本目标特征确定该样本网址的预测网站类型。
[0195]
进一步的,在基于训练损失值和训练样本集中的各样本网址对模型进行训练的过程中,可对上述各个子模型的相关参数进行调整,并在训练损失值符合训练结束条件时,完成对各个子模型的训练,得到最终的网站类型预测模型。
[0196]
本技术实施例提供的网站类型确定方法以及网站类型预测模型的训练方法中所涉及的特征处理,如对特征进行最大值聚合处理、对特征进行拼接、融合等处理过程,可基于云计算(cloud computing)实现。其中,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。云计算是网格计算(grid computing)、分布式计算(distributedcomputing)、并行计算(parallel computing)、效用计算(utility computing)、网络存储(network storage technologies)、虚拟化(virtualization)、负载均衡(load balance)等传统计算机和网络技术发展融合的产物。
[0197]
如表3所示,基于本技术实施例提供的网站类型预测模型的训练方法所训练得到的网站类型预测模型,与现有技术相比具有较高的精准率(precision)和召回率(recall),并且精准性和召回率的综合性能(f1-score)远远高于现有技术。
[0198]
表3
[0199]
技术方案precisionrecallf1-score本方案0.93360.94760.9405现有的技术0.99000.37100.5397
[0200]
参见图13,图13是本技术实施例提供的网站类型确定装置的结构示意图。本技术
实施例提供的网站类型确定装置包括:
[0201]
网址获取模块51,用于获取待检测网址;
[0202]
网站类型确定模块52,用于将上述待检测网址输入网站类型预测模型,得到上述待检测网址的网站类型预测结果,基于上述网站类型预测结果确定上述待检测网址的网站类型;
[0203]
其中,上述网站类型预测模型具体用于:
[0204]
确定与上述待检测网址具有关联关系的关联网址,并确定上述待检测网址和上述关联网址的初始特征;
[0205]
基于各网址的初始特征以及各上述网址间的关联关系,确定上述待检测网址的目标特征;
[0206]
基于上述待检测网址的目标特征确定上述待检测网址的网站类型预测结果。
[0207]
在一些可行的实施方式中,上述网站类型确定模块52,用于:
[0208]
基于各上述网址间的关联关系确定网址关系图,上述网址关系图中包括第一网址和第二网址,上述第一网址为各上述网址中除上述待检测网址外的、仅与一个网址具有关联关系的网址,上述第二网址为各上述网址中除上述第一网址外的网址;
[0209]
对于每一上述第二网址,基于该第二网址的初始特征、以及该第二网址的第一邻居网址的第一特征,确定该第二网址的第一特征,该第二网址的第一邻居网址为该第二网址的邻居网址中除该第二网址的上一级网址外的其他邻居网址,若该第二网址的第一邻居网址包括第一网址,则该第一网址的第一特征为该第一网址的初始特征;
[0210]
从各上述第二网址的第一特征中确定上述待检测网址的目标特征。
[0211]
在一些可行的实施方式中,对于每一上述第二网址,上述网站类型确定模块52,用于:
[0212]
基于该第二网址的第一邻居网址的第一特征,确定该第二网址对应的邻居聚合特征;
[0213]
基于该第二网址的初始特征以及上述邻居聚合特征,确定该第二网址的第一特征。
[0214]
在一些可行的实施方式中,对于每一上述第二网址,上述网站类型确定模块52,用于:
[0215]
确定该第二网址的第一邻居网址的网址类型,对对应于相同网址类型的第一邻居网址的第一特征进行聚合,得到各网址类型对应的第一聚合特征;
[0216]
确定各上述网址类型对应的权重特征,对于每一上述网址类型,基于对应于该网址类型的第一聚合特征和权重特征,确定对应于该网址类型的第二聚合特征;
[0217]
基于各所第二聚合特征,确定该第二网址对应的邻居聚合特征。
[0218]
在一些可行的实施方式中,对于每一上述第二网址,上述网站类型确定模块52,用于:
[0219]
将该第二网址的初始特征和上述邻居聚合特征进行拼接,得到该第二网址的第一特征。
[0220]
在一些可行的实施方式中,上述网站类型确定模块52,用于:
[0221]
对于每一网址,确定该网址对应的网址特征、属性特征或者网页特征中的至少一
项,基于该网址对应的网址特征、属性特征或者网页特征中的至少一项,确定该网址的初始特征。
[0222]
在一些可行的实施方式中,上述网站类型确定模块52,用于:
[0223]
确定每一网址的属性信息,基于上述属性信息确定该网址对应的属性特征;
[0224]
上述属性信息包括网址字符数量、是否包含预设字符、对应域名是否为互联网协议ip域名、或者对应站点是否包含随机字符串中的至少一项。
[0225]
在一些可行的实施方式中,上述网站类型确定模块52,用于:
[0226]
确定每一网址对应的网页的文本特征或者图像特征中的至少一项,基于上述文本特征或者上述图像特征中的至少一项,确定该网址对应的网页特征;
[0227]
上述文本特征是基于上述网页中的文本信息的词向量确定的,上述图像特征是基于上述网页中的图像信息确定的。
[0228]
在一些可行的实施方式中,上述网站类型确定模块52,用于:
[0229]
确定采样深度和相对应的采样数量;
[0230]
将上述待检测网址确定为初始采样网址,基于上述采样深度和相对应的采样数量以及上述初始采样网址进行网址采样,得到与上述待检测网址具有关联关系的关联网址。
[0231]
具体实现中,上述网站类型确定可通过其内置的各个功能模块执行如上述图1、图2和/或图9中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0232]
参见图14,图14是本技术实施例提供的网站类型预测模型的训练装置的结构示意图。本技术实施例提供的网站类型预测模型的训练装置包括:
[0233]
样本获取模块61,用于获取训练样本集,上述训练样本集中的各样本网址标注有样本标签,上述样本标签表征了样本网址的真实网站类型;
[0234]
训练模块62,用于将各上述样本网址输入至初始模型,得到各上述样本网址的网站类型预测结果,基于上述网站类型预测结果确定相对应的样本网址的预测网站类型;
[0235]
训练评估模块63,用于基于各上述样本网址的样本标签和预测网站类型,确定训练损失值,根据上述训练损失值和上述训练样本集对上述初始模型进行迭代训练,直至上述训练损失值符合训练结束条件时,将训练结束时的模型确定为网站类型预测模型;
[0236]
其中,在确定每一上述样本网址的网站类型预测结果时,上述初始模型具体用于:
[0237]
确定与该样本网址具有关联关系的样本关联网址,并确定该样本网址和上述样本关联网址的样本初始特征;
[0238]
基于该样本网址和各上述样本关联网址的样本初始特征、以及该样本网址和各上述样本关联网址的关联关系,确定该样本网址的样本目标特征;
[0239]
基于该样本网址的样本目标特征确定该样本网址的网站类型预测结果。
[0240]
在一些可行的实施方式中,对于每一上述样本网址,上述训练模块62,用于:
[0241]
确定该样本网址和样本关联网址中每一网址对应的样本网址特征、样本属性特征或者样本网页特征中的至少一项,基于该网址对应的样本网址特征、样本属性特征或者样本网页特征中的至少一项,确定该网址的样本初始特征。
[0242]
在一些可行的实施方式中,对于每一上述样本网址,上述训练模块62,用于:
[0243]
基于该样本网址和各上述样本关联网址间的关联关系,确定样本网址关系图,上
述样本网址关系图中包括第一样本网址和第二样本网址,上述第一样本网址为该样本网址和上述样本关联网址中除该样本网址外的、仅与一个网址具有关联关系的网址,上述第二样本网址为该样本网址和各上述样本关联网址中除上述第一样本网址外的网址;
[0244]
对于每一上述第二样本网址,基于该第二样本网址的样本初始特征、以及该第二样本网址的第二邻居网址的第一样本特征,确定该第二样本网址的第一样本特征,该第二样本网址的第二邻居网址为该第二样本网址的邻居网址中除该第二样本网址的上一级网址外的其他邻居网址,若该第二样本网址的第二邻居网址包括第一样本网址,则该第一样本网址的第一样本特征为该第一样本网址的样本初始特征;
[0245]
从各上述第二样本网址的第一样本特征中确定该样本网址的样本目标特征。
[0246]
具体实现中,上述网站类型确定可通过其内置的各个功能模块执行如上述图12中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0247]
参见图15,图15是本技术实施例提供的电子设备的结构示意图。如图15所示,本实施例中的电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display)、键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1004可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
[0248]
在图15所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现本技术实施例提供的网站类型确定方法。具体实现:
[0249]
获取待检测网址;
[0250]
将上述待检测网址输入网站类型预测模型,得到上述待检测网址的网站类型预测结果,基于上述网站类型预测结果确定上述待检测网址的网站类型;
[0251]
其中,上述处理器1001具体用于:
[0252]
确定与上述待检测网址具有关联关系的关联网址,并确定上述待检测网址和上述关联网址的初始特征;
[0253]
基于各网址的初始特征以及各上述网址间的关联关系,确定上述待检测网址的目标特征;
[0254]
基于上述待检测网址的目标特征确定上述待检测网址的网站类型预测结果。
[0255]
在一些可行的实施方式中,上述处理器1001用于:
[0256]
基于各上述网址间的关联关系确定网址关系图,上述网址关系图中包括第一网址和第二网址,上述第一网址为各上述网址中除上述待检测网址外的、仅与一个网址具有关联关系的网址,上述第二网址为各上述网址中除上述第一网址外的网址;
[0257]
对于每一上述第二网址,基于该第二网址的初始特征、以及该第二网址的第一邻居网址的第一特征,确定该第二网址的第一特征,该第二网址的第一邻居网址为该第二网
址的邻居网址中除该第二网址的上一级网址外的其他邻居网址,若该第二网址的第一邻居网址包括第一网址,则该第一网址的第一特征为该第一网址的初始特征;
[0258]
从各上述第二网址的第一特征中确定上述待检测网址的目标特征。
[0259]
在一些可行的实施方式中,对于每一上述第二网址,上述处理器1001用于:
[0260]
基于该第二网址的第一邻居网址的第一特征,确定该第二网址对应的邻居聚合特征;
[0261]
基于该第二网址的初始特征以及上述邻居聚合特征,确定该第二网址的第一特征。
[0262]
在一些可行的实施方式中,对于每一上述第二网址,上述处理器1001用于:
[0263]
确定该第二网址的第一邻居网址的网址类型,对对应于相同网址类型的第一邻居网址的第一特征进行聚合,得到各网址类型对应的第一聚合特征;
[0264]
确定各上述网址类型对应的权重特征,对于每一上述网址类型,基于对应于该网址类型的第一聚合特征和权重特征,确定对应于该网址类型的第二聚合特征;
[0265]
基于各所第二聚合特征,确定该第二网址对应的邻居聚合特征。
[0266]
在一些可行的实施方式中,对于每一上述第二网址,上述处理器1001用于:
[0267]
将该第二网址的初始特征和上述邻居聚合特征进行拼接,得到该第二网址的第一特征。
[0268]
在一些可行的实施方式中,上述处理器1001用于:
[0269]
对于每一网址,确定该网址对应的网址特征、属性特征或者网页特征中的至少一项,基于该网址对应的网址特征、属性特征或者网页特征中的至少一项,确定该网址的初始特征。
[0270]
在一些可行的实施方式中,上述处理器1001用于:
[0271]
确定每一网址的属性信息,基于上述属性信息确定该网址对应的属性特征;
[0272]
上述属性信息包括网址字符数量、是否包含预设字符、对应域名是否为互联网协议ip域名、或者对应站点是否包含随机字符串中的至少一项。
[0273]
在一些可行的实施方式中,上述处理器1001用于:
[0274]
确定每一网址对应的网页的文本特征或者图像特征中的至少一项,基于上述文本特征或者上述图像特征中的至少一项,确定该网址对应的网页特征;
[0275]
上述文本特征是基于上述网页中的文本信息的词向量确定的,上述图像特征是基于上述网页中的图像信息确定的。
[0276]
在一些可行的实施方式中,上述处理器1001用于:
[0277]
确定采样深度和相对应的采样数量;
[0278]
将上述待检测网址确定为初始采样网址,基于上述采样深度和相对应的采样数量以及上述初始采样网址进行网址采样,得到与上述待检测网址具有关联关系的关联网址。
[0279]
可选地,上述处理器1001还可用于实现本技术实施例提供的网站预测模型的训练方法,具体实现:
[0280]
获取训练样本集,上述训练样本集中的各样本网址标注有样本标签,上述样本标签表征了样本网址的真实网站类型;
[0281]
将各上述样本网址输入至初始模型,得到各上述样本网址的网站类型预测结果,
基于上述网站类型预测结果确定相对应的样本网址的预测网站类型;
[0282]
基于各上述样本网址的样本标签和预测网站类型,确定训练损失值,根据上述训练损失值和上述训练样本集对上述初始模型进行迭代训练,直至上述训练损失值符合训练结束条件时,将训练结束时的模型确定为网站类型预测模型;
[0283]
其中,上述处理器1001具体用于:
[0284]
确定与该样本网址具有关联关系的样本关联网址,并确定该样本网址和上述样本关联网址的样本初始特征;
[0285]
基于该样本网址和各上述样本关联网址的样本初始特征、以及该样本网址和各上述样本关联网址的关联关系,确定该样本网址的样本目标特征;
[0286]
基于该样本网址的样本目标特征确定该样本网址的网站类型预测结果。
[0287]
在一些可行的实施方式中,对于每一上述样本网址,上述处理器1001用于:
[0288]
确定该样本网址和样本关联网址中每一网址对应的样本网址特征、样本属性特征或者样本网页特征中的至少一项,基于该网址对应的样本网址特征、样本属性特征或者样本网页特征中的至少一项,确定该网址的样本初始特征。
[0289]
在一些可行的实施方式中,对于每一上述样本网址,上述处理器1001用于:
[0290]
基于该样本网址和各上述样本关联网址间的关联关系,确定样本网址关系图,上述样本网址关系图中包括第一样本网址和第二样本网址,上述第一样本网址为该样本网址和上述样本关联网址中除该样本网址外的、仅与一个网址具有关联关系的网址,上述第二样本网址为该样本网址和各上述样本关联网址中除上述第一样本网址外的网址;
[0291]
对于每一上述第二样本网址,基于该第二样本网址的样本初始特征、以及该第二样本网址的第二邻居网址的第一样本特征,确定该第二样本网址的第一样本特征,该第二样本网址的第二邻居网址为该第二样本网址的邻居网址中除该第二样本网址的上一级网址外的其他邻居网址,若该第二样本网址的第二邻居网址包括第一样本网址,则该第一样本网址的第一样本特征为该第一样本网址的样本初始特征;
[0292]
从各上述第二样本网址的第一样本特征中确定该样本网址的样本目标特征。
[0293]
应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
[0294]
具体实现中,上述电子设备1000可通过其内置的各个功能模块执行如上述图1、图2、图9和/或图12中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0295]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图1、图2、图9和/或图12中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
[0296]
上述计算机可读存储介质可以是前述任一实施例提供的装置和/或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(randomaccess memory,ram)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0297]
本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1、图2、图9和/或图12中各个步骤所提供的方法。
[0298]
本技术的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0299]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0300]
以上所揭露的仅为本技术较佳实施例而已,不能以此来限定本技术之权利范围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献