一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种网站检测方法、装置及电子设备与流程

2022-06-25 10:05:11 来源:中国专利 TAG:


1.本发明涉及网络安全技术领域,特别是涉及一种网站检测方法、装置及电子设备。


背景技术:

2.随着互联网技术的发展,越来越多用户通过访问网站来进行购物、观看视频、获取新闻资讯等活动。
3.在用户访问网站时,经常会遇到存在虚假信息、暴力信息甚至携带病毒的恶意网站,此时,我们希望对恶意网站进行检测,并对所检测出的恶意网站进行屏蔽,以提高用户的访问体验。
4.相关技术中,在检测恶意网站时,通常需要预设恶意网站检测规则,之后,确定每个待检测网站是否符合恶意网站检测规则,将符合恶意网站检测规则的网站作为恶意网站,并添加恶意网站标签。其中,上述恶意网站检测规则可以包括对恶意网站的网站url(universal resource locator,统一资源定位符)、ip(internet protocol,网站协议)、网站域名等特征信息设置的相关规则。
5.然而,恶意网站具有数量多、生命周期短等特点,需要建立庞大的检测规则数据库,并及时更新所建立的检测规则数据库,才能完成对恶意网站的检测。在上述相关技术中,由于现有恶意网站检测规则较少,并且检测规则数据库更新较慢,使得现有恶意网站检测规则难以覆盖大部分恶意网站,也难以适应恶意网站的更迭速度,从而,导致利用现有恶意网站检测规则检测恶意网站的效率较低。
6.基于此,亟需一种网站检测方法,可以扩大恶意网站检测范围,并提高对恶意网站的更迭速度的适应度,从而,提高对恶意网站的检测效率。


技术实现要素:

7.本发明实施例的目的在于提供一种网站检测方法、装置及电子设备,以提高对恶意网站的检测效率。具体技术方案如下:第一方面,本发明实施例提供了一种网站检测方法,所述方法包括:获取多个待检测网站,并提取每个待检测网站的至少一项特征数据;将各个待检测网站作为节点,将连接两个具有相关性的所述节点的连线作为边,构建关于所述多个待检测网站的网站关系图;其中,所述两个具有相关性的所述节点所对应的待检测网站存在至少一项相同的特征数据;基于所述网站关系图,确定各个网站集合;其中,每个网站集合包括一个待检测网站或者多个具有指定连通关系的待检测网站;所述指定连通关系为任一个待检测网站所对应的节点与所属网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连;针对每个网站集合,确定该网站集合中是否存在符合预设的关于指定类别的网站检测规则的待检测网站;
若存在,则确定该网站集合中的全部待检测网站属于所述指定类别。
8.可选的,一种具体实现方式中,在所述基于所述网站关系图,确定各个网站集合之前,所述方法还包括:判断所述网站关系图是否满足预设检测条件;其中,所述预设检测条件包括:所述网站关系图为非连通图,和/或,所述网站关系图的最大子连通图所包括的节点数量小于预设数量阈值,所述最大子连通图为:所述网站关系图的包括节点数量最多的子连通图;若所述网站关系图不满足所述预设检测条件,则按照预设优化规则优化所述网站关系图,得到新的网站关系图,并返回判断所述网站关系图是否满足所述预设检测条件的步骤;其中,所述预设优化规则为:关于去除所述网站关系图中的指定边的规则;若所述网站关系图满足所述预设检测条件,则基于所述网站关系图,确定各个网站集合。
9.可选的,一种具体实现方式中,所述按照预设优化规则优化所述网站关系图,包括:将未确定为优化数据的各项特征数据中,预设权重最小的特征数据作为当前优化数据;去除所述网站关系图中的第一类型的边;其中,所述第一类型的边所连接的节点对应的待检测网站的所述未确定为优化数据的各项特征数据中,仅所述当前优化数据相同。
10.可选的,一种具体实现方式中,所述待检测网站的每个边具有边权重,每个边的边权重为:所连接的两个节点对应的待检测网站所具有的相同的特征数据的预设权重之和;所述按照预设优化规则优化所述网站关系图,包括:将未确定为优化阈值的各个阈值中,数值最小的阈值作为当前优化阈值;去除所述网站关系图中,边权重不大于所述当前优化阈值的边。
11.可选的,一种具体实现方式中,所述获取多个待检测网站,包括:获取多个历史访问网站的统一资源定位符url,并对所获取的多个url进行去重,得到待检测网站。
12.可选的,一种具体实现方式中,所述获取多个待检测网站,包括:获取在预设的检测周期内访问的多个网站,作为待检测网站。
13.可选的,一种具体实现方式中,所述至少一项特征数据包括以下各项数据中的至少一项:ca证书颁发者、ca证书有效期、ca证书颁发域名、网页源码中包括的ip、邮箱地址、url链接、网站标题、网站底栏信息、网站前十关键字、网站url跳转后url及网站截图。
14.第二方面,本发明实施例提供了一种网站检测装置,所述装置包括:特征提取模块,用于获取多个待检测网站,并提取每个待检测网站的至少一项特征数据;关系图构建模块,用于将各个待检测网站作为节点,将连接两个具有相关性的所述节点的连线作为边,构建关于所述多个待检测网站的网站关系图;其中,所述两个具有相关性的所述节点所对应的待检测网站存在至少一项相同的特征数据;集合确定模块,用于基于所述网站关系图,确定各个网站集合;其中,每个网站集
合包括一个待检测网站或者多个具有指定连通关系的待检测网站;所述指定连通关系为任一个待检测网站所对应的节点与所属网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连;确定模块,用于针对每个网站集合,确定该网站集合中是否存在符合预设的关于指定类别的网站检测规则的待检测网站;若存在,触发类别确定模块;所述类别确定模块,用于确定该网站集合中的全部待检测网站属于所述指定类别。
15.可选的,一种具体实现方式中,所述装置还包括:判断模块,用于在所述基于所述网站关系图,确定各个网站集合之前,判断所述网站关系图是否满足预设检测条件;若不满足,触发优化模块;若满足,触发所述集合确定模块;其中,所述预设检测条件包括:所述网站关系图为非连通图,和/或,所述网站关系图的最大子连通图所包括的节点数量小于预设数量阈值,所述最大子连通图为:所述网站关系图的包括节点数量最多的子连通图;所述优化模块,用于按照预设优化规则优化所述网站关系图,得到新的网站关系图,并触发所述判断模块;其中,所述预设优化规则为:关于去除所述网站关系图中的指定边的规则。
16.可选的,一种具体实现方式中,所述优化模块,具体用于:将未确定为优化数据的各项特征数据中,预设权重最小的特征数据作为当前优化数据;去除所述网站关系图中的第一类型的边;其中,所述第一类型的边所连接的节点对应的待检测网站的所述未确定为优化数据的各项特征数据中,仅所述当前优化数据相同。
17.可选的,一种具体实现方式中,所述待检测网站的每个边具有边权重,每个边的边权重为:所连接的两个节点对应的待检测网站所具有的相同的特征数据的预设权重之和;所述优化模块,具体用于:将未确定为优化阈值的各个阈值中,数值最小的阈值作为当前优化阈值;去除所述网站关系图中,边权重不大于所述当前优化阈值的边。
18.可选的,一种具体实现方式中,所述特征提取模块,具体用于:获取多个历史访问网站的统一资源定位符url,并对所获取的多个url进行去重,得到待检测网站。
19.可选的,一种具体实现方式中,所述特征提取模块,具体用于:获取在预设的检测周期内访问的多个网站,作为待检测网站。
20.可选的,一种具体实现方式中,所述至少一项特征数据包括以下各项数据中的至少一项:ca证书颁发者、ca证书有效期、ca证书颁发域名、网页源码中包括的ip、邮箱地址、url链接、网站标题、网站底栏信息、网站前十关键字、网站url跳转后url及网站截图。
21.第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一方法实施例的步骤。
22.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法实施例的步骤。
23.第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一方法实施例的步骤。
24.本发明实施例有益效果:以上可见,应用本发明实施例提供的方案,在检测指定类别的网站时,可以首先获取多个待检测网站,并提取每个待检测网站的至少一项特征数据;之后构建关于上述多个待检测网站的网站关系图,其中,该网站关系图中的每个节点对应一个待检测网站,每个边所连接的两个节点所对应的待检测网站存在至少一项相同的特征数据;接着,基于所构建的网站关系图,确定包括一个待检测网站或者多个具有指定连通关系的待检测网站的各个网站集合,其中,针对包括多个待检测网站的网站集合,该网站集合中的任一个待检测网站所对应的节点与该网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连;进而,针对每个网站集合,若该网站集合中存在符合预设的关于指定类别的网站检测规则的待检测网站,则可以确定该网站集合中的全部待检测网站属于指定类别。
25.基于此,应用本发明实施例提供的方案,可以根据各个待检测网站之间的特征数据的相似性,将各个待检测网站分为各个网站集合。进而,由于属于同一网站集合的各个待检测网站具有相似性,因此,属于同一网站集合的各个待检测网站属于同一网站类别的可能性较高,因此,可以认为属于同一网站集合的各个待检测网站属于同一网站类别。这样,对于存在符合预设的关于指定类别的网站检测规则的待检测网站的网站集合而言,可以直接将该网站集合中的全部待检测网站确定为属于指定类别的网站。
26.基于此,在对恶意网站进行检测时,便可以采用本发明实施例提供的方案,利用有限的关于恶意网站的网站检测规则,检测出更大范围内的恶意网站,从而,实现恶意网站检测范围的扩大;而由于恶意网站的更迭是在原有恶意网站的基础上进行的,因此,更迭后的恶意网站与原有恶意网站可以具有相似性,从而,采用本发明提供的方案,同样可以利用有限的关于恶意网站的网站检测规则,对更迭后的恶意网站进行检测,从而,实现对恶意网站的更迭速度的适应度的提高。这样,采用本发明提供的方案,便可以扩大恶意网站检测范围,并提高对恶意网站的更迭速度的适应度,从而,提高对恶意网站的检测效率。
27.当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
29.图1为本发明实施例提供的网站检测方法的一种流程示意图;图2为本发明实施例提供的网站关系图的一种具体实例的示意图;
图3为本发明实施例提供的网站集合的一种具体实例的示意图;图4(a)-图4(b)分别为本发明实施例提供的网站关系图的另一种具体实例的示意图;图5为本发明实施例提供的网站检测方法的另一种流程示意图;图6(a)-图6(c)分别为本发明实施例提供的网站关系图优化方法的一种具体实例的示意图;图7(a)-图7(c)分别为本发明实施例提供的网站关系图优化方法的另一种具体实例的示意图;图8为本发明实施例提供的一种恶意网站检测实例的流程示意图;图9为本发明实施例提供的网站检测装置的一种结构示意图;图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
30.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本发明保护的范围。
31.相关技术中,在检测恶意网站时,通常需要预设恶意网站检测规则,之后,确定每个待检测网站是否符合恶意网站检测规则,将符合恶意网站检测规则的网站作为恶意网站,并添加恶意网站标签。然而,恶意网站具有数量多、生命周期短等特点,需要建立庞大的检测规则数据库,并及时更新所建立的检测规则数据库,才能完成对恶意网站的检测。在上述相关技术中,由于现有恶意网站检测规则较少,并且检测规则数据库更新较慢,使得现有恶意网站检测规则难以覆盖大部分恶意网站,也难以适应恶意网站的更迭速度,从而,导致利用现有恶意网站检测规则检测恶意网站的效率较低。基于此,亟需一种网站检测方法,可以扩大恶意网站检测范围,并提高对恶意网站的更迭速度的适应度,从而,提高对恶意网站的检测效率。
32.为了解决上述技术问题,本发明实施例提供了一种网站检测方法。
33.其中,该方法可以适用于需要检测指定类别的网站的各类应用场景,例如,对存在暴力、虚假信息以及携带病毒的恶意网站进行检测,并加以清除,以保护用户的上网安全;在企业中,对游戏网站、购物网站等指定类别的网站进行检测,并加以屏蔽,以避免员工使用工作电脑访问上述网站。
34.同时,该方法可以应用于能够对自身所访问的网站进行检测的电子设备,例如,计算机、平板电脑、手机等;其中,可选的,可以在电子设备中安装用于执行该方法的功能模块,从而,电子设备便可以通过运行该功能模块执行并利用该方法,检测自身所访问的网站中是否存在属于指定类别的网站,并在检测到属于指定类别的网站时,可以对上述指定类别的网站进行屏蔽。例如,可以在计算机的防火墙上安装上述功能模块等。
35.相应的,该方法也可以应用于能够为至少一台能够进行网站访问的电子设备提供服务的电子设备中,例如,各类由多台电子设备构成的设备系统中的管理节点、各种应用程序的后台服务器等;其中,可选的,上述能够提供服务的电子设备可以通过旁路部署获取所
服务的至少一台电子设备所访问的网站,进而,对上述所访问的网站进行关于指定类别的网站的检测,并将上述检测结果发送给相通信的所服务的至少一台电子设备,以使该至少一台电子设备接收上述检测结果,并对属于指定类别的网站进行屏蔽。
36.其中,所谓旁路部署是指:利用已有硬件的功能,在不影响电子设备现有网络结构和正常运行的情况下,对电子设备的上网行为进行监听的上网行为管理方案。例如,可以在计算机的防火墙上安装用于执行该方法,且不影响计算机的现有网络结构和正常运行的功能模块。
37.基于此,本发明实施例不对该方法的应用场景和执行主体进行具体限定。
38.本发明实施例提供的一种网站检测方法可以包括如下步骤:获取多个待检测网站,并提取每个待检测网站的至少一项特征数据;将各个待检测网站作为节点,将连接两个具有相关性的所述节点的连线作为边,构建关于所述多个待检测网站的网站关系图;其中,所述两个具有相关性的所述节点所对应的待检测网站存在至少一项相同的特征数据;基于所述网站关系图,确定各个网站集合;其中,每个网站集合包括一个待检测网站或者多个具有指定连通关系的待检测网站;所述指定连通关系为任一个待检测网站所对应的节点与所属网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连;针对每个网站集合,确定该网站集合中是否存在符合预设的关于指定类别的网站检测规则的待检测网站;若存在,则确定该网站集合中的全部待检测网站属于所述指定类别。
39.以上可见,应用本发明实施例提供的方案,在检测指定类别的网站时,可以首先获取多个待检测网站,并提取每个待检测网站的至少一项特征数据;之后构建关于上述多个待检测网站的网站关系图,其中,该网站关系图中的每个节点对应一个待检测网站,每个边所连接的两个节点所对应的待检测网站存在至少一项相同的特征数据;接着,基于所构建的网站关系图,确定包括一个待检测网站或者多个具有指定连通关系的待检测网站的各个网站集合,其中,针对包括多个待检测网站的网站集合,该网站集合中的任一个待检测网站所对应的节点与该网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连;进而,针对每个网站集合,若该网站集合中存在符合预设的关于指定类别的网站检测规则的待检测网站,则可以确定该网站集合中的全部待检测网站属于指定类别。
40.基于此,应用本发明实施例提供的方案,可以根据各个待检测网站之间的特征数据的相似性,将各个待检测网站分为各个网站集合。进而,由于属于同一网站集合的各个待检测网站具有相似性,因此,属于同一网站集合的各个待检测网站属于同一网站类别的可能性较高,因此,可以认为属于同一网站集合的各个待检测网站属于同一网站类别。这样,对于存在符合预设的关于指定类别的网站检测规则的待检测网站的网站集合而言,可以直接将该网站集合中的全部待检测网站确定为属于指定类别的网站。
41.基于此,在对恶意网站进行检测时,便可以采用本发明实施例提供的方案,利用有限的关于恶意网站的网站检测规则,检测出更大范围内的恶意网站,从而,实现恶意网站检测范围的扩大;而由于恶意网站的更迭是在原有恶意网站的基础上进行的,因此,更迭后的恶意网站与原有恶意网站可以具有相似性,从而,采用本发明提供的方案,同样可以利用有
限的关于恶意网站的网站检测规则,对更迭后的恶意网站进行检测,从而,实现对恶意网站的更迭速度的适应度的提高。这样,采用本发明提供的方案,便可以扩大恶意网站检测范围,并提高对恶意网站的更迭速度的适应度,从而,提高对恶意网站的检测效率。
42.下面,结合附图,对本发明实施例提供的一种网站检测方法进行具体说明。
43.图1为本发明实施例提供的一种网站检测方法的流程示意图,如图1所示,该方法可以包括如下步骤s101-s105。
44.s101:获取多个待检测网站,并提取每个待检测网站的至少一项特征数据;在检测指定类别的网站时,可以首先获取多个待检测网站,并提取每个待检测网站的至少一项特征数据。
45.其中,可以通过多种方式获取上述待检测网站。例如,可以通过旁路部署获取计算机访问的网站,进而,可以记录所获取的网站信息;也可以通过串联部署获取计算机访问的网站,进而,可以记录所获取的网站信息。
46.所谓串联部署是指:在电子设备中添加新的硬件产品替换现有网关,对电子设备的上网行为进行监听的上网行为管理方案,使用串联部署方案,在上述所添加的新的硬件产品死机或者断电时,会导致电子设备的网络中断。
47.可选的,可以获取在预设的检测周期内访问的多个网站,作为待检测网站。
48.在本具体实现方式中,可以周期性地检测属于指定类别的网站,从而,可以预先设定检测周期,获取在预设的检测周期内访问的多个网站,并将所获取到的多个网站作为待检测网站。
49.其中,上述检测周期,可以是三天,也可以是一周,还可以是一个月,这都是合理的可以按照实际需要进行设定,在本发明实施例中不做具体限定。
50.基于此,通过设置上述检测周期,可以按照上述检测周期进行属于指定类别的网站的检测,并在检测到存在属于指定类别的待检测网站时,可以对所检测到的属于指定类别的待检测网站进行屏蔽,这样,便可以周期性地检测所访问的网站中是否存在指定类别的网站,进而,可以降低用户无意识访问指定类别的网站的可能性,提高用户的上网安全。
51.在有些情况下,用户所访问的网站数量较多,若将上述每个所访问的网站作为待检测网站,则在对上述待检测网站进行检测时,待检测网站的数量较多,进而,需要占用较多计算资源。基于此,为了节省计算资源,提高检测效率,可以对具有相似性的各个待检测网站,进行合并处理。
52.基于此,可选的,一种具体实现方式中,可以获取多个历史访问网站的统一资源定位符url,并对所获取的多个url进行去重,得到待检测网站。
53.在本具体实现方式中,可以获取多个历史访问网站的统一资源定位符url,之后,可以对所获取的多个url进行去重,并将去重之后得到的url作为待检测网站。
54.在对所获取的多个url进行去重时,可以从每个url的起始字符开始,按照指定字符长度对各个url进行对比,将从起始字符开始的指定字符长度的内容均相同的url作为一组相似url,并将该组相似url中的相同内容,作为待检测网站,从而,得到多个待检测网站;也可以从每个url的起始字符开始,按照指定字符位置对各个url进行对比,将从起始字符开始直至指定字符位置的内容均相同的url作为一组相似url,并将该组相似url中的相同内容,作为待检测网站,从而,得到多个待检测网站;例如,按照域名对各个url进行对比、按
照第一层虚拟目录对各个url进行对比等。
55.其中,上述指定长度和指定字符位置可以按照实际需要进行设定,在本发明实施例中不做具体限定。
56.示例性的,假设所获取到三个历史访问网站的url分别为:http://a.com/111/111/111/111;http://a.com/111/222/222/222;http://a.com/222/222/222/222;当按照指定字符位置对上述各个url进行对比,且指定字符位置为域名时,则由于上述各个url的域名均为:http://a.com/,则可以将上述各个url进行去重得到的待检测网站为:http://a.com/;当按照指定字符位置对上述各个url进行对比,且指定字符位置为第一层虚拟目录时,由于上述第一个url和第二个url中,从起始字符至第一层虚拟目录的内容均为:http://a.com/111/,则可以对上述第一个url和第二个url进行去重得到的待检测网站为:http://a.com/111/,进而,根据上述第三个url可以得到另一个待检测网站http://a.com/222/222/222/222;当按照指定字符位置对上述各个url进行对比,且指定字符位置为第二层虚拟目录时,由于上述各个url中,从起始字符至第二层虚拟目录的内容分别为http://a.com/111/111/、http://a.com/111/222/和http://a.com/222/222/,而上述三个内容均不相同,从而,无法对上述各个url进行去重,从而,可以将上述每个url分别确定为一个待检测网站。
57.在本具体实现方式中,对所获取到的历史访问网站的url进行去重处理,可以将url中指定内容相同的网站进行合并,进而,可以减少待检测网站的数量,节省计算资源并提高网站检测效率。
58.可选的,可以获取在预设的检测周期内访问的多个网站url,并对所获取的多个url进行去重,得到待检测网站。
59.在获取到待检测网站后,可以提取每个待检测网站对应的至少一项特征数据,例如,该待检测网站的ip,该待检测网站的域名,或者该待检测网站的网站截图,这都是合理的,在本发明实施例中不做具体限定。
60.可选的,一种具体实现方式中,至少一项特征数据包括以下各项数据中的至少一项:ca(certification authority,认证机构)证书颁发者、ca证书有效期、ca证书颁发域名、网页源码中包括的ip、邮箱地址、url链接、网站标题、网站底栏信息、网站前十关键字、网站url跳转后url及网站截图。
61.当然,电子设备还可以提取其他关于待检测网站的特征数据,对此,本发明实施例不做具体限定。
62.其中,上述ca证书颁发者是为待检测网站颁发ca证书的证书颁发机构;ca证书有效期为待检测网站所对应的ca证书的有效期限;ca证书颁发域名为待检测网站所对应的ca证书所对应的网站域名;网页源码中包括的ip为待检测网站对应的网页源码中的ip字符串;
邮箱地址为待检测网站对应的网页源码中的邮箱地址;url链接为待检测网站对应的网页源码中的统一资源定位符;网站标题为待检测网站的正式名称;网站底栏信息为待检测网站的网站页面的底栏信息;网站前十关键字为待检测网站对应的网页源码中的按频次从大到小排序的前十个关键字;网站url跳转后url为在访问待检测网站,待检测网站的网站url发生至少一次跳转时,最终停留网站页面对应的url;网站截图为在访问待检测网站,待检测网站的网站界面发生至少一次跳转时,最终停留的网站页面的截图。
63.可选的,由于某些指定类别的网站会利用虚假网站url,和/或,虚假网站页面进行伪装,因此,在访问这些指定类别的网站时,所访问网站的网站页面会发生至少一次跳转,并最终停留在该网站真实的网站页面上,这样,最终停留的网站页面的网站url及网站截图与初始访问的网站页面的网站url及网站截图可能是不同的,并且最终停留的网站页面对应的部分特征数据与初始访问的网站页面对应的部分特征数据也可能是不同的。基于此,根据网站页面跳转前后特征数据的变化情况,可以将上述多个特征数据分为静态数据和动态数据。其中,将网站页面发生跳转前后不发生变化的特征数据作为静态数据,并且上述静态数据可以包括:ca证书颁发者、ca证书有效期、ca证书颁发域名、网页源码中包括的ip、邮箱地址、url链接、网站标题、网站底栏信息和网站前十关键字;将网站页面发生跳转前后发生变化的特征数据作为动态数据,并且上述动态数据可以包括网站url跳转后url和网站截图。
64.可选的,可以基于特征数据的类别,将上述至少一个特征数据划分为ca信息、地址信息及网页信息三类,其中,上述ca信息可以包括ca证书颁发者、ca证书有效期及ca证书颁发域名;上述地址信息可以包括网页源码中包括的ip、邮箱地址、url链接及网站url跳转后url;上述网页信息可以包括网站截图、网站标题、网站底栏信息和网站前十关键字。
65.这都是合理的,在本发明实施例中不对上述特征数据的类别和分类方法进行具体限定。
66.s102:将各个待检测网站作为节点,将连接两个具有相关性的节点的连线作为边,构建关于多个待检测网站的网站关系图;其中,两个具有相关性的节点所对应的待检测网站存在至少一项相同的特征数据;在获取到多个待检测网站及每个待检测网站的至少一个特征数据后,基于每个待检测网站的至少一个特征数据,可以确定各个待检测网站之间的关联关系,并基于该关联关系,构建关于上述多个待检测网站的网站关系图。
67.其中,可以将每个待检测网站作为网站关系图的节点,并且,在两个待检测网站存在至少一项相同的特征数据时,可以将上述两个待检测网站所对应的节点称为具有相关性的节点,从而,可以连接上述两个待检测网站所对应的节点,并将连接上述两个节点的连线作为网站关系图的边。这样,即可以构建得到包括多个节点的网站关系图,并且,该网站关系图中可以不存在边,也可以存在至少一条边。
68.可选的,上述网站关系图可以表示为:其中,为网站关系图;为该网站关系图中的第a个节点,,为该网站关系中所包括的节点数量,为该网站关系图中的第条边,。
69.示例性的,如图2所示,为一种网站关系图的示意图;其中,多个待检测网站包括:待检测网站a、待检测网站b、待检测网站c和待检测网站d。在获取每个待检测网站各自的特征数据后,可以确定,待检测网站a与待检测网站b存在三项相同的特征数据,待检测网站b与待检测网站c存在一项相同的特征数据,待检测网站d与待检测网站a、待检测网站b以及待检测网站c均不存在相同的特征数据。
70.此时,可以分别以待检测网站a、待检测网站b、待检测网站c和待检测网站d作为节点,确定待检测网站a对应的节点a,待检测网站b对应的节点b,待检测网站c对应的节点c,和待检测网站d对应的节点d。
71.由于待检测网站a与待检测网站b存在三项相同的特征数据,可以确定节点a和节点b具有相关性,则可以通过边来连接节点a和节点b;由于待检测网站b与待检测网站c存在一项相同的特征数据,可以确定节点b和节点c具有相关性,则可以通过边来连接节点b和节点c。这样,便可以得到如图2所示的关于待检测网站a、待检测网站b、待检测网站c和待检测网站d的网站关系图。
72.s103:基于网站关系图,确定各个网站集合;其中,每个网站集合包括一个待检测网站或者多个具有指定连通关系的待检测网站;指定连通关系为任一个待检测网站所对应的节点与所属网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连;针对上述网站关系图,该网站关系图中的各个节点之间可以具有多种连接关系,例如,与任一节点均不相连的节点、与至少一个节点直接相连的节点、与至少一个节点通过其他节点间接相连的节点等。
73.其中,针对上述网站关系图,当两个节点之间可以直接相连,或者,通过至少一个中间节点间接相连时,可以称为该两个节点之间存在相连路径。
74.例如,如图2所示,节点d与节点a、节点b和节点c均不相连,节点b分别与节点a和节点c直接相连,节点a与节点c通过节点b相连,则可以称为节点a和节点b之间存在相连路径,且节点a和节点c之间存在相连路径。
75.因此,在确定上述网站关系图后,可以基于上述网站关系图中各个节点之间的连接关系,确定至少一个网站集合。
76.其中,针对与任一节点均不相连的节点,则可以将该节点所对应的待检测网站单独划分为一个网站集合,即该网站集合中只包括一个待检测网站;而对于与其他节点之间存在相连路径的节点,则可以根据节点之间所存在的相连路径,对与其他节点之间存在相连路径的节点进行分组,并且,针对每组节点,该组节点中的每两个节点之间均具有相连路径,也就是说该组节点中的每个节点与该组节点中除该节点之外的至少一个节点相连。这样,针对每组节点,便可以将该组节点所对应的各个待检测
网站划分为一个网站集合,即该网站集合包括多个待检测网站,且网站集合中的任一个待检测网站所对应的节点与所属网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连,进而,可以将该网站集合所包括的多个待检测网站称为:多个具有指定连通关系的待检测网站。
77.这样,便可以基于上述网站关系图,确定各个网站集合,并且,每个网站集合包括:一个待检测网站,或者,多个具有指定连通关系的待检测网站。
78.可选的,在得到上述网站关系图后,可以将所对应的待检测网站未被划分到网站集合中的节点称为未被分组的节点;进而,可以将未被分组的任一节点作为根节点,并遍历除该根节点之外的其他未被分组的节点,确定与该根节点之间存在相连路径的节点;进而,当存在与该根节点之间存在相连路径的节点时,便可以将上述根节点所对应的待检测网站,以及所确定的与该根节点之间存在相连路径的各个节点所对应的待检测网站,划分到同一网站集合中;而当不存在与该根节点之间存在相连路径的节点时,便可以将该根节点所对应的待检测网站单独划分为一个网站集合,即该网站集合中只包括该根节点所对应的待检测网站。进而,再次将未被分组的任一节点作为新的根节点,循环上述过程,直至所有的待检测网站均被划分到一个网站集合中。
79.可选的,在得到上述网站关系图后,可以首先确定上述网站关系图中是否存在与除自身之外的任何节点之间均不存在相连路径的节点,若存在,则将每个与除自身之外的任何节点之间均不存在相连路径的节点单独划分为一个网站集合,即该网站集合中只包括该节点所对应的待检测网站;进而,将所对应的待检测网站未被划分到网站集合中的节点称为未被分组的节点;这样,便可以将未被分组的任一节点作为根节点,并遍历除该根节点之外的其他未被分组的节点,确定与该根节点之间存在相连路径的节点,并将上述根节点所对应的待检测网站,以及所确定的与该根节点之间存在相连路径的各个节点所对应的待检测网站,划分到同一网站集合中。进而,再次将未被分组的任一节点作为新的根节点,循环上述过程,直至所有的待检测网站均被划分到一个网站集合中。
80.需要强调的是,上述两种网站集合划分方法,仅仅是对上述步骤s103的举例说明,而非限定,任何可以实现上述步骤s103的方式均属于本发明的保护范围。
81.可选的,上述所得到的各个网站集合可以标识为:其中,为得到的网站集合组;为第j个网站集合,m为由一个网站关系图得到的网站集合的个数,,。
82.示例性的,如图3所示,在关于待检测网站e、待检测网站f、待检测网站g、待检测网站h、待检测网站i和待检测网站j的网站关系图中,待检测网站e所对应的节点为节点e,待检测网站f所对应的节点为节点f,待检测网站g所对应的节点为节点g,待检测网站h所对应的节点为节点h,待检测网站i所对应的节点为节点i,待检测网站j所对应的节点为节点j。
83.基于上述网站关系图,节点e、节点g和节点f,节点e与节点g、节点e与节点f以及节点h与节点j之间均存在相连路径,因此,待检测网站e、待检测网站g和待检测网站f之间具有上述指定连通关系,从而,将待检测网站e、待检测网站g和待检测网站f划分为一个网站
集合;节点h和节点j之间存在相连路径,因此,待检测网站h和待检测网站j之间具有上述指定连通关系,进而,将待检测网站h和待检测网站j划分为一个网站集合;节点i与其他任一节点均不相连,将待检测网站i划分为一个网站集合。这样,基于上述网站关系图,可以将待检测网站e、待检测网站f、待检测网站g、待检测网站h、待检测网站i和待检测网站j确定为三个上述网站集合。
84.s104:针对每个网站集合,确定该网站集合中是否存在符合预设的关于指定类别的网站检测规则的待检测网站;若存在,则执行步骤s105:s105:确定该网站集合中的全部待检测网站属于指定类别。
85.为了检测指定类别的网站,可以预先设置关于指定类别的网站检测规则,在待检测网站符合上述网站检测规则时,可以认为该待检测网站为指定类别的网站。其中,上述指定类别的网站可以是恶意网站,也可以是购物网站,还可以是游戏网站,这都是合理的,按照实际检测需要进行设定即可,本发明实施例不做具体限定。
86.由于属于同一网站集合的各个待检测网站具有相似性,因此,属于同一网站集合的各个待检测网站属于同一网站类别的可能性较高,因此,可以认为属于同一网站集合的各个待检测网站属于同一网站类别。这样,对于存在符合预设的关于指定类别的网站检测规则的待检测网站的网站集合而言,可以直接将该网站集合中的全部待检测网站确定为属于指定类别的网站。
87.基于此,针对每个网站集合,可以确定该网站集合中是否存在符合预设的关于指定类别的网站检测规则的待检测网站,若该集合中存在至少一个符合预设的关于指定类别的网站检测规则的待检测网站,便可以确定该网站集合全部待检测网站均符合预设的关于指定类别的网站的检测规则,也就是说该网站集合中的全部待检测网站均为指定类别的网站。
88.可选的,针对每个网站集合,当该网站集合只包括一个待检测网站时,在检测到该待检测网站符合上述指定类别的网站检测规则时,则可以确定该待检测网站属于指定类别,否则,可以确定该待检测网站不属于指定类别。
89.针对每个网站集合,当该网站集合内包括多个待检测网站时,可以对该网站集合内的多个待检测网站依次进行检测,在检测到任一待检测网站符合上述指定类别的网站检测规则,则可以确定该网站集合内的全部待检测网站均为指定类别的网站,在检测到该网站集合中的全部待检测网站均不符合上述指定类别的网站检测规则时,则可以确定该网站集合内的全部待检测网站均不属于指定类别。
90.可选的,对所获取的多个待检测网站中未进行指定类别确定的一个待检测网站进行检测,在确定该待检测网站不符合上述关于指定类别的网站检测规则时,对下一个未进行指定类别确定的待检测网站进行检测;而在确定该待检测网站符合上述关于指定类别的网站检测规则时,可以进一步确定该待检测网站所属的网站集合,进而,确定该待检测网站所属的网站集合内的全部待检测网站均为指定类别的网站,并对下一个未进行指定类别确定的待检测网站进行检测。
91.以上可见,应用本发明实施例提供的方案,可以根据各个待检测网站之间的特征数据的相似性,将各个待检测网站分为各个网站集合。进而,由于属于同一网站集合的各个待检测网站具有相似性,因此,属于同一网站集合的各个待检测网站属于同一网站类别的
可能性较高,因此,可以认为属于同一网站集合的各个待检测网站属于同一网站类别。这样,对于存在符合预设的关于指定类别的网站检测规则的待检测网站的网站集合而言,可以直接将该网站集合中的全部待检测网站确定为属于指定类别的网站。
92.基于此,在对恶意网站进行检测时,便可以采用本发明实施例提供的方案,利用有限的关于恶意网站的网站检测规则,检测出更大范围内的恶意网站,从而,实现恶意网站检测范围的扩大;而由于恶意网站的更迭是在原有恶意网站的基础上进行的,因此,更迭后的恶意网站与原有恶意网站可以具有相似性,从而,采用本发明提供的方案,同样可以利用有限的关于恶意网站的网站检测规则,对更迭后的恶意网站进行检测,从而,实现对恶意网站的更迭速度的适应度的提高。这样,采用本发明提供的方案,便可以扩大恶意网站检测范围,并提高对恶意网站的更迭速度的适应度,从而,提高对恶意网站的检测效率。
93.在得到上述网站关系图后,基于该网站关系图中的各个节点的连通关系,可以确定该网站关系图是否为非连通图。
94.其中,所谓连通图是指:图中的任一节点与图中除该节点之外的其他任一节点之间均存在相连路径,也就是说,在连通图中的任意两个节点之间直接相连,或者,通过中间节点间接相连。
95.例如,如图4(a)所示,任意两个节点之间直接相连,或者,通过中间节点间接相连,从而,图4(a)为连通图;如图4(b)所示,包括与除自身之外的其他至少一个节点之间不存在相连路径的节点,示例性的,节点2和节点4之间不存在相连路径,节点5与节点1-节点4之间均不存在相连路径,因此,图4(b)为非连通图。
96.基于此,若上述网站关系图为连通图,可以基于该网站关系图确定一个包括全部待检测网站的网站集合。例如,如图4(a)所示,可以将节点1-节点5分别对应的待检测网站划分为一个网站集合。
97.然而,当所获取到的待检测网站数量较多时,若所得到的网站关系图为连通图,则可以使得所得到的网站集合包括的待检测网站数量较多,并且多个待检测网站之间的连接关系较为复杂,从而,在对该网站集合进行检测时,可能存在误检的情况。
98.基于此,在对网站集合进行检测时,为了提高检测的准确性,可以预先设置预设检测条件,这样,在所确定的网站关系图集合满足上述预设检测条件时,可以对由上述网站关系图确定的各个网站集合进行检测,而在所确定的网站关系图不满足上述预设检测条件时,可以对上述网站关系图进行优化,以使优化后的网站关系图满足上述预设检测条件,并基于优化后的网站关系图,确定各个网站集合,并进一步对所得到的各个网站集合进行检测。
99.可选的,一种具体实现方式中,如图5所示,本发明实施例提供的一种网站检测方法,还可以包括如下步骤s106-s107:s106:判断网站关系图是否满足预设检测条件;若不满足,执行步骤s107;若满足,执行步骤s103;其中,上述预设检测条件包括:网站关系图为非连通图,和/或,网站关系图的最大子连通图所包括的节点数量小于预设数量阈值,最大子连通图为:网站关系图的包括节点数量最多的子连通图;s107:按照预设优化规则优化网站关系图,得到新的网站关系图,并返回判断网站
关系图是否满足预设检测条件的步骤;其中,上述预设优化规则为:关于去除网站关系图中的指定边的规则。
100.在本具体实现方式中,在构建关于多个待检测网站的网站关系图后,可以判断上述网站关系图是否满足上述预设检测条件。在上述网站关系图不满足预设条件时,可以按照预设优化规则对上述网站关系图进行优化,进而,得到新的网站关系图。在得到新的网站关系图后,可以再次判断上述新的网站关系图是否满足预设检测条件,并在上述新的网站关系图不满足上述预设检测条件时,继续对上述新的网站关系图进行优化,依次循环,直至优化后的网站关系图满足上述预设检测条件为止,便可以对基于上述优化后的网站关系图确定的各个网站集合进行检测。
101.其中,上述预设检测条件可以包括网站关系图为非连通图,和/或,网站关系图的最大子连通图所包括的节点数量小于预设数量阈值,最大子连通图为:网站关系图的包括节点数量最多的子连通图。
102.对于非连通图而言,可以按照非连通图中各个节点之间的连接关系,将非连通图分为多个子图,其中,每个子图可以包括一个与非连通图中的其他任一节点均不相连的节点,可以包括多个相互之间均具有相连路径的节点。对于上述包括多个相互之间均具有相连路径的节点的子图而言,由于该子图中的每个节点与该子图中的其他任一节点之间均具有相连路径,因此,可以将该子图称为上述非连通图的子连通图。
103.例如,如图4(b)所示,其包括三个子图,并且,节点1和节点2构成一个子连通图,节点3和节点4构成另一个子连通图,而节点5可以作为只包括一个节点的子图。
104.进而,对于包括至少一个子连通图的非连通图而言,可以确定该非连通图的包括节点数量最多的连通子图,作为该非连通图的最大子连通图。
105.其中,对于连通图而言,可以将该连通图自身作为该连通图的最大子连通图。
106.也就是说,在上述预设检测条件为网站关系图为非连通图时,可以判断上述网站关系图是否为非连通图,在上述网站关系图为非连通图时,则说明上述网站关系图满足预设检测条件,便可以进一步执行后续步骤s103-s105;在上述网站关系图为连通图时,可以按照上述预设优化规则对上述网站关系图进行优化,得到新的网站关系图,并判断新的网站关系图是否为非连通图;依次循环,直至优化后的网站关系图为非连通图为止,便可以进一步执行后续步骤s103-s105。
107.在上述预设检测条件为网站关系图的最大子连通图所包括的节点数量小于预设数量阈值时,可以判断上述网站关系图的最大子连通图所包括的节点数量是否小于预设数量阈值,若是,则说明上述网站关系图满足预设检测条件,便可以进一步执行后续步骤s103-s105;否则,可以按照上述预设优化规则对上述网站关系图进行优化,并判断新的网站关系图的最大子连通图所包括的节点数量是否小于预设数量阈值,依次循环,直至优化后的网站关系图的最大子连通图所包括的节点数量小于预设数量阈值,便可以进一步执行后续步骤s103-s105。
108.在上述预设检测条件为上述网站关系图为非连通图并且网站关系图的最大子连通图所包括的节点数量小于预设数量阈值时,可以判断上述网站关系图是否为非连通图,并且上述网站关系图中的最大子连通图所包括的节点数量是否小于预设数量阈值,若上述判断结果均为是,则说明上述网站关系图满足预设检测条件,便可以进一步执行后续步骤
s103-s105;否则,可以按照上述预设优化规则对上述网站关系图进行优化,并判断新的网站关系图是否为非连通图,并且新的网站关系图中的最大子连通图所包括的节点数量是否小于预设数量阈值,依次循环,直至优化后的网站关系图为非连通图并且网站关系图的最大子连通图所包括的节点数量小于预设数量阈值,便可以进一步执行后续步骤s103-s105。
109.其中,上述预设数量阈值可以是一个具体数值,例如,10、30等,还可以是一个数量占比,例如,全部待检测网站的数量的十分之一等,这都是合理的,在本发明实施例中不做具体限定。
110.示例性的,上述预设数量阈值可以是全部待检测网站的数量的十分之一,则在全部待检测网站的数量为50时,上述预设检测条件可以为网站关系图为非连通图并且网站关系图的最大子连通图所包括的节点数量小于全部待检测网站的数量的十分之一。这样,在所确定的网站关系图为非连通图,并且的最大子连通图所包括的节点数量小于5时,上述网站关系图满足预设检测条件。
111.可选的,一种具体实现方式中,上述步骤s107,按照预设优化规则优化网站关系图,可以包括如下步骤11-12:步骤11:将未确定为优化数据的各项特征数据中,预设权重最小的特征数据作为当前优化数据;步骤12:去除网站关系图中的第一类型的边;其中,第一类型的边所连接的节点对应的待检测网站的未确定为优化数据的各项特征数据中,仅当前优化数据相同。
112.在本具体实现方式中,可以基于各项特征数据对于确定两个待检测网站之间的相关性的重要程度,确定上述每项特征数据的预设权重,这样,在上述网站关系图不满足上述预设检测条件时,可以将未确定为优化数据的各项特征数据中,预设权重最小的特征数据作为当前优化数据。之后,便可以遍历上述网站关系图中的各条边,在遍历到每条边时,确定该条边所连接的两个节点分别对应的待检测网站,并进一步确定在上述未确定为优化数据的各项特征数据中,该两个待检测网站是否仅有上述当前优化数据相同;如果是,则可以确定该条边为第一类型的边,从而,可以将该条边从上述网站关系图中去除;如果否,则可以确定该条边不为第一类型的边,从而,可以保留该条边,并遍历下一条边。
113.在遍历完上述网站关系图中的全部边之后,便可以得到新的网站关系图,并返回上述步骤s106,以判断该新的网站关系图是否满足上述预设检测条件,在该新的网站关系图满足上述预设检测条件时,便可以继续执行上述步骤s103-s105;而在该新的网站关系图不满足预设检测条件时,便可以再次利用本具体实现方式提供的优化方法,对当前的网站关系图进行再次优化。依次循环,直至所得到的新的网站关系图满足上述预设检测条件为止。
114.其中,可以按照实际需要为每一项特征数据设置预设权重,在本发明实施例中不对每一项特征数据的预设权重进行具体限定。
115.上述为了便于理解本具体实现方式中对网站关系图进行优化的过程,下面结合图6(a)-图6(c)进行具体说明。确定7个待检测网站,分别为图6(a)-图6(c)中的节点k-节点q对应的待检测网站k-待检测网站q,并且所提取的待检测网站的特征数据包括:ca证书颁发者、ca证书有效期、网页源码中包括的ip、url链接和网站标题,其中,ca证书颁发者的预设
权重为0.4、ca证书有效期的预设权重为0.2、网页源码中包括的ip的预设权重为0.15、url链接的预设权重为0.17、网站标题的预设权重为0.08。
116.待检测网站k的ca证书颁发者与待检测网站l的ca证书颁发者相同;待检测网站l的网站标题与待检测网站m的网站标题相同;待检测网站m的url链接与待检测网站n的url链接相同;待检测网站n的网站标题与待检测网站o的网站标题相同;待检测网站o的url链接与待检测网站p的url链接相同;待检测网站p的网页源码中包括的ip与待检测网站q的网页源码中包括的ip相同,进而,可以构建得到如图6(a)所示的网站关系图。
117.在上述预设检测条件为网站关系图为非连通图,且网站关系图的最大子连通图所包括的节点数量小于3时,如图6(a)所示的网站关系图不符合上述预设检测条件。
118.基于此,可以将ca证书颁发者、ca证书有效期、网页源码中包括的ip、url链接和网站标题中,权重最小的网站标题作为当前优化数据,之后,在上述网站关系图中去除仅网站标题相同的两个待检测网站所对应的节点之间的边,即去除待检测网站l对应的节点l与待检测网站m对应的节点m之间的边,以及待检测网站n对应的节点n与待检测网站o对应的节点o之间的边。这样,可以得到如图6(b)所示的新的网站关系图。
119.之后,判断如图6(b)所示的新的网站关系图是否满足上述预设检测条件。由于如图6(b)所示的新的网站关系图仍然不满足上述预设检测条件,因此,可以将未确定为优化数据的ca证书颁发者、ca证书有效期、网页源码中包括的ip及url链接中,权重最小的网页源码中包括的ip作为当前优化数据。之后,在上述网站关系图中去除在ca证书颁发者、ca证书有效期、网页源码中包括的ip及url链接中,仅网页源码中包括的ip相同的两个待检测网站所对应的节点之间的边,即去除待检测网站p对应的节点p与待检测网站q对应的节点q之间的边。这样,可以得到如图6(c)所示的新的网站关系图。
120.之后,判断如图6(c)所示的新的网站关系图是否满足上述预设检测条件。其中,如图6(c)所示的新的网站关系图为非连通图,并且,如图6(c)所示的新的网站关系图中包括:节点k与节点l构成的子连通图,节点m与节点n构成的子连通图,节点o与节点p构成的子连通图,以及,节点q构成的子图。由于,上述三个子连通图所包括的节点的数量均为2,而2《3,因此,可以确定如图6(c)所示的新的网站关系图满足上述预设检测条件。从而,可以基于如图6(c)所示的新的网站关系图,确定各个网站集合,并进一步进行网站检测。
121.可选的,一种具体实现方式中,待检测网站的每个边具有边权重,每个边的边权重为:所连接的两个节点对应的待检测网站所具有的相同的特征数据的预设权重之和;上述步骤s107,按照预设优化规则优化网站关系图,可以包括如下步骤21-22:步骤21:将未确定为优化阈值的各个阈值中,数值最小的阈值作为当前优化阈值;步骤22:去除网站关系图中,边权重不大于当前优化阈值的边。
122.在本具体实现方式中,可以基于各项特征数据对于确定两个待检测网站之间的相关性的重要程度,确定上述每项特征数据的预设权重,进而,在构建网站关系图时,针对每两个存在至少一项相同的特征数据的待检测网站,可以计算该两个待检测网站所具有的相同的特征数据的预设权重之和,从而,可以将该预设权重之和,作为网站关系图中,连接该两个待检测网站对应的节点的边的边权重。
123.其中,连接两个节点之间的边的边权重越小,可以表征上述两个节点对应的待检测网站之间的相似性越小,反之,连接两个节点之间的边的边权重越大,可以表征上述两个
节点对应的待检测网站之间的相似性越大。
124.这样,在上述网站关系图不满足上述预设检测条件时,可以按照上述边权重对网站关系图进行优化。其中,可以预先设置一组阈值,并且,该组阈值中的各个阈值应不小于各项特征数据中权重最小的特征数据的权重值,且上述多个阈值可以按照实际需要进行设定,例如,上述阈值可以包括0.2、0.5和0.8,这都是合理的,在本发明实施例中不做具体限定。
125.进而,在对上述网站关系图进行优化时,可以将未确定为优化阈值的各个阈值中,数值最小的阈值作为当前优化阈值,之后,便可以去除上述网站关系图中,边权重不大于该当前优化阈值的边,得到新的网站关系图。
126.之后,便可以返回上述步骤s106,以判断该新的网站关系图是否满足预设检测条件,在该新的网站关系图满足上述预设检测条件时,便可以继续执行上述步骤s103-s105;而在该新的网站关系图不满足预设检测条件时,便可以再次利用本具体实现方式提供的优化方法,对当前的网站关系图进行再次优化。依次循环,直至所得到的新的网站关系图满足上述预设检测条件为止。
127.上述为了便于理解本具体实现方式中对网站关系图进行优化的过程,下面结合图7(a)-图7(c)进行具体说明。确定6个待检测网站,分别为图7(a)-图7(c)中的节点r-节点w对应的待检测网站r-待检测网站w,并且所提取的待检测网站的特征数据包括:url链接、网站标题、网站底栏信息及网站截图,其中,url链接的预设权重为0.5,网站标题的预设权重为0.15、网站底栏信息的预设权重为0.15,网站截图的预设权重为0.2。
128.待检测网站r的url链接与待检测网站s的url链接相同,则连接待检测网站r对应的节点r与待检测网站s对应的节点s的边的边权重为0.5;待检测网站s的网站截图与待检测网站t的网站截图相同,则连接待检测网站s对应的节点s与待检测网站t对应的节点t的边的边权重为0.2;待检测网站t的网站标题与待检测网站u的网站标题相同,则连接待检测网站t对应的节点t与待检测网站u对应的节点u的边的边权重为0.15;待检测网站u的url链接以及网站标题与待检测网站v的url链接以及网站标题相同,则连接待检测网站u对应的节点u与待检测网站v对应的节点v的边的边权重为0.65;并且,待检测网站r的网站标题与待检测网站w的网站标题相同,则连接待检测网站r对应的节点r与待检测网站w对应的节点w的边的边权重为0.15,进而,可以构建得到如图7(a)所示的网站关系图。
129.在上述预设检测条件为网站关系图为非连通图,且网站关系图的最大子连通图所包括的节点数量小于3时,如图7(a)所示的网站关系图不符合上述预设检测条件。
130.基于此,可以将预设的多个阈值0.15、0.3和0.5中,数值最小的阈值0.15作为当前优化阈值,之后,去除如图7(a)所示的网站关系图中,边权重不大于0.15的边,即去除如图7(a)所示的网站关系图中,连接节点t与节点u的边,以及连接节点r与节点w的边。这样,可以得到如图7(b)所示的新的网站关系图。
131.之后,判断如图7(b)所示的新的网站关系图是否满足上述预设检测条件,由于如图7(b)所示的新的网站关系图仍然不满足上述预设检测条件,因此,可以将未确定为优化阈值的0.3与0.5中,数值最小的阈值0.3作为当前优化阈值。之后,去除如图7(b)所示的网站关系图中,边权重不大于0.3的边,即去除如图7(a)所示的网站关系图中,连接节点s与节点t之间的边。这样,可以得到如图7(c)所示的新的网站关系图。
132.之后,判断如图7(c)所示的新的网站关系图是否满足上述预设检测条件。其中,如图7(c)所示的新的网站关系图为非连通图,并且,如图7(c)所示的新的网站关系图中包括:节点r与节点s构成的子连通图,节点v与节点u构成的子连通图,节点w构成的子图,以及节点t构成的子图。由于,上述两个子连通图所包括的节点的数量均为2,而2《3,因此,可以确定如图7(c)所示的新的网站关系图满足上述预设检测条件,从而,可以基于如图7(c)所示的新的网站关系图,确定各个网站集合,并进一步进行网站检测。
133.为了便于理解本发明实施例提供的网站检测方法,以检测恶意网站为例,下面结合图8所示的具体实例的流程图进行具体介绍。
134.在对恶意网站进行检测时,可以首先通过旁路捕获网络中的网站数据,将捕获到的网站数据作为待检测网站,之后可以对每个待检测网站进行基础数据提取,得到每个待检测网站的至少一个特征数据。
135.之后,将各个待检测网站作为节点,将连接两个具有相关性的节点的连线作为边,构建关于多个待检测网站的网站关系图。
136.在得到上述网站关系图后,基于预设检测条件,判断上述网站关系图是否为满足预设检测条件的有效非连通图。在上述网站关系图不是有效非连通图时,可以基于各个待检测节点之间的特征数据的相关性,对上述网站关系图进行优化,得到新的网站关系图,并返回判断新的网站关系图是否为满足预设检测条件的有效非连通图的步骤,依次循环,直至新的网站关系图为满足预设检测条件的有效非连通图为止;在上述网站关系图为有效非连通图时,可以基于恶意网站检测规则对由上述网站关系图确定的各个网站集合进行恶意网站检测;针对每个网站集合,在检测到该网站集合中存在符合恶意网站检测规则的待检测网站时,可以认为该网站集合中的全部待检测网站为恶意网站。
137.基于相同的发明构思,相应于上述本发明实施例提供的图1所示的一种网站检测方法,本发明实施例还提供了一种网站检测装置。
138.图9为本发明实施例提供的一种网站检测方法的结构示意图,如图9所示,该装置可以包括如下模块:特征提取模块910,用于获取多个待检测网站,并提取每个待检测网站的至少一项特征数据;关系图构建模块920,用于将各个待检测网站作为节点,将连接两个具有相关性的所述节点的连线作为边,构建关于所述多个待检测网站的网站关系图;其中,所述两个具有相关性的所述节点所对应的待检测网站存在至少一项相同的特征数据;集合确定模块930,用于基于所述网站关系图,确定各个网站集合;其中,每个网站集合包括一个待检测网站或者多个具有指定连通关系的待检测网站;所述指定连通关系为任一个待检测网站所对应的节点与所属网站集合中除该待检测网站之外的至少一个待检测网站所对应的节点相连;确定模块940,用于针对每个网站集合,确定该网站集合中是否存在符合预设的关于指定类别的网站检测规则的待检测网站;若存在,触发类别确定模块950;所述类别确定模块950,用于确定该网站集合中的全部待检测网站属于所述指定类别。
139.以上可见,应用本发明实施例提供的方案,可以根据各个待检测网站之间的特征
数据的相似性,将各个待检测网站分为各个网站集合。进而,由于属于同一网站集合的各个待检测网站具有相似性,因此,属于同一网站集合的各个待检测网站属于同一网站类别的可能性较高,因此,可以认为属于同一网站集合的各个待检测网站属于同一网站类别。这样,对于存在符合预设的关于指定类别的网站检测规则的待检测网站的网站集合而言,可以直接将该网站集合中的全部待检测网站确定为属于指定类别的网站。
140.基于此,在对恶意网站进行检测时,便可以采用本发明实施例提供的方案,利用有限的关于恶意网站的网站检测规则,检测出更大范围内的恶意网站,从而,实现恶意网站检测范围的扩大;而由于恶意网站的更迭是在原有恶意网站的基础上进行的,因此,更迭后的恶意网站与原有恶意网站可以具有相似性,从而,采用本发明提供的方案,同样可以利用有限的关于恶意网站的网站检测规则,对更迭后的恶意网站进行检测,从而,实现对恶意网站的更迭速度的适应度的提高。这样,采用本发明提供的方案,便可以扩大恶意网站检测范围,并提高对恶意网站的更迭速度的适应度,从而,提高对恶意网站的检测效率。
141.可选的,一种具体实现方式中,所述装置还包括:判断模块,用于在所述基于所述网站关系图,确定各个网站集合之前,判断所述网站关系图是否满足预设检测条件;若不满足,触发优化模块;若满足,触发所述集合确定模块930;其中,所述预设检测条件包括:所述网站关系图为非连通图,和/或,所述网站关系图的最大子连通图所包括的节点数量小于预设数量阈值,所述最大子连通图为:所述网站关系图的包括节点数量最多的子连通图;所述优化模块,用于按照预设优化规则优化所述网站关系图,得到新的网站关系图,并触发所述判断模块;其中,所述预设优化规则为:关于去除所述网站关系图中的指定边的规则。
142.可选的,一种具体实现方式中,所述优化模块,具体用于:将未确定为优化数据的各项特征数据中,预设权重最小的特征数据作为当前优化数据;去除所述网站关系图中的第一类型的边;其中,所述第一类型的边所连接的节点对应的待检测网站的所述未确定为优化数据的各项特征数据中,仅所述当前优化数据相同。
143.可选的,一种具体实现方式中,所述待检测网站的每个边具有边权重,每个边的边权重为:所连接的两个节点对应的待检测网站所具有的相同的特征数据的预设权重之和;所述优化模块,具体用于:将未确定为优化阈值的各个阈值中,数值最小的阈值作为当前优化阈值;去除所述网站关系图中,边权重不大于所述当前优化阈值的边。
144.可选的,一种具体实现方式中,所述特征提取模块910,具体用于:获取多个历史访问网站的统一资源定位符url,并对所获取的多个url进行去重,得到待检测网站。
145.可选的,一种具体实现方式中,所述特征提取模块910,具体用于:获取在预设的检测周期内访问的多个网站,作为待检测网站。
146.可选的,一种具体实现方式中,所述至少一项特征数据包括以下各项数据中的至少一项:
ca证书颁发者、ca证书有效期、ca证书颁发域名、网页源码中包括的ip、邮箱地址、url链接、网站标题、网站底栏信息、网站前十关键字、网站url跳转后url及网站截图。
147.本发明实施例还提供了一种电子设备,如图10所示,包括处理器1001、通信接口1002、存储器1003和通信总线1004,其中,处理器1001,通信接口1002,存储器1003通过通信总线1004完成相互间的通信,存储器1003,用于存放计算机程序;处理器1001,用于执行存储器1003上所存放的程序时,实现上述本发明实施例提供的任一网站检测方法的步骤。
148.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
149.通信接口用于上述电子设备与其他设备之间的通信。
150.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
151.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
152.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一网站检测方法的步骤。
153.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一网站检测方法。
154.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk (ssd))等。
155.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
156.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
157.以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献