网站识别方法、装置、计算机设备和存储介质与流程

2022-02-22 23:02:56 来源：中国专利 TAG：

1.本技术涉及网络安全技术领域，特别是涉及一种网站识别方法、装置、计算机设备和存储介质。

背景技术：

2.随着互联网技术的快速发展，互联网已经深入到社会生活的方方面面，比如，人们可以通过互联网下载各类资料、进行网络购物等。网址是用户访问网络资源的入口，近年来，出现了将各类钓鱼网站模仿正常网站盗取用户账号和密码、传播恶意信息等恶意行为，因此，识别恶意网站的方法受到了广泛关注。
3.相关技术中，一般是对待检测的网页内容进行特征提取，将提取出的特征与恶意特征模型进行匹配，在特征能够匹配成功的情况下，确定待检测的网页为恶意网页。这样，可以实现对恶意网站的识别，其中，待检测的网页内容可以包括该网页的标题、meta标签以及网页的正文等。恶意特征模型可以包括人工编写的恶意特征模型或者是通过机器学习算法生成的恶意特征模型。
4.但是，合法网站中也可以能会包括上述恶意特征模型中的某些特征，此时，会存在恶意网站误报或者漏报的问题，导致识别恶意网站准确率变低。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种能够解决误报或漏报问题的网站识别方法、装置、计算机设备和存储介质。
6.第一方面，本发明实施例提供了一种网站识别方法，所述方法包括：
7.通过加载待检测网页，获得所述待检测网页的请求发起程序链，所述请求发起程序链包括树状结构的资源链接，每个资源链接用于表示所述待检测网页中一个子资源的访问链接；
8.将所述待检测网页的请求发起程序链与预设恶意资源数据库所包含的恶意子资源的资源链接进行比对，得到比对结果；
9.在所述比对结果满足恶意网址判断条件的情况下，确定所述待检测网页为恶意网页。
10.在其中一个实施例中，所述在所述比对结果满足恶意网址判断条件的情况下，确定所述待检测网页为恶意网页，包括：
11.如果在所述待检测网页的请求发起程序链包含的各资源链接中，存在与恶意子资源的资源链接相同的资源链接，则确定所述待检测网页为恶意网页。
12.在其中一个实施例中，通过如下方法预先构建恶意资源数据库，具体包括：
13.通过加载样本网页，得到所述样本网页的请求发起程序链以及所述样本网页中包含的多个子资源的资源信息；
14.根据所述多个子资源的资源信息，在所述样本网页包含的多个子资源中，确定恶
意子资源；
15.将所述恶意子资源的资源链接，以及所述恶意子资源的资源链接的关联资源链接均标记为恶意资源链接，并将所述恶意资源链接以及所述恶意资源链接的资源信息添加至预设恶意资源数据库。
16.在其中一个实施例中，所述在所述样本网页包含的多个子资源中，确定恶意子资源，包括：
17.响应于对所述子资源的选中操作，从所述多个子资源中确定恶意子资源，所述选中操作是根据所述多个子资源的资源信息确定的；和/或，
18.通过预设恶意资源判断规则，根据所述多个子资源的资源信息，从所述多个子资源中确定恶意子资源；和/或，
19.将所述多个子资源的资源信息输入至预设恶意资源判断模型，得到所述预设恶意资源判断模型的输出结果，根据所述输出结果，从所述多个子资源中确定恶意子资源。
20.在其中一个实施例中，在所述将所述恶意子资源的资源链接，以及所述恶意子资源的资源链接的关联资源链接均标记为恶意资源链接的步骤之前，所述方法还包括：
21.以所述恶意子资源的资源链接对应的节点为第一顶点，以所述树状结构的请求发起程序链的根节点为第二顶点，根据所述第二顶点在所述树状结构中访问所述第一顶点的访问路径，确定所述第一顶点与所述第二顶点之间的关联链路，所述树状结构的请求发起程序链是根据所述请求发起程序链中包含的各个资源链接之间的访问路径生成的；
22.将所述关联链路上所包含的每一节点对应的资源链接，均标记为所述恶意子资源的资源链接的关联资源链接。
23.在其中一个实施例中，所述方法还包括：
24.显示任务列表界面，所述任务列表界面包括多条任务记录的标识；
25.响应于对所述任务记录的标识的选中操作，获取所述任务记录的标识对应待检测网页的链接；
26.所述通过加载待检测网页，获得所述待检测网页的请求发起程序链，包括：
27.根据所述待检测网页的链接，通过预设浏览器加载所述待检测网页，获得所述待检测网页的请求发起程序链。
28.在其中一个实施例中，所述方法还包括：
29.根据所述任务记录的类型，确定所述预设浏览器的访问环境；
30.基于所述预设浏览器的访问环境，执行所述通过预设浏览器加载待检测网页，得到所述待检测网页的请求发起程序链的步骤。
31.在其中一个实施例中，所述根据所述任务记录的类型，确定所述预设浏览器的访问环境，包括：
32.根据预先配置的任务类型与代理配置的对应关系，确定所述任务记录的类型对应的目标代理配置类型；
33.根据预先配置的任务类型与请求头配置的对应关系，确定所述目标类型对应的目标请求头配置类型；
34.根据所述目标代理配置类型以及目标请求头配置类型，构建所述任务记录对应的预设浏览器的访问环境。
35.第二方面，本发明实施例提供了一种网站识别装置，所述装置包括：
36.加载模块，用于通过加载待检测网页，获得所述待检测网页的请求发起程序链，所述请求发起程序链包括树状结构的资源链接，每个资源链接用于表示所述待检测网页中一个子资源的访问链接；
37.比对模块，用于将所述待检测网页的请求发起程序链与预设恶意资源数据库所包含的恶意子资源的资源链接进行比对，得到比对结果；
38.确定模块，用于在所述比对结果满足恶意网址判断条件的情况下，确定所述待检测网页为恶意网页。
39.在其中一个实施例中，所述确定模块，具体用于：如果在所述待检测网页的请求发起程序链包含的各资源链接中，存在与恶意子资源的资源链接相同的资源链接，则确定所述待检测网页为恶意网页。
40.在其中一个实施例中，所述装置还包括：
41.样本网页加载模块，用于通过加载样本网页，得到所述样本网页的请求发起程序链以及所述样本网页中包含的多个子资源的资源信息；
42.恶意子资源确定模块，用于根据所述多个子资源的资源信息，在所述样本网页包含的多个子资源中，确定恶意子资源；
43.添加模块，用于将所述恶意子资源的资源链接，以及所述恶意子资源的资源链接的关联资源链接均标记为恶意资源链接，并将所述恶意资源链接以及所述恶意资源链接的资源信息添加至预设恶意资源数据库。
44.在其中一个实施例中，所述恶意子资源确定模块，包括：
45.第一判断单元，用于
46.响应于对所述子资源的选中操作，从所述多个子资源中确定恶意子资源，所述选中操作是根据所述多个子资源的资源信息确定的；和/或，
47.第二判断单元，用于通过预设恶意资源判断规则，根据所述多个子资源的资源信息，从所述多个子资源中确定恶意子资源；和/或，
48.第三判断单元，用于将所述多个子资源的资源信息输入至预设恶意资源判断模型，得到所述预设恶意资源判断模型的输出结果，根据所述输出结果，从所述多个子资源中确定恶意子资源。
49.在其中一个实施例中，所述装置还包括：
50.构建单元，用于以所述恶意子资源的资源链接对应的节点为第一顶点，以所述树状结构的请求发起程序链的根节点为第二顶点，根据所述第二顶点在所述树状结构中访问所述第一顶点的访问路径，确定所述第一顶点与所述第二顶点之间的关联链路，所述树状结构的请求发起程序链是根据所述请求发起程序链中包含的各个资源链接之间的访问路径生成的；
51.标记单元，用于将所述关联链路上所包含的每一节点对应的资源链接，均标记为所述恶意子资源的资源链接的关联资源链接。
52.在其中一个实施例中，所述装置还包括：
53.显示模块，用于显示任务列表界面，所述任务列表界面包括多条任务记录的标识；
54.响应模块，用于响应于对所述任务记录的标识的选中操作，获取所述任务记录的
标识对应待检测网页的链接；
55.所述加载模块具体用于：根据所述待检测网页的链接，通过预设浏览器加载所述待检测网页，获得所述待检测网页的请求发起程序链。
56.在其中一个实施例中，所述装置还包括：
57.访问环境确定模块，用于根据所述任务记录的类型，确定所述预设浏览器的访问环境；
58.访问模块，用于基于所述预设浏览器的访问环境，执行所述通过预设浏览器加载待检测网页，得到所述待检测网页的请求发起程序链的步骤。
59.在其中一个实施例中，所述访问环境确定模块，包括：
60.第一对应单元，用于根据预先配置的任务类型与代理配置的对应关系，确定所述任务记录的类型对应的目标代理配置类型；
61.第二对应单元，用于根据预先配置的任务类型与请求头配置的对应关系，确定所述目标类型对应的目标请求头配置类型；
62.访问环境构建单元，用于根据所述目标代理配置类型以及目标请求头配置类型，构建所述任务记录对应的预设浏览器的访问环境。
63.第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
64.通过加载待检测网页，获得所述待检测网页的请求发起程序链，所述请求发起程序链包括树状结构的资源链接，每个资源链接用于表示所述待检测网页中一个子资源的访问链接；
65.将所述待检测网页的请求发起程序链与预设恶意资源数据库所包含的恶意子资源的资源链接进行比对，得到比对结果；
66.在所述比对结果满足恶意网址判断条件的情况下，确定所述待检测网页为恶意网页。
67.第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
68.通过加载待检测网页，获得所述待检测网页的请求发起程序链，所述请求发起程序链包括树状结构的资源链接，每个资源链接用于表示所述待检测网页中一个子资源的访问链接；
69.将所述待检测网页的请求发起程序链与预设恶意资源数据库所包含的恶意子资源的资源链接进行比对，得到比对结果；
70.在所述比对结果满足恶意网址判断条件的情况下，确定所述待检测网页为恶意网页。
71.上述网站识别方法、装置、计算机设备和存储介质，通过加载待检测网页，获得所述待检测网页的请求发起程序链；将所述待检测网页的请求发起程序链与预设恶意资源数据库所包含的恶意子资源的资源链接进行比对，得到比对结果；在所述比对结果满足恶意网址判断条件的情况下，确定所述待检测网页为恶意网页。本实施例通过加载待检测网页的请求发起程序链，可以对各网页的请求发起程序链之间进行比对，确定该检测网页是否为恶意网页，可以有效提高恶意网站识别的效率与准确度，不依赖于人工识别，并可以有效
解决相关技术中由于人工识别产生的误报或漏报问题。
附图说明
72.图1为一个实施例中网站识别方法的流程示意图；
73.图2为一个实施例中请求程序发起链的示意图；
74.图3为一个实施例中预设恶意资源数据库的更新步骤的流程示意图；
75.图4为一个实施例中确定任意子资源是否为恶意资源步骤的流程示意图；
76.图5为一个实施例中标记关联资源步骤的流程示意图；
77.图6为一个实施例中任务选中步骤的流程示意图；
78.图7为一个实施例中浏览器访问环境的配置步骤的流程示意图；
79.图8为一个实施例中浏览器访问环境的具体配置步骤的流程示意图；
80.图9为一个实施例中网站识别装置的结构框图；
81.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
82.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
83.相关技术中，一般都是通过人工方法识别恶意网站，而人工识别会带来较多问题。例如，人工识别存在效率低下，面对海量数据不能及时处理的问题。而通过本发明实施例所提供的网站识别方法，由于不涉及到人工识别，因此可以有效提高处理效率。相关技术中还通过规则或模型进行恶意网站的识别，但此方法一定会存在误报或者漏报问题，特别是误报问题，往往不容易发现。
84.例如，一个赌博网站，里面会有关键词，常用规则就是判断页面中的特定位置是否包含上述关键词，但在现实生活当中，可能就有合法网站中包含了上述关键词，从而在自动化的处理流程中，该合法网站被当作赌博网站标记了。这是一种很常见的误报问题。那么相关技术为了解决上述误报问题，通常采用的技术手段是将识别规则加的很细，而将识别规则加的很细的时候，就会造成赌博网站在识别的时候存在漏报的情况。由于现行恶意网站，特别是赌博、色情类网站，大多会是从推广站跳转到目标站，这个跳转过程大多会加载相同的js(javascript，动态编程语言)、相同的目标站，我们对相同的js、相同的目标站进行标记，在加载链中判定链条顶端的数据。这个过程中，可以不依靠人工分析、规则判断或模型判断一个网页不是恶意的，从而弥补现有识别方案中的不足。具体地，终端对相同的js、相同的目标站进行标记后还会进行特征提取，提取出的特征可以用于资源信息的比对以及自动标记。
85.在一个实施例中，如图1所示，提供了一种网站识别方法，本实施例以该方法应用于识别设备进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括识别设备和服务器的系统，并通过识别设备和服务器的交互实现，上述识别设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该识别方法
包括以下步骤：
86.步骤101，通过加载待检测网页，获得待检测网页的请求发起程序链，请求发起程序链包括树状结构的资源链接，每个资源链接用于表示待检测网页中一个子资源的访问链接。
87.具体地，待检测网页的请求发起程序链(request initiator chain，ric)是预设浏览器在加载上述待检测网页的过程中，生成的用于访问待检测网页中包含的各子资源的资源链条的集合。请求发起程序链可以包括以树状结构存储的多个资源链接。各资源链接用于通过预设浏览器分别获取该待检测网页上的各子资源，一个资源链接与一子资源相对应。各子资源可以包括图片子资源、文本子资源、js子资源以及网页上包含的其他类型的子资源。预设浏览器可以是 chrome浏览器，预设浏览器还可以是使用了chrome浏览器内核的，且内核版本在v80之后的浏览器，如微软的edge浏览器、360安全浏览器、搜狗浏览器等等。
88.可选地，图2是识别设备通过浏览器在加载待检测网页的过程中生成的请求发起程序链的示意图。a可以是待检测网页，a1、a2、a3、a4、a5是待检测网页a所要请求访问的第一层子资源；a31、a32是a3所要请求访问的第二层子资源；a321、a322、a323是a32所要请问访问的第三层子资源；a3221、 a3222、a3223是a322所要请问访问的第四层子资源；a32221、a32222是a3222 所要请问访问第五层子资源。
89.以下结合一个实际示例，对待检测网页的请求发起程序链进行详细说明。待检测网页可以是http://hcjc2000.cn/tag/nuoyajia/；待检测网页所要请求的第一层子资源的资源链接可以包括：
90.http://hcjc2000.cn/sink/juse/mip.css；
91.https://js.users.51.la/20964639.js；
92.https://c.mipcdn.com/static/v2/mip.js；
93.https://c.mipcdn.com/staticv1/mip-ad/mip-ad.js；
94.https://c.mipcdn.com/static/v2/mip-showmore/mip-showmore.js；
95.https://c.mipcdn.com/static/v2/mip-stats-baidu/mip-stats-baidu.js；
96.https//c.mipcdn.com/extensions/platform/v2/mip-cambrian/mip-cambrian.js；
97.http://hcjc2000.cn/sink/juse/h3img.png。
98.其中，第一层子资源的资源链接“https://c.mipcdn.com/static/v2/mip.js”所要请求访问的第二层子资源的资源链接可以包括：
99.http://n.sinaimg.cn/transtate/20161112/oory-fxxswfv1525268.jpg；
100.https://c.mipcdn.com/static/deps/zepto.js；
101.http://n.sinaimg.cn/translate/20161112/oory-fxxswfv1525268.jpg；
102.http://hcjc2000.cn/sink/juse/mlogo.png。
103.步骤102，将待检测网页的请求发起程序链与预设恶意资源数据库所包含的恶意子资源的资源链接进行比对，得到比对结果。
104.具体地，识别设备可以将通过预设浏览器获取到的待检测网页的请求发起程序链，与预先配置的恶意资源数据库中的所包含的恶意网页对应的恶意子资源的资源链接进
行对比，得到比对结果。该对比结果用于表征待检测网页的请求发起程序链中的各个资源链接，是否存在与恶意网页对应的恶意子资源的资源链接相同的资源链接。
105.步骤103，在比对结果满足恶意网址判断条件的情况下，确定待检测网页为恶意网页。
106.具体地，恶意网址判断条件可以是待检测网页的请求发起程序链的资源链接中，存在与恶意网页的请求起程序链的资源链接相同的资源链接。也就是说，识别设备在通过预设浏览器加载待检测网页后，如果确定获得的请求发起程序链的资源链接，存在与预设恶意资源数据库中的恶意资源链接相同的资源链接，则可以确定该待检测网页是恶意网页。
107.可选的，恶意网页可以是在互联网中，所提供网络服务存在钓鱼、挂马、欺诈或违反相关法律规定(如传播色情、在线赌博等)的链接。例如，某链接仿冒xx银行，用于获取用户的相关隐私信息。
108.上述网站识别方法中，通过加载待检测网页，获得待检测网页的请求发起程序链；将待检测网页的请求发起程序链与预设恶意资源数据库所包含的恶意子资源的资源链接进行比对，得到比对结果；在比对结果满足恶意网址判断条件的情况下，确定待检测网页为恶意网页。本实施例通过加载待检测网页的请求发起程序链，可以对各网页的请求发起程序链之间进行比对，确定该检测网页是否为恶意网页，可以有效提高恶意网站识别的效率与准确度，不依赖于人工识别，并可以有效解决相关技术中由于人工识别产生的误报或漏报问题。
109.在一个实施例中，步骤103“在比对结果满足恶意网址判断条件的情况下，确定待检测网页为恶意网页”的具体处理过程，包括：
110.如果在待检测网页的请求发起程序链包含的各资源链接中，存在与恶意网页的恶意子资源的资源链接相同的资源链接，则确定待检测网页为恶意网页。
111.具体地，识别设备通过预设浏览器对待检测网页进行加载，获得该待检测网页的请求发起程序链，该请求发起程序链包括用于请求上述待检测网页中各子资源的资源链接。多个资源链接以树状结构进行存储或展示。预设恶意资源数据库包括恶意网页的请求发起程序链，也就是对恶意网站的恶意子资源的资源链接进行标记，并存储于预设恶意资源数据库。即预设恶意资源数据库中包括多个恶意子资源的资源链接。
112.可选地，如果识别设备确认待检测网页的请求发起程序链中的各个资源链接，存在与预设恶意资源数据库中包含的多个恶意子资源的资源链接相同的资源链接，则识别设备可以确认该待检测网页为恶意网页。
113.例如，待检测网页可以是a，a1、a2、a3、a4、a5是待检测网页a所要请求访问的第一层子资源；a31、a32是a3所要请求访问的第二层子资源。预设恶意资源数据库中包括多个恶意子资源的资源链接，可以是b。如果识别设备确认b与a31是相同的子资源的资源链接，那么可以确定a、a3、a31均为恶意子资源的访问链接，即确定待检测网页a为恶意网页。
114.进一步地，识别设备确定b与a31是相同的子资源的资源链接的过程可以是：识别设备通过哈希算法计算b的哈希值，并通过相同的哈希算法计算上述待检测网页a包含的各子资源的资源链接的哈希值。如果在识别设备计算得到的待检测网页a包含的各子资源的资源链接的哈希值中，存在与b的哈希值相同的哈希值，那么可以确认待检测网页a的请求
程序发起程序链中存在b相同的恶意子资源的资源链接。
115.进一步地，当存在恶意网页的多个请求发起程序链时，可以通过预设聚类算法，对各请求发起程序链的url(uniform resource locator,统一资源定位器) 以及各url的path值(资源层级系统文件路径信息，表示主机上的一个目录或文件地址)进行聚类分析，生成聚类模型。这样，待检测的网页的请求发起程序链可以直接输入至该聚类模型中，根据聚类模型的输出结果以及该待检测的网页的文本特征或者代码特征，判断待检测的网页是否为恶意网页。
116.本发明实施例通过判断待检测网页的请求发起程序链与恶意资源数据库的匹配程度，判断该待检测网页是否为恶意网页，由于上述识别过程均为自动识别，因此，可以快速、高效且准确地完成对网页的检测。
117.在一个实施例中，如图3所示，通过如下方法预先构建恶意资源数据库，具体包括：：
118.步骤201，通过加载样本网页，得到样本网页的请求发起程序链以及样本网页中包含的多个子资源的资源信息。
119.具体地，样本网页可以是任意一个待访问的网页，也可以是已知其恶意特性的网页，还可以是未知网页。识别设备通过预设浏览器加载样本网页，得到样本网页的请求发起程序链，以及该样本网页包含的多个子资源的资源信息。其中，该资源的资源信息可以包括该子资源的资源链接、该子资源的大小、该子资源的哈希值(该哈希值可以是通过任意一种哈希算法，对该子资源进行哈希计算后得到的)以及该子资源的内容信息。
120.可选地，用于访问该子资源的资源链接可以是预设时间段内作为该子资源的暂时恶意资源链接；而该子资源的大小、该子资源的哈希值以及该子资源的内容信息可以作为长期的恶意资源信息。
121.步骤202，根据多个子资源的资源信息，在样本网页包含的多个子资源中，确定恶意子资源。
122.具体地，识别设备通过预设浏览器获得请求发起程序链以及样本网页中包含的多个子资源的资源信息，该请求发起程序链包括多个用于访问样本网页上多个子资源的资源链接，各子资源与资源链接一一对应。识别设备可以通过预设的多种方法确定样本网页包含的多个子资源中的恶意子资源。识别设备可以通过预设的恶意规则判断该子资源是否为恶意子资源，也可以通过预设的恶意资源识别模型判断该子资源是否为恶意子资源，还可以通过用户设备的判断结果的输入操作，获取对于该子资源的恶意识别结果。
123.具体地，识别设备可以通过获得到的样本网页中包含的多个子资源的资源信息，判断对应的子资源是否为恶意子资源。例如可以通过该子资源的内容信息判断该子资源是否为恶意信息。
124.步骤203，将恶意子资源的资源链接，以及恶意子资源的资源链接的关联资源链接均标记为恶意资源链接，并将恶意资源链接以及恶意资源链接的资源信息添加至预设恶意资源数据库。
125.具体地，如果识别设备确定样本网页中以树状结构存储的任意第一资源链接，是恶意资源的访问链接的话，识别设备会将该恶意资源的第一资源链接，以及与该第一资源链接在树状结构中存在关联关系的资源链接，均标记为恶意资源链接(添加恶意标识)。这
样，识别设备可以将多个标记为恶意子资源的子资源以及该恶意子资源的资源链接，一并添加至预先配置的恶意资源数据库。这样，识别设备通过对待识别的网页的请求发起程序链与恶意资源数据库中的各个恶意资源的子资源以及该恶意资源的资源链接进行对比，从而可以快速、高效、准确地完成对网页的恶意识别。
126.可选地，识别设备还可以对恶意子资源的资源信息(例如，该恶意子资源的哈希值以及该恶意子资源的内容信息)进行标记，这样，识别设备可以通过对待识别的网页的各子资源的资源信息与恶意资源数据库中的各个恶意资源的子资源的资源信息进行对比，从而确定该待识别的网页中是否包含恶意资源数据库中的各个子资源。例如，识别设备可以获取待识别的网页的各子资源的哈希值，并将其与恶意资源数据库中的各个恶意资源的子资源的哈希值进行判断，是否一致。如果一致，识别设备可以确定该待识别的网页包含恶意资源数据库的恶意资源，确定该待识别网页为恶意网页。从而识别设备可以快速、高效、准确地完成对网页的恶意识别。
127.可选地，识别设备会将恶意子资源的资源链接标记为黑，并将该恶意子资源的资源链接的关联链接也标记为黑。识别设备会将标记为黑的资源链接添加至预先配置的恶意资源数据库，完成对恶意资源数据库的数据更新。
128.可选地，在恶意网页对应的全部子资源均为恶意子资源的情况下，识别设备可以将该恶意网页对应的请求程序发起链存储于恶意资源数据库，以便于对待检测网页进行比对。例如，如果在待检测网页的请求发起程序链包含的各资源链接中，存在与恶意子资源的资源链接相同的资源链接，则确定待检测网页为恶意网页。
129.在一个实施例中，由于判断一子资源是否为恶意资源可以有多种判断方法，因此，如图4所示，步骤202“在样本网页包含的多个子资源中，确定恶意子资源”的具体处理过程，包括：
130.步骤301，响应于对子资源的选中操作，从多个子资源中确定恶意子资源，选中操作是根据多个子资源的资源信息确定的；和/或，
131.具体地，用户设备根据各个子资源的资源信息确定一个或多个恶意子资源，并对上述一个或多个恶意子资源进行选中操作。识别设备响应于用户设备对样本网页中包含的多个子资源中任意一个子资源或多个子资源的选中操作，从多个子资源中确定被选中的一个子资源或多个子资源为恶意资源。
132.步骤302，通过预设恶意资源判断规则，根据多个子资源的资源信息，从多个子资源中确定恶意子资源；和/或，
133.具体地，预设恶意资源判断规则可以是：如果该子资源的内容包含预设字段，则确定该子资源为恶意子资源。预设字段可以包括“线上娱乐”等含义的词语。识别设备可以根据多个子资源的资源信息，判断上述多个子资源中是否包含预设字段。这样，识别设备可以从多个子资源中确定恶意子资源。
134.步骤303，将多个子资源的资源信息输入至预设恶意资源判断模型，得到预设恶意资源判断模型的输出结果，根据输出结果，从多个子资源中确定恶意子资源。
135.具体地，预设恶意资源判断模型可以是通过深度学习算法或者机器学习算法生成的模型，该模型的训练数据可以通过步骤301以及步骤302判断为恶意资源的子资源。识别设备通过将待识别的多个子资源输入至预设恶意资源判断模型，预设恶意资源判断模型可
以输出该待识别的子资源与训练数据的相似度，识别设备可以根据各个子资源的相似度，从多个子资源中确定恶意子资源。例如，识别设备可以在相似度超过预设阈值的情况下，认为该子资源是为恶意资源。
136.需要说明的是，上述步骤301、步骤302以及步骤303均不需要区分执行顺序。在实际应用场景中，本领域技术人员可以根据实际需求选取步骤301、步骤 302以及步骤303的任意一种或多种判断方法，实现对于样本网页包含的多个子资源是否为恶意资源的判断。
137.在一个实施例中，如图5所示，在步骤203“在确定子资源为恶意资源的情况下，将恶意资源的资源链接以及资源链接的关联资源链接标记为恶意资源链接”之前，方法还包括：
138.步骤401，以恶意子资源的资源链接对应的节点为第一顶点，以树状结构的请求发起程序链的根节点为第二顶点，根据第二顶点在树状结构中访问第一顶点的访问路径，确定第一顶点与第二顶点之间的关联链路，树状结构的请求发起程序链是根据请求发起程序链中包含的各个资源链接之间的访问路径生成的。
139.具体地，样本网页的请求发起程序链是以树状结构存储的，本领域技术人员熟知，树状结构包含一个根节点以及多层子节点。如果识别设备确定样本网页的任意一个子资源为恶意资源，那么识别设备可以将该子资源的资源链接在树状结构中的节点作为第一顶点，将该子资源的资源链接所在的树状结构的根节点作为第二顶点。这样，识别设备可以将该第一顶点与该第二顶点进行连接，生成子资源与待检测网页之间的关联链路，也就是生成该子资源在该树状结构中的关联链路。
140.例如，待检测网页可以是a，a1、a2、a3、a4、a5是待检测网页a所要请求访问的第一层子资源；a31、a32是a3所要请求访问的第二层子资源；a321、 a322、a323是a32所要请问访问的第三层子资源；a3221、a3222、a3223是 a322所要请问访问的第四层子资源；a32221、a32222是a3222所要请问访问第五层子资源。识别设备确定为第五层子资源a32221是恶意子资源，那么第五层子资源a32221是关联链路的第一顶点，待检测网页a所在树状结构的根节点是a，即第二顶点是a。这样，识别设备可以将a32221与a进行连接，得到关联链路。
141.步骤402，将关联链路上所包含的每一节点对应的资源链接，均标记为恶意子资源的资源链接的关联资源链接。
142.具体地，关联链路上可以包括多个节点。识别设备可以将该关联链路上包含的各节点所对应的资源链接，均标记该恶意子资源的关联链接，该恶意子资源的关联链接所要访问的子资源，均标记为恶意资源。这样，识别设备可以将该子资源以及该子资源的关联资源均标记为恶意资源。
143.例如，识别设备可以将a32221与a进行连接，得到关联链路。关联链路上包含的每一节点包括a、a3、a32、a322、a3222。也就是说，当a32221是恶意资源的资源链接时，那么a32221的关联链路上包含的各节点a、a3、a32、 a322、a3222均会被标记为恶意资源的资源链接。识别设备会将a、a3、a32、 a322、a3222、a32221一并添加至预设的恶意资源数据库。
144.在一个实施例中，如图6所示，网站识别方法还包括：
145.步骤501，显示任务列表界面，任务列表界面包括多条任务记录的标识。
146.具体地，任务列表界面可以是在终端上显示的界面，包含任务池中各任务的标识。任务列表界面上显示的多条任务记录的标识可以是用户手动输入的，或者是系统随机生成
的。
147.步骤502，响应于对任务记录的标识的选中操作，获取任务记录的标识对应待检测网页的链接。
148.具体地，识别设备响应于用户对任意一条任务记录的标识的选中操作，开始执行该任务。也就是，识别设备可以响应于用户对任意任务记录的标识的选中操作，获取该任务记录中包含的网页链接。该任务记录的内容可以是选取任意一个待检测的网页，获取该网页对应的网页链接，并根据该网页链接，获取该网页链接对应的实际加载链以及网页内容。
149.相应地，步骤101“通过加载待检测网页，获得待检测网页的请求发起程序链”的具体执行过程，包括：根据待检测网页的链接，通过预设浏览器加载待检测网页，获得待检测网页的请求发起程序链。
150.具体地，识别设备获取待检测网页的请求发起程序链的过程可以是：识别设备调用预设浏览器，并待检测网页的网页链接输入至该预设浏览器。预设浏览器通过访问该网页链接，实现对待检测网页的加载。在预设浏览器完成对待检测网页的加载后，识别设备可以得到该待检测网页的请求发起程序链。
151.在一个实施例中，如图7所示，网站识别方法还包括：
152.步骤601，根据任务记录的类型，确定预设浏览器的访问环境。
153.具体地，由于恶意网站与恶意网站的识别之间存在对抗性，因此，需要根据任务记录的不同类型，也就是根据待检测网页的不同类型，配置不同的预设浏览器的访问环境。可选地，如果恶意网站在检测到访问的用户设备不是该恶意网站的目标用户时，会伪装为正常网站，此时，识别设备需要将预设浏览器的访问环境配置为符合恶意网站的访问需求的目标访问环境，实现对恶意网站的成功识别。
154.步骤602，基于预设浏览器的访问环境，执行通过预设浏览器加载待检测网页，得到待检测网页的请求发起程序链的步骤。
155.具体地，当识别设备完成对预设浏览器的访问环境的配置后，识别设备可以通过调用该预设浏览器，基于该预设浏览器的访问环境，执行上述方法实施例中的步骤。
156.在一个实施例中，如图8所示，步骤601“根据任务记录的类型，确定预设浏览器的访问环境”的具体处理过程，包括：
157.步骤701，根据预先配置的任务类型与代理配置的对应关系，确定任务记录的类型对应的目标代理配置类型。
158.具体地，该代理配置包括不使用代理类型、使用境内代理类型、使用境外代理类型、使用tor代理类型中的任意一种。当识别设备确定该任务记录的类型后，也就是识别设备确定该待检测网页的类型后，可以根据该任务记录的类型以及预先配置的任务类型与代理配置的对应关系，确定与该待检测网页适配的代理配置的类型，即目标代理配置类型。
159.步骤702，根据预先配置的任务类型与请求头配置的对应关系，确定目标类型对应的目标请求头配置类型。
160.具体地，该请求头配置包括使用默认配置、使用移动终端配置、特殊头配置中的任意一种。当识别设备确定该任务记录的类型后，也就是识别设备确定该待检测网页的类型后，可以根据该任务记录的类型以及预先配置的任务类型与请求头配置的对应关系，确定与该待检测网页适配的请求头配置的类型，即目标请求头配置类型。
161.步骤703，根据目标代理配置类型以及目标请求头配置类型，构建任务记录对应的预设浏览器的访问环境。
162.应该理解的是，虽然图1-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
163.以下可以结合一系统实施例，详细描述上述方法实施例的执行过程。本发明可以提供一种网站识别系统，该网站识别系统可以包括任务调度系统、信息获取系统、存储系统、分析系统以及数据标记系统。其中：
164.该任务调度系统用于调度整体任务。具体地，任务调度系统可以从任务池中获取任务，这样，任务调度系统可以该任务包含的负载信息以及任务信息，输入至信息获取系统。负载信息可以是该任务中包含的网页链接，任务信息可以是对该网页链接进行是否为恶意网站的识别操作的指令信息。
165.该信息获取系统包括加载链获取子系统以及网页内容获取系统。该加载链获取子系统用于获取该网页链接的请求发起程序链，该网页内容获取系统用于获取该网页链接的网页内容或哈希值等。具体地，信息获取系统根据不同的任务类型，为预设浏览器配置不同的浏览器环境(chrome环境)，环境配置包括代理配置以及请求头配置，代理配置又分为不使用代理、使用境内代理、使用境外代理、使用tor代理等，请求头配置又分为使用默认配置、使用移动终端配置、特殊头配置等。例如，当任务调度系统发送一条需要使用移动终端境外代理要求的网络连接时，信息获取系统会为预设浏览器配置移动终端境外代理的访问环境，并加载该网页(进行网页请求并记录相关网页内容)
166.该存储系统用于存储任务调度系统、信息获取系统的日志及网页内容等。具体地，存储系统用于存储每一条任务记录所要请求访问的网页的加载链数据以及实际网页内容。存储系统还可以用于存储预设的恶意资源数据库。
167.该分析系统用于对已下载的加载链、网页内容等做分析比对。分析系统会对已下载的加载链进行预计算，并和已有数据进行分析比对，结果推送数据标记系统。例如，通过浏览器对待检测网页a进行加载，得到的请求发起程序链可以是a-a3-a32-a322-a3222-a32221，假设a32221经过分析比对，被标记为黑，那么a、a3、a32、a322、a3222也均会视为黑。这样，在存储系统中的请求发起程序链的节点为上述任一节点的，也可以标记为黑。
168.该数据标记系统用于标记分析系统流程之后的确认结果数据。数据标记系统，可以展示分析系统所推送的数据，也可在该系统中对相关数据进行标注。
169.在一个实施例中，如图9所示，提供了一种网站识别装置，包括：加载模块801、比对模块802、确定模块803，其中：
170.加载模块801，用于通过加载待检测网页，获得待检测网页的请求发起程序链，请求发起程序链包括树状结构的资源链接，每个资源链接用于表示待检测网页中一个子资源的访问链接；
171.比对模块802，用于将待检测网页的请求发起程序链与预设恶意资源数据库所包
含的恶意子资源的资源链接进行比对，得到比对结果；
172.确定模块803，用于在比对结果满足恶意网址判断条件的情况下，确定待检测网页为恶意网页。
173.在其中一个实施例中，确定模块803，具体用于：如果在待检测网页的请求发起程序链包含的各资源链接中，存在与恶意子资源的资源链接相同的资源链接，则确定待检测网页为恶意网页。
174.在其中一个实施例中，装置还包括：
175.样本网页加载模块，用于通过加载样本网页，得到样本网页的请求发起程序链以及样本网页中包含的多个子资源的资源信息；
176.恶意子资源确定模块，用于根据多个子资源的资源信息，在样本网页包含的多个子资源中，确定恶意子资源；
177.添加模块，用于将恶意子资源的资源链接，以及恶意子资源的资源链接的关联资源链接均标记为恶意资源链接，并将恶意资源链接以及恶意资源链接的资源信息添加至预设恶意资源数据库。
178.在其中一个实施例中，恶意子资源确定模块，包括：
179.第一判断单元，用于
180.响应于对子资源的选中操作，从多个子资源中确定恶意子资源，选中操作是根据多个子资源的资源信息确定的；和/或，
181.第二判断单元，用于通过预设恶意资源判断规则，根据多个子资源的资源信息，从多个子资源中确定恶意子资源；和/或，
182.第三判断单元，用于将多个子资源的资源信息输入至预设恶意资源判断模型，得到预设恶意资源判断模型的输出结果，根据输出结果，从多个子资源中确定恶意子资源。
183.在其中一个实施例中，装置还包括：
184.构建单元，用于以恶意子资源的资源链接对应的节点为第一顶点，以树状结构的请求发起程序链的根节点为第二顶点，根据第二顶点在树状结构中访问第一顶点的访问路径，确定第一顶点与第二顶点之间的关联链路，树状结构的请求发起程序链是根据请求发起程序链中包含的各个资源链接之间的访问路径生成的；
185.标记单元，用于将关联链路上所包含的每一节点对应的资源链接，均标记为恶意子资源的资源链接的关联资源链接。
186.在其中一个实施例中，装置还包括：
187.显示模块，用于显示任务列表界面，任务列表界面包括多条任务记录的标识；
188.响应模块，用于响应于对任务记录的标识的选中操作，获取任务记录的标识对应待检测网页的链接；
189.加载模块具体用于：根据待检测网页的链接，通过预设浏览器加载待检测网页，获得待检测网页的请求发起程序链。
190.在其中一个实施例中，装置还包括：
191.访问环境确定模块，用于根据任务记录的类型，确定预设浏览器的访问环境；
192.访问模块，用于基于预设浏览器的访问环境，执行通过预设浏览器加载待检测网页，得到待检测网页的请求发起程序链的步骤。
193.在其中一个实施例中，访问环境确定模块，包括：
194.第一对应单元，用于根据预先配置的任务类型与代理配置的对应关系，确定任务记录的类型对应的目标代理配置类型；
195.第二对应单元，用于根据预先配置的任务类型与请求头配置的对应关系，确定目标类型对应的目标请求头配置类型；
196.访问环境构建单元，用于根据目标代理配置类型以及目标请求头配置类型，构建任务记录对应的预设浏览器的访问环境。
197.关于网站识别装置的具体限定可以参见上文中对于网站识别方法的限定，在此不再赘述。上述网站识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
198.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储恶意网站的识别的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网站识别方法。
199.本领域技术人员可以理解，图10中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
200.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
201.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
202.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器 (randomaccessmemory，ram)或外部高速缓冲存储器。作为说明而非局限， ram可以是多种形式，比如静态随机存取存储器(staticrandomaccessmemory， sram)或动态随机存取存储器(dynamicrandomaccessmemory，dram)等。
203.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
204.以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在
不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于燃气管网拓扑的燃气调度方法与流程

网站识别方法、装置、计算机设备和存储介质与流程

相关文献

最热文献