一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种诈骗网站的识别方法及系统与流程

2022-04-27 15:53:08 来源:中国专利 TAG:


1.本发明涉及网络安全技术领域,更具体地,涉及一种诈骗网站的识别方法及系统。


背景技术:

2.随着信息技术的发展和电子设备的轻量化,人们利用终端设备如电脑、手机等完成资产交易的频率越来越高。与此同时,以电信网络诈骗为代表的新型网络犯罪案件急剧增加,其中冒充公检法诈骗尤为典型。诈骗分子通过电话等手段和受害人取得联系,部分诈骗分子会要求受害人配合调查,引导受害人在仿冒网站、app内填写个人支付信息,实施诈骗。仿冒公检法机构的诈骗犯罪相比其他类型诈骗(如贷款诈骗、刷单诈骗等),其过程更隐秘、涉案数额更大且迷惑性更强。因此公检法诈骗网站的识别已成为预防诈骗犯罪中的其中一个重要问题。现有许多网站识别方法是通过网页截图和网页元素提取的手段,辅以机器学习算法来进行识别。
3.现有一种识别钓鱼网站的方法,其提出对网页进行抓取,以生成网页抓取结果;对所述网页抓取结果进行网页渲染,以形成待识别网页;依据真实网站网页对所述待识别网页进行图像匹配,并根据图像匹配结果识别钓鱼网站。上述方法主要通过对抓取的待识别网页与真实网站网页进行图像匹配,并根据图像匹配结果识别钓鱼网站。然而,如今的诈骗分子通过新增入口页面的方法,在诈骗网站首页显示较少的真实官方网站的内容,使得图像匹配的精确度低,最后的识别结果容易出现错误。


技术实现要素:

4.本发明为提高诈骗网站的识别效果,提供一种诈骗网站的识别方法及系统。
5.为解决上述技术问题,本发明的技术方案如下:
6.第一个方面,本发明提出一种诈骗网站的识别方法,包括以下步骤:
7.s1:采集已知诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库;
8.s2:采集官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库;
9.s3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;
10.s4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和/或图片特征与比对数据库进行比对,当比对成功,则判断待识别网站为诈骗网站。
11.优选地,s1具体包括以下步骤:
12.s1.1:获取一批已知的诈骗网站,在终端使用模拟器对诈骗网站进行模拟访问;
13.s1.2:记录诈骗网站的首页相对路径和首页名称;若诈骗网站存在入口页面,则记录入口页面的入口页面名和入口口令;
14.s1.3:获取诈骗网站首页的html源代码,利用正则表达式获取诈骗网站首页的html源代码中图片元素的相对路径和图片名;
15.s1.4:利用诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及html源代码中图片元素的相对路径和图片名构建碰撞数据库。
16.优选地,s3中,判断待识别网站是否存在入口页面并利用碰撞数据库的数据下载待识别网站的页面图片的具体步骤如下:
17.若判断待识别网站存在入口页面,记录待识别网站的入口页面名,并在碰撞数据库中搜寻诈骗网站的入口页面名;
18.若碰撞数据库中存在与待识别网站的入口页面名相同的诈骗网站的入口页面名,利用诈骗网站的入口页面名对应的入口口令进入待识别网站首页,并利用碰撞数据库html源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片;
19.若碰撞数据库中不存在与待识别网站的入口页面名相同的诈骗网站的入口页面名或诈骗网站的入口页面名对应的入口口令失效,则利用碰撞数据库中诈骗网站的首页相对路径直接访问待识别网站首页,并利用碰撞数据库中html源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片。
20.优选地,s3中,所述判断待识别网站是否存在入口页面,包括以下步骤:
21.在终端使用模拟器对待识别网站进行模拟访问,获取待识别网站的html源代码;
22.根据官方网站的html源代码匹配待识别网站含有的输入框个数c
post
、段落数c
div
和隐藏文本数c
dis
,则判断入口页面存在的公式为:
23.c
post
==1and(c
div
≤t1or c
dis
≥t1)
24.其中t1为设定的阈值。
25.优选地,s2具体包括以下步骤:
26.s2.1:获取一批已知的官方网站,在终端使用模拟器对官方网站进行模拟访问;
27.s2.2:获取官方网站的html源代码,根据官方网站的html源代码获取官方网站的页面段落,对所述页面段落进行渲染截图,获得官方网站各页面段落的截图;
28.s2.3:利用正则表达式获取官方网站的html源代码中的图片元素,根据所述图片元素下载官方网站的图片,并对官方网站的图片进行特征提取,获得官方网站的图片特征;
29.s2.4:对官方网站的html源代码中的中文字符进行匹配和提取,对提取到的中文字符进行分词处理,得到相应的单词,并计算每个单词的权重;
30.s2.5:以官方网站的各页面段落的截图、图片特征、单词和单词的权重为数据,构建比对数据库。
31.优选地,s4中,提取待识别网站的页面图片的中文字符,并对提取的中文字符进行分词,然后将分词后得到的单词在比对数据库中查询对应的单词权重,根据单词权重判断待识别网站是否为诈骗网站,判断的公式如下所示:
32.∑top5(wi)》t233.其中,top5(
·
)表示前5个权重值最高的单词,wi表示第i个待识别网站的单词权重,t2为可设定的阈值。
34.优选地,s4中,提取待识别网站的页面图片的图片特征,将所述图片特征与比对数据库中官方网站的图片特征基于余弦相似度进行检索,若检索出余弦相似度高于预设的余
弦相似度阈值的对应图片特征元素,则将待识别网站判断为诈骗网站。
35.第二个方面,本发明提出一种诈骗网站的识别系统,包括:
36.数据采集模块,用于采集已知诈骗网站的网页数据和官方网站的网页数据;
37.建碰撞数据库,用于存储诈骗网站的网页数据;
38.比对数据库,用于存储官方网站的网页数据;
39.入口页面检测模块,用于判断待识别网站是否存在入口页面;
40.页面图片下载模块,用于下载待识别网站的页面图片;若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;
41.特征提取模块,用于提取待识别网站的页面图片中的文字特征和图片特征;
42.识别模块,用于将待识别网站的页面图片中的文字特征和图片特征分别与比对数据库进行比对,判断待识别网站是否为诈骗网站。
43.优选地,所述诈骗网站的网页数据包括诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及html源代码中图片元素的相对路径和图片名。
44.优选地,所述官方网站的网页数据包括官方网站的各页面段落的截图、图片特征、单词和单词的权重。
45.与现有技术相比,本发明技术方案的有益效果是:本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,基于入口页面的页面特征和实现方案,对待识别网站进行入口页面判断,且构建了碰撞数据库;若待识别网站存在入口页面,则使用碰撞数据库的数据绕过待识别网站的入口页面,登入待识别网站,利用碰撞数据库中的数据获取待识别网站的页面图片,并利用待识别网站的页面图片的图片特征和文字特征,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
附图说明
46.图1诈骗网站的识别方法的流程图。
47.图2为实施例2中识别公检法诈骗网站的流程图。
48.图3为某典型诈骗网站的html源代码。
49.图4为某典型诈骗网站的入口页面。
50.图5为本发明与基于双端比较和中文编码筛选的识别方法的入口页面检测准确率比较图。
51.图6为最高人民检察院的官方网站和最高人民检察院的诈骗网站的对比图。
52.图7为本发明与基于文字识别和基于图片识别的诈骗网站识别的准确率的对比图。
53.图8为诈骗网站的识别系统的架构图。
具体实施方式
54.附图仅用于示例性说明,不能理解为对本专利的限制;
55.下面结合附图和实施例对本发明的技术方案做进一步的说明。
56.实施例1
57.请参阅图1,本实施例提出一种诈骗网站的识别方法,包括以下步骤:
58.s1:采集已知诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库;
59.s2:采集官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库;
60.s3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;
61.s4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和/或图片特征与比对数据库进行比对,当比对成功,则判断待识别网站为诈骗网站。
62.本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,基于入口页面的页面特征和实现方案,对待识别网站进行入口页面判断,且构建了碰撞数据库;若待识别网站存在入口页面,则使用碰撞数据库的数据绕过待识别网站的入口页面,登入待识别网站,利用碰撞数据库中的数据获取待识别网站的页面图片,并利用待识别网站的页面图片的图片特征和文字特征,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。
63.实施例2
64.本实施例以公检法诈骗网站为例,提出一种诈骗网站的识别方法,如图2所示,图2为识别公检法诈骗网站的方法流程图,包括以下步骤:
65.s1:采集已知的公检法诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库。具体包括以下步骤:
66.s1.1:获取一批已知的公检法诈骗网站,利用android studio平台在电脑终端安装手机模拟器,利用手机模拟器对已知的公检法诈骗网站进行手机端模拟访问;
67.s1.2:记录公检法诈骗网站的首页相对路径和首页名称;若公检法诈骗网站存在入口页面,则记录入口页面的入口页面名和入口口令;
68.s1.3:利用正则表达式获取公检法诈骗网站首页的html源代码中图片元素的相对路径和图片名;其中正则表达式的结构为:
69.\./\s \.((jpg)|(jpeg)|(bmp)|(png))
70.s1.4:利用公检法诈骗网站的首页相对路径和首页名称,以及html源代码中图片元素的相对路径和图片名构建碰撞数据库。
71.s2:采集国家、各省和各市的公安局、检察院和法院机构等公检法的官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库。具体包括以下步骤:
72.s2.1:获取一批公检法官方网站,在电脑终端利用手机模拟器对公检法官方网站进行手机端模拟访问;
73.s2.2:获取公检法官方网站的html源代码,利用html标签“《div》”获取公检法官方网站的页面段落,对所述页面段落进行渲染截图,获得公检法官方网站各页面段落的截图;
74.s2.3:利用正则表达式获取公检法官方网站的html源代码中的图片元素,并下载官方网站的图片,并利用surf算法对官方网站的图片进行特征提取,获得官方网站的图片
特征;其中获取公检法官方网站的html源代码中的图片元素的正则表达式的结构为:
75.\./\ \.((jpg)|(jpeg)|(bmp)|(png))
76.s2.4:利用utf-8编码,对公检法官方网站的html源代码中的中文字符进行匹配和提取;其中,匹配utf-8编码中文字符范围为:
77.\u4e00≤char≤\u9fff
78.利用thulac工具包对提取到的中文字符进行分词处理,得到相应的单词,并计算每个单词的权重;令搜索得到的公检法官方网站数量为c,并记分词后某单词i在所有公检法官方网站首页出现的次数为ci,则单词i的权重记为:
79.wi=ci/c
80.s2.5:以公检法官方网站的各页面段落的截图、图片特征、单词和单词的权重为数据,构建比对数据库。
81.s3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片。公检法诈骗网站多是通过镜像等方式进行多地重复部署。同一类别的诈骗网站,其相关入口名、图片相对路径和图片名等通用可能性大。因此利用碰撞数据库中记录的相对路径及图片名可以直接下载待识别网站的页面图片。
82.本实施例中,所述判断待识别网站是否存在入口页面,包括以下步骤:
83.在电脑终端利用手机模拟器对待识别网站进行手机端模拟访问,获取待识别网站的html源代码;如图3所示,图3为某典型诈骗网站的html源代码。
84.根据官方网站的html源代码,利用html标签“《form method="post"》”匹配待识别网站含有的输入框个数c
post
,利用“《div》”标签匹配段落数c
div
,利用“display:none”匹配隐藏文本数c
dis
,则判断入口页面存在的公式为:
85.c
post
==1and(c
div
≤t1or c
dis
≥t1)
86.其中t1为设定的阈值,即当匹配待识别网站含有1个输入框个数并且段落数小于等于t1或隐藏文本数大于等于t1时,判断待识别网站存在入口页面。如图4和图5所示,图4为某典型诈骗网站的入口页面,图5为本发明与基于双端比较和中文编码筛选的识别方法的入口页面检测准确率比较图,从图5可以看出,相对于基于双端比较和中文编码筛选的识别方法,本发明在入口页面的检测上有较高的检测率。
87.若判断待识别网站存在入口页面,记录入口页面名,并在碰撞数据库中搜寻相关入口名;
88.若碰撞数据库中存在与入口页面名相同的同一类别相关入口名,利用所述相关入口名对应的入口口令进入待识别网站首页,并利用碰撞数据库html源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片;
89.若碰撞数据库中不存在与入口页面名相同的相关入口名或相关入口名对应的入口口令失效,则利用碰撞数据库中诈骗网站的首页相对路径直接访问待识别网站首页,并利用碰撞数据库中html源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片。
90.本实施例对10个公检法诈骗网站的入口页面进行碰撞,碰撞结果如表1所示。
91.表1诈骗网站碰撞结果
[0092][0093]
如表1所示,表1为诈骗网站碰撞结果,从表中可以看出,80%的入口页面可通过入口口令登入,30%的诈骗网站可以通过相对路径下载部分图片,70%诈骗网站可以通过相对路径下载少量图片。
[0094]
s4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站。包括以下步骤:
[0095]
提取待识别网站的页面图片的中文字符,并对提取的中文字符进行分词,然后将分词后得到的单词在比对数据库中查询对应的单词权重,根据单词权重判断待识别网站是否为诈骗网站,判断的公式如下所示:
[0096]
∑top5(wi)》t2,i
[0097]
其中,top5(
·
)表示前5个权重值最高的单词,wi表示第个待识别网站的单词权重,t2为可设定的阈值。当前5个权重值最高的单词的权重和大于t2时,判断待识别网站为诈骗网站。
[0098]
提取待识别网站的页面图片的图片特征,将所述图片特征与比对数据库中官方网站的图片特征基于余弦相似度进行检索,若检索出余弦相似度高于0.9的对应图片特征元素,则将待识别网站判断为诈骗网站。
[0099]
公检法诈骗网站与一般网站不同,为了对抗检测,其大多通过浏览设备限制、新增入口网页和插入官方网站截图等手段规避网页元素和内容直接识别。
[0100]
本实施例考虑到公检法诈骗网站利用入口页面来规避一般的公检法诈骗网站检测的特点,基于入口页面的页面特征和实现方案,对待识别网站进行入口页面判断,且构建了碰撞数据库,使用碰撞数据库绕过待识别网站的入口页面并获取待识别网站的页面图
片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了公检法诈骗网站的识别效果。如图6(a)和图6(b)所示,图6(a)为最高人民检察院的官方网站,图6(b)为最高人民检察院的诈骗网站,本实施例考虑到公检法诈骗网站常利用公检法官方网站的段落渲染截图以达到逼真的仿冒效果,提出对官方网站的中文字符进行统计,并对官方网站段落截图进行特征提取,构建了比对数据库,如图7所示,图7为本发明与基于文字识别和基于图片识别的诈骗网站识别的准确率的对比图,从图7可以看出,本发明同时考虑图片识别和文字识别对诈骗网站进行识别,获得了更高的识别准确率。这种方案无需收集大量用于训练机器学习模型的正负样本,可以保障对各类新型的仿冒公检法网站的识别精度。
[0101]
实施例3
[0102]
请参阅图8,本实施例提出一种诈骗网站的识别系统,包括:数据采集模块、碰撞数据库、比对数据库、入口页面检测模块、页面图片下载模块、特征提取模块和识别模块。
[0103]
在具体实施过程中,数据采集模块采集已知的诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及html源代码中图片元素的相对路径和图片名,存储在碰撞数据库中;采集官方网站的各页面段落的截图、图片特征、单词和单词的权重,利用各页面段落的截图、图片特征、单词和单词的权重存储在比对数据库。
[0104]
入口页面检测模块基于入口页面的页面特征,判断待识别网站是否存在入口页面,并将判断结果输出到页面图片下载模块。
[0105]
页面图片下载模块,根据入口页面检测模块的判断结果,下载待识别网站的页面图片;若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片。
[0106]
特征提取模块提取待识别网站的页面图片的中文字符,并对提取的中文字符进行分词,得到单词,且特征提取模块提取待识别网站的页面图片的图片特征,并将所述图片特征和单词输出给识别模块。
[0107]
识别模块分别根据单词和图片特征对待识别网站进行识别,具体为:
[0108]
将分词后得到的单词在比对数据库中查询对应的单词权重,根据单词权重判断待识别网站是否为诈骗网站。
[0109]
将所述图片特征与比对数据库中官方网站的图片特征基于余弦相似度进行检索,若检索出余弦相似度高于预设的余弦相似度阈值的对应图片特征元素,则将待识别网站判断为诈骗网站。
[0110]
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
[0111]
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献