一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种诈骗网站的识别方法及系统与流程

2022-04-27 15:53:08 来源:中国专利 TAG:

技术特征:
1.一种诈骗网站的识别方法,其特征在于,包括以下步骤:s1:采集已知诈骗网站的网页数据,利用所述诈骗网站的网页数据构建碰撞数据库;s2:采集官方网站的网页数据,利用所述官方网站的网页数据构建比对数据库;s3:基于入口页面的页面特征,判断待识别网站是否存在入口页面,若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;s4:提取待识别网站的页面图片中的文字特征和图片特征,将所述文字特征和/或图片特征与比对数据库进行比对,当比对成功,则判断待识别网站为诈骗网站。2.根据权利要求1所述的诈骗网站的识别方法,其特征在于,s1具体包括以下步骤:s1.1:获取一批已知的诈骗网站,在终端使用模拟器对诈骗网站进行模拟访问;s1.2:记录诈骗网站的首页相对路径和首页名称;若诈骗网站存在入口页面,则记录入口页面的入口页面名和入口口令;s1.3:获取诈骗网站首页的html源代码,利用正则表达式获取诈骗网站首页的html源代码中图片元素的相对路径和图片名;s1.4:利用诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及html源代码中图片元素的相对路径和图片名构建碰撞数据库。3.根据权利要求2所述的诈骗网站的识别方法,其特征在于,s3中,判断待识别网站是否存在入口页面并利用碰撞数据库的数据下载待识别网站的页面图片的具体步骤如下:若判断待识别网站存在入口页面,记录待识别网站的入口页面名,并在碰撞数据库中搜寻诈骗网站的入口页面名;若碰撞数据库中存在与待识别网站的入口页面名相同的诈骗网站的入口页面名,利用诈骗网站的入口页面名对应的入口口令进入待识别网站首页,并利用碰撞数据库html源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片;若碰撞数据库中不存在与待识别网站的入口页面名相同的诈骗网站的入口页面名或诈骗网站的入口页面名对应的入口口令失效,则利用碰撞数据库中诈骗网站的首页相对路径直接访问待识别网站首页,并利用碰撞数据库中html源代码中图片元素的相对路径和图片名,使用get请求下载待识别网站的页面图片。4.根据权利要求1所述的诈骗网站的识别方法,其特征在于,s3中,所述判断待识别网站是否存在入口页面,包括以下步骤:在终端使用模拟器对待识别网站进行模拟访问,获取待识别网站的html源代码;根据官方网站的html源代码匹配待识别网站含有的输入框个数c
post
、段落数c
div
和隐藏文本数c
dis
,则判断入口页面存在的公式为:c
post
==1and(c
div
≤t1or c
dis
≥t1)其中t1为设定的阈值。5.根据权利要求1所述的诈骗网站的识别方法,其特征在于,s2具体包括以下步骤:s2.1:获取一批已知的官方网站,在终端使用模拟器对官方网站进行模拟访问;s2.2:获取官方网站的html源代码,根据官方网站的html源代码获取官方网站的页面段落,对所述页面段落进行渲染截图,获得官方网站各页面段落的截图;
s2.3:利用正则表达式获取官方网站的html源代码中的图片元素,根据所述图片元素下载官方网站的图片,并对官方网站的图片进行特征提取,获得官方网站的图片特征;s2.4:对官方网站的html源代码中的中文字符进行匹配和提取,对提取到的中文字符进行分词处理,得到相应的单词,并计算每个单词的权重;s2.5:以官方网站的各页面段落的截图、图片特征、单词和单词的权重为数据,构建比对数据库。6.根据权利要求5所述的诈骗网站的识别方法,其特征在于,s4中,提取待识别网站的页面图片的中文字符,并对提取的中文字符进行分词,然后将分词后得到的单词在比对数据库中查询对应的单词权重,根据单词权重判断待识别网站是否为诈骗网站,判断的公式如下所示:σtop5(w
i
)>t2其中,top5(
·
)表示前5个权重值最高的单词,w
i
表示第i个待识别网站的单词权重,t2为可设定的阈值。7.根据权利要求5所述的诈骗网站的识别方法,其特征在于,s4中,提取待识别网站的页面图片的图片特征,将所述图片特征与比对数据库中官方网站的图片特征基于余弦相似度进行检索,若检索出余弦相似度高于预设的余弦相似度阈值的对应图片特征元素,则将待识别网站判断为诈骗网站。8.一种诈骗网站的识别系统,其特征在于,包括:数据采集模块,用于采集已知诈骗网站的网页数据和官方网站的网页数据;建碰撞数据库,用于存储诈骗网站的网页数据;比对数据库,用于存储官方网站的网页数据;入口页面检测模块,用于判断待识别网站是否存在入口页面;页面图片下载模块,用于下载待识别网站的页面图片;若待识别网站存在入口页面,利用碰撞数据库中的数据登入待识别网站,并利用碰撞数据库的数据下载待识别网站的页面图片;若待识别网站不存在入口页面,则直接进入待识别网站,下载待识别网站的页面图片;特征提取模块,用于提取待识别网站的页面图片中的文字特征和图片特征;识别模块,用于将待识别网站的页面图片中的文字特征和图片特征分别与比对数据库进行比对,判断待识别网站是否为诈骗网站。9.根据权利要求8所述的诈骗网站的识别系统,其特征在于,所述诈骗网站的网页数据包括诈骗网站的首页相对路径、首页名称、入口页面名和入口口令,以及html源代码中图片元素的相对路径和图片名。10.根据权利要求8所述的诈骗网站的识别系统,其特征在于,所述官方网站的网页数据包括官方网站的各页面段落的截图、图片特征、单词和单词的权重。

技术总结
本发明提出一种诈骗网站的识别方法及系统,包括:采集诈骗网站和官方网站的网页数据,构建碰撞数据库和比对数据库;判断待识别网站是否存在入口页面,若存在入口页面则利用碰撞数据库的数据下载待识别网站的页面图片;提取待识别网站的页面图片中的文字和图片特征,将所述文字和图片特征与比对数据库进行比对,分别判断待识别网站是否为诈骗网站;本发明考虑到诈骗网站利用入口页面来规避一般的诈骗网站检测的特点,对待识别网站进行入口页面判断,且构建了碰撞数据库,绕过待识别网站的入口页面并获取待识别网站的页面图片,利用待识别网站的页面图片,与基于官网网站的网页数据构建的比对数据进行比对,提升了诈骗网站的识别效果。别效果。别效果。


技术研发人员:周小敏 应鸿晖 叶宇中 李高翔 石易 林佳涛 黄福鸿 卓采标 史燕飞 陈金林 陈德兴 吴雁琛 曾茂晰
受保护的技术使用者:国家计算机网络与信息安全管理中心广东分中心
技术研发日:2022.01.18
技术公布日:2022/4/26
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献