一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于决策树的网站数字证书识别方法和系统与流程

2022-06-05 16:02:24 来源:中国专利 TAG:


1.本发明涉及网站源代码分析处理技术领域、根据正则表达式提取特征从而建立决策树模型的处理方法。


背景技术:

2.随着互联网技术的快速发展,人们以网络为平台构建了一个繁荣的互联网社会。在这个特殊的社会里,数字证书是无纸化的电子牌照,根据有关登记注册法律、法规,由依法成立的具有认证资格的第三方机构,制作的载有企业注册登记信息的数字证书。
3.网站数字证书的出现使互联网变得更加安全与可信,但随之而来,为督促网络经营者落实《电子商务法》和《网络交易管理办法》的相关规定,加强网络交易监管,提高电子商务信用水平,有关部门需对数字证书的显示情况进行检测。
4.数量庞大的网站,以及样式繁多的数字证书格式,使有关部门对其的检测愈加困难。故而本专利提供一种基于决策树的网站数字证书识别方法和系统,通过决策树模型精确数字证书校验结果范围,优化检测步骤,为有关部门对网络经营主体数字证书显示情况的检测提供便利。


技术实现要素:

5.本发明的目的在于提供一种基于决策树的网站数字证书识别方法和系统,优化传统的数字证书检测流程,为有关部门对网络经营主体数字证书显示情况的检测提供便利,提高监管效率。
6.本发明公开了一种基于决策树的网站数字证书识别方法,包括
7.1、收集网站数字证书相关源代码,并根据相似度进行分类预处理;
8.2、对预处理后的数字证书源代码进行特征提取处理;
9.3、对特征提取后的数字证书源代码建立对应的正则表达式;
10.4、使用部分分类标注的数字证书源代码及检测结果作为训练样本,使用正则表达式对预处理后的源代码进行特征检测,构建特征检测结果库;
11.5、根据特征检测结果计算特征命中概率,构建准确率较高的几个决策树模型;
12.6、使用大量实验数据测试决策树模型的检测准确率情况,得到准确率最高的决策树;
13.7、统计分析决策树模型检测错误的数字证书的特征情况,优化决策树;
14.优先地,步骤1所述的对数字证书相关源代码进行相似度预处理,其特征在于根据源代码格式进行分类预处理,包括源代码类型是哪种类型的数字证书、源代码为js脚本生成数字证书亦或是通过a标签自行添加证书等。
15.优先地,步骤2所述对预处理后的源代码进行提取特征处理,包括源代码所包含的域名、参数等信息,构建源代码特征库。
16.优先地,步骤3所述的对特征处理后的数字证书源代码建立对应的正则库,即为根
据步骤2所构建特征及源代码,建立对应的正则表达式,通过该正则表达式可检测某源代码是否存在某项特征。
17.优先地,步骤4所述的构建特征检测数据库,使用正则表达式对所收集网站源代码进行检测,记录网站域名、所存在的特征以及通过传统检测流程所检测的数字证书结果,构建特征检测结果库。
18.优先地,步骤5所述的决策树构建方法,即通过步骤4所得的特征检测结果,计算出单个或组合特征是否存在对结果的影响概率,对特征影响优先级进行排序,模拟构建出较准确的几个决策树模型。
19.优先地,步骤6所述的使用大量实验数据测试决策树模型检测结果,并与传统流程检测结果进行对比,获取决策树检测准确率及误差情况,得到准确率最高的决策树。
20.优先地,步骤7所述的分析步骤6所检测误差结果的特征情况,根据结果对步骤5所构建模型进行优化,或数据过滤处理。
21.本发明还公开了一种基于决策树的网站数字证书识别系统,由数据存储模块、源代码爬取模块、源代码预处理模块、决策树预判模块以及结果校验模块五个部分组成。
22.所述数据存储子模块,用于存取网站相关信息以及数字证书检测结果;
23.所述源代码爬取模块,用于根据网站网址对页面源代码进行爬取,并将结果传输至源代码预处理模块;
24.所述源代码预处理模块,用于对源代码爬取模块所获得的网页源代码提取数字证书相关源代码,并根据格式进行分类预处理,提取源代码参数特征,并将结果传输至决策树预判模块;
25.所述决策树预判模块,用于根据源代码预处理模块所得结果对网站的数字证书显示情况进行预判,得到检测预判结果;
26.所述结果校验模块,用于根据源代码预处理模块以及决策树预判模块的结果进行校验,得到网站数字证书显示的准确结果,并将结果传输至数据存储模块。
27.本发明将决策树模型与传统校验方法相结合,可预判网站数字证书显示情况结果,缩减识别步骤,提高检测效率。
附图说明
28.图1是本发明一种基于决策树的网站数字证书识别方法的流程图;
29.图2是本发明分类处理网站数字证书相关代码的流程图。
30.图3是根据单个或多个特征进行结果检测统计的过程。
31.图4是本发明一种基于决策树的网站数字证书识别系统的结构示意图。
32.图5是本发明根据信息增益举例构建决策树一。
33.图6是本发明根据信息增益举例构建决策树二。
具体实施方式
34.为了更好地说明本发明的上述目的、特征和优点,能够更加简单易懂,下面结合附图和具体实施方式对本发明作进一步的说明。
35.实施实例
36.本发明的一个实施例公开了一种基于决策树的网站数字证书识别方法,主要包括如下步骤(以下均以网站电子标识及营业执照为例):
37.参照附图1,是本发明针对基于决策树的网站数字证书识别方法和系统的构建,总体流程图可以包括以下步骤:
38.步骤1:收集网站数字证书相关源代码,并根据相似度进行分类处理;该步骤步骤1中,根据某省网络商品交易监管中所监管的网站地址,爬取网站源代码,提取出亮标亮照相关源代码,并使用字符串适量距离(levenshtein distance)计算相似度进行分类处理,根据现有电子标识及营业执照发放情况以及企业亮标亮照情况,大体可以分为以下几类:
39.1)a标签形式电子营业执照,其中showtype为亮照使用电子执照类型,serial为电子营业执照编号-备案号,signdata为电子营业执照对备案信息签名形成的签名值
40.例如,某电商网站的电子营业执照贴标源码为:
41.《a target="_blank"http://域名
42./businesscheck/verifkey.do?showtype=p&serial=3201009132010056286146a50a42001001-saic_show_32000020151207140312284&signdata=meqcid9pngvdjvwkl18lwwkd2inz/2cb2k4crell9oznzxmoaibbunkkz3adohghuh4gcds4lei0pgsnwea lqs0qtcdaw=="》
43.xxxxxx(中间源代码为图标样式等)
44.《/a》
45.2)a标签形式电子标识,其中,siteid为电子标识编号
46.例如,某企业网站的电子标识贴标源码为:
47.《a href="http://域名
48./mbm/entweb/elec/certview.shtml?siteid=c6c3b59937244daab699e08ac8787f63"target="_blank"》
49.xxxxxx(中间源代码为图标样式等)
50.《/a》
51.3)js形式电子标识,其中,siteid为电子标识编号,该js可生成电子标识相关代码
52.例如,某商务公司官方网站的电子标识贴标源码为:
53.《script id="jsgovicon"src="http://域名
54./mbm/app/main/electronic/js/govicon.js?siteid=3ffedfdda8c7434ebeb1e6baca1a0706&width=32&height=45&type=1"type="text/javascript"charset="utf-8"》《/script》
55.步骤2:对预处理后的数字证书源代码进行特征提取处理;该步骤是在步骤1的基础上进行的进一步数据预处理工作,可根据字符串适量距离(levenshtein distance)获取特征。
56.根据步骤1可收集到以下特征(选取部分):
57.序号特征特征说明1url发放电子标识或电子营业执照的网站域名2showtype亮照使用电子执照类型3serial电子营业执照编号-备案号
4signdata电子营业执照对备案信息签名形成的签名值5siteid电子标识编号6businesscheck/verifkeya标签类型电子营业执照存在的较为固定编码7mbm/entweb/elec/certviewa标签类型电子标识存在的较为固定编码8jsgoviconjs形式电子标识存在的较为固定编码
58.表1
59.步骤3:对特征提取后的数字证书源代码建立对应的正则表达式;即根据特征建立正则表达式,通过该表达式可判断某网站源代码是否存在某特征,例如:
60.1)根据步骤2的特征businesscheck/verifkey.do可构建正则表达式(java格式):
61.《a\\s (?:[^》] ?\\s*)?businesscheck/verifkey\\.do\\?[\\w\\d] [^》] ?》
[0062]
2)根据步骤2的特征mbm/entweb/elec/certview.shtml可构建正则表达式(java格式):
[0063]
《a\\s (?:[^》] ?\\s*)?mbm/entweb/elec/certview\\.shtml\\?[\\w\\d] [^》] ?》
[0064]
3)根据步骤2的特征jsgovicon可构建正则表达式(java格式):
[0065]
《script\\s (?:[^》] ?\\s*)?id\\s*=\\s*['\"]?\\s*jsgovicon\\s*['\"]?[^》] ?》
[0066]
步骤4:使用部分分类标注的数字证书源代码及检测结果作为训练样本,使用正则表达式对预处理后的源代码进行特征检测,构建特征检测结果库。该步骤即使用步骤3所构建正则表达式,对网站源代码进行检验,整理出如下数据(展示部分实验数据及部分特征,处于安全保护原则,网址均以代号展示):
[0067][0068]
表2
[0069]
备注:
[0070]
以上实验数据,0:不存在;1:存在
[0071]
以上校验结果,a:未申请;b:未贴标;c:正确亮标/照;d:错误亮标/照;e盗用亮标/照
[0072]
步骤5:根据特征检测结果计算特征命中概率,构建准确率较高的几个决策树模型。
[0073]
首先,根据步骤4所得结果,将某单个或多个特征是否存在对校验结果的影响统计,如下图所示(仅展示部分实验数据):
[0074]
特征showtypea概率b概率c概率d概率e概率10.02642350.02948350.54659780.32165370.0758415
00.21284690.23957860.29678250.16489860.0858934
[0075]
表3
[0076]
特征siteida概率b概率c概率d概率e概率1000.45698720.35624680.18676600.18495670.20648950.26482750.18435620.1593701
[0077]
表4
[0078][0079]
表5
[0080]
备注:
[0081]
以上实验数据,0:不存在;1:存在
[0082]
以上校验结果,a:未申请;b:未贴标;c:正确亮标/照;d:错误亮标/照;e盗用亮标/照
[0083]
分析上述例子可发现,根据表3特征检测结果概率可以发现,showtype存在虽然正确亮标概率较大,但当其不存在时产生a、b、c的结果概率接近,故而showtype是否存在对结果准确率影响较小。根据表4特征检测结果概率可以发现,当siteid存在时,a和b的概率均为0,但siteid不存在时,检测结果的不确定性较大。根据表5特征检测结果概率可以发现,当signdata和jsgovicon任意一个存在时,a和b的概率均为0,但其对c、d、e的影响反而较小。
[0084]
综合分析上诉所举例几个特征,根据信息增益可构建如附图5、附图6所示决策树(举例)。图中所示实验数据,0:不存在;1:存在;所示校验结果,a:未申请;b:未贴标;c:正确亮标/照;d:错误亮标/照;e盗用亮标/照。
[0085]
步骤6:使用大量实验数据测试决策树模型的检测准确率情况,得到准确率最高的决策树;由于部分特征信息增益率接近,故而步骤5构建出了几个较优决策树。为了得到最优决策树,故取大量实验数据根据决策树顺序,使用正则表达式一一检测,得到最优决策树。
[0086]
步骤7:统计分析决策树模型检测错误的数字证书的特征情况,优化处理结果;根据步骤6所得结果,可以发现未申请与未贴标的情况较难区分,故而从数据库获取电子标识id作为新增加特征,加入步骤6所构决策树模型,提高准确率。
[0087]
步骤8:通过步骤7所得决策树模型,与传统识别方法相结合。若采用传统步骤进行检测,需根据不同情况一一进行校验,而通过步骤7得出的决策树,可精确网站数字证书显示情况,直接根据决策树所得结果进行校验,省去了其他情况的校验步骤,大大提高了效率。
[0088]
本发明的一个实施例还公开了一种基于决策树的网站数字证书识别系统,如附图4所示,包含以下步骤(本实施例以某电商网站为例):
[0089]
步骤1:从数据存储模块获取网址https://www.suning.com。
[0090]
步骤2:根据数据存储模块获取的网址,如下所示;对页面源代码进行爬取,并将结果传输至源代码预处理模块。
[0091]
《!doctype html》
[0092]
《html lang="zh-cn"》
[0093]
《head》
[0094]
《meta charset="utf-8"》
[0095]
《link rel="shortcut icon"href="//www.suning.com/favicon.ico"type="image/x-icon"》
[0096]
《meta http-equiv="content-type"content="text/html;charset=utf-8"/》
[0097]
《meta name="keywords"content="xxxx网上商城,苏宁电器,suning,手机,电脑,冰箱,洗衣机,相机,数码,家居用品,鞋帽,化妆品,母婴用品,图书,食品,正品行货"/》
[0098]
《meta name="description"content="xxxx-综合网上购物平台,商品涵盖家电、手机、电脑、超市、母婴、服装、百货、海外购等品类。送货更准时、价格更超值、上新货更快,正品行货、全国联保、可门店自提,全网更低价,让您放心去喜欢!"/》
[0099]
《title》xxxx(suning.com)-送货更准时、价格更超值、上新货更快《/title》
[0100]
《meta name="apple-itunes-app"content="app-id=537508092"》
[0101]
《meta http-equiv="x-ua-compatible"content="ie=edge"》
[0102]
《link rel="canonical"href="http://www.suning.com"/》
[0103]
《meta property="wb:webmaster"content="3addc532fa0c656e"/》
[0104]
《meta property="qc:admins"content="165746643563561676375"/》
[0105]
《meta name="mobile-agent"content="format=html5;url=http://m.suning.com"》
[0106]
《meta name="viewport"content="width=device-width,initial-scale=1.0"/》
[0107]
《meta name="baidu-site-verification"content="x0hfzwvu6x"/》
[0108]
《meta content="true"name="autoclick"》
[0109]
《meta content="d488778a"name="siteid"》
[0110]
《meta content="homepage1"name="pageid"》
[0111]
《script type="text/javascript"》
[0112]
步骤3:源代码预处理模块对步骤2所获得的网页源代码提取数字证书相关源代码,如下所示。
[0113]
《a
[0114]
href="https://zzlz.gsxt.gov.cn/businesscheck/verifkey.do?showtype=p&serial=913200005668848108-saic_show_1000009132000056688481081572311357911&signdata=meqcii 7ogallh6hxtoama3vfhexstqw4fbcarci7nexqas0aia8cqvkbvtdxtb/yihmrno9fwipru161ih5hhb5blbi2g=="target="_blank"rel="nofollow"name="public0_none_wb_zs0305"》
[0115]
《img src="//res.suning.cn/public/v3/images/dianzizhizhao.png?v=01"
height="24"width="24"alt="电子营业执照"》
[0116]
根据源代码格式进行分类预处理,提取源代码参数特征,例如:showtype、serial等,并传输至决策树预判模块。
[0117]
步骤4:根据步骤3所得结果,通过决策树进行预判,概率较大的结果为“正确亮照”。将决策树预判结果以及步骤3获得的数字证书相关源代码传输至结果校验模块,优先校验“正确亮照”检测步骤,可得知改网站数字证书显示结果符合“正确亮照”相关标准,故而无需再检测其他结论所需流程。
[0118]
本系统将决策树模型与传统校验方法相结合,可预判网站数字证书显示情况结果,缩减识别步骤,提高检测效率。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献