一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于决策树的网站数字证书识别方法和系统与流程

2022-06-05 16:02:24 来源:中国专利 TAG:

技术特征:
1.一种基于决策树的网站数字证书识别方法,其特征在于,所述方法包括:1)收集网站数字证书相关源代码,并根据相似度进行分类预处理;2)对预处理后的数字证书源代码进行特征提取处理;3)对特征提取后的数字证书源代码建立对应的正则表达式;4)使用部分分类标注的数字证书源代码及检测结果作为训练样本,使用正则表达式对预处理后的源代码进行特征检测,构建特征检测结果库;5)根据特征检测结果计算特征命中概率,构建准确率较高的几个决策树模型;6)使用大量实验数据测试决策树模型的检测准确率情况,得到准确率最高的决策树;7)统计分析决策树模型检测错误的数字证书的特征情况,优化决策树。2.根据权利要求1所述的一种基于决策树的网站数字证书识别方法,其特征在于,包括:收集大量网站的数字证书相关源代码,根据源代码的格式进行分类预处理,保留干扰性源代码,去除无效源代码;根据预处理后的源代码,使用字符串适量距离(levenshtein distance)提取源代码共性特征。3.根据权利要求1所述的一种基于决策树的网站数字证书识别方法,其特征在于,包括:根据脚本代码的特征提取,设计相关匹配规则,构建相应的正则表达式;使用构建的正则表达式,对所收集的数字证书源代码进行检测,并与网络经营主体登记信息等材料进行比对,构建特征检测结果库。4.根据权利要求1所述的一种基于决策树的网站数字证书识别方法,其特征在于,包括:针对特征检测结果计算单个及组合特征是否存在影响结果的概率,根据影响概率大小构建几个准确率较高的决策树;采集大量网站源代码,通过正则表达式预处理后,使用决策树模型进行检测,并将检测结果与原始检测方法所得结果进行比较,获得准确率情况,从而确认准确率最高的决策树。5.根据权利要求1所述的一种基于决策树的网站数字证书识别方法,其特征在于,包括:所述步骤7中,根据模型测试结果,分析检测错误源代码特征,优化决策树,提高检测准确率。6.一种基于决策树的网站数字证书识别系统,其特征在于,由数据存储模块、源代码爬取模块、源代码预处理模块、决策树预判模块以及结果校验模块五个部分组成:所述数据存储模块,用于存取网站相关信息以及数字证书检测结果;所述源代码爬取模块,用于根据网站网址对页面源代码进行爬取,并将结果传输至源代码预处理模块;所述源代码预处理模块,用于对源代码爬取模块所获得的网页源代码提取数字证书相关源代码,并根据格式进行分类预处理,提取源代码参数特征,并将结果传输至决策树预判模块;所述决策树预判模块,用于根据源代码预处理模块所得结果对网站的数字证书显示情况进行预判,得到检测预判结果;
所述结果校验模块,用于根据源代码预处理模块以及决策树预判模块的结果进行校验,得到网站数字证书显示的准确结果,并将结果传输至数据存储模块。

技术总结
本发明为通过样本及正则表达式积累特征变异概率,构建决策树,从而提高网监部门检测网站数字证书速率的识别方法和系统。网站数字证书的识别方法和系统包括:检测网站状态是否正常,若正常获取网站源代码;将源代码进行预处理,提取有关数字证书的源代码内容;根据数字证书源代码内容提取特征进行分析,构建决策树;通过所得决策树与传统校验方法相结合,构建数字证书识别系统。通过传统方法校验,因网站数量庞大,并发量较大,且对源代码检测过程较为复杂,存在耗时长、CPU占用率高的缺点,故本发明通过正则表达式分析特征变异概率,得到决策树从而构建识别系统,精确了数字证书检验结果范围,大大提高了检测速率,有效降低了CPU占用率。占用率。占用率。


技术研发人员:陈雅红 王志永 郭建辉 林文东
受保护的技术使用者:厦门美亚商鼎信息科技有限公司
技术研发日:2020.11.30
技术公布日:2022/6/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献