一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于URL特征的网站首页识别方法及电子装置与流程

2022-03-19 14:42:03 来源:中国专利 TAG:

技术特征:
1.一种基于url特征的网站首页识别方法,其步骤包括:1)剔除待识别url首部的http://字符或者https://字符,获取包含http://字符或https://字符的临时变量t1;2)按照“/”字符对临时变量t1进行拆分,并进行有效性判断;3)若不能拆分或仅能拆成两部分且第二部分为空,则判断临时变量t1是否包含是二级、三级或四级域名;若仅能拆成两部分、第二部分不为空且第二部分长度小于第一阈值,则判断第二部分是否包含特定字符;4)若临时变量t1包含是二级、三级或四级域名或第二部分包含特定字符,则判断待识别url为首页url。2.如权利要求1所述的方法,其特征在于,判断临时变量t1是否包含是二级、三级或四级域名的方法包括:使用正则表达式方法。3.如权利要求1所述的方法,其特征在于,通过以下步骤得到第一阈值:1)获取n个仅能拆成两部分且第二部分不为空的嵌套url相应样本临时变量t1,并计算第二部分长度总和n1。2)计算第一阈值l1=n1/n。4.如权利要求1所述的方法,其特征在于,通过以下策略判断第二部分是否包含特定字符:1)将第二部分作为临时变量t2;2)判断临时变量t2中是否含有表明url来源的字符;3)判断临时变量t2中是否含有标识首页的字符;4)若临时变量t2的长度小于第二阈值,判断临时变量t2是否含有网页后缀。5.如权利要求4所述的方法,其特征在于,判断临时变量t2中是否含有表明url来源的字符的方法包括:使用正则表达式方法;表明url来源的字符包括:src字符或from字符。6.如权利要求4所述的方法,其特征在于,含有标识首页的字符包括:index字符或homepage字符。7.如权利要求4所述的方法,其特征在于,网页后缀包括:html字符或jsp字符。8.如权利要求4所述的方法,其特征在于,通过以下步骤得到第二阈值:1)获取m个仅能拆成两部分且第二部分不为空的url相应样本临时变量t1,并计算第二部分长度总和n2;2)计算计算第二阈值l2=n2/m。9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。

技术总结
本发明提供一种基于URL特征的网站首页识别方法及电子装置,包括剔除待识别URL首部的http://字符或者https://字符,获取包含http://字符或https://字符的临时变量t1;按照“/”字符对临时变量t1进行拆分,并进行有效性判断;若不能拆分或仅能拆成两部分且第二部分为空,则判断临时变量t1是否包含是二级、三级或四级域名;若仅能拆成两部分、第二部分不为空且第二部分长度小于第一阈值,则判断第二部分是否包含特定字符;若临时变量t1包含是二级、三级或四级域名或第二部分包含特定字符,则判断待识别URL为首页URL。本发明无需训练分类器、人工标注大量数据集及对URL页面内容进行分析,解决了通过语义无法识别嵌套URL的情况,降低了误报率,节省人力与网络资源,提升了识别速度。识别速度。识别速度。


技术研发人员:徐小琳 袁庆升 王佩 朱宇佳 李钊 尹姜谊 李舒 张成伟
受保护的技术使用者:中国科学院信息工程研究所
技术研发日:2020.09.17
技术公布日:2022/3/18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献