一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于URL特征的网站首页识别方法及电子装置与流程

2022-03-19 14:42:03 来源:中国专利 TAG:

一种基于url特征的网站首页识别方法及电子装置
技术领域
1.本发明涉及网络通信技术领域,具体而言,涉及一种基于url特征的网站首页识别方法及电子装置。


背景技术:

2.随着web技术、云计算等技术的不断发展,web首页的呈现方式也在不断的变化。许多研究人员出于识别速变服务、识别恶意网站、发现同源ip、进行网页信息采集、研究网页布局等目的,基于网站首页的特定标签和内容进行研究。例如,专利cn103812673a通过计算网站首页的相似度,以及内容抽样统计,筛选镜像网站和准镜像网站,避免采集雷同内容,节约网络资源和本地资源,提高服务的质量和效率。
3.鉴于网站首页的url没有固定的命名方式,并且人工识别耗时耗力,这给基于网站首页的研究工作造成了瓶颈。因此,急需自动识别网站首页的方法,大幅提升识别速度。
4.现有的网站识别工作主要分为两类,一类是基于url字符串拆分并使用机器学习的方法进行训练,例如专利cn110855635a提出一种基于url识别恶意网站的方法,即通过分类模型识别从url中拆分出来的字符组合;如专利cn101692639a通过url主域名的语义,以及整个url的结构,判断是否为色情站点。第二类是访问url,根据网页内容进行分析研究,例如专利cn102332028a通过提取网站的页面视觉结构、tml标签信息、链接信息以及正文信息等判断是否为不良网站;如专利cn111428180a,对网页进行二进制词向量进行提取,基于语义局部敏感散列表示进行网页内容,识别相似网页。
5.上述的基于url识别的方法,在首页识别中存在如下问题:
6.1、标注数据集费时费力,为了提高分类模型的准确率,需要手动标注大量的url。标注过程中,若无公开数据集,则需要手动访问每一个url进行核对,十分耗时。
7.2、许多首页的url出于标记访问来源等原因,是以嵌套url的方式展现的,单纯靠语义分析难以应对这种情况,可能造成严重的误判情况。
8.3、提取页面内容消耗巨大资源,访问url提取网页中的图片、链接、文字、页面结构等方法进行分析,非常耗时,并且会消耗大量的网络资源,这种方法根本无法应对海量的数据。
9.综上所述,需要设计一种解决以上问题的网站首页识别方法,以满足识别同源ip、进行信息采集、页面布局研究等需求。


技术实现要素:

10.为解决上述问题,本发明提供一种基于url特征的网站首页识别方法及电子装置,对剥离嵌套的url进行识别,使用正则表达式匹配的url域名以及匹配某些具有标志性的关键字,并通过设定“/”字符后的长度阈值,解决多层嵌套影响网页首页识别的问题,提升了网站首页识别的速度和准确率。
11.本发明采用的技术方案如下:
12.一种基于url特征的网站首页识别方法,其步骤包括:
13.1)剔除待识别url首部的http://字符或者https://字符,获取包含http://字符或https://字符的临时变量t1;
14.2)按照“/”字符对临时变量t1进行拆分,并进行有效性判断;
15.3)若不能拆分或仅能拆成两部分且第二部分为空,则判断临时变量t1是否包含是二级、三级或四级域名;若仅能拆成两部分、第二部分不为空且第二部分长度小于第一阈值,则判断第二部分是否包含特定字符;
16.4)若临时变量t1包含是二级、三级或四级域名或第二部分包含特定字符,则判断待识别url为首页url。
17.进一步地,判断临时变量t1是否包含是二级、三级或四级域名的方法包括:使用正则表达式方法。
18.进一步地,通过以下步骤得到第一阈值:
19.1)获取n个仅能拆成两部分且第二部分不为空的嵌套url相应样本临时变量t1,并计算第二部分长度总和n1。
20.2)计算第一阈值l1=n1/n。
21.进一步地,通过以下策略判断第二部分是否包含特定字符:
22.1)将第二部分作为临时变量t2;
23.2)判断临时变量t2中是否含有表明url来源的字符;
24.3)判断临时变量t2中是否含有标识首页的字符;
25.4)若临时变量t2的长度小于第二阈值,判断临时变量t2是否含有网页后缀。
26.进一步地,判断临时变量t2中是否含有表明url来源的字符的方法包括:使用正则表达式方法;表明url来源的字符包括:src字符或from字符。
27.进一步地,含有标识首页的字符包括:index字符或homepage字符。
28.进一步地,网页后缀包括:html字符或jsp字符。
29.进一步地,通过以下步骤得到第二阈值:
30.1)获取m个仅能拆成两部分且第二部分不为空的url相应样本临时变量t1,并计算第二部分长度总和n2;
31.2)计算计算第二阈值l2=n2/m。
32.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
33.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
34.与现有技术相比,本发明具有以下优点:
35.1、无需训练分类器,无需人工标注大量数据集,仅通过正则表达式即可完成识别,节省人力。
36.2、剥离嵌套的url,解决了通过语义无法识别嵌套url的情况,降低了误报率。
37.3、无需采集url页面中的结构、布局、图片、标题等内容进行分析,极大的提升了识别速度,节省了网络资源。
附图说明
38.图1为本发明的方法流程图。
具体实施方式
39.下面通过具体实施例和附图,对本发明做进一步详细说明。
40.为了能满足识别恶意网站、发现同源ip、进行网页信息采集等研究的需要,同时为了节约网络资源、提升识别速度,本发明设计了一种基于url的网站首页识别方法,主要包括嵌套url解析、规则匹配两部分,流程如图1所示
41.具体步骤如下:
42.步骤101:剔除待识别url首部的“http://”或者“https://”字符。
43.步骤102:判断待识别url中是否还有“http://”或者“https://”字符,如果有,创建一个临时变量t1,t1保存“http://”或者“https://”字符后面的所有内容,将临时变量t1赋值给待识别url。
44.步骤103:将待识别的url按照“/”字符进行拆分,进行有效性判断,如果无法拆分,跳转到步骤104;如果按照字符“/”拆分后,仅仅能拆分2部分,并且第二部分为空,剔除url中的“/”字符,跳转到步骤104;如果按照字符“/”拆分后,仅仅能拆分2部分,第二部分不为空,并且第二部分的长度小于阈值l1,将拆分后的第二部分赋值给临时变量t2,跳转到步骤105;否则即属于如下两种情况1)仅仅能拆分2部分,第二部分不为空,并且第二部分的长度大于等于阈值l1;2)能拆分3部分及以上,这两种情况输出不是首页,结束判断。
45.步骤104:使用正则表达式判断待识别的url,是否是二级、三级、四级域名,如果是,输出是首页,结束判断;否则输出不是首页。正则表达式判断的方法是构造符合二级、三级、四级域名格式的字符串,进而进行模式匹配。
46.步骤105:使用正则表达式式判断临时变量t2,是否含有表明url来源的src、from等字符,如果有,输出是首页,结束判断;否则跳转到步骤106。正则表达式判断的方法是进行字符串匹配。
47.步骤106:判断临时变量t2,是否含有标识首页的index、homepage等字符,如果有,输出是首页,结束判断;否则,跳转到步骤107
48.步骤107:判断临时变量t2,长度是否小度阈值l2,如果是,跳转至步骤108;否则,输出不是首页,结束判断。
49.步骤108:判断临时变量t2是否含有”html”、“jsp“等网页后缀,如果有,输出是首页,结束判断;否则,输出不是首页,结束判断。
50.阈值计算如下:
51.l1计算如下:人工核查n个符合“按照字符“/”拆分后,仅仅能拆分2部分,第二部分不为空”并且是首页的url,计算这n个url第二部分的长度总和,计为n1,l1=n1/n。
52.l2计算如下:人工核查m个可以提取t2,并且是首页的url,计算这m个url的t2部分长度总和,记为n2,l2=n2/m。
53.鉴于url格式相近,尤其是对于同一领域的url,因此n、m取100即可满足需求。
54.实验数据
55.许多钓鱼网站发现、网站风格规划等都基于网站首页进行研究,如基于网站首页
logo和主机名识别钓鱼网站,首先确认url是否是首页,再进行logo提取,可以缩短钓鱼网站发现时间。
56.为了体现本技术的技术优势,将本技术与其他可用于识别网站首页的方法进行比较,如下所示:
57.1)与基于网站内容的方法进行比较(cn102332028a):
58.选取了公认的alexa数据集中的top1170的url,进行访问并提取了网页标题、结构、图片、链接,在没有进一步进行首页识别的前提下,基于网站内容进行识别的方法已经耗时6小时,而本专利无须在线识别,在macos 10.15.5版本、内存16gb、处理器为2.6ghz六核intel core i7的环境下,利用本专利进行首页识别仅需3秒,因此至少可以减少99.9%的识别时间。
59.2)与基于语义结构的方法进行比较(cn101692639a):
60.我们采集了实验室人员的真实上网记录,共20万条url,与基于语义结构的方法相比,本发明至少可以提升2.22%的召回率。
61.以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献