一种基于网页内容安全审查的系统及方法

2022-07-10 12:10:58 来源：中国专利 TAG：

1.本发明涉及网络安全技术领域，具体涉及一种基于网页内容安全审查的系统及方法。

背景技术：

2.为确保网站信息质量，严防网络信息犯罪，保障网站健康发展，国家对网站质量的把控有了更高的要求，要求各大网站需要有防止网站被篡改的措施与系统设置，这也促进了网页内容安全审查工作的出现与发展。
3.网页内容安全是网络安全领域的一个重要分支。传统的网页内容安全审查，主要使用通用敏感词库匹配的方法来识别，会导致极高的误报率，链接黑名单机制也会因更换周期快、更换策略不固定等时效性问题导致无法有效应用。而近年来兴起的海量标注数据和深度学习算法能够识别网页内容的违禁内容，提升了识别准确率和识别速度，但是距离实际环境的安全审查应用仍然有不小差距，比如综合评价特征单一、分类模糊、审核维度不够广泛和切实等。

技术实现要素：

4.（一）解决的技术问题为了解决传统网页内容安全审查解决方案的不足与诸多局限性，同时考虑到恶意站点通常借助情色暴力、博彩信息、游戏私服、虚假医疗、政治敏感等进行宣传和推广，为了解决网页技术创新、通用敏感词误判严重、海量数据无法动态监控、安全审查维度不够等切实问题，本发明提供了一种基于网页内容安全审查的系统及方法。基于异步爬虫框架执行，高效获取静态html页面和动态渲染页面内容、js/css文件内容等文本内容，图像、word和pdf等文件的二进制流数据，内置分析引擎进行恶意内容识别，并提供监控中心进行动态实时监控，自动化实现安全审查报表输出，解决了传统方案检测效率低、误报率高、覆盖范围单一、安全审查维度不够广泛、应用不够切合实际等现实问题。
5.（二）技术方案为实现以上目的，本发明提供的一种基于网页内容安全审查的系统及方法，通过以下技术方案实现：一种基于网页内容安全审查的系统，包括信息输入模块、内容审查模块、数据存储模块、监控中心模块和报告下载模块，所述信息输入模块将输入信息传递至内容审查模块，所述内容审查模块将审查结果传递至数据存储模块，所述监控中心模块将数据存储模块的结果数据进行分类统计后可视化呈现，所述报告下载模块将数据存储模块的结果数据进行综合分析后报表输出。
6.进一步地，所述信息输入模块支持用户自定义输入方式、自定义网站主题标签、自定义递归深度、自定义敏感词。
7.进一步地，所述内容审查模块包括web站点状态检测模块、全站链接识别模块、页
面内容抓取模块、内容安全分析引擎。
8.进一步地，所述内容安全分析引擎包括文本内容分析引擎、图像内容分析引擎、文档内容分析引擎及安全合规分析引擎。
9.进一步地，所述数据存储模块包括web站点状态存储模块、页面链接数据存储模块、页面文本数据存储模块、页面图像数据存储模块、页面文档数据存储模块、页面安全审查结果存储模块。
10.进一步地，所述的web站点状态存储模块用于存储web站点状态检测模块的输出结果，所述的页面链接数据存储模块用于存储全站链接识别模块的输出结果，所述的页面文本数据存储模块用于存储页面内容抓取模块抓取的文本内容输出结果，所述的页面图像数据存储模块用于存储页面内容抓取模块抓取的图像内容输出结果，所述的页面文档数据存储模块用于存储页面内容抓取模块抓取的文档内容输出结果，所述页面安全审查结果存储模块用于存储内容安全分析引擎的输出结果。
11.进一步地，所述监控中心模块用于展示识别链接数量（包括有效子链数量、有效外链数量、暗链链接数量、死链链接数量）、展示识别异常关键词、关键词类型及主题分布、展示识别子链异常详情、展示识别外链异常详情，以及有无备案等安全审查指标，并辅助确认审查结果是否有效。
12.进一步地，所述报告下载模块支持输出web站点的内容安全审查报告，报告形式包括word和pdf，以辅助用户进一步明确自身web站点安全内容安全风险。
13.一种基于网页内容安全审查的方法，包含以下方法步骤：步骤一：在网页内容安全审查系统中，用户通过在信息输入模块输入待审查的web站点链接url，选择所属web站点的主题标签，自定义递归深度（默认全站），自定义敏感词（默认匹配所选主题标签的内置敏感词库），或者上传批量web站点清单文件（参照模板文件，至少提供url、主题标签、递归深度、自定义敏感词库）；步骤二：利用内容审查模块中的web站点状态检测模块对提供的web站点发送网络请求进行有效性检测，检测指标包含可用性、域名反查ip、网站备案情况等，其中可用性用于指导后续步骤是否执行，而域名反查ip用于判断站点是否异常，网站备案情况用于判断是否备案异常；步骤三：利用内容审查模块中的全站链接识别模块对全站链接进行获取和分类，区分有效子链、有效外链、站点暗链、站点死链，并进行不同链接的识别和获取，其中链接网络请求无法成功，则识别成站点死链，加入站点死链库，反之不断递归获取有效子链，形成站点有效子链库，同时将所有非站点域名的链接识别外链，形成站点有效外链库，识别过程中根据页面中暗链标签和特征，构造站点暗链库；步骤四：利用内容审查模块中的页面内容抓取模块对web站点每个页面进行内容抓取，包括静态html页面和动态渲染页面内容、js/css文件内容等文本内容，图像、word和pdf等文件的二进制流数据；步骤五：利用内容安全审查模块中的内容安全分析引擎进行内容安全审查判断，其中文本内容分析引擎进行html页面和js/css文件文本内容审查识别，图像内容分析引擎进行图像内容审查识别，文档内容分析引擎进行word和pdf文档内容审查识别，通过审查识别判断是否存在涉黄、涉暴、涉恐、涉反动等违规违法内容。而安全合规分析引擎则用于判
断站点相关指标是否异常，比如域名反查ip地址是否异常、网站是否备案和合规、暗链标签和特征判断、每个页面外链数量与子链数量差异性、每个页面敏感词词频情况、站点总体有效子链与总体链接数占比情况等；步骤六：利用数据存储模块对步骤二-五的结果按照设定的方式进行持久化存储。
14.（三）方案优点由上述技术方案可知，与现有技术方案相比，本发明具有以下优点：（1）基于异步爬虫框架实现，各个功能子模块分离，有效提升检测效率和增强实用性。该系统支持用户自定义输入信息输入，包括站点url、递归深度、敏感词、主题选择等。由于不同行业的网页呈现内容大相径庭，内容安全审查任务支持选择适配的主题敏感词库，有效减少了通用敏感词库造成的误判严重的情况。此外，支持用户在内置主题敏感词库外自定义添加敏感词，通过内置分析引擎和敏感词相结合手段，实现更加精准的网页内容安全审查。
15.（2）通过提供内容审查模块内置多个功能子模块，包括web站点检测模块、全站链接识别模块、页面内容抓取模块、内容安全分析引擎，保持各阶段过程实施独立性，满足不同用户角色需求。同时为防止不法分子将恶意内容以动态加载、图像、文件等形式进行混杂，内容安全分析引擎支持多种类型数据识别审查分析，覆盖静态html页面内容、动态渲染页面内容、js/css文件内容等文本内容、图像、word和pdf等文件。
16.（3）传统意义内容安全审查主要审查页面内容中是否有违禁内容，基于丰富的安全攻防先验知识，提出了多维特征判断模型，包括链接分类、链接有效性、异常关键词识别、关键词类别及主题分布、子链与外链差异性、ip反查是否异常、站点是否备案和合规、暗链标签和特征判断、敏感词词频情况、站点链接占比分布等，从而解决安全审查维度不够广泛的问题。
17.（4）内容安全审查本质上就是帮助用户发现问题、分析问题、解决问题，但是内容安全审查过程中海量审查数据对于用户来讲无感知状态，需要一套监控中心来直观呈现用户单位所有web站点内容安全现状，能够加强用户的安全风险意识，同时提供的自动化综合分析报表，能够指导和督促用户进行安全整改，最终达到内容安全能力实质性提升的目的。
18.以上所述技术方案和优点是对本发明的概述，详细实施方案参照下面具体描述，实施本发明的任意产品可以单独或组合利用所述技术方案，实现所述优点。
附图说明
19.图1为本发明提供的一种基于网页内容安全审查的系统结构示意图；图2为本发明所述一种基于网页内容安全审查的方法流程示意图；图3为本发明文本内容分析引擎和文档内容分析引擎结构示意图。
20.图中， 11-信息输入模块、12-内容审查模块、13-数据存储模块、14-监控中心模块、15-报告下载模块、120-web站点状态检测模块、121-全站链接识别模块、122-页面内容抓取模块、123-内容安全分析引擎、130-web站点状态存储模块、131-页面链接数据存储模块、132-页面文本数据存储模块、133-页面图像数据存储模块、134-页面文档数据存储模块、135-页面安全审查结果存储模块、1231-文本内容分析引擎、1232-图像内容分析引擎、1233-文档内容分析引擎、1234-安全合规分析引擎。
具体实施方式
21.以下结合附图详细说明本技术的各个实施例。
22.本发明提出了一种基于网页内容安全审查的系统及方法，其利用技术手段实现网页内容的自动化安全审查，同时提供动态实时监控、自动化报表输出等功能。
23.如图1所示，本发明提出的一种基于网页内容安全审查的系统用于实现本发明提出的方法，包括信息输入模块11、内容审查模块12、数据存储模块13、监控中心模块14和报告下载模块15；所述内容审查模块12包括web站点状态检测模块120、全站链接识别模块121、页面内容抓取模块122、内容安全分析引擎123，所述内容安全分析引擎123又包括文本内容分析引擎1231、图像内容分析引擎1232、文档内容分析引擎1233及安全合规分析引擎1234，所述数据存储模块13包括web站点状态存储模块130、页面链接数据存储模块131、页面文本数据存储模块132、页面图像数据存储模块133、页面文档数据存储模块134、页面安全审查结果存储模块135；所述信息输入模块11支持用户自定义输入信息，包括自定义输入方式，可以根据实际检测任务需求选择单一站点扫描或批量站站点扫描，支持用户自定义递归深度，有针对的抓取所需深度的数据，支持用户自定义敏感词，包括不同网页安全审查任务选择不同主题敏感词库和用户可在内置主题敏感词库外选择添加指定敏感词；所述信息输入模块11将输入信息传递至内容审查模块12，所述内容审查模块12将审查结果传递至数据存储模块13进行持久化存储；所述监控中心模块14将数据存储模块13的结果数据进行分类统计后可视化呈现，展示识别链接数量（包括有效子链数量、有效外链数量、暗链链接数量、死链链接数量）、展示识别异常关键词、关键词类型及主题分布、展示识别子链异常详情、展示识别外链异常详情，以及有无备案等安全审查指标，并辅助确认审查结果是否有效；所述报告下载模块15将数据存储模块13的结果数据进行综合分析后报表输出，形式包括word和pdf，以辅助用户进一步明确自身web站点安全内容安全风险；如图2所示，本发明提出的一种基于网页内容安全审查的方法，包含以下方法步骤：步骤一：在网页内容安全审查系统中，用户通过在信息输入模块11输入待审查的web站点链接url，选择所属web站点的主题标签，自定义递归深度（默认全站），自定义敏感词（默认匹配所选主题标签的内置敏感词库），或者上传批量web站点清单文件（参照模板文件，至少提供url、主题标签、递归深度、自定义敏感词库）；步骤二：利用内容审查模块12中的web站点状态检测模块120对提供的web站点发送网络请求进行有效性检测，检测指标包含可用性、域名反查ip、网站备案情况等，其中可用性用于指导后续步骤是否执行，而域名反查ip用于判断站点是否异常，网站备案情况用于判断是否备案合规；可用性判断过程为，通过模拟浏览器向服务器发送访问目标网页即提供的web站点的请求，并接受所述服务器发送的反馈响应信息；当所述服务器有返回响应，产生返回对象（包括相应状态码、响应头信息等），则判定该站点可用，执行后续步骤，否则判定该站点无效，并进行人工核验，排除因网络断线、服务器不稳定等原因造成的链接判断为不可用的情况；若人工核验结果仍无效，则不执行后续步骤，安全审查结束，否则重新纳入有效队列，
执行后续步骤；步骤三：利用内容审查模块12中的全站链接识别模块121对全站链接进行获取和分类，区分有效子链、有效外链、站点暗链、站点死链，并进行不同链接的识别和获取，其中链接网络请求无法成功，则识别成站点死链，加入站点死链库，反之不断递归获取有效子链，形成站点有效子链库，同时将所有非站点域名的链接识别外链，形成站点有效外链库，识别过程中根据页面中暗链标签和特征，构造站点暗链库；判断有效子链/外链的过程为，在过滤死链后形成的全站有效链接中，通过域名进一步划分，与提供的web站点相同则为有效子链，不同则为有效外链；识别暗链的过程为，检测有效链接页面中是否存在常用的暗链标签和特征；常用暗链页面设置方式有：(a)设置 css 隐藏样式，主要有“text-decoration:none”、“display:none”、“visibility:hidden”(b)利用颜色属性，设置暗链文本字体颜色与网页背景颜色相似或一致，通常使用“color: #ffffff”与“color: #000000”(分别代表白色和黑色)属性(c)利用尺寸属性，设置暗链文本字体显示为0像素，“font-size: 0px”(d)利用位置属性，将div标签的位置参数调整负数即在可视窗之外，“position: absolute”；该步骤中，依次进行了链接有效性、分类和暗链检测，自动化实现减少了人工分析链接复杂度，一定程度上提高了网页安全检测的性能；步骤四：利用内容审查模块12中的页面内容抓取模块122对web站点每个页面进行内容抓取，包括静态html页面内容、动态渲染页面内容、js/css文件内容等文本内容、图像、word和pdf等二进制流数据；动态渲染页面内容是页面内容的组成部分，页面使用了ajax技术进行开发，交互产生的数据不会再网页源码中出现，也是现在众多web界面采用的方式，实现了对页面中局部区域的动态更新，采用无图浏览器进行页面内容渲染识别；步骤五：利用内容安全审查模块12中的内容安全分析引擎123进行内容安全审查判断，其中文本内容分析引擎1231进行html页面和js/css文件文本内容审查识别，图像内容分析引擎1232进行图像内容审查识别，文档内容分析引擎1233进行word和pdf文档内容审查识别，通过审查识别判断是否存在涉黄、涉暴、涉恐、涉反动等违规违法内容。而安全合规分析引擎1234则用于判断站点相关指标是否异常，比如域名反查ip地址是否异常、网站是否备案和合规、暗链标签和特征判断、每个页面外链数量与子链数量差异性、每个页面敏感词词频情况、站点总体有效子链与总体链接数占比情况等；所述文本分析引擎1231执行的步骤为，设计敏感词匹配算法，基于选择的主题敏感词库、自定义敏感词以及内置分析引擎，通过高效遍历文本内容，依次匹配每个字符，根据是否能完整匹配到一个敏感词的开始位至结束位进行判定，若能，则表示成功匹配到一个敏感词，判定该文本内容存在异常，并根据主题敏感词库找出该敏感词所属类别，否则判定页面内容正常；所述图像内容分析引擎1232执行的步骤为，将页面图像提交至图像内容分析引擎，根据图像检测返回的响应参数判断是否异常，若页面所包含的图像检测结果中有不少于一张为异常，则判定图像所属页面链接异常，否则判定图像所属页面链接正常；所述文档内容分析引擎1233执行的步骤为，下载获取word或pdf文档，自动化识别
文档文本内容，再通过文本分析引擎1231进行检测识别；所述安全合规分析引擎1234，是利用相关指标辅助判定页面的安全情况，如当网站备案查询结果为未备案，表示该站点可能存在从事非法网站经营活动、被查处关停的可能；当站点下子链数量与外链数量差异性表现为绝对值较大的负值时，认为该站点可能存在被篡改植入非法外链的现象；当页面敏感词词频过高时，需要特别引起关注；步骤六：利用数据存储模块13对步骤二-五的结果按照设定的方式进行持久化存储步骤结束。
24.以上列举的仅是本发明的具体实施例，但本发明并不局限于此。在尊重实验结果和不背离本发明精神及实质的情况下，任何熟悉本领域的技术人员可在本发明实施例的启示下，作出各种相应的改变与变形，但这些相应的改变和变形都应涵盖在本发明的权利要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于网页内容安全审查的系统及方法

相关文献

最热文献