一种基于信息识别的网络安全系统及方法与流程

2022-02-19 00:30:52 来源：中国专利 TAG：

1.本发明涉及网络安全技术领域，特别是涉及一种基于信息识别的网络安全系统及方法。

背景技术：

2.在现有的web2.0的互联网社交应用中，应用的内容不再由服务器发布和推送，而是更多的由用户自行发布和交互。例如，用户可通过手机拍照分享到网络上发送给其他用户，可以编辑论坛主题、博客、论坛发帖、微博等文本内容分享给其他用户。然而，用户分享的内容可能存在违法或者不符合道德规范的风险，例如，粗口、暴力、淫秽、诈骗等内容，因此，需要对用户发布的内容进行敏感信息的识别和拦截。
3.对敏感信息的识别和拦截有助于改善网络环境，提升网络安全性，避免违法信息的渗透和传播。但现有的网络敏感信息识别方法往往采用机械的匹配识别，其识别效率低，如果敏感词稍有变化，则导致识别失败，识别准确率也低。

技术实现要素：

4.鉴于此，本发明的目的是提供一种基于信息识别的网络安全系统及方法，具有结构简单、安全性高和识别效率高的优点。
5.为了实现上述目的，本发明采用如下技术方案：
6.一种基于信息识别的网络安全系统，所述系统包括：文本信息提取模块，用于接收目标信息，提取所述目标信息中包含的文本信息；识别模块，用于对文本信息进行识别，得到文本语义分析和相似度；敏感信息判定模块，用于根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。
7.进一步的，所述识别模块包括：训练部分和识别部分；所述训练部分包括：选择单元，从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料；以及从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料；训练单元，用于对所述选择单元选择的训练语料进行训练生成一级模型；准确率获得单元，用于将所述选择单元选择的测试语料提交给所述训练单元生成的一级模型进行文本识别，获得生成的一级模型的文本识别的准确率；保存单元，用于当所述准确率获得单元获得的所述生成的一级模型的准确率大于或等于预设的第一阈值时，保存所述训练单元生成的一级模型；对比单元，用于将所述保存单元保存的一级模型的准确率进行对比，输出准确率最高的一级模型；所述识别部分包括：识别单元，用于通过一级模型和二级模型对所述文本信息提取模块获得的文本信息进行文本识别，得到文本语义分析和相似度；所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型；所述二级模型为利用所述语料库中的语料生成的文本识别模型。
8.进一步的，所述识别模块包括：全文哈希识别单元，用于计算所述文本信息的哈希值；分词单元，用于在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时，对
所述文本信息进行分词得到分词集合；相似度计算单元，用于计算所述分词集合中的分词的哈希值，根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度。
9.进一步的，所述相似度计算单元还用于计算所述分词集合中，与预设的特征敏感信息的分词的哈希值匹配的分词在所述分词集合中所占的比例；根据所述比例生成所述目标信息与预设的特征敏感信息的相似度。
10.进一步的，所述装置还包括行为识别单元，用于在所述目标信息中不包含文本信息时，获取发布所述目标信息的用户标识；获取所述用户标识的行为特征数据，根据所述行为特征数据判定所述目标信息是否为敏感信息。
11.一种基于信息识别的网络安全方法，所述方法执行以下步骤：步骤1：文本信息提取模块，接收目标信息，提取所述目标信息中包含的文本信息；步骤2：识别模块，对文本信息进行识别，得到文本语义分析和相似度；步骤3：敏感信息判定模块，根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。
12.进一步的，所述识别模块包括：训练部分和识别部分；所述训练部分包括：选择单元，从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料；以及从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料；训练单元，用于对所述选择单元选择的训练语料进行训练生成一级模型；准确率获得单元，用于将所述选择单元选择的测试语料提交给所述训练单元生成的一级模型进行文本识别，获得生成的一级模型的文本识别的准确率；保存单元，用于当所述准确率获得单元获得的所述生成的一级模型的准确率大于或等于预设的第一阈值时，保存所述训练单元生成的一级模型；对比单元，用于将所述保存单元保存的一级模型的准确率进行对比，输出准确率最高的一级模型；所述识别部分包括：识别单元，用于通过一级模型和二级模型对所述文本信息提取模块获得的文本信息进行文本识别，得到文本语义分析和相似度；所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型；所述二级模型为利用所述语料库中的语料生成的文本识别模型。
13.进一步的，所述所述识别模块包括：全文哈希识别单元，用于计算所述文本信息的哈希值；分词单元，用于在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时，对所述文本信息进行分词得到分词集合；相似度计算单元，用于计算所述分词集合中的分词的哈希值，根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度。
14.与现有技术相比，本发明实现的有益效果：本发明根据已知敏感文本内容作为文本分类算法的输入进行机器学习训练形成模型，在模型中通过对已知敏感文本内容进行特征项提取总结形成规律，然后评估未知的文本内容是否符合模型中敏感消息特征信息以此来判定是否为敏感内容；同时，本发明还是用另外一种敏感信息的识别，直接通过敏感词分词来进行识别，可以根据需要判断使用哪种模式，其识别效率高，识别准确率高。
附图说明
15.以下结合附图和具体实施方式来进一步详细说明本发明：
16.图1为本发明实施例公开的基于信息识别的网络安全系统的系统结构示意图。
17.图2为本发明实施例公开的基于信息识别的网络安全方法的方法流程示意图。
具体实施方式
18.以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
19.请参阅图1。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用于配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用于限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及
ꢀ“
一”等的用语，亦仅为便于叙述的明了，而非用于限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。
20.实施例1
21.一种基于信息识别的网络安全系统，所述系统包括：文本信息提取模块，用于接收目标信息，提取所述目标信息中包含的文本信息；识别模块，用于对文本信息进行识别，得到文本语义分析和相似度；敏感信息判定模块，用于根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。
22.具体的，大部分论坛，为了方便管理，都进行了关于敏感词的设定。
23.比如，当你发贴的时候带有某些事先设定的词时，这个贴是不能发出的。或者这个词被自动替换为星号(*)或叉号(x)等，或者说是被和谐掉了。
24.在多数网站，敏感词一般是指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明语。
25.也有一些网站根据自身实际情况，设定一些只适用于本网站的特殊敏感词，例如很多电子商务网站会将一些涉及侵犯知识产权，不宜销售的商品，例如“山寨”、“水货”、“盗版”、“刻录”等设置为敏感词，在商品简介中这些词是发不出来的。竞争对手的名称在一些电商网站也是无法发出的敏感词。
26.敏感词设定功能在贴吧或论坛中都被广泛应用。
27.最近，网上又出现了一种论坛管理功能：当论坛自动搜索到你的贴子里含有一定敏感词时，该贴会自动被删除。或交由人工审核。
28.敏感词来讲不一定是脏话，但是脏话大部分都是敏感词，比如在日本av里出现的众多词汇是会被屏蔽的，但是广大网民的智慧是无穷的，他们会选择一种词来代替，这反倒成就了一种"文化"。
29.实施例2
30.在上一实施例的基础上，所述识别模块包括：训练部分和识别部分；所述训练部分包括：选择单元，从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料；以及从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料；训练单元，用于对所述选择单元选择的训练语料进行训练生成一级模型；准确率获得单元，用于将所述选择单元选择的测试语料提交给所述训练单元生成的一级模型进行文本识别，获得生成的一级模型的文本识别的准确率；保存单元，用于当所述准确率获得单元获得的
所述生成的一级模型的准确率大于或等于预设的第一阈值时，保存所述训练单元生成的一级模型；对比单元，用于将所述保存单元保存的一级模型的准确率进行对比，输出准确率最高的一级模型；所述识别部分包括：识别单元，用于通过一级模型和二级模型对所述文本信息提取模块获得的文本信息进行文本识别，得到文本语义分析和相似度；所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型；所述二级模型为利用所述语料库中的语料生成的文本识别模型。
31.具体的，大数据的价值体现主要集中在数据的转向以及数据的信息处理能力等等。在产业发展的今天，大数据时代的到来，对数据的转换，数据的处理数据的存储等带来了更好的技术支持，产业升级和新产业诞生形成了一种推动力量，让大数据能够针对可发现事物的程序进行自动规划，实现人类用户以计算机信息之间的协调。另外现有的许多机器学习方法是建立在内存理论基础上的。大数据还无法装载进计算机内存的情况下，是无法进行诸多算法的处理的，因此应提出新的机器学习算法，以适应大数据处理的需要。大数据环境下的机器学习算法，依据一定的性能标准，对学习结果的重要程度可以予以忽视。采用分布式和并行计算的方式进行分治策略的实施，可以规避掉噪音数据和冗余带来的干扰，降低存储耗费，同时提高学习算法的运行效率。
32.随着大数据时代各行业对数据分析需求的持续增加，通过机器学习高效地获取知识，已逐渐成为当今机器学习技术发展的主要推动力。大数据时代的机器学习更强调“学习本身是手段"机器学习成为一种支持和服务技术。如何基于机器学习对复杂多样的数据进行深层次的分析，更高效地利用信息成为当前大数据环境下机器学习研究的主要方向。所以，机器学习越来越朝着智能数据分析的方向发展，并已成为智能数据分析技术的一个重要源泉。另外，在大数据时代，随着数据产生速度的持续加快，数据的体量有了前所未有的增长，而需要分析的新的数据种类也在不断涌现，如文本的理解、文本情感的分析、图像的检索和理解、图形和网络数据的分析等。使得大数据机器学习和数据挖掘等智能计算技术在大数据智能化分析处理应用中具有极其重要的作用。在2014年12月中国计算机学会(ccf)大数据专家委员会上通过数百位大数据相关领域学者和技术专家投票推选出的“2015年大数据十大热点技术与发展趋势”中，结合机器学习等智能计算技术的大数据分析技术被推选为大数据领域第一大研究热点和发展趋势。
33.实施例3
34.在上一实施例的基础上，所述识别模块包括：全文哈希识别单元，用于计算所述文本信息的哈希值；分词单元，用于在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时，对所述文本信息进行分词得到分词集合；相似度计算单元，用于计算所述分词集合中的分词的哈希值，根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度。
35.实施例4
36.在上一实施例的基础上，所述相似度计算单元还用于计算所述分词集合中，与预设的特征敏感信息的分词的哈希值匹配的分词在所述分词集合中所占的比例；根据所述比例生成所述目标信息与预设的特征敏感信息的相似度。
37.实施例5
38.在上一实施例的基础上，所述装置还包括行为识别单元，用于在所述目标信息中
不包含文本信息时，获取发布所述目标信息的用户标识；获取所述用户标识的行为特征数据，根据所述行为特征数据判定所述目标信息是否为敏感信息。
39.实施例6
40.如图2所示，一种基于信息识别的网络安全方法，所述方法执行以下步骤：步骤1：文本信息提取模块，接收目标信息，提取所述目标信息中包含的文本信息；步骤2：识别模块，对文本信息进行识别，得到文本语义分析和相似度；步骤3：敏感信息判定模块，根据所述相似度和/或对所述文本信息进行语义分析判定所述目标信息为敏感信息。
41.实施例7
42.在上一实施例的基础上，所述识别模块包括：训练部分和识别部分；所述训练部分包括：选择单元，从语料库最新单位时间内的语料中选择第一预定比例的语料作为训练语料；以及从语料库最新单位时间内的语料中选择第二预定比例的语料作为测试语料；训练单元，用于对所述选择单元选择的训练语料进行训练生成一级模型；准确率获得单元，用于将所述选择单元选择的测试语料提交给所述训练单元生成的一级模型进行文本识别，获得生成的一级模型的文本识别的准确率；保存单元，用于当所述准确率获得单元获得的所述生成的一级模型的准确率大于或等于预设的第一阈值时，保存所述训练单元生成的一级模型；对比单元，用于将所述保存单元保存的一级模型的准确率进行对比，输出准确率最高的一级模型；所述识别部分包括：识别单元，用于通过一级模型和二级模型对所述文本信息提取模块获得的文本信息进行文本识别，得到文本语义分析和相似度；所述一级模型为利用语料库中最新单位时间内的语料生成的文本识别模型；所述二级模型为利用所述语料库中的语料生成的文本识别模型。
43.实施例8
44.在上一实施例的基础上，所述所述识别模块包括：全文哈希识别单元，用于计算所述文本信息的哈希值；分词单元，用于在所述文本信息的哈希值与预设的特征敏感信息的哈希值不同时，对所述文本信息进行分词得到分词集合；相似度计算单元，用于计算所述分词集合中的分词的哈希值，根据所述分词集合中的分词的哈希值生成所述目标信息与预设的特征敏感信息的相似度。
45.具体的，利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。人们在生产和生活中，要处理大量的文字、报表和文本。为了减轻人们的劳动，提高处理效率，50年代开始探讨一般文字识别方法，并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期，出现了多种字体和手写体文字识别机，其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。 70年代主要研究文字识别的基本理论和研制高性能的文字识别机，并着重于汉字识别的研究。
46.需要说明的是，上述实施例提供的系统，仅以上述各功能单元的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能单元来完成，即将本发明实施例中的单元或者步骤再分解或者组合，例如，上述实施例的单元可以合并为一个单元，也可以进一步拆分成多个子单元，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的单元、步骤的名称，仅仅是为了区分各个单元或者步骤，不视为对本发明的不当限定。
47.所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储单元、处理单元的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。
48.本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的单元、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件单元、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd～rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
49.术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。
50.术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/单元不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/单元所固有的要素。
51.至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
52.以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。
53.上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于航海船舶的计算机机箱的制作方法

一种基于信息识别的网络安全系统及方法与流程

相关文献

最热文献