一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种网络空间安全领域知识图谱云平台

2022-07-13 14:39:58 来源:中国专利 TAG:


1.本发明涉及网络空间安全领域知识图谱技术领域,更具体地说,它涉及一种网络空间安全领域知识图谱云平台。


背景技术:

2.随着网络技术和信息技术的飞速发展,网络空间安全逐渐成为社会关注的热点和焦点。网络环境日趋复杂,网络用户、硬件设备以及逻辑拓扑在网络空间中彼此互联产生了大量的网络拓扑、网络资产等数据信息。同时,网络安全事件日渐频发,国家、企业部署的入侵检测设备时刻产生着海量的网络漏洞、攻击威胁与安全告警等数据信息。这些安全数据信息呈爆发式增长,面临着数据量庞大,但数据间缺少关联性、无知识的困局,网络空间安全分析人员很难获取以及有效利用安全数据信息。
3.目前,现有技术中的网络空间安全领域平台针对不同计算资源的统一管理与动态分配服务,其成本高、效率低,不便处理海量资源;因此,本发明旨在设计提供一种网络空间安全领域知识图谱云平台,以解决上述问题。


技术实现要素:

4.本发明的目的是基于解决上述技术问题,提供一种网络空间安全领域知识图谱云平台。
5.本发明的上述技术目的是通过以下技术方案得以实现的:一种网络空间安全领域知识图谱云平台,包括openstack云管理系统、原始数据爬虫模块、知识抽取模块、知识存储图数据库和知识图谱应用管理服务系统;
6.所述openstack云管理系统用于为平台提供硬件基础和系统管理功能;所述openstack云管理系统采用三节点部署,所述openstack云管理系统的硬件分布和逻辑分布相同,且均分为控制节点、计算节点和网络节点;
7.所述原始数据爬虫模块采用python基于scrapy框架编写而成,并封装成python文件,预留接口api供知识图谱服务器调用,运行在网络节点上;
8.所述知识抽取模块采用python基于pytorch框架编写而成,并封装成py文件,预留接口api供知识图谱应用服务调用,运行在计算节点上;
9.所述知识存储图数据库采用neo4j图数据库,运行在计算节点上;
10.所述知识图谱应用管理服务系统运行于控制节点上,且采用python基于django框架编写而成,用于应用功能的展示和响应。
11.在本发明的方案中,通过openstack云管理系统,能够实现为本方案中云平台提供硬件基础和系统管理功能的效果;通过运行在网络节点上的原始数据爬虫模块,供知识图谱服务器调用;通过知识抽取模块,便于先完成实体抽取,再结合原句和已识别实体进行关系抽取;通过知识存储图数据库,便于对海量数据之间的复杂关系进行查询和分析,且便于存储本发明中所述的“网络空间安全”领域知识;通过知识图谱应用管理服务系统,负责应
用功能的展示和响应,且便于快捷地进行平台开发和后期维护。通过本发明的网络空间安全领域知识图谱云平台,便于提供不同计算资源的统一管理与动态分配服务,成本低、效率高,可以处理海量资源的能力,且能够反映网络空间安全领域更立体、更宽域、更多层次、更多样知识的特点,有利于对网络空间安全研究与发展进行更深入的分析与预测。
12.本发明进一步设置为:所述知识抽取模块为基于迁移学习和深度神经网络的知识抽取模型,且所述知识抽取模型包括基于bert的词嵌入层、bilstm-crf网络学习预测层和基于自标注数据的迁移学习模块。
13.本发明进一步设置为:所述知识抽取模型的工作流程包括以下步骤:
14.(1)对从互联网上爬取的“网络空间安全”领域原始数据进行清洗,搭建自标注平台并对领域数据进行标注,得到小规模领域数据集,即目标域数据集;
15.(2)获取通用数据集作为源域数据集,通用数据集即以常识内容为主的标注数据集;将通用数据集经本模型进行充分训练得到源域模型,该源域模型具备对通用语料(实体、关系)特征的抽取能力;
16.(3)将训练所得的源域模型迁移至目标域序网络的bilstm层,该层主要对输入信息进行特征抽取;再根据目标域数据集标签种类调整crf层的输出维度,该层主要将bilstm输出的特征向量解码为一个全局最优的预测标签;最后将目标域数据集输入迁移后的模型进行充分训练,得到具备对领域数据进行知识抽取能力的模型。
17.综上所述,本发明具有以下有益效果:
18.1、本发明的网络空间安全领域知识图谱云平台,便于提供不同计算资源的统一管理与动态分配服务,且成本低、效率高;
19.2、本发明的网络空间安全领域知识图谱云平台,可以处理海量资源的能力,且能够反映网络空间安全领域更立体、更宽域、更多层次、更多样知识的特点,有利于对网络空间安全研究与发展进行更深入的分析与预测。
附图说明
20.图1是本发明实施例中网络空间安全领域知识图谱云平台总体实现功能框图;
21.图2是本发明实施例中用户登录界面示意图;
22.图3是本发明实施例中用户管理(管理员端)示意图;
23.图4是本发明实施例中增加用户(管理员端)示意图;
24.图5是本发明实施例中主页界面(介绍平台核心功能)的示意图;
25.图6是本发明实施例中平台数据纵览功能示意图;
26.图7是本发明实施例中实体查询功能示意图;
27.图8是本发明实施例中实体查询示例图(查询“国家网络靶场”的所有关系);
28.图9是本发明实施例中关系查询功能示意图;
29.图10是本发明实施例中关系查询示例图(查询“国家网络靶场”的3度“关联”关系);
30.图11是本发明实施例中单条数据增删改功能示意图;
31.图12是本发明实施例中单条数据更新功能示意图。
具体实施方式
32.以下结合附图1-3对本发明作进一步详细说明。
33.实施例:
34.本发明中的网络空间安全领域知识图谱云平台的总体实现功能图1所示,包括openstack云管理系统,原始数据爬虫模块,知识抽取模块tbbc,知识存储图数据库,知识图谱应用管理服务等。
35.其中,上述各模块具有以下功能:
36.(1)openstack云管理系统为全平台提供硬件基础和系统管理功能。本平台的openstack使用稳定性较好的o版,部署采用常规的三节点部署方案,硬件分布和逻辑分布相同,均分为控制节点(负责云平台管理、运行应用管理服务)、计算节点(负责云平台性能监控、数据存储、运行功能模块等)和网络节点(负责平台内通信、爬虫服务)。
37.(2)原始数据爬虫模块使用python基于scrapy框架编写而成,而后封装成python文件,预留接口api供知识图谱服务器调用,运行在网络节点上;
38.(3)知识抽取模块(tbbc)使用python基于pytorch框架编写而成,而后封装成py文件,预留接口api供知识图谱应用服务调用,运行在计算节点上;
39.(4)知识图谱存储数据库采用neo4j图数据库,运行在计算节点上。图数据库的查询算法基于图论实现,相比于传统的oracle和mysql等关系数据库,图数据库更擅长对海量数据之间的复杂关系进行查询和分析,因此更适合存储本文所述的“网络空间安全”领域知识。neo4j官方提供免费的社区版本,其性能支持最大320亿个节点、320亿个关系和640亿个属性,以及最大4核的并行处理能力,足以满足我们的要求。
40.(5)应用管理服务运行在控制节点上,使用python基于django框架编写而成,负责应用功能的展示和响应。django是一款开源的web应用框架,使用了mtv模型架构,在该框架中,还包含许多功能强大的第三方插件,使得django具有较强的可扩展性。由于django的易维护性、高扩展性和数据驱动性等特点,我们可以更方便快捷地进行平台开发和后期维护,同时由于其使用主流的b/s架构,无需安装客户端,用户体验也更佳。
41.在本实施例中,本发明的网络空间安全领域知识图谱云平台的实现算法如下:
42.1、知识抽取
43.结合网络空间安全领域数据特性,本发明设计了基于迁移学习和深度神经网络的知识抽取模型(tbbc)模型,一共分为三个核心功能模块:基于bert的词嵌入层,bilstm-crf网络学习预测层,基于自标注数据的迁移学习模块。其中,实体识别和关系抽取采取的管道模式(pipeline),即先完成实体抽取,再结合原句和已识别实体进行关系抽取。
44.并且,该知识抽取模型(tbbc)模型的工作流程如下:
45.(1)对从互联网上爬取的“网络空间安全”领域原始数据进行清洗,搭建自标注平台并对领域数据进行标注,得到小规模领域数据集,即目标域数据集。
46.(2)获取通用数据集作为源域数据集,通用数据集即以常识内容为主的标注数据集。将通用数据集经本模型进行充分训练得到源域模型,该源域模型具备对通用语料(实体、关系)特征的抽取能力。
47.(3)将训练所得的源域模型迁移至目标域序网络的bilstm层,该层主要对输入信息进行特征抽取;再根据目标域数据集标签种类调整crf层的输出维度,该层主要将bilstm
输出的特征向量解码为一个全局最优的预测标签;最后将目标域数据集输入迁移后的模型进行充分训练,得到具备对领域数据进行知识抽取能力的模型。
48.由于使用tbbc训练抽取模型耗时较大,且需要使用显卡进行运算,而服务器无法配置显卡,故在平台初始构建中,先使用带显卡的工作站将当前爬取的所有原始文本进行知识抽取,获得知识数据后存储在如计算节点的数据库中,同时将训练好的pkl模型文件也一并存储在计算节点中。待有知识更新需求时,只需调用ttbc抽取模块并加载训练好的模型在cpu上进行知识抽取即可,无需再训练模型。由于只是增量更新,数据规模不大,因此计算节点的计算资源基本可以满足。待增量数据成规模后,再使用相应的硬件资源平台,依照流程训练模型,替换计算节点中的plk文件,即可实现抽取能力的更新和迭代。
49.2、实体消歧
50.在实际应用场景,命名实体具有多样性和歧义性特点,如“高峰”一词在不同句子中可能是表示一座山峰,也可能的表示一个人的名字,不同的含义所代表的实体不同,所连接的关系也不同。因此,解决实体消歧问题,才能更好地构建具有实际应用意义的知识图谱。
51.在tbbc知识抽取模型中,使用bert将每个词都映射成高维向量,因此,在进行实体消歧时,采用基于向量模型的方法,同时结合哈工大同义词林ltp,设计基于余弦相似度的实体消歧算法。余弦相似度,其思想是计算出两个向量之间夹角的余弦值来确定它们的相似度,两个向量的相似度由它们之间夹角决定。如果夹角θ为180度,余弦值为-1,则这两个向量的方向完全相反;如果夹角θ为0度,余弦值为1,则这两个向量的方向完全相同。
52.将余弦值替换为待消歧词的高维映射向量,则计算公式转换为如公式(1):
[0053][0054]
基于上述原理,本发明实施例中通过以下编程实现了基于余弦相似度的实体消歧算法,其算法描述如下:
[0055]
[0056]
[0057][0058]
3、知识存储、查询及可视化
[0059]
知识的存储、查询和可视化均涉及到与neo4j数据库的操作,neo4j原生只支持使用cypher语句进行操作。cypher由neo technology公司为neo4j而创建,是一种图数据库查询语言,其地位和作用与关系数据库中的sql相当。尽管cypher是一种声明式查询语言,具有执行高效的特点,但是对于知识图谱的潜在用户而言,仍然具有一定的学习门槛。倘若直接使用cypher语言进行查询,则违背了本平台人性化、便捷化的设计初衷。
[0060]
因此,本发明的实施例中,在平台构建时,使用基于python的第三方sdk——py2neo,将所有对neo4j的操作进行封装,达到前端与后端的解耦,实现业务逻辑的互不干扰。
[0061]
4、数据管理
[0062]
数据管理功能中,包括平台数据管理和知识数据管理。
[0063]
在本发明的实施例中,平台数据管理加入了人员管理,包括人员类别和人员权限。管理员拥有全权限,可以创建新用户和增删改查数据库,同时还能对数据库进行全量备份和增量更新;普通用户只能查询数据,无法进行数据更改。这样的设定更符合平台的日常使用场景。
[0064]
知识数据管理功能为对数据库中的数据进行更新和备份。领域知识是处在动态当中,在数据爆炸的时,只有及时更新知识才能保证平台的查准性和查全性。通过备份,满足平台的容灾能力,本发明中除了openstack云系统级别的备份外,还支持手动备份,满足使用场景的多元化。
[0065]
关于本发明的云平台的运行验证如下:
[0066]
1、用户登录界面(如图2所示):
[0067]
在本发明的实施例中,该云平台的用户登录界面包含常用的“注册新用户”以及“忘记密码”等功能,同时为支持连接互联网使用常用社交账户登录等扩展功能预留了接口。
[0068]
2、用户管理界面(如图3和图4所示):本发明实施例中的平台的用户有管理员和普通用户两级权限,不同权限拥有不同的操作能力。
[0069]
3、知识图谱数据纵览:
[0070]
在本实施例中,通过图5和图6的形式展示了本发明的云平台的所有功能以及数据内容,所展示内容支持动态更新,数据和功能与平台保持同步。
[0071]
4、知识查询界面:在本发明的实施例中,本发明的知识查询是核心功能,主要包含三个子功能:实体查询,关系查询和关系深度查询。实体查询,即基于实体名称查询与其有关系的所有1度邻接实体;关系查询,即当明确实体名称和关系类型时,查询相关1度关系;关系深度查询,即当明确实体名称、关系以及关系深度时,查询对应关系及深度的所有实体。具体功能示意如图7至图10所示。
[0072]
5、数据管理界面:本发明的数据管理功能主要包含单条数据增删、批量(实体、关系)数据更新、批量数据备份等三个子功能,能实现实体关系数据在各级粒度的操作,同时也能进行全量数据备份。具体功能如图11和图12所示。
[0073]
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献