一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于短文本的网络安全威胁事件抽取方法与流程

2022-02-19 03:52:57 来源:中国专利 TAG:


1.本发明涉及到网络安全威胁事件领域,具体而言,涉及到一种网络安全威胁事件抽取方法。


背景技术:

2.当今世界各类攻击性极高的网络安全事件时有发生,并且攻击面也越来越广,网络安全态势十分严峻。因人们的日常工作和生活需要,网络社交媒体的应用越来越广泛,各类社交媒体平台中的数据信息迅猛增长。新闻、网络媒体机构也在社交平台上建立官方账号,发布实时新闻,其中就有许多网络安全公司及个人第一时间发布关于网络攻击事件的新闻。如何利用网络中公开发布的海量媒体信息,有效获得并抽取出直观的网络安全威胁事件内容,对网络安全从业人员了解相关网络安全威胁事件并积极实施网络安全防御有十分重要的帮助。
3.现有的网络安全威胁事件检测技术及广域上事件抽取技术主要存在以下两个问题:(1)由于研究领域的不同,直接应用广域上的相关技术在网络安全威胁事件抽取领域时,会出现实体抽取效果较差、事件检测不准确问题;(2)社交媒体的独特性,社交媒体信息具有用户发布的信息较短、用户用词口语化严重、文本的规范连通性较差特点,这极大程度加大关键信息的抽取难度。
4.针对社交媒体短文本在网络安全威胁事件抽取领域文本过短、口语化词汇过多,信息连通性较差问题,目前亟需一种基于短文本的网络安全威胁事件抽取方法,能有效的从社交媒体平台发布的短文本信息中抽取网络安全威胁事件,为安全人员及时应对网络威胁事件并积极实施网络安全防御提供有效帮助。


技术实现要素:

5.有鉴于此,本技术的目的在于提供一种基于短文本的网络安全威胁事件抽取方法,旨在解决网络安全威胁事件抽取中的事件检测与事件元素识别的问题。本技术实施例提供了一种基于短文本的网络安全威胁事件抽取方法,应用于对社交媒体平台短文本领域中出现的网络安全威胁事件信息进行有效的事件抽取;所述方法包括:采集所述原始数据集,对数据集进行清洗和标注生成适用于网络安全威胁事件检测与事件元素识别的语料库。
6.根据生成的语料库,使用多种词向量模型对文本进行单词级别向量嵌入,使用lda主题模型获取文本关键字进行文本句子级别向量嵌入,完成多维度集成编码的文本特征向量表示用于事件检测;使用bilstm和注意力机制构建事件检测模型,全面获取文本的深层次语义特征、高效准确的进行事件检测。
7.同时使用word2vec、glove、fasttext预训练好的词向量模型进行集成编码,获取单词级别的特征向量;使用ida主题分类模型获取文本的主题关键字作为文本级特征;获取
所述的两种特征向量作为bilstm和注意力机制的输入,训练网络安全威胁事件检测模型;基于多因素的网络安全威胁领域事件元素识别模型根据不同事件元素特点完成事件元素的准确、高效识别。
8.首先使用基于规则模板的方法识别相应类型的网络安全命名实体,然后屏蔽已知的命名实体,训练基于bilstm和空洞卷积神经网络的网络安全威胁事件元素识别模型。
9.使用联合模型有效完成网络安全威胁事件抽取的两个子任务,最终能够合理完成短文本网络安全威胁事件抽取。
10.网络完全威胁事件检测模型完成对事件的检测,多元素的网络安全威胁事件元素识别模型完成对事件元素的识别,最后根据事件类型建立不同的事件模板对事件元素进行模板填充完成整个事件的构建。
附图说明
11.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
12.图1是本技术一实施例提出的基于短文本的网络安全威胁事件抽取方法的流程示意图;图2是本技术一实施例提出的针对步骤s12的具体的流程示意图。
具体实施方式
13.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
14.参考图1,图1示出了本技术一实施例提出的基于短文本的网络安全威胁事件抽取方法的流程图。如图1所示,该方法包括以下步骤:步骤s11:采集所述原始数据集,对数据集进行清洗和标注生成适用于网络安全威胁事件检测与事件元素识别的语料库。
15.本实施例中,采集网络安全威胁事件模型和事件元素识别模型进行训练和测试的原始数据集,原始的数据集进行清洗和标注,生成适用于所述两个模型的语料库。
16.示例地,采集的原始数据集来源一是利用爬虫技术,使用twint库以关键字的形式从推特社交平台的推文中采集相关数据;二是采集的其他相关的公开数据集,数据集保存为csv格式。
17.示例地,对原始的数据集进行数据清洗是除重复的文本,筛选掉过短、无信息量的文本;数据标注是使用斯坦福命名实体识别工具进行自动预标注、网络安全威胁事件领域特定的字词匹配标注和brat开源系统进行手动标注;重新清理标注后的数据,清理停顿词、冠词、生成适用于网络安全威胁事件检测与事件元素识别的语料库。
18.步骤s12:采用集成编码的方式,使用不同的词向量预训练模型获得词级别的特征
向量,使用lda主题模型对文本的主题关键字进行提取获得文本级特征向量,使用bilstm和注意力机制对模型进行训练。
19.本实施例中,同时使用word2vec、glove、fasttext预训练好的词向量模型进行集成编码,获取单词级别的特征向量;使用ida主题分类模型获取文本的主题关键字作为文本级特征;获取所述的两种特征向量作为bilstm和注意力机制的输入,训练网络安全威胁事件检测模型。
20.针对获取单词级别特征向量和文本级别向量,构建网络安全威胁事件检测模型执行以下步骤:步骤s12a:对数据集进行统计得到单词字典,采用集成编码的方式,使用word2vec、glove、fasttext词向量预训练模型获得词级别的特征向量;步骤s12b:使用python的gensim库构建lda主题模型,遍历不同的主题个数得到不同的主题模型,使用主题一致性来衡量主题模型的优劣,对文本的主题关键字进行提取获得文本级特征向量;步骤s12c:数据集进行词嵌入,对嵌入的结果分别使用自注意力机制和bilstm进行文本的上下文及关键部分特征获取。
21.示例地,使用lstm神经网络对结果进行联合、使用droput层防止过拟合,dense层进行全连接拼凑。
22.示例地,为了保证模型的良好性能,使用单词级的特征和文本级的特征进行模型分类训练,使用验证集对模型进行超参数的优化调整,使用测试集对模型的检测效果进行评估。
23.步骤s13:网络安全威胁事件元素识别模型根据网络安全威胁事件元素的构成特点,使用两种不同的方法从文本中提取事件元素。
24.本实施例中,首先使用基于规则模板的方法识别相应类型的网络安全命名实体,然后屏蔽已知的命名实体,训练基于bilstm和空洞卷积神经网络的网络安全威胁事件元素识别模型。
25.示例地,ip、url、漏洞编号、邮箱、版本号这几类事件元素都具有十分明显的结构特征,使用正则表达式进行抽取;人名、组织、漏洞术语几类命名实体,没有明显的结构特征则基于空洞卷积神经网络和bilstm方法自动提取特征,最终获取网络威胁事件元素。
26.示例地,将已知的实体进行屏蔽之后将文本汇集。随后输入建立好神经网络,bilstm 和 idcnn 的输出可以视为文本的状态特征矩阵,接上crf层则利用标签转移概率来约束标签的输出结果。
27.示例地,在训练过程中,使用 checkpoint 技术实时监控 val_loss(验证集的损失函数值)作为结果参考,保存训练过程中的最佳模型。
28.步骤s14:建立联合模型,完成网络安全威胁事件抽取。
29.本实施例中,网络完全威胁事件检测模型完成对事件的检测,多元素的网络安全威胁事件元素识别模型完成对事件元素的识别,最后根据事件类型建立不同的事件模板对事件元素进行模板填充完成整个事件的构建。
30.尽管已描述了本技术实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为
包括优选实施例以及落入本技术实施例范围的所有变更和修改。
31.以上对本技术所提供的一种网络安全威胁事件抽取方法,进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所诉,本说明书内容不应该理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献