一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据去重方法及装置、存储介质、电子设备与流程

2022-11-16 17:12:01 来源:中国专利 TAG:

技术特征:
1.一种数据去重方法,其特征在于,所述方法包括:获取威胁情报数据,并对所述威胁情报数据进行预处理确定数据类型;当所述数据类型为非结构化类型时,对所述威胁情报数据进行文本相似度计算得到语义特征向量,并根据所述语义特征向量对所述威胁情报数据进行去重处理;或当所述数据类型为结构化类型时,对所述数据类型进行数据压缩处理,并存储压缩后的所述威胁情报数据,以进行去重处理。2.根据权利要求1所述的数据去重方法,其特征在于,所述对所述威胁情报数据进行预处理确定数据类型,包括:对所述威胁情报数据进行数据标准化处理,并对处理后的所述威胁情报数据进行提取处理得到关键数据;对所述关键数据进行数据清洗处理,并对清洗后的所述关键数据进行分类得到数据类型。3.根据权利要求2所述的数据去重方法,其特征在于,所述对所述数据类型进行数据压缩处理,包括:对所述数据类型进行编码得到第一比特向量,并对所述关键数据进行哈希计算得到第二比特向量;对所述第一比特向量和所述第二比特向量进行计算得到目标比特向量,以得到压缩后的所述威胁情报数据。4.根据权利要求1所述的数据去重方法,其特征在于,在所述对所述威胁情报数据进行文本相似度计算得到语义特征向量之前,所述方法还包括:将所述威胁情报数据输入联合提取模型,以使所述联合提取模型输出情报关键字和情报类别;利用结构化去重算法对所述情报关键字和所述情报类别进行打分得到第一去重评分。5.根据权利要求4所述的数据去重方法,其特征在于,所述联合提取模型通过如下方法训练得到:利用预训练算法对训练样本进行字符向量训练得到文本向量,并对所述文本向量进行编码得到编码向量;对所述编码向量进行序列标签预测得到关键字数据,并对所述编码向量进行类别预测得到类别数据。6.根据权利要求4所述的数据去重方法,其特征在于,所述语义特征向量包括高级语义向量和中级语义向量,所述对所述威胁情报数据进行文本相似度计算得到语义特征向量,包括:将所述威胁情报数据输入全二值量化的语言表征模型,以使所述语言表征模型输出所述高级语义向量和所述中级语义向量。7.根据权利要求6所述的数据去重方法,其特征在于,所述根据所述语义特征向量对所述威胁情报数据进行去重处理,包括:获取情报数据库中的已存情报数据,并对所述中级语义向量和所述已存情报数据进行第一距离计算确定情报候选集;对所述情报候选集中的所述高级语义向量和所述已存情报数据进行第二距离计算确
定第二去重评分,并对所述第一去重评分和所述第二去重评分进行计算得到重复置信度;根据所述重复置信度对所述威胁情报数据进行去重处理。8.一种数据去重装置,其特征在于,包括:数据获取模块,被配置为获取威胁情报数据,并对所述威胁情报数据进行预处理确定数据类型;第一去重模块,被配置为当所述数据类型为非结构化类型时,对所述威胁情报数据进行文本相似度计算得到语义特征向量,并根据所述语义特征向量对所述威胁情报数据进行去重处理;或第二去重模块,被配置为当所述数据类型为结构化类型时,对所述数据类型进行数据压缩处理,并存储压缩后的所述威胁情报数据,以进行去重处理。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的数据去重方法。10.一种电子设备,其特征在于,包括:处理器;存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的数据去重方法。

技术总结
本公开属于网络安全技术领域,涉及一种数据去重方法及装置、存储介质、电子设备。该方法包括:获取威胁情报数据,并对威胁情报数据进行预处理确定数据类型;当数据类型为非结构化类型时,对威胁情报数据进行文本相似度计算得到语义特征向量,并根据语义特征向量对威胁情报数据进行去重处理;或当数据类型为结构化类型时,对数据类型进行数据压缩处理,并存储压缩后的威胁情报数据,以进行去重处理。本公开解决了威胁情报数据去重过程中占用内存过大和处理流程耗时的问题,解决了原有去重方法不能捕获文本信息的问题,兼顾提升了非结构化威胁情报数据的检索效率,解决了去重海量威胁情报数据和存储威胁情报数据带来的系统资源消耗过多的问题。耗过多的问题。耗过多的问题。


技术研发人员:高岩 袁涵 郭实秋 鞠港
受保护的技术使用者:中国电信股份有限公司
技术研发日:2022.08.17
技术公布日:2022/11/15
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献