数据去重方法及装置、存储介质、电子设备与流程

2022-11-16 17:12:01 来源：中国专利 TAG：

1.本公开涉及网络安全技术领域，尤其涉及一种数据去重方法与数据去重装置、计算机可读存储介质及电子设备。

背景技术：

2.随着互联网特别是移动互联网的高速发展，越来越多的网络设备、物联网设备接入到主干网，互联网拓扑环境越发复杂，不同的攻击行为更具产业化，入侵手法也越发多样化和复杂化，使得传统安全解决方案不断受到挑战。同时，随着国家地位的不断提升，我国遭受的网络攻击也趋于多样化、复杂化。在此背景下，威胁情报越发受到企业的关注，安全设备结合威胁情报能够发挥更大的作用，企业的安全运营结合威胁情报能够更快速地响应安全事件。
3.随着网络攻击事件越来越频繁的发生，每日所产生的威胁情报数以百万，然而，无论是商业威胁情报还是开源网站中的威胁情报，质量都是良莠不齐，非同源的威胁情报存在大量重复数据，同源威胁情报也存在与以往数据重复的情况，导致占用内存过大，对平台运营、存储和运维等多方面造成不良影响。
4.鉴于此，本领域亟需开发一种新的数据去重方法及装置。
5.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

6.本公开的目的在于提供一种数据去重方法、数据去重装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的占用内存过大的技术问题。
7.本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。
8.根据本发明实施例的第一个方面，提供一种数据去重方法，所述方法包括：
9.获取威胁情报数据，并对所述威胁情报数据进行预处理确定数据类型；
10.当所述数据类型为非结构化类型时，对所述威胁情报数据进行文本相似度计算得到语义特征向量，并根据所述语义特征向量对所述威胁情报数据进行去重处理；或
11.当所述数据类型为结构化类型时，对所述数据类型进行数据压缩处理，并存储压缩后的所述威胁情报数据，以进行去重处理。
12.在本发明的一种示例性实施例中，所述对所述威胁情报数据进行预处理确定数据类型，包括：
13.对所述威胁情报数据进行数据标准化处理，并对处理后的所述威胁情报数据进行提取处理得到关键数据；
14.对所述关键数据进行数据清洗处理，并对清洗后的所述关键数据进行分类得到数
据类型。
15.在本发明的一种示例性实施例中，所述对所述数据类型进行数据压缩处理，包括：
16.对所述数据类型进行编码得到第一比特向量，并对所述关键数据进行哈希计算得到第二比特向量；
17.对所述第一比特向量和所述第二比特向量进行计算得到目标比特向量，以得到压缩后的所述威胁情报数据。
18.在本发明的一种示例性实施例中，在所述对所述威胁情报数据进行文本相似度计算得到语义特征向量之前，所述方法还包括：
19.将所述威胁情报数据输入联合提取模型，以使所述联合提取模型输出情报关键字和情报类别；
20.利用结构化去重算法对所述情报关键字和所述情报类别进行打分得到第一去重评分。
21.在本发明的一种示例性实施例中，所述联合提取模型通过如下方法训练得到：
22.利用预训练算法对训练样本进行字符向量训练得到文本向量，并对所述文本向量进行编码得到编码向量；
23.对所述编码向量进行序列标签预测得到关键字数据，并对所述编码向量进行类别预测得到类别数据。
24.在本发明的一种示例性实施例中，所述语义特征向量包括高级语义向量和中级语义向量，
25.所述对所述威胁情报数据进行文本相似度计算得到语义特征向量，包括：
26.将所述威胁情报数据输入全二值量化的语言表征模型，以使所述语言表征模型输出所述高级语义向量和所述中级语义向量。
27.在本发明的一种示例性实施例中，所述根据所述语义特征向量对所述威胁情报数据进行去重处理，包括：
28.获取情报数据库中的已存情报数据，并对所述中级语义向量和所述已存情报数据进行第一距离计算确定情报候选集；
29.对所述情报候选集中的所述高级语义向量和所述已存情报数据进行第二距离计算确定第二去重评分，并对所述第一去重评分和所述第二去重评分进行计算得到重复置信度；
30.根据所述重复置信度对所述威胁情报数据进行去重处理。
31.根据本发明实施例的第二个方面，提供一种数据去重装置，包括：
32.数据获取模块，被配置为获取威胁情报数据，并对所述威胁情报数据进行预处理确定数据类型；
33.第一去重模块，被配置为当所述数据类型为非结构化类型时，对所述威胁情报数据进行文本相似度计算得到语义特征向量，并根据所述语义特征向量对所述威胁情报数据进行去重处理；或
34.第二去重模块，被配置为当所述数据类型为结构化类型时，对所述数据类型进行数据压缩处理，并存储压缩后的所述威胁情报数据，以进行去重处理。
35.在本发明的一种示例性实施例中，所述对所述威胁情报数据进行预处理确定数据
类型，包括：
36.对所述威胁情报数据进行数据标准化处理，并对处理后的所述威胁情报数据进行提取处理得到关键数据；
37.对所述关键数据进行数据清洗处理，并对清洗后的所述关键数据进行分类得到数据类型。
38.在本发明的一种示例性实施例中，所述对所述数据类型进行数据压缩处理，包括：
39.对所述数据类型进行编码得到第一比特向量，并对所述关键数据进行哈希计算得到第二比特向量；
40.对所述第一比特向量和所述第二比特向量进行计算得到目标比特向量，以得到压缩后的所述威胁情报数据。
41.在本发明的一种示例性实施例中，在所述对所述威胁情报数据进行文本相似度计算得到语义特征向量之前，所述方法还包括：
42.将所述威胁情报数据输入联合提取模型，以使所述联合提取模型输出情报关键字和情报类别；
43.利用结构化去重算法对所述情报关键字和所述情报类别进行打分得到第一去重评分。
44.在本发明的一种示例性实施例中，所述联合提取模型通过如下方法训练得到：
45.利用预训练算法对训练样本进行字符向量训练得到文本向量，并对所述文本向量进行编码得到编码向量；
46.对所述编码向量进行序列标签预测得到关键字数据，并对所述编码向量进行类别预测得到类别数据。
47.在本发明的一种示例性实施例中，所述语义特征向量包括高级语义向量和中级语义向量，
48.所述对所述威胁情报数据进行文本相似度计算得到语义特征向量，包括：
49.将所述威胁情报数据输入全二值量化的语言表征模型，以使所述语言表征模型输出所述高级语义向量和所述中级语义向量。
50.在本发明的一种示例性实施例中，所述根据所述语义特征向量对所述威胁情报数据进行去重处理，包括：
51.获取情报数据库中的已存情报数据，并对所述中级语义向量和所述已存情报数据进行第一距离计算确定情报候选集；
52.对所述情报候选集中的所述高级语义向量和所述已存情报数据进行第二距离计算确定第二去重评分，并对所述第一去重评分和所述第二去重评分进行计算得到重复置信度；
53.根据所述重复置信度对所述威胁情报数据进行去重处理。
54.根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中的数据去重方法。
55.根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的数据去重方
法。
56.由上述技术方案可知，本公开示例性实施例中的数据去重方法、数据去重装置、计算机存储介质及电子设备至少具备以下优点和积极效果：
57.在本公开的示例性实施例提供的方法及装置中，确定威胁情报数据的数据类型，为针对不同类型的威胁情报数据提供不同的去重方式提供了数据基础和理论支持。一方面，根据语义特征向量对威胁情报数据进行去重处理，解决了威胁情报数据去重过程中占用内存过大和处理流程耗时的问题，有效解决了原有去重方法不能捕获文本信息的问题，同时也兼顾提升了非结构化威胁情报数据的检索效率。另一方面，对结构化的威胁情报数据的数据类型进行数据压缩处理，解决了海量威胁情报数据因去重过程带来的消耗过多系统资源的问题，也减少了存储威胁情报数据带来的资源消耗。
58.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
59.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
60.图1示意性示出本公开示例性实施例中一种数据去重方法的流程示意图；
61.图2示意性示出本公开示例性实施例中确定数据类型的方法的流程示意图；
62.图3示意性示出本公开示例性实施例中利用联合提取模型确定威胁情报数据的第一去重评分的方法的流程示意图；
63.图4示意性示出本公开示例性实施例中训练联合提取模型的方法的流程示意图；
64.图5示意性示出本公开示例性实施例中对威胁情报数据进行去重处理的方法的流程示意图；
65.图6示意性示出本公开示例性实施例中对数据类型进行数据压缩处理的方法的流程示意图；
66.图7示意性示出本公开示例性实施例中应用场景下数据去重系统的结构示意图；
67.图8示意性示出本公开示例性实施例中数据处理模块的结构示意图；
68.图9示意性示出本公开示例性实施例中情报关键词-类型联合提取模型的结构示意图；
69.图10示意性示出本公开示例性实施例中全二值量化的语言表征模型的结构示意图；
70.图11示意性示出本公开示例性实施例中数据压缩模块的结构示意图；
71.图12示意性示出本公开示例性实施例中一种数据去重装置的结构示意图；
72.图13意性示出本公开示例性实施例中一种用于实现数据去重方法的电子设备；
73.图14意性示出本公开示例性实施例中一种用于实现数据去重方法的计算机可读存储介质。
具体实施方式
74.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
75.本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。
76.此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。
77.随着互联网特别是移动互联网的高速发展，越来越多的网络设备、物联网设备接入到主干网，互联网拓扑环境越发复杂，不同的攻击行为更具产业化，入侵手法也越发多样化和复杂化，使得传统安全解决方案不断受到挑战。同时随着国家地位的不断提升，我国遭受的网络攻击也趋于多样化、复杂化。
78.在此背景下，威胁情报越发受到企业的关注，安全设备结合威胁情报能够发挥更大的作用，企业的安全运营结合威胁情报能够更快速地响应安全事件。因此，威胁情报在网络安全防护中扮演的角色越来越重要。
79.威胁情报是指包含多种类型，多个维度在内的情报知识库。其中，威胁情报可以包含漏洞情报、资产情报、ioc(indicator of compromise，威胁指示器)情报、事件情报等。
80.威胁情报作为基于证据、场景、机制、指标和可操作建议的知识集合，能够有效弥补网络安全防御盲区，将被动保护转变为主动抵御。在检测已有攻击的同时能够进行威胁溯源、证据发现、攻击预测、建立攻击图谱等，从整体上提升网络安全设备的防护能力，从而降低网络攻击造成的影响，同时为安全决策者提供网络防御的重要参考。
81.随着网络攻击事件越来越频繁的发生，每日所产生的威胁情报数以百万，然而无论是商业威胁情报还是开源网站中的威胁情报，质量都是良莠不齐，非同源的威胁情报存在大量重复数据，同源威胁情报也存在与以往数据重复的情况。而作为威胁情报平台，需要提供精准高质量的数据。而数据源每日产生的大量重复数据，对于平台运营、存储、运维，都造成影响，因此威胁情报数据去重步骤成为情报处理的重要组成部分，直接关系到情报质量与威胁情报平台建设。
82.针对相关技术中存在的问题，本公开提出了一种数据去重方法。图1示出了数据去重方法的流程图，如图1所示，数据去重方法至少包括以下步骤：
83.步骤s110.获取威胁情报数据，并对威胁情报数据进行预处理确定数据类型。
84.步骤s120.当数据类型为非结构化类型时，对威胁情报数据进行文本相似度计算
得到语义特征向量，并根据语义特征向量对威胁情报数据进行去重处理。
85.步骤s130.当数据类型为结构化类型时，对数据类型进行数据压缩处理，并存储压缩后的威胁情报数据，以进行去重处理。
86.在本公开的示例性实施例中，确定威胁情报数据的数据类型，为针对不同类型的威胁情报数据提供不同的去重方式提供了数据基础和理论支持。一方面，根据语义特征向量对威胁情报数据进行去重处理，解决了威胁情报数据去重过程中占用内存过大和处理流程耗时的问题，有效解决了原有去重方法不能捕获文本信息的问题，同时也兼顾提升了非结构化威胁情报数据的检索效率。另一方面，对结构化的威胁情报数据的数据类型进行数据压缩处理，解决了海量威胁情报数据因去重过程带来的消耗过多系统资源的问题，也减少了存储威胁情报数据带来的资源消耗。
87.下面对数据去重方法的各个步骤进行详细说明。
88.在步骤s110中，获取威胁情报数据，并对威胁情报数据进行预处理确定数据类型。
89.在本公开的示例性实施例中，威胁情报是指包含多种类型，多个维度在内的情报知识库。
90.其中，威胁情报可以包含漏洞情报、资产情报、ioc情报、事件情报等。
91.威胁情报作为基于证据、场景、机制、指标和可操作建议的知识集合，能够有效弥补网络安全防御盲区，将被动保护转变为主动抵御，在检测已有攻击的同时能够进行威胁溯源、证据发现、攻击预测、建立攻击图谱等，从整体上提升网络安全设备的防护能力，从而降低网络攻击造成的影响，同时为安全决策者提供网络防御的重要参考。
92.根据属性对威胁情报数据进行分类，能够使威胁情报和使用场景相匹配。
93.基于此，可以将威胁情报数据分成基础情报类、资产类、漏洞类、事件类、ioc类、攻击组织类和其他情报类型等。
94.其中，基础情报包含网络中的常见对象，例如ip(internet protocol，网际互连协议)地址(192.168.0.x)，域名(www.xxxxx.com)、邮箱(example@xx.com)、url(uniform resource locator，统一资源定位器)(http://www.xxxxxx.com)以及证书等。
95.其中，对于每一个类别的基础情报包含例如所使用的端口、提供的服务类型，whois(域名查询协议)信息(包含是否已经被注册，以及注册域名的详细信息)，以及ip、域名、url的地理位置信息，例如经纬度、所属国家地区城市等。
96.资产情报按内容的不同，大致可分为风险资产情报、资产变更情报和资产发现情报三类。所谓资产就是互联网中的物理设备或者虚拟设备，例如路由器、交换机、服务器、主机等。
97.漏洞情报指运用威胁情报技术，对现有漏洞进行数据采集、分析，描述而形成的知识库。
98.其中，例如国家相关漏洞库(例如nvd(national vulnerability database，国家漏洞数据库)、cnvd(china national vulnerability database，国家信息安全漏洞共享平台)、cnnvd(china national vulnerability database of information security，中国国家信息安全漏洞库))或者通用漏洞披露(common vulnerabilities&exposures，cve)，主要描述了漏洞的名称、描述、类型、危害评分、实现原理、影响以及补丁措施等。
99.事件类情报是指对各种类型的情报、相关的事件。例如发生的时间、造成的影响
等。通过对安全事件的类型、来源、潜在影响、关联漏洞或攻击组织等进行文字化详细的描述，有利于帮助安全运营人员或者非专业人士及时了解外部威胁状况，从而进行响应。
100.ioc是指威胁指示器，用来描述网络攻击的检测特征。例如攻击源ip、域名以及恶意文件的md5(md5 message-digest algorithm，md5信息摘要算法)哈希值，或者流量特征、钓鱼邮件所属邮箱等。安全人士可以通过ioc情报进行风险研判和安全加固等。
101.攻击组织包含威胁主体名称，例如黑客组织名称等，还有攻击主体角色，例如黑客、白帽等，以及攻击组织的攻击针对行业、国家等。
102.其他情报类型可以包括威胁报告、重大活动保障类和内部情报等。
103.在获取到威胁情报数据之后，可以对该威胁情报数据进行预处理，以确定威胁情报数据的数据类型。
104.在可选的实施例中，图2示出了确定数据类型的方法的流程示意图，如图2所示，该方法至少可以包括以下步骤：在步骤s210中，对威胁情报数据进行数据标准化处理，并对处理后的威胁情报数据进行提取处理得到关键数据。
105.将不同情报来源的威胁情报数据进行数据标准化处理。举例而言，数据标准化处理可以是形成json(javascript object notation，js对象简谱)格式等，本示例性实施例对此不做特殊限定。
106.进一步的，可以对数据标准化处理后的威胁情报数据进行提取处理，以得到例如攻击者ip、攻击类型和威胁等级等关键数据。
107.不同类型的威胁情报提取平台所需要的关键字不同，在此之后可以形成统一格式的json文档作为关键数据。
108.在步骤s220中，对关键数据进行数据清洗处理，并对清洗后的关键数据进行分类得到数据类型。
109.由于不同来源的情报质量不一，存在包含例如换行符“\n”、制表符“\t”等字符，因此可以通过数据清洗处理对关键数据进行字符删减、替换、去掉敏感词和停用词等，以使清洗后的关键数据能够满足后续处理流程的要求。
110.数据分类是针对威胁情报数据的去重流程。原始清洗后的关键数据根据威胁情报数据类型，可以将攻击组织情报、事件类情报以及报告等被划分成非结构化情报数据，而基础情报、漏洞情报和ioc情报等划分成结构化情报数据。
111.不同的威胁情报数据的划分方式参考表1：
[0112][0113]
表1
[0114]
具体的，根据情报数据格式可以将情报类型分为结构化情报和非结构化情报。
[0115]
其中，结构化威胁情报是指例如ip、资产、漏洞等能够通过字符串进行唯一标识的数据，例如具体的ip地址以及漏洞编号，并且，其他情报类型中包括的威胁报告、重大活动保障类和内部情报也可以是结构化类型。通过这些能够唯一标识一条情报信息。
[0116]
非结构化的威胁情报数据是指事件类威胁情报等。通过文字化描述一个攻击事件等，其中包含如漏洞信息、攻击组织信息等。这类情报无法直接使用，通常需要人读或者机读提取所需信息进行梳理，以生成可用情报。
[0117]
在本示例性实施例中，通过预处理能够确定威胁情报数据的数据类型，为后续的去重处理提供了数据基础和理论支持，保证了数据去重的准确性和时效性。
[0118]
在步骤s120中，当数据类型为非结构化类型时，对威胁情报数据进行文本相似度计算得到语义特征向量，并根据语义特征向量对威胁情报数据进行去重处理。
[0119]
在本公开的示例性实施例中，当威胁情报数据为非结构化情报数据时，由于通过观察大量数据发现，威胁情报文本类似的情况下，情报关键字并不相同，例如情报1：木马后门，漏洞利用：cve-2022-26134；情报2：木马后门，安全漏洞：cve-2022-30716。
[0120]
仅仅通过词共现文本相似度计算方法，由于存在“木马后门”“漏洞”等共现词语，通过simhash(用来网页去重最常用的hash方法)能够获得62.5％的相似度，但是，两条文本的关键字cve漏洞编号并不相同，显而易见是两条不同情报文本。
[0121]
因此，针对以上问题，提出情报关键词-类型联合提取模型。对于情报文本提取情报关键词，例如ip地址、攻击组织、ioc情报、漏洞编号(cve)等，例如“木马后门，安全漏洞：cve-2022-30716”，则提取cve-2022-30716。同时，该模型在提取情报关键字的同时，判断情报类型。
[0122]
在可选的实施例中，图3示出了利用联合提取模型确定威胁情报数据的第一去重评分的方法的流程示意图，如图3所示，该方法至少可以包括以下步骤：在步骤s310中，将威胁情报数据输入联合提取模型，以使联合提取模型输出情报关键字和情报类别。
[0123]
在可选的实施例中，图4示出了训练联合提取模型的方法的流程示意图，如图4所示，该方法至少可以包括以下步骤：在步骤s410中，利用预训练算法对训练样本进行字符向量训练得到文本向量，并对文本向量进行编码得到编码向量。
[0124]
该联合提取模型利用联合训练的思想，输入为非结构化情报的情报文本向量，经过字嵌入层、编码层、条件随机场层、序列预测层和类别预测层，最终输出结果为情报关键字的起始和结束位置以及情报类别。
[0125]
其中，序列标签为[b_t，o_t，e_t，x]，分别代表关键字开始位置，关键字区间位置、关键字结束位置和非关键字。
[0126]
情报类型标签为{0：基础情报，1：漏洞情报，2：资产情报，3：事件情报，4：ioc情报，5：攻击组织情报，6：其他类型情报}。
[0127]
具体的，通过威胁情报向量预训练算法将所有的标注数据进行字符向量训练。
[0128]
字符向量的基本思想是把每个字符表征为k维向量，字符向量训练过程中能够学习到字符与字符之间的关系，同时，向量形式的词汇表示方式有利于计算。具体的计算公式如下：
[0129][0130]
其中，为字符嵌入矩阵，xi为第i个字符索引序号，为第i个字符向量表示。
[0131]
进而，通过双向长短时记忆神经网络对文本向量进行编码，获得文本向量的深层表示，公式如下：
[0132][0133][0134][0135]
其中，为字符向量，经过正向与逆向长短时记忆神经网络编码获得正向隐层状态与逆向隐层状态两个向量相连作为文本编码表示，使用hi表示。
[0136]
在步骤s420中，对编码向量进行序列标签预测得到关键字数据，并对编码向量进行类别预测得到类别数据。
[0137]
在进行序列标签预测时，考虑到对编码向量的前后信息对标签预测的影响，还可以通过条件随机场层对编码向量进行处理。
[0138]
进而，通过序列标签预测方法将对齐编码特征的每一个隐藏层状态进行标签预测。
[0139]
一般情况下，在模型进行标签预测阶段可以使用softmax函数(一种逻辑回归模型)进行处理。对于每一个字符，预测其为关键字开始、关键字结束、关键字区间、非关键字的概率，最终选择概率最大的项作为每一个字符的标签，通过起始标签和结束标签来提取关键字，以得到关键字数据。
[0140]
同时通过隐层向量hi，通过前馈神经网络预测该情报类型，公式如下：
[0141]
p＝softmax(whi b)i∈{1,
…
,m}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0142]
其中，w、b为待学习的参数，hi为一条威胁情报文本的隐层向量标识，p为威胁情报文本属于某一个类别的概率，取概率最大的那个类别判断为该条情报的类型，以得到类别
prediction(下一句预测)为训练目标，通过预训练得到通用语义表示。
[0157]
其中，是否有监督(supervised)取决于输入数据是否有标签(label)。输入数据有标签，则为有监督学习，没标签则为无监督学习。
[0158]
与传统的word2vec(word to vector，用来产生词向量的相关模型)、glove(global vectors for word representation，一个基于全局词频统计(count-based&overall statistics)的词表征(word representation)工具)等嵌入词向量相比，bert满足了近年来十分盛行的语境词表征(contextual word representation)的概念，即考虑上下文的内容，同个词语在不同语境中有不同的表示方式。直觉上理解，这个也满足人类自然语言的真实情况，即同一个词汇的含义在不同情景中是很有可能不相同的。
[0159]
在可选的实施例中，语义特征向量包括高级语义向量和中级语义向量。
[0160]
将威胁情报数据输入全二值量化的语言表征模型，以使语言表征模型输出高级语义向量和中级语义向量。
[0161]
非结构化威胁情报文本进行编码，使用的是bert预训练语言模型将字符向量经过编码并通过最大池化层生成文本向量，生成文本向量便可以进行情报文本相似度计算，一般采用余弦相似度等。但是，由于威胁情报数据量较大，采用这种方法无法满足性能要求，因此采用比特编码层，对文本向量生成具有代表性的哈希值，引入了二进制编码标识学习层。
[0162]
具体来说，在输出层与语义隐藏层加入一层进行哈希表示学习，该层采用全连接结构，采用sigmoid(s型生长曲线，用作神经网络的激活函数、逻辑回归)激活函数，将每一维浮点数隐藏表示隐射为布尔类型的二进制表示[0,1]。通过训练，生成具有中级语义特征的二进制编码(bit encoding)和高级语义表示(semantic hidden layer)。具体公式如下：
[0163][0164]hsematic
＝maxp”l(h
bert
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0165]hbit
＝sigmod(wh
sematic
b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0166]
其中，为字符向量，bert为预训练语言模型，用于文本特征提取与表示，maxpool为最大池化层，用于抽取特征中的重要成分，h
sematic
为模型提取的256维高级语义向量，h
bit
为经过激活函数与全连接层得到的64维中级语义向量。
[0167]
在得到语义特征向量之后，可以利用该语义特征向量对威胁情报数据进行去重处理。
[0168]
在可选的实施例中，图5示出了对威胁情报数据进行去重处理的方法的流程示意图，如图5所示，该方法至少可以包括以下步骤：在步骤s510中，获取情报数据库中的已存情报数据，并对中级语义向量和已存情报数据进行第一距离计算确定情报候选集。
[0169]
对于每一条情报数据，高性能存储数据库redis保存了中级语义特征与高级语义特征，因此，可以获取到情报数据库中的已存情报数据。
[0170]
对于待查重的威胁情报数据，在经过bit-bert模型之后可以得到中级语义向量和高级语义向量。因此，可以先通过中级语义向量和已存情报数据采用海明距离计算，将高于预设阈值的威胁情报数据送入情报候选集。
[0171]
在步骤s520中，对情报候选集中等的高级语义向量和已存情报数据进行第二距离
计算确定第二去重评分，并对第一去重评分和第二去重评分进行计算得到重复置信度。
[0172]
在确定情报候选集之后，可以对对应的高级语义向量与已存情报数据采用余弦相似的方式进行相似度计算，并将高于对应阈值的相似度评分作为第二去重评分，而低于对应阈值的判定为不重复。
[0173]
由于海明距离为异或运算，大大提高了计算效率，通过快速粗粒度计算缩小对比范围，精粒度计算生成置信度更高的相似性得分，因此该方法既兼顾了准确性，又兼顾了计算效率。
[0174]
在计算出第一去重评分a和第二去重评分b之后，可以通过0.6*置信度a 0.4*置信度b＝重复置信度的方式计算出最终的重复置信度。
[0175]
在步骤s530中，根据重复置信度对威胁情报数据进行去重处理。
[0176]
在计算出重复置信度之后，可以将该重复置信度与对应的阈值进行比较，以对威胁情报数据进行去重处理。一般的，阈值可以设置为0.6。
[0177]
当重复置信度大于等于0.6时，确定该威胁情报数据为重复的；当该重复置信度小于0.6时，可以将该威胁情报数据存储起来，并且，存储格式可以是《中级语义向量，高级语义向量》。
[0178]
在本示例性实施例中，通过全二值量化的语言表征模型能够对非结构化的威胁情报数据的相似度计算和向量哈希学习，有效提高了重复文本的检出率，并且，基于中高粒度的中级语义向量和高级语义向量的相似度度量方法能够有效提高相似度的计算效率。
[0179]
在步骤s130中，当数据类型为结构化类型时，对数据类型进行数据压缩处理，并存储压缩后的威胁情报数据，以进行去重处理。
[0180]
在本公开的示例性实施例中，当威胁情报数据为结构化情报数据时，结构化情报数据去重处理服务由于其高并发性，往往采用redis等高性能存储数据库，但是，由于数据量庞大，将数据灌入redis会导致内存溢出等问题，因此对于去重服务，需要对数据进行压缩处理，减小去重服务的系统开销。
[0181]
在可选的实施例中，图6示出了对数据类型进行数据压缩处理的方法的流程示意图，如图6所示，该方法至少可以包括以下步骤：在步骤s610中，对数据类型进行编码得到第一比特向量，并对关键数据进行哈希计算得到第二比特向量。
[0182]
通过比特哈希将结构化类型的威胁情报数据进行处理。具体的，根据威胁情报数据的数据类型生成4位比特向量，以作为第一比特向量，并且，根据威胁情报数据的关键数据通过哈希算法生成60位比特向量，以作为第二比特向量。
[0183]
在步骤s620中，对第一比特向量和第二比特向量进行计算得到目标比特向量，以得到压缩后的威胁情报数据。
[0184]
在生成第一比特向量和第二比特向量之后，能够对第一比特向量和第二比特向量进行加权求和计算得到64位比特向量作为目标比特向量，以将每一个特征转换成64比特的哈希向量，例如：
[0185]
1001010010
…
0100特征值1
[0186]
1101011010
…
0100特征值2
[0187]
1101000010
…
0100特征值3
[0188]
其中，第一比特向量对应的权重为对应内容在威胁情报数据中出现的频次，第二
比特向量对应的权重也为对应内容在威胁情报数据中出现的频次。
[0189]
在本示例性实施例中，由于去重程序使用redis作为暂存数据库，且redis将数据放入内存。当海量数据去重的时候，将关键字转为比特特征能够有效降低系统所需资源，提高重复数据检索速度。
[0190]
在得到压缩后的威胁情报数据之后，还可以对该威胁情报数据进行存储，以在去重处理时加速检索速度和减少资源消耗。
[0191]
下面结合一应用场景对本公开实施例中的数据去重方法做出详细说明。
[0192]
随着互联网特别是移动互联网的高速发展，越来越多的网络设备、物联网设备接入到主干网，互联网拓扑环境越发复杂，不同的攻击行为更具产业化，入侵手法也越发多样化和复杂化，使得传统安全解决方案不断受到挑战。同时随着国家地位的不断提升，我国遭受的网络攻击也趋于多样化、复杂化。
[0193]
在此背景下，威胁情报越发受到企业的关注，安全设备结合威胁情报能够发挥更大的作用，企业的安全运营结合威胁情报能够更快速地响应安全事件。因此，威胁情报在网络安全防护中扮演的角色越来越重要。
[0194]
威胁情报是指包含多种类型，多个维度在内的情报知识库。其中，威胁情报可以包含漏洞情报、资产情报、ioc情报、事件情报等。
[0195]
威胁情报作为基于证据、场景、机制、指标和可操作建议的知识集合，能够有效弥补网络安全防御盲区，将被动保护转变为主动抵御。在检测已有攻击的同时能够进行威胁溯源、证据发现、攻击预测、建立攻击图谱等，从整体上提升网络安全设备的防护能力，从而降低网络攻击造成的影响，同时为安全决策者提供网络防御的重要参考。
[0196]
随着网络攻击事件越来越频繁的发生，每日所产生的威胁情报数以百万，然而无论是商业威胁情报还是开源网站中的威胁情报，质量都是良莠不齐，非同源的威胁情报存在大量重复数据，同源威胁情报也存在与以往数据重复的情况。而作为威胁情报平台，需要提供精准高质量的数据。而数据源每日产生的大量重复数据，对于平台运营、存储、运维，都造成影响，因此威胁情报数据去重步骤成为情报处理的重要组成部分，直接关系到情报质量与威胁情报平台建设。
[0197]
图7示出了应用场景下数据去重系统的结构示意图，如图7所示，该系统包括数据处理模块、数据压缩模块、情报关键词-类型联合提出模型、bit-bert语义编码模型和数据存储模块。
[0198]
图8示出了数据处理模块的结构示意图，如图8所示，数据处理模块由数据提取、数据清洗和数据分类三部分组成。
[0199]
威胁情报是指包含多种类型，多个维度在内的情报知识库。
[0200]
其中，威胁情报可以包含漏洞情报、资产情报、ioc情报、事件情报等。
[0201]
威胁情报作为基于证据、场景、机制、指标和可操作建议的知识集合，能够有效弥补网络安全防御盲区，将被动保护转变为主动抵御，在检测已有攻击的同时能够进行威胁溯源、证据发现、攻击预测、建立攻击图谱等，从整体上提升网络安全设备的防护能力，从而降低网络攻击造成的影响，同时为安全决策者提供网络防御的重要参考。
[0202]
根据属性对威胁情报数据进行分类，能够使威胁情报和使用场景相匹配。
[0203]
基于此，可以将威胁情报数据分成基础情报类、资产类、漏洞类、事件类、ioc类、攻
击组织类和其他情报类型等。
[0204]
其中，基础情报包含网络中的常见对象，例如ip(internet protocol，网际互连协议)地址(192.168.0.x)，域名(www.xxxxx.com)、邮箱(example@xx.com)、url(http://www.xxxxxx.com)以及证书等。
[0205]
其中，对于每一个类别的基础情报包含例如所使用的端口、提供的服务类型，whois(域名查询协议)信息(包含是否已经被注册，以及注册域名的详细信息)，以及ip、域名、url的地理位置信息，例如经纬度、所属国家地区城市等。
[0206]
资产情报按内容的不同，大致可分为风险资产情报、资产变更情报和资产发现情报三类。所谓资产就是互联网中的物理设备或者虚拟设备，例如路由器、交换机、服务器、主机等。
[0207]
漏洞情报指运用威胁情报技术，对现有漏洞进行数据采集、分析，描述而形成的知识库。
[0208]
其中，例如国家相关漏洞库(例如nvd、cnvd、cnnvd)或者通用漏洞披露，主要描述了漏洞的名称、描述、类型、危害评分、实现原理、影响以及补丁措施等。
[0209]
事件类情报是指对各种类型的情报、相关的事件。例如发生的时间、造成的影响等。通过对安全事件的类型、来源、潜在影响、关联漏洞或攻击组织等进行文字化详细的描述，有利于帮助安全运营人员或者非专业人士及时了解外部威胁状况，从而进行响应。
[0210]
ioc是指威胁指示器，用来描述网络攻击的检测特征。例如攻击源ip、域名以及恶意文件的md5哈希值，或者流量特征、钓鱼邮件所属邮箱等。安全人士可以通过ioc情报进行风险研判和安全加固等。
[0211]
攻击组织包含威胁主体名称，例如黑客组织名称等，还有攻击主体角色，例如黑客、白帽等，以及攻击组织的攻击针对行业、国家等。
[0212]
其他情报类型可以包括威胁报告、重大活动保障类和内部情报等。
[0213]
其中，数据提取部分将不同情报来源的威胁情报数据进行数据标准化处理。举例而言，数据标准化处理可以是形成json格式等，本示例性实施例对此不做特殊限定。
[0214]
进一步的，可以对数据标准化处理后的威胁情报数据进行提取处理，以得到例如攻击者ip、攻击类型和威胁等级等关键数据。
[0215]
不同类型的威胁情报提取平台所需要的关键字不同，在此之后可以形成统一格式的json文档作为关键数据。
[0216]
数据清洗过程是指不同来源的情报质量不一，存在包含例如换行符“\n”、制表符“\t”等字符，因此可以通过数据清洗处理对关键数据进行字符删减、替换、去掉敏感词和停用词等，以使清洗后的关键数据能够满足后续处理流程的要求。
[0217]
数据分类部分是指针对威胁情报去重流程，原始清洗后的关键数据根据威胁情报数据类型，可以将攻击组织情报、事件类情报以及报告等被划分成非结构化情报数据，而基础情报、漏洞情报和ioc情报等划分成结构化情报数据。
[0218]
具体的，根据情报数据格式可以将情报类型分为结构化情报和非结构化情报。
[0219]
其中，结构化威胁情报是指例如ip、资产、漏洞等能够通过字符串进行唯一标识的数据，例如具体的ip地址以及漏洞编号，并且，其他情报类型中包括的威胁报告、重大活动保障类和内部情报也可以是结构化类型。通过这些能够唯一标识一条情报信息。
[0220]
非结构化的威胁情报数据是指事件类威胁情报等。通过文字化描述一个攻击事件等，其中包含如漏洞信息、攻击组织信息等。这类情报无法直接使用，通常需要人读或者机读提取所需信息进行梳理，以生成可用情报。
[0221]
通过预处理能够确定威胁情报数据的数据类型，为后续的去重处理提供了数据基础和理论支持，保证了数据去重的准确性和时效性。
[0222]
当威胁情报数据为非结构化情报数据时，非结构化情报数据去重分为两个步骤，首先对一条情报文本进行关键词提取，同时对情报文本进行情报类型判断，提取出的情报关键字与情报类型，通过结构化去重流程得出重复置信度a。再对情报文本与数据库内现有文本进行相似度计算，得出重复置信度b，将两个评分进行加权，得出最终评分，从而判定该文本是否重复。
[0223]
由于通过观察大量数据发现，威胁情报文本类似的情况下，情报关键字并不相同，例如：情报1：木马后门，漏洞利用：cve-2022-26134；情报2：木马后门，安全漏洞：cve-2022-30716。
[0224]
仅仅通过词共现文本相似度计算方法，由于存在“木马后门”“漏洞”等共现词语，通过simhash能够获得62.5％的相似度，但是，两条文本的关键字cve漏洞编号并不相同，显而易见是两条不同情报文本，因此针对以上问题，提出情报关键词-类型联合提取模型。对于情报文本提取情报关键词，例如ip地址、攻击组织、ioc情报、漏洞编号(cve)等，例如“木马后门，安全漏洞：cve-2022-30716”，则提取cve-2022-30716。同时，该模型在提取情报关键字的同时，判断情报类型。
[0225]
图9示出了情报关键词-类型联合提取模型的结构示意图，如图9所示，该联合提取模型利用联合训练的思想，输入为非结构化情报的情报文本向量，经过字嵌入层、编码层、条件随机场层、序列预测层和类别预测层，最终输出结果为情报关键字的起始和结束位置以及情报类别。
[0226]
其中，序列标签为[b_t，o_t，e_t，x]，分别代表关键字开始位置，关键字区间位置、关键字结束位置和非关键字。
[0227]
情报类型标签为{0：基础情报，1：漏洞情报，2：资产情报，3：事件情报，4：ioc情报，5：攻击组织情报，6：其他类型情报}。
[0228]
具体的，通过威胁情报向量预训练算法将所有的标注数据进行字符向量训练。
[0229]
字符向量的基本思想是把每个字符表征为k维向量，字符向量训练过程中能够学习到字符与字符之间的关系，同时，向量形式的词汇表示方式有利于计算。具体的计算公式如(1)所示。
[0230]
进而，通过双向长短时记忆神经网络对文本向量进行编码，获得文本向量的深层表示，公式如(2)-(4)所示。
[0231]
在进行序列标签预测时，考虑到对编码向量的前后信息对标签预测的影响，还可以通过条件随机场层对编码向量进行处理。
[0232]
进而，通过序列标签预测方法将对齐编码特征的每一个隐藏层状态进行标签预测。
[0233]
一般情况下，在模型进行标签预测阶段可以使用softmax函数进行处理。对于每一个字符，预测其为关键字开始、关键字结束、关键字区间、非关键字的概率，最终选择概率最
大的项作为每一个字符的标签，通过起始标签和结束标签来提取关键字，以得到关键字数据。
[0234]
同时通过隐层向量hi，通过前馈神经网络预测该情报类型，公式如(5)所示。
[0235]
在损失函数方面，由于使用关键字提取与类别预测联合学习，因此损失函数公式如公式(6)所示。
[0236]
通过自由威胁情报数据集进行标注，完成情报关键词-类型联合提取模型的训练，以使模型效果达到预期结果。
[0237]
进一步的，在模型预测方面，输入文本为一段待识别的非结构化的威胁情报数据，经过模型预测输出提取的情报关键字与情报类别。
[0238]
举例而言，当输入非结构化的威胁情报数据为“木马后门，安全漏洞：cve-2022-30716”时，输出威胁情报的情报关键字结果为“cve-2022-30716”，输出的情报类型为“漏洞”。
[0239]
通过该联合提取模型能够从事件情报、攻击组织情报中提取情报类型与情报关键字，以使这些特征通过结构化去重算法生成去重置信度评分a。
[0240]
利用结构化去重算法对情报关键字和情报类别进行打分得到第一去重评分。
[0241]
具体的，该结构化去重算法中存储了一系列确定第一去重评分的规则，通过这些规则组合能够得到情报关键字和情报类别对应的第一去重评分。
[0242]
举例而言，该规则中包括该情报关键字和/或情报类型在数据库中存在对应的分值，也包括该情报关键字和/或情报类型不在数据库中存在对应的分值，还包括情报类别与威胁情报数据来源一致对应的分值和不一致对应的分值等。
[0243]
对于非结构化情报，仅仅通过关键字还达不到去重效果。部分情报，例如“vim是一款跨平台的文本编辑器。vim 8.2之前版本存在安全漏洞，该漏洞源于存在释放后重用问题”，可以看出，该情报文本并没有明显的关键字，例如攻击源ip地址，cve编号等，因此对于部分没有情报关键字的文本情报，需要通过文本相似度计算来和本地情报库去重。
[0244]
但是，一般基于散列特征的文本相似度计算算法基于词共现程度，对于情报类型数据并不适用，存在一定程度误判，因此需要深层次语义特征进行相似度判别。近些年，基于深度学习的文本相似度判断有了长足发展，但是，针对文本类威胁情报的相似性度量算法少之又少。同时，本案平台每天需要进行判重的情报数据近百万，深度学习相似性计算无法满足性能。
[0245]
因此，通过一种bit-bert算法，将语义向量经过前馈神经网络学习生成二进制比特向量进行粗鲁度相似性计算得出粗粒度候选集，再从粗粒度候选集中进行细粒度相似性计算，得出去重置信度b。
[0246]
图10示出了全二值量化的语言表征模型的结构示意图，如图10所示，非结构化威胁情报文本进行编码，使用的是bert预训练语言模型将字符向量经过编码并通过最大池化层生成文本向量，生成文本向量便可以进行情报文本相似度计算，一般采用余弦相似度等，但是由于威胁情报数据量较大，采用这种方法无法满足性能要求，因此本案采用比特编码层，对文本向量生成具有代表性的哈希值，引入了二进制编码标识学习层，具体来说在输出层与语义隐藏层加入一层进行哈希表示学习，该层采用全连接结构，采用sigmoid激活函数，将每一维浮点数隐藏表示隐射为布尔类型的二进制表示[0,1]。通过训练，生成具有中
级语义特征的二进制编码和高级语义表示。具体的，如公式(7)-(9)所示。
[0247]
在得到语义特征向量之后，可以利用该语义特征向量对威胁情报数据进行去重处理。
[0248]
对于每一条情报数据，高性能存储数据库redis保存了中级语义特征与高级语义特征，因此，可以获取到情报数据库中的已存情报数据。
[0249]
对于待查重的威胁情报数据，在经过bit-bert模型之后可以得到中级语义向量和高级语义向量。因此，可以先通过中级语义向量和已存情报数据采用海明距离计算，将高于预设阈值的威胁情报数据送入情报候选集。
[0250]
在确定情报候选集之后，可以对对应的高级语义向量与已存情报数据采用余弦相似的方式进行相似度计算，并将高于对应阈值的相似度评分作为第二去重评分，而低于对应阈值的判定为不重复。
[0251]
由于海明距离为异或运算，大大提高了计算效率，通过快速粗粒度计算缩小对比范围，精粒度计算生成置信度更高的相似性得分，因此该方法既兼顾了准确性，又兼顾了计算效率。
[0252]
在计算出第一去重评分a和第二去重评分b之后，可以通过0.6*置信度a 0.4*置信度b＝重复置信度的方式计算出最终的重复置信度。
[0253]
在计算出重复置信度之后，可以将该重复置信度与对应的阈值进行比较，以对威胁情报数据进行去重处理。一般的，阈值可以设置为0.6。
[0254]
当重复置信度大于等于0.6时，确定该威胁情报数据为重复的；当该重复置信度小于0.6时，可以将该威胁情报数据存储起来，并且，存储格式可以是《中级语义向量，高级语义向量》。
[0255]
通过全二值量化的语言表征模型能够对非结构化的威胁情报数据的相似度计算和向量哈希学习，有效提高了重复文本的检出率，并且，基于中高粒度的中级语义向量和高级语义向量的相似度度量方法能够有效提高相似度的计算效率。
[0256]
当威胁情报数据为结构化情报数据时，结构化情报数据去重处理服务由于其高并发性，往往采用redis等高性能存储数据库，但是，由于数据量庞大，将数据灌入redis会导致内存溢出等问题，因此对于去重服务，需要对数据进行压缩处理，减小去重服务的系统开销。
[0257]
图11示出了数据压缩模块的结构示意图，如图11所示，通过比特哈希将结构化类型的威胁情报数据进行处理。具体的，根据威胁情报数据的数据类型生成4位比特向量，以作为第一比特向量，并且，根据威胁情报数据的关键数据通过哈希算法生成60位比特向量，以作为第二比特向量。
[0258]
在生成第一比特向量和第二比特向量之后，能够对第一比特向量和第二比特向量进行加权求和计算得到64位比特向量作为目标比特向量，以将每一个特征转换成64比特的哈希向量。
[0259]
其中，第一比特向量对应的权重为对应内容在威胁情报数据中出现的频次，第二比特向量对应的权重也为对应内容在威胁情报数据中出现的频次。
[0260]
由于去重程序使用redis作为暂存数据库，且redis将数据放入内存。当海量数据去重的时候，将关键字转为比特特征能够有效降低系统所需资源，提高重复数据检索速度。
[0261]
基于此，对于结构化的威胁情报数据，可以使用比特哈希算法，将情报关键字，例如ip情报、漏洞编号等转存为比特向量，并且，存储格式为《比特向量，情报id》。
[0262]
对于非结构化的威胁情报数据，据通过情报关键词-类型联合提取模型抽取情报关键字与情报类型，将关键字与情报类型送入结构化情报数据库，存储格式为《比特向量，情报id》。如果结构化数据库存在该元素，则生成重复置信度a(默认值为1)；如果不存在则存入数据库。
[0263]
进一步的，通过bit-bert模型生成中级语义向量(比特向量)与高级语义向量(深层语义向量)，再通过中级语义向量检索语义存储模块(redis)生成候选集，最后通过高级语义向量计算最大近似值，以生成重复置信度b(默认值为1)。
[0264]
更进一步的，通过0.6*置信度a 0.4*置信度b得出最终的重复置信度。如果值大于等于0.6则判为重复，否则将该数据写入语义向量检索语义存储模块，存储格式为《中级语义向量，高级语义向量》。
[0265]
对于每日新增的威胁情报数据，如果判为重复，则不写入系统后台数据库；否则，将进行数据库写入和后续情报数据融合、老化等流程。
[0266]
在该应用场景下的数据去重方法，确定威胁情报数据的数据类型，为针对不同类型的威胁情报数据提供不同的去重方式提供了数据基础和理论支持。一方面，根据语义特征向量对威胁情报数据进行去重处理，解决了威胁情报数据去重过程中占用内存过大和处理流程耗时的问题，有效解决了原有去重方法不能捕获文本信息的问题，同时也兼顾提升了非结构化威胁情报数据的检索效率。另一方面，对结构化的威胁情报数据的数据类型进行数据压缩处理，解决了海量威胁情报数据因去重过程带来的消耗过多系统资源的问题，也减少了存储威胁情报数据带来的资源消耗。
[0267]
图12示出了数据去重装置的结构示意图，如图12所示，数据去重装置1200，可以包括：数据获取模块1210、第一去重模块1220和第二去重模块1230。其中：
[0268]
数据获取模块1210，被配置为获取威胁情报数据，并对所述威胁情报数据进行预处理确定数据类型；
[0269]
第一去重模块1220，被配置为当所述数据类型为非结构化类型时，对所述威胁情报数据进行文本相似度计算得到语义特征向量，并根据所述语义特征向量对所述威胁情报数据进行去重处理；或
[0270]
第二去重模块1230，被配置为当所述数据类型为结构化类型时，对所述数据类型进行数据压缩处理，并存储压缩后的所述威胁情报数据，以进行去重处理。
[0271]
在本发明的一种示例性实施例中，所述对所述威胁情报数据进行预处理确定数据类型，包括：
[0272]
对所述威胁情报数据进行数据标准化处理，并对处理后的所述威胁情报数据进行提取处理得到关键数据；
[0273]
对所述关键数据进行数据清洗处理，并对清洗后的所述关键数据进行分类得到数据类型。
[0274]
在本发明的一种示例性实施例中，所述对所述数据类型进行数据压缩处理，包括：
[0275]
对所述数据类型进行编码得到第一比特向量，并对所述关键数据进行哈希计算得到第二比特向量；
[0276]
对所述第一比特向量和所述第二比特向量进行计算得到目标比特向量，以得到压缩后的所述威胁情报数据。
[0277]
在本发明的一种示例性实施例中，在所述对所述威胁情报数据进行文本相似度计算得到语义特征向量之前，所述方法还包括：
[0278]
将所述威胁情报数据输入联合提取模型，以使所述联合提取模型输出情报关键字和情报类别；
[0279]
利用结构化去重算法对所述情报关键字和所述情报类别进行打分得到第一去重评分。
[0280]
在本发明的一种示例性实施例中，所述联合提取模型通过如下方法训练得到：
[0281]
利用预训练算法对训练样本进行字符向量训练得到文本向量，并对所述文本向量进行编码得到编码向量；
[0282]
对所述编码向量进行序列标签预测得到关键字数据，并对所述编码向量进行类别预测得到类别数据。
[0283]
在本发明的一种示例性实施例中，所述语义特征向量包括高级语义向量和中级语义向量，
[0284]
所述对所述威胁情报数据进行文本相似度计算得到语义特征向量，包括：
[0285]
将所述威胁情报数据输入全二值量化的语言表征模型，以使所述语言表征模型输出所述高级语义向量和所述中级语义向量。
[0286]
在本发明的一种示例性实施例中，所述根据所述语义特征向量对所述威胁情报数据进行去重处理，包括：
[0287]
获取情报数据库中的已存情报数据，并对所述中级语义向量和所述已存情报数据进行第一距离计算确定情报候选集；
[0288]
对所述情报候选集中的所述高级语义向量和所述已存情报数据进行第二距离计算确定第二去重评分，并对所述第一去重评分和所述第二去重评分进行计算得到重复置信度；
[0289]
根据所述重复置信度对所述威胁情报数据进行去重处理。
[0290]
上述数据去重装置1200的具体细节已经在对应的数据去重方法中进行了详细的描述，因此此处不再赘述。
[0291]
应当注意，尽管在上文详细描述中提及了数据去重装置1200的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0292]
此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。
[0293]
下面参照图13来描述根据本发明的这种实施例的电子设备1300。图13显示的电子设备1300仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0294]
如图13所示，电子设备1300以通用计算设备的形式表现。电子设备1300的组件可以包括但不限于：上述至少一个处理单元1310、上述至少一个存储单元1320、连接不同系统组件(包括存储单元1320和处理单元1310)的总线1330、显示单元1340。
[0295]
其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1310执
行，使得所述处理单元1310执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
[0296]
存储单元1320可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)1321和/或高速缓存存储单元1322，还可以进一步包括只读存储单元(rom)1323。
[0297]
存储单元1320还可以包括具有一组(至少一个)程序模块1325的程序/实用工具1324，这样的程序模块1325包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0298]
总线1330可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0299]
电子设备1300也可以与一个或多个外部设备1500(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1300交互的设备通信，和/或与使得该电子设备1300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1350进行。并且，电子设备1300还可以通过网络适配器1360与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器1360通过总线1330与电子设备1300的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0300]
通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
[0301]
在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
[0302]
参考图14所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1400，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0303]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器
(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0304]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0305]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0306]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0307]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于人工智能的目光轨迹反欺诈方法、装置、设备及介质与流程

数据去重方法及装置、存储介质、电子设备与流程

相关文献

最热文献