一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

大数据存储方法、装置、电子设备及存储介质与流程

2022-06-12 01:41:01 来源:中国专利 TAG:
1.本发明涉及大数据存储
技术领域
:,尤其涉及一种大数据存储方法、装置、电子设备及存储介质。
背景技术
::2.数据的存储结构会直接影响后续对数据的查询过程,在对大数据进行存储时,常用到两类数据库:非关系型数据库和关系型数据库,在利用非关系型数据库对大数据进行存储后,因为非关系型数据库的本身特点导致各个数据之间缺少必要的关联关系,所以在该类型数据库中进行数据查询时,得到的数据所表达的信息相对孤立,参考价值低下。3.而在利用关系型数据库对大数据进行存储后,因为关系型数据库本身具有固定数据结构的特点导致数据查询效率低下,进而由于查询超时导致无法获取到待查询数据。技术实现要素:4.本发明的目的是提供一种大数据存储方法、装置、电子设备及存储介质,用于解决现有技术中存在的技术问题。5.本发明提供一种大数据存储方法,包括:6.采集流程,利用数据采集器对待采集数据进行分类采集,得到索引数据;7.提取流程,提取所述索引数据的特征标签,并基于所述待采集数据的关联关系获取所述特征标签之间的关联关系;8.存储流程,将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中。9.根据本发明提供的大数据存储方法,在所述采集流程之前,所述方法还包括:生成流程,在非关系型数据库中基于网络安全数据类型生成用于分类采集数据的所述数据采集器。10.根据本发明提供的大数据存储方法,所述提取所述索引数据的特征标签,具体包括:11.利用聚合模型提取所述索引数据的所述特征标签,所述聚合模型是利用带有所述特征标签的所述索引数据进行训练得到的。12.根据本发明提供的大数据存储方法,所述将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中,具体包括:13.基于所述特征标签和所述特征标签之间的关联关系得到标签关联数据表;14.以数据采集日期为界限,将所述标签关联数据表依次保存到关系型数据库中。15.根据本发明提供的大数据存储方法,所述方法还包括:将所述特征标签对应的所述索引数据保存到关系型数据库中。16.根据本发明提供的大数据存储方法,所述特征标签至少包括以下标签中的一种:网络设备运行状况标签、网络流量标签、用户行为标签、事件的时间标签和状态标签、边界完整性标签、端口扫描标签、强力攻击标签、木马后门攻击标签、拒绝服务攻击标签、缓存区溢出攻击标签、ip碎片攻击标签以及网络蠕虫攻击标签。17.本发明还提供一种大数据存储装置,包括:18.采集模块,用于利用数据采集器对待采集数据进行分类采集,得到索引数据;19.提取模块,用于提取所述索引数据的特征标签,并基于所述待采集数据的关联关系获取所述特征标签之间的关联关系;20.存储模块,用于将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中。21.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述大数据存储方法的步骤。22.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述大数据存储方法的步骤。23.本发明还提供一种计算机程序产品,所计算机程序产品包括有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述大数据存储方法的步骤。24.本发明提供的大数据存储方法、装置、电子设备及存储介质,通过在非关系型数据库中对数据进行分类采集并存储,得到索引数据,然后依次提取各索引数据的数据标签,并将得到的数据标签以链式存储结构的形式保存在关系型数据库中,基于此,在确保各个数据之间保留原有关联关系的基础上,实现了对数据的有序存储,有利于实现后续对数据库中数据的精准快速调用,确保数据库中数据对原有数据信息的完整再现。附图说明25.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。26.图1是本发明提供的大数据存储方法的流程示意图之一;27.图2是本发明提供的特征标签之间逻辑关系示意图;28.图3是本发明提供的特征标签链表结构示意图之一;29.图4是本发明提供的特征标签链表结构示意图之二;30.图5是本发明提供的大数据存储方法的流程示意图之二;31.图6是本发明提供的大数据存储方法的流程示意图之三;32.图7是本发明提供的大数据存储装置的结构示意图;33.图8是本发明提供的电子设备的结构示意图。具体实施方式34.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。35.在对数据进行存储时,常用的数据库有两种:关系型数据库和非关系型数据库,以mysql数据库和elasticsearch数据库为例进行比较说明;mysql数据库作为一种典型的关系型数据库,其库表结构在需求定义中,最基本的查询算法是顺序查找(linearsearch),这种复杂度为0(n)的算法在数据量很大时,其数据查找效率低下。不过计算机科学的发展为此提供了很多更优秀的查找算法,例如二分查找(binarysearch)、二叉树查找(binarytreesearch)等。但是每种查找算法都只能应用于特定的数据结构之上,例如二分查找要求被检索数据有序,而二叉树查找只能应用于二叉查找树上,而数据本身的组织结构不可能完全满足各种数据结构,(例如,理论上不可能同时将两列数据都按顺序进行组织),所以在数据之外,数据库系统还需维护特定查找算法的数据结构。这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。36.elasticsearch数据库是一种典型的非关系型数据库,该数据库中的数据结构,用于性能优化所用到的几种数据结构,如用于压缩倒排索引内存存储空间的fst,用于查询条件合并的skiplist以及用于提高范围查找效率的bkdtree,对这几种数据结构在lucene中的使用进行了详细分析,概述来说,elasticsearch数据库使用以下四种的逻辑组合来存储数据:索引、类型、文档和字段。37.图1是本发明提供的大数据存储方法的流程示意图之一,如图1所示,所述方法包括:38.s110,采集流程,利用数据采集器对待采集数据进行分类采集,得到索引数据;39.s120,提取流程,提取所述索引数据的特征标签,并基于所述待采集数据的关联关系获取所述特征标签之间的关联关系;40.s130,存储流程,将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中。41.以elasticsearch数据库作为非关系型数据库,mysql数据库作为关系型数据库为例来阐述本发明实施例,本发明不限定非关系型数据库和关系型数据库的具体种类。在elasticsearch数据库中写入数据采集器,该数据采集器具有对数据实现分类采集的作用,此处分类可以根据数据词性的不同、描述对象的不同实现对数据的分类采集,也可以根据数据关键词的不同实现对数据的分类采集,即对于数据的分类标准可以根据实际需要对该数据采集器进行预先设置,利用以上所述数据采集器在elasticsearch数据库中实现对数据的分类采集,得到索引数据,索引数据指的是已经完成分类采集的数据;举例来讲,假设采集到了三个索引数据,分别为第一索引数据、第二索引数据以及第三索引数据,其中,第一索引数据的关键词是“网络安全”,第二索引数据的关键词是“用户行为”,第三索引数据的关键词是“木马攻击”,以上所举实例是以关键词作为不同索引数据的采集依据的。42.针对得到的索引数据进行特征标签的提取过程,并根据原始数据之间的关联关系获取特征标签之间的关联关系,该过程依旧在elasticsearch数据库中进行,沿用以上例子进行说明:以上所述所有索引数据针对的对象分别为设备a、设备b以及设备c,基于此,可以得到以下特征标签:网络安全-设备a、网络安全-设备b、网络安全-设备c、用户行为-设备a、用户行为-设备b、用户行为-设备c、木马攻击-设备a、木马攻击-设备b以及木马攻击-设备c,对于同一设备a而言,网络安全-设备a、用户行为-设备a以及木马攻击-设备c之间存在关联关系。43.在完成对于索引数据的特征标签提取过程后,将得到的特征标签以及特征标签之间的关联关系以链式结构的存储方式存储在mysql数据库中,即关系型数据库中,链式存储结构又叫链接存储结构,是一种常用的数据存储方式,该数据存储方式具有存储密度小,数据插入、删除灵活等优点。44.本发明提供的大数据存储方法,通过在非关系型数据库中对数据进行分类采集并存储,得到索引数据,然后依次提取各索引数据的数据标签,并将得到的数据标签以链式存储结构的形式保存在关系型数据库中,基于此,在确保各个数据之间保留原有关联关系的基础上,实现了对数据的有序存储,有利于实现后续对数据库中数据的精准快速调用,确保数据库中数据对原有数据信息的完整再现。45.根据本发明提供的大数据存储方法,在本发明中,在所述采集流程之前,所述方法还包括:生成流程,在非关系型数据库中基于网络安全数据类型生成用于分类采集数据的所述数据采集器。46.需要说明的是,在本发明实施例中采集的数据类型为网络安全数据,网络的安全是指通过采用各种技术和管理措施,使网络系统正常运行,从而确保网络数据的可用性、完整性和保密性。而网络安全数据指的是用于评价网络安全运行情况的数据,例如网络运行情况数据、网络蠕虫攻击数据、用户行为数据等,不同的网络安全数据可以从不同的角度表明网络运行的安全情况,而对于网络安全数据的分类采集以及后续的分类处理可以更好的得到有价值的用于评价网络运行安全情况的评价信息。在对网络安全数据进行采集之前,首先在非关系型数据库中生成用于对网络安全数据进行分类数据采集的数据采集器。47.本发明提供的大数据存储方法,通过在非关系型数据库中生成用于实现对网络安全数据进行分类采集的数据采集器,基于此,实现了对网络安全数据的分类采集,为实现后续对数据的分类处理奠定了基础,有利于实现对网络安全运行情况的精准评价。48.根据本发明提供的大数据存储方法,在本发明中,所述提取所述索引数据的特征标签,具体包括:利用聚合模型提取所述索引数据的所述特征标签,所述聚合模型是利用带有所述特征标签的所述索引数据进行训练得到的。49.需要说明的是,利用神经网络模型实现对索引数据中特征标签的提取过程,该神经网络模型具体为聚合模型,并且该神经网络模型利用带有特征标签的索引数据对其进行训练,用于提高该神经网络模型对于特征标签的提取准确率和效率。50.本发明提供的大数据存储方法,通过聚合模型实现了对索引数据中特征标签的提取过程,该提取方式准确率高,提取效率高。51.根据本发明提供的大数据存储方法,在本发明中,所述将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中,具体包括:基于所述特征标签和所述特征标签之间的关联关系得到标签关联数据表;以数据采集日期为界限,将所述标签关联数据表依次保存到关系型数据库中。52.需要说明的是,在非关系型数据库中,依次经过数据的分类采集、提取特征标签并保存,进而得到标签关联数据表,该标签关联数据表可以表征得到的所有特征标签以及各个特征标签之间的关联关系。为了进一步确保数据存储的连续性,将得到的标签关联数据表以采集日期为界限,依次保存到关系型数据库中,且保存的数据结构为链式存储结构。53.本发明提供的大数据存储方法,通过以标签关联数据表的形式记录特征标签以及特征标签之间的关联关系,确保了对特征标签和特征标签之间关联关系的精确完整记录,而以数据采集日期作为标签关联数据表的存储顺序,保证了数据的原有顺序,确保了对数据存储的不重不漏;基于以上过程,实现了对数据的完整准确存储,有利于后续对数据的快速精准调用。54.根据本发明提供的大数据存储方法,在本发明中,所述方法还包括:将所述特征标签对应的所述索引数据保存到关系型数据库中。55.需要说明的是,在只是将数据的特征标签存储到关系型数据库中后,在对数据库中的数据进行调用时,直接得到的数据只是对应于某段具体数据的特征标签,想要获取完整数据需要基于该标签进行二次查询,上述过程对于数据的提取效率低下;基于此,在将特征标签存储于关系型数据库时,直接将各个特征标签对应的详细数据一并存储到关系型数据库中,这样在后续对数据进行调用时,可以免去二次查询的问题,提高数据查询效率。56.本发明提供的大数据存储方法,通过将各个特征标签对应的详细数据直接存储于关系型数据库中,基于此,实现了后续对数据的一次性查询调用,提高了对于数据的查询提取效率。57.根据本发明提供的大数据存储方法,在本发明中,所述特征标签至少包括以下标签中的一种:网络设备运行状况标签、网络流量标签、用户行为标签、事件的时间标签和状态标签、边界完整性标签、端口扫描标签、强力攻击标签、木马后门攻击标签、拒绝服务攻击标签、缓存区溢出攻击标签、ip碎片攻击标签以及网络蠕虫攻击标签。58.需要说明的是,在对网络安全数据进行存储时,以“等保2.0网络安全标准”为指导,对安全审计:网络运行情况数据:网络设备运行状况、网络流量、用户行为及事件的时间、状态等;边界完整性检查:内网用户外通过审批私自与外网通信;入侵防范:端口扫描、强力攻击、木马后门攻击、拒绝服务攻击、缓存区溢出攻击、ip碎片攻击、网络蠕虫攻击的这些特征标签进行提取。59.本发明提供的大数据存储方法,通过以“等保2.0网络安全标准”为指导,对采集到的网络安全数据进行特征标签的设定,基于此,实现了针对网络安全数据中特征标签的准确设定,基于该设定过程得到的特征标签为后续对网络安全运行状况的评价提供了数据支撑,实现了对特征标签的精准按需设定。60.图2是本发明提供的特征标签之间逻辑关系示意图,如图2所示,标签v0同时与标签v1和标签v2之间存在关联关系,标签v1同时与标签v0和标签v2之间存在关联关系,标签v2同时与标签v0、v1以及v3之间存在关联关系,标签v3只与标签v2之间存在关联关系。61.图3是本发明提供的特征标签链表结构示意图之一,如图3所示,以标签关联数据表的形式来记录各个特征标签之间的关联关系,具体为:标签v0同时关联于标签v1和标签v2,标签v1同时关联于标签v0和标签v2,标签v2同时关联于标签v1、标签v0以及标签v3,标签v3只关联于标签v2。62.图4是本发明提供的特征标签链表结构示意图之一,如图4所示,与图3不同的是,图3只是表达了各个特征标签之间的关联关系,而图4中在图3基础上增加了各个特征标签中的具体内容,具体为:标签v0的具体内容是10,标签v1的具体内容是11,标签v2的内容是12,标签v3的内容是13。63.图5是本发明提供的大数据存储方法的流程示意图之二,如图5所示,所述方法包括:64.step1,采集(agent),即采集原始数据;65.step2,中间件(middlware),此处中间件作为一个数据传输通道,将采集到的数据传输到数据库中;66.step3,数据存储(date),即将采集到的数据存储到非关系型数据库中;67.step4,依次进行数据预处理(preproces)、聚合模型(model)进行提取标签(label),得到特征标签和特征标签之间的关联关系;68.step5,链表存储(table),即将得到的特征标签和特征标签之间的关联关系以链式结构的形式存储到关系型数据库中;69.step6,以存储到关系型数据库中的特征标签和特征标签之间的关联关系为依据,生成分析图(graph)。70.图6是本发明提供的大数据存储方法的流程示意图之三,如图6所示,以网络安全数据作为采集对象,进行下列操作:71.step1,等保审计数据(news),即分类采集原始数据;72.step2,审计标签(label),即提取特征标签和特征标签之间的关联关系;73.step3,形成链表数据(linkedlists),即将得到的审计标签以及审计标签之间的关联关系以链式结构的形式存储到关系型数据库中;74.step4,生成分析图(graph),即以存储到关系型数据库中的审计标签和审计标签之间的关联关系为依据,生成分析图。75.图7是本发明提供的大数据存储装置的结构示意图,如图7所示,所述装置包括:76.采集模块710,用于利用数据采集器对待采集数据进行分类采集,得到索引数据;77.提取模块720,用于提取所述索引数据的特征标签,并基于所述待采集数据的关联关系获取所述特征标签之间的关联关系;78.存储模块730,用于将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中。79.本发明提供的大数据存储装置,通过在非关系型数据库中对数据进行分类采集并存储,得到索引数据,然后依次提取各索引数据的数据标签,并将得到的数据标签以链式存储结构的形式保存在关系型数据库中,基于此,在确保各个数据之间保留原有关联关系的基础上,实现了对数据的有序存储,有利于实现后续对数据库中数据的精准快速调用,确保数据库中数据对原有数据信息的完整再现。80.根据本发明提供的大数据存储装置,在本发明中,所述装置还包括:生成模块,用于在非关系型数据库中基于网络安全数据类型生成用于分类采集数据的所述数据采集器。81.本发明提供的大数据存储装置,通过在非关系型数据库中生成用于实现对网络安全数据进行分类采集的数据采集器,基于此,实现了对网络安全数据的分类采集,为实现后续对数据的分类处理奠定了基础,有利于实现对网络安全运行情况的精准评价。82.根据本发明提供的大数据存储装置,在本发明中,提取模块720在用于提取所述索引数据的特征标签,具体用于:利用聚合模型提取所述索引数据的所述特征标签,所述聚合模型是利用带有所述特征标签的所述索引数据进行训练得到的。83.本发明提供的大数据存储装置,通过聚合模型实现了对索引数据中特征标签的提取过程,该提取方式准确率高,提取效率高。84.根据本发明提供的大数据存储装置,在本发明中,存储模块730在用于将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中时,具体用于:基于所述特征标签和所述特征标签之间的关联关系得到标签关联数据表;以数据采集日期为界限,将所述标签关联数据表依次保存到关系型数据库中。85.本发明提供的大数据存储装置,通过以标签关联数据表的形式记录特征标签以及特征标签之间的关联关系,确保了对特征标签和特征标签之间关联关系的精确完整记录,而以数据采集日期作为标签关联数据表的存储顺序,保证了数据的原有顺序,确保了对数据存储的不重不漏;基于以上过程,实现了对数据的完整准确存储,有利于后续对数据的快速精准调用。86.根据本发明提供的大数据存储装置,在本发明中,所述装置还包括:插入模块,用于将所述特征标签对应的所述索引数据保存到关系型数据库中。87.本发明提供的大数据存储装置,通过将各个特征标签对应的详细数据直接存储于关系型数据库中,基于此,实现了后续对数据的一次性查询调用,提高了对于数据的查询提取效率。88.根据本发明提供的大数据存储装置,在本发明中,所述特征标签至少包括以下标签中的一种:网络设备运行状况标签、网络流量标签、用户行为标签、事件的时间标签和状态标签、边界完整性标签、端口扫描标签、强力攻击标签、木马后门攻击标签、拒绝服务攻击标签、缓存区溢出攻击标签、ip碎片攻击标签以及网络蠕虫攻击标签。89.本发明提供的大数据存储装置,通过以“等保2.0网络安全标准”为指导,对采集到的网络安全数据进行特征标签的设定,基于此,实现了针对网络安全数据中特征标签的准确设定,基于该设定过程得到的特征标签为后续对网络安全运行状况的评价提供了数据支撑,实现了对特征标签的精准按需设定。90.图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(communicationsinterface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行大数据存储方法,该方法包括:采集流程,利用数据采集器对待采集数据进行分类采集,得到索引数据;提取流程,提取所述索引数据的特征标签,并基于所述待采集数据的关联关系获取所述特征标签之间的关联关系;存储流程,将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中。91.此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。92.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的大数据存储方法,该方法包括:采集流程,利用数据采集器对待采集数据进行分类采集,得到索引数据;提取流程,提取所述索引数据的特征标签,并基于所述待采集数据的关联关系获取所述特征标签之间的关联关系;存储流程,将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中。93.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的大数据存储方法,该方法包括:采集流程,利用数据采集器对待采集数据进行分类采集,得到索引数据;提取流程,提取所述索引数据的特征标签,并基于所述待采集数据的关联关系获取所述特征标签之间的关联关系;存储流程,将所述特征标签和所述特征标签之间的关联关系以链式存储结构的方式保存到关系型数据库中。94.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。95.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。96.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献