一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种多源异构数据融合建模方法与流程

2022-04-30 06:19:16 来源:中国专利 TAG:


1.本发明涉及制造业异构数据处理技术领域,更具体地说,本发明涉及一种多源异构数据融合建模方法。


背景技术:

2.多源异构数据来自多个数据源,包括不同数据库系统和不同设备在工作中采集的数据集等。不同的数据源所在的操作系统、管理系统不同,数据的存储模式和逻辑结构不同,数据的产生时间、使用场所、代码协议等也不同,这造成了数据“多源”的特征,作为目前的制造业而言,尤其是在产品生产制造过程中产生的数据,其不仅数据量十分庞大,来源丰富、类型多样、结构复杂,而且由于制造业不同的部门和系统之间数据的来源、存储形式等各不相同,数据源之间存在异构性、分布性和自治性,数据类型既包括数字、关系型数据等结构化数据,也包括图像、音频等非结构化数据,其生产数据通过整个后经过建模处理,使其能够更为直观的展现,有利于决策的部署。
3.归结于数据的“多源”特性,使其在数据整合的过程中,采集到的数据的质量难以保证,缺失的、错误的、不一致的等不符合规范的无效数据普遍存在,同时来自不同系统的数据的格式也并不统一,这些都会给数据的有效分析带来困难,故此保障异构数据的有效分析同时,采用高效的处理整合手段,作为多种异构数据的整合效率提升的重要一环,针对于决策的建模方式而言,传统的多源异构数据在数据融合的过程中就有着一定程度的数据缺失,进而在特征提取时,造成模型的准确性受影响,无法依据需要实现快速决策的同时进行建模内容的更为精准化控制。


技术实现要素:

4.为了克服现有技术的上述缺陷,本发明提供了一种多源异构数据融合建模方法,通过使用hibernate orm的核心、完整的jpa支持,实现多个不同类型的数据库更快捷的统一读写,确保了读写过程的稳定性和效率,同时采用数据清洗的方式提高数据的整体质量,保障数据转换过程的有效工作量,从而达到提升实时数据处理速度的效果,使其数据整合的效率得到提升。
5.为实现上述目的,本发明提供如下技术方案:一种多源异构数据融合建模方法,包括数据采集、数据整合和数据分析流程,具体包括以下步骤:
6.步骤一:数据采集过程中,针对原始数据进行准确、实时的采集,为数据集成阶段提供原始数据源,对原始数据源进行数据描述,并建立对应的多种协议解析引擎。
7.步骤二:依据多种不同类的数据源使用hbase和nosql数据库对来自各个子系统的数据进行分布式存储。
8.步骤三:通过加载hibernate ogm并基于其上建立统一的hbase和nosql 数据库访问模型,使两个数据库按照统一的规则并在同一个框架下进行读写完成整体的数据接入。
9.步骤四:利用同类均值插补方式对于错误数据,首先利用统计分析的标准差方法
对预估出现的错误值识别,并对识别后的错误数据进行清除,完成对数据进行筛选。
10.步骤五:对数据清理后,其数据通过extract-transform-load,进行筛选加工转换,然后加载到一个数据仓库模型中去存储。
11.步骤六:通过采用fp-growth并行算法针对数据仓库模型中的数据进行提取分析并标记出关联信息,将关联信息导入相应的建模算法即可。
12.作为本发明的进一步方案:所述步骤二中的hbase和nosql数据库可以替换为mysql、oracle、db2、sql server和redis、hbase、mongodb、neo4j 中的任意一种。
13.作为本发明的进一步方案:所述步骤五中extract-transform-load数据仓库技术包括datastage,informatica和kettle。
14.作为本发明的进一步方案:所述步骤二中的分布式存储内存中采用基于哈希表的索引结构,即hash表存放的是数据在磁盘上的位置索引,磁盘上存放的是主键和value的实际内容。
15.作为本发明的进一步方案:所述步骤四中数据筛选的同时,对于不一致的数据,通过基于关联数据之间的一致性来检测数据潜在的错误,并进行修复,以完成对多数据源数据的清理。
16.作为本发明的进一步方案:所述原始数据源包括多种异构数据信息,原始数据源的数据描述包括关键特征数据的提取与协议解析规则进行结合描述。
17.作为本发明的进一步方案:所述多种协议解析引擎对数据描述中配置的协议,利用相关协议的监听、拉取和爬取的方式,将数据解析之后建立二维关系存入消息队列中并在消息队列中依次存入对应的hbase和nosql数据库。
18.作为本发明的进一步方案:所述步骤四中清除的错误数据实行定容量回收站暂存策略。
19.本发明的有益效果在于:
20.1、本发明通过使用hibernate orm的核心,提供了完整的jpa支持,实现多个不同类型的数据库更快捷的统一读写,确保了稳定性和效率,同时采用数据清洗的方式提高数据的整体质量,保障数据转换过程的有效工作量,从而达到提升实时数据处理速度的效果,使其数据整合的效率得到提升,同时采用针对于原始数据的不同类对应的数据描述,使其实现直接针对于数据特征的描述,且采用协议解析规则,实现在数据融合建模的过程中,实现关键特征数据的决策级融合建模,同时基于其上通过多种协议解析引擎与数据的二维关系进行监听、拉取和爬取的方式将详细数据进行抽取,实现对不同类型的数据进行关键特征的决策级融合,一定程度上降低计算量,提升了容错和抗干扰性,同步的针对于传统方式而言通过多种协议解析引擎与元数据的二维关系弥补了决策级建模方式数据精度低造成建模准确度不高的影响,使其实现快速精准的决策建模方式。
21.2、本发明通过使用hbase和nosql数据库对来自各个子系统的数据进行分布式存储,并采用基于哈希表的索引结构,即hash表存放的是数据在磁盘上的位置索引,使其实现多个集合区间内的公司能够在物理层面保持不变,在软件层面实现多源异构数据的调取,同时配合建立统一的hbase和nosql 数据库访问模型,使其实现了整体数据的一体化调取权限与整合,同时集合了统计分析的标准差方法对错误值预估识别与同类均值插补方式对错误数据处理,使其对与整体的数据质量提升有着较为显著的作用,并在初步质量提升后,
通过extract-transform-load工具处理对需要的数据进一步处理,在此过程中都是依据数据的关键特征进行关键数据的总体识别处理,并通过统一的数据仓库模型存储调用,实现建模数据的处理,提升建模时对数据访问的速度,并且保障了数据中脏数据的处理。
附图说明
22.图1为本发明整体架构示意图;
23.图2为本发明系统的原理框图;
24.图3为本发明流程框图。
具体实施方式
25.下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.实施例1:
27.一种多源异构数据融合建模方法,包括数据采集、数据整合和数据分析流程,具体包括以下步骤:
28.步骤一:数据采集过程中,针对原始数据进行准确、实时的采集,为数据集成阶段提供原始数据源,对原始数据源进行数据描述,并建立对应的多种协议解析引擎。
29.步骤二:依据多种不同类的数据源使用hbase和nosql数据库对来自各个子系统的数据进行分布式存储。
30.步骤三:通过加载hibernate ogm并基于其上建立统一的hbase和nosql 数据库访问模型,使两个数据库按照统一的规则并在同一个框架下进行读写完成整体的数据接入。
31.步骤四:利用同类均值插补方式对错误数据进行处理,首先利用统计分析的标准差方法对预估出现的错误值识别,并对识别后的错误数据进行清除,完成对数据的筛选。
32.步骤五:对数据清理后,其数据通过extract-transform-load工具,进行筛选加工转换,然后加载到一个数据仓库模型中去存储。
33.步骤六:通过采用fp-growth并行算法针对数据仓库模型中的数据进行提取分析并标记出关联信息,将关联信息导入相应的建模算法。
34.通过采用标准差方法,使其能够计算给定样本的平均数和标准差,然后确定辨别异常值的临界点,即距离平均数的多个标准差范围,然后,我们可以将超出定义的下限和上限的值,确定为异常值,实现错误值的识别并便于对数据的清理,提升数据质量
35.在其他实施例中,步骤二中的hbase和nosql数据库可以替换为mysql、oracle、db2、sql server和redis、hbase、mongodb、neo4j中的任意一种。步骤二中的hbase和nosql数据库采用多种数据库类型的可选替换的方式,使其能够适应于不同制造业所需要存储的数据,并以此选择最合适的存储方式,提高其广泛的兼容性。
36.在其他实施例中,步骤五中extract-transform-load数据仓库技术包括 datastage,informatica和kettle。通过采用extract-transform-load的方式进行进一步的数据筛选和转换处理,使其能够在步骤四的基础上,对数据更为深入的处理,使其数据的
质量进一步提高,同时将其处理后加载到同一个数据仓库模型,使其能够保障良好的数据整合效果,便于建模过程中的数据直接读取,保障建模的速度与质量。
37.在其他实施例中,步骤二中的分布式存储内存中采用基于哈希表的索引结构,即hash表存放的是数据在磁盘上的位置索引,磁盘上存放的是主键和 value的实际内容。通过采用分布式存储方式,使其能够基于不同类型的数据选取最近分布,同时统一的数据索引,采用哈希存储引擎,使其能够定期将旧的数据或者删除操作进行合并,保留最新的数据,同时在磁盘上能够保留一份索引记录,在定期合并的时候产生索引记录,当磁盘掉电的时候直接通过这个索引记录到内存中重建即可保障数据的安全性。
38.在其他实施例中,步骤四中数据筛选的同时,对于不一致的数据,通过基于关联数据之间的一致性来检测数据潜在的错误,并进行修复,以完成对多数据源数据的清理。通过采用基于关联数据之间的一致性判断与修复可能存在的错误,使其能够配合步骤四对数据进行配合整理,提高数据的整合速度。
39.在其他实施例中,所述原始数据源包括多种异构数据信息,原始数据源的数据描述包括关键特征数据的提取与协议解析规则进行结合描述。通过采用关键特征数据与协议解析规则的配合,使其能够通过关键特征数据对原始数据进行简单的表示,同时配合二维关系的索引,使其能够实现通过关键特征数据的处理,并对其建模过程中,通过其索引实现原始数据的引入补全,实现了决策性建模的快速达成,并在后续实现数据索引完善的精准化建模处理。
40.在其他实施例中,所述多种协议解析引擎对数据描述中配置的协议,利用相关协议的监听、拉取和爬取的方式,将数据解析之后建立二维关系存入消息队列中并在消息队列中依次存入对应的hbase和nosql数据库。通过将数据解析后,其建立的二维关系,使其能够完成特征数据与原始数据之间通过监听、拉取和爬取的方式进行数据索引。
41.在其他实施例中,所述步骤四中清除的错误数据实行定容量回收站暂存策略,通过采用回收站暂存的策略,使其在使用时能够将错误数据进行暂存,并在容量满后依据时间顺序清理,使其防止造成误删后无法恢复的情况,提升整体运作的容错性。
42.实施例2:
43.一种多源异构数据融合建模方法,包括数据采集、数据整合和数据分析流程,具体包括以下步骤:
44.步骤一:数据采集过程中,针对原始数据进行准确、实时的采集,为数据集成阶段提供原始数据源。
45.步骤二:依据多种不同类的数据源使用hbase和nosql数据库对来自各个子系统的数据进行分布式存储,对原始数据源进行数据描述,并建立对应的多种协议解析引擎。
46.步骤三:利用同类均值插补方式对错误数据进行处理,首先利用统计分析的标准差方法对预估出现的错误值识别,并对识别后的错误数据进行清除,完成对数据进行筛选。
47.步骤四:对数据清理后,其数据通过extract-transform-load,进行筛选加工转换,然后加载到一个数据仓库模型中去存储。
48.步骤五:通过采用fp-growth并行算法针对数据仓库模型中的数据进行提取分析并标记出关联信息,将关联信息导入相应的建模算法即可。
49.步骤五中extract-transform-load数据仓库技术包括datastage, informatica
和kettle。
50.步骤二中的分布式存储内存中采用基于哈希表的索引结构,即hash表存放的是数据在磁盘上的位置索引,磁盘上存放的是主键和value的实际内容。
51.步骤四中数据筛选的同时,对于不一致的数据,通过基于关联数据之间的一致性来检测数据潜在的错误,并进行修复,以完成对多数据源数据的清理。
52.实施例3:
53.一种多源异构数据融合建模方法,包括数据采集、数据整合和数据分析流程,具体包括以下步骤:
54.步骤一:数据采集过程中,针对原始数据进行准确、实时的采集,为数据集成阶段提供原始数据源,对原始数据源进行数据描述,并建立对应的多种协议解析引擎。
55.步骤二:依据多种不同类的数据源使用hbase和no sql数据库对来自各个子系统的数据进行分布式存储。
56.步骤三:通过加载hibernate ogm并基于其上建立统一的hbase和no sql 数据库访问模型,使两个数据库按照统一的规则并在同一个框架下进行读写完成整体的数据接入。
57.步骤四:数据通过extract-transform-load,进行筛选加工转换,然后加载到一个数据仓库模型中去存储。
58.步骤五:通过采用fp-growth并行算法针对数据仓库模型中的数据进行提取分析并标记出关联信息,将关联信息导入相应的建模算法即可。
59.步骤二中的hbase和nosql数据库可以替换为mysql、oracle、db2、sqlserver和redis、hbase、mongodb、neo4j中的任意一种。
60.步骤五中extract-transform-load数据仓库技术包括datastage, informatica和kettle。
61.步骤二中的分布式存储内存中采用基于哈希表的索引结构,即hash表存放的是数据在磁盘上的位置索引,磁盘上存放的是主键和value的实际内容。
62.综上可知,本发明:通过上述实施例的对比可知hibernate ogm与分布式数据库的存储方式能够相互配合呼应,使其能够起到更为便捷的数据读取与存储,同时能够保持对数据的统一性,配合同类均值插补方式和基于关联数据之间的一致性的配合数据清理与修复,使其对数据的质量提升同时,能够保障数据的高效率融合,便于建模算法的直接读取。
63.最后应说明的几点是:虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明的基础上,以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献