一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于HIVE的天然气管道数据处理方法及数据仓库系统

2022-04-25 03:30:37 来源:中国专利 TAG:

一种基于hive的天然气管道数据处理方法及数据仓库系统
技术领域
1.本发明属于天然气管道的多源数据处理领域,尤其涉及一种基于hive的天然气管道数据处理方法及数据仓库系统。


背景技术:

2.油气资源是重要的能源矿产和战略性资源,也是重要的化工原料。此外,天然气还具有清洁环保、经济安全、用途广泛等优点,而管道输送是陆地上天然气长距离输送目前最普遍、最经济、最安全的运输方式。
3.天然气管道输送系统是一个连续的密闭的系统,通常会由scada系统来对天然气管道输送过程中的流动参数进行采集和记录,scada系统记录的天然气管道流动参数数据信息是对天然气资源输送情况的直观反映。目前,天然气管输体系逐渐形成“全国一张网”格局,各路数据信息需要纳入全国管网统一处理并优化调配相关资源,而天然气管网数据具有类型多样、数量庞大、价值密度差异大、时序性与关联性较强等特点。具体而言,我国天然气管道的数据信息较为分散,没有形成统一的整体,统筹管理不够全面,还存在着信息孤岛带来的弊端;且目前我国对于跨区域、跨多级结构、跨专题的多源异构天然气管道数据库的综合管理效率较低,不能快速准确地提供决策所需要的数据、信息等,不能满足天然气管道信息化建设的需求。因此,现有天然气管道数据的存储方式不能满足对数据的综合管理、高效存储及统筹利用,同时不能为数据挖掘提供技术支持,更不能作为深入探究管道运行规律的数据基础。相反,数据仓库系统可以从多个数据源中抽取数据,并将其集成到目标数据仓库中,得到统一且完备的储存与管理。并且,原来分散的应用系统仍然独立运作,原来存在的异构数据源仍然为各自的应用系统提供数据服务,数据仓库不会破坏企业原有的应用架构,适用于大量数据的迁移。因此,有必要采取一种方法来建立天然气管道的数据仓库系统,从而解决其数据离散和统筹效率低下的问题,并满足天然气管道信息化建设和高效管理的需求,为进一步开展数据挖掘和场景应用提供服务,为提高天然气管道的综合管理能力和安全运营能力提供技术支持。
4.综上所述,目前天然气管道数据具有离散性、海量性、真实性等特点,但存在综合管理效率低下等问题,且缺乏成熟高效的数据仓库对管道历史作业数据进行综合管理与高效存储,也无法对管道数据信息进行便捷维护、统筹利用。而本方法可以提供一种基于hive的天然气管道数据处理方法及数据仓库系统,实现对天然气管道历史工作数据的分析处理,并为开展数据挖掘提供技术支持,满足天然气管道的信息化建设和高效管理。


技术实现要素:

5.本发明提供了一种基于hive的天然气管道数据处理方法及数据仓库系统,以解决现有技术中的各种缺陷和不足。
6.本发明的技术方案为提供一种基于hive的天然气管道数据处理方法和数据仓库系统,包括以下步骤:
7.步骤一,确定天然气管道系统的数据源:数据源用于储存各业务系统的最原始数据,包括管道设计资料、运行工况参数等;
8.步骤二,天然气管道系统多源数据处理:获取目标数据维度的多源异构数据,并确定所述多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据;
9.步骤三,天然气管道系统多源数据融合:将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段,并得到字段数据,再基于所述字段数据合成目标数据维度的多源异构标准数据;
10.步骤四,天然气管道系统数据仓库集成:基于公共的数据模型和软件开发标准建立天然气管道系统数据仓库,采用国际posc组织的石油勘探开发集成平台的epicentre数据模型来构建天然气管道系统数据仓库;
11.步骤五,天然气管道系统需求数据挖掘:数据挖掘是基于已建立的数据仓库,并根据相关需求提取所需要的数据。
12.以上为基于hive的天然气管道数据仓库系统的总体架构,下面本文将描述该方法及系统的详细步骤:
13.步骤一,确定天然气管道系统的数据源。数据源用于储存各业务系统的最原始数据,包括管道设计资料、运行工况参数等,具体实现步骤如下:
14.(1)确定数据源,天然气管道系统的数据源主要是各业务部门的相关数据或软件计算仿真的结果,包括天然气管道沿线的阀室或站场的业务资料、scada系统及调度中心的实时数据等;
15.(2)确定元数据,元数据是描述天然气管道系统各部分的相关数据,包括天然气管道的设计资料、各业务部门的工作日志、其它软件或系统的数据库等。
16.步骤二,天然气管道系统多源数据处理。多源数据处理是指通过获取目标数据维度的多源异构数据,并基于已获取的数据确定所述多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据,具体实现步骤如下:
17.(1)获取待标准化的数据维度,以及不同预设数据源在每个待标准化的数据维度下的数据字段;
18.(2)获取每个待标准化的数据维度所对应的有效字段内容,确定每个待标准化的数据维度下的标准属性字段,并根据标准属性字段的语义分析结果,确定每个预设数据源在标准属性字段下相对应的可转换字段;
19.(3)建立每个数据源在不同数据维度对应的标准属性字段下相对应的可转换字段。
20.步骤三,天然气管道系统多源数据融合。将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段,并得到字段数据,再基于所述字段数据合成目标数据维度的多源异构标准数据,具体实现步骤如下:
21.(1)针对每个待处理数据源,根据所述目标数据维度所对应的预设去重字段,分别对该待处理数据源下的目标标准属性字段的字段数据进行第一次去重处理,得到该待处理数据源下去重处理后的目标标准属性字段的字段数据;
22.(2)对每个待处理数据源下去重处理后的目标标准属性字段的字段数据进行第二次去重处理后,并将第二次去重处理后的字段数据进行组合得到所述目标数据维度的多源
异构标准数据。
23.步骤四,天然气管道系统数据仓库集成。基于公共的数据模型和软件开发标准建立天然气管道系统数据仓库。采用国际posc组织的石油勘探开发集成平台的epicentre数据模型来构建天然气管道系统数据仓库,具体实现步骤如下:
24.(1)建立天然气管道系统设计参数数据仓库:
25.从数据源中提取出天然气管道系统包括管道和站场、阀室等的设计参数,以数据集成的方式加载到设计参数数据仓库中,完成天然气管道系统设计参数数据仓库的建立;
26.天然气管道设计参数数据仓库包括:管段名称及长度、壁厚、内径、外径、粗糙度、管道沿线高程变化情况、设计压力、设计输气量、穿跨越结构、环境温度、管道沿线站场或阀室的里程及高程、压缩机站所用压缩机规格及运行数量等。
27.(2)建立天然气管道系统运行参数数据仓库:
28.从数据源中提取天然气管道系统运行过程中的流动参数,以数据集成的方式加载到运行参数数据仓库中,完成天然气管道运行参数数据仓库的建立;
29.天然气管道系统运行参数数据仓库包括:管道运行过程中的实际压力、温度、流量、流体粘度、热值、压缩机进出口压力、压比、功率等。
30.步骤五,天然气管道系统需求数据挖掘。数据挖掘是基于已建立的数据仓库,根据相关需求提取包括天然气管道运行压力及流量、压缩机进出口压力、压比等所需要的数据,具体实现步骤如下:
31.(1)确定数据挖掘的应用主题或研究对象
32.对于天然气管道系统,开展数据挖掘的应用主题或研究对象共包含5个方面,分别是管道沿线流量变化、管道沿线压力变化、管道沿线温度变化、管道沿线地形变化和管道沿线规格变化。
33.(2)数据挖掘的算法
34.通过引入统计学方法和归纳法分析现有数据信息,以开展天然气管道系统的数据挖掘。首先建立一个数学统计模型,然后以这种模型来提取有关的知识。
35.(3)流量、压力、温度的算法
36.管道沿线流量、压力、温度的变化情况,可根据流量、压力及温度的算法从天然气管道系统流动参数数据仓库中分别得出,其主要作用是通过分析得到有关流量、压力及温度的最大、最小、平均值等有用信息,为分析天然气管道系统提供数据支撑。
37.(4)地形、管道规格的算法
38.管道沿线地形及管道规格的变化情况,可由地形、管道规格的算法从天然气管道系统基础参数数据仓库中得出,主要是统计得到最大高程、最小高程,以及计算得出最大高程差、最小高程差、管径、管道材质等数据。
39.本发明提供的天然气管道数据处理方法及数据仓库系统基于hive实现,能够将天然气管道系统的设计资料与运行参数,通过数据仓库、数据挖掘、数据集成的相关理论及方法,按照一定需求提取得到,便于分析管道系统的运行状态。该方法易于进行数据提取与处理,简化了传统数据提取需要基于scada系统形成生产日报表,再从报表中按照要求手动提取相应数据的繁琐流程,实现了对管道系统运行数据的高效利用,简单高效。本发明的工作流程清晰、维护管理方便、应用前景广阔,能从海量数据中轻松提取有用数据信息,为分析
天然气管道系统运行状态提供了技术支持,为评估天然气管道系统的安全运行提供了决策依据。
附图说明
40.图1天然气管道系统数据仓库及多源数据处理方法流程图;
41.图2天然气管道系统管道沿线压力数据变化示意图。
具体实施方式
42.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实例仅用以解释本发明,并不用于限定本发明。
43.本发明提供一种基于hive的天然气管道数据处理方法及数据仓库系统,该方法主要包括以下计算步骤:
44.步骤一,确定天然气管道系统的数据源。数据源用于储存各业务系统的最原始数据,包括管道设计资料、运行工况参数等。
45.步骤二,天然气管道系统多源数据处理。获取目标数据维度的多源异构数据,并确定所述多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据。
46.步骤三,天然气管道系统多源数据融合。将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段,并得到字段数据,再基于所述字段数据合成目标数据维度的多源异构标准数据。
47.步骤四,天然气管道系统数据仓库集成。基于公共的数据模型和软件开发标准建立天然气管道系统数据仓库。采用国际posc组织的石油勘探开发集成平台的epicentre数据模型来构建天然气管道系统数据仓库。
48.步骤五,天然气管道系统需求数据挖掘。数据挖掘是基于已建立的数据仓库,并根据相关需求提取所需要的数据。
49.在步骤一中,需要确定数据源,包括天然气管道沿线的阀室或站场的业务资料、scada系统及调度中心的实时数据、各业务部门的工作日志、其它软件或系统的数据库等,其中,需要选择的元数据主要包括管道名称、内径、壁厚、长度、管道沿线高程、站场或阀室的里程和高程、压力、输气量、环境温度等数据信息。
[0050][0051]
式中,pq——管道计算段起点压力,pa;
[0052]
pz——管道计算段终点压力,pa;
[0053]

s——起点终点段高程差,m;
[0054]

——天然气的相对密度;
[0055]
d——管道内径,m;
[0056]
λ——管道中气体与管内壁间的摩阻系数;
[0057]
z——气体压缩因子;
[0058]
t——管道中气体平均温度,k;
[0059]
l——输气管道计算段长度,m。
[0060][0061]
式中,x——管段上任意一点距离管道起点的距离,m;
[0062]
p
x
——管段上任意一点距离管道起点x米处的压力,pa;
[0063]
pq——管道计算段起点压力,pa;
[0064]
pz——管道计算段起点压力,pa。
[0065]
在步骤二中,需要进行多源数据处理,需要注意的是,在不同实例中,该方法中部分步骤的顺序可以根据实际交换或省略删除,其详细步骤介绍如下。
[0066]
(1)获取目标数据维度的多源异构数据,并确定多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据。
[0067]
(2)从预先配置的转换字段库中,确定每个待处理数据源下的待转换字段在目标数据维度的目标标准属性字段。
[0068]
在本方法中,对天然气管道而言,目标数据维度可以是但不限于管道名称、管道材质、管道长度、管道规格、站场及阀室基本信息、压缩机基本信息、管道输送气体基本信息等维度数据。在目标数据维度下,可以收集相关的多源异构数据,并确定多源异构数据的待处理数据源和每个待处理数据源下的待转换字段的字段数据。
[0069]
在本方法中,待处理数据源可以是指用于提供目标数据维度相关的字段数据的数据源提供方,例如各业务部门的相关数据或软件计算仿真的结果,包括天然气管道沿线的阀室或站场的业务资料、scada系统及调度中心的实时数据等,在此不作具体限定。
[0070]
在本方法中,预先配置的转换字段库可以包括每个预设数据源在不同数据维度的标准属性字段下相对应的可转换字段。例如,可以包括上述待处理数据中的各部门业务资料、scada系统及调度中心的实时数据等数据源在数据类型、数据大小、数据单位的标准属性字段下相对应的可转换字段。
[0071]
在步骤三中,需要将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段,并得到字段数据,再基于所述字段数据合成目标数据维度的多源异构标准数据。
[0072]
由于字段数据处于不同数据源,可能会导致在合成目标数据维度的多源异构标准数据的过程中出现大量的重复数据,从而影响后续字段数据的使用体验。基于此,还需要进行进一步的去重操作。在本方法中,去重处理具体步骤如下。
[0073]
(1)获取每个待处理数据源的优先级,并以最高优先级的基础数据源为基础,查找所述基础数据源下的目标标准属性字段中是否存在所述目标数据维度的所有标准属性字段;
[0074]
(2)当所述基础数据源下的目标标准属性字段中存在所述目标数据维度的所有标准属性字段时,将所述基础数据源下的目标标准属性字段的字段数据确定为所述目标数据维度的多源异构标准数据;
[0075]
(3)当所述基础数据源下的目标标准属性字段中不存在所述目标数据维度的部分标准属性字段时,获取不存在于所述目标数据维度的所有标准属性字段中的填充标准属性
字段;
[0076]
在本方法中,管道名称、内径、壁厚、长度、管道沿线高程、站场或阀室的里程和高程等信息的数据源优先从设计资料中获取;而管道运行过程中的压力、流量、环境温度等信息的数据源优先从scada系统及调度中心的实时数据中获取。
[0077]
由此,可以将每个待处理数据源下的待转换字段转换为相对应的目标标准属性字段,得到每个待处理数据源下的目标标准属性字段的字段数据,然后根据每个待处理数据源下的目标标准属性字段的字段数据合成目标数据维度的多源异构标准数据,从而能够将不同数据源提供的待转换字段的字段数据抽象出标准统一的多源异构标准数据,提高数据汇总时字段数据的使用体验,并且改善字段数据的完整性。
[0078]
在步骤四中,需要基于国际posc组织的石油勘探开发集成平台的epicentre数据模型来构建天然气管道系统数据仓库,分别是天然气管道系统设计参数和运行参数2个数据仓库:
[0079]
(1)天然气管道系统设计参数数据仓库
[0080]
天然气管道系统设计参数数据仓库中的元数据,是从数据源中提取出来的符合映射关系的管道、站场、阀室等的基础参数,包括管段名称及长度、壁厚、内径、外径、粗糙度、管道沿线高程变化情况、设计压力、设计输气量、穿跨越结构、环境温度、管道沿线站场或阀室的里程及高程、压缩机站所用压缩机规格及运行数量等;
[0081]
(2)天然气管道系统运行参数数据仓库
[0082]
天然气管道系统运行参数数据仓库中的元数据,是从数据源中提取出来的符合映射关系的流动参数,包括:管道运行过程中的实际压力、温度、流量、流体粘度、热值、压缩机进出口压力、压比、功率等。
[0083]
在步骤五中,可以进一步开展天然气管道系统需求数据挖掘。分别从管道沿线流量、压力、温度、地形和管道沿线规格五个应用主题出发,基于适当的算法来挖掘数据背后隐藏的知识:
[0084]
(1)管道沿线流量、压力、温度的算法
[0085]
管道沿线流量、压力、温度的变化情况,可根据流量、压力及温度的算法从天然气管道系统运行参数数据仓库中分别得出,其主要作用是通过分析得到有关流量、压力及温度的最大、最小、平均值等有用信息,为分析天然气管道系统提供数据支撑。
[0086]
(2)地形、管道沿线规格的算法
[0087]
管道沿线地形及管道规格的变化情况,可由地形、管道规格的算法从天然气管道系统设计参数数据仓库中得出,主要是统计得到最大高程、最小高程,以及计算得出最大高程差、最小高程差、管径、管道材质等数据。
[0088]
下面结合具体实例对本发明的应用原理作进一步描述。
[0089]
例:已知天然气在标准状态下的密度为0.774kg/m3,相对分子质量为17.234kg/kmol,气体平均温度为20℃,管长为1.7km,管内径为813mm,壁厚8.8mm,对于该管道通过软件模拟得到,更改压缩机开机方案后,该工况管道起点压力为5.4mpa。此外,该天然气管道沿线里程、高程的相关数据、压气站位置及该工况中压缩机运行过程中的进出口压力等参数均以excel表格的形式保存在调度中心,试开展数据分析。
[0090]
第一步:确定数据源,数据源为该管道调度中心存储的历史数据;包括天然气密度
ρ=0.774kg/m3,天然气相对分子质量m=17.234kg/kmol,气体平均温度t0=20℃,管道长度l=1.7km,管道直径d=813mm,壁厚δ=8.8mm,管道起点压力q0=5.4mpa。
[0091]
第二步:数据集成,利用etl工具将清管作业的历史数据从数据中心提取出来,并检查数据存储的类型,使之符合定义的映射关系;
[0092]
第三步,将数据分类存入数据仓库,具体步骤如下:
[0093]
(1)将天然气密度ρ=0.774kg/m3,天然气相对分子质量m=17.234kg/kmol,管道长度l=1.7km,管道直径d=813mm,壁厚δ=8.8mm,该管道天然气管道沿线里程、高程的相关数据及压气站位置等数据存入天然气管道系统设计参数数据仓库;
[0094]
(2)将气体平均温度t0=20℃,管道起点压力q0=5.4mpa,压缩机运行过程中的进出口压力等数据存入天然气管道系统运行参数数据仓库;
[0095]
第四步,数据提取,按照应用主题为管道沿线压力变化,定义压力提取模型,然后从数据仓库中提取涉及的相关数据信息,包括:管道起点压力q0=5.4mpa和压缩机运行过程中的进出口压力等压力有关数据及管道沿线里程等数据;
[0096]
第五步,数据挖掘,基于提取出的数据,针对该管道,以管道沿线里程、压力等参数作为参考,采用统计的方法,分析得出管道运行过程中随着里程变化而反映出的压力波动;
[0097]
最后,将此次提取出的沿线压力变化与从该管道生产运行表中提取出的压力数据进行对比,发现压力误差不超过5%,说明这一工况对该管道系统来说适应性良好,为该工况运用于实际提供了理论基础,可用于指导现场实际生产。因此,本发明有其必要性和实用性。
[0098]
以上所述仅为本发明的较佳实例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献