一种燃气用户用气量预测方法及装置与流程

2021-12-08 00:07:00 来源：中国专利 TAG：

1.本发明属于燃气用气预测技术领域，具体涉及一种燃气用户用气量预测方法及装置。

背景技术：

2.在燃气业务经营中，用户的购气和缴费行为不定期(一个月或数月)发生，同时燃气公司查表和生成账单的时间周期也不完全固定；而财务收入确认以自然月为统计周期，需根据用户的购气数据和查表数据，结合外部数据，对每月每个用户的用气量和金额进行估计。传统方案是通过对销售数据使用统计分析进行人工核算得到每个用户当月的用气量和金额。该方案存在以下缺陷：时间周期较长，人力负担较大；且由于燃气查表数据中存在较多的缺失和异常的情况，传统统计分析法很难保证其科学性，系统误差较高，不利于对用户的用气量和金额进行准确的估算。

技术实现要素：

3.为了解决现有技术中存在的上述问题，本发明提供一种燃气用户用气量预测方法及装置。
4.为了实现上述目的，本发明采用以下技术方案。
5.第一方面，本发明提供一种燃气用户用气量预测方法，包括以下步骤：
6.从数据库获取用户历史用气数据；
7.针对规则用气用户和不规则用气用户，分别基于神经网络建立以用户用气量、用户类别和环境为输入的预测模型；
8.对预测模型进行训练，利用在神经网络全连接层之间设置dropout，在模型训练时按照设定的比例随机丢弃中间结果，并将保留的中间结果进行放大使均值不变；
9.利用训练好的预测模型，对规则用气用户和不规则用气用户的用气量分别进行预测。
10.进一步地，所述数据库中存有查表数据和账单数据，查表数据由人工手抄获得的用户用气量，查表数据输入系统后自动生成账单数据；账单数据的用气量准确，但账单数据生成时间与查表数据的查表时间可能不一致，采用以下方法进行数据对齐：
11.根据数据库中用户每一账单数据的生成时间，查找所述时间之前与所述时间最接近的查表数据的查表时间，将所述查表时间作为所述账单数据的实际时间；
12.对用户每两个相邻账单数据的实际时间构成的用气区间，将后一账单数据的用气量作为用户在所述用气区间的用气量。
13.更进一步地，所述方法还包括缺失值补充步骤：针对缺失的查表数据，采用插值法对缺失数据进行填充；并通过插值法计算每个月的用气量。
14.更进一步地，所述方法还包括数据消偏和标准化步骤：计算用户历史用气量的中位数和四分位差，将所述用户每次的用气量减去所述中位数再除以所述四分位差；对预测
模型输出的所述用户的用气量进行对应的逆运算，得到所述用户的用气量。
15.进一步地，所述规则用气用户的预测模型主要由多层堆叠的长短记忆力网络lstm和多个全连接层组成，多层lstm用于提取长时间输入序列的潜在关联特征；所述不规则用气用户的预测模型主要由双向长短记忆力网络bilstm、注意力机制和全连接层组成，bilstm用于从输入序列中提取上下文特征，注意力机制用于通过对输入数据加权求和，有选择地提取重要特征。
16.第二方面，本发明提供一种燃气用户用气量预测装置，包括：
17.数据获取模块，用于从数据库获取用户历史用气数据；
18.模型建立模块，用于针对规则用气用户和不规则用气用户，分别基于神经网络建立以用户用气量、用户类别和环境为输入的预测模型；
19.模型训练模块，用于对预测模型进行训练，利用在神经网络全连接层之间设置dropout，在模型训练时按照设定的比例随机丢弃中间结果，并将保留的中间结果进行放大使均值不变；
20.用气量预测模块，用于利用训练好的预测模型，对规则用气用户和不规则用气用户的用气量分别进行预测。
21.进一步地，所述数据库中存有查表数据和账单数据，查表数据由人工手抄获得的用户用气量，查表数据输入系统后自动生成账单数据；账单数据的用气量准确，但账单数据生成时间与查表数据的查表时间可能不一致，采用以下方法进行数据对齐：
22.根据数据库中用户每一账单数据的生成时间，查找所述时间之前与所述时间最接近的查表数据的查表时间，将所述查表时间作为所述账单数据的实际时间；
23.对用户每两个相邻账单数据的实际时间构成的用气区间，将后一账单数据的用气量作为用户在所述用气区间的用气量。
24.更进一步地，所述装置还包括缺失值补充模块，用于针对缺失的查表数据，采用插值法对缺失数据进行填充；并通过插值法计算每个月的用气量。
25.更进一步地，所述装置还包括数据消偏和标准化模块，用于计算用户历史用气量的中位数和四分位差，将所述用户每次的用气量减去所述中位数再除以所述四分位差；对预测模型输出的所述用户的用气量进行对应的逆运算，得到所述用户的用气量。
26.进一步地，所述规则用气用户的预测模型主要由多层堆叠的长短记忆力网络lstm和多个全连接层组成，多层lstm用于提取长时间输入序列的潜在关联特征；所述不规则用气用户的预测模型主要由双向长短记忆力网络bilstm、注意力机制和全连接层组成，bilstm用于从输入序列中提取上下文特征，注意力机制用于通过对输入数据加权求和，有选择地提取重要特征。
27.与现有技术相比，本发明具有以下有益效果。
28.本发明通过从数据库获取用户历史用气数据，针对规则用气用户和不规则用气用户，分别基于神经网络建立以用户用气量、用户类别和环境为输入的预测模型，对预测模型进行训练，利用在神经网络全连接层之间设置dropout，在模型训练时按照设定的比例随机丢弃中间结果，并将保留的中间结果进行放大使均值不变，利用训练好的预测模型，对规则用气用户和不规则用气用户的用气量分别进行预测，实现了对用户用气量的自动预测。本发明通过将用户分为规则用气用户和不规则用气用户，并针对不同种类的用户建立不同的
预测模型，可以提高预测模型的精度；通过在神经网络的全连接层之间设置dropout层，可明显提高模型训练速度，避免过度拟合。
附图说明
29.图1为本发明实施例一种燃气用户用气量预测方法的流程图。
30.图2为规则用气用户预测模型的结构示意图。
31.图3为不规则用气用户预测模型的结构示意图。
32.图4为本发明实施例一种燃气用户用气量预测装置的方框图。
具体实施方式
33.为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
34.图1为本发明实施例一种燃气用户用气量预测方法的流程图，包括以下步骤：
35.步骤101，从数据库获取用户历史用气数据；
36.步骤102，针对规则用气用户和不规则用气用户，分别基于神经网络建立以用户用气量、用户类别和环境为输入的预测模型；
37.步骤103，对预测模型进行训练，利用在神经网络全连接层之间设置dropout，在模型训练时按照设定的比例随机丢弃中间结果，并将保留的中间结果进行放大使均值不变；
38.步骤104，利用训练好的预测模型，对规则用气用户和不规则用气用户的用气量分别进行预测。
39.本实施例中，步骤101主要用于获取用户历史用气数据。为了方便，事先构建历史数据库，保存最近一段时期(如3年内)每个用户的用气数据(与用气有关的数据，如查表数据、账单数据等)、用户信息及环境因素(每天的温度、湿度、风力等)等。有了所述存放历史数据的数据库，就可以方便地构建模型训练数据集、测试数据集等。
40.本实施例中，步骤102主要用于构建预测模型。由于燃气用户的成份很复杂，很多不同用户的用气规律不同，而且有些用户用气规律差别很大，比如，一般的居民用户和工商大用户。如果对所有用户不加区分地对待，只建立一个预测模型用来预测所有不同用户的用气量，势必会造成很大的预测误差。因此需要对用户按照用气规律进行分类，对不同类别的用户建立不同的预测模型。分类方法很多，本实施例根据用户用气性质的不同将用户分为规则用气用户和不规则用气用户，比如将区域式大型发电用户(发电量>15万千瓦)、区域式小型发电用户(发电量不超过2万千瓦)、工业生产用户、采暖制冷用户等视为不规则用气用户，其它类型的用户视为规则用气用户。针对这两类用户分别建立由不同神经网络构成的预测模型，如图2、3所示。为了保证预测模型的精度，预测模型的输入要选取与用气量相关性较强的因素，可通过计算每种因素与用气量的相关性，删除相关性较弱的因素。本实施例以用户用气量、用户类别和环境为输入。用户用气量可以根据不同的应用场景选取不同预测周期的用气量，如日用气量、周用气量或月用气量。用户类别包含的特征很多，主要包括用气性质、行政区划、表具信息等。环境主要是指天气因素，如温度、湿度、风力等。单一的
因素也有多种形式，如最高温度、最低温度、温度均值，也可以是它们的组合，如最高温度温度均值。
41.本实施例中，步骤103主要用于对预测模型进行训练。本实施例通过在神经网络的全连接层之间设置dropout降低模型训练时间，包含dropout的预测模型的结构示意图如图2、3所示。dropout层的作用是在模型训练时随机丢弃一定比例(如50％)的中间结果(即将其置为0)，并将保留的中间结果按对应的倍数(2倍)放大使均值不变。使用dropout层还可以避免模型对数据过度拟合，提高模型的泛化能力。在预测阶段，dropout层不进行任何操作，直接按原样输出中间结果。
42.本实施例中，步骤104主要用于利用训练好的预测模型预测用户的用气量。由于本实施例针对规则用气用户和不规则用气用户分别建立不同的预测模型，因此，对不同的用户根据其所属的类别选择相应的模型，可提高用户用气量的预测精度。
43.作为一可选实施例，所述数据库中存有查表数据和账单数据，查表数据由人工手抄获得的用户用气量，查表数据输入系统后自动生成账单数据；账单数据的用气量准确，但账单数据生成时间与查表数据的查表时间可能不一致，采用以下方法进行数据对齐：
44.根据数据库中用户每一账单数据的生成时间，查找所述时间之前与所述时间最接近的查表数据的查表时间，将所述查表时间作为所述账单数据的实际时间；
45.对用户每两个相邻账单数据的实际时间构成的用气区间，将后一账单数据的用气量作为用户在所述用气区间的用气量。
46.本实施例给出了一种数据对齐的技术方案。本实施例解决的是查表数据与账单数据不一致的问题。查表数据一般由抄表员人工抄写获得，经常存在数据不准、出错的现象，但抄表时间却是准确的。查表数据录入系统后，系统会自动生成账单数据，账单数据上的用气量是准确的，但账单数据生成时间与查表时间多数情况下却不一致。因此需要对查表数据和账单数据进行对齐操作。本实施例对同一用户的每个查表数据和账单数据的对齐方法是：先对查表数据和账单数据进行匹配，即找到与查表数据对应的账单数据。由于查表数据的查表时间是准确的，而账单数据上的用气量是准确的，因此将与账单数据匹配的查表数据的查表时间作为账单数据的实际时间。匹配方法很简单：位于账单数据生成时间之前且与其最接近的查表时间对应的查表数据与所述账单数据就是匹配的。然后按账单生成时间排序，得到多个连续的用气区间，相邻两个账单中后一账单的用气量就是这两个账单对应的用气区间的用气量。
47.值得说明的是，在进行数据对齐之间一般还需要对账单数据进行数据清洗，检索账单数据内的所有对冲数据(数据中的账单类型字段有特殊标识，且用气量和金额为负数)，将其标记为无效；然后对于每条对冲数据，检索可以被其冲抵的账单数据，即费率相同用气量和金额均相互抵消的非对冲类型的账单数据，也标记为无效。最后从账单数据中删除所有标记为无效的数据。
48.作为一可选实施例，所述方法还包括缺失值补充步骤：针对缺失的查表数据，采用插值法对缺失数据进行填充；并通过插值法计算每个月的用气量。
49.本实施例给出了填充缺失数据的一种技术方案。正常情况下查表周期为一个月，每个月的固定时间如月末几天进行查表。但在实际中经常因某些用户在查表时间没有在家，造成查表数据缺失现象。这就需要按照一定的插值算法对缺失数据进行填充。另外，前
面数据对齐获得的用气区间一般都不统一，即很少情况是从月初到月末的一个完整的月份。为了使数据标准化，一般还要采用插值法计算每个月从第一天到最后一天的用气量。插值算法很多，最简单的是线性插值法，本实施例对具体的插值算法不作限制。
50.作为一可选实施例，所述方法还包括数据消偏和标准化步骤：计算用户历史用气量的中位数和四分位差，将所述用户每次的用气量减去所述中位数再除以所述四分位差；对预测模型输出的所述用户的用气量进行对应的逆运算，得到所述用户的用气量。
51.本实施例给出了对数据进行消偏和标准化的一种技术方案。数据消偏和标准化属于数据预处理，目的是简化数据处理的复杂度提高计算精度。本实施例采用中位数/四分位差归一化方法实现消偏和标准化，具体方法是：计算用户所有用气量的中位数和四分位差，用每次的用气量减去所述中位数再除以所述四分位差。为了避免出错，对预测模型输出的用气量还要进行与前述运算对应的逆运算，即乘以所述四分位差再加上所述中位数，得到所述用户的用气量。为了进一步提高预测精度，一般还要利用预测当月的账单数据或历史账单数据对预测结果进行上下界约束，即根据相应的账单数据中记录的用气量乘以一定的缩放系数，得到该用户当月用气量的合理范围，若预测结果超出该范围则将其调整为范围内的与原预测值最接近的数值。
52.作为一可选实施例，所述规则用气用户的预测模型主要由多层堆叠的长短记忆力网络lstm和多个全连接层组成，多层lstm用于提取长时间输入序列的潜在关联特征；所述不规则用气用户的预测模型主要由双向长短记忆力网络bilstm、注意力机制和全连接层组成，bilstm用于从输入序列中提取上下文特征，注意力机制用于通过对输入数据加权求和，有选择地提取重要特征。
53.本实施例分别给出了规则用气用户预测模型和不规则用气用户预测模型两种具体的结构。规则用气用户预测模型如图2所示，包括3个堆叠(串联)的lstm、1个嵌入层、4个全连接层和3个dropout层。lstm具有较强的记忆能力，一般用来处理输入时间序列，输出为经过非线性变换后的特征表示。3个lstm可以对时间跨度较长的事件中的潜在规律做出较好的预测。嵌入(embedding)层接受类别型特征的输入并将其转化为具有固定大小的向量(由多个数值表示的特征)。3个输入经过拼接后作为一个整体输入后续的全连接神经网络中。全连接层的输入为更低层次的特征表示，输出经过非线性变换的更高层次的特征表示或最终的预测结果。不同的全连接层之间添加了dropout层，其作用是在模型训练时随机丢弃一定比例的中间结果，并将保留的中间结果按对应的倍数放大使均值不变。使用dropout可提高模型训练速度，还能避免模型对数据过度拟合，提高模型的泛化能力。在预测阶段，dropout层不进行任何操作，直接按原样输出中间结果。不规则用气用户预测模型如图3所示，包括1个注意力机制、1个双向长短记忆力网络bilstm、1个嵌入层、2个全连接层、1个dropout层。与图2相比，图3增加了注意力(attention)机制，可自动地为输入数据加权，发现数据中对结果的预测有帮助的关键内容；同时将lstm由单向改为双向，便于更灵活地捕捉数据中的上下文关联，从而得到更准确的预测结果。考虑到输入数据的无规律性，与规则用气模型相比，减少了lstm的堆叠层数和全连接网络的层数，可避免过拟合。
54.图4为本发明实施例一种燃气用户用气量预测装置的组成示意图，所述装置包括：
55.数据获取模块11，用于从数据库获取用户历史用气数据；
56.模型建立模块12，用于针对规则用气用户和不规则用气用户，分别基于神经网络
建立以用户用气量、用户类别和环境为输入的预测模型；
57.模型训练模块13，用于对预测模型进行训练，利用在神经网络全连接层之间设置dropout，在模型训练时按照设定的比例随机丢弃中间结果，并将保留的中间结果进行放大使均值不变；
58.用气量预测模块14，用于利用训练好的预测模型，对规则用气用户和不规则用气用户的用气量分别进行预测。
59.本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。
60.作为一可选实施例，所述数据库中存有查表数据和账单数据，查表数据由人工手抄获得的用户用气量，查表数据输入系统后自动生成账单数据；账单数据的用气量准确，但账单数据生成时间与查表数据的查表时间可能不一致，采用以下方法进行数据对齐：
61.根据数据库中用户每一账单数据的生成时间，查找所述时间之前与所述时间最接近的查表数据的查表时间，将所述查表时间作为所述账单数据的实际时间；
62.对用户每两个相邻账单数据的实际时间构成的用气区间，将后一账单数据的用气量作为用户在所述用气区间的用气量。
63.作为一可选实施例，所述装置还包括缺失值补充模块，用于针对缺失的查表数据，采用插值法对缺失数据进行填充；并通过插值法计算每个月的用气量。
64.作为一可选实施例，所述装置还包括数据消偏和标准化模块，用于计算用户历史用气量的中位数和四分位差，将所述用户每次的用气量减去所述中位数再除以所述四分位差；对预测模型输出的所述用户的用气量进行对应的逆运算，得到所述用户的用气量。
65.作为一可选实施例，所述规则用气用户的预测模型主要由多层堆叠的长短记忆力网络lstm和多个全连接层组成，多层lstm用于提取长时间输入序列的潜在关联特征；所述不规则用气用户的预测模型主要由双向长短记忆力网络bilstm、注意力机制和全连接层组成，bilstm用于从输入序列中提取上下文特征，注意力机制用于通过对输入数据加权求和，有选择地提取重要特征。
66.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于模糊灰色评价的钢贸供应链金融风险评估方法与流程

一种燃气用户用气量预测方法及装置与流程

相关文献

最热文献