一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于时空聚类的电力物资需求预测方法与流程

2021-11-03 14:43:00 来源:中国专利 TAG:


1.本发明涉及物资需求预测的技术领域,尤其涉及一种基于时空聚类的电力物资需求预测方法。


背景技术:

2.需求预测对于供应链管理的物资计划非常重要,准确预测物资需求,对于节约工程成本,提高资金利用率,具有重要意义。在电力物资需求预测方面,研究者已经开展了一系列的研究工作,用于解决电力物资需求预测问题。
3.国外智能化物资管理起步较早,许多学者使用了不同方法对物资需求预测问题进行了研究。有学者提出一种基于模糊遗传算法的神经网络模型,使用该模型对间歇性物资供应问题进行了研究,并使用了真实数据对模型效果进行了验证,证明模型效果良好。
4.国内对物资需求预测问题的研究虽然起步较晚,但是近年来国内学者也对其做了大量研究。例如,有学者采用支持向量机回归来解决电网物资需求预测问题,增加了混沌搜索算子的人工鱼群算法对支持向量机参数和核函数进行优化搜索;有学者引入了基于矩阵分解的需求预测方法,通过建立项目和物资之间的匹配矩阵实现预测矩阵中的元素,但是没有考虑项目和项目之间的相互关系,以及物资之间的相互关系。
5.综上所述,尽管在电力物资需求预测方面已经进行了一些研究和尝试,但是普遍存在的问题是实用性较差,预测所依据的数据过于理想化,均为少数几个属性表达的结构化数据;其次,能够有效预测的物资种类有限。电力工程所需要的物资种类多达几万种,它们都属于被预测的对象,仅对几种物资进行预测不具有实用性。另外,物资种类繁多,而单个电网项目所用物资相比很少,利用历史物资用量进行预测时,存在数据稀疏问题。最后,电力物资需求的模式有其共通性和规律性,针对每一种物资分别设计相应的预测模型显然不理想。


技术实现要素:

6.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
7.鉴于上述现有存在的问题,提出了本发明。
8.因此,本发明提供了一种基于时空聚类的电力物资需求预测方法,解决电力物资种类繁多,难以实现对电力物资的批量分析的问题和聚类时人为定类比存在主观性过强的问题。
9.为解决上述技术问题,本发明提供如下技术方案:包括,通过历史采购数据库调取电力物资的历史需求数据,并将所述电力物资的历史需求数据进行数据清洗;基于电力物资的历史需求数据中的需求时间和需求数量,对清洗后的电力物资的历史需求数据先后进行自相关性检验、物资需求周期分析操作,以提取所述清洗后的数据样本在时间维度上的
新特征;利用bin策略、聚类分析策略、回归策略和移动平均策略对清洗后的电力物资的历史需求数据中的噪声进行替换处理,以平滑数据噪声;利用k

means聚类策略和层次聚类中的linkage策略分别对替换处理后的数据进行时间、空间维度上的聚类,并将聚类后的数据划分为训练集和测试集;根据所述新特征并利用k近邻算法获取与新物资相近邻的参照物资,并将所述新物资划分到最近的聚类的类内,更新类内点;利用多个训练模型对所述训练集进行训练,以拟合训练模型,并将拟合的训练模型用测试集数据进行预测;利用模型精度评价指标衡量训练模型在目标类内的预测精度,并选择精度最高的训练模型作为目标类内的预测模型,通过所述预测模型完成电力物资的需求预测。
10.作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述电力物资的历史需求数据包括物资编码、需求公司、需求时间、需求数量、物料描述和物料组。
11.作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述数据清洗包括将电力物资的历史需求数据中的缺失值按均值、众数或零进行补全;将电力物资的历史需求数据中的物料描述进行拆分,获得物料所属类型指标;将电力物资的历史需求数据中重复的数据去除。
12.作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述提取新特征包括通过下式进行自相关性检验:
[0013][0014]
其中,ρ
l
为自相关系数,x
k
是时间点k下的随机变量,x
k
‑1是时间点k

1下的随机变量,cov()为协方差,var()为方差;所述清洗后的电力物资的历史需求数据在时间维度上的新特征包括波动银子、需求间隔和波峰的月份特征。
[0015]
作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述k

means聚类策略包括,为每个待聚类的点选择聚类中心,其中,所述每个待聚类的点为每个电力物资的历史需求数据;计算每个待聚类的点到聚类中心的距离,将每个待聚类的点聚类到离聚类中心最近的聚类;计算每个聚类中所有点的坐标平均值,并将所述坐标平均值作为新的聚类中心,并继续将每个待聚类的点聚类到新的离聚类中心最近的聚类;直至聚类中心的位置不再变化停止计算。
[0016]
作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述linkage策略包括,将每个点当作单独的一类,共得到n类;其中,类与类之间的距离为n类所包含的点之间的距离;将距离最近的两个类合并成为一个新的类,并重新计算新的类与所有旧类之间的距离,直至只合并成一个类后停止合并和计算。
[0017]
作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述更新类内点包括,
[0018][0019]
其中,k=0表示新物资,k=1,

,n表示新物资所属类包含的其他物资,x
kt
是物资k在t时间点下的特征数据,d
kt
是物资k在t时间点下的需求量,α为常数项,β为自变量x
kt
的系数,ε为随机误差项。
[0020]
作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述多个训练模型包括邻近算法、随机森林分类器、神经网络算法、arima模型和prophet模型。
[0021]
作为本发明所述的基于时空聚类的电力物资需求预测方法的一种优选方案,其中:所述模型精度评价指标包括,
[0022][0023]
其中,n
k
表示目标类k中包含的点的数量,accuracy
u
是类k内点u的预测精度。
[0024]
本发明的有益效果:本发明通过历史物资需求数据,调用数据预测算法,科学预测未来电力物资的需求数量及需求周期规律,为物资采购或者电厂生产检修提供科学参考和决策支持;根据时空聚类方法对各时空节点的电力物资情况进行划分,考虑了物资需求的时间周期性和空间相关性等特点,能够更高效、直观地区分待预测时空节点的类别特征;同时引入集成学习方法,对多模型的预测结果进行集成,提高了需求预测精度。
附图说明
[0025]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0026]
图1为本发明第一个实施例所述的一种基于时空聚类的电力物资需求预测方法的流程示意图;
[0027]
图2为本发明第二个实施例所述的一种基于时空聚类的电力物资需求预测方法的r2 score模型精度评价结果对比示意图;
[0028]
图3为本发明第二个实施例所述的一种基于时空聚类的电力物资需求预测方法的mse score模型精度评价结果对比示意图;
[0029]
图4为本发明第二个实施例所述的一种基于时空聚类的电力物资需求预测方法的mae score模型精度评价结果对比意图;
[0030]
图5为本发明第二个实施例所述的一种基于时空聚类的电力物资需求预测方法的mape score模型精度评价结果对比示意图。
具体实施方式
[0031]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0032]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0033]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方
式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0034]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0035]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0036]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0037]
实施例1
[0038]
参照图1,为本发明的第一个实施例,该实施例提供了一种基于时空聚类的电力物资需求预测方法,包括:
[0039]
s1:通过历史采购数据库调取电力物资的历史需求数据,并将电力物资的历史需求数据进行数据清洗。
[0040]
其中需要说明的是,电力物资的历史需求数据包括物资编码、需求公司、需求时间、需求数量、物料描述和物料组。
[0041]
数据清洗的步骤如下:
[0042]
(1)将电力物资的历史需求数据中的缺失值按均值、众数或0进行补全;
[0043]
(2)将电力物资的历史需求数据中的物料描述进行拆分,获得物料所属类型指标;
[0044]
并将拆分的数据按要求转换数据格式,数据格式包括文本型、数值型和日期型等。
[0045]
(3)将电力物资的历史需求数据中重复的数据去除。
[0046]
s2:基于电力物资的历史需求数据中的需求时间和需求数量,对清洗后的电力物资的历史需求数据先后进行自相关性检验、物资需求周期分析操作,以提取清洗后的数据样本在时间维度上的新特征。
[0047]
由于时序相关的模型对历史数据的平稳是有要求的,在量化过程中应用时间序列分析手段时,需要先进行自相关性检验,具体的,通过下式进行自相关性检验:
[0048][0049]
其中,ρ
l
为自相关系数,x
k
是时间点k下的随机变量,x
k
‑1是时间点k

1下的随机变量,cov()为协方差,var()为方差;
[0050]
物资需求周期分析是借助傅里叶变换进行实现,其将时域数据转化为频域数据;具体的,将时域看作是不同振幅、不同相位正弦波的叠加(频域),将时序数据展开成三角函数的线性组合,得到每个展开项的系数,就是傅里叶系数;傅里叶系数越大,表明它所对应
的正弦波的周期就越有可能是这份数据的周期。
[0051]
操作完成后获得的清洗后的电力物资的历史需求数据在时间维度上的新特征包括波动银子、需求间隔和波峰的月份特征。
[0052]
s3:利用bin策略、聚类分析策略、回归策略和移动平均策略对清洗后的电力物资的历史需求数据中的噪声进行替换处理,以平滑数据噪声。
[0053]
需要说明的是,bin策略指通过利用应被平滑数据点的周围点(近邻),对一组排序数据进行平滑,再将排序后的数据被分配到若干桶(称为bins)中;本实施例的聚类分析策略可以k

means聚类、谱聚类或基于密度的聚类等;回归策略可使用套索回归、岭回归或逐步回归等;移动平均策略是一种简单平滑预测技术,它的基本思想是:根据时间序列资料、逐项推移,依次计算包含一定项数的序时平均值,以反映长期趋势的方法。
[0054]
s4:利用k

means聚类策略和层次聚类中的linkage策略分别对替换处理后的数据进行时间、空间维度上的聚类,并将聚类后的数据划分为训练集和测试集。
[0055]
(1)k

means聚类策略的具体实现步骤如下:
[0056]

为每个待聚类的点选择聚类中心,其中,每个待聚类的点为每个电力物资的历史需求数据;
[0057]

计算每个待聚类的点到聚类中心的距离,将每个待聚类的点聚类到离聚类中心最近的聚类;
[0058]

计算每个聚类中所有点的坐标平均值,并将坐标平均值作为新的聚类中心,并继续将每个待聚类的点聚类到新的离聚类中心最近的聚类;
[0059]

反复执行步骤



,直到聚类中心不再进行大范围移动(即聚类中心的位置不变)或者聚类次数达到要求为止。
[0060]
其中,聚类次数可按要求进行设置。
[0061]
(2)层次聚类中的linkage策略的具体实现步骤如下:
[0062]

将每个点当作单独的一类,共得到n类;
[0063]
其中,类与类之间的距离为n类所包含的点之间的距离;
[0064]

将距离最近的两个类合并成为一个新的类,并重新计算新的类与所有旧类之间的距离,直至只合并成一个类后停止合并和计算。
[0065]
类间距离等于两类内点之间的最小距离,该距离用ward方差度量,计算方式为:
[0066][0067]
其中,u是s和t组成的新的聚类,s和t为聚类簇,v为聚类森林中未使用的聚类,t=|v| |s| |t|,|*|为聚类簇中观测值的个数。
[0068]
需要说明的是,最佳的聚类的数可以用人工选取或者gap statistic确定等方法,其基本思想是不停地进行尝试之后选择类内离差平方和最小的k,其中gap statistic是寻找和期望相差最大的k,其计算公式如下:
[0069]
gap(k)=e(logd
k
)

logd
k
[0070]
其中,d
k
是类内样本点之间的欧式距离,e为logd
k
的期望,一般使用蒙特卡洛模拟产生,具体的,算法的基本过程是,首先在样本所在区域内按照均匀分布随机地产生和原始样本数一样多的随机样本,并对这个随机样本做k均值。
[0071]
较佳的是,本实施例根据时空聚类方法对各时空节点的电力物资情况进行划分,考虑了物资需求的时间周期性和空间相关性等特点,能够更高效、直观地区分待预测时空节点的类别特征,便于对未来一段时间的物资需求情况进行观察和分类别预测。
[0072]
s5:根据新特征并利用k近邻算法获取与新物资相近邻的参照物资,并将新物资划分到最近的聚类的类内,更新类内点。
[0073]
若需要使用一种全新的物资,但是缺乏历史数据导致需求不可预知,则根据物资特征利用k近邻(k

nearest neighbor,knn)算法找出与新物资相近邻的参照物资,将新物资划分到最近的聚类类内,并利用协变量方法,为新物资人工构造历史需求数据,更新类内点,具体公式如下:
[0074][0075]
其中,k=0表示新物资,k=1,

,n表示新物资所属类包含的其他物资,x
kt
是物资k在t时间点下的特征数据,d
kt
是物资k在t时间点下的需求量,α为常数项,β为自变量x
kt
的系数,ε为随机误差项。
[0076]
s6:利用多个训练模型对训练集进行训练,以拟合训练模型,并将拟合的训练模型用测试集数据进行预测。
[0077]
根据每一类内的点寻找最合适的、拟合精度最高模型,其基本过程如下:首先,运用多个训练模型(邻近算法、随机森林分类器、神经网络算法、arima模型和prophet模型)对训练集进行训练,拟合模型,并将拟合出来的模型用测试集数据进行预测。
[0078]
较佳的是,本实施例针对聚类结果,在类内建立不同的预测模型,可以解决物资需求模式不相同,以及各个电厂物资需求不兼容带来的预测难题。
[0079]
s7:利用模型精度评价指标衡量训练模型在目标类内的预测精度,并选择精度最高的训练模型作为目标类内的预测模型,通过预测模型完成电力物资的需求预测。
[0080]
模型精度评价指标包括:mse score、mae score、mape score和r2 score,通过上述指标综合衡量各个训练模型在目标类内的预测精度,选择精度最高的模型作为目标类的预测模型;然后,再针对下一个目标类重复上述过程,直到完成所有类的预测模型选择。
[0081]
其中,预测精度的计算公式如下:
[0082][0083]
其中,n
k
表示目标类k中包含的点的数量,accuracy
u
是类k内点u的预测精度。
[0084]
本实施例通过历史物资需求数据,调用数据预测算法,科学预测未来电力物资的需求数量及需求周期规律,为物资采购或者电厂生产检修提供科学参考和决策支持;同时,为了提高需求预测精度,引入集成学习方法,对多模型的预测结果进行集成,可以保证预测结果的稳定性,且不易受异常数据的干扰,解决电厂因应急等事件的发生给模型引入干扰。
[0085]
实施例2
[0086]
为了对本方法中采用的技术效果加以验证说明,本实施例选择现有机器学习模型和采用本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
[0087]
现有机器学习模型难以对电力物资进行批量分析,预测精度低。
[0088]
为验证本方法相对现有机器学习模型具有较高的电力物资需求预测效果。本实施例中将现有机器学习模型和本方法分别对某集团提供的采购离线数据进行实时预测对比。
[0089]
将现有机器学习模型的预测作为对照组(random forest),将本方法所建模型的预测作为实验组(our method)进行实验分析,使用mse score、mae score、mape score和r2 score作为模型精度评价指标;对照组与实验组的对比结果分别如图2、图3、图4、图5所示。
[0090]
从图2、图3、图4和图5中可以看出本方法的模型在预测精度上要优于现有机器学习模型。
[0091]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献