基于PLS-SVM-GA算法的电网投资能力预测方法与流程

2022-04-14 00:15:59 来源：中国专利 TAG：

基于pls-svm-ga算法的电网投资能力预测方法
技术领域
1.本发明涉及一种电网投资能力预测方法，尤其涉及一种基于pls-svm-ga算法的电网投资能力预测方法。

背景技术：

2.在改革和规范电网企业运营模式的新电改背景下，对电网企业投资能力的研究越来越迫切。合理、客观地把握企业的投资能力是企业管理策略研究的核心内容之一。并且，随着电力市场化和电网企业体制改革的逐步深化，电网企业的经济效益因素在投资决策中所占的比重日益增大。因此，为满足电网企业对资金项目计划和预算管理的需要，有必要采取科学的方法对电网投资能力进行客观的预测，从而对电网公司的投资能力预测提供一定的决策支持。
3.大多数学者采用主成分分析法提取影响因素，但是在影响因素选择上，电网投资涉及的影响因素众多，包括经营状况、管理水平、市场贡献、经济环境和政策环境等多方面指标的多层次、多维度的影响，已有文献有的仅从电网企业投资的内部因素或者外部因素进行分析，有的从内外部都分析了投资因素，均不够全面、客观。
4.在预测方法选取上，应用较为广泛的方法包括计量回归方法以及综合评价方法。计量回归方法主要集中在多元回归以及协整分析，但是传统回归方法的重要缺点是没有考虑影响因素对电网投资规模的非线性影响，并且大多数文献在使用计量模型预测电网投资规模的时候忽略了计量模型的内生性问题。另外，许多学者利用综合评价方法建立电网投资影响因素体系，并在此基础上分析预测电网企业的投资能力。然而，综合评价方法在指标重要程度的判定上有很大的主观性，并且电网企业的投资的因素影响通常是非线性的，从而大大影响了预测的准确性。

技术实现要素：

5.本发明所要解决的技术问题是提供一种基于pls-svm-ga算法的电网投资能力预测方法，能够更好地考虑非线性因素影响，使模型具有较好的鲁棒性和预测稳定性，从而大大提高预测结果的准确性。
6.本发明为解决上述技术问题而采用的技术方案是提供一种基于pls-svm-ga算法的电网投资能力预测方法，包括以下步骤：步骤s101、确定电网企业投资能力的初始影响因素；步骤s102、根据灰色关联度分析进行变量的初步选择；步骤s103、利用偏最小二乘法中的主成分分析对初始影响因素进行提取；步骤s104、将提取出的成分通过支持向量机模型构建训练样本集；步骤s105、利用遗传算法对支持向量机的参数进行优化；步骤s106、对电网投资能力的拟合效果进行评价；步骤s107、利用优化后的支持向量机对电网投资能力进行预测并输出评价指标。
7.进一步地，所述步骤s101中初始影响因素包括：主营业务成本、资产负债率、净资产收益率、单位资产售电量、运行维护费、线损率、售电量、电力行业景气指数、全年高峰负
荷、销售电价、gdp、固定资产投资额、城市化率、第二产业占比、能源消费强度、碳排放强度、经济发展目标和贷款利率。
8.进一步地，所述步骤s102对步骤s101中的初始影响因素分别进行灰色绝对关联度、灰色相对关联度分析，进而计算灰色综合关联度，并选择灰色综合关联度在0.5以上的影响因素进行下一步分析。
9.进一步地，所述步骤s102中灰色综合关联度ρ
0i
的计算公式如下：
10.ρ
0i
＝θε
0i
(1-θ)r
0i
11.其中，θ∈[0,1]，取θ＝0.5，表示对绝对量之间的关系和变化速率同等重视，r
0i
为灰色相对关联度，ε
0i
为灰色绝对关联度。
[0012]
进一步地，所述步骤s103包括：对数据进行标准化处理，生成标准化矩阵e0和f0，表示x
ij
标准化后的数值；表示yi标准化后的数值；x
ij
表示解释变量矩阵x中第j个变量xj的第i个样本点；yi表示因变量y的第i个样本值；通过交叉有效性原则来确定pls回归中成分的提取个数；依次提取第一个主成分t1、第二成分t2、
…
和第h成分th，在确定h后停止迭代，其中h小于x的秩。
[0013]
进一步地，所述pls回归中成分的提取个数确定过程如下：记yi为原始数据，t1，t2，
…
，tm是在pls回归过程中提取的成分，为使用全部样本点并取成分t1，t2，
…
，th回归建模所得的第i个样本点的拟合值，而是在回归时删去样本点i，再利用成分t1，t2，
…
，th回归所得yi的拟合值；
[0014][0015][0016]
则交叉有效性的定义为：
[0017][0018]
当时，停止增加新的成分th。
[0019]
进一步地，所述步骤s104包括：将步骤s103提取的主成分t1,t2,
…
,th作为支持向量机的样本输入，u1＝f(t)作为支持向量机的输出；构建训练集样本{(ti,yi),i＝1,2,
…
h}；其中ti(ti∈rd)是第i个训练样本的输入列向量，yi∈r为对应的输出值，建立如下回归函数：
[0020]
f(t)＝wφ(t) b
[0021]
其中φ(t)为将数据映射到高维特征空间的非线性映射函数；w为特征权向量；b∈r为阈值。
[0022]
进一步地，所述步骤s105通过控制误差ε的取值对偏最小二乘支持向量回归模型中的参数集采用遗传算法进行近似寻优，将训练样本的均方误差mse作为遗传算法的适应度函数，通过选择、交叉和变异操作来判断当前是否满足目标精度要求，若满足条件则通过
解码输出svm模型的最优参组合，否则重新用遗传算法进行计算。
[0023]
进一步地，所述步骤s105包括：步骤1：确定惩罚因子c和核参数σ的大致范围，对c、σ进行二进制编码，生成初始种群；步骤2：构造适应度函数作为遗传算法与svm的接口，将训练样本的均方误差mse作为遗传算法的适应度函数，通过判断适应度函数的大小来决定是否终止参数寻优；步骤3：设定种群规模、终止进化代数、交叉概率和变异概率；步骤4：应用遗传算子选择、交叉、变异运算来产生下一代种群，然后转到步骤2来判断适应度值大小。
[0024]
进一步地，所述步骤s106根据所得的预测模型，输入测试样本进行预测，并对输出数据反归一化处理；根据预测值和实际值的比较，采用评价预测模型的平均绝对误差mae、平均相对误差mpe、均方根误差rmse和theil不等系数对所建预测模型进行评价。
[0025]
本发明提供的电网投资能力预测方法，可以从行业内外部角度进行分析，并利用ga-pls-svm模型对各指标及电网投资能力进行测算。本发明对比现有技术有如下的有益效果：1、本发明通过灰色关联度进行变量的初步选择，综合考虑内部指标以及外部指标共18个影响因素，提高预测结果的准确性。2、在成分提取上，大多数学者采用主成分分析法提取影响因素，本发明利用pls(partial least squares regression，偏最小二乘法回归))方法对初始影响因素进行提取，pls方法是多元线性回归、典型相关分析和主成分分析的集成和发展。它与主成分分析法(pca)的主要区别是它在特征提取过程中采用了信息综合和筛选技术。它所提取的成分既能很好地概括自变量系统中的信息,又能最好地解释因变量,同时又消除了系统中的噪声干扰。因而,pls不仅能够完成类似pca的降维工作，而且有效地解决了自变量间多重相关性情况下的回归建模问题。3、作为预测方法的一种，支持向量机(support vector machines,svm))可以更好地考虑了因素的非线性影响，本发明把利用pls方法提取的主成分作为输入变量用于svm回归建模，使模型具有较好的鲁棒性和预测稳定性。
附图说明
[0026]
图1为本发明电网投资能力预测流程示意图；
[0027]
图2为本发明电网投资能力ga和svm相结合的流程示意图。
具体实施方式
[0028]
下面结合附图和实施例对本发明作进一步的描述。
[0029]
请参见图1，本发明提供的基于pls-svm-ga算法的电网投资能力预测方法，包括：获取电网投资能力影响因素；根据灰色关联度来进行变量的初步选择；根据偏最小二乘法特征提取主成分；将主成分输入支持向量机，构建训练样本集；根据遗传算法优化参数；拟合评价效果；电网投资能力预测。本发明可以从行业内外部角度进行分析，并利用ga-pls-svm模型对各指标及电网投资能力进行测算。
[0030]
为了得到电网投资能力预测值，选择灰色综合关联度在0.5以上的因素进行下一步分析。本发明根据偏最小二乘法特征提取主成分之后，兼顾支持向量机和遗传算法(genetic algorithm,ga)两种智能算法的优点，先将提取的主成分输入支持向量机，构建训练样本集，再通过控制误差ε的取值对偏最小二乘支持向量回归模型中的参数集采用遗传算法进行近似寻优，之后采用偏最小二乘支持向量回归对电网投资能力进行预测，从而
构建一套ga－svm的预测模型体系进行回归预测。
[0031]
本发明建立的ga-svm预测模型的预测步骤如图2所示：
[0032]
(1)输入电网投资能力影响因素。
[0033]
(2)采用灰色综合关联度来进行变量的初步筛选。
[0034]
(3)根据偏最小二乘法特征提取主成分。
[0035]
(4)设置svm模型参数寻优区间以及遗传算法的初始化和参数设置。
[0036]
(5)利用ga算法对svm的模型参数进行寻优。将训练样本的均方误差mse作为ga的适应度函数，通过选择、交叉和变异等遗传操作来判断当前是否满足目标精度要求，若满足条件则通过解码输出svm模型的最优参数γ和σ2组合，否则重新用遗传算法进行计算。
[0037]
(6)建立参数优化后的svm预测模型。根据步骤(3)得到的最佳参数γ和σ2，利用训练样本，训练svm预测模型，最后根据所得的预测模型，输入测试样本进行预测，并对输出数据反归一化处理。
[0038]
(7)根据预测值和实际值的比较，采用评价预测模型的性能指标mae、mpe、rmse和theil不等系数对所建预测模型进行评价。
[0039]
(8)最后利用训练好的ga-svm进行预测，预测得到未来某一时刻的电网投资能力指标数值，再进行投资能力的相关分析。
[0040]
下面对本发明的每个步骤一一展开说明。
[0041]
1、获取电网投资能力影响因素
[0042]
面对错综复杂的经济和社会环境，不仅需要从行业内部的角度来研究电网企业投资能力，还需要从宏观环境的角度审视经济发展对投资能力的影响，因此，需要分别从行业内部、外部来选取影响电网投资能力的指标，同时基于相关性、全面性、代表以及数据的可得性等原则，构建了如表1所示电网投资能力影响因素指标体系。
[0043]
表1电网投资能力影响因素
[0044][0045]
2、根据灰色综合关联度来进行变量的筛选
[0046]
本发明对上文确定的18个指标与电网投资能力分别进行灰色绝对关联度、灰色相对关联度分析，进而计算灰色综合关联度，选择灰色综合关联度在0.5以上的因素进而下一步分析。
[0047]
灰色绝对关联度、灰色相对关联度和灰色综合关联度基本原理和计算方法如下：
[0048]
(1)灰色绝对关联度
[0049]
设
[0050]
xi＝(xi(1),xi(2),
…
,xi(n))(i＝1,2,
…
,m)
[0051]
记折线
[0052]
(xi(1)-(xi(1),xi(2)-(xi(1),
…
,xi(n)-(xi(1))为令
[0053][0054][0055]
则，灰色绝对关联度为
[0056][0057]
灰色绝对关联度ε
0i
表征了折线x0与xi的绝对增量间的关系，用两条序列折线间所夹的面积大小来衡量两序列的关联性的大小，折线x0与xi的绝对增量越相似，ε
0i
越大，反之就越小。
[0058]
(2)灰色相对关联度
[0059]
设
[0060]
xi＝(xi(1),xi(2),
…
,xi(n))(i＝1,2,
…
,m)
[0061]
则，灰色相关关联度为
[0062][0063]
其中，x'i＝xi/xi(1),i＝0,1,2,
…
,m
[0064]
灰色相对关联度r
0i
表征了序列x0与xi相对于始点的变化速率之间的关系，x0与xi的变化速率越接近，r
0i
越大，反之就越小。
[0065]
(3)灰色综合关联度
[0066]
灰色综合关联度ρ
0i
既体现了折线x0与xi的相似程度，又反映出x0与xi相对于始点的变化速率的接近程度，是较为全面地表征序列之间是否紧密的一个数量指标。其计算公式如下：
[0067]
ρ
0i
＝θε
0i
(1-θ)r
0i
[0068]
其中，θ∈[0,1]。为表示对绝对量之间的关系和变化速率同等重视，取θ＝0.5。
[0069]
3、根据偏最小二乘法(pls，partial least-squares regression)提取主成分
[0070]
对于上述根据灰色综合关联度筛选出来电网投资能力影响因素，进一步利用pls
回归分析相比于主成分分析，可以有监督地提取主成分，所以可以说pls回归分析是主成分、典型相关分析及多元线性回归分析的有机结合，其具体步骤如下：
[0071]
(1)数据标准化处理
[0072]
其目的在于使样本点的集合重心和原点重合，减少运算误差。
[0073][0074]
其中，x
ij
表示解释变量矩阵x中第j个变量xj的第i个样本点；表示解释变量矩阵x中第j个变量xj的均值；sj表示xj的标准差；yi表示因变量y的第i个样本值；表示y的均值；sy表示y的标准差；表示x
ij
标准化后的数值；表示yi标准化后的数值。
[0075]
(2)第一成分t1的提取
[0076]
对于标准化矩阵e0和f0，从e0中提取第一个主成分t1＝e0w1，其中w1为e0的第一主轴，即||w1||＝1。
[0077]
则有
[0078][0079][0080]
其中，e
0i
(i＝1,2,
…
,k)表示e0的第i列；r(xj,y)(i＝1,2,
…
,k)表示xj和y的相关系数。求得轴w1后，可得成分t1。接下来，分别求e0和f0对t1的回归方程
[0081]
e0＝t1p
1t
e1，f0＝t1r1 f1ꢀꢀ
(3-4)
[0082]
其中，为e0对t1的回归系数；为f0对t1的回归系数。并由此可以求得回归方程(4-32)的残差矩阵为：
[0083]
e1＝e
0-t1p
1t
，f1＝f
0-t1r1ꢀꢀ
(3-5)
[0084]
(3)第二成分t2的提取
[0085]
以e1取代e0，f1取代f0，重复建模步骤(2)，可以求得第一主轴w1和第二成分t2，此时，注意到e1不再是标准化矩阵，故有：
[0086][0087]
t2＝e1w2(3-7)
[0088]
其中，cov(e
1j
,y)表示e
1j
与y的协方差。然后再施行e1、f1对t2的回归，有
[0089][0090]
其中，为e1对t2的回归系数；r2＝f
1t
t2/||t2||2为f1对t2的回归系数。
[0091]
(4)第h成分th的提取
[0092]
重复上述步骤(2)(3)，可以求得第h成分th。pls回归中成分的提取个数h可以使用交叉有效性来确定，在确定h后停止迭代，其中h小于x的秩。
[0093]
(5)交叉有效性原则
[0094]
根据上述pls回归建模步骤，可以知道，pls回归方程并不需要选用全部的成分进行回归建模，对此，可以通过考察增加一个新的成分后，能否对模型的预测功能有明显的改进来考虑，即可以通过交叉有效性原则来确定pls回归中成分的提取个数。
[0095]
记yi为原始数据，t1，t2，
…
，tm是在pls回归过程中提取的成分，为使用全部样本点并取成分t1，t2，
…
，th回归建模所得的第i个样本点的拟合值，而是在回归时删去样本点i，再利用成分t1，t2，
…
，th回归所得yi的拟合值。记：
[0096][0097][0098]
则，交叉有效性的定义为：
[0099][0100]
所谓交叉有效性原则是指，当时，停止增加新的成分th。
[0101]
4、将主成分输入支持向量机，构建训练样本集
[0102]
在利用pls法从自变量x和因变量y中分别提取主成分t1,t2,
…
,th和u1后(它们包含自变量与因变量的绝大部分信息)，将以上提取的主成分t1,t2,
…
,th作为支持向量机的样本输入，u1＝f(t)作为支持向量机的输出。携带自变量x绝大部分信息的前h个主成分被提取出来，构成了支持向量机的输入空间，从而实现了输入空间由rn→
rh的变换，达到了特征提取和变量降维的目的，从而提高了模型运行的效率和预测的精度。
[0103]
将上面提取的主成分构建训练集样本{(ti,yi),i＝1,2,
…
h}(其中ti(ti∈rd)是第i个训练样本的输入列向量，yi∈r为对应的输出值)，建立如下回归函数：
[0104]
f(t)＝wφ(t) b
ꢀꢀ
(4-1)
[0105]
其中φ(t)为将数据映射到高维特征空间的非线性映射函数；w为特征权向量；b∈r为阈值。
[0106]
定义ε的线性不敏感损失函数：
[0107][0108]
其中，f(t)为回归拟合函数的预测值；y对应的实际值，即表示若f(t)与y之间的差别小于等于ε，则损失等于0。
[0109]
引入松弛变量ξi，建立如下约束条件：
[0110][0111]
s.t.y
i-wφ(ti)-b≤ε ξi[0112][0113][0114]
i＝1,2,
…
,l
[0115]
其中，c为惩罚因子。
[0116]
引入largrange函数，并将其转化为对偶形式：
[0117][0118][0119]
0≤αi≤c
[0120][0121]
其中，c为惩罚因子，k(ti,tj)＝φ(ti)φ(tj)为核函数。
[0122]
计算此规划问题求得最优解α和α
*
。
[0123]
利用kkt(karush-kuhn-tucker)条件，即
[0124][0125]
或者
[0126][0127]
计算得到偏置量b
*
。
[0128]
得到svm回归预测的拟合函数为：
[0129][0130]
5、根据遗传算法优化参数
[0131]
遗传算法在非线性优化问题中表现良好，它对模型的连续性、是否线性、可微性没有严格的要求，也不受待优化参数个数的限制，通过自适应学习能够很快获得最优解。目前ga算法已经在神经网络、结构设计、机器学习、函数优化以及图像处理领域有广泛的应用。
[0132]
遗传算法不同于搜索算法、启发式、枚举等传统算法，它通常具有以下的特点：
[0133]
a.将问题参数间接的抽象为参数编码集。
[0134]
b.可以处理复杂的非结构化问题，具有智能性、灵活的组织性和适应性。不需要事先描述整个问题的特点。
[0135]
c.具有较强的并行化，思想简单，实现步骤规范，易于将实际问题具体化。
[0136]
综上分析遗传算法具有很强的全局搜索能力，用遗传算法寻找有效的最小二乘支持向量机的参数是一种可行的方式。
[0137]
由svm的算法过程知道，不敏感损失函数中的ε、惩罚因子c和径向基函数中的σ2(也称径向核)这3个参数取值不同将得到不同的支持向量机模型，因此，本发明将通过控制误差ε的取值对参数集(c，σ2)采用遗传算法进行近似寻优，从而构建ga－pls－svm模型进行回归预测。
[0138]
(1)建立位串空间
[0139]
位串空间：s
l
＝{a1，a2，...ak}，ak＝(a
k1
，a
k2
，...，a
kl
)，a
kl
∈{0，1}将位串个体从位串空间转化成问题参数空间的译码函数ω:{0，1}
l
→
[u，v]的公式定义如下：
[0140][0141]
可以利用二进制对p、q编码。本发明算法采用5位二进制码对p、q进行编码，编码长度l＝10，设前5位表示p，后5位表示q，由此构成候选解空间s，其大小为2
l
。
[0142]
(2)自适应交叉算子
[0143]
本发明引进一种新的自适应遗传算子，建立交叉算子和适应度函数f(x)的关系，从而使交叉概率pc随着适应度的波动而灵活改变，使pc满足时变性，提高算法的灵活度。交叉算子和适应度函数f(x)的关系如下：
[0144][0145]
(3)自适应变异算子
[0146]
本发明采用基本位变异对个体编码串以变异概率pm随机指定某一位或某几位基因作变异运算。建立pm与适应度函数f(x)的关系如下：
[0147][0148]
(4)ga优化pls-svm模型参数
[0149]
主要的实现步骤如下：
[0150]
步骤1：确定惩罚因子c和核参数σ的大致范围，对c、σ进行二进制编码，生成初始种群。
[0151]
步骤2：构造适应度函数，这是遗传算法与svm的接口，通过判断适应度函数的大小来决定是否终止参数寻优。
[0152]
步骤3：对本算法的实际问题设定种群规模(如m＝20)、终止进化代数(t＝60)、交叉概率(pc＝0.85)、变异概率(pm＝0.001)。遗传算子中的选择运算是根据每个个体的适应度大小来确定的，本算法试验中适应度值小的个体将有大的概率被选择到下一代。
[0153]
步骤4：应用遗传算子选择、交叉、变异运算来产生下一代种群，然后转到步骤2来判断适应度值大小。
[0154]
6、预测效果评价
[0155]
利用以下指标评价模型的预测能力：
[0156]
平均绝对误差：
[0157]
平均相对误差：
[0158]
均方根误差：
[0159]
theil不等系数：
[0160]
其中，yk为实际值，则为预测值，n为时间序列的长度。其中，mae和rmse这两个统计量受因变量量纲影响，可以用来比较不同模型的预测效果，其值越小，表明相应模型的预测效果越好。其余两个统计量与因变量量纲无关的相对指标，mpe反映了相对误差的大小，其值亦是越小越好；theil不等系数u通常介于0～1之间，其中当其值为0时，表示拟合程度达至100％。
[0161]
虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种激光雷达影像互动装置的制作方法

基于PLS-SVM-GA算法的电网投资能力预测方法与流程

相关文献

最热文献