考虑极端大风天气的风电功率预测大风数据增强方法与流程

2022-02-24 12:56:59 来源：中国专利 TAG：

1.本发明涉及风电功率预测技术领域，特别是一种考虑极端大风天气的用于风电功率预测的大风数据增强方法。

背景技术：

2.风电功率预测通常采用物理方法或者统计方法，物理方法考虑nwp数据和风电场所处地形以及气候等因素来预测风电功率；统计方法通常使用历史风速、历史功率来预测风电功率。随着机器学习与深度学习的发展，基于机器学习和深度学习的风电功率预测方法譬如使用极限学习机、支持向量机、最小二乘向量机；循环神经网络、长短期记忆进行短期、中期、长期的风电功率预测方面都取得了一定的进展与突破。
3.但是传统的风电功率预测大部分并没有考虑针对极端天气情况下的风电功率预测进行特殊处理。少数论文中提到譬如可以根据欧式距离、熵、相关性系数等方式找出与预测集相似性较高的训练集来进行预测；根据聚类方法找出风速、天气模式相似的数据作为训练集进行预测；根据模型定向选取相似日数据作为训练集进行预测等等，但是这些方法不仅涉及大量的相似度计算导致系统开销大，且并没有根本性地解决由于极端大风天气由于样本稀缺导致的误差极大的情况，所以风电功率预测领域中针对极端大风天气下的风电功率预测是亟需解决的问题。
4.名词解释
5.lof，localoutlier factor，局部异常因子算法；
6.f-dbscan，fast-density-based spatial clustering of applications with noise，快速的具有噪声的基于密度的聚类方法；
7.smote，synthetic minority oversampling technique，合成少数类过采样技术。

技术实现要素：

8.本发明的目的是提供一种考虑极端大风天气的大风数据增强方法，针对风电功率预测模型训练时风电数据中样本不平衡、大风样本稀缺的现象，对不平衡样本进行有效补充，从而能够提升利用补充后样本训练得到的风电功率预测模型的可靠性，提高风电功率预测精度。本发明采用的技术方案如下。
9.一方面，本发明提供一种考虑极端大风天气的风电功率预测大风数据增强方法，包括：
10.获取历史实测风速数据和实测功率数据，生成原始风速-功率数据样本；
11.根据风速数据对原始风速-功率数据样本进行局部异常点识别，剔除离群点样本；
12.从剔除离群点样本后的原始风速-功率数据样本中获取大风数据初始样本；
13.利用f-dbscan聚类算法对大风数据初始样本进行聚类，得到各聚类簇的核心点样本；
14.根据各聚类簇内的核心点数量计算簇密度；
15.基于各聚类簇的核心点及簇密度，利用过采样算法合成新的大风数据样本；
16.利用合成的新的大风数据样本对原始风速-功率数据样本进行扩充，作为风电功率预测模型的训练样本。
17.可选的，所述对原始风速-功率数据样本进行局部异常点识别，剔除离群点样本，包括：
18.采用lof算法计算原始风速-功率数据样本中各样本点的局部离群因子；
19.对于任一样本点，若局部离群因子小于1则将相应样本点的类别标签设置为1，否则设置为-1；
20.对类别标签为-1的样本点进行剔除。
21.可选的，所述从剔除离群点样本后的原始风速-功率数据样本中获取大风数据初始样本包括：按照预设的风速等级调整策略进行至少一次数据分层处理，得到全部风速等级样本数据量不均衡情况下最高风速等级对应的数据样本，将这些数据样本作为大风数据初始样本。
22.可选的，所述按照预设的风速等级调整策略进行至少一次数据分层处理包括：
23.按照预设的初始风速等级划分方案进行数据分层处理；
24.统计分层处理后各风速等级下的样本数据量：若存在任一风速等级下的样本数据量明显小于其他所有风速等级下的样本数据量，则将该风速等级下的数据样本作为大风数据初始样本；若各风速等级下的样本数据量在设定的误差范围内分布均衡，则调整风速等级划分方案中各风速等级覆盖的风速范围和/或风速等级的数量，并重新进行各风速等级下样本数据量的统计，直至各风速等级下的样本数据量在设定的误差范围内分布不均衡，得到大风数据初始样本。
25.以上技术方案，经统计各风速等级下的数据量占全部样本数据量的数据量比例，若分布不均衡，可以得到数据量比例明显小于其他风速等级数据量比例的风速等级，基于风速等级的经验划分，该等级一般即对应了大风速等级，因此，可得到大风数据初始样本。
26.可选的，所述利用f-dbscan聚类算法对大风数据初始样本进行聚类时，参数邻域半径eps取值的确定包括：
27.对于各聚类中心cj，分别按照下式计算对应的eps取值rj，得到eps取值集合{r1,r2,
…
,rj}：
[0028][0029]
上式中，rj为聚类中心cj的eps取值，nj为聚类中心cj所在簇的样本点的个数，distance(cj,xj)表示cj与其簇内点xj之间的距离；
[0030]
从集合{r1,r2,
…
,rj}中选择最小值作为f-dbscan聚类算法的eps参数取值。
[0031]
可选的，所述利用f-dbscan聚类算法对大风数据初始样本进行聚类时，参数邻域最小点数minpts取值的确定包括：
[0032]
确定以eps为半径的搜索圆的内接正方形；
[0033]
对大风数据初始样本空间求取上下左右四个边界线，根据所求得的下侧与左侧边界线得到交界点，将该交界点初始化为基准点，内接正方形以该基准点开始在四个边界线
内滑动，求内接正方形滑动过程中在每一个位置上内接正方形内的样本数量集合；
[0034]
将样本数量集合中具有最多相同数值的样本数量作为f-dbscan聚类算法的minpts参数取值。
[0035]
可选的，所述利用f-dbscan聚类算法对大风数据初始样本进行聚类时，对于样本空间内的任一点，将其作为搜索圆圆心时，仅计算位于搜索圆的外切正方形内部的样本点与圆心的欧式距离，判断欧式距离小于eps的样本点的数量是否大于或等于minpts，若是，则生成以相应点作为核心点的核心点簇。
[0036]
通过f-dbscan聚类可以得到所有聚类簇的核心点集合。
[0037]
可选的，所述根据各聚类簇内的核心点数量计算簇密度包括：
[0038]
对于f-dbscan聚类所得的{c1,c2,c3,
…
,cm}中的聚类簇ci，假设其包含的核心点集合为c
b-i
＝{c
b1
,c
b2
,c
b3
,
…
,c
bm
}，则其簇密度μi根据下式计算：
[0039][0040]
式中，n(
·
)代表统计个数的函数。n(ci)即代表簇ci中的样本点数量。
[0041]
可选的，所述基于各聚类簇内的核心点及簇密度，利用过采样算法合成新的大风数据样本，包括：
[0042]
基于预设的待合成样本总量，以各核心点作为基准点，以簇密度比例作为样本划分比例，划分各核心点所在的簇需要合成的样本数量；
[0043]
根据核心点、簇密度改进smote算法，基于各核心点及对应的样本数量，利用改进的smote算法合成新的大风数据样本。
[0044]
以上所述预设的待合成样本总量，可根据大风样本与其他样本的不平衡程度进行调整设定，如设置扩充后的大风样本总数为其他风力等级下样本数量的平均值。
[0045]
可选的，所述根据核心点、簇密度改进smote算法，基于各核心点及对应的样本数量，利用改进的smote算法合成新的大风数据样本，包括：
[0046]
将核心点作为smote算法中的少数类样本点；
[0047]
将每个核心点所在簇需要合成的样本个数，作为smote算法的k近邻选择；
[0048]
用各个核心点所在簇的簇密度，替代smote算法中的随机数，进行样本合成。
[0049]
第二方面，本发明提供一种考虑极端大风天气的风电功率预测大风数据增强装置，包括：
[0050]
样本数据获取模块，被配置用于获取历史实测风速数据和实测功率数据，生成原始风速-功率数据样本；
[0051]
离群点识别模块，被配置用于根据风速数据对原始风速-功率数据样本进行局部异常点识别，剔除离群点样本；
[0052]
初始样本确定模块，被配置用于从剔除离群点样本后的原始风速-功率数据样本中获取大风数据初始样本；
[0053]
聚类模块，被配置用于利用f-dbscan聚类算法对大风数据初始样本进行聚类，得到各聚类簇的核心点样本；
[0054]
簇密度计算模块，被配置用于根据各聚类簇内的核心点数量计算簇密度；
[0055]
样本生成模块，被配置用于基于各聚类簇的核心点及簇密度，利用过采样算法合
成新的大风数据样本；
[0056]
以及，训练样本确定模块，被配置用于利用合成的新的大风数据样本对原始风速-功率数据样本进行扩充，作为风电功率预测模型的训练样本。
[0057]
第三方面，本发明还公开一种基于第一方面所述大风数据增强方法的风电功率预测方法，包括：
[0058]
获取待预测时段的风速预测数据；
[0059]
将获取到的风速预测数据作为预先训练的风电功率预测模型的输入，得到风电功率预测模型输出的功率预测数据；
[0060]
其中，所述预先训练的风电功率预测模型采用第一方面所述大风数据增强方法得到的训练样本进行模型训练。
[0061]
有益效果
[0062]
本发明的数据增强方法，考虑了大风天气下样本数量较少的情况，结合多种算法并对算法进行改进，实现少数样本的增强扩充，实现训练样本的均衡，利用该扩充后的均衡样本进行风电功率预测模型的训练，可以提升所训练得到的风电功率预测模型的可靠性，改善大风天气下风电预测功率的误差，提高整体的风电预测功率，且经过多个数据集验证具有一定的通用性。
附图说明
[0063]
图1所示为本发明基于f-dcsacn与c-smote的大风数据增强的一种实施例流程示意图；
[0064]
图2和图3所示为多个数据集下实测风速-实测功率-大风增强前后预测功率曲线对比图。
具体实施方式
[0065]
以下结合附图和具体实施例进一步描述。
[0066]
本发明的技术构思为：首先使用lof算法进行原始样本离群点的剔除，避免离群点影响后续大风样本聚类时的效果；其次使用f-dbscan算法对原始大风样本进行聚类，得到核心点簇，并计算各核心点簇对应的簇密度，且对需要合成的样本数量按照簇密度比例划分；最后csmote算法根据聚类产生的簇密度，核心点簇以及每个簇所需的合成样本数进行大风样本的合成，更新原始大风数据样本以达到样本平衡。
[0067]
经实验验证，发现经过本发明方法合成的大风样本的分布规则接近原始大风样本的分布规则，可以有效的提高风电功率预测精度，极大地缩小该情况下的实测功率与预测功率的误差，具有一定的工程价值。
[0068]
实施例1
[0069]
本实施例介绍一种考虑极端大风天气的风电功率预测大风数据增强方法，参考图1，方法包括：
[0070]
获取历史实测风速数据和实测功率数据，生成原始风速-功率数据样本；
[0071]
根据风速数据对原始风速-功率数据样本进行局部异常点识别，剔除离群点样本；
[0072]
从剔除离群点样本后的原始风速-功率数据样本中获取大风数据初始样本；
[0073]
利用f-dbscan聚类算法对大风数据初始样本进行聚类，得到各聚类簇的核心点样本；
[0074]
根据各聚类簇的核心点计算簇密度；
[0075]
基于各聚类簇的核心点及簇密度，利用过采样算法合成新的大风数据样本；
[0076]
利用合成的新的大风数据样本对原始风速-功率数据样本进行扩充，作为风电功率预测模型的训练样本。
[0077]
本实施例具体涉及以下内容。
[0078]
一、lof算法应用
[0079]
本实施例首先获取历史实测风速数据、实测功率数据以及预测风速数据，利用lof算法剔除实测风速-实测功率中存在的离群点，将剔除离群点后的实测风速-实测功率数据作为原始训练集供模型训练使用。
[0080]
采用lof算法对历史实测风速-实测功率进行离群点剔除，具体过程为：
[0081]
步骤1.1:计算实测风速-实测功率样本c{x1,x2,x3,...,xn}中各点的距离d(p,o)，其中n为样本的个数。
[0082]
步骤1.2:计算实测风速-实测功率样本c{x1,x2,x3,...,xn}中各点的第k距离记为k-distance。
[0083]
点p的第k距离dk(p)定义如下：
[0084]dk
(p)＝d(p,o)，并且满足：
[0085]
①
在集合中至少有不包括p在内的k个点o
′
∈c{x≠p}，满足d(p,o
′
)≤d(p,o)；
[0086]
②
在集合中最多有不包括p在内的k-1个点o
′
∈c{x≠p}，满足d(p,o
′
)《d(p,o)；
[0087]
步骤1.2.1:根据dk(p)便可以求出p的k邻域内点的个数记为nk(p)
[0088]
步骤1.2.2:计算可达距离记为reach-distance，其中点p到点o的第k可达距离定义如下：
[0089]
reach-distancek(o,p)＝max{k-distance(p),d(o,p)}
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0090]
式中，可知点p到点o的可达距离分为两种情况：
[0091]
①
若dk(p)》d(o,p)，即点o位于点p的第k邻域内，则reach-distancek(o,p)＝dk(p)
[0092]
②
若dk(p)《d(o,p)，即点o不位于点p的第k邻域内，则reach-distancek(o,p)＝d(o,p)
[0093]
步骤1.2.3:计算局部可达密度记为local reachability density，点p的局部可达密度定义如下：
[0094][0095]
式中，若点p和邻域内的点为同一簇则导致reach-distance较小即导致密度高，则越可能为正常点。若点p和周围邻居点较远则导致reach-distance较大即导致密度偏低，则越可能为离群点。
[0096]
步骤1.2.4:根据步骤1.2.3计算局部离群因子记为local outlier factor，定义如下：
[0097][0098]
式(3)表示点p的邻域点的局部可达密度与点p的局部可达密度之比的平均数。
[0099]
步骤.1.2.5:根据步骤1.2.4可知，若lofk(p)《1，说明点p的密度高于其邻域点的密度，p为密集点。若lofk(p)》1，说明p的密度小于其邻域点的密度，p可能为异常点。
[0100]
步骤1.3:在具体实验过程中，我们对于样本点c{x1,x2,x3,
…
,xn}计算局部离群因子，若：
[0101]
①
lofk(p)《1，则让该样本点p的类别设置为1，代表是不需要剔除的点。
[0102]
②
lofk(p)》1，则让该样本点p的类别设置为-1，代表是需要剔除的点。
[0103]
步骤1.4:根据步骤1.3得到的带有标签的样本点c{x1,x2,x3,
…
,xn}，根据标签进行离群点的剔除，得到新样本点d{x1,x2,x3,
…
,xm}，其实m《n。
[0104]
二、数据样本分层
[0105]
根据步骤一得到的实测风速-实测功率数据按照风速等级进行分层，得到风速大于10的实测风速-实测功率这类样本极少的数据作为待数据增强大风数据的初始样本，分层过程包括：按照预设的风速等级调整策略进行至少一次数据分层处理，得到全部风速等级样本数据量不均衡情况下最高风速等级对应的数据样本，将这些数据样本作为大风数据初始样本。
[0106]
所述按照预设的风速等级调整策略进行至少一次数据分层处理包括：
[0107]
按照预设的初始风速等级划分方案进行数据分层处理；
[0108]
统计分层处理后各风速等级下的样本数据量：若存在任一风速等级下的样本数据量明显小于其他所有风速等级下的样本数据量，则将该风速等级下的数据样本作为大风数据初始样本；若各风速等级下的样本数据量在设定的误差范围内分布均衡，则调整风速等级划分方案中各风速等级覆盖的风速范围和/或风速等级的数量，并重新进行各风速等级下样本数据量的统计，直至各风速等级下的样本数据量在设定的误差范围内分布不均衡，得到大风数据初始样本。
[0109]
经统计各风速等级下的数据量占全部样本数据量的数据量比例，若分布不均衡，可以得到数据量比例明显小于其他风速等级数据量比例的风速等级，基于风速等级的经验划分，该等级一般即对应了大风速等级，因此，可得到大风数据初始样本。
[0110]
具体的，经lof剔除离群点后的新样本d{x1，x2，x3，
…
，xm}，需要进行样本分层，将其中的大风样本记为g{x1，x2，x3，
…
，xg}。
[0111]
步骤2.1:首先需要验证大风样本与其余风速段样本处于不平衡状态，我们数据集采用某风电场2020年11月21日至1月12日的实测风速-实测功率序列，大风样本不平衡的依据如下表：
[0112][0113]
风速0-3.5m/s3.5m/s-6m/s6m/s-10m/s》10m/s数量(个)498549673276441频率(％)36.436.3243.2
[0114]
步骤2.1.1:上表中，是2020年11月21日至1月12日的实测风速各段的样本数量，可以明显看出，当风速大于10m/s之后，样本数量就处于比较稀缺的状态。
[0115]
步骤2.1.2:本实施例根据风速段进行分层，将风速大于10m/s的实测风速-实测功率样本点记为g{x1,x2,x3,
…
,xg}。
[0116]
三、f-dbscan算法聚类
[0117]
根据步骤二得到的大风数据的初始样本，利用f-dbscan这种基于有噪空间的密度聚类算法进行聚类，聚类的目的在于求出初始样本中的核心点作为样本合成的基准点，且根据核心点对于簇的簇密度划分所需合成的样本数。
[0118]
利用f-dbscan聚类算法对g{x1,x2,x3,
…
,xg}进行聚类，得到核心点簇t{x1,x2,x3,
…
,x
t
}，以及簇密度用于后续的smote算法的改进，包括：
[0119]
a).对dbscan聚类算法的参数eps，利用k-means聚类及sse聚类评价指标进行有效的获取；
[0120]
b).对dbscan聚类算法的参数minpts，利用网格搜索进行有效的获取；
[0121]
c).对dbscan聚类算法的内部结构进行改造，减少运算开销，提高运算速度。
[0122]
a1)通过k-means聚类对大风样本g{x1,x2,x3,
…
,xg}进行聚类，并结合sse(误差平方和)作为聚类性能评价指标绘制学习曲线，以此求出合适的聚类簇数k值。其中，sse定义如下：
[0123][0124]
式中，ci代表聚类过程中形成的簇；p代表每个簇中的样本点；mi代表每个簇的聚类中心；
[0125]
b1)通过内接正方形及外切正方形代替dbscan聚类过程中的以eps为半径的搜索圆作为新的搜索单位，以此求出合适的minpts。
[0126]
c1)通过外切正方形限制dbscan聚类过程中，对无效样本点的的欧氏距离运算，以此来减少运算开销，提高运算速度。
[0127]
eps代表dbscan聚类过程中搜索圆的半径，以s
内
、s
外
分别代表内接与外切正方形的边长，则有：
[0128]
[0129]s外
＝2
×
eps
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0130]
通过a1)可知，在发生聚类之后，可以确定合适的k值，还需要确定eps的值。
[0131]
a2)sse代表所有样本聚类误差，代表聚类效果的好坏，利用sse学习曲线判定合适的k值的原理如下：
[0132]
a21)当k值小于真实聚类数时，随着k值增大，sse的下降幅度会很大；
[0133]
a22)当下降幅度骤减后，随着k值的增大就会趋于平缓，这就类似手肘的形状；
[0134]
a23)所以这个手肘位置的k值就是数据的真实聚类数，即合适的聚类数。
[0135]
a3)当确定k值后，对大风样本g{x1,x2,x3,
…
,xg}进行k-means聚类，我们可以依据聚类中心与聚类形成的簇中其余样本点的距离来确定eps。
[0136]
a31)若设置eps值过小，会形成各点间难以形成密度相连，导致群集难以扩展。
[0137]
a32)若设置eps值过大，会形成各点间形成密度相连，导致多个群集合并成为一个群集，
[0138]
从而导致群集中含有过多噪声点。
[0139]
a33)所以本实施例使用聚类中心cj与其簇内各点间距离的平均值作为参考eps，定义为：
[0140][0141]
a34)由a33)，对每个聚类中心可以求得参考eps集合{r1,r2,
…
,rj}。本实施例将参考eps集合中的最小值作为g{x1,x2,x3,
…
,xg}的eps。
[0142]
通过b1)可知我们需要将dbscan聚类时的搜索单位从搜索圆转变为内接正方形与外切正方形。
[0143]
b2)首先根据圆的内接正方形搜索每次移动时所囊括的样本点的个数。
[0144]
b21)根据大风样本点找到四个样本边界线，即样本最左侧、右侧、上侧、以及下侧四个边界位置。
[0145]
b22)根据四个边界位置定义初始点为(x
left
,x
bottom
)，本实施例将左边界与下边界的交界处定义为初始点。
[0146]
b23)根据前述内接与外切正方形的边长公式可知，初始内接正方形的四个点坐标分别为(x1,y1)、
[0147]
b24)紧接着让搜索单位在网格内搜索，并且每次移动判断搜索单位内存在的样本个数记为{n1,n2,
…
,n
t
}。
[0148]
b25)同理，外切正方形的搜索方式与规则同内接正方形一样，搜索到的样本点记为{w1,w2,
…
,w
t
}。
[0149]
b26)根据b24)以及b25)可以计算出内接正方形以外、外切正方形以内区域点的个数为{s1,s2,
…
,s
t
}。
[0150]
b27)根据半径eps以及内接正方形和外切正方形的边长可以计算出搜索圆以内接正方形以外的面积s1和搜索圆以外外切正方形以内的面积s2:
[0151][0152]
b28)根据式7)可知：
[0153][0154]
b29)我们根据式8)中的比例可知，对于{s1,s2,
…
,s
t
}是搜索圆内的点的概率大于是搜索圆外的概率，所以将这些点的个数纳入内接正方形能搜索到的点个数是有必要的，这样可以最大化搜索到的minpts值的正确性。我们按照比例对{s1,s2,
…
,s
t
}划分到{n1,n2,
…
,n
t
}中得到最终搜索圆的样本数量集合{e1,e2,
…
,e
t
}。最后根据将所有搜索圆中相同数量的对象的最大值作为minpts的值。
[0155]
通过c1)可知，在对大风样本进行dbscan聚类的过程中，会存在大量的欧式距离计算，通过欧式距离判断这些点是否处于eps为半径的搜索圆内，还是处于eps搜索圆外。
[0156]
c2)本实施例通过外切正方形来限制eps为半径的搜索圆，让点与点之间的欧式距离计算只发生在外切正方形内部，而不去计算eps为半径的搜索圆外部的欧式距离。
[0157]
c21)设基准点(大风样本中，左边界与下边界的交界点)坐标为(x1,y1)，则外切正方形的边界为x1 eps、x
1-eps、y1 eps、y
1-eps。
[0158]
c22)本实施例先判断其余点是否落在此外切正方形内，再进一步计算这些点的欧式距离是否小于等于eps，如果小于等于则收集这些点，将点的个数与minpts做比较，如果满足条件则形成聚类。
[0159]
c23)根据c2)，可以看出由于使用外切正方形作为界限在欧氏距离计算过程中，让时间复杂度从n(n-1)降低到了n(x-1)，x代表外切正方形内样本点的个数，x远远小于n。从结果可以看出从最快运算时间、最慢运算时间、平均运算时间三者，f-dbscan都比dbscan快了1.5倍左右，如下表所示。
[0160] f-dbscandbscan最快运算时间(s)0.782.09最慢运算时间(s)1.152.43平均运算时间(s)0.882.15
[0161]
四、根据步骤三得到的核心点，本实施例提供一种基于聚类cluster的smote算法，实现新样本的生成，简称为c-smote算法，利用该算法进行大风数据增强以让大风数据的样本个数与其他风速的样本个数达到平衡，包括：
[0162]
利用f-dbscan聚类时产生的核心点作为smote算法中的少数类样本点；
[0163]
利用f-dbscan聚类时产生的核心点簇，对应的簇密度划分每个核心点簇所需合成的样本个数k,作为smote算法的k近邻选择；
[0164]
利用各个核心点簇不同的簇密度，替代smote算法中的随机数，进行样本合成。
[0165]
d1)传统smote算法的原理如下：
[0166]
d11)对于少数类中每一个样本a，计算它到少数类样本集中其他样本的欧式距离，
得到k近邻；
[0167]
d12)根据样本不平衡比例设置一个采样比例以确定采样倍率n，对于每一个少数类样本a，从其k近邻中随机选择若干个样本，假设选择的近邻为b；
[0168]
d13)对每一个随机选择的样本b，构建新的样本。
[0169]
d2)原始的smote算法公式，如下：
[0170]
c＝a rand(0,1)
×
(a-b)
[0171]
式中，a代表少数类样本中的样本点；rand(0,1)代表合成样本时的随机数；b代表a的随机选择的近邻。
[0172]
d21)根据d2)可知，原始smote算法对少数类样本的选取选择全部选取的方式；对近邻的选择也是随机设定一个采样比例进行选择；样本合成时也是利用随机数进行合成。
[0173]
d22)根据d21)可知，原始somte的算法会造成一定的过拟合现象，以及由于随机性会导致合成的样本分布规则偏离原始少数类样本的分规则。
[0174]
d3)本实施例的c-smote算法为了有效的规避或者改善原始smote算法的缺陷，让其发挥出过采样技术的优势，原理如下：
[0175]
d31)根据f-dbscan算法对少数类样本进行聚类之后，会产生若干个簇记为{c1,c2,c3,
…
,cm}，则对于每个簇c，会包含若干个核心点，记核心点簇为{c
b1
,c
b2
,c
b3
,
…
,c
bm
}；
[0176]
d32)根据d31)可以针对每个簇计算得出簇密度记为μ：
[0177][0178]
式(9)中，n代表统计个数的函数；
[0179]
d33)以各簇的密度{μ1,μ2,μ3,
…
,μm}为比例，对需要增强的样本总数量进行划分，确定各核心点所在簇需要合成的样本数量k，后续核心点集合{c
b1
,c
b2
,c
b3
,
…
,c
bm
}分别按照{k1,k2,k3,
…
,km}为近邻个数选取近邻进行样本的合成；
[0180]
d34)以簇密度{μ1,μ2,μ3,
…
,μm}为比例，对各簇核心点数据{c
b1
,c
b2
,c
b3
,
…
,c
bm
}按照{k1,k2,k3,
…
,km}为近邻个数使用过采样技术合成新数据，合成公式如下：
[0181]
α＝x μ
×
(x-xk)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0182]
式中，样本x为核心点簇cb中的点，样本xk代表根据簇密度选取的k个样本点，μ代表核心点x所在核心点簇cb在簇c中的密度，α为新合成的少数类样本点。
[0183]
以上可以看出，选取核心点替代smote算法中选取所有少数类样本点作为基准点，这是一种择优选择的方式；利用簇密度替代smote算法利用随机数进行合成，解决了随机性导致的样本分布不均或者分布偏离原始样本分布规则的情况；利用簇密度划分总合成数为每个核心点簇确定其需要合成的样本个数，避免了原始smote算法带来的盲目性和极端情况。
[0184]
五、将步骤四合成的大风数据，加入原始训练集中，更新原始训练集，供模型训练使用。
[0185]
后续我们利用随机森林回归模型、决策树回归模型、k近邻回归模型、梯度提升回归树决策模型对比大风增强前后的整体风电功率预测精度；同时利用多数据集验证大风天气下，增强前后的平均预测功率与实测功率的误差情况，验证了本实施例方案的有效性与通用性。
[0186]
实施例2
[0187]
本发明提供一种考虑极端大风天气的风电功率预测大风数据增强装置，包括：
[0188]
样本数据获取模块，被配置用于获取历史实测风速数据和实测功率数据，生成原始风速-功率数据样本；
[0189]
离群点识别模块，被配置用于根据风速数据对原始风速-功率数据样本进行局部异常点识别，剔除离群点样本；
[0190]
初始样本确定模块，被配置用于从剔除离群点样本后的原始风速-功率数据样本中获取大风数据初始样本；
[0191]
聚类模块，被配置用于利用f-dbscan聚类算法对大风数据初始样本进行聚类，得到各聚类簇的核心点样本；
[0192]
簇密度计算模块，被配置用于根据各聚类簇的核心点计算簇密度；
[0193]
样本生成模块，被配置用于基于各聚类簇的核心点及簇密度，利用过采样算法合成新的大风数据样本；
[0194]
以及，训练样本确定模块，被配置用于利用合成的新的大风数据样本对原始风速-功率数据样本进行扩充，作为风电功率预测模型的训练样本。
[0195]
以上各功能模块的具体功能实现参考实施例1中的相关内容。
[0196]
实施例3
[0197]
本实施例介绍一种基于第一方面所述大风数据增强方法的风电功率预测方法，包括：
[0198]
获取待预测时段的风速预测数据；
[0199]
将获取到的风速预测数据作为预先训练的风电功率预测模型的输入，得到风电功率预测模型输出的功率预测数据；
[0200]
其中，所述预先训练的风电功率预测模型采用实施例1所介绍的大风数据增强方法得到的训练样本进行模型训练。
[0201]
数据增强后的训练样本在各等级风速下分布均衡，能够提升模型训练结果的可靠性，从而使得模型的预测结果更加准确。
[0202]
试验验证
[0203]
我们采用random forest regressor、decision tree regressor、k neighbors regressor、gradient boosting regressor等四个模型进行对比验证，将不用大风数据增强后的训练集与经过大风数据增强后的训练集的风电预测精度做对比，验证了数据增强在涉及大风天的风电功率预测中的有效性与合理性，在与不考虑大风数据不平衡的情况相比较，其明显提高了风电功率预测精度。实验结果，如表1所示。
[0204]
表1 不同模型预测效果对比
[0205][0206]
同时我们针对多个数据集进行验证，针对大风数据增强前后预测功率与实测功率进行对比，如图2和图3。图2和图3中，
◆
代表风速曲线、
●
代表实测功率曲线、
★
代表未增强的预测功率曲线、
■
代表增强后的预测功率曲线。从图中可以看出，当风速等级未达到大风的情况下，由于未对该部分数据进行增强所以未增强的预测功率、增强后的预测功率两条曲线重叠并无差别。当风速达到大风的情况下，由于对大风数据进行了增强，对比可知，增强后预测功率曲线更接近实测功率曲线，而未增强的预测功率曲线与实测功率曲线相差较远，说明了用数据集本身存在的大风数据进行预测，由于样本量稀少，会造成这种预测值与实测值相差较大的结果，而增强后可以最小化两者的误差；在某些情况下，如2021年1月14日0:00分前后以及2021年1月14日2:30分前后，增强后的预测功率曲线的变化趋势相较于未增强的预测功率曲线更贴近于实测功率曲线，说明大风数据在增强后，预测功率曲线的趋势得到了弥补，对异常点也得到了一定的改善。
[0207]
对比预测集中存在大风数据的样本，统计增强前后平均预测功率和实测功率，如表2所示。
[0208]
表2 增强前后平均预测功率对比表
[0209]
[0210]
表中结合平均实测功率、未大风增强的平均预测功率、大风增强后的平均预测功率可以看出，在1月19日，在涉及大风天情况下，未大风增强的平均预测功率与实测功率最大误差达到了20mw；在1月17日，在涉及大风天情况下，大风增强后的平均功率与实测功率最小误差缩小到了1mw；预测集的平均未增强的平均预测功率与实测功率误差为14.3mw，而平均增强后的平均预测功率与实测功率误差为3.2mw，误差缩小了4倍多，也从侧面验证了大风增强对涉及大风天的样本风速-功率数据的预测有较大的效果。
[0211]
综上可以得出，本发明确实可以改善大风天气下风电预测功率的误差，从而提高整体的风电预测功率，且经过多个数据集验证具有一定的通用性。
[0212]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0213]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0214]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0215]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0216]
以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种变工况滚动轴承故障诊断方法、系统、设备及介质与流程

考虑极端大风天气的风电功率预测大风数据增强方法与流程

相关文献

最热文献