一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用电数据的识别方法、系统及应用与流程

2023-01-02 12:31:36 来源:中国专利 TAG:


1.本发明实施例涉及电力技术领域,具体涉及一种用电数据的识别方法、系统及应用。


背景技术:

2.虚拟货币“挖矿”活动指通过专用“矿机”计算生产虚拟货币的过程,能源消耗和碳排放量大,对国民经济贡献度低,对产业发展、科技进步等带动作用有限,加之虚拟货币生产、交易环节衍生的风险越发突出,其盲目无序发展对推动经济社会高质量发展和节能减排带来不利影响。虚拟货币“挖矿”行为每年可能消耗全球多达134.89太瓦时的电力,相当于中国3亿家庭一年所耗费的电量。为有效防范处置虚拟货币“挖矿”活动盲目无序发展带来的风险隐患,通过用电数据,运用大数据分析手段识别虚拟货币“挖矿”行为将变得尤为重要。现有技术中,往往只能对计算机是否感染挖矿木马进行检测,且只能基于预设的木马库识别出特定的挖矿木马,对企业用户主动挖矿的行为进行自动、批量地识别还存在技术空白,而人工逐一判别又耗费海量人力物力,且结果准确性难以保证。


技术实现要素:

3.本发明所要解决的技术问题是对企业用户主动挖矿的行为进行自动、批量地识别还存在技术空白,而人工逐一判别又耗费海量人力物力,且结果准确性难以保证,针对上述现有技术的不足,提供一种用电数据的识别方法、系统及应用。
4.为实现上述技术目的,本发明采取的技术实施例为:一种用电数据的识别方法,包括:根据历史用电数据以及设定的超参数构造训练集数据的用电特征;根据所述训练集数据的用电特征,利用随机森林算法对模型进行预训练,获取目标用电特征;根据所述目标用电特征,利用随机森林算法对模型进行训练;根据测试集数据对模型进行调优,生成识别模型。
5.优选地,所述设定的超参数包括异常行为持续月数m和异常行为持续天数n。
6.优选地,所述用电特征包括:用电量特征、月用电特征一、日用电特征一、月用电特征二和日用电特征二。
7.优选地:当待预测数据集的总月数与训练集数据和测试集数据的总月数相同时,将用户所有月份的总用电量累加得到用电量特征;或将用户每月平均用电量除以训练集数据中所有用户每月平均用电量得到用户用电量相对于训练集数据平均用电量的倍数;当待预测数据集的总月数与训练集数据和测试集数据的总月数不一致时,将用户所有月份的总用电量累加并除以总月数,得到平均每月的用电量特征。
8.优选地:当峰电价区间时长a、谷电价区间时长b以及平电价区间时长c相等时,则所述月用电特征一f
month
的计算公式为:;

当不确定峰电价区间时长a、谷电价区间时长b以及平电价区间时长c是否相等时,则所述月用电特征一f
month
的计算公式为:;



和式

中:f
month
表示月用电特征一、t1=1,2,3,...,t
1-m 1、t1表示每个用户用电数据的总月数、m表示异常行为持续月数、p
1峰i
表示该用户第i月峰电价区间用电量、p
1平i
表示该用户第i月平电价区间用电量、p
1谷i
表示该用户第i月谷电价区间用电量、p
1总i
表示该用户第i月总用电量、a表示峰电价区间时长、b表示谷电价区间时长以及c表示平电价区间时长。
9.优选地:当峰电价区间时长a、谷电价区间时长b以及平电价区间时长c相等时,则所述日用电特征一f
day
的计算公式为:;

当不确定峰电价区间时长a、谷电价区间时长b以及平电价区间时长c是否相等时,则所述日用电特征一f
day
的计算公式为:




和式

中:f
day
表示日用电特征一、t2=1,2,3,...,t
2-n 1、t2表示每个用户用电数据的总天数、n表示异常行为持续天数、p
2峰j
表示该用户第j天峰电价区间用电量、p
2平j
表示该用户第j天平电价区间用电量、p
2谷j
表示该用户第j天谷电价区间用电量、p
2总j
表示该用户第j天总用电量、a表示峰电价区间时长、b表示谷电价区间时长以及c表示平电价区间时长。
10.优选地,所述月用电特征二f

month
的计算公式为:;



中:f

month
表示月用电特征二、t1表示每个用户用电数据的总月数、m表示异常行为持续月数、p
1总i
表示该用户第i月总用电量、p
1总(i 1)
表示该用户第i 1月总用电量。
11.优选地,所述日用电特征二f

day
的计算公式为:;



中:f

day
表示日用电特征二、t2表示每个用户用电数据的总天数、n表示异常行为持续天数、p
2总j
表示该用户第j天总用电量、p
2总(j 1)
表示该用户第j 1天总用电量。
12.优选地,在所述的根据历史用电数据以及设定的超参数构造训练集数据的用电特征之前包括:获取历史用电数据,所述历史用电数据包括企业档案明细、月用电明细和日用电明细;将历史用电数据进行数据清洗,所述数据清洗包括删除异常数据、填充缺失数据和统一特征取值;将清洗后的历史用电数据按一定比例划分出训练集数据和测试集数据,所述训练集数据和测试集数据均带有用户唯一标识和标签。
13.优选地,在所述的根据历史用电数据以及设定的超参数构造训练集数据的用电特征之后包括:
将用电特征按用户唯一标识汇集至企业档案明细;将企业档案明细原有离散特征进行one-hot编码处理,并通过删减多余特征使训练集数据、测试集数据和待预测数据集特征保持一致。
14.优选地,所述的根据所述训练集数据的用电特征,利用随机森林算法对模型进行预训练,获取目标用电特征包括:根据所述训练集数据的用电特征,利用随机森林算法对模型进行预训练,初步得到特征重要性排行;直接选择重要性排行前x的用电特征作为目标用电特征;或,初步设定需要保留的特征个数;使用递归特征消除法rfe获得多个用电特征;在根据测试集数据对模型进行调优的过程中,改变多个用电特征的取值;根据调优结果,确定多个用电特征的取值为y,即将重要性排行前y的用电特征作为目标用电特征。
15.优选地,所述的根据测试集数据对模型进行调优,生成识别模型之后包括:将待预测数据集输入至识别模型,输出异常行为识别结果。
16.本发明还提供了一种用电数据的识别系统,包括:构造单元,用于根据历史用电数据以及设定的超参数构造训练集数据的用电特征;预训练单元,用于根据所述训练集数据的用电特征,利用随机森林算法对模型进行预训练,获取目标用电特征;训练单元,用于根据所述目标用电特征,利用随机森林算法对模型进行训练;调优单元,用于根据测试集数据对模型进行调优,生成识别模型。
17.优选地,所述设定的超参数包括异常行为持续月数m和异常行为持续天数n。
18.优选地,所述用电特征包括:用电量特征、月用电特征一、日用电特征一、月用电特征二和日用电特征二。
19.优选地,包括:获取单元,用于获取历史用电数据,所述历史用电数据包括企业档案明细、月用电明细和日用电明细;清洗单元,用于将历史用电数据进行数据清洗,所述数据清洗包括删除异常数据、填充缺失数据和统一特征取值;划分单元,用于将清洗后的历史用电数据按一定比例划分出训练集数据和测试集数据,所述训练集数据和测试集数据均带有用户唯一标识和标签。
20.优选地,包括:汇集单元,用于将用电特征按用户唯一标识汇集至企业档案明细;处理单元,用于将企业档案明细原有离散特征进行one-hot编码处理,并通过删减多余特征使训练集数据、测试集数据和待预测数据集特征保持一致。
21.优选地,包括:识别单元,用于将待预测数据集输入至识别模型,输出异常行为识别结果。
22.本发明还提供一种根据上述用电数据的识别方法在挖矿行为识别上的应用。
23.与现有技术相比,本发明具有以下有益效果:本发明利用某区域企业档案明细、月用电明细和日用电明细等特征数据构建相关算法模型,在样本用户中识别筛选出疑似虚拟货币“挖矿”行为用户,助力全面、精准地治理“挖矿”行为。
24.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。
附图说明
25.图1是本示例性实施例中一种用电数据的识别方法的其中一个流程图;图2是本示例性实施例中一种用电数据的识别方法的另一个流程图;图3是本示例性实施例中随机森林算法的流程图;图4是本示例性实施例中根据企业用电数据画出的三个挖矿用户月用电明细中连续22个月峰谷平用电曲线图;图5是本示例性实施例中根据企业用电数据画出的三个普通用户月用电明细中连续22个月峰谷平用电曲线图;图6是本示例性实施例中三个挖矿用户日用电明细中连续108个采样日峰谷平用电曲线图;图7是本示例性实施例中三个普通用户日用电明细中连续108个采样日峰谷平用电曲线图;图8是本示例性实施例中一种用电数据的识别系统的结构示意图。
具体实施方式
26.为使本发明实施例的目的、技术实施例和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术实施例进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.本发明提供了一种用电数据的识别方法,能够实现用户异常用电的识别,尤其适用于挖矿行为的识别,以下将针对本发明提出的用电数据的识别方法在挖矿行为识别上的应用进行说明:图1是本示例性实施例一种用电数据的识别方法的流程图,如图1所示,本发明提供了一种用电数据的识别方法,包括:根据历史用电数据以及设定的超参数构造训练集数据的用电特征;根据训练集数据的用电特征,利用随机森林算法对模型进行预训练,获取目标用电特征;根据目标用电特征,利用随机森林算法对模型进行训练;根据测试集数据对模型进行调优,生成识别模型。
28.图2是本示例性实施例中一种用电数据的识别方法的另一个流程图;如图2所示,基于随机森林算法,利用企业用电数据进行虚拟货币“挖矿”行为识别,整体流程包括特征构造、特征选择、随机森林模型训练与调优、输出结果等步骤。
29.本实施例中,历史用电数据包括企业档案明细、月用电明细和日用电明细。
30.示例性地,获取某区域企业档案明细和月用电明细和日用电明细数据(时间跨度优选为一年以上,获取的时间跨度越大越好),其中,日用电明细数据中包含节假日标识。数据字段如表1-表3所示。
31.表1企业档案明细表2月用电明细表3日用电明细具体的,部分字段的详细解释和取值情况如下:1.企业档案明细
用电类别名称(elec_type_name):取值可以为城镇居民生活用电、乡村居民生活用电、非居民照明、学校教学和学生生活用电、普通工业、商业用电等等。
32.电压等级名称(volt_name):取值可以为交流10kv、交流380v、交流220v等等。
33.电价名称(prc_name):取值可以为居民合表电价(不满1千伏)、居民合表电价(1-10千伏)等等。
34.合同容量(contract_cap):指供电部门许可并在供用电合同中的用户受电设备总容量。
35.临时用电标志(tmp_name):取值可以为临时用电、非临时用电。
36.2.月用电明细月峰电量(pq_f):按当地峰谷电价(也称“分时电价”,下同)制度,每日“高峰”时段用电量按月汇总得到。
37.月谷电量(pq_g):按当地峰谷电价制度,每日“低谷”时段用电量按月汇总得到。
38.月平电量(pq_p):按当地峰谷电价制度,每日“平常”时段用电量按月汇总得到。
39.月总电量(pq_z):每日总用电量按月汇总得到,也可由月峰电量(pq_f)、月谷电量(pq_g)、月平电量(pq_p)相加得到。
40.3.日用电明细节假日标识(holiday):取值可以为节假日(指春节、五一、端午、中秋、国庆、清明等)、双休日、工作日。
41.日峰电量(kwh_f):按当地峰谷电价制度,每日“高峰”时段用电量。
42.日谷电量(kwh_g):按当地峰谷电价制度,每日“低谷”时段用电量。
43.日平电量(kwh_p):按当地峰谷电价制度,每日“平常”时段用电量。
44.日总电量(kwh):每日总用电量,可由电表直接获得,也可由日峰电量(kwh_f)、日谷电量(kwh_g)、日平电量(kwh_p)相加得到。
45.上述数据包含必要字段和非必要字段,必要字段保证算法能够正常运行并取得较好的效果;部分非必要字段可由必要字段计算求得,还有部分非必要字段可在某些情况下进一步提升模型效果,具体情况取决于所提供的原始数据,以及在后续特征选择步骤中的不断尝试和调优。设置必要字段和非必要字段的有益之处在于,如果某些字段因为当地供电单位难以获取或者信息丢失,不至于令算法模型无法运转,降低数据获取难度,增加模型的通用性。
46.需要说明的是,企业档案明细中,给出了部分对挖矿行为识别可能有帮助的非必要字段,但实际并不仅仅局限于这些字段,若能获取到其他可能提供线索的字段,本发明也都可以直接采用,无需调整算法。
47.将历史用电数据进行基本的数据清洗,例如删除异常数据、填充缺失数据和统一特征取值等等;将清洗后的历史用电数据按一定比例划分出训练集数据和测试集数据,所述训练集数据和测试集数据均带有用户唯一标识和标签。例如,将清洗后的历史用电数据中的一半划分为训练集数据,另一半划分为测试集数据。又例如,将清洗后的历史用电数据中的2/3划分为测试集数据,将另外的1/3划分为测试集数据,需要说明的是,本示例性实施例不对划分比例进行限定,按照其他划分比例对清洗后的历史用电数据进行划分也应当属于本发
明的保护范围。
48.按照一定比例划分出的训练集数据用于对模型进行训练,划分出的测试集数据用于对模型进行调优。
49.需要说明的是,训练集数据和测试集数据均要带有标签,根据该标签可以明确的知道哪些用户是挖矿用户,哪些用户是普通用户,从而进行“有监督学习”。
50.所述设定的超参数包括异常行为(挖矿行为)持续月数m和异常行为(挖矿行为)持续天数n。所述用电特征包括:用电量特征、月用电特征一(月用电相对波动)、日用电特征一(日用电相对波动)、月用电特征二(相邻月用电相对波动)和日用电特征二(相邻日用电相对波动)。
51.本实施例中,需要特别注意的是,某些挖矿用户可能并非在所有时间都在挖矿,为了能够正确识别出“从某一日期才开始挖矿”或“到某一日期暂停挖矿”的用户,在构造特征时,要设定合适的数据研判周期,即设定持续挖矿月数m、持续挖矿天数n两个超参数。这两个超参数如果设置的过大,则容易漏判挖矿用户;如果设置的过小,则容易把普通用户误判为挖矿用户。这两个超参数的最终取值是在模型调优过程中根据模型效果的优劣确定的。
52.另外,日用电明细数据也并非一定使用全量数据,而是可以根据节假日标识(holiday)筛选出其中部分日用电数据用于模型训练。第一种方案是筛选出节假日、以及节假日前后若干天(例如2天)工作日的用电明细数据,第二种方案是筛选出节假日、双休日、以及这两者前后若干天(例如2天)工作日的用电明细数据,第三种方案是使用全量日用电明细数据。
53.这样做的有益之处在于,通过调整节假日、双休日数据在用于模型训练的总的日用电数据中的占比,来达到控制节假日、双休日用电对模型影响程度的目的,具体选择哪种方案是在模型调优过程中根据模型效果的优劣确定的。
54.一般地,因为“矿机”通常需要24小时不停歇运行,峰、谷、平用电量比较均衡,节假日与工作日用电量差异较小,且总体耗电量巨大。但是问题的难点在于如何将挖矿用户与其他高耗能用户以及持续用电用户正确区分开,如何确定合适的“决策边界”,提高识别准确率。仅仅靠人工构造研判规则,难度较大,效果欠佳,于是需要用到机器学习算法,根据提供的训练数据,自动寻找其中潜藏的规则。
55.根据提供的月用电明细、日用电明细,以及设定的持续挖矿月数、持续挖矿天数,结合企业档案明细,针对每个用电客户构造以下5个特征:用电量特征、月用电量特征一(月用电相对波动)、日用电量特征一(日用电相对波动)、月用电量特征二(相邻月用电相对波动)和日用电量特征二(相邻日用电相对波动)。其中,所述月用电量特征一f
month
根据每个用户用电数据的总月数t1、异常行为持续月数m、该用户第i月峰电价区间用电量p
1峰i
、该用户第i月平电价区间用电量p
1平i
、该用户第i月谷电价区间用电量p
1谷i
、该用户第i月总用电量p
1总i
、峰电价区间时长a、谷电价区间时长b以及平电价区间时长c计算;所述日用电特征一f
day
根据每个用户用电数据的总天数t2、异常行为持续天数n、该用户第j天峰电价区间用电量p
2峰j
、该用户第j天平电价区间用电量p
2平j
、该用户第j天谷电价区间用电量p
2谷j
、该用户第j天总用电量p
2总j
、峰电价区间时长a、谷电价区间时长b以及平电价区间时长c计算;所述月用电特征二f

month
根据每个用户用电数据的总月数t1、异常行为持续月数m、该用户第i月总用电量p
1总i
、该用户第i 1月总用电量p
1总(i 1)
计算;所述日用电特征二f

day根据每个用户用
电数据的总天数t2、异常行为持续天数n、该用户第j天总用电量p
2总j
、该用户第j 1天总用电量p
2总(j 1)
计算。
56.以下将结合具体情况对5个用电特征(用电量特征、月用电特征一、日用电特征一、月用电特征二和日用电特征二)的获取方式进行说明。
57.1)用电量特征:示例性地,获取用电量的第一种实施例是将该用户所有月份的总用电量累加求得,此实施例适用于待预测数据集的总月数跟训练集数据、测试集数据的总月数相同。
58.示例性地,获取用电量的第二种实施例是该用户每月平均用电量,除以训练集所有用户每月平均用电量,得到该用户用电量相对于训练集平均用电量的倍数,本实施例使用倍数能够更为直观地体现用电量大小。
59.示例性地,获取用电量的第三种实施例是将该用户所有月份的总用电量累加后,除以总月数,求出平均每月用电量,此实施例适用于待预测数据的总月数跟训练集数据、测试集数据的总月数不一致的情况。
60.2)月用电特征一(或称月用电相对波动):先求出该用户每月峰、谷、平电量相对波动,然后依次求出第1至第m月份的电量相对波动之和、第2至第m 1月份的电量相对波动之和、第3至第m 2月份的电量相对波动之和
……
直至最后一个月份,然后取上述结果中的最小值,作为“月用电特征一”。
61.上述“每月峰谷平电量相对波动”有两种求取实施例:示例性地,第一种实施例:若该地区每天峰、谷、平电价区间时长相等,即皆为8小时,则可采用此实施例。
62.每月峰谷平电量相对波动为:;则月用电特征一公式如下:;



中,f
month
表示月用电特征一、t1=1,2,3,...,t
1-m 1、t1表示每个用户用电数据的总月数、m表示异常行为持续月数、p
1峰i
表示该用户第i月峰电价区间用电量、p
1平i
表示该用户第i月平电价区间用电量、p
1谷i
表示该用户第i月谷电价区间用电量、p
1总i
表示该用户第i月总用电量。
63.示例性地,第二种实施例:更为通用地,无论该地区每天峰、谷、平电价区间时长是否相等,皆可采用此实施例。
64.每月峰谷平电量相对波动为:;则月用电特征一公式如下:




中,f
month
表示月用电特征一、t1=1,2,3,...,t
1-m 1、t1表示每个用户用电数据的总月数、m表示异常行为持续月数、p
1峰i
表示该用户第i月峰电价区间用电量、p
1平i
表示该用户第i月平电价区间用电量、p
1谷i
表示该用户第i月谷电价区间用电量、p
1总i
表示该用户第i月总用电量、a表示峰电价区间时长、b表示谷电价区间时长以及c表示平电价区间时长。
65.3)日用电特征一(或称日用电相对波动):第一步,根据前面介绍的方法,借助节假日标识(holiday)筛选出其中部分日用电数据用于模型训练。
66.第二步,在上述筛选的日用电明细数据中,先求出该用户每日峰谷平电量相对波动,然后依次求出第1至第n天的电量相对波动之和、第2至第n 1天的电量相对波动之和、第3至第n 2天的电量相对波动之和
……
直至最后一天,然后取上述结果中的最小值,作为“日用电特征一”。
67.上述“每日峰谷平电量相对波动”有两种求取实施例:示例性地,第一种实施例:若该地区每天峰、谷、平电价区间时长相等,即皆为8小时,则可采用此实施例。
68.每日峰谷平电量相对波动的表达式为:;则日用电特征一公式如下:;



中,f
day
表示日用电特征一、t2=1,2,3,...,t
2-n 1、t2表示每个用户用电数据的总天数、n表示异常行为持续天数、p
2峰j
表示该用户第j天峰电价区间用电量、p
2平j
表示该用户第j天平电价区间用电量、p
2谷j
表示该用户第j天谷电价区间用电量、p
2总j
表示该用户第j天总用电量。
69.示例性地,第二种实施例:更为通用地,无论该地区每天峰、谷、平电价区间时长是否相等,皆可采用此实施例。
70.每日峰谷平电量相对波动的表达式为:
;则日用电特征一公式如下:;



中,f
day
表示日用电特征一、t2=1,2,3,...,t
2-n 1、t2表示每个用户用电数据的总天数、n表示异常行为持续天数、p
2峰j
表示该用户第j天峰电价区间用电量、p
2平j
表示该用户第j天平电价区间用电量、p
2谷j
表示该用户第j天谷电价区间用电量、p
2总j
表示该用户第j天总用电量、a表示峰电价区间时长、b表示谷电价区间时长以及c表示平电价区间时长。
71.4)月用电特征二(或称相邻月用电相对波动):先求出该用户每个相邻月份用电量相对差值,然后依次求出第1至第m月份中相邻月份电量相对差值之和、第2至第m 1月份中相邻月份电量相对差值之和、第3至第m 2月份中相邻月份电量相对差值之和
……
直至最后一个月份,然后取上述结果中的最小值,作为“月用电特征二”。月用电特征二公式如下:;



中:f

month
表示月用电特征二、t1表示每个用户用电数据的总月数、m表示异常行为持续月数、p
1总i
表示该用户第i月总用电量、p
1总(i 1)
表示该用户第i 1月总用电量。
72.5)日用电特征二(或称相邻日用电相对波动):第一步,根据前面介绍的方法,借助节假日标识(holiday)筛选出其中部分日用电数据用于模型训练。
73.第二步,在上述筛选后的日用电明细数据中,先求出该用户每个相邻日期用电量相对差值,然后依次求出第1至第n天中相邻日期电量相对差值之和、第2至第n 1天中相邻日期电量相对差值之和、第3至第n 2天中相邻日期电量相对差值之和
……
直至最后一天,然后取上述结果中的最小值,作为“日用电特征二”。日用电特征二公式如下:;



中:f

day
表示日用电特征二、t2表示每个用户用电数据的总天数、n表示异常行为持续天数、p
2总j
表示该用户第j天总用电量、p
2总(j 1)
表示该用户第j 1天总用电量。
74.上述5个用电特征(用电量特征、月用电特征一、日用电特征一、月用电特征二、日用电特征二)构造完成后,按用户唯一标识(id),将其与企业档案明细关联聚合。此外,将企业档案明细原有离散特征(如用电类别名称、电压等级名称、电价名称、临时用电标志)进行one-hot编码处理,并通过删减多余特征使训练集、测试集、待预测数据集特征保持一致。其中,one-hot编码即独热编码,又称一位有效编码,其方法是使用n位状态寄存器来对n个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
75.本示例性地实施例中,利用企业档案明细、月用电明细、日用电明细数据,构造用电量特征、月用电特征一、日用电特征一、月用电特征二和日用电特征二这5个特征,特征构造过程中用到持续挖矿月数、持续挖矿天数2个超参数,用以识别并非所有时间都在“挖矿”的用户,这两个超参数的最终取值在模型参数调优过程中进行确定。此外,对企业档案明细中的离散特征进行one-hot编码处理。
76.所述的根据训练集数据的用电特征,利用随机森林算法对模型进行预训练,获取目标用电特征包括:根据训练集数据的用电特征,利用随机森林算法对模型进行预训练,初步得到特征重要性排行;直接选择重要性排行前x的用电特征作为目标用电特征;或,初步设定需要保留的特征个数;使用递归特征消除法rfe获得多个用电特征;在根据测试集数据对模型进行调优的过程中,改变多个用电特征的取值;根据调优结果,确定多个用电特征的取值为y,即将重要性排行前y的用电特征作为目标用电特征。
77.本实施例中,使用随机森林模型,利用所有特征进行预训练,初步得到特征重要性排行,重点关注重要性较高的特征,为后续特征选择提供参考。
78.示例性地,一种实施例是,选择重要性排行最靠前的3个特征:例如用电量特征、月用电相对波动、日用电相对波动。
79.示例性地,另一种实施例是,使用递归特征消除法rfe进行特征选择:估计器estimator使用随机森林,根据上述特征重要性排行中重要性较高的特征个数,初步设定需要保留的特征个数(n_features_to_select),然后使用递归特征消除法rfe获得指定数量的特征。需要注意的是,需要保留的特征个数(n_features_to_select)并不是固定不变的,而是可以根据在后续模型训练完成后在测试集的表现,依次尝试n_features_to_select的不同取值,最终取测试集表现最好的模型对应的特征个数。
80.本示例性地实施例中,采用两种实施例对上述用电特征(用电量特征、月用电特征一、日用电特征一、月用电特征二、日用电特征二)进行选择,一种实施例是直接选择重要性比较高的3个特征:用电量特征、月用电特征一、日用电特征一;另一种方式是使用随机森林算法,利用所有特征进行预训练,初步得到特征重要性排行,观察重要性占比较高的用电特征的个数,将此个数上下浮动一定的数量,作为待选择特征的个数,然后利用递归特征消除法rfe获得相应个数的用电特征,并在后续模型训练调优过程中根据测试效果优劣确定最终的目标用电特征个数和具体用电特征。
81.由于正常用电的企业通常占绝大多数,具有异常行为(挖矿行为)的用户仅是个例,因此正负样本数量差距极为悬殊,非常容易产生过拟合,通过比较多种算法在测试集的表现,最终选择使用随机森林算法。随机森林算法是将多个决策树结合在一起,每颗决策树
的数据集是用bagging算法从总数据集里随机有放回地选出,同时随机选出部分特征用来训练,通过投票方式确定输出结果,原理大致如图3所示,图3是本示例性实施例中随机算法的流程图,由于引入了足够的随机性,因此随机森林具有不易过拟合的优点,非常适合本问题的求解。
82.经过反复训练测试,确定其中一种优选地参数组合如下:持续挖矿月数m取15,持续挖矿天数n取75,随机森林模型中树的数量n_estimators取100,衡量标准criterion取"gini",树的最大深度max_depth取none,树的特征个数max_features取"auto",其他参数采用scikit-learn库0.24.1版本randomforestclassifier默认参数。
83.需要说明的是,上述方案和参数组合并非限定性的,只是由某区域的企业用电数据按上述过程训练调优后得到的一种在测试集表现最好的参数组合。若使用不同区域的企业用电数据进行训练,可能会得到不同的最优方案和参数组合,皆在本发明实施例的保护范围内。
84.还需要说明的是,虽然本发明使用了机器学习中的随机森林算法作为解决本问题的最优算法,但实际上也可以仅使用随机森林的基分类器——决策树,或者使用随机森林的相似算法——xgboost、lightgbm等,也能达到接近随机森林算法的效果,只要在特征构造过程中使用了本发明介绍的方案,也都属于本发明的保护范畴。
85.本示例性地实施例中,利用选择的目标用电特征,使用随机森林算法进行模型训练,并通过模型在测试集数据的表现,不断调整确定最终的模型参数。
86.使用训练集数据进行模型训练,使用测试集数据进行模型调优,得到最终的识别模型。将待预测数据集输入至最终的识别模型,输出异常行为(挖矿行为)识别结果。具体地,向最终模型输入待预测数据,可以输出“挖矿”用户研判结果,即该用户是否为虚拟货币“挖矿”用户的结论。注意预测过程可以批量进行,即可以输入多个用户用电数据,输出每个用户对应的研判结论。此外,随机森林模型可以输出其中每颗决策树的投票结果,根据投票结果所占比例,可以得到“挖矿”嫌疑度,例如100颗决策树中有70颗投票给了“挖矿”,则该用户的“挖矿”嫌疑度为70%。利用“挖矿”嫌疑度,可以帮助决策人员确定结论的可靠性。
87.本示例性地实施例中,利用上述模型预测新的测试集数据,输出“挖矿”用户识别结果和“挖矿”嫌疑度。
88.以下将以某份企业用户用电数据为例,详细说明本发明提出的用电数据的识别方法:特征构造:如图4-图5月用电曲线所示,通过对比可以看到挖矿用户用电波动小,峰谷平三条曲线几乎重合,图6-图7的日用电曲线,也有类似的规律。此外,通过观察纵坐标轴,也可以看出挖矿用户用电量比较大。值得注意的是,由图4挖矿用户二用电曲线可知某些用户并非所有时间都在挖矿。
89.使用上述方法构造用电量特征、月用电特征一、日用电特征一、月用电特征二、日用电特征二共5个特征,然后按用户唯一标识(id),将其与企业档案明细关联聚合。此外,将企业档案明细原有离散特征进行one-hot编码处理,并通过删减多余特征使训练集、测试集、待预测数据集特征保持一致。最终得到一张特征二维表,其字段和示例数据如表4所示:表4特征二维表字段及示例数据
特征选择:使用随机森林模型,利用所有特征进行预训练,初步得到特征重要性排行,其中重要性排名前10的特征如表5所示:表5特征重要性排行
可以发现前5个特征重要性占比比较高,使用递归特征消除法rfe进行特征选择:估计器estimator使用随机森林,初步设定需要保留的特征个数(n_features_to_select)为5,然后使用递归特征消除法rfe获得5个特征,在后续模型中测试效果。改变特征个数(n_features_to_select)取值,例如分别取2、3、4、6、7,利用rfe获得相应个数的特征,并在后续模型中测试效果。需要注意的是,当n_features_to_select取不同值时,特征重要性排名可能会有所变化,例如当n_features_to_select为3时,选出的3个目标特征不一定为表5中的前3个,具体由rfe算法自动确定。最终经过反复评估后发现,特征个数(n_features_to_select)取3时表现最好,对应的3个特征为用电量特征、月用电特征一、日用电特征一。
90.随机森林模型训练与调优:经过反复训练测试,确定本示例中最优方案组合如下:1.持续挖矿月数m取15左右,持续挖矿天数n取75左右;2.筛选出节假日、以及节假日前后2天工作日的用电明细数据,用于构造日用电特征一、日用电特征二;3.模型预训练后,获取的目标用电特征为用电量特征、月用电特征一、日用电特征一;4.随机森林,使用scikit-learn库0.24.1版本randomforestclassifier模型,其中树的数量n_estimators取100,衡量标准criterion取’gini’,树的最大深度max_depth取none,树的特征个数max_features取’auto’,其他参数采用默认值。
91.输出结果:向训练好的模型输入待预测数据,输出“挖矿”用户研判结果和“挖矿”嫌疑度百分比,形式如表6。
92.表6输出结果
综上,本发明利用企业用电数据,建立适当的算法模型,做到以非侵入式手段识别“挖矿”用户,克服了以往人工逐一排查“挖矿”用户费时费力且结果准确性难以保证的问题,助力政府全面、精准地治理“挖矿”行为。
93.图8是本示例性实施例中一种用电数据的识别系统的结构示意图,如图8所示,本发明提供了一种用电数据的识别系统,包括:构造单元,用于根据历史用电数据以及设定的超参数构造训练集数据的用电特征;预训练单元,用于根据训练集数据的用电特征,利用随机森林算法对模型进行预训练,获取目标用电特征;训练单元,用于根据目标用电特征,利用随机森林算法对模型进行训练;调优单元,用于根据测试集数据对模型进行调优,生成识别模型。所述设定的超参数包括异常行为持续月数m和异常行为持续天数n。所述用电特征包括:用电量特征、月用电特征一(月用电相对波动)、日用电特征一(日用电相对波动)、月用电特征二(相邻月用电相对波动)和日用电特征二(相邻日用电相对波动)。包括:获取单元,用于获取历史用电数据,所述历史用电数据包括企业档案明细、月用电明细和日用电明细;清洗单元,用于将历史用电数据进行数据清洗,所述数据清洗包括删除异常数据、填充缺失数据和统一特征取值;划分单元,用于将清洗后的历史用电数据按一定比例划分出训练集数据和测试集数据,所述训练集数据和测试集数据均带有用户唯一标识。包括:汇集单元,用于将用电特征按用户唯一标识汇集至企业档案明细;处理单元,用于将企业档案明细原有离散特征进行one-hot编码处理,并通过删减多余特征使训练集数据、测试集数据和待预测数据集特征保持一致。包括:识别单元,用于将待预测数据集输入至识别模型,输出异常行为识别结果。其中,预训练单元包括:排行获取模块,用于根据训练集数据的用电特征,利用随机森林算法对模型进行预训练,初步得到特征重要性排行;第一选择模块,用于直接选择重要性排行前x的用电特征作为目标用电特征;设定模块,用于初步设定需要保留的特征个数;获得模块,使用递归特征消除法rfe获得多个用电特征;改变模块,用于在根据测试集数据对模型进行调优的过程中,改变多个用电特征的取值;确定模块,用于根据调优结
果,确定多个用电特征的取值为y,即将重要性排行前y的用电特征作为目标用电特征。
94.本实施例中,当峰电价区间时长a、谷电价区间时长b以及平电价区间时长c相等时,则所述月用电特征一f
month
的计算公式为:;

当不确定峰电价区间时长a、谷电价区间时长b以及平电价区间时长c是否相等时,则所述月用电特征一f
month
的计算公式为:;



和式

中:f
month
表示月用电特征一、t1=1,2,3,...,t
1-m 1、t1表示每个用户用电数据的总月数、m表示异常行为持续月数、p
1峰i
表示该用户第i月峰电价区间用电量、p
1平i
表示该用户第i月平电价区间用电量、p
1谷i
表示该用户第i月谷电价区间用电量、p
1总i
表示该用户第i月总用电量、a表示峰电价区间时长、b表示谷电价区间时长以及c表示平电价区间时长。
95.当峰电价区间时长a、谷电价区间时长b以及平电价区间时长c相等时,则所述日用电特征一f
day
的计算公式为:;

当不确定峰电价区间时长a、谷电价区间时长b以及平电价区间时长c是否相等时,则所述日用电特征一f
day
的计算公式为:;



和式

中:f
day
表示日用电特征一、t2=1,2,3,...,t
2-n 1、t2表示每个用户用电数据的总天数、n表示异常行为持续天数、p
2峰j
表示该用户第j天峰电价区间用电量、p
2平j
表示该用户第j天平电价区间用电量、p
2谷j
表示该用户第j天谷电价区间用电量、p
2总j
表示该用户第j天总用电量、a表示峰电价区间时长、b表示谷电价区间时长以及c表示平电价区间时长。
96.其中,月用电特征二f

month
的计算公式为:;



中:f

month
表示月用电特征二、t1表示每个用户用电数据的总月数、m表示异常行为持续月数、p
1总i
表示该用户第i月总用电量、p
1总(i 1)
表示该用户第i 1月总用电量。
97.其中,日用电特征二f

day
的计算公式为:;



中:f

day
表示日用电特征二、t2表示每个用户用电数据的总天数、n表示异常行为持续天数、p
2总j
表示该用户第j天总用电量、p
2总(j 1)
表示该用户第j 1天总用电量。
98.本发明还提供了一种根据用电数据的识别方法在挖矿行为识别上的应用。
99.以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术实施例均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献