一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置及电子设备与流程

2022-07-10 04:19:55 来源:中国专利 TAG:


1.本发明实施例涉及计算机技术领域,尤其涉及一种数据处理方法、装置及电子设备。


背景技术:

2.时序数据预测,是以过去的时间序列数据进行数据统计分析,推测未来一段时间的发展趋势为目的,旨在了解事物的发展趋势,并根据预测的趋势加入某些干预进行调控以达到事物发展的期望值。
3.当前的时序预测方法,常以传统的统计学习方法和机器学习等算法完成时序预测。其常用算法包括arima、xgboost和lstm等,在预测过程中,缺失值和异常值对预测结果的影响很大,而当前的方法中大多使用删除、平均等简单的操作处理缺失值和异常值,无法提供有效准确的缺失数据,导致时序预测的准确性较低。


技术实现要素:

4.本发明实施例提供一种数据处理方法、装置及电子设备,以提升时序预测的准确性。
5.为解决上述问题,本发明是这样实现的:
6.第一方面,本发明实施例提供了一种数据处理方法,所述方法包括:获取第一时间序列对应的第一时序数据,所述第一时间序列包括n个时间节点,所述第一时序数据包括所述n个时间节点以及所述n个时间节点中m个时间节点对应的m个指标数据值;n为正整数,m为小于n的正整数;
7.基于所述第一时序数据,生成第一图像,其中,所述第一图像用于表征所述n个时间节点、所述m个指标数据值以及所述m个指标数据值与m个时间节点的对应关系;
8.利用去噪自编码器dae对所述第一图像进行去噪处理,得到第二图像;
9.基于所述第二图像,生成第二时序数据,所述第二时序数据包括所述n个时间节点对应的n个指标数据值,所述n个指标数据值包括所述m个指标数据值;
10.基于所述第二时序数据和时序预测模型,生成目标时序数据。
11.第二方面,本发明实施例还提供一种数据处理装置,包括:
12.第一获取模块,用于获取第一时间序列对应的第一时序数据,所述第一时间序列包括n个时间节点,所述第一时序数据包括所述n个时间节点以及所述n个时间节点中m个时间节点对应的m个指标数据值;n为正整数,m为小于n的正整数;
13.第一生成模块,用于基于所述第一时序数据,生成第一图像,其中,所述第一图像用于表征所述n个时间节点、所述m个指标数据值以及所述m个指标数据值与m个时间节点的对应关系;
14.去噪模块,用于利用去噪自编码器dae对所述第一图像进行去噪处理,得到第二图像;
15.第二生成模块,用于基于所述第二图像,生成第二时序数据,所述第二时序数据包括所述n个时间节点对应的n个指标数据值,所述n个指标数据值包括所述m个指标数据值;
16.第三生成模块,用于基于所述第二时序数据和时序预测模型,生成目标时序数据。
17.第三方面,本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器,用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。
18.第四方面,本发明实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。
19.在本发明实施例中,通过将待处理的第一时序数据转换为第一图像,再利用去噪自编码器对第一图像进行处理,得到第二图像,而后将第二图像逆转换为第二时序数据,从而通过图像处理的方式,将第一时序数据中n-m个时间节点缺失的指标数据值进行了填补,从而基于第二时序数据和时序预测模型预测,得到的预测结果更加准确,即提升了时序预测的准确性。
附图说明
20.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明实施例提供的数据处理方法的流程示意图;
22.图2是本发明实施例提供的生成式对抗网络执行的流程示意图;
23.图3是本发明实施例提供的图像补全层执行的流程示意图;
24.图4是本发明实施例提供的可能的系统架构图;
25.图5是本发明实施提供的数据处理装置的结构图;
26.图6是本发明实施提供的电子设备的结构图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.本发明实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本技术中使用“和/或”表示所连接对象的至少其中之一,例如a和/或b和/或c,表示包含单独a,单独b,单独c,以及a和b都存在,b和c都存在,a和c都存在,以及a、b和c都存在的7种情况。
29.请参见图1,图1是本发明实施例提供的数据处理方法的流程图,如图1所示,上述
方法包括:
30.步骤101、获取第一时间序列对应的第一时序数据,所述第一时间序列包括n个时间节点,所述第一时序数据包括所述n个时间节点以及所述n个时间节点中m个时间节点对应的m个指标数据值;n为正整数,m为小于n的正整数。
31.对于时间序列预测而言,通常是通过历史时间序列对应的历史时序数据,预测未来一段时间内的时序数据。因此,上述第一时间序列可以为对于当前时间点而言,过去的一段连续的时间段,且该时间段中可以包括间隔设置的n个时间节点,上述时间节点可以以一定规则进行设置,例如以分钟、小时、天、周、月或年为单位,在此不作限定。
32.需要说明的是,由于外界因素或者人为因素,可能会导致历史时序数据中,某些时间点上的数据缺失,此时即可以采用上述数据处理方法,先将上述时间点上的数据补全,再基于补全后的时序数据进行预测。
33.在此类情况下,上述第一时序数据,可以包括上述n个时间节点,和上述n个时间节点中,m个时间节点分别对应的m个指标数据值。
34.以城市居民用电量为例,若需要预测未来五天内,每天的城市居民用电量数据,可以先获取过去100天中,每天的城市居民用电量数据,则过去100天即为第一时间序列,每一天作为一个时间节点,n等于100。若过去100天中有10天的用电量数据出现了缺失,则m等于90。100天的日期和其中90天对应的城市居民用电量数据,可以包含于上述第一时序数据。
35.在本发明实施例中,上述第一时序数据可以包括一个时间节点所对应的一项指标数据值,在此种情况下,若需要对多项指标数据值进行预测,则可以根据上述第一时间序列,生成针对不同项指标数据值对应的不同时序数据。当然,在其他可选的实施例中,上述第一时序数据也可以包括一个时间所对应的多项指标数据值。
36.需要说明的是,针对每一时间节点,还可以包括每一时间节点的特征数据,且特征数据与上述第一时序数据一一对应,以便于电子设备可以基于时间节点的特征,生成更准确的预测结果。上述每一时间节点的特征数据可以指示上述时间节点中,对上述指标数据值产生影响的特征,例如是否为工作日、是否为雨天或是否为冬天等。
37.接上例,示例性地,由于天气情况、季节情况、工作日情况等因素均会影响城市居民的用电量。上述第一时序数据,还可以包括每天的天气情况、季节情况、以及工作日情况等,并可以以数字标识“0”和“1”等的形式存放,并可以与每天的城市居民用电量数据建立依赖关系,以便于后续利用时序预测模型进行预测。
38.步骤102、基于所述第一时序数据,生成第一图像,其中,所述第一图像用于表征所述n个时间节点、所述m个指标数据值以及所述m个指标数据值与m个时间节点的对应关系。
39.在上述步骤102中,上述第一图像可以由上述第一时序数据转化而来,具体可以利用坐标转换和三角函数转换等方式,将上述第一时序数据以图像形式呈现,其中,每一个时间节点对应的指标数据值,都在第一图像中存在对应的图像块,这样,可以在图像经过处理发生变化后,可以经过逆转化得到对应发生变化的指标数据值和指标数据值对应的时间节点。举例而言,上述第一图像具体可以为格拉姆角场(gramian angular field,gaf)图等。在进行图像转换处理时,由于上述第一时序数据中,n-m个时间节点的指标数据值发生缺失,因此,可以先将上述第一时序数据中上述n-m个时间节点的指标数据值设置为预设值,再将第一时序数据中n个时间节点和对应的n个指标数据值转换为第一图像。
40.应理解,在一些实施例中,电子设备也可以先对上述第一时序数据进行预处理,例如校正其中明显错误的数据或者修改特殊时期的数据等,而后基于预处理之后的时序数据生成上述第一图像。
41.步骤103、利用去噪自编码器dae对所述第一图像进行去噪处理,得到第二图像。
42.在上述步骤103中,去噪自编码器(denoising auto encoder,dae),是一类接受损坏数据作为输入,并训练来预测原始未被损坏数据作为输入的自编码器。由上述内容更可知,对于上述第一时序数据而言,上述n-m个时间节点未存在对应的指标数据值,因此可以上述对上述第一时序数据中n-m个时间节点对应的指标数据值设置为预设值的步骤,可以看作是在第一图像中添加噪声。上述第一图像中的噪声可以经去噪自编码器去除,得到去噪后的第二图像。
43.步骤104、基于所述第二图像,生成第二时序数据,所述第二时序数据包括所述n个时间节点对应的n个指标数据值,所述n个指标数据值包括所述m个指标数据值。
44.在上述步骤104中,由上述内容可知,上述第一时序数据中的时间节点和对应的指标数据值,与第一图像中的图像块一一对应。由于上述第二图像经去噪自编码器去除噪声,因此,上述第一图像中的部分图像块会产生变化,从而上述第二图像在转换回时序数据,得到上述第二时序数据时,上述第二时序数据上述n-m个时间节点对应的指标数据值会由预设值变化为插补值。
45.这样,上述第一时序数据中n-m个时间节点缺失的指标数据值可以通过图像处理的方法得到填补。换句话说,上述第二时序数据中,上述n个时间节点均存在对应的指标数据值。
46.步骤105、基于所述第二时序数据和时序预测模型,生成目标时序数据。
47.在上述步骤105中,在对第一时序数据经过图像处理的方式处理得到上述第二时序数据后,可以将上述第二时序数据输入时序预测模型,进行时间序列的预测,得到目标时序数据。
48.接上例进行说明,在得到过去100天的城市居民用电量数据后,可以基于过去100天的城市居民用电量数据,预测未来5天的城市居民用电量数据,由于过去100天的城市居民用电量数据经处理后,填补上了其中10天对应的城市居民用电量指标数据值,因此基于该数据进行时序预测所得到的预测结果准确率更高。
49.其中,上述时序预测模型可以为神经网络模型,具体可以为卷积神经网络(convolutional neural network,cnn)、递归神经网络(recurrent neural network,rnn),或者卷积递归神经网络(convolutional recurrent neural network,crnn)等。其中,卷积递归神经网络为卷积神经网络和递归神经网络的组合,由于卷积神经网络可以对进行图像分类和预测,递归神经网络可以能够捕获序的依存关系,因此本发明实施例可以使用卷积神经网络先提取每个相关多个时间序列的特征信息,然后将卷积神经网络的输出顶部连接递归神经网络,组成卷积递归神经网络。
50.在本发明实施例中,通过将待处理的第一时序数据转换为第一图像,再利用去噪自编码器对第一图像进行处理,得到第二图像,而后将第二图像逆转换为第二时序数据,从而通过图像处理的方式,将第一时序数据中n-m个时间节点缺失的指标数据值进行了填补,从而基于第二时序数据和时序预测模型预测,得到的预测结果更加准确,即提升了时序预
测的准确性。
51.可选地,所述基于所述第一时序数据,生成第一图像的步骤包括:
52.对所述m个时间节点对应的m个指标数据值进行归一化处理;
53.将所述n个时间节点中,除所述m个时间节点外的n-m个时间节点对应的指标数据值设置为第一预设值;
54.将所述n个时间节点和所述n个时间节点对应的n个指标数据值,转化至极坐标系上;
55.基于所述极坐标系坐标的三角函数变换,生成所述第一图像,所述第一图像为格拉姆角场gaf图。
56.在本发明实施例中,为了便于进行后续的图像转换,可以先对上述第一时序数据进行归一化处理,将上述m个时间节点对应的m个指标数据值缩放到[-1,1]或者[0,1]的区间范围内,此时上述第一时序数据呈现于笛卡尔坐标系上。
[0057]
进一步地,为了提升去噪效果,可以将上述n个时间节点中,对应的指标数据值缺失的n-m个时间节点的数据统一值设置为第一预设值,上述第一预设值位于上述[-1,1]或者[0,1]的区间范围内,具体可以为0。上述n-m个时间节点和n-m个第一预设值,转换至上述第一图像上时,即为上述第一图像的噪声。
[0058]
在此之后,由于极坐标系上的坐标仅与角度相关,相对于笛卡尔坐标系,极坐标系可以保留绝对的时间关系,本发明实施例可以将笛卡尔坐标系上的时间节点和指标数据值对应的横纵坐标转换至极坐标系上,并通过极坐标系上的坐标三角变换,生成上述第一图像。具体可以通过两角和的余弦函数得到格拉姆角和场(gramian angular summation field,gasf)图,或者通过两角差的余弦函数得到格拉姆角差场(gramian angular difference field,gadf)图,其具体流程可以通过封装的软件工具实现,在此不再进行赘述。
[0059]
本发明实施例通过坐标转换,将上述第一时序数据由笛卡尔坐标系转换为极坐标系,转换为格拉姆角场图,从而可以利用目前成熟的图像处理技术,对图像进行处理,最后经过逆变换得到指标数据值填补后的时序数据。
[0060]
可选地,上述步骤103之前,上述方法还可以包括:
[0061]
在历史时序数据中,获取至少一个训练时序数据;
[0062]
将每一所述训练时序数据中,至少一个时间节点对应的指标数据值设置为第二预设值,得到至少一个第三时序数据;
[0063]
基于所述至少一个训练时序数据和所述至少一个第三时序数据,训练所述去噪自编码器。
[0064]
在本发明实施例中,上述历史时序数据,可以为上述去噪自编码器的训练数据,作为训练数据,为提升训练效果,其数据量通常较大。例如,若上述第一时序数据为过去60天的数据,则上述历史时序数据可以为过去两年的数据。通常而言,上述历史时序数据与上述第一时序数据保持独立,即上述历史时序数据与上述第一时序数据不重合。电子设备可以通过交叉验证(cross-validation)等方式,从上述历史时序数据中,获取至少一个训练时序数据,每一个训练时序数据可以作为一组训练样本。应理解,上述训练时序数据,可以选取自历史时序数据中,指标数据值无缺失的时序数据,且每一个训练时序数据对应的时间
序列长度可以相同,也可以不同,通过多组低噪声的训练样本进行训练,从而可以提升训练效果。
[0065]
电子设备可以将每一组上述训练时序数据中,至少一个时间节点对应的指标数据值设置为第二预设值,上述第二预设值与上述第一预设值类似,位于上述[-1,1]或者[0,1]的区间范围内,具体可以为0。通过将上述训练时序数据中至少一个时间节点设置为第二预设值,得到至少一个第三时序数据,从而可以模拟时序数据中出现指标数据值缺失的情况,通过去噪自编码器去噪后生成的时序数据,可以与训练时序数据进行对比,并可以建立误差函数逐步对去噪自编码器进行优化,使得去噪自编码器的误差降低,从而实现对去噪自编码器的训练。
[0066]
进一步地,上述基于所述至少一个训练时序数据和所述至少一个第三时序数据,训练所述去噪自编码器的步骤包括:
[0067]
基于所述至少一个训练时序数据,对应生成至少一个第三图像;
[0068]
基于所述至少一个第三时序数据,对应生成至少一个第四图像;
[0069]
利用所述去噪自编码器对所述至少一个第四图像进行去噪处理,得到至少一个第五图像;
[0070]
基于一一对应的所述第三图像与所述第五图像的均方误差,生成损失函数;
[0071]
基于所述损失函数,对所述去噪自编码器进行训练。
[0072]
在本发明实施例中,上述训练时序数据中,每一时间节点对应的指标数据值均为真实值,因此,基于上述至少一个训练时序数据,对应生成的至少一个第三图像可以理解为由真实数据生成的图像,上述去噪自编码器的目的,就是将由上述第三时序数据对应生成的第四图像进行去噪处理,从而生成最接近于上述第三图像的第五图像。
[0073]
因此,可以计算上述第五图像和与之一一对应的第三图像的均方误差,通过损失函数对上述去噪自编码器进行优化,从而实现对去噪自编码器的训练。
[0074]
应理解,由于上述第三时序数据是经上述训练时序数据处理得到,因此上述一一对应的第三图像和第五图像,分别由处理前的训练时序数据和其经处理后的第三时序数据生成。
[0075]
可选地,上述去噪自编码器可以采用sigmoid函数,从而可以有助于学习隐藏层的非线性特征。
[0076]
可选地,上述步骤102具体可以包括:
[0077]
将所述第一时序数据输入生成式对抗网络gan,得到第四时序数据;
[0078]
将所述第四时序数据中,至少一个时间节点对应的指标数据值设置为第三预设值,得到第五时序数据;
[0079]
基于所述第五时序数据,生成所述第一图像。
[0080]
在本发明实施例中,可以利用生成式对抗网络(generative adversarial networks,gan),对上述第一时序数据进行预处理,得到第四时序数据,再基于第四时序数据生成上述第一图像。
[0081]
具体地,参照图2,生成式对抗网络是一种生成式模型,能够生成服从原始数据集分布的新样本,主要由一个生成器和一个判别器组成。其可以通过将第一时序数据输入生成式对抗网络gan,输出完整的时序数据,即第四时序数据,此时上述第一时序数据中缺失
的指标数据值经生成式对抗网络gan初步填补。
[0082]
进一步地,可以将上述第四时序数据的至少一个时间节点对应的指标数据值设置为预设值,得到第五时序数据,再基于第五时序数据生成第一图像,进行上述去噪处理。
[0083]
优选地,可以将上述第四时序数据中,此前缺失了指标数据值的m个时间节点中,至少一个时间节点对应的指标数据值设置为第三预设值,得到上述第五时序数据,并基于第五时序数据生成第一图像,从而在后续利用去噪自编码器对上述第一图像进行处理的过程中,由于缺失指标数据值的时间节点减少,因此可以加快处理进程。同时,可以针对上述gan初步填补的指标数据值进行优化,结合gan算法和图像去噪处理方案,可以得到更准确的指标数据值。
[0084]
上述第三预设值与上述第一预设值和第二预设值类似,在此不再赘述。
[0085]
举例而言,若上述第一时间序列包括100个时间节点,其中90个时间节点有对应的指标数据值,10个时间节点对应的指标数据值缺失。本发明实施例中,可以先将上述第一时间序列对应的时序数据输入上述生成式对抗网络进行初步数据填补,得到第四时序数据,其中第四时序数据中100个时间节点均存在对应的指标数据值。而后,可以在此前缺失指标数据值的10个时间节点中,选择其中一个时间节点,并将其对应的指标数据值设置为第三预设值,得到第五时序数据,此时基于第五时序数据生成的第一图像的噪声较小,通过去噪自编码器去噪处理能得到更好地去噪效果,
[0086]
需要说明的是,上述将上述第四时序数据的至少一个时间节点对应的指标数据值设置为预设值的步骤,可以执行多次,得到多个第五时序数据,其中,每个第五时序数据中,对应指标数据值设置为第三预设值的时间节点不完全相同。
[0087]
接上例继续说明,可以在上述第四时序数据此前缺失指标数据值的10个时间节点对应的指标数据值依次设置为第三预设值,生成10个第五时序数据,并经后续去噪自编码器等处理,得到10个时序数据,从而可以从10个时序数据中,找到此前指标数据值设置为第三预设值的时间节点所对应的指标数据值,进而根据这10个时间节点对应的指标数据值,生成第二时序数据。
[0088]
这样,本发明实施例将缺失指标数据值的第一时序数据通过多次处理,可以使得第二时序数据中,所填补的指标数据值更加真实可靠,从而进一步提升了基于第二时序数据预测生成的目标时序数据的准确性。
[0089]
可选地,上述步骤105具体可以包括:
[0090]
将所述第二时序数据输入生成式对抗网络gan,得到第六时序数据;
[0091]
将所述第六时序数据作为所述时序预测模型的输入,得到所述目标时序数据。
[0092]
在本发明实施例中,经过上述去噪自编码器去噪处理的第二图像中可能还存在一定的噪声,因此,上述第二时序数据中可能会存在少数时间节点所对应的指标数据值为上述第一预设值,影响最终目标时序数据的准确性。因此,可以将上述第二时序数据输入生成式对抗网络,得到第六时序数据,并将第六时序数据作为时序预测模型的输入,得到上述目标时序数据。
[0093]
这样,本发明实施例通过生成式对抗网络,对上述第二时序数据进一步优化处理,使得第二时序数据中,每一时间节点对应的指标数据值更加真实可靠,从而提升了预测得到的目标时序数据的准确性。
[0094]
可选地,上述步骤102具体可以包括:
[0095]
获取所述第一时序数据中第一时间节点t,以及所述第一时间节点对应的指标数据值x
t’,所述第一时间节点为所述第一时间序列中,第t个时间节点;
[0096]
根据所述第一时间节点t,将所述第一时间序列按预设周期t进行划分,其中,一个预设周期t为l个相邻的时间节点形成的时间段,在所述第一时间节点t所在的周期之前,所述第一时间序列还包括n1个周期,在所述第一时间节点t所在的周期之后,所述第一时间序列还包括n2个周期;
[0097]
在每个周期内,获取所述第一时间节点的前c个时间节点形成的时间段,得到前向时间窗口,c为预设常数;
[0098]
在每个周期内,获取所述第一时间节点的后c个时间节点形成的时间段,得到后向时间窗口;
[0099]
通过k=1,2,

c,得到前向窗口系数αk;λ为预设常数;
[0100]
通过k=1,2,

c,得到后向窗口系数βk;
[0101]
通过将所述第一时序数据中的第一时间节点对应的指标数据值校正为x
t
,得到第六时序数据;δ为预设常数;
[0102]
基于所述第六时序数据,生成所述第一图像。
[0103]
在本发明实施例中,由于上述第一时序数据中,可能存在时间节点对应的指标数据值明显有误,或者时间节点较为特殊,导致其对应的指标数据值不具有参考价值,因此可以对上述第一时序数据中的第一时间节点t对应的数据值x
t’采用算法进行校正。上述第一时间节点可以为一个,也可以为多个,具体可以为上述第一时序数据中,对应的指标数据值超出预设范围的时间节点。
[0104]
举例而言,若上述第一时序数据包括过去100天的日期和每个日期对应的城市居民用电量,若其中一天城市出现大面积停电的现象,则该时间节点对应的指标数据值低于预设的阈值,可以确定为上述第一时间节点。在此种情况下,可以先根据第一时间节点划分预设周期,例如,在一些实施例中,可以以一周,即七天为一个周期。100天一共可以划分出14个周期,若第一时间节点位于第7周,则n1=6,n2=7。
[0105]
进一步地,可以在第一时间节点所位于的周期中,前向选择c个相邻且连续的时间节点组成的时间段,作为前向时间窗口,后向选择c个相邻且连续的时间节点组成的时间
段,作为后向时间窗口。接上例,若上述第一时间节点为星期四,则预设周期可以以周一至周日为一个周期,那么,上述前向时间窗口可以为每个周期内的周一至周三,后向时间窗口可以为每个周期内的周五至周日。若上述第一时间节点为星期三,则预设周期可以以周日至周六为一个周期,那么,上述前向时间窗口可以为每个周期内的周日至周二,后向时间窗口可以为每个周期内的周四至周六。根据上述第一时间节点,具体设置周期划分,从而可以在预设周期内,取到包含足够多的时间节点的前向和后向时间窗口,进而可以提升最终生成的校正值的可靠性。
[0106]
进一步地,根据每个周期内的前向时间窗口中,各时间节点对应的指标数据值,可以通过k=1,2,

c,确定前向窗口系数,该系数中为时间窗口衰减因子,表示距离第一时间节点时间越长的时间节点对应的指标数据值,对前向窗口系数的影响越小,由于与第一时间节点相距较远的时间节点对应的指标数据值与第一时间节点对应的指标数据值通常关联性不大,因此通过设置时间窗口衰减因子可以提升最终校正的可靠性。其中,λ为预设值,具体可以实际需要进行设置,在此不作限定。
[0107]
类似地,可以通过k=1,2,

c,确定后向窗口系数,在此不再赘述。
[0108]
进一步地,可以根据计算得到上述第一时间节点对应的校正值x
t
,得到第六时序数据。其中,为周期衰减因子,表示距离第一时间节点时间越长的时间节点对应的指标数据值,对最终的校正值的影响越小。δ为预设值,具体可以实际需要进行设置,在此不作限定。
[0109]
本发明实施例中,可以通过根据第一时间节点,以及各时间节点对应的指标数据值,获取前向和后向窗口系数,再根据前向和后向窗口系数,以及各时间节点对应的指标数据值,将第一时序数据中的第一时间节点对应的指标数据值校正为x
t
,从而实现了对上述第一时序数据中明显有误的数据值,或者参考性不大的数据值进行校正,提升了最终预测生成的目标时序数据的准确性。
[0110]
同时,通过设置时间窗口衰减因子和周期衰减因子,可以降低与第一时间节点时间相距较远时间节点对应的数据值,对最终校正值x
t
的影响,从而提升了校正值x
t
的可靠性。
[0111]
当然,在其他可选的实施例中,也可以将上述第一时间节点对应的指标数据值看作缺失值,利用图像处理的方式进行数据填补。
[0112]
本发明实施例中介绍的多种可选的实施方式,在彼此不冲突的情况下可以相互结合实现,也可以单独实现,对此本发明实施例不作限定。
[0113]
参照图4,图4为本发明实施例一种可能的架构图,其可以包括数据接入层、数据处理层、图像补全层和时序预测层。
[0114]
基于该架构,本发明实施例提供的数据处理方法可以包括以下步骤:
[0115]
由数据接入层执行的步骤201、将历史时序数据和特征数据(特征数据可以为空)作为输入数据。
[0116]
其中,历史时序数据,主要是待预测指标的历史数据,包含时间和指标值两列数据;同时还有关于预测指标相关的特征数据,包含时间和对应各特征的特征值数据,且特征数据是指可以提前获取未来时间段的特征值的数据。
[0117]
由数据处理层执行的步骤202、对输入数据进行预处理,主要包括数据插补和数据校正。
[0118]
其中,数据插补是基于生成对抗网络对时序数据缺失值填充。具体地,生成式对抗网络是一种生成式模型,能够生成服从原始数据集分布的新样本,主要由一个生成器和一个判别器组成。利用生成式对抗网络进行数据插补的流程主要是:
[0119]
(1)通过生成器输入一个随机低维向量,输出生成完整的时序数据;
[0120]
(2)判别器的输入分为两个部分,一是生成器生成完整的时序数据,二是原始数据集中的真实的确实的时序数据,输出则是两部分样本为“真”的概率值,表示判别器输入数据为真实时序数据的可能性。
[0121]
为了处理缺失的时序数据,生成器和判别器均由填充循环神经网络组成。
[0122]
通过训练生成对抗网络,针对每一条缺失的时序数据,尝试寻找一个最优的输入向量,使得此时生成器生成的时序数据和原时序数据最为相似,从而根据来填充原始时序数据的缺失值。
[0123]
数据校正是对周期性特殊日期的波动数据和异常数据采用算法进行计算校正。具体地,校正的方法如下:
[0124]
如t时刻的数据可以通过计算前n1和后n2个周期数据与前后c个时间窗口中时间节点对应的指标数据值的比例关系(需要根据t时刻的位置决定前后周期数n1和n2)。
[0125]
根据前n1和后n2个周期的前向窗口内数据计算前向窗口系数αk;根据前n1和后n2个周期的后向窗口内数据计算后向窗口系数βk,其中
[0126]
k=1,2,

c;
[0127]
k=1,2,

c;
[0128][0129]
然后根据前后窗口系数αk和βk,及前后窗口的时间节点的指标数据值,计算当前t时刻的值x
t
,其中为周期i的周期衰减因子,为窗口c的时间窗口衰减因子,均表示周期或窗口越靠前,其影响系数越小。
[0130]
参照图5,图5图像补全层执行的流程,其主要可以包括步骤203~205。
[0131]
具体地,由图像补全层执行的步骤203、将处理后的时序数据转化为图像。
[0132]
主要是利用格拉姆角场(gramian angular field gaf)将历史时序数据编码转化为图像,使得成熟的图像处理技术可用于插补时间序列以提高预测结果。格拉姆角场是将笛卡尔坐标系下的一维时间序列,转化为极坐标系表示,再使用三角函数生成gaf矩阵。
[0133]
具体地,其可以包括以下步骤:
[0134]
数值缩放:将笛卡尔坐标系下的时间序列缩放到[0,1]或[-1,1]区间;
[0135]
极坐标转换:使用坐标变换公式,将笛卡尔坐标系序列转化为极坐标系时间序列,随着时间的增加,对应值在跨度圆的不同角点之间发生扭曲,就像水在波纹一样。给定一个时间序列,经过极坐标系变换,有且只有一个结果,并具有唯一的逆映射,该属性满足解码图像预测时间序列的值奠定了基础,即可通过gaf矩阵的主对角线,恢复笛卡尔坐标下的原始时间序列。
[0136]
角度和/差的三角函数变换:若使用两角和的余弦函数则得到gasf,若使用两角差的余弦函数则得到gadf。
[0137]
由图像补全层执行的步骤204、对图像进行去噪处理。
[0138]
主要是通过数据转化为图像,进行图像缺失噪声的修复,处理流程如下:
[0139]
首先,通过在原始时间序列中手动添加缺失噪声(即将缺失点的数值随机设置为0);然后,将数据转换为gasf图像;接着训练去噪自编码器为生成模型,重建gasf图像;其中利用sigmoid函数可以有助于学习隐藏层的非线性特征,且通过计算原始gasf图像和“缺失”的gasf图像之间的均方误差(mse)作为损失函数,以评估拟合性能。
[0140]
进一步地,可以通过图像去噪处理的算法恢复的时间序列与上述步骤202中的插补结果进行对比,如果偏差不大,则证明缺失值填补效果较好,则可作为填补数据优化步骤202的生成式对抗网络模型,并循环至模型稳定,结合图像去噪处理策略和gan生成算法,得到优化的插补数据,将图像去噪处理策略和gan生成算法结合的技术方案可以参照上述实施例中的描述,在此不再赘述。
[0141]
由图像补全层执行的步骤205、将处理后的图像转换回时序数据。
[0142]
其中,可以将通过训练好的去噪自动编码器帮助恢复图像,并在该图像上提取主要对角线以重建恢复的时间序列。
[0143]
由时序预测层执行的步骤206、将处理后的时序数据输入到时序预测模型,得到预测结果。
[0144]
其中,时序预测模型可以为卷积递归神经网络,利用卷积神经网络和递归神经网
络的组合来对一组或多组相关时间序列进行预测。利用卷积神经网络成功用于图像分类和预测的经验以及递归神经网络能够捕获序列的依存关系,预测未来值。因此使用卷积神经网络先提取每个相关多个时间序列的鲜明特征,然后将卷积神经网络组合输出的顶部,连接递归神经网络,即组成卷积递归神经网络。
[0145]
将一个或多个时间序列作为输入,其中每个输入时间序列包含1项预测指标,通过卷积层提取出鲜明的特征;通过池化层捕获时间序列的最具代表性的特征;经过整合池化层,多维数据集被连接成一个n维向量输入到递归神经网络以进行预测得到预测结果。
[0146]
可选地,本发明实施例中还可以包括数据应用层,将预测的结果通过趋势图描绘并展示,了解后续的指标变化趋势,为后续策略研究提供依据。
[0147]
本发明实施例基于图像插补的时序数据预测方法,可以利用成熟的图像处理技术,实现图像数据的补全,从而得到完整的特征数据和历史数据有助于提高后续时序预测的准确性。
[0148]
同时,本发明实施例通过周期性数据校正方法,可以修正异常数据,提高时间序列本身的数据准确性以及特征数据的完整性,减少异常数据对时序预测的影响,提高时序预测的准确性。
[0149]
参见图5,图5是本发明实施例提供的数据处理装置的结构图之一。如图5所示,数据处理装置500包括:
[0150]
第一获取模块501,用于获取第一时间序列对应的第一时序数据,所述第一时间序列包括n个时间节点,所述第一时序数据包括所述n个时间节点以及所述n个时间节点中m个时间节点对应的m个指标数据值;n为正整数,m为小于n的正整数;
[0151]
第一生成模块502,用于基于所述第一时序数据,生成第一图像,其中,所述第一图像用于表征所述n个时间节点、所述m个指标数据值以及所述m个指标数据值与m个时间节点的对应关系;
[0152]
去噪模块503,用于利用去噪自编码器dae对所述第一图像进行去噪处理,得到第二图像;
[0153]
第二生成模块504,用于基于所述第二图像,生成第二时序数据,所述第二时序数据包括所述n个时间节点对应的n个指标数据值,所述n个指标数据值包括所述m个指标数据值;
[0154]
第三生成模块505,用于基于所述第二时序数据和时序预测模型,生成目标时序数据。
[0155]
可选地,所述第一生成模块502包括:
[0156]
对所述m个时间节点对应的m个指标数据值进行归一化处理;
[0157]
将所述n个时间节点中,除所述m个时间节点外的n-m个时间节点对应的指标数据值设置为第一预设值;
[0158]
将所述n个时间节点和所述n个时间节点对应的n个指标数据值,转化至极坐标系上;
[0159]
基于所述极坐标系坐标的三角函数变换,生成所述第一图像,所述第一图像为格拉姆角场gaf图。
[0160]
可选地,所述数据处理装置500还包括:
[0161]
第二获取模块,用于在历史时序数据中,获取至少一个训练时序数据;
[0162]
设置模块,用于将每一所述训练时序数据中,至少一个时间节点对应的指标数据值设置为第二预设值,得到至少一个第三时序数据;
[0163]
训练模块,用于基于所述至少一个训练时序数据和所述至少一个第三时序数据,训练所述去噪自编码器。
[0164]
可选地,所述训练模块包括:
[0165]
第一生成单元,用于基于所述训练时序数据,生成第三图像;
[0166]
第二生成单元,用于基于所述至少一个第三时序数据,对应生成至少一个第四图像;
[0167]
去噪单元,用于利用所述去噪自编码器对所述至少一个第四图像进行去噪处理,得到至少一个第五图像;
[0168]
第三生成单元,用于基于所述第三图像与所述至少一个第五图像的均方误差,生成损失函数;
[0169]
训练单元,用于基于所述损失函数,对所述去噪自编码器进行训练。
[0170]
可选地,所述第一生成模块502包括:
[0171]
第一输入单元,用于将所述第一时序数据输入生成式对抗网络gan,得到第四时序数据;
[0172]
设置单元,用于将所述第四时序数据中,至少一个时间节点对应的指标数据值设置为第三预设值,得到第五时序数据;
[0173]
第四生成单元,用于基于所述第五时序数据,生成所述第一图像。
[0174]
可选地,所述第三生成模块505包括:
[0175]
第二输入单元,用于将所述第二时序数据输入生成式对抗网络gan,得到第六时序数据;
[0176]
第三输入单元,用于将所述第六时序数据作为所述时序预测模型的输入,得到所述目标时序数据。
[0177]
可选地,所述第一生成模块502包括:
[0178]
第一获取单元,用于获取所述第一时序数据中第一时间节点t,以及所述第一时间节点对应的指标数据值x
t’,所述第一时间节点为所述第一时间序列中,第t个时间节点;
[0179]
划分单元,用于根据所述第一时间节点t,将所述第一时间序列按预设周期t进行划分,其中,一个预设周期t为l个相邻的时间节点形成的时间段,在所述第一时间节点t所在的周期之前,所述第一时间序列还包括n1个周期,在所述第一时间节点t所在的周期之后,所述第一时间序列还包括n2个周期;
[0180]
第二获取单元,用于在每个周期内,获取所述第一时间节点的前c个时间节点形成的时间段,得到前向时间窗口,c为预设常数;
[0181]
第三获取单元,用于在每个周期内,获取所述第一时间节点的后c个时间节点形成的时间段,得到后向时间窗口;
[0182]
第一计算单元,用于通过
[0183]
k=1,2,

c,得到前向窗口系数αk;λ为预设常数;
[0184]
第二计算单元,用于通过
[0185]
k=1,2,

c,得到后向窗口系数βk;
[0186]
校正单元,用于通过将所述第一时序数据中的第一时间节点对应的指标数据值校正为x
t
,得到第六时序数据;δ为预设常数;
[0187]
第五生成单元,用于基于所述第六时序数据,生成所述第一图像。
[0188]
数据处理装置500能够实现本发明实施例中图1方法实施例的各个过程,以及达到相同的有益效果,为避免重复,这里不再赘述。
[0189]
本发明实施例还提供一种电子设备。请参见图6,电子设备可以包括处理器601、存储器602及存储在存储器602上并可在处理器601上运行的程序6021。
[0190]
电子设备中程序6021被处理器601执行时可实现图1对应的方法实施例中的任意步骤及达到相同的有益效果,此处不再赘述。
[0191]
本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成,所述的程序可以存储于一可读取介质中。本发明实施例还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可实现上述图1对应的方法实施例中的任意步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0192]
所述的存储介质,如只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等。
[0193]
以上所述是本发明实施例的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献