一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据预测方法及其相关装置与流程

2021-10-29 22:59:00 来源:中国专利 TAG:数据处理 及其相关 装置 预测 方法


1.本技术涉及数据处理技术领域,尤其涉及一种数据预测方法及其相关装置。


背景技术:

2.特征表达技术是对原始数据进行一系列处理,提炼其中的特征信息,作为输入供算法和模型使用。从本质上来说,特征表达是一个展现信息的过程。在实际工作中,特征表达旨在设计更有效的特征从而更精确地建立数据与模型的关系。现有技术在提取自然语言特征时,采用的特征表达方法有tf

idf、word2vec等,对于时序数据进行分析时,通常采用滑动窗口统计特征的方法来表达时间特征,常采用欧氏距离等方法表达空间特征等。这些现有技术在进行数据预测时,采用的特征表达方法涉及的特征类型不够全面,使得预测结果不理想。


技术实现要素:

3.本技术提供了一种数据预测方法及其相关装置,用于改善现有技术在进行数据预测时,采用的特征表达方法涉及的特征类型不够全面,导致预测结果不理想的技术问题。
4.有鉴于此,本技术第一方面提供了一种数据预测方法,包括:
5.对原始数据中的数据样本进行特征类型的识别,并根据所述数据样本所属的特征类型,获取对应类型的特征表达,其中,所述特征类型包括数值型特征、时间型特征、矩阵型特征、类别型特征和空间型特征;
6.当所述原始数据对应多种特征类型时,将所述原始数据对应的各种特征表达进行融合,得到融合特征;
7.将所述融合特征输入到预置机器学习模型进行预测,得到所述原始数据的预测结果。
8.可选的,所述根据所述数据样本所属的特征类型,获取对应类型的特征表达,包括:
9.当所述数据样本属于数值型特征时,将该数据样本作为数值特征表达;
10.当所述数据样本属于时间型特征时,提取该数据样本的时间信息,得到时间特征表达;
11.当所述数据样本属于矩阵型特征时,对属于矩阵型特征的所述数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达;
12.当所述数据样本属于类别型特征时,对该数据样本进行独热编码或标签编码,得到类别型特征表达;
13.当所述数据样本属于空间型特征时,对该数据样本进行聚类,并根据聚类结果采用独热编码或标签编码,得到空间型特征表达。
14.可选的,所述当所述数据样本属于矩阵型特征时,对属于矩阵型特征的所述数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达,包括:
15.当所述数据样本属于矩阵型特征时,沿第一预置方向对属于矩阵型特征的所述数据样本进行合并,得到新矩阵;
16.当所述新矩阵中存在非数值数据时,通过字典方法将该非数值数据映射为数值数据,得到映射矩阵;
17.基于所述映射矩阵的协方差矩阵构造线性变换矩阵;
18.通过所述线性变换矩阵对所述映射矩阵进行线性变换,得到矩阵特征表达。
19.可选的,所述当所述新矩阵中存在非数值数据时,通过字典方法将该非数值数据映射为数值数据,得到映射矩阵,之后还包括:
20.沿第二预置方向对所述映射矩阵进行去中心化处理,得到去中心化映射矩阵;
21.所述基于所述映射矩阵的协方差矩阵构造线性变换矩阵,包括:
22.基于所述去中心化映射矩阵的协方差矩阵构造线性变换矩阵。
23.可选的,所述基于所述去中心化映射矩阵的协方差矩阵构造线性变换矩阵,包括:
24.基于所述去中心化映射矩阵构建协方差矩阵,并求解正交对角化后的协方差矩阵的特征值和特征向量;
25.按照大小对所述特征值进行降序排序,根据预置方差贡献率阈值对所述特征值进行筛选,得到前目标数量个特征值;
26.将前目标数量个特征值对应的特征向量作为线性变换矩阵。
27.可选的,所述方法还包括:
28.对所述原始数据进行数据清洗。
29.本技术第二方面提供了一种数据预测装置,包括:
30.识别和获取单元,用于对原始数据中的数据样本进行特征类型的识别,并根据所述数据样本所属的特征类型,获取对应类型的特征表达,其中,所述特征类型包括数值型特征、时间型特征、矩阵型特征、类别型特征和空间型特征;
31.融合单元,用于当所述原始数据对应多种特征类型时,将所述原始数据对应的各种特征表达进行融合,得到融合特征;
32.预测单元,用于将所述融合特征输入到预置机器学习模型进行预测,得到所述原始数据的预测结果。
33.可选的,所述获取单元具体用于:
34.当所述数据样本属于数值型特征时,将该数据样本作为数值特征表达;
35.当所述数据样本属于时间型特征时,提取该数据样本的时间信息,得到时间特征表达;
36.当所述数据样本属于矩阵型特征时,对属于矩阵型特征的所述数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达;
37.当所述数据样本属于类别型特征时,对该数据样本进行独热编码或标签编码,得到类别型特征表达;
38.当所述数据样本属于空间型特征时,对该数据样本进行聚类,并根据聚类结果采用独热编码或标签编码,得到空间型特征表达。
39.本技术第三方面提供了一种数据预测设备,所述设备包括处理器以及存储器;
40.所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
41.所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的数据预测方法。
42.本技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现第一方面任一种所述的数据预测方法。
43.从以上技术方案可以看出,本技术具有以下优点:
44.本技术提供了一种数据预测方法,包括:对原始数据中的数据样本进行特征类型的识别,并根据数据样本所属的特征类型,获取对应类型的特征表达,其中,特征类型包括数值型特征、时间型特征、矩阵型特征、类别型特征和空间型特征;当原始数据对应多种特征类型时,将原始数据对应的各种特征表达进行融合,得到融合特征;将融合特征输入到预置机器学习模型进行预测,得到原始数据的预测结果。
45.本技术中,为了改善特征表达不全面的问题,对多类别特征的原始数据中的数据样本进行特征类型的识别,根据数据样本所属的特征类型来获取对应类型的特征表达,包括对数值型特征、类别型特征、时间型特征、空间型特征和矩阵型特征的特征表达,最终将融合后的特征表达用于预测,保证了特征表达的完整性和可靠性,有助于提高预测结果的准确性,从而改善了现有技术在进行数据预测时,采用的特征表达方法涉及的特征类型不够全面,导致预测结果不理想的技术问题。
附图说明
46.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
47.图1为本技术实施例提供的一种数据预测方法的一个流程示意图;
48.图2为本技术实施例提供的一种获取矩阵特征表达的一个流程示意图;
49.图3为采用对照实验得到的真实值与预测值分布图;
50.图4为采用对照实验得到的预测误差正态分布图;
51.图5为采用本技术实施例方法得到的真实值与预测值分布图;
52.图6为采用本技术实施例方法得到的预测误差正态分布图;
53.图7为本技术实施例提供的一种数据预测装置的一个结构示意图。
具体实施方式
54.本技术提供了一种数据预测方法及其相关装置,用于改善现有技术在进行数据预测时,采用的特征表达方法涉及的特征类型不够全面,导致预测结果不理想的技术问题。
55.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
56.为了便于理解,请参阅图1,本技术提供的一种数据预测方法的一个实施例,包括:
57.步骤101、对原始数据中的数据样本进行特征类型的识别,并根据数据样本所属的
特征类型,获取对应类型的特征表达,其中,特征类型包括数值型特征、时间型特征、矩阵型特征、类别型特征和空间型特征。
58.通常获取的原始数据会包含多条数据样本,可能会存在多种特征类型,若采用单一的特征类型对其进行处理,不能有效和全面的表达各个类型的特征,不利于后续的数据预测。基于此,本技术实施例对原始数据中的数据样本进行特征类型的识别,特征类型包括数值型特征、时间型特征、矩阵型特征、类别型特征和空间型特征。
59.其中,数值型特征可以为整型数值(例如数值1)或浮点型数值(例如数值0.1)的特征;时间型特征,可以为2021
‑6‑
621:30:00等形式用来体现时间序列的特征;矩阵型特征,可以为【int,int,int

】、【float,float,float

】、【bool,bool,bool

】或【category,category,category

】等包含多种信息的单特征;类别型特征,可以为有明确类别属性的特征;空间型特征,可以为如“广东省广州市”等用于体现城市国家等地址特征的数据。
60.对于特征类型的识别,可以根据特征自身的属性完成。数值型特征在实际数据中基本以整型和浮点型等实数形式存在,所以可以通过is_numeric_dtype()方法判断整列特征是否只由数字组成,从而提取出数值型特征;对于时间型特征,因为时间型特征的表示形式通常为2021/6/6或2021

06

06,所以可以通过正则表达式”(\d )[/

](\d )[/

](\d )”,创建匹配模式匹配只包含时间型特征的特征列,从而提取出时间型特征;对于矩阵型特征,因为它在数据中的特殊表示形式,例如[1,2,3,4,5]或[1a,2b,3c],可通过正则表达式”([)([a

za

z0

9.] )[,]([a

za

z0

9.] )[,]”创建匹配模式由矩阵型特征组成的特征列,从而提取出矩阵型特征;对于类别型数特征,通常也为一维特征,与数值型特征的区别是它不以整型和浮点型等实数形式存在,主要由字符串组成,所以可以通过维度的判定和对数据类型str的判断,提取出类别型特征;对于空间型特征,通过建立空间字典,并利用字典中键值关键字匹配特征,例如广东省广州市等存在空间信息字典里的特征,最后提取出空间型特征,这样就实现了五种特征的识别与分类。
[0061]
可以理解的是,获取的原始数据可能会存在空数据或重复的数据,因此,在获取到原始数据后,可以对原始数据进行数据清洗。
[0062]
进一步,根据数据样本所属的特征类型,获取对应类型的特征表达,包括:
[0063]
当数据样本属于数值型特征时,将该数据样本作为数值特征表达;
[0064]
当数据样本属于时间型特征时,提取该数据样本的时间信息,得到时间特征表达;
[0065]
当数据样本属于矩阵型特征时,对属于矩阵型特征的数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达;
[0066]
当数据样本属于类别型特征时,对该数据样本进行独热编码或标签编码,得到类别型特征表达;
[0067]
当数据样本属于空间型特征时,对该数据样本进行聚类,并根据聚类结果采用独热编码或标签编码,得到空间型特征表达。
[0068]
在获取特征表达时,对于数值型特征,因为机器学习需要的特征类型为整形、浮点型,所以可以将数值型特征统一转化为浮点型数据即可直接输入机器学习模型,因为在预测问题中,数值型特征需要体现自身的趋势性和连续性,直接保留能更好地表达特征中的信息,所以可以将属于数值型特征的数据样本直接作为数值型特征表达;对于时间型特征,时间序列对预测结果会产生趋势性的影响,但是时间型特征不能直接输入,所以需要对时
间型特征进行时间信息的提取,分别体现时间中的年、月、日、时、分、秒等,即拆分特征,转化为时间_年、时间_月、时间_日特征等,可以依据时间对结果的影响程度大小进行判断和选择,进而获取时间型特征表达;对于类别型特征,可以采用独热编码,用二进制0和1体现类别特征,但如果没有限制的使用独热编码方式会极大地增大特征维度,增大计算复杂度,所以可以通过设定阈值的方式,对于包含较少类别的特征可以使用独热编码获取类别型特征表达,而对于包含较多类别的特征可以使用标签编码的方式获取类别型特征表达;对于矩阵型特征,对属于矩阵型特征的数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达;对于空间型特征,可以采用聚类的方式,聚类后根据区域的包含关系进行分类,由此空间型特征可以转化为类别型特征,然后可以采用类别型特征的表达方法处理,得到空间型特征表达。
[0069]
本技术实施例考虑到现有技术对于矩阵型特征的数据通常采用类别型特征的方式进行表达,导致数据维度爆炸,增大模型的计算量,为了改善该问题,本技术实施例提供一种线性变换的方法来获取矩阵型特征表达。具体的,请参考图2,当数据样本属于矩阵型特征时,对属于矩阵型特征的数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达,包括:
[0070]
s1011、当数据样本属于矩阵型特征时,沿第一预置方向对属于矩阵型特征的数据样本进行合并,得到新矩阵。
[0071]
矩阵型特征在每一条数据样本中都是以矩阵形式存在,并且每个矩阵只存储于一个数据单元格内。为了后续矩阵运算,本技术实施例将属于矩阵型特征的数据样本按照第一预置方向进行合并,得到新矩阵,该第一预置方向优选为行方向。
[0072]
假设属于矩阵型特征的数据样本1为[1,2,3,4],属于矩阵型特征的数据样本2为[2,3,4,5],按照行方向合并数据样本1和数据样本2,得到新矩阵为因为其对应索引的值含义相同,所以将新矩阵的每一列也可以视为特征。
[0073]
s1012、当新矩阵中存在非数值数据时,通过字典方法将该非数值数据映射为数值数据,得到映射矩阵。
[0074]
矩阵的运算涉及的数据类型为整型或浮点型,若矩阵内的数据为非数值数据(布尔型或字符型数据)时,则需要通过字典方法将非数值数据映射为数值数据(整型或浮点型数据),得到映射矩阵。
[0075]
s1013、基于映射矩阵的协方差矩阵构造线性变换矩阵。
[0076]
映射矩阵中每一行的所有数据都来源于同一数据样本,数据之间可能存在一定的相关性,包含着类似的信息,若全部保留,不仅有冗余信息存在,还会增大原数据特征的维度,导致维度增高甚至爆炸,因此本技术实施例采用一种线性变换的方法将映射矩阵中的特征(特征向量)转换为一组相互线性无关的特征,用来替换原特征,并找到更少量的尽可能反映更多信息的综合特征能表达原全体特征包含的信息,降低矩阵维度且满足矩阵内的特征相互线性无关。
[0077]
例如矩阵可以当做坐标系上的3个坐标点(1,1)、(2,2)和(3,3),同时可视为包含2个特征的3条数据样本,将这3个点向x轴做投影,这3个点就变成了(1,0)、(2,0)和(3,0),得到投影后的矩阵投影后的矩阵第二列元素相同,不能体现样本的差异性,所以选择矩阵第一列近似代替原矩阵所以利用线性变换方法可以将二维空间的数据转化为一维空间的数据,因此矩阵特征表达方法的实质就是要找到新的坐标系,将特征向量投影投影到新坐标系上,并用少量更能体现原特征信息的新特征代替原特征,这就要求投影后的新特征尽可能的离散,才能保留更多信息。但如何让这些投影后的向量尽可能在新的坐标系上分散,需要引入离散程度的指标。对于一维数据的离散程度可以采用方差来表示,方差越大,数据越离散,如果能找到一个投影后数据方差最大的坐标系进行投影,就能在表达过程中做到尽可能多的保留信息。上述提到投影后的矩阵也是因为第一列方差不为0且方差最大,而第二列方差为0,所以采用投影后的矩阵的第一列近似替代原矩阵。其中,方差var的公式为:
[0078][0079]
式中,a
i
为特征向量a中的第i个元素,μ为特征向量a的平均值,m为特征向量a的元素个数。
[0080]
进一步,本技术实施例沿第二预置方向对映射矩阵进行去中心化处理,得到去中心化映射矩阵;然后,基于去中心化映射矩阵的协方差矩阵构造线性变换矩阵。
[0081]
为了方便计算,本技术实施例沿列方向对每一列数据进行去中心化处理,用列元素a
i
减去列元素的均值μ的结果代替原列元素a
i
,即a
i
=a
i

μ,这样计算方差时,方差公式转化为:
[0082][0083]
进一步,基于去中心化映射矩阵的协方差矩阵构造线性变换矩阵,包括:
[0084]
基于去中心化映射矩阵构建协方差矩阵,并求解正交对角化后的协方差矩阵的特征值和特征向量;按照大小对特征值进行降序排序,根据预置方差贡献率阈值对特征值进行筛选,得到前目标数量个特征值;将前目标数量个特征值对应的特征向量作为线性变换矩阵。
[0085]
假设线性变换后的矩阵(即矩阵特征表达)为y,线性变换前的矩阵(即去中心化映
射矩阵)为x,线性变换矩阵为p,为了方便计算,令y=px
t
,需要将去中心化映射矩阵x进行转置,转置后的中心化映射矩阵中不同行为不同特征,不同列为不同样本。例如线性变换前的矩阵转置后为而线性变换矩阵则此时按照方差最大原则可以选取第一行特征作为新特征近似代替原特征。
[0086]
上述讨论的例子都是二维空间到一维空间,一维空间可以采用方差表示数据的离散程度,而多维空间则用协方差描述变量之间的相关性,两变量的协方差大于0,则该两变量正线性相关,协方差小于0,则两变量负相关;协方差等于0,则两变量线性不相关。特征向量a、b之间的协方差cov(a,b)的公式为:
[0087][0088]
式中,m为特征向量a、b的维度,a
i
为特征向量a中的第i个元素,μ
a
为特征向量a的平均值,b
i
为特征向量b中的第i个元素,μ
b
为特征向量b的平均值。经过去中心化处理后的协方差公式为:
[0089][0090]
在多维空间的线性变换,需要使变换后的特征内部的方差尽量大且不为0,特征之间的协方差为0。所以线性变换后的矩阵y要满足目标条件,即cov(y
i
,y
i
)不为0且尽可能大,cov(y
i
,y
i
)=0,其中,i≠j。由yy
t
可以得到y
i
*y
i
与y
i
*y
j
,所以可以通过等式构造矩阵y的协方差矩阵y
c
,同时也可以通过构造出矩阵x的协方差矩阵x
c

[0091]
设协方差矩阵协方差矩阵y
c
对角线上的元素为特征内的方差,非对角线上的元素为特征之间的协方差,根据上述的目标条件(特征内部的方差尽量大且不为0,特征之间的协方差为0),需要将非对角线上的元素全部转化为0,所以矩阵y的协方差矩阵为:
[0092][0093]
其中,矩阵x的协方差矩阵为:
[0094][0095]
协方差矩阵x
c
为实对称矩阵,根据实对称矩阵的性质,x
c
一定可正交对角化,所以存在正交矩阵u,得到对角线上的元素为x
c
的特征值,u
t
=(e1,e2,e3,

,e
m
),其中,e
i
为特征值λ
i
(i=1,2,3,

m)对应的特征向量。因此,若想协方差矩阵y
c
转换为上述形式的矩阵,需要实现x
c
的正交对角化,所以有y
c
=λ=u
t
x
c
u=px
c
p
t
,因此,线性变换矩阵p=u
t
,cov(y
i
,y
i
)=λ
i
。所以求线性变换矩阵p就是求x
c
的对角化中的u
t
,而u
t
为协方差矩阵x
c
的特征向量组成的正交矩阵,而x
c
的特征值就等于矩阵y特征内的方差。
[0096]
求解正交对角化后的协方差矩阵x
c
的特征值和特征向量,因为需要尽可能多地保留信息,即变换后的cov(y
i
,y
i
)要尽可能的大,而cov(y
i
,y
i
)=λ
i
,所以要选择更大的特征值λ
i
。按照大小对特征值进行降序排序,根据预置方差贡献率阈值筛选前k个特征值对应的特征向量作为线性变换矩阵,假设设置方差贡献率阈值为0.9,已知特征数m,根据公式计算出k,然后选取前k个特征值对应的特征向量作为线性变换矩阵p,因为线性变换矩阵的行数k小于矩阵x的行数(特征数)m,因此,即完成了线性变换又降低了维度。
[0097]
s1014、通过线性变换矩阵对映射矩阵进行线性变换,得到矩阵特征表达。
[0098]
在映射矩阵进行了去中心化处理得到去中心化映射矩阵时,此时通过线性变换矩阵p右乘转置后的去中心化映射矩阵,以对去中心化映射矩阵进行线性变换,得到矩阵特征表达y=px
t

[0099]
步骤102、当原始数据对应多种特征类型时,将原始数据对应的各种特征表达进行融合,得到融合特征。
[0100]
在获取到各数据样本对应类型的特征表达后,当原始数据对应多种特征类型,可以通过拼接的方式融合原始数据对应的各种特征表达,得到融合特征。
[0101]
步骤103、将融合特征输入到预置机器学习模型进行预测,得到原始数据的预测结果。
[0102]
将融合特征输入到预置机器学习模型之前,可以对融合特征进行归一化处理,然后再输入到预置机器学习模型进行预测,得到原始数据的预测结果。其中,预置机器学习模型为训练好的机器学习模型,其训练过程可以参考现有技术,在此不再进行赘述,训练好的机器学习模型可以用于预测原始数据的类别、价格等等。
[0103]
本技术实施例中,为了改善特征表达不全面的问题,对多类别特征的原始数据中的数据样本进行特征类型的识别,根据数据样本所属的特征类型来获取对应类型的特征表达,包括对数值型特征、类别型特征、时间型特征、空间型特征和矩阵型特征的特征表达,最终将融合后的特征表达用于预测,保证了特征表达的完整性和可靠性,有助于提高预测结果的准确性,从而改善了现有技术在进行数据预测时,采用的特征表达方法涉及的特征类型不够全面,导致预测结果不理想的技术问题。
[0104]
进一步,本技术实施例考虑到现有技术对于矩阵型特征的数据通常采用类别型特征的方式进行表达,导致数据维度爆炸,增大模型的计算量,为了改善该问题,本技术实施例提供一种线性变换的方法来获取矩阵型特征表达,通过线性变换将映射矩阵中的特征转换为一组相互线性无关的特征,用来替换原特征,并找到更少量的尽可能反映更多信息的综合特征能表达原全体特征包含的信息,降低矩阵维度且满足矩阵内的特征相互线性无关。
[0105]
以上为本技术提供的一种数据预测方法的一个实施例,以下为本技术提供的一种数据预测方法的一个具体应用例。
[0106]
本技术实施例采用某公司的某种设备的销售数据作为原始数据,该销售数据一共包含6493条数据样本,特征数为255个,并且该销售数据由以上5种类型的特征构成,包括数值型特征、类别型特征、时间型特征、矩阵型特征、空间型特征,并且数据中存在大量空数据,所以需要对数据进行清理,进行空特征列的删除和数据去重,去重后的特征数为203个。接下来需要分别对不同类别的特征实现识别和表达,可以建立分别对应5种类型特征的独立数据集,每一个数据集只存储相应类型的特征。然后对销售数据每一特征列进行循环,采用is_numeric_dtype()判断该列是否全为数值型特征,如果是则将所有数值型特征列存入数值型特征数据集;采用正则表达式(\d )[/

](\d )[/

]匹配,(\d )对应一个或多个数值,[/

]对应”/”或
“‑”
,判断该列是否为时间型特征,如果是则将所有时间序列型特征存入时间序列型特征数据集;采用正则表达式([a

za

z0

9] )[,]([a

za

z0

9] )[,],[a

za

z0

9] )对应一个或多个字母或数值,[,]对应”,”,判断是否为[1,2,3,4]或[a,b,c,d]这种矩阵形式的特征,如果是则将所有矩阵型特征存入矩阵型特征数据集;对于剩下的特征列,通过存储空间信息的字典对其进行匹配,从而可以划分和分别提取出普通类别型特征和记录空间信息的空间型特征。对于数值型特征,可以全部转化为浮点型特征,避免精度丢失问题;对于时间型数据,将其划分为年、月、日3种更精确的数值型特征,同时去除了连接符,代替原时间序列型特征;对于矩阵型数据采用上述的线性变换方法转化为矩阵型特征表达;对于类别型特征,采用one hot的编码方式,对如设备型号、材料等的类别型特征进行“二进制化”操作并转化为多列数值型特征;对于空间型特征,需要通过特定的包含关系,如国内国外或省内省外进行空间划分,再通过类别型特征实现转化。5种特征全部表达完成后,将5份独立的数据集融合,使用深度神经网络实现机器学习和价格预测。本技术实施例采用数值型特征未处理,时间型特征采用线性映射法和计算差值获取时间特征表达、矩阵型数据和类别型数据采用独热编码法获取对应的特征表达,空间型数据采用空间字典映射法获取空间特征表达作为对照实验与本技术实施例提供的数据预测方法进行对比,具体对比结果可以参考表1。图3为采用对照实验方法得到的真实值与预测值的分布图,图4为采用对照实验方法得到的预测误差正态分布图,图5为采用本技术实施例方法得到的真实值与预测值
的分布图,图6为采用本技术实施例方法得到的预测误差正态分布图。
[0107]
表1结果对比
[0108]
方法平均误差率误差范围

5%~5%误差

10%~10%误差现有技术16.73%

12.96%~46.18%18.39%36.57%本技术实施例方法2.39%

19.62%~10.07%81.61%99.35%
[0109]
通过表1和图3

6可知,与现有技术相比,本技术实施例提供的数据预测方法的平均误差率比对照实验的平均误差率低,误差范围更小;并且,本技术实施例提供的方法,有81.61%的数据的预测值与真实值的偏差(即(预测值

真实值)/真实值的比例值)在

5%~5%,而对照实验仅有18.39%的数据预测值与真实值的偏差在

5%~5%,本技术实施例有99.35%的数据预测值与真实值的偏差在

10%~10%,而对照实验仅有36.57%的数据预测值与真实值的偏差在

10%~10%。因此,与对照实验相比,本技术实施例提供的数据预测方法误差更低,预测精度更高,说明了本技术实施例提供的矩阵特征表达获取方法有助于提高数据预测精度。
[0110]
以上为本技术提供的一种数据预测方法的一个具体应用例,以下为本技术提供的一种数据预测装置的一个实施例。
[0111]
请参考图7,本技术实施例提供的一种数据预测装置,其特征在于,包括:
[0112]
识别和获取单元,用于对原始数据中的数据样本进行特征类型的识别,并根据数据样本所属的特征类型,获取对应类型的特征表达,其中,特征类型包括数值型特征、时间型特征、矩阵型特征、类别型特征和空间型特征;
[0113]
融合单元,用于当原始数据对应多种特征类型时,将原始数据对应的各种特征表达进行融合,得到融合特征;
[0114]
预测单元,用于将融合特征输入到预置机器学习模型进行预测,得到原始数据的预测结果。
[0115]
作为进一步地改进,获取单元具体用于:
[0116]
当数据样本属于数值型特征时,将该数据样本作为数值特征表达;
[0117]
当数据样本属于时间型特征时,提取该数据样本的时间信息,得到时间特征表达;
[0118]
当数据样本属于矩阵型特征时,对属于矩阵型特征的数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达;
[0119]
当数据样本属于类别型特征时,对该数据样本进行独热编码或标签编码,得到类别型特征表达;
[0120]
当数据样本属于空间型特征时,对该数据样本进行聚类,并根据聚类结果采用独热编码或标签编码,得到空间型特征表达。
[0121]
作为进一步地改进,当数据样本属于矩阵型特征时,对属于矩阵型特征的数据样本进行合并,并提取合并后的数据样本的矩阵特征,得到矩阵特征表达,包括:
[0122]
当数据样本属于矩阵型特征时,沿第一预置方向对属于矩阵型特征的数据样本进行合并,得到新矩阵;
[0123]
当新矩阵中存在非数值数据时,通过字典方法将该非数值数据映射为数值数据,得到映射矩阵;
[0124]
基于映射矩阵的协方差矩阵构造线性变换矩阵;
[0125]
通过线性变换矩阵对映射矩阵进行线性变换,得到矩阵特征表达。
[0126]
本技术实施例中,为了改善特征表达不全面的问题,对多类别特征的原始数据中的数据样本进行特征类型的识别,根据数据样本所属的特征类型来获取对应类型的特征表达,包括对数值型特征、类别型特征、时间型特征、空间型特征和矩阵型特征的特征表达,最终将融合后的特征表达用于预测,保证了特征表达的完整性和可靠性,有助于提高预测结果的准确性,从而改善了现有技术在进行数据预测时,采用的特征表达方法涉及的特征类型不够全面,导致预测结果不理想的技术问题。
[0127]
进一步,本技术实施例考虑到现有技术对于矩阵型特征的数据通常采用类别型特征的方式进行表达,导致数据维度爆炸,增大模型的计算量,为了改善该问题,本技术实施例提供一种线性变换的方法来获取矩阵型特征表达,通过线性变换将映射矩阵中的特征转换为一组相互线性无关的特征,用来替换原特征,并找到更少量的尽可能反映更多信息的综合特征能表达原全体特征包含的信息,降低矩阵维度且满足矩阵内的特征相互线性无关。
[0128]
本技术实施例还提供了一种数据预测设备,设备包括处理器以及存储器;
[0129]
存储器用于存储程序代码,并将程序代码传输给处理器;
[0130]
处理器用于根据程序代码中的指令执行前述方法实施例中的数据预测方法。
[0131]
本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码被处理器执行时实现前述方法实施例中的数据预测方法。
[0132]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0133]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0134]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0135]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通
信连接,可以是电性,机械或其它的形式。
[0136]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0137]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0138]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read

only memory,英文缩写:rom)、随机存取存储器(英文全称:randomaccess memory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0139]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜