一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、系统及电子设备与流程

2022-02-20 00:19:53 来源:中国专利 TAG:


1.本发明涉及结构化数据领域,尤其涉及一种数据处理方法、系统及电子设备。


背景技术:

2.数据增强在非结构化数据领域的应用已经十分广泛,而在结构化数据领域,数据增强的有效办法不多,其根本难点在于无法证实新增数据标签的准确性。
3.现有技术中,存在一些应用于结构化数据的数据增强方法。有一种方法是对标签量丰富的类型做down sampling(上采样)或是对标签稀少的类型做up sampling(下采样),但是这种方法只是改变了现有数据的权重、不能为模型提供真正的新的数据标签,故数据增强效果不佳;另一种方法是对现有数据的特征做微小扰动,形成新数据,但这种方法不适用于较敏感特征,但又对不敏感特征无法产生显著影响,导致实际效果差;还有一种方法是打乱特征的顺序,而标签不变,但其只适用于特定的场景。
4.因此,亟需一种可应用于结构化数据、实现数据增强并保证增强效果的数据处理方法、系统及电子设备,以解决现有技术的上述技术问题。


技术实现要素:

5.为了解决现有技术的不足,本发明的主要目的在于提供一种数据处理方法及系统,以解决现有技术的上述技术问题。
6.为了达到上述目的,第一方面本发明提供了一种数据增强的方法,所述方法包括:
7.获取待处理训练数据集,所述待处理训练数据集包括训练数据;
8.根据所述训练数据对应的目标编码及获取时间点,生成所述训练数据对应的目标训练数据;
9.确定所述待处理训练数据集中包含的待处理训练数据并根据所述待处理训练数据的获取时间点及对应的时间处理规则,生成所述待处理训练数据对应的增量时间点;
10.根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据;
11.根据所述增量训练数据及所述目标训练数据生成目标训练数据集,以便利用所述目标训练数据集对待训练模型进行训练。
12.在一些实施例中,生成所述训练数据对应的目标编码,包括:
13.根据预设的关联识别规则,确定所述训练数据间是否存在关联关系;在存在具有所述关联关系的所述训练数据时,根据所述关联关系将所述训练数据划分为训练数据组,根据第一预设编码规则,生成每一所述训练数据组对应的第一编码并确定所述对应的第一编码为所述训练数据组包含的每一所述训练数据对应的目标编码;
14.在不存在具有所述关联关系的训练数据时,根据第二预设编码规则,生成每一所述训练数据对应的第二编码并确定所述对应的第二编码为所述训练数据对应的目标编码。
15.在一些实施例中,所述训练数据包括对应的特征向量,所述特征向量包括至少一
个特征及对应的特征值,所述根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据,包括:
16.根据预设的分类规则,将所述特征向量包括的所述特征划分为虚拟特征及真实特征;
17.根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值;
18.根据所述待处理训练数据包括的所述真实特征对应的特征值及所述增量训练数据对应所述虚拟特征的特征值,确定所述待处理训练数据对应的增量训练数据。
19.在一些实施例中,所述根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值,包括:
20.获取对应的所述获取时间点与所述增量时间点的差值不超过预设阈值的训练数据,并根据获取的所述训练数据对应所述虚拟特征的特征值,确定所述增量训练数据对应所述虚拟特征的特征值。
21.在一些实施例中,所述根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值,包括:
22.确定所述增量训练数据对应所述虚拟特征的特征值为空值。
23.在一些实施例中,所述训练数据还包括标签,所述根据所述待处理训练数据包括的所述真实特征对应的特征值及所述增量训练数据对应所述虚拟特征的特征值,确定所述待处理训练数据对应的增量训练数据,包括:
24.根据所述待处理训练数据包含的所述标签确定所述增量训练数据对应的标签;
25.根据所述待处理训练数据包括的所述真实特征对应的特征值、所述增量训练数据对应所述虚拟特征的特征值及所述增量训练数据对应的标签,确定所述待处理训练数据对应的增量训练数据;
26.在一些实施例中,所述获取待处理训练数据集前,所述数据处理方法还包括:
27.获取初始训练数据对应的获取时间点及标签生成时间点;
28.根据所述初始训练数据对应的获取时间点以及所述对应的标签生成时间点,确定所述对应的获取时间点早于所述对应的标签生成时间点的所述初始训练数据为所述初始训练数据;
29.根据所述训练数据,生成所述待处理训练数据集。
30.在一些实施例中,所述方法还包括:
31.根据所述待处理训练数据集和所述目标训练数据集分别对待训练模型进行训练,生成所述待处理训练数据集对应的第一模型及所述目标训练数据集对应的第二模型;
32.根据预设测试数据集,生成所述第一模型及所述第二模型分别对应的预测精确度;
33.确定所述第一模型及所述第二模型中对应的所述预测精确度较高的模型为经训练的目标模型,以便利用所述目标模型进行预测。
34.第二方面,本技术提供了一种数据处理系统,所述系统包括:
35.获取模块,用于获取待处理训练数据集,所述待处理训练数据集包括训练数据;
36.生成模块,用于根据所述训练数据对应的目标编码及获取时间点,生成所述训练数据对应的目标训练数据;
37.所述生成模块还用于确定所述待处理训练数据集中包含的待处理训练数据并根据所述待处理训练数据的获取时间点及对应的时间处理规则,生成所述待处理训练数据对应的增量时间点;
38.所述生成模块还用于根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据;
39.所述生成模块还用于根据所述增量训练数据及所述目标训练数据生成目标训练数据集,以便利用所述目标训练数据集对待训练模型进行训练。
40.第三方面,本技术提供了一种电子设备,所述电子设备包括:
41.一个或多个处理器;
42.以及与所述一个或多个处理器关联的内存,所述内存用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
43.获取待处理训练数据集,所述待处理训练数据集包括训练数据;
44.根据所述训练数据对应的目标编码及获取时间点,生成所述训练数据对应的目标训练数据;
45.确定所述待处理训练数据集中包含的待处理训练数据并根据所述待处理训练数据的获取时间点及对应的时间处理规则,生成所述待处理训练数据对应的增量时间点;
46.根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据;
47.根据所述增量训练数据及所述目标训练数据生成目标训练数据集,以便利用所述目标训练数据集对待训练模型进行训练。
48.本技术实现的有益效果为:
49.本技术提供了一种数据处理方法,包括:获取待处理训练数据集,所述待处理训练数据集包括训练数据;根据所述训练数据对应的目标编码及获取时间点,生成所述训练数据对应的目标训练数据;确定所述待处理训练数据集中包含的待处理训练数据并根据所述待处理训练数据的获取时间点及对应的时间处理规则,生成所述待处理训练数据对应的增量时间点;根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据;根据所述增量训练数据及所述目标训练数据生成目标训练数据集,以便利用所述目标训练数据集对待训练模型进行训练,本技术通过在原有的训练数据的基础上增加了时间及目标编码两个标签,实现了基于新增加的标签进行数据增强、生成相应的增量训练数据,可应用于结构化数据,可以基于得到的目标训练数据提升对模型的训练效果;
50.本技术提出了根据预设的关联识别规则,确定所述训练数据间是否存在关联关系;在存在具有所述关联关系的所述训练数据时,根据所述关联关系将所述训练数据划分为训练数据组,根据第一预设编码规则,生成每一所述训练数据组对应的第一编码并确定所述对应的第一编码为所述训练数据组包含的每一所述训练数据对应的目标编码;在不存在具有所述关联关系的训练数据时,根据第二预设编码规则,生成每一所述训练数据对应的第二编码并确定所述对应的第二编码为所述训练数据对应的目标编码,通过将具有关联关系的训练数据设置相同的目标编码,使得目标编码可以进一步符合客观事实,可以进一步提升新增加的标签的准确性;
51.本技术还提出了所述训练数据包括对应的特征向量,所述特征向量包括至少一个特征及对应的特征值,方法包括根据预设的分类规则,将所述特征向量包括的所述特征划分为虚拟特征及真实特征;根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值;根据所述待处理训练数据包括的所述真实特征对应的特征值及所述增量训练数据对应所述虚拟特征的特征值,确定所述待处理训练数据对应的增量训练数据,本技术通过将待处理训练数据的特征向量划分为虚拟特征及真实特征,可以避免将与训练数据的存在与否直接关联的虚拟特征赋予新生成的增量训练数据、导致新生成的增量训练数据不具有客观事实基础、影响后续模型训练的训练效果;
52.进一步,本技术还提出在获取待处理训练数据集前,确定对应的获取时间点早于标签生成时间点的初始训练数据为训练数据,避免发生data leakage(数据泄露)以及在实际投入生产做预测时精确度大幅下降的问题;
53.进一步,本技术还提出根据待处理训练数据集以及目标训练数据集分别对待训练模型进行训练,以获取预测精确度较高的模型为用于预测的目标模型;通过比较各模型的精确值,通过在两个模型中选取训练效果更加的目标模型并用于预测,可以进一步提升最终获得的模型的预测准确性;
54.本技术所有产品并不需要具备上述所有效果。
附图说明
55.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
56.图1是本技术实施例提供的模型数据增强流程图;
57.图2是本技术实施例提供的方法流程图;
58.图3是本技术实施例提供的系统结构图;
59.图4是本技术实施例提供的电子设备结构图。
具体实施方式
60.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
61.如背景技术所述,现有技术中存在的数据增强方法在应用于结构化数据时,大多增强效果不佳,不能为模型提供真正的新的数据标签。
62.为解决上述技术问题,本技术提供了一种数据处理方法,通过根据原始训练集(即待处理训练数据集)中训练数据的标签及特征值,利用预设的时间处理规则,生成增量时间点,并在原有训练集的训练数据上赋予增量的训练数据标签及特征值,实现了在生成新的增量训练数据的同时保证新生成的增量训练数据的真实性,以便后续进一步利用增量训练数据对模型进行训练,以提升模型的训练效果。
63.实施例一
64.为实现本技术公开的数据处理方法,本技术实施例提供了一种应用于有监督分类模型的数据处理方法,如图1所示,以二分类模型为例,应用本实施例公开的数据处理方法对训练数据进行数据增强包括:
65.s100、获取初始训练数据对应的获取时间点及标签生成时间点;
66.s110、根据对应的获取时间点以及对应的标签生成时间点,确定对应的获取时间点早于对应的标签生成时间点的初始训练数据为训练数据;并根据确定的训练数据生成待处理训练数据集;
67.其中,初始训练数据可以是从实际业务场景中采集的数据样本。当训练数据是结构化数据、且待训练的模型为二分类模型时,初始训练数据应当包括由特征组成的特征向量及对应的标签。
68.在实际的数据处理过程中,初始训练数据对应的获取时间点和标签生成时间点通常是不同的。在一般场景下,一个训练数据对应的特征的获取时间点应当早于标签生成时间点。但由于模型的训练集通常是回溯形式生成的,对应的获取时间点可能会晚于标签的生成时间点,为了避免发生data leakage(数据泄露),可以确定对应的获取时间点早于标签的生成时间点的初始训练数据为训练数据,并根据训练数据生成相应的待处理训练数据集。
69.其中,获取时间点可以根据从实际业务场景中采集数据样本时的时间确定,标签生成时间点可以根据为该训练数据赋予相应的标签时的时间确定。
70.s200、根据训练数据,生成训练数据对应的目标编码;
71.为了使生成的目标编码符合客观事实基础、避免影响准确性,上述目标编码的生成过程包括:
72.s210、根据预设的关联识别规则,确定训练数据直接是否存在关联关系;
73.关联识别规则包括用于判断训练数据间在逻辑上是否归属于同一对象的信息数据。可以对存在关联关系即属于同一对象的训练数据赋予相同的目标编码,以使得目标编码可以进一步符合客观事实,可以进一步提升新增加的标签的准确性。
74.示例性地,如表1所示,二分类模型对应的待处理训练数据集包括n条训练数据,每一训练数据包括对应的标签及特征向量。其中,待处理训练数据集时一个n*(p 1)的矩阵,该矩阵包括标签及特征向量,每一特征向量包括p个特征,待处理训练数据集的样本量是n。由于是二分类模型对应的待处理训练数据集,因此y1,

yn的取值范围为{0,1}。为了实现数据增强,需要在待处理训练数据集上引入新的两个字段:id列即目标编码和时间点。
75.表1
76.标签特征向量y1[x11,x12,

,x1p]y2[x21,x22,

,x2p]
……
yn[xn1,xn2,

,xnp]
[0077]
以每一条训练数据代表一次贷款记录、且待处理训练数据集对应的所有训练数据来自于k个用户(k≤n)为例,为了保证id列具有客观事实基础、id列可以根据用户的账户号
生成,则相应的关联识别规则可用于识别对应的训练数据是否属于同一个账户号。
[0078]
由于不同的贷款记录可以来自于同一账户号,但是一个贷款记录只能有一个唯一的账户号,k个用户对应的去重后的k个账户号就是id列的取值域:{c1,c2,

ck}。由于一条贷款来自且仅来自于一个账户号对应的用户,因此id列可以表示为:id(i)=ci∈{c1,c2,

ck}。其中,id列可以是训练集数据行的下标{1,2,

,n}到id列取值域的一个映射。
[0079]
在存在具有关联关系的训练数据时,目标编码的生成过程包括:
[0080]
s211、在存在具有所述关联关系的所述训练数据时,根据关联关系将所述训练数据划分为训练数据组;
[0081]
具体的,一个训练数据组中可以包括一个或多个具有关联关系的训练数据。
[0082]
s212、根据第一预设编码规则,生成每一训练数据组对应的第一编码并确定对应的第一编码为训练数据组包含的每一训练数据对应的目标编码;
[0083]
可以通过相应的编码算法、生成每一训练数据组对应的第一编码,也可以将已有的编码数据设置为每一训练数据组对应的第一编码,例如将训练数据组对应的用户的账户号作为该训练数据组的每一训练数据的第一编码。
[0084]
其中,每一第一编码应当是唯一的、不得存在重复的第一编码,即不能存在有两个训练数据组具有相同的第一编码。
[0085]
在不存在具有关联关系的训练数据时,目标编码的生成过程包括:
[0086]
s213、在不存在具有关联关系的训练数据时,根据第二预设编码规则,生成每一训练数据对应的第二编码并确定对应的第二编码为训练数据对应的目标编码;
[0087]
可以通过相应的编码算法、生成每一训练数据对应的第二编码,也可以将已有的编码数据设置为每一训练数据对应的第二编码,例如将训练数据对应的用户的账户号作为该训练数据的第二编码。
[0088]
其中,每一第二编码应当是唯一的、不得存在重复的第二编码,即不能存在有两个训练数据具有相同的第二编码。
[0089]
s300、根据训练数据、训练数据对应的目标编码以及获取时间点,生成目标训练数据;
[0090]
如表2所示,生成的目标训练数据包括训练数据对应的特征向量、标签、新生成的目标编码及训练数据的获取时间点。
[0091]
表2
[0092]
标签特征向量id列时间y1[x11,x12,

,x1p]c1t1y2[x21,x22,

,x2p]c2t2
…………
yn[xn1,xn2,

,xnp]cntn
[0093]
s400、根据筛选规则,筛选并确定待处理训练数据集中包含的待处理训练数据;
[0094]
可以根据实际业务需求,确定待处理训练数据集中的全部或部分训练数据为待处理训练数据。以待训练模型为二分类模型为例,对应的待处理训练数据可以是正样本和负样本中较少的一侧的样本中的全部或部分,也可以是待处理训练数据集中的所有训练数据。
[0095]
s410、根据待处理训练数据的获取时间点及对应的时间处理规则,生成待处理训练数据对应的增量时间点;
[0096]
时间处理规则可以根据实际业务需求设置。示例性地,可以利用公式|t-ti|<δ,确定与待处理训练数据的获取时间点ti差值不超过δ的时间点t即为对应的增量时间点,其中δ为预设值。
[0097]
增量时间点t的生成基于一个重要假设:对待处理训练数据集中的第i行的待处理训练数据,其标签为设置为yi,特征向量是[xi1,...,xip],目标编码是ci,获取时间点t是ti。在不失一般性的前提下,假定第i行的标签是1,那么可以把第i行的标签是1看成一个概率为1的事件:pr(y=1|id(i)=ci,t=ti)=1。
[0098]
由于事实基础:
[0099]
事实基础1.来自于同一目标编码的标签往往具有高度相关性。
[0100]
事实基础2.来自于同一目标编码的标签,如果时间间隔比较小,会存在比较高的相关性。那么即便一条真实标签附近时间点并不存在标签,若是虚构一个标签,其标签的值与真实标签一致的概率是比较高的。
[0101]
对于事实基础2,可以以一个直观的例子证明:如果目标编码是用户的身份证,代表一个用户,每一训练数据代表一次贷款记录,那么如果这个用户在某一天的一条贷款记录对应的标签是1(比如1代表申请失败,0代表申请成功),那么这个用户在附近的一段时间内的信用都存在高风险,他在实际申请这条贷款当天前后几天如果申请贷款,申请失败的可能性依然会接近1。
[0102]
基于上述事实基础,我们可以得出以下结论:
[0103]
若pr(y=1|id(i)=ci,t=ti)=1,则:pr(y=1|id(i)=ci,|t-ti|《δ)≈1
[0104]
即,在某待训练数据的获取时间点附近若存在一条来自同一目标编码的增量训练数据,该增量训练数据对应的标签与真实的训练数据的标签一致的概率接近1。
[0105]
基于上述结论,我们可以根据待处理训练数据的获取时间点及对应的时间处理规则,生成待处理训练数据对应的增量时间点,并认为该增量时间点对应的增量训练数据的准确性有一定保证。
[0106]
s500、根据预设的分类规则,将待处理训练数据对应的特征向量包括的特征划分为虚拟特征及真实特征;
[0107]
具体的,真实特征是对应的特征值与标签不存在关联的特征。例如,在训练数据代表一次贷款记录时,真实特征则包括对应的用户的年龄、性别等与是否真实发生了贷款行为无关的特征信息。
[0108]
虚拟特征是指是否可以获得依赖于标签数据的存在与否的特征。也就是说,虚拟的增量训练数据是不存在这些特征的特征值的。例如,在训练数据代表一次贷款记录时,相应的贷款金额等只有在真实发生了贷款行为时才会存在的特征。
[0109]
s510、根据预设生成规则,生成增量训练数据对应虚拟特征的特征值;
[0110]
在一种实施方式中,上述生成增量训练数据对应虚拟特征的特征值的过程可以包括:
[0111]
s511、确定增量训练数据对应虚拟特征的特征值为空值;
[0112]
由于虚拟特征对应的特征值本身并不存在,如果用预测或者是插值的方法生成虚
拟特征对应的特征值,会使得生成的特征值缺乏事实根据,实际测试也发现并不会显著改善模型精度。因此,可以直接将其设为空值,以避免对最后的训练效果造成影响。
[0113]
具体的,可以使用xgboost、lightgbm、catboost等任意算法实现自动将相应的特征值处理为空值,在此不再赘述。
[0114]
在另一种实施方式中,生成增量训练数据对应虚拟特征的特征值的过程可以包括:
[0115]
s512、获取对应的获取时间点与增量时间点的差值不超过预设阈值的训练数据,并根据获取的训练数据对应虚拟特征的特征值,确定增量训练数据对应所述虚拟特征的特征值。
[0116]
其中,预设阈值可以根据实验测试得到。
[0117]
s520、确定待处理训练数据包括的真实特征为增量训练数据对应的真实特征;
[0118]
由于真实特征对应的特征值是真实存在的数据,可以根据待处理训练数据包括的真实特征对应的特征值,确定增量训练数据对应真实特征的特征值。
[0119]
s530、根据待处理训练数据包含的标签确定增量训练数据对应的标签;
[0120]
由于来自同一编码的标签往往具有高度相关性,并且来自同一编码的标签如果时间间隔比较小,相关性会更高,所以即便一条真实标签附近一个时间点并无标签,那么对增量训练数据虚构一个标签、其对应的标签值也应当趋于接近原始的待处理训练数据的标签值。
[0121]
s540、根据增量训练数据对应的标签、真实特征及虚拟特征,生成增量训练数据;
[0122]
具体的,增量训练数据可以是对应的标签、真实特征及虚拟特征的集合。
[0123]
s550、根据增量训练数据及目标训练数据,生成目标训练数据集。
[0124]
基于得到的目标训练数据集,可以使用目标训练数据集及待处理训练数据集分别对待训练模型进行训练,以进一步得到相应的目标模型,上述训练过程包括:
[0125]
s600、利用待处理训练数据集和目标训练数据集分别对待训练模型进行训练,生成所述待处理训练数据集对应的第一模型及所述目标训练数据集对应的第二模型;
[0126]
其中,第一模型是利用待处理训练数据集对待训练模型进行训练得到的;第二模型是利用目标训练数据集对待训练模型进行训练得到的。
[0127]
s610、根据预设测试数据集,生成所述第一模型及所述第二模型分别对应的预测精确度;
[0128]
可以利用测试数据集对第一模型及第二模型进行测试,生成第一模型及第二模型分别对应的测试结果。根据测试结果可以得到分别对应的预测精确度。
[0129]
具体的,预测精确度可以包括roc(receiver operating characteristic,接受者操作特征),ks(kolmogorov-smirnov),f-score(综合评价指标),precision(精密性)和recall(查全率/召回率)中的一个或多个,在此不做限定。
[0130]
s620、确定第一模型及第二模型中对应的预测精确度较高的模型为经训练的目标模型,以便利用目标模型进行预测。
[0131]
为了说明本技术公开的数据处理方法对待训练模型的预测精确度的增强作用,可以选取反欺诈首逾(first default)实时模型进行测试。为保证论证严谨,本技术采用以下方法保证测试得到的改进效果的准确性和无偏差性:
[0132]
1、选取授信阶段随机放过的测试用户进行评估,以降低选择性偏差。对于用信阶段的规则拦截造成的选择性偏差,采用倾向性评分匹配降低偏差。
[0133]
2、和其他数据增强方法作对比(包括加入老数据,python的imbalance learning),以确保新方法确实有独特效果。
[0134]
3、进行多场景测试(包括变换随机数组,不同的数据切分方式,加入不同时间段的老数据,不同的补全虚拟特征的方法),以确保新方法的改进是显著的。
[0135]
表3是测试得到的其中9个场景的详细结果:
[0136]
表3
[0137][0138]
选取三种不同切分方式*三组随机数组共9个场景,对四种方法的模型在分期数=24的测试数据的roc进行评估比对,得到的结果如表4所示。
[0139]
表4
[0140][0141]
[0142]
基于上述测试,可以得到:本技术实施例公开的数据处理方法可以实现效果显著的数据增强,可提升最终训练得到的模型的预测能力。
[0143]
本技术实施例公开的数据处理方法,实现了基于事实基础构造得到增量训练数据,在增量训练数据的基础上可以进一步得到用于训练的目标训练数据集,相较于原始数据集可以提升训练得到的模型的预测准确性,具有革新性且简洁直观、易被广泛应用。
[0144]
实施例二
[0145]
对应上述实施例,本技术提供了一种数据处理方法,如图2所示,所述方法包括:
[0146]
1000、获取待处理训练数据集,所述待处理训练数据集包括训练数据;
[0147]
优选的,所述获取待处理训练数据集前,所述数据处理方法还包括:
[0148]
1100、获取初始训练数据对应的获取时间点及标签生成时间点;
[0149]
1120、根据所述初始训练数据对应的获取时间点以及所述对应的标签生成时间点,确定所述对应的获取时间点早于所述对应的标签生成时间点的所述初始训练数据为所述训练数据;
[0150]
1130、根据所述训练数据,生成所述待处理训练数据集。
[0151]
2000、根据所述训练数据对应的目标编码及获取时间点,生成所述训练数据对应的目标训练数据;
[0152]
优选的,根据所述训练数据对应的目标编码及获取时间点,生成所述训练数据对应的目标训练数据之前,所述数据处理方法还包括:
[0153]
2100、根据预设的关联识别规则,确定训练数据是否存在关联关系;
[0154]
2120、在存在具有所述关联关系的所述训练数据时,根据所述关联关系将所述训练数据划分为训练数据组,根据第一预设编码规则,生成每一所述训练数据组对应的第一编码并确定所述对应的第一编码为所述训练数据组包含的每一所述训练数据对应的目标编码;
[0155]
2130、在不存在具有所述关联关系的训练数据时,根据第二预设编码规则,生成每一所述训练数据对应的第二编码并确定所述对应的第二编码为所述训练数据对应的目标编码。
[0156]
3000、确定所述待处理训练数据集中包含的待处理训练数据并根据所述待处理训练数据的获取时间点及对应的时间处理规则,生成所述待处理训练数据对应的增量时间点;
[0157]
4000、根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据;
[0158]
优选的,所述训练数据包括对应的特征向量,所述特征向量包括至少一个特征及对应的特征值,所述根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据,包括:
[0159]
4100、根据预设的分类规则,将所述特征向量包括的所述特征划分为虚拟特征及真实特征;
[0160]
4110、根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值;
[0161]
4120、根据所述待处理训练数据包括的所述真实特征对应的特征值及所述增量训练数据对应所述虚拟特征的特征值,确定所述待处理训练数据对应的增量训练数据。
[0162]
优选的,所述根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值,包括:
[0163]
4130、获取对应的所述获取时间点与所述增量时间点的差值不超过预设阈值的训练数据,并根据获取的所述训练数据对应所述虚拟特征的特征值,确定所述增量训练数据对应所述虚拟特征的特征值。
[0164]
优选的、所述根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值,包括:
[0165]
4140、确定所述增量训练数据对应所述虚拟特征的特征值为空值。
[0166]
优选的,所述训练数据还包括标签,所述根据所述待处理训练数据包括的所述真实特征对应的特征值及所述增量训练数据对应所述虚拟特征的特征值,确定所述待处理训练数据对应的增量训练数据,包括:
[0167]
4200、根据所述待处理训练数据包含的所述标签确定所述增量训练数据对应的标签;
[0168]
4210、根据所述待处理训练数据包括的所述真实特征对应的特征值、所述增量训练数据对应所述虚拟特征的特征值及所述增量训练数据对应的标签,确定所述待处理训练数据对应的增量训练数据。
[0169]
5000、根据所述增量训练数据及所述目标训练数据生成目标训练数据集,以便利用所述目标训练数据集对待训练模型进行训练。
[0170]
优选的,所述数据数据处理方法还包括:
[0171]
5100、根据所述待处理训练数据集和所述目标训练数据集分别对待训练模型进行训练,生成所述待处理训练数据集对应的第一模型及所述目标训练数据集对应的第二模型;
[0172]
5110、根据预设测试数据集,生成所述第一模型及所述第二模型分别对应的预测精确度;
[0173]
5120、确定所述第一模型及所述第二模型中对应的所述预测精确度较高的模型为经训练的目标模型,以便利用所述目标模型进行预测。
[0174]
实施例三
[0175]
对应实施例一及实施例二,本技术提供了一种数据处理系统,如图3所示,所述系统包括:
[0176]
获取模块310,用于获取待处理训练数据集,所述待处理训练数据集包括训练数据;
[0177]
生成模块320,用于根据所述训练数据对应的目标编码及获取时间点,生成所述待处理训练数据对应的目标训练数据;
[0178]
所述生成模块320还用于确定所述待处理训练数据集中包含的待处理训练数据并根据所述待处理训练数据的获取时间点及对应的时间处理规则,生成所述待处理训练数据对应的增量时间点;
[0179]
所述生成模块320还用于根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据;
[0180]
所述生成模块320还用于根据所述增量训练数据及所述目标训练数据生成目标训
练数据集,以便利用所述目标训练数据集对待训练模型进行训练。
[0181]
优选的,所述生成模块320还可用于根据预设的关联识别规则,确定训练数据是否存在关联关系;在存在具有所述关联关系的所述训练数据时,根据所述关联关系将所述训练数据划分为训练数据组,根据第一预设编码规则,生成每一所述训练数据组对应的第一编码并确定所述对应的第一编码为所述训练数据组包含的每一所述训练数据对应的目标编码;在不存在具有所述关联关系的训练数据时,根据第二预设编码规则,生成每一所述训练数据对应的第二编码并确定所述对应的第二编码为所述训练数据对应的目标编码。
[0182]
优选的,所述训练数据包括对应的标签及特征向量,所述特征向量包括至少一个特征及对应的特征值,所述生成模块320还可用于根据预设的分类规则,将所述特征向量包括的所述特征划分为虚拟特征及真实特征;根据预设生成规则,生成所述增量训练数据对应所述虚拟特征的特征值;根据所述待处理训练数据包括的所述真实特征对应的特征值及所述增量训练数据对应所述虚拟特征的特征值,确定所述待处理训练数据对应的增量训练数据。
[0183]
优选的,所述生成模块320还可用于获取对应的所述获取时间点与所述增量时间点的差值不超过预设阈值的训练数据,并根据获取的所述训练数据对应所述虚拟特征的特征值,确定所述增量训练数据对应所述虚拟特征的特征值。
[0184]
优选的,所述生成模块320还可用于确定所述增量训练数据对应所述虚拟特征的特征值为空值。
[0185]
优选的,所述生成模块320还可用于根据所述待处理训练数据包含的所述标签确定所述增量训练数据对应的标签;根据所述待处理训练数据包括的所述真实特征对应的特征值、所述增量训练数据对应所述虚拟特征的特征值及所述增量训练数据对应的标签,确定所述待处理训练数据对应的增量训练数据。
[0186]
优选的,所述获取模块310还可用于获取初始训练数据对应的获取时间点及标签生成时间点;根据所述初始训练数据对应的获取时间点以及所述对应的标签生成时间点,确定所述对应的获取时间点早于所述对应的标签生成时间点的所述初始训练数据为所述训练数据;根据所述训练数据,生成所述待处理训练数据集。
[0187]
优选的,所述生成模块320还可用于根据所述待处理训练数据集和所述目标训练数据集分别对待训练模型进行训练,生成所述待处理训练数据集对应的第一模型及所述目标训练数据集对应的第二模型;根据预设校验规则,生成所述第一模型及所述第二模型分别对应的预测精确度;确定所述第一模型及所述第二模型中对应的所述预测精确度较高的模型为经训练的目标模型,以便利用所述目标模型进行预测。
[0188]
实施例四
[0189]
对应上述所有实施例,本技术实施例提供一种电子设备,包括:
[0190]
一个或多个处理器;以及与所述一个或多个处理器关联的内存,所述内存用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
[0191]
获取待处理训练数据集,所述待处理训练数据集包括训练数据;
[0192]
根据所述训练数据对应的目标编码及获取时间点,生成所述训练数据对应的目标训练数据;
[0193]
确定所述待处理训练数据集中包含的待处理训练数据并根据所述待处理训练数
据的获取时间点及对应的时间处理规则,生成所述待处理训练数据对应的增量时间点;
[0194]
根据所述增量时间点、所述待处理训练数据及所述对应的目标编码,生成所述待处理训练数据对应的增量训练数据;
[0195]
根据所述增量训练数据及所述目标训练数据生成目标训练数据集,以便利用所述目标训练数据集对待训练模型进行训练。
[0196]
其中,图4示例性的展示出了电子设备的架构,具体可以包括处理器1510,视频显示适配器1511,磁盘驱动器1512,输入/输出接口1513,网络接口1514,以及内存1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与内存1520之间可以通过总线1530进行通信连接。
[0197]
其中,处理器1510可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术所提供的技术方案。
[0198]
内存1520可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取内存)、静态存储设备,动态存储设备等形式实现。内存1520可以存储用于控制电子设备1500运行的操作系统1521,用于控制电子设备1500的低级别操作的基本输入输出系统(bios)1522。另外,还可以存储网页浏览器1523,数据存储管理系统1524,以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本技术实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本技术所提供的技术方案时,相关的程序代码保存在内存1520中,并由处理器1510来调用执行。输入/输出接口1513用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0199]
网络接口1514用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0200]
总线1530包括一通路,在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,与内存1520)之间传输信息。
[0201]
另外,该电子设备1500还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息,以用于进行条件判断,等等。
[0202]
需要说明的是,尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514,内存1520,总线1530等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本技术方案所必需的组件,而不必包含图中所示的全部组件。
[0203]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁盘、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本技术各个实施例或者实施例的某
些部分所述的方法。
[0204]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0205]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献