一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

变量异常修复方法、设备、介质及计算机程序产品与流程

2021-11-15 18:42:00 来源:中国专利 TAG:


1.本技术涉及金融科技(fintech)的机器学习技术领域,尤其涉及一种变量异常修复方法、设备、介质及计算机程序产品。


背景技术:

2.随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
3.随着计算机技术的发展,联邦学习的应用越来越广泛。当前,在风险模型应用的情形中,当模型中某变量对应的数据源发生异常导致该变量的取值缺失时,且缺失的变量无法短时间进行修复,为了弱化因数据缺失所带来的模型偏差,为了弱化因数据缺失所带来的模型偏差,可以对缺失的变量对应的取值进行填充修复,目前,对缺失数据进行填充修复的方法往往是利用历史数据的均值、直接用默认值或者用最近一个未缺失的取值进行填充修复,然而,利用历史数据的均值或直接用默认值进行填充修复,当缺失数据的重要性较高时,依旧存在较大的噪声误差,而利用最近一个未缺失的取值进行填充修复,会忽略近期数据更新带来的变化,进而导致模型预测的准确度较低。


技术实现要素:

4.本技术的主要目的在于提供一种变量异常修复方法、设备、介质及计算机程序产品,旨在解决现有技术中的模型预测的准确度低的技术问题。
5.为实现上述目的,本技术提供一种变量异常修复方法,所述变量异常修复方法包括:
6.获取待预测数据集;
7.通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果,其中,所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的。
8.本技术还提供一种变量异常修复装置,所述变量异常修复装置为虚拟装置,所述变量异常修复装置包括:
9.获取模块,用于获取待预测数据集;
10.预测模块,用于通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果,其中,所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的;
11.修复模块,用于基于所述数据预测结果,对所述缺失变量进行修复,获得变量修复结果。
12.本技术还提供一种变量异常修复设备,所述变量异常修复设备为实体设备,所述变量异常修复设备包括:存储器、处理器以及存储在所述存储器上的变量异常修复程序,所
述变量异常修复程序被所述处理器执行时可实现如上述的变量异常修复方法的步骤。
13.本技术还提供一种介质,所述介质为可读存储介质,所述可读存储介质上存储有变量异常修复程序,所述变量异常修复程序被处理器执行时实现如上述的变量异常修复方法的步骤。
14.本技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的变量异常修复方法的步骤或者实现如上述的数据预测方法的步骤。
15.本技术提供了一种变量异常修复方法、设备、介质及计算机程序产品,相比于现有技术采用的通过历史数据的均值、直接用默认值或者用最近一个未缺失的取值对缺失数据进行填充修复的技术手段,本技术首先获取待预测数据集,进而通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果,其中,所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的,实现了基于所述缺失数据集和所述完整数据集,通过所述缺失数据预测模型学习当前缺失数据集中的缺失变量和完整数据集中的各完整变量之间权重的差异,进一步地,基于所述数据预测结果,对所述缺失变量进行修复,获得变量修复结果,实现了通过对所述缺失变量进行修复,从而降低因数据缺失所带来的模型偏差,提升了所述缺失数据预测模型的精准度,进而使得通过所述缺失数据预测模型对缺失数据的预测更为精准,克服了现有技术中利用历史数据的均值、直接用默认值进行填充修复,当缺失数据的重要性较高时,依旧存在较大的噪声误差,而利用最近一个未缺失的取值进行填充修复,会忽略近期数据更新带来的变化,进而导致模型预测的准确性较低的技术缺陷,从而提高了模型预测的准确性。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
17.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1为本技术变量异常修复方法第一实施例的流程示意图;
19.图2为本技术变量异常修复方法第二实施例的流程示意图;
20.图3为本技术变量异常修复方法第三实施例的流程示意图;
21.图4为本技术变量异常修复方法第四实施例的流程示意图;
22.图5为本技术变量异常修复方法中通过进行迭代训练优化获得缺失数据预测模型的流程示意图;
23.图6为本技术实施例中变量异常修复方法涉及的硬件运行环境的设备结构示意图。
24.本技术目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
25.应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
26.本技术实施例提供一种变量异常修复方法,在本技术变量异常修复方法的第一实施例中,参照图1,所述变量异常修复方法包括:
27.步骤s10,获取待预测数据集;
28.在本实施例中,需要说明的是,所述待预测数据集包括具有缺失数据的缺失变量对应的历史取值集合和不具有缺失数据的各完整变量对应的历史取值集合。
29.步骤s20,通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果,其中,所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的;
30.在本实施例中,需要说明的是,所述进行预测为需要对待预测数据集中缺失数据的缺失变量的取值进行预测修复,所述缺失数据集为样本客户对应的历史数据集中具有缺失数据的缺失变量对应的数据集合,所述完整数据集为样本客户对应的历史数据集中不具有缺失数据的各完整变量对应的数据集合,其中,所述历史数据集为样本客户的全部变量对应的数据集合。
31.通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果,其中,所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的,具体地,首先通过所述完整数据集和所述缺失数据集对待训练缺失数据预测模型进行迭代训练优化,其中,所述待训练缺失数据预测模型包括长短期记忆网络模型和全连接神经网络模型,并判断优化后的待训练缺失数据预测模型是否满足预设训练结束条件,其中,所述预设训练结束条件包括损失函数收敛和达到最大迭代次数阈值等条件,若满足,获得所述缺失数据预测模型,若不满足,则返回执行步骤:通过所述完整数据集和所述缺失数据集对待训练缺失数据预测模型进行迭代训练优化,以获得所述缺失数据预测模型,进而将所述待预测数据集输入所述缺失数据预测模型,也即,将所述待预测数据集中缺失变量的历史取值和所述待预测数据集中其他完整变量的历史取值输入所述缺失数据预测模型,通过所述缺失数据预测模型中的长短期记忆网络模型对所述其他完整变量的历史取值进行降维处理,获得所述其他完整变量的特征信息结果,进而将所述其他完整变量的特征信息结果和所述缺失变量的历史取值输入所述缺失数据预测模型中的全连接神经网络模型中,输出所述待预测数据集中缺失变量对应取值的数据预测结果。
32.其中,所述缺失数据预测模型包括长短期记忆网络模型和全连接神经网络模型,
33.所述通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果的步骤包括:
34.步骤s21,将所述待预测数据集中各完整变量的历史取值输入所述长短期记忆网络模型,输出所述待预测数据集中各完整变量对应的特征信息结果;
35.在本实施例中,需要说明的是,所述各完整变量的历史取值为在预设时间中各完整变量对应的取值。
36.将所述待预测数据集中各完整变量的历史取值输入所述长短期记忆网络模型,输出所述待预测数据集中各完整变量对应的特征信息结果,具体地,将所述待预测数据集中各完整变量的历史取值输入所述长短期记忆网络模型,以将多维的时序数据集合进行降维,进而获得所述待预测数据集中各完整变量对应的特征信息结果。
37.步骤s22,将所述待预测数据集中各完整变量对应的特征信息结果和所述待预测数据集中缺失变量的历史取值输入所述全连接神经网络模型,输出所述数据预测结果;
38.在本实施例中,需要说明的是,所述缺失变量的历史取值为在预设时间中缺失变量对应的取值。
39.将所述待预测数据集中各完整变量对应的特征信息结果和所述待预测数据集中缺失变量的历史取值输入所述全连接神经网络模型,输出所述数据预测结果,具体地,将所述待预测数据集中缺失变量的历史取值抽象为多维特征向量,在所述多维特征向量中的第一维度向量设置为所述待预测数据集中缺失变量的缺失数据个数,并在所述多维特征向量中缺失变量中的空数据设置为预设数值,其余维度特征向量为所述待预测数据集中缺失变量对应的历史取值,将所述将所述待预测数据集中各完整变量对应的特征信息结果和所述多维特征向量共同输入所述全连接神经网络模型,进而输出所述待预测数据集中缺失变量对应取值的数据预测结果,使得所述数据预测结果尽可能和真实取值接近。
40.步骤s30,基于所述数据预测结果,对所述缺失变量进行修复,获得变量修复结果。
41.在本实施例中,基于所述数据预测结果,对所述缺失变量进行修复,获得变量修复结果,具体地,通过所述数据预测结果对所述缺失变量中的缺失数据进行修复,获得所述变量修复结果,从而降低因数据缺失所带来的模型偏差,使得模型更好地进行风险预测。
42.本技术实施例提供了一种变量异常修复方法,相比于现有技术采用的通过历史数据的均值、直接用默认值或者用最近一个未缺失的取值对缺失数据进行填充修复的技术手段,本技术实施例首先获取待预测数据集,进而通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果,其中,所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的,实现了基于所述缺失数据集和所述完整数据集,通过所述缺失数据预测模型学习当前缺失数据集中的缺失变量和完整数据集中的各完整变量之间权重的差异,进一步地,基于所述数据预测结果,对所述缺失变量进行修复,获得变量修复结果,实现了通过对所述缺失变量进行修复,从而降低因数据缺失所带来的模型偏差,提升了所述缺失数据预测模型的精准度,进而使得通过所述缺失数据预测模型对缺失数据的预测更为精准,克服了现有技术中利用历史数据的均值、直接用默认值进行填充修复,当缺失数据的重要性较高时,依旧存在较大的噪声误差,而利用最近一个未缺失的取值进行填充修复,会忽略近期数据更新带来的变化,进而导致模型预测的准确性较低的技术缺陷,从而提高了模型预测的准确性。
43.进一步地,参照图2,基于本技术中第一实施例,在本技术的另一实施例中,其中,在所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的步骤之前,所述变量异常修复方法包括:
44.步骤a10,获取样本客户的历史数据集;
45.在本实施例中,需要说明的是,所述历史数据集为样本客户的全部特征变量对应的数据集合。
46.获取样本客户的历史数据集,具体地,选取样本客户,获得样本客户对应的历史数据集。
47.步骤a20,对所述样本客户的历史数据集进行缺失处理,获得所述历史数据集中的缺失数据集以及所述历史数据集中的完整数据集;
48.在本实施例中,需要说明的是,所述缺失处理为将所述历史数据集按照预设缺失程度进行设置的处理方式,所述预设缺失程度为所述历史数据集中缺失变量对应的缺失数据的个数,所述缺失数据集为样本客户对应的历史数据集中具有缺失数据的缺失变量对应的数据集合,所述完整数据集为样本客户对应的历史数据集中不具有缺失数据的各完整变量对应的数据集合。
49.对所述样本客户的历史数据集进行缺失处理,获得所述历史数据集中的缺失数据集以及完整数据集,具体地,若所述历史数据集满足预设取值条件时,获取所述历史数据集对应的时点集合,其中,所述预设取值条件为所述历史数据集中的各特征变量在预设观察时长内都有对应的取值的条件,所述时点集合为所述历史数据集对应的各时间点的集合,进而在所述时点集合中随机生成时点随机数,获得目标时点,需要说明的是,也可在所述时点集合中随机生成多个时点随机数,从而获得多个目标时点,进一步地,在所述预设观察时长中随机生成一个缺失程度随机数,获得所述历史数据集中缺失变量对应的缺失程度,其中,所述预设观察时长为距离所述目标时点最近的一个预设时长,进而基于所述目标时点,将所述历史数据集中各完整变量的取值设置为所述完整数据集,并将所述历史数据集中的缺失变量的取值按照所述缺失程度进行设置,获得所述缺失数据集,例如,假设预设观察时长为5日,目标时点为2021年6月6日,缺失程度为2,通过以所述目标时点为基准,将具有缺失数据的缺失变量在2021年6月4日至2021年6月5日对应的取值设置为空值,以及将具有缺失数据的缺失变量在2021年6月1日至2021年6月3日对应的取值设置为所述历史数据集中的缺失变量在2021年6月1日至2021年6月3日对应的真实取值,进而将所述缺失变量在2021年6月1日至2021年6月5日中对应的取值共同作为所述缺失数据集,将所述历史数据集中的完整变量在2021年6月1日至2021年6月5日中对应的取值作为所述完整数据集。
50.步骤a30,通过所述缺失数据集和所述完整数据集对待训练缺失数据预测模型进行迭代训练优化,获得所述缺失数据预测模型。
51.在本实施例中,需要说明的是,所述待训练缺失数据预测模型包括长短期记忆网络模型和全连接神经网络模型,所述缺失数据预测模型为对缺失数据进行预测的模型。
52.将所述缺失数据集和所述完整数据集对待训练缺失数据预测模型进行迭代训练,获得缺失数据预测模型,具体地,将所述完整数据集输入所述长短期记忆网络模型,获得特征信息结果,进而根据所述缺失数据集和所述特征信息结果,对所述全连接神经网络模型进行迭代训练优化,并判断优化后的全连接神经网络模型是否满足预设训练结束条件,其中,所述预设训练结束条件包括损失函数收敛和达到最大迭代次数阈值等条件,若满足,获得所述缺失数据预测模型,若不满足,则返回执行步骤:将所述缺失数据集和所述完整数据集对待训练缺失数据预测模型进行迭代训练优化,获得缺失数据预测模型。
53.其中,所述待训练缺失数据预测模型包括长短期记忆网络模型和全连接神经网络模型,
54.所述将所述缺失数据集和所述完整数据集对待训练缺失数据预测模型进行迭代训练,获得缺失数据预测模型的步骤包括:
55.步骤a31,将所述完整数据集输入所述长短期记忆网络模型,输出特征信息结果;
56.在本实施例中,将所述完整数据集输入所述长短期记忆网络模型,输出特征信息结果,具体地,将所述完整数据集输入所述长短期记忆网络模型,以通过所述长短期记忆网
络模型实现时间序列数据的信息传递,可避免了在训练过程中梯度消失的问题,进而输出所述特征信息结果,例如,将预设观察时长设置为s,所述完整数据集中有n个变量对应的数据集合,则所述完整数据集对应的数据向量为s
×
n维的向量,通过所述长短期记忆网络模型可将s
×
n维的向量转化为一维向量,也即所述特征信息结果,进而避免了在训练过程中梯度爆炸的问题。
57.步骤a32,根据所述缺失数据集和所述特征信息结果,对所述全连接神经网络模型进行迭代训练优化,获得所述缺失数据预测模型。
58.在本实施例中,根据所述缺失数据集和所述特征信息结果,对所述全连接神经网络模型进行迭代训练优化,获得所述缺失数据预测模型,具体地,基于所述缺失数据集以及通过所述长短期记忆网络模型输出的特征信息结果,根据预先设定的损失函数,利用梯度下降算法对所述全连接神经网络模型进行迭代训练,进而调整所述全连接神经网络模型的参数,以优化所述全连接神经网络模型,并判断优化后的全连接神经网络模型是否满足预设训练结束条件,其中,所述预设训练结束条件包括损失函数收敛和达到最大迭代次数阈值等条件,若满足,则获得所述缺失数据预测模型,若不满足,则返回执行步骤:根据所述缺失数据集和所述特征信息结果,对所述全连接神经网络模型进行迭代训练优化,获得所述缺失数据预测模型。
59.本技术实施例提供了一种变量异常修复方法,也即,获取样本客户的历史数据集,进而对所述样本客户的历史数据集进行缺失处理,获得所述历史数据集中的缺失数据集以及所述历史数据集中的完整数据集,实现了通过对所述历史数据集进行缺失处理,以获得不同缺失程度的训练样本数据,也即所述完整数据集以及所述缺失数据集,使得所述训练样本数据尽可能覆盖不同的缺失程度的情形,从而降低因数据缺失所带来的模型偏差,进一步地,通过所述缺失数据集和所述完整数据集对待训练缺失数据预测模型进行迭代训练优化,获得所述缺失数据预测模型,进而使得根据不同缺失程度的训练样本数据,进行迭代训练获得的缺失数据预测模型对缺失数据的预测更为精准,为克服现有技术中利用历史数据的均值、直接用默认值进行填充修复,当缺失数据的重要性较高时,依旧存在较大的噪声误差,而利用最近一个未缺失的取值进行填充修复,会忽略近期数据更新带来的变化,进而导致模型预测的准确性较低的技术缺陷奠定了基础。
60.进一步地,参照图3,基于本技术中第一实施例,在本技术的另一实施例中,所述对所述样本客户的历史数据集进行缺失处理,获得所述历史数据集中的缺失数据集以及完整数据集的步骤包括:
61.步骤b10,获取所述历史数据集对应的时点集合;
62.在本实施例中,获取所述历史数据集对应的时点集合,具体地,若所述历史数据集各特征变量均有对应的数据,也即不具有缺失数据,获取所述历史数据集对应的时点集合。
63.步骤b20,在所述时点集合中选取时点随机数,获得目标时点;
64.在本实施例中,在所述时点集合中选取时点随机数,获得目标时点,具体地,在所述时点集合中,随机生成预设数量的时点随机数,获得所述时点随机数对应的目标时点,例如,所述时点集合为2020年1月1日至2021年6月30日的集合,利用new random()函数或者math.random()函数随机生成一个或多个时点随机数,若所述时点随机数为2020年6月6日时,则设置所述目标时点为2020年6月6日。
65.步骤b30,基于所述目标时点,选取所述历史数据集中缺失变量对应的取值,获得所述缺失数据集;
66.在本实施例中,基于所述目标时点,选取所述历史数据集中缺失变量对应的取值,获得所述缺失数据集,具体地,在预设观察时长中选取缺失程度随机数,获得所述历史数据集中缺失变量对应的缺失程度,进而以所述目标时点为基准,将所述历史数据集中对应的缺失变量的取值按照所述缺失程度进行设置,获得所述缺失数据集。
67.其中,所述基于所述目标时点,选取所述历史数据集中缺失变量对应的取值,获得所述缺失数据集步骤包括:
68.步骤b31,在预设观察时长中选取缺失程度随机数,获得所述历史数据集中缺失变量对应的缺失程度;
69.在本实施例中,需要说明的是,所述缺失程度为所述历史数据集中中缺失变量对应的缺失数据的个数,所述预设观察时长为距离所述目标时点最近的一个预先设置好的时长数值,例如,5天和10天等。
70.在预设观察时长中选取缺失程度随机数,获得所述历史数据集中缺失变量对应的缺失程度,具体地,在预设观察时长内随机生成一个随机数,并基于所述随机数,确定所述历史数据集中缺失变量对应的缺失程度。
71.步骤b32,基于所述目标时点,将所述历史数据集中对应的缺失变量的取值按照所述缺失程度进行设置,获得所述缺失数据集。
72.在本实施例中,基于所述目标时点,将所述历史数据集中对应的缺失变量的取值按照所述缺失程度进行设置,获得所述缺失数据集,具体地,以所述目标时点为基准,将所述缺失变量中缺失数据的个数按照所述缺失程度进行设置,进而获得所述缺失数据集,例如,假设预设观察时长为5,目标时点为6月6日,缺失程度为2,也即缺失数量的个数为2,进而将6月4日至6月5日的数据设置为空,将6月1日至6月3日的取值设置为所述历史数据集中缺失变量在6月1日至6月3日所对应的真实数据,进而将所述缺失变量6月1日至6月5日中对应的取值共同作为所述缺失数据集。
73.步骤b40,基于所述目标时点,将所述历史数据集中各完整变量的取值设置为所述完整数据集。
74.在本实施例中,基于所述目标时点,将所述历史数据集中各完整变量的取值设置为所述完整数据集,具体地,以所述目标时点为基准,将所述历史数据集中各完整变量的取值设置为所述完整数据集,例如,假设预设观察时长为5,目标时点为6月6日,所述完整数据集则为所述历史数据集中各完整变量在6月1日在6月5日对应的数据。
75.本技术实施例提供了一种变量异常修复方法,也即,获取所述历史数据集对应的时点集合,进而在所述时点集合中选取预设数量的时点随机数,获得目标时点,从而避免了受某个时点特异性的干扰的情形,进一步地,基于所述目标时点,选取所述历史数据集中缺失变量对应的取值,获得所述缺失数据集,基于所述目标时点,将所述历史数据集中各完整变量的取值设置为所述完整数据集,实现了通过抽取时点随机数和缺失程度随机数,确定目标时点以及缺失程度,进而在历史数据集随机抽取完整数据集与不同缺失程度的缺失数据集,以使得模型可以学习到在不同缺失程度的情况下,当前缺失变量和各完整变量之间权重的差异,从而降低因数据缺失所带来的模型偏差,为克服现有技术中利用历史数据的
均值、直接用默认值进行填充修复,当缺失数据的重要性较高时,依旧存在较大的噪声误差,而利用最近一个未缺失的取值进行填充修复,会忽略近期数据更新带来的变化,进而导致模型预测的准确性较低的技术缺陷奠定了基础。
76.进一步地,参照图4,基于本技术中第一实施例,在本技术的另一实施例中,在所述根据所述缺失数据集和所述特征信息结果,对所述全连接神经网络模型进行迭代训练优化,获得所述缺失数据预测模型的步骤之前,所述变量异常修复方法还包括:
77.步骤c10,获取所述缺失数据集中缺失数据对应的缺失个数;
78.在本实施例中,获取所述缺失数据集中缺失数据对应的缺失个数,具体地,通过在预设观察时长中选取缺失程度随机数,获得所述历史数据集中缺失变量对应的缺失程度,所述缺失程度即是所述缺失数据集中缺失数据对应的缺失个数。
79.步骤c20,将所述缺失数据集抽取为多维特征向量;
80.步骤c30,基于所述缺失个数,将所述多维特征向量按照预设数值规则进行设置,获得缺失数据维度特征向量。
81.在本实施例中,需要说明的是,将所述缺失数据集输入至所述全连接神经网络模型中,当所述缺失数据集存在空数据时,所述全连接神经网络模型不能检测到所述缺失数据集的空数据,进而导致所述全连接神经网络模型无法学习到所述缺失数据集对应的缺失程度,所述预设数值规则为根据缺失个数对所述多维特征向量对应的缺失数据按照预设数值进行设置的规则,其中,所述预设数值为预先设置的数值,包括

1和0等数值。
82.基于所述缺失个数,将所述多维特征向量按照预设数值规则进行设置,获得缺失数据维度特征向量,具体地,根据所述缺失数据集的缺失程度,将所述多维特征向量中的第一维度向量对应的数据设置为缺失程度对应的取值,进而将所述多维特征向量中缺失数据的维度向量设置为所述预设数值,以避免模型无法检测缺失数据的情况,进一步地,将所述多维特征向量中的其余维度向量对应的数据设置为所述缺失数据集对应的真实取值,进而获得所述缺失数据维度特征向量,例如,预设观察时长为5,缺失程度为2,缺失数据集为(null,null,2,3,4),其中null表示数据为空,也即没有数据,进而所述缺失数据集对应的多维特征向量中的第一维度向量为所述缺失程度,数值为2,第二维度向量至第三维度向量的取值为均设置为

1,其余3个维度向量的取值分别是2,3,4,进而获得的缺失数据维度特征向量为(2,

1,

1,2,3,4),使得所述待检测缺失数据预测模型可以学习到在不同缺失程度的情况下,当前缺失变量和各完整变量之间权重的差异。
83.本技术实施例提供了一种变量异常修复方法,也即,获取所述缺失数据集中缺失数据对应的缺失个数,进而将所述缺失数据集抽取为多维特征向量进一步地,基于所述缺失个数,将所述多维特征向量按照预设数值规则进行设置,获得缺失数据维度特征向量,通过将缺失数据设置为预设数值,避免了模型无法检测缺失数据的情况,使得根据不同的缺失程度,通过模型学习当前缺失变量和各完整变量之间权重的差异,为克服现有技术中利用历史数据的均值、直接用默认值进行填充修复,当缺失数据的重要性较高时,依旧存在较大的噪声误差,而利用最近一个未缺失的取值进行填充修复,会忽略近期数据更新带来的变化,进而导致模型预测的准确性较低的技术缺陷奠定了基础。
84.进一步地,参照图5,图5为本技术变量异常修复方法中通过进行迭代训练优化获得缺失数据预测模型的流程示意图,其中,原始数据集b为所述完整数据集,原始数据集a为
所述缺失数据集,lstm层为所述长短期记忆网络模型,dnn部分为所述全连接神经网络模型。
85.参照图6,图6是本技术实施例方案涉及的硬件运行环境的设备结构示意图。
86.如图6所示,该变量异常修复设备可以包括:处理器1001,例如cpu,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non

volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
87.可选地,该变量异常修复设备还可以包括矩形用户接口、网络接口、摄像头、rf(radio frequency,射频)电路,传感器、音频电路、wifi模块等等。矩形用户接口可以包括显示屏(display)、输入子模块比如键盘(keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi

fi接口)。
88.本领域技术人员可以理解,图6中示出的变量异常修复设备结构并不构成对变量异常修复设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
89.如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及变量异常修复程序。操作系统是管理和控制变量异常修复设备硬件和软件资源的程序,支持变量异常修复程序以及其它软件和/或,程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与变量异常修复方法系统中其它硬件和软件之间通信。
90.在图6所示的变量异常修复设备中,处理器1001用于执行存储器1005中存储的变量异常修复程序,实现上述任一项所述的变量异常修复方法的步骤。
91.本技术变量异常修复设备具体实施方式与上述变量异常修复方法各实施例基本相同,在此不再赘述。
92.本技术还提供一种变量异常修复装置,所述变量异常修复装置包括:
93.获取模块,用于获取待预测数据集;
94.预测模块,用于通过缺失数据预测模型对所述待预测数据集中的缺失变量进行预测,获得数据预测结果,其中,所述缺失数据预测模型是通过预先收集的缺失数据集和完整数据集对待训练缺失数据预测模型进行迭代训练优化得到的;
95.修复模块,用于基于所述数据预测结果,对所述缺失变量进行修复,获得变量修复结果。
96.可选地,所述预测模块还用于:
97.将所述待预测数据集中各完整变量的历史取值输入所述长短期记忆网络模型,输出所述待预测数据集中各完整变量对应的特征信息结果;
98.将所述待预测数据集中各完整变量对应的特征信息结果和所述待预测数据集中缺失变量的历史取值输入所述全连接神经网络模型,输出所述所述缺失变量的数据预测结果。
99.可选地,所述变量异常修复装置还用于:
100.获取样本客户的历史数据集;
101.对所述样本客户的历史数据集进行缺失处理,获得所述历史数据集中的缺失数据
集以及所述历史数据集中的完整数据集;
102.通过所述缺失数据集和所述完整数据集对待训练缺失数据预测模型进行迭代训练优化,获得所述缺失数据预测模型。
103.可选地,所述变量异常修复装置还用于:
104.将所述完整数据集输入所述长短期记忆网络模型,输出特征信息结果;
105.根据所述缺失数据集和所述特征信息结果,对所述全连接神经网络模型进行迭代训练优化,获得所述缺失数据预测模型。
106.可选地,所述变量异常修复装置还用于:
107.获取所述历史数据集对应的时点集合;
108.在所述时点集合中选取预设数量的时点随机数,获得目标时点;
109.基于所述目标时点,选取所述历史数据集中缺失变量对应的取值,获得所述缺失数据集;
110.基于所述目标时点,将所述历史数据集中各完整变量的取值设置为所述完整数据集。
111.可选地,所述变量异常修复装置还用于:
112.在预设观察时长中选取缺失程度随机数,获得所述历史数据集中缺失变量对应的缺失程度;
113.基于所述目标时点,将所述历史数据集中对应的缺失变量的取值按照所述缺失程度进行设置,获得所述缺失数据集。
114.可选地,所述变量异常修复装置还用于:
115.获取所述缺失数据集中缺失数据对应的缺失个数;
116.将所述缺失数据集抽取为多维特征向量;
117.基于所述缺失个数,将所述多维特征向量按照预设数值规则进行设置,获得缺失数据维度特征向量。
118.本技术变量异常修复装置的具体实施方式与上述变量异常修复方法各实施例基本相同,在此不再赘述。
119.本技术实施例提供了一种介质,所述介质为可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的变量异常修复方法的步骤。
120.本技术可读存储介质具体实施方式与上述变量异常修复方法各实施例基本相同,在此不再赘述。
121.本技术实施例提供了一种计算机程序产品,且所述计算机程序产品包括有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的变量异常修复方法的步骤。
122.本技术计算机程序产品具体实施方式与上述变量异常修复方法各实施例基本相同,在此不再赘述。
123.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利处理范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献