数据样本生成方法、对象评估方法、模型训练方法和装置与流程

2022-03-02 04:02:48 来源：中国专利 TAG：

1.本公开涉及人工智能技术领域，尤其涉及大数据及深度学习技术领域。具体涉及一种数据样本生成方法、对象评估方法、模型训练方法、装置、设备、非瞬时计算机可读存储介质和计算机程序产品。

背景技术：

2.随着互联网的普及，数据量呈指数增长，对于数据的某一应用场景，如何更好地使用获取的数据尤为重要。

技术实现要素：

3.本公开提供了一种数据样本生成方法、对象评估方法、模型训练方法、装置、设备以及存储介质。
4.根据本公开的一方面，提供了一种数据样本生成方法，包括：获取初始数据集，根据特征重要度，对初始数据集的数据样本的特征进行筛选，生成中间数据集，根据线性相关系数和/或非线性相关系数，对中间数据集的数据样本的特征进行筛选，生成目标数据集。
5.根据本公开的另一方面，提供了一种对象评估方法，包括：获取目标对象的目标数据，将目标数据输入评估模型，得到针对目标对象的评估值，其中，目标数据是利用本公开实施例的数据样本生成方法生成的。
6.根据本公开的另一方面，提供了一种模型训练方法，包括：将训练数据集的数据样本进行数据分区预处理，得到模型训练集，根据模型训练集训练初始信用评估模型，得到中间信用评估模型，评估中间信用评估模型，确定达到评估标准的中间信用评估模型为目标评估模型，其中，训练数据集是利用根据本公开实施例的数据样本生成方法生成的。
7.根据本公开的另一方面，提供了一种数据样本生成装置，包括：初始数据集获取模块、中间数据集生成模块和目标数据集生成模块。初始数据集获取模块，用于获取初始数据集。中间数据集生成模块，用于根据特征重要度，对初始数据集的数据样本的特征进行筛选，生成中间数据集。目标数据集生成模块，用于根据线性相关系数和/或非线性相关系数，对中间数据集的数据样本的特征进行筛选，生成目标数据集。
8.根据本公开的又一方面，提供了一种对象评估装置，包括：目标数据获取模块和评估值确定模块。目标数据获取模块，用于获取目标对象的目标数据。评估值确定模块，用于将目标数据输入评估模型，得到针对目标对象的评估值。目标数据是利用根据本公开实施例的数据样本生成装置生成的。
9.根据本公开的另一方面，提供了一种模型训练装置，包括：模型训练集确定模块、中间信用评估模型确定模块和目标评估模型确定模块。模型训练集确定模块，用于将训练数据集的数据样本进行数据分区预处理，得到模型训练集。中间信用评估模型确定模块，用于根据模型训练集训练初始信用评估模型，得到中间信用评估模型。目标评估模型确定模块，用于评估中间信用评估模型，确定达到评估标准的中间信用评估模型为目标评估模型。
其中，训练数据集是利用根据本公开实施例的数据样本生成装置生成的。
10.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例的数据样本生成方法、对象评估方法和模型训练方法。
11.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开实施例的数据样本生成方法、对象评估方法和模型训练方法。
12.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开实施例的数据样本生成方法、对象评估方法和模型训练方法。
13.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案，不构成对本公开的限定。其中：
15.图1示例性示出了适于本公开实施例的系统架构；
16.图2示例性示出了根据本公开一实施例的数据样本生成方法的流程图；
17.图3示例性示出了根据本公开另一实施例的数据样本生成方法的示意图；
18.图4示例性示出了根据本公开又一实施例的数据样本生成方法的示意图；
19.图5示例性示出了根据本公开又一实施例的数据样本生成方法的示意图；
20.图6示例性示出了根据本公开又一实施例的数据样本生成方法的示意图；
21.图7示例性示出了根据本公开一实施例的对象评估方法的流程图；
22.图8示例性示出了根据本公开另一实施例的对象评估方法的示意图；
23.图9示例性示出了根据本公开一实施例的模型训练方法的流程图；
24.图10示例性示出了根据本公开另一实施例的模型训练方法的示意图；
25.图11示例性示出了根据本公开实施例的数据样本生成装置的框图；
26.图12示例性示出了根据本公开实施例的对象评估装置的框图；
27.图13示例性示出了根据本公开实施例的模型训练装置的框图；以及
28.图14示例性示出了可以实现本公开实施例的数据样本生成方法、对象评估方法、模型训练方法的电子设备的框图。
具体实施方式
29.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
30.大数据可以理解为一种规模大到在获取、存储、管理、分析方面远超传统数据库软件工具能力范围的数据集合，大数据具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低这四大特征。
31.数据量的指数增长对于使用数据来说是一个巨大的挑战，这种挑战例如体现在：在某一个应用场景下，如何从海量数据中选择更优的数据进行使用。本公开实施例可以以机器学习的应用场景示例，详细说明本公开实施例的技术方案如何从海量数据中选择更优的数据进行使用。根据本公开实施例，可以对数据样本的特征进行筛选，以确定更优的数据样本进行使用，更优的数据样本有利于模型的训练和使用。
32.若干数据样本可以组成一个数据集，每一个数据样本是一个观测数据的记录，数据集可以以结构化的列表形式呈现，在该列表中，每一个数据样本以行的形式体现，每一列可以认为是一个变量，以特定的某一个变量为例，在该列表中的其他的变量作为自变量，自变量用于预测和解释该特定的变量，每一个自变量可以理解为上述的特征。
33.机器学习可以理解为由计算机利用已知数据得出适当的模型，并利用此模型对新的情境给出判断。即计算机通过大量数据样本的训练后能够对以后输入的内容作出正确的反馈。这里的模型可以理解为处理变量关系的某种假设。不同的模型可以针对对应具体场景。为了便于理解，本公开实施例将以信用评估这一具体场景为例，说明在信用评估中，如何对数据样本的特征进行筛选，以确定更优的数据样本进行使用，更优的数据样本可以用于训练相应的信用评估模型。本领域技术人员可以理解，本公开实施例可以应用于各种其他场景下，例如信息推荐等，本公开实施例不对此进行限制。
34.应注意，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
35.适于本公开实施例的数据样本生成方法、对象评估方法和模型训练方法及其对应装置的系统架构介绍如下。
36.图1示例性示出了适于本公开实施例的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他环境或场景。
37.如图1所示，本公开实施例中系统架构100可以包括：
38.用于生成目标数据集的终端101、用于模型训练的终端102和用于对象评估的终端103。
39.本公开实施例中，终端101可以用于执行数据样本生成方法，以获得用于模型训练的数据集。终端102可以根据终端101获得的数据集执行对应的模型训练方法以实现对应的模型训练。终端103可以基于终端102获得的模型对指定对象进行评估。
40.需要说明的是，目标数据集生成和模型训练可以在同一终端上实现，也可在不同终端实现。
41.终端101、终端102和终端103可以是服务器，还可以是服务器集群。
42.应该理解，图1中终端101、终端102和终端103的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端101、终端102和终端103。
43.图2示例性示出了根据本公开一实施例的数据样本生成方法的流程图。
44.如图2所示，根据本公开一实施例的数据样本生成方法200包括操作s210-操作
s230。
45.在操作s210，获取初始数据集。
46.初始数据集可以包括若干数据样本，每一个数据样本可以包括若干特征，特征可以理解为与模型的预测结果关联的因变量。
47.在操作s220，根据特征重要度，对初始数据集的数据样本的特征进行筛选，生成中间数据集。特征重要度可以理解为一种衡量每个特征对模型预测结果贡献的指标。本公开实施例中，对数据样本的特征进行筛选可以理解为根据某些原则删除各数据样本的一些特征，而保留各数据样本的另一些特征的过程。
48.在操作s230，根据线性相关系数和/或非线性相关系数，对中间数据集的数据样本的特征进行筛选，生成目标数据集。
49.应该理解，对初始数据集的数据样本的特征进行筛选，生成中间数据集以及对中间数据集的数据样本的特征进行筛选，生成目标数据集的过程中，不会改变初始数据集、中间数据集以及目标数据集各自的数据样本的数量。中间数据集的数据样本的特征的数量小于等于初始数据集的数据样本的特征的数量，目标数据集的数据样本的特征的数量小于等于中间数据集的样本特征的数量。
50.还应该理解，不同的特征对于模型的预测结果的影响程度和影响方式可能是不同的。影响程度可以理解为特征变化量引起的模型的预测结果的变化量，影响方式可以理解为特征变化趋势与模型的预测结果变化趋势之间的关系。
51.根据本公开实施例的数据样本生成方法，特征重要度作为衡量特征对于模型的预测结果的影响程度的指标，可以量化特征对于模型的预测结果的影响程度。根据特征重要度对初始数据集的数据样本的特征进行一次筛选，可以得到数据样本的特征更少的中间数据集。线性相关系数和/或非线性相关系数作为衡量特征对于模型的预测结果的影响方式的指标，可以指示特征对于模型的预测结果的影响方式，根据线性相关系数和/或非线性相关系数对中间数据集的样本的特征进行二次筛选，可以得到数据样本的特征更少的目标数据集。上述的两次筛选分别根据不同的指标对数据样本的特征进行筛选，使得特征筛选更为全面、准确和快速。经过上述两次筛选生成的目标数据集还可以更好地评估不同的特征对模型的预测结果的影响。
52.上述的生成中间数据集和生成目标数据集可以理解为：将获取的初始数据集输入计算机，经过计算机的处理，输出中间数据集和目标数据集的过程。
53.示例性地，数据样本可以包括以下中的至少一个：图像数据样本、文本数据样本、音频数据样本。
54.示例性地，数据样本可以用于对对象的历史数据进行评估。例如，数据样本可以用于对对象的历史数据进行评估，获得对象的信用信息。例如，数据样本可以包括存款特征、年龄特征、历史偿还特征等。本公开实施例的数据样本生成方法可以对初始数据集的数据样本的特征进行筛选，确定的目标数据集的数据样本的特征可以更好地评估对象的历史数据，从而可以获得对象的准确的信用信息。
55.图3示意性示出了根据本公开另一实施例的数据样本生成方法中生成目标数据集的示意图。
56.根据本公开另一实施例，可以使用以下实施例来实现数据样本生成方法中生成目
标数据集的具体示例。本领域技术人员技术可以理解，可以在例如图2所示的操作s220之后执行图3所示的示例方法，来根据线性相关系数和/或非线性相关系数对中间数据集的数据样本的特征进行筛选，生成目标数据集。
57.如图3所示，初始数据集的数据样本可以包括参照数据样本301和待评估数据样本302。参照数据样本可以理解为预先确定数据样本，该预先确定的数据样本用于作为待评估数据样本的参照，待评估数据样本可以理解为用于与参照数据样本进行对比的数据样本，待评估数据样本与参照数据样本的比对的结果可以表示两者的各特征之间的关联程度。
58.在操作s310，根据各参照数据样本301的各个特征与各待评估数据样本302的各个特征之间的线性相关系数的数值，得到线性相关系数矩阵303。
59.在操作s320，根据各参照数据样本301的各个特征与各待评估数据样本302的各个特征之间的非线性相关系数的数值，得到非线性相关系数矩阵304。
60.在操作s330，根据线性相关系数矩阵303与非线性相关系数矩阵304，对中间数据集的数据样本的特征进行筛选，生成目标数据集305。
61.本公开实施例的数据样本生成方法以线性相关系数的数值和/或非线性相关系数的数值衡量待评估数据样本与参照数据样本的各特征之间的关联程度。
62.可以根据不同的需求确定参照数据样本，例如，需要确定正数据样本时，参照数据样本可以是预先确定的模型的预测结果为正确的数据样本，正数据样本可以理解为模型的预测结果准确的数据样本。需要确定负数据样本时，参照数据样本可以是预先确定的模型的预测结果为错误的数据样本，负数据样本可以理解为模型的预测结果不够准确的数据样本。
63.应该理解，每一个参数数据样本、每一个待评估数据样本均具有若干个特征，这些特征也可以理解为数据样本的维度。本公开实施例的数据样本生成方法，通过矩阵的形式清楚、直观地表示各参照数据样本的各个特征与各待评估数据样本的各个特征之间的线性相关系数以及非线性相关系数的数值。
64.数据样本的维度太高会降低数据样本的有效性、降低模型的可解释性，造成模拟过拟合。根据本公开实施例的数据样本生成方法，结合了线性相关系数矩阵和非线性相关系数矩阵两者，可以覆盖具有线性相关关系的特征以及非线性相关关系的特征，全面、准确地进行特征筛选，经过筛选后的数据样本的维度降低，并且有利于模型进行结果预测，提高数据样本的有效性以及提高模型的可解释性，可以避免出现模型过拟合的现象。
65.示例性地，线性相关系数可以包括皮尔逊相关系数，非线性相关系数可以包括距离相关系数。皮尔逊相关系数和距离相关系数的通用性和准确性更高，因此可以分别准确地衡量各参照数据样本的各个特征与各待评估数据样本的各个特征之间的线性相关系数和非线性相关系数的数值。
66.例如，可以通过如下的公式1-1至公式1-4中至少一种形式的皮尔逊相关系数公式，计算各参照数据样本的各个特征与各待评估数据样本的各个特征之间的线性相关系数的数值。
67.[0068][0069][0070][0071]
其中，x和y分别表示参照数据样本的特征与待评估数据样本的特征，cov表示协方差，e表示期望，σ表示标准差，表示特征取值的个数。
[0072]
ρ
x，y
的取值范围为[一1，1]，ρ
x，y
＞0表示正相关，ρ
x，y
＜0表示负相关，|ρ
x，y
|＝0表示线性不相关，|ρ
x，y
|＝1表示完全线性相关。
[0073]
例如，可以通过如下的公式2-1的距离相关系数公式，计算各参照数据样本的各个特征与各待评估数据样本的各个特征之间的非线性相关系数的数值。
[0074][0075]
其中，u和v分别表示参照数据样本的特征与待评估数据样本的特征这两个随机变量，dcorr(u，v)＝0时，表示u和v相互独立，dcorr(u，v)的数值越大，表示u和v的相关性越强。
[0076]
图4示意性示出了根据本公开又一实施例的数据样本生成方法中生成目标数据集的示意图。
[0077]
根据本公开又一实施例，可以使用以下实施例来实现数据样本生成方法中生成目标数据集的具体示例。本领域技术人员技术可以理解，可以在例如图3所示的操作s320之后执行图4所示的示例方法，来根据线性相关系数矩阵与非线性相关系数矩阵，对中间数据集的数据样本的特征进行筛选，生成目标数据集。
[0078]
如图4所示，在操作s410，基于线性相关系数矩阵401和非线性相关系数矩阵402，确定特征选择矩阵403。
[0079]
在操作s420，根据特征选择矩阵403，对中间数据集的数据样本的特征进行筛选，生成目标数据集。
[0080]
矩阵的形式可以清楚地表示数据样本的维度，本公开实施例中，可以根据线性相关系数矩阵和非线性相关系数矩阵两者确定特征选择矩阵，即，可以以矩阵的形式清楚表示保留的特征和删除的特征。
[0081]
图5示意性示出了根据本公开又一实施例的数据样本生成方法中确定特征选择矩阵的示意图。
[0082]
根据本公开又一实施例，可以使用以下实施例来实现数据样本生成方法中确定特征选择矩阵的具体示例。本领域技术人员技术可以理解，可以在例如图3所示的操作s320之后执行图5所示的示例方法，来基于线性相关系数矩阵和非线性相关系数矩阵，确定特征选择矩阵。
[0083]
如图5所示，在操作s510，根据线性相关系数矩阵501和第一阈值th1，确定第一选择矩阵503。
[0084]
在操作s520，根据非线性相关系数矩阵502和第二阈值th2，确定第二选择矩阵504。
[0085]
在操作s530，对第一选择矩阵503与第二选择矩阵504进行与运算，得到特征选择矩阵。
[0086]
线性相关系数矩阵的元素是参照数据样本与待评估数据样本的相应特征之间的线性相关系数的数值，非线性相关系数矩阵的元素是参照数据样本与待评估数据样本的相应特征之间的非线性相关系数的数值，线性相关系数的数值与非线性相关系数的数值均是连续的。
[0087]
本公开实施例的数据样本生成方法通过引入第一阈值可以对比线性相关系数矩阵的各个元素与第一阈值的大小，确定第一选择矩阵。第一选择矩阵的各个元素可以表示相应的线性相关系数矩阵的元素的数值与第一阈值对比的结果，该对比的结果包括元素的数值在第一阈值范围内以及元素的数值超出第一阈值范围，第一选择矩阵可以是布尔矩阵，元素的数值在第一阈值范围内的对比结果可以表示为1，元素的数值超出第一阈值范围的对比结果可以表示为0。
[0088]
通过引入第二阈值可以对比非线性相关系数矩阵的各个元素与第二阈值的大小，确定第二选择矩阵。第二选择矩阵的各个元素可以表示相应的非线性相关系数矩阵的元素的数值与第二阈值对比的结果，该对比的结果包括元素的数值在第二阈值范围内以及元素的数值超出第二阈值范围。第二选择矩阵可以是布尔矩阵，元素的数值在第二阈值范围内的对比结果可以表示为1，元素的数值超出第二阈值范围的对比结果可以表示为0。
[0089]
第一选择矩阵与第二选择矩阵进行与运算后获得的特征选择矩阵中数值为1的元素表示相应的线性相关系数矩阵元素的数值在第一阈值范围内且相应的非线性相关系数矩阵的元素的数值在第二阈值范围内。可以以特征选择矩阵中数值为1的元素的索引，确定数据样本的相应的特征，保留中间数据集的数据样本的与特征选择矩阵中数值为1的元素对应的特征，以特征选择矩阵中数值为0的元素的索引，确定数据样本的相应的特征，删除中间数据集的数据样本的与特征选择矩阵中数值为0的元素对应的特征，生成目标数据集。
[0090]
应该理解，数据样本包括若干特征，本公开实施例的数据样本特征方法涉及以矩阵的形式表示各数据样本的数据集、线性相关系数、非线性相关系数等，还涉及矩阵之间的与逻辑运算。
[0091]
本公开实施例的数据样本生成方法还可以还包括对初始数据集中的数据样本进行预处理，以确保后续涉及的各种矩阵的规格满足可以进行相关运算的前提条件。
[0092]
示例性地，可以通过以下方式中的至少一个，对初始数据集中的数据样本进行预处理：填补缺失值，去除异常值，以及编码离散型的数据样本的特征。
[0093]
示例性地，可以通过one-hot编码的方式编码离散型的数据样本的特征，以确保数据样本可以输入模型中进行结果预测，one-hot编码是指独热编码。one-hot的基本思想是，将离散型的数据样本的特征的不同取值抽象成一类状态，n种不同的取值对应n种不同的状态。
[0094]
图6示意性示出了根据本公开又一实施例的数据样本生成方法中生成中间数据集的示意图。
[0095]
根据本公开又一实施例，可以使用以下实施例来实现数据样本生成方法中生成中
间数据集的具体示例。本领域技术人员技术可以理解，可以在例如图2所示的操作s210之后执行图6所示的示例方法，来根据特征重要度对初始数据集的数据样本的特征进行筛选，生成中间数据集。
[0096]
如图6所示，在操作s610，根据随机森林算法，确定初始数据集601的数据样本的各个特征的特征重要度602。
[0097]
在操作s620，确定特征重要度602小于或者小于等于第三阈值th3的目标特征603。
[0098]
在操作s630，从初始数据集601的数据样本中删除目标特征603，生成中间数据集。
[0099]
随机森林是一个包含多个决策树的分类器，并且输出的类别由个别树输出的类别的众数决定。由于随机森林通过多个决策树进行分类，因此对于大量的输入，随机森林输出的结果更加准确，本公开实施例的数据样本生成方法使用随机森林生成中间数据集，可以快速、准确地根据特征重要度对数据样本的特征进行一次筛选。
[0100]
示例性地，本公开实施例的数据样本生成方法，可以设置随机森林的决策树的树木数为n_estimators＝500，设置决策树的深度为max_depth＝10。
[0101]
本公开实施例还提出了一种对象评估方法。
[0102]
如图7所示，根据本公开实施例的对象评估方法700包括操作s710-操作s720。
[0103]
在操作s710，获取目标对象的目标数据。
[0104]
在操作s720，将目标数据输入评估模型，得到针对目标对象的评估值。
[0105]
目标数据是利用根据本公开上述实施例的数据生成方法生成的。
[0106]
对象评估可以理解为根据与对象相关的目标数据进行评估，获得评估值的过程。为确保评估结果的准确性，可以从多个维度进行评估，但是数据的维度增加会影响评估模型的结果预测准确性。
[0107]
本公开实施例的对象评估方法700的目标数据根据上述实施例的数据样本生成方法生成，可以获得较低维度的目标数据，利用评估模型对输入的目标数据评估的评估值更加准确。
[0108]
如图8所示，根据本公开实施例的对象评估方法800可以应用于信用评估。即对信用度进行评估，目标数据可以理解为与信用度评估相关的数据，评估值可以是信用度的分值。
[0109]
本公开实施例还提出了一种模型训练方法。
[0110]
如图9所示，根据本公开实施例的模型训练方法900包括操作s910-操作s930。
[0111]
在操作s910，将训练数据集的数据样本进行数据分区预处理，得到模型训练集。
[0112]
在操作s920，根据模型训练集训练初始信用评估模型，得到中间信用评估模型。
[0113]
在操作s930，评估中间信用评估模型，确定达到评估标准的中间信用评估模型为目标评估模型。
[0114]
训练数据集是利用根据上述本公开实施例的数据生成方法生成的，因此训练数据集经过特征筛选，利用训练数据集的数据样本进行评估模型的训练可以提高模型的可解释性。目标评估模型可以用于对输入的数据样本进行信用评估，获得信用值。
[0115]
初始信用评估模型可以包括逻辑回归模型、支持向量机模型以及极端梯度提升模型。逻辑回归模型，即logistic，支持向量机模型，即svm，极端梯度提升模型，即xgboost。
[0116]
示例性地，如图10所示，根据本公开实施例的模型训练方法1000，初始信用评估模
型可以是性能更好的逻辑回归模型。应该理解，图10中示出的模型训练方法1000的操作s1010-操作s1030分别与上述的操作s910-操作s930对应相同，在此不再赘述。
[0117]
示例性地，可以通过以下方式中的至少一个，对训练数据集的数据样本进行数据分区预处理：变量分箱预处理、离散化预处理、确定证据权重预处理以及确定信息价值预处理。
[0118]
变量分箱可以避免连续型变量的取值过于稀疏，影响信用评估模型学习变量的规律。例如，可以使用卡方分箱、决策树分箱等具体的变量分箱方法。例如，卡方分箱是一种自底而上的，基于合并的数据离散化方法，先算出单变量每个取值的卡方，再将卡方值相似的取值合并到一个箱里。
[0119]
离散化可以将无限空间中有限的数据映射到有限的空间中去，在不改变数据相对大小的情况下，对数据进行相应的缩小。上述的变量分箱可以理解为一种离散化的方式。
[0120]
证据权重即woe，计算的woe的数值可以按照上述变量分箱的区间，对原始的在相应的分箱内的数据进行赋值，后续训练初始信用评估模型时，将会使用分箱对应的woe的数值，而不使用原始的数据。
[0121]
信息价值即iv，iv可以用于变量筛选，iv的数值过低的变量的区分能力欠佳，还可能对信用评估模型产生干扰，可以删除iv值低于某一阈值的变量。
[0122]
示例性地，本公开实施例的模型训练方法可以确定70％的训练数据集以及30％的测试数据集。
[0123]
本公开实施例还提出了一种数据样本生成装置。
[0124]
图11示例性示出了根据本公开一实施例的数据样本生成装置的框图。
[0125]
如图11所示，根据本公开实施例的数据样本生成装置1100包括：初始数据集获取模块1110、中间数据集生成模块1120和目标数据集生成模块1130。
[0126]
初始数据集获取模块1110，用于获取初始数据集。初始数据集获取模块1110可以执行上述操作s210，在此不再赘述。
[0127]
中间数据集生成模块1120，用于根据特征重要度，对初始数据集的数据样本的特征进行筛选，生成中间数据集。中间数据集生成模块1120可以执行上述操作s220，在此不再赘述。
[0128]
目标数据集生成模块1130，用于根据线性相关系数和/或非线性相关系数，对中间数据集的数据样本的特征进行筛选，生成目标数据集。目标数据集生成模块1130可以执行上述操作s230，在此不再赘述。
[0129]
根据本公开实施例的数据样本生成装置，初始数据集的数据样本可以包括参照数据样本和待评估数据样本。目标数据集生成模块可以包括：线性相关系数矩阵确定子模块、非线性相关系数矩阵确定子模块和目标数据集生成子模块。
[0130]
线性相关系数矩阵确定子模块，可以用于根据各参照数据样本的各个特征与各待评估数据样本的各个特征之间的线性相关系数的数值，得到线性相关系数矩阵。
[0131]
非线性相关系数矩阵确定子模块，可以用于根据各参照数据样本的各个特征与各待评估数据样本的各个特征之间的非线性相关系数的数值，得到非线性相关系数矩阵。
[0132]
目标数据集生成子模块，可以用于根据线性相关系数矩阵与非线性相关系数矩阵，对中间数据集的数据样本的特征进行筛选，生成目标数据集。
[0133]
根据本公开实施例的数据样本生成装置，目标数据集生成子模块可以包括：特征矩阵确定单元、目标数据集生成单元。
[0134]
特征矩阵确定单元，可以用于基于线性相关系数矩阵和非线性相关系数矩阵，确定特征选择矩阵。
[0135]
目标数据集生成单元，可以用于根据特征选择矩阵，对中间数据集的数据样本的特征进行筛选，生成目标数据集。
[0136]
根据本公开实施例的数据样本生成装置，特征矩阵确定单元可以包括：第一选择矩阵确定子单元、第二选择矩阵确定子单元和特征选择矩阵确定子单元。
[0137]
第一选择矩阵确定子单元，可以用于根据线性相关系数矩阵和第一阈值，确定第一选择矩阵。
[0138]
第二选择矩阵确定子单元，可以用于根据非线性相关系数矩阵和第二阈值，确定第二选择矩阵。
[0139]
特征选择矩阵确定子单元，可以用于对第一选择矩阵与第二选择矩阵进行与运算，得到特征选择矩阵。
[0140]
根据本公开实施例的数据样本生成装置，中间数据集生成模块可以包括：特征重要度确定子模块、目标特征确定子模块以及中间数据集生成子模块。
[0141]
特征重要度确定子模块，可以用于根据随机森林算法，确定初始数据集的数据样本的各个特征的特征重要度。
[0142]
目标特征确定子模块，可以用于确定特征重要度小于或者等于第三阈值的目标特征。
[0143]
中间数据集生成子模块，可以用于从初始数据集的数据样本中删除目标特征，生成中间数据集。
[0144]
根据本公开实施例的数据样本生成装置，线性相关系数可以包括皮尔逊相关系数，非线性相关系数可以包括距离相关系数。
[0145]
根据本公开实施例的数据样本生成装置，数据样本可以用于对对象的历史数据进行评估。
[0146]
根据本公开实施例的数据样本生成装置还可以包括数据样本预处理模块。
[0147]
数据样本预处理模块，可以用于通过以下方式中的至少一个，对初始数据集中的数据样本进行预处理：填补缺失值，去除异常值，以及编码离散型的数据样本的特征。
[0148]
根据本公开实施例的数据样本生成装置，数据样本可以包括以下中的至少一个：图像数据样本、文本数据样本、音频数据样本。
[0149]
本公开实施例还提出了一种对象评估装置。
[0150]
图12示例性示出了根据本公开一实施例的对象评估装置的框图。
[0151]
如图12所示，根据本公开实施例的对象评估装置1200包括：目标数据获取模块1210和评估值确定模块1220。
[0152]
目标数据获取模块1210，用于获取目标对象的目标数据。在一个实施例中，目标数据获取模块1210可以用于执行上述操作s710。
[0153]
评估值确定模块1220，用于将目标数据输入评估模型，得到针对目标对象的评估值。在一个实施例中，评估值确定模块1220可以用于执行上述操作s720。
[0154]
目标数据是根据利用上述实施例的装置生成的。
[0155]
本公开实施例还提出了一种模型训练装置。
[0156]
图13示例性示出了根据本公开一实施例的模型训练装置的框图。
[0157]
如图13所示，根据本公开实施例的模型训练装置1300包括：模型训练集确定模块1310、中间信用评估模块确定模块1320以及目标评估模型确定模块1330。
[0158]
模型训练集确定模块1310，用于将训练数据集的数据样本进行数据分区预处理，得到模型训练集。在一实施例中，模型训练集确定模块1310可以用于执行上述操作s910。
[0159]
中间信用评估模型确定模块1320，用于根据模型训练集训练初始信用评估模型，得到中间信用评估模型。在一实施例中，中间信用评估模型确定模块1320可以用于执行上述操作s920。
[0160]
目标评估模型确定模块1330，用于评估中间信用评估模型，确定达到评估标准的中间信用评估模型为目标评估模型。在一实施例中，目标评估模型确定模块1330可以用于执行上述操作s930。
[0161]
训练数据集是根据利用上述实施例的数据样本生成装置生成的。
[0162]
根据本公开实施例的模型训练装置，初始信用评估模型可以包括逻辑回归模型。
[0163]
根据本公开实施例的模型训练装置，可以通过以下方式中的至少一个，对训练数据集的数据样本进行数据分区预处理：变量分箱预处理，离散化预处理，确定证据权重预处理以及确定信息价值预处理。
[0164]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0165]
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0166]
如图14所示，设备1400包括计算单元1401，其可以根据存储在只读存储器(rom)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(ram)1403中的计算机程序，来执行各种适当的动作和处理。在ram 1403中，还可存储设备1400操作所需的各种程序和数据。计算单元1401、rom 1402以及ram 1403通过总线1404彼此相连。输入/输出(i/o)接口1405也连接至总线1404。
[0167]
设备1400中的多个部件连接至i/o接口1405，包括：输入单元1406，例如键盘、鼠标等；输出单元1407，例如各种类型的显示器、扬声器等；存储单元1408，例如磁盘、光盘等；以及通信单元1409，例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0168]
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和
处理，例如数据样本生成方法、对象评估方法、模型训练方法。例如，在一些实施例中，数据样本生成方法、对象评估方法、模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由rom1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到ram 1403并由计算单元1401执行时，可以执行上文描述的数据样本生成方法、对象评估方法、模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据样本生成方法、对象评估方法、模型训练方法。
[0169]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0170]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0171]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0172]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0173]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0174]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0175]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0176]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：通过注解方式实现excel导入校验的方法与流程

数据样本生成方法、对象评估方法、模型训练方法和装置与流程

相关文献

最热文献