数据样本模型训练方法及装置与流程

2022-07-06 06:21:43 来源：中国专利 TAG：

1.本发明涉及数据处理，尤其是一种数据样本模型训练方法及装置。

背景技术：

2.在人工智能、机器学习领域，如何建模，即如何训练一个各个场景通用（泛化能力强）的模型，一直是业内的重点和难点之一。比如有12家银行需要联合训练风险控制模型，每家银行提供一套数据样本，每份样本都含有x变量和y变量，现有建模方法是，对每套数据样本训练一个子模型，需要遍历12个子模型训练最终的风险控制模型，数据处理量大，建模效率低。

技术实现要素：

3.本发明的发明目的在于提供一种数据样本模型训练方法及装置，能够有效减少数据处理量，提高建模效率。
4.基于同一发明构思，本发明具有两个独立的技术方案：1、一种数据样本模型训练方法，包括如下步骤：步骤1：选取多套数据样本，对应每套数据样本训练一套样本评估模型；步骤2：将数据样本聚类成多个簇；步骤3: 每个簇训练一套簇评估模型；步骤4：基于多套簇评估模型，训练最终评估模型。
5.进一步地，步骤2包括如下步骤：步骤2.1：将每套样本评估模型逐一测试各套数据样本，相应获得多个测试指标数据；基于测试指标数据，计算数据样本与数据样本之间的距离；步骤2.2：选取一套数据样本训练新簇；步骤2.3：判断是否有未完成聚类的数据样本，如果是，则进入步骤2.4，如果否，则结束聚类；步骤2.4：计算余下未完成聚类的每套数据样本与新簇之间的距离，选取最小距离的数据样本，判断该最小距离是否大于阈值，如果是，则返回步骤2.2，选取该最小距离的数据样本训练新簇，如果否，则将该最小距离的数据样本加入新簇，并返回步骤2.3。
6.进一步地，步骤2.1中，数据样本与数据样本之间的距离通过如下方法获得，计算a数据样本到b数据样本方向的距离c1，计算方法为用a数据样本对应的a样本评估模型测试b数据样本，获得测试指标数据m1,则距离c1=1-m1;计算b数据样本到a数据样本方向的距离c2，计算方法为用b数据样本对应的b样本评估模型测试a数据样本，获得测试指标数据m2,则距离c2=1-m2;a数据样本与b数据样本之间的距离c=(c1 c2)/2。
7.进一步地，步骤2.4中，数据样本与新簇之间的距离是指，该数据样本与簇内每套数据样本之间距离的平均值，或者是指，该数据样本与簇内每套数据样本之间距离的最大
值。
8.进一步地，步骤2.1中，剔除无效的样本评估模型及其对应的数据样本，包括如下步骤：步骤2.1.1：将每套样本评估模型逐一测试各套数据样本，相应获得多个测试指标数据；步骤2.1.2：计算每套样本评估模型对应测试指标数据的平均值，从各个样本对应的平均值中选取最小平均值；如果所述最小平均值小于阈值，则剔除所述最小平均值对应的样本评估模型，及所述样本评估模型对应的数据样本，返回步骤2.1.1；如果所述最小平均值大于阈值，则进入步骤2.2。
9.进一步地，步骤3中，簇评估模型下设多个子模型。
10.进一步地，步骤3中，簇评估模型由簇包含的多套数据样本融合训练而成。
11.进一步地，步骤3中，簇评估模型是基于簇中的一套数据样本训练而成，所述一套数据样本满足的条件为，该数据样本到簇内其它数据样本的平均距离最小，或者该数据样本评估模型对应测试指标数据的平均值最大，所述测试指标数据是指，将每套样本评估模型逐一测试各套数据样本，相应获得的数据。
12.进一步地，评估模型为风险控制评估模型，评估模型的测试指标数据为auc值或k-s值。
13.2、一种数据样本模型训练装置，包括多个训练服务器，用于执行上述方法；每套数据样本相应设有1个样本评估模型训练服务器，所述样本评估模型训练服务器用于训练数据样本所对应的样本评估模型；每个簇相应设有1个簇评估模型训练服务器，所述簇评估模型训练服务器用于簇所对应的簇评估模型；包括聚合训练服务器，所述聚合训练服务器基于多套簇评估模型，训练最终评估模型。
14.本发明具有的有益效果：本发明选取多套数据样本，对应每套数据样本训练一套样本评估模型；剔除无效的样本评估模型及其对应的数据样本；将数据样本聚类成多个簇；每个簇训练一套簇评估模型；基于多套簇评估模型，训练最终评估模型。本发明先对数据样本聚类，根据聚类后的簇评估模型训练最终评估模型，有效减少数据处理量，提高建模效率。例如，现有建模方法需基于12个银行数据样本对应的12个子模型建模，每个子模型的权重如果是取值从0到4十种可能，则一共要5的12次方次遍历，但如果聚类成3个簇，基于3个簇模型建模，则融合的时候只要5的3次方次，大幅减少数据处理量，提高建模效率。本发明每个簇训练一套簇评估模型，基于多套簇评估模型，训练最终评估模型，有效保证了模型的泛化性。
15.本发明将每套样本评估模型逐一测试各套数据样本，相应获得多个测试指标数据；计算每套样本评估模型对应测试指标数据的平均值，从各个样本对应的平均值中选取最小平均值；如果所述最小平均值小于阈值，则剔除所述最小平均值对应的样本评估模型，及所述样本评估模型对应的数据样本。本发明通过剔除无效的样本评估模型及其对应的数据样本，进一步保证提高建模效率。
16.本发明数据样本聚类时，选取多套数据样本，对应每套数据样本训练一套样本评估模型；将每套样本评估模型逐一测试各套数据样本，对应每套样本评估模型均相应获得
一组测试指标数据；基于每套样本评估模型的测试指标数据，计算数据样本与数据样本之间的距离；基于数据样本与数据样本之间的距离，对数据样本聚类。本发明通过上述方法有效保证数据样本的聚类可靠性，进而保证建模可靠性。
17.本发明簇评估模型是基于簇中的一套数据样本训练而成，所述一套数据样本满足的条件为，该数据样本到簇内其它数据样本的平均距离最小，或者该数据样本评估模型对应测试指标数据的平均值最大，所述测试指标数据是指，将每套样本评估模型逐一测试各套数据样本，相应获得的数据。本发明每套簇评估模型仅基于一套数据样本训练，进一步保证减少数据处理量，提高建模效率，同时，本发明对建模依据的数据样本选取方法，保证了建模可靠性。
附图说明
18.图1是本发明数据样本模型训练方法流程图；图2是本发明训练最终评估模型模型示意图。
具体实施方式
19.下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。
20.实施例一：数据样本模型训练方法如图1所示，本发明数据样本模型训练方法包括如下步骤：步骤1：选取多套数据样本，对应每套数据样本训练一套样本评估模型。
21.数据样本标准化，对样本抽相同的数据（例如 1w）和相同的坏样本比例（例如 25%）。
22.例如有12家银行，每家银行提供了一个（套）数据样本，则对应训练12个（套）模型。每套数据样本含有x、y变量，数据样本个数若干。
23.x是自变量，例如：信用历史长度、最近5年违约次数、最近5年最大违约天数等。
24.y是因变量，y可以是费类型变量，例如：该客户核卡之后6个月内是否违约超过60天；也可以是连续型变量，例如：该客户核卡之后6个月内违约天数。
25.一套数据样本包含若干个子数据样本，例如一个子数据样本表示一个客户的信息。每个银行的样本数量可以不一样。
26.那么这12套数据样本可以训练12套样本评估模型（每套样本评估模型可以含有不同的子模型）。如下表所示：
评估模型为风险控制评估模型，评估模型的测试指标数据为auc值或k-s值，本实施例中，采用auc值。通过风险控制评估模型测试指标数据auc值或k-s值，属于现有技术。
27.步骤2：将数据样本聚类成多个簇。
28.步骤2包括如下步骤：步骤2.1：将每套样本评估模型逐一测试各套数据样本，相应获得多个测试指标数据；基于测试指标数据，计算数据样本与数据样本之间的距离。
29.本实施例中，12套数据样本、12套样本评估模型对应的测试指标数据如下表1所示，评测指标值为auc值
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
表1数据样本与数据样本之间的距离通过如下方法获得，计算a数据样本到b数据样本方向的距离c1，计算方法为用a数据样本对应的a样本评估模型测试b数据样本，获得测试指标数据m1,则距离c1=1-m1;
计算b数据样本到a数据样本方向的距离c2，计算方法为用b数据样本对应的b样本评估模型测试a数据样本，获得测试指标数据m2,则距离c2=1-m2;a数据样本与b数据样本之间的距离c=(c1 c2)/2。
30.如果距离c1或距离c2的数值大于阈值，则将距离c1或距离c2的数值赋予最大值，本实施例中，测试指标数据为auc值，距离为（1-auc）值，将最大值设置为100。
31.本实施中，将数据样本a的样本评估模型测数据样本b的（1-auc）值，当做a-》b（a数据样本到b数据样本）的距离，则样本之间的有向距离如下表2所示：表2如果距离超过预设的阈值，本实施例中，阈值设定为0.49，则设为该距离为距离最大值100。如表3所示：表3
a数据样本与b数据样本的路径（距离）=（a-》b的距离 b
ꢀ‑
》a的距离）/2； a与a的距离设为0。最终样本之间距离如表4所示：表4步骤2.2：选取一套数据样本训练新簇。
32.计算每套样本评估模型对应测试指标数据的平均值，选取最大平均值对应的数据样本，作为训练新簇的第一套数据样本。本实施例中，如表5所示，auc值平均值最大的是 0.7601，对应用样本s12训练出来的样本评估模型m12，因此选样本s12当新簇的第一套数据样本。
33.表5
步骤2.3：判断是否有未完成聚类的数据样本，如果是，则进入步骤2.4，如果否，则结束聚类；步骤2.4：计算余下未完成聚类的每套数据样本与新簇之间的距离，选取最小距离的数据样本，判断该最小距离是否大于阈值，如果是，则返回步骤2.2，选取该最小距离的数据样本训练新簇，如果否，则将该最小距离的数据样本加入新簇，并返回步骤2.3。
34.数据样本与新簇之间的距离是指，该数据样本与簇内每套数据样本之间距离的平均值，或者是指，该数据样本与簇内每套数据样本之间距离的最大值。
35.步骤2.1中，可以剔除无效的样本评估模型及其对应的数据样本，包括如下步骤：步骤2.1.1：将每套样本评估模型逐一测试各套数据样本，相应获得多个测试指标数据；步骤2.1.2：计算每套样本评估模型对应测试指标数据的平均值，从各个样本对应的平均值中选取最小平均值；如果所述最小平均值小于阈值，则剔除所述最小平均值对应的样本评估模型，及所述样本评估模型对应的数据样本，返回步骤2.1.1；如果所述最小平均值大于阈值，则进入步骤2.2。
36.聚类后的结果示例如表6所示。
37.表6
步骤3: 每个簇训练一套簇评估模型。
38.簇评估模型可下设多个子模型。簇评估模型由簇包含的多套数据样本融合训练而成。簇评估模型是基于簇中的一套数据样本训练而成，所述一套数据样本满足的条件为，该数据样本到簇内其它数据样本的平均距离最小，或者该数据样本评估模型对应测试指标数据的平均值最大，所述测试指标数据是指，将每套样本评估模型逐一测试各套数据样本，相应获得的数据。本实施例中，有3个簇，相应训练3套簇评估模型cm1、cm2、cm3。
39.步骤4：基于多套簇评估模型，训练最终评估模型。
40.本实施例中，如图2所示，基于3套簇评估模型cm1、cm2、cm3，融合训练最终评估模型。
41.实施例二：数据样本模型训练装置包括多个训练服务器，用于执行实施例一所述的方法；每套数据样本相应设有1个样本评估模型训练服务器，所述样本评估模型训练服务器用于训练数据样本所对应的样本评估模型；每个簇相应设有1个簇评估模型训练服务器，所述簇评估模型训练服务器用于簇所对应的簇评估模型；包括聚合训练服务器，所述聚合训练服务器基于多套簇评估模型，训练最终评估模型。
42.上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
43.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：地图渲染方法、电子设备及计算机存储介质与流程

数据样本模型训练方法及装置与流程

相关文献

最热文献