基于数据迁移的违约模型构建方法、装置、设备与介质与流程

2022-04-30 15:08:43 来源：中国专利 TAG：

1.本发明涉及贷前信用审批技术领域，尤其涉及基于数据迁移的违约模型构建方法、装置、设备与介质。

背景技术：

2.随着互联网技术和金融市场的发展，信贷信息呈爆炸式增长，信贷的业务场景也逐渐多元化。对于新信贷业务场景，通常存在业务初期样本数据积累不够的情况，而构建信贷模型通常需要较大数量的建模样本数据。
3.目前通常是将成熟信贷业务场景下的信贷模型通过调整拒绝阈值的方式直接应用到新信贷业务场景，待新信贷业务场景的样本数据积累足够之后，再开发新信贷业务场景的信贷模型。成熟信贷业务场景与新信贷业务场景的客户群体存在较大的差别，将成熟的信贷业务场景的信贷模型通过调整后直接运用到新的信贷业务场景，导致新贷业务场景的信贷模型应用效果较差，而且新信贷业务场景的信贷模型中没有利用到新信贷业务场景的样本数据。
4.目前，在新信贷业务场景的初期样本数据积累不够的情况下，无法构建出适合新信贷业务场景的信贷模型。

技术实现要素：

5.本发明的主要目的在于提出一种基于数据迁移的违约模型构建方法、装置、设备与介质，旨在利用不同信贷场景的数据迁移构建适合新贷业务场景的信贷模型。
6.为实现上述目的，本发明提供一种基于数据迁移的违约模型构建方法，所述基于数据迁移的违约模型构建方法包括如下步骤：
7.获取源域数据和目标域数据；
8.基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据；
9.基于所述目标数据构建违约模型。
10.优选地，所述获取源域数据和目标域数据的步骤包括：
11.基于预设业务需求对第一业务场景的样本数据进行筛选以获得源域数据；
12.基于预设业务需求对第二业务场景的样本数据进行筛选以获得目标域数据。
13.优选地，所述基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据的步骤之前，还包括：
14.获取所述源域数据和所述目标域数据的区别特征变量；
15.基于所述源域数据和所述目标域数据以及所述区别特征变量，对初始模型进行迭代训练，获得预设扩散模型。
16.优选地，所述基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据的步骤包括：
17.通过预设扩散模型，对所述源域数据和所述目标域数据进行评估，得到所述源域数据对应的第一评估分数与所述目标域数据对应的第二评估分数；
18.根据所述第二评估分数设置预设分数；
19.根据预设分数对所述第一评估分数对应的所述源域数据进行筛选，得到筛选后的源域数据；
20.将所述筛选后的源域数据确定为目标数据。
21.优选地，所述基于所述目标数据构建目标违约模型的步骤包括：
22.根据所述目标域数据对所述目标数据进行加权处理，得到处理后的目标数据；
23.将所述处理后的目标数据作为样本，并对所述样本添加正负标签，得到带有正标签的样本和负标签的样本；
24.根据所述正标签的样本和所述负标签的样本构建违约模型。
25.优选地，所述根据所述目标域数据对所述目标数据进行加权处理，得到处理后的目标数据的步骤包括：
26.获取所述目标域数据的第一样本数量，以及所述目标数据的第二样本数量；
27.根据所述第一样本数量和所述第二样本数量对所述目标数据进行加权处理，得到处理后的目标数据。
28.本技术提供一种信贷违约分析方法，所述信贷违约分析方法包括：
29.获取待分析数据，以及待分析数据的信贷信息；
30.将所述待分析数据作为样本，并对所述样本添加正负标签，得到待分析数据的正负标签；
31.基于所述待分析数据和所述待分析数据的信贷信息以及所述待分析数据的正负标签，通过所述违约模型进行信贷违约分析，其中，所述违约模型是根据源域数据和目标域数据确定的目标数据构建的。
32.此外，为实现上述目的，本发明还提供一种基于数据迁移的违约模型构建装置，所述基于数据迁移的违约模型构建装置包括：
33.获取模块，用于获取源域数据和目标域数据；
34.确定模块，用于基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据；
35.构建模块，用于基于所述目标数据构建违约模型。
36.优选地，获取模块还用于：
37.基于预设业务需求对第一业务场景的样本数据进行筛选以获得源域数据；
38.基于预设业务需求对第二业务场景的样本数据进行筛选以获得目标域数据。
39.优选地，确定模块还用于：
40.获取所述源域数据和所述目标域数据的区别特征变量；
41.基于所述源域数据和所述目标域数据以及所述区别特征变量，对初始模型进行迭代训练，获得预设扩散模型。
42.优选地，确定模块还用于：
43.通过预设扩散模型，对所述源域数据和所述目标域数据进行评估，得到所述源域数据对应的第一评估分数与所述目标域数据对应的第二评估分数；
44.根据所述第二评估分数设置预设分数；
45.根据预设分数对所述第一评估分数对应的所述源域数据进行筛选，得到筛选后的源域数据；
46.将所述筛选后的源域数据确定为目标数据。
47.优选地，构建模块还用于：
48.根据所述目标域数据对所述目标数据进行加权处理，得到处理后的目标数据；
49.将所述处理后的目标数据作为样本，并对所述样本添加正负标签，得到带有正标签的样本和负标签的样本；
50.根据所述正标签的样本和所述负标签的样本构建违约模型。
51.优选地，构建模块还用于：
52.获取所述目标域数据的第一样本数量，以及所述目标数据的第二样本数量；
53.根据所述第一样本数量和所述第二样本数量对所述目标数据进行加权处理，得到处理后的目标数据。
54.本技术还提供一种信贷违约分析装置，所述信贷违约分析装置包括：
55.获取模块，用于获取待分析数据，以及待分析数据的信贷信息；
56.添加模块，用于将所述待分析数据作为样本，并对所述样本添加正负标签，得到待分析数据的正负标签；
57.分析模块，用于基于所述待分析数据和所述待分析数据的信贷信息以及所述待分析数据的正负标签，通过所述违约模型进行信贷违约分析，其中，所述违约模型是根据源域数据和目标域数据确定的目标数据构建的。
58.此外，为实现上述目的，本发明还提供一种设备，所述设备为基于数据迁移的违约模型构建设备，所述基于数据迁移的违约模型构建设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于数据迁移的违约模型构建程序，所述基于数据迁移的违约模型构建程序被所述处理器执行时实现如上所述的基于数据迁移的违约模型构建方法的步骤。
59.此外，为实现上述目的，本发明还提供一种设备，所述设备为信贷违约分析设备，所述信贷违约分析设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信贷违约分析程序，所述信贷违约分析程序被所述处理器执行时实现如上所述的信贷违约分析方法的步骤。
60.此外，为实现上述目的，本发明还提供一种介质，所述介质为计算机可读存储介质，所述计算机可读存储介质上存储有基于数据迁移的违约模型构建程序，所述基于数据迁移的违约模型构建程序被处理器执行时实现如上所述的基于数据迁移的违约模型构建方法的步骤。
61.此外，为实现上述目的，本发明还提供一种介质，所述介质为计算机可读存储介质，所述计算机可读存储介质上存储有信贷违约分析程序，所述信贷违约分析程序被处理器执行时实现如上所述的信贷违约分析方法的步骤。
62.本发明提出的基于数据迁移的违约模型构建方法、装置、设备和介质；获取源域数据和目标域数据；基于所述源域数据和所述目标域数据，通过预设扩散模型确定目标数据；基于所述目标数据构建违约模型。由此，本发明通过获取成熟业务场景的源域数据和新业
务场景的目标域数据；通过利用预设扩散模型从成熟业务场景的源域数据中筛选出与新业务场景的目标域数据的类似的样本数据，并将该类似的样本数据确定为目标数据；利用目标数据构建违约模型，实现利用不同信贷场景的数据迁移构建信贷模型。
附图说明
63.图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；
64.图2为本发明基于数据迁移的违约模型构建方法第一实施例的流程示意图；
65.图3为本发明基于数据迁移的违约模型构建方法第二实施例的流程示意图；
66.图4为图2所示方法中步骤s20的一子流程示意图；
67.图5为图2所示方法中步骤s30的一子流程示意图；
68.图6为图2所示方法中预设扩散模型的源域数据与目标域数据的评分分布示意图；
69.图7为本发明信贷违约分析方法第一实施例的流程示意图；
70.图8为本发明基于数据迁移的违约模型构建方法第一实施例的功能模块示意图；
71.图9为本发明信贷违约分析方法第一实施例的功能模块示意图。
72.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
73.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
74.如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
75.本发明实施例设备可以是移动终端或服务器设备。
76.如图1所示，该设备可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
77.本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
78.如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于数据迁移的违约模型构建程序。
79.其中，操作系统是管理和控制基于数据迁移的违约模型构建设备与软件资源的程序，支持网络通信模块、用户接口模块、基于数据迁移的违约模型构建程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1002；用户接口模块用于管理和控制用户接口1003。
80.在图1所示的基于数据迁移的违约模型构建设备中，所述基于数据迁移的违约模型构建设备通过处理器1001调用存储器1005中存储的页面生成程序，并执行下述基于数据迁移的违约模型构建方法各个实施例中的操作。
81.基于上述硬件结构，提出本发明基于数据迁移的违约模型构建方法实施例。
82.参照图2，图2为本发明基于数据迁移的违约模型构建方法第一实施例的流程示意图，所述方法包括：
83.步骤s10，获取源域数据和目标域数据；
84.步骤s20，基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据；
85.步骤s30，基于所述目标数据构建违约模型。
86.本实施例通过获取成熟业务场景的源域数据和新业务场景的目标域数据；通过利用预设扩散模型从成熟业务场景的源域数据中筛选出与新业务场景的目标域数据的类似的样本数据，并将该类似的样本数据确定为目标数据；利用目标数据构建违约模型，实现利用不同信贷场景的数据迁移构建信贷模型。
87.以下将对各个步骤进行详细说明：
88.步骤s10，获取源域数据和目标域数据。
89.在本实施例中，通过从不同的渠道获取源域数据和目标域数据，可以是通过系统中的业务数据库中获取源域数据和目标域数据，也可以是通过不同用户的客户端中获取源域数据和目标域数据；其中，不同的用户包括业务人员、客户、第三方机构人员。本实施例对获取源域数据和目标域数据的渠道不作限定。在本实施例中，通过获取成熟业务场景的源域数据和新业务场景的目标域数据。
90.进一步地，在一实施例中，步骤s10包括：
91.步骤s11，基于预设业务需求对第一业务场景的样本数据进行筛选以获得源域数据；
92.在一实施例中，先设置一个预设业务需求，该预设业务需求为筛选源域数据和目标域数据的条件，预设业务需求可以为新业务场景的业务需求。对于新业务场景，通常存在新业务场景初期样本数据累计不足的情况，而构建新业务场景的违约模型需要较大数量的建模样本。根据新业务场景的业务需求，对成熟业务场景中的样本数据进行筛选，获取成熟业务场景的源域数据。
93.步骤s12，基于预设业务需求对第二业务场景的样本数据进行筛选以获得目标域数据。
94.在一实施例中，先设置一个预设业务需求，该预设业务需求为筛选源域数据和目标域数据的条件，预设业务需求可以为新业务场景的业务需求。对于新业务场景，通常存在新业务场景初期样本数据累计不足的情况，而构建新业务场景的违约模型需要较大数量的建模样本。根据新业务场景的业务需求，对新业务场景的样本数据进行筛选，获取新业务场景的目标域数据。
95.步骤s20，基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据。
96.在本实施例中，先构建一个预设扩散模型，该预设扩散模型为从成熟业务场景的源域数据中筛选出与新业务场景的目标域数据的类似样本数据的条件，预设扩散模型可以为looklike(人群扩散算法)模型。根据获取到的成熟业务场景的源域数据和新业务场景的目标域数据，通过looklike模型从成熟业务场景的源域数据中选取与新业务场景的目标域数据类似的样本数据，并将类似的样本数据与新业务场景下的目标域数据进行匹配，将匹
配后的类似的样本数据确定为目标数据。
97.步骤s30，基于所述目标数据构建违约模型。
98.在本实施例中，通过将目标数据进行处理，将处理后的目标数据去拟合新业务场景的目标域数据；利用处理后的目标数据构建适合新业务场景的违约模型，实现利用成熟业务业务场景的源域数据和新业务场景的目标域数据通过数据迁移的方式构建新业务场景的违约模型。
99.本实施例通过获取成熟业务场景的源域数据和新业务场景的目标域数据；通过利用预设扩散模型从成熟业务场景的源域数据中筛选出与新业务场景的目标域数据的类似的样本数据，并将该类似的样本数据确定为目标数据；利用目标数据构建违约模型，实现利用不同信贷场景的数据迁移构建信贷模型。
100.进一步地，基于本发明基于数据迁移的违约模型构建方法第一实施例，提出本发明基于数据迁移的违约模型构建方法第二实施例。
101.基于数据迁移的违约模型构建方法的第二实施例与基于数据迁移的违约模型构建方法的第一实施例的区别在于，在步骤s20，基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据的过程之前，参照图3，基于数据迁移的违约模型构建还包括：
102.步骤a10，获取所述源域数据和所述目标域数据的区别特征变量；
103.步骤a20，基于所述源域数据和所述目标域数据以及所述区别特征变量，对初始模型进行迭代训练，获得预设扩散模型。
104.在本实施例中，通过获取到的成熟业务场景的源域数据，以及新业务场景的目标域数据的区别特征变量；并将成熟业务场景的源域数据和新业务场景的目标域数据以及区别特征变量输入到一个初始模型中，对该初始模型进行迭代训练，选取模型评估指标最优的训练模型作为预设扩散模型，从而提高预设扩散模型后续进行数据迁移的准确性。
105.以下将对各个步骤进行详细说明：
106.步骤a10，获取所述源域数据和所述目标域数据的区别特征变量。
107.在本实施例中，通过获取到的成熟业务场景的源域数据和新业务场景的目标域数据的区别特征变量，该区别特征变量主要选择与成熟业务场景的源域数据和新业务场景的目标域数据分类相关的变量维度，如一些基础属性信息，比如年龄、性别、学历、地域等，以及一些与待建的预设扩散模型相关的成熟业务场景的源域数据和新业务场景的目标域数据维度信息。将获取到的区别特征变量组成候选的变量池。如，将区别特征变量选取为用户基础信息中的年龄，成熟业务场景的源域数据中的用户可能大部分为30周岁到50周岁的中年人，新业务场景的目标域数据的中的用户可能大部分为30周岁以内的年轻人。
108.步骤a20，基于所述源域数据和所述目标域数据以及所述区别特征变量，对初始模型进行迭代训练，获得预设扩散模型。
109.在一实施例中，通过将获取到的成熟业务场景的源域数据和新业务场景的目标域数据，以及区别特征变量组成候选的变量池输入到一个初始模型中，对该初始模型进行迭代训练，选取auc(area under curve，模型评估指标)最优的训练模型作为预设扩散模型。
110.auc被定义为roc曲线(receiver operating characteristic curve，受试者工作特征曲线)下与坐标轴围成的面积，auc的取值范围在0.5和1之间。auc越接近1.0，检测方法
区分能力强；越接近0.5，则模型区分能力弱，无应用价值。roc曲线是根据分界值或决定阈不同的二分类方式，以真正率为纵坐标，假正率为横坐标绘制的曲线。
111.在本实施例中，通过获取到的成熟业务场景的源域数据和新业务场景的目标域数据的区别特征变量；并将成熟业务场景的源域数据和新业务场景的目标域数据以及区别特征变量输入到一个初始模型中，对该初始模型进行迭代训练，选取模型评估指标最优的训练模型作为预设扩散模型，从而提高预设扩散模型后续进行数据迁移的准确性。
112.进一步地，基于本发明基于数据迁移的违约模型构建方法第一、第二实施例，提出本发明基于数据迁移的违约模型构建方法第三实施例。
113.基于数据迁移的违约模型构建方法的第三实施例与基于数据迁移的违约模型构建方法的第一、第二实施例的区别在于，本实施例是对步骤s20，基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据的细化，参照图4，该步骤具体包括：
114.步骤s21，通过预设扩散模型，对所述源域数据和所述目标域数据进行评估，得到所述源域数据对应的第一评估分数与所述目标域数据对应的第二评估分数；
115.步骤s22，根据所述第二评估分数设置预设分数；
116.步骤s23，根据预设分数对所述第一评估分数对应的所述源域数据进行筛选，得到筛选后的源域数据；
117.步骤s24，将所述筛选后的源域数据确定为目标数据。
118.在本实施例中，通过预设扩散模型，对成熟业务场景的源域数据和新业务场景的目标域数据利用评分的方式进行区分，得到成熟业务场景的源域数据对应的第一评估分数和新业务场景的目标域数据对应的第二评估分数；根据第二估分设置一个预设分数，根据预设分数对第一评估分数对应的源域数据进行筛选，得到筛选后的源域数据；并将筛选后的源域数据确定为目标数据；提高目标数据的准确性。
119.以下将对各个步骤进行详细说明：
120.步骤s21，通过预设扩散模型，对所述源域数据和所述目标域数据进行评估，得到所述源域数据对应的第一评估分数与所述目标域数据对应的第二评估分数。
121.在本实施例中，在预设扩散模型中，通过每个源域数据和每个目标域数据中的信贷信息、基础信息等信息；并根据这些信息对成熟业务场景的源域数据和新业务场景的目标域数据进行打分，得到源域数据对应的第一评估分数和目标域数据对应的第二评估分数。
122.步骤s22，根据所述第二评估分数设置预设分数。
123.在本实施例中，根据目标域数据对应的第二评估分数进行设置预设分数，如，在新业务场景的目标域数据中，选取10个目标域数据的第二评估分数包括有[0.5，0.6，0.6，0.7，0.7，0.7，0.8，0.8，0.9，1]；在成熟业务场景的源域数据中，选取10个源域数据对应的第一评估分数包括有[0，0.1，0.2，0.3，0.6，0.7，0.7，0.8，0.8，0.9]，可以将预设分数设置在(0.6，0.9)这个数值区域之间。在另一实施例，实际的预设分数可根据实际情况进行设置。
[0124]
步骤s23，根据预设分数对所述第一评估分数对应的所述源域数据进行筛选，得到筛选后的源域数据。
[0125]
在本实施例中，根据预设分数对源域数据进行筛选，如，在成熟业务场景的源域数据中，选取10个源域数据对应的第一评估分数包括有[0，0.1，0.2，0.3，0.6，0.7，0.7，0.8，0.8，0.9]；在新业务场景的目标域数据中，选取10个目标域数据的第二评估分数包括有[0.5，0.6，0.6，0.7，0.7，0.7，0.8，0.8，0.9，1]；根据第二评估分数设置的预设分数在(0.6，0.9)这个数值区域之间；根据预设分数对这10个源域数据[0，0.1，0.2，0.3，0.6，0.7，0.7，0.8，0.8，0.9]进行筛选，得到筛选后的6个源域数据包括有[0.6，0.7，0.7，0.8，0.8，0.9]，这6个源域数据为筛选后的源域数据。
[0126]
步骤s24，将所述筛选后的源域数据确定为目标数据。
[0127]
在本实施例中，根据预设分数对源域数据进行筛选，如，在成熟业务场景的源域数据中，选取10个源域数据对应的第一评估分数包括有[0，0.1，0.2，0.3，0.6，0.7，0.7，0.8，0.8，0.9]；在新业务场景的源域数据中，选取10个目标域数据的第二评估分数包括有[0.5，0.6，0.6，0.7，0.7，0.7，0.8，0.8，0.9，1]；根据目标域数据对应的第二评估分数设置的预设分数，将该预设分数设置在(0.6，0.9)这个数值区域之间；根据预设分数对成熟业务场景中的10个源域数据[0，0.1，0.2，0.3，0.6，0.7，0.7，0.8，0.8，0.9]进行筛选，得到筛选后的6个源域数据包括有[0.6，0.7，0.7，0.8，0.8，0.9]；并将这6个源域数据为筛选后的源域数据确定为目标数据。
[0128]
在本实施例中，通过预设扩散模型，对成熟业务场景的源域数据和新业务场景的目标域数据利用评分的方式进行区分，得到成熟业务场景的源域数据对应的第一评估分数和新业务场景的目标域数据对应的第二评估分数；根据第二估分设置一个预设分数，根据预设分数对第一评估分数对应的源域数据进行筛选，得到筛选后的源域数据；并将筛选后的源域数据确定为目标数据；提高目标数据的准确性。
[0129]
进一步地，基于本发明基于数据迁移的违约模型构建方法第一、第二、第三实施例，提出本发明基于数据迁移的违约模型构建方法第四实施例。
[0130]
基于数据迁移的违约模型构建方法的第四实施例与基于数据迁移的违约模型构建方法的第一、第二、第三实施例的区别在于，本实施例是对步骤s30，基于所述目标数据构建违约模型的细化，参照图5，该步骤具体包括：
[0131]
步骤s31，根据所述目标域数据对所述目标数据进行加权处理，得到处理后的目标数据；
[0132]
步骤s32，将所述处理后的目标数据作为样本，并对所述样本添加正负标签，得到带有正标签的样本和负标签的样本；
[0133]
步骤s33，根据所述正标签的样本和所述负标签的样本构建违约模型。
[0134]
在本实施例中，通过根据目标域数据对目标数据进行加权处理，得到处理后的目标数据；并将处理好的数据作为样本，对每一个样本添加正标签或者负标签，得到带有正标签的样本和负标签的样本；并根据带有正标签的样本和负标签的样本构建违约模型，进一步提高了违约模型的准确性。
[0135]
以下将对各个步骤进行详细说明：
[0136]
步骤s31，根据所述目标域数据对所述目标数据进行加权处理，得到处理后的目标数据。
[0137]
在本实施例中，将目标数据都投放到一个样本集，获取样本集数量；参照目标数据
的样本数量，通过利用新业务场景的目标域数据对目标数据对应的加权处理，得到处理后的目标数据。
[0138]
进一步地，在一实施例中，在步骤s31中，所述根据所述目标域数据对所述目标数据进行加权处理，得到处理后的目标数据的步骤具体包括：
[0139]
步骤b10，获取所述目标域数据的第一样本数量，以及所述目标数据的第二样本数量。
[0140]
在本实施例中，参照图6，图6中虚线为源域数据的looklike评分分布，实线为目标域数据的评分分布，灰色区域为源域数据和目标域数据的评分发布的交集；横坐标为评分分值，纵坐标为源域数据和目标域数据的评分分值的占比。通过对获取新业务场景的目标域数据中的每一个样本数据叠加的方式获取新业务场景的目标域数据的样本数量，并将新业务场景的目标域数据的样本数量作为第一样本数量；通过对目标数据中的每一个样本数据叠加的方式获取目标数据的样本数量，并将目标数据的样本数量作为第一样本数量作为第二样本数量。
[0141]
步骤b20，根据所述第一样本数量和所述第二样本数量对所述目标数据进行加权处理，得到处理后的目标数据。
[0142]
在本实施例中，参照图6，通过对分数一致的目标数据调节权重，可以去拟合目标域数据分布。通过根据目标域数据的第一样本数量和目标数据的第二样本数量，对目标数据进行加权处理，得到处理后的目标数据。如，在新业务场景的目标域数据中，选取10个目标域数据的评估分数包括有[0.1，0.2，0.2，0.3，0.3，0.3，0.4，0.4，0.4，0.4]；在成熟业务场景的源域数据中筛选的目标数据中，目标数据的评估分数包括有[0.1，0.1，0.2，0.2，0.3，0.4]；在新业务场景的评估分数中0.1出现一次，0.2出现两次，0.3出现3次，0.4出现四次；在成熟业务场景的评估分数中0.1出现两次，0.2出现两次，0.3出现一次，0.4出现一次；对成熟业务场景的目标数据的评估分数通过调节权重去拟合新业务场景的目标域数据的评估分数分布；将成熟业务场景的目标数据的评分分数拟合后的结果为0.1出现一次，0.2出现两次，0.3出现3次，0.4出现四次，也即，目标数据的评分分数拟合后的结果为目标域数据的评分分数的分布。其中，目标数据的评估分数[0.1，0.1，0.2，0.2，0.3，0.4]对应的权重为[0.5，0.5，1，1，3，4]。其中，实际加权的权重可根据实际情况进行设置。
[0143]
步骤s32，将所述处理后的目标数据作为样本，并对所述样本添加正负标签，得到带有正标签的样本和负标签的样本。
[0144]
在本实施例中，通过给处理后的目标数据中的每一个样本数据添加正标签或者是负标签，得到带有正标签的样本和负标签的样本。如，有5个处理后的数据包括有[a，b，c，d，e]，通过给这5个处理后的数据添加正标签或者是负标签，得到添加标签后的样本，正标签的样本包括有[a，b，c]，负标签的样本包括有[d，e]。
[0145]
步骤s33，根据所述正标签的样本和所述负标签的样本构建违约模型。
[0146]
在本实施例中，通过将带有正标签的样本和带有负标签的样本输入到一个初始模型，通过对该初始模型进行迭代训练，选取模型评估指标最优的训练模型作为违约模型。
[0147]
在本实施例中，通过根据目标域数据对目标数据进行加权处理，得到处理后的目标数据；并将处理好的数据作为样本，对每一个样本添加正标签或者负标签，得到带有正标签的样本和负标签的样本；并根据目标数据，以及目标数据对应的正标签或者负标签样本
构建违约模型，进一步提高了违约模型的准确性。
[0148]
参照图7，图7为本发明信贷违约分析方法第一实施例的流程示意图，所述信贷违约分析方法包括：
[0149]
步骤c10，获取待分析数据，以及待分析数据的信贷信息；
[0150]
步骤c20，将所述待分析数据作为样本，并对所述样本添加正负标签，得到待分析数据的正负标签；
[0151]
步骤c30，基于所述待分析数据和所述待分析数据的信贷信息以及所述待分析数据的正负标签，通过所述违约模型进行信贷违约分析，其中，所述违约模型是根据源域数据和目标域数据确定的目标数据构建的。
[0152]
在本实施例中，通过获取待分析数据和待分析数据对应的信贷信息；将待分析数据作为样本，给待分析数据中的每一个样本数据进行添加正标签或者是负标签，得到待分析数据的正负标签；将待分析数据、待分析数据的信贷信息以及待分析数据的正负标签输入到已经训练好的违约模型中，通过违约模型对待分析数据进行信贷违约分析，从而提高待分析数据的信贷分析的效率。
[0153]
以下将对各个步骤进行详细说明：
[0154]
步骤c10，获取待分析数据，以及待分析数据的信贷信息；
[0155]
在本实施例中，通过从不同的渠道获取待分析数据以及待分析数据的信贷信息，可以是通过系统中的业务数据库获取，也可以是通过不同用户的用户端获取；其中，不同的用户包括业务人员、客户、第三方机构人员。其中，待分析数据的信贷信息包括但不限于用户基础信息和借贷信息等，用户基础信息包括但不限于姓名、年龄、学历、工作、地域等信息；借贷信息包括但不限于用户的车贷、房贷等信息。
[0156]
步骤c20，将所述待分析数据作为样本，并对所述样本添加正负标签，得到待分析数据的正负标签；
[0157]
在本实施例中，通过对待分析数据中的每一个样本数据添加正标签或者是负标签，得到待分析数据对应的待分析数据的正负标签。如，待分析数据包括有[a，d，c，e，f，g]，给这些待分析数据进行添加正标签或者负标签，添加正标签的样本有[a，d，c]，添加负标签的样本有[e，f，g]，得到待分析数据中的每一个样本的正负标签。
[0158]
步骤c30，基于所述待分析数据和所述待分析数据的信贷信息以及所述待分析数据的正负标签，通过所述违约模型进行信贷违约分析，其中，所述违约模型是根据源域数据和目标域数据确定的目标数据构建的。
[0159]
在本实施例中，将待分析数据、待分析数据的信贷信息以及待分析数据的正负标签输入到已经训练好的违约模型中，通过违约模型对待分析数据进行信贷违约分析。其中，通过从源域数据中筛选出与目标域数据类似的样本数据，并将类似的样本数据作为目标数据，通过对目标数据调节权重去拟合目标域数据，进而构建出适合目标域数据的违约模型。
[0160]
在本实施例中，通过获取待分析数据和待分析数据对应的信贷信息；将待分析数据作为样本，给待分析数据中的每一个样本数据进行添加正标签或者是负标签，得到待分析数据的正负标签；将待分析数据、待分析数据的信贷信息以及待分析数据的正负标签输入到已经训练好的违约模型中，通过违约模型对待分析数据进行信贷违约分析，从而提高待分析数据的信贷分析的效率。
[0161]
本发明还提供一种基于数据迁移的违约模型构建装置。参照图8，本发明基于数据迁移的违约模型构建装置包括：
[0162]
获取模块d10，用于获取源域数据和目标域数据；
[0163]
确定模块d20，用于基于所述源域数据和所述目标域数据，通过预设扩散模型进行数据迁移，确定目标数据；
[0164]
构建模块d30，用于基于所述目标数据构建违约模型。
[0165]
本发明还提供一种信贷违约分析装置。参照图9，本发明信贷违约分析装置包括：
[0166]
获取模块e10，用于获取待分析数据，以及待分析数据的信贷信息；
[0167]
添加模块e20，用于将所述待分析数据作为样本，并对所述样本添加正负标签，得到待分析数据的正负标签；
[0168]
分析模块e30，用于基于所述待分析数据和所述待分析数据的信贷信息以及所述待分析数据的正负标签，通过所述违约模型进行信贷违约分析，其中，所述违约模型是根据源域数据和目标域数据确定的目标数据构建的。
[0169]
此外，本发明还提供一种介质，所述介质为计算机可读存储介质，其上存储有基于数据迁移的违约模型构建程序，所述基于数据迁移的违约模型构建程序被处理器执行时实现如上所述的基于数据迁移的违约模型构建方法的步骤。
[0170]
此外，本发明还提供一种介质，所述介质为计算机可读存储介质，其上存储有信贷违约分析程序，所述信贷违约分析程序被处理器执行时实现如上所述的信贷违约分析方法的步骤。
[0171]
其中，在所述处理器上运行的基于数据迁移的违约模型构建程序被执行时所实现的方法可参照本发明基于数据迁移的违约模型构建方法各个实施例，此处不再赘述。
[0172]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0173]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0174]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
[0175]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种交易数据快速审核校验方法与流程

基于数据迁移的违约模型构建方法、装置、设备与介质与流程

相关文献

最热文献