一种样本扩充方法、装置、设备及可读存储介质与流程

2022-07-13 17:50:42 来源：中国专利 TAG：

1.本发明涉及智能金融技术领域，特别是涉及一种样本扩充方法、装置、设备及可读存储介质。

背景技术：

2.随着科技的发展，传统金融业正在逐步向智能化领域迈进，越来越多的信贷机构采用建立模型的方式实现相应的业务需求。比如在办理借贷业务之前利用已有风险表现的样本构建机器学习模型来对借款人的资质和风险进行评估，以确定借款人未来逾期风险，从而确保借贷资金安全、实现盈利。
3.然而信贷机构在开展新业务产品时会面临冷启动的问题，即需要等待一段时间才能积累足够多且满足表现期的建模样本，导致不能在新产品早期及时构建模型，无法及时对用户进行准确的评估。针对这种情况，目前主要采用基于实例的迁移学习方法来解决新产品冷启动时的建模问题。
4.但是，迁移学习方法需要积累一定量的新产品有标签样本后才能实施，客户从申请新信贷产品到有表现再到设置标签，通常需要等待一段时间，因此该方法无法实现及时分析处理；另外，迁移学习方法中需要设置样本的初始权重和选择比较合适的基分类器，而初始权重的设置比较依赖先验知识，初始权重设置不当或者基分类器选择不合适都会影响计算稳定性和最终模型效果，因此计算稳定性和精准度较差。
5.综上所述，如何快速精准地实现新产品建模样本集的扩充，是目前本领域技术人员急需解决的技术问题。

技术实现要素：

6.本发明的目的是提供一种样本扩充方法、装置、设备及可读存储介质，以快速精准扩充新产品建模样本集。
7.为解决上述技术问题，本发明提供如下技术方案：
8.一种样本扩充方法，包括：
9.接收到样本扩充请求后，确定待扩充的新产品的产品信息；其中，所述产品信息包括：属性信息以及表现期长度；
10.获取存储的各历史产品的属性信息；
11.根据所述新产品与各所述历史产品的属性信息，依据规则筛选出与所述新产品属性相似的历史产品，作为相似产品；
12.提取出所述相似产品对应存储的表现期长度不小于所述新产品的产品记录，作为候选样本；
13.将所述候选样本添加至所述新产品的样本集。
14.可选地，在所述将所述候选样本添加至所述新产品的样本集之前，还包括：
15.确定所述候选样本的数量；
16.判断所述数量是否属于目标范围；
17.若属于，执行所述将所述候选样本添加至所述新产品的样本集的步骤；
18.若不属于，根据所述数量与待配置样本数量间的差异调整所述规则，并执行所述根据所述新产品与各所述历史产品的属性信息，依据规则筛选出与所述新产品属性相似的历史产品的步骤。
19.可选地，在所述将所述候选样本添加至所述新产品的样本集之前，还包括：
20.确定所述候选样本的样本类型；其中，所述样本类型包括：好样本和坏样本；
21.提取出所述样本类型符合预设提取类型的候选样本，作为类型匹配样本；
22.则相应地，所述将所述候选样本添加至所述新产品的样本集，具体为：将所述类型匹配样本添加至所述新产品的样本集。
23.可选地，所述获取存储的历史产品的属性信息，包括：
24.读取历史存储的征信报告，解析所述征信报告中各历史产品属性，得到属性信息。
25.一种样本扩充装置，包括：
26.新产品确定单元，用于接收到样本扩充请求后，确定待扩充的新产品的产品信息；其中，所述产品信息包括：属性信息以及表现期长度；
27.历史产品确定单元，用于获取存储的各历史产品的属性信息；
28.属性比对单元，用于根据所述新产品与各所述历史产品的属性信息，依据规则筛选出与所述新产品属性相似的历史产品，作为相似产品；
29.表现期比对单元，用于提取出所述相似产品对应存储的表现期长度不小于所述新产品的产品记录，作为候选样本；
30.样本添加单元，用于将所述候选样本添加至所述新产品的样本集。
31.可选地，所述样本扩充装置还包括：规则反馈调节单元；所述规则反馈调节单元连接于所述表现期比对单元以及所述样本添加单元，用于在所述将所述候选样本添加至所述新产品的样本集之前，确定所述候选样本的数量；判断所述数量是否属于目标范围；若属于，触发所述样本添加单元；若不属于，根据所述数量与待配置样本数量间的差异调整所述规则，并触发所述属性比对单元。
32.可选地，所述样本扩充装置还包括：类型比对单元；所述类型比对单元连接于所述表现期比对单元以及所述样本添加单元，用于在所述将所述候选样本添加至所述新产品的样本集之前，确定所述候选样本的样本类型；其中，所述样本类型包括：好样本和坏样本；提取出所述样本类型符合预设提取类型的候选样本，作为类型匹配样本；
33.则相应地，与所述类型比对单元连接的所述样本添加单元具体用于：将所述类型匹配样本添加至所述新产品的样本集。
34.可选地，所述新产品确定单元具体为新产品征信解析单元，用于接收到样本扩充请求后，读取历史存储的征信报告，解析所述征信报告中各历史产品属性，得到属性信息。
35.一种计算机设备，包括：
36.存储器，用于存储计算机程序；
37.处理器，用于执行所述计算机程序时实现上述样本扩充方法的步骤。
38.一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述样本扩充方法的步骤。
39.本发明实施例提出了一种基于产品属性相似性来扩充风控样本方法，该方法直接从历史产品的记录数据中挑选属性相似且满足表现期时长的历史产品记录，将其作为新产品的扩充样本添加至样本集中进行建模分析，属性相似性的评判可以有效保障模型分析效果；且样本扩充的过程无需等待新产品的运行表现，具有高时效性；另外，该方法可以直接依据属性以及表现期长度自动进行指标判断，稳定性强且简单高效。
40.相应地，本发明实施例还提供了与上述样本扩充方法相对应的样本扩充装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。
附图说明
41.为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1为本发明实施例中一种样本扩充方法的实施流程图；
43.图2为本发明实施例中一种样本扩充装置的结构示意图；
44.图3为本发明实施例中一种计算机设备的结构示意图。
具体实施方式
45.本发明的核心是提供一种样本扩充方法，可以快速精准扩充新产品建模样本集。
46.为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
47.在对信贷产品进行建模时，经常会出现新产品的训练样本过少的情况。针对这种情况，目前主要采用基于实例的迁移学习方法来解决新产品冷启动时的建模问题，在此具体以迁移学习方法算法为tradaboost(待补充链接)算法为例进行介绍。
48.在包含源领域(其他产品场景)和目标领域(新产品场景)的训练数据集中，tradaboost会对调节训练样本的权重，从源领域挑选对目标领域训练有用的实例(即样本)加入到目标领域的训练集中。tradaboost算法开始前，需要选择一个基分类器，并为每个样本设置一个初始权重。每次迭代后，如果目标领域样本被错误分类，根据目标领域样本的分类错误率增加其权重，使得下次训练时更加关注这些被错分的目标领域样本。如果源领域样本被误分类后，tradaboost算法认为它们与目标领域数据分布不同，进而降低其权重。经过一定迭代次数后，tradaboost算法将源领域数据与目标领域分布差别较大的数据赋予一个很小的权重值，由此来弱化两个数据集的分布差异。最终的模型是由权重调节后的样本训练得到。tradaboost算法未在特征空间上做任何扭曲变换，能很好地保留模型的可解释性，在风控领域有着较为广泛的应用。
49.但是，该方法需要足量其他场景训练数据，并且需要积累一定量的新产品有标签样本后才能实施，客户从申请新信贷产品到有表现，通常需要等待一段时间，因此该方法无法实现及时分析处理；另外，tradaboost算法需要设置样本的初始权重和选择比较合适的
基分类器，而初始权重的设置比较依赖先验知识，而如果初始权重设置不当，或者基分类器选择不合适，都会影响计算稳定性和最终模型效果，因此算法计算稳定性和精准度较差。
50.针对于此，本发明提出了一种基于产品属性的相似性的样本扩充方法，请参考图1，图1为本发明实施例中一种样本扩充方法的流程图，该方法包括以下步骤：
51.s101、接收到样本扩充请求后，确定待扩充的新产品的产品信息；其中，产品信息包括：属性信息以及表现期长度；
52.用户发起样本扩充请求后，确定待扩充的新产品的产品信息，其中，产品信息具体可以包括：属性信息以及表现期长度。属性信息指可以指示产品类型、产品表现或者产品要求的信息。本方法中主要以属性信息作为评判标准来识别相似产品。出于不同的使用场景和使用目的，可以设置不同的属性信息，比如在信贷风控建模领域，属性信息具体可以包括：放款机构类型orgtype(比如可以分为商业银行、住房储蓄银行、消费金融公司、小额贷款公司、汽车金融公司、保险公司、信托公司、融资租赁公司等)、贷款类型loantype(比如可以分为个人住房贷款、个人汽车贷款、个人经营性贷款、个人消费贷款、农户贷款等)、贷款期数[mintotalnum，maxtotalnum]、授信金额[minamount,maxamount]、担保方式(比如可以分为信用担保、质押、组合(含保证)担保等)、还款方式(比如可以分为按日归还、按月归还、按季归还、一次性归还、按周归还、按年归还、不定期归还等)等。本实施例中对于属性信息中具体包含的信息类型不做限定，可以根据实际使用需要进行相应设定。表现期指对观察点上账户/客户表现进行监控的时间周期。比如一笔总期限为12期的贷款实际只还了2个月，则只有2个月的表现期。
[0053]
新产品的产品信息可以由人工配置，比如可以在接收到样本扩充请求时配置新产品属性信息，并设定新产品建模样本的表现期长度为m；也可以通过导入相应的产品信息文件来生成，本实施例中对于新产品的产品信息的生成方式不做限定。
[0054]
s102、获取存储的各历史产品的属性信息；
[0055]
本方法中“历史产品”为与“新产品”相较已有较为丰富的实际使用数据(或样本数据)的信贷产品。获取的历史产品的属性信息与获取的新产品的属性信息的具体信息类型相同，以实现相同信息类型间的相似性比对。历史产品的属性信息的介绍可以参照步骤s101对于新产品的属性信息的介绍，在此不再赘述。
[0056]
获取的各历史产品的属性信息一种格式如下表1所示：
[0057][0058]
表1
[0059]
本实施例中对于历史产品的属性信息的获取方式不做限定，可以预先为各历史产品配置属性信息数据库，比在应用产品采集应用数据后进行统计后录入等。为保证获取各历史产品真实且丰富的属性信息，可以读取历史存储的征信报告，解析征信报告中各历史产品属性，得到属性信息。在金融领域中，征信报告是非常重要的表征真实的个人信用状况的数据，征信上每条贷款记录都有多个属性，如放款日期、放款机构类型、放款机构代码、贷款类型、总期数、合同金额、担保方式、还款方式、币种等，因此可以满足不同信息类型的分析需求，且基于征信报告进行历史产品的属性分析，是极具真实性以及可靠性的。当然，也可以采取其他的历史产品属性信息获取方式，在此不再赘述。
[0060]
s103、根据新产品与各历史产品的属性信息，依据规则筛选出与新产品属性相似的历史产品，作为相似产品；
[0061]
规则与属性中的具体信息类型相对应设置，为基于属性信息的相似性筛选规则。由于在上述步骤中对于获取的属性信息不做具体信息类型的限定，因此本步骤中对于筛选的规则也不做具体限定，可以根据属性信息、具体的应用场景以及使用需要进行相应的规则设定。
[0062]
在信贷风控建模领域，一种规则可以定义如下：若历史贷款产品与新产品的发放机构类型和贷款类型一致，且历史贷款的贷款期数和合同额度都在新产品最小和最大区间范围内，则说明历史贷款与新产品属性相似。需要说明的是，这些条件不固定，可灵活增加或删减，本实施例中仅以上述规则为例进行介绍，具体可以根据实际使用需求进行自定义。
[0063]
根据设定的规则，提取相应的属性信息依次判断每个历史产品与新产品的相似性，若有任意一个历史产品满足设定的规则，则说明该样本与新产品属性相似，可作为扩充建模样本的备选样本，反之不能。
[0064]
s104、提取出相似产品对应存储的表现期长度不小于新产品的产品记录，作为候选样本；
[0065]
在确定出与新产品属性相似的历史产品后，若用户在相似产品上的表现期长度大于或等于新产品建模样本定义的表现期长度，则认为该产品记录可作为扩充建模样本的候选样本。
[0066]
假设新产品建模的表现期定义为12个月，则只有表现期满12个月的样本才能成为建模样本。若一笔总期限为12期的相似贷款，只还了2个月，则只有2个月表现期。虽然产品属性相似，但因表现期不足，不能成为候选样本。
[0067]
s105、将候选样本添加至新产品的样本集。
[0068]
在得到属性相似，且表现期长度足够的候选样本后，将其加入新产品建模的样本集中，以实现新产品样本集的扩充。
[0069]
基于上述介绍，本发明实施例提出了一种基于产品属性相似性来扩充风控样本方法，该方法直接从历史产品的记录数据中挑选属性相似且满足表现期时长的历史产品记录，将其作为新产品的扩充样本添加至样本集中进行建模分析，属性相似性的评判可以有效保障模型分析效果；且样本扩充的过程无需等待新产品的运行表现，具有高时效性；另外，该方法可以直接依据属性以及表现期长度自动进行指标判断，稳定性强且简单高效。
[0070]
需要说明的是，基于上述实施例，本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益
效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。
[0071]
在执行上述实施例步骤s105将候选样本添加至新产品的样本集之前，还可以进一步执行以下步骤：
[0072]
步骤s106、确定候选样本的数量；
[0073]
步骤s107、判断数量是否属于目标范围；若属于，执行步骤s108；若不属于，执行步骤s109；
[0074]
步骤s108、执行将候选样本添加至新产品的样本集的步骤；
[0075]
步骤s109、根据数量与待配置样本数量间的差异调整规则，并执行根据新产品与各历史产品的属性信息，依据规则筛选出与新产品属性相似的历史产品的步骤。
[0076]
通过对比得到的候选样本个数与所需候选样本集个数(即目标范围)的差异，若少于所需个数，则将规则的边界调宽；若大于所需个数，则将规则的边界调窄，通过不断加宽边界或这减窄边界，迭代反馈调节规则。逐渐找到数量合适且属性匹配的目标候选样本集。
[0077]
步骤s109中的规则调整机制需要与规则对应设置，由于上述实施例中对于规则不做具体限定，本实施例中对于规则的调整方式也不做限定。为加深理解，本实施例中介绍一种具体的规则下的调整方式；
[0078]
一种识别相似性的规则为：
[0079]
(org1＝＝orgtype)
[0080]
&&(typei＝＝loantype)
[0081]
&&(num1∈[mintotalnum-buffer1，maxtotalnum buffer2])
[0082]
&&(amt1∈[minamount-buffer3，maxamount buffer4])
[0083]
&&(m1≥m)
[0084]
其中，buffer1～buffer4是缓冲值，是为了对新产品贷款期数范围和授信额度区间进行动态拓宽或收紧，便于找到符合条件的建模样本。下边界必须大于0。
[0085]
通过对比得到的候选样本个数与所需候选样本集个数的差异，迭代反馈调节缓冲值。若少于所需个数，则将buffer设置为原来的1.1倍数，将下边界值减小，上边界值增大。若大于所需个数，则将buffer设置为原来的0.9倍，将下边界值增大，上边界值减小。具体规则的调整方式在此不做限定，可以通过调整阈值、调整取值范围、调整缓冲值等方式，本实施例中仅以调整缓冲值为例进行介绍。
[0086]
当然，也可不设定规则的反馈调节机制，严格挑选符合条件的候选样本，在此不做限定。
[0087]
基于上述介绍，本实施例提出了一种规则的反馈调节方法，可以用于解决各个新产品所需扩充样本集数量大小多样化的问题，满足不同使用场景的样本扩充需要。
[0088]
基于上述实施例，为进一步对候选样本进行精细化筛选，以满足不同的样本扩充需要，在执行上述实施例步骤s105将候选样本添加至新产品的样本集之前，还可以进一步执行以下步骤：
[0089]
步骤s110、确定候选样本的样本类型；其中，样本类型包括：好样本和坏样本；
[0090]
这些账户根据截止到表现点的表现被分类成“好”和“坏”。候选样本的好坏标签y，可根据新产品对y的定义在相似贷款产品上的表现加工得到。满足好坏定义的候选样本作为扩充样本。比如表现期满12个月且曾经出现30天以上逾期的样本为坏样本，表现期满12
个月但从未逾期定义为好样本等。若候选样本有多条满足条件的贷款记录，则可进行灵活设定样本的好坏标准，比如可以选最坏表现作为y或者任意为坏为则坏。
[0091]
步骤s111、提取出样本类型符合预设提取类型的候选样本，作为类型匹配样本；
[0092]
其中预设提取类型可以为好，可以为坏，也可以同时为好和坏，具体可以根据实际使用需要进行预设提取类型的设定，在此不做限定。
[0093]
则相应地，步骤s105将候选样本添加至新产品的样本集，具体为：将类型匹配样本添加至新产品的样本集。
[0094]
本实施例提出的方法，在筛选得到属性相似、表现期长度达标的候选样本的基础上，进一步进行好坏样本的筛选，从而满足不同的模型训练要求，提升方法的普适性。当然，也可以不进行上述设置，本实施例中对此不做限定。
[0095]
相应于上面的方法实施例，本发明实施例还提供了一种样本扩充装置，下文描述的样本扩充装置与上文描述的样本扩充方法可相互对应参照。
[0096]
参见图2所示，该装置包括以下模块：
[0097]
新产品确定单元110主要用于接收到样本扩充请求后，确定待扩充的新产品的产品信息；其中，产品信息包括：属性信息以及表现期长度；
[0098]
历史产品确定单元120主要用于获取存储的各历史产品的属性信息；
[0099]
属性比对单元130主要用于根据新产品与各历史产品的属性信息，依据规则筛选出与新产品属性相似的历史产品，作为相似产品；
[0100]
表现期比对单元140主要用于提取出相似产品对应存储的表现期长度不小于新产品的产品记录，作为候选样本；
[0101]
样本添加单元150主要用于将候选样本添加至新产品的样本集。
[0102]
在本发明的一种具体实施方式中，样本扩充装置还包括：规则反馈调节单元；规则反馈调节单元连接于表现期比对单元以及样本添加单元，用于在将候选样本添加至新产品的样本集之前，确定候选样本的数量；判断数量是否属于目标范围；若属于，触发样本添加单元；若不属于，根据数量与待配置样本数量间的差异调整规则，并触发属性比对单元。
[0103]
在本发明的一种具体实施方式中，样本扩充装置还包括：类型比对单元；类型比对单元连接于表现期比对单元以及样本添加单元，用于在将候选样本添加至新产品的样本集之前，确定候选样本的样本类型；其中，样本类型包括：好样本和坏样本；提取出样本类型符合预设提取类型的候选样本，作为类型匹配样本；
[0104]
则相应地，与类型比对单元连接的样本添加单元具体用于：将类型匹配样本添加至新产品的样本集。
[0105]
在本发明的一种具体实施方式中，新产品确定单元具体为新产品征信解析单元，用于接收到样本扩充请求后，读取历史存储的征信报告，解析征信报告中各历史产品属性，得到属性信息。
[0106]
相应于上面的方法实施例，本发明实施例还提供了一种计算机设备，下文描述的一种计算机设备与上文描述的一种样本扩充方法可相互对应参照。
[0107]
该计算机设备包括：
[0108]
存储器，用于存储计算机程序；
[0109]
处理器，用于执行计算机程序时实现上述方法实施例的样本扩充方法的步骤。
[0110]
具体的，请参考图3，为本实施例提供的一种计算机设备的具体结构示意图，该计算机设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在计算机设备301上执行存储器332中的一系列指令操作。
[0111]
计算机设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。
[0112]
上文所描述的样本扩充方法中的步骤可以由计算机设备的结构实现。
[0113]
相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种样本扩充方法可相互对应参照。
[0114]
一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的样本扩充方法的步骤。
[0115]
该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
[0116]
本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：海报背景图像选取、模型训练、海报生成方法及相关装置

一种样本扩充方法、装置、设备及可读存储介质与流程

相关文献

最热文献