基于决策树的还款能力预测方法、装置、设备和存储介质与流程

2021-11-09 22:40:00 来源：中国专利 TAG：

1.本技术涉及数据分析技术领域，尤其涉及一种基于决策树的还款能力预测方法、装置、设备和存储介质。

背景技术：

2.信用评估是金融机构根据用户的各种信用资料得到的信用预测。还款能力属于信用评估中的一种，广泛应用于金融活动中以降低客户还款违约风险。现有技术中，大多数是单纯的根据用户的固有资产、现金流等单一特性信息推测用户的还款能力。这种评估预测方法考虑的维度过于单一，预测的还款能力往往片面、不准确。现有技术中还有一种方式是机械地将用户的多种用户信息维度通过加权的方式进行堆砌用来笼统的给用户打分，以评估用户的还款能力。这种笼统堆砌多种用户信息维度的方式，容易导致过多的无效用户信息维度或特征对还款能力的预测结果造成偏移，进而使预测的还款能力结果不准确。

技术实现要素：

3.为了解决现有技术中还款能力预测要不过于堆砌笼统、要不考虑的维度单一导致预测结果偏移或不准确的技术问题。本技术提供了一种基于决策树的还款能力预测方法、装置、设备和存储介质，其主要目的在于从多种组合维度来预测用户还款能力，提高还款能力预测的精确度。
4.为实现上述目的，本技术提供了一种基于决策树的还款能力预测方法，该方法包括：
5.根据已构建的决策树中节点的节点特征，从未知待预测用户的目标用户信息集合中提取目标用户信息作为目标特征信息，以组成与各个已构建的决策树分别对应的目标特征信息集合，其中，目标特征信息集合包括用户基本信息、资产信息、风险信息、负债信息、消费行为信息中的至少一种，不同的决策树对应不同的还款能力分类且决策树中节点的节点特征为对还款能力分类具有贡献的用户信息特征；
6.分别将每组目标特征信息集合中的目标特征信息输入至对应的决策树中，以获得在每个决策树中的目标决策路径，目标决策路径包括多个第一节点；
7.根据决策树中第一节点的信息增益，计算对应目标决策路径的第一指标结果；
8.根据不同还款能力分类的决策树对应的第一指标结果，确定未知待预测用户的实际还款能力。
9.此外，为实现上述目的，本技术还提供了一种基于决策树的还款能力预测装置，该装置包括：
10.第一特征信息提取模块，用于根据已构建的决策树中节点的节点特征，从未知待预测用户的目标用户信息集合中提取目标用户信息作为目标特征信息，以组成与各个已构建的决策树分别对应的目标特征信息集合，其中，所述目标特征信息集合包括用户基本信息、资产信息、风险信息、负债信息、消费行为信息中的至少一种，不同的决策树对应不同的
还款能力分类且决策树中节点的节点特征为对还款能力分类具有贡献的用户信息特征；
11.第一决策模块，用于分别将每组目标特征信息集合中的目标特征信息输入至对应的决策树中，以获得在每个决策树中的目标决策路径，目标决策路径包括多个第一节点；
12.第一计算模块，用于根据决策树中第一节点的信息增益，计算对应目标决策路径的第一指标结果；
13.判定模块，用于根据不同还款能力分类的决策树对应的第一指标结果，确定未知待预测用户的实际还款能力。
14.为实现上述目的，本技术还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时执行如前面任一项的基于决策树的还款能力预测方法的步骤。
15.为实现上述目的，本技术还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如前面任一项的基于决策树的还款能力预测方法的步骤。
16.本技术提出的基于决策树的还款能力预测方法、装置、设备和存储介质，通过不同还款能力对应的决策树来计算未知待预测用户在不同决策树中对应的指标结果，根据指标结果和不同决策树对应的已知还款能力来确定未知待预测用户的实际还款能力。不同决策树通过不同维度来预测用户属于该还款能力的可能性，并将可能性最高的决策树对应的还款能力确定为用户的实际还款能力，减少了简单的维度堆砌来笼统的评估用户还款能力导致还款能力评估的偏移，也减小了因遗漏有效维度对用户还款能力评估正确性的影响，提高了复杂、多维度数据分析问题的准确度，使得还款能力评估更加准确。
附图说明
17.图1为本技术一实施例中基于决策树的还款能力预测方法的应用场景图；
18.图2为本技术一实施例中基于决策树的还款能力预测方法的流程示意图；
19.图3为本技术一实施例中基于决策树的还款能力预测装置的结构框图；
20.图4为本技术一实施例中计算机设备的内部结构框图。
21.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
22.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
23.本技术提供的基于决策树的还款能力预测方法，可应用在如图1的应用环境中，其中，终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
24.图2为本技术一实施例中基于决策树的还款能力预测方法的流程示意图。参考图2，以该方法应用在图1中的终端设备为例进行说明。该基于决策树的还款能力预测方法包
括以下步骤s100
‑
s400。
25.s100：根据已构建的决策树中节点的节点特征，从未知待预测用户的目标用户信息集合中提取目标用户信息作为目标特征信息，以组成与各个已构建的决策树分别对应的目标特征信息集合，其中，目标特征信息集合包括用户基本信息、资产信息、风险信息、负债信息、消费行为信息中的至少一种，不同的决策树对应不同的还款能力分类且决策树中节点的节点特征为对还款能力分类具有贡献的用户信息特征。
26.具体地，未知待预测用户的目标用户信息集合是对收集的目标用户原始信息做无量纲化处理，例如数据清洗分类、格式统一处理等预处理得到的。目标特征信息集合均为目标用户信息集合的子集，且每个目标特征信息集合均不完全相同。目标用户信息集合包括未知待预测用户的至少一个目标用户信息，目标特征信息集合包括至少一个目标特征信息，目标特征信息为目标用户信息集合中的目标用户信息。所有已构建的决策树构成决策树模型，用于对用户进行还款能力预测。每个已构建的决策树对应不同的还款能力分类，决策树中每个节点的节点特征是经过验证筛选出的对预测还款能力有贡献的用户信息特征，决策树用于预测用户属于对应的还款能力分类的概率或可能性。本实施例中每种还款能力分类对应一棵决策树。还款能力分类包括至少2个不同的分类，在实际应用中，具体包括多少种还款能力分类，则对应多少棵决策树。例如，如果还款能力分类包括具备还款能力和不具备还款能力两种分类，则对应两棵决策树。例如，还款能力分类包括直接还款、处置还款、无可执行资产和不具备还款能力，则对应四棵决策树。本技术基于决策树的还款能力预测方法不局限于4棵决策树或2棵决策树。且每棵决策树中节点的节点特征不完全相同。
27.不同的决策树是从不完全相同的维度来预测考察用户的还款能力，因此，未知待预测用户的目标用户信息集合中可能只有部分目标用户信息是决策树需要用到的，因此，需要为每个决策树选取需要用到的目标特征信息组成目标特征信息集合。
28.目标用户信息集合包括未知待预测用户的基本信息、资产信息、关联关系信息、风险信息、负债信息、消费行为信息等。
29.其中：
30.基本信息包括：年龄、性别、工作年限、学历、婚姻状况、居住状况等。
31.资产信息包括：银行存款、银行贷款、理财财产(例如：证券、债券、保单、基金、信托、期货等财产)、股权金额、社保金额、公积金金额、知识产权金额、房产、车辆财产等。
32.关联关系信息包括：是否有关联企业、是否为法人、是否为董监高等。
33.风险信息包括：是否欠款、是否黑名单、是否逾期、逾期次数、处罚记录次数等。
34.负债信息包括：是否抵/质押保单、是否抵押房产、是否抵押车辆、是否抵/质押股权、是否被限制高消费、是否为失信被执行人等。
35.消费行为信息包括：长途出行频次、酒店档次、娱乐场所档次、度假场所频次、旅游景点频次、出入医美医院频次、出入理财类金融机构的频次等。
36.从目标用户信息集合中提取的目标特征信息包括基本信息中的部分子信息、资产信息中的部分子信息、关联关系信息中的部分子信息、风险信息中的部分子信息、负债信息中的部分子信息、消费行为信息中的部分子信息中的至少一种。
37.s200：分别将每组目标特征信息集合中的目标特征信息输入至对应的决策树中，以获得在每个决策树中的目标决策路径，目标决策路径包括多个第一节点。
38.具体地，不同的决策树使用不同的目标特征集合中的特征信息作为输入。决策树是由具有层级关系的节点组成，节点有预设的节点条件，目标特征信息集合中的目标特征信息作为节点特征的赋值、是节点条件的输入，基于目标特征信息执行节点条件得到执行结果。将目标特征信息输入至对应的决策树中，决策树从根节点开始根据上级节点的执行结果确定下级节点的原则依次执行各个途径的节点直至执行完成，形成目标决策路径。目标决策路径包括了多个第一节点。对于同一个决策树，目标特征信息作为输入会影响节点的走向，进而影响目标决策路径途径的节点。即不同的目标特征信息输入得到的目标决策路径可能不同。
39.s300：根据决策树中第一节点的信息增益，计算对应目标决策路径的第一指标结果。
40.具体地，每个决策树由具有层级关系的根节点及叶子节点组成，目标决策路径中的第一节点包括决策树中的至少一个节点。每个节点的信息增益已知，第一指标结果是根据目标决策路径中的第一节点的信息增益计算得到的。第一指标结果表征未知待预测用户的实际还款能力分类属于决策树对应的还款能力分类的可能性或概率。
41.在一个具体实施例中，第一指标结果为目标决策路径中的第一叶子节点的信息增益的乘积。
42.在另一个具体实施例中，第一指标结果为目标决策路径中的第一叶子节点的信息增益的加权。
43.s400：根据不同还款能力分类的决策树对应的第一指标结果，确定未知待预测用户的实际还款能力。
44.具体地，还款能力分类有多少种，决策树也相应有多少种，一个决策树对应一种还款能力分类。得到每个决策树对应的一个第一指标结果，将所有决策树的所有第一指标结果进行比较，确定其中值最大的一个第一指标结果的决策树所对应还款能力分类为该未知待预测用户的实际还款能力。
45.本技术通过不同还款能力对应的决策树来计算未知待预测用户在不同决策树中对应的指标结果，根据指标结果和不同决策树对应的已知还款能力来确定未知待预测用户的实际还款能力。不同决策树通过不同维度来预测用户属于该还款能力的可能性，并将可能性最高的决策树对应的还款能力确定为用户的实际还款能力，减少了简单的维度堆砌来笼统的评估用户还款能力导致还款能力评估的偏移，也减小了因遗漏有效维度对用户还款能力评估正确性的影响，提高了复杂、多维度数据分析问题的准确度，使得还款能力评估更加准确。
46.在一个实施例中，在步骤s100之前，该方法还包括：
47.获取训练样本集，训练样本集包括多个训练样本，每个训练样本包括已知还款能力的样本用户及对应的样本用户信息集合；
48.基于决策树生成算法以及训练样本集，采用信息增益准则和递归的方式从训练样本集中选择各个节点对应的样本用户信息加工为节点特征，以构建训练样本集对应的决策树；
49.将决策树中根据节点对应的样本用户信息计算得到的信息增益作为节点的信息增益。
50.具体地，在预测一个用户的还款能力的问题上，单纯的根据该用户的固有资产、现金流等单一特性信息进行预测，或者，将多个特征信息进行堆砌来预测，都不能保证预测结果的准确性。
51.本实施例中训练样本集包括不同还款能力分类所对应训练样本。每种还款能力分类对应的训练样本均包括多个。
52.决策树生成算法可以为决策树c4.5算法、id3算法等其中的一种。
53.以id3算法为例，在决策树各个节点上应用信息增益准则来选择特征，递归的构建决策树。具体方法是：从根节点开始，计算根节点所有可能的特征的信息增益，选择信息增益最大的特征作为根节点的特征。
54.由该根节点的特征的不同取值建立叶子节点，再对叶子节点采用递归的方式调用以上方法，即计算叶子节点所有可能的特征对应的信息增益，选择信息增益最大的特征作为该叶子节点的特征，如此类推，找出各个节点(根节点和叶子节点)的特征，以构建决策树，直到所有特征对应的信息增益均很小或没有特征可以选择为止。
55.以c4.5算法为例，id3算法通过信息增益选择分裂属性(特征)，c4.5算法通过信息增益率选择分裂属性(特征)。从根节点开始，计算根节点所有可能的特征对应的信息增益以及信息熵，根据特征对应的信息增益与信息熵的比例得到该特征对应的信息增益率，将根节点所有可能特征对应的所有信息增益率中最大信息增益率所对应的特征作为根节点的特征。
56.由该根节点的特征的不同取值建立叶子节点，再对叶子节点采用递归的方式调用以上方法，即计算叶子节点所有可能的特征的信息增益以及信息熵，根据特征的信息增益与信息熵的比例得到该特征对应的信息增益率，将叶子节点所有可能特征对应的所有信息增益率中最大信息增益率所对应的特征作为该叶子节点的特征，如此类推，找出各个节点(根节点和叶子节点)的特征，以构建决策树，直到所有特征的信息增益均很小或没有特征可以选择为止。
57.计算根节点或叶子节点所有可能的特征的信息增益的方法为：
58.利用特征a的属性值将训练样本集d划分为n个子数据集，
59.特征a的信息熵为：其中，d
k
表示第k个子数据集中训练样本的数量，d表示划分之前训练样本集中训练样本的总数量，k、n均为正整数，且，n大于等于1。
60.通过特征a划分之后训练样本集的信息增益为：
61.gain(d,a)＝ent(d)
‑
ent
a
(d)，其中，
62.其中，p(x
i
)为训练样本中分类标签xi在训练样本集d中出现的频率，即，分类标签为xi的样本的数量与总样本数量的比例。分类标签与还款能力分类对应，一种还款能力分类对应一种分类标签。j代表第j个分类标签。w＝2。
63.特征a对应的信息增益率为：
64.例如，以特征信息年龄为例，根据训练样本集特征信息年龄的取值包括0
‑
18、18
‑
30、30
‑
40、40
‑
50、50
‑
60、60
‑
150这6组，特征信息年龄根据这6组取值将训练样本集合划分为n个子数据集，n＝6，k小于等于6。本实施例的还款能力分类包括直接还款、处置还款、无可执行资产、不具备还款能力4种。则n＝4，j小于等于4。6个子数据集中样本的数量根据实际情况确定，根据还款能力分类每种还款能力对应的样本的数量也根据实际情况确定，即可根据上述公式计算出信息增益、信息熵以及信息增益率。
65.从同一还款能力分类的训练样本集所对应的样本用户信息中找出根节点所有可能的特征，每个特征为一个样本用户信息，通过特征的属性值对训练样本集进行划分，通过上述公式计算出该特征的信息增益或信息增益和信息熵。比较所有可能特征的信息增益，取信息增益最大的特征作为该根节点的特征，或，根据信息增益与信息熵的比值得到信息增益率，取信息增益率最大的特征作为该根节点的特征。采用递归的方式以此类推，得到后续叶子节点及叶子节点的层级关系。
66.样本用户具有不同的还款能力分类。还款能力分类包括直接还款、处置还款、无可执行资产、不具备还款能力。
67.直接还款：还款人的银行存款、理财财产(可随时赎回的，或理财周期截至时间小于还款截止时间)，并且个人名下没有拖欠其他类贷款。可以直接覆盖所涉及到的当前欠款金额。处置还款：还款人的银行存款理财财产小于当前所欠欠款金额，但个人名下的固定资产一个或累加金额大于当前的欠款金额。无可执行资产：以上两类的资产金额均不能覆盖当前所欠欠款金额，但个人的年龄、工作收入、学历、日常稳定收入、关联人等软实力可以在其满足基本生活的情况下，按照一定期限分笔还清欠款。不具备还款能力：以上三种情况均无法满足还清欠款并且无还清贷款的能力。
68.例如：相同欠款金额的两个人，一个人的高学历，高收入，无房产，无负债所计算的信息增益率和一个低学历，中等收入，有房产，无负债的信息增益率相同，但最终划定其还款能力时，可能前者为直接还款，后者为处置还款。
69.本实施例根据样本用户信息对应的信息增益或信息增益率来确定每个节点的特征，能够构建出具有最佳路径的决策树。且，根据样本用户的已知还款能力构建出不同还款能力分类所对应的决策树。使得从多种维度集合来构建不同还款能力分类的决策树，根据不同还款能力分类的决策树来确定未知待预测用户的还款能力更加准确。
70.在一个实施例中，在步骤s400之前，该方法还包括：
71.从已知还款能力的样本用户的样本用户信息集合中提取样本用户信息作为样本特征信息，以组成与各个已构建的决策树分别对应的样本特征信息集合，
72.分别将每组样本特征信息集合中的样本特征信息输入至对应的决策树中，以获得在每个决策树中的样本决策路径，样本决策路径包括多个第二节点，
73.根据样本决策树中第二节点的信息增益，计算对应样本决策路径的第二指标结果。
74.具体地，样本特征信息集合均为对应样本用户信息集合的子集，且每个样本特征信息集合均不完全相同。样本用户信息集合包括对应样本用户的至少一个样本用户信息，样本特征信息集合包括至少一个样本特征信息，样本特征信息为对应的样本用户信息集合中的样本用户信息。通过本实施例的方法可以获取每个样本用户在每个决策树所对应的样
本特征信息集合。
75.不同的决策树是从不完全相同的维度来预测考察用户的还款能力，因此，样本用户的样本用户信息集合中可能只有部分样本用户信息是决策树需要用到的，因此，需要为每个决策树选取需要用到的样本用户信息组成样本特征信息集合。
76.不同的决策树使用不同的样本特征集合中的样本特征信息作为输入。决策树是由具有层级关系的节点组成，节点有预设的节点条件，样本特征信息集合中的样本特征信息作为节点特征的赋值、是节点条件的输入，基于样本特征信息执行节点条件得到执行结果。将样本特征信息输入至对应的决策树中，决策树从根节点开始根据上级节点的执行结果确定下级节点的原则依次执行各个途径的节点直至执行完成，形成样本决策路径。样本决策路径包括了多个第二节点。对于同一个决策树，样本特征信息作为输入会影响节点的走向，进而影响样本决策路径途径的节点。即不同的样本特征信息输入得到的样本决策路径可能不同。每个样本用户对应着不同决策树的不同样本决策路径，即，每个样本用户对应着与决策树数量相同的不同样本决策路径。
77.每个决策树由具有层级关系的根节点及叶子节点组成，样本决策路径中的第二节点包括决策树中的至少一个节点。每个节点的信息增益已知，第二指标结果是根据目标决策路径中的第二节点的信息增益计算得到的。第二指标结果表征样本用户的实际还款能力分类属于决策树对应的还款能力分类的可能性或概率。
78.在一个具体实施例中，第二指标结果为样本决策路径中的第二叶子节点的信息增益的乘积。
79.在另一个具体实施例中，第二指标结果为样本决策路径中的第二叶子节点的信息增益的加权。
80.在一个实施例中，步骤s400具体包括以下步骤：
81.根据未知待预测用户对应的第一指标结果与样本用户对应的第二指标结果，计算未知待预测用户与样本用户对应的欧式距离，
82.根据欧式距离最短的前预设数量的参考样本用户的已知还款能力，预测未知待预测用户的实际还款能力，其中，参考样本用户属于样本用户，
83.或，
84.将所述未知待预测用户的实际还款能力确定为欧式距离最短的样本用户所对应的已知还款能力。
85.具体地，未知待预测用户对应的第一指标结果的数量与样本用户对应的第二指标结果的数量相同，相当于需要从多个维度来判断未知待预测用户对应哪个决策树的还款能力分类。对于多维度数据分析，本实施例采用欧式距离来表征在还款能力上未知待预测用户与各个样本用户的相似度。本实施例将样本用户通过欧式距离进行升序排序，选取欧式距离最短的前预设数量的样本用户作为参考样本用户。根据这预设数量的参考样本用户的已知还款能力来判定未知待预测用户的实际还款能力。
86.当然，本技术还可以将欧式距离最短的样本用户的已知还款能力确定为未知待预测用户的实际还款能力。欧式距离越短代表还款能力越相似。
87.在一个实施例中，根据未知待预测用户对应的第一指标结果与样本用户对应的第二指标结果，计算未知待预测用户与样本用户对应的欧式距离，包括：
88.将未知待预测用户对应的第一指标结果按照预设规则组成第一向量；
89.将样本用户对应的第二指标结果按照预设规则组成第二向量；
90.分别计算第一向量与各个第二向量的欧式距离。
91.具体地，未知待预测用户在每个决策树中都对应有第一指标结果，将这些指标结果按照预设规则组成一个多维的第一向量。预设规则是一种向量组成规则，用于定义不同决策树对应的指标结果作为向量元素在向量中的排序。
92.样本用户在每个决策树中都对应有第二指标结果，为了正确求解欧式距离，第二向量的组成规则需与第一向量组成的规则相同，这样求解的欧式距离才有意义。
93.例如：有4棵决策树，未知待预测用户在4棵决策树中对应的第一指标分别为a1、a2、a3、a4。组成第一向量可以将a1、a2、a3、a4按照任意顺序组合。例如第一向量a＝(a1，a2，a3，a4)，或，a＝(a1，a3，a2，a4)，或，a＝(a2，a1，a3，a4)，或，a＝(a1，a4，a2，a3)等等不局限于此。
94.任意一个样本用户在4棵决策树中对应的第一指标分别为b1、b2、b3、b4。组成第二向量需要按照第一向量的组成规则。例如第一向量a＝(a1，a2，a3，a4)，则第二向量b＝(b1，b2，b3，b4)；第一向量a＝(a1，a3，a2，a4)，则第二向量b＝(b1，b3，b2，b4)。
95.欧式距离的计算公式为：其中，m为决策树的数量，即向量的维度，例如有4棵决策树，则m＝4。x
i
为第一向量的第i个元素，y
i
为第二向量的第i个元素。每个样本用户对应一个第二向量，第一向量与多个第二向量分别计算欧式距离。
96.在一个实施例中，根据欧式距离最短的前预设数量的参考样本用户的已知还款能力，预测未知待预测用户的实际还款能力，包括：
97.获取欧式距离最近的前预设数量的参考样本用户中每个参考样本用户的已知还款能力；
98.按照已知还款能力对参考样本用户进行分类和数量统计；
99.依据多数表决原则，将未知待预测用户的实际还款能力确定为统计数量最多的参考样本用户所对应的已知还款能力。
100.具体地，预设数量根据实际情况定义，例如预设数量取10，还款能力分类包括4种，直接还款、处置还款、无可执行资产和不具备还款能力。10个参考样本用户中包括4个直接还款、3个处置还款、2个无可执行资产和1个不具备还款能力。则，可以确定该未知待预测用户的实际还款能力为直接还款。
101.在一个实施例中，第一指标结果为对应目标决策路径中第一节点的信息增益的乘积；
102.第二指标结果为对应样本决策路径中第二节点的信息增益的乘积。
103.在一个实施例中，从未知待预测用户的目标用户信息集合中提取目标用户信息作为目标特征信息，以组成与各个已构建的决策树分别对应的目标特征信息集合，包括：
104.获取各个已构建的决策树中每个节点的节点特征；
105.从未知待预测用户的目标用户信息集合中提取出与节点特征对应的目标用户信息作为目标特征信息，以组成对应决策树的目标特征信息集合。
106.具体地，从未知待预测用户的目标用户信息集合中提取出每个决策树中节点的节
点特征对应的目标用户信息作为目标特征信息，将同一个决策树所有节点对应的所有目标用户信息组成目标特征信息集合。
107.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
108.本技术的实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
109.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
110.图4为本技术一实施例中基于决策树的还款能力预测装置的结构框图。参考图4，该装置包括：
111.第一特征信息提取模块100，用于根据已构建的决策树中节点的节点特征，从未知待预测用户的目标用户信息集合中提取目标用户信息作为目标特征信息，以组成与各个已构建的决策树分别对应的目标特征信息集合，其中，目标特征信息集合包括用户基本信息、资产信息、风险信息、负债信息、消费行为信息中的至少一种，不同的决策树对应不同的还款能力分类且决策树中节点的节点特征为对还款能力分类具有贡献的用户信息特征；
112.第一决策模块200，用于分别将每组目标特征信息集合中的目标特征信息输入至对应的决策树中，以获得在每个决策树中的目标决策路径，目标决策路径包括多个第一节点；
113.第一计算模块300，用于根据决策树中第一节点的信息增益，计算对应目标决策路径的第一指标结果；
114.判定模块400，用于根据不同还款能力分类的决策树对应的第一指标结果，确定未知待预测用户的实际还款能力。
115.在一个实施例中，该装置还包括：
116.训练样本获取模块，用于获取训练样本集，训练样本集包括多个训练样本，每个训练样本包括已知还款能力的样本用户及对应的样本用户信息集合；
117.决策树构建模块，用于基于决策树生成算法以及训练样本集，采用信息增益准则和递归的方式从训练样本集中选择各个节点对应的样本用户信息加工为节点特征，以构建训练样本集对应的决策树；
118.信息增益计算模块，用于将决策树中根据节点对应的样本用户信息计算得到的信息增益作为节点的信息增益。
119.在一个实施例中，该装置还包括：
120.第二特征信息提取模块，用于从已知还款能力的样本用户的样本用户信息集合中提取样本用户信息作为样本特征信息，以组成与各个已构建的决策树分别对应的样本特征信息集合，
121.第二决策模块，用于分别将每组样本特征信息集合中的样本特征信息输入至对应的决策树中，以获得在每个决策树中的样本决策路径，样本决策路径包括多个第二节点，
122.第二计算模块，用于根据样本决策树中第二节点的信息增益，计算对应样本决策路径的第二指标结果。
123.在一个实施例中，判定模块400具体包括：
124.第三计算模块，用于根据未知待预测用户对应的第一指标结果与样本用户对应的第二指标结果，计算未知待预测用户与样本用户对应的欧式距离，
125.预测模块，用于根据欧式距离最短的前预设数量的参考样本用户的已知还款能力，预测未知待预测用户的实际还款能力，其中，参考样本用户属于样本用户
126.或，预测模块，用于将未知待预测用户的实际还款能力确定为欧式距离最短的样本用户所对应的已知还款能力。
127.在一个实施例中，第三计算模块具体包括：
128.第一向量组成单元，用于将未知待预测用户对应的第一指标结果按照预设规则组成第一向量；
129.第二向量组成单元，用于将样本用户对应的第二指标结果按照预设规则组成第二向量；
130.欧式距离计算单元，用于分别计算第一向量与各个第二向量的欧式距离。
131.在一个实施例中，预测模块具体包括：
132.还款能力获取单元，用于获取欧式距离最近的前预设数量的参考样本用户中每个参考样本用户的已知还款能力；
133.分类统计单元，用于按照已知还款能力对参考样本用户进行分类和数量统计；
134.预测单元，用于依据多数表决原则，将未知待预测用户的实际还款能力确定为统计数量最多的参考样本用户所对应的已知还款能力。
135.在一个实施例中，第一指标结果为对应目标决策路径中第一节点的信息增益的乘积；
136.第二指标结果为对应样本决策路径中第二节点的信息增益的乘积。
137.在一个实施例中，第一特征信息提取模块100具体包括：
138.节点特征获取模块，用于获取各个已构建的决策树中每个节点的节点特征；
139.信息匹配组合模块，用于从未知待预测用户的目标用户信息集合中提取出与节点特征对应的目标用户信息作为目标特征信息，以组成对应决策树的目标特征信息集合。
140.其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本技术中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。
141.关于基于决策树的还款能力预测装置的具体限定可以参见上文中对于基于决策树的还款能力预测方法的限定，在此不再赘述。上述基于决策树的还款能力预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于
或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
142.图4为本技术一实施例中计算机设备的内部结构框图。该计算机设备具体可以是图1中的终端设备。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质，也可以是易失性存储介质。存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现基于决策树的还款能力预测方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行基于决策树的还款能力预测方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
143.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序)，处理器执行计算机可读指令时实现上述实施例中基于决策树的还款能力预测方法的步骤，例如图2所示的步骤s100至步骤s400及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机可读指令时实现上述实施例中基于决策树的还款能力预测装置的各模块/单元的功能，例如图3所示模块100至模块400的功能。为避免重复，这里不再赘述。
144.处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。
145.存储器可用于存储计算机可读指令和/或模块，处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。
146.存储器可以集成在处理器中，也可以与处理器分开设置。
147.本领域技术人员可以理解，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
148.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中基于决策树的还款能力预测方法的步骤，例如图2所示的步骤s100至步骤s400及该方法的其它扩展和相关步骤的延伸。或者，计
算机可读指令被处理器执行时实现上述实施例中基于决策树的还款能力预测装置的各模块/单元的功能，例如图3所示模块100至模块400的功能。为避免重复，这里不再赘述。
149.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指示相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双倍速率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
150.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
151.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
152.以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据写入方法、装置、电子设备及计算机可读存储介质与流程

基于决策树的还款能力预测方法、装置、设备和存储介质与流程

相关文献

最热文献