一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

贷款管理策略确定方法、系统及电子设备与流程

2022-02-19 04:37:46 来源:中国专利 TAG:


1.本技术涉及计算机信息处理技术领域,尤其涉及一种贷款管理策略确定方法、系统及电子设备。


背景技术:

2.随着经济的不断发展,借贷服务的出现为资金急需者带来了便利。然而,对于提供贷款服务的网贷平台或商业银行等金融类服务机构来说,在对满足贷款申请条件的资金急需者(下文称为借款方)进行发放贷款后,要面临着借款方贷款不履约风险的发生。所谓贷款不履约是指借款方不能按贷款协议所规定的日期或金额等归还贷款。
3.贷款不履约现象会给金融类服务机构造成贷款损失,因此,金融类服务机构在对满足贷款要求的借款方发放贷款后,如何采取一定的贷款管理策略,实现对贷款风险的控制是非常重要的。


技术实现要素:

4.本技术提供一种解决上述问题或至少部分地解决上述问题的贷款管理策略确定方法、系统及电子设备。
5.在本技术的一个实施例中,提供了一种贷款管理策略确定方法。该方法包括:
6.确定申请贷款的目标对象满足贷款条件时,将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;
7.基于所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理策略;
8.获取所述目标对象当前时刻的借款状态及即时奖励;
9.根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略,以使所述贷款服务方基于所述优选管理策略对所述目标对象进行风险管控。
10.在本技术的一个实施例中,提供了一种贷款管理策略确定系统。该系统包括:
11.建模模块,用于在确定申请贷款的目标对象满足贷款条件时,将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;
12.训练模块,用于基于所述环境建模模得到的所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理策略;
13.获取模块,用于获取所述目标对象当前时刻的借款状态及即时奖励;
14.管理策略确定模块,用于根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略,以使所述贷款服务方基于所述优选管理策略对所述目标对象进行风险管控。
15.在本技术的另一个实施例中,还提供了一种贷款管理策略确定系统。该系统包括:
16.服务端设备,用于确定申请贷款的目标对象满足贷款条件时,将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;基于所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理策略;获取所述目标对象当前时刻的借款状态及即时奖励;根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略并发送至客户端设备;
17.客户端设备,用于获取目标对象的资金历史相关数据;将所述资金历史相关数据及接收到的优选管理策略对应的管理行为进行显示。
18.在本技术的一个实施例中,提供了一种电子设备。该电子设备包括存储器和处理器;所述存储器用于存储一条或多条计算机指令,所述一条或多条计算机指令被所述处理器执行时能够实现上述各实施例提供的所述贷款管理策略确定方法中的步骤。
19.本技术各实施例提供的技术方案,在确定申请贷款的目标对象满足贷款条件时,会将针对目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;并基于基础参数,进行强化学习训练得到基础参数中各借款状态的管理策略;进一步地,获取到目标对象当前时刻的借款状态及即时奖励后,即可根据各借款状态的管理策略、目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略,以使贷款服务方基于所述优选管理策略对目标对象进行风险管控。可见,本技术技术方案通过将强化学习应用于信贷场景下的贷款管理策略确定,使得整个管理策略确定过程实现了全智能化、减少了人为参与,且保证了管理策略确定结果具有较强的客观性。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要利用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本技术一实施例提供典型的强化学习系统的原理性框架示意图;
22.图2为本技术一实施例提供的贷款管理策略确定方法的流程示意图;
23.图3为本技术一实施例提供的将强化学习应用于信贷场景下进行贷款管理策略确定的原理性示意图;
24.图4为本技术一实施例提供的贷款管理策略确定系统的结构示意图;
25.图5为本技术另一实施例提供的贷款管理策略确定系统的结构示意图;
26.图6为本技术一实施例提供的电子设备的结构示意图。
具体实施方式
27.针对背景技术中提出的问题,现有技术方案中,金融类服务机构在对满足贷款要求的借款方发放贷款后,主要通过人工方式对借款方的还款情况进行跟踪,通过评估借款方的还款情况,并采取一定管理行为(如发送还款通知、电话还款提醒)来督促借款方进行还款,以实现对借款方的风险控制,这种方式无疑需要花费大量的时间成本;或者,依赖于
预测模型(如传统的评分卡模型、逻辑回归模块、简单的深度学习网络架构)所预测的借款方的违约结果,以及专家经验分析结果确定具体的贷款管理行为策略并实施,该种方式强依赖于专家主观因素,且过程复杂、非全智能化。
28.为此,本技术各实施例提供了一种基于强化学习的贷款管理策略确定方案,该贷款管理策略确定方案可以实现全智能化处理、减少了认为参与、这使得管理策略确定结果具有较强的客观性,且可实现为贷款服务方(或者可以称为出借方,比如:网贷平台、商业银行等)推荐能够获得最大化回报期望的管理策略,以有效减少贷款服务方资损。
29.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
30.在本技术的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。而本技术中术语“或/和”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如:a或/和b,表示可以单独存在a,同时存在a和b,单独存在b这三种情况;本技术中字符“/”,一般表示前后关联对象是一种“或”关系。此外,下述的各实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
31.在介绍本技术各实施例提供的技术方案之前,先对本技术技术方案中涉及到的强化学习对应的原理进行说明。
32.图1示出了典型的强化学习系统的基本原理示意图。一般地,强化学习系统包括智能体和环境,智能体(agent)通过与环境(environment)的交互和反馈,不断进行学习,优化其策略。具体地,如图1所示,智能体观测并获得环境的状态(state),根据其配置的策略(policy),针对当前环境的状态确定要采取的行为或动作(action),并将确定出的行为或动作施加于环境;环境接收到智能体的行为或动作后,会更新自身的状态,同时产生一个反馈给智能体,该反馈又称为奖赏或奖励(reward)。智能体根据获得的奖励来判断之前的行为是否正确,策略是否需要调整,进而更新其策略。通过反复不断地观测环境的状态、确定行为、收到反馈,使得智能体可以不断更新策略,最终目标是能够学习到一个策略,使得能够获得最大化长期的累计奖励(或称为累计回报,下文中将统称为累积回报)。以上就是典型的强化学习过程。这里需补充说明的是:上述智能体每一步从当前时刻的环境中接收到的奖励称为即时奖励,累计回报反映了当前时刻及当前时刻之后的至少一个未来时刻所得到的累计奖励值。
33.实际应用中,上述所描述的智能体与环境交互的整个过程,常被表示成一个马尔科夫决策过程(markov decision process,mdp)。马尔科夫决策过程常通过五元组(s、a、p、r、β)表示。其中,
34.s代表状态空间,表示环境可能处于的状态集合,有s∈s,s
t
表示t时刻环境所处的状态;
35.a代表动作空间,表示智能体能够采取的行为集合,有a∈a,a
t
表示t时刻的动作;
36.p:s
×
a

s,p代表状态转移概率矩阵,用于描述各环境状态在经过一动作后发生转移的概率分布情况,有p
sa
∈p,表示在当前s∈s状态下,经过a∈a作用后,会转移到其他状态的概率分布情况,比如,在状态s下执行动作a,转移到s'的概率可以表示为ps
s
'
a
(或者表示为p(s,a,s’),即也就是可以说s'的分布服从p
sa

37.r:s
×
a

r,r代表奖励函数,用于描述了各环境状态下采取一动作后能够获得的奖励,常用r(s,a)表示在状态s∈s下采取动作a∈a获得的奖励。
38.β(β∈[0,1])代表折扣因子,主要用于累计回报的计算,其表明了未来时刻的即时奖励值相对于当前时刻的即时奖励值的重要程度;其中,累积回报的计算过程为:
[0039][0040]
其中,g0表征了智能体针对环境当前时刻的状态采取了一个动作后,从当前时刻至环境达到目标状态时所能够获得的累计奖励;r0表征智能体在当前时刻获取到的即时奖励值;r
i
(i=1,2,3...)表征智能体在未来i时刻对应获得的即时奖励值。
[0041]
进一步地,在智能体与环境交互的马尔科夫决策过程中,智能体学习训练的优化目标是学习一个策略,策略用以指导每一个状态s∈s下,采取动作a∈a。具体地,策略(policy)定义为π:s

δ(a),其中,δ(a)代表在动作a上的概率分布,即可把在状态s下执行策略后采取某个动作a的概率p(s,a)记作为:π(s,a)。寻找优选策略需要能够获得最大化长期的累积回报,在累计回报的基础上,可定义相关的策略函数以用于对策略评估和改进。
[0042]
具体实施时,常采用基于强化学习中有关的q

learning算法(即值的学习算法)进行策略评估及改进。具体地,是通过定义策略的状态价值函数(state value function)v或状态

动作价值函数(state

action value function)q,来表示能够取得的累计回报期望,以此进行策略评估。其中,
[0043]
状态价值函数v
π
(s)用于评价状态s∈s的“好坏”,其具体被定义为:从环境当前时刻的状态s0∈s开始,遵循策略π向后能够取得的累积回报的期望,即s0=s。相应地,状态价值函数v
π
(s)的表达形式为:
[0044][0045]
其中,r(s,a)表示智能体当前时刻获得的即时奖励,s'表示环境未来下一时刻的状态。
[0046]
状态

动作价值函数q
π
(s,a)的用于评价状态s∈s,采取动作a的“好坏”,其具体被定义为:在环境当前时刻的状态s0下,遵循策略π采取动作a0后能够取得的累积回报的期望,即s0=s,a0=a。相应地,状态价值函数的表达形式为:
[0047][0048]
智能体策略的改进,实际上也就是求解上述v
π
(s)或q
π
(s,a)表达方程,使得v
π
(s)或q
π
(s,a)最大化的过程。即,如对于优选策略π*,则是能够使v
π
(s)在任意状态s下都能够取
得最大值的一种策略,也就是说,对于任意的策略π和任意状态s∈s,v
π*
(s)≥v
π
(s)。优选策略下的状态价值函数和状态

动作价值函数可以记作v
*
(s)以及q
*
(s),其中,
[0049]
v
*
(s)=max
π
v
π
(s);
[0050][0051]
综上也可以看到,q

learing算法是在一定策略下,通过预期奖励的累加获得的。若环境模型确定且已知,那么对于任意状态s,s’和动作a,在状态s下执行动作a转移到状态s’的概率是已知的,该转移带来的奖励也是已知的,如此,q

learing算法可以通过一个表格或矩阵来表达,策略的评估和改进也可以基于q

learing算法表格(如q表)或矩阵进行,具体地基于q

learing算法表格或矩阵进行策略评估和改进的过程可参见现有技术。
[0052]
上述示例中,主要介绍了利用免模型强化学习算法中的q

learning算法(即值函数学习算法)来进行策略优化,以寻找到优选策略。当然,也可以采用免模型强化学习中的其他算法进行策略优化,如policy gradient(策略梯度算法)、trpo(trust region policy optimization,置信域策略优化算法)、ppo(proximal policy optimization,近端策略优化算法算法)等,或者也可以采用有模型强化学习中的其他算法进行策略优化,比如,mbve(model

based value expansion,基于模型的价值扩展算法)、i2a(imagination

augmented agents,增强想象智能体算法)等;其中,上述所述的免模型强化学习和有模型强化学习是强化学习算法的主要两分支。关于上述强化学习算法的具体相关介绍可参见现有技术,此处就不作具体赘述。
[0053]
基于上文介绍的强化学习系统的特征,本技术方案将强化学习应用到信贷场景下,以用于解决信贷场景下的贷款管理策略确定问题。参见图3所示,在信贷场景下,智能体用于模拟贷款服务方(也即出借方,如网贷平台或商业银行)对借款方的管理过程。具体地,智能体针对借款方做出管理行为前所观测的环境状态也即为借款方的借贷环境,智能体基于一定策略所采集的动作也即是模拟的贷款服务方对借款方采取的管理行为,每个行为会有对应的奖励,智能体作出行为的依据是使得累计回报最大化。进一步地,在使用强化学习来为贷款服务方推荐合适的贷款管理策略的过程中,如何针对借款方的特点,对环境的状态、智能体采取的动作和奖励等进行刻画,是准确为贷款服务方推荐合适的贷款管理策略的关键。
[0054]
下文将针对本技术各实施例提供的基于强化学习的贷款管理策略确定方案进行介绍说明,以具体阐述如何利用强化学习来为贷款服务方推荐较优的贷款管理策略,从而保证贷款服务方在能够获取到最大化累积回报的基础上,实现对借款方的风险管控。具体地,
[0055]
图2示出了本技术一实施例提供的贷款管理策略确定方法的流程示意图。该方法的执行主体可以是强化学习系统中的智能体,智能体可以是通过任何具有计算、处理能力的装置或设备来实现,比如,智能体可以为服务器设备,所述服务器设备可以是常用服务器、云端或虚拟服务器等,本技术实施例对此不作具体限定。如图2所示,该方法包括如下步骤:
[0056]
101、确定申请贷款的目标对象满足贷款条件时,将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;
[0057]
102、基于所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理策略;
[0058]
103、获取所述目标对象当前时刻的借款状态及即时奖励;
[0059]
104、根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略,以使所述贷款服务方基于所述优选管理策略对所述目标对象进行风险控制。
[0060]
实际应用中,信贷是指贷款服务方(即出借方,如银行或网贷平台等其他金融机构)按一定利率和必须归还等条件,向借款方出借货币资金的一种信用贷款活动形式。在此信贷活动中,贷款安全是金融借贷过程中面临的首要问题。目前在信贷场景下,贷款服务方对借款方的全链路风险管理可划分为贷前审批和贷后跟踪管理两个主要阶段;其中,贷前审批指的是从借款方发起借款申请起,至贷款服务方完成风险评估,并形成综合决策以确定是否同意借款申请的审批贷款管理;贷后跟踪管理指的是从审批通过借款申请并向借款方进行贷款资金发放之日起,至贷款本息收回期间对借款方的风险控制管理,该风险控制管理可包含有但不限于对不良或连续预期贷款的催收管理,催收管理既包括对逾期借款人的风险评估并形成催收决策建议,也包括对催收全流程的跟踪监测等,本实施例对此不作限定。
[0061]
本实施例提供的技术方案,是利用强化学习来实现为贷款服务方对借款方的贷后跟踪管理,推荐较优的贷款管理策略,以保证贷款服务方能够在获得最大化累计回报的基础上,最终实现使借款方完成还款。也就是说,在确定申请贷款的借款方满足贷款条件时,可将贷款服务方(如商业银行、网络平台等其他贷款金融机构)终端作为智能体,借贷管理系统作为环境,并基于马尔科夫决策过程框架来模拟贷款服务方对借款方进行贷款管理的整个交互管控过程,同时可以根据贷款服务方与借款方交互过程产生的历史数据定义出用于表示马尔科夫决策过程的基础参数,如借款方可能所处于的借款状态、贷款服务方可能采取的管理行为,等等。
[0062]
基于此,在一可实现的技术方案中,在确定申请贷款的目标对象满足贷款条件时,上述101“将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数”,可具体包括:
[0063]
1011、将所述贷款服务方对所述目标对象进行贷款管理的过程,描述成所述贷款服务方和所述目标对象交互的马尔科夫决策过程;
[0064]
1012、根据所述贷款服务方与所述目标对象交互的历史数据,确定所述马尔科夫决策过程的基础参数;
[0065]
其中,所述基础参数包括如下中的至少一项:用于描述目标对象可能所处借款状态的借款状态集、用于描述贷款服务方能够采取的管理行为的管理行为集、用于描述各借款状态间相互转移对应的状态转移概率的状态转移概率矩阵、各借款状态对应的即时奖励以及用于表征未来即时奖励相对于当前即时奖励的重要程度的折扣因子。
[0066]
具体实施时,上述目标对象是指向贷款服务方提出贷款申请的一方(也即上文提到的借款方),贷款服务方是指向借款方出借货币资金的一方,如银行、网贷平台等金融服务机构等,本实施例对此不作限定。相应地,在确定目标对象满足贷款条件时,可基于马尔科夫决策框架模拟出贷款服务方对目标对象进行的贷款管理场景,并对目标对象与贷款服
务方交互过程中所产生的历史数据进行分析,以确定出目标对象可能所处的借款状态以及贷款服务方对目标对象可能采取的管理行为。具体地:可以是通过对目标对象的历史特性数据进行分析来确定出目标对象可能所处于的借款状态,比如,正常还款、预期还款、已还款等;进一步地还可以对目标对象的历史特征数据进行统计分析,确定出各借款状态间发生相互转移的状态转移概率。而对于贷款服务方能够采取的管理行为,可从贷款服务方的历史行为数据中进行分析确定,比如,管理行为可以为发送还款通知、提升/降低贷款额度等。另外,对于各借款状态对应的即时奖励及折扣因子,可综合信贷场景特点采用自定义方式确定。由此,也就将复杂的信贷场景下的贷款管理形式化为数学层面上的马尔科夫决策过程,然后可采用强化学习算法反复试错训练学习,得到各借款状态下的管理策略。如何训练得到各借款状态下的管理策略可参加下述相关描述。
[0067]
这里需补充说明的是,上述借款状态集中可以包括但不限于如下中的至少一种借款状态:贷款申请审批通过待还款、正常还款、逾期还款、拖欠、已还款、跑路。管理行为集中可以包括但不限于如下中的至少一种管理动作:贷款申请审批通过放贷、发送还款通知、提升借贷额度、降低借贷额度、停止发放借款、提前收回借款、冻结资产、拉入黑名单。
[0068]
上述102中,基于经由步骤101得到的基础参数,可采用强化学习算法中的q

learing算法进行反复试错训练学习,以得到借款状态集中各借款状态对应的管理策略。当然也可以采用其他的强化学习算法,本实施例对此并不作限定。在本实施例提供的技术方案中,优先选用了q

learing算法来训练学习得到各借款状态下的管理策略。具体地,即上述步骤102“基于所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理策略”,可具体包括:
[0069]
1021、对所述管理行为集中各管理行为和所述借款状态集中各借款状态进行分析,确定在各借款状态下能够采取的至少一个管理行为;
[0070]
1022、随机选取所述借款状态集中的任一个借款状态,作为所述目标对象的初始借款状态;
[0071]
1023、基于预置行为选取策略及所述各借款状态下能够采取的至少一个管理行为,进行训练学习得到使所述目标对象从初始的借款状态达到目标借款状态对应的至少一条管理行为链路。
[0072]
上述步骤1021,考虑到现有技术中,一般是直接针对管理行为集中各管理行为以及借款状态集中各借款状态进行盲目随机探索训练,使得训练完全处于随机摸索状态,效率较低。针对此问题,本实施例在进行训练学习之前,先对管理行为集中各管理行为和借款状态中各状态进行分析处理,来确定各借款状态下能够采取的至少一个管理行为,这样利于为训练探索过程提供具有较高探索价值的探索方向,从而实现以一定概率进行引导探索。比如,经分析:在贷款申请审批通过待还款及正常还款下,可采取的管理行为如为发送还款通知、提升借款额度等;在逾期还款及拖欠下,可采取的管理行如为发送还款通知、降低借款额度等。
[0073]
上述步骤1022和1023中,预置行为选取策略可以是但不限于基于局部优选的贪婪选取策略(如ε

greedy策略),有关贪婪选取策略的具体介绍可参见现有技术。在随机选取借款状态集中的一个借款状态作为目标对象初始的借款状态后,基于预置行为选取策略以及各借款状态下能够采取的至少一个管理行为,可以从目标对象初始的借款状态开始,通
过不断试错进行训练学习,直至达到学习终止条件。然后,再重新从借款状态集中选取一个新的借款状态,作为目标对象新初始的借款状态进行训练学习,以此往返训练学习得到各借款状态对应的至少一条管理行为链路。该各借款状态对应的至少一条管理行为链路也即为各借款状态的管理策略。上述在进行不断试错训练学习过程中,可以基于各借款状态间相互转移对应的状态转移概率、折扣因子等参数,依据上文所介绍的状态价值函数v
π
(s)(和/或状态

动作价值函数q
π
(s))对各借款状态(或各采取的管理行为)的累计回报期望进行计算,并不断迭代更新,以对策略进行评估和改进。具体关于上述训练学习得到在各借款状态下能够采取的至少一个管理行为链路的详细过程,可参见现有技术,此处就不作具体赘述。
[0074]
示例性地,假设随机选取借款状态集中的借款状态s0(如为贷款申请审批通过待还款),作为目标对象初始的借款状态,经训练学习得到的从借款状态s0到达目标借款状态(如已还款s
d
)对应的管理行为链路包括如下两条链路:链路以及链路其中,s0、s1、s2、s
d
∈s,a0、a1、a2∈a。此处需说明的是:上述示例中仅示出了采取管理行为后,借款状态发生的变化,实际中还会含有所反馈的即时奖励(示例中未示出)。
[0075]
基于训练学习得到的在各借款状态下能够采取的至少一条管理行为链路,本实施例在按照设定时间周期性地获取目标对象的借款状态过程中,在获取到目标对象当前时刻的借款状态及相应的即时奖励后,即可基于目标对象当前时刻的借款状态,从各借款状态对应的至少一条管理行为链路中搜寻出与目标对象当前时刻的借款状态相匹配的至少一条管理链路,从而与目标对象当前时刻的借款状态相匹配的至少一条管理行为链路中,选择出能够得到最大化预期累计回报的管理行为链路(即优选管理行为链路)推荐给贷款服务方,以便贷款服务方基于优选管理行为链路对目标对象进行管理,实现对目标对象的风险控制。具体如何选址出优选管理行为链路可参见下文相关内容,此处不作具体赘述。另外,上述目标对象当前时刻的借款状态,可以是通过对目标对象当前时刻的特征数据进行分析得到的。即,上述103中“获取所述目标对象当前时刻的借款状态”的一种可实现技术方案为:
[0076]
1031、获取所述目标对象当前时刻的特征数据;
[0077]
1032、对所述特征数据进行分析,确定所述目标对象当前时刻的借款状态;
[0078]
具体实施时,目标对象当前时刻的特征数据包括但不限于如下中的至少一种:授信基础数据、信用等级、还款意愿、资金相关数据;其中,资金相关数据包括但不限于如下中的至少一种:当前财务状况、当前借贷数据、资金使用历史数据;资金使用历史数据可以包括但不限于交易历史数据、借贷历史数据、还款历史数据等。
[0079]
此外,上述103中,获取到的目标对象当前时刻的即时奖励,实际是在贷款服务方针对目标对象上一时刻的借款状态采取一管理行为后,目标对象在当前时刻针对贷款服务方的管理行为所做出的相应反馈,以评价贷款服务方在上一时刻所采取的管理行为的“好坏”。
[0080]
得到目标对象当前时刻的借款状态及即时奖励后,也就可以根据上述确定的各借款状态对应的至少一条管理行为链路,可以得到与目标对象当前时刻的借款状态相对应的至少一条管理行为链路,进而从目标对象当前时刻的借款状态相对应的至少一条管理行为
链路筛选出优选的管理行为链路,以推荐给贷款服务方。具体地,可以通过上文所介绍的状态价值函数v
π
(s)(和/或状态

动作价值函数q
π
(s)),计算出分别采用目标对象当前时刻的借款状态对应的至少一条管理行为链路各自能够得到的预期回报期望值,将其中的最大回报期望值所对应的管理行为链路,作为为贷款服务方推荐的优选管理策略。
[0081]
即,上述104“根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略”,可具体包括:
[0082]
1041、根据所述各借款状态的至少一条管理行为链路,确定与所述目标对象当前时刻的借款状态相对应的至少一条管理行为链路;
[0083]
1042、基于所述目标对象当前时刻的即时奖励,通过预定义的回报期望计算方程,计算分别采用所述目标对象当前时刻的借款状态对应的至少一条管理行为链路,对应预期得到的多个回报期望值;
[0084]
1043、将所述多个回报期望值中的最大回报期望值所对应的管理行为链路,作为为所述贷款服务方推荐的第一优选管理策略。
[0085]
具体实施时,上述预定义的回报期望计算方程可以是上文所述的状态价值函数v
π
(s)对应的表达方程:
[0086][0087]
或者,也可以是状态

动作价值函数q
π
(s))对应的表达方程:
[0088][0089]
结合当前时刻的即时奖励,通过对预定义的回报期望计算方程进行求解,也就可以计算出分别采用所述目标对象当前时刻的借款状态对应的至少一条管理行为链路,对应预期得多个回报期望值,从而将多个回报期望值中的最大回报期望值所对应的管理行为链路,作为优选管理行为链路(即优选策略)以推荐给贷款服务方。具体回报期望值的计算过程可参见现有技术,此处就不作具体赘述。除此种方式外,也可以直接通过查表(如q表)方式来确定相应的优选管理行为链路,其中,如q表中存储了各借款状态下采用相应的不同管理行为预期能够得到的回报期望值,q表是基于借款状态集中各借款状态及管理行为集中各管理行为构建,并在训练学习过程中得到不断更新,具体如何基于q表查询优选管理行为链路,同样也可参见现有技术。
[0090]
贷款服务方接收到为其推荐的优选管理策略后,可以直接按照优选管理策略针对目标对象当前时刻的借款状态,对目标对象施加相应的管理行为;当然,为了进一步地提高所施加的管理行为的精准性,也可以同时获取目标对象的预设时间段(如一个星期、一个月等)内的资金历史相关数据,结合目标对象的资金历史相关数据及优选管理策略,来综合确定出针对目标对象当前时刻的借款状态所要对目标对象采取的最终管理行为,并将最终管理行为作用于目标对象。
[0091]
为此,进一步地,本实施例提供的所述方法还可包括:
[0092]
105、响应于贷款服务方触发的操作,获取所述贷款服务方针对所述目标对象当前
时刻的借款状态采取的最终管理行为,以将所述最终管理行为施加于所述目标对象;
[0093]
其中,最终管理行为是所述贷款服务方基于接收到的第一优选管理策略,以及获取到的所述目标对象的资金历史相关数据确定的。
[0094]
具体实施时,资金历史相关数据可以包括但不限于还款历史数据、借贷历史数据、资金使用历史数据等,本实施例对此不作限定。
[0095]
进一步地,本实施例提供的所述方法还可包括:
[0096]
106a、确定所述最终管理行为是否与所述第一优选管理策略中相对应的管理行为一致;
[0097]
106b、一致时,将所述最终管理行为施加于所述目标对象,使所述目标对象的借款状态发生更新后,下一时刻将依据所述目标对象更新后的借款状态及相应的即时奖励,重新执行上述有关确定为所述贷款服务方推荐的优选管理策略步骤,为所述贷款服务方推荐新的第二优选管理策略。
[0098]
106c、比较下一时刻后所述第一优选管理策略对应的后续管理行为与所述第二优选管理策略对应的管理行为是否相同;不相同时,将所述第一优选管理策略替换为所述第二优选管理策略。
[0099]
举例来说,承接上述步骤102中的示例,假设针对目标对象当前时刻的借款状态s0,为贷款服务方推荐的优选管理策略为链路l1,即且获取到贷款服务方针对目标对象当前时刻的借款状态,最终采取了管理行为a0,即贷款服务方对目标对象采取的最终管理行为与为其推荐的链路l1中的管理行为一致。那么,对目标对象施加了管理行为a0,使目标对象的借款状态变更为s'∈s后,下一时间将依据获取到的目标对象变更后的借款状态s’及相应的即时奖励,重新针对借款状态s'为贷款服务方推荐新的优选管理链路l',如链路l'为:s'—a2—>s1—a1—>s2—a3—>s
d
。可见,链路l1中对应的下一时刻后续的管理行为路径与链路l'不同,为此在下一刻之后将为贷款服务方推荐管理行为链路l'。而若链路l1中对应的下一时刻后续的管理行为路径与链路l’相同,则可以继续按照链路l1为贷款服务方推荐优选管理行为链路。
[0100]
这里需补充说明的是:若确定贷款服务方针对目标对象当前时刻的借款状态,对目标对象施加的最终管理行为与第一优选管理策略中相对应的管理行为不一致时,后续可以只执行步骤106c,而不需要再执行步骤106c。
[0101]
综上可见,本实施例提供的技术方案,在确定申请贷款的目标对象满足贷款条件时,会将针对目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;并基于基础参数,进行强化学习训练得到基础参数中各借款状态的管理策略;进一步地,获取到目标对象当前时刻的借款状态及即时奖励后,即可根据各借款状态的管理策略、目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略,以使贷款服务方基于所述优选管理策略对目标对象进行风险管控。可见,本技术技术方案通过将强化学习应用于信贷场景下的贷款管理策略确定,使得整个管理策略确定过程实现了全智能化、减少了人为参与,且保证了管理策略确定结果具有较强的客观性。另外,本实施例提供的技术方案在确定出优选管理策略后,并非直接将优选管理策略对应的管理行为施加于目标对象,而是将贷款服务方基于接收到的优选管理策略及获取到的目标对象的资金历史相关数据,确定出的最终管理行为施加于目标对象,这利于提高对
目标对象所施加的管理行为的精准性。
[0102]
本技术一实施例还提供了一种贷款管理策略确定系统。图4示出了一个实施例提供的贷款管理策略确定系统的结构示意图,本实施例提供的系统是从软件角度撰写的。如图4所示,该系统包括:建模模块21、训练模块22、获取模块23以及管理策略确定模块24;其中,
[0103]
建模模块21,用于在确定申请贷款的目标对象满足贷款条件时,将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;
[0104]
训练模块22,用于基于所述环境建模模得到的所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理策略;
[0105]
获取模块23,用于获取所述目标对象当前时刻的借款状态及即时奖励;
[0106]
管理策略确定模块23,用于根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略,以使所述贷款服务方基于所述优选管理策略对所述目标对象进行风险管控。
[0107]
进一步地,上述建模块模块21,在用于将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数时,具体用于:
[0108]
将所述贷款服务方对所述目标对象进行贷款管理的过程,描述成所述贷款服务方和所述目标对象交互的马尔科夫决策过程;
[0109]
根据所述贷款服务方与所述目标对象交互的历史数据,确定所述马尔科夫决策过程的基础参数;
[0110]
其中,所述基础参数包括如下中的至少一项:用于描述目标对象可能所处贷款状态的借款状态集、用于描述贷款服务方可能采取的管理行为的管理行为集、用于描述各借款状态间相互转移对应的状态转移概率的状态转移概率矩阵、各借款状态对应的即时奖励以及用于表征未来即时奖励相对于当前即时奖励的重要程度的折扣因子。
[0111]
进一步地,上述借款状态集包括如下中的至少一种借款状态:贷款申请审批通过待还款、正常还款、逾期还款、拖欠、已还款、跑路;管理行为集包括如下中的至少一种管理动作:贷款申请审批通过放贷、发送还款通知、提升借贷额度、降低借贷额度、停止发放借款、提前收回借款、冻结资产、拉入黑名单。
[0112]
进一步地,所述训练模块22,在用于基于所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理策略时,具体用于:
[0113]
对所述管理行为集中各管理行为和所述借款状态集中各借款状态进行分析,确定在各借款状态下能够采取的至少一个管理行为;
[0114]
随机选取所述借款状态集中的任一个借款状态,作为所述目标对象初始的借款状态;
[0115]
基于预置行为选取策略及所述各借款状态下能够采取的至少一个管理行为,进行训练学习得到使所述目标对象从初始的借款状态达到目标借款状态对应的至少一条管理行为链路。
[0116]
进一步地,上述管理策略确定模块,在用于根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略时,具
体用于:
[0117]
根据所述各借款状态的至少一条管理行为链路,确定与所述目标对象当前时刻的借款状态相对应的至少一条管理行为链路;
[0118]
基于所述目标对象当前时刻的即时奖励,通过预定义的回报期望计算方程,计算分别采用所述目标对象当前时刻的借款状态对应的至少一条管理行为链路,对应预期得到的多个回报期望值;
[0119]
将所述多个回报期望值中的最大回报期望值所对应的管理行为链路,作为为所述贷款服务方推荐的第一优选管理策略。
[0120]
进一步地,上述管理策略确定模块24,还用于:响应于贷款服务方触发的操作,获取所述贷款服务方针对所述目标对象当前时刻的借款状态采取的最终管理行为,以将所述最终管理行为施加于所述目标对象;
[0121]
其中,最终管理行为是所述贷款服务方基于接收到的所述第一优选管理策略对应的管理行为,以及获取到的所述目标对象的资金历史相关数据确定的。
[0122]
进一步地,上述管理策略确定模块24,还用于:
[0123]
确定所述最终管理行为是否与所述第一优选管理策略中相对应的管理行为一致;
[0124]
一致时,将所述最终管理行为施加于所述目标对象,使所述目标对象的借款状态发生更新后,下一时刻将依据所述目标对象更新后的借款状态及相应的即时奖励,重新执行上述有关确定为所述贷款服务方推荐的优选管理策略步骤,为所述贷款服务方推荐新的第二优选管理策略;
[0125]
比较下一时刻后所述第一优选管理策略对应的后续管理行为与所述第二优选管理策略对应的管理行为是否相同;不相同时,将所述第一优选管理策略替换为所述第二优选管理策略。
[0126]
进一步地,上述获取模块23,在用于获取所述目标对象当前时刻的借款状态时,具体用于:获取所述目标对象当前时刻的特征数据;对所述特征数据进行分析,确定所述目标对象当前时刻的借款状态;
[0127]
其中,特征数据包括如下中的至少一种:授信基础数据、信用等级、还款意愿、资金相关数据;其中,资金相关数据包括如下中的至少一种:当前财务状况、当前借贷数据、资金使用历史数据;资金使用历史数据包括如下中的至少一种:交易历史数据、借贷历史数据、还款历史数据。
[0128]
这里需要说明的是:本实施例提供的所述贷款管理策略确定推荐系统中各步骤未尽详述的内容可参见上述各实施例中的相应内容,此处不再作赘述。此外,本实施例提供的所述贷款管理策略确定系统中除了上述各步骤以外,还可包括上述各实施例中其他部分或全部步骤,具体可参见上述各实施例相应内容,在此不再赘述。
[0129]
本技术一实施例还提供了一种贷款管理策略确定系统。图5示出了另一个实施例提供的贷款管理策略确定系统的结构示意图,本实施例提供的系统是从硬件角度撰写的。如图5所示,该系统包括:服务端设备31和客户端设备32;其中,
[0130]
服务端设备31,用于确定申请贷款的目标对象满足贷款条件时,将针对所述目标对象的贷款管理策略确定问题,建模为一个马尔科夫决策过程,得到马尔科夫决策过程的基础参数;基于所述基础参数,进行强化学习训练得到所述基础参数中各借款状态的管理
策略;获取所述目标对象当前时刻的借款状态及即时奖励;根据所述各借款状态的管理策略、所述目标对象当前时刻的借款状态及即时奖励,确定为贷款服务方推荐的优选管理策略并发送至客户端设备32;
[0131]
客户端设备32,用于获取目标对象的资金历史相关数据;将所述资金历史相关数据及接收到的所述优选管理策略对应的管理行为进行显示。
[0132]
进一步地,客户端设备32,还用于响应于贷款服务方触发的操作,获取所述贷款服务方针对所述目标对象当前时刻的借款状态采取的最终管理行为;将所述最终管理行为发送至服务端设备31,以使所述服务端设备31将所述最终管理行为施加于所述目标对象;
[0133]
其中,最终管理行为是所述贷款服务方基于客户端设备32显示的所述目标对象的资金历史相关数据,以及所述优选管理策略对应的管理行为确定的。
[0134]
参见图5所示,本实施例提供的技术方案中,所述服务端设备31可以是单个服务器、部署在服务器或服务器集群上的虚拟服务器或基于云计算的计算机集合(即云端)。其中,云端由基于云计算(cloud computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;所述客户端设备32可以为如台式计算机、平板电脑、智能手机、智能穿戴设备(如智能手表、眼镜等),等等。
[0135]
这里需要说明的是:本实施例提供的所述贷款管理策略确定推荐系统中各步骤未尽详述的内容可参见上述各实施例中的相应内容,此处不再作赘述。此外,本实施例提供的所述贷款管理策略确定系统中除了上述各步骤以外,还可包括上述各实施例中其他部分或全部步骤,具体可参见上述各实施例相应内容,在此不再赘述。
[0136]
综合上文,本技术提供的贷款管理策略确定方案具有如下几点有益效果:
[0137]
1、将强化学习应用到信贷场景下以实现贷款管理策略的确定,使得管理策略确定的整个过程实现了全智能化处理,且基于借款方当前时刻的借款状态及相应的即时奖励,触发贷款服务方对借款方实施下一个管理行为,利于贷款服务方实时对借款方进行风险管控,从而可有效减少贷款服务方资损;
[0138]
2、基于强化学习进行贷款管理策略确定过程中,是参考了行为心理学中的“人类是通过与环境不断交互来学习的”思想,通过模拟贷款服务方与借款环境的交互来不断学习并实施相应的贷款管理策略,期间由于借款方对应的借款状态及相应的奖励值的存在,使得策略结果是具备强可解释性质。
[0139]
3、基于强化学习进行贷款管理策略确定过程中,可以按设定时间周期,比如,以时、日、月等为时间周期,来定周期的实时获取借款方的借款状态,能够使得贷款服务方对借款方的贷款管理更具时效性和可控性。
[0140]
图6示出了本技术一实施例提供一个电子设备的结构示意图。如图6所示,所述电子设备包括:存储器81以及处理器82。存储器81可被配置为存储其它各种数据以支持在传感器上的操作。这些数据的示例包括用于在传感器上操作的任何应用程序或方法的指令。存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0141]
所述存储器81,用于存储一条或多条计算机指令;
[0142]
所述处理器82,与所述存储器81耦合,用于执行所述存储器81中存储的一条或多条计算机指令,以实现上述各实施例提供的贷款管理策略确定方法中的步骤。
[0143]
进一步,如图6所示,电子设备还包括:通信组件83、电源组件85及显示器86等其它组件。图6中仅示意性给出部分组件,并不意味着电子设备只包括图6所示组件。
[0144]
相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的贷款管理策略确定方法步骤或功能。
[0145]
本技术实施例还提供一种计算机程序产品,包括计算机程序,当所述计算机程序被处理器执行时,致使所述处理器能够实现上述各实施例提供的文本处理方法步骤或功能。
[0146]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0147]
通过以上实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0148]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献