一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于强化学习的风控模型构建方法及装置与流程

2022-04-02 07:22:08 来源:中国专利 TAG:


1.本发明涉及个人信贷风控技术领域,特别涉及一种基于强化学习的风控模型构建方法及装置。


背景技术:

2.目前在个人信贷风控领域,风控系统已经从人工审核,发展到基于大数据的人工智能自动审核,主要有逻辑回归、树模型等经典机器学习模型,以及采用深度学习类的模型。现有技术的模型训练方法通常以逾期、坏账表现为目标,通过大量的历史订单为样本进行离线训练,训练完成后将模型部署到线上,用于预测用户逾期、坏账的概率,风控系统根据模型预测结果,再配合其他数据和策略,给出用户的信贷审核结果。目前主流的风控系统主要结合策略、模型的使用,进行欺诈识别和信用评分,以达到降低信贷风险的目的。信贷业务中主要有两种风险:欺诈风险和信用风险。基于以上目标,需要构建风险策略和模型,主要过程包括:基于反欺诈、信用特征和个人信息等构建授信评分卡模型(a卡),用于确定用户的信贷额度、期限及利率;基于用户的行为数据构建行为模型(b卡),用于信贷中风控评定;根据风险偏好设置策略和阈值,并做回测分析。
3.但是,现有风控系统普遍存在如下明显不足,极大地限制了风控效果:1、将风控抽象为一个有监督的分类任务,学习目标为最小化逾期、坏账风险,效果评估指标也局限于逾期率、坏账率,而忽略了对信贷额度、利率及期限的迭代优化,导致风控模型优化目标与商业目标存在偏差。商业行为的最根本目标是利润最大化,由于上述目标偏差的存在,使得现有风控系统并非是利润最大化的最直接、最高效的方法。
4.2、机器学习过程通常需要几十万甚至上千万的样本进行离线训练,而真实业务中积累足够量级的样本至少需要几天时间,因此风控模型的更新存在滞后,当市场趋势受到政策或大环境影响而发生变化时,风控模型无法迅速地应对市场变化。


技术实现要素:

5.为了解决现有信贷风控系统存在的风控模型优化目标与商业目标存在偏差、风控模型更新滞后的问题,本发明提供了一种基于强化学习的风控模型构建方法,包括:接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验证;对所述风控决策需要的数据进行处理,构建状态向量,并根据所述状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;所述回报预测网络计算得到所述动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;根据用户的实际还款结果,计算所述动作实施后的真实回报,并根据所述真实回报和预测回报,以回报最大化为目标,对所述回报预测网络的参数进行更新。
6.本发明还提供了一种基于强化学习的风控模型构建装置,包括:验证模块,用于接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验
证;生成模块,用于对所述风控决策需要的数据进行处理,构建状态向量,并根据所述状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;执行模块,用于使用所述回报预测网络计算得到所述动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;更新模块,用于根据用户的实际还款结果,计算所述动作实施后的真实回报,并根据所述真实回报和预测回报,以回报最大化为目标,对所述回报预测网络的参数进行更新。
7.本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被处理器执行时实现以下步骤:接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验证;对所述风控决策需要的数据进行处理,构建状态向量,并根据所述状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;所述回报预测网络计算得到所述动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;根据用户的实际还款结果,计算所述动作实施后的真实回报,并根据所述真实回报和预测回报,以回报最大化为目标,对所述回报预测网络的参数进行更新。
8.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验证;对所述风控决策需要的数据进行处理,构建状态向量,并根据所述状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;所述回报预测网络计算得到所述动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;根据用户的实际还款结果,计算所述动作实施后的真实回报,并根据所述真实回报和预测回报,以回报最大化为目标,对所述回报预测网络的参数进行更新。
9.本发明提供的基于强化学习的风控模型构建方法及装置,应用利润最大化价值函数的强化学习风控模型,其中价值函数设计通过对信贷业务中各项收入和成本的计算,得到适用于强化学习的回报反馈,直接反应利润最大化这一商业目标,应用于更新模型参数,调整强化学习过程,使风控模型优化目标与商业目标一致,形成更直接、高效的风控解决方案。另外,本发明提供的基于强化学习的风控模型构建方法及装置,通过用户还款数据的更新,可以触发回报预测网络的参数自动按需更新,这样节省了样本积累所需要的时间,并且能迅速应对行业或者市场的变化。
附图说明
10.图1是本发明实施例提供的基于强化学习的风控模型构建方法的流程图;图2是本发明实施例提供的基于强化学习的风控模型构建原理示意图;图3是本发明实施例提供的基于强化学习的风控模型构建装置结构示意图;图4是本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
11.下面结合附图和实施例,对本发明技术方案作进一步描述。
12.参见图1和图2,本发明实施例提供的基于强化学习的风控模型构建方法,包括如下步骤:步骤s101、接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验证。
13.在具体应用中,接收到用户信贷请求后,首先获取用于风控决策需要的数据,然后依据数据进行准入策略验证,以保证借贷关系的合法合规。所述数据包括用户信息和行业环境数据。用户信息包括贷款需求、还款能力、信用评估、信贷历史行为、当前业务环节等方面。行业环境数据是对政策导向、经济形势和突发事件等的描述,包括总体环境和用户所在的行业、地域等细分环境。准入策略验证包括:确定借款人具有完全民事行为能力、借款不会用于违法犯罪活动等。
14.步骤s102、对用户信息和行业环境数据进行处理,构建状态向量。
15.在强化学习概念中:智能体处于环境e中,状态空间为x,其中每个状态x∈x是智能体感知到的环境描述。结合风控业务场景,对用户信息和行业环境数据进行处理,构建状态向量,作为风控系统中强化学习模型的输入。
16.对用户信息和行业环境数据进行处理,主要包括:清洗用户信息和行业环境数据,并对清洗后的数据进行数字标准化编码。清洗过程主要包括缺失值处理和异常值处理。缺失值处理依据缺失率是否高于阈值分为两种情况:1)对于缺失率大于阈值的信息字段,直接删除该信息字段;2)对于缺失率小于等于阈值的信息字段,对其中的缺失值用固定值填充,固定值可以为信息字段中所有非缺失值的平均值、中值或众数。异常值处理采用分箱来消除异常值影响,分箱方式包括等频、等宽或聚类等。数字标准化编码的过程包括数字化操作、标准化操作和编码操作。数字化操作是将字符串或者非数值型的信息字段映射为数值型,方便强化学习模型读入和处理。标准化操作是将数据转换为无量纲化指标值,使不同度量的信息字段之间具有可比性,例如本实施例通过公式进行标准化,其中x’为标准化后的数值,x为标准化前的数值,mean为均值,为标准差。编码操作包括序号编码、独热编码等,序号编码用于处理有大小关系的信息字段,将值按由大到小或由小到大的顺序映射为序号;独热编码用于处理无大小关系的信息字段,将一个枚举型的信息字段转换为多个二值信息字段。
17.步骤s103、根据状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络。
18.动作属于适用于风控业务的动作空间。在强化学习概念中:智能体能采取的动作构成了动作空间a,若某个动作a∈a作用在当前状态x上,则潜在的转移函数将使得环境从当前状态按照某种概率转移到另一个状态。结合风控业务场景,动作a需要确定用户的信贷额度、利率、期限和是否通过等信贷请求的决策结果,确定以上若干个变量的取值可以确定唯一动作a,因此动作空间a定义为信贷额度、利率、期限和是否通过等若干变量所有可能的取值组合。
19.下面对本发明实施例的风控业务的动作空间定义举例如下:假设如下个人信贷业务场景,信贷额度范围为30000~50000元,年化利率8%~12%,期限可选6个月、12个月,一种
简单的动作空间a定义如下表1所示。
20.在具体应用中,回报预测网络可以选用经典神经网络模型,包括q-learning、dqn(deep q network)、double dqn等,也可以在上述神经网络模型基础上,对网络结构、参数等进行调整,以适应具体业务场景的个性化需求。
21.步骤s104、回报预测网络计算得到动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施,并将动作对应的授信额度、利率、期限和是否通过等信贷决策结果返回给用户。
22.当用户发起授信或借款请求时,强化学习模型将以状态向量作为输入,采用预设的搜索策略(例如探索贪心策略)选择使得期望回报最大的动作并实施,同时将动作对应的信贷额度、利率、期限、是否通过等结果返回给用户,完成审核流程。需要说明的是:在借款请求中,可能出现信贷额度、期限已由用户选定,使得部分动作不可选的情况,但不影响动作空间的搜索。
23.在强化学习概念中:状态转移的同时,环境会根据潜在的价值函数r(s,a)反馈给智能体一个回报,智能体学习的目标是达成回报最大化。价值函数r(s,a)表示从状态s出发,执行动作a后带来的回报。结合业务场景,风控系统作为商业行为的一部分,其根本目标是利润最大化,因此本发明实施例强化学习中的回报定义为年化利润率,价值函数r即为年化利润率计算公式。强化学习模型选择回报预测网络输出的预测年化利润率最大的动作并实施,生成真实回报。
24.本实施例中,以先息后本(每月支付利息,到期后归还本金)还款方式为例,一笔订单的年化利润率计算公式为:年化利润率= [利润率/期限(天)]
×
365天
×
100%,利润率=利润/放款金额,利润=收入-成本=实还息费-坏账-资金成本-数据成本-其他成本,坏账=应还本金 应还息费-实还本金-实还息费,资金成本=放款金额
×
期限(天)
×
年化资金利率/365天。收入包括实还息费,成本包括坏账、资金成本、数据成本和其他成本(例如:获客成本,服务器设备、研发成本等)。年化资金利率为固定值,其与资金方的合同约定。数据成本是对该笔订单实际调用的所有数据源的费用进行求和。对于单次调用计费的数据源,其费用为数据源单价。对于包年计费的数据源,按照全年调用量均摊估算单次调用费用。用户的信贷请求被拒绝的情况下,该笔订单的实还息费、坏账和资金成本均为零。
[0025]
步骤s105、信贷订单到期后,获取用户的实际还款结果,计算动作实施后的真实回报,并根据真实回报和预测回报,以回报最大化为目标,对强化学习模型中的回报预测网络参数进行更新。
[0026]
回报预测网络以年化利润率最大化为目标进行各参数的更新,其过程包括:以随机初始化方式对回报预测网络的各参数进行赋值;根据历史信贷订单的真实回报和预测回报对回报预测网络的各参数进行更新;回报预测网络持续进行在线学习,并在每笔信贷订单到期后,根据该笔订单的真实回报和预测回报对回报预测网络的各参数进行再次更新。上述更新过程在线上持续重复进行,直至强化学习模型下线。用户还款数据的更新,可以触发回报预测网络的参数自动按需更新,这样节省了样本积累所需要的时间,并且能迅速应对行业或者市场的变化。
[0027]
本发明实施例应用利润最大化价值函数的强化学习风控模型,其中价值函数设计通过对信贷业务中各项收入和成本的计算,得到适用于强化学习的回报反馈,直接反应利润最大化这一商业目标,应用于更新模型参数,调整强化学习过程,使风控模型优化目标与商业目标一致,形成更直接、高效的风控解决方案。本发明实施例对风控业务中的信贷额度、期限、利率和是否通过等决策问题综合考虑,提出了适用于强化学习的、风控业务创新的动作空间定义,引入强化学习构建一套通用、完整、统一的风控解决方案。本发明实施例根据用户的贷款需求、还款能力、信用评估、信贷历史行为、当前业务环节,行业的政策导向、经济形式、突发事件等信息,从用户信息和行业环境两方面构建全面、精准、可量化的状态空间,为强化学习风控模型提供数据基础。通过本发明实施例提供的方法构建的风控模
型,其预测结果可用于反欺诈的识别、信贷的定额定价和复合的风控策略等。
[0028]
参见图3,本发明实施例还提供了一种基于强化学习的风控模型构建装置,该装置包括:验证模块301,用于接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验证;生成模块302,用于对风控决策需要的数据进行处理,构建状态向量,并根据状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;执行模块303,用于使用回报预测网络计算得到动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;更新模块304,用于根据用户的实际还款结果,计算动作实施后的真实回报,并根据真实回报和预测回报,以回报最大化为目标,对回报预测网络的参数进行更新。
[0029]
其中,生成模块302进一步包括:清洗单元,用于对风控决策需要的数据进行清洗;数字化单元,用于将清洗单元清洗后的数据中的字符串或者非数值型的信息字段映射为数值型;标准化单元,用于将数字化单元处理后的数据转换为无量纲化指标值,使不同度量的信息字段之间具有可比性;序号编码单元,用于处理标准化单元处理后的有大小关系的信息字段,将值按大小顺序映射为序号;独热编码单元,用于处理标准化单元处理后的无大小关系的信息字段,将一个枚举型的信息字段转换为多个二值信息字段;构建单元,用于将数字化单元、标准化单元、序号编码单元和独热编码单元处理后的信息字段,构建成状态向量;网络生成单元,用于根据状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络。
[0030]
其中,更新模块304进一步包括:初始化单元,用于以随机初始化方式对回报预测网络的各参数进行赋值,并根据历史信贷订单的真实回报和预测回报对回报预测网络的各参数进行更新;计算更新单元,用于根据用户的实际还款结果,计算动作实施后的真实回报,并根据真实回报和预测回报,以回报最大化为目标,对回报预测网络的参数进行再次更新。
[0031]
需要说明的是,本发明实施例提供的基于强化学习的风控模型构建装置所涉及各功能模块的其他相应描述,可以参考图1和2所示方法的对应描述,在此不再赘述。
[0032]
基于上述如图1和图2所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验证;对风控决策需要的数据进行处理,构建状态向量,并根据状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;回报预测网络计算得到动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;根据用户的实际还款结果,计算动作实施后的真实回报,并根据真实回报和预测回报,以回报最大化为目标,对回报预测网络的参数进行更
新。
[0033]
基于上述如图1、2所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图4所示,该计算机设备包括:存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序,其中存储器41和处理器42均设置在总线43上,处理器42执行所述程序时实现以下步骤:接收用户信贷请求,并获取风控决策需要的数据,进行准入策略验证;对风控决策需要的数据进行处理,构建状态向量,并根据状态向量和预定义的动作空间,结合强化学习模型,生成回报预测网络;回报预测网络计算得到动作空间中每个动作实施后的预测回报,并采用预设的搜索策略选择期望回报最大的动作并实施;根据用户的实际还款结果,计算动作实施后的真实回报,并根据真实回报和预测回报,以回报最大化为目标,对回报预测网络的参数进行更新。
[0034]
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0035]
在实际应用中,本发明实施例中所涉及的各个功能模块及单元,均可以由运行在计算机硬件上的计算机程序实现,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的硬件指的是包含一个或者多个处理器和存储介质的服务器或者台式计算机、笔记本电脑等;所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等;所述计算机程序由不限于c、c 等计算机语言实现。
[0036]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献