一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于神经网络模型的分箱方法、装置及电子设备与流程

2022-05-17 22:28:24 来源:中国专利 TAG:


1.本技术涉及数据处理技术,尤其涉及一种基于神经网络模型的分箱方法、装置及电子设备。


背景技术:

2.分箱是一种对多个数据进行分组的技术,每个分组可以称之为一个分箱。在机器学习领域中,通过对连续型的特征进行分箱处理,可以将特征离散化,从而使得基于该离散化的特征进行模型训练时,能够加快模型的迭代,有效增强了模型的鲁棒性和可解释性。
3.相关技术中采用等距分箱、等频分箱等分箱方法进行数据的分箱处理,然而,采用这些分箱方式得到的分箱,无法有效提升训练得到的模型的鲁棒性和可解释性。


技术实现要素:

4.本技术实施例提供一种基于神经网络模型的分箱方法、装置、电子设备及存储介质,能够得到显著提升神经网络模型的鲁棒性和可解释性的分箱。
5.本技术实施例的技术方案是这样实现的:
6.本技术实施例提供一种基于神经网络模型的分箱方法,包括:
7.获取神经网络模型的样本集;
8.对所述样本集中的多个特征样本进行样本分箱处理,得到包括至少两个样本分箱的分箱序列;
9.分别确定各所述样本分箱的证据权重;
10.基于各所述样本分箱的证据权重,从所述分箱序列中提取呈单调关系的最长单调序列,所述最长单调序列包括至少两个样本分箱;
11.基于所述最长单调序列,对所述至少两个样本分箱中未处于所述最长单调序列的样本分箱进行合并,得到至少两个目标分箱。
12.本技术实施例提供一种基于神经网络模型的分箱装置,包括:
13.获取模块,用于获取神经网络模型的样本集;
14.分箱处理模块,用于对所述样本集中的多个特征样本进行样本分箱处理,得到包括至少两个样本分箱的分箱序列;
15.证据权重确定模块,用于分别确定各所述样本分箱的证据权重;
16.提取模块,用于基于各所述样本分箱的证据权重,从所述分箱序列中提取呈单调关系的最长单调序列,所述最长单调序列包括至少两个样本分箱;
17.合并模块,用于基于所述最长单调序列,对所述至少两个样本分箱中未处于所述最长单调序列的样本分箱进行合并,得到至少两个目标分箱。
18.上述方案中,所述合并模块,还用于确定所述分箱序列中未处于所述最长单调序列中的至少一个子序列,所述子序列包括至少一个样本分箱;分别将所述至少一个子序列中的样本分箱进行合并,得到至少一个合并分箱;基于所述最长单调序列,对所述至少一个
合并分箱进行合并,得到至少两个目标分箱。
19.上述方案中,所述合并模块,还用于针对各所述合并分箱执行以下处理:获取所述最长单调序列中与所述合并分箱相邻且证据权重差值最小的样本分箱;将所述合并分箱与所述相邻且证据权重差值最小的样本分箱进行合并,以得到所述至少两个目标分箱。
20.上述方案中,所述基于神经网络模型的分箱装置,还包括:确定最长单调序列模块,用于分别确定所述至少一个合并分箱的证据权重;基于所述最长单调序列中各样本分箱的证据权重和各所述合并分箱的证据权重,重新确定最长单调序列;相应的,所述合并模块,还用于基于重新确定的最长单调序列,对所述至少一个合并分箱进行合并,得到至少两个目标分箱。
21.上述方案中,所述合并模块,还用于分别将所述至少一个合并分箱与所述最长单调序列中的样本分箱进行合并,得到合并分箱序列,所述合并分箱序列包括至少两个合并后的样本分箱;分别确定所述合并分箱序列中的样本分箱的证据权重;基于所述合并分箱序列中样本分箱的证据权重,确定所述合并分箱序列未呈单调关系时,重新确定最长单调序列;基于重新确定的最长单调序列,对未处于重新确定的最长单调序列中的样本分箱进行合并,得到所述至少两个目标分箱。
22.上述方案中,所述合并模块,还用于将未处于重新确定的最长单调序列中的样本分箱与处于重新确定的最长单调序列中的样本分箱进行合并,得到新的合并分箱序列;针对新的合并分箱序列,返回所述分别确定所述合并分箱序列中的样本分箱的证据权重的步骤,直至合并分箱序列呈单调关系,得到所述至少两个目标分箱。
23.上述方案中,所述合并模块,还用于基于所述合并分箱序列中样本分箱的证据权重,确定所述合并分箱序列呈单调关系时,将所述合并分箱序列中的样本分箱作为目标分箱,得到所述至少两个目标分箱。
24.上述方案中,所述样本集中的特征样本包括样本特征;所述基于神经网络模型的分箱装置,还包括:排序模块,用于基于所述样本集中各特征样本所包括的样本特征,对所述多个特征样本进行排序,得到特征样本序列;相应的,所述分箱处理模块,还用于对所述特征样本序列中的多个特征样本进行样本分箱处理。
25.本技术实施例提供一种电子设备,包括:
26.存储器,用于存储可执行指令;
27.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的基于神经网络模型的分箱方法。
28.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的基于神经网络模型的分箱方法。
29.本技术实施例具有以下有益效果:
30.与相关技术中采用等距分箱或等频分箱等分箱方法进行分箱处理的方式相比,本技术实施例通过从对样本集进行分箱处理得到的分箱序列中提取呈单调关系的最长单调序列,并对未处于最长单调序列中的样本分箱进行合并,以得到呈单调关系的多个目标分箱,使得合并分箱的操作围绕最长单调序列进行,能够更大程度的保留处于最长单调序列中的分箱,并减少了对分箱进行合并的操作,从而更大限度的保留了更多数量的呈单调关系的分箱,使得基于本技术实施例得到的目标分箱训练后的神经网络模型的鲁棒性和可解
释性等模型效果显著提升,克服了相关技术所采用的分箱处理方式得到的分箱对模型效果的提升有限的缺陷。
附图说明
31.图1是本技术实施例提供的基于神经网络模型的分箱系统的一个可选的结构示意图;
32.图2是本技术实施例提供的电子设备的一个可选的结构示意图;
33.图3是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图;
34.图4a是本技术实施例提供的分箱序列的一个可选的示意图;
35.图4b是本技术实施例提供的对子序列进行合并后的分箱序列的一个可选的示意图;
36.图4c是本技术实施例提供的对合并分箱进行合并后的分箱序列的一个可选的示意图;
37.图4d是本技术实施例提供的基于重新确定的最长单调序列对合并分箱进行合并后的分箱序列的一个可选的示意图;
38.图5是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图;
39.图6是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图;
40.图7是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图;
41.图8是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图;
42.图9是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图;
43.图10是本技术实施例提供的基于神经网络模型的分箱装置的一个可选的组成结构示意图。
具体实施方式
44.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
45.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的样本分箱,但是可以理解,“一些实施例”可以是所有可能实施例的相同样本分箱或不同样本分箱,并且可以在不冲突的情况下相互结合。
46.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
47.在以下的描述中,所涉及的术语“第一\第二”等仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”等在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
48.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
49.1)证据权重,用于衡量正常样本分布和违约样本分布的差异。woe=ln(正常样本分布/违约样本分布)。
50.本技术实施例中,正常样本为信用评估通过的样本,违约样本为信用评估未通过的样本。针对每一个样本分箱,若该样本分箱内的信用评估通过的样本数量与信用评估未通过的样本数量的比例为第一比值,总的样本集中信用评估通过的样本数量与信用评估未通过的样本数量的比例为第二比值,则样本分箱的woe=ln(第一比值/第二比值)。
51.2)风控模型,是一种分类模型,用于基于输入的针对目标用户的用户特征数据,输出对应目标用户的风控评估结果。它可以采用神经网络模型实现,例如长短期记忆网络(lstm,long short-term memory)等。
52.3)特征分段数据,包含分箱的特征分段信息,用于指示分箱的特征区间。
53.示例性地,若样本集基于年龄这一特征被划分为小于10岁、10-20岁、20-40岁、40-60岁和大于60岁等5个年龄段,则特征分段数据可以为[0,10]、(10,20]、(20,40]、(40,60]和(60, ∞]等特征区间,单位为岁。此外,特征分段数据还可以是分箱的间隔点,例如可以是10、20、40和60,单位为岁。
[0054]
发明人在实施本技术实施例时发现,当分箱的证据权重单调时,能够较大提升模型的鲁棒性和可解释性等模型效果。而相关技术中,采用等距分箱或等频分箱等方法进行分箱处理得到的分箱不能保证分箱的证据权重单调。为了使分箱的证据权重单调,发明人在分箱处理时,基于离散化的分箱序列,不断合并分箱序列中的单调递增子序列的尾部和单调递减子序列的头部,或者合并单调递减子序列的尾部和单调递增子序列的头部,直至所有的分箱的证据权重呈单调关系。然而,这种处理方式往往最后只剩下少数几个分箱,对模型效果的提升帮助仍然不够强。
[0055]
基于此,本技术实施例提供一种基于神经网络模型的分箱方法、装置、电子设备和计算机可读存储介质,能够得到显著提升神经网络模型的鲁棒性和可解释性的分箱。
[0056]
首先对本技术实施例提供的基于神经网络模型的分箱系统进行说明,参见图1,图1是本技术实施例提供的基于神经网络模型的分箱系统100的一个可选的架构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。在一些实施例中,终端400可以是笔记本电脑,平板电脑,台式计算机,智能手机,专用消息设备,便携式游戏设备,智能音箱,智能手表等,但并不局限于此。服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。网络300可以是广域网或者局域网,又或者是二者的组合。终端400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例中不做限制。
[0057]
终端400,用于采集神经网络模型的样本集,并发送样本集至服务器200。
[0058]
服务器200,用于获取神经网络模型的样本集;对样本集中的多个特征样本进行样本分箱处理,得到包括至少两个样本分箱的分箱序列;分别确定各样本分箱的证据权重;基于各样本分箱的证据权重,从分箱序列中提取呈单调关系的最长单调序列,最长单调序列包括至少两个样本分箱;基于最长单调序列,对至少两个样本分箱中未处于最长单调序列的样本分箱进行合并,得到至少两个目标分箱;并返回至少两个目标分箱给终端400。
[0059]
终端400,还用于接收服务器200返回的分箱处理完成的消息,当所述神经网络模型为风控模型时,响应于针对风控模型的模型训练触发操作,发送模型训练指令至服务器200,以服务器200响应于该模型训练指令,基于至少两个目标分箱,训练风控模型,并生成模型训练完成的消息返回给终端400。
[0060]
终端400,还用于接收服务器200返回的模型训练完成的消息,响应于针对目标用户进行风险预测的风险预测触发操作,发送针对目标用户的风险预测指令至服务器200,以使服务器200响应于风险预测指令,对目标用户进行风险预测,得到风控评估结果并返回给终端200,以使终端200输出该风控评估结果。
[0061]
参见图2,图2是本技术实施例提供的电子设备500的结构示意图,参见图2,图2是本技术实施例提供的电子设备500的结构的一个可选的示意图,在实际应用中,电子设备500可以实施为图1中的终端400或服务器200,以电子设备为图1所示的服务器200为例,对实施本技术实施例的基于神经网络模型的分箱方法的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可以理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
[0062]
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
[0063]
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
[0064]
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
[0065]
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only memory),易失性存储器可以是随机存取存储器(ram,random access memory)。本技术实施例描述的存储器550旨在包括任意适合类型的存储器。
[0066]
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
[0067]
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
[0068]
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等;
[0069]
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
[0070]
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
[0071]
在一些实施例中,本技术实施例提供的基于神经网络模型的分箱装置可以采用软件方式实现,图2示出了存储在存储器550中的基于神经网络模型的分箱装置555,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块5551、分箱处理模块5552、证据权重确定模块5553、提取模块5554和合并模块5555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
[0072]
在另一些实施例中,本技术实施例提供的基于神经网络模型的分箱装置可以采用硬件方式实现,作为示例,本技术实施例提供的基于神经网络模型的分箱装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本技术实施例提供的基于神经网络模型的分箱方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field-programmable gate array)或其他电子元件。
[0073]
将结合本技术实施例提供的服务器的示例性应用和实施,说明本技术实施例提供的基于神经网络模型的分箱方法。
[0074]
参见图3,图3是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
[0075]
步骤101,服务器获取神经网络模型的样本集。
[0076]
这里,神经网络模型可以是一个二分类模型,还可以是多分类模型。本实施例以神经网络模型为二分类模型进行说明,相应的,样本集中的各特征样本具有至少一种样本特征,且各特征样本上标注有事件结果,该事件结果包括第一事件和第二事件等两种类型的事件,为便于后续说明,本实施例中分别以ev ent和non-event表示第一事件和第二事件。在实际实施时,服务器可以从收集有大量特征样本的样本库内采集样本集,还可以从网页中爬取需要的数据作为特征样本以获得样本集,或者通过大量测试过程生成需要的特征样本等,本实施例不对获取样本集的具体方式作限定。
[0077]
示例性地,若神经网络模型为风控模型,相应地,风控模型的样本集中的各特征样本具有样本特征,各特征样本上标注的事件结果则为目标风控评估结果。风控评估结果则包括信用评估通过的第一事件,以及信用评估未通过的第二事件等两种事件类型,其中。特征样本可以是用户特征样本,用户特征样本包括至少一个用户特征数据,用户特征数据可以包括但不限于用户的账户数据、用户的业务数据、用户的设备信息以及用户轨迹。其中,
账户数据可以包括但不限于账户名、手机号、银行卡号、姓名、年龄、性别、身份证、地址等。业务数据为业务场景下的数据,例如业务场景为贷款业务,业务数据则包括贷款数据、还款数据以及贷款消费数据等。设备信息包括用户常用设备的型号、设备所处的环境信息等。用户轨迹包括用户的访问顺序、操作频率和按键信息等。
[0078]
在实际实施时,服务器可以基于用户的上传操作获得神经网络模型的样本集,还可以是通过采集相关平台的数据以得到样本集,例如通过采集信用平台的用户特征数据和对应的风控评估结果来得到风控模型的样本集。这里,信用平台可以是金融类应用平台,例如线上银行平台、购物平台等。
[0079]
步骤102,对样本集中的多个特征样本进行样本分箱处理,得到包括至少两个样本分箱的分箱序列。
[0080]
这里,服务器按照各特征样本的样本特征,对多个特征样本进行分箱,得到包括至少两个样本分箱的分箱序列。具体地,服务器可以按照特征样本的样本特征值对多个特征样本进行分箱,例如对于年龄这一样本特征,服务器则基于年龄大小对多个特征样本进行分箱,比如将多个特征样本按照年龄划分为小于10岁、10-20岁、20-30岁、30-40岁、40-50岁、50-60岁和大于60岁等几个年龄段对应的样本分箱,其中,分箱序列中的各样本分箱则按照各样本分箱对应的年龄段的大小排序。服务器还可以按照样本特征的归类,对多个特征样本进行分箱,例如对于地址这一样本特征,则可以基于地址所归属的地域范围来对多个特征样本进行分箱,比如按照城市对特征样本进行分箱,得到多个城市对应的多个样本分箱,分箱序列中的各样本分箱则可以基于城市的国内生产总值(gdp,gross domestic product)排序,还可以基于城市的地理经纬度排序等。在实际实施时,特征样本包括多个样本特征,服务器则分别基于各样本特征,对多个特征样本进行分箱,以得到各样本特征各自对应的至少两个目标分箱。
[0081]
在一些实施例中,基于图3,在步骤101之后,还可以执行:基于样本集中各特征样本所包括的样本特征,对多个特征样本进行排序,得到特征样本序列。相应的,步骤102包括:对特征样本序列中的多个特征样本进行样本分箱处理。
[0082]
这里,服务器在获得样本集后,首先基于样本集中各特征样本所包括的样本特征,对多个特征样本进行排序,然后基于排序后的特征样本进行分箱处理。在实际实施时,服务器基于预设规则对多个特征样本进行分箱处理。这里,预设规则例如可以是基于特征样本的样本特征,按照一定的特征值间隔,将多个特征样本划分为由预设特征值间隔所分割的包括至少两个样本分箱的分箱序列。预设规则还可以是将多个特征样本划分为一定数量的样本分箱,各样本分箱基于相等的特征值间隔。
[0083]
步骤103,分别确定各样本分箱的证据权重。
[0084]
在实际实施时,服务器分别基于各样本分箱中各特征样本的不同分类的事件结果,确定各样本分箱的证据权重。具体地,服务器确定样本集中第一事件对应的特征样本的数量和第二事件对应的特征样本的数量,并针对各样本分箱执行以下处理:确定样本分箱中第一事件对应的特征样本的数量和第二事件对应的特征样本的数量,基于样本集中第一事件对应的特征样本的数量和第二事件对应的特征样本的数量、以及样本分箱中第一事件对应的特征样本的数量和第二事件对应的特征样本的数量,确定样本分箱的证据权重。示例性地,服务器采用公式(1)确定样本分箱的证据权重:
[0085][0086]
其中,woei为样本分箱的证据权重,n
event
为样本集中第一事件对应的特征样本的数量,n
non-event
为样本集中第二事件对应的特征样本的数量,t
ievent
为样本分箱中第一事件对应的特征样本的数量,t
inon-event
为样本分箱中第二事件对应的特征样本的数量。
[0087]
其中,针对固定的样本集,对于任意样本分箱的证据权重,其中的n
event
/n
non-event
的值恒定不变。可以理解,样本分箱的t
ievent
/t
inon-event
的比值越大,即样本分箱中第一事件对应的特征样本的数量与第二事件对应的特征样本的数量的比值越大,该样本分箱的证据权重越大,反之则越小。可以理解,t
ievent
/t
inon-event
=n
event
/n
non-event
时,该样本分箱的证据权重为零;t
ievent
/t
inon-event
<n
event
/n
non-event
时,该样本分箱的证据权重小于零;t
ievent
/t
inon-event
》n
event
/n
non-event
时,该样本分箱的证据权重大于零。
[0088]
步骤104,基于各样本分箱的证据权重,从分箱序列中提取呈单调关系的最长单调序列,最长单调序列包括至少两个样本分箱。
[0089]
在实际实施时,服务器以各样本分箱的证据权重来表示各样本分箱的值。示例性地,参照图4a,图4a是本技术实施例提供的分箱序列的一个可选的示意图,样本集被划分为由1-10等10个样本分箱构成的分箱序列,各样本分箱的证据权重分别为woe1、woe2、
……
、woe10,其中,woe1《woe9《wo e6《woe5《woe2《woe3《woe10》woe4《woe7《woe8。
[0090]
在实际实施时,服务器基于各样本分箱的证据权重,确定证据权重随分箱序列的排序呈单调关系的最长单调序列。这里,服务器采用动态规划算法,基于各样本分箱的证据权重,从分箱序列中提取出证据权重呈单调关系的最长单调序列。示例性地,图4a示出的分箱序列中,服务器确定的最长单调序列则为“1-2-3-4-7-8”。
[0091]
步骤105,基于最长单调序列,对至少两个样本分箱中未处于最长单调序列的样本分箱进行合并,得到至少两个目标分箱。
[0092]
这里,基于上述公式(1)可知,由于n
event
/n
non-event
的值恒定不变,因而证据权重是随t
ievent
/t
inon-event
的值单调的,基于该单调性,可以知道,对于任意待合并的样本分箱i和i 1而言,无论woei>woe
i 1
还是woei<woe
i 1
,最终合并后得到的样本分箱对应的woe值一定是woei>woe>woe
i 1
或woei<woe<woe
i 1
,而woei=woe
i 1
时,合并后得到的样本分箱的woe值不变,而分箱序列的样本分箱的数量减一。
[0093]
基于此,在实际实施时,服务器基于最长单调序列,将未处于最长单调序列中的剩余的样本分箱并入最长单调序列中,以得到构成单调序列的至少两个目标分箱。
[0094]
上述实施例中,服务器通过从对样本集进行分箱处理得到的分箱序列中提取呈单调关系的最长单调序列,并对未处于最长单调序列中的样本分箱进行合并,以得到呈单调关系的多个目标分箱,使得合并分箱的操作围绕最长单调序列进行,能够更大程度的保留处于最长单调序列中的分箱,并减少了对分箱进行合并的操作,从而更大限度的保留了更多数量的分箱,使得基于至少两个目标分箱训练后的神经网络模型的效果显著提升。
[0095]
在一些实施例中,参见图5,图5是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图,基于图3,步骤105可以通过如下方式实现:
[0096]
步骤201,服务器确定分箱序列中未处于最长单调序列中的至少一个子序列,子序列包括至少一个样本分箱。
[0097]
这里,子序列为在分箱序列中的相邻的至少两个样本分箱构成,且子序列中的各样本分箱均未处于最长单调序列中。在实际实施时,服务器获取分箱序列中除最长单调序列以外的各样本分箱,并基于分箱序列中除最长单调序列以外的各样本分箱的排序,确定相邻排序的样本分箱以构成子序列。例如,图4a示出的分箱序列中,最长单调序列为“1-2-3-4-7-8”,服务器则获取分箱序列中除最长单调序列以外的样本分箱“5”、“6”、“9”和“10”,然后基于获取的样本分箱的排序,确定其中的相邻排序的样本分箱以构成子序列,这里,样本分箱“5”和“6”为相邻排序,样本分箱“9”和“10”为相邻排序,则服务器将样本分箱“5”和“6”构成的序列“5-6”作为一个子序列,将样本分箱“9”和“10”构成的序列“9-10”作为一个子序列。应当理解的是,在一些实施例中,分箱序列中未处于最长单调序列中的样本分箱不构成子序列,即分箱序列中未处于最长单调序列中的子序列的个数为零,此时,服务器则不再执行步骤202,而是将分箱序列中未处于最长单调序列中的样本分箱作为合并序列,执行步骤203。此外,若分箱序列本身即为单调序列,则直接将该分箱序列的各样本分箱作为目标分箱,而不再进行分箱合并的操作。
[0098]
步骤202,分别将至少一个子序列中的样本分箱进行合并,得到至少一个合并分箱。
[0099]
在实际实施时,服务器分别将各子序列中的样本分箱进行合并,以分别将各子序列合并为一个整体的合并分箱。具体地,服务器将子序列中的各样本分箱的各特征样本合并为一个样本分箱,作为合并分箱。可以理解,合并分箱的个数与子序列的个数对应。示例性地,参见图4b,图4b是本技术实施例提供的对子序列进行合并后的分箱序列的一个可选的示意图,这里,服务器分别将子序列“5-6”和“9-10”进行合并,得到由样本分箱“5”和“6”合并后的合并分箱“11”,以及由样本分箱“9”和“10”合并后的合并分箱12。
[0100]
步骤203,基于最长单调序列,对至少一个合并分箱进行合并,得到至少两个目标分箱。
[0101]
在实际实施时,服务器将至少一个合并分箱并入最长单调序列中,以得到构成单调序列的至少两个目标分箱。这里,服务器确定最长序列中与合并分箱相邻的样本分箱,将合并分箱与相邻的样本分箱进行合并,从而得到合并分箱序列,然后确定合并分箱序列的单调性,如果合并分箱序列单调则将合并分箱序列中的各样本分箱作为目标分箱,完成对样本集的分箱处理。如果合并分箱序列不单调,则继续将未处于合并分箱序列中的样本分箱作为合并分箱,进行上述的合并过程,直至合并分箱序列单调。
[0102]
在一些实施例中,基于图5,步骤203还可以通过如下方式实现:服务器针对各合并分箱执行以下处理:获取最长单调序列中与合并分箱相邻且证据权重差值最小的样本分箱;将合并分箱与相邻且证据权重差值最小的样本分箱进行合并,以得到至少两个目标分箱。
[0103]
在实际实施时,服务器在对子序列进行合并得到合并分箱之后,由于合并分箱是由子序列中的至少两个样本分箱合并得到,合并分箱的证据权重未知,因而为了得到基于证据权重对各合并分箱进行合并,需要首先确定合并分箱的证据权重。这里,服务器基于各合并分箱的t
ievent
/t
inon-event
来确定各合并分箱的证据权重。本实施例中,服务器则是基于各合并分箱中信用评估通过的特征样本的数量与信用评估未通过的特征样本的数量的比值,采用上述的公式(1)计算得到各合并分箱的证据权重。
[0104]
接下来,服务器在确定各合并分箱的证据权重之后,确定最长单调序列中与合并分箱相邻的相邻分箱,然后比较相邻分箱的证据权重与合并分箱的证据权重的大小,获取证据权重与合并分箱的证据权重差值最小的相邻分箱,将证据权重差值最小的相邻分箱与合并分箱进行合并,以得到合并后的至少两个目标分箱。
[0105]
示例性地,参见图4c,图4c是本技术实施例提供的对合并分箱进行合并后的分箱序列的一个可选的示意图。这里,服务器针对合并分箱“11”执行以下处理:服务器确定合并分箱“11”的证据权重woe11,并确定最长单调序列中与合并分箱“11”相邻的样本分箱“4”和“7”,然后基于“11”、“4”和“7”的证据权重woe11、woe4和woe7,分别确定woe11与woe4和woe7的差值,并比较woe11和woe4的差值绝对值|woe11-woe4|与woe11和woe7的差值绝对值|woe11-woe7|的大小,基于|woe11-woe4|和|woe11-woe7|的大小关系,确定得到与合并分箱“11”的证据权重差值最小的样本分箱“4”,此后,服务器将合并分箱“11”和样本分箱“4”进行合并,得到合并后的样本分箱“13”。同样地,服务器针对合并分箱“12”执行上述处理,确定得到与合并分箱“12”相邻且证据权重差值最小的样本分箱“8”,将合并分箱“12”和样本分箱“8”进行合并,得到合并后的样本分箱“14”。至此,服务器得到合并分箱序列“1-2-3-13-7-14”。在实际实施时,服务器继续重新确定最长单调序列,并将未处于最长单调序列中的样本分箱进行合并,直至所有样本分箱序列均处于最长单调序列中,将最长单调序列中的样本分箱作为目标分箱。
[0106]
上述实施例中,通过将合并分箱与相邻且证据权重差值最小的样本分箱进行合并,能够最大程度的减少合并分箱处理时的分箱数量的损失,从而保留更多分箱数量的目标分箱,使得基于目标分箱训练得到的神经网络模型的鲁棒性和可解释性大幅提升。
[0107]
在一些实施例中,基于图5,步骤203之前,还可以执行:服务器分别确定至少一个合并分箱的证据权重;基于最长单调序列中各样本分箱的证据权重和各合并分箱的证据权重,重新确定最长单调序列。相应的,步骤203还可以通过如下方式实现:服务器基于重新确定的最长单调序列,对至少一个合并分箱进行合并,得到至少两个目标分箱。
[0108]
在实际实施时,服务器首先确定合并分箱的证据权重,在确定各合并分箱的证据权重之后,基于各合并分箱的证据权重和最长单调序列中各样本分箱的证据权重,重新确定最长单调序列。这里,服务器采用动态规划算法重新确定最长单调序列。可以理解,重新确定的最长单调序列中,可能包括对子序列进行合并后得到的合并分箱。服务器在得到重新确定的最长单调序列之后,基于重新确定的最长单调序列,继续对不处于重新确定的最长单调序列中的合并分箱进行合并,直至所有合并分箱均处于最长单调序列中,将最长单调序列中的各样本分箱作为目标分箱,完成对样本集的分箱处理。
[0109]
示例性地,参照图4d,图4d是本技术实施例提供的基于重新确定的最长单调序列对合并分箱进行合并后的分箱序列的一个可选的示意图。这里,服务器在基于最长单调序列“1-2-3-4-7-8”,对合并分箱“11”与“12”合并得到分箱序列“1-2-3-13-7-14”后,基于该分箱序列重新确定最长单调序列,这里,重新确定的最长单调序列为“1-2-3-13-7”。服务器继续基于重新确定的最长单调序列“1-2-3-13-7”,将不处于该最长单调序列中的样本分箱“14”进行合并。这里,服务器可以确定最长单调序列中与样本分箱“14”相邻且证据权重差值最小的样本分箱“7”,然后将样本分箱“14”与该相邻的样本分箱“7”进行合并,得到合并后的样本分箱“15”,以得到合并后的分箱序列“1-2-3-13-15”,当合并后的分箱序列单调
时,得到构成单调的分箱序列的至少两个目标分箱。
[0110]
上述实施例中,通过重新确定最长单调序列,避免将能够与此前的最长单调序列的各样本分箱构成单调序列的合并分箱也进行了合并,从而使得最终得到的目标分箱保留了更多的分箱数量。
[0111]
在一些实施例中,基于图5,步骤203还可以通过如下方式实现:服务器分别将至少一个合并分箱与最长单调序列中的样本分箱进行合并,得到合并分箱序列,合并分箱序列包括至少两个合并后的样本分箱;分别确定合并分箱序列中的样本分箱的证据权重;基于合并分箱序列中样本分箱的证据权重,确定合并分箱序列未呈单调关系时,重新确定最长单调序列;基于重新确定的最长单调序列,对未处于重新确定的最长单调序列中的样本分箱进行合并,得到至少两个目标分箱。
[0112]
在实际实施时,服务器在基于最长单调序列对各合并分箱进行合并得到合并分箱序列之后,继续确定合并分箱序列中各样本分箱的证据权重,并基于合并分箱序列中各样本分箱的证据权重,判断合并分箱序列是否基于证据权重呈单调关系,若未呈单调关系,则继续重新确定最长单调序列,以基于最长单调序列,将未处于最长单调序列中的样本分箱进行合并,直至合并得到的合并分箱序列呈单调关系,获取构成单调关系的合并分箱序列的各目标分箱。
[0113]
在一些实施例中,基于重新确定的最长单调序列,对未处于重新确定的最长单调序列中的样本分箱进行合并,得到至少两个目标分箱,可以通过如下方式实现:服务器将未处于重新确定的最长单调序列中的样本分箱与处于重新确定的最长单调序列中的样本分箱进行合并,得到新的合并分箱序列;针对新的合并分箱序列,返回分别确定合并分箱序列中的样本分箱的证据权重的步骤,直至合并分箱序列呈单调关系,得到至少两个目标分箱。
[0114]
示例性地,参见图4c和图4d,图4c示出的分箱序列即为基于最长单调序列,对合并分箱进行合并之后得到的合并分箱序列。服务器基于图4c示出的合并分箱序列重新确定最长单调序列为“1-2-3-13-7”,然后基于重新确定的最长单调序列,将未处于该最长单调序列的样本分箱“14”进行合并,得到图4d示出的新的合并分箱序列“1-2-3-13-15”,这里,服务器针对新的合并分箱序列,返回分别确定合并分箱序列中的样本分箱的证据权重的步骤,以继续确定合并分箱序列“1-2-3-13-15”中的各样本分箱的证据权重,并判断该合并分箱序列是否呈单调关系,若未呈单调关系,服务器还进一步重新确定最长单调序列,并对未处于最长单调序列中的样本分箱进行合并。
[0115]
在一些实施例中,服务器还执行以下处理:服务器基于合并分箱序列中样本分箱的证据权重,确定合并分箱序列呈单调关系时,将合并分箱序列中的样本分箱作为目标分箱,得到至少两个目标分箱。
[0116]
在实际实施时,若服务器判断分箱合并后得到的合并分箱序列呈单调关系时,则结束合并分箱处理,将当前得到的合并分箱序列中的样本分箱作为目标分箱,得到至少两个目标分箱,完成对样本集的分箱处理。示例性地,图4d示出的合并分箱序列“1-2-3-13-15”呈单调关系,服务器则结束合并分箱处理,将图4d示出的合并分箱序列中的各样本分箱作为目标分箱,至此,得到至少两个目标分箱“1”、“2”、“3”、“13”和“15”。
[0117]
上述实施例中,通过在每一次合并分箱之后,不断重新确定当前的分箱序列的各样本分箱的证据权重,并基于各样本分箱的证据权重判断当前的分箱序列是否呈单调关
系,在未呈单调关系时,重新确定当前的最长单调序列,然后将未处于最长单调序列中的样本分箱进行合并,直至合并后的分箱序列呈单调关系,能够得到分箱数量最大的呈单调关系的目标分箱。
[0118]
在一些实施例中,参见图6,图6是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图。当神经网络模型为风控模型时,所述样本集为风控模型的样本集,样本集中的各特征样本上标注有目标风控评估结果,基于图3,在步骤105之后,还可以执行:
[0119]
步骤301,服务器分别确定各目标分箱的特征分段数据和目标证据权重。
[0120]
在实际实施时,服务器基于对样本集进行分箱处理后得到的至少两个目标分箱对风控模型进行模型训练。这里,目标分箱的特征分段数据为目标分箱内所有特征样本所对应的样本特征所构成的特征范围。示例性地,若基于年龄这一样本特征对样本集进行分箱处理,最终得到的各目标分箱所对应的特征分段数据则可以是小于10岁、10-20岁、20-40岁、40-60岁和大于60岁等5个特征区间,可以表示为[0,10]、(10,20]、(20,40]、(40,60]和(60, ∞],单位为岁。服务器还可以将特征分段的间隔点作为特征分段数据,如此,特征分段数据则为10岁、20岁、40岁和60岁。此外,服务器还基于各目标分箱中信用评估通过的特征样本的数量与信用评估未通过的特征样本的数量的比值,确定各目标分箱的目标woe值。
[0121]
在一些实施例中,样本集中各特征样本包括至少两个样本特征,服务器则分别基于各样本特征对样本集进行特征分箱处理,得到各样本特征分别对应的至少两个目标分箱,将至少两个目标分箱构成的分箱序列作为目标分箱序列,则得到各样本特征对应的目标分箱序列。例如,服务器基于年龄对样本集分箱得到上述的多个目标分箱构成的目标分箱序列,服务器还基于学历对样本集分箱得到多个目标分箱构成的目标分箱序列,例如可以是高中以下、大专、本科、硕士、博士等几个目标分箱构成的目标分箱序列。
[0122]
步骤302,将样本集的各特征样本输入至风控模型中。
[0123]
步骤303,分别通过风控模型,基于各目标分箱的特征分段数据和目标证据权重,对样本集中的各特征样本进行风险预测,得到各特征样本的预测风控评估结果。
[0124]
在实际实施时,风控模型为一个二分类的神经网络模型,例如可以采用长短期记忆网络(lstm,long short-term memory)实现。这里,服务器将样本集中的各特征样本作为模型的输入,输入至风控模型中,然后通过风控模型,分别基于目标分箱的特征分段数据和目标证据权重,对各特征样本进行风险预测,得到各特征样本的预测风控评估结果。
[0125]
在一些实施例中,基于图6,步骤303还可以通过如下方式实现:服务器分别通过风控模型,基于各目标分箱的特征分段数据,对各特征样本进行编码,得到各特征样本的特征编码;分别通过风控模型,基于各特征样本所属的目标分箱的目标证据权重,对各特征样本的特征编码进行风险预测,得到各特征样本的预测风控评估结果。
[0126]
这里,服务器通过风控模型,基于各目标分箱的特征分段数据,基于特征样本的样本特征,确定特征样本所属的目标分箱,并综合各目标分箱的特征分段数据以及特征样本所属的目标分箱,对特征样本进行编码。
[0127]
示例性地,若各目标分箱的为基于年龄这一样本特征分箱处理得到,得到的特征分段数据为[0,10]、(10,20]、(20,40]、(40,60]和(60, ∞],单位为岁,对于样本特征为25岁的特征样本,则可以将其编码为[0 0 1 0 0]
t
。本实施例中,特征样本包括至少两个样本
特征,服务器则分别基于各样本特征所对应的目标分箱的特征分段数据,对特征样本进行编码,得到各样本特征所对应的特征编码,然后将各样本特征所对应的特征编码进行特征拼接,得到特征样本的特征编码。示例性的,若特征样本包括年龄和学历这两个特征,而年龄这一样本特征对应的特征分段数据如上所述,学历这一样本特征对应的特征分段数据为高中以下、大专、本科、硕士、博士,则对于样本特征为25岁,本科学历的特征样本,服务器将其编码为如下所示的特征编码:
[0128][0129]
其中,不同样本特征所对应的目标分箱的分箱数量可能不同,这里,服务器取分箱数量最多的样本特征的目标分箱的分箱数量作为特征编码的行数,对于分箱数量小于该样本特征的其余样本特征,在行数上编码完成后,可以将剩余行的编码赋值为零。在实际实施时,还可以依据具体需求对样本特征进行编码,本技术实施例不对样本特征的编码形式作具体限定。
[0130]
此外,服务器还可以获取各样本特征对应的特征权值,基于各样本特征的特征权值,进行特征拼接,或者对各样本特征对应的特征编码进行加权求和,得到特征样本的特征编码。需要说明的是,在实际实施时,样本特征的数量可以基于实际需求进行选择,服务器需分别基于所有的样本特征对特征样本进行编码,以得到特征样本的特征编码。
[0131]
接下来,服务器则对各特征样本的特征编码进行风控评估结果的概率预测,基于预测概率值得到各特征样本的预测风控评估结果。这里,当预测概率值表征信用评估通过的概率大于概率阈值时,预测风控评估结果为信用评估通过,反之为信用评估未通过。
[0132]
步骤304,基于各特征样本上标注的目标风控评估结果与预测风控评估结果的差异,对风控模型的模型参数进行更新。
[0133]
在实际实施时,服务器基于各特征样本上标注的目标风控评估结果,确定样本集的目标风控评估结果的数据分布,并基于预测得到的各特征样本的预测风控评估结果,确定样本集的预测风控评估结果的数据分布,然后基于目标风控评估结果的数据分布和预测风控评估结果的数据分布之间的差异,对风控模型的模型参数进行更新。这里,服务器采用交叉熵损失函数,确定目标风控评估结果的数据分布和预测风控评估结果的数据分布之间的差异。在一些实施例中,服务器还可以采用其他方式来确定两个数据分布之间的差异,本技术实施例不对此作具体限定。这里,通过不断的迭代训练过程,使两个数据分布之间的差异达到一个差异阈值时,完成模型的训练,得到训练后的风控模型。
[0134]
上述实施例中,通过利用本技术实施例分箱处理得到的目标分箱来对风控模型进行训练,训练得到的风控模型拥有较好的鲁棒性和可解释性。
[0135]
在一些实施例中,参见图7,图7是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图。样本集中的各特征样本上标注有目标风控评估结果,基于图6,在步骤304之后,还可以执行:
[0136]
步骤401,服务器获取目标用户的用户特征数据;
[0137]
这里,当需要对目标用户进行风控评估时,服务器采集目标用户的用户特征数据。
这里,服务器获取目标用户的身份信息,并基于目标用户的身份信息,基于互联网中的金融大数据,采集该目标用户的用户特征数据。在实际实施时,服务器还对采集到的用户特征数据进行筛选和提取,从中提取出于风控模型的输入相对应的所有用户特征数据。
[0138]
步骤402,将用户特征数据输入至风控模型;
[0139]
步骤403,通过风控模型,基于用户特征数据,对目标用户进行风险预测,得到目标用户的风控评估结果。
[0140]
在一些实施例中,基于图7,步骤403还可以通过如下方式实现:服务器通过风控模型,基于用户特征数据和各目标分箱的特征分段数据,确定目标用户所属的目标分箱;通过风控模型,基于目标用户所属的目标分箱的目标证据权重,对目标用户进行风险预测,得到目标用户的风控评估结果。
[0141]
在实际实施时,服务器将获得的用户特征数据输入至风控模型中,并通过风控模型,确定该目标用户基于各维度的用户特征所对应的目标分箱,并各维度的用户特征对应的目标分箱的特征分段数据,以及目标用户基于各维度所属的目标分箱,对目标用户进行编码,得到目标用户的特征编码,然后通过风控模型,基于该特征编码对目标用户进行风险预测,得到目标用户的风控评估结果的预测概率,当该预测概率表征信用评估通过的概率大于概率阈值时,得到信用评估通过的风控评估结果,否则得到信用评估未通过的风控评估结果。
[0142]
上述实施例的风控评估方式中,通过基于本技术实施例得到的目标分箱进行模型训练得到的风控模型对目标用户进行风险预测得到的风控评估结果更为准确,为信用平台的风险预测提供了更好的参考。
[0143]
接下来继续对本技术实施例提供的基于神经网络模型的分箱方法进行介绍,图8是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图,参见图8,本技术实施例提供的基于神经网络模型的分箱方法由终端、服务器协同实施。
[0144]
步骤501,终端响应于针对样本集的获取操作,获取神经网络模型的样本集。
[0145]
这里,获取操作可以是针对样本集的上传操作,终端直接接收用户上传的样本集。获取操作还可以是用户基于终端的输入设备所发出的采集样本集的触发操作,终端基于该触发操作,获得针对样本集的采集指令,并解析采集指令所携带的统一资源定位器(url,uniform resource locator),访问该url所对应的目标网络服务器以采集样本集。
[0146]
步骤502,终端发送样本集至服务器。
[0147]
步骤503,服务器对接收到的样本集中的多个特征样本进行样本分箱处理,得到包括至少两个样本分箱的分箱序列。
[0148]
步骤504,服务器分别确定各样本分箱的证据权重。
[0149]
步骤505,服务器基于各样本分箱的证据权重,从分箱序列中提取呈单调关系的最长单调序列,最长单调序列包括至少两个样本分箱。
[0150]
步骤506,服务器基于最长单调序列,对至少两个样本分箱中未处于最长单调序列的样本分箱进行合并,得到至少两个目标分箱。
[0151]
步骤507,服务器发送分箱处理完成的消息至终端。
[0152]
步骤508,终端接收分箱处理完成的消息。
[0153]
在一些实施例中,服务器还发送至少两个目标分箱至终端,终端还接收服务器发
送的至少两个目标分箱。
[0154]
步骤509,终端响应于针对风控模型的模型训练触发操作,发送模型训练指令至服务器。
[0155]
这里,前述的神经网络模型为风控模型,其样本集为风控模型的样本集,样本集中的各特征样本上标注有目标风控评估结果。
[0156]
这里,模型训练触发操作为用户基于终端的输入设备触发。
[0157]
步骤510,服务器响应于模型训练指令,训练风控模型。
[0158]
这里,服务器训练风控模型的具体过程为:服务器分别确定各目标分箱的特征分段数据和目标证据权重;将样本集的各特征样本输入至风控模型中;分别通过风控模型,基于各目标分箱的特征分段数据和目标证据权重,对样本集中的各特征样本进行风险预测,得到各特征样本的预测风控评估结果;基于各特征样本上标注的目标风控评估结果与预测风控评估结果的差异,对风控模型的模型参数进行更新。
[0159]
步骤511,服务器发送模型训练完成的消息至终端。
[0160]
步骤512,终端接收模型训练完成的消息。
[0161]
在一些实施例中,服务器还发送训练好的风控模型至终端,终端还接收服务器发送的风控模型。
[0162]
步骤513,终端响应于针对目标用户进行风险预测的风险预测触发操作,发送针对目标用户的风险预测指令至服务器。
[0163]
这里,风险预测指令可以是终端响应于用户针对目标用户进行风险预测的风险预测触发操作后,由终端生成;还可以是由其他设备发出并由终端接收得到的。
[0164]
步骤514,服务器响应于风险预测指令,对目标用户进行风险预测,得到风控评估结果。
[0165]
这里,服务器对目标用户进行风险预测得到风控评估结果的具体过程为:服务器获取目标用户的用户特征数据;将用户特征数据输入至风控模型;通过风控模型,基于用户特征数据,对目标用户进行风险预测,得到目标用户的风控评估结果。
[0166]
步骤515,服务器发送风控评估结果至终端。
[0167]
步骤516,终端输出接收到的风控评估结果。
[0168]
上述实施例中,服务器通过对终端发送的样本集进行分箱处理,并从分箱处理得到的分箱序列中提取最长单调序列,基于最长单调序列对未处于最长单调序列中的样本分箱进行合并,得到呈单调关系的至少两个目标分箱,使得合并分箱的操作围绕最长单调序列进行,能够更大程度的保留处于最长单调序列中的分箱,并减少了对分箱进行合并的操作,从而更大限度的保留了更多数量的分箱,使得基于至少两个目标分箱训练后的风控模型的效果显著提升,并且基于该风控模型对目标用户进行风险预测得到风控评估结果更为准确。
[0169]
下面,将说明本技术实施例在一个实际的应用场景中的示例性应用。
[0170]
参照图9,图9是本技术实施例提供的基于神经网络模型的分箱方法的一个可选的流程示意图。
[0171]
步骤601,服务器获取神经网络模型的样本集,并对样本集中的多个特征样本进行样本分箱处理,得到分箱序列。
[0172]
这里,样本集包括多个样本,各样本具有多个维度的特征,例如用户年龄、学历、工作、消费流水、贷款记录、还款记录、社交数据等。服务器基于各个维度的特征,分别进行样本分箱处理,得到各个特征对应的分箱序列。这里服务器基于一定的规则对样本集进行分箱处理,例如可以将通过等距分箱或等频分箱的方式对样本集进行分箱。得到的分箱序列包括多个样本分箱。示例性地,参见图4a,图4a示出了一个由1-10等10个样本分箱构成的分箱序列。
[0173]
步骤602,判断分箱序列的证据权重是否呈单调关系,若分箱序列的证据权重未呈单调关系则执行步骤603,若分箱序列的证据权重呈单调关系则执行步骤608。
[0174]
这里,证据权重的确定方式参见上述实施例,此处不再赘述。接下来,服务器基于分箱序列中各样本所对应的woe值,判断分箱序列的证据权重是否单调。示例性地,图4a示出的分箱序列则不单调。
[0175]
步骤603,确定分箱序列中的最长单调序列。
[0176]
这里,服务器基于分箱序列中各样本分箱的证据权重,采用动态规划算法确定最长单调序列。示例性地,图4a示出的分箱序列中,最长单调序列由样本分箱“1”、“2”、“3”、“4”、“7”和“8”构成。
[0177]
步骤604,判断是否存在不处于最长单调序列中的子序列,若存在则执行步骤605,否则执行步骤606。
[0178]
在实际实施时,子序列为在分箱序列中的相邻的至少两个样本分箱构成,且子序列中的各样本分箱均未处于最长单调序列中。参见图4a,图4a示出的分箱序列中,除最长单调序列以外的样本分箱为“5”、“6”、“9”和“10”,这里,“5”和“6”为相邻的连续分箱,“9”和“10”为相邻的连续分箱,则它们分别构成子序列“5-6”和“9-10”,因此,图4a示出的分箱序列中存在未处于最长单调序列中的子序列,服务器执行步骤605。
[0179]
步骤605,针对最长单调序列和不处于最长单调序列中的子序列进行第一类合并,得到新的分箱序列,并返回步骤602。
[0180]
这里,第一类合并具体为将未处于最长单调序列中的子序列进行合并。示例性地,参见图4a和图4b,子序列为“5-6”和“9-10”,分别对这两个子序列进行合并之后,合并得到新的样本分箱“11”和“12”。此后,服务器针对新的分箱序列,执行步骤602,以判断新的分箱序列是否基于证据权重呈单调关系。
[0181]
步骤606,判断是否存在未处于最长单调序列中的单个样本分箱,若存在则执行步骤607,否则执行步骤608。
[0182]
在实际实施时,若不存在未处于最长单调序列中的子序列,则继续判断是否存在不处于最长单调序列中的单个样本分箱,若均不存在,则表示最长单调序列已经囊括了所有样本集的样本,该最长单调序列则为需要的最终分箱序列。
[0183]
示例性地,参见图4b,在进行第一类合并之后得到的图4示出的分箱序列中,最长单调序列为“1-2-3-4-7-8”,未处于该最长单调序列中的样本分箱为“11”和“12”,二者不相邻,不构成子序列,即不存在未处于最长单调序列中的子序列。然而,二者均为未处于最长单调序列中的单个样本分箱,因此,服务器执行步骤607。
[0184]
步骤607,针对最长单调序列和未处于最长单调序列中的单个样本分箱进行第二类合并,得到新的分箱序列,并返回步骤602。
[0185]
这里,第二类合并具体为:确定最长单调序列中与单个样本分箱相邻且证据权重差值最小的样本分箱,将单个样本分箱与相邻且证据权重差值最小的样本分箱进行合并。示例性地,参见图4b和4c,服务器确定未处于最长单调序列中的单个样本分箱“11”和“12”之后,分别确定与样本分箱“11”和“12”相邻且证据权重差值最小的样本分箱为“4”和“8”,因而,服务器将样本分箱“11”和“4”进行合并,得到样本分箱“13”,并将样本分箱“12”和“8”合并,得到样本分箱“14”。至此,得到新的分箱序列“1-2-3-13-7-14”,然后返回执行步骤602,继续判断新的分箱序列是否单调。
[0186]
步骤608,输出分箱序列,完成对样本集的分箱处理。
[0187]
在实际实施时,当分箱序列基于证据权重呈单调关系时,服务器则不再进行合并分箱处理,将该单调的分箱序列作为最终的分箱结果。
[0188]
下面继续说明本技术实施例提供的基于神经网络模型的分箱装置555的实施为软件模块的示例性结构,在一些实施例中,参见图10,图10是本技术实施例提供的基于神经网络模型的分箱装置的一个可选的组成结构示意图,存储在存储器550的基于神经网络模型的分箱装置555中的软件模块可以包括:
[0189]
获取模块5551,用于获取神经网络模型的样本集;
[0190]
分箱处理模块5552,用于对所述样本集中的多个特征样本进行样本分箱处理,得到包括至少两个样本分箱的分箱序列;
[0191]
证据权重确定模块5553,用于分别确定各所述样本分箱的证据权重;
[0192]
提取模块5554,用于基于各所述样本分箱的证据权重,从所述分箱序列中提取呈单调关系的最长单调序列,所述最长单调序列包括至少两个样本分箱;
[0193]
合并模块5555,用于基于所述最长单调序列,对所述至少两个样本分箱中未处于所述最长单调序列的样本分箱进行合并,得到至少两个目标分箱。
[0194]
在一些实施例中,所述合并模块5555,还用于确定所述分箱序列中未处于所述最长单调序列中的至少一个子序列,所述子序列包括至少一个样本分箱;分别将所述至少一个子序列中的样本分箱进行合并,得到至少一个合并分箱;基于所述最长单调序列,对所述至少一个合并分箱进行合并,得到至少两个目标分箱。
[0195]
在一些实施例中,所述合并模块5555,还用于针对各所述合并分箱执行以下处理:获取所述最长单调序列中与所述合并分箱相邻且证据权重差值最小的样本分箱;将所述合并分箱与所述相邻且证据权重差值最小的样本分箱进行合并,以得到所述至少两个目标分箱。
[0196]
在一些实施例中,存储在存储器550的基于神经网络模型的分箱装置555中的软件模块还可以包括:确定最长单调序列模块,用于分别确定所述至少一个合并分箱的证据权重;基于所述最长单调序列中各样本分箱的证据权重和各所述合并分箱的证据权重,重新确定最长单调序列;相应的,所述合并模块5555,还用于基于重新确定的最长单调序列,对所述至少一个合并分箱进行合并,得到至少两个目标分箱。
[0197]
在一些实施例中,所述合并模块5555,还用于分别将所述至少一个合并分箱与所述最长单调序列中的样本分箱进行合并,得到合并分箱序列,所述合并分箱序列包括至少两个合并后的样本分箱;分别确定所述合并分箱序列中的样本分箱的证据权重;基于所述合并分箱序列中样本分箱的证据权重,确定所述合并分箱序列未呈单调关系时,重新确定
最长单调序列;基于重新确定的最长单调序列,对未处于重新确定的最长单调序列中的样本分箱进行合并,得到所述至少两个目标分箱。
[0198]
在一些实施例中,所述合并模块5555,还用于将未处于重新确定的最长单调序列中的样本分箱与处于重新确定的最长单调序列中的样本分箱进行合并,得到新的合并分箱序列;针对新的合并分箱序列,返回所述分别确定所述合并分箱序列中的样本分箱的证据权重的步骤,直至合并分箱序列呈单调关系,得到所述至少两个目标分箱。
[0199]
在一些实施例中,所述合并模块5555,还用于基于所述合并分箱序列中样本分箱的证据权重,确定所述合并分箱序列呈单调关系时,将所述合并分箱序列中的样本分箱作为目标分箱,得到所述至少两个目标分箱。
[0200]
在一些实施例中,所述样本集中的特征样本包括样本特征;存储在存储器550的基于神经网络模型的分箱装置555中的软件模块还可以包括:排序模块,用于基于所述样本集中各特征样本所包括的样本特征,对所述多个特征样本进行排序,得到特征样本序列;相应的,所述分箱处理模块,还用于对所述特征样本序列中的多个特征样本进行样本分箱处理。
[0201]
需要说明的是,本技术实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。
[0202]
本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的基于神经网络模型的分箱方法。
[0203]
本技术实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的基于神经网络模型的分箱方法,例如,如图3示出的基于神经网络模型的分箱方法。
[0204]
在一些实施例中,计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
[0205]
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
[0206]
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
[0207]
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0208]
综上所述,通过本技术实施例能够得到显著提升神经网络模型的鲁棒性和可解释性的分箱。
[0209]
以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本申
请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献