一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于风险预测的方法和装置与流程

2022-02-19 23:46:27 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种用于风险预测的技术方案。


背景技术:

2.用户风险预测是指采用机器学习或者深度学习的方法对用户未来的风险进行预测,如对用户在未来的还款能力的预测。现有技术中,权威机构发布的一些文档很可能会成为风险预测最主要的依据,例如,互联网金融领域在日常业务中会频繁查询央行个人征信报告,征信报告反映了一个人的背景和信贷行为历史等信息,背景信息包括年龄、学历、性别、职业历史、住址历史、公积金缴纳历史等,信贷行为历史主要包括其用信历史详情、报告查询历史等信息,由于包含了丰富的个人信息,征信报告通常作为金融风险预测最主要的依据之一。
3.针对基于文档的风险预测,目前行业内主要采用的是基于人工统计的方法进行特征挖掘以及利用dnn(deep neural networks,深度神经网络)模型进行深层次的序列建模,人工统计特征挖掘的做法非常耗时,得到的特征也较为浅显,建模效果有限,而普通的dnn模型容易产生过拟合,随着时间推移,模型风险预测能力会下降,且文档理解的难点之一在于其内部可能充满了不规范甚至互相矛盾的信息,而dnn模型对数据中噪声敏感,最终模型的风险预测能力受训练中数据中的噪声影响不够理想,且训练稳定性较差,超参数敏感。


技术实现要素:

4.本技术的目的是提供一种用于风险预测的技术方案。
5.根据本技术的一个实施例,提供一种用于风险预测的方法,其中,所述方法包括:
6.对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型;
7.根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练,其中,所述风险预测模型包括所述一个或多个预训练模型、transformer层以及输出层;
8.使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险预测结果。
9.根据本技术的另一个实施例,还提供了一种用于风险识别的装置,其中,所述装置包括:
10.用于对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型的模块;
11.用于根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练的模块,其中,所述风险预测模型包括所述一个或多个预训练模型、transformer层以及输出层;
12.用于使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险
预测结果的模块。
13.根据本技术的另一个实施例,还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行如下操作:
14.对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型;
15.根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练,其中,所述风险预测模型包括所述一个或多个预训练模型、transformer层以及输出层;
16.使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险预测结果。
17.根据本技术的另一个实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如下操作:
18.对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型;
19.根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练,其中,所述风险预测模型包括所述一个或多个预训练模型、transformer层以及输出层;
20.使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险预测结果。
21.与现有技术相比,本技术具有以下优点:本技术将前沿的无监督预训练技术迁移应用到风控建模中,通过对无标签的第一样本文档集中的关键信息进行遮盖处理,并基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型,进而基于预训练得到的模型来构建风险预测模型,由此能够利用大量的无标签数据,在其上构建预训练任务,使模型先学习文档的理解方式,随后将模型用于风险建模,之后再通过使用有标签的文档对模型进行训练,可以得到更好的风险建模效果;能够降低dnn模型不同程度的过拟合现象,提高dnn模型对文档整体的解读能力,进而优化其在风险预测上的表现;使风险预测模型具有同时处理文档内多路数据的能力,并且能够对多路数据进行深层次的信息组合和处理,增强模型表现。
附图说明
22.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显:
23.图1示出了本技术一个实施例的用于风险预测的方法的流程示意图;
24.图2为本技术一个示例的基础编码器的结构图;
25.图3为本技术一个示例的用于风险预测的原理图;
26.图4为图3所示profile module的结构图;
27.图5为图3所示loan/credit/query module的结构图;
28.图6示出了本技术一个实施例的用于风险预测的装置的结构示意图;
29.图7示出了可被用于实施本技术中所述的各个实施例的示例性系统。
30.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
31.在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
32.在上下文中所称“设备”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)等硬件执行预定处理过程,或是由上述二者组合来实现。
33.本技术的技术方案主要由计算机设备来实现。其中,所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloud computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于pc机、平板电脑、智能手机、iptv、pda、可穿戴设备等。其中,所述计算机设备可单独运行来实现本技术,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本技术。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(ad hoc网络)等。
34.需要说明的是,上述计算机设备仅为举例,其他现有的或今后可能出现的计算机设备如可适用于本技术,也应包含在本技术保护范围以内,并以引用方式包含于此。
35.本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
36.这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本技术的示例性实施例的目的。但是本技术可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
37.应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
38.这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应
当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
39.还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
40.下面结合附图对本技术作进一步详细描述。
41.图1示出了本技术一个实施例的用于风险预测的方法的流程示意图。根据本实施例的方法包括步骤s11、步骤s12和步骤s13。在步骤s11中,计算机设备对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型;在步骤s12中,计算机设备根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练,其中,所述风险预测模型包括所述一个或多个预训练模型、transformer层以及输出层;在步骤s13中,计算机设备使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险预测结果。
42.在步骤s11中,计算机设备对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型。
43.在一些实施例中,所述关键信息为样本文档中的重要特征,该等重要特征对风险是否存在或者风险等级具有一定程度的影响或者指示作用。在一些实施例中,所述第一样本文档集包括多个征信报告,所述关键信息包括用户画像数据以及信贷行为序列,所述用户画像数据包括用户个人基本信息、住址历史列表、职业历史列表、公积金缴纳情况历史列表中的至少一项,用户的个人基本信息中包括但不限于用户的性别、年龄、学历相关特征、借记卡/信用卡数量等,所述信贷行为序列由用户的贷款历史、贷记卡历史、查询历史中的至少一项组成。需要说明的是,对于不同作用的文档来说,可能对应不同的关键信息,例如对于征信报告来说,用户的学历信息、公积金缴纳历史信息以及信贷行为记录作为关键信息,而对于科技公司的投资分析报告来说,公司类型、项目背景、地理位置、资源等作为关键信息。
44.在一些实施例中,可对第一样本文档集中的一种或多种关键信息进行全部遮盖(mask),如可将用户的个人基本信息中的学历相关特征全部mask掉,并用缺失值填充,进而构建预训练任务来对所遮盖的学历字段进行预测,观测学历预测的f1指标,当模型达到收敛效果时,停止训练保存模型训练参数。在一些实施例中,可对第一样本文档集中的一种或多种关键信息进行部分遮盖(可随机部分遮盖或指定部分遮盖),如可随机的对用户的信贷行为序列息中20%的信贷行为记录进行mask掉,并用缺失值填充,进而构建预训练任务来对所遮盖的信贷行为记录进行预测,观测信贷行为记录预测的f1指标,当模型预测效果达到最优时,停止训练保存模型训练参数。在一些实施例中,可分别对多种关键信息进行遮盖之后进行自监督预训练,从而得到分别对应各种关键信息的预训练模型,也可基于需求自行确定需要对哪些关键信息进行预训练、对哪些关键信息分别单独遮盖进行预训练以及对哪些关键信息同时遮盖并进行预训练。在一些实施例中,针对不同类型的原始特征所使用的预训练模型结构可能相同也可能不同,例如可基于原始特征是散列特征还是序列,以及
是长序列还是短序列来进行模块划分,不同模块将采用不同的预训练模型结构。
45.在步骤s12中,计算机设备根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练,其中,所述风险预测模型包括所述一个或多个预训练模型、transformer层以及输出层。
46.在一些实施例中,风险预测模型包括:经过预训练的一个或多个预训练模型、参数随机初始化的一层transformer、全连接输出层,transformer层接收带训练参数的预训练模型所输出的高度抽象特征向量序列通过其注意力机制进行特征交叉,之后通过输出层得到风险预测结果。
47.作为一个示例,利用大量征信报告来构建预训练任务,得到带训练参数的用户画像模块和信贷行为序列模块,之后构建风险预测模型,该风险预测模型主要由三部分构成:1)带训练参数的用户画像模块,该用户画像模块用于处理征信报告中个人信息、历史住址、工作历史、公积金缴纳历史等输入信息;2)带训练参数的信贷行为序列模块,该信贷行为序列模块用于处理征信报告中贷款/贷记卡/查询历史这三个长序列;3)参数随机初始化的一层transformer,作为特征交叉模块。最后,通过transformer的输出对风险概率进行预测。对于该风险预测模型,在有用信表现的征信报告数据上进行有监督训练,最终得到一个性能优良的用于征信报告理解的模型。
48.在一些实施例中,所述第二样本文档集中的样本文档可能是通过对第一样本文档集中的样本文档添加标签获得的,也可能是通过第一样本文档集以外的其他样本文档添加标签获得的,本技术对此并不作限制。
49.在步骤s13中,计算机设备使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险预测结果。例如,使用经过在有用信表现的征信报告数据上进行有监督训练得到的风险预测模型对目标征信报告进行预测,得到风险预测模型输出的风险预测结果,该风险预测结果用于指示用户还款风险。
50.在一些实施例中,所述基于遮盖处理后的样本文档集进行预训练,包括:使用基础编码器(basic encoder)将遮盖处理后的样本文档集中的每条记录映射为统一纬度的稠密向量;将所述每条记录对应的稠密向量输入至相应的预训练模型进行预训练。在一些实施例中,第一样本文档集包括大量征信报告,基础编码器用于将征信报告中原始的一条特征向量,映射为统一纬度的稠密表示向量;其中,征信报告中任意类型的任意一条记录,其原始特征种类都不超过数值、枚举、文本这三种类型,本技术的基础编码器能够将原始特征映射为统一纬度的稠密表示向量。在一些实施例中,使用基础编码器将遮盖处理后的样本文档集中的每条记录映射为统一纬度的稠密向量,包括:使用基础编码器对遮盖处理后的样本文档集中的每条记录执行如下操作:对于数值类型的数据,先进行归一化再送入dense层进行特征抽象;对于枚举类型或文本类型的数据,先通过嵌入表示为稠密向量再通过注意力机制进行合并;将针对不同类型得到的向量进行拼接,映射得到统一纬度的稠密向量。
51.图2为本技术一个示例的基本编码器的结构图。其中,对于num feas(数值类型的原始特征),将其进行归一化后送入dense层进行特征抽象;对于id feas(枚举类型的特征)和text ids(文本类型的特征),则都是通过嵌入(embedding)(结合词位置嵌入(word position embed))表示为稠密向量,再通过注意力机制(如图2所示simple attn)对向量序列类型进行合并;最终将不同类型得到的一维向量表示拼接起来(concatenate),映射成为
统一纬度的稠密向量,即基础编码器的输出。
52.在一些实施例中,所述步骤s11包括:对无标签的第一样本文档集中与第一类型特征相对应的关键信息进行遮盖处理,使用所述第一类型特征对应的预训练模型对遮盖处理后的样本文档集进行预训练,当该预训练模型达到收敛效果时,停止训练且保存训练参数,所述第一类型特征为散列特征和/或短序列特征;对无标签的第一样本文档集中与第二类型特征相对应的关键信息进行遮盖处理,使用所述第二类型特征对应的预训练模型对遮盖处理后的样本文档集进行预训练,当模型预测效果达到最优时,停止训练且保存训练参数,所述第二类型特征为长序列特征。由此通过将第一类型特征与第二类型特征对应的关键信息进行分模块的自监督表示学习,使得最终得到的风险预测模型具有同时处理报告内多路数据的能力,并且能够对多路数据进行深层次的信息组合和处理,增强模型表现。在一些实施例中,对于征信报告,散列特征包括如用户个人基本信息,短序列包括如用户的住址历史列表、职业历史列表、公积金缴纳情况历史列表等,长序列包括如用户的信贷行为序列。在一些实施例中,可进一步地分别针对散列特征和短序列特征进行预训练,由此能够得到与散列特征对应的预训练模型、与短序列特征对应的预训练模型以及与长序列特征对应的预训练模型;再进一步地,还可对同一种类型的特征再做分割,如针对不同的短序列特征分别进行预训练;在实际应用中,可基于实际需求进行分模块预训练操作。
53.在一些实施例中,所述第一类型特征对应的预训练模型采用一个或多个transformer结构来挖掘特征之间的关联关系;所述第二类型特征对应的预训练模型采用mha(multi

head attention,多头注意力)结构来挖掘特征之间的关联关系,mha结构具备与transformer相似的效果,但参数量更少。本技术考虑到不同类型数据的特点不同(如信贷行为序列通常较长且不涉及文本,而用户画像数据涉及很多文本以及一些独立的重要特征),因此针对不同类型数据涉及了不同的预训练模型结构。下文中将示例性地结合附图对预训练模型结构作进一步描述,在此不再赘述。
54.在一些实施例中,所述第一样本文档集包括多个征信报告,所述对无标签的第一样本文档集中与第一类型特征相对应的关键信息进行遮盖处理,包括:从无标签的第一样本文档集中获取与第一类型特征相对应的用户画像数据,其中,所述用户画像数据包括用户个人基本信息、住址历史列表、职业历史列表、公积金缴纳情况历史列表中的至少一项;遮盖所述用户画像数据中的关键信息,并用缺失值填充。在一些实施例中,可全部或随机部分遮盖所述用户画像数据中的指定关键信息,并用缺失值填充。
55.在一些实施例中,所述对无标签的第一样本文档集中与第二类型特征相对应的关键信息进行遮盖处理,包括:获得无标签的第一样本文档集对应的信贷行为序列,其中,所述信贷行为序列由用户的贷款历史、贷记卡历史、查询历史中的至少一项组成;根据预定遮盖比例对所述信贷行为序列进行遮盖处理,并用缺失值填充。在一些实施例中,可按照预定遮盖比例随机遮盖所述信贷行为序列,或者从指定位置处开始按照预定遮盖比例进行遮盖(如从信贷行为序列的指定位开始遮盖20%的序列内容)。
56.图3为本技术一个示例的用于风险预测的原理图,该示例用于针对征信报告进行风险预测,其系统流程描述如下:
57.首先是对用户画像模块(图3所示profile module)的自监督预训练,该用户画像模块的输入主要包含了征信报告中的个人基本信息、历史住址、工作历史、公积金缴纳历史
等信息,本示例中将个人基本信息中的学历相关特征(学历、教育程度等信息)全部mask掉,用缺失值填充,使用用户画像模块模型外加一层输出层,对学历相关特征字段进行预测,观测学历预测的f1指标,当模型达到收敛效果时,停止训练保存模型训练参数,也即得到了带训练参数的学历预训练模型。
58.然后是对信贷行为序列模块(图3所示loan/credit/query module)的自监督预训练,该信贷行为序列模块的输入主要是贷款/贷记卡/查询历史三个长序列,随机的对信贷行为序列中20%的信贷行为记录进行mask,用默认的缺失值填充,使用信贷行为序列模块模型外加一层输出层,对mask掉的信贷行为记录进行精确的预测,观测信贷行为记录预测的f1指标,当模型预测效果达到最优时,停止训练保存模型参数,也即得到了带训练参数的信贷行为预训练模型。
59.最后,构建风险预测模型,整个风险预测模型主要由三部分构成:经过预训练的用户画像模块(pre

trained profile module),用来处理征信报告中的个人基本信息、历史住址、工作历史、公积金缴纳历史等输入信息;经过预训练的信贷行为序列模块(pre

trained loan/credit/query module),用于处理征信报告中贷款/贷记卡/查询历史三个长序列;最后是参数随机初始化的一层transformer(图3中仅示出一层transformer,但本领域技术人员应理解也可为多层),作为特征交叉模块;最后通过transformer的输出对风险概率进行预测。对整个模型,在有用信表现的征信报告数据上进行有监督训练,最终得到一个性能优良的征信报告理解模型,通过对征信报告进行解读,可作出风险预测。最后的transformer层接收来自用户画像模块和信贷行为序列模块输出的高度抽象特征向量序列,通过其注意力机制进行特征交叉,并最终通过输出层得到风险打分;在一些实施例中,通过sigmoid函数进行风险打分和预测。
60.图4为图3所示profile module的结构图。transformer是一种经典的时序注意力模型,具备捕捉任意两个特征间关联关系的能力,该profile module的结构中,使用了适当层数的transformer来对基础编码器输出的不同记录进行特征关联的挖掘。如图4所示,profile module包括bi

gru(bidirectional

gated recurrent unit,双向门控循环单元)、cross mha、dense、transformer层(图4中仅示出一层transformer,但本领域技术人员应理解也可为多层)以及输出层,其中,bi

gru是一种处理序列的网络结构,用于对短序列(short term seq)经基础编码器映射之后输出的向量进行处理,其中短序列包括reside

list(住址历史列表)、occupation

list(职业历史列表)、hrf

list(公积金缴纳历史列表),bi

gru输出的数据将作时间嵌入(time embedding)表示,cross mha用于特征交叉,dense为全连接层(用于对个人基本信息(identity经基础编码器映射之后输出的向量进行特征空间的变换)),transformer层用于进行特征关联的挖掘。
61.图5为图3所示loan/credit/query module的结构图。该模块中使用了同样具备挖掘任意两两特征关系的mha结构(如图5所示multi

head attn),该结构具备与transformer相似的效果,但参数量更少。loan/credit/query module首先对信贷行为序列(uni seq)经基础编码器映射之后所输出的向量进行时间嵌入表示,之后通过mha结构进行特征交叉。其中,信贷行为序列(为一个长序列)包括:loan

list(贷款列表)、credit

list(贷记卡列表)、query

list(查询历史列表)。
62.需要说明的是,图3

图5中的一个模块(module)可能对应上文中的一个或多个步
骤或操作。
63.本技术将前沿的无监督预训练技术迁移应用到风控建模中,通过对无标签的第一样本文档集中的关键信息进行遮盖处理,并基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型,进而基于预训练得到的模型来构建风险预测模型,由此能够利用大量的无标签数据,在其上构建预训练任务,使模型先学习文档的理解方式,随后将模型用于风险建模,之后再通过使用有标签的文档对模型进行训练,可以得到更好的风险建模效果;能够降低dnn模型不同程度的过拟合现象,提高dnn模型对文档整体的解读能力,进而优化其在风险预测上的表现;使风险预测模型具有同时处理文档内多路数据的能力,并且能够对多路数据进行深层次的信息组合和处理,增强模型表现。
64.图6示出了本技术一个实施例的用于风险预测的装置的结构示意图。该用于风险预测的装置(以下简称为“预测装置1”)包括:用于对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型的模块(以下简称为“第一模块11”)、用于根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练的模块(以下简称为“第二模块12”)、用于使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险预测结果的模块(以下简称为“第三模块13”)。
65.第一模块11对无标签的第一样本文档集中的关键信息进行遮盖处理,基于遮盖处理后的样本文档集进行预训练,得到一个或多个预训练模型。
66.在一些实施例中,所述关键信息为样本文档中的重要特征,该等重要特征对风险是否存在或者风险等级具有一定程度的影响或者指示作用。在一些实施例中,所述第一样本文档集包括多个征信报告,所述关键信息包括用户画像数据以及信贷行为序列,所述用户画像数据包括用户个人基本信息、住址历史列表、职业历史列表、公积金缴纳情况历史列表中的至少一项,用户的个人基本信息中包括但不限于用户的性别、年龄、学历相关特征、借记卡/信用卡数量等,所述信贷行为序列由用户的贷款历史、贷记卡历史、查询历史中的至少一项组成。需要说明的是,对于不同作用的文档来说,可能对应不同的关键信息,例如对于征信报告来说,用户的学历信息、公积金缴纳历史信息以及信贷行为记录作为关键信息,而对于科技公司的投资分析报告来说,公司类型、项目背景、地理位置、资源等作为关键信息。
67.在一些实施例中,可对第一样本文档集中的一种或多种关键信息进行全部遮盖(mask),如可将用户的个人基本信息中的学历相关特征全部mask掉,并用缺失值填充,进而构建预训练任务来对所遮盖的学历字段进行预测,观测学历预测的f1指标,当模型达到收敛效果时,停止训练保存模型训练参数。在一些实施例中,可对第一样本文档集中的一种或多种关键信息进行部分遮盖(可随机部分遮盖或指定部分遮盖),如可随机的对用户的信贷行为序列息中20%的信贷行为记录进行mask掉,并用缺失值填充,进而构建预训练任务来对所遮盖的信贷行为记录进行预测,观测信贷行为记录预测的f1指标,当模型预测效果达到最优时,停止训练保存模型训练参数。在一些实施例中,可分别对多种关键信息进行遮盖之后进行自监督预训练,从而得到分别对应各种关键信息的预训练模型,也可基于需求自行确定需要对哪些关键信息进行预训练、对哪些关键信息分别单独遮盖进行预训练以及对哪些关键信息同时遮盖并进行预训练。在一些实施例中,针对不同类型的原始特征所使用
的预训练模型结构可能相同也可能不同,例如可基于原始特征是散列特征还是序列,以及是长序列还是短序列来进行模块划分,不同模块将采用不同的预训练模型结构。
68.第二模块12根据所述一个或多个预训练模型构建风险预测模型,并使用带标签的第二样本文档集对所述风险预测模型进行训练,其中,所述风险预测模型包括所述一个或多个预训练模型、transformer层以及输出层。
69.在一些实施例中,风险预测模型包括:经过预训练的一个或多个预训练模型、参数随机初始化的一层transformer、全连接输出层,transformer层接收带训练参数的预训练模型所输出的高度抽象特征向量序列通过其注意力机制进行特征交叉,之后通过输出层得到风险预测结果。
70.作为一个示例,利用大量征信报告来构建预训练任务,得到带训练参数的用户画像模块和信贷行为序列模块,之后构建风险预测模型,该风险预测模型主要由三部分构成:1)带训练参数的用户画像模块,该用户画像模块用于处理征信报告中个人信息、历史住址、工作历史、公积金缴纳历史等输入信息;2)带训练参数的信贷行为序列模块,该信贷行为序列模块用于处理征信报告中贷款/贷记卡/查询历史这三个长序列;3)参数随机初始化的一层transformer,作为特征交叉模块。最后,通过transformer的输出对风险概率进行预测。对于该风险预测模型,在有用信表现的征信报告数据(也即有标签的征信报告数据)上进行有监督训练,最终得到一个性能优良的用于征信报告理解的模型。
71.在一些实施例中,所述第二样本文档集中的样本文档可能是通过对第一样本文档集中的样本文档添加标签获得的,也可能是通过第一样本文档集以外的其他样本文档添加标签获得的,本技术对此并不作限制。
72.第三模块13使用所述风险预测模型对目标文档进行预测,获得所述目标文档对应的风险预测结果。例如,使用经过在有用信表现的征信报告数据上进行有监督训练得到的风险预测模型对目标征信报告进行预测,得到风险预测模型输出的风险预测结果,该风险预测结果用于指示用户还款风险。
73.在一些实施例中,所述基于遮盖处理后的样本文档集进行预训练,包括:使用基础编码器(basic encoder)将遮盖处理后的样本文档集中的每条记录映射为统一纬度的稠密向量;将所述每条记录对应的稠密向量输入至相应的预训练模型进行预训练。在一些实施例中,第一样本文档集包括大量征信报告,基础编码器用于将征信报告中原始的一条特征向量,映射为统一纬度的稠密表示向量;其中,征信报告中任意类型的任意一条记录,其原始特征种类都不超过数值、枚举、文本这三种类型,本技术的基础编码器能够将原始特征映射为统一纬度的稠密表示向量。在一些实施例中,使用基础编码器将遮盖处理后的样本文档集中的每条记录映射为统一纬度的稠密向量,包括:使用基础编码器对遮盖处理后的样本文档集中的每条记录执行如下操作:对于数值类型的数据,先进行归一化再送入dense层进行特征抽象;对于枚举类型或文本类型的数据,先通过嵌入表示为稠密向量再通过注意力机制进行合并;将针对不同类型得到的向量进行拼接,映射得到统一纬度的稠密向量。
74.图2为本技术一个示例的基本编码器的结构图。其中,对于num feas(数值类型的原始特征),将其进行归一化后送入dense层进行特征抽象;对于id feas(枚举类型的特征)和text ids(文本类型的特征),则都是通过嵌入(embedding)(结合词位置嵌入(word position embed))表示为稠密向量,再通过注意力机制(如图2所示simple attn)对向量序
列类型进行合并;最终将不同类型得到的一维向量表示拼接起来(concatenate),映射成为统一纬度的稠密向量,即基础编码器的输出。
75.在一些实施例中,所述第一模块11用于:对无标签的第一样本文档集中与第一类型特征相对应的关键信息进行遮盖处理,使用所述第一类型特征对应的预训练模型对遮盖处理后的样本文档集进行预训练,当该预训练模型达到收敛效果时,停止训练且保存训练参数,所述第一类型特征为散列特征和/或短序列特征;对无标签的第一样本文档集中与第二类型特征相对应的关键信息进行遮盖处理,使用所述第二类型特征对应的预训练模型对遮盖处理后的样本文档集进行预训练,当模型预测效果达到最优时,停止训练且保存训练参数,所述第二类型特征为长序列特征。由此通过将第一类型特征与第二类型特征对应的关键信息进行分模块的自监督表示学习,使得最终得到的风险预测模型具有同时处理报告内多路数据的能力,并且能够对多路数据进行深层次的信息组合和处理,增强模型表现。在一些实施例中,对于征信报告,散列特征包括如用户个人基本信息,短序列包括如用户的住址历史列表、职业历史列表、公积金缴纳情况历史列表等,长序列包括如用户的信贷行为序列。在一些实施例中,可进一步地分别针对散列特征和短序列特征进行预训练,由此能够得到与散列特征对应的预训练模型、与短序列特征对应的预训练模型以及与长序列特征对应的预训练模型;再进一步地,还可对同一种类型的特征再做分割,如针对不同的短序列特征分别进行预训练;在实际应用中,可基于实际需求进行分模块预训练操作。
76.在一些实施例中,所述第一类型特征对应的预训练模型采用一个或多个transformer结构来挖掘特征之间的关联关系;所述第二类型特征对应的预训练模型采用mha(multi

head attention,多头注意力)结构来挖掘特征之间的关联关系,mha结构具备与transformer相似的效果,但参数量更少。本技术考虑到不同类型数据的特点不同(如信贷行为序列通常较长且不涉及文本,而用户画像数据涉及很多文本以及一些独立的重要特征),因此针对不同类型数据涉及了不同的预训练模型结构。下文中将示例性地结合附图对预训练模型结构作进一步描述,在此不再赘述。
77.在一些实施例中,所述第一样本文档集包括多个征信报告,所述对无标签的第一样本文档集中与第一类型特征相对应的关键信息进行遮盖处理,包括:从无标签的第一样本文档集中获取与第一类型特征相对应的用户画像数据,其中,所述用户画像数据包括用户个人基本信息、住址历史列表、职业历史列表、公积金缴纳情况历史列表中的至少一项;遮盖所述用户画像数据中的关键信息,并用缺失值填充。在一些实施例中,可全部或随机部分遮盖所述用户画像数据中的指定关键信息,并用缺失值填充。
78.在一些实施例中,所述对无标签的第一样本文档集中与第二类型特征相对应的关键信息进行遮盖处理,包括:获得无标签的第一样本文档集对应的信贷行为序列,其中,所述信贷行为序列由用户的贷款历史、贷记卡历史、查询历史中的至少一项组成;根据预定遮盖比例对所述信贷行为序列进行遮盖处理,并用缺失值填充。在一些实施例中,可按照预定遮盖比例随机遮盖所述信贷行为序列,或者从指定位置处开始按照预定遮盖比例进行遮盖(如从信贷行为序列的指定位开始遮盖20%的序列内容)。
79.本技术还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行本技术所述的用于风险预测的
方法。
80.本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行本技术所述的用于风险预测的方法。
81.本技术还提供了一种计算机程序产品,当所述计算机程序产品被设备执行时,使得所述设备执行本技术所述的用于风险预测的方法。
82.图7示出了可被用于实施本技术中所述的各个实施例的示例性系统。
83.在一些实施例中,系统1000能够作为本技术实施例中的任意一个处理设备。在一些实施例中,系统1000可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或nvm/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本技术中所述的动作的一个或多个处理器(例如,(一个或多个)处理器1005)。
84.对于一个实施例,系统控制模块1010可包括任意适当的接口控制器,以向(一个或多个)处理器1005中的至少一个和/或与系统控制模块1010通信的任意适当的设备或组件提供任意适当的接口。
85.系统控制模块1010可包括存储器控制器模块1030,以向系统存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。
86.系统存储器1015可被用于例如为系统1000加载和存储数据和/或指令。对于一个实施例,系统存储器1015可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,系统存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
87.对于一个实施例,系统控制模块1010可包括一个或多个输入/输出(i/o)控制器,以向nvm/存储设备1020及(一个或多个)通信接口1025提供接口。
88.例如,nvm/存储设备1020可被用于存储数据和/或指令。nvm/存储设备1020可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
89.nvm/存储设备1020可包括在物理上作为系统1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,nvm/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。
90.(一个或多个)通信接口1025可为系统1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
91.对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器(例如,存储器控制器模块1030)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
92.在各个实施例中,系统1000可以但不限于是:服务器、工作站、台式计算设备或移
动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1000包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
93.对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其他的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献