一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于征信报告的图神经网络建模方法和装置与流程

2022-12-10 00:35:12 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种基于征信报告的图神经网络建模方法和装置。


背景技术:

2.征信报告包含了丰富的个人信息,是风险预测最主要的依据之一。。背景信息包括年龄、学历、性别、职业历史、住址历史、公积金缴纳历史等,信贷行为历史主要包括其用信历史详情、征信查询历史等信息。
3.基于现有技术的方案,主要采用以下两种方式来对征信报告进行信息挖掘:
4.1)人工统计的方法;然而,人工统计特征挖掘的做法非常耗时,得到的特征也较为浅显,建模效果有限;
5.2)利用dnn模型进行深层次的序列建模;通过使用lstm、transformer等网络结构对征信报告中丰富的信贷行为记录、征信查询记录等进行序列建模。该方式虽然能够挖掘到相比人工统计特征更深的信息,但却完全损失了不同历史行为记录之间的关联信息,效果上往往差强人意。


技术实现要素:

6.本发明的目的是提供一种基于征信报告的图神经网络建模方法和装置。
7.根据本技术的实施例,提供了一种基于征信报告的图神经网络建模方法,其中,所述方法包括:
8.通过对用户的征信报告进行解析,获取预定的信贷行为数据;
9.基于所提取的信贷行为数据,生成相应的征信报告图,其中,所述征信报告图中包括用于反映历史行为信息之间的关系的图结构数据;
10.基于所述图结构数据,构造和训练图神经网络模型。
11.根据本技术的实施例,提供了一种一种基于征信报告的图神经网络建模装置,其中,所述装置包括:
12.用于通过对用户的征信报告进行解析,获取预定的信贷行为数据的装置;
13.用于基于所提取的信贷行为数据,生成相应的征信报告图的装置,其中,所述征信报告图中包括用于反映历史行为信息之间的关系的图结构数据;
14.用于基于所述图结构数据,构造和训练图神经网络模型的装置。
15.根据本技术的实施例,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本技术实施例的方法。
16.根据本技术的实施例,提供了一种计算机可读的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本技术实施例的方法。
17.与现有技术相比,本技术实施例具有以下优点:通过构建征信报告图来对征信报
告中的信贷行为及信贷行为之间的关系进行显示,便于挖掘征信报告中包含的风险信息;并且,基于征信报告图的图结构数据构造和训练相应的图神经网络模型用于风险预测,提升了风险评估的准确性和可靠性。
附图说明
18.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
19.图1示出了根据本技术实施例的基于征信报告的图神经网络建模方法的流程图;
20.图2示出了根据本技术实施例的示例性的征信报告图的示意图;
21.图3示出了根据本技术实施例的基于征信报告的图神经网络建模装置的结构示意图。
22.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
23.在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
24.在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由asic、fpga、dsp等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
25.所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、pda等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloud computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本技术,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本技术。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络等。
26.需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本技术,也应包含在本技术保护范围以内,并以引用方式包含于此。
27.后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
28.这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本技术的示
例性实施例的目的。但是本技术可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
29.应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
30.应当理解的是,当一个单元被称为“连接”或“耦合”到另一单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
31.这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
32.还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
33.下面结合附图对本发明作进一步详细描述。
34.图1示出了根据本技术实施例的用于的方法流程图。所述方法包括步骤s1、步骤s2和步骤s3。
35.参照图1,在步骤s1中,通过对用户的征信报告进行解析,获取预定的信贷行为数据。
36.其中,所述信贷行为数据包括各种与用户的信贷行为相关的数据。
37.其中,可通过多种方法来对用户,提起所需要的一项或多项信贷行为数据。例如,提取征信报告中个人贷款(loan)历史、贷记卡(credit)历史、征信查询(query)历史三个长序列信息。
38.根据一个实施例,所述信贷行为数据包括与贷款、贷记卡和征信查询等预定信贷行为相关的数据。例如,贷款记录,贷记卡记录,征信查询信息等等。
39.在步骤s2中,基于所提取的信贷行为数据,生成相应的征信报告图。
40.其中,所述征信报告图中包括用于反映历史行为信息之间的关系的图结构数据。
41.根据一个实施例,所述图结构数据包括但不限于以下三种中心聚合节点的数据:
42.1)预定数量月份节点;该节点表示征信报告出具日期所在月份起回溯历史上最近的预定数量个自然月份的节点,例如,最近61个自然月节点;
43.2)匿名机构节点;该节点表示征信报告中的匿名机构,其数量等于征信报告中不同机构的数量,为可变值;匿名机构指征信报告中,发放贷款、贷记卡、进行征信查询的行为主体,通常为一些商业银行、小贷公司等,在征信报告中以加密编码表示;
44.3)时间聚合节点;该节点表示一个密集发生事件集合的时间中心,其数量为可变值。例如,对征信报告中全部事件按时间排序,前后两个事件的发生时间间隔小于30天则认为是连续发生,间隔大于30天则断开连续,继续搜索,通过此方法发现密集发生的事件集合并得到相应的时间聚合节点。
45.根据一个实施例,所述图结构数据包括可作为双向边进行图传播计算的边数据。
46.优选地,所述图结构数据包括但不限于以下两种边数据:
47.1)还款边;表示一次还款事件,起始节点为一个贷款记录节点或一个贷记卡记录节点,终止节点是表示此次还款发生所在的自然月份。边的特征由本次还款记录的详细信息构成。
48.2)关联边;表示关联关系的边,起始节点为一个信贷行为事件节点,终止节点为该信贷行为对应的匿名机构或时间聚合节点。
49.根据一个实施例,所述步骤s2包括步骤s201和步骤s202。
50.在步骤s201中,通过基础编码器将不同类型的信贷行为数据进行处理,从而得到使用统一维度的向量表示的信贷行为节点数据。
51.其中,所述基础编码器用于将包含不同类型数据的一条原始信贷行为(例如,贷款、贷记卡、征信查询等)的记录特征向量映射为一个统一维度(如256)的向量表示,作为信贷行为节点的初始化特征。
52.其中,基础编码器(basic encoder)处理的数据包括数值类型、枚举类型和文本类型。数值类型主要进行归一化后通过全联接层进行表示,枚举类型则通过嵌入映射为一维向量表示,文本类型在进行嵌入表示后通过attention层将词向量序列压缩为一维的向量表示。
53.在步骤s202中,基于所述信贷行为节点数据和预定的中心聚合节点数据以及边数据,生成相应的征信报告图。
54.根据本技术的第一示例,基于用户的征信报告生成的征信报告图的图结构数据包括上文所述的最近61个自然月节点、匿名机构节点和时间中心节点三种中心聚合节点的数据,以及还款边和关联边两种边数据。该图结构数据相应的征信报告图的构图如图2所示。
55.参照图2,该征信报告图包括还款事件子图、同机构事件子图和时间密集事件子图三个部分。图2所示的图结构数据中的节点对应的信贷行为包括:贷款历史、贷记卡历史和征信查询历史。
56.其中,还款事件子图包括最近61个月各自的节点、款历史(表示为loan)和贷记卡历史(表示为credit)及其相应的还款边。并且,还款事件子图示出了最近61个月个还款事件对应的贷款记录节点和贷记卡记录节点的关系,从而对不同贷款、贷记卡的还款子序列进行有效的时间对齐与挖掘。其中,箭头上的“c”表示还款状态为“结清”,“1”表示还款状态为“逾期一个月”,“n”表示还款状态为“正常还款”。
57.其中,同机构事件子图包括同匿名机构聚合节点(dh)、贷款历史(表示为loan_1和loan_2)、贷记卡历史(表示为credit_1)和征信查询历史(表示为query)。该同机构事件子图示出了同一匿名机构发出的各个历史信贷行为的关系,从而方便对征信报告中的匿名机构发出的历史行为信息进行有效关系提取与建模。
58.其中,时间密集事件子图包括征信报告中的一个时间聚合事件(时间聚合节点0)、
贷款历史(表示为loan)、贷记卡历史(表示为credit)和征信查询历史(表示为query)。并且,该时间密集事件子图示出了征信报告中密集发生的历史事件,以便有效地对征信报告中密集发生的历史事件的关系挖掘。
59.继续参照图1进行说明,在步骤s3中,基于所述图结构数据,构造和训练图神经网络模型。
60.根据一个实施例,所述步骤s3包括步骤s301和步骤s302。
61.在步骤s301中,基于图结构数据,使用图卷积网络算法进行聚合初始化。
62.具体地,通过使用图卷积网络算法聚合每个节点及其周围节点的信息,来进行聚合初始化。
63.其中,所述图卷积网络算法包括但不限于各种与图卷积网络(graph convolutional network,gcn)相同或相似的算法。
64.在步骤s302中,使用图注意力网络算法,进行消息传播计算,以完成图神经网络模型的构造和训练。
65.其中,所述图注意力网络算法包括但不限于各种与图注意力网络(graph attention network,gat)相同或相似的算法。
66.具体地,使用图注意力网络结构,从中心聚合节点到信贷行为节点进行消息传播;接着,更新信贷行为节点和中心聚合节点的数据;接着,不断基于更新后的信贷行为节点和中心聚合节点的数据进行消息传播计算,以完成图神经网络模型的构造和训练。
67.继续对第一示例进行说明,在步骤s301中基于图结构数据,使用图卷积神经网络结构进行聚合初始化,从而进行还款边向历史61个月份的聚合初始化、同机构发生的所有历史信贷行为向机构节点的汇聚初始化,以及密集发生的信贷事件向时间中心节点的聚合初始化。其中,还款边向历史61个月节点的聚合初始化公式如下:
68.x
midx
=pe sum(softmax(dot(w
lcqelcq
,w
repayerepay
))*e
repay
)
ꢀꢀꢀꢀ
(1)
69.其中,pe表示随机初始化的位置嵌入,w
lcq
表示信贷行为节点的初始化的模型参数,e
lcq
表示信贷行为节点的特征向量,w
repay
表示还款边的初始化的模型参数,e
repay
表示还款边的特征向量。
70.并且,使用gcn算法将信贷行为节点向匿名机构节点和时间聚集中心节点进行聚合初始化。
71.接着,在步骤s302中使用gat算法进行消息传播计算,计算过程包括:
72.步骤1.使用一层gat网络,完成从聚合中心节点(61个自然月份节点、匿名机构节点、时间中心节点)向信贷行为节点进行消息传播;
73.步骤2.根据节点之间相互的消息传播,更新信贷行为节点相应的特征信息;
74.步骤3.从信贷行为节点更新其他聚合节点,该过程包括:
75.a.更新时间中心节点:使用一层gat网络,接收来自信贷行为节点的消息传播,更新自身特征;
76.b.更新机构节点:使用一层gat网络,接收来自信贷行为节点的消息传递,更新自身特征;
77.c.更新61个自然月节点:使用一层gat网络,接收来自信贷行为节点的消息传播,更新自身特征。
78.需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何基于所述图结构数据,构造和训练图神经网络模型的实现方式,均应包含在本发明的范围内。
79.根据一个实施例,所述方法还包括步骤s4。
80.在步骤s4中,使用训练好的图神经网络模型对用户的征信报告进行风险评分。
81.本领域技术人员应熟悉,可采用多种方法来使用图神经网络模型对用户的征信报告进行风险评分,本领域技术人员可基于实际需求采用合适的方法来进行风险评分,此处不在赘述。
82.根据本技术实施例的方法,通过构建征信报告图来对征信报告中的信贷行为及信贷行为之间的关系进行显示,便于挖掘征信报告中包含的风险信息;并且,基于征信报告图的图结构数据构造和训练相应的图神经网络模型用于风险预测,提升了风险评估的准确性和可靠性。
83.图3示出了根据本技术实施例的基于征信报告的图神经网络建模装置的结构示意图。
84.所述装置包括:用于通过对用户的征信报告进行解析,获取预定的信贷行为数据的装置(以下简称“获取装置1”),用于基于所提取的信贷行为数据,生成相应的征信报告图的装置(以下简称“生成装置2”),和用于基于所述图结构数据,构造和训练图神经网络模型的装置(以下简称“训练装置3”)。
85.参照图3,获取装置1通过对用户的征信报告进行解析,获取预定的信贷行为数据。
86.其中,所述信贷行为数据包括各种与用户的信贷行为相关的数据。
87.其中,可通过多种方法来对用户,提起所需要的一项或多项信贷行为数据。例如,提取征信报告中个人贷款(loan)历史、贷记卡(credit)历史、征信查询(query)历史三个长序列信息。
88.根据一个实施例,所述信贷行为数据包括与贷款、贷记卡和征信查询等预定信贷行为相关的数据。例如,贷款记录,贷记卡记录,征信查询信息等等。
89.基于所提取的信贷行为数据,生成装置2生成相应的征信报告图。
90.其中,所述征信报告图中包括用于反映历史行为信息之间的关系的图结构数据。
91.根据一个实施例,所述图结构数据包括但不限于以下三种中心聚合节点的数据:
92.1)预定数量月份节点;该节点表示征信报告出具日期所在月份起回溯历史上最近的预定数量个自然月份的节点,例如,最近61个自然月节点;
93.2)匿名机构节点;该节点表示征信报告中的匿名机构,其数量等于征信报告中不同机构的数量,为可变值;匿名机构指征信报告中,发放贷款、贷记卡、进行征信查询的行为主体,通常为一些商业银行、小贷公司等,在征信报告中以加密编码表示;
94.3)时间聚合节点;该节点表示一个密集发生事件集合的时间中心,其数量为可变值。例如,对征信报告中全部事件按时间排序,前后两个事件的发生时间间隔小于30天则认为是连续发生,间隔大于30天则断开连续,继续搜索,通过此方法发现密集发生的事件集合并得到相应的时间聚合节点。
95.根据一个实施例,所述图结构数据包括可作为双向边进行图传播计算的边数据。
96.优选地,所述图结构数据包括但不限于以下两种边数据:
97.1)还款边;表示一次还款事件,起始节点为一个贷款记录节点或一个贷记卡记录节点,终止节点是表示此次还款发生所在的自然月份。边的特征由本次还款记录的详细信息构成。
98.2)关联边;表示关联关系的边,起始节点为一个信贷行为事件节点,终止节点为该信贷行为对应的匿名机构或时间聚合节点。
99.根据一个实施例,所述生成装置2通过基础编码器将不同类型的信贷行为数据进行处理,从而得到使用统一维度的向量表示的信贷行为节点数据。
100.其中,所述基础编码器用于将包含不同类型数据的一条原始信贷行为(例如,贷款、贷记卡、征信查询等)的记录特征向量映射为一个统一维度(如256)的向量表示,作为信贷行为节点的初始化特征。
101.其中,基础编码器(basic encoder)处理的数据包括数值类型、枚举类型和文本类型。数值类型主要进行归一化后通过全联接层进行表示,枚举类型则通过嵌入映射为一维向量表示,文本类型在进行嵌入表示后通过attention层将词向量序列压缩为一维的向量表示。
102.接着,生成装置2基于所述信贷行为节点数据和预定的中心聚合节点数据以及边数据,生成相应的征信报告图。
103.继续参照图3进行说明,训练装置3基于所述图结构数据,构造和训练图神经网络模型。
104.根据一个实施例,训练装置3基于图结构数据,使用图卷积网络算法进行聚合初始化。
105.具体地,通过使用图卷积网络算法聚合每个节点及其周围节点的信息,来进行聚合初始化。
106.其中,所述图卷积网络算法包括但不限于各种与图卷积网络(graph convolutional network,gcn)相同或相似的算法。
107.接着,训练装置3使用图注意力网络算法,进行消息传播计算,以完成图神经网络模型的构造和训练。
108.其中,所述图注意力网络算法包括但不限于各种与图注意力网络(graph attention network,gat)相同或相似的算法。
109.具体地,使用图注意力网络结构,从中心聚合节点到信贷行为节点进行消息传播;接着,更新信贷行为节点和中心聚合节点的数据;接着,不断基于更新后的信贷行为节点和中心聚合节点的数据进行消息传播计算,以完成图神经网络模型的构造和训练。
110.根据一个实施例,所述方法还包括用于使用训练好的图神经网络模型对用户的征信报告进行风险评分的装置(以下简称“评分装置”)。
111.评分装置使用训练好的图神经网络模型对用户的征信报告进行风险评分。
112.本领域技术人员应熟悉,可采用多种方法来使用图神经网络模型对用户的征信报告进行风险评分,本领域技术人员可基于实际需求采用合适的方法来进行风险评分,此处不在赘述。
113.根据本技术实施例的装置,通过构建征信报告图来对征信报告中的信贷行为及信贷行为之间的关系进行显示,便于挖掘征信报告中包含的风险信息;并且,基于征信报告图
的图结构数据构造和训练相应的图神经网络模型用于风险预测,提升了风险评估的准确性和可靠性。
114.本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
115.另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
116.对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献