一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

对反欺诈模型进行训练的方法、识别金融欺诈行为的方法及其相关产品与流程

2022-02-19 14:12:16 来源:中国专利 TAG:


1.本发明一般地涉及金融风控技术领域。更具体地,本发明涉及一种用于对识别金融欺诈行为的反欺诈模型进行训练的方法及电子设备、用于识别金融欺诈行为的方法、电子设备和系统。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本技术的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
3.随着互联网技术的普及,基于互联网技术的电子银行得到了进一步发展,其已成为银行业务中的重要板块之一。然而,电子银行在为广大用户提供丰富金融服务的同时,也带来了新的风险。例如,近年来关于利用电子银行业务漏洞或者采取违规手段进行欺诈洗钱交易等金融欺诈案件越来越多,已严重损害了银行和国家的财产安全。随着不法分子作案流程的专业化与技术手段的升级,采用人为规则的传统风控模型已经很难满足当前的风控需求。
4.为此,相关技术提出了立足于监督算法的机器学习模型。然而现有的机器学习模型对样本数据的质量要求比较高,其依赖具有标签的样本数据。而在实际模型训练过程中,特别是针对欺诈行为的模型训练,有效的样本数据比例较小且标签时效性较差,使得训练出的模型的实际效果较差,无法满足实际需求。


技术实现要素:

5.为了至少解决上述背景技术部分所描述的技术问题,本发明提出了一种用于对识别金融欺诈行为的反欺诈模型进行训练的方案。利用本发明的方案,不依赖于样本标签,即可实现对反欺诈模型的无监督训练。由此,本发明的方案不仅能够克服人为规则的干预,并且有效降低了对样本数据的需求门槛,从而为利用该反欺诈模型进行精准的金融欺诈行为识别提供有力保障。鉴于此,本发明在如下的多个方面提供解决方案。
6.本发明的第一方面提供了一种用于对识别金融欺诈行为的反欺诈模型进行训练的方法,所述方法由处理器执行,并且包括:获取关于金融欺诈行为的样本特征作为训练数据;将所述训练数据输入至所述反欺诈模型,以对所述反欺诈模型进行聚类训练;以及响应于所述反欺诈模型输出目标类簇,完成对所述反欺诈模型的聚类训练,其中所述目标类簇中的簇中心点表征正常金融交易行为并且所述目标类簇中的各个类簇的类簇间距离和每个类簇内元素间的类簇内距离满足预定评价指标。
7.在一个实施例中,其中获取关于金融欺诈行为的样本特征作为训练数据包括:获取关于金融交易行为的原始数据样本集;从所述原始数据样本集中提取关于金融欺诈行为
的初始样本特征;以及对所述初始样本特征进行归一化处理,并将其作为所述训练数据。
8.在一个实施例中,其中对所述反欺诈模型进行聚类训练包括:利用k均值聚类算法对所述训练数据进行聚类训练,并在聚类过程中循环执行以下操作:
9.计算所训练的各个类簇的类簇间距离以及每个类簇内元素间的类簇内距离,以得到聚类结果;以及根据所述聚类结果调整所训练的类簇数量,直至输出所述目标类簇。
10.在一个实施例中,其中所述方法还包括:根据以下公式确定所述预定评价指标:f
max
=2dvi
×
cp/(dvi cp);其中,f
max
表示取公式的最大值为所述预定评价指标,dvi表示用于表征各个类簇的类簇间距离的邓恩指数,cp表示用于表征每个类簇内元素间的类簇内距离的紧密度指数。
11.本发明的第二方面提供了一种用于对识别金融欺诈行为的反欺诈模型进行训练的电子设备,包括:处理器,其配置用于执行程序指令;以及存储器,其配置用于存储所述程序指令,当所述程序指令由所述处理器加载并执行时,使得所述电子设备执行本发明的第一方面以及在下文多个实施例中所述的方法。
12.本发明的第三方面提供了一种用于识别金融欺诈行为的方法,所述方法是基于本发明的第二方面所提供的电子设备所训练的反欺诈模型进行金融欺诈行为识别的方法,其包括:获取待识别的金融交易数据;计算所述待识别的金融交易数据与所述反欺诈模型中目标类簇的簇中心点的距离;以及基于所述距离确定是否存在金融欺诈行为。
13.在一个实施例中,其中基于所述距离确定是否存在金融欺诈行为包括:判断所述距离是否大于阈值;响应于所述距离大于或者等于阈值,确定存在金融欺诈行为;或者响应于所述距离小于阈值,确定不存在金融欺诈行为。
14.在一个实施例中,其中计算所述待识别的金融交易数据与所述反欺诈模型中目标类簇的簇中心点的距离包括:计算所述待识别的金融交易数据与所述目标类簇的簇中心点之间的欧式距离。
15.本发明的第四方面提供了一种用于识别金融欺诈行为的电子设备,包括:处理器;以及存储器,其配置用于存储所述程序指令,当所述程序指令由所述处理器加载并执行时,使得所述电子设备执行本发明的第三方面以及在下文多个实施例中所述的方法。
16.本发明的第五方面提供了一种用于识别金融欺诈行为的系统,包括:如本发明的第二方面所述的电子设备,其配置成执行根据本发明的第一方面以及在下文多个实施例中所述的方法,以对用于识别金融欺诈行为的反欺诈模型进行训练;以及如本发明的第四方面所述的电子设备,其配置成执行根据本发明的第三方面以及在下文多个实施例中所述的方法,以基于所述反欺诈模型识别金融欺诈行为。
17.本发明的第六方面提供了一种计算机程序产品,包括用于对识别金融欺诈行为的反欺诈模型进行训练的程序指令或用于识别金融欺诈行为的程序指令,当所述程序指令由处理器执行时,使得实现本发明的第一方面或者第三方面以及在下文多个实施例中所述的方法。
18.利用本发明所提供的方案,可以基于无标签的训练数据实现对反欺诈模型的聚类训练。可以看出,本发明的方案在对反欺诈模型的训练过程中不依赖于样本标签,不仅能够克服人为规则的干预,并且有效降低了对样本数据的需求门槛。基于此,有效的样本数据训练使得训练所得的反欺诈模型更加实用及精准,从而为利用该反欺诈模型进行精准的金融
欺诈行为识别提供有力保障。
附图说明
19.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
20.图1是示出根据本发明实施例的用于识别金融欺诈行为的系统的架构图;
21.图2是示出根据本发明实施例的用于对识别金融欺诈行为的反欺诈模型进行训练的方法的流程图;
22.图3是示出根据本发明实施例的用于识别金融欺诈行为的方法的流程图;
23.图4是示出根据本发明实施例的用于识别金融欺诈行为的另一方法的流程图;以及
24.图5是示出根据本发明实施例的用于识别金融欺诈行为的系统的结构图。
具体实施方式
25.下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
26.应当理解,本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
27.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施方式的目的,而并不意在限定本发明。如在本发明说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
28.如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0029]
下面结合附图来详细描述本发明的具体实施方式。
[0030]
图1是示出根据本发明实施例的用于识别金融欺诈行为的系统100的架构图。可以理解的是,这里的系统100可以涉及数据训练以及模型应用。在一个实施例中,在数据训练阶段,该系统100可以包括原始数据样本集的采集、与业务端系统间的交互、数据处理、模型训练、反欺诈模型的训练以及训练结果的展示。其中原始数据样本集可以包括各种金融交易数据,例如用户对各种金融应用软件的访问信息、与金融应用软件间的交互信息等。此外,原始数据样本集还可以包括用户信息,例如用户的各种身份信息。而业务端系统则可以
供相关人员来对整个训练过程进行调控,例如通过用户操作界面实现业务端系统与用户间的人机交互。接着,数据处理部分可以对来自业务端系统和原始数据样本集中的数据进行处理(例如可以涉及数据筛选、空值处理、数据转换、特征提取以及归一化处理等)。然后,可以进行模型训练以得到反欺诈模型,并可以根据用户需求进行训练结果展示。
[0031]
在对反欺诈模型训练结束后,可以进入模型应用阶段。在一个实施例中,在模型应用阶段,可以通过信息渠道(例如电子银行渠道或其他涉及金融交易的应用渠道)来实时抓取数据。接着,对实时抓取到的数据进行预处理(例如筛选、转换等),并将利用前述所训练的反欺诈模型对处理后的数据进行预测及识别,然后输出预测结果。由此,完成对反欺诈模型的训练及应用。可以理解的是,这里对系统100的描述仅是一种示例性说明,并不对本发明的方案进行限定。
[0032]
图2是示出根据本发明实施例的用于对识别金融欺诈行为的反欺诈模型进行训练的方法200的流程图。可以理解的是,方法200可以由处理器来执行,其可以是图1中数据训练的一种可能的示例性描述。因此,前文关于反欺诈模型的描述同样也适用于下文。
[0033]
如图2所示,在步骤s201处,可以获取关于金融欺诈行为的样本特征作为训练数据。在一个实施例中,步骤s201可以涉及原始数据样本集的获取、样本特征提取及处理。具体,可以获取关于金融交易行为的原始数据样本集。在一些实施场景中,如前所述,原始数据样本集可以包括各种金融交易数据以及用户信息。其中,金融交易数据可以来自电子银行或者其他支持金融交易的应用。而用户信息可以包含用户姓名、身份证号、图像等身份信息。接着,可以从前述的原始数据样本集中提取关于金融欺诈行为的初始样本特征。在一些实施例中,前述的初始样本特征可以涉及短时间内频繁操作、交易渠道的变换、交易所发生的敏感时段及地点等。然后,可以利用预定函数(例如z

score标准化函数、sigmoid函数、(0,1)标准化函数等)对前述的初始样本特征进行归一化处理后作为训练数据。
[0034]
接着,在步骤s202处,可以将前述的训练数据输入至反欺诈模型,以对反欺诈模型进行聚类训练。在一个实施例中,可以利用预定聚类算法对训练数据进行聚类训练,并在聚类过程中循环执行计算所训练的各个类簇的类簇间距离以及每个类簇内元素间的类簇内距离的操作,以得到聚类结果,然后基于根据聚类结果调整所训练的类簇数量,直至输出目标类簇。在一些实施场景中,预定函数可以包含k均值聚类算法(k

means clustering algorithm,kmeans),可以利用邓恩指数函数来表征各个类簇的类簇间距离,以及利用紧密度指数函数来表征类簇内距离。可以理解的是,这里是以k均值聚类算法、邓恩指数和紧密度指数为例进行示例性说明,并不对本发明的技术方案进行限制。
[0035]
接着,在步骤s203处,响应于前述反欺诈模型输出目标类簇,其中目标类簇中的簇中心点表征正常金融交易行为并且目标类簇中的各个类簇的类簇间距离和每个类簇内元素间的类簇内距离满足预定评价指标,以完成对该反欺诈模型的聚类训练。在一些实施例中,如前所述,可以利用邓恩指数和紧密度指数来分别表征类簇间距离和类簇内距离。而前述的预定评价指标可以利用(2dvi
×
cp/(dvi cp))
max
来表示,其中dvi表示邓恩指数,cp表示紧密度指数,公式取最大值可作为前述的预定评价指标。可以理解的,这里对预定评价指标的描述仅是示例性说明,本发明的技术方案并不受此限制。
[0036]
图3是示出根据本发明实施例的用于识别金融欺诈行为的方法300的流程图。可以理解的是,方法300可以是图1中模型应用的一种可能的示例性描述,并且方法300可以基于
方法200所训练的反欺诈模型来识别金融欺诈行为。因此前文结合图1和图2关于反欺诈模型的描述同样也适用于下文。
[0037]
在步骤s301处,可以获取待识别的金融交易数据。在一个实施例中,如前所述,前述的待识别金融交易数据可以实时从电子银行或者其他支持金融交易的应用侧来抓取。接着,在步骤s302处,可以计算前述待识别的金融交易数据与前述反欺诈模型中目标类簇的簇中心点的距离。在一个实施例中,前述的距离可以是待识别的金融交易数据与簇中心点之间的欧式距离。可以理解的是,这里仅以欧式距离为例来进行示例性说明,其他可以表示待识别的金融交易数据与簇中心点的偏离程度的距离算法同样也适用于本发明。
[0038]
接着,在步骤s303处,可以基于前述的距离确定是否存在金融欺诈行为。在一个实施例中,可以判断前述的距离是否大于阈值(可根据设计需求进行调整),以在确定前述的距离(例如欧式距离)大于或等于阈值时,说明待识别的金融交易数据已偏离正常的金融交易行为,可以确定存在金融欺诈行为。而在确定前述的距离小于阈值时,说明待识别的金融交易数据符合正常的金融交易行为,可以确定不存在金融欺诈行为。可以理解的是,这里的金融欺诈行为可以包括洗钱行为、内部欺诈行为、盗刷行为等,而本发明特别涉及对洗钱行为的识别。
[0039]
图4是示出根据本发明实施例的用于识别金融欺诈行为的另一方法400的流程图。可以理解的是,方法400可以是图1中数据训练和模型应用的一种可能的示例性描述。因此前文结合图1至图3关于反欺诈模型的描述同样也适用于下文。
[0040]
关于数据训练:
[0041]
在步骤s401处,可以获取原始数据样本集。例如,可以通过获取客户历史金融交易数据以及个人信息作为原始数据样本集。
[0042]
接着,在步骤s402处,可以获取训练数据。在一个实施例中,可以导入spark训练引擎,然后从前述的原始数据样本集中提取初始特征信息。接着,对前述的初始特征信息进行归一化处理后作为前述的训练数据。可以理解的是,这里对训练数据的获取过程的描述仅是一种示例性说明,并不对本发明的技术方案进行限制。
[0043]
接着,在步骤s403处,可以初始化簇数量。具体在对训练数据进行聚类过程中,可以提前赋值一初始的类簇数量进行训练。
[0044]
接着,在步骤s404处,可以利用kmeans聚类算法进行聚类。以及在步骤s405处,在聚类过程中根据训练得到的簇中心点计算邓恩指数和紧密度指数,以对聚类效果进行评估。在一个实施例中,可根据以下公式计算邓恩指数:
[0045][0046]
其中,上述公式(1)中dvi为邓恩指数,其具体表示任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内),x
i
和x
j
表示簇元素,m,n以及k表示数据点的数量,ω表示数据点的类别。基于此,dvi越大意味着类间距离越大。
[0047]
而紧密度指数可以通过以下公式来计算:
[0048][0049]
上述公式(2)中cp表示紧密度指数,其表示每一个类各点到簇中心点的平均距离。其中,ω表示数据点的类别,k表示数据点的数量,x
i
表示簇元素,w
i
表示簇中心点。基于此,紧密度指数越低表示类内聚类距离越近。
[0050]
接着,在步骤s406处,通过利用前述邓恩指数和紧密度指数来评价聚类效果,并根据聚类效果来调整所训练簇数量,直至得到最优聚类模型。在一个实施例中,前述的最优聚类模型中各个类簇的类簇间距离和每个类簇内元素间的类簇内距离满足(2dvi
×
cp/(dvi cp))
max

[0051]
关于模型应用:
[0052]
在步骤s407处,可以实时获取待测数据,并计算待测数据与上述模型中的簇中心点的偏离程度,以基于计算结果来确定是否存在金融欺诈行为。在一个实施例中,可以计算待测数据(例如金融交易数据)与簇中心点的欧式距离,利用计算得到的欧式距离与阈值间的大小关系来确定是否存在金融欺诈行为。基于此,本发明的整个训练过程可以不依赖于样本标签,并且引入了kmeans聚类算法来聚类训练反欺诈模型以及在聚类过程中引入邓恩指数和紧密度指数来提高聚类效果,使得训练后的反欺诈模型实用性强以及精准度高,特别涉及关于利用反欺诈模型进行洗钱行为的识别的应用。
[0053]
图5是示出根据本发明实施例的用于识别金融欺诈行为的系统500的示意框图。该用于识别金融欺诈行为的系统500可以包括根据本发明实施例的电子设备501以及其外围设备和外部网络。如前所述,通过该电子设备501实现对反欺诈模型的训练生成和/或利用反欺诈模型进行金融欺诈薪给的识别等操作,以实现前述结合图2至图4所述的本发明的方案。
[0054]
如图5中所示,电子设备501可以包括cpu5011,其可以是通用cpu、专用cpu或者其他信息处理以及程序运行的执行单元。进一步,电子设备501还可以包括大容量存储器5012和只读存储器rom 5013,其中大容量存储器5012可以配置用于存储各类数据,rom 5013可以配置成存储对于电子设备501的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据。
[0055]
进一步,电子设备501还包括其他的硬件平台或组件,例如示出的tpu(tensor processing unit,张量处理单元)5014、gpu(graphic processing unit,图形处理器)5015、fpga(field programmable gate array,现场可编程逻辑门阵列)5016和mlu(memory logic unit),存储器逻辑单元)5017。可以理解的是,尽管在电子设备501中示出了多种硬件平台或组件,但这里仅仅是示例性的而非限制性的,本领域技术人员可以根据实际需要增加或移除相应的硬件。例如,电子设备501可以仅包括cpu作为公知硬件平台和另一硬件平台作为本发明的测试硬件平台。
[0056]
本发明的电子设备501还包括通信接口5018,从而可以通过该通信接口5018连接
到局域网/无线局域网(lan/wlan)505,进而可以通过lan/wlan连接到本地服务器506或连接到因特网(“internet”)507。替代地或附加地,本发明的电子设备501还可以通过通信接口5018基于无线通信技术直接连接到因特网或蜂窝网络,例如基于第三代(“3g”)、第四代(“4g”)或第5代(“5g”)的无线通信技术。
[0057]
电子设备501的外围设备可以包括显示装置502、输入装置503以及数据传输接口504。在一个实施例中,显示装置502可以例如包括一个或多个扬声器和/或一个或多个视觉显示器,其配置用于对本发明测试设备的运算过程或者最终结果进行语音提示和/或图像视频显示。输入装置503可以包括例如键盘、鼠标、麦克风、姿势捕捉相机,或其他输入按钮或控件,其配置用于接收待测数据的输入或用户指令。数据传输接口504可以包括例如串行接口、并行接口或通用串行总线接口(“usb”)、小型计算机系统接口(“scsi”)、串行ata、火线(“firewire”)、pci express和高清多媒体接口(“hdmi”)等,其配置用于与其他设备或系统的数据传输和交互。根据本发明的方案,该数据传输接口504可以接收各个金融数据渠道传送的金融交易数据,并且向电子设备501传送该金融交易数据。
[0058]
本发明的电子设备501的上述cpu 5011、大容量存储器5012、只读存储器rom 5013、tpu 5014、gpu 5015、fpga 5016、mlu 5017和通信接口5018可以通过总线5019相互连接,并且通过该总线与外围设备实现数据交互。在一个实施例中,通过该总线5019,cpu 5011可以控制电子设备501中的其他硬件组件及其外围设备。
[0059]
在工作中,本发明的电子设备501的处理器cpu 5011可以通过输入装置503或数据传输接口504获取训练数据,并调取存储于存储器5012中的计算机程序指令或代码利用训练数据进行反欺诈模型训练,或者通过输入装置503或数据传输接口504获取待识别的金融交易数据,并调取存储于存储器5012中的计算机程序指令或代码利用反欺诈模型对所述金融交易数据进行识别,以便实现金融欺诈行为的识别。
[0060]
从上面关于本发明模块化设计的描述可以看出,本发明的系统可以根据应用场景或需求进行灵活地布置而不限于附图所示出的架构。进一步,还应当理解,本发明示例的执行操作的任何模块、单元、组件、服务器、计算机或设备可以包括或以其他方式访问计算机可读介质,诸如存储介质、计算机存储介质或数据存储设备(可移除的)和/或不可移动的)例如磁盘、光盘或磁带。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质,例如计算机可读指令、数据结构、程序模块或其他数据。基于此,本发明也公开了一种计算机可读存储介质,其上存储有用于对识别金融欺诈行为的反欺诈模型进行训练或用于识别金融欺诈行为的计算机可读指令,该计算机可读指令被一个或多个处理器执行时,实现在前结合附图所描述的方法和操作。
[0061]
虽然本说明书已经示出和描述了本发明的多个实施方式,但对于本领域技术人员显而易见的是,这样的实施方式是仅以示例的方式提供的。本领域技术人员在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解在实践本发明的过程中,可以采用本文所描述的本发明实施方式的各种替代方案。所附权利要求书旨在限定本发明的保护范围,并因此覆盖这些权利要求范围内的模块组成、等同或替代方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献