一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

财务数据监测模型的训练方法、装置和计算机设备与流程

2022-06-15 20:54:02 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,特别是涉及一种财务数据监测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.随着互联网金融的发展,金融交易变得越来越日常化,但异常交易也日渐增多,如欺诈交易、违法交易等,这严重影响银行等金融部门的安全和利益,因此,对交易行为中产生的财务数据进行监测成为银行等金融业务部门的重要工作内容。
3.现有的财务数据监测方法往往都是应用传统的机器学习模型进行监测,但是现有的财务数据监测方法在模型训练过程中,由于数据集不平衡往往会导致最终训练得到的预测模型精度差,无法准确识别出交易过程中产生的记录有异常财务行为的异常财务数据。
4.因此,现有技术中存在异常财务数据的监测准确率低的问题。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提高异常财务数据的监测准确率的财务数据监测模型的训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面,本技术提供了一种财务数据监测模型的训练方法。所述方法包括:
7.在历史财务数据集中,确定第一财务数据集和第二财务数据集;所述第一财务数据集包括记录有异常财务行为的异常财务数据;所述第二财务数据集包括未记录有异常财务行为的财务数据;
8.确定各所述异常财务数据对应的目标记录时间点;
9.根据各所述目标记录时间点,在所述第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集;所述第三财务数据集中的各财务数据对应的记录时间点与各所述目标记录时间点相匹配;
10.根据所述第一财务数据集与所述第三财务数据集,对待训练的财务数据监测模型进行训练,得到目标财务数据监测模型;所述目标财务数据监测模型用于确定待监测财务数据是否记录有异常财务行为。
11.在其中一个实施例中,所述根据各所述目标记录时间点,在所述第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集,包括:
12.根据各所述目标记录时间点,对所述第二财务数据集中的财务数据进行筛选,筛选出与各所述目标记录时间点相匹配的一条财务数据,得到财务数据子集;
13.若所述财务数据子集中的财务数据量小于所述预设数据量,则执行所述根据各所述目标记录时间点,对所述第二财务数据集的财务数据进行筛选的步骤,直到所述财务数据子集中的财务数据量等于所述预设数据量,得到所述第三财务数据集。
14.在其中一个实施例中,所述目标记录时间点包括当前目标记录时间点;所述根据
各所述目标记录时间点,对所述第二财务数据集中的财务数据进行筛选,筛选出与各所述目标记录时间点相匹配的一条财务数据,得到财务数据子集,包括:
15.若所述第二财务数据集中不存在与当前目标记录时间点相匹配的财务数据,则根据所述当前目标记录时间点的下一个目标记录时间点对所述第二财务数据集中的财务数据进行筛选;
16.若所述第二财务数据集中与所述当前目标记录时间点相匹配的候选财务数据存在多条,则将任一所述候选财务数据添加至所述财务数据子集中。
17.在其中一个实施例中,所述方法还包括:
18.根据所述历史财务数据集中各历史财务数据对应的数据类型标签,将所述历史财务数据集划分为所述第一财务数据集和所述第二财务数据集;所述数据类型标签用于确定所述历史财务数据是否记录有异常财务行为;
19.确定所述历史财务数据对应的待筛选变量;
20.根据各所述待筛选变量在所述第一财务数据集中的分布情况,以及各所述待筛选变量在所述第二财务数据集中的分布情况,对所述待筛选变量进行异常相关性筛选,得到筛选后变量;
21.根据所述筛选后变量确定目标变量;所述目标变量用于对所述待训练的财务数据监测模型进行训练。
22.在其中一个实施例中,所述根据各所述待筛选变量在所述第一财务数据集中的分布情况,以及各所述待筛选变量在所述第二财务数据集中的分布情况,对所述待筛选变量进行异常相关性筛选,得到筛选后变量,包括:
23.对所述待筛选变量进行特征降维处理,得到处理后待筛选变量;
24.获取各所述处理后待筛选变量在所述第一财务数据集中的第一频率分布情况,以及各所述处理后待筛选变量在所述第二财务数据集中的第二频率分布情况;
25.确定各所述处理后待筛选变量对应的所述第一频率分布情况与对应的所述第二频率分布情况间的差异;
26.将对应的所述第一频率分布情况与对应的所述第二频率分布情况间的差异满足预设差异条件的处理后待筛选变量,作为所述筛选后变量。
27.在其中一个实施例中,所述根据所述筛选后变量确定目标变量,包括:
28.确定所述历史财务数据对应的初始时间变量;
29.对所述初始时间变量进行单位转换处理,得到转换时间变量;所述转换时间变量的时间单位大于所述初始时间变量的时间单位;
30.对所述转换时间变量进行标准化处理,得到预处理时间变量;
31.根据所述筛选后变量和所述预处理时间变量确定所述目标变量。
32.在其中一个实施例中,所述根据所述第一财务数据集与所述第三财务数据集,对待训练的财务数据监测模型进行训练,得到目标财务数据监测模型的步骤之后,所述方法还包括:
33.获取所述待监测财务数据中与所述目标变量相匹配的财务数据值;
34.将所述财务数据值输入至所述目标财务数据监测模型,得到所述待监测财务数据对应的异常概率;
35.若所述异常概率大于预设异常概率阈值,判定所述待监测财务数据记录有异常财务行为。
36.第二方面,本技术提供了一种财务数据监测方法。所述方法包括:
37.获取待监测财务数据;
38.确定所述待监测财务数据在目标变量中对应的财务数据值;
39.将所述财务数据值输入至目标财务数据监测模型,得到所述待监测财务数据对应的异常概率;所述目标财务数据监测模型为根据所述财务数据监测模型的训练方法得到的;
40.若所述异常概率大于预设异常概率阈值,判定所述待监测财务数据记录有异常财务行为。
41.第三方面,本技术还提供了一种财务数据监测模型的训练装置。所述装置包括:
42.第一确定模块,用于在历史财务数据集中,确定第一财务数据集和第二财务数据集;所述第一财务数据集包括记录有异常财务行为的异常财务数据;所述第二财务数据集包括未记录有异常财务行为的财务数据;
43.第二确定模块,用于确定各所述异常财务数据对应的目标记录时间点;
44.筛选模块,用于根据各所述目标记录时间点,在所述第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集;所述第三财务数据集中的各财务数据对应的记录时间点与各所述目标记录时间点相匹配;
45.训练模块,用于根据所述第一财务数据集与所述第三财务数据集,对待训练的财务数据监测模型进行训练,得到目标财务数据监测模型;所述目标财务数据监测模型用于确定待监测财务数据是否记录有异常财务行为。
46.第四方面,本技术还提供了一种财务数据监测装置。所述装置包括:
47.获取模块,用于获取待监测财务数据;
48.数据值确定模块,用于确定所述待监测财务数据在目标变量中对应的财务数据值;
49.输入模块,用于将所述财务数据值输入至目标财务数据监测模型,得到所述待监测财务数据对应的异常概率;所述目标财务数据监测模型为根据所述财务数据监测模型的训练方法得到的;
50.判定模块,用于若所述异常概率大于预设异常概率阈值,判定所述待监测财务数据记录有异常财务行为。
51.第五方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种实施例所述的财务数据监测模型的训练方法,或者,如第二方面所述的财务数据监测方法。
52.第六方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种实施例所述的财务数据监测模型的训练方法,或者,如第二方面所述的财务数据监测方法。
53.第七方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算
机程序,该计算机程序被处理器执行时实现如第一方面或第一方面的任一种实施例所述的财务数据监测模型的训练方法,或者,如第二方面所述的财务数据监测方法。
54.上述财务数据监测模型的训练方法、装置、计算机设备、存储介质和计算机程序产品,通过在在历史财务数据集中,确定记录有异常财务行为的异常财务数据的第一财务数据集,以及未记录有异常财务行为的财务数据的第二财务数据集;然后,确定各异常财务数据对应的目标记录时间点;之后,根据各目标记录时间点,在所述第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集;其中,第三财务数据集中的各财务数据对应的记录时间点与各目标记录时间点相匹配;最后,根据第一财务数据集与第三财务数据集,对待训练的财务数据监测模型进行训练,得到用于确定待监测财务数据是否记录有异常财务行为的目标财务数据监测模型;如此,由于实际的历史财务数据集中,记录有异常财务行为的异常财务数据很少,在财务数据监测模型训练过程中,通过各异常财务数据对应的目标记录时间点,对大量未记录有异常财务行为的财务数据进行筛选,可以得到由与目标记录时间点相匹配且满足预设数量的财务数据组成的第三财务数据集,无需将数据量庞大的第二财务数据集全部作为对模型进行训练的样本集,防止样本集中异常财务数据和未记录有异常财务行为的财务数据的数据量相差过大,解决了模型训练过程中由于数据集不平衡导致的模型监测准确率低的问题;同时,由于异常财务行为这一特征可以通过财务数据对应的记录时间点体现,因此通过异常财务数据对应的目标记录时间点对大量未记录有异常财务行为的财务数据进行筛选,保证用于模型训练的样本数据集中,异常财务数据和未记录有异常财务行为的财务数据对应的记录时间点相匹配,可以减少样本记录时间点不匹配而对监测结果造成的影响,减少了监测结果误差,进一步提高了模型的异常财务数据监测准确率。
附图说明
55.图1为一个实施例中一种财务数据监测模型的训练方法的流程示意图;
56.图2为另一个实施例中一种财务数据监测模型的训练方法的流程示意图;
57.图3(a)和(b)分别为一个实施例中待筛选变量两种情况下的相关性分析示意图;
58.图4(a)~图4(k)分别为一个实施例中被剔除的处理后待筛选变量在两种情况下的频率分布直方图;
59.图5为一个实施例中各变量对应的属性重要性得分结果示意图;
60.图6为一个实施例中模型的混淆矩阵示意图;
61.图7为一个实施例中模型的roc曲线示意图;
62.图8为一个实施例中一种财务数据监测模型的训练装置的结构框图;
63.图9为一个实施例中计算机设备的内部结构图。
具体实施方式
64.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
65.在一个实施例中,如图1所示,提供了一种财务数据监测模型的训练方法,以该方
法应用于计算机设备为例进行说明,该计算机设备可以是终端,也可以是独立的服务器或者是多个服务器组成的服务器集群,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。所述方法包括:
66.步骤s110,在历史财务数据集中,确定第一财务数据集和第二财务数据集。
67.其中,第一财务数据集包括记录有异常财务行为的异常财务数据。
68.其中,第二财务数据集包括未记录有异常财务行为的财务数据。
69.其中,历史财务数据集包括历史财务数据,历史财务数据可以但不限于为银行卡交易数据。
70.其中,异常财务行为可以是欺诈行为,如信用卡、银行卡盗刷行为、伪冒绑卡行为等。
71.具体实现中,计算机设备可以获取某一地区某一时间段的财务数据,作为历史财务数据集,根据历史财务数据集中历史财务数据对应的数据类型标签,确定历史财务数据是否记录有异常财务行为,将历史财务数据集分为由记录有异常财务行为的异常财务数据所组成的第一财务数据集,以及由未记录有异常财务行为的财务数据所组成的第二财务数据集。
72.步骤s120,确定各异常财务数据对应的目标记录时间点。
73.其中,目标记录时间点可以是异常财务数据所对应的交易发生时间。
74.具体实现中,计算机设备可以确定第一财务数据集中各异常财务数据对应的目标记录时间点。
75.步骤s130,根据各目标记录时间点,在第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集。
76.其中,第三财务数据集中的各财务数据对应的记录时间点与各目标记录时间点相匹配。
77.具体实现中,计算机设备可以根据各目标记录时间点,对第二财务数据集进行至少一次遍历,每次遍历筛选出对应的记录时间点与目标记录时间点相匹配的财务数据,直到筛选出的财务数据为预设数据量,从而可以得到由至少一次遍历筛选得到的财务数据所组成的第三财务数据集。
78.步骤s140,根据第一财务数据集与第三财务数据集,对待训练的财务数据监测模型进行训练,得到目标财务数据监测模型。
79.其中,目标财务数据监测模型用于确定待监测财务数据是否记录有异常财务行为。
80.具体实现中,计算机设备可以按照预设数据划分比例,如预设数据划分比例可以是4:1,将得到的记录有异常财务行为的第一财务数据集,以及未记录有异常财务行为的第三财务数据集划分为训练样本集和测试样本集,每个训练样本包括对应的数据类型样本标签,通过数据类型样本标签可以确定训练样本是否记录有异常财务行为;之后,计算机设备可以通过训练样本集对待训练的财务数据监测模型进行训练,当训练后的财务数据监测模型满足预设的训练条件时,得到用于确定待监测财务数据是否记录有异常财务行为目标财务数据监测模型;并可以通过测试样本集计算目标财务数据监测模型的精度;如此,通过目标财务数据监测模型可以识别出记录有异常财务行为的财务数据,从而可以在银行放款前
筛选出受到异常财务行为影响的客户,通过减少放款金额甚至不放款等方式,减少银行方面的损失。
81.上述财务数据监测模型的训练方法中,通过在在历史财务数据集中,确定记录有异常财务行为的异常财务数据的第一财务数据集,以及未记录有异常财务行为的财务数据的第二财务数据集;然后,确定各异常财务数据对应的目标记录时间点;之后,根据各目标记录时间点,在所述第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集;其中,第三财务数据集中的各财务数据对应的记录时间点与各目标记录时间点相匹配;最后,根据第一财务数据集与第三财务数据集,对待训练的财务数据监测模型进行训练,得到用于确定待监测财务数据是否记录有异常财务行为的目标财务数据监测模型;如此,由于实际的历史财务数据集中,记录有异常财务行为的异常财务数据很少,在财务数据监测模型训练过程中,通过各异常财务数据对应的目标记录时间点,对大量未记录有异常财务行为的财务数据进行筛选,可以得到由与目标记录时间点相匹配且满足预设数量的财务数据组成的第三财务数据集,无需将数据量庞大的第二财务数据集全部作为对模型进行训练的样本集,防止样本集中异常财务数据和未记录有异常财务行为的财务数据的数据量相差过大,解决了模型训练过程中由于数据集不平衡导致的模型监测准确率低的问题;同时,由于异常财务行为这一特征可以通过财务数据对应的记录时间点体现,因此通过异常财务数据对应的目标记录时间点对大量未记录有异常财务行为的财务数据进行筛选,保证用于模型训练的样本数据集中,异常财务数据和未记录有异常财务行为的财务数据对应的记录时间点相匹配,可以减少样本记录时间点不匹配而对监测结果造成的影响,减少了监测结果误差,进一步提高了模型的异常财务数据监测准确率。
82.在一个实施例中,根据各目标记录时间点,在第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集,包括:根据各目标记录时间点,对第二财务数据集中的财务数据进行筛选,筛选出与各目标记录时间点相匹配的一条财务数据,得到财务数据子集;若财务数据子集中的财务数据量小于预设数据量,则执行根据各目标记录时间点,对第二财务数据集的财务数据进行筛选的步骤,直到财务数据子集中的财务数据量等于预设数据量,得到第三财务数据集。
83.具体实现中,计算机设备在根据各目标记录时间点,在第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集的过程中,计算机设备可以根据各异常财务数据对应的目标记录时间点,对述第二财务数据集中的财务数据进行至少一次遍历,每次遍历只筛选出与各目标记录时间点相匹配的一条财务数据,即筛选得到的财务数据对应的记录时间点与目标记录时间点相同,并将在第二财务数据集中筛选出来的财务数据添加至财务数据子集中;若财务数据子集中的财务数据量小于预设数据量,则继续执行根据各目标记录时间点,对第二财务数据集的财务数据进行遍历筛选的步骤,直到财务数据子集中的财务数据量等于预设数据量,并将财务数据量为预设数据量的财务数据子集作为第三财务数据子集。
84.本实施例的技术方案,通过根据各目标记录时间点,对第二财务数据集中的财务数据进行筛选,筛选出与各目标记录时间点相匹配的一条财务数据,得到财务数据子集;若财务数据子集中的财务数据量小于预设数据量,则执行根据各目标记录时间点,对第二财务数据集的财务数据进行筛选的步骤,直到财务数据子集中的财务数据量等于预设数据
量,得到第三财务数据集;如此,通过数据量较少的异常财务数据对应的目标记录时间点,对数据量较大的第二财务数据集进行至少一次筛选,每次只筛选出与各目标记录时间点相匹配的一条财务数据,直到财务数据子集中的财务数据量等于预设数据量以得到第三财务数据集;从而可以保证在模型训练过程中,各目标记录时间点具有对应的未记录有异常财务行为的财务数据,且各目标记录时间点对应的未记录有异常财务行为的财务数据的数据量较为平均,防止训练样本对应的记录时间点大量集中在某些数值上,解决了模型训练过程中由于数据集不平衡导致的模型监测准确率低的问题。
85.在一个实施例中,根据各目标记录时间点,对第二财务数据集中的财务数据进行筛选,筛选出与各目标记录时间点相匹配的一条财务数据,得到财务数据子集,包括:若第二财务数据集中不存在与当前目标记录时间点相匹配的财务数据,则根据当前目标记录时间点的下一个目标记录时间点对第二财务数据集中的财务数据进行筛选;若第二财务数据集中与当前目标记录时间点相匹配的候选财务数据存在多条,则将任一候选财务数据添加至财务数据子集中。
86.其中,目标记录时间点包括当前目标记录时间点。
87.具体实现中,计算机设备在根据各目标记录时间点,对第二财务数据集中的财务数据进行筛选,筛选出与各目标记录时间点相匹配的一条财务数据,得到财务数据子集的过程中,目标记录时间点包括当前目标记录时间点,若计算机设备检测到第二财务数据集中不存在与当前目标记录时间点相匹配的财务数据,则将当前目标记录时间点跳过,继续根据当前目标记录时间点的下一个目标记录时间点对第二财务数据集中的财务数据进行筛选,检测是否存在与下一个目标记录时间点相匹配的财务数据;若计算机设备检测到第二财务数据集中存在多条与当前目标记录时间点相匹配的候选财务数据,则选取任一条候选财务数据添加至财务数据子集中,保证对第二财务数据集进行至少一次遍历筛选时,每次筛选出的与各目标记录时间点相匹配的财务数据至多只有一条。
88.本实施例的技术方案,目标记录时间点包括当前目标记录时间点,通过若第二财务数据集中不存在与当前目标记录时间点相匹配的财务数据,则根据当前目标记录时间点的下一个目标记录时间点对第二财务数据集中的财务数据进行筛选;若第二财务数据集中与当前目标记录时间点相匹配的候选财务数据存在多条,则将任一候选财务数据添加至财务数据子集中;如此,在根据各目标记录时间点,对第二财务数据集中的财务数据进行至少一次筛选过程中,每次筛选出与各目标记录时间点相匹配的财务数据至多只有一条,从而可以保证各目标记录时间点对应的未记录有异常财务行为的财务数据的数据量较为平均,防止出现由于训练样本对应的记录时间点大量集中在某些数值而导致的数据集不平衡问题,提高了模型的监测准确率。
89.在一个实施例中,方法还包括:根据历史财务数据集中各历史财务数据对应的数据类型标签,将历史财务数据集划分为第一财务数据集和第二财务数据集;确定历史财务数据对应的待筛选变量;根据各待筛选变量在第一财务数据集中的分布情况,以及各待筛选变量在第二财务数据集中的分布情况,对待筛选变量进行异常相关性筛选,得到筛选后变量;根据筛选后变量确定目标变量;目标变量用于对待训练的财务数据监测模型进行训练。
90.其中,数据类型标签用于确定历史财务数据是否记录有异常财务行为。
91.其中,待筛选变量可以为历史财务数据对应的特征变量,可以包括客户姓名、业务类型、交易金额,交易笔数,年龄,职业等变量。
92.具体实现中,计算机设备可以根据历史财务数据集中各历史财务数据对应的数据类型标签,确定各历史财务数据是否记录有异常财务行为,从而可以将历史财务数据划分为记录有异常财务行为的异常财务数据和未记录有异常财务行为的财务数据,从而可以得到由异常财务数据组成的第一财务数据集,以及由未记录有异常财务行为的财务数据所组成的第二财务数据集。
93.计算机设备还可以确定历史财务数据对应的待筛选变量,并确定各待筛选变量在第一财务数据集中的分布情况,以及各待筛选变量在第二财务数据集中的分布情况,并根据各待筛选变量在第一财务数据集中的分布情况以及在第二财务数据集中的分布情况,对待筛选变量进行异常相关性筛选,筛选出跟异常财务行为相关性较大的变量,作为筛选后变量;之后,计算机设备可以根据筛选后变量,以及历史财务数据对应的时间变量、金额变量确定用于对待训练的财务数据监测模型进行训练的目标变量。
94.本实施例的技术方案,通过根据历史财务数据集中各历史财务数据对应的数据类型标签,将历史财务数据集划分为第一财务数据集和第二财务数据集;确定历史财务数据对应的待筛选变量;根据各待筛选变量在第一财务数据集中的分布情况,以及各待筛选变量在第二财务数据集中的分布情况,对待筛选变量进行异常相关性筛选,得到筛选后变量;根据筛选后变量确定用于对待训练的财务数据监测模型进行训练的目标变量;如此,可以对历史财务数据对应的待筛选变量进行筛选以得到筛选后变量,并根据筛选后变量确定用于对待训练的财务数据监测模型进行训练的目标变量,从而无需使用历史财务数据对应的所有变量对模型进行训练,提高了模型的训练效率。
95.在一个实施例中,根据各待筛选变量在第一财务数据集中的分布情况,以及各待筛选变量在第二财务数据集中的分布情况,对待筛选变量进行异常相关性筛选,得到筛选后变量,包括:对待筛选变量进行特征降维处理,得到处理后待筛选变量;获取各处理后待筛选变量在第一财务数据集中的第一频率分布情况,以及各处理后待筛选变量在第二财务数据集中的第二频率分布情况;确定各处理后待筛选变量对应的第一频率分布情况与对应的第二频率分布情况间的差异;将对应的第一频率分布情况与对应的第二频率分布情况间的差异满足预设差异条件的处理后待筛选变量,作为筛选后变量。
96.其中,预设差异条件可以为大于预设差异阈值。
97.具体实现中,计算机室设备在根据各待筛选变量在第一财务数据集中的分布情况,以及各待筛选变量在第二财务数据集中的分布情况,对待筛选变量进行异常相关性筛选,得到筛选后变量的过程中,计算机设备可以对待筛选变量进行特征降维处理,得到处理后待筛选变量;具体地,可以通过主成分分析法实现待筛选变量的特征降维处理以得到处理后待筛选变量;然后,计算机设备可以绘制各处理后待筛选变量在第一财务数据集中的第一频率分布图以得到各处理后待筛选变量在第一财务数据集中的第一频率分布情况,以及绘制各处理后待筛选变量在第二财务数据集中的第二频率分布图以得到各处理后待筛选变量在第二财务数据集中的第二频率分布情况,如此,计算机设备可以确定各处理后待筛选变量对应的第一频率分布情况与对应的第二频率分布情况间的差异,并将对应的第一频率分布情况与对应的第二频率分布情况间的差异满足预设差异条件的处理后待筛选变
量,即差异大于预设差异阈值的处理后待筛选变量作为筛选后变量,也就是说,筛选后变量对异常财务行为这一特征影响较大;同时将差异小于预设差异阈值的处理后待筛选变量进行剔除,即对应的第一频率分布情况与对应的第二频率分布情况无较大差异的处理后待筛选变量进行剔除。
98.本实施例的技术方案,通过对待筛选变量进行特征降维处理,得到处理后待筛选变量;获取各处理后待筛选变量在第一财务数据集中的第一频率分布情况,以及各处理后待筛选变量在第二财务数据集中的第二频率分布情况;确定各处理后待筛选变量对应的第一频率分布情况与对应的第二频率分布情况间的差异;将对应的第一频率分布情况与对应的第二频率分布情况间的差异满足预设差异条件的处理后待筛选变量,作为筛选后变量;如此,根据处理后待筛选变量在异常财务数据中的分布情况与在未记录有异常财务行为的财务数据中的分布情况间的差异,对处理后待筛选变量进行筛选,可以得到对异常财务行为这一特征影响较大的筛选后变量,从而可以更为准确地为财务数据监测模型选取对监测结果有较大影响的目标变量,提升了模型的监测准确性。
99.在一个实施例中,根据筛选后变量确定目标变量,包括:确定历史财务数据对应的初始时间变量;对初始时间变量进行单位转换处理,得到转换时间变量;转换时间变量的时间单位大于初始时间变量的时间单位;对转换时间变量进行标准化处理,得到预处理时间变量;根据筛选后变量和预处理时间变量确定目标变量。
100.其中,初始时间变量的时间单位可以为“秒”,转换时间变量的时间单位可以为“小时”。
101.具体实现中,计算机设备在根据筛选后变量确定目标变量的过程中,计算机设备可以确定历史财务数据对应的初始时间变量,并对初始时间变量进行单位转换处理,得到时间单位大于初始时间变量的转换时间变量,从而可以将时间变量对应的数值压缩在一个较小的范围;然后,计算机设备会对初始时间变量进行标准化处理,得到预处理时间变量,并根据筛选后变量和预处理时间变量确定用于对所述待训练的财务数据监测模型进行训练的目标变量。
102.实际应用中,计算机设备还可以确定历史财务数据对应的初始金额变量,并对初始金额变量做标准化处理,得到预处理金额变量,将筛选后变量、预处理时间变量和预处理金额变量作为目标变量。
103.实际应用中,计算机设备还可以按照预设数据划分比例,对第一财务数据集和第三财务数据集进行数据划分,得到训练样本集,每个训练样本包括对应的目标变量和数据类型样本标签,数据类型样本标签用于确定训练样本是否记录有异常财务行为,通过每个训练样本对应的目标变量和数据类型样本标签对待训练的财务数据监测模型进行训练。
104.本实施例的技术方案,通过确定历史财务数据对应的初始时间变量;对初始时间变量进行单位转换处理,得到转换时间变量;转换时间变量的时间单位大于初始时间变量的时间单位;对转换时间变量进行标准化处理,得到预处理时间变量;根据筛选后变量和预处理时间变量确定目标变量;如此,可以通过对初始时间变量进行单位转换处理得到转换时间变量,以将时间变量对应的数值压缩在较小的范围内,并对转换时间变量进行标准化处理得到预处理时间变量,保证输入模型的变量为经过充分预处理的变量,可以提高模型的精度。
105.在另一个实施例中,提供了一种财务数据监测方法,以该方法应用于计算机设备为例进行说明,方法包括:获取待监测财务数据;确定所述待监测财务数据在目标变量中对应的财务数据值;将财务数据值输入至目标财务数据监测模型,得到待监测财务数据对应的异常概率;若异常概率大于预设异常概率阈值,判定待监测财务数据记录有异常财务行为。
106.其中,目标财务数据监测模型为根据上述财务数据监测模型的训练方法得到的。
107.其中,目标变量与上述财务数据监测模型的训练方法中的目标变量相同。
108.具体实现中,计算机设备可以获取到待监测财务数据,然后根据目标变量对待监测财务数据中各变量对应的数据值进行筛选,得到筛选后变量对应的数据值,以及初始时间变量对应的数据值、初始金额变量对应的数据值;然后,对筛选后变量对应的数据值进行特征降维处理,以及对初始时间变量对应的数据值进行单位转换处理和标准化处理、对初始金额变量对应的数据值进行标准化处理,以得到与目标变量对应的财务数据值。同时,计算机设备可以获取根据上述财务数据监测模型的训练方法得到的目标财务数据监测模型,并将财务数据值输入至目标财务数据监测模型,得到待监测财务数据对应的异常概率;若该异常概率大于预设异常概率阈值,则目标财务数据监测模型输出的预测值为1,代表判定该待监测财务数据记录有异常财务行为,为异常财务数据;若该异常概率小于预设异常概率阈值,则目标财务数据监测模型输出的预测值为0,代表判定该待监测财务数据未记录有异常财务行为,为正常财务数据。
109.上述财务数据监测方法中,通过获取待监测财务数据;确定所述待监测财务数据在目标变量中对应的财务数据值;将财务数据值输入至目标财务数据监测模型,得到待监测财务数据对应的异常概率;其中,目标财务数据监测模型为根据上述财务数据监测模型的训练方法得到的;若异常概率大于预设异常概率阈值,判定待监测财务数据记录有异常财务行为;如此,可以通过训练完成的目标财务数据监测模型对待监测财务数据进行异常监测,而目标财务数据监测模型在训练过程中,样本集中异常财务数据和未记录有异常财务行为的财务数据的数据量较为平衡,保障了目标财务数据监测模型的精度,可以准确判断待监测财务数据是否为记录有异常财务行为的异常财务数据。
110.在另一个实施例中,如图2所示,提供了一种财务数据监测模型的训练方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
111.步骤s202,根据历史财务数据集中各历史财务数据对应的数据类型标签,将历史财务数据集划分为第一财务数据集和第二财务数据集。
112.步骤s204,确定历史财务数据对应的待筛选变量。
113.步骤s206,对待筛选变量进行特征降维处理,得到处理后待筛选变量。
114.步骤s208,获取各处理后待筛选变量在第一财务数据集中的第一频率分布情况,以及各处理后待筛选变量在第二财务数据集中的第二频率分布情况。
115.步骤s210,确定各处理后待筛选变量对应的第一频率分布情况与对应的第二频率分布情况间的差异。
116.步骤s212,将对应的第一频率分布情况与对应的第二频率分布情况间的差异满足预设差异条件的处理后待筛选变量,作为筛选后变量。
117.步骤s214,根据筛选后变量确定用于对待训练的财务数据监测模型进行训练的目
标变量。
118.需要说明的是,上述步骤的具体限定可以参见上文对一种财务数据监测模型的训练方法的具体限定。
119.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
120.在一应用实例中,提供了一种财务数据监测模型的训练方法包括以下步骤:
121.步骤s301,确定数据来源。
122.本应用实例中的历史财务数据集可以为某一地区某一月份的信用卡财务数据,包括由记录有异常财务行为的异常财务数据组成的第一财务数据集,以及未记录有异常财务行为的财务数据组成的第二财务数据集。历史财务数据具有对应的30个初始特征变量以及一个因变量(相当于上述实施例中的数据类型标签),该30个初始特征变量包括客户姓名,业务类型,交易金额,交易笔数,年龄,职业等28个待筛选变量,以及初始时间变量time和初始金额变量amount,通过主成分分析法对上述28个待筛选变量进行特征降维处理,可以得到28个处理后待筛选变量v1~v28,出于保护用户数据隐私和安全的考虑,在此并不公开各处理后待筛选变量与各变量名称的对应关系。除此之外,为了将时间变量对应的数值压缩在一个较小的范围,需要将以秒为单位的初始时间变量time对应的数值除以3600,得到以小时为单位的转换时间变量hour。
123.步骤s302,确定各处理后待筛选变量相关性。
124.为了便于本领域技术人员理解,图3(a)和图3(b)分别提供了上述处理后待筛选变量v1~v28、初始时间变量time、转换时间变量hour和初始金额变量amount,在记录有异常财务行为的异常财务数据中的相关性分析图以及在未记录有异常财务行为的财务数据中的相关性分析图。可以看出,在记录有异常财务行为的异常财务数据中,部分变量的相关性更明显。其中v1,v2,v3,v4,v5,v6,v7,v9,v10,v11,v12,v14,v16,v17,v18和v19之间的相关程度在记录有异常财务行为的异常财务数据的样本中存在明显的相关性。
125.步骤s303,建立各处理后待筛选变量的频率分布图。
126.为了确定上述28个处理后待筛选变量对异常财务行为的影响,以筛选出对异常财务行为这一特征影响较大的筛选后变量,需确定上述各处理后待筛选变量分别在记录有异常财务行为的异常财务数据中的第一频率分布情况,以及在未记录有异常财务行为的财务数据中的第二频率分布情况,并将对应的第一频率分布情况与对应的第二频率分布情况无明显差别的处理后待筛选变量进行剔除,将其余的17个处理后待筛选变量v1、v2、v3、v4、v5、v6、v7、v9、v10、v11、v12、v14、v16、v17、v18、v19、v26作为筛选后变量。为了便于本领域技术人员理解,图4(a)、图4(b)、图4(c)、图4(d)、图4(e)、图4(f)、图4(g)、图4(h)、图4(i)、图4(j)、图4(k)提供了被剔除的处理后待筛选变量v8、v13、v15、v20、v21、v22、v23、v24、v25、v27、v28在两种情况下的频率分布直方图,可以看出上述被剔除的处理后待筛选变量
对应的第一频率分布情况与对应的第二频率分布情况无明显差别。
127.步骤s304,数据预处理。
128.由于历史财务数据集中,第一财务数据集中数据量较少只有几百条,而第二财务数据集中数据量较多,可以高达几十万条,因此,为了保障用于模型训练的样本集数据平衡,需要对第二财务数据集中的财务数据进行筛选。本步骤中,需对转换时间变量hour和初始金额变量amount进行标准化处理,得到预处理金额变量amount,预处理时间变量hour,并根据第二财务数据集中各异常财务数据对应的hour数值,在第二财务数据集中筛选出hour数值相匹配的预设数据量的财务数据,得到第三财务数据集。其中,筛选的原则为在第二财务数据集中从头遍历取出hour数值一样的数据,一次只取一条,若找不到相匹配的财务数据,则将该hour数值跳过,继续对下一hour数值进行匹配,各异常财务数据对应的hour数值都进行一次匹配后,再次对第二财务数据集从头遍历,直到取出预设数据量的财务数据。
129.步骤s305,划分数据集。
130.筛选得到第三财务数据集后,按照预设数据划分比例,如4:1,将第一财务数据集和第三财务数据集进行数据划分为训练样本集和测试样本集。通过训练样本对应的目标变量和数据类型样本标签对待训练的财务数据监测模型进行训练以得到目标财务数据监测模型,根据测试样本集计算目标财务数据监测模型的精度。
131.其中,目标变量包括上述17个筛选后变量以及预处理金额变量amount,预处理时间变量hour共19个变量。
132.步骤s306,待训练的财务数据监测模型参数设置。
133.因为xgboost模型既解决了过拟合的问题,也提高了模型精度,因此可以采用xgboost模型建立财务数据监测模型。
134.xgboost模型继承了决策树的特点,一般要设置四个参数,包括objective(目标函数),max_depth(树的深度),nrounds(树的棵树)及eta(学习率)。max_depth表示的是树的深度,由于本技术的目标变量共19个变量,一般树设置的深度应不高于变量数的三分之一,因此本技术中xgboost模型的树的深度为6。objective表示的是目标函数,由于本技术的模型监测结果只有两种类型,因此模型训练过程中采用的目标函数为binary logistic(回归分析)。nrounds为树的棵数,按照max_depth为6计算,平均一层4个分支,将树的棵数设置为25。eta为学习率,过高的学习率会导致模型出现过拟合的情况,过低的学习率会导致模型出现训练欠佳的情况,因此本本技术中的xgboost模型将学习率设置为0.5。
135.步骤s307,建模。
136.以v1、v2、v3、v4、v5、v6、v7、v9、v10、v11、v12、v14、v16、v17、v18、v19、v26、hour及amount这19个变量为自变量,y(是否记录有异常财务行为)为因变量,建立xgboost模型。xgboost模型能对预测模型重要性进行排序,xgboost模型使用的是梯度提升算法,因此本质上是采用梯度提升算法计算特征重要性。一般来说,重要性分数,衡量了特征在模型中的提升决策树构建中的价值。一个属性(即变量)越多的被应用在模型中构建决策树,它的重要性就相对越高。
137.属性重要性是通过对数据集中的每个属性进行统计,并进行排序得到。在单个决策树中通过每个属性分裂点改进性能度量的量来计算属性的重要性,由节点负责加权和记录次数。也就是说一个属性对分裂点改进性能度量越大(越靠近根节点),权值越大;被越多
的提升树所选择,属性越重要。性能度量可以是选择分裂节点的gini(基尼)纯度,也可以是其他度量函数。
138.最终将一个属性在所有提升树中的结果进行加权求和然后平均,得到重要性得分,本技术采用gain(增益)来度量每个变量对模型的贡献,结果如图5所示。通过图5的各变量对应的属性重要性得分可以看出,v14变量的重要性得分超过了75%,是衡量待监测财务数据是否记录有异常财务行为最重要的指标。从图5中可以看出,v14,v10,v17这三个变量对是否被异常财务行为这个因变量都超过了2%,对因变量的影响比较明显。
139.步骤s308,模型应用及精度计算
140.为了计算出训练好的xgboost模型(目标财务数据监测模型)对于待监测财务数据是否记录有异常财务行为这一监测结果的精度,拟采用测试样本集代入训练好的xgboost模型之中,通过混淆矩阵的方式计算模型精度,实际结果如图6所示。0表示该财务数据未记录有异常财务行为,1表示该财务数据记录有异常财务行为。
141.从图6中的结果可以看出,训练好的xgboost模型精确度为97.24%。财务数据未记录有异常财务行为但被错误预测为记录有异常财务行为的概率为0.65%,财务数据记录有异常财务行为但被错误预测为未记录有异常财务行为的概率为10.23%。
142.为了进一步确定模型的精度,一般会采用auc(area under curve,被定义为roc(receiver operating characteristic curve,接收者操作特征曲线)曲线下的面积)曲线对模型精度做进一步确认。为了便于本领域技术人员理解,图7提供了训练好的xgboost模型的roc曲线,横坐标为特指度(specificity),纵坐标为灵敏度(sensitivity),可以看出本技术中模型的auc值为0.946。一般auc值小于0.7,则说明模型精度不高,现实意义不大。如果auc值大于等于0.7并且小于等于0.9,则说明模型精度较高,表现良好,可以较好的预测待监测财务数据是否记录有异常财务行为。如果大于0.9,则说明模型精度很高,表现优秀。从图7中可以看出,本技术中模型的auc值为0.946,大于0.9,说明该训练好的xgboost模型有很强的预测能力,模型预测精度很高。
143.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的财务数据监测模型的训练方法的财务数据监测模型的训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个财务数据监测模型的训练装置实施例中的具体限定可以参见上文中对于财务数据监测模型的训练方法的限定,在此不再赘述。
144.在一个实施例中,如图8所示,提供了一种财务数据监测模型的训练装置,包括:第一确定模块810、第二确定模块820、筛选模块830和训练模块840,其中:
145.第一确定模块810,用于在历史财务数据集中,确定第一财务数据集和第二财务数据集;所述第一财务数据集包括记录有异常财务行为的异常财务数据;所述第二财务数据集包括未记录有异常财务行为的财务数据。
146.第二确定模块820,用于确定各所述异常财务数据对应的目标记录时间点。
147.筛选模块830,用于根据各所述目标记录时间点,在所述第二财务数据集中,筛选出预设数据量的财务数据,作为第三财务数据集;所述第三财务数据集中的各财务数据对应的记录时间点与各所述目标记录时间点相匹配。
148.训练模块840,用于根据所述第一财务数据集与所述第三财务数据集,对待训练的
财务数据监测模型进行训练,得到目标财务数据监测模型;所述目标财务数据监测模型用于确定待监测财务数据是否记录有异常财务行为。
149.在另一实施例中,提供了一种财务数据监测装置,包括:获取模块,用于获取待监测财务数据;数据值确定模块,用于确定所述待监测财务数据在目标变量中对应的财务数据值;输入模块,用于将所述财务数据值输入至目标财务数据监测模型,得到所述待监测财务数据对应的异常概率;所述目标财务数据监测模型为根据所述财务数据监测模型的训练方法得到的;判定模块,用于若所述异常概率大于预设异常概率阈值,判定所述待监测财务数据记录有异常财务行为。
150.上述一种财务数据监测模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
151.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史财务数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种财务数据监测模型的训练方法。
152.本领域技术人员可以理解,图9中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
153.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
154.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
155.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
156.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
157.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,
pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
158.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
159.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献