一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

异常交易的检测方法及其装置、电子设备、存储介质与流程

2022-02-22 20:00:41 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,具体而言,涉及一种异常交易的检测方法及其装置、电子设备、存储介质。


背景技术:

2.随着金融市场的发展,金融业务日益增多,其中不可避免地会涉及到金融异常交易,例如,金融异常交易,因此,金融异常交易检测是互联网金融必不可少的一部分。相关技术中,异常值是少数与正常实例具有不同特征的数据点,异常值的存在在数据科学和机器学习中非常常见。随着大数据技术的发展,使得积累金融交易信息变得越来越容易,然而,给这些交易信息标记标签信息需要消耗大量的人力和专业知识,代价非常昂贵,而无监督机器学习技术可以从无标签样本中进行建模学习,并挖掘其中的异常样本,因此,使用大量的金融交易样本,建立无监督金融异常交易检测模型,来检查用户的这笔交易是否有异常具有很强应用价值。
3.但是,现有的无监督学习方法在金融异常交易检测上仍有不足,包括以下多个弊端:(1)具有最小协方差行列式的离群点检测方法提供了观测平均方差和协方差矩阵的鲁棒估计量,试图尽量减少离群点的影响,其找到协方差矩阵是协方差矩阵的一个子集,然而其作为一个线性模型,不适合应用于有多个聚类中心的数据集(即该方法不适合对空间异常数据进行检测);(2)基于直方图的离群点检测器可以假设每个维度是独立的,并在每个维度中除以一定数量的间隔,异常分数是通过聚合每个间隔处的密度来估计的,其专注于有效地检测全局异常值,忽略了局部异常值检测(即该方法不适合对密度异常数据进行检测),因此,现有的金融异常交易检测方法无法结合空间和密度两方面对交易数据进行异常检测,并且检测的准确性较低。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种异常交易的检测方法及其装置、电子设备、存储介质,以至少解决相关技术中无法结合空间和密度两方面对交易数据进行异常检测以及检测的准确性较低的技术问题。
6.根据本发明实施例的一个方面,提供了一种异常交易的检测方法,包括:获取预设时间段内的交易信息集,其中,所述交易信息集中至少包括多份交易数据;采用预先训练完成的异常交易检测模型检测每份所述交易数据的异常分数,其中,在训练所述异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用所述空间异常值和所述密度异常值构造二维异常空间,通过所述二维异常空间确定所有训练样本的异常分数;在所述异常分数大于预设分数阈值的情况下,确定所述异常分数所指示的交易数据为异常数据。
7.可选地,在获取预设时间段内的交易信息集之前,所述检测方法还包括:获取历史
过程中关于目标金融产品的交易信息;对所述交易信息进行分类,得到交易数据信息和交易主体信息;采用分类后的所述交易数据信息和所述交易主体信息,确定所述交易信息所涉及的数据表;对所述交易信息所涉及的数据表进行补全处理,并对所述交易信息中的交易数据信息进行初始计算,得到待训练的样本集;采用所述样本集中的每份训练样本,训练所述异常交易检测模型。
8.可选地,对所述交易信息中的交易数据信息进行初始计算,得到待训练的样本集的步骤,包括:按照分类后的类别特征进行分组统计数值特征的统计信息、偏离值特征以及数值特征之间的交叉特征,得到待训练的样本集。
9.可选地,采用所述样本集中的每份训练样本,训练所述异常交易检测模型的步骤,包括:计算所述样本集中每份训练样本在原始特征空间中的k近邻,其中,每份所述训练样本对应于一个样本点;将所述训练样本中的数据集从原始特征空间映射到密度域空间;在原始特征空间和密度域空间中分别计算空间异常值和密度异常值,利用所述空间异常值和所述密度异常值构造二维异常空间;在二维异常空间中,计算与每份所述训练样本对应的马氏异常分数和加权闵氏异常分数;通过结合所述马氏异常分数和所述加权闵氏异常分数,得到所有训练样本的异常分数,完成所述异常交易检测模型的训练,其中,所述异常分数大于预设分数阈值的训练样本为异常样本。
10.可选地,将所述训练样本中的数据集从原始特征空间映射到密度域空间的步骤,包括:构建所述样本集的累积分布函数空间;基于所述累积分布函数空间,采用预设映射函数将所述训练样本中的数据集从原始特征空间映射到密度域空间。
11.可选地,利用空间异常值和密度异常值构造二维异常空间的步骤,包括:对于每份所述训练样本对应的所述空间异常值和所述密度异常值,建立用于交易异常分析的二维坐标系;将所述二维坐标系对应的空间表征为二维异常空间,其中,所述二维异常空间中的每个点是以每份所述训练样本对应的所述空间异常值和所述密度异常值确定有序集合表征的。
12.可选地,在二维异常空间中,计算与每份所述训练样本对应的马氏异常分数和加权闵氏异常分数的步骤,包括:采用马氏距离算法,分析所述二维异常空间中与每份所述训练样本对应的样本点的参数,得到马氏异常分数;采用加权闵可夫斯基异常算法,分析所述二维异常空间中与每份所述训练样本对应的样本点的参数,得到加权闵氏异常分数。
13.根据本发明实施例的另一方面,还提供了一种异常交易的检测装置,包括:获取单元,用于获取预设时间段内的交易信息集,其中,所述交易信息集中至少包括多份交易数据;检测单元,用于采用预先训练完成的异常交易检测模型检测每份所述交易数据的异常分数,其中,在训练所述异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用所述空间异常值和所述密度异常值构造二维异常空间,通过所述二维异常空间确定所有训练样本的异常分数;确定单元,用于在所述异常分数大于预设分数阈值的情况下,确定所述异常分数所指示的交易数据为异常数据。
14.可选地,所述检测装置还包括:第一获取模块,用于在获取预设时间段内的交易信息集之前,获取历史过程中关于目标金融产品的交易信息;第一分类模块,用于对所述交易信息进行分类,得到交易数据信息和交易主体信息;第一确定模块,用于采用分类后的所述
交易数据信息和所述交易主体信息,确定所述交易信息所涉及的数据表;第一计算模块,用于对所述交易信息所涉及的数据表进行补全处理,并对所述交易信息中的交易数据信息进行初始计算,得到待训练的样本集;第一训练模块,用于采用所述样本集中的每份训练样本,训练所述异常交易检测模型。
15.可选地,所述第一计算模块包括:第一统计子模块,用于按照分类后的类别特征进行分组统计数值特征的统计信息、偏离值特征以及数值特征之间的交叉特征,得到待训练的样本集。
16.可选地,所述第一训练模块包括:第一计算子模块,用于计算所述样本集中每份训练样本在原始特征空间中的k近邻,其中,每份所述训练样本对应于一个样本点;第一映射子模块,用于将所述训练样本中的数据集从原始特征空间映射到密度域空间;第一构造子模块,用于在原始特征空间和密度域空间中分别计算空间异常值和密度异常值,利用所述空间异常值和所述密度异常值构造二维异常空间;第二计算子模块,用于在二维异常空间中,计算与每份所述训练样本对应的马氏异常分数和加权闵氏异常分数;第一结合子模块,用于通过结合所述马氏异常分数和所述加权闵氏异常分数,得到所有训练样本的异常分数,完成所述异常交易检测模型的训练,其中,所述异常分数大于预设分数阈值的训练样本为异常样本。
17.可选地,所述第一映射子模块包括:第一构建子模块,用于构建所述样本集的累积分布函数空间;第二映射子模块,用于基于所述累积分布函数空间,采用预设映射函数将所述训练样本中的数据集从原始特征空间映射到密度域空间。
18.可选地,所述第一构造子模块包括:第一建立子模块,用于对于每份所述训练样本对应的所述空间异常值和所述密度异常值,建立用于交易异常分析的二维坐标系;第一表征子模块,用于将所述二维坐标系对应的空间表征为二维异常空间,其中,所述二维异常空间中的每个点是以每份所述训练样本对应的所述空间异常值和所述密度异常值确定有序集合表征的。
19.可选地,所述第二计算子模块包括:第一分析子模块,用于采用马氏距离算法,分析所述二维异常空间中与每份所述训练样本对应的样本点的参数,得到马氏异常分数;第二分析子模块,用于采用加权闵可夫斯基异常算法,分析所述二维异常空间中与每份所述训练样本对应的样本点的参数,得到加权闵氏异常分数。
20.根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的异常交易的检测方法。
21.根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项所述的异常交易的检测方法。
22.在本公开中,获取预设时间段内的交易信息集,采用预先训练完成的异常交易检测模型检测每份交易数据的异常分数,其中,在训练异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数,在异
常分数大于预设分数阈值的情况下,确定异常分数所指示的交易数据为异常数据。在本技术中,可结合空间距离和概率密度的异常检测(结合了空间和密度两方面),构建异常交易检测模型,用于计算交易的异常分数,根据异常分数值来确定该交易是否为异常交易,不仅提高了异常检测效率,而且提高了检测的精确性,进而解决了相关技术中无法结合空间和密度两方面对交易数据进行异常检测以及检测的准确性较低的技术问题。
附图说明
23.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
24.图1是根据本发明实施例的一种可选的异常交易的检测方法的流程图;
25.图2是根据本发明实施例的一种可选的基于空间异常与密度异常的无监督金融异常交易检测模型的构建过程示意图;
26.图3是根据本发明实施例的一种可选的异常交易的检测装置的示意图;
27.图4是根据本发明实施例的一种用于实现异常交易的检测方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
28.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
29.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
31.无监督学习:根据类别未知(没有标记)的训练样本解决模式识别中的各种问题。
32.马氏距离:表示点与一个分布之间的距离,是一个常见的度量,可以捕获特征空间的非各向同性性质。
33.闵氏距离:又称闵可夫斯基距离,是欧式空间的一种测度。
34.本发明下述各实施例可应用于各种金融交易异常检测系统、应用或者各种需要检测金融异常交易的场景中,例如,信用卡的异常交易等,本发明下述各实施例以信用卡的异常交易为例进行赘述。
35.本发明可结合空间距离和概率密度的双边异常估计方法,由于样本的异常通常与
数据的分布有关,因此,需要在估计点之间的距离时考虑到该分布,基于欧几里得空间中的距离相近点更有可能相似以及两点之间的密度越大,就越不相似的特征,本发明可先计算样本在原始特征空间中的k近邻,将数据集从原始特征空间映射到密度域空间,在原始特征空间和密度域空间中分别计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,在二维异常空间中,计算每个样本的马氏异常分数和加权闵氏异常分数,通过结合马氏异常和加权闵氏异常,得到所有样本最终的异常分数,根据异常分数高的样本更有可能为异常样本的原则,相关业务人员可以据此采取相应措施以减少用户或相关金融机构的损失。
36.实施例一
37.根据本发明实施例,提供了一种异常交易的检测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
38.图1是根据本发明实施例的一种可选的异常交易的检测方法的流程图,如图1所示,该方法包括如下步骤:
39.步骤s101,获取预设时间段内的交易信息集,其中,交易信息集中至少包括多份交易数据。
40.步骤s102,采用预先训练完成的异常交易检测模型检测每份交易数据的异常分数,其中,在训练异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数。
41.步骤s103,在异常分数大于预设分数阈值的情况下,确定异常分数所指示的交易数据为异常数据。
42.通过上述步骤,可以获取预设时间段内的交易信息集,采用预先训练完成的异常交易检测模型检测每份交易数据的异常分数,其中,在训练异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数,在异常分数大于预设分数阈值的情况下,确定异常分数所指示的交易数据为异常数据。在本发明实施例中,可结合空间距离和概率密度的异常检测,构建异常交易检测模型,用于计算交易的异常分数,根据异常分数值来确定该交易是否为异常交易,不仅提高了异常检测效率,而且提高了检测的精确性,进而解决了相关技术中无法结合空间和密度两方面对交易数据进行异常检测以及检测的准确性较低的技术问题。
43.下面结合上述各步骤对本发明实施例进行详细说明。
44.在本发明实施例中,在获取预设时间段内的交易信息集之前,检测方法还包括:获取历史过程中关于目标金融产品的交易信息;对交易信息进行分类,得到交易数据信息和交易主体信息;采用分类后的交易数据信息和交易主体信息,确定交易信息所涉及的数据表;对交易信息所涉及的数据表进行补全处理,并对交易信息中的交易数据信息进行初始计算,得到待训练的样本集;采用样本集中的每份训练样本,训练异常交易检测模型。
45.可选的,对交易信息中的交易数据信息进行初始计算,得到待训练的样本集的步
骤,包括:按照分类后的类别特征进行分组统计数值特征的统计信息、偏离值特征以及数值特征之间的交叉特征,得到待训练的样本集。
46.在本发明实施例中,可以获取历史过程中的一些关于目标金融产品的交易信息(该交易信息已向相应人员告知,并取得了其同意),例如,信用卡的交易数据,该交易数据包括交易的数据信息、交易双方的基本信息等数据,将涉及的异常交易检测相关特征分为两类(即可对交易信息进行分类,从而得到交易数据信息和交易主体信息),第一类是交易双方的基本信息(即交易主体信息),例如,年龄、性别、所在地区等,第二类是交易过程的数据信息(即交易数据信息),例如交易时间、交易地点、交易金额等信等,按类别可确定数据范围,从而确定涉及的数据表(即采用分类后的交易数据信息和交易主体信息,确定交易信息所涉及的数据表)。
47.在确定涉及的数据表之后,可以观察数据表中的数据列,对于有缺失值列,按一定方式补全(即对交易信息所涉及的数据表进行补全处理),例如,数值特征的缺失值,可用列
‘0’
值补全,非数值特征的缺失值,可用“unknown”补全,对于缺失值特别严重的列,直接将该字段进行删除处理。
48.在对数据表补全之后,可以对交易信息中的交易数据信息进行初始计算,以得到待训练的样本集,例如,按照类别特征(即按照分类后的类别特征)进行分组统计数值特征的统计信息(例如,最大值、最小值、均值、方差等)、数值特征的偏离值特征(例如,原始特征与该列最小值、最大值、均值的差值等)、数值特征之间的交叉特征(例如,数值特征之间相关加减乘除操作得到新的列)等,然后采用样本集中的每份训练样本,训练异常交易检测模型。
49.可选的,采用样本集中的每份训练样本,训练异常交易检测模型的步骤,包括:计算样本集中每份训练样本在原始特征空间中的k近邻,其中,每份训练样本对应于一个样本点;将训练样本中的数据集从原始特征空间映射到密度域空间;在原始特征空间和密度域空间中分别计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间;在二维异常空间中,计算与每份训练样本对应的马氏异常分数和加权闵氏异常分数;通过结合马氏异常分数和加权闵氏异常分数,得到所有训练样本的异常分数,完成异常交易检测模型的训练,其中,异常分数大于预设分数阈值的训练样本为异常样本。
50.在本发明实施例中,在经过数据预处理(即对交易信息进行分类)和特征工程处理(即对交易信息所涉及的数据表进行补全处理,并对交易信息中的交易数据信息进行初始计算)得到训练样本(训练样本为大量无标签样本)后,可以计算样本(即样本集中每份训练样本,每份训练样本对应于一个样本点)在原始特征空间中的k近邻(对于样本集x中的每个样本点xi,构建k近邻nk(i)),将数据集从原始特征空间映射到密度域空间,然后,在原始特征空间和密度域空间中分别计算空间异常值和密度异常值,具体计算方式如下:
51.对于样本集x中的每个样本点xi,其空间异常值为:其密度异常值为:其中,nk(i)为样本点xi在原始特征空间中的k近邻,d(
·
)为距离计算方式,例如,欧氏距离等。
52.在计算空间异常值和密度异常值之后,利用空间异常值和密度异常值构造二维异
常空间,在二维异常空间中,计算每个样本的马氏异常分数和加权闵氏异常分数,通过结合马氏异常和加权闵氏异常,得到所有样本最终的异常分数,完成异常交易检测模型的训练,得到基于空间异常与密度异常的无监督异常交易检测模型,用以检测异常样本(当异常分数大于预设分数阈值(根据具体情况确定此阈值)的训练样本为异常样本)。
53.可选的,将训练样本中的数据集从原始特征空间映射到密度域空间的步骤,包括:构建样本集的累积分布函数空间;基于累积分布函数空间,采用预设映射函数将训练样本中的数据集从原始特征空间映射到密度域空间。
54.在本发明实施例中,样本的异常通常与数据的分布有关,因此在估计点之间的距离时必须考虑到该分布,根据欧几里得空间中的距离相近点更有可能相似以及两点之间的密度越大,就越不相似,可以构建样本集x的经验累积分布函数空间,并采用预设映射函数将训练样本中的数据集从原始特征空间映射到密度域空间,预设映射函数如下:
[0055][0056][0057]
其中,n为样本个数,d为特征维数,i(
·
)是具有2个可能值的指示函数:当xi<x时值为1,否则为0。
[0058]
可选的,利用空间异常值和密度异常值构造二维异常空间的步骤,包括:对于每份训练样本对应的空间异常值和密度异常值,建立用于交易异常分析的二维坐标系;将二维坐标系对应的空间表征为二维异常空间,其中,二维异常空间中的每个点是以每份训练样本对应的空间异常值和密度异常值确定有序集合表征的。
[0059]
在本发明实施例中,可以分别从空间域和密度域中计算的两个单边距离(即计算每份训练样本对应的空间异常值和密度异常值)来建立二维异常空间,具体过程如下:
[0060]
构建二维异常空间v(xi)=(ke(xi),k
p
(xi)),这两个单边异常(即空间异常值和密度异常值)分别从空间位置和概率密度估计每个点的异常程度,其中,ke(xi)估计原始空间中xi的异常值(即空间异常值),而k
p
(xi)使用与ke(xi)相同的邻域nk(i)在密度空间中重新计算这个异常值(即得到密度异常值),建立了一个用于异常估计(即用于交易异常分析)的二维坐标系,称为二维异常空间(可将二维坐标系对应的空间表征为二维异常空间即),在这个空间中,每个点由两个异常的有序集合表示:(ke(xi),k
p
(xi)),并且两个坐标分量将被组合以评估每个点的异常得分(即二维异常空间中的每个点是以每份训练样本对应的空间异常值和密度异常值确定有序集合表征的)。
[0061]
可选的,在二维异常空间中,计算与每份训练样本对应的马氏异常分数和加权闵氏异常分数的步骤,包括:采用马氏距离算法,分析二维异常空间中与每份训练样本对应的样本点的参数,得到马氏异常分数;采用加权闵可夫斯基异常算法,分析二维异常空间中与每份训练样本对应的样本点的参数,得到加权闵氏异常分数。
[0062]
在本发明实施例中,异常估计的任务是提供一个反映异常程度的排名,使用两个单边异常计算方法共同估计二维异常空间中样本的异常分数。对于样本集x中的每个样本点xi:二维异常空间中两个坐标的比值k
p
(xi)/ke(xi)表明了密度方差相对于xi局部邻域的空间方差的失真程度,大多数点几乎是一致的,这些数据点被视为正常的实例,那么偏离它
们的点可以被识别为异常,因此,一个点偏离主方向的密集点中心越多,异常性就越大,需要寻找一个非各向同性的异常估计量。马氏距离是一个常见的度量,可以捕获特征空间的非各向同性性质,其计算公式如下:
[0063][0064]
其中,是异常点的中心,∑是由异常点估计的协方差矩阵。
[0065]
然而,马氏异常估计可以看作是一种数据驱动方案,其分别利用两个异常轴,但是忽略了这两个异常之间的相关性,因此,可以引入加权闵可夫斯基,进行异常的估计,其计算公式如下:
[0066][0067]
其中,ω1,ω2为权重系数。
[0068]
结合马氏异常和加权闵氏异常,样本xi的异常分数s(xi)计算方式如下:
[0069]
s(xi)=μm(xi) (1-μ)w(xi);
[0070]
样本集x中的所有样本的异常分数如下:
[0071]
s(x)=[s(x1),s(x2),

s(xn)]
t

[0072]
步骤s101,获取预设时间段内的交易信息集,其中,交易信息集中至少包括多份交易数据。
[0073]
在本发明实施例中,可以获取一段时间内(预设时间段内)的交易信息集,该交易信息集可以是某一金融产品的交易信息集(例如,信用卡的交易信息集,所获取的交易信息集已向相应人员告知,并取得了其同意),该交易信息集中可以包括多份交易数据,以用于检测该交易是否为异常交易。
[0074]
步骤s102,采用预先训练完成的异常交易检测模型检测每份交易数据的异常分数,其中,在训练异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数。
[0075]
在本发明实施例中,可以通过下面的方法对异常交易检测模型进行训练,以提高异常交易检测的准确性,其训练过程如下:对于每份训练样本,可以分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数。
[0076]
之后,可利用训练完成的异常交易检测模型检测每份交易数据的异常分数,可以更精准地检测出异常交易行为,以保护相关用户和金融机构的利益。
[0077]
步骤s103,在异常分数大于预设分数阈值的情况下,确定异常分数所指示的交易数据为异常数据。
[0078]
在本发明实施例中,当检测出的异常分数大于预设分数阈值(根据具体情况设定)时,可以确定该交易数据为异常数据,因此,可以根据异常分数及时提醒相关业务人员提高警惕,采取相应措施以减少损失。
[0079]
本发明实施例,采用异常交易检测模型检测异常分数,能够更加精准地检测出金
融异常交易,将该模型应用于银行等金融机构,使用交易发生时伴随的相关环境信息以及交易双发的基础信息,建立准确的异常交易检测模型,以此来检测用户的这笔交易是否有欺诈风险,以保障相关用户和金融机构的利益。
[0080]
实施例二
[0081]
图2是根据本发明实施例的一种可选的基于空间异常与密度异常的无监督金融异常交易检测模型的构建过程示意图,经过数据预处理和特征工程处理得到训练样本(该训练样本为大量无标签样本),可先计算样本集x在原始特征空间中的k近邻,将数据集从原始特征空间映射到密度域空间,之后在原始特征空间和密度域空间中分别计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,在二维异常空间中,计算每个样本的马氏异常分数和加权闵氏异常分数,通过结合马氏异常和加权闵氏异常,得到所有样本最终的异常分数。
[0082]
本发明实施例构建了一种基于空间异常与密度异常的无监督金融异常交易检测模型,该模型整体分为三个模块:数据预处理、特征工程、模型构建,以下对各模块进行说明:
[0083]
(1)数据预处理
[0084]
本发明实施例的建模利用的数据包括金融交易的数据信息、交易双方的基本信息等数据,将涉及金融异常交易检测相关特征分为两类类,第一类是交易双方的基本信息,例如,年龄、性别、所在地区等,第二类是交易的数据信息,例如,交易时间、交易地点、交易金额等信等,按类别可确定数据范围,从而确定涉及的数据表。
[0085]
(2)特征工程
[0086]
1),缺失值处理:观察数据表中的数据列,对于有缺失值列,按一定方式补全,例如,数值特征的缺失值,可用列“0”值补全,非数值特征的缺失值,可用“unknown”补全,对于缺失值特别严重的列,直接将该字段进行删除处理。
[0087]
2),多变量的衍生变量探索:对特征进行演化,例如,按照类别特征进行分组统计数值特征的统计信息(例如,最大值、最小值、均值、方差等)、数值特征的偏离值特征(例如,原始特征与该列最小值、最大值、均值的差值等)、数值特征之间的交叉特征(例如,数值特征之间相关加减乘除操作得到新的列)等。
[0088]
(3)模型构建与训练
[0089]
1),构建k近邻,对于样本集x中的每个样本点xi,构建k近邻nk(i)。
[0090]
2),密度空间映射,样本的异常通常与数据的分布有关,因此在估计点之间的距离时必须考虑到该分布,根据欧几里得空间中的距离相近点更有可能相似以及两点之间的密度越大,就越不相似,构建样本集x的经验累积分布函数空间,映射函数如下:
[0091][0092][0093]
其中,n为样本个数,d为特征维数,i(
·
)是具有2个可能值的指示函数:当xi<x时值为1,否则为0。
[0094]
3),单边异常计算,分别从空间域和密度域中计算的两个单边距离来建立异常空
间,对于样本集x中的每个样本点xi:计算空间异常:计算密度异常:其中,nk(i)为样本点xi在原始特征空间中的k近邻,d(
·
)为距离计算方式,例如,欧氏距离等。
[0095]
4),构建二维异常空间,构建二维异常空间v(xi)=(ke(xi),k
p
(xi)),这两个单边异常分别从空间位置和概率密度估计每个点的异常程度,其中,ke(xi)估计原始空间中xi的异常值,而k
p
(xi)使用与ke(xi)相同的邻域nk(i)在密度空间中重新计算这个异常值,之后建立一个用于异常估计的二维坐标系,称为二维异常空间,在这个空间中,每个点由两个异常的有序集合表示:(ke(xi),k
p
(xi)),并且两个坐标分量将被组合以评估每个点的异常得分。
[0096]
5),边异常计算,异常估计的任务是提供一个反映异常程度的排名,使用以上两个单边异常计算方法共同估计二维异常空间中样本的异常分数,对于样本集x中的每个样本点xi:二维异常空间中两个坐标的比值k
p
(xi)/ke(xi)表明了密度方差相对于xi局部邻域的空间方差的失真程度,大多数点几乎是一致的,这些数据点被视为正常的实例,那么偏离它们的点可以被识别为异常,当一个点偏离主方向的密集点中心越多,异常性就越大,因此,需要寻找一个非各向同性的异常估计量。马氏距离是一个常见的度量,可以捕获特征空间的非各向同性性质,其计算公式如下:
[0097][0098]
其中,是异常点的中心,∑是由异常点估计的协方差矩阵。
[0099]
马氏异常估计可以看作是一种数据驱动方案,其分别利用两个异常轴,但是忽略了这两个异常之间的相关性,因此,可以引入加权闵可夫斯基,其异常的估计如下:
[0100][0101]
其中,ω1,ω2为权重系数。
[0102]
结合马氏异常和加权闵氏异常,样本xi的异常分数s(xi)计算方式如下:
[0103]
s(xi)=μm(xi) (1-μ)w(xi);
[0104]
样本集x中的所有样本的异常分数如下:
[0105]
s(x)=[s(x1),s(x2),

s(xn)]
t

[0106]
本发明实施例,提出了一种基于空间异常与密度异常的无监督金融异常交易检测模型,该模型在金融异常交易检测效果上比传统的基于无监督学习算法的效果更好,可以更精准地检测出金融异常交易,将该模型应用于银行等金融机构,使用交易发生时伴随的相关环境信息以及交易双发的基础信息,建立准确的金融异常交易检测模型,用以检测用户的这笔交易是否有欺诈风险,以提醒相关业务人员采取相应措施减少损失,保障相关用户和金融机构的利益。
[0107]
实施例三
[0108]
本实施例中提供的一种异常交易的检测装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
[0109]
图3是根据本发明实施例的一种可选的异常交易的检测装置的示意图,如图3所示,该检测装置可以包括:获取单元30,检测单元31,确定单元32,其中,
[0110]
获取单元30,用于获取预设时间段内的交易信息集,其中,交易信息集中至少包括多份交易数据;
[0111]
检测单元31,用于采用预先训练完成的异常交易检测模型检测每份交易数据的异常分数,其中,在训练异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数;
[0112]
确定单元32,用于在异常分数大于预设分数阈值的情况下,确定该异常分数所指示的交易数据为异常数据。
[0113]
上述检测装置,可以通过获取单元30获取预设时间段内的交易信息集,通过检测单元31采用预先训练完成的异常交易检测模型检测每份交易数据的异常分数,其中,在训练异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数,通过确定单元32在异常分数大于预设分数阈值的情况下,确定异常分数所指示的交易数据为异常数据。在本发明实施例中,可结合空间距离和概率密度的异常检测,构建异常交易检测模型,用于计算交易的异常分数,根据异常分数值来确定该交易是否为异常交易,不仅提高了异常检测效率,而且提高了检测的精确性,进而解决了相关技术中无法结合空间和密度两方面对交易数据进行异常检测以及检测的准确性较低的技术问题。
[0114]
可选的,检测装置还包括:第一获取模块,用于在获取预设时间段内的交易信息集之前,获取历史过程中关于目标金融产品的交易信息;第一分类模块,用于对交易信息进行分类,得到交易数据信息和交易主体信息;第一确定模块,用于采用分类后的交易数据信息和交易主体信息,确定交易信息所涉及的数据表;第一计算模块,用于对交易信息所涉及的数据表进行补全处理,并对交易信息中的交易数据信息进行初始计算,得到待训练的样本集;第一训练模块,用于采用样本集中的每份训练样本,训练异常交易检测模型。
[0115]
可选的,第一计算模块包括:第一统计子模块,用于按照分类后的类别特征进行分组统计数值特征的统计信息、偏离值特征以及数值特征之间的交叉特征,得到待训练的样本集。
[0116]
可选的,第一训练模块包括:第一计算子模块,用于计算样本集中每份训练样本在原始特征空间中的k近邻,其中,每份训练样本对应于一个样本点;第一映射子模块,用于将训练样本中的数据集从原始特征空间映射到密度域空间;第一构造子模块,用于在原始特征空间和密度域空间中分别计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间;第二计算子模块,用于在二维异常空间中,计算与每份训练样本对应的马氏异常分数和加权闵氏异常分数;第一结合子模块,用于通过结合马氏异常分数和加权闵氏异常分数,得到所有训练样本的异常分数,完成异常交易检测模型的训练,其中,异常分数大于预设分数阈值的训练样本为异常样本。
[0117]
可选的,第一映射子模块包括:第一构建子模块,用于构建样本集的累积分布函数空间;第二映射子模块,用于基于累积分布函数空间,采用预设映射函数将训练样本中的数据集从原始特征空间映射到密度域空间。
[0118]
可选的,第一构造子模块包括:第一建立子模块,用于对于每份训练样本对应的空
间异常值和密度异常值,建立用于交易异常分析的二维坐标系;第一表征子模块,用于将二维坐标系对应的空间表征为二维异常空间,其中,二维异常空间中的每个点是以每份训练样本对应的空间异常值和密度异常值确定有序集合表征的。
[0119]
可选的,第二计算子模块包括:第一分析子模块,用于采用马氏距离算法,分析二维异常空间中与每份训练样本对应的样本点的参数,得到马氏异常分数;第二分析子模块,用于采用加权闵可夫斯基异常算法,分析二维异常空间中与每份训练样本对应的样本点的参数,得到加权闵氏异常分数。
[0120]
上述的检测装置还可以包括处理器和存储器,上述获取单元30,检测单元31,确定单元32等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0121]
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定该异常分数所指示的交易数据为异常数据。
[0122]
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0123]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取预设时间段内的交易信息集,采用预先训练完成的异常交易检测模型检测每份交易数据的异常分数,其中,在训练异常交易检测模型时,对于每份训练样本,分别在原始特征空间和密度域空间中计算空间异常值和密度异常值,利用空间异常值和密度异常值构造二维异常空间,通过二维异常空间确定所有训练样本的异常分数,在异常分数大于预设分数阈值的情况下,确定异常分数所指示的交易数据为异常数据。
[0124]
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项的异常交易的检测方法。
[0125]
图4是根据本发明实施例的一种用于实现异常交易的检测方法的电子设备(或移动设备)的硬件结构框图。如图4所示,电子设备可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
[0126]
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的异常交易的检测方法。
[0127]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0128]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0129]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的
方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0130]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0131]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0132]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0133]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献