一种反洗钱数据监控方法、系统、存储介质、智能终端与流程

2022-02-23 01:24:15 来源：中国专利 TAG：

1.本发明属于信息数据处理技术领域，尤其涉及一种反洗钱数据监控方法、系统、存储介质、智能终端。

背景技术：

2.目前，将交易特征序列，客户属性特征数据，标注标签输入到预设的神经网络模型中(lstm)进行训练，迭代获得反洗钱模型，通过特征处理的一些方式，提高模型训练的准确度。
3.现有技术一：cn202010794245.1基于rnn的反洗钱模型的训练方法、装置、设备及介质。本发明涉及金融科技技术领域，公开了一种基于rnn的反洗钱模型的训练方法、装置、设备及介质。该方法包括：获取训练样本集，训练样本集包括样本客户的第一交易特征序列数据、第一客户属性特征数据和标注标签；将第一交易特征序列数据输入至预设反洗钱模型的循环神经网络层中，得到第一特征表达；将第一客户属性特征数据输入至预设反洗钱模型的全连接神经网络层中，得到第二特征表达；对第一特征表达与第二特征表达进行拼接，得到拼接特征数据；通过拼接特征数据、标注标签和预设损失函数对预设反洗钱模型进行迭代训练，得到训练好的初始反洗钱模型。本发明能够解决现有反洗钱模型训练的准确性较差的问题。
4.但其存在的技术缺陷在于做的大部分是数据搜索和匹配的功能，没有能够有效结合大数据 ai的方法。
5.现有技术二：cn202010227822.9基于反洗钱模型迁移的交易反洗钱方法及装置。本技术实施例提供一种基于反洗钱模型迁移的交易反洗钱方法及装置，方法包括：将目标交易对应的交易数据输入预设的目标反洗钱模型中，并将该目标反洗钱模型的输出作为目标交易的洗钱预测结果，目标反洗钱模型是预先基于标准反洗钱模型和第二历史交易数据集训练得到，标准反洗钱模型为预先应用预设的gbdt方式和第一历史交易数据集训练得到，第一历史交易数据集的数据量大于第二历史数据集的数据量；若基于洗钱预测结果确定目标交易为洗钱交易，则输出针对该目标交易的洗钱告警信息以阻止交易达成。本技术能够在有效降低自身企业训练反洗钱模型所需的数据量、成本及时间的同时，提高洗钱预测结果的准确性及可靠性，进而提高交易安全性及可靠性。
6.但其存在的技术缺陷在于缺乏决策逻辑的透明度和结果的可解释性。规则模型更新滞后。
7.现有技术三：cn202011625865.9一种反洗钱模型的训练方法及装置。本发明公开了一种反洗钱模型的训练方法及装置，涉及计算机技术领域，主要技术方案包括：获取源域样本集和目标域样本集，源域样本和目标域样本均为用于训练反洗钱模型的交易样本；对源域样本集和目标域样本集所涉及的特征进行分类，确定源域样本集和目标域样本集的共有特征集、源域样本集的特有特征集和目标域样本集的特有特征集；将源域样本集中的特征和目标域样本集中的特征，统一编码到源域样本集和目标域样本集的共有特征集、源域
样本集的特有特征集以及目标域样本集的特有特征集三者并集对应的特征空间中；合并统一编码后的源域样本集和目标域样本集；基于合并后的样本集训练反洗钱模型。
8.但其存在的技术缺陷在于做的大部分是数据搜索和匹配的功能，没有能够有效结合大数据 ai的方法。
9.现有技术的训练模型太关注模型的准确度，在金融场景下，模型的可解释性不足。如今洗钱流程更加分散化隐蔽化，互联网平台的火爆，数字货币的发行，都导致数据量的激增，使用人工核查的方式明显已经不能满足反洗钱监控的需求了，海量数据的输入也会导致模型的训练效率变慢。存在以下问题：
10.(1)数据质量问题，内外部可利用数据较多，标签少且标签可信度低。
11.(2)模型的可解释性问题，ai模型及算法普遍缺乏决策逻辑的透明度和结果的可解释性。统规则模型更新滞后，对ai融合、更新规则和发现新规则均有诉求。
12.(3)数据量过大问题，目前依托于大数据的平台，做的大部分是数据搜索和匹配的功能，没有能够有效结合大数据 ai的方法。
13.通过上述分析，现有技术存在的问题及缺陷为：
14.(1)现有技术存在数据内外部可利用数据较多，标签少且标签可信度低。
15.(2)现有技术的模型的ai模型及算法普遍缺乏决策逻辑的透明度和结果的可解释性；统规则模型更新滞后，对ai融合、更新规则和发现新规则均有诉求。
16.(3)现有技术存在数据量过大问题，目前依托于大数据的平台，做的大部分是数据搜索和匹配的功能，没有能够有效结合大数据 ai的方法。
17.解决以上问题及缺陷的难度为：银行交易所产生的数据目前没有相应的统计案例给予对应的标签，人工筛查数据的工作量过大。在ai 金融融合的领域中，模型的可解释性一直是人们关注的主题，当应用更复杂，层数更多的机器学习，深度学习的模型时，在提高了预测结果的精度同时，也使得模型成为了所谓的“黑箱模型”，可解释性大大降低。这是传统的特征提取，构建模型的流程无法跨过的一个问题。在大数据的背景下，训练出一个模型对时间成本和硬件成本都需求较高。在这种背景下，如何高效合理地运用资源就是对于算法和运算框架的一个挑战。
18.解决以上问题及缺陷的意义为：在上述流程中，通过优化数据预处理的方式，使得模型最终的结果精度增加；通过规则匹配和模型回溯的方式，使得模型的可解释性增加，有利于业务人员更好地评估模型，使得模型进一步优化；通过运用大数据的运算框架，使得模型训练流程可以更科学、有效地面对大数据量的挑战。

技术实现要素：

19.针对现有技术存在的问题，本发明提供了一种反洗钱数据监控方法、系统、存储介质、智能终端。
20.本发明是这样实现的，一种反洗钱数据监控方法，所述反洗钱数据监控方法包括：
21.在客户维度和交易维度下构建可疑案例检测模型所需要的特征体系；
22.根据特征区分总体案例，训练大数据处理框架上的不同可疑案例检测模型；
23.将不同可疑案例检测模型训练后，对可疑案例进行类别划分；
24.可疑案例类别划分的结果储存在数据库中，进行批量导入导出搜索，并形成可视
化图谱。
25.进一步，所述构建可疑案例检测模型所需要的特征体系的过程包括：分为客户和交易两个维度，客户维度下深入挖掘每一个客户的账号信息，形成用户画像；交易维度下追踪长短期的交易信息，构建不同区间的时间窗口，经过统计计算形成交易维度下的特征体系。
26.进一步，所述不同可疑案例检测模型的训练过程包括：根据大体上的交易额度和交易类型特征区分总体案例，对不同类别案例自动匹配模型参数进入模型训练过程，逐层通过lp，dbscan，k-means ai算法模型，得到案件可疑度评分。
27.进一步，所述对可疑案例进行类别划分的过程包括：对案件可疑度进行排序，得到ai识别触发的可疑案例，再将案例返回规则匹配表，与人工制定的各项违规指标做匹配，得到规则匹配触发的可疑度，根据ai识别和规则触发的两项指标，对案例做划分，得到双触发，单项触发，都不触发的类别进行审核。
28.进一步，所述可疑案例类别划分的结果储存在数据库中，进行批量导入导出搜索，并形成可视化图谱具体包括：运行后的结果分别写入hive数据库，以及neo4j图数据库中；将相应的数据储存在hive数据库中，并基于neo4j构建了可疑案例相关的知识图谱，将案例相关客户信息，交易记录做可视化展示。
29.进一步，所述特征体系包括交易特征体系以及客户特征体系，处理方式上运用了时序序列计算和统计运算等方式形成最终所需特征体系；
30.所述大数据处理框架上的不同可疑案例检测模型不同模型包括基于spark运行的迭代k-means，dbscan，lp模型。
31.进一步，所述反洗钱数据监控方法具体包括：
32.第一步，结合规则指标，形成两大类特征体系，账户交易特征数据和客户特征体系。一部分特征通过时序序列计算，形成不同时间段的时间窗口，追踪用户交易长短期的各项特征，如特定时间段内交易最大，最小额度，交易笔数等。还有一部分特征经过统计学上的计算包括但不限于求和，比值，计数等完成对客户各交易渠道的特征生成，最终合并形成可用的特征体系；
33.第二步，设计策略选择器，提取上一步中产生的几类重要特征，将案例数据进行分类，根据不同数据类型自动匹配对应的模型训练超参数；
34.第三步，模型训练，将输入数据依次经过两层模型的训练，第一层是案例数据的粗筛选，第二层是结合了几种不同模型的训练结果，是对案例数据的精过滤，每一个模型训练的过程都是一次可疑案例的查找，多次查找后的结果为ai训练返回的可疑案例；
35.第四步，在模型训练返回可疑案例后，结合给出的各类洗钱案例规则评分表，统计可疑监测模型案例各项特征值，经过计算后，将可疑度评分超过阈值的案例打上规则触发的标签，与第三步中的ai触发标签相结合返回最终的结果，将所有可疑案例分为规则触发，ai触发，规则 ai触发。
36.进一步，所述第一步当建模无数据或者数据量少时，结合反洗钱业务和规则知识，模型冷启动；
37.所述第二步具体包括：针对启动时无标签数据状态下，单独使用无监督聚类算法；当有部分标签数据时，在无监督聚类的基础上，增加有监督聚类过滤和半监督标签传播算
法共同参与可疑检测，当数据质量和数量满足要求下，使用有监督的树模型算法。
38.进一步，所述第四步模型算法对规则、关联关系的个性化拟合，对每一个案例的评估结果进行解释；将结果与知识图谱相结合，进行可视化的分析。
39.本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述反洗钱数据监控方法的步骤。
40.本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述反洗钱数据监控方法的步骤。
41.本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述反洗钱数据监控方法的步骤。
42.本发明的另一目的在于提供一种实施所述反洗钱数据监控方法的反洗钱数据监控系统，所述反洗钱数据监控系统包括：
43.特征体系形成模块，用于结合规则指标，形成两大类特征体系，账户交易特征数据和客户特征体系，并通过时序序列计算，结合图特征，形成可用的特征体系；
44.模型类型选择模块，用于设计策略选择器，根据不同数据情况选择不同类型的模型；
45.案例类别划分模块，用于在模型训练返回可疑案例后，统计可疑监测模型案例特征值，然后将案例与规则评分相匹配，对于可疑案例进行类别划分。
46.本发明的另一目的在于提供一种智能终端，所述智能终端用于实现所述反洗钱数据监控方法的步骤。
47.结合上述的所有技术方案，本发明所具备的优点及积极效果为：
48.本发明应用多模型逐层筛选，融合查找的方式大大增强了对可疑案例进行划分时的准确性。
49.本发明模型的训练和回溯模块在增加模型的准确度的同时也增强了模型的可解释性，让ai模型在应用场景下更加合理。同时与知识图谱平台的融合和展示有助于业务决策人员理解问题，并帮助领域专家通过业务经验有效评估模型，进一步优化模型构建。
50.本发明以spark框架为基础，支持大数据量的运算，使得模型训练效率增加。
51.对比传统反洗钱系统，在覆盖专家审核结果的条件下，能降低1个数量级以上的误报率。
附图说明
52.图1是本发明实施例提供的反洗钱数据监控方法流程图。
53.图2是本发明实施例提供的反洗钱数据监控系统的结构示意图；
54.图2中：1、特征体系形成模块；2、模型类型选择模块；3、案例类别划分模块。
具体实施方式
55.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
56.针对现有技术存在的问题，本发明提供了一种反洗钱数据监控方法、系统、存储介质、智能终端，下面结合附图对本发明作详细的描述。
57.如图1所示，本发明提供的反洗钱数据监控方法包括以下步骤：
58.s101：结合规则指标，形成两大类特征体系，账户交易特征数据和客户特征体系。一部分特征通过时序序列计算，形成不同时间段的时间窗口，追踪用户交易长短期的各项特征，如特定时间段内交易最大，最小额度，交易笔数等。还有一部分特征经过统计学上的计算包括但不限于求和，比值，计数等完成对客户各交易渠道的特征生成，最终合并形成可用的特征体系；
59.s102：设计策略选择器，提取上一步中产生的几类重要特征，将案例数据进行分类，根据不同数据类型自动匹配对应的模型训练超参数；
60.s103：模型训练，将输入数据依次经过两层模型的训练，第一层是案例数据的粗筛选，第二层是结合了几种不同模型的训练结果，是对案例数据的精过滤，每一个模型训练的过程都是一次可疑案例的查找，多次查找后的结果为ai训练返回的可疑案例；
61.s104：在模型训练返回可疑案例后，结合给出的各类洗钱案例规则评分表，统计可疑监测模型案例各项特征值，经过计算后，将可疑度评分超过阈值的案例打上规则触发的标签，与第三步中的ai触发标签相结合返回最终的结果，将所有可疑案例分为规则触发，ai触发，规则 ai触发。
62.本发明提供的反洗钱数据监控方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的反洗钱数据监控方法仅仅是一个具体实施例而已。
63.如图2所示，本发明提供的反洗钱数据监控系统包括：
64.特征体系形成模块1，用于结合规则指标，形成两大类特征体系，账户交易特征数据和客户特征体系，并通过时序序列计算，结合图特征，形成可用的特征体系；
65.模型类型选择模块2，设计策略选择器，提取上一步中产生的几类重要特征，将案例数据进行分类，根据不同数据类型自动匹配对应的模型训练超参数；
66.模型算法训练模块3，通过ai算法训练可疑案例监测的模型，从全部输入数据中识别出可疑度高的案例返回；
67.案例类别划分模块4，用于在模型训练返回可疑案例后，统计可疑监测模型案例特征值，然后将案例与规则评分相匹配，对于可疑案例进行类别划分。
68.下面结合具体实施例对本发明的技术方案作进一步的描述。
69.实施例1：
70.本发明实施例提供的反洗钱数据监控方法具体包括以下步骤：
71.第一步，特征工程：结合规则指标，形成两大类特征体系，账户交易特征数据和客户特征体系，并通过时序序列计算，结合图特征，形成可用的特征体系；当建模无数据或者数据量少时，结合反洗钱业务和规则知识，模型“冷启动”。
72.第二步，模型训练：设计策略选择器，可根据不同数据情况选择不同类型的模型；例如针对启动时无标签数据状态下，单独使用无监督聚类算法，当有部分标签数据时，在无监督聚类的基础上，增加有监督聚类过滤和半监督标签传播算法共同参与可疑检测，最终当数据质量和数量满足一定要求下，使用有监督的树模型算法。机制流程保证了在不同数据条件下都会有比较稳定的检测效果。
73.第三步，模型回溯：在模型训练返回可疑案例后，统计可疑监测模型案例特征值，然后将案例与规则评分相匹配，对于可疑案例进行类别划分。理解为模型算法对规则、关联关系的个性化拟合，从而对每一个案例的评估结果进行解释，增强ai模型的可解释性。将结果与知识图谱相结合，进行可视化的分析。
74.实施例2：
75.本发明的可疑检测模型的构建和训练过程：拥有可选择性，使用迭代k-means，dbscan，lp模型，针对不同场景运用不同模型，增加整个流程的准确性。同时这些算法搭建在spark框架上，基于大数据平台处理数据，构建模型所需要的特征，并且在不同的聚类算法上进行分布式的计算并行处理。将模型训练后的结果储存在hive数据库中，方便在大数据量下随时进行批量导入导出搜索等功能。
76.实施例3：
77.本发明实施例提供的反洗钱数据监控方法具体包括以下步骤：
78.第一步，构建特征体系的过程包括：分为客户和交易两个维度，客户维度下深入挖掘每一个客户的账号信息，形成用户画像；交易维度下追踪长短期的交易信息，构建不同区间的时间窗口，经过统计计算形成交易维度下的特征体系。
79.第二步，训练模型的过程包括：根据大体上的交易额度和交易类型等特征区分总体案例，对不同类别案例自动匹配模型参数进入模型训练过程，逐层通过lp，dbscan，k-means等ai算法模型，得到案件可疑度评分。
80.第三步，可疑案例类别划分的过程包括：对案件可疑度进行排序，得到ai识别触发的可疑案例，再将案例返回规则匹配表，与人工制定的各项违规指标做匹配，得到规则匹配触发的可疑度，根据ai识别和规则触发的两项指标，对案例做划分，得到双触发，单项触发，都不触发的类别进行审核。
81.第四步，结果入库和图谱展示的过程包括：将上述流程运行后的结果分别写入hive数据库，以及neo4j图数据库中。hive数据库为大数据量的批量数据导入导出提供了便利条件，对后续更新模型和结果储存的工作都提升了效率。导入neo4j图数据库则提供了可视化的图谱展示功能，比起传统意义上的表格数据展示查找，图谱展示更加直观，并能够快速获取用户想要获得的信息。
82.实施例4：
83.本发明实施例为某银行ai反洗钱案例介绍：
84.(1)客户背景：该银行是全国首批试点的五家民银行之一，2015年5月份正式开业。该银行的定位是：服务自贸改革、服务小微大众、服务科技创新。
85.(2)实施挑战：该银行相对传统的商业银行网点少，主要以互联网业务、创新业务为主，其获客渠道多样化、线上化，业务量增长迅猛，这给银行的洗钱风险防控带来很大的挑战。
86.(3)解决方案：反洗钱基础功能建设：包含大额、可疑交易监测、客户风险评级、产品风险评级、机构风险评级、黑名单管理、综合报表等。
87.(4)机器学习可疑交易甄别：从银行的数据库中获取识别可疑案例所需的交易数据，将数据导入spark运算框架，并进行数据预处理模块，统计用户交易信息(包括但不限于日总交易次数，日总交易额度，交易方式统计，特殊交易金额识别等)，将应用场景分为对
公、对私、小额、大额，将不同场景下的数据写入预先设置好的几类模型(dbscan，k-means等)中进行可疑案例的识别，并打上相应的标签，然后以专家规则为主体，根据不同的洗钱类别(包括但不限于疑似非法汇兑型地下钱庄业务逻辑，疑似走私业务逻辑，疑似集资业务逻辑等)，将机器学习模型所识别出的可疑案例与专家规则给出的案例进行匹配，提升指标评分、规则组合的有效性。
88.实施例:5：
89.比如某银行提供了某年的银行交易流水，现在对这一年中的可疑洗钱案例进行筛选：首先利用spark和python的端口读取数据，在spark的运算框架下去进行后续操作和运算。读取出的交易数据将原始特征分为两类，交易特征和客户特征，对交易特征统计长短期时间窗口内的均值最值等统计特征，以及一些其他统计方法获取对应特征体系，对客户特征进行筛选，保留有影响的几种客户特征形成客户特征体系，综合完成对案例数据的特征工程任务后，根据交易额度和用户特征将整体数据集分为对公对私小额大额四类，对不同类别的案例自动匹配模型训练参数，进入几层模型训练中，数据通过lp，k-means，dbscan模型后返回可疑度评分，另外通过反洗钱案例专家给出的规则评分表，通过模型回溯模块匹配可疑案例与触发规则，返回人工匹配后的可疑度评分。根据两次返回的结果进入人工筛选环节，交由银行工作人员进行人工审核，以便后续更新模型或者更新匹配规则。将以上流程结束后的结果入库，并构建了图谱做展示，供行方人员快捷查询和查看。
90.应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。
91.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于动态加载的嵌入式多核调试系统及其调试方法与流程

一种反洗钱数据监控方法、系统、存储介质、智能终端与流程

相关文献

最热文献