一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

违规商户识别模型构建方法及装置、违规商户识别方法与流程

2022-11-12 19:39:44 来源:中国专利 TAG:


1.本发明涉及数据处理技术,具体地涉及一种违规商户识别模型构建方法、违规商户识别方法。


背景技术:

2.对于违规商户的监控侦测难度不断提升,为了降低筛查违规商户的时长,已经出现使用机器学习和违规商户识别场景相结合的监控方式。但是在数据初步探索收集正负样本的过程中,发现当前已确定的商户是否违规样本量过低,剩余的大量商户属于未标注样本,而传统的机器学习方法需要使用大规模的有标记数据才能取得高质量的模型,然而获得大量的有标记数据是一件非常耗时耗力的工作,在当前业务场景中有限的资源情况下,这几乎是一件不可能完成的事。


技术实现要素:

3.鉴于上述问题,本发明旨在提供一种能够智能推荐高质量样本的违规商户识别模型构建方法。
4.进一步,本发明还旨在提供一种能够提升违规商户识别的覆盖率和准确率的违规商户识别方法及违规商户识别系统。
5.本发明的违规商户识别模型构建方法,其特征在于,包括:初始样本获取步骤,作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练步骤,基于训练集进行模型训练以及调优训练得到分类器;边缘采样步骤,利用所述模型训练步骤获得的分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加步骤,将所述边缘采样步骤中获取的规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到训练集中;条件判断步骤,判断所述分类器是否满足规定条件,若所述分类器满足规定条件,则继续以下的模型输出步骤,否则重复进行所述模型训练步骤、所述边缘采样步骤以及所述样本添加步骤直至所述分类器满足规定条件;以及模型输出步骤,将当前的分类器作为违规商户识别模型输出。
6.可选地,所述第一类型的商户样本数据为已标注黑样本和白样本的商户样本数据,所述第二类型的商户样本数据为未标注黑样本和白样本的商户样本数据。
7.可选地,在所述条件判断步骤中,判断所述分类器是否满足规定条件包括:判断利用所述分类器进行边缘采样得到的规定边缘的样本数据是否满足第一规定条件。
8.可选地,判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件包括:判断利用所述分类器进行边缘采样得到的规定边缘的样本数据是否小于第一阈值。
9.可选地,在所述条件判断步骤中,判断所述分类器是否满足规定条件包括:判断所
述分类器的训练集中的商户样本数据是否满足第二规定条件。
10.可选地,判断所述分类器的训练集中的商户样本数据是否满足第二规定条件包括:判断所述分类器的训练集中的商户样本数据是否大于第二阈值。
11.可选地,所述通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练步骤获得的分类器进行边缘采样,将预测概率满足规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。
12.可选地,所述通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练步骤获得的分类器进行边缘采样,将置信度满足规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。
13.可选地,将所述预测概率为0.4-0.6的商户样本数据作为所述规定边缘的商户样本数据。
14.可选地,将所述边缘采样步骤中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据包括:对于所述边缘采样步骤中获取的所述规定边缘的商户样本数据标注黑样本和白样本。
15.可选地,所述分类器采用xgboost。
16.本发明的一方面的违规商户识别方法其特征在于,包括:获取待识别的商户特征数据;将待识别的商户特征数据输入到利用权利要求1~11任意一项所述的违规商户识别模型构建方法所构建的违商户识别模型中;以及利用所述商户识别模型识别待识别的商户特征数据是否为表征违规商户。
17.可选地,违规商户识别模型构建装置,其特征在于,包括:初始样本获取模块,作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练模块,基于训练集进行模型训练以及调优训练得到分类器;边缘采样模块,利用所述模型训练模块获得的分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加模块,将所述边缘采样模块中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到所述训练集中;条件判断模块,判断所述分类器是否满足规定条件,若所述分类器满足规定条件,则执行以下的模型输出模块的动作,否则重复进行所述模型训练模块、所述边缘采样模块以及所述样本添加模块执行的动作直至所述分类器满足规定条件;以及模型输出模块,将当前的分类器作为违规商户识别模型输出。
18.可选地,所述第一类型的商户样本数据为已标注黑样本和白样本的商户样本数据,所述第二类型的商户样本数据为未标注黑样本和白样本的商户样本数据。
19.可选地,在所述条件判断模块中,判断所述分类器是否满足规定条件包括:判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件。
20.可选地,在所述条件判断模块中,判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件包括:判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否小于第一阈值。
21.可选地,在所述条件判断模块中,所述判断所述分类器是否满足规定条件包括:判
断所述分类器的训练集中的商户样本数据是否满足第二规定条件。
22.可选地,在所述条件判断模块中,判断所述分类器的训练集中的商户样本数据是否满足第二规定条件包括:判断所述分类器的训练集中的商户样本数据是否大于第二阈值。
23.可选地,在所述边缘采样模块中,通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练模块获得的分类器进行边缘采样,将预测概率为规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。
24.可选地,在所述边缘采样模块中,通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练模块获得的分类器进行边缘采样,将置信度满足规定阈值的商户样本数据作为所述规定边缘的商户样本数据。
25.可选地,在所述边缘采样模块中,将所述预测概率为0.4-0.6的商户样本数据作为所述规定边缘的商户样本数据。
26.可选地,在所述样本添加模块中,将所述边缘采样模块中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据包括:对于所述边缘采样模块中获取的所述规定边缘的商户样本数据标注黑样本和白样本。
27.可选地,所述分类器采用xgboost。
28.本发明一方面的计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述的违规商户识别模型构建方法。
29.本发明一方面的计算机设备,包括存储模块、处理器以及存储在存储模块上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的违规商户识别模型构建方法。
附图说明
30.图1是表示本发明的违规商户识别模型构建方法的主要流程的示意图。
31.图2是表示本发明的一个实施方式的违规商户识别模型构建方法的流程的示意图。
32.图3是表示本发明的违规商户识别模型构建装置的结构框图。
具体实施方式
33.下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
34.出于简洁和说明性目的,本文主要参考其示范实施例来描述本发明的原理。但是,本领域技术人员将容易地认识到,相同的原理可等效地应用于所有类型的违规商户识别模型构建方法、违规商户识别方法及违规商户识别系统并且可以在其中实施这些相同的原理,以及任何此类变化不背离本专利申请的真实精神和范围。
35.而且,在下文描述中,参考了附图,这些附图图示特定的示范实施例。在不背离本发明的精神和范围的前提下可以对这些实施例进行电、机械、逻辑和结构上的更改。此外,虽然本发明的特征是结合若干实施/实施例的仅其中之一来公开的,但是如针对任何给定
或可识别的功能可能是期望和/或有利的,可以将此特征与其他实施/实施例的一个或多个其他特征进行组合。因此,下文描述不应视为在限制意义上的,并且本发明的范围由所附权利要求及其等效物来定义。
36.诸如“具备”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元(模块)和步骤以外,本发明的技术方案也不排除具有未被直接或明确表述的其它单元(模块)和步骤的情形。
37.首先,对于本发明的违规商户识别模型构建方法进行说明。
38.本发明的发明人通过研究传统的违规商户识别方法发现,在传统的违规商户识别方法中,一般只考虑某种规则,比如商户是否存在大量和用户消费习惯偏离的用户交易,通常这类人工设计的判定规则方法涉及的场景过于单一,覆盖面狭窄,无法有效的识别出更多的违规商户,且商户又容易躲避规则,而且,人工设计的规则严重依赖于设计者的工作经验,模型能够识别的违规商户仅局限于设计者自身的有限认知中,当商户采用了新的违规方法时,模型的识别能力将会大幅度降低,另一方面,传统的机器学习方法又需要使用大规模的有标记数据才能训练出高质量的模型。
39.考虑到上述传统技术中的问题,为了利用机器学习方来进行违规商户识别,首先需要解决的是当前样本标记数量较少的问题。基于这样的出发点,本发明的违规商户识别模型构建方法旨在少量标注样本场景中通过智能推荐未标注样本,选出具有提升模型效果的未标注样本,以辅助机器学习建模过程中获取到更高质量的标签样本数据集, 使得构建出识别精度高的商户识别模型。
40.图1是表示本发明的违规商户识别模型构建方法的主要流程的示意图。
41.如图1所示,本发明的违规商户识别模型构建方法包括:初始样本获取步骤s100:作为初始样本获取第一类型的商户样本数据并构成训练集;模型训练步骤s200:基于训练集进行模型训练以及调优训练得到分类器;边缘采样步骤s300:利用所述模型训练步骤获得的分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加步骤s400:将所述边缘采样步骤中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到所述训练集中;条件判断步骤s500:判断所述分类器是否满足规定条件,若所述分类器满足规定条件,则继续以下的模型输出步骤,否则重复进行所述模型训练步骤、所述边缘采样步骤以及所述样本添加步骤直至所述分类器满足规定条件;以及模型输出步骤s600:将当前的分类器作为违规商户识别模型输出。
42.其中,所述第一类型的商户样本数据为已标注黑样本和白样本的商户样本数据,所述第二类型的商户样本数据为未标注黑样本和白样本的商户样本数据。其中,在样本添加步骤s400中,将所述边缘采样步骤中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据包括:对于所述边缘采样步骤s400中获取的所述规定边缘的商户样本数据标注黑样本和白样本。
43.在边缘采样步骤s300中,所述通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练步骤获得的分类器进行边缘采样,将预测概率满足规定阈值范围的商户
样本数据作为所述规定边缘的商户样本数据。
44.在条件判断步骤s500中,判断所述分类器是否满足规定条件包括:判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件或者判断所述分类器的训练集中的商户样本数据是否满足第二规定条件。
45.这里作为一个示例,在本发明中作为分类器采用xgboost。
46.如上所述,采用已现有的少量违规商户作为黑样本和一部分正常商户作为白样本(剩余大部分商户都是未标注黑白样本的商户),将黑白样本作为训练集标签,其中,将商户、银行卡、机构等的历史交易特征、套现特征等作为建模特征,训练基础的初始分类器,利用训练出的基础的初始分类器,对未标注的商户进行预测,通过边缘采样,采集预测概率在规定阈值范围内(例如0.4~0.6)之间的商户(它们属于难区分出的置信度低的样本),将这些商户的样本数据提取出来,例如提供给业务专家进行再次确认和审核并进行样本标注(标注黑样本和白样本),并且增加将这些经过样本标注的样本数据增加到训练集中,基于更新后的训练集进行模型训练和模型调优,然后继续通过不确定的边缘采样,提取出难以区分的样本数据,再次确认并进行标注,重复此过程几次之后,直到获取到足够多的标注样本或者直到通过边缘采用得到的置信度低的样本数量足够少。
47.根据本发明的违规商户识别模型构建方法,能够解决当前已标注的样本数据量较少的问题,通过获取高质量样本的采样策略,自动筛选出少量的未标记样本,提供给业务专家进行标注。这样自动筛选的样本是能够提升模型效果最大的样本,即高质量的样本。因此,相对于使用了大规模标记数据才能取得较好侦测效果的模型而言,本发明能够使用较少的标注商户样本,针对大量未标注商户样本,进行智能推荐待标注样本并由业务专家进行标注,在降低标注样本成本的同时,取得相对较好的违规商户识别效果。而且,随着高质量标记样本数量越来越来多,模型的学习效果也越来越好,最终确保规范工作的时效性与准确性,提高效率。
48.接着,对于本发明的违规商户识别模型构建方法一个实施方式进行说明。
49.图2是表示本发明的一个实施方式的违规商户识别模型构建方法的流程的示意图。
50.在以下的说明中,为了便于理解,将所有样本数据分成集合a和集合b。其中,集合a是指经标注的黑白样本的数据集合,集合b是指未经标注的灰色样本的数据集合。
51.如图2所示,本发明的一个实施方式的违规商户识别模型构建方法包括:步骤s1:将一批已标注的样本作为初始样本(包括黑样本和白样本),目前这些初始样本构成集合a;步骤s2:根据初始样本的基础特征进行模型训练以及调优训练得到初始分类器;步骤s3:利用训练得到的分类器,对于集合b中的一部分的未经标注的灰色样本(即未标注样本)进行分类;步骤s4:通过边缘采样获取比较“难”进行分类的样本数据;步骤s5:将采集到的样本数据作为智能推荐的未标注样本,对这些未标注样本进行标注;步骤s6:将经过标注后的样本数据(包括黑样本和白样本)增加到集合a中,重新计算这些样本的基础特征,再次进行模型训练以及调优训练得到分类器;
步骤s7:判断样本数量或者利用分类器获得的边缘数据是否符合预先设定的规定条件,若判断为样本数量或者利用分类器获得的边缘数据不符合预先设定的规定条件则重复进行步骤s3~s6,若判断为样本数量符合或者利用分类器获得的边缘数据符合预先设定的规定条件则继续步骤s8;以及步骤s8:将最后训练得到的分类器输出作为违规商户识别模型。
52.在步骤s3中所谓比较“难”分类的样本数据,作为一个示例,例如可以选取预测概率在规定范围内的样本数据,规定范围例如可以是:0.4-0.6、0.35-0.65、0.3-0.7、0.55-0.75等等,也就是说,选取预测概率在0-1之间的、相对位于中间的数值范围,这是因为,相对中间值的预测概率说明该样本数据可能是白样本也可以能是黑样本,它们相对较为难进行分类。
53.本发明人通过这样巧妙的构思,着眼于预测概率来找到难以进行区分的样本数据,并将这些样本数据挑选出来进行标注后作为下一次分类器训练的样本数据,由此能够提高分类器的精确度,同时能够大幅降低进行标注的样本数据。
54.在步骤s7中,作为判断样本数量或者利用分类器获得的边缘数据是否符合预先设定的规定条件的具体示例,例如,作为判断被标注的样本数量足够大(例如样本数据量大于到规定阈值)或者预测出的边缘数据足够较少(例如边缘数据量小于规定阈值)。
55.图3是表示采用本发明构建的违规商户识别模型进行违规商户识别的流程示意图。
56.如图3所示,采用本发明构建的违规商户识别模型进行违规商户识别的过程包括:步骤s21:获取待识别商户的特征数据;步骤s22:将待识别商户的特征数据输入到利用图2流程训练得到违规商户识别模型;以及步骤s23:通过该违规商户识别模型识别待识别商户是否为违规商户。
57.这里对于本发明的技术效果举一个具体示例进行说明。
58.在利用本发明构建违规商户识别模型的过程中,作为初始样本(即最初的集合a),只有6562个确定的违规商户和298233个正常商户,剩余9159822个商户属于未标注商户(即最初的集合b),通过图2所示的过程智能推荐未标注样本,经过三轮迭代(即重复三轮进行步骤s3~s6),前后选中52693个未标注样本,对它们进行确认,其中,确认5338个商户为违规商户,其余属于正常商户,并对它们进行样本标注,将这部分的样本,添加到训练集(即集合a)中,进行模型的再次训练,经过增添标注样本后的训练集,使得模型的覆盖率从30%提高到92%以上,精准度从65%提升到83%以上。
59.如上所述,在本发明中通过机器学习方式来智能筛选出合适的候选集进行标注样本的方式,与单纯等待人工标注所有样本的情形相比,标注成本大幅降低,而且能够得到高质量的数据集,并通过机器学习训练出更精准的违规商户识别模型,由此,能够更加准确且全面的识别出违规商户。
60.本发明还提供一种违规商户识别模型构建装置,图3是表示本发明的违规商户识别模型构建装置的结构框图。
61.如图3所示,本发明的违规商户识别模型构建装置包括:初始样本获取模块100,作为初始样本获取第一类型的商户样本数据并构成训练
集;模型训练模块200,基于训练集进行模型训练以及调优训练得到分类器;边缘采样模块300,利用所述模型训练模块获得的分类器对于第二类型的商户样本数据进行分类并通过边缘采样获取规定边缘的商户样本数据;样本添加模块400,将所述边缘采样模块中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据并添加到所述训练集中;条件判断模块500,判断所述分类器是否满足规定条件,若所述分类器满足规定条件,则执行以下的模型输出模块的动作,否则重复进行所述模型训练模块、所述边缘采样模块以及所述样本添加模块执行的动作直至所述分类器满足规定条件;以及模型输出模块600,将当前的分类器作为违规商户识别模型输出。
62.其中,所述第一类型的商户样本数据为已标注黑样本和白样本的商户样本数据,所述第二类型的商户样本数据为未标注黑样本和白样本的商户样本数据。
63.其中,在所述条件判断模块500中,判断所述分类器是否满足规定条件包括:判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件。
64.其中,在所述条件判断模块500中,判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否满足第一规定条件包括:判断利用所述分类器进行边缘采样得到的所述规定边缘的样本数据是否小于第一阈值。
65.在所述条件判断模块500中,所述判断所述分类器是否满足规定条件包括:判断所述分类器的训练集中的商户样本数据是否满足第二规定条件。
66.在所述条件判断模块500中,判断所述分类器的训练集中的商户样本数据是否满足第二规定条件包括:判断所述分类器的训练集中的商户样本数据是否大于第二阈值。
67.在所述边缘采样模块300中,通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练模块获得的分类器进行边缘采样,将预测概率为规定阈值范围的商户样本数据作为所述规定边缘的商户样本数据。
68.在所述边缘采样模块300中,通过边缘采样获取规定边缘的商户样本数据包括:利用所述模型训练模块获得的分类器进行边缘采样,将置信度满足规定阈值的商户样本数据作为所述规定边缘的商户样本数据。
69.在所述边缘采样模块300中,将所述预测概率为0.4-0.6的商户样本数据作为所述规定边缘的商户样本数据。
70.在所述样本添加模块400中,将所述边缘采样模块中获取的所述规定边缘的商户样本数据进行规定处理以得到第一类型的商户样本数据包括:对于所述边缘采样模块中获取的所述规定边缘的商户样本数据标注黑样本和白样本。
71.本发明还提供一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述的违规商户识别模型构建方法。
72.本发明还提供一种计算机设备,包括存储模块、处理器以及存储在存储模块上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的违规商户识别模型构建方法。
73.如上所述,根据本发明的违规商户识别模型构建方法,能够针对大量未标注商户样本进行智能推荐待标注样本,以从大量未标注样本中筛选出最可能提升机器学习分类模
型效果的样本集作为不确定样本候选集,而且被智能推荐出的不确定样本集只占未标注商户总量的一小部分,由此能够大幅降低了样本标注的人力成本和时间成本。将被智能推荐的未标注样本提取后,注成为确定样本,并重复这个过程,直到被标注的高质量样本就越来越多或者边缘采用的置信度低的样本越来越少。最后,依据标注后的样本,最终构建机器学习模型,例如可以采用xgboost分类器进行滚动地学习、特征更新,收敛后对商户是否违规进行分类,大幅提升了违规商户识别的覆盖率和准确率。
74.以上例子主要说明了本发明的违规商户识别模型构建方法、违规商户识别方法及违规商户识别系统。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献