一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

储值卡违规使用识别方法、装置、设备和存储介质与流程

2022-04-30 02:08:20 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,具体涉及一种储值卡违规使用识别方法、装置、设备和存储介质。


背景技术:

2.近年来,随着物流速运业务的蓬勃发展,快件量迅速增长,行业竞争也越来越激烈。物流企业使用物流储值卡消费返现是常用的营销手段,因此营销成本的管理越发重要,营销成本是否用在了合适的地方,则需要对物流储值卡是否按规使用进行谨慎核查。
3.目前,对于物流储值卡是否按规使用进行识别的方法主要有两种,一种是根据专家规则的方法进行识别,另一种是通过专职人员监控营销成本报表的方法进行识别。
4.但是,现有技术中,通过专家规则的方法进行识别需要提前挑选特征,并设定每一特征的阈值,而确定一个合适的阈值比较困难,并且若特征较多,容易导致分类效果较差,识别结果出错;而通过人工监控的方法往往只有在大规模发生物流储值卡违规使用时才能被发现,一些个别的违规使用现象会因为业务的随机性等原因被漏报误报,导致人工监控无法发现个别的异常点,进而对其进行处理。


技术实现要素:

5.本技术提供一种储值卡违规使用识别方法、装置、设备和存储介质,旨在解决现有技术中通过专家规则的方法进行识别设定特征阈值困难,若特征较多,容易导致识别结果出错的问题。
6.第一方面,本技术提供一种储值卡违规使用识别方法,包括:
7.获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;
8.将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;
9.若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
10.在本技术一种可能的实现方式中,储值卡类型包括物流储值卡和其他类型储值卡,方法还包括:
11.获取训练样本集,训练样本集包括第一训练样本、第二训练样本和第三训练样本,第一训练样本为用户标识的未存在违规使用情况的多个物流储值卡的第一衍生特征,第二训练样本为用户标识的确定存在违规使用情况的多个物流储值卡的第二衍生特征,第三训练样本为用户标识的多个其他类型储值卡的第三衍生特征;
12.分别对第一衍生特征和第三衍生特征进行特征选择,得到模型特征;
13.利用模型特征、第一训练样本、第二训练样本和第三训练样本对初始违规识别模型进行训练,得到违规识别模型。
14.在本技术一种可能的实现方式中,第一训练样本携带有用户配置的第一标识,第
一标识用于表明第一训练样本对应的储值卡类型为物流储值卡,第三训练样本携带有用户配置的第二标识,第二标识用于表明第三训练样本对应的储值卡类型为其他类型储值卡,分别对第一训练样本和第三训练样本进行特征选择,得到模型特征,包括:
15.根据第一标识和第一衍生特征,以及,第二标识和第三衍生特征,构建极端梯度提升(extreme gradient boosting,xgb)模型;
16.利用xgb模型分别计算第一衍生特征和第三衍生特征的信息增益值;
17.将信息增益值大于预设信息增益阈值的第一衍生特征和第三衍生特征确定为模型特征。
18.在本技术一种可能的实现方式中,方法还包括:
19.将第一衍生特征、第二衍生特征和第三衍生特征分别作为训练粒子,利用粒子群优化算法训练初始违规识别模型;
20.在训练过程中,利用梯度下降法求解初始违规识别模型对应的损失函数;
21.当损失函数的值小于预设阈值时,完成训练,并将完成训练的模型确认为违规识别模型。
22.在本技术一种可能的实现方式中,方法还包括:
23.根据违规识别模型的历史识别结果,计算模型指标,模型指标包括模型精确率、模型召回率以及模型精确率和模型召回率的调和平均数;
24.将违规识别模型序列化为模型字符串;
25.将模型字符串以及对应的模型指标写入数据仓库工具hive表。
26.在本技术一种可能的实现方式中,第一训练样本、第二训练样本和第三训练样本按照对应的储值卡的使用时间顺序排序,方法还包括:
27.利用预设滑动时间窗口截取并复制预设滑动时间窗口中的第二训练样本;
28.按照预设步长在时间轴上移动预设滑动时间窗口;
29.将预设滑动时间窗口内的第二训练样本,粘贴到预设滑动时间窗口的当前位置,以使得在训练样本集中对第二训练样本进行扩充。
30.在本技术一种可能的实现方式中,方法还包括:
31.获取目标储值卡的交易记录;
32.统计交易记录对应的人员特征、地址特征、时间特征、物品特征、价格特征以及交叉特征,交叉特征为人员特征、地址特征、时间特征、物品特征以及价格特征组成的任意组合的特征,得到多个衍生特征。
33.第二方面,本技术还提供一种储值卡违规使用识别装置,包括:
34.获取模块,用于获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;
35.处理模块,用于将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;
36.输出模块,用于若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
37.在本技术一种可能的实现方式中,储值卡类型包括物流储值卡和其他类型储值卡,处理模块具体用于:
38.获取训练样本集,训练样本集包括第一训练样本、第二训练样本和第三训练样本,第一训练样本为用户标识的未存在违规使用情况的多个物流储值卡的第一衍生特征,第二训练样本为用户标识的确定存在违规使用情况的多个物流储值卡的第二衍生特征,第三训练样本为用户标识的多个其他类型储值卡的第三衍生特征;
39.分别对第一衍生特征和第三衍生特征进行特征选择,得到模型特征;
40.利用模型特征、第一训练样本、第二训练样本和第三训练样本对初始违规识别模型进行训练,得到违规识别模型。
41.在本技术一种可能的实现方式中,第一训练样本携带有用户配置的第一标识,第一标识用于表明第一训练样本对应的储值卡类型为物流储值卡,第三训练样本携带有用户配置的第二标识,第二标识用于表明第三训练样本对应的储值卡类型为其他类型储值卡,处理模块具体还用于:
42.根据第一标识和第一衍生特征,以及,第二标识和第三衍生特征,构建极端梯度提升xgb模型;
43.利用xgb模型分别计算第一衍生特征和第三衍生特征的信息增益值;
44.将信息增益值大于预设信息增益阈值的第一衍生特征和第三衍生特征确定为模型特征。
45.在本技术一种可能的实现方式中,处理模块具体还用于:
46.将第一衍生特征、第二衍生特征和第三衍生特征分别作为训练粒子,利用粒子群优化算法训练初始违规识别模型;
47.在训练过程中,利用梯度下降法求解初始违规识别模型对应的损失函数;
48.当损失函数的值小于预设阈值时,完成训练,并将完成训练的模型确认为违规识别模型。
49.在本技术一种可能的实现方式中,处理模块具体还用于:
50.根据违规识别模型的历史识别结果,计算模型指标,模型指标包括模型精确率、模型召回率以及模型精确率和模型召回率的调和平均数;
51.将违规识别模型序列化为模型字符串;
52.将模型字符串以及对应的模型指标写入数据仓库工具hive表。
53.在本技术一种可能的实现方式中,第一训练样本、第二训练样本和第三训练样本按照对应的储值卡的使用时间顺序排序,处理模块具体还用于:
54.利用预设滑动时间窗口截取并复制预设滑动时间窗口中的第二训练样本;
55.按照预设步长在时间轴上移动预设滑动时间窗口;
56.将预设滑动时间窗口内的第二训练样本,粘贴到预设滑动时间窗口的当前位置,以使得在训练样本集中对第二训练样本进行扩充。
57.在本技术一种可能的实现方式中,获取模块具体用于:
58.获取目标储值卡的交易记录;
59.统计交易记录对应的人员特征、地址特征、时间特征、物品特征、价格特征以及交叉特征,交叉特征为人员特征、地址特征、时间特征、物品特征以及价格特征组成的任意组合的特征,得到多个衍生特征。
60.第三方面,本技术还提供一种储值卡违规使用识别设备,包括:
61.一个或多个处理器;
62.存储器;以及
63.一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现第一方面的储值卡违规使用识别方法。
64.第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行第一方面的储值卡违规使用识别方法中的步骤。
65.本技术中,利用目标储值卡的衍生特征作为违规识别模型使用的识别特征,能够确保衍生特征构成的知识空间涵盖专家规则的知识空间,并且由于使用违规识别模型进行违规识别,而不是专家规则的方法,能够避免对专家规则的方法进行逆向探索,而被试探出规则设定的问题,确保识别方法的安全性,提高识别结果准确率。
附图说明
66.为了更清楚地说明本技术中的技术方案,下面将对本技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
67.图1是本技术中提供的储值卡违规使用识别系统的一个场景示意图;
68.图2是本技术中提供的储值卡违规使用识别方法的一个流程示意图;
69.图3是本技术中获取违规识别模型的一个流程示意图;
70.图4是本技术中获取模型特征的一个流程示意图;
71.图5是本技术中训练初始违规识别模型的一个流程示意图;
72.图6是本技术中对违规识别模型进行保存的一个流程示意图;
73.图7是本技术中提供的储值卡违规使用识别装置的一个结构示意图;
74.图8是本技术中提供的储值卡违规使用识别设备的一个结构示意图。
具体实施方式
75.下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
76.在本技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
77.在本技术中,“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任
何技术人员能够实现和使用本技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本技术。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本技术的描述变得晦涩。因此,本技术并非旨在限于所示的实施例,而是与符合本技术所公开的原理和特征的最广范围相一致。
78.本技术提供一种储值卡违规使用识别方法、装置、设备和存储介质,以下分别进行详细说明。
79.请参阅图1,图1为本技术所提供的储值卡违规使用识别系统的一个场景示意图,该储值卡违规使用识别系统可以包括服务器100及刷卡终端200,服务器100中集成有储值卡违规使用识别装置,在每一个物流站点均可以配备有一个能唯一标识该物流站点的刷卡终端200,服务器100可以与每一个物流站点的刷卡终端200通信,对每一个刷卡终端200上传的数据进行处理。
80.本技术中服务器100主要用于获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
81.本技术中,该服务器100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本技术中所描述的服务器100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloud computing)的大量计算机或网络服务器构成。
82.本技术中,服务器100与刷卡终端200之间可以通过任何通信方式实现网络通信,包括但不限于,基于第三代合作伙伴计划(3rd generation partnership project,3gpp)、长期演进(long term evolution,lte)、全球互通微波访问(worldwide interoperability for microwave access,wimax)的移动通信,或基于tcp/ip协议族(tcp/ip protocol suite,tcp/ip)、用户数据报协议(user datagram protocol,udp)的计算机网络通信等。刷卡终端200可以通过上述通信方式向服务器100上传储值卡交易记录的相关信息,比如储值卡卡号、充值金额、消费金额、交易时间、寄件人信息、收件人信息等。
83.本技术中,上述的刷卡终端200可以是一个通用的计算机设备或者是一个专用计算机设备。在具体实现中刷卡终端200可以是掌上电脑、个人数字助理(personal digital assistant,pda)、移动手机、平板电脑、无线终端设备、具有扫描功能的手持终端设备等,本技术不限定上述刷卡终端200的类型。
84.本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本技术方案适配的一种应用场景,并不构成对本技术方案应用场景的限定,其他的应用场景还可以包括比图1中所示更多或更少的服务器100,例如图1中仅示出1个服务器100,可以理解的,该储值卡违规使用识别系统还可以为每一个物流站点配备一个与该物流站点的刷卡终端200配套的服务器100,以使得刷卡终端200与服务器100一一对应,具体此处不作限定。
85.另外,如图1所示,该储值卡违规使用识别系统还可以包括储存器300和多个显示器400,该储存器300用于存储数据以及物流站点a与刷卡终端200的对应关系,多个显示器
400可以与刷卡终端200一一对应,用于向业务人员展示储值卡违规使用识别结果,提醒业务人员及时处理。
86.需要说明的是,图1所示的储值卡违规使用识别系统的场景示意图仅仅是一个示例,本技术描述的储值卡违规使用识别系统以及场景是为了更加清楚的说明本技术的技术方案,并不构成对于本技术提供的技术方案的限定,本领域普通技术人员可知,随着储值卡违规使用识别系统的演变和新业务场景的出现,本技术提供的技术方案对于类似的技术问题,同样适用。
87.首先,本技术提供一种储值卡违规使用识别方法,该储值卡违规使用识别方法的执行主体为储值卡违规使用识别装置,该储值卡违规使用识别装置应用于服务器100,服务器100位于储值卡违规使用识别系统,储值卡违规使用识别方法包括:获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
88.如图2所示,为本技术中储值卡违规使用识别方法的一个流程示意图,该储值卡违规使用识别方法包括:
89.s201、获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;
90.通常情况下,在计算机科学领域,衍生特征是指用原始特征进行特征学习得到的新的特征,其可以是根据原始特征进行某种组合,生成新的具有含义的特征,因为通常直接采集的数据的特征维度不会很大,而且不能完全体现数据的全部信息,因此需要通过已有的原始特征的组合来发现新的意义。
91.本技术中,目标储值卡的交易记录可以包括目标储值卡对应的消费数据和运单数据,当寄付运单的人员来到物流站点通过使用目标储值卡寄出快件时,刷卡终端200扫描目标储值卡,并根据预先设置的消费规则按照收件地址等信息扣除目标储值卡上的相应积分或金额,刷卡终端200将该次目标储值卡的消费数据和该消费数据对应的运单数据,比如运单号、收件人信息、寄件人信息等,上传至服务器100或储存器300进行存储。
92.本技术中,目标特征统计表可以是以卡号和日期为主键的一张特征统计表,衍生特征根据目标储值卡的交易记录衍生得到,具体的,通过分析交易记录可以得到目标储值卡对应的人员特征、地址特征、时间特征、物品特征、价格特征以及交叉特征,交叉特征即为前述的人员特征、地址特征、时间特征、物品特征以及价格特征组成的任意组合的特征,由上述特征通过统计学和机器学习衍生得到衍生特征,此处的衍生特征可以分别是以1日、7日和从开卡日起的累计指标,累计指标可以是各特征的实例数量、最大值、最小值或者平均值等,需要说明的是,本技术的衍生特征还可以是其他适用于本技术的统计类型的特征,具体此处不做限定。
93.s202、将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;
94.本技术中,违规识别模型是一种机器学习模型,可以采用现有的任意一种二分类模型,比如支持向量机(support vector machine,svm)、朴素贝叶斯、决策树等,本技术的
违规识别模型可以存储在服务器100中,也可以存储在储存器300中,当刷卡终端200将目标储值卡的当前交易记录上传至服务器100后,服务器100调用违规识别模型或访问储存器300再调用违规识别模型,通过违规识别模型对目标储值卡的当前交易记录的多个衍生特征进行预测,判断目标储值卡的目标违规概率。
95.s203、若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
96.本技术中,服务器100内存储有用户设定的预设违规概率,比如设定预设违规概率为0.9,则若经过违规识别模型预测的目标储值卡的目标违规概率大于0.9,说明目标储值卡存在违规使用情况,即目标储值卡当前存在违规交易,服务器100该目标储值卡关联的卡号、证件号以及手机号等加入黑名单,并将相关信息和识别结果通过显示器400展示给业务人员;反之,若目标违规概率小于0.9,说明目标储值卡不存在违规使用情况,即目标储值卡当前交易正常,。
97.本技术中,利用目标储值卡的衍生特征作为违规识别模型使用的识别特征,能够确保衍生特征构成的知识空间涵盖专家规则的知识空间,并且由于使用机器学习的违规识别模型进行违规识别,而不是专家规则的方法,能够避免对专家规则的方法进行逆向探索,而被试探出规则设定的问题,确保识别方法的安全性,提高识别结果准确率。
98.在本技术一些实施例中,衍生特征还可以包括一些特殊的指标,比如组合指标、分箱指标、幂函数指标等,其中组合指标可以是交易时间与运单时间差大于0.5小时的运单量占比,和,对应寄件人手机号数量的开平方以及交易时间与运单时间差大于0.5小时的运单量占比的平方的乘积;分箱指标可以是均积分消费金额小于200时取常值3,大于200时取开平方,对应寄件人手机号数量小于10时取常值5,大于10时取对应寄件人手机号数量除以对应收件员数量;幂函数指标可以是日均本金消费金额取开平方、每一收件员对应运单数量取0.3次幂、每一寄件人手机号对应运单数量取开平方、每一收件人手机号对应运单数量取开平方、每一寄件公司对应运单数量取开平方、每一寄件地址对应运单数量取开平方、对应收件员数量取开平方等。
99.如图3所示,为本技术中获取违规识别模型的一个流程示意图,在本技术一些实施例中,储值卡类型包括物流储值卡和其他类型储值卡,储值卡违规使用识别方法进一步包括:
100.s301、获取训练样本集,训练样本集包括第一训练样本、第二训练样本和第三训练样本,第一训练样本为用户标识的未存在违规使用情况的多个物流储值卡的第一衍生特征,第二训练样本为用户标识的确定存在违规使用情况的多个物流储值卡的第二衍生特征,第三训练样本为用户标识的多个其他类型储值卡的第三衍生特征;
101.本技术中,训练样本集包括有三类样本,第一类为第一训练样本,它是用户标识的未存在违规使用情况的物流储值卡的衍生特征,即第一衍生特征,此处未存在违规使用情况可以是物流企业在职员工申请并使用的物流储值卡;第二类为第二训练样本,它是用户标识的存在违规使用情况的物流储值卡的衍生特征,即第二衍生特征,此处存在违规使用情况可以是非物流企业的员工申请但却是物流企业的在职员工使用的物流储值卡;第三类为第三训练样本,它是用户标识的其他类型的储值卡的衍生特征,即第三衍生特征,此处其他类型的储值卡可以是除物流储值卡意外的其他任意储值卡。
102.s302、分别对第一衍生特征和第三衍生特征进行特征选择,得到模型特征;
103.本技术中,选择对第一训练样本和第三训练样本进行特征选择,主要是为了避免欺诈样本即第二训练样本对模型训练造成干扰,因此对第一衍生特征和第三衍生特征进行特征选择。
104.s303、利用模型特征、第一训练样本、第二训练样本和第三训练样本对初始违规识别模型进行训练,得到违规识别模型。
105.本技术中,利用s302中选择得到的模型特征再结合第一训练样本、第二训练样本和第三训练样本对初始违规识别模型进行训练,训练完成后,得到违规识别模型。
106.如图4所示,为本技术中获取模型特征的一个流程示意图,在本技术一些实施例中,第一训练样本携带有用户配置的第一标识,第一标识用于表明第一训练样本对应的储值卡类型为物流储值卡,第三训练样本携带有用户配置的第二标识,第二标识用于表明第三训练样本对应的储值卡类型为其他类型储值卡,分别对第一训练样本和第三训练样本进行特征选择,得到模型特征,进一步包括:
107.s401、根据第一标识和第一衍生特征,以及,第二标识和第三衍生特征,构建xgb模型;
108.xgb模型实际上就是xbgoost模型,其核心算法是不断添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上一次预测的残差,当训练完成得到多棵树,需要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后将每棵树对应的分数加起来就是该样本的预测值。
109.本技术中,第一标识可以是数字1,用于表明第一训练样本对应的储值卡类型为物流储值卡,需要说明的是,该第一标识同样适用于第二训练样本,即第一训练样本和第二训练样本的标识均为第一标识,第二标识可以是数字0,用于表明第三训练样本对应的储值卡类型为其他类型储值卡,通过用户配置的第一标识和第二标识来区分物流储值卡和其他类型储值卡,需要说明的是,本技术中的第一标识和第二标识还可以是能够区分第一训练样本和第三训练样本的其他数字、字母、符号等表现形式,具体此处不做限定。
110.s402、利用xgb模型分别计算第一衍生特征和第三衍生特征的信息增益值;
111.根据s401,将第一衍生特征和第三衍生特征分别代入xgb模型,统计每个特征在xgb模型的所有决策树上的信息增益值gain,计算公式为:
[0112][0113]
h(si)=-∑p(ci)*log(p(ci))
[0114]
其中,si为决策树上所有节点s中的一个节点,h(si)为节点si信息量的期望,ci为特征对应的标识,p(ci)为节点si属于标识ci的概率。
[0115]
s403、将信息增益值大于预设信息增益阈值的第一衍生特征和第三衍生特征确定为模型特征。
[0116]
本技术中,服务器100或储存器300中存储有预设信息增益阈值,若s402中计算得到的特征的信息增益值大于该预设信息增益阈值,则将该特征确定为模型特征。
[0117]
如图5所示,为本技术中训练初始违规识别模型的一个流程示意图,在本技术一些实施例中,储值卡违规使用识别方法还可以包括:
[0118]
s501、将第一衍生特征、第二衍生特征和第三衍生特征分别作为训练粒子,利用粒子群优化算法训练初始违规识别模型;
[0119]
粒子群优化算法(partical swarm optimization,pso)是一种从生物种群行为特性中得到启发并用于求解优化问题的方法,又可以叫做启发式搜索算法,pso算法可完成人工神经网络中的连接权值的训练、结构设计、学习规则调整、特征选择、连接权值的初始化和规则提取等。它是用一种粒子来模拟鸟类个体,每个粒子可视为n维搜索空间中的一个搜索个体,粒子的当前位置即为对应优化问题的一个候选解,粒子的飞行过程即为该个体的搜索过程,粒子的飞行速度可根据粒子历史最优位置和种群历史最优位置进行动态调整,粒子仅具有两个属性:速度和位置,速度代表移动的快慢,位置代表移动的方向。每个粒子单独搜寻的最优解叫做个体极值,粒子群中最优的个体极值作为当前全局最优解。不断迭代,更新速度和位置。最终得到满足终止条件的最优解。本技术中,将第一衍生特征、第二衍生特征和第三衍生特征分别作为训练粒子来对初始违规识别模型进行训练。
[0120]
训练过程中,粒子位置更新公式为:
[0121]
θ
l 1
=θ
l
v
l
[0122]
粒子速度更新公式为:
[0123]vl 1
=ω*v
l
c1*rand(0,1)*(pbest
l-θ
l
) c2*rand(0,1)*(gbest
l-θ
l
)
[0124]
其中,θ
l
为粒子当前位置,v
l
为粒子当前速度,ω为惯性因子,值为非负数,ω较大时,全局寻优能力强,局部寻优能力强,较小时,全局寻优能力弱,局部寻优能力强,通过调整ω的大小,可以对全局寻优性能进行调整,本技术中设定ω为0.6;c1为每个粒子的个体学习因子,c2为每个粒子的社会学习因子,本技术中设定c1=c2=1.7;rand(0,1)为区间[0,1]上的随机数,pbest
l
为第l个变量的个体极值,gbest
l
为全局最优解。
[0125]
本技术中,初始违规识别模型为:
[0126][0127]
其中,y=1表示存在违规使用情况,x表示衍生特征向量,θ表示衍生特征向量的参数。s502、在训练过程中,利用梯度下降法求解初始违规识别模型对应的损失函数;
[0128]
在本技术中,还可以对欺诈样本即第二训练样本进行扩充,即:利用预设滑动时间窗口截取并复制预设滑动时间窗口中的第二训练样本,按照预设步长在时间轴上移动预设滑动时间窗口,将预设滑动时间窗口内的第二训练样本,粘贴到预设滑动时间窗口的当前位置,以使得在训练样本集中对第二训练样本进行扩充。
[0129]
本技术中,定义损失函数计算式为:
[0130][0131]
其中,h
θ
(x)=p(y=1|x;θ),m表示衍生特征数量,即对储值卡号进行聚合,取预测概率的最大值与标识的交叉熵,t表示以天为单位的预设滑动时间窗口内的每一天,比如本技术中预设滑动时间窗口囊括了3天的训练样本,则t的取值分别可以是1、2和3,用于表示预设滑动时间窗口内的第1天、第2天和第3天。
[0132]
s503、当损失函数的值小于预设阈值时,完成训练,并将完成训练的模型确认为违规识别模型。
[0133]
如图6所示,为本技术中对违规识别模型进行保存的一个流程示意图,在本技术一些实施例中,储值卡违规使用识别方法还可以包括:
[0134]
s601、根据违规识别模型的历史识别结果,计算模型指标,模型指标包括模型精确率、模型召回率以及模型精确率和模型召回率的调和平均数;
[0135]
本技术中,模型精确率为预测为未违规使用且预测正确的样本占全部预测为未违规使用的比例;模型召回率为预测为未违规使用且预测正确的样本占全部未违规使用的比例。
[0136]
s602、将违规识别模型序列化为模型字符串;
[0137]
s603、将模型字符串以及对应的模型指标写入数据仓库工具hive表。
[0138]
本技术中,hive是基于hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在hadoop中的大规模数据的机制。hive能将结构化的数据文件映射为一张数据库表,并提供结构化查询语言(structured query language,sql)查询功能,能将sql语句转变成映射-规约任务来执行。由于交易记录每天会有更新,因此,训练样本集也可以有更新,进而违规使用识别模型也可以更新,通过将模型字符串以及对应的模型指标写入数据仓库工具hive表中,可以将最新的数据分别用前后两个模型进行预测,比较模型指标,选择召回率更高且精确率大于阈值的模型作为识别模型;当需要使用违规使用识别模型进行违规情况识别时,也可以选择模型精确率和模型召回率的调和平均数最大时所对应的模型字符串,将该模型字符串反序列化为可执行对象,即违规使用识别模型,来预测目标储值卡的违规使用概率。
[0139]
为了更好实施本技术中的储值卡违规使用识别方法,在储值卡违规使用识别方法基础之上,本技术还提供一种储值卡违规使用识别装置,如图7所示,为本技术中提供的储值卡违规使用识别装置的一个结构示意图,储值卡违规使用识别装置700包括:
[0140]
获取模块701,用于获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;
[0141]
处理模块702,用于将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;
[0142]
输出模块703,用于若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
[0143]
在本技术一些实施例中,储值卡类型包括物流储值卡和其他类型储值卡,处理模块702具体可以用于:
[0144]
获取训练样本集,训练样本集包括第一训练样本、第二训练样本和第三训练样本,第一训练样本为用户标识的未存在违规使用情况的多个物流储值卡的第一衍生特征,第二训练样本为用户标识的确定存在违规使用情况的多个物流储值卡的第二衍生特征,第三训练样本为用户标识的多个其他类型储值卡的第三衍生特征;
[0145]
分别对第一衍生特征和第三衍生特征进行特征选择,得到模型特征;
[0146]
利用模型特征、第一训练样本、第二训练样本和第三训练样本对初始违规识别模型进行训练,得到违规识别模型。
[0147]
在本技术一些实施例中,第一训练样本携带有用户配置的第一标识,第一标识用于表明第一训练样本对应的储值卡类型为物流储值卡,第三训练样本携带有用户配置的第
二标识,第二标识用于表明第三训练样本对应的储值卡类型为其他类型储值卡,处理模块702具体还可以用于:
[0148]
根据第一标识和第一衍生特征,以及,第二标识和第三衍生特征,构建极端梯度提升xgb模型;
[0149]
利用xgb模型分别计算第一衍生特征和第三衍生特征的信息增益值;
[0150]
将信息增益值大于预设信息增益阈值的第一衍生特征和第三衍生特征确定为模型特征。
[0151]
在本技术一些实施例中,处理模块702具体还可以用于:
[0152]
将第一衍生特征、第二衍生特征和第三衍生特征分别作为训练粒子,利用粒子群优化算法训练初始违规识别模型;
[0153]
在训练过程中,利用梯度下降法求解初始违规识别模型对应的损失函数;
[0154]
当损失函数的值小于预设阈值时,完成训练,并将完成训练的模型确认为违规识别模型。
[0155]
在本技术一些实施例中,处理模块702具体还可以用于:
[0156]
根据违规识别模型的历史识别结果,计算模型指标,模型指标包括模型精确率、模型召回率以及模型精确率和模型召回率的调和平均数;
[0157]
将违规识别模型序列化为模型字符串;
[0158]
将模型字符串以及对应的模型指标写入数据仓库工具hive表。
[0159]
在本技术一些实施例中,第一训练样本、第二训练样本和第三训练样本按照对应的储值卡的使用时间顺序排序,处理模块702具体还可以用于:
[0160]
利用预设滑动时间窗口截取并复制预设滑动时间窗口中的第二训练样本;
[0161]
按照预设步长在时间轴上移动预设滑动时间窗口;
[0162]
将预设滑动时间窗口内的第二训练样本,粘贴到预设滑动时间窗口的当前位置,以使得在训练样本集中对第二训练样本进行扩充。
[0163]
在本技术一些实施例中,获取模块701具体可以用于:
[0164]
获取目标储值卡的交易记录;
[0165]
统计交易记录对应的人员特征、地址特征、时间特征、物品特征、价格特征以及交叉特征,交叉特征为人员特征、地址特征、时间特征、物品特征以及价格特征组成的任意组合的特征,得到多个衍生特征。
[0166]
需要说明的是,本技术中,获取模块701、处理模块702和输出模块703的相关内容与上述一一对应,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的储值卡违规使用识别装置及其相应模块的具体工作过程,可以参考如图2至图6对应任意实施例中储值卡违规使用识别方法的说明,具体在此不再赘述。
[0167]
为了更好实施本技术的储值卡违规使用识别方法,在储值卡违规使用识别方法基础之上,本技术还提供一种储值卡违规使用识别设备,其集成了本技术所提供的任一种储值卡违规使用识别装置,该设备包括:
[0168]
一个或多个处理器801;
[0169]
存储器802;以及
[0170]
一个或多个应用程序,其中一个或多个应用程序被存储于存储器802中,并配置为
由处理器801执行上述储值卡违规使用识别方法中任一项实施例的储值卡违规使用识别方法中的步骤。
[0171]
如图8所示,其示出了本技术所涉及的储值卡违规使用识别设备的一个结构示意图,具体来讲:
[0172]
该设备可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解,图8中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0173]
处理器801是该设备的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行设备的各种功能和处理数据,从而对设备进行整体监控。可选的,处理器801可包括一个或多个处理核心;处理器801可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。
[0174]
存储器802可用于存储软件程序以及模块,处理器801通过运行存储在存储器802的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器802还可以包括存储器控制器,以提供处理器801对存储器802的访问。
[0175]
该设备还包括给各个部件供电的电源803,优选的,电源803可以通过电源管理系统与处理器801逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0176]
该设备还可以包括输入单元804和输出单元805,该输入单元804可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0177]
尽管未示出,该设备还可以包括显示单元等,在此不再赘述。具体在本技术中,设备中的处理器801会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序,从而实现各种功能,如下:
[0178]
获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;
[0179]
将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;
[0180]
若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
[0181]
本领域普通技术人员可以理解,上述的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0182]
为此,本技术提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(read only memory,rom)、随机存取记忆体(random access memory,ram)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本技术所提供的任一种储值卡违规使用识别方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
[0183]
获取目标储值卡的目标特征统计表,目标特征统计表存储有目标储值卡的多个衍生特征,衍生特征由目标储值卡的交易记录衍生得到;
[0184]
将目标特征统计表导入违规识别模型,得到目标违规概率,违规识别模型用于根据输入的目标储值卡的衍生特征预测目标储值卡的违规概率;
[0185]
若目标违规概率大于预设违规概率,则确定目标储值卡存在违规使用情况。
[0186]
由于该计算机可读存储介质中所存储的指令,可以执行本技术如图2至图6对应任意实施例中储值卡违规使用识别方法中的步骤,因此,可以实现本技术如图2至图6对应任意实施例中储值卡违规使用识别方法所能实现的有益效果,详见前面的说明,在此不再赘述。
[0187]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
[0188]
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的实施例,在此不再赘述。
[0189]
以上对本技术所提供的一种储值卡违规使用识别方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献