一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

风险运单数据识别方法、装置、计算机设备和存储介质与流程

2022-06-11 17:38:28 来源:中国专利 TAG:


1.本技术涉及物流技术领域,特别是涉及一种风险运单数据识别方法、装置、计算机设备和存储介质。


背景技术:

2.当前,在物流领域中,收派人员有机会进行违规虚假操作,而收派端的违规虚假操作可能会给公司带来损失,或者给客户带来不良的体验,因此需要通过一定的方法尽可能的识别出存在违规和虚假操作的运单数据,从而减少公司的损失和提高用户体验。
3.为了识别出可能存在违规虚假操作的运单数据,可以对每一位收派人员的揽收、派送数据进行统计,然后根据经验取阈值进行判断运单是否存在违规虚假操作。然而这种方式统计分析需要花费大量的时间,效率低下。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高效率的风险运单数据识别方法、装置、计算机设备和存储介质。
5.一种风险运单数据识别方法,所述方法包括:
6.获取历史运单数据;
7.根据所述历史运单数据确定与预设异常操作关联的目标特征;
8.基于局部异常因子检测算法和所述目标特征,确定各所述历史运单数据与所述目标特征对应的异常分数;
9.将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据。
10.在其中一个实施例中,将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据之前,还包括:
11.将各所述异常分数按照从小到大的顺序进行排序,得到异常分数排序结果;
12.将所述异常分数排序结果中的第三四分位数确定为所述预设阈值。
13.在其中一个实施例中,将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据之后,还包括:
14.将所述风险运单数据推送至对应的目标对象,获取所述目标对象的反馈信息;
15.根据所述反馈信息确定存在异常操作的真实异常运单;
16.取两个以上的k数值,分别确定各k数值对应的第k四分位数;
17.分别以各第k四分位数作为候选阈值,确定各所述历史运单数据中的预测异常运单;
18.基于所述真实异常运单和所述预测异常运单,计算各所述第k四分位数对应的召回率和精准率;
19.根据各所述第k四分位数对应的召回率和精准率确定所述预设阈值。
20.在其中一个实施例中,所述历史运单数据包括历史运单包含的各订单是否被取消
寄件;所述预设异常操作包括虚假揽收;所述目标特征包括:同一收派人员取消寄件的操作次数。
21.在其中的一个实施例中,所述基于局部异常因子检测算法和所述目标特征,确定各所述历史运单数据与所述目标特征对应的异常分数,包括:
22.以所有所述历史运单数据中同一收派人员取消寄件的操作次数为特征值,基于局部异常因子检测算法构建局部异常因子检测模型;获取所述局部异常因子检测模型输出的各所述历史运单数据与所述目标特征对应的异常分数。
23.在其中一个实施例中,所述历史运单数据包括历史运单对应的揽收地址、所述历史运单的妥投操作地点;所述预设异常操作包括非收方地址派送;所述目标特征包括:妥投操作地点与收件地址之间的距离。
24.在其中的一个实施例中,所述基于局部异常因子检测算法和所述目标特征,确定各所述历史运单数据与所述目标特征对应的异常分数,包括:
25.以所有所述历史运单数据中妥投操作地点与收件地址之间的距离作为特征为特征值,基于局部异常因子检测算法构建局部异常因子检测模型;获取所述局部异常因子检测模型输出的各所述历史运单数据与所述目标特征对应的异常分数。
26.一种风险运单数据识别装置,所述装置包括:
27.获取模块,用于获取历史运单数据;
28.特征确定模块,用于根据所述历史运单数据确定与预设异常操作关联的目标特征;
29.异常分数确定模块,用于基于局部异常因子检测算法和所述目标特征,确定各所述历史运单数据与所述目标特征对应的异常分数;
30.识别模块,用于将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据。
31.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述风险运单数据识别方法的步骤。
32.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述风险运单数据识别方法的步骤。
33.上述风险运单数据识别方法、装置、计算机设备和存储介质,在获取历史运单数据后,根据历史运单数据确定与预设异常操作关联的目标特征,基于目标特征和局部异常因子检测算法,确定各历史运单对应的异常分数,将各异常分数与预设阈值进行比较,将大于预设阈值的历史运单数据确定为风险运单数据。上述方法在需要对异常操作进行识别时,利用与异常操作相关的特征信息,同时基于局部异常因子检测算法来输出各历史运单数据对应的异常分数,并结合预设阈值从所有历史运单中筛选出可能存在异常操作的风险运单数据,由于利用了局部异常因子检测算法,可大大提高风险运单数据的识别效率。
附图说明
34.图1为一个实施例中风险运单数据识别方法的流程示意图;
35.图2为另一个实施例中风险运单数据识别方法的流程示意图;
36.图3为另一个实施例中风险运单数据识别方法的流程示意图;
37.图4为一个具体实施例中风险运单数据识别方法的流程示意图;
38.图5为一个实施例中风险运单数据识别装置的结构框图;
39.图6为另一个实施例中风险运单数据识别装置的结构框图;
40.图7为另一个实施例中风险运单数据识别装置的结构框图;
41.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
42.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
43.在一个实施例中,如图1所示,提供了一种风险运单数据识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括步骤s110至步骤s140。
44.步骤s110,获取历史运单数据。
45.历史运单数据是指在历史时间段内产生的运单数据,历史时间段可根据实际情况设置,例如可设置为历史1个月、历史半个月,或者前一天等等。在一个实施例中,历史运单数据可划分为揽收运单的数据和派送运单的数据;其中揽收运单通常是收派人员从寄件方客户处揽收并需要寄出的运单,派送运单通常为收派人员需要将其派送至收件方客户的运单。
46.在一个实施例中,历史运单为揽收运单,历史运单数据包括:揽收的运单中包含的每个订单的订单号、揽收时间、揽收人员、揽收人员所在网点,以及订单是否被取消寄件。其中,根据订单是否被取消寄件的运单数据可确定滞留订单且滞留原因为取消寄件;在一个实施例中,订单是否被取消寄件的运单数据通过巴枪操作系统中的fvp路由表获取。其中,巴枪是物流快递业用的一种手持终端设备,有操作系统、扫描引擎,是物流快递业数据存储的载体。巴枪作为快速数据采集智能设备,整合了揽收扫描、分拣跟踪、派件扫描、装车扫描等各个快递环节的工作业务,可以实现智能化工作与管理。通过巴枪扫描监控快件的所有转运环节,可在后台同步对快件位置进行实时跟踪记录,方便管理者及客户及时通过系统查询货物信息,实现过程管理;同时采用条码技术,盘点人员通过巴枪扫描完成盘点工作;还可以对出入库商品进行智能化核对、统计及数据上报等。在一个实施例中,运单中包含的每个订单的订单号、揽收时间、揽收人员、揽收人员所在网点等运单数据可从订单及时响应明细表中获取。
47.在另一个实施例中,历史运单为派送运单,历史运单数据包括派送的运单号、妥投操作时间、妥投操作地点、收件地址、操作人员等等数据。在一个实施例中,从运单宽表中获取运单的收件地址、妥投操作时间点、妥投操作地点、妥投操作人员、妥投操作人员所在网点等信息,然后以运单号进行去重,保留每一运单号对应的最新数据,基于最新数据确定该运单号的历史运单数据。
48.步骤s120,根据历史运单数据确定与预设异常操作关联的目标特征。
49.其中,预设异常操作为预先设定的异常操作;在一个实施例中,预设异常操作与历
史运单的类型关联;例如历史运单为揽收运单,预设异常操作包括虚假揽收操作,具体包括取消寄件;部分人员可能通过对于订单操作揽件后又取消寄件,以此来提升自身的业绩数据等,即可能出现虚假揽收的情况。又如历史运单为派送运单,预设异常操作包括非收方地址派送,具体包括操作妥投的地点与收件方地址的距离超出阈值;部分人员通过擅自提前操作妥投来规避派送超时等惩处,就可能存在操作妥投的地点与收件方地址的距离超出阈值的情况。
50.在一个实施例中,历史运单数据包括历史运单包含的各订单是否被取消寄件;预设异常操作包括虚假揽收操作;目标特征包括:同一收派人员取消寄件的操作次数。
51.在一个实施例中,根据历史运单数据确定与预设异常操作关联的目标特征,包括:在获取到历史运单包含的各订单是否被取消寄件之后,以收派人员的维度对取消寄件的订单进行聚类,得到同一收派人员在历史运单数据中取消寄件的次数。在另一个实施例中,根据历史运单数据确定与预设异常操作关联的目标特征包括:统计被取消寄件的历史订单对应的历史运单数量,得到同一收派人员关联的取消寄件的操作次数。其中,运单和订单的关系包括:一个运单中可能对应包括多个订单。可以理解地,同一收派人员在一定时间内取消寄件的操作次数过多则该收派人员可能存在虚假揽收操作。
52.本实施例中,利用揽件后取消寄件的次数,可对揽收运单中可能存在的虚假揽收的异常操作进行识别。
53.在另一个实施例中,历史运单数据包括历史运单对应的揽收地址、所述历史运单的妥投操作地点;预设异常操作包括非收方地址派送;目标特征包括:妥投操作地点与收件地址之间的距离。
54.进一步地,在一个实施例中,根据历史运单数据确定与预设异常操作关联的目标特征,包括:根据预设地址经纬度转换表,将收件地址转换为对应的经纬度位置,妥投操作地点经纬度位置与收件地址经纬度位置之间的距离,即为妥投操作地点与收件地址之间的距离。其中,妥投操作地点通常是以经纬度位置表示。计算两个经纬度位置点之间的距离可通过任意一种方式实现。
55.本实施例中,利用妥投操作地点与收件地址之间的距离,可对派送运单中可能存在的非收方地址派送的异常操作进行识别。
56.本实施例中需要对运单是否存在预设异常操作进行识别,需要结合运单中与该预设异常操作相关的特征数据进行分析,即为本实施例中与预设异常操作关联的目标特征。在获取到历史运单数据后,可根据历史运单数据确定与预设异常操作关联的目标特征。
57.步骤s130,基于局部异常因子检测算法和目标特征,确定各历史运单数据与目标特征对应的异常分数。
58.其中,局部异常因子检测算法,也称局部离群因子检测方法(lof算法,local outlier factor),是一种无监督的离群检测方法,是基于密度的离群点检测方法中一个比较有代表性的算法。该算法会给数据集中的每个点计算一个离群因子lof。
59.在一个实施例中,将各历史运单数据与预设异常操作关联的目标特征作为特征值,构建对应的局部异常因子检测模型,然后获取局部异常因子检测模型输出的每一个历史运单数据对应的预设异常操作的分数,本实施例中记为异常分数。在一个实施例中,局部异常因子检测算法输出的异常分数越大,表示输入的特征数据在预设异常操作的检测中越
异常,进而基于异常分数可以筛选出可能存在预设异常操作的风险历史运单。
60.在一个实施例中,基于局部异常因子检测算法和目标特征,确定各历史运单数据与目标特征对应的异常分数,包括:以所有历史运单数据中同一收派人员取消寄件的操作次数为特征值,基于局部异常因子检测算法构建局部异常因子检测模型;获取局部异常因子检测模型输出的各历史运单数据与目标特征对应的异常分数。
61.可以理解地,若以同一收派人员揽收后取消寄件的次数作为特征构建局部异常因子检测模型,则该局部异常因子检测模型对历史运单数据的这一目标特征值输出的异常分数,可用于表征历史运单数据中属于同一收派人员的取消寄件的操作是否异常;可以理解地,若异常分数越大,表示该收派人员的取消寄件的操作越异常,越有可能存在虚假揽收的风险。
62.在另一个实施例中,基于局部异常因子检测算法和目标特征,确定各历史运单数据与目标特征对应的异常分数,包括:以所有历史运单数据中妥投操作地点与收件地址之间的距离作为特征为特征值,基于局部异常因子检测算法构建局部异常因子检测模型;获取局部异常因子检测模型输出的各历史运单数据与目标特征对应的异常分数。
63.可以理解地,若以妥投操作地点与收件地址之间的距离作为特征构建局部异常因子检测模型,则该局部异常因子检测模型对历史运单数据的这一目标特征值输出的异常分数,可用于表征历史运单数据中各历史运单的派送是否异常;可以理解地,若异常分数越大,表示该历史运单的妥投操作地点与收件地址之间的距离越异常,该历史运单越有可能存在非收方地址派送的风险;后续可利用设定阈值的方式判定是否存在操作异常。
64.步骤s140,将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据。
65.本实施例中预先设定阈值,以预设阈值来判定运单数据是否为存在异常操作的风险运单数据;在一个实施例中,预设阈值是预先结合历史数据分析后设定的,例如在分析大量历史数据后,选定的数值可以较为明显的区分出存在异常操作的运单和不存在异常操作的运单,则可将该数值设置为预设阈值;进一步地,在一个实施例中,预设阈值可利用分位数的方式确定,例如在计算得到所有历史运单数据与预设异常操作对应的异常分数之后,利用分位数从其中确定一个异常分数作为预设阈值。在一个具体实施例中,将所有异常分数进行从小到大的排序之后,取第三四分位数作为预设阈值。更进一步地,在另一个实施例中,对于异常分数取值作为预设阈值的方案,还可以取不同的k数值,并取排序之后的异常分数中第k四分位数,分别计算各第k四分位数对应的召回率和精准率,并结合召回率和精准率选择其中的一个第k四分位数作为预设阈值。以上确定预设阈值的具体过程将在后实施例中详细描述,在此不再赘述。可以理解地,在其它实施例中,预设阈值的确定也可以通过其它方式实现。
66.本实施例中,通过将计算得到的各历史运单数据对应的与预设异常操作关联的异常分数与预设阈值进行比较,将大于预设阈值的异常分数对应的历史运单数据确定为可能存在预设异常操作的风险运单数据,即有可能存在异常操作的历史运单,后续可将识别出的风险运单数据推送至相关人员,由相关人员进行二次确认从而识别出历史运单中实际存在异常操作的运单。
67.上述风险运单数据识别方法,在获取历史运单数据后,根据历史运单数据确定与
预设异常操作关联的目标特征,基于目标特征和局部异常因子检测算法,确定各历史运单对应的异常分数,将各异常分数与预设阈值进行比较,将大于预设阈值的历史运单数据确定为风险运单数据。上述方法在需要对异常操作进行识别时,利用与异常操作相关的特征信息,同时基于局部异常因子检测算法来输出各历史运单数据对应的异常分数,并结合预设阈值从所有历史运单中筛选出可能存在异常操作的风险运单数据,由于利用了局部异常因子检测算法,可大大提高风险运单数据的识别效率。
68.在一个实施例中,如图2所示,将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据之前,还包括:步骤s210,将各异常分数按照从小到大的顺序进行排序,得到异常分数排序结果;步骤s220,将异常分数排序结果中的第三四分位数确定为预设阈值。
69.其中,对异常分数进行排序按照从小到大的顺序进行排列,本实施例中将排序得到的结果记为异常分数排序结果。
70.分位数(quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。其中,四分位数(quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。四分位数通常包括:1)第一四分位数(q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;2)第二四分位数(q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字;3)第三四分位数(q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距。
71.在本实施例中,对于所有异常分数进行大小排序之后,利用第三四分位数对应的异常分数确定为预设阈值。在其它实施例中,也可以采用其它方式确定预设阈值。
72.本实施例中,基于所有历史运单数据的目标特征确定与预设异常操作对应的异常分数之后,对异常分数进行排序,并将异常分数中从小到大的第三四分位数对应的异常分数确定为预设阈值,能够根据实际数据确定阈值,随着历史运单数据的不同,确定的预设阈值也随之变化,因此选定的预设阈值更加符合实际情况,使得检测风险运单数据更加准确。
73.进一步地,如图3所示,在一个实施例中,在将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据之后,还包括步骤s310至步骤s360。
74.步骤s310,将风险运单数据推送至对应的目标对象,接收目标对象的反馈信息。
75.在一个实施例中,在根据异常分数和预设阈值确定历史运单中的风险运单数据之后,读取风险运单数据关联的对象,记为目标对象,即风险运单数据实际关联的对象,使该目标对象对该风险运单数据进行二次确认,并进行反馈信息;在一个实施例中,若目标对象确定该风险运单数据确实存在异常操作,则可以给出确认的反馈信息;在另一个实施例中,若目标对象确定该风险运单数据不存在异常操作,可反馈用于证明不存在异常操作的证明信息,如与客户的沟通记录等等。进一步地,在一个实施例中,对象可以表示收派人员的账号等等。
76.在一个实施例中,目标对象的反馈信息包括存在异常操作、不存在异常操作,等等,进一步地,根据目标对象的反馈信息可以确定风险运单数据是否存在异常操作。
77.在一个实施例中,将风险运单数据推送至对应的目标对象这一过程可以通过运作
助手完成。
78.步骤s320,根据反馈信息确定存在异常操作的真实异常运单。
79.由于反馈信息是由风险运单数据对应的对象自身反馈,根据反馈信息可以确定该风险运单数据是否确实存在异常操作,若确实存在异常操作,则记为真实异常运单。
80.步骤s330,取两个以上的k数值,分别确定各k数值对应的第k四分位数。
81.需要说明的是由于本实施例中是采用四分位数中的数值作为候选阈值,因此0《k《4。在一个具体实施例中,取k=2、k=2.5、k=3、k=3.5,分别确定对应的第k四分位数。
82.步骤s340,分别以各第k四分位数作为候选阈值,确定各历史运单数据中的预测异常运单。
83.步骤s350,基于真实异常运单和预测异常运单,计算各第k四分位数对应的召回率和精准率。
84.其中,预测异常运单是指利用第k四分位数作为候选阈值时,异常分数大于第k四分位数的历史运单数据,与图1所示实施例中的风险运单数据概念等同,为了区分,在此记为预测异常运单。
85.精准率和召回率是利用结果来评估模型效果的概念;在一个实施例中,计算第k四分位数对应的召回率包括:确定预测异常运单与真实异常运单的交集的第一运单数量,和真实异常运单的第二运单数量,将第一运单数量与第二运单数量的比值确定为召回率。计算第k四分位数的精准率包括:确定预测异常运单与真实异常运单的交集的第一运单数量,和预测异常运单的第三运单数量,将第一运单数量与第三运单数量的比值确定为精准率。依次对各第k四分位数计算,可得到对应的召回率和精准率。
86.步骤s360,根据各第k四分位数对应的召回率和精准率确定预设阈值。
87.在一个实施例中,根据各第k四分位数对应的召回率和精准率确定预设阈值,包括:将第k四分位数的召回率和精准率的乘积确定为检测效果分数,将检测效果分数中分数最高的第k四分位数确定为预设阈值。
88.本实施例中,通过结合目标对象针对风险运单数据的反馈信息进行分析,利用设定的两个以上k值,分别计算召回率和精准率,从而从两个以上k值中选取效果最好的一组第k四分位数,确定为预设阈值,可实现阈值的自动迭代更新,进一步提高识别风险运单数据的准确率和召回率。
89.在一个实施例中,在根据反馈信息确定存在异常操作的真实异常运单之后,还包括:记录各目标对象的真实异常运单数据,基于真实异常运单数据确定目标对象的分数。其中,基于真实异常运单数据确定目标对象的分数可根据任意一种方式进行。
90.在一个具体实施例中,如图4所示,上述风险运单数据识别方法包括步骤s1至s5,本实施例中以历史运单数据为前一日的历史运单数据为例,即每日对前一天的运单数据进行识别:
91.s1:获取历史运单数据
92.1)从运单宽表中获取前一日的派送运单的妥投操作时间点、妥投操作地点经纬度、妥投收派人员工号、妥投收派人员所在网点;根据运单号去重,对于每一个运单号,保留最新的数据,结果存储为表1;
93.2)获取各运单号对应的收件地址,根据地址转经纬度表将收件地址转换为对应的
经纬度,结果存储为表2;
94.3)从订单及时响应明细表中获取前一日揽收的每一个订单对应的运单号、揽收时间、揽收收派人员工号、揽收收派人员所在网点,结果存储为表3;
95.4)从fvp路由表中获取每个运单的操作滞留且滞留原因为取消寄件的时间,结果表标记为表4。
96.s2:数据表整合
97.1)以表1为主表,根据运单号左连接表2,获得判断运单是否被非收方地址派送的基础表5;
98.2)以表3为主表,根据运单号左连接表4,结果存储为表6。若该结果表中某订单号对应的操作滞留且滞留原因为取消寄件的时间字段为空,则说明该订单无取消寄件现象;若某订单对应的运单号有过多次因取消寄件而滞留的操作,则说明该订单存在多次频繁取消寄件的情况;
99.3)筛选出表6中操作滞留且滞留原因为取消寄件的时间字段非空的记录,获得判断订单是否被虚假揽收的基础表7。
100.s3:异常操作识别模型(包括非收方地址派送识别模型和虚假揽收识别模型)
101.①
非收方地址派送识别模型:
102.1)根据表5中妥投操作地点经纬度和收件地址经纬度,计算每个运单操作妥投和收件地址的地球表面距离,地球表面计算sql公式为:
103.1000.0*acos(sin((收件地址经度*3.1415)/180)*sin((操作妥投经度*3.1415)/180) cos((收件地址经度*3.1415)/180)*cos((操作妥投经度*3.1415)/180)*cos((收件地址纬度*3.1415)/180-(操作妥投纬度*3.1415)/180))*6380
104.2)将所有派送运单的操作妥投和收件地址的地球表面距离作为特征,构建lof局部异常因子检测模型,获取lof模型输出的各派送运单的异常分数,将异常分数与运单对应的日期、运单号、操作妥投和收件地址的地球表面距离一同存储为表8;
105.3)将异常分数从小到大排列,设总个数为n,计算n个异常分数的第三四分位数(q3):
106.q3的位置=(n 1)
×
0.75,n个异常分数中在“q3的位置”的分数即为n个异常分数的第三四分位数(q3);
107.4)操作妥投和收件地址的地球表面距离的异常分数大于第三四分位数的对应的运单被标记为非收方地址派送的风险运单;
108.5)将被标记为非收方地址派送风险运单的运单号、对应的妥投收派人员工号、妥投收派人员所在网点传给运作助手。
109.②
虚假揽收识别模型:
110.1)以收派人员维度聚合统计表6中每个收派人员当天操作揽件后取消寄件的次数;
111.2)将每个收派人员当天操作揽件后取消寄件的次数作为特征,构建lof局部异常因子检测模型,获取lof模型输出各揽收运单的异常分数,将异常分数与对应运单的日期、收派人员号、当天操作揽件后取消寄件的次数一同存储为表9;其中,构建lof局部异常因子检测模型具体包括:将历史运单数据中的特征值作为lof模型输入,进行模型训练拟合,即
可得到局部异常因子检测模型。
112.3)将异常分数从小到大排列,设总个数为n,计算n个异常分数的第三四分位数(q3):
113.q3的位置=(n 1)
×
0.75,n个异常分数中在“q3的位置”的分数即为n个异常分数的第三四分位数(q3);
114.4)当天操作揽件后取消寄件的次数的异常分数大于第三四分位数的对应的收派人员被标记为操作虚假揽收的收派人员;
115.5)筛选出表6中揽收收派人员为被标记为操作虚假揽收的收派人员的订单明细,这些订单、运单明细被标记为虚假揽收;
116.6)根据运单号去重,将被标记为虚假揽收的运单号、揽收收派人员工号、妥投收派人员所在网点传给运作助手。
117.s4:运作助手任务核查
118.1)运作助手每月将上一月被标记为虚假揽收、非收方地址派送的事件进行反馈及证据提交;
119.2)结合收派人员反馈、运单最终路由与客户反馈等,由网点主管完成运作助手里其网点内上月被标记为虚假揽收、非收方地址派送的事件的虚假行为的核查与是否虚假的确认;
120.此外,在另一个实施例中,网点主管也可新增虚假揽收、非收方地址派送的事件,提交上月该网点内存在虚假揽收、非收方地址派送的行为,却未在运作助手里被提及的相应运单号、操作收派人员工号、虚假类型及相关证据。
121.在另一个实施例中,根据运作助手返回的确认是虚假揽收、非收方地址派送的运单明细表(上述反馈信息),可传输至其它部门用于计算收派人员的薪资等。
122.s5:虚假行为识别模型阀值调整
123.①
非收方地址派送识别模型:
124.1)根据上月lof模型输出的表8,将异常分数从小到大排列,设总个数为n,依次计算n个异常分数的第k四分位数(k候选项含【2,2.5,3.3.5】):
125.第k四分位数的位置=(n 1)
×
k/4,n个异常分数中在“第k四分位数的位置”的分数即为n个异常分数的第k四分位数;
126.2)操作妥投和收件地址的地球表面距离异常分数大于第k四分位数的对应的运单被标记为非收方地址派送,标记为非收方地址派送的运单集合为n
label

127.3)将运作助手中返回的确认为非收方地址派送的运单和各网点主管新增的非收方地址派送的运单标记为真实非收方地址派送运单,真实非收方地址派送的运单集合为n
true

128.4)计算召回率与精确率,并计算取第k四分位数作为阀值的检测效果分数:
129.检测效果分数=召回率*精确率;
130.5)针对每个k候选项,重复步骤1)-4),输出检测效果分数最高的k值作为k
best

131.6)非收方地址派送识别模型中操作妥投和收件地址的地球表面距离的异常阀值改为第k
best
四分位数。
132.②
虚假揽收识别模型:
133.1)根据上月lof模型输出的表9,将异常分数从小到大排列,设总个数为n,依次计算n个异常分数的第k四分位数(k候选项含【2,2.5,3.3.5】):
134.2)第k四分位数的位置=(n 1)
×
k/4,n个异常分数中在“第k四份为点数的位置”的分数即为n个异常分数的第k四分位数;
135.3)各收派人员当天操作揽件后取消寄件的次数异常分数大于第k四分位数的对应的收派人员被标记为操作虚假揽收的收派人员;
136.4)筛选出上月表6中收派人员为被标记为操作虚假揽收的对象的订单明细,这些订单、运单明细被标记为虚假揽收;
137.5)将运单号去重,这些被标记为虚假揽收的运单集合为n
label

138.6)将运作助手中返回的确认为虚假揽收的运单和各网点主管新增的虚假揽收的运单标记为真实虚假揽收运单,真实虚假揽收的运单集合为n
true

139.7)计算召回率与精确率,并计算取第k四分位数作为阀值的检测效果分数:
140.检测效果分数=召回率*精确率;
141.8)针对每个k候选项,重复步骤1)-7),输出检测效果分数最高的k值作为k
best

142.9)虚假揽收识别模型中各收派人员当天操作揽件后取消寄件的次数的异常阀值改为第k
best
四分位数。
143.本实施例中的风险运单数据识别方法,通过结合局部异常因子检测算法(根据所有点的局部密度来判别各点的异常程度)构建局部异常因子检测模型,并利用该模型进行收派端违规虚假操作的智能识别;并结合业务人员反馈的机制,对局部异常因子检测模型进行闭环迭代,从而使得模型能更灵活得调整成适合当下的合理的违规虚假操作的识别阀值;减少收派端虚假揽收、非收方地址派送的违规虚假操作现象,提升客户体验,降低客户投诉、公司成本,提升公司整体效益。
144.应该理解的是,虽然上述实施例中所涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例中所涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
145.在一个实施例中,如图5所示,提供了一种风险运单数据识别装置,包括:获取模块510、特征确定模块520、异常分数确定模块530和识别模块540,其中:
146.获取模块510,用于获取历史运单数据;
147.特征确定模块520,用于根据历史运单数据确定与预设异常操作关联的目标特征;
148.异常分数确定模块530,用于基于局部异常因子检测算法和目标特征,确定各历史运单数据与目标特征对应的异常分数;
149.识别模块540,用于将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据。
150.上述风险运单数据识别装置,在获取历史运单数据后,根据历史运单数据确定与预设异常操作关联的目标特征,基于目标特征和局部异常因子检测算法,确定各历史运单
对应的异常分数,将各异常分数与预设阈值进行比较,将大于预设阈值的历史运单数据确定为风险运单数据。上述装置在需要对异常操作进行识别时,利用与异常操作相关的特征信息,同时基于局部异常因子检测算法来输出各历史运单数据对应的异常分数,并结合预设阈值从所有历史运单中筛选出可能存在异常操作的风险运单数据,由于利用了局部异常因子检测算法,可大大提高风险运单数据的识别效率。
151.在一个实施例中,如图6所示,上述风险运单数据识别装置还包括排序模块610和阈值确定模块620,其中:
152.排序模块610,用于将各异常分数按照从小到大的顺序进行排序,得到异常分数排序结果;
153.阈值确定模块620,用于将异常分数排序结果中的第三四分位数确定为预设阈值。
154.在一个实施例中,如图7所示,上述风险运单数据识别装置还包括:反馈信息接收模块710、真实异常运单确定模块720、计算模块730、预测异常运单模块740和阈值确定模块750。
155.反馈信息接收模块710,用于将风险运单数据推送至对应的目标对象,接收目标对象的反馈信息;
156.真实异常运单确定模块720,用于根据反馈信息确定存在异常操作的真实异常运单;
157.计算模块730,用于取两个以上的k数值,分别确定各k数值对应的第k四分位数;
158.预测异常运单模块740,用于分别以各第k四分位数作为候选阈值,确定各历史运单数据中的预测异常运单;
159.计算模块730,用于基于真实异常运单和预测异常运单,计算各第k四分位数对应的召回率和精准率;
160.阈值确定模块750,用于根据各第k四分位数对应的召回率和精准率确定预设阈值。
161.在一个实施例中,历史运单数据包括历史运单包含的各订单是否被取消寄件;预设异常操作包括虚假揽收;目标特征包括:同一收派人员取消寄件的操作次数。
162.在一个实施例中,历史运单数据包括历史运单对应的揽收地址、所述历史运单的妥投操作地点;预设异常操作包括非收方地址派送;目标特征包括:妥投操作地点与收件地址之间的距离。
163.关于风险运单数据识别装置的具体限定可以参见上文中对于风险运单数据识别方法的限定,在此不再赘述。上述风险运单数据识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
164.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算
机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种风险运单数据识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
165.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
166.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
167.获取历史运单数据;根据历史运单数据确定与预设异常操作关联的目标特征;基于局部异常因子检测算法和目标特征,确定各历史运单数据与目标特征对应的异常分数;将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据。
168.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
169.将各异常分数按照从小到大的顺序进行排序,得到异常分数排序结果;将异常分数排序结果中的第三四分位数确定为预设阈值。
170.在一个实施例中,处理器执行计算机程序时还实现以下步骤:
171.将风险运单数据推送至对应的目标对象,接收目标对象的反馈信息;根据反馈信息确定存在异常操作的真实异常运单;取两个以上的k数值,分别确定各k数值对应的第k四分位数;分别以各第k四分位数作为候选阈值,确定各历史运单数据中的预测异常运单;基于真实异常运单和预测异常运单,计算各第k四分位数对应的召回率和精准率;根据各第k四分位数对应的召回率和精准率确定预设阈值。
172.在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
173.获取历史运单数据;根据历史运单数据确定与预设异常操作关联的目标特征;基于局部异常因子检测算法和目标特征,确定各历史运单数据与目标特征对应的异常分数;将异常分数大于预设阈值的历史运单数据确定为存在异常操作的风险运单数据。
174.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
175.将各异常分数按照从小到大的顺序进行排序,得到异常分数排序结果;将异常分数排序结果中的第三四分位数确定为预设阈值。
176.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
177.将风险运单数据推送至对应的目标对象,接收目标对象的反馈信息;根据反馈信息确定存在异常操作的真实异常运单;取两个以上的k数值,分别确定各k数值对应的第k四分位数;分别以各第k四分位数作为候选阈值,确定各历史运单数据中的预测异常运单;基于真实异常运单和预测异常运单,计算各第k四分位数对应的召回率和精准率;根据各第k四分位数对应的召回率和精准率确定预设阈值。
178.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术
所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
179.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
180.以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献