一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于半监督学习的粮库清仓查库欺诈行为检测方法与流程

2021-10-29 23:08:00 来源:中国专利 TAG:清仓查库 粮库 欺诈 仓库管理 粮食


1.本发明涉及粮食仓库管理领域,尤其涉及一种基于半监督学习的粮库清仓查库欺诈 行为检测方法。


背景技术:

2.粮库清仓查库欺诈行为可定义为个别粮库在未经批准的情况下擅自销售、动 用粮库的粮食;为套取贷款或补贴虚报库存;挪用销售款、伪造粮食损耗的现象。 粮库欺诈行为涉及到诸多方面,总体表现为从粮食数量和质量方面弄虚作假,因 而反欺诈对象范围可初步选为人为因素所致的粮食数量和质量异动,数据范围则 是与此相关的粮库人员参与行为所产生的痕迹信息,包括粮情、出入库、合同、 部分财务等几大类关联行为数据。
3.目前的国家和地方粮库的欺诈行为检测多采用人工手段或突击检查的方式来获取 相关的数据,总体上存在人工检查为主,这将耗费大量的人力物力和财力,且很难实时、 准确、全面的掌握各粮库是否存在欺诈行为。目前来说针对粮库的单项检查目前开展了 很多,包括粮库温湿度检查、虫害检查、压力传感器、粮库实时监控系统等。但这些单 项系统或装备不能综合的获取粮食的数量、质量和环境等因素。
4.本发明从每个粮库的库存、财务、质量数据入手,通过数据分析和挖掘的角度来研 究如何检测清仓查库欺诈行为。具体来说通过调研全国粮食清仓查库工作中查实的一些 粮库欺诈行为典型历史案例,对欺诈行为的进行系统化地归纳,界定反欺诈的分类选择 范围和确立特征参数的筛选机制,为特征参数定义奠定语义基础。目前在该领域的研究 很少,且现实中的粮库清仓查库中,往往存在着大量的无标记粮库(即在粮库欺诈行为 分析和分类前,不通过算法检测很难判读其实正常的粮库行为还是欺诈行为)和少量的 标记粮库数据(即人工判别出的具有欺诈行为的粮库和正常粮库),由于标记数据很少, 如果直接用基于构建欺诈行为指标和分类器来检测粮库欺诈行为则效果不佳。
5.由于标记数据量非常小,基于监督学习的具有欺诈行为的检测方法的误差较大。而 无监督学习则没有利用现有的标记数据集,忽略了标记数据集对未标记数据集的影响, 导致训练容易欠拟合。为此,本发明提出了一种基于半监督学习的粮库清仓查库欺诈行 为检测方法,首先使用极大似然估计作为分类工具,然后使用expectationmaximization(em)算法来改进分类器。相对于标记数据集,未标记数据集数据量极大, 未标记数据集对em算法的参数估计过程起到决定性作用,从而提高粮库清仓查库欺诈 行为检测的准确性。


技术实现要素:

6.本发明目的及后续的实施方式均是提供一种基于半监督学习的粮库清仓查库欺诈 行为检测方法。
7.本发明的技术方案是,一种基于半监督学习的粮库清仓查库欺诈行为检测方法,该 方法包括两个部分,第一部分为粮库欺诈行为特征产生,主要参数的第二部分为基于半 监督学习的粮库清仓查库欺诈行为检测方法设计。本发明最后可以通过em算法不断迭 代
来改进分类器的效果,从而提升了粮库清仓查库欺诈行为检测的效果。
8.本发明的具体内容如下:
9.1)粮库欺诈行为特征产生
10.为了从无标记数据中找到存在欺诈行为的粮库,本发明主要基于存在欺诈行为的粮 库的行为特征来检测这些欺诈粮库行为,为此,我们定义了如下特征:
11.(1)每个粮库在特定时间段t内的小麦出入库数量一致性特征wtc:设第i个粮 库在时间跨度t(通常为1年)中入库后的每天粮食(小麦、大米、玉米、豆类和其它 粮食,下同)总量分别为{q1,q2,

,q
t
},而在出库后的每天的剩余小麦的总量为 {o1,o2,

,o
t
},则粮库i的小麦在特定时间段内的出入库时间一致性特征wtc
i
可表示为:
[0012][0013]
(2)每个粮库在特定时间段t内的大米出入库数量一致性特征rtc:设第i个粮库 在时间跨度t(通常为1年)中入库后的每天小麦总量分别为{c1,c2,

,c
t
},而在出库后 的每天的剩余粮的总量为{a1,a2,

,a
t
},则粮库i的大米在特定时间段内的出入库时间 一致性特征wtc
i
可表示为:
[0014][0015]
(3)每个粮库在特定时段t内抽检小麦的年份一致性wyc:在第j次抽检小麦的年 份与真实记录的年份的相同则记a
j
=1,否则记α
j
=0,设第i个粮库在时间跨度t(通 常为1年)中共计抽检了d次,则粮库i在特定时段t内抽检小麦的年份一致性wyc可 表示为:
[0016][0017]
(4)每个粮库在特定时段t内抽检大米的年份一致性ryc:在第j次抽检大米的年 份与真实记录的年份的相同则记β
j
=1,否则记β
j
=0,设第i个粮库在时间跨度t(通 常为1年)中共计抽检了d次,则粮库i在特定时段t内抽检大米的年份一致性wyc可 表示为:
[0018][0019]
(5)每个粮库在在特定时段t内抽检大米的质量的合格率一致性wqq:为了度量粮 食如小麦(大米、玉米、豆类和其它粮食,下同)的合格率,我们设置了第j次抽检时 当前粮食参数和入库记录的粮食的参数的一致性,如果一致则设置为1,否则设置为0, 参数包括不完善粒百分比一致性杂质总含量百分比一致性矿物质含量百分比一 致性水分含量百分比一致性互混率一致性以及容量一致性假设特定时段 t内抽检次数为d则粮库i在特定时段t内抽检粮食的质量的合格率一致性wqq可表示 为:
[0020][0021]
(6)每个粮库在在特定时段t内抽检大米的质量的合格率一致性rqq:为了度量大 米的合格率,我们设置了第j次抽检时当前粮食参数和入库记录的大米的参数的一致性, 如果一致则设置为1,否则设置为0,参数包括杂质含量百分比一致性整精米率一 致性出糙率一致性水分含量百分比一致性黄粒米含量一致性谷外糙米 含量一致
性以及互混率一致性假设特定时段t内抽检次数为d则粮库i在特定时 段t内抽检粮食的质量的合格率一致性rqq可表示为:
[0022][0023]
2)基于半监督学习的粮库清仓查库欺诈行为检测方法
[0024]
(1)参数初始化
[0025]
本发明提出了基于半监督学习的粮库清仓查库欺诈行为检测方法,用于发现粮库清 仓查库中的具有欺诈行为的粮库。本发明的初始输入是每个粮库的欺诈行为特征,如果 粮库的类别已知,则其属于标记数据集l,否则属于未标记数据集u。 l={(g1,c
l
),(g2,c2),


(g
|l|
,c
|l|
)}为标记数据集,(g1,g2,,

,g
|l|
)表示粮库集合,(c
l
, c2,,

,c
|l|
)表示该粮库的类型集合,而u={g’l
,g
’2,

,g’|u|
}为未标记数据集。本 发明的粮库欺诈行为检测算法通过函数f来预测未标记粮库属于正常粮库normal(n)还 是具有欺诈行为的粮库fake(s)。具体方法如下:
[0026]
获得标记和未标记数据集的6个指标后,可以在标记数据集上初始朴素贝叶斯分类 器,然后根据此分类器属于normal(n)和fake(s)的概率,由于6个检测指标都是相互 独立的,因此,本发明使用朴素贝叶斯分类来初始化未标记粮库属于类别c的概率,其 中c={s,n}。首先获取每个粮库的6个指标值,记为{g
i1
,g
i2
,g
i3
,g
i4
,g
i5
,g
i6
},而粮库g
ij
表示粮库g
i
第j个指标,且符合均值为μ
j
,标准差为σ
j
的高斯分布,则p(g
i
|c)表示未 标记粮库g
i
的第j个指标属于类c的概率,故其可用式(7)所示:
[0027]
其中
[0028]
和为标记数据集的第j个指标属于类c的均值和标准差,然后可通过式(8) 获得粮库g
i
属于类c的概率,式(8)如下所示:
[0029][0030]
通过式(7)和(8)可以获得未标记粮库属于正常粮库或具有欺诈行为的粮库的初始 概率。
[0031]
(2)半监督em算法
[0032]
主要包括两个步骤:e步骤和m步骤,其中e步骤用于对参数最大化,m步骤用于 获取每个粮库的类别,直至这两个评估参数不再改变。
[0033]
其中极大似然估计的过程如下:
[0034]
这个过程旨在寻找θ使得p(d/θ)最大化:
[0035][0036]
其中d
u
表示未标记的粮库,而d
l
表示标记的粮库,c表示粮库的类别,即正常粮库或欺 诈粮库。取对数后,我们可以得到目标函数:
[0037][0038]
令由于此外, 由贝叶斯定理可知:
[0039][0040]
如果我们将式(11)带入等式(10)中我们可以得到:
[0041][0042]
令l=0,由于
[0043][0044]
则依据公式(12)和(13),我们可计算出均值和方差,如下所示:
[0045][0046][0047]
同理,令可获得:
[0048][0049]
有益效果:现有的基于监督学习的具有欺诈行为的检测方法的误差较大。而无监督 学习则没有利用现有的标记数据集,本发明提出了一种基于半监督学习的粮库清仓查库 欺诈行为检测方法,首先使用极大似然估计作为分类工具,然后使用expectationmaximization(em)算法来改进分类器,获得标记和未标记数据集的6个指标后,可以 在指标标记数据集上初始朴素贝叶斯分类器,然后根据此分类器属于normal(n)和fake (s)的概率;获取每个粮库的6个指标值,记为{g
i1
,g
i2
,g
i3
,g
i4
,g
i5
,g
i6
},获得p(g
i
|c) 表示未标记粮库g
i
的第j个指标属于类c的概率,及通过获得粮库g
i
属于类c的概率, 通过上述可以获得未标记粮库属于正常粮库或具有欺诈行为的粮库的初始概率。计算概 率的速度快,成本低,便于审计等机关进行泛查及抽查。
附图说明
[0050]
图1为本发明的整体框架图。
具体实施方式
[0051]
本发明的整体框架图如图1所示,首先选取基于各粮库的相关数据,定义粮食欺诈 行为,然后基于这些特征使用基于半监督学习的粮食清仓查库欺诈行为检测方法判别各 粮库是否有欺诈行为。本发明主要包括两个阶段,具体实施方式如下所示:
[0052]
步骤1:根据各粮库数据,计算每个粮库中的6个欺诈特征指标值。该数据集包含 训练数据集和测试数据集,通过公式(1)

(6)获取每个粮库的6个欺诈特征指标,其中 训练数据集的所属类别已知,而未标记粮库的类别通过检测算法获取。
[0053]
步骤2:使用公式(7)中的贝叶斯公式获取每个未知粮库的初始化类别和参数,然后 使用公式(8)计算每个粮库属于类别c
k
的概率,通过公式(13)获得每个未标记粮库属于 类别c
k
的概率。
[0054]
步骤3:使用em算法重新调整属于类别c
k
的第j个指标的均值μ
kj
和方差具体 如公式(15)和(16)所示。
[0055]
步骤4:通过em算法不断迭代更新参数均值μ
kj
和方差的值,直至收敛,即判断 上次迭代结果和当前的结果的绝对值,如果所有的参数都小于某一个阈值,则终止迭代。
[0056]
步骤5:基于最终获得参数值计算每个未标记粮库属于类c
k
的概率,比较以p(g
i
∈n) 和p(g
i
∈s)比值ω作为判断未标记粮库属于正常粮库和具有欺诈行为的粮库的依据,比 值ω的计算公式如下所示:
[0057][0058]
如果比值ω大于阈值0.5,则该粮库为正常粮库,否则为具有欺诈行为的粮库。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜