一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种粮食库存统计报表伪造数据的检测方法及系统与流程

2022-05-06 07:24:09 来源:中国专利 TAG:


1.本发明涉及异常处理技术领域,并且更具体地,涉及一种粮食库存统 计报表伪造数据的检测方法及系统。


背景技术:

2.在粮食仓储过程中也偶发监守自盗、玩忽职守等情况,导致粮食被私 自盗用,或发生霉变、虫害等,造成储备粮质量变化、数量损失。
3.目前,粮食信息化工作已经具备一定基础,每一笔粮食从收购入仓, 质检、过磅、结算均在系统留痕,每一仓粮食在库保管期间的三温三湿记 录都应连续采集,每次通风气调等作业都应在系统记录,信息化系统功能 已经覆盖了粮库仓储作业的全部环节。然而,各省上传的数据质量却并不 理想,存在数据错报,数据错位,数据缺失情况。根据数据表象,去研究 粮食库实际发生了什么,能够总结以下4种情况,第一,存在人员录入错 误的情况;第二,存在补录数据的情况;第三,存在粮库数据标准;第四, 存在录入虚假数据的情况。要改善前三条情况,需要管理上严格要求,加 强人员培训,加强工作职责梳理。第四种情况的原因与意图就更值得探究, 或者只是为了填补数据,应付上级检查,或者是虚构数据制造虚假业务行 为。
4.因此,需要一种粮食库存统计报表伪造数据的检测方法。


技术实现要素:

5.本发明提出一种粮食库存统计报表伪造数据的检测方法及系统,以解 决如何确定异常粮库的问题。
6.为了解决上述问题,根据本发明的一个方面,提供了一种粮食库存统 计报表伪造数据的检测方法,所述方法包括:
7.确定与粮食仓储数据对应的目标接口,通过调用所述目标接口获取每 个粮库对应的统计报表数据;
8.根据所述统计报表数据确定每个粮库对应的每个预设字符为首字符的 实际占比;
9.利用拟合优度检测方法,根据每个预设字符为首字符的实际占比和基 于本福特定律确定的每个预设字符为首字符的频率,确定每个粮库对应的 差异度;
10.根据所述差异度确定每个粮库的风险状态,以根据所述风险状态对粮 库进行异常排查。
11.优选地,其中所述方法基于每个所述目标接口,采用数据库抽取方式、 webservice调用方式和/或接口控件方式获取统计报表数据。
12.优选地,其中所述统计报表数据,包括:每月报表中的库区数量、仓 房数量、廒间数量、货位数量、油管数量和粮食库存总数。
13.优选地,其中所述方法利用如下方式利用拟合优度检测方法,根据每 个预设字符
为首字符的实际占比和基于本福特定律确定的每个预设字符为 首字符的频率,确定每个粮库对应的差异度,包括:
[0014][0015]fi
=logb(n 1)-logb(n),
[0016]
其中,m为差异度;n为预设字符的总数,任一个预设字符i的取值范 围为[1,9];fi为基于本福特定律确定的预设字符i为首字符的频率;pi为 预设字符i为首字符对应的实际占比;b为统计报表数据对应的进位制 数。
[0017]
优选地,其中所述根据所述差异度确定每个粮库的风险状态,包括:
[0018]
基于差异度对粮库进行排序,确定粮库序列,并根据所述粮库序列和 预设风险状态对应的选取范围,确定每个粮库对应的风险状态;或
[0019]
将每个粮库对应的差异度和不同预设风险状态对应的差异度取值范围 进行比对,并根据比对结果确定每个粮库的风险状态;
[0020]
其中,所述预设风险状态包括:高风险状态、中风险状态、低风险状 态和无风险状态。
[0021]
根据本发明的另一个方面,提供了一种粮食库存统计报表伪造数据的 检测系统,所述系统包括:
[0022]
统计报表数据获取单元,用于确定与粮食仓储数据对应的目标接口, 通过调用所述目标接口获取每个粮库对应的统计报表数据;
[0023]
占比确定单元,用于根据所述统计报表数据确定每个粮库对应的每个 预设字符为首字符的实际占比;
[0024]
相关性系数确定单元,用于利用拟合优度检测方法,根据每个预设字 符为首字符的实际占比和基于本福特定律确定的每个预设字符为首字符的 频率,确定每个粮库对应的差异度;
[0025]
风险状态确定单元,用于根据所述差异度确定每个粮库的风险状态, 以根据所述风险状态对粮库进行异常排查。
[0026]
优选地,其中所述统计报表数据获取单元,基于每个所述目标接口, 采用数据库抽取方式、webservice调用方式和/或接口控件方式获取统计 报表数据。
[0027]
优选地,其中所述统计报表数据,包括:每月报表中的库区数量、仓 房数量、廒间数量、货位数量、油管数量和粮食库存总数。
[0028]
优选地,其中所述相关性系数确定单元,利用如下方式利用拟合优度 检测方法,根据每个预设字符为首字符的实际占比和基于本福特定律确定 的每个预设字符为首字符的频率,确定每个粮库对应的差异度,包括:
[0029][0030]fi
=logb(n 1)-logb(n),
[0031]
其中,m为差异度;n为预设字符的总数,任一个预设字符i的取值范 围为[1,9];fi为基于本福特定律确定的预设字符i为首字符的频率;pi为 预设字符i为首字符对应的实际占比;b为统计报表数据对应的进位制 数。
[0032]
优选地,其中所述风险状态确定单元,根据所述差异度确定每个粮库 的风险状态,包括:
[0033]
基于差异度对粮库进行排序,确定粮库序列,并根据所述粮库序列和 预设风险状态对应的选取范围,确定每个粮库对应的风险状态;或
[0034]
将每个粮库对应的差异度和不同预设风险状态对应的差异度取值范围 进行比对,并根据比对结果确定每个粮库的风险状态;
[0035]
其中,所述预设风险状态包括:高风险状态、中风险状态、低风险状 态和无风险状态。
[0036]
本发明提供了一种粮食库存统计报表伪造数据的检测方法及系统,基 于调用接口获取每个粮库对应的统计报表数据;根据所述统计报表数据确 定每个粮库对应的每个预设字符为首字符的实际占比;利用拟合优度检测 方法,根据每个预设字符为首字符的实际占比和基于本福特定律确定的每 个预设字符为首字符的频率,确定每个粮库对应的差异度;根据所述差异 度确定每个粮库的风险状态,以根据所述风险状态对粮库进行异常排查。 本发明的方法基于本福特定律的规则,对粮食仓储数据、粮食基础设施数 据进行检测,发现异常的数据点,自动定位发生异常的粮库企业,然后对 粮库的异常行为进行分析,给实际监管工作帮助。
附图说明
[0037]
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方 式:
[0038]
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方 式:
[0039]
图1为根据本发明实施方式的粮食库存统计报表伪造数据的检测方法 100的流程图;
[0040]
图2为根据本发明实施方式的粮食库存统计报表伪造数据的检测方法 的整体流程图;
[0041]
图3为根据本发明实施方式的粮食库存统计报表伪造数据的检测系统 300的结构示意图。
具体实施方式
[0042]
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许 多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例 是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分 传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是 对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
[0043]
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的 技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典 限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应 该被理解为理想化的或过于正式的意义。
[0044]
图1为根据本发明实施方式的粮食库存统计报表伪造数据的检测方法 100的流程
图。如图1所示,本发明实施方式提供的粮食库存统计报表伪 造数据的检测方法,能够基于本福特定律的规则,对粮食仓储数据、粮食 基础设施数据进行检测,发现异常的数据点,自动定位发生异常的粮库企 业,然后对粮库的异常行为进行分析,给实际监管工作帮助。本发明实施 方式提供的粮食库存统计报表伪造数据的检测方法100,从步骤101处开 始,在步骤101确定与粮食仓储数据对应的目标接口,通过调用所述目标 接口获取每个粮库对应的统计报表数据。
[0045]
优选地,其中所述方法基于每个所述目标接口,采用数据库抽取方式、 webservice调用方式和/或接口控件方式获取统计报表数据。
[0046]
优选地,其中所述统计报表数据,包括:每月报表中的库区数量、仓 房数量、廒间数量、货位数量、油管数量和粮食库存总数。
[0047]
结合图2所示,在本发明中,根据粮食和物资储备管理平台数据互通 共享技术规范(2020版)25个数据接口,构建数据接口,作为粮食数据输 入端口。然后,梳理粮食业务数据现状,找出或规划整理出符合本福特定 律的数据类型,并进行数据清洗、转化,形成统计报表数据库。其中,25 个数据接口如表1所示。
[0048]
在本发明中,构建粮食数据输入端口时,根据粮食和物资储备管理平 台数据互通共享技术规范(2020版)构建25个数据接口。接口方式可以 采用数据库抽取方式、webservice调用方式和接口控件方式等三种方式, 具体对接根据各自系统开发环境及部署方式按实际情况选用。
[0049]
互联互通规范规定的25个数据接口涵盖基础信息、粮食出入库、粮库 日常管理、轮换计划及合同、质检共5大类接口。
[0050]
其中,轮换计划及合同数据,数据低频数据,数据量难以支撑数据验 证,所以不考虑使用粮库日常管理、质检均属于粮库日常业务范畴,对粮 食报表数据的影响不大。
[0051]
基本信息数据主要包括粮库主体、库区、仓房、油罐等基础设施数据, 与粮食库存数据密切相关,且基础设施数量累计数量也应符合本福特定律。 粮食出入库数据中粮食库存数据即产生月报表的数据来源,且库存总量数 据属于自然增长数据,可以使用本福特定律进行检测。
[0052]
因此,本发明选择1102库区信息数据接口、1207粮食库存数据接口 等6个接口,每月抽取一次基础设施数量累计数据和库存总量的数据,并 将每个粮库的数据中间表进行清洗、转换,获取多个粮库的如表2所示的 统计报表数据,之后以sql server、oracle、excel等形势存储,从而形 成集合粮食业务特征的统计报表数据库。表2的粮食业务员特征数据用来 进行本福特定律检测。
[0053]
表1 25个数据接口表
[0054][0055]
表2统计报表数据表
[0056]
接口代码接口名称特征数据
1102库区信息数据接口合并库区代码数量,即每月报表中的库区数量1103仓房信息数据接口合并仓房代码数量,即每月报表中的仓房数量1104廒间信息数据接口合并廒间代码数量,即每月报表中的廒间数量1105货位信息数据接口合并货位代码数量,即每月报表中的货位数量1106油罐信息数据接口合并油罐代码数量,即每月报表中的油罐数量1207粮食库存数据接口合并库存数量,即每月报表中的粮食库存总数
[0057]
在步骤102,根据所述统计报表数据确定每个粮库对应的每个预设字 符为首字符的实际占比。
[0058]
在本发明中,在粮食特征数据库内,计算每个粮库的所有数据的首位 字符的实际占比,从而形成数据集。其中,首位字符可以为1-9中的任一 个整数,通过比例计算即可得到每个字符作为首字符的实际占比p(n), 从而得到任一个粮库对应的数据集={首字母为1的占比,首字母为2的占 比,首字母为3的占比,首字母为4的占比,首字母为5的占比,首字母 为6的占比,首字母为7的占比,首字母为8的占比,首字母为9的占比}。
[0059]
在步骤103,利用拟合优度检测方法,根据每个预设字符为首字符的 实际占比和基于本福特定律确定的每个预设字符为首字符的频率,确定每 个粮库对应的差异度。
[0060]
优选地,其中所述方法利用如下方式利用拟合优度检测方法,根据每 个预设字符为首字符的实际占比和基于本福特定律确定的每个预设字符为 首字符的频率,确定每个粮库对应的差异度,包括:
[0061][0062]fi
=logb(n 1)-logb(n),
[0063]
其中,m为差异度;n为预设字符的总数,任一个预设字符i的取值范 围为[1,9];fi为基于本福特定律确定的预设字符i为首字符的频率;pi为 预设字符i为首字符对应的实际占比;b为统计报表数据对应的进位制 数。
[0064]
本福特定律,又叫第一数字定律。1-9这9个自然数字,作为首数出 现的概率为公式(1):
[0065][0066]
本福特定律的验证研究使该规律广为人知,所以该规律被命名为本福 特定律。本福特定律精确的数学表述为:在b进位制中,以数n为首的数 出现的频率如公式(2):
[0067]fi
=logb(n 1)-logb(n)
ꢀꢀꢀ
(2)
[0068]
符合本福特定律的数据应为自然增长的数据,如随机人群样本中个体 的年龄,因为每个人都是自然成长的;再如人群中的个体身高就不合格本 福特定律,因为身高总是相近区间。那么粮库系统中,与仓储业务相关, 又自然增长的数据就是可使用本福特定律验证的统计报表数据。
[0069]
在本发明中,使用拟合优度检测方法,对统计报表数据进行检测,基 于本福特定律对结果进行验证,形成检验结果。其中,使用sql语句或mdx 语句进行编程实现,在数据仓库总进行大规模运算,以获得所有粮库数据 集的检验结果。
[0070]
具体地,对于任一个粮库,利用拟合优度检测方法,根据每个预设字 符为首字符的实际占比和基于本福特定律确定的每个预设字符为首字符的 频率,确定每个粮库对应的差异度,包括:
[0071][0072]fi
=logb(n 1)-logb(n),
[0073]
其中,m为差异度;n为预设字符的总数,任一个预设字符i的取值范 围为[1,9];fi为基于本福特定律确定的预设字符i为首字符的频率;pi为 预设字符i为首字符对应的实际占比;b为统计报表数据对应的进位制 数。
[0074]
在步骤104,根据所述差异度确定每个粮库的风险状态,以根据所述 风险状态对粮库进行异常排查。
[0075]
优选地,其中所述根据所述差异度确定每个粮库的风险状态,包括:
[0076]
基于差异度对粮库进行排序,确定粮库序列,并根据所述粮库序列和 预设风险状态对应的选取范围,确定每个粮库对应的风险状态;或
[0077]
将每个粮库对应的差异度和不同预设风险状态对应的差异度取值范围 进行比对,并根据比对结果确定每个粮库的风险状态;
[0078]
其中,所述预设风险状态包括:高风险状态、中风险状态、低风险状 态和无风险状态。
[0079]
在本发明中,根据相关性系数确定风险程度,以根据风险程度结合粮 库实际业务现状给实际监管工作提供参考意见。
[0080]
其中,可以利用如下方式确定风险程度,包括:将所有粮库数据集的 相关性系数从高到底排列,确定粮库序列。
[0081]
将差异度最高的前20%的粮库确定为高风险状态,认为存在造假可能, 建议专人排查粮库账目,现场检查粮库工作。
[0082]
将差异度处于80%-50%的粮库确定为中风险状态,认为需要重点关注 的粮库,建议定期检查粮库上传的数据,排查风险点。
[0083]
将差异度处于50%-20%的粮库确定为低风险状态,需要持续进行跟踪 考察的企业,需要在后期工作中持续跟进,需要对管理进行督导的粮库。
[0084]
将差异度最低的20%的粮库去顶为无风险状态,认为属于无风险粮 库。
[0085]
另外,在本发明中还可以利用如下方式确定风险程度,包括:分别设 置高风险状态、中风险状态、低风险状态和无风险状态对应的差异度取值 范围,并将每个粮库对应的差异度和不同预设风险状态对应的差异度取值 范围进行比对,并根据比对结果确定每个粮库的风险状态。
[0086]
本发明通过整理粮库业务数据,将低频变化的基础设施数据转化为可 以反应粮库作业频率的增长型数据,参考本福特定律,找出不合理的粮食 管理数据集,定义潜在风险企业;设定不同层次的渐进式分析结果,有助 于规范业务行为,使监管工作有的放矢。本发明基于本福特定律的规则, 使用相关性分析方法验证粮库仓储作业记录的数据集曲线,发现异常的数 据点,自动定位发生异常的粮库企业,然后对粮库的异常行为进行分析, 给
实际监管工作帮助。
[0087]
利用本发明提供的排查方法,配合人工巡查可以有如下效果:
[0088]
1.本发明尽量减少对人工经验的依赖,仅仅通过业务系统沉淀的 数据,加以特殊算法,就可以有效排查潜在数据造假行为,给实际监管工 作开展提供参考依据
[0089]
2.配合本发明所提供的预警效果,监管人员可以有的放矢的开展 现场监管工作、现场巡查工作,提高效率,降低成本。
[0090]
3.现场监管工作效率提高,成本下降,有助于监管机构将有限的 资源投放到其他方便,提高储备粮管理工作的整体水平。
[0091]
图3为根据本发明实施方式的粮食库存统计报表伪造数据的检测系统 300的结构示意图。如图3所示,本发明实施方式提供的粮食库存统计报 表伪造数据的检测系统300,包括:统计报表数据获取单元301、占比确定 单元302、相关性系数确定单元303和风险状态确定单元304。
[0092]
优选地,所述统计报表数据获取单元301,用于确定与粮食仓储数据 对应的目标接口,通过调用所述目标接口获取每个粮库对应的统计报表数 据。
[0093]
优选地,其中所述统计报表数据获取单元301,基于每个所述目标接 口,采用数据库抽取方式、webservice调用方式和/或接口控件方式获取 统计报表数据。
[0094]
优选地,其中所述统计报表数据,包括:每月报表中的库区数量、仓 房数量、廒间数量、货位数量、油管数量和粮食库存总数。
[0095]
优选地,所述占比确定单元302,用于根据所述统计报表数据确定每 个粮库对应的每个预设字符为首字符的实际占比。
[0096]
优选地,所述相关性系数确定单元303,用于利用拟合优度检测方法, 根据每个预设字符为首字符的实际占比和基于本福特定律确定的每个预设 字符为首字符的频率,确定每个粮库对应的差异度。
[0097]
优选地,其中所述相关性系数确定单元303,利用如下方式利用拟合 优度检测方法,根据每个预设字符为首字符的实际占比和基于本福特定律 确定的每个预设字符为首字符的频率,确定每个粮库对应的差异度,包括:
[0098][0099]fi
=logb(n 1)-logb(n),
[0100]
其中,m为差异度;n为预设字符的总数,任一个预设字符i的取值范 围为[1,9];fi为基于本福特定律确定的预设字符i为首字符的频率;pi为 预设字符i为首字符对应的实际占比;b为统计报表数据对应的进位制 数。
[0101]
优选地,所述风险状态确定单元304,用于根据所述差异度确定每个 粮库的风险状态,以根据所述风险状态对粮库进行异常排查。
[0102]
优选地,其中所述风险状态确定单元304,根据所述差异度确定每个 粮库的风险状态,包括:
[0103]
基于差异度对粮库进行排序,确定粮库序列,并根据所述粮库序列和 预设风险状态对应的选取范围,确定每个粮库对应的风险状态;或
[0104]
将每个粮库对应的差异度和不同预设风险状态对应的差异度取值范围 进行比对,并根据比对结果确定每个粮库的风险状态;
[0105]
其中,所述预设风险状态包括:高风险状态、中风险状态、低风险状 态和无风险状态。
[0106]
本发明的实施例的粮食库存统计报表伪造数据的检测系统300与本发 明的另一个实施例的粮食库存统计报表伪造数据的检测方法100相对应, 在此不再赘述。
[0107]
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所 公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他 的实施例等同地落在本发明的范围内。
[0108]
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常 含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该 [装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例, 除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确 的顺序运行,除非明确地说明。
[0109]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、 或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施 例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个 或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不 限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形 式。
[0110]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程 序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现 流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图 中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、 专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一 个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令 产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个 方框中指定的功能的装置。
[0111]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存 储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0112]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现 的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流 程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能 的步骤。
[0113]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对 其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普 通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等 同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵 盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献