一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于构建进销项异常商品库的方法及装置与流程

2023-03-28 23:54:50 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,具体涉及一种用于构建进销项异常商品库的方法及装置。


背景技术:

2.目前,绝大多数分析进销项商品差异进而识别异常企业的方法都只适用于商贸企业。对生产型企业而言,由于存在加工制造过程,进销项商品差异大,通过比对进销项商品分析其是否存在进销不一致的异常行为难度很大。此外,风险企业的进销项商品之间的关联关系以及共性挖掘不足,业务人员在进销不一致税收风险防控中积累的经验以及通过进销项异常分析得出的结论,也都无法作为可以共享的知识进行存储和被他人复用,使得税收风险防控对业务人员产生极大依赖,效率低下。


技术实现要素:

3.针对上述问题,本发明提供一种用于构建进销项异常商品库的方法,包括:
4.获取企业的进销项商品信息;
5.根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
6.通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。
7.进一步的,获取企业的进销项商品信息,包括:
8.从所述企业的增值税发票和货物明细数据,提取所述企业的进销项商品信息。
9.进一步的,在获取企业进销项商品信息的步骤之后,还包括:
10.通过文本分类工具确定每个商品的商品编码。
11.进一步的,根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品,包括:
12.分别汇总企业的总销项金额和\或总进项金额;
13.针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
14.按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
15.将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
16.进一步的,根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合,包括:
17.若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
18.对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度
和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
19.进一步的,进销项商品组合的置信度和支持度分别通过如下公式获得:
20.置信度=某进项商品编码出现的次数/组合总数
21.支持度=进项商品编码所在组合出现的次数/该进项商品编码出现的次数。
22.本发明同时提供一种用于构建进销项异常商品库的装置,包括:
23.商品信息获取单元,用于获取企业的进销项商品信息;
24.主销商品和主购商品确定单元,用于根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
25.异常进销项商品组合获得单元,用于通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。
26.进一步的,还包括:
27.商品编码确定单元,用于通过文本分类工具确定每个商品的商品编码。
28.进一步的,主销商品和主购商品确定单元,包括:
29.金额汇总子单元,用于分别汇总企业的总销项金额和\或总进项金额;
30.排列子单元,用于针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
31.金额累加子单元,按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
32.主销商品和主购商品确定子单元,用于将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
33.进一步的,异常进销项商品组合获得单元,
34.第一状态确定子单元,用于若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
35.第二状态确定子单元,用于对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
36.通过本发明提供的一种用于构建进销项异常商品库的方法及装置,针对进销不一致企业的进、销项商品,进一步挖掘异常商品以及商品之间潜在的关联规则,构建进销项异常商品库,实现税收风险的快速预判,让知识可共享、可复用,解决风险预判对业务人员强依赖、效率不高的问题。
附图说明
37.图1是本发明提供的一种用于构建进销项异常商品库的方法的流程示意图;
38.图2是本发明提供的一种用于构建进销项异常商品库的装置的结构示意图。
具体实施方式
39.在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
40.图1是本发明提供的一种用于构建进销项异常商品库的方法的流程示意图,下面结合图1对本发明提供的方法进行详细说明。
41.步骤s101,获取企业的进销项商品信息。
42.只有进项或者只有销项的企业可直接判定为异常企业,不在本发明研究的范围内。因此,首先对数据进行预处理,具体包括:
43.(1)锁定样本。筛选出既有销项发票又有进项发票的企业,剔除小规模纳税人。
44.(2)数据过滤。剔除作废发票、零税率发票,以及商品名称中带“租赁”、“不动产”、“租金”的数据。
45.然后,从所述企业的增值税发票和货物明细数据,提取所述企业的进销项商品信息。
46.商品名称描述的多样性导致同一个商品实体识别难度大,因此,基于商品编码来分析进销项是否一致更为科学。鉴于发票数据中的商品编码存在填写不规范、不准确的问题,帮通过开源的文本分类工具fasttext确定每个商品的商品编码。
47.步骤s102,根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品。
48.每个企业销售或者购买的商品往往不止一种,为降低计算量,提升分析效率,只针对企业的主销商品和主购商品进行分析。剔除商品编码以“4”,“5”,“6”开头的数据后,基于企业的销项数据和进项数据,分别执行以下步骤:
49.分别汇总企业的总销项金额和\或总进项金额;
50.针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
51.按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
52.将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
53.步骤s103,通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;由所述异常进销项商品组合中的商品构建进销项异常商品库。
54.对企业的主销商品和主购商品的笛卡尔积,获得多个进销项商品组合。设定判别规则,
55.若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
56.对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。本发明中的n是3。
57.进销项商品组合的置信度和支持度分别通过如下公式获得:
58.置信度=某进项商品编码出现的次数/组合总数
59.支持度=进项商品编码所在组合出现的次数/该进项商品编码出现的次数。
60.本发明中,置信度阈值为0.004,支持度阈值为0.1。
61.基于同一发明构思,本发明同时提供一种用于构建进销项异常
62.商品库的装置200,如图2所示,包括:
63.商品信息获取单元210,用于获取企业的进销项商品信息;
64.主销商品和主购商品确定单元220,用于根据所述企业的进销项商品信息,确定所述企业的主销商品和主购商品;
65.异常进销项商品组合获得单元230,用于通过计算所述主销商品和主购商品的笛卡尔积,获得多个进销项商品组合;根据所述进销项商品组合的商品编码、置信度和支持度,获得异常进销项商品组合;
66.进一步的,还包括:
67.商品编码确定单元,用于通过文本分类工具确定每个商品的商品编码。
68.进一步的,主销商品和主购商品确定单元,包括:
69.金额汇总子单元,用于分别汇总企业的总销项金额和\或总进项金额;
70.排列子单元,用于针对每个商品编码,计算对应商品的金额占总销项和\或总进项金额的比例,并降序排列;
71.金额累加子单元,按照排序分别逐个累加商品的总销项和\或总进项金额的比例,当所述比例大于预设阈值时,停止累加;
72.主销商品和主购商品确定子单元,用于将被累加过的商品,确定为所述企业的主销商品和\或主购商品。
73.进一步的,异常进销项商品组合获得单元,
74.第一状态确定子单元,用于若进销项商品组合中,进项商品的商品编码和销项商品的商品编码的前n位相同,则判定所述进销项商品组合正常,否则判定所述进销项商品组合为状态待确定;
75.第二状态确定子单元,用于对判定为状态待确定的进销项商品组合,计算其置信度和支持度,将所述支持度和置信度均大于预设阈值的进销项商品组合,判定为正常,其余的进销项商品组合判定为异常。
76.通过本发明提供的一种用于构建进销项异常商品库的方法及装置,针对进销不一致企业的进、销项商品,进一步挖掘异常商品以及商品之间潜在的关联规则,构建进销项异常商品库,实现税收风险的快速预判,让知识可共享、可复用,解决风险预判对业务人员强依赖、效率不高的问题。
77.最后应该说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献