一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

涉税数据的关联分析挖掘方法与流程

2022-03-22 23:29:41 来源:中国专利 TAG:


1.本发明涉及一种关联分析挖掘方法,尤其是一种涉税数据的关联分析挖掘方法。


背景技术:

2.目前,不法分子为牟取巨额暴利,存在通过大肆虚开增值税专用发票以骗取出口退税、抵扣税款,致使国家税款大量流失的情况。
3.如何找出涉嫌虚开、骗税的违法犯罪团伙的问题,是目前急需解决的难题。


技术实现要素:

4.本发明的目的是克服现有技术中存在的不足,提供一种涉税数据的关联分析挖掘方法,其能有效实现涉税数据的关联分析与挖掘,安全可靠。
5.按照本发明提供的技术方案,所述涉税数据的关联分析挖掘方法,所述关联分析挖掘方法包括如下步骤:
6.步骤1、获取涉税初始信息,根据所获取的涉税初始信息确定涉税初始企业以及所述涉税初始企业相对应的涉税基本信息,所述涉税基本信息包括涉税企业的统一社会信用代码;
7.步骤2、通过etl工具从税务大数据云平台抽取税务登记信息以及电子底账发票信息,以能根据所抽取到的税务登记信息以及电子底账信息处理后形成关联分析税务数据源;
8.步骤3、根据涉税初始企业的统一社会信用代码,在关联分析税务数据源内分别查找得到与所述初始涉税企业相对应的涉税初始企业关系人、涉税初始企业开票mac码结果集、涉税初始企业开票ip地址结果集以及涉税企业主板序列号结果集;
9.步骤4、根据涉税初始企业的关系人,在关联分析税务数据源内查找与所述涉税初始企业关系人内任一关系人存在关联的关系人涉税关联企业,利用所有的关系人涉税关联企业,能形成关系人涉税关联企业信息集;
10.根据涉税初始企业开票mac码结果集,在关联分析税务数据源内查找与所述涉税初始企业开票mac码结果集内任一涉税初始企业开票mac码相同的开票mac码涉税关联企业,利用所有的开票mac码涉税关联企业,能形成开票mac码涉税关联企业信息集;
11.根据涉税初始企业开票ip地址结果集,在关联分析税务数据源内查找与所述涉税初始企业开票ip地址结果集内任一涉税初始企业开票ip地址相同的开票ip地址涉税关联企业,利用所有的开票ip地址涉税关联企业,能形成开票ip地址涉税关联企业信息集;
12.根据涉税初始主板序列号结果集,在关联分析税务数据源内查找与所述涉税初始主板序列号结果集内任一涉税初始主板序列号相同主板序列号涉税关联企业,利用所有的主板序列号涉税关联企业,能形成主板序列号涉税关联企业信息集;
13.步骤5、将关系人涉税关联企业信息集、开票mac码涉税关联企业信息集、开票ip地址涉税关联企业信息集以及主板序列号涉税关联企业信息集内同时包含的涉税关联企业
确认为涉税嫌疑企业。
14.步骤2中,关联分析税务数据源包括税务登记人员信息、企业开票mac 码信息、企业开票ip地址信息以及企业开票主板号信息;
15.其中,税务登记人员信息包括社会统一信用代码、人员名称、人员证件号码以及人员身份,所述人员身份包括法人、领票人和/或投资方;企业开票 mac码信息包括统一社会信用代码以及开票mac码;企业开票ip地址信息包括统一社会信用代码以及开票ip地址地址;企业开票主板号信息包括统一社会信用代码以及开票主板序列号。
16.步骤4中,在得到关系人涉税关联企业信息集时,在关联分析税务数据源内查找所述涉税企业关系人的身份证件信息,以根据所有的身份证件信息能得到身份证件信息集;
17.利用身份证件信息集内的任一身份证件信息在关联分析税务数据源内查找关系人涉税关联企业,对利用身份证件信息集内所有的身份证件信息查找得到的关系人涉税关联企业能形成关系人涉税关联企业信息集。
18.根据获取的涉税初始企业能确定的涉税初始企业为一户或多户。
19.本发明的优点:通过etl工具从税务大数据云平台抽取税务登记信息以及电子底账发票信息,以能根据所抽取到的税务登记信息以及电子底账信息处理后形成关联分析税务数据源;根据涉税初始企业的统一社会信用代码能分别查找得到与所述初始涉税企业相对应的涉税初始企业关系人、涉税初始企业开票mac码结果集、涉税初始企业开票ip地址结果集以及涉税企业主板序列号结果集,进而能分别得到关系人涉税关联企业信息集、开票mac码涉税关联企业信息集、开票ip地址涉税关联企业信息集以及主板序列号涉税关联企业信息集,利用关系人涉税关联企业信息集、开票mac码涉税关联企业信息集、开票ip地址涉税关联企业信息集以及主板序列号涉税关联企业信息集同时包含的涉税关联企业确认为涉税嫌疑企业,能有效实现涉税数据的关联分析与挖掘,安全可靠。
附图说明
20.图1为本发明的示意图。
具体实施方式
21.下面结合具体附图和实施例对本发明作进一步说明。
22.如图1所示:为了能有效实现涉税数据的关联分析与挖掘,本发明的关联分析挖掘方法包括如下步骤:
23.步骤1、获取涉税初始信息,根据所获取的涉税初始信息确定涉税初始企业以及所述涉税初始企业相对应的涉税基本信息,所述涉税基本信息包括涉税企业的统一社会信用代码;
24.具体地,涉税初始信息一般为群众举报、上级部门交办或其他部门移交的单一线索,涉税初始信息的具体获取途径等可以根据实际情况确定,具体为本技术领域人员所熟知,此处不再赘述。具体实施时,根据获取的涉税初始企业能确定的涉税初始企业为一户或多户,涉税初始企业的数量与初始涉税信息相关,具体为本技术领域人员所熟知,此处不再赘述。下面对涉税初始企业为一户的情况进行说明,对于多户的情况,可以参照相应的说明,具体为本技术领域所熟知,此处不再赘述。
25.步骤2、通过etl工具从税务大数据云平台抽取税务登记信息以及电子底账发票信息,以能根据所抽取到的税务登记信息以及电子底账信息处理后形成关联分析税务数据源;
26.具体实施时,本发明基于税务大数据的税务登记信息、电子底账发票信息,通过etl工具从税务大数据云平台中提取数据,由于大数据云平台的税务登记信息、电子底账发票信息在实时变化,因此,etl工具需要定时每天增量抽取。税务登记信息是千万级数据量,电子底账发票信息是亿级数据量,为保证关联分析挖掘的效率,需要对抽取的数据进行预处理,提高查询效率,预处理功能需要每天定时计算,以保证数据更新的及时性。etl工具的具体情况为本技术领域人员所熟知,此处不再赘述。
27.本发明实施例中,定时任务使用windows或linux系统自带的任务管理计划创建定时任务,抽取工具使用etl工具kettle进行增量抽取,抽取数据范围是上次抽取截止时间至当前时间,抽取完成后记录本次抽取的截止时间,用于下次定时任务抽取数据时使用,抽取频率可根据局方要求为每天或者每周。
28.具体实施时,以发票表举例定时增量抽取的方案如下,其中,a是源库发票表(亿级数据量,开票时间为索引),b是目标库的发票表,c是时间戳表 (用于记录同步的基准时间),to是上次同步时间,now是本次同步时间。
29.1)、c表的原始记录是(t0,t0),一旦开始同步,它会变成(t0,now);
30.2)、取出a表中开票时间》=t0 and开票时间《now的所有记录,更新到b 表;
31.3)、同步完毕,c表变为(now,now)。
32.4)、重复以上步骤,now的时间不断向前迈进。
33.定时任务使用windows或linux系统自带的任务管理计划创建定时任务,使用定时器服务技术对税务登记信息、电子底账发票数据定时预处理,每次在etl工具kettle增量抽取完成之后进行预处理,处理结果为税务登记人员信息、企业开票mac码信息、企业开票ip地址信息、企业开票主板号信息等数据。其中税务登记人员信息包括社会统一信用代码、人员名称、人员证件号码、人员身份(法人、领票人、投资方);企业开票mac码信息包括统一社会信用代码、开票mac码;企业开票ip地址信息包括统一社会信用代码、开票ip地址地址;企业开票主板号信息包括统一社会信用代码、开票主板序列号。
34.以企业开票mac信息举例说明,预处理方案如下,其中,a是源库发票表(开票时间为索引);b是目标库的发票表(开票时间为索引);c(to,now) 是增量时间戳表(用于记录同步的基准时间),to是上次同步时间,now是本次同步时间;d是目标库的企业开票mac信息表(统一社会信用代码、开票mac码)。
35.1)、c表的原始记录是(t0,t0),一旦开始同步,它会变成(t0,now);
36.2)、取出a表中开票时间》=t0 and开票时间《now的所有记录,更新到b表;
37.3)、取出b表中开票时间》=t0 and开票时间《now的所有记录的开票企业统一社会信用代码和开票mac地址,与d数据比对,如果不存在相同的统一社会信用代码、开票mac码,则更新到d表。
38.4)、说明:b表和d表在同一数据库中,可以使用oracle数据库语法merg into完成更新。具体语句如下:
39.merg into d using(select统一社会信用代码,开票mac码from b where 开票时
间》=t0 and开票时间《now)tmp on(d.统一社会信用代码=tmp.统一社会信用代码and d.开票mac码=tmp.开票mac码)when not matched then insert d(统一社会信用代码,开票mac码)values(tmp.统一社会信用代码,tmp. 开票mac码);
40.预处理完毕,c表变为(now,now)。
41.重复以上步骤,now的时间不断向前迈进。
42.综上,本发明实施例中,关联分析税务数据源包括税务登记人员信息、企业开票mac码信息、企业开票ip地址信息以及企业开票主板号信息;
43.其中,税务登记人员信息包括社会统一信用代码、人员名称、人员证件号码以及人员身份,所述人员身份包括法人、领票人和/或投资方;企业开票 mac码信息包括统一社会信用代码以及开票mac码;企业开票ip地址信息包括统一社会信用代码以及开票ip地址地址;企业开票主板号信息包括统一社会信用代码以及开票主板序列号。
44.步骤3、根据涉税初始企业的统一社会信用代码,在关联分析税务数据源内分别查找得到与所述初始涉税企业相对应的涉税初始企业关系人、涉税初始企业开票mac码结果集、涉税初始企业开票ip地址结果集以及涉税企业主板序列号结果集;
45.具体地,本技术领域人员可知,对于一企业,统一社会信用代码为唯一的代码,而企业的涉税初始企业关系人可为法人、领票人或投资方。对同一涉税初始企业,所述统一社会信用代码可能对应一个或多个涉税初始企业开票mac码、涉税初始企业开票ip地址以及涉税企业主板序列号,而根据统一社会信用代码能在关联分析税务数据源内查找得到所有相对应的涉税初始企业开票mac码、涉税初始企业开票ip地址以及涉税企业主板序列号,从而能分别形成涉税初始企业开票mac码结果集、涉税初始企业开票ip地址结果集以及涉税企业主板序列号结果集。
46.步骤4、根据涉税初始企业的关系人,在关联分析税务数据源内查找与所述涉税初始企业关系人内任一关系人存在关联的关系人涉税关联企业,利用所有的关系人涉税关联企业,能形成关系人涉税关联企业信息集;
47.根据涉税初始企业开票mac码结果集,在关联分析税务数据源内查找与所述涉税初始企业开票mac码结果集内任一涉税初始企业开票mac码相同的开票mac码涉税关联企业,利用所有的开票mac码涉税关联企业,能形成开票mac码涉税关联企业信息集;
48.根据涉税初始企业开票ip地址结果集,在关联分析税务数据源内查找与所述涉税初始企业开票ip地址结果集内任一涉税初始企业开票ip地址相同的开票ip地址涉税关联企业,利用所有的开票ip地址涉税关联企业,能形成开票ip地址涉税关联企业信息集;
49.根据涉税初始主板序列号结果集,在关联分析税务数据源内查找与所述涉税初始主板序列号结果集内任一涉税初始主板序列号相同主板序列号涉税关联企业,利用所有的主板序列号涉税关联企业,能形成主板序列号涉税关联企业信息集;
50.具体地,在得到关系人涉税关联企业信息集时,在关联分析税务数据源内查找所述涉税企业关系人的身份证件信息,以根据所有的身份证件信息能得到身份证件信息集;
51.利用身份证件信息集内的任一身份证件信息在关联分析税务数据源内查找关系人涉税关联企业,对利用身份证件信息集内所有的身份证件信息查找得到的关系人涉税关联企业能形成关系人涉税关联企业信息集。
52.本发明实施例中,身份证件信息一般包括人员名称以及对应的身份证件号码,利
用其中的一个身份证件信息能查找得到一个或多个关系人涉税关联企业,所述身份证件信息在关系人涉税关联企业内的关系可与涉税初始企业内的关系不一致,如在涉税初始企业能为为法人,在关系人涉税关联企业内可为领票人等,具体根据身份证件信息查找得到关系人涉税关联企业的过程等为本技术领域人员所熟知,此处不再赘述。
53.对于涉税初始企业开票ip地址、涉税初始企业开票mac码以及涉税初始主板序列号具体查询的过程以及方式均可参考上述说明,具体为本技术领域人员所熟知,此处不再赘述。
54.步骤5、将关系人涉税关联企业信息集、开票mac码涉税关联企业信息集、开票ip地址涉税关联企业信息集以及主板序列号涉税关联企业信息集内同时包含的涉税关联企业确认为涉税嫌疑企业。
55.本发明实施例中,根据关系人涉税关联企业信息集、开票mac码涉税关联企业信息集、开票ip地址涉税关联企业信息集以及主板序列号涉税关联企业信息集内的涉税关联企业的分布情况,能分析挖掘得到涉税嫌疑企业,涉税嫌疑企业即为与涉税初始企业关联,可能存在偷税或虚开发票等情况的企业以及相关人员。当涉税初始企业为初始线索时,利用上述步骤3至步骤5 实现线索的拓展。
56.综上,通过etl工具从税务大数据云平台抽取税务登记信息以及电子底账发票信息,以能根据所抽取到的税务登记信息以及电子底账信息处理后形成关联分析税务数据源;根据涉税初始企业的统一社会信用代码能分别查找得到与所述初始涉税企业相对应的涉税初始企业关系人、涉税初始企业开票 mac码结果集、涉税初始企业开票ip地址结果集以及涉税企业主板序列号结果集,进而能分别得到关系人涉税关联企业信息集、开票mac码涉税关联企业信息集、开票ip地址涉税关联企业信息集以及主板序列号涉税关联企业信息集,利用关系人涉税关联企业信息集、开票mac码涉税关联企业信息集、开票ip地址涉税关联企业信息集以及主板序列号涉税关联企业信息集同时包含的涉税关联企业确认为涉税嫌疑企业,能有效实现涉税数据的关联分析与挖掘,安全可靠。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献