一种基于集成的个人所得税异常检测方法及装置与流程

2022-04-27 06:27:32 来源：中国专利 TAG：

1.本发明属于税务管理领域，特别是涉及到一种基于集成的个人所得税异常检测方法及装置。

背景技术：

2.随着社会经济和科技信息的飞速发展，企业在生产经营方式和交易支付手段上日益多样化、电子化，使得个人所得税税源越来越隐蔽，同时自然人流动性大，涉税行为零星分散，这都给个人所得税征收管理带来较大困难。而2019年标志着综合与分类相结合的个人所得税新税制的全面实施，更给自然人税收风险管理带来更严峻挑战，同时也给个人带来了较大的涉税风险。在当前大数据时代,传统的个人所得税税收风险管理模式已不能满足日常工作要求，传统的异常风险分析方法已不再适用。

技术实现要素：

3.本发明提出一种基于集成的个人所得税异常检测方法及装置，降低征纳双方涉税行为信息的不对称性,有效减少自然人税源流失的风险。
4.为了实现上述目的，本发明的技术方案是这样实现的：
5.一种基于集成的个人所得税异常检测方法，包括：
6.s1、基于税务数据，建立区分正常纳税人和异常纳税人的特征数据列表；
7.s2、基于所有纳税人的历史特征数据，建立iforest异常检测模型、lof异常检测模型、以及ocsvm异常检测模型；
8.s3、采集待检测纳税人的特征数据列表中的特征数据；
9.s4、预处理后的数据，经iforest异常检测模型、lof异常检测模型、以及ocsvm异常检测模型分别进行异常检测，并计算异常评分，根据总的异常评分判定是否异常纳税人。
10.进一步的，步骤s2中，建立iforest异常检测模型的方法包括：
11.s201、构建孤立树：从所有纳税人税务数据的特征数据中进行采样，构建多个二叉树；
12.s202、构建森林：通过随机采样对每棵树进行训练，对森林中的每棵孤立树进行测试，记录路径长度；
13.s203、计算异常分数：孤立森林引入异常分数计算公式，计算每个样本点的异常得分，具体公式如下：
[0014][0015]
其中，score(x)为数据的异常分数，e(h(x))表示筛选异常数据在多个二叉树上的平均路径长度，为多个二叉树的平均路径长度；
[0016]
s204、得出异常点结果：根据异常得分低于阈值的认定为异常点，并且类别设为-1。
[0017]
进一步的，步骤s2中，建立lof异常检测模型的方法包括：
[0018]
s211、指定离群异常检测算法的k值大小和离群因子大小判断的阈值大小epsilon；
[0019]
s212、结合指定k值，计算出每一个原始数据的局部离群因子大小；
[0020]
s213、输出局部离群因子大于1的点，即判读为异常点，小于1的点判断输出为正常点。
[0021]
进一步的，步骤s2中，建立ocsvm异常检测模型的方法包括：
[0022]
s221、输入特征数据；
[0023]
s222、构建拉格朗日目标函数；
[0024]
s223、求得最优分割面(超平面)，能使支持向量和超平面最小距离的最大值；
[0025]
s224、距离超平面近的点标为正常数据，距离超平面远的点标为异常点。
[0026]
进一步的，步骤s1、s2、s3中，所述特征数据进行预处理，具体方法包括：
[0027]
s301、缺失值处理，将缺失值使用数值0代替；
[0028]
s302、通过计算特征数据的方差，剔除方差为零的特征数据；
[0029]
s303、将剩余的特征数据进行标准化处理。
[0030]
本发明的另一方面，还提出了一种基于集成的个人所得税异常检测装置，包括：
[0031]
特征数据列表模块，基于税务数据，建立区分正常纳税人和异常纳税人的特征数据列表；
[0032]
建模模块，基于所有纳税人的历史纳税数据，建立iforest异常检测模型、lof异常检测模型、以及ocsvm异常检测模型；
[0033]
数据采集模块，采集待检测纳税人的特征数据列表中的特征数据并进行预处理；
[0034]
异常检测模块，将预处理后的数据，经iforest异常检测模型、lof异常检测模型、以及ocsvm异常检测模型分别进行异常检测，并计算异常评分，根据总的异常评分判定是否异常纳税人。
[0035]
进一步的，所述建模模块包括iforest异常检测模型建立单元，用于：
[0036]
构建孤立树：从所有纳税人税务数据的特征数据中进行采样，构建多个二叉树；
[0037]
构建森林：通过随机采样对每棵树进行训练，对森林中的每棵孤立树进行测试，记录路径长度；
[0038]
计算异常分数：孤立森林引入异常分数计算公式，计算每个样本点的异常得分，具体公式如下：
[0039][0040]
其中，score(x)为数据的异常分数，e(h(x))表示筛选异常数据在多个二叉树上的平均路径长度，为多个二叉树的平均路径长度；
[0041]
得出异常点结果：根据异常得分低于阈值的认定为异常点，并且类别设为-1。
[0042]
进一步的，所述建模模块包括lof异常检测模型建立单元，用于：
[0043]
指定离群异常检测算法的k值大小和离群因子大小判断的阈值大小epsilon；
[0044]
结合指定k值，计算出每一个原始数据的局部离群因子大小；
[0045]
输出局部离群因子大于1的点，即判读为异常点，小于1的点判断输出为正常点。
[0046]
进一步的，所述建模模块包括ocsvm异常检测模型建立单元，用于：
[0047]
输入特征数据；
[0048]
构建拉格朗日目标函数；
[0049]
求得最优分割面(超平面)，能使支持向量和超平面最小距离的最大值；
[0050]
距离超平面近的点标为正常数据，距离超平面远的点标为异常点。
[0051]
进一步的，特征数据列表模块、建模模块、数据采集模块都包括预处理单元，用于将特征数据进行预处理，包括：
[0052]
缺失值处理，将缺失值使用数值0代替；
[0053]
通过计算特征数据的方差，剔除方差为零的特征数据；
[0054]
将特征数据进行标准化处理。
[0055]
与现有技术相比，本发明具有如下的有益效果：
[0056]
本发明选用多种算法集成方式提高异常检测性能，能够检测出区别于大多数正常数据的异常数据，降低征纳双方涉税行为信息的不对称性,有效减少自然人税源流失的风险。
附图说明
[0057]
图1是本发明实施例的特征数据方差图；
[0058]
图2是本发明实施例的流程示意图。
具体实施方式
[0059]
需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
[0060]
下面将参考附图并结合实施例来详细说明本发明。
[0061]
在数据挖掘的过程中，数据库中可能包含一些数据对象，这些数据对象与数据的一般行为或模型不一致，这些数据对象被称为异常对象，异常对象又称作异常点或离群点。对数据的异常点或者特点的问题进行分析，可以得到具有价值的信息。比如：税收数据中可以通过分散的个人涉税信息进行全样本的整合处理检测出自然人异常税收行为；税收数据异常点的挖掘就是寻找税收风险点的过程等等，这些都是数据挖掘在税收领域中发挥的重要价值和作用。
[0062]
为了提高异常点检测的准确性，本发明采用集成的方式对个人所得税数据进行异常检测，重点集成基于iforest,lof,ocsvm三种主流异常检测算法，其中，孤立森林算法(iforest)是一种异常值检测算法,从给定的特征集合中随机选择特征，然后在特征的最大值和最小值间随机选择一个分割值，来隔离离群值。单类支持向量机(ocsvm)是基于线性模型，通过寻找一个超平面将样本中的正例圈出来，预测就是用这个超平面做决策，在圈内的样本就认为是正样本。局部异常因子算法(lof)是基于相似性度量模型，通过计算一个数值score来反映一个样本的异常程度。
[0063]
但由于iforest、lof、ocsvm算法都只针对某一类型的离群点进行检测，无法全面检测各种类型离群点。本专利基于提升框架提出了一种集成的异常点检测模型，鉴于孤立森林、lof、ocsvm分别对于全局、局部、线性的高度敏感，以这三种基分类器为基础，修改其
目标函数，再通过boosting进行融合，充分发挥各分类器的不同优势，全面考虑了多维数据的各个离群属性，最终形成基于孤立森林、lof、ocsvm集成综合的异常检测模型，根据“投票”结果判别纳税人是否存在异常数据，从而实现个人所得税的税收风险分析，以期达到跨界应用、减少人为因素影响、精准识别的效果。
[0064]
本实施例中采用的方案如图2所示，具体如下：
[0065]
一、数据预处理
[0066]
为了构建基于集成的异常点检测模型，首先需要根据实际业务情景中的以往分析经验，总结自然人的税收行为规律，形成可以区分正常纳税人和异常纳税人的特征数据列表，并整理为可参与计算的量化数据。在特征数据处理的过程中，为确保特征的有效性，尽量挑选相对独立的特征进行组合，作为输入特征。
[0067]
本专利根据实际业务经验，从“自然人申报综合所得个人所得税年度自行申报表”中整理共27个特征数据项作为个人所得税异常分析的特征，例如：个人收入额所得、减免税额、应征税额、住房贷款合计以及继续教育合计等。
[0068]
数据质量校验是进行数据完整性、一致性技术校验。指定规则检查，包括格式检查、范围检查、缺失记录检查、相似重复记录检查、精度检查、逻辑表达式检查、复合规则检查等，本专利对数据做了如下预处理：
[0069]
(1)缺失值处理：通过观察数据，可看到数据中含有部分null值，而在模型拟合中如果存在null值会报错，根据实际指标含义，将null值用数值0替代。
[0070]
(2)特征数据筛选：方差是衡量源数据和期望值相差的度量值，统计中方差是每个样本值与全体样本值的平均数之差的平方值的平均数，因此如果方差为0或接近于0，也就可以说明该特征数据的特征值之间基本上没有差异，对于异常检测过程无意义，应舍弃该特征数据。因此，本专利为避免多与特征数据的干扰，计算27个指标特征的方差，将方差为0的特征数据在后续计算中剔除。计算结果如图1所示。
[0071]
其中，q**e,j**e,j**e三个特征数据方差为0，因此为提高算法性能，将其从算法计算中去除。
[0072]
(3)数据标准化：不同字段间的量纲不同，这也会对实验分析结果造成干扰，所以需要对剩余的特征数据进行标准化处理，标准化的目的就是将数据转化为无量纲的指标测评值，减小量纲对实验分析的影响。
[0073]
本发明使用standardscaler来进行数据的标准化，利用标准化，减少某个数据特征的重要程度过大或过小。具体地，把数据变换到均值为0，标准差为1的范围内，公式如下：
[0074][0075]
其中，mean为平均值，σ为标准差。
[0076]
二、基于iforest、lof和ocsvm集成异常检测算法：
[0077]
为了提高异常点检测的准确性，避免不同类型算法对结果的干扰，本发明采用集成的方式对个人所得税数据进行异常检测，重点集成基于iforest,lof,ocsvm三种主流异常检测算法，根据3种算法各自的检测结果进行投票，投票结果越多，异常值越大，代表风险程度越高。
[0078]
(一)三种算法的具体算法原理步骤如下：
[0079]
1、孤立森林算法采用多重二分法将样本点进行分区，该算法将样本中所有样本进行切分，直到每个样本点或极少样本点被划分在同一区域，这样样本越密集的区域，区域中的点被孤立时所需要的切分次数就越多，同理样本是孤立点，则该点被孤立时切分的次数就越低具体地，孤立森林算法(iforest)算法主要步骤如下：
[0080]
(1)构建孤立树：从所有纳税人的训练集数据中进行采样，构建多个二叉树；
[0081]
(2)构建森林：通过随机采样对每棵树进行训练，对森林中的每棵孤立树进行测试，记录路径长度；
[0082]
(3)计算异常分数：孤立森林引入异常分数计算公式，计算每个样本点的异常得分(anomaly score)，具体公式如下：
[0083][0084]
(4)得出异常点结果：根据异常得分低于阈值的认定为异常点，并且类别设为-1。
[0085]
其中，score(x)为数据的异常分数，e(h(x))表示筛选异常数据在多个二叉树上的平均路径长度，为多个二叉树的平均路径长度。
[0086]
2、局部异常因子算法(lof)适用于二维或高维坐标体系内异常点的判别，例如二维平面坐标或经纬度空间坐标下异常点识别，可用此类方法。
[0087]
算法的具体步骤：
[0088]
(1)指定离群异常检测算法的k值大小和离群因子大小判断的阈值大小epsilon；
[0089]
(2)结合指定k值，计算出每一个原始数据的局部离群因子大小大小；
[0090]
(3)输出局部离群因子大于1的点，即判读为异常点，小于1的点判断输出为正常点。
[0091]
3、单类支持向量机(ocsvm)，首次是在论文《support vector method for novelty detection》中由bernhard等人在2000年提出，其与svm的原理类似，更像是将零点作为负样本点，其他数据作为正样本点，来训练支持向量机。策略是将数据映射到与内核相对应的特征空间，在数据与原点间构建超平面，该超平面与原点呈最大距离。
[0092]
算法具体步骤：
[0093]
(1)输入特征数据；
[0094]
(2)构建拉格朗日目标函数；
[0095]
(3)求得最优分割面(超平面)，能使支持向量和超平面最小距离的最大值；
[0096]
(4)距离超平面近的点标为正常数据，距离超平面远的点标为异常点。
[0097]
(二)基于上述iforest,lof,ocsvm三种算法集成的综合异常检测流程如下：
[0098]
1.对个人所得税数据共27个特征数据，进行数据预处理，包括缺失值处理，特征数据筛选，利用standardscaler来进行数据的标准化；
[0099]
2.输入整理后的特征数据利用孤立森林算法构建异常检测模型，形成检测器g1，对于输入的个人所得税数据，得出每个纳税人的异常程度值
[0100]
3.利用lof算法进行异常检测分析，形成检测器g2，对于输入的个人所得税数据，得出每个纳税人的异常程度值
[0101]
4.利用ocsvm算法进行异常检测分析，形成检测器g3，对于输入的个人所得税数
据，得出每个纳税人的异常程度值
[0102]
5.默认异常程度大于50％为异常，即判定为异常纳税人，同时，异常得分积一分；
[0103]
当异常积分》＝2时，即两种及以上算法识别为异常纳税人，则该纳税人最终确定为异常纳税人。
[0104]
算法集成(boosting)融合过程如图2的流程所示。
[0105]
本专利选用个人所得税数据通过三个算法算出异常积分，最终得到纳税行为异常的纳税人。通过本专利，共x省内整理特征数据集4870户，最终得到487条异常数据。对异常数据的自然人列为异常自然人，形成税收风险任务，降低征纳双方涉税行为信息的不对称性,有效减少自然人税源流失的风险。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于安全多方计算的隐私保护机器学习推理方法及系统

一种基于集成的个人所得税异常检测方法及装置与流程

相关文献

最热文献