一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于异构图的税务异常检测方法、系统及相关装置与流程

2022-04-13 19:01:39 来源:中国专利 TAG:


1.本技术涉及数据检测领域,特别涉及一种基于异构图的税务异常检测方法、系统及相关装置。


背景技术:

2.目前的偷税漏税检测方法可分为三类:传统的税务稽查方法、基于机器学习的方法和基于网络的方法。传统的税务稽查方法分为检举选案、手工选案和计算机选案。传统的基于计算机的案例选择主要是利用专家经验来定义规则,然后建立基于规则的系统来筛选异常财务指标。但是,这些规则需要手动定义,并且存在滞后性。此外,随着逃税行为的改变,手工定义得规则往往会失效。


技术实现要素:

3.本技术的目的是提供一种基于异构图的税务异常检测方法、系统及相关装置,能够提高税务异常件检测的精度和效率。
4.为解决上述技术问题,本技术提供一种基于异构图的税务异常检测方法,具体技术方案如下:
5.获取各公司的税务数据;
6.将所述税务数据输入预设图数据库,并创建所述税务数据对应的不同类型的节点;
7.利用元路径实例级聚合每个节点的多个元路径信息,利用元路径内级聚合不同元路径实例的信息,利用元路径间级从不同元路径实例中学习所述节点的隐含信息;其中,每个节点学习一个低维的嵌入表示,所述嵌入表示包含了所述异构图的结构信息和所述税务数据的语义信息;
8.将所述元路径实例级、元路径内级和元路径间级输入至所述异构图,利用交叉熵损失函数计算损失,得到检测模型;
9.利用所述检测模型进行税务异常检测。
10.可选的,获取税务数据之后,还包括:
11.对所述税务数据进行数据清理;所述数据清理包括数据脱敏、数据填充和异常数据删除中的至少一种。
12.可选的,利用元路径实例级聚合每个节点的多个元路径信息包括:
13.将元路径实例上的所有节点进行拼接,与特定类型的矩阵相乘以学习元路径实例的嵌入表示。
14.可选的,还包括:
15.利用adam优化器反向传播更新所述检测模型的层次模型参数。
16.可选的,利用所述检测模型进行税务检测包括:
17.利用所述检测模型进行偷漏税检测和隐匿交易检测。
18.可选的,利用所述检测模型进行偷漏税检测和隐匿交易检测包括:
19.利用所述检测模型输出每个公司学习到的节点嵌入,将所述节点嵌入输入至支持向量机中,以便对所有公司进行二分类并进行偷漏税检测;
20.将公司之间的嵌入进行哈达玛积,得到公司对的嵌入标识,再将所述嵌入对输入到所述支持向量机中进行隐匿交易检测。
21.本技术还提供一种基于异构图的税务异常检测系统,包括:
22.数据获取模块,用于获取各公司的税务数据;
23.节点创建模块,用于将所述税务数据输入预设图数据库,并创建所述税务数据对应的不同类型的节点;
24.元路径聚合模块,用于利用元路径实例级聚合每个节点的多个元路径信息,利用元路径内级聚合不同元路径实例的信息,利用元路径间级从不同元路径实例中学习所述节点的隐含信息;其中,每个节点学习一个低维的嵌入表示,所述嵌入表示包含了所述异构图的结构信息和所述税务数据的语义信息;
25.模型构建模块,用于将所述元路径实例级、元路径内级和元路径间级输入至所述异构图,利用交叉熵损失函数计算损失,得到检测模型;
26.税务检测模块,用于利用所述检测模型进行税务异常检测。
27.可选的,税务检测模块包括:
28.偷漏税检测单元,用于利用所述检测模型输出每个公司学习到的节点嵌入,将所述节点嵌入输入至支持向量机中,以便对所有公司进行二分类并进行偷漏税检测;
29.隐匿交易检测单元,用于将公司之间的嵌入进行哈达玛积,得到公司对的嵌入标识,再将所述嵌入对输入到所述支持向量机中进行隐匿交易检测。
30.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
31.本技术还提供一种电子设备,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
32.本技术提供一种基于异构图的税务异常检测方法,包括:获取各公司的税务数据;将所述税务数据输入预设图数据库,并创建所述税务数据对应的不同类型的节点;利用元路径实例级聚合每个节点的多个元路径信息,利用元路径内级聚合不同元路径实例的信息,利用元路径间级从不同元路径实例中学习所述节点的隐含信息;其中,每个节点学习一个低维的嵌入表示,所述嵌入表示包含了所述异构图的结构信息和所述税务数据的语义信息;将所述元路径实例级、元路径内级和元路径间级输入至所述异构图,利用交叉熵损失函数计算损失,得到检测模型;利用所述检测模型进行税务异常检测。
33.本技术将税务场景建模为异质信息网络,充分考虑了公司、人和货物三种实体以及实体之间的丰富交互信息。利用异构图丰富的税务风险信息,可以使偷漏税检测准确率进一步提升。同时异构图上可以进行半监督学习,通过少量标签数据来学习异构图中复杂的结构语义信息,自适应于税务场景。同时,本技术生成的检测模型不仅仅可以进行偷漏税检测,还可以进行隐匿交易检测以及异常团伙检测等多种下游任务。
34.本技术还提供一种基于异构图的税务异常检测系统、计算机可读存储介质和电子设备,具有上述有益效果,此处不再赘述。
附图说明
35.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
36.图1为本技术实施例所提供的基于异构图的税务异常检测方法的流程图;
37.图2为本技术实施例提供的税务异构图的网络模式示意图;
38.图3为本技术实施例所提供的基于异构图的税务异常检测系统结构示意图。
具体实施方式
39.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
40.请参考图1,图1为本技术实施例所提供的基于异构图的税务异常检测方法的流程图,该方法包括:
41.s101:获取各公司的税务数据;
42.本步骤旨在获取公司的税务数据,需要注意的是,该税务数据指税务申请过程所需要的相关数据,例如纳税人识别号nsrsbh、纳税人电子档案号nsrdzdah、法人证件号码zjhm、发票代码fpdm、发票号码fphm等信息。
43.当然,本步骤对于如何获取税务数据不作具体限定。此外,在获取税务数据之后,对税务数据进行数据清理,数据清理可以包括数据脱敏、数据填充和异常数据删除中的至少一种。数据脱敏可以首先对数据中的纳税人识别号nsrsbh、纳税人电子档案号nsrdzdah、法人证件号码zjhm、发票代码fpdm、发票号码fphm等信息进行重新编码,重新排序0;对公司名称进行随机删减和添加,对投资人法人名称随机填充新生成的名字;对身份证号码进行解析,15位或18位身份证通过身份证提取发证地、出生年以及性别三项有用信息。数据填充需要对缺失严重的数据项进行删除处理。对其他数据项采用均值插值,取平均值或者众数。在缺失类型为随机缺失的条件下,可以采用极大似然估计。而对于明显存在异常的数据,则可以直接删除。
44.s102:将所述税务数据输入预设图数据库,并创建所述税务数据对应的不同类型的节点;
45.本步骤需要创建税务数据对应的节点。在此对于预设图数据库不作限定,优选的本步骤可以将数据存入neo4j图数据库中,创建多种类型的节点和边,节点和边包含多种属性信息。还可以进一步利用bert、word2vec以及one hot编码技术等,学习各节点的初始化低维嵌入表示。
46.s103:利用元路径实例级聚合每个节点的多个元路径信息,利用元路径内级聚合不同元路径实例的信息,利用元路径间级从不同元路径实例中学习所述节点的隐含信息;
47.s104:将所述元路径实例级、元路径内级和元路径间级输入至所述异构图,利用交叉熵损失函数计算损失,得到检测模型;
48.在执行本步骤时,每个节点学习一个低维的嵌入表示,所述嵌入表示包含了所述异构图的结构信息和所述税务数据的语义信息。本实施例所需要的检测模型主要由元路径实例级聚合、元路径内级聚合和元路径间级聚合三部分进行税务异常检测。元路径是异构图上基本的语义探索方式,通过元路径来探索复杂的税务风险信息,每个节点包含多个元路径实例。首先,利用元路径实例级聚合每个节点的多个元路径信息。其次,利用元路径内级聚合不同元路径实例的信息。最后,利用元路径间级聚合不同元路径的信息。具体的构建如下:
49.step1.元路径实例级聚合
50.元路径是异构图中的基本语义探索方式,每个节点包含多条元路径实例。每个实例包含不同的信息,例如公司-人-公司元路径,表达了一个人投资了两家公司的语义;公司-货物-公司元路径则表达了两家公司买卖了相同的货物,具有类似的经营范围。不同元路径实例包含了非常不同语义信息,所以元路径实例级聚合的关键问题在于如何学习到不同元路径实例带来的丰富信息。本专利通过将元路径实例上的所有节点进行拼接,与特定类型的矩阵相乘以学习元路径实例的嵌入表示。
51.step2.元路径内级聚合
52.每个节点基于每种元路径包含多个元路径实例,每个元路径实例包含了不同的语义信息。引入元路径内级聚合,每个元路径实例对于节点的重要性是不同的,所以对每个元路径实例分配不同的注意力系数,最终学习到每条元路径的嵌入表示。
53.step3.元路径间级聚合
54.通过step2学习到每条元路径的嵌入表示。每个节点包含多条元路径,每条元路径表达不同的含义,例如公司-人-公司表达两家公司的共同投资人关系,公司-货物-公司表达两家公司的共同经营范围关系,其中包含不同的深层语义信息。为了更好地从多个元路径中学习节点的嵌入表示,采用元路径间级聚合从多个元路径中学习节点的隐含信息。最终,每个节点学习一个低维的嵌入表示,这个嵌入表示充分捕获了异构图中复杂的结构信息和丰富的税务风险语义信息。
55.具体的,参见图2,图2展示了税务异构图的网络模式,首先在图数据库中创建三种类型的节点(公司节点、人节点和货物节点),以及六种类型的边(公司与公司之间的交易关系、人与公司之间的投资或控股关系、人与人之间的亲属关系、公司与货物之间的买关系、公司与货物之间的卖关系、货物与货物之间的类别关系)。节点和边包含多种属性信息,然后将脱敏后数据存入数据库中。
56.首先利用元路径探索语义,本实施例使用公司-公司,公司-人-公司,公司-人-人-公司,公司-货物-公司,公司-货物-货物-公司等多条包含不同语义的元路径来探索异构图中的复杂结构和丰富的税务风险信息。然后使用层次注意力模型作为检测模型来进行偷漏税检测。
57.对于元路径实例级聚合:
58.元路径是异构图中的基本语义探索方式,每个节点包含多条元路径实例。每个实例包含不同的风险信息,例如公司-人-公司元路径,表达了一个人投资了两家公司的语义;公司-货物-公司元路径则表达了两家公司买卖了相同的货物,具有类似的经营范围。不同元路径实例包含了非常不同风险语义信息,所以元路径实例级聚合的关键问题在于如何学
习到不同元路径实例带来的丰富的税务风险信息。
59.元路径实例级聚合的任务是学习节点元路径实例的特征表示。每个节点包含一个或多个基于某个元路径的实例,元路径的每个实例都包含很多信息。元路径实例级聚合的目的是更好地挖掘元路径实例中异构数据源、复杂结构信息和丰富语义信息的深层特征,最终输出元路径实例级嵌入。
60.然而,异构图包含许多类型的节点类型(如公司、人、货物),它们包含完全不同的属性信息,这些属性信息具有不同的特征空间,甚至可能具有不同的特征维度。因此,如果直接使用将严重影响偷漏税检测或隐匿交易检测的效果。因此,首先将节点利用特征变换矩阵投影到同一特征空间中。节点投影过程如下:
61.hi=p
·
xi;
62.其中p是税务节点投影矩阵,xi是公司i的初始化税务特征向量,hi是公司i投影后的税务特征向量。
63.通过变换矩阵将节点初始特征向量投影后,所有节点都在统一的特征空间中。在基于元路径的语义探索方法中,研究者往往丢弃元路径中的所有中间节点,将复杂的异构图聚合问题转化为简单的同构图问题,这无疑会导致大量的信息损失。因此,本专利保留元路径上的中间节点信息,形式化表示为:
[0064][0065]
其中,是公司i在元路径p下的第k个实例,将元路径上节点进行拼接。w
p
是元路径特定的税务风险语义学习矩阵,σ(
·
)是非线性激活函数。
[0066]
对于元路径内级聚合:
[0067]
每个节点基于每种元路径包含多个元路径实例,每个元路径实例包含了不同的风险语义信息。引入元路径内级聚合,每个元路径实例对于节点的重要性是不同的,所以对每个元路径实例分配不同的注意力系数,最终学习到每条元路径的嵌入表示。
[0068]
在元路径实例级聚合之后,每个节点学习一组基于元路径的实例级嵌入。本专利构建元路径内级聚合,来学习元路径实例级聚合后一组实例级嵌入。由于每个元路径实例的嵌入包含不同的风险语义信息。最常用的方法是直接取实例级嵌入的平均值,这相当于等权对待每个元路径实例。事实上,每种元路径实例嵌入对节点的贡献是不同的。受注意机制的启发,引入元路径内级注意机制来学习不同元路径实例对节点的影响,形式化表示为:
[0069][0070]
其中,k
p
是元路径内级税务语义相关的参数化注意力向量,是第j个实例的税务风险重要性系数。随后进行归一化操作:
[0071][0072]
其中,是归一化后的税务风险注意力值。
[0073]
基于元路径内级的节点i的嵌入可以表示为一组通过元路径实例级聚合和相关重要性系数学习的实例嵌入表示,如下所示:
[0074][0075]
其中是公司i基于元路径p的多个元路径实例学习到的风险嵌入表示。
[0076]
对于元路径间级聚合:
[0077]
在元路径内级聚合之后,每个节点学习一组元路径级嵌入。在异构图中,每个元路径包含不同的深层语义信息。为了更好地从多个元路径中学习节点的嵌入表示,提出了一种新的元路径间注意机制来从多个元路径中学习节点的隐含信息。
[0078][0079]
其中,v
p
是元路径间级税务风险参数化注意力向量,是元路径间级税务重要性系数。同样进行softmax处理:
[0080][0081]
其中,是归一化后的税务风险注意力值。
[0082]
最后,利用学习到的注意系数对元路径特定嵌入进行聚合,得到最终的公司风险特征,如下所示:
[0083][0084]
标签信息是少量公司存在偷漏税行为的记录。所以本实施例在异构图中进行半监督学习,利用交叉熵损失函数计算损失,再使用adam优化器反向传播更新元路径实例级聚合、元路径内级聚合和元路径间级聚合三个层次模型参数,得到检测模型。
[0085]
s105:利用所述检测模型进行税务异常检测。
[0086]
本步骤直接应用检测模型进行税务异常检测,具体可以利用所述检测模型进行偷漏税检测和隐匿交易检测。具体的,可以利用所述检测模型输出每个公司学习到的节点嵌入,将所述节点嵌入输入至支持向量机中,以便对所有公司进行二分类并进行偷漏税检测。而对于隐匿交易检测,可以将公司之间的嵌入进行哈达玛积,得到公司对的嵌入标识,再将所述嵌入对输入到所述支持向量机中进行隐匿交易检测。
[0087]
本技术实施例将税务场景建模为异质信息网络,充分考虑了公司、人和货物三种实体以及实体之间的丰富交互信息。利用异构图丰富的税务风险信息,可以使偷漏税检测准确率进一步提升。同时异构图上可以进行半监督学习,通过少量标签数据来学习异构图中复杂的结构语义信息,自适应于税务场景。同时,本技术生成的检测模型不仅仅可以进行偷漏税检测,还可以进行隐匿交易检测以及异常团伙检测等多种下游任务。
[0088]
下面对本技术实施例提供的基于异构图的税务异常检测系统进行介绍,下文描述的一种基于异构图的税务异常检测系统与上文描述的一种基于异构图的税务异常检测方法可相互对应参照。
[0089]
参见图3,图3为本技术实施例所提供的基于异构图的税务异常检测系统结构示意
图,本技术还提供一种基于异构图的税务异常检测系统,包括:
[0090]
数据获取模块,用于获取各公司的税务数据;
[0091]
节点创建模块,用于将所述税务数据输入预设图数据库,并创建所述税务数据对应的不同类型的节点;
[0092]
元路径聚合模块,用于利用元路径实例级聚合每个节点的多个元路径信息,利用元路径内级聚合不同元路径实例的信息,利用元路径间级从不同元路径实例中学习所述节点的隐含信息;其中,每个节点学习一个低维的嵌入表示,所述嵌入表示包含了所述异构图的结构信息和所述税务数据的语义信息;
[0093]
模型构建模块,用于将所述元路径实例级、元路径内级和元路径间级输入至所述异构图,利用交叉熵损失函数计算损失,得到检测模型;
[0094]
税务检测模块,用于利用所述检测模型进行税务异常检测。
[0095]
基于上述实施例,作为优选的实施例,税务检测模块包括:
[0096]
偷漏税检测单元,用于利用所述检测模型输出每个公司学习到的节点嵌入,将所述节点嵌入输入至支持向量机中,以便对所有公司进行二分类并进行偷漏税检测;
[0097]
隐匿交易检测单元,用于将公司之间的嵌入进行哈达玛积,得到公司对的嵌入标识,再将所述嵌入对输入到所述支持向量机中进行隐匿交易检测。
[0098]
本技术还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0099]
本技术还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
[0100]
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0101]
本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
[0102]
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献