一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据风险识别方法及相关装置与流程

2022-02-24 13:59:55 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,特别涉及一种数据风险识别方法、数据风险识别装置、服务器以及计算机可读存储介质。


背景技术:

2.随着信息技术的不断发展,可以对数据进行更加智能的数据处理操作。例如,智能识别出符合某种特征的数据,或者是对数据进行自然语言识别。进一步的,会提高实际生产操作中对数据进行操作的效率,提高整体的生产效率。
3.相关技术中,一种是通过业务专家对出口企业的发票数据进行分析,找出出口企业的上游是否存在问题,从而判断出口企业是否有骗税行为。另一种是通过机器学习的方法,通过构造有问题的出口企业和正常企业的训练集,训练机器学习模型,利用机器学习模型来判断出口企业是否有骗税行为。但是,通过专家去分析出口企业的数据耗时费力,且过度依赖于专家的水平。此外,通过机器学习方法虽然能提升效率,但是在训练的集的获取以及模型的可解释性方面效果较差,在查处企业风险时需要提供证据链。降低了对数据风险进行识别的准确性。
4.因此,如何提高对数据风险进行识别的准确性是本领域技术人员关注的重点问题。


技术实现要素:

5.本技术的目的是提供一种数据风险识别方法、数据风险识别装置、服务器以及计算机可读存储介质,以提高对数据中风险进行识别的准确性和效率。
6.为解决上述技术问题,本技术提供一种数据风险识别方法,包括:
7.对获取到的交易数据进行组织交易关系图谱构建,得到交易关系图谱;
8.基于图算法对所述交易关系图谱进行社区挖掘处理,得到多个交易社区;
9.基于交易信息对所述多个交易社区进行风险标记,得到风险交易社区数据。
10.可选的,对获取到的交易数据进行组织交易关系图谱构建,得到交易关系图谱,包括:
11.基于对象规则对所述获取到的交易数据进行筛选,得到多个目标对象;
12.基于构建规则对所述多个目标对象进行组织交易关系图谱构建,得到所述交易关系图谱。
13.可选的,基于图算法对所述交易关系图谱进行社区挖掘处理,得到多个交易社区,包括:
14.基于连通社区算法对所述交易关系图谱进行社区挖掘处理,得到所述多个交易社区。
15.可选的,基于图算法对所述交易关系图谱进行社区挖掘处理,得到多个交易社区,包括:
16.基于louvain算法对所述交易关系图谱进行社区挖掘处理,得到所述多个交易社区。
17.可选的,基于交易信息对所述多个交易社区进行风险标记,得到风险交易社区数据,包括:
18.获取风险规则模型;
19.基于所述风险规则模型和所述交易信息对所述多个交易社区进行风险标记,得到所述风险交易社区数据。
20.可选的,还包括:
21.对所述风险交易社区数据进行统计数据计算,得到组织风险参数。
22.本技术还提供一种数据风险识别装置,包括:
23.图谱构建模块,用于对获取到的交易数据进行组织交易关系图谱构建,得到交易关系图谱;
24.社区挖掘模块,用于基于图算法对所述交易关系图谱进行社区挖掘处理,得到多个交易社区;
25.风险标记模块,用于基于交易信息对所述多个交易社区进行风险标记,得到风险交易社区数据。
26.可选的,所述图谱构建模块,具体用于基于对象规则对所述获取到的交易数据进行筛选,得到多个目标对象;基于构建规则对所述多个目标对象进行组织交易关系图谱构建,得到所述交易关系图谱。
27.本技术还提供一种服务器,包括:
28.存储器,用于存储计算机程序;
29.处理器,用于执行所述计算机程序时实现如以上实施例所述的数据风险识别方法的步骤。
30.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的数据风险识别方法的步骤。
31.本技术所提供的一种数据风险识别方法,包括:对获取到的交易数据进行组织交易关系图谱构建,得到交易关系图谱;基于图算法对所述交易关系图谱进行社区挖掘处理,得到多个交易社区;基于交易信息对所述多个交易社区进行风险标记,得到风险交易社区数据。
32.通过先对交易数据进行组织交易关系图谱构建,得到交易关系图谱,然后基于该交易关系图谱进行社区挖掘,得到多个交易社区,最后基于交易信息对挖掘出的交易社区进行风险标记,得到存在风险的风险交易社区数据,实现了基于图算法的风险挖掘处理,而不是通过人工的方式进行风险识别,提高了数据风险识别的准确性和精度。
33.本技术还提供一种数据风险识别装置、服务器以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
34.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
35.图1为本技术实施例所提供的一种数据风险识别方法的流程图;
36.图2为本技术实施例所提供的一种数据风险识别方法的交易关系谱图示意图;
37.图3为本技术实施例所提供的一种数据风险识别方法的连通子图示意图;
38.图4为本技术实施例所提供的一种数据风险识别方法的连通结果图;
39.图5为本技术实施例所提供的一种数据风险识别装置的结构示意图。
具体实施方式
40.本技术的核心是提供一种数据风险识别方法、数据风险识别装置、服务器以及计算机可读存储介质,以提高对数据中风险进行识别的准确性和效率。
41.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
42.相关技术中,一种是通过业务专家对出口企业的发票数据进行分析,找出出口企业的上游是否存在问题,从而判断出口企业是否有骗税行为。另一种是通过机器学习的方法,通过构造有问题的出口企业和正常企业的训练集,训练机器学习模型,利用机器学习模型来判断出口企业是否有骗税行为。但是,通过专家去分析出口企业的数据耗时费力,且过度依赖于专家的水平。此外,通过机器学习方法虽然能提升效率,但是在训练的集的获取以及模型的可解释性方面效果较差,在查处企业风险时需要提供证据链。降低了对数据风险进行识别的准确性。
43.因此,本技术提供一种数据风险识别方法,通过先对交易数据进行组织交易关系图谱构建,得到交易关系图谱,然后基于该交易关系图谱进行社区挖掘,得到多个交易社区,最后基于交易信息对挖掘出的交易社区进行风险标记,得到存在风险的风险交易社区数据,实现了基于图算法的风险挖掘处理,而不是通过人工的方式进行风险识别,提高了数据风险识别的准确性和精度。
44.以下通过一个实施例,对本技术提供的一种数据风险识别方法进行说明。
45.请参考图1,图1为本技术实施例所提供的一种数据风险识别方法的流程图。
46.本实施例中,该方法可以包括:
47.s101,对获取到的交易数据进行组织交易关系图谱构建,得到交易关系图谱;
48.本步骤旨在从交易数据中构建出对应的交易关系图谱。其中,交易数据是指各个组织之间进行交易行为产生的数据。进而对该交易数据中的关系进行梳理就可以得到对应的交易关系图谱。
49.进一步的,本步骤中可以先筛选交易数据中的公司然后基于筛选出的公司再构建出对应的交易关系图谱。
50.进一步的,本步骤可以包括:
51.步骤1,基于对象规则对获取到的交易数据进行筛选,得到多个目标对象;
52.步骤2,基于构建规则对多个目标对象进行组织交易关系图谱构建,得到交易关系图谱。
53.可见,本可选方案中主要是说明如何进行交易管子图谱构建。本可选方案中,基于对象规则对获取到的交易数据进行筛选,得到多个目标对象,基于构建规则对多个目标对象进行组织交易关系图谱构建,得到交易关系图谱。
54.s102,基于图算法对交易关系图谱进行社区挖掘处理,得到多个交易社区;
55.在s101的基础上,本步骤旨在基于图算法对交易关系图谱进行社区挖掘处理,得到多个交易社区。
56.其中,图算法指利用特制的线条算图求得答案的一种简便算法。无向图、有向图和网络能运用很多常用的图算法,这些算法包括:各种遍历算法,寻找最短路径的算法,寻找网络中最低代价路径的算法,回答一些简单相关问题的算法。
57.进一步的,本步骤可以包括:
58.基于连通社区算法对交易关系图谱进行社区挖掘处理,得到多个交易社区。
59.可见,本可选方案中主要是说明如何进行社区挖掘。本可选方案中,基于连通社区算法对交易关系图谱进行社区挖掘处理,得到多个交易社区。
60.其中,连通社区算法分为弱连通社区算法和强连通社区算法,是常用的图算法之一。弱连通即无向图中所有节点都可以通过一条路径到达其他节点,强连通社区即有向图中所有节点都可以通过一条路径到达其他节点。
61.进一步的,本步骤可以包括:
62.基于louvain算法对交易关系图谱进行社区挖掘处理,得到多个交易社区。
63.可见,本可选方案中主要是说明如何进行社区挖掘。本可选方案中,基于louvain算法对交易关系图谱进行社区挖掘处理,得到多个交易社区。
64.其中,louvain算法是基于模块度的社区发现算法,该算法在效率和效果上都表现比较好,并且能够发现层次性的社区结构,其优化的目标是最大化整个图属性结构的模块度。
65.s103,基于交易信息对多个交易社区进行风险标记,得到风险交易社区数据。
66.在s102的基础上,基于交易信息对多个交易社区进行风险标记,得到风险交易社区数据。
67.其中,交易信息可以包括交易社区中节点组织的状态、投入产出比、海关进口缴款模型等。
68.进一步的,本步骤可以包括:
69.步骤1,获取风险规则模型;
70.步骤2,基于风险规则模型和交易信息对多个交易社区进行风险标记,得到风险交易社区数据。
71.可见,本可选方案中主要是说明如何进行风险标记。本可选方案中获取风险规则模型,然后基于风险规则模型和交易信息对多个交易社区进行风险标记,得到风险交易社区数据。
72.此外,本实施例还可以包括:
73.对风险交易社区数据进行统计数据计算,得到组织风险参数。
74.可见,在获取到风险交易社区数据之后,还可以基于该风险交易社区数据进行统计计算,以便得到相关的组织风险参数,以便对组织风险进行评估。
75.综上,本实施例通过先对交易数据进行组织交易关系图谱构建,得到交易关系图谱,然后基于该交易关系图谱进行社区挖掘,得到多个交易社区,最后基于交易信息对挖掘出的交易社区进行风险标记,得到存在风险的风险交易社区数据,实现了基于图算法的风险挖掘处理,而不是通过人工的方式进行风险识别,提高了数据风险识别的准确性和精度。
76.以下通过一个具体的实施例,对本技术提供的一种数据风险识别方法做进一步说明。
77.本实施例中,组织为实际数据中存在该方法可以包括:
78.第一步:筛选出口企业。通过预设规则筛选出需要分析的对象,即出口企业。
79.其中,预设规则,包括:
80.(1)企业为一般纳税人;
81.(2)外贸出口型企业;
82.(3)纳税状态正常;
83.(4)不含有国有内资企业;
84.(5)分析期内出口退税额大于10万;
85.(6)分析期内免税销售额大于100万,且占全部销售额比例大于80%。
86.第二步:构建企业交易关系图谱。通过出口企业向上游查找与之交易的企业发票数据,构建交易关系图谱。
87.构建的过程可以包括:
88.(1)构建第一层中,开票金额小于10万的交易不纳入;供货金额小于10万的供货企业不纳入。
89.(2)供货企业为生产企业时(税务登记(行业)非批发、零售),直接根据其12个月内的勾选抵扣情况,拓展排名前10的供货企业(且金额需超过10万),然后停止拓展。
90.(3)如某条链路中经3次向上拓展,仍未出现生产企业的,则判断此链路存在问题,不再向上拓展。
91.(4)上游企业为国有企业的不纳入图谱构建中。
92.第三步:应用图算法挖掘交易社区。本发明使用了两种图算法,分别是连通社区算法和louvain算法。
93.其中,图算法是图分析的工具之一,图算法提供了一种最有效的分析连接数据的方法,描述了如何处理图以发现一些定性或者定量的结论。图算法基于图论,利用节点之间的关系来推断复杂系统的结构和变化。可以使用这些算法来发现隐藏的信息,验证业务假设,并对行为进行预测。常用的算法包括连通社区算法、louvain模块度聚类算法等。
94.其中,连通社区算法分为弱连通社区算法和强连通社区算法,是常用的图算法之一。弱连通即无向图中所有节点都可以通过一条路径到达其他节点,强连通社区即有向图中所有节点都可以通过一条路径到达其他节点(输出标准环状回路)。本实施例中,可以使用弱连通社区算法。通常得到的是一个巨型社区,和其他几个小的孤岛社区。
95.比如:中国的区域版图,输入一个连通社区算法,进行区域划分,输出结果是一个大陆和一些小型的孤岛。
96.其中,louvain算法,又称fast unfolding算法,是一个典型的基于模块度的图聚类算法。模块度也可以理解是社区内部边的权重减去所有与社区节点相连的边的权重和,社区划分的目标是使得划分后的社区内部的连接较为紧密,而在社区之间的连接较为稀疏,通过模块度的可以刻画这样的划分的优劣,模块度越大,则社区划分的效果越好。
97.fast unfolding算法便是基于模块度对社区划分的算法,fast unfolding算法是一种迭代的算法,主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。主要分为两个阶段。
98.第一阶段称为modularity optimization,主要是将每个节点划分到与其邻接的节点所在的社区中,以使得模块度的值不断变大;
99.第二阶段称为community aggregation,主要是将第一步划分出来的社区聚合成为一个点,即根据上一步生成的社区结构重新构造网络。重复以上的过程,直到网络中的结构不再改变为止。
100.本实施例中,两种算法的实现过程,可以包括:
101.首先,通过上述步骤构建了一个大的交易关系图谱。
102.请参考图2,图2为本技术实施例所提供的一种数据风险识别方法的交易关系谱图示意图。
103.其中,图中灰色圆点出口企业。其他的点代表有交易关系的企业。
104.请参考图3,图3为本技术实施例所提供的一种数据风险识别方法的连通子图示意图。
105.然后,通过连通社区算法,将关系图谱大图分割成若干个连通子图,如图3所示,算法将大图分成了2个连通子图。
106.从图3可以看出,图3中的子图2中节点太少所以可以删去。节点1,及子图1太大,可以进一步细分。然后采用louvain算法对子图1进一步进行划分,然后得到最终的交易社区。
107.请参考图4,图4为本技术实施例所提供的一种数据风险识别方法的连通结果图。
108.第四步:交易社区中的企业节点进行风险标记。对于识别出的交易社区节点企业,进行分析并给出风险标记。
109.(1)根据节点企业(均含末梢企业,下同)状态,对链路中的办理税务登记1年内被税务机关认定为非正常户或被认定为增值税一般纳税人1年内注销税务登记的企业进行标记。
110.(2)运用商贸新办走逃、商贸企业购销背离虚开的模型对链路中的商贸企业节点进行标记。其中新办走逃是指企业开办不久就失联走逃的企业。商贸购销背离虚开是指企业购进和卖出的东西差距很大,所以认定为虚开。
111.(3)运用投入产出中的投入产出比异常的生产企业节点进行标记。投入产出占比主要是指制造业投入的原材料和生产的产品之间的差异比较大。比如投入100块的原材料,能生产出10万元的产品,这种就是投入产出异常,需要进行风险标记。
112.(4)对于链路上的商贸企业节点进行海关进口缴款书购销背离的模型判断,存在问题的予以标记。
113.第五步:风险识别。统计第四步的交易社区中有风险标记的企业节点数量和风险交易的金额,计算风险企业节点占比,和风险企业交易金额占比。
114.其中,风险企业节点占比=风险企业数/社区总节点数。
115.其中,风险交易金额占比=风险企业交易金额/社区总交易金额。
116.如果风险企业节点占比大于50%,且风险交易金额占比大于80%,则认为这个交易社区有问题,即对应的该出口企业有问题,可能存在出口骗税风险。
117.可见,本实施例通过先对交易数据进行组织交易关系图谱构建,得到交易关系图谱,然后基于该交易关系图谱进行社区挖掘,得到多个交易社区,最后基于交易信息对挖掘出的交易社区进行风险标记,得到存在风险的风险交易社区数据,实现了基于图算法的风险挖掘处理,而不是通过人工的方式进行风险识别,提高了数据风险识别的准确性和精度。
118.下面对本技术实施例提供的数据风险识别装置进行介绍,下文描述的数据风险识别装置与上文描述的数据风险识别方法可相互对应参照。
119.请参考图5,图5为本技术实施例所提供的一种数据风险识别装置的结构示意图。
120.本实施例中,该装置可以包括:
121.图谱构建模块100,用于对获取到的交易数据进行组织交易关系图谱构建,得到交易关系图谱;
122.社区挖掘模块200,用于基于图算法对交易关系图谱进行社区挖掘处理,得到多个交易社区;
123.风险标记模块300,用于基于交易信息对多个交易社区进行风险标记,得到风险交易社区数据。
124.可选的,该图谱构建模块100,具体用于基于对象规则对获取到的交易数据进行筛选,得到多个目标对象;基于构建规则对多个目标对象进行组织交易关系图谱构建,得到交易关系图谱。
125.本技术实施例还提供一种服务器,包括:
126.存储器,用于存储计算机程序;
127.处理器,用于执行所述计算机程序时实现如以上实施例所述的数据风险识别方法的步骤。
128.本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的数据风险识别方法的步骤。
129.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
130.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
131.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执
行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
132.以上对本技术所提供的一种数据风险识别方法、数据风险识别装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献