一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于标签传播的集团客户挖掘方法、装置和电子设备与流程

2022-03-19 12:56:53 来源:中国专利 TAG:


1.本发明涉及金融数据处理技术领域,尤其涉及一种基于标签传播的集团客户挖掘方法、装置和电子设备。


背景技术:

2.随着科技的进步,如今在现实生活中,许多重要的数据都以网络图的形式存在。网络图是由节点与边构成的,表示节点对象及其相互间的关联。如今,网络图是最常用的数据结构之一,比如企业间构成的资金关系网络,学术论文间构成的引文网络,社交用户间构成的社交网络等等。对于不同类型的网络图,节点与边表示不同的含义。从网络中挖掘社区结构具有非常重要的研究意义,通过对社区的划分可以更深入地理解网络,迅速区分存在强关联性的节点群。比如在企业关联关系网络中,集团企业的挖掘可以确立企业风险的传播范围,可以帮助银行客户经理更准确的分析潜在关联的企业。
3.目前,经过多年的发展,已经出现了许多种社区发现算法,并在不同的应用场景下取得了较好的效果。从最初的非重叠社区划分算法到近年来对重叠社区的挖掘,研究者们对复杂网络的社区挖掘问题分析的越来越透彻。例如,newman和girvan在2004年提出了模块度的概念,vincent等人在2008年提出了fast-unfolding算法。gregory在2010年提出的copra算法。然而,目前的社区发现算法依然存在着结果不稳定的弊端,需要设置额外参数来进行修正,而这种方法对于有较高准确率需求的场景适用性很差。


技术实现要素:

4.为了解决现有技术中存在的问题,本发明提供了如下技术方案。
5.本发明一方面提供了一种基于标签传播的集团客户挖掘方法,包括:
6.s101,获取企业控股关系数据并构建网络图;
7.s102,搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
8.s103,以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
9.s104,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
10.s105,若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至s103;
11.s106,重复步骤s105至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
12.优选地,所述获取企业控股关系数据并构建网络图包括:
13.从工商、征信、wind数据库及银行系统获取企业控股关系数据,所述数据包含行内
外企业间的控股关系;
14.将企业作为节点、控股关系作为边,构建网络图。
15.优选地,s102中,所述第一预设规则包括:入度为零或父节点控股比例之和小于预设值。
16.优选地,s103中,所述搜索连边控股比例大于50%的子节点企业包括:
17.使用广度优先搜索方法搜索连边控股比例大于预设值的子节点企业。
18.优选地,s104中,所述第二预设规则包括:
19.若企业的未知股东的控股比例大于有标签股东的最大控股比例与无标签股东控股比例之和,则采用独立的标签标记该企业,并跳转至s103。
20.优选地,s104中,所述第二预设规则包括:
21.若企业的所有股东均进行了标签标记,则以控股比例最大的标签标记该企业。
22.优选地,s104中,所述第二预设规则包括:
23.若有标签标记股东的最大控股比例大于有标签标记股东的第二大控股比例与无标签标记股东控股比例之和,且有标签标记股东的最大控股比例大于等于未知股东的控股比例,则以控股比例最大的有标签标记股东的标签标记该企业。
24.优选地,s104中,所述第二预设规则包括:
25.查找企业除控股比例最大的有标签标记股东外,剩余的有标签标记股东到无标签标记股东的路径,如果存在,则将无标签标记股东的控股比例添加至路径中有标签标记股东的控股比例中,然后,若初始的有标签标记股东的最大控股比例大于其余所有股东的控股比例,则以初始的最大控股比例的有标签标记股东的标签标记该企业。
26.本发明第二方面提供了一种基于标签传播的集团客户挖掘装置,包括:
27.网络图构建模块,用于获取企业控股关系数据并构建网络图;
28.第一企业标记模块,用于搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
29.第二企业标记模块,用于以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
30.第三企业标记模块,用于若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
31.第四企业标记模块,用于若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至所述第二企业标记模块;
32.第五企业标记模块,用于在第四企业标记模块中重复操作,至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
33.本发明第三方面还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行上述的方法。
34.本发明的有益效果是:本发明提供的基于标签传播的集团客户挖掘方法、装置和电子设备,首先构建网络图;然后搜索符合第一预设规则的企业,并采用独立的标签标记该企业;再然后以独立标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,
并利用父节点企业的标签标记子节点企业;之后,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;最后若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至上述步骤:以独立标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业,至所述网络图中标签的数量不变时停止搜索;标记同一标签的企业为同一集团客户。该方法中,基于构建企业控股关系网络图,按照一定的方法控制标签传播的路径,挖掘得到标记为同一标签的集团客户。本发明提供的方法简便可行、参数少、稳定,可满足实际业务场景中对于准确率高的需求,而且应用范围广泛,可以在多种类型的金融机构中应用,比如商业银行用于潜在集团预警、辅助贷款审查等等。
附图说明
35.图1为本发明所述基于标签传播的集团客户挖掘方法流程示意图;
36.图2为本发明所述利用标签标记企业的前半程流程示意图;
37.图3为本发明所述利用标签标记企业的后半程流程示意图;
38.图4为本发明所述利用标签标记企业后剩余的未标记企业示例示意图;
39.图5为本发明所述基于标签传播的集团客户挖掘装置示意图。
具体实施方式
40.为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
41.本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
42.处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
43.存储器可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。存储器可用于存储指令、程序、代码、代码集或指令。
44.显示屏用于显示各个应用程序的用户界面。
45.除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
46.实施例一
47.如图1所示,本发明实施例提供了一种基于标签传播的集团客户挖掘方法,包括:
48.s101,获取企业控股关系数据并构建网络图;
49.s102,搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
50.s103,以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子
节点企业,并利用父节点企业的标签标记子节点企业;
51.s104,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
52.s105,若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至s103,至所述网络图中标签的数量不变时停止搜索;标记同一标签的企业为同一集团客户。
53.上述方法中,可以依据企业间的控股比例数据,按照控股比例从大到小的顺序依次对各企业进行标签标记,从而使得网络图中的大部分企业能够利用多个不同的独立标签进行标记,其中,标记为同一标签的企业为同一集团客户,从而实现集团客户的挖掘。这种根据控股数据,通过标签标记实现集团客户挖掘的方法,算法简单,易于操作,而且无需额外设定参数对结果进行矫正,得到的结果也更加稳定,适用于具有较高准确率需求的场景。
54.上述方法,在实施过程中,需要输入企业控股关系网络图,该网络图可以根据企业控股关系数据构建而得。
55.执行步骤s101,具体可以包括:
56.从工商、征信、wind数据库及银行系统获取企业控股关系数据,所述数据包含行内外企业间的控股关系;
57.将企业作为节点、控股关系作为边,构建网络图。
58.其中,比如,可以从工商系统获取到企业的如下数据:股权、高管任职、法人对外任职和投资、企业基本信息等;可以从wind(万德)数据库获取到企业的如下数据:上市公司十大股东、财报、股票日价等;可以从征信系统获取到企业的如下数据:高管、法人、股权、担保信息等;可以从银监会获取到企业的如下数据:高管、法人、股权、担保圈信息等;可以从内部系统获取到如下数据:担保、交易信息等。
59.本发明实施例中,可以利用上述数据,采用规则与机器学习算法分析企业间关联关系,并将企业作为节点、控股关系作为边,构建得到网络图。
60.执行步骤s102,搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业。
61.其中,所述第一预设规则包括:入度为零或父节点控股比例之和小于预设值。作为一个实施例,预设值可以为50%,父节点控股比例之和小于50%,在网络图中连边控股比例入度为零或父节点控股比例之和小于50%的企业采用独立的标签进行标记。此类企业由于控股比例很高,因此一般在企业集团中具有控制作用,也可以将该类企业称为控制企业。
62.在实际实施过程中,在网络图中连边控股比例入度为零或父节点控股比例之和小于50%的企业可能有多个,则为搜索得到的每个企业分别设置独立的标签,并利用该独立的标签对网络图中的企业进行标记。从而得到多个标记有独立标签的控制企业。
63.在本发明的一个优选实施例中,经过搜索得到网络图中连边控股比例入度为零或父节点控股比例之和小于预设值的企业之后,还可以根据行业规定对其中不符合要求的企业进行删除(实际操作中,可以对该企业进行忽略,而不直接在网络图中将该企业对应的节点进行删除操作),如果这些企业有子企业,而且子企业符合行业规定的要求,可以按照本发明的方法对子企业进行标签标记。也可以在执行步骤s102之前,根据行业规定对其中不
符合要求的企业进行删除,然后再执行步骤s102,确保执行步骤s102之后,搜索得到的企业均为符合行业规定的企业。
64.执行步骤s103,以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业。
65.上述方法中,选择父节点企业对子节点企业的连边控股比例大于50%,可以保证只存在一个父节点企业,而不会出现两个以上的父节点企业,从而出现无法标记的情况。其中,可以使用广度优先搜索方法搜索连边控股比例大于预设值的子节点企业。
66.在实际实施过程中,子节点可以包括多个级别。对于每个级别的子节点企业,都利用父节点企业的标签进行标记,因此,所有的子节点都以根节点的控制企业的标签进行标记。从而实现了控制企业的标签传播,而且,通过控制企业的标签传播实现了对子节点企业的挖掘。由于控制企业对搜索到的子节点企业的控股比例大于50%,因此,这些子节点企业是集团中的重要成员,可以称为核心企业。
67.通过执行步骤s103,将步骤s102中控制企业的标签传播至核心企业。即处于同一集团中的控制企业和核心企业具有相同的标签。由于控制企业可能存在多个,因此,可以得到多个企业集合,每个集合中的节点具有相同的标记,每个集合为一个集团。
68.执行步骤s104,若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业。
69.采用步骤s102和s103确定并标记了控制企业和核心企业后,对于网络图中未标记标签的企业进行标签标记。具体的方法为:
70.首先,确定企业的股东。经过分析,企业的股东可以包括三种类型:有标签股东、无标签股东和未知股东。其中,企业的有标签股东和无标签股东对企业的控股比例之和不足100%时,占有剩余控股比例的股东为未知股东。本发明实施例中,可以根据有标签股东和无标签股东的控股比例之和判断未知股东是否存在,不会出现在网络图中,网络图中只显示有标签股东和无标签股东。
71.然后,判断上述三种类型的股东对企业的控股关系是否符合第二预设规则,如果符合第二预设规则,则按照第二预设规则规定的标签标记该企业。具体的,可以包括如下几种情况:
72.其一,若企业的未知股东的控股比例大于有标签股东的最大控股比例与无标签股东控股比例之和,则采用独立的标签标记该企业,并跳转至s103。作为一个实施例,比如,有标签股东的控股比例分别为5%、5%和10%,无标签股东控股比例为20%,那么通过计算可知未知股东的控股比例为60%,大于有标签股东的最大控股比例10%和与无标签股东控股比例20%的和30%,因此,为企业设置独立的标签并采用该独立标签进行标记。其中,所谓独立的标签是指不同于已有的标签。该企业采用独立的标签进行标记之后,跳转至步骤s103,并顺序执行步骤s103-s105。
73.其二,若企业的所有股东均进行了标签标记,则以控股比例最大的标签标记该企业。作为一个实施例,比如,企业s具有三个股东并分别标记为标签a、b、c,其控股比例分别为30%、30%、40%,可知,其中最大的控股比例40%的标签为c,则利用标签c对企业进行标记。从而,企业属于标记为标签c的集团企业。又比如,s企业具有三个股东分别标记标签为a,a,b,对应的控股比例分别为30%,30%,40%,这里有两个股东的标签为a,则标签a的控
股比例为两个股东控股比例之和60%,则最大的标签为a,利用标签为a对企业s进行标记,s属于标签a的集团企业。
74.其三,若有标签标记股东的最大控股比例大于有标签标记股东的第二大控股比例与无标签标记股东控股比例之和,且有标签标记股东的最大控股比例大于等于未知股东的控股比例,则以控股比例最大的有标签标记股东的标签标记该企业。作为一个实施例,比如,企业s具有三个有标签股东并分别标记为标签a、b、c,其控股比例分别为10%、50%、5%,具有一个无标签股东控股比例为15%,可知企业s还具有未知股东控股比例为20%,则有标签标记股东的最大控股比例为50%,有标签标记股东的第二大控股比例为10%,50%大于10%与无标签股东控股比例15%之和,且50%大于未知股东的控股比例20%,因此,以控股比例最大的有标签标记股东的标签b标记该企业,即企业标记为标签b,企业属于标记为标签b的集团企业。
75.其四,查找企业除控股比例最大的有标签标记股东外,剩余的有标签标记股东到无标签标记股东的路径,如果存在,则将无标签标记股东的控股比例添加至路径中有标签标记股东的控股比例中,然后,若初始的有标签标记股东的最大控股比例大于其余所有股东的控股比例,则以初始的最大控股比例的有标签标记股东的标签标记该企业。作为一个实施例,比如,企业s具有三个有标签股东并分别标记为标签a、b、c,其控股比例分别为10%、50%、5%,具有一个无标签股东控股比例为15%,可知企业s还具有未知股东控股比例为20%。且标记标签a的股东对无标签股东的控股比例为15%,即存在有标签标记股东到无标签标记股东的路径。则将无标签股东控股比例15%添加至标记标签a的股东控股比例中,得到标记标签a的股东控股比例25%,且在添加控股比例之前初始的有标签标记股东的最大控股比例50%大于剩余的有标签标记股东的控股比例25%、5%以及未知股东的控股比例20%,则以初始的最大控股比例的有标签标记股东的标签b标记该企业,因此,企业属于标记为标签b的集团企业。
76.执行完步骤s102-s104之后,对网络图中的大部分节点企业均进行了标签标记,可如图2所示,对于其中尚未进行标记的节点企业执行步骤s105,具体为:
77.若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至s103。
78.其中,多个未标记标签的企业形成环路,作为一个实施例,比如查找企业s的控股企业为x,再进行迭代查找企业x的企业控股企业为y
……
如果y等于s,则查找到一条二级环路,同理可查找到三级、四级等多级环路,如图3所示。
79.对于环路中连边控股比例相对最大的企业,可以认为是控制企业,如:x控股y 60%,y控股z 80%,z控股x 90%。则认为z是环路中的控制企业。确定环路中的控制企业后,为该企业设置独立的标签,并采用该独立的标签对其进行标记。如图3所示的环路中,企业b的连边控股比例相对最大,因此,认为其为控制企业,对其设置独立的标签并进行标记。在实际应用过程中,如果环路中的所有企业的连边控股比例都相差不大,几乎无法找到相对最大的控股比例,则还可以将环路中的所有企业均认为是控制企业,并分别为其设置独立的标签进行标记。
80.确定了环路中的控制企业并采用独立的标签进行标记后,则可以忽略该被标记企
业与其股东之间的关系,并跳转至s103,执行步骤s103-s105。
81.执行步骤s106,重复步骤s105至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
82.其中,多次重复步骤s105之后剩余的无法进行标记的企业一般为复杂循环控股且控股比例大致相当的情况。可如图4所示。
83.在本发明的一个具体实施例中,采用本发明提供的方法,根据输入的企业控股关联关系数据,构建企业控股关联关系网络图,统计该网络图中包含有1191759个节点,1547104条边。执行步骤s102,找到386606个控制企业节点。执行步骤s103后,剩余220442个节点未标记。执行步骤s104后,剩余12960个节点未标记。执行步骤s105后,剩余2752个节点未标记。执行步骤s106后,剩余45个节点未标记。
84.采用本发明提供的方法,算法简单,可以比较容易的确定出属于同一集团中的企业。而且无需设置参数进行校正,结果比较稳定,可满足实际业务场景中对于准确率高的需求,而且可以在多种类型的金融机构中应用,比如商业银行用于潜在集团预警、辅助贷款审查等,具有良好的应用前景。
85.实施例二
86.如图5所示,本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构,即本发明实施例还提供了一种基于标签传播的集团客户挖掘装置,包括:
87.网络图构建模块201,用于获取企业控股关系数据并构建网络图;
88.第一企业标记模块202,用于搜索所述网络图中连边控股比例符合第一预设规则的企业,并采用独立的标签标记该企业;
89.第二企业标记模块203,用于以采用独立的标签标记的企业为根节点,搜索连边控股比例大于50%的子节点企业,并利用父节点企业的标签标记子节点企业;
90.第三企业标记模块204,用于若未标记标签的企业的股东对该企业的控股关系符合第二预设规则,则按照第二预设规则规定的标签标记该企业;
91.第四企业标记模块205,用于若多个未标记标签的企业形成环路,则采用独立的标签标记环路中连边控股比例相对最大的企业或环路中的所有企业,并忽略该被标记企业与其股东之间的关系,跳转至所述第二企业标记模块中;
92.第五企业标记模块206,用于重复在第四企业标记模块中操作,至所述网络图中标签的数量不变时停止;标记同一标签的企业为同一集团客户。
93.其中,在所述网络图构建模块中,所述获取企业控股关系数据并构建网络图包括:
94.从工商、征信、wind数据库及银行系统获取企业控股关系数据,所述数据包含行内外企业间的控股关系;
95.将企业作为节点、控股关系作为边,构建网络图。
96.进一步地,在所述第一企业标记模块中,所述第一预设规则包括:入度为零或父节点控股比例之和小于预设值。
97.进一步地,在所述第二企业标记模块中,所述搜索连边控股比例大于50%的子节点企业包括:
98.使用广度优先搜索方法搜索连边控股比例大于预设值的子节点企业。
99.进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
100.若企业的未知股东的控股比例大于有标签股东的最大控股比例与无标签股东控股比例之和,则采用独立的标签标记该企业,并跳转至第二企业标记模块中。
101.进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
102.若企业的所有股东均进行了标签标记,则以控股比例最大的标签标记该企业。
103.进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
104.若有标签标记股东的最大控股比例大于有标签标记股东的第二大控股比例与无标签标记股东控股比例之和,且有标签标记股东的最大控股比例大于等于未知股东的控股比例,则以控股比例最大的有标签标记股东的标签标记该企业。
105.进一步地,在所述第三企业标记模块中,所述第二预设规则包括:
106.查找企业除控股比例最大的有标签标记股东外,剩余的有标签标记股东到无标签标记股东的路径,如果存在,则将无标签标记股东的控股比例添加至路径中有标签标记股东的控股比例中,然后,若初始的有标签标记股东的最大控股比例大于其余所有股东的控股比例,则以初始的最大控股比例的有标签标记股东的标签标记该企业。
107.该装置可通过上述实施例一提供的基于标签传播的集团客户挖掘方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
108.本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
109.本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
110.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献