基于预测模型的虚假企业识别方法、装置、设备和介质与流程

2022-04-27 12:24:05 来源：中国专利 TAG：

1.本技术涉及数据分析技术领域，特别是涉及一种基于预测模型的虚假企业识别方法、装置、设备和介质。

背景技术：

2.随着经济高速发展，经济活动日益活跃，相应地，为了扩大经济规模，企业注册的门槛得到了降低，注册企业的数量越来越多。
3.然而，在这个过程中，不法分子往往会使用其他人被泄露的身份证信息进行注册企业的行为，导致有些市民在不知情的情况下便被其他人注册了企业于自己名下，从而对自己办理个人征信等相关业务造成了一定的风险及影响。因此，提前预测企业是否为虚假注册企业已然成为一个亟待解决的问题。

技术实现要素：

4.本技术实施例提供了一种基于预测模型的虚假企业识别方法、装置、设备和介质，实施本技术实施例，提高了对于企业合法性结果的预测准确度。
5.第一方面，本技术实施例提供了一种基于预测模型的虚假企业识别方法，上述方法包括：
6.接收第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业；
7.获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关；
8.对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中的每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度；
9.将多个特征指标输入预测模型中，得到目标企业对应的虚假指数；
10.根据虚假指数大小确定目标企业的合法性结果。
11.第二方面，本技术实施例提供了一种基于预测模型的虚假企业识别装置，上述装置包括：
12.接收单元，用于接收第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业；
13.获取单元，用于获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关；
14.处理单元，用于对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度；
15.模型单元，用于将多个特征指标输入预测模型中，得到目标企业对应的虚假指数；
16.确定单元，用于根据虚假指数大小确定目标企业的合法性结果。
17.第三方面，本技术实施例提供了一种电子设备，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机执行指令，当计算机执行指令被运行时，使得电子设
备执行如本技术实施例第一方面任一方法中所描述的部分或全部步骤。
18.第四方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机指令，当计算机指令在通信装置上运行时，使得通信装置执行如本技术实施例第一方面任一方法中所描述的部分或全部步骤。
19.第五方面，本技术实施例提供了一种计算机程序产品，其中，计算机程序产品包括计算机程序，计算机程序可操作来使计算机执行如本技术实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
20.可以看出，本技术实施例中，接收第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业；获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关；对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度；将多个特征指标输入预测模型中，得到目标企业对应的虚假指数；根据虚假指数大小确定目标企业的合法性结果。采用本技术实施例的方法，将目标企业的多个特征指标输入预测模型中，根据得到的目标企业对应的虚假指数确定目标企业的合法性结果，从而提高对于企业合法性结果的预测准确度。
附图说明
21.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1是一种市场监管系统的结构部署图；
23.图2是本技术实施例提供的一种基于预测模型的虚假企业识别方法的流程图；
24.图3是本技术实施例提供的一种预测模型的结构示意图；
25.图4是本技术实施例应用的一种基于预测模型的市场监管系统的结构部署图；
26.图5是本技术实施例提供的一种基于预测模型的虚假企业识别方法的举例示意图；
27.图6是本技术实施例提供的一种基于预测模型的虚假企业识别装置的结构示意图；
28.图7是本技术的实施例提供的一种电子设备的硬件运行环境的服务器结构示意图。
具体实施方式
29.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图
在于覆盖不排他的包含。例如包含了一系列步骤的过程、方法、系统、产品或设备没有限定于已列出的步骤，而是可选地还包括没有列出的步骤，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤。
31.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
32.下面结合附图对本技术实施例涉及的应用场景进行介绍。
33.图1是一种市场监管系统的结构部署图。如图1所示，该系统包括用户终端、第一服务器和企业信息库。
34.其中，用户终端，指希望获取目标企业的合法性结果，从而在市场监管系统中向第一服务器发送用于请求获取目标企业的合法性结果的第一请求信息的角色；
35.其中，第一服务器，用于接收用户终端发送的第一请求信息，根据第一请求信息从企业信息库中获取目标企业的多个预设指标，并根据获取到的多个预设指标对目标企业的合法性结果进行预测，并将预测的合法性结果发生给用户终端；
36.其中，企业信息库，用于储存各个企业的多个预设指标，多个预设指标与目标企业的注册信息相关。在具体实现中，企业信息库可以是国家企业信用信息公示系统；
37.在上述系统对目标企业的合法性结果进行预测的过程中，由于第一服务器只是单纯地从企业信息库中获取到目标企业的多个预设指标，然后直接根据多个预设指标对目标企业的合法性结果进行预测，从而，对于合法性结果的预测较为依赖人工经验，并且，由于在整个过程中只靠使用第一服务器的工作人员进行人工预测，没有事先设置的预测依据或者预测辅助工具，因此可以看出，上述过程对于目标企业的合法性结果的预测准确度是较低的。
38.基于此，本技术实施例提供了一种基于预测模型的虚假企业识别方法，应用于市场监管系统，市场监管系统包括第一服务器和用户终端，请参阅图2，图2是本技术实施例提供的一种基于预测模型的虚假企业识别方法的流程图，如图2所示，该方法包括以下步骤：
39.101：第一服务器接收用户终端发送的第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业。
40.其中，市场监管系统可以应用在智能手机、台式电脑、平板电脑等电子设备上。
41.其中，第一请求信息中可以包括有目标企业的企业名称。
42.其中，非法注册企业，指企业的注册目的很可能为将企业用于违法目的，违法目的包括进行偷税漏税、进行诈骗行为、在招投标活动中进行围标等目的。
43.102：第一服务器获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关。
44.其中，多个预设指标可以包括以下至少一项：目标企业的注册地址的联系异常企业数、目标企业的经办人的虚假企业代理注册个数、目标企业的经办人是否存在冒用身份的风险性、目标企业在历史时间内的工商信息变更次数、目标企业中任职企业最多的股东所任职企业的个数、目标企业是否只含有自然人股东、目标企业的企业经营状态等，企业经营状态包括存续、在业、吊销、注销、迁入、迁出、停业、清算等状态。
45.其中，第一服务器获取目标企业的多个预设指标，在具体实现中，可以是市场监管系统与国家企业信用信息公示系统或其他企业信息系统连接，从而第一服务器能够获取到目标企业的多个预设指标；还可以是市场监管系统从本地数据库中调取获得目标企业的多个预设指标。
46.示例性地，目标企业在历史时间内的工商信息变更次数、目标企业中任职企业最多的股东所任职企业的个数可以是市场监管系统从与之连接的国家企业信用信息公示系统中调取获得；目标企业的经办人的虚假企业代理注册个数、目标企业的经办人是否存在冒用身份的风险性可以是市场监管系统从本地数据库中调取获得。
47.103：第一服务器对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度。
48.其中，第一服务器对多个预设指标进行特征化处理，是根据预设指标的内容来进行的。
49.示例性地，若预设指标为目标企业的经办人是否存在冒用身份的风险性，则对该预设指标进行特征化处理，是在目标企业的经办人存在冒用身份的风险性的情况下，将该预设指标标记为“1”，反之在目标企业的经办人不存在冒用身份的风险性的情况下，将该预设指标标记为“0”；而若预设指标为数值型内容，则将该预设指标标记为数值即可，示例性地，若预设指标为目标企业的注册地址的联系异常企业数且联系异常企业数目为10，则对该预设指标进行特征化处理，是将该预设指标标记为“10”；
50.进一步地，在预设指标为目标企业的注册地址的联系异常企业数时，还可以对目标企业的注册地址进行特征化处理，例如，将注册地址聚合至“xx省 xx市xx区xx街道xx号”或“xx省xx市xx区xx园区xx栋”，示例性地，若目标企业的注册地址为“粤海工业区1栋203室”，则将该注册地址聚合为“粤海工业区1栋”，以楼栋作为聚合地址的单位，更有利于发现企业所在注册地是否存在虚假注册的风险。若根据“粤海工业区1栋”的注册地址检测到该地址存在有5个联系异常企业，则将该预设指标标记为“5”，由于注册地址存在的联系异常企业数量越多，说明该企业为非法注册企业的风险性越高，因此，该预设指标的值越大将导致该企业的合法性结果更有可能是非法注册企业。
51.又一示例性地，若预设指标为目标企业的企业经营状态，而企业经营状态包括存续、在业、吊销、注销、迁入、迁出、停业、清算等8种状态，则对该预设指标进行特征化处理，可以是根据企业经营状态对该预设指标标记数值，在具体实现中，可以通过分别对8种企业经营状态进行赋值，例如，在业＝存续＝0、清算＝0.5、吊销＝注销＝1
……
，从而在目标企业的企业经营状态为在业时，对该项指标进行特征化处理是将该预设指标标记为“0”。
52.104：第一服务器将多个特征指标输入预测模型中，得到目标企业对应的虚假指数，虚假指数用于表征目标企业为非法注册企业的可能性大小。
53.其中，虚假指数越大表示目标企业为非法注册企业的可能性越大。虚假指数的取值范围可以是0～1之间。
54.其中，预测模型可以包括输入层、svm模型层、xgboost模型层。
55.示例性地，请参阅图3，图3是本技术实施例提供的一种预测模型的结构示意图，如图3所示，该预测模型包括以下层次：
56.输入层，用于接收目标企业的多个预设指标(预设指标1、预设指标2
……
预设指标
n)，并对多个预设指标进行特征化处理，得到目标企业的多个特征指标(特征指标1、特征指标2
……
特征指标n)；
57.svm模型层，由k个svm模型(svm模型1、svm模型2
……
svm模型k)组成且k个svm模型中每个svm模型在训练过程中所使用的训练数据集和验证数据集都不相同，用于将目标企业的多个特征指标分别输入每个svm 模型后获得k个初始虚假指数；
58.xgboost模型层，用于根据k个初始虚假指数，获得k个初始虚假指数加权求和后的虚假指数作为目标企业对应的虚假指数。
59.需要说明的是，如图3所示的预测模型仅作为一种预测模型的示例，在具体的应用中，预测模型还可以以其他层次组成的形式存在。
60.105：第一服务器根据虚假指数大小确定目标企业的合法性结果。
61.其中，第一服务器根据虚假指数大小确定目标企业的合法性结果，由于虚假指数用于表征目标企业为非法注册企业的可能性大小，故而在具体实现中，可以是：若虚假指数大于第一预设阈值，则第一服务器确定目标企业为非法注册企业；若虚假指数小于或等于第一预设阈值，则第一服务器确定目标企业为合法注册企业。若虚假指数的取值范围是0～1之间，则第一预设阈值可以是0.5、 0.6、0.8或其他数值。
62.106：第一服务器向用户终端发送合法性结果。
63.其中，第一服务器向用户终端发送合法性结果，在具体实现中，可以是向用户终端发送通知短信，通知短信内容可以是“目标企业的合法性结果为：目标企业为合法注册企业/非法注册企业”或其他内容；还可以是通过即时消息的形式向用户终端发送合法性结果。
64.其中，第一服务器向用户终端发送合法性结果，在具体实现中，第一服务器对于合法性结果的获取方法，可以是市场监管系统内设置有预测模型，预测模型用于预测企业为合法注册企业或非法注册企业，从而在用户发起请求信息时针对请求信息对应的企业获取到该企业的多个预设指标后，将多个预设指标输入预测模型中对其合法性结果进行预测；还可以是第一服务器事先使用预测模型预测出各个企业的合法性结果并存储在本地数据库中，从而在用户终端发起第一请求信息时针对第一请求信息对应的目标企业直接将其合法性结果在本地数据库中进行调取并发送给用户终端即可。
65.下面结合附图对本技术实施例中所涉及的设备进行介绍。
66.请参阅图4，图4是本技术实施例应用的一种基于预测模型的市场监管系统的结构部署图，如图4所示，该系统包括用户终端、第一服务器、企业信息库和预测模型，其中，每个模块的功能可以由单独的服务器来实现，也可以是多个模块的功能由一个服务器实现。实现不同模块功能的多个服务器互相通信连接。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
67.其中，用户终端，指希望获取目标企业的合法性结果，从而在该系统中向第一服务器发送用于请求获取目标企业的合法性结果的第一请求信息的角色。
68.其中，第一服务器，用于接收用户终端发送的第一请求信息，根据第一请求信息从企业信息库中获取目标企业的多个预设指标，对多个预设指标进行特征化处理得到多个特
征指标，从而将多个特征指标输入预测模型中得到目标企业对应的虚假指数，并根据虚假指数大小确定目标企业的合法性结果，并向用户终端发送合法性结果以满足用户终端的需求的角色。
69.其中，企业信息库，用于储存各个企业的多个预设指标，多个预设指标与目标企业的注册信息相关。在具体实现中，企业信息库可以是国家企业信用信息公示系统。
70.其中，预测模型，用于根据第一服务器输入的目标企业的多个特征指标，输出目标企业对应的虚假指数给第一服务器。
71.示例性地，假设虚假指数大于0.8则确定目标企业的合法性结果为非法注册企业。用户a希望得知目标企业是否为非法注册企业，因此用户a使用用户终端在市场监管系统中发起第一请求信息，第一请求信息包括目标企业的企业名称以用于请求获取目标企业的合法性结果，工作人员b在第一服务器上接收到用户终端发送的第一请求信息，工作人员b在第一服务器上向国家企业信用信息公示系统或其他企业信息库中获取目标企业的多个预设指标，多个预设指标可以包括目标企业的经办人的虚假企业代理注册个数、目标企业的经办人是否存在冒用身份的风险性等，工作人员b在第一服务器上对多个预设指标进行特征化处理，得到多个特征指标，且多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度，工作人员b在第一服务器上将多个特征指标输入预测模型中，得到目标企业对应的虚假指数为0.9＞0.8，因此，工作人员b在第一服务器上根据0.9的虚假指数确定目标企业的合法性结果为非法注册企业、并在第一服务器上向用户终端发送包含有合法性结果的短信内容“目标企业的合法性结果为：目标企业为非法注册企业”给用户终端，以告知用户a该目标企业的合法性结果。
72.可以看出，本技术实施例中，第一服务器接收用户终端发送的第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业；第一服务器获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关；第一服务器对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度；第一服务器将多个特征指标输入预测模型中，得到目标企业对应的虚假指数，虚假指数用于表征目标企业为非法注册企业的可能性大小；第一服务器根据虚假指数大小确定目标企业的合法性结果；第一服务器向用户终端发送合法性结果。采用本技术实施例的方法，将目标企业的多个特征指标输入预测模型中，根据得到的目标企业对应的虚假指数确定目标企业的合法性结果，从而提高对于企业合法性结果的预测准确度。
73.在一个可能的示例中，上述第一服务器将多个特征指标输入预测模型中，得到目标企业对应虚假指数，包括：第一服务器将目标企业的多个特征指标分别输入k个训练好的支持向量机svm模型，获得k个初始虚假指数；第一服务器将k个初始虚假指数输入训练好的树模型xgboost模型，获得k个初始虚假指数加权求和后的虚假指数作为目标企业对应的虚假指数。
74.其中，svm(support vector machine)模型指的是支持向量机模型，是常见的一种判别方法。在机器学习领域，svm模型是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。
75.其中，树模型xgboost(extreme gradient boosting)模型是boosting算法模型中
的一种，通常用于将许多弱分类器集成在一起形成一个强分类器。
76.其中，假设k个初始虚假指数分别为k1、k2
……
kk，且k个训练好的支持向量机svm模型的权值分别为x1、x2
……
xk，则k个初始虚假指数加权求和后的虚假指数＝k1*x1 k2*x2
……
kk*xk。
77.其中，预测模型，在具体实现中，可以是由k个训练好的支持向量机svm 模型与训练好的树模型xgboost模型连接后封装而成。
78.示例性地，请参阅图5，图5是本技术实施例提供的一种基于预测模型的虚假企业识别方法的举例示意图，如图5所示，假设获取到目标企业的多个预设指标为：注册地址的联系异常企业数为3个、经办人的虚假企业代理注册个数为11个、经办人存在冒用身份的风险性、没有正常提交年报、当前纳税状态不正常、在历史时间内的工商信息变更次数为0、任职企业最多的股东所任职企业的个数为3、不只含有自然人股东、企业经营状态为吊销，且对多个预设指标进行特征化处理后，得到上述目标企业的多个特征指标分别为：3、11、1、 1、1、0、3、0、1；假设训练好的svm模型的数量k＝9。第一服务器将目标企业的多个特征指标输入9个训练好的svm模型(svm1、svm2
……
svm9)，获得9个初始虚假指数(初始虚假指数1-9)分别为：0.781、0.893、0.981、0.342、 0.920、0.419、0.827、0.193、0.651，假设对训练好的svm模型1-8均赋予权值0.1，对初始虚假指数9赋予权值0.2，则第一服务器将9个初始虚假指数输入训练好的树模型xgboost模型，获得9个初始虚假指数加权求和后的虚假指数作为目标企业对应的虚假指数＝(0.781 0.893
……
0.193)*0.1 0.651*0.2≈ 0.666，至此，得到目标企业对应虚假指数为0.666，后续则由第一服务器根据虚假指数大小确定目标企业的合法性结果。
79.可以看出，本技术实施例中，第一服务器将目标企业的特征指标分别输入 k个训练好的支持向量机svm模型，获得k个初始虚假指数，再将k个初始虚假指数输入训练好的树模型xgboost模型，获得k个初始虚假指数加权求和后的虚假指数作为目标企业对应的虚假指数。即是说，预测模型是由k个训练好的svm模型与训练好的xgboost模型连接而成，采用上述组成结构的预测模型，使得预测模型对于目标企业对应的虚假指数的计算更为准确，进而所得出的目标企业的合法性结果也更为准确。
80.在一个可能的示例中，上述多个预设指标中包括企业注册地址，上述第一服务器对多个指标进行特征化处理，包括：第一服务器获取目标企业的注册地址；第一服务器将目标企业的注册地址与第一服务器的本地数据库中存储的注册地址进行匹配，确定目标企业的注册地址对应的在库注册地址；第一服务器根据在库注册地址确定目标企业对应的注册地址风险程度，注册地址风险程度与在库注册地址存在对应关系，注册地址风险程度根据在库注册地址的联系异常企业数确定。
81.其中，联系异常企业，指企业注册地址为在库注册地址中，根据联系方式无法联系上的异常企业。联系异常企业有较高可能性是专门用于违法目的而注册的企业。
82.示例性地，第一服务器将目标企业的注册地址与第一服务器的本地数据库中存储的注册地址进行匹配，可以是根据在库注册地址是否包含了目标企业的注册地址来判断，例如目标企业的注册地址是“粤海工业区1栋203室”，而在库注册地址为“粤海工业区1栋”，可见，在库注册地址包含了目标企业的注册地址，即是说，目标企业的注册地址是在库注册地址中更进一步的某个具体地址，因此，将目标企业的注册地址匹配为“粤海工业区1栋”。
83.在具体实现中，在库注册地址的作用是可以直接根据地址调取到目标企业的注册地址存在的联系异常企业数量。
84.其中，注册地址风险指数根据在库注册地址的联系异常企业数确定，在具体实现中，是在库注册地址的联系异常企业数越大则注册地址风险指数越大，即是说，注册地址风险指数与在库注册地址的联系异常企业数呈正相关关系。
85.示例性地，第一服务器根据在库注册地址确定目标企业对应的注册地址风险程度，可以是根据在库注册地址的联系异常企业数对多个预设指标中的企业注册地址进行数值标记，例如，若在库注册地址的联系异常企业数为10个，即该在库注册地址中存在有10个无法联系到的企业，则对企业注册地址这一项预设指标标记为“10”。
86.可以看出，本技术实施例中，对企业注册地址进行特征化处理的方式是，第一服务器获取目标企业的注册地址并将目标企业的注册地址与第一服务器的本地数据库中存储的注册地址进行匹配，确定目标企业的注册地址对应的在库注册地址；第一服务器根据在库注册地址确定目标企业对应的注册地址风险程度，注册地址风险程度与在库注册地址存在对应关系，注册地址风险程度根据在库注册地址的联系异常企业数确定。对目标企业的企业注册地址进行特征化处理之后，最终得到目标企业对应的注册地址风险程度，从而使得目标企业的企业注册地址能够通过特征数值表征目标企业为非法注册企业的风险程度，即是说，使得目标企业的企业注册地址更为直观地、可衡量地呈现出目标企业为非法注册企业的风险程度，进而提高对于企业合法性结果的预测准确度。
87.在一个可能的示例中，上述多个预设指标包括企业经营状态，上述对多个指标进行特征化处理，包括：第一服务器获取目标企业的企业经营状态；第一服务器确定企业经营状态对应的营业状态类型；第一服务器根据目标企业的企业经营状态对应的营业状态类型确定目标企业对应的营业状态风险程度，营业状态风险程度与营业状态类型存在对应关系，且营业状态风险程度与营业状态类型的活跃程度呈负相关。
88.其中，企业经营状态为存续、在业、吊销、注销、迁入、迁出、停业、清算中的一种，
89.存续是指企业依法存在并继续正常运营；
90.在业是指生产型企业正常开工生产；
91.吊销是指企业的营业执照被吊销，是市场监管局对违法企业所作出的行政处罚；
92.注销是指企业已丧失企业法人资格；
93.迁出是指企业登记主管机关的变更，企业已迁离某主管机关；
94.迁入是指企业登记主管机关的变更，企业已迁入某主管机关；
95.停业是指由于某种原因，企业在期末处于停止生产经营活动，待条件改变后仍恢复生产；
96.清算是指企业按章程规定解散以及由于破产、被吊销等其他原因宣布终止经营后，对企业的财产、债权、债务进行全面清查，并进行收取债权，清偿债务和分配剩余财产的经济活动。
97.其中，营业状态类型按照活跃程度依次包括营业变更、营业续存或营业停止。
98.其中，营业状态风险程度与营业状态类型的活跃程度呈负相关，指营业状态类型活跃程度越高则营业状态风险程度越低，反之同理。因此，在具体实现中，营业状态风险程度与营业状态类型的活跃程度之间的变化关系可以呈现为任意减函数形式。
99.示例性地，在具体实现中，若预设指标为企业经营状态，可以通过将8种企业经营状态与营业状态类型各自对应，例如将存续、在业与营业续存对应，将吊销、注销、停业、清算与营业停止对应，将迁入、迁出与营业变更对应。然后对不同的营业状态类型分别赋予不同的数值，例如将营业续存赋值为0、营业停止赋值为1且将营业变更赋值为0.5。从而，若目标企业的企业经营状态为存续，由于存续对应的营业状态类型为企业续存，因此，将目标企业的该预设指标标记为“0”。
100.可以看出，本技术实施例中，对企业经营状态进行特征化处理的方式是，第一服务器获取目标企业的企业经营状态并确定企业经营状态对应的营业状态类型，再根据目标企业的企业经营状态对应的营业状态类型确定目标企业对应的营业状态风险程度，营业状态风险程度与营业状态类型存在对应关系，且营业状态风险程度与营业状态类型的活跃程度呈负相关。对目标企业的企业经营状态进行特征化处理之后，使得目标企业的企业经营状态能够通过特征数值表征目标企业为非法注册企业的风险程度，即是说，使得目标企业的企业经营状态更为直观地、可衡量地呈现出目标企业为非法注册企业的风险程度，进而提高对于企业合法性结果的预测准确度。
101.在一个可能的示例中，在上述第一服务器获取目标企业的多个预设指标之后，上述方法还包括：第一服务器获取目标企业的其他预设指标，其他预设指标与目标企业的工商信息相关；第一服务器对其他预设指标进行特征化处理，获得其他预设指标对应的其他特征指标，其他特征指标通过特征数值表征目标企业的工商注册风险程度；第一服务器将多个特征指标输入预测模型中，得到目标企业对应的虚假指数，包括：第一服务器将多个特征指标和其他特征指标输入预测模型中，得到目标企业对应的虚假指数。
102.其中，其他预设指标的个数可以是至少一个。
103.其中，其他预设指标可以包括目标企业是否正常提交年报、目标企业的当前纳税状态等工商信息。其他预设指标所呈现的工商信息状态越不符合工商局的规定，经过特征化处理后得到的其他特征指标将会导致预测模型输出的虚假指数越高。
104.示例性地，在其他预设指标为目标企业是否正常提交年报时，则对该预设指标进行特征化处理，在具体实现中，可以是在目标企业没有正常提交年报时将该预设指标标记为“1”，反之，在目标企业有正常提交年报时将该预设指标标记为“0”。
105.示例性地，在其他预设指标为目标企业的当前纳税状态时，则对该预设指标进行特征化处理，在具体实现中，可以是在目标企业的当前纳税状态不正常时将该预设指标标记为“1，反之，在目标企业的当前纳税状态正常时将该预设指标标记为“0”。
106.可以看出，本技术实施例中，在第一服务器获取目标企业的多个预设指标之后，第一服务器还获取与目标企业的工商信息相关的其他预设指标，第一服务器对其他预设指标进行特征化处理，获得其他预设指标对应的其他特征指标，其他特征指标通过特征数值表征目标企业的工商注册风险程度，第一服务器除了将多个特征指标输入预测模型中，还会将其他预设指标进行特征化处理后得到的其他特征指标输入预测模型中，从而得到目标企业对应的虚假指数。在对企业的合法性进行预测时，将企业的注册信息、工商信息结合起来作为预测依据，使得输入预测模型中的企业相关信息更为全面，从而预测模型对于企业的虚假指数能够有个更为全方位的预测计算，进而提高对于企业合法性结果的预测准确度。
107.在一个可能的示例中，上述k个训练好的支持向量机svm模型的训练过程如下：获
取k个数据集，k个数据集中每个数据集由多个企业、多个企业中每个企业对应的多个预设指标，以及每个企业对应的合法性结果组成；采用k 个数据集中的k-1个数据集作为k个初始svm模型中第一初始svm模型的训练数据集，输入第一初始svm模型进行训练，获得训练中第一svm模型；采用k个数据集中除k-1个数据集之外的剩余数据集作为训练中第一svm模型的验证数据集，输入训练中第一svm模型，获得验证数据集经过训练中第一svm模型推理得到的虚假指数；将验证数据集经过训练中第一svm模型推理得到的虚假指数与验证数据集对应的合法性结果进行比对，确定训练中第一 svm模型的推理准确度；若训练中第一svm模型的推理准确度不高于第一预设准确度，则对训练中第一svm模型进行迭代训练，若训练中第一svm模型的推理准确度高于第一预设准确度，确定训练中第一svm模型训练完成，为k 个svm模型中的一个；重复采用k个数据集中的k-1个数据集作为k个初始 svm模型中下一个第一初始svm模型的训练数据集，输入下一个第一初始 svm模型进行训练，获得下一个训练中第一svm模型，再采用k个数据集中除k-1个数据集之外的剩余数据集作为下一个训练中第一svm模型的验证数据集，根据下一个训练中第一svm模型的推理准确度确定下一个训练中第一 svm模型训练完成的过程，直到完成k个svm模型的训练，其中k个初始 svm模型中的每一个初始svm模型采用的数据集和训练集与其他初始svm 模型不同。
108.其中，将验证数据集经过训练中第一svm模型推理得到的虚假指数与验证数据集对应的合法性结果进行比对，确定训练中第一svm模型的推理准确度，在具体实现中，推理准确度的确定，可以是在虚假指数大于第二预设阈值且验证数据集对应的合法性结果为非法注册企业、以及虚假指数小于或等于第二预设阈值且验证数据集对应的合法性结果为合法注册企业时，则认为该训练中第一svm模型的推理准确度高于第一预设准确度，第二预设阈值可以与第一预设阈值相等；还可以是在虚假指数大于第二预设阈值且验证数据集对应的合法性结果为非法注册企业、以及虚假指数小于或等于第二预设阈值且验证数据集对应的合法性结果为合法注册企业时，计算出虚假指数与第二预设阈值的差值，将差值与第二预设阈值的比值作为虚假指数误差，通过虚假指数误差确定训练中第一svm模型的推理准确度。
109.示例性地，在确定训练中第一svm模型的推理准确度时，是通过虚假指数误差确定训练中第一svm模型的推理准确度，推理准确度＝(1-虚假指数误差)*100％＝[1-(|虚假指数-第二预设阈值|)/第二预设阈值]*100％。若第二预设阈值为0.80，验证数据集经过训练中第一svm模型推理得到的虚假指数为 0.85，第一预设准确度为85％，则推理准确度＝1-虚假指数误差＝[1-(0.85-0.80) /0.80]*100％＝(1-0.0625)*100％＝93.75％＞85％，因此，训练中第一svm模型的推理准确度高于第一预设准确度，确定训练中第一svm模型训练完成。
[0110]
其中，重复采用k个数据集中的k-1个数据集作为k个初始svm模型中下一个第一初始svm模型的训练数据集，输入下一个第一初始svm模型进行训练，获得下一个训练中第一svm模型，从而最终得到k个svm模型，目的是，由于在传统的机器学习建模过程中，由于经常会发生数据过拟合的问题，即是说，模型能够很准确地匹配训练数据，但是却无法准确预测出除了训练数据之外的其他数据，因此，采用本技术实施例提供的k个svm模型训练方法，能够全方位地涵盖训练数据的特征，从而克服了传统的机器学习建模过程中的数据过拟合的缺陷。
[0111]
示例性地，有数据集1、数据集2
……
数据集k共k个数据集，使用其中的数据集1、数据集2
……
数据集k-1共k-1个数据集作为训练数据集训练出训练中第一svm模型1，并将数据集k作为验证数据集确定训练中第一svm 模型1的推理准确度高于第一预设准确度；同样地，使用其中的数据集2、数据集3
……
数据集k共k-1个数据集作为训练数据集训练出训练中第一svm 模型2，并将数据集1作为验证数据集确定训练中第一svm模型2的推理准确度高于第一预设准确度
……
以此类推，在确保k个初始svm模型中的每一个初始svm模型采用的数据集和训练集与其他初始svm模型不同的基础上，直到每个数据集被作为训练数据集的次数为k-1次、且k个svm模型的推理准确度均高于第一预设准确度则确定出k个svm模型。
[0112]
可以看出，本技术实施例中提供的k个支持向量机svm模型的训练过程，只有在训练中第一svm模型的推理准确度高于第一预设准确度时，才确定训练中第一svm模型训练完成，直到全面地涵盖了训练数据集的数据特征的k 个svm模型训练完成为止。进一步地，使用通过本技术实施例提供的训练过程所训练得到的k个支持向量机svm模型置于预测模型中对企业的合法性结果进行预测，能够在解放人力的同时提高企业合法性结果的预测准确性。
[0113]
在一个可能的示例中，上述训练好的树模型xgboost模型的训练过程如下：获取第二数据集，第二数据集由至少两个企业、至少两个企业中每个企业对应的多个预设指标，以及每个企业对应的合法性结果组成；将第二数据集拆分成训练数据集和验证数据集；将训练数据集输入初始xgboost模型中进行训练，获得训练中xgboost模型，初始xgboost模型由k个svm模型被赋予不同权值后，加权求和组成；将验证数据集输入训练中xgboost模型，获得验证数据集经过训练中xgboost推理得到的虚假指数；将验证数据集经过训练中 xgboost模型推理得到的虚假指数与验证数据集对应的合法性结果进行比对，确定训练中xgboost模型的推理准确度；若训练中xgboost模型的推理准确度不高于第二预设准确度，则对训练中xgboost模型中的k个svm模型修改权值并迭代训练，若训练中xgboost模型的推理准确度高于第二预设准确度，确定训练中xgboost模型训练完成，得到xgboost模型。
[0114]
其中，初始xgboost模型由k个svm模型被赋予不同权值后，加权求和组成，在具体实现中，对k个svm模型进行赋值，可以是根据k个svm模型所使用的数据集的数据特征来进行。
[0115]
示例性地，对k个svm模型进行赋值，是根据k个数据集中每个数据集包括的每个企业对应的多个预设指标与至少两个企业所对应的多个预设指标平均值之间的差值绝对值的大小来进行的，根据差值绝对值的大小对k个数据集进行排序，得到排序后的k个数据集，差值绝对值越大的数据集作为验证数据集的对应svm模型的排序越靠前，在对训练中xgboost模型中的k个svm 模型修改权值并迭代训练的过程时，在确定k个数据集的权值大小关系与排序对应的基础上，对k个svm模型修改权值并迭代训练。例如，在对k个svm 模型进行训练的过程中，在k个数据集中，数据集1包括的企业的多个预设指标与平均值之间的差值绝对值最大，而数据集1是svm模型1的验证数据集，即是说，差值绝对值最大的数据集1并没有作为svm模型1的训练数据集，因此，在对k个svm模型进行赋值时，svm模型1的权值最大。采用本示例实施例的方法，能够使得在迭代训练过程中所使用的训练数据集更为均衡的 svm模型的权值更高，从而训练得到的xgboost模型对虚假指数的预测计算更为准确。
[0116]
其中，将验证数据集经过训练中xgboost模型推理得到的虚假指数与验证数据集
对应的合法性结果进行比对，确定训练中xgboost模型的推理准确度，在具体实现中，推理准确度的确定，可以是在虚假指数大于第三预设阈值且验证数据集对应的合法性结果为非法注册企业、以及虚假指数小于或等于第三预设阈值且验证数据集对应的合法性结果为合法注册企业时，则认为该训练中 xgboost模型的推理准确度高于第二预设准确度，第三预设阈值可以与第一预设阈值、第二预设阈值相等。
[0117]
可以看出，本技术实施例中提供的树模型xgboost模型由k个svm模型被赋予不同权值后，加权求和组成，并且在训练过程中，只有在训练中xgboost 模型的推理准确度高于第二预设准确度时，才确定训练中xgboost模型训练完成。从而预测模型不仅能够通过k个svm模型全面地涵盖训练数据集的数据特征，还能够通过对k个svm模型赋值而间接地起到对k个svm模型的输出结果进行筛查选择的作用，从而进一步地提高预测模型对企业合法性结果的预测准确度。
[0118]
与上述图2所示的实施例一致的，请参阅图6，图6是本技术实施例提供的一种基于预测模型的虚假企业识别装置的结构示意图，如图6所示：
[0119]
一种基于预测模型的虚假企业识别装置，上述装置包括：
[0120]
301：接收单元，用于接收第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业。
[0121]
302：获取单元，用于获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关。
[0122]
303：处理单元，用于对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度。
[0123]
304：模型单元，用于将多个特征指标输入预测模型中，得到目标企业对应的虚假指数。
[0124]
305：确定单元，用于根据虚假指数大小确定目标企业的合法性结果。
[0125]
在具体实现中，上述装置可以应用于包括第一服务器和用户终端的市场监管系统中。
[0126]
可以看出，本技术实施例提供的装置中，通过接收单元接收第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业；通过获取单元获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关；通过处理单元对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度；通过模型单元将多个特征指标输入预测模型中，得到目标企业对应的虚假指数；通过确定单元根据虚假指数大小确定目标企业的合法性结果。采用本技术实施例的装置，将目标企业的多个特征指标输入预测模型中，根据得到的目标企业对应的虚假指数确定目标企业的合法性结果，从而提高对于企业合法性结果的预测准确度。
[0127]
具体地，本技术实施例可以根据上述方法示例对基于预测模型的虚假企业识别装置进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本技术实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0128]
与上述图2所示的实施例一致的，本技术实施例提供了一种电子设备，请参阅图7，图7是本技术的实施例提供的一种电子设备的硬件运行环境的服务器结构示意图，如图7所示，电子设备包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机执行指令，当计算机执行指令被运行时，使得电子设备执行包括任一种基于预测模型的虚假企业识别方法的步骤的指令。
[0129]
其中，处理器为cpu。
[0130]
其中，存储器，可选的，存储器可以为高速ram存储器，也可以是稳定的存储器，例如磁盘存储器。
[0131]
本领域技术人员可以理解，图7中示出的服务器的结构并不构成对其的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0132]
如图7所示，存储器中可以包括操作系统、网络通信模块以及基于预测模型的虚假企业识别方法的计算机执行指令。操作系统用于管理和控制服务器硬件和软件资源，支持计算机执行指令的运行。网络通信模块用于实现存储器内部各组件之间的通信，以及与服务器内部其他硬件和软件之间通信，通信可以使用任一通信标准或协议，包括但不限于gsm(global system of mobilecommunication，全球移动通讯系统)、gprs(general packet radio service，通用分组无线服务)、cdma2000(codedivision multiple access 2000，码分多址2000)、 wcdma(wideband code divisionmultiple access,宽带码分多址)、 td-scdma(time division-synchronous codedivision multiple access，时分同步码分多址)等。
[0133]
在图7所示的服务器中，处理器用于执行存储器中存储的人员管理的计算机执行指令，实现以下步骤：接收第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业；获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关；对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度；将多个特征指标输入预测模型中，得到目标企业对应的虚假指数；根据虚假指数大小确定目标企业的合法性结果。
[0134]
本技术涉及的服务器的具体实施可参见上述基于预测模型的虚假企业识别方法的各实施例，在此不做赘述。
[0135]
本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机指令，当计算机指令在通信装置上运行时，使得通信装置执行以下步骤：接收第一请求信息，第一请求信息用于请求获取目标企业的合法性结果，合法性结果包括目标企业为合法注册企业或非法注册企业；获取目标企业的多个预设指标，多个预设指标与目标企业的注册信息相关；对多个预设指标进行特征化处理，得到多个特征指标，多个特征指标中每个特征指标采用特征数值表征目标企业为非法注册企业的风险程度；将多个特征指标输入预测模型中，得到目标企业对应的虚假指数；根据虚假指数大小确定目标企业的合法性结果。上述计算机包括电子设备。
[0136]
其中，电子终端设备包括手机、平板电脑、个人数字助理、穿戴式设备等。
[0137]
其中，计算机可读存储介质可以是上述实施例所述的电子设备的内部存储单元，例如电子设备的硬盘或内存。计算机可读存储介质也可以是上述电子设备的外部存储设
备，例如电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。进一步地，计算机可读存储介质还可以既包括电子设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机执行指令以及电子设备所需的其他计算机执行指令和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0138]
本技术涉及的计算机可读存储介质的具体实施可参见上述基于预测模型的虚假企业识别方法的各实施例，在此不做赘述。
[0139]
本技术实施例提供了一种计算机程序产品，其中，计算机程序产品包括计算机程序，计算机程序可操作来使计算机如上述方法实施例中记载的任何一种基于预测模型的虚假企业识别方法的部分或全部步骤，该计算机程序产品可以是一个软件安装包。
[0140]
需要说明的是，对于前述的任一种基于预测模型的虚假企业识别方法的实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本技术所必须的。
[0141]
以上对本技术实施例进行了详细介绍，本文中应用了具体个例对本技术一种基于预测模型的虚假企业识别方法、装置、设备和介质的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术一种基于预测模型的虚假企业识别方法、装置、设备和介质的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。
[0142]
本技术是参照本技术实施例的方法、硬件产品和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能的装置。
[0143]
尽管在此结合各实施例对本技术进行了描述，然而，在实施所要求保护的本技术过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现所公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。
[0144]
显然，本领域的技术人员可以对本技术提供的一种基于预测模型的虚假企业识别方法、装置、设备和介质进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种低成本的易于辅助操控画框的画作显示装置的制作方法

基于预测模型的虚假企业识别方法、装置、设备和介质与流程

相关文献

最热文献