一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于贝叶斯分类的行业编码选定方法与流程

2022-11-19 10:29:02 来源:中国专利 TAG:


1.本发明涉及基于贝叶斯分类的行业编码选定方法技术领域,具体涉及一种基于贝叶斯分类的行业编码选定方法。


背景技术:

2.我国银行业金融机构承担定期向国家金融监管部门报送的责任。而随着政府部门对监管报送的内容的准确性要求越来越高,各银行机构需要投入在监管报送数据校验工作上的人力和物力愈来愈重。由于数据源的加工处理过程来源复杂,且加工逻辑不一,在汇总成综合报表后,容易出现数据不一致,或数据不准确的问题。
3.监管报送数据处理中,涉及企业经营类数据的报送内容有“经营范围”和“所属行业”两个维度的数据。其中“经营范围”属于多种并列关系数据,即一个企业的经营范围可能较为广阔,横跨多个“行业”。但是企业的“所属行业”又只能填写一个,部分系统数据填写又由于引入人工填写的内容,容易造成企业“经营范围”和“所属行业”不匹配的问题。
4.实际发生数据不一致问题时,如果数据规模较小,可手动调整,但是如果涉及数据过大,手动的人工调整存在风险,且不能从根本上解决数据不一致的问题。再者,其数据修复所耗时间长,涉及人工修复成本高,不利于后续的数据运营管理。


技术实现要素:

5.本发明的目的是针对现有技术存在的不足,提供一种基于贝叶斯分类的行业编码选定方法。
6.为实现上述目的,本发明提供了一种基于贝叶斯分类的行业编码选定方法,包括:
7.步骤1、获取用户在申请相关业务时提交的相关申请资料;
8.步骤2、从所述申请资料中提取企业的基本信息;
9.步骤3、基于提取的企业的基本信息判断所述企业是否为新的行业客户,若为新的行业客户,则跳转至步骤6,否则,进入步骤4;
10.步骤4、通过对企业经营范围的内容解析,识别出企业经营范围数据集,并给出最大概率的四级行业编码推荐数据选项;
11.步骤5、若所述四级行业编码推荐数据选项不被用户认可,则基于企业的经营范围,给出过滤后的概率最高的a个四级行业编码推荐数据选项供客户选择,若仍未被用户认可,则回退至三级行业编码推荐数据选项供客户选择,若仍未被用户认可,则由用户选择继续回退直至选定确认成功或跳转至步骤6;
12.步骤6、若为新的行业客户,则列举出该企业经营范围内的所有行业,由客户选定所属行业,否则由客户对系统推荐的行业编码进行校验确认;
13.步骤7、用户确认选定或校验确认的行业编码无误后,通过整个业务办理流程后落库存储。
14.进一步的,所述申请资料包括营业执照,所述步骤2基于ocr解析营业执照内容。
15.进一步的,所述步骤4具体包括:
16.将当前历史数据中的每条经营范围记录作数据清洗提取后,统计第i种经营范围记录ri在行内的指定类别细项的统计数量计算第i种经营范围记录ri在当前数据集下的先验概率p(ri)为:
[0017][0018]
其中,m代表经营记录细项的总数;
[0019]
统计当前历史数据中的每个经营四级行业编码的数量,将出现的频率映射为四级分类编码的概率,具体如下:
[0020][0021]
其中,n代表四级行业编码的总数,代表第i种行业编码hi在当前数据集的出现次数;
[0022]
根据企业经营范围的内容解析结果给定所述企业的经营范围r1,r2,...,rn,其中,n为大于2的自然数;
[0023]
在行业编码固定的情况下,计算当前给定的经营范围r1,r2,

,rn的条件概率p(rj|hi),其中j∈[1,

,n];
[0024]
根据当前给定的经营范围r1,r2,...,rn的条件概率p(rj|hi)计算行业编码的概率p(hi|r1,r2,...,rn),具体如下:
[0025][0026]
其中,p(r1,r2,...,rn|hi)为在确认行业编码为hi的情况下,r1,r2,...,rn这个组合的条件概率,p(r1,r2,...,rn|h
l
)为在确认行业编码为h
l
的情况下,r1,r2,...,rn这个组合的条件概率,p(h
l
)为第l种经营范围的四级分类编码的概率,l∈[1,

,n];
[0027]
计算argmax(p(hi|r1,r2,

,rn)),并作为最大概率的四级行业编码推荐数据选项,argmax(.)为求自变量最大的函数。
[0028]
进一步的,所述数据清洗提取的方式具体如下:
[0029]
基于“一般经营项目”和“特许经营项目”将经营范围分解成若干个大类;
[0030]
将“;”作为分隔符,分解出每个经营项目,同时去除掉“。”符号,形成经营范围列表busi_scope_list。
[0031]
进一步的,所述当前给定的经营范围r1,r2,...,rn的条件概率p(rj|hi)的计算方式如下:
[0032]
提取每种行业编码hi关联的所有企业的经营范围集合{r1,r2,...,rm},其中,m为大于2的自然数;
[0033]
统计每个经营范围rk的频率并计算经营范围rk的条件概率p(rk|hi)为:
[0034][0035]
其中,rk∈{r1,r2,...,rm};
[0036]
查找所述企业的经营范围子集的概率集合s,其中,s∈{r1,r2,...,rm};
[0037]
重复执行直至所有行业编码都完成遍历。
[0038]
进一步的,在计算出行业编码的概率p(hi|r1,r2,...,rn)后,将hi的概率进行归纳整理成三级行业编码概率具体如下:
[0039][0040]
其中,为第i类四级行业编码对应的三级行业编码概率;
[0041]
对所述三级行业编码概率累加构建二级行业编码概率具体如下:
[0042][0043]
其中,为第i类四级行业编码对应的二级行业编码概率。
[0044]
进一步的,判断所述企业是否为新的行业客户的方式具体如下:
[0045]
查询所述企业的每个经营范围的先验概率p(ri),若其先验概率p(ri)为0,则判断所述企业为新的行业客户,否则判断所述企业未非新的行业客户。
[0046]
进一步的,还包括:
[0047]
定期对系统内预先计算存储的先验概率、条件概率以及新行业新客户的信息进行更新。
[0048]
进一步的,所述申请资料通过在线的浏览器页面或者app页面提交。
[0049]
进一步的,所述a的取值为3或5个。
[0050]
有益效果:1、本发明充分利用现有历史数据的概率计算,解决了跨行业经营的企业的主行业分类计算问题;
[0051]
2、本发明基于大数据统计的方法实现对历史数据中行业编码为空的数据进行分类,解决了存量历史数据的校验和修复问题。
[0052]
3、对比传统的行业信息全部列举选择的方法,本发明通过概率计算和排序,提升客户对行业编码的定位效率和准确度;
[0053]
4、本发明可重复迭代优化,能够随着客户群体规模的变化,逐步提升对新客群的行业编码分类能力。
附图说明
[0054]
图1是基于贝叶斯分类的行业编码选定方法的流程示意图;
[0055]
图2是基于常见关键字进行初步分解后的示意图;
[0056]
图3是通过标点符号,将内容分解成兄弟节点后的示意图。
具体实施方式
[0057]
下面结合附图和具体实施例,进一步阐明本发明,本实施例在以本发明技术方案为前提下进行实施,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。
[0058]
如图1所示,本发明实施例提供了一种基于贝叶斯分类的行业编码选定方法,包括:
[0059]
步骤1、获取用户在申请相关业务时提交的相关申请资料。如在申请企业贷款时,需要用户上传的企业的营业执照、办理人的身份证等证件信息。上述申请资料一般可通过在线的浏览器页面或者app页面提交。
[0060]
步骤2、从申请资料中提取企业的基本信息。可通过ocr解析营业执照的基本信息,从而将图像内容转化为文本内容,如公司名称、经营范围等。另外,按照监管要求,每个企业需要给出基于国家标准的四级行业编码,而营业执照本身没有列出详细的四级标准编码,因此,需要根据企业的经营范围,将其归属的行业编码列出。
[0061]
步骤3、基于提取的企业的基本信息判断该企业是否为新的行业客户,若为新的行业客户,则跳转至步骤6,引导客户自助填写行业编码(根据经营范围和国家标准行业分类编码映射关系),否则,进入步骤4,进入行业分类引擎环节计算最大可能行业编码。
[0062]
步骤4、通过对企业经营范围的内容解析,识别出企业经营范围数据集,并给出最大概率的四级行业编码推荐数据选项。具体如下:
[0063]
将当前历史数据中的每条经营范围记录作数据清洗提取后,统计第i种经营范围记录ri在行内的指定类别细项的统计数量计算第i种经营范围记录ri在当前数据集下的先验概率p(ri)为:
[0064][0065]
其中,m代表经营记录细项的总数。
[0066]
统计当前历史数据中的每个经营四级行业编码的数量,将出现的频率映射为四级分类编码的概率,具体如下:
[0067][0068]
其中,n代表四级行业编码的总数(按照国家标准为固定值),代表第i种行业编码hi在当前数据集的出现次数;
[0069]
根据企业经营范围的内容解析结果给定企业的经营范围r1,r2,

,rn,其中,n为大于2的自然数。
[0070]
在行业编码固定的情况下,计算当前给定的经营范围r1,r2,

,rn的条件概率p(rj|hi),其中j∈[1,

,n]。具体如下:
[0071]
提取每种行业编码hi关联的所有企业的经营范围集合{r1,r2,

,rm},其中,m为大于2的自然数;
[0072]
统计每个经营范围rk的频率并计算经营范围rk的条件概率p(rk|hi)为:
[0073][0074]
其中,rk∈{r1,r2,...,rm};
[0075]
查找企业的经营范围子集的概率集合s,其中,s∈{r1,r2,...,rm};
[0076]
重复执行直至所有行业编码都完成遍历。
[0077]
根据当前给定的经营范围r1,r2,

,rn的条件概率p(rj|hi)计算行业编码的概率p(hi|r1,r2,...,rn),由于行业编码概率应该满足∑p(hi|r1,r2,...,rn)=1的要求(即条件概率下的所有行业编码概率之和为1),并且由于r1,r2,...,rn之间相互独立,根据贝叶斯公式计算行业编码的概率具体如下:
[0078][0079]
由于全概率公式(p(r)=p(r|h)*p(h) p(r|hc)*p(hc))以及行业h集合内数据为独立变量(只允许出现一个行业编码),可将上述公式进一步变形为:
[0080][0081]
其中,p(r1,r2,...,rn|hi)为在确认行业编码为hi的情况下,r1,r2,...,rn这个组合的条件概率,p(r1,r2,...,rn|h
l
)为在确认行业编码为h
l
的情况下,r1,r2,...,rn这个组合的条件概率,p(h
l
)为第l种经营范围的四级分类编码的概率,l∈[1,

,n];
[0082]
计算argmax(p(hi|r1,r2,

,rn)),并作为最大概率的四级行业编码推荐数据选项,argmax(.)为求自变量最大的函数。
[0083]
步骤5、若四级行业编码推荐数据选项不被用户认可,则基于企业的经营范围,给出过滤后的概率最高的a个四级行业编码推荐数据选项供客户选择,若仍未被用户认可,则回退至三级行业编码推荐数据选项供客户选择,若仍未被用户认可,则由用户选择继续回退直至选定确认成功或跳转至步骤6。上述a的取值可为3或5个。在计算出行业编码的概率p(hi|r1,r2,

,rn)后,可将hi的概率进行归纳整理成三级行业编码概率具体如下:
[0084][0085]
其中,为第i类四级行业编码对应的三级行业编码概率;
[0086]
对三级行业编码概率累加构建二级行业编码概率具体如下:
[0087][0088]
其中,为第i类四级行业编码对应的二级行业编码概率。
[0089]
步骤6、若为新的行业客户,则列举出该企业经营范围内的所有行业,由客户选定
所属行业,否则由客户对系统推荐的行业编码进行校验确认。
[0090]
步骤7、用户确认选定或校验确认的行业编码无误后,通过整个业务办理流程后落库存储。存储后的数据可用于未来的定期监管报送统计。
[0091]
上述步骤4中对数据清洗提取的方式具体如下:
[0092]
具体可参见图2,首先是基于系统内常见关键字,进行初步的分解。如基于“一般经营项目”和“特许经营项目”将经营范围分解成若干个大类。
[0093]
参见图3,然后对每个大类子类的内容,通过标点符号,将内容分解成兄弟节点。具体的,将“;”作为分隔符,分解出每个经营项目,同时去除掉“。”符号,形成经营范围列表busi_scope_list。
[0094]
上述判断企业是否为新的行业客户的方式具体如下:
[0095]
查询企业的每个经营范围的先验概率p(ri),若其先验概率p(ri)为0,则判断企业为新的行业客户,否则判断企业未非新的行业客户。
[0096]
由于业务发展和客户群体会逐步变化,因此需要定期更新系统内各种先验概率的预计算结果,以及条件概率的计算结果。可按照周度或者月度、季度等时间范围,对系统内预先计算的先验概率、条件概率以及新行业新客户的信息等定期进行更新。
[0097]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,其它未具体描述的部分,属于现有技术或公知常识。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献