一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于短文本匹配的客户单位信息半自动核实方法与流程

2022-02-22 06:48:30 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,尤其是涉及一种基于短文本匹配的客户单位信息半自动核实方法。


背景技术:

2.当前银行信用卡客户单位信息核实方法采用人工核实,该核实方式要求审核人员人工通过互联网渠道(例如天眼查、百度地图、工商局网等)手动搜索查询客户单位相关信息,并以此为依据进行审核评估客户是否在所填写单位正常工作,以及单位运营情况是否良好。该方案有以下不足之处:
3.1)人工通过互联网渠道查询单位信息查得率低。内部审核工作人员通过手动方式在互联网渠道查询单位信息,在银行安全管理内部环境下存在外部网络访问限制,可查询网址不多,导致较难查询到相关客户单位信息;
4.2)人工审核整体工作效率低。内部审核人员每天要对一定量的客户单位信息进行审核,由于依赖人工检索获取信息、人工评估判断,导致一个进件处理流程耗时较长,审核效率低。


技术实现要素:

5.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于短文本匹配的客户单位信息半自动核实方法。
6.本发明的目的可以通过以下技术方案来实现:
7.一种基于短文本匹配的客户单位信息半自动核实方法,该方法包括:
8.构建所有候选单位的单位信息数据库,利用搜索引擎获取各候选单位的单位名称并构建倒排索引;
9.根据客户表填单位名称,依据倒排索引结果对各候选单位的单位名称进行粗召回;
10.根据客户表填单位地址信息,对粗召回结果进行再召回;
11.对粗召回、再召回后的记录数据进行排序,对各候选单位的单位名称进一步打分,确定匹配度分值,并根据匹配分值的高低进行排序;
12.将排序后匹配度分值最高的单位信息数据记录作为最终匹配结果,并设置核实标签,对带有核实标签的最终匹配结果进行可视化,以供后续人工判断审核。
13.进一步地,所有候选单位的单位信息数据库包括单位名称、更新标识、统一社会信用代码、注册地址、注册资本、企业状态、企业类型、法人名称、国标行业门类、国标行业代码、元素行业代码在内的单位相关信息。
14.进一步地,所述搜索引擎采用elasticsearch搜索引擎。
15.进一步地,利用搜索引擎获取各候选单位的单位名称并构建倒排索引的具体内容为:
16.指定elasticsearch搜索引擎对各候选单位的单位名称、单位地址字段设置为text类型,其余字段根据需求设置类型;将设置类型后的各项数据逐条写入elasticsearch搜索引擎,elasticsearch搜索引擎自动为text类型字段构建倒排索引。
17.进一步地,根据客户表填单位地址信息,对粗召回结果进行再召回的具体内容为:
18.根据客户表填单位地址,利用地理位置分词库,对表填单位地址划分为省、市和区县三级行政,依据三级行政信息对粗召回的各条单位信息进行过滤,并根据业务需求确定过滤保留力度。
19.进一步地,匹配度分值的计算式为:
[0020][0021]
式中:a为查询的单位名称,b为再召回后的单位名称,|a∩b|为a与b交集的字符数,|a∪b|为a与b并集的字符数。
[0022]
进一步地,将排序后匹配度分值最高的单位信息数据记录作为最终匹配结果,并设置核实标签,对带有核实标签的最终匹配结果进行web网页可视化,以供后续人工判断审核。
[0023]
本发明提供的基于短文本匹配的客户单位信息半自动核实方法,相较于现有技术至少包括如下有益效果:
[0024]
1)通过汇总单位信息数据集,利用短文本匹配技术,使得审核获取单位信息查得率提升,信息准确度提升;
[0025]
2)对于单位信息匹配度较高的进件,可一定程度实现程序化辅助审核,减少人工审核工作量,缩短整体审核耗时,提高整体审核效率。
附图说明
[0026]
图1为实施例中基于短文本匹配的客户单位信息半自动核实方法的流程示意图。
具体实施方式
[0027]
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0028]
实施例
[0029]
本发明涉及一种基于短文本匹配的客户单位信息半自动核实方法,该方法主要包括对候选单位名称粗召回、再召回、排序等三个步骤,具体步骤如下:
[0030]
步骤1、构建候选单位信息数据库
[0031]
通过银行采购方式引入第三方数据,构建较为准确的工商网单位信息库,包括但不限于:单位名称、更新标识、统一社会信用代码、注册地址、注册资本、企业状态、企业类型、法人名称、国标行业门类、国标行业代码、元素行业代码等单位相关信息。一般单位信息数据库数据条数为千万级别或近亿级,覆盖全国单位信息。
[0032]
步骤2、利用搜索引擎构建单位名称倒排索引
[0033]
搜索引擎可优选elasticsearch(以下简称es)等,指定es对单位名称、单位地址字
段设置为text类型,其余字段根据需求设置类型。将数据逐条写入es,es将自动为text类型字段构建倒排索引。
[0034]
步骤3、根据客户表填单位名称依据倒排索引结果进行粗召回
[0035]
根据客户表填单位名称,利用es查询语言从千万级单位信息中初步召回少量条单位名称相似结果。针对单位信息,考虑到分公司情况的存在,以及中国省市区县数量,故粗召回数量可设定为1000左右。
[0036]
步骤4、客户表填单位地址信息对粗召回结果进行再召回
[0037]
根据客户表填单位地址,利用地理位置分词库,对表填单位地址划分为省、市、区县三级行政,依据表填三级行政信息对粗召回的1000条单位信息中的单位地址进行过滤,比如仅保留与客户表填地址省份相同的召回单位信息,或仅保留省市相同的,具体规则可根据业务需求而定。
[0038]
步骤5、根据业务规则或历史样本数据进行排序
[0039]
对粗召回、再召回之后的记录数据进行排序,可依据下式,对匹配到的单位名称进一步打分确定匹配度分值,根据匹配分数高低进行排序。
[0040][0041]
其中,a表示查询单位名称,b表示再召回之后的单位名称,|a∩b|表示a与b交集的字符数,|a∪b|表示a与b并集的字符数,该相似度又称为jaccard距离,可以衡量a与b两个字符串的相似度。
[0042]
步骤6、输出匹配度最高的单位信息并给出审批建议
[0043]
将排序后匹配度分值最高的单位信息数据记录作为最终匹配结果,并依照判断规则初步打上审核建议标签,以web网页的方式进行可视化,供人工判断审核。
[0044]
本发明通过汇总单位信息数据集,利用短文本匹配技术,使得审核获取单位信息查得率提升,信息准确度提升;对于单位信息匹配度较高的进件,可一定程度实现程序化辅助审核,减少人工审核工作量,缩短整体审核耗时,提高整体审核效率。
[0045]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献