一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于短文本匹配的客户单位信息半自动核实方法与流程

2022-02-22 06:48:30 来源:中国专利 TAG:

技术特征:
1.一种基于短文本匹配的客户单位信息半自动核实方法,其特征在于,包括:构建所有候选单位的单位信息数据库,利用搜索引擎获取各候选单位的单位名称并构建倒排索引;根据客户表填单位名称,依据倒排索引结果对各候选单位的单位名称进行粗召回;根据客户表填单位地址信息,对粗召回结果进行再召回;对粗召回、再召回后的记录数据进行排序,对各候选单位的单位名称进一步打分,确定匹配度分值,并根据匹配分值的高低进行排序;将排序后匹配度分值最高的单位信息数据记录作为最终匹配结果,并设置核实标签,对带有核实标签的最终匹配结果进行可视化,以供后续人工判断审核。2.根据权利要求1所述的基于短文本匹配的客户单位信息半自动核实方法,其特征在于,所有候选单位的单位信息数据库包括单位名称、更新标识、统一社会信用代码、注册地址、注册资本、企业状态、企业类型、法人名称、国标行业门类、国标行业代码、元素行业代码在内的单位相关信息。3.根据权利要求2所述的基于短文本匹配的客户单位信息半自动核实方法,其特征在于,所述搜索引擎采用elasticsearch搜索引擎。4.根据权利要求3所述的基于短文本匹配的客户单位信息半自动核实方法,其特征在于,利用搜索引擎获取各候选单位的单位名称并构建倒排索引的具体内容为:指定elasticsearch搜索引擎对各候选单位的单位名称、单位地址字段设置为text类型,其余字段根据需求设置类型;将设置类型后的各项数据逐条写入elasticsearch搜索引擎,elasticsearch搜索引擎自动为text类型字段构建倒排索引。5.根据权利要求3所述的基于短文本匹配的客户单位信息半自动核实方法,其特征在于,根据客户表填单位地址信息,对粗召回结果进行再召回的具体内容为:根据客户表填单位地址,利用地理位置分词库,对表填单位地址划分为省、市和区县三级行政,依据三级行政信息对粗召回的各条单位信息进行过滤,并根据业务需求确定过滤保留力度。6.根据权利要求3所述的基于短文本匹配的客户单位信息半自动核实方法,其特征在于,匹配度分值的计算式为:式中:a为查询的单位名称,b为再召回后的单位名称,|a∩b|为a与b交集的字符数,|a∪b|为a与b并集的字符数。7.根据权利要求1所述的基于短文本匹配的客户单位信息半自动核实方法,其特征在于,将排序后匹配度分值最高的单位信息数据记录作为最终匹配结果,并设置核实标签,对带有核实标签的最终匹配结果进行web网页可视化,以供后续人工判断审核。

技术总结
本发明涉及一种基于短文本匹配的客户单位信息半自动核实方法,构建所有候选单位的单位信息数据库,利用搜索引擎获取各候选单位的单位名称并构建倒排索引;根据客户表填单位名称,依据倒排索引结果对各候选单位的单位名称进行粗召回;根据客户表填单位地址信息,对粗召回结果进行再召回;对粗召回、再召回后的记录数据进行排序,对各候选单位的单位名称进一步打分,确定匹配度分值,并根据匹配分值的高低进行排序;将排序后匹配度分值最高的单位信息数据记录作为最终匹配结果,并设置核实标签,对带有核实标签的最终匹配结果进行可视化,以供后续人工判断审核。与现有技术相比,本发明具有缩短整体审核耗时,提高整体审核效率等优点。等优点。等优点。


技术研发人员:赵呈亮 冯耀 俞敏 赵权有
受保护的技术使用者:上海浦东发展银行股份有限公司
技术研发日:2021.10.22
技术公布日:2022/1/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献