一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于自然语言处理的保单核保方法及核保装置与流程

2021-11-05 22:25:00 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,特别涉及一种基于自然语言处理的保单核保方法及核保装置。


背景技术:

2.核保是保险行业里重要的环节之一,目前人工核保方式需要大量专业核保师,随着保险业务量的增多,核保师缺口增大,影响核保时效与用户体验。且人工核保效率低下,易受到核保师主观判断影响,核保结果统一性和准确性得不到保障。随着人工智能技术的发展,很多大型保险公司已经引入了智能核保。然而,目前大多数企业都是采用智能核保问卷的形式,这种方式覆盖的疾病有限,问卷问题固定单一,容易给出不正确的结论,从而影响保单的核保质量,甚至导致用户流失。
3.因此,如何利用人工智能技术来解放人力、解决人工核保时效性差、提高核保效率以及核保准确性成为本领域技术人员亟待解决的问题。


技术实现要素:

4.本发明的目的是提供一种准确、高效、智能的保单自动核保方案,以解决现有技术中存在的上述问题。
5.为实现上述目的,本发明提供一种基于自然语言处理的保单核保方法,包括以下步骤:
6.获取目标保单的待核保数据,将所述待核保数据划分为指标数据和文本数据;
7.根据第一指标筛查规则对所述指标数据进行筛查,获得第一核保结果;
8.从所述文本数据中提取异常疾病名称及关联因子;
9.将所述异常疾病名称及关联因子与预设的第二核保规则比较,获得第二核保结果;
10.将所述异常疾病名称及疾病关联因子与历史核保案例比较,获得第三核保结果;
11.根据所述第一核保结果、所述第二核保结果和所述第三核保结果确定所述目标保单的最终核保结果。
12.根据本发明提供的保单核保方法,所述对于所述指标数据,根据第一指标筛查规则获得第一核保结果包括:
13.判断任一条所述指标数据是否触发对应的预设指标规则;
14.若是,根据所述预设指标规则输出对应的预设核保结果;
15.在多条所述指标数据触发对应的预设指标规则以输出多条预设核保结果的情况下,获取每条所述预设核保结果的预设优先级,根据所述预设优先级从所述多条预设核保结果中确定所述第一核保结果。
16.根据本发明提供的保单核保方法,所述从所述文本数据中提取异常疾病名称及疾病关联因子包括:
17.对所述文本数据进行无效过滤和段落合并,得到包含多个有效句式的第一文本数据;
18.将所述第一文本数据输入第一分类器,以提取出目标异常句式;
19.将所述异常句式输入第二分类器,以提取出目标异常疾病名称及目标疾病关联因子。
20.根据本发明提供的保单核保方法,所述第一分类器通过以下步骤训练得到:
21.获取多个训练样本句式,所述训练样本句式已被预先添加正常标签或异常标签;
22.将所述训练样本句式作为输入数据,将所述正常标签或异常标签作为输出数据训练第一神经网络模型,以使所述第一神经网络模型的误差函数收敛于第一阈值;
23.将训练完成的所述第一神经网络模型作为所述第一分类器;
24.所述第二分类器通过以下步骤得到:
25.获取多个异常样本句式,所述异常样本句式中已预先标识了其中包含的异常疾病名称和/或疾病关联因子;
26.将所述异常样本句式作为输入数据,将已预先标识的异常疾病名称和/或疾病关联因子作为输出数据训练第二神经网络模型,以使所述第二神经网络模型的误差函数收敛于第二阈值;
27.将训练完成的所述第二神经网络模型作为所述第二分类器。
28.根据本发明提供的保单核保方法,所述第二核保规则为多条包含参考异常疾病名称、参考疾病关联因子及对应的参考核保结果的结构化数据;所述将所述异常疾病名称及疾病关联因子与预设的第二核保规则比较,获得第二核保结果包括:
29.查询包含所述异常疾病名称及疾病关联因子的目标结构化数据;
30.根据所述疾病关联因子与所述目标结构化数据中参考疾病关联因子的关系,获取所述目标结构化数据中的目标核保结果;
31.在仅包含一个所述异常疾病名称的情况下,将所述目标核保结果作为所述第二核保结果;
32.在包含多个所述异常疾病名称的情况下,根据每个所述目标核保结果的优先级确定所述第二核保结果。
33.根据本发明提供的保单核保方法,所述第二核保规则对应的结构化数据通过以下步骤获得:
34.获取核保手册文件;
35.对所述核保手册文件解码,并基于解码后的文件通过正则表达式提取规则数据;
36.将提取到的规则数据按预设格式保存。
37.根据本发明提供的保单核保方法,所述将所述异常疾病名称及疾病关联因子与历史核保案例比较,获得第三核保结果的步骤包括:
38.加载历史核保案例库,所述案例库由多条包含参考异常疾病名称、参考疾病关联因子及对应的参考核保结果的结构化案例数据组成;
39.通过相似度匹配算法,获取与所述异常疾病名称及疾病关联因子相似度最高的目标案例数据;
40.根据所述目标案例数据中对应的参考核保结果确定所述第三核保结果。
41.为实现上述目的,本发明提出一种基于自然语言处理的保单核保装置,包括:
42.数据获取模块,适用于获取目标保单的待核保数据,将所述待核保数据划分为指标数据和文本数据;
43.第一核保模块,适用于根据第一指标筛查规则对所述指标数据进行筛查,获得第一核保结果;
44.异常提取模块,适用于从所述文本数据中提取异常疾病名称及关联因子;
45.第二核保模块,适用于将所述异常疾病名称及关联因子与预设的第二核保规则比较,获得第二核保结果;
46.第三核保模块,适用于将所述异常疾病名称及疾病关联因子与历史核保案例比较,获得第三核保结果;
47.综合核保模块,适用于根据所述第一核保结果、所述第二核保结果和所述第三核保结果确定所述目标保单的最终核保结果。
48.为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
49.为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
50.本发明提供的基于自然语言处理的保单核保方法及核保装置,基于人工智能技术中的自然语言处理从多个维度自动分析用户上传的核保材料,中给出可靠性较高的核保结果。一方面,对核保材料中的指标数据基于指标筛查规则得出第一核保结论;第二方面,基于自然语言处理技术提取文本数据中的异常疾病名称及关联因子,基于预存的核保手册规则得出第二核保结论;第三方面,根据历史大量核保案件构建出行业标准核保案例库,通过将核保材料中的异常疾病名称及关联因子与案例库对比,从而返回与该核保材料最匹配案例的第三核保结论。本发明实现了从上传体检报告到给出核保结论与描述的端到端流程,不仅可以给出核保结论,还会给出该结论的原因。提出的案例库方法可提高智能核保准确率,系统可以辅助或替代部分核保师的工作,助力企业转型升级,提升核保准确率,缩短核保时间,提升用户体验。
附图说明
51.图1为本发明的保单核保方法实施例一的流程图;
52.图2为本发明实施例一中获得第一核保结果的示意性流程图;
53.图3为本发明实施例一从文本数据中提取相关内容的示意性流程图;
54.图4为本发明实施例一的第一文本数据示意图;
55.图5为本发明实施例一的核保手册及转化后得到结构化数据的示意图;
56.图6为本发明实施例一获得第二核保结果的示意性流程图;
57.图7为本发明实施例一获得第三核保结果的示意性流程图;
58.图8为本发明的保单的核保装置实施例一的程序模块示意图;
59.图9为本发明的保单的核保装置实施例一的硬件结构示意图。
具体实施方式
60.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
61.实施例一
62.请参阅图1,本实施例提出一种基于自然语言处理的保单核保方法,包括以下步骤:
63.s100:获取目标保单的待核保数据,将所述待核保数据划分为指标数据和文本数据。
64.待核保数据的载体可以包括体检报告、门诊病历、出入院小结及其他材料等,本实施例可以通过现有的任意文字识别方法例如ocr识别算法将上述载体上的内容转化为电子数据,即本实施例的待核保数据。进一步,可以根据不同形式将待核保数据划分为指标数据和文本数据,例如将指标名称 阿拉伯数字 英文字母的数据组合形式或者是指标名称 阿拉伯数字的数据组合形式作为指标数据,该指标数据反映了被保对象的身体指标具体状况。这里的指标名称包括但不限于血压、血糖、白细胞计数、胆固醇、甘油三酯等等。除指标数据之外的其他内容可以作为文本数据,例如病史、诊断结果、处方等。
65.s200:根据第一指标筛查规则对所述指标数据进行筛查,获得第一核保结果。
66.本步骤是通过判断指标数据是否超出范围的方式初步确定核保结果。图2示出了本发明实施例一中获得第一核保结果的示意性流程图,包括:
67.s210:判断任一条所述指标数据是否触发对应的预设指标规则。可以理解,并不是所有的指标数据超出标准范围都意味着患有疾病,某些指标会因为某些偶然因素或客观因素导致有所区别,但并不具有很强的参考价值。因此,本实施例可以根据不同的应用场景制定不同的预设指标规则。本实施例所述触发对应的预设指标规则,可以是指标数值落在某预设阈值之外或者之内,例如当指标a超出预设范围时,就会输出对应的核保结果,否则不输出结果。
68.s220:若是,根据所述预设指标规则输出对应的预设核保结果。
69.仍以上文中的指标a为例,当指标a的实际数值超出预设范围时,可能会直接输出“拒保”的核保结果。
70.s230:在多条所述指标数据触发对应的预设指标规则以输出多条预设核保结果的情况下,获取每条所述预设核保结果的预设优先级,根据所述预设优先级从所述多条预设核保结果中确定所述第一核保结果。
71.当被保人的多项指标数值都触发对应的预设指标规则并输出不同的核保结果时,根据不同核保结果的优先级确定最终的第一核保结果。例如指标a对应的核保结果为“拒保”,指标b对应的核保结果为“延期”,指标c对应的核保结果为“赔付”,那么可以根据这三种核保结果的优先权,将优先权最高的核保结果作为第一核保结果。假设优先权从高到底排序为:拒保>延期>赔付,那么确定“拒保”作为本实施例的第一核保结果。
72.s300:从所述文本数据中提取异常疾病名称及关联因子。
73.本步骤应用人工智能技术中的自然语言处理(nlu)技术从文本数据中提取与异常
疾病相关的词语或短句,为后续核保判断提供文本基础。图3示出了本发明实施例一从文本数据中提取相关内容的示意性流程图。如图3所示,步骤s300包括:
74.s310:对所述文本数据进行无效过滤和段落合并,得到包含多个有效句式的第一文本数据。
75.本步骤用于去掉文本数据中对核保过程没有实际意义的内容,例如文化程度、无、自诉等词语,同时去掉文本中的所有空行或空格进行段落合并。有次可以得到更加紧凑、识别效率更高的第一文本数据。图4示出了本发明实施例一的第一文本数据示意图。
76.s320:将所述第一文本数据输入第一分类器,以提取出目标异常句式。
77.本实施例中的第一分类器可以基于现有人工智能技术中的任意文本分类模型训练得到,例如fasttext模型、textcnn模型、charcnn模型、bi

lstm模型等。具体训练过程为:
78.获取标注了异常标签和正常标签的大量样本句式,例如句式“被确诊为甲状腺结节”标注为异常标签,句式“建议多吃蔬菜水果”标注为正常标签。这样,通过大量标注了不同标签的样本句式不断训练,使得第一分类器可以根据输入的任意第一文本数据,为其标注正常标签或异常标签。标注了异常标签的第一文本数据泽成为本实施例提取到的目标异常句式。
79.s330:将所述异常句式输入第二分类器,以提取出目标异常疾病名称及目标疾病关联因子。
80.与第一分类器类似,本实施例中的第二分类器可以基于现有人工智能技术中的任意文本分类模型训练得到,例如fasttext模型、textcnn模型、charcnn模型、bi

lstm模型等。具体训练过程为:
81.获取已经被标注了标签的大量样本异常句式,这些样本异常句式可以从历史核保数据中获得,标注的标签可以包括异常疾病、异常因子、正常等标签。通过大量标注了不同标签的样本异常句式不断训练,使得第二分类器可以根据输入的任意异常句式,为其标注正常标签、异常疾病标签或异常因子标签。其中异常因子指的是与异常疾病相关联的数据信息,例如初始发病日期、治愈时长等信息,这些信息会影响到核保结果的判断。标注了异常疾病标签或异常因子标签的词组或短语则成为本实施例提取到的目标异常疾病名称或目标疾病关联因子。
82.s400:将所述异常疾病名称及关联因子与预设的第二核保规则比较,获得第二核保结果。
83.本实施例中的第二核保规则是基于官方发布的核保手册生成的一系列结构化数据。每条结构化数据的格式可以包括:异常疾病名称 关联因子 核保结果。
84.这样在步骤s300提取到目标异常疾病名称及目标疾病关联因子的基础上,通过查询第二核保规则,可以得到对应的目标核保结果。
85.需要说明的是,官方发布的核保手册本身可以是mht文件或html文件,显示的文本内容如图5左侧所示,图5右侧则是将左侧内容转化后得到的结构化数据示意图。可以看出,图5左侧的内容显示发病距今<6个月,对应的核保结果为延期;发病距今>6个月完全康复,hbsag阴性和肝功能正常,对应的核保结果为标准体(相当于赔付)。该内容转化为结构图数据如图5右上所示。
86.将核保手册转化为结构化数据的步骤可以包括:获取核保手册文件,例如对应的
mht文件;对核保手册文件进行解析,例如对所述mht解析以获取html编码,并通过正则表达式从html编码提取规则数据;将提取到的规则数据按预设格式保存。本实施例中的规则数据可以包括发病至今时长、肝功能正常等指标类数据和延期、标准体等结果类数据。进一步,将指标类数据和结果累数据按照对应的映射关系进行保存,就可以得到核保手册的结构化数据。将图5右侧显示的结构化数据表示成计算机可识别语言,可以得到如下具体形式:
87.{“急性乙肝”:{“发病距今时间”:[{[0:6]:“a”},{[6:]:“b”}]}}。
[0088]
图6示出了本发明实施例一获得第二核保结果的示意性流程图。如图6所示,步骤s400包括:
[0089]
s410:查询包含所述异常疾病名称及疾病关联因子的目标结构化数据。例如已知异常疾病名称为急性乙肝,疾病关联因子为发病至今4个月,根据上述关键词可以查询相应的结构化数据,例如:
[0090]
{“急性乙肝”:{“发病距今时间”:[{[0:6]:“a”},{[6:]:“b”}]}}。
[0091]
s420:根据所述疾病关联因子与所述目标结构化数据中参考疾病关联因子的关系,获取所述目标结构化数据中的目标核保结果。
[0092]
通过以上结构化数据可知,发病距今时间在0

6个月之内的,核保结果a,其中a可以表示“延期”等核保结果。
[0093]
s430:在仅包含一个所述异常疾病名称的情况下,将所述目标核保结果作为所述第二核保结果。
[0094]
s440:在包含多个所述异常疾病名称的情况下,根据每个所述目标核保结果的优先级确定所述第二核保结果。
[0095]
也就是说,当被保人患有多种异常疾病,根据第二核保规则得到多个核保结果时,根据每个根据不同核保结果的优先级确定最终的第二核保结果。例如指标a对应的核保结果为“拒保”,指标b对应的核保结果为“延期”,指标c对应的核保结果为“赔付”,那么可以根据这三种核保结果的优先权,将优先权最高的核保结果作为第二核保结果。假设优先权从高到底排序为:拒保>延期>赔付,那么确定“拒保”作为本实施例的第二核保结果。
[0096]
s500:将所述异常疾病名称及疾病关联因子与历史核保案例比较,获得第三核保结果。
[0097]
图7示出了根据本发明实施例一获得第三核保结果的示意性流程图。如图7所示,s500包括以下步骤:
[0098]
s510:加载历史核保案例库,所述案例库由多条包含参考异常疾病名称、参考疾病关联因子及对应的参考核保结果的结构化案例数据组成。
[0099]
本实施例根据大量历史人工核保记录建立案例库,案例库由多条结构化案例数据组成。每条案例数据的形式可以为:异常疾病名称 疾病关联因子 核保结果。这样,在确定了异常疾病名称和疾病关联因子的基础上,可以直接查询到对应的核保结果。
[0100]
s520:通过相似度匹配算法,获取与所述异常疾病名称及疾病关联因子相似度最高的目标案例数据。
[0101]
案例库匹配是通过计算待匹配案件与案例库中案件的相似度,使用字典完全匹配、word2vec、bert等语义找到最相似的案例,返回此案例的结果作为待核保案件的核保结
论。具体的,在待匹配案例与整个案例库之间,可以利用cosine相似度计算相似度。例如cosine(a,b)>cosine(a,c)则说明案例库中的b案例相较于c案例和a案例更相似。
[0102]
s530:根据所述目标案例数据中对应的参考核保结果确定所述第三核保结果。例如上文中,将b案件对应的核保结果作为a案件的第三核保结果。
[0103]
s600:根据所述第一核保结果、所述第二核保结果和所述第三核保结果确定所述目标保单的最终核保结果。
[0104]
本步骤中,当第一核保结果、第二核保结果和第三核保结果完全一致时,直接将该一致的核保结果作为最终核保结果。当第一核保结果、第二核保结果和第三核保结果不一致时,则可以根据核保结果的优先级,选择优先级最高的核保结果作为最终核保结果。具体优先级的确定顺序可参见前文所述,此处不再赘述。
[0105]
请继续参阅图8,示出了一种基于自然语言处理的保单核保装置,在本实施例中,保单的核保装置80可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述保单的核保方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述保单的核保装置80在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
[0106]
数据获取模块81,适用于获取目标保单的待核保数据,将所述待核保数据划分为指标数据和文本数据;
[0107]
第一核保模块82,适用于根据第一指标筛查规则对所述指标数据进行筛查,获得第一核保结果;
[0108]
异常提取模块83,适用于从所述文本数据中提取异常疾病名称及关联因子;
[0109]
第二核保模块84,适用于将所述异常疾病名称及关联因子与预设的第二核保规则比较,获得第二核保结果;
[0110]
第三核保模块85,适用于将所述异常疾病名称及疾病关联因子与历史核保案例比较,获得第三核保结果;
[0111]
综合核保模块86,适用于根据所述第一核保结果、所述第二核保结果和所述第三核保结果确定所述目标保单的最终核保结果。
[0112]
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备90至少包括但不限于:可通过系统总线相互通信连接的存储器91、处理器92,如图9所示。需要指出的是,图9仅示出了具有组件91

92的计算机设备90,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
[0113]
本实施例中,存储器91(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器91可以是计算机设备90的内部存储单元,例如该计算机设备90的硬盘或内存。在另一些实施例中,存储器91也可以是计算机设备90的外部存储设备,例如该计算机设备90上配备的插接式硬盘,智能存储卡(smart media card,smc),安
全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,存储器91还可以既包括计算机设备90的内部存储单元也包括其外部存储设备。本实施例中,存储器91通常用于存储安装于计算机设备90的操作系统和各类应用软件,例如实施例一的保单的核保装置80的程序代码等。此外,存储器91还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0114]
处理器92在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92通常用于控制计算机设备90的总体操作。本实施例中,处理器92用于运行存储器91中存储的程序代码或者处理数据,例如运行保单的核保装置80,以实现实施例一的保单的核保方法。
[0115]
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储保单的核保装置80,被处理器执行时实现实施例一的保单的核保方法。
[0116]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0117]
流程图中或在此以其它方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0118]
本技术领域的普通技术人员可以理解,实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0119]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0120]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
[0121]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献