基于光学字符识别的医保零星报销目录匹配方法及系统与流程

2022-11-23 16:59:11 来源：中国专利 TAG：

1.本发明属于目录匹配技术领域，尤其涉及基于光学字符识别的医保零星报销目录匹配方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.光学字符识别(optical character recognition，ocr)是指提取图像中的文字信息的技术，通常包括文本检测(将图片中的文字区域位置检测出来)和文本识别(对文字区域中的文字进行识别)。传统的ocr处理主要包括图像预处理、文本行检测、单字符分割、单字符识别、后处理等步骤，通过分投影、腐蚀膨胀、旋转等图像处理的方式获取识别结果。深度学习出现后，大大优化了传统ocr方法在复杂场景(图像模糊、低分辨率、干扰信息)下的识别效果。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助，其最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。
4.在医疗保障领域涉及的业务中，时常需要业务人员根据纸质材料手工录入或校验信息，尤其是因特殊原因，参保人医疗费用未能直接联网结算，先由参保人个人垫付而产生的零星报销业务，参保人员需要到参保所在医疗保险经办机构申请报销医疗费用，业务人员需要手工详细的比对参保人员费用清单等材料的收费条目，并将收费条目与医保项目、药品和耗材目录对应，查询对应的自付比例，计算医保统筹金额。这极大影响了录入效率和录入成本。也有些使用ocr系统辅助业务的方法，但现有的ocr识别方法存在如下问题：
5.第一，依赖模板匹配和人工设置规则；传统ocr需要用户或设计者手工设置清单的表格样式、行/列间距等；然而医保零星报销的结算材料可能来自全国各大医院，表格样式多种多样，用户设定提取模板、提取表格间距等工作过于繁琐；
6.第二，传统图像处理方法和表格提取方法依赖表格图片的分割线，对于没有分割线的表格图片难以提取所有的行/列；
7.第三，ocr识别模型缺乏医保医疗行业的针对性训练，通用ocr软件难以识别医保医疗目录的专有名词，无法深入理解语义；
8.第四，缺乏与医保业务的深度联动，业务人员在获取表格信息后仍需要逐条比对医院收费项目与当地医保目录项目明细，计算报销比例等。

技术实现要素：

9.为了解决上述背景技术中存在的技术问题，本发明提供基于光学字符识别的医保零星报销目录匹配方法及系统，可以自适应提取不同医院不同类型表格图片内容，节省了人工设计规则和模板的繁琐流程。
10.为了实现上述目的，本发明采用如下技术方案：
11.本发明的第一个方面提供基于光学字符识别的医保零星报销目录匹配方法，其包括：
12.获取费用清单图像；
13.采用ocr深度学习模型对费用清单图像进行文本检测和文本识别，得到若干个文本框、以及每个文本框的位置和包含的字符；
14.将文本框进行行对齐和列对齐后，与目录库进行匹配，以得到医保报销信息。
15.进一步地，所述行对齐的具体方法为：若两个文本框之间的纵向重叠比位于指定范围内，这两个文本框属于一行。
16.进一步地，所述列对齐的方法为：
17.将含有目标字符的文本框，作为列名文本框；
18.对于每个列名文本框，根据横向重叠比和距离，选取匹配参考坐标；
19.对于每一行中的每个文本框，计算与不同列的匹配参考坐标的重叠范围，选取最大重叠范围对应的匹配参考坐标作为文本框的分列依据。
20.进一步地，根据所述横向重叠比选取匹配参考坐标的具体方法为：
21.对于某个列名文本框a，计算与所有非列名文本框的横向重叠比，将横向重叠比在设定范围内的非列名文本框全部加入匹配坐标集合；
22.在匹配坐标集合中选取出与列名文本框a重叠度最高的非列名文本框t，并将非列名文本框t的坐标设置为列名文本框a的匹配参考坐标。
23.进一步地，根据所述距离选取匹配参考坐标的具体方法为：
24.对于某个列名文本框a，若与所有非列名文本框的横向重叠比均不在设定范围内，则检索与列名文本框a距离最近的非列名文本框t；
25.若与非列名文本框t距离最近的列名文本框，与列名文本框a含有的字符相同，则将非列名文本框t的坐标设置为列名文本框a对应的匹配参考坐标；否则，将列名文本框a的坐标设置为列名文本框a对应的匹配参考坐标。
26.进一步地，在采用ocr深度学习模型对费用清单图像进行文本检测和文本识别之前，对费用清单图像进行预处理；
27.所述预处理包括：对费用清单图像进行去噪、平滑和色度增强后，检测图像中的直线信息，利用霍夫变换对倾斜图像进行矫正。
28.进一步地，所述ocr深度学习模型包括文本检测模型和文本识别模型；
29.所述文本检测模型使用可微分二值化网络结构；
30.所述文本识别模型使用卷积循环神经网络和连接时序分类结构的深度学习模型。
31.本发明的第二个方面提供基于光学字符识别的医保零星报销目录匹配系统，其包括：
32.图像获取模块，其被配置为：获取费用清单图像；
33.ocr模块，其被配置为：采用ocr深度学习模型对费用清单图像进行文本检测和文本识别，得到若干个文本框、以及每个文本框的位置和包含的字符；
34.目录匹配模块，其被配置为：将文本框进行行对齐和列对齐后，与目录库进行匹配，以得到医保报销信息。
35.本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该
程序被处理器执行时实现如上述所述的基于光学字符识别的医保零星报销目录匹配方法中的步骤。
36.本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于光学字符识别的医保零星报销目录匹配方法中的步骤。
37.与现有技术相比，本发明的有益效果是：
38.本发明提供了基于光学字符识别的医保零星报销目录匹配方法，其使医保零星报销业务高度自动化、智能化；医保业务人员以往需手工录入、比对费用明细的工作通过本发明可以快速、准确地录入明细并完成智能目录匹配，避免了业务人员手工录入繁琐、工作量大、易出错的问题。
39.本发明提供了基于光学字符识别的医保零星报销目录匹配方法，其ocr能力不依赖任何模板和费用清单表格样式，可以自适应提取不同医院不同类型表格图片内容，节省了人工设计规则和模板的繁琐流程。
40.本发明提供了基于光学字符识别的医保零星报销目录匹配方法，其可以应对不同对齐格式的表格图片，鲁棒性较好。
附图说明
41.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
42.图1是本发明实施例一的基于光学字符识别的医保零星报销目录匹配方法的流程图；
43.图2是本发明实施例一的表格提取示意图。
具体实施方式
44.下面结合附图与实施例对本发明作进一步说明。
45.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
46.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
47.实施例一
48.本实施例提供了基于光学字符识别的医保零星报销目录匹配方法，如图1所示，具体包括以下步骤：
49.步骤1、获取费用清单图像，并对费用清单图像进行预处理。
50.预处理包括：利用滤波算法对费用清单图像进行去噪、平滑和色度增强，然后检测图像中的直线信息，利用霍夫变换对倾斜图像进行矫正。具体的：
51.步骤101、通过扫描仪、相机等设备获取jpg或png等格式的费用清单图片后，对图
network for image-based sequence recognition and its application to scene text recognition)，将文本检测模型检测出的多个矩形框对应的图片区域进行检测，得到图片中的字符。
64.ocr深度学习模型的最终输出为多个文本框的识别结果和坐标，例如[[l1,l2,l3,l4]，(“收费项目”)]，其中[l1,l2,l3,l4]为该文本矩形框四个顶点的坐标，分别代表左上、右上、右下、左下四个顶点，且每个顶点用(x,y)表示，x和y分别表示x轴和y轴上的值，例如l1包括(x1,y1)。“收费项目”即表示该区域的文本识别结果。图片左上角为原点，从原点水平向右，值逐渐增大的为x轴；从原点垂直向下，值逐渐增大的为y轴。
[0065]
步骤4、表格提取。
[0066]
如图2所示，表格提取基于文本检测模型和文本识别模型的结果(包括每个文本的文本框四个顶点的坐标、文本字符等)进行分行、分列，确定每个文本框在表格中所属的位置。其中，先对所有文本框按y轴进行排序，然后选中某个文本框逐个判断后续文本与该文本的y轴方向的重叠比，如若重叠比小于某一阈值，则认为两个文本框为异行。以此遍历识别结果，合并同行文本，得到按行划分的识别结果。对于医保零星报销业务而言，最关键的数据是“收费名称”、“数量”、“金额”三列数据。为了从每行识别结果中匹配想要的数据，首先确定匹配参考坐标。由于“收费名称”、“数量”、“金额”的列名与想要的数据最相关，因此首先从识别结果中匹配出这三个列名的文本框坐标。由于不同医院清单图片的列名与所在列数据并不对齐，因此需要继续寻找匹配参考坐标。参考坐标的搜索方式如下：首先寻找与列名所在文本框x轴方向重叠度最高的文本框，若存在，则将该文本框坐标设置为该列的匹配参考坐标；若不存在，则搜索与列名所在文本框x轴方向距离最近的文本框，然后搜索该与文本框最近的列名文本框b，对比该列名与列名b是否相同，如若相同，则将此文本框设置为该列的参考坐标，否则则说明该列没有列数据。获取参考坐标后，每行识别结果中的文本框逐个与不同列的参考坐标计算x轴方向的重叠范围，取范围最大的参考坐标作为该文本框的分列依据。
[0067]
步骤401、表格行对齐。若两个文本框之间的纵向重叠比位于指定范围内，这两个文本框属于一行。
[0068]
由于识别精度、文本行间距等影响，ocr识别出的文本框分布是较为错乱的，因此需要表格行对齐。表格行对齐依据的原理是，虽然识别出的文本框并不严格按表格顺序分布，但经排序后，每一行的文本框大致是重叠的。因此，通过判断文本框的纵向重叠比(y轴方向)判断文本框是否属于同一行。首先将识别结果按y轴方向排序。然后从第一个文本开始，对比后续文本的纵向重叠比，如若重叠比大于40％，则这两个文本属于同一行，并入同一个重叠集合；否则属于异行，分别进入不同的重叠集合。如果两文本重叠，则纵向重叠比计算公式如下：
[0069][0070]
其中，h(a,b)表示两文本框的纵向重叠比，a和b代指两个文本框，y
1a
表示文本框a的l1顶点的y轴坐标值。
[0071]
步骤402、列对齐。
[0072]
进行表格行对齐后，需要进一步判断每行文本的数据类型，即判断出属于“收费名
称”、“数量”、“金额”的文本。由于不同医院的费用清单可能存在多列数字，因此无法直接判断出每个文本所属的数据类型。因此考虑通过以表格标题为基准，首先搜索出用于匹配文本类型的每种数据类型的匹配坐标，然后通过匹配坐标判断每个文本的数据类型。首先从ocr识别结果中检索出“收费名称”、“数量”、“金额”，将其文本框坐标加入集合l，即将含有目标字符(“收费名称”、“数量”、“金额”)的文本框，作为列名文本框，并加入第一集合l，其余的作为非列名文本框。然后逐个计算集合l中的表格名称文本框与识别结果中的所有文本框的横向重叠比，如果横向重叠比大于0.2，则将该文本框坐标设置为该表格名称的匹配坐标，加入到匹配坐标集合c中。即，对于某个列名文本框a，计算与所有非列名文本框的横向重叠比，将横向重叠比在设定范围内的非列名文本框全部加入匹配坐标集合c，在匹配坐标集合c中选取出与列名文本框a重叠度最高的非列名文本框t，并将该非列名文本框t的坐标设置为列名文本框a的匹配参考坐标。横向重叠比计算公式如下：
[0073][0074]
其中，x
1a
表示文本框a的l1顶点的x轴坐标值。
[0075]
如果某一个表格名称的文本框没有与之重叠的结果，则检索与其距离最近的文本t，然后检索与文本t距离最近的表格名称b，如果该表格名称与b相同，则将该文本t的文本框坐标设置为该表格名称对应的匹配坐标，加入到匹配坐标集合c中；如果不相同，则将该表格名称的文本框坐标加入匹配坐标集合c。即，对于某个列名文本框a，与所有非列名文本框的横向重叠比均不在设定范围内，则检索与该列名文本框a距离最近的非列名文本框t；若与该距离最近的非列名文本框t距离最近的列名文本框b，与列名文本框a含有的字符相同，则将非列名文本框t的坐标设置为列名文本框a对应的匹配参考坐标；否则，将列名文本框a的坐标设置为列名文本框a对应的匹配参考坐标。距离计算公式为：
[0076][0077]
步骤5、目录匹配。
[0078]
目录匹配操作首先构建相关机构使用的目录库，然后通过elastic search进行存储。表格提取后的收费项目名称逐个与目录库中的条目进行匹配，通过bm25算法计算相似度评分，然后选择分数最高的明细返回其名称、医保编码、自付比例等关键信息。根据表格提取后的项目名称信息和费用信息，以及目录匹配后的该项目的自付比例，计算该图片中的患者的消费总金额、自付金额和报销金额等。
[0079]
步骤501、构建目录库。使用开源工具elasticsearch导入医保药品、项目、耗材目录，基于倒排索引构建目录库。
[0080]
步骤502、对要进行搜索的目标词汇进行最小切分分词，将一个长文本切分成所有可能的词汇组合，例如“血清唾液酸测定”被分词为(“血清”，“唾液”，“唾液酸”，“测定”)。
[0081]
步骤503、基于bm25，计算目标词汇与目录库中词汇的评分，bm25计算公式为：
[0082][0083]
[0084][0085][0086]
其中，输入词为q，其分词后包含多个词汇{qi}，n表示词汇的个数；s表示输入q与目录库中的文档d的得分；idf表示词的权重，r表示词汇qi与文档d的相关性得分；k1、k2和b均为调节因子；qfi表示词汇qi在输入中出现的频率，fi表示词汇qi在目录文档d中出现的频率；dl为目录文档长度，avgfl为所有文档平均长度，n表示总文档数量，n(qi)表示包含qi的文档数量。
[0087]
步骤504、根据输入词与目录中所有词的bm25得分进行排序，返回得分最高的词，根据该词检索对应的医保报销信息(编码、自付比例等信息)。综合一张费用清单图片中所有收费项目的目录匹配结果，计算总费用、患者自付费用、统筹费用等。
[0088]
实施例二
[0089]
本实施例提供了基于光学字符识别的医保零星报销目录匹配系统，其具体包括如下模块：
[0090]
图像获取模块，其被配置为：获取费用清单图像；
[0091]
ocr模块，其被配置为：采用ocr深度学习模型对费用清单图像进行文本检测和文本识别，得到若干个文本框、以及每个文本框的位置和包含的字符；
[0092]
目录匹配模块，其被配置为：将文本框进行行对齐和列对齐后，与目录库进行匹配，以得到医保报销信息。
[0093]
此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。
[0094]
实施例三
[0095]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于光学字符识别的医保零星报销目录匹配方法中的步骤。
[0096]
实施例四
[0097]
本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于光学字符识别的医保零星报销目录匹配方法中的步骤。
[0098]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0099]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0100]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0101]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0102]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random accessmemory，ram)等。
[0103]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于旋转目标检测的印章识别方法、设备及介质与流程

基于光学字符识别的医保零星报销目录匹配方法及系统与流程

相关文献

最热文献