一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

目标化验单生成方法、装置、电子设备及存储介质与流程

2022-02-21 03:47:57 来源:中国专利 TAG:


1.本发明实施例涉及医疗信息技术领域,尤其涉及一种目标化验单生成方法、装置、电子设备及存储介质。


背景技术:

2.目前,因为没有关于医疗化验单的规范的行业标准,导致全国各地各家医院的化验单版式几乎各不相同,且多为无框表格,对于医疗化验单的统一结构化处理、存储和后续进一步的挖掘分析造成很大困难。
3.现有技术中,针对每一家医院或科室构建对应的化验单抽取模板,并且以化验单上的医院及科室名称作为模板的唯一标识,以匹配模板。但是,该方法会导致不同医院或科室制作的化验单抽取模板不同,在其他科室或者医院无法复用,造成存储模板所需的空间较大。并且,针对医疗化验单中无框表格所对应的内容进行提取,会存在无框表格的内容提取不准确的问题。


技术实现要素:

4.本发明实施例提供了一种目标化验单生成方法、装置、电子设备及存储介质,以实现对化验单模板进行整合存储以及准确的匹配初始化验单所需的化验单模板并进行信息提取的技术效果。
5.第一方面,本发明实施例提供了一种目标化验单生成方法,该方法包括:
6.获取初始化验单,并根据所述初始化验单的列表头信息,构建初始关键词;
7.将所述初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果;
8.若所述匹配结果为匹配成功,则确定匹配成功的化验单模板为目标化验单模板;
9.根据所述目标化验单模板确定目标提取框,并根据所述目标提取框以及所述初始化验单的表头位置信息和表尾位置信息,对所述初始化验单进行提取,确定目标提取字段;
10.根据所述目标提取字段以及所述目标化验单模板,生成目标化验单。
11.第二方面,本发明实施例还提供了一种目标化验单生成装置,该装置包括:
12.初始关键词构建模块,用于获取初始化验单,并根据所述初始化验单的列表头信息,构建初始关键词;
13.匹配结果确定模块,用于将所述初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果;
14.目标化验单模板确定模块,用于若所述匹配结果为匹配成功,则确定匹配成功的化验单模板为目标化验单模板;
15.目标提取字段确定模块,用于根据所述目标化验单模板确定目标提取框,并根据所述目标提取框以及所述初始化验单的表头位置信息和表尾位置信息,对所述初始化验单进行提取,确定目标提取字段;
16.目标化验单生成模块,用于根据所述目标提取字段以及所述目标化验单模板,生成目标化验单。
17.第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
18.一个或多个处理器;
19.存储装置,用于存储一个或多个程序,
20.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例任一所述的目标化验单生成方法。
21.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例任一所述的目标化验单生成方法。
22.本发明实施例的技术方案,通过获取初始化验单,并根据初始化验单的列表头信息,构建初始关键词,以便唯一确定目标化验单模板,将初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果,若匹配结果为匹配成功,则确定匹配成功的待匹配模板为目标化验单模板,以准确确定与初始化验单相对应的目标化验单模板,根据目标化验单模板确定目标提取框,并根据目标提取框以及初始化验单的表头位置信息和表尾位置信息,对初始化验单进行提取,确定目标提取字段,根据目标提取字段以及目标化验单模板,生成目标化验单,解决了化验单模板占用存储空间大的问题,以及针对无框表格进行内容提取准确性差的问题,实现了对化验单模板进行整合存储以及准确的匹配初始化验单所需的化验单模板并进行信息提取的技术效果。
附图说明
23.为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
24.图1为本发明实施例一所提供的一种目标化验单生成方法的流程示意图;
25.图2为本发明实施例二所提供的一种目标化验单生成方法的流程示意图;
26.图3为本发明实施例三所提供的一种目标化验单生成系统的结构示意图;
27.图4为本发明实施例三所提供的一种化验单示意图;
28.图5为本发明实施例三所提供的目标提取框以及框定字段的示意图;
29.图6为本发明实施例三所提供的模板库的示意图;
30.图7为本发明实施例三所提供的滑动抽取方向的示意图;
31.图8为本发明实施例四所提供的一种目标化验单生成装置的结构示意图;
32.图9为本发明实施例五所提供的一种电子设备的结构示意图。
具体实施方式
33.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
34.实施例一
35.图1为本发明实施例一所提供的一种目标化验单生成方法的流程示意图,本实施例可适用于在对化验单内容进行模板化提取的情况,该方法可以由目标化验单生成装置来执行,该装置可以通过软件和/或硬件的形式实现,该硬件可以是电子设备,可选的,电子设备可以是移动终端等。
36.如图1所述,本实施例的方法具体包括如下步骤:
37.s110、获取初始化验单,并根据初始化验单的列表头信息,构建初始关键词。
38.其中,初始化验单可以是待进行信息提取的医疗化验单,初始化验单可以是纸质版的医疗化验单,也可以是电子版的医疗化验单。列表头信息可以是初始化验单中化验表格的首行信息中的各个信息,用于表示各列信息的信息类别。初始关键词可以是各列表头信息的组合所构成的关键词。
39.具体的,获取初始化验单,并且可以将初始化验单处理成后续医疗化验单提取可用的格式,方便统一处理。进而,可以通过文字识别方法对初始化验单进行文字识别,获取初始化验单的列表头信息,并将各列表头信息进行组合构建初始关键词。
40.s120、将初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果。
41.其中,化验单模板库可以是预先建立的模板库,化验单模板库中可以包括各待匹配模板以及与各待匹配模板所对应的待匹配模板关键词。待匹配模板可以是预先建立的医疗化验单模板,待匹配模板关键词可以是与待匹配模板一一对应的,用于唯一确定待匹配模板的关键词。
42.具体的,将初始关键词与各待匹配模板关键词进行分别匹配,若有且仅有一个待匹配模板关键词与初始关键词相匹配,则可以确定匹配结果为匹配成功;若不存在任意一个待匹配模板关键词与初始关键词相匹配,则可以确定匹配结果为匹配失败。
43.需要说明的是,匹配的方式可以是相似度匹配,例如:将相似度高于相似度阈值,且相似度最高的待匹配模板关键词作为匹配成功的待匹配模板关键词;匹配的方式也可以是其他限定匹配条件的匹配方式,例如:将初始关键词的子关键词数量与待匹配模板关键词的子关键词数量相等,且各子关键词之间存在一一对应的关系的待匹配模板关键词作为匹配成功的待匹配模板关键词。具体匹配方式可以在实际应用中确定,在本实施例中不做具体限定。
44.s130、若匹配结果为匹配成功,则确定匹配成功的待匹配模板为目标化验单模板。
45.其中,目标化验单模板可以是后续对初始化验单抽取信息所使用的化验单模板。
46.具体的,若匹配结果为匹配成功,则表明有且仅有一个待匹配模板与初始化验单相对应,进而,可以将该待匹配模板作为目标化验单模板。
47.s140、根据目标化验单模板确定目标提取框,并根据目标提取框以及初始化验单的表头位置信息和表尾位置信息,对初始化验单进行提取,确定目标提取字段。
48.其中,目标提取框可以是与目标化验单模板相匹配的提取框,用于提取初始化验单中的信息并填入目标化验单模板中。初始化验单可以包括表头区域,化验内容区域,以及表尾区域。表头位置信息可以是初始化验单的表头区域所对应的位置信息,表头位置信息可以是表头区域所对应的矩形区域的四个顶点的坐标信息或矩形区域的下边线的位置信息等。表尾位置信息可以是初始化验单的表尾区域所对应的位置信息,表尾位置信息可以
是表尾区域所对应的矩形区域的四个顶点的坐标信息或矩形区域的上边线的位置信息等。目标提取字段可以是目标提取框在初始化验单中框取部分所对应的字段信息,可以包括不同列表头信息所对应的字段信息。
49.具体的,每个待匹配模板都具有与其相匹配的提取框,用于提取与该待匹配模板向对应的医疗化验单的信息。待匹配模板可以与相匹配的提取框对应存储在化验单模板库中。将根据目标化验单模板确定出的提取框作为目标提取框。并且,可以根据光学字符识别方法识别和确定初始化验单的表头位置信息和表尾位置信息,进而,根据表头位置信息和表尾位置信息确定表头区域的下边线位置以及表尾区域的上边线位置。在初始化验单中,通过目标提取框在表头区域的下边线位置以及表尾区域的上边线位置之间,以目标提取框所对应的移动步长进行移动,以对初始化验单的化验内容区域中的信息进行逐行提取。进而,可以将提取出的每一行信息(除列表头信息外的每一行信息)作为目标提取字段,每一个目标提取字段中包括至少一个目标提取子字段。
50.可选的,目标提取框中可以设置不同的位置标点,以将提取出的目标提取字段分解成不同的目标提取子字段。
51.示例性的,目标提取框的长度为10厘米,第一个位置标点为1cm,第二个位置标点为3cm,第三个位置标点为5cm,第四个位置标点为7cm,第五个位置标点为10cm。在这种情况下,目标提取框中在0~1cm的区域内的信息字段为第一个目标提取子字段,例如序号字段等,1cm~3cm的区域内的信息字段为第二个目标提取子字段,例如检验项目字段等,3cm~5cm的区域内的信息字段为第三个目标提取子字段,例如结果字段等,5cm~7cm的区域内的信息字段为第四个目标提取子字段,例如参考范围字段等,7cm~10cm的区域内的信息字段为第五个目标提取子字段,例如试验方式字段等。
52.s150、根据目标提取字段以及目标化验单模板,生成目标化验单。
53.其中,目标化验单可以是将初始化验单信息提取后输入目标化验单模板后得到的模板化的化验单。
54.具体的,将提取出的各个目标提取字段输入至目标化验单模板中,以对目标化验单模板进行信息填充,并将信息填充完成的目标化验单模板作为与初始化验单相对应的目标化验单。
55.本发明实施例的技术方案,通过获取初始化验单,并根据初始化验单的列表头信息,构建初始关键词,以便唯一确定目标化验单模板,将初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果,若匹配结果为匹配成功,则确定匹配成功的待匹配模板为目标化验单模板,以准确确定与初始化验单相对应的目标化验单模板,根据目标化验单模板确定目标提取框,并根据目标提取框以及初始化验单的表头位置信息和表尾位置信息,对初始化验单进行提取,确定目标提取字段,根据目标提取字段以及目标化验单模板,生成目标化验单,解决了化验单模板占用存储空间大的问题,以及针对无框表格进行内容提取准确性差的问题,实现了对化验单模板进行整合存储以及准确的匹配初始化验单所需的化验单模板并进行信息提取的技术效果。
56.实施例二
57.图2为本发明实施例二所提供的一种目标化验单生成方法的流程示意图,本实施例在上述各实施例的基础上,针对匹配结果为匹配失败的情况,社鞥成目标化验单的方式
可参见本实施例的技术方案。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
58.如图2所述,本实施例的方法具体包括如下步骤:
59.s210、获取初始化验单,并根据初始化验单的列表头信息,构建初始关键词。
60.具体的,可以通过文字识别方法对初始化验单进行文字识别,获取初始化验单的列表头信息,并将各列表头信息进行组合构建初始关键词。
61.可选的,作为一种初始关键词的构建方式,可以通过下述步骤构建初始关键词:
62.步骤一、根据初始化验单,确定与初始化验单相对应的至少一个列表头信息。
63.具体的,可以通过光学字符识别技术(optical character recognition,ocr)对初始化验单中的各个文字块进行识别,得到文字块对象。在文字块对象中可以包含文字信息以及坐标信息。根据这些文字块对象中的位置信息可以确定出位于首行的文字块对象,并将位于首行的文字块对象的文字信息作为列表头信息。
64.步骤二、针对每个列表头信息,确定与列表头信息相对应的至少一个列待抽取字段信息。
65.其中,列待抽取字段信息可以是位置信息显示位于列表头信息正下方的文字块对象的文字信息。
66.具体的,在确定列表头信息之后,可以针对每一个列表头信息,确定出位于列表头信息正下方的文字块对象的文字信息,作为与该列表头信息相对应的至少一个列待抽取字段信息。示例性的,列表头信息为检验项目,与检验项目相对应的至少一个列待抽取字段信息可以包括红细胞计数,血红蛋白浓度,红细胞平均体积,红细胞平均血红蛋白量,红细胞平均血红蛋白浓度,白细胞计数以及白细胞分类,血小板计数等。
67.步骤三、根据列待抽取字段信息,确定与列待抽取字段信息相对应的列语义信息,并根据列语义信息更新列表头信息。
68.其中,列语义信息可以是通过自然语言处理(natural language processing,nlp)对列待抽取字段信息进行处理得到的语义特征信息,例如可以是聚类标签结果信息。
69.具体的,可以预先训练完成的自然语言处理模型用于提取聚类标签信息,将列待抽取字段信息输入至预先训练完成的自然语言处理模型中,得到列语义信息。若列语义信息与列表头信息相同,则无需对列表头信息进行更改;若列语义信息与列表头信息不同,则可以根据列语义信息的文字内容替换列表头信息。
70.可选的,可以基于下述步骤确定与列待抽取字段信息相对应的列语义信息:
71.(1)基于词向量生成模型和列待抽取字段信息,确定与每个列待抽取字段信息相对应的列词向量信息。
72.其中,词向量生成模型(word to vector,word2vec)可以是用于产生词向量的相关模型,以快速有效地将一个词语表达成向量形式。列词向量信息可以是列待抽取字段信息所对应的向量表示形式。
73.具体的,将各列待抽取字段信息输入至词向量生成模型中,可以得到与每个列待抽取字段信息相对应的列词向量信息,以用于后续提取列语义信息。
74.(2)将各列词向量信息输入至预先训练的文本卷积神经网络模型中,确定与列待抽取字段信息相对应的列语义信息。
75.其中,文本卷积神经网络模型可以是通过样本词向量以及与样本词向量相对应的语义标签信息训练得到的卷积神经网络模型,用于确定列语义信息。
76.具体的,将与每个列表头信息相对应的各个列待抽取字段信息的列词向量信息输入至预先训练的文本卷积神经网络模型中,可以输出与列待抽取字段信息相对应的列语义信息,即与列表头信息相对应的语义信息。
77.需要说明的是,文本卷积神经网络可以是文本分类网络textcnn,用于对文本进行分类来判断这个文本是属于哪个类别。
78.还需要说明的是,若列语义信息与列表头信息不同,则可以根据人工或计算机判别是否需要对列表头信息进行更改。
79.步骤四、将更新后的各个列表头信息进行组合,生成初始关键词。
80.具体的,可以将各个列表头信息组合起来,作为初始关键词。
81.示例性的,可以通过连接符将各个列表头信息进行组合,例如,列表头信息为no、检查项目、结果、参考范围以及试验方法,连接符为$,则初始关键词可以是no$检验项目$结果$参考范围$试验方式。
82.s220、将初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果,若匹配成功,则执行s230,若匹配失败,则执行s260。
83.具体的,将初始关键词与各待匹配模板关键词进行分别匹配,若有且仅有一个待匹配模板关键词与初始关键词相匹配,则可以确定匹配结果为匹配成功;若不存在任意一个待匹配模板关键词与初始关键词相匹配,则可以确定匹配结果为匹配失败。
84.可选的,初始关键词与待匹配模板关键词进行匹配的方式可以如下述步骤所示:
85.步骤一、针对预先建立的化验单模板库中的每个待匹配模板的待匹配模板关键词,确定待匹配模板关键词的至少一个模板子关键词。
86.其中,模板子关键词可以是待匹配模板关键词中与各列表头信息相对应的子关键词。
87.具体的,将化验单模板库中的每个待匹配模板的待匹配模板关键词进行分割处理,得到至少一个模板子关键词。
88.示例性的,若待匹配模板关键词中包括连接符,则可以根据连接符,将待匹配模板关键词分割为至少一个模板子关键词。若待匹配模板关键词中不包含连接符等,则可以根据自然语言处理模型中的分词处理,对待匹配模板关键词进行分词,确定至少一个模板子关键词。
89.需要说明的是,还可以通过其他分词方式对待匹配模板关键词进行分割,在本实施例中不做具体限定。
90.步骤二、根据初始关键词,确定至少一个初始子关键词。
91.具体的,将初始关键词进行分割的方式可以参考如步骤一中所述的任意方式,在本步骤中不做具体限定,
92.步骤三、若模板子关键词的数量与初始子关键词的数量相等,且针对每一个初始子关键词,模板子关键词中有且仅有一个与初始关键词相对应的目标模板子关键词,且不同的初始子关键词相对应的目标模板子关键词不相同,则确定匹配成功;否则,则确定匹配失败。
93.具体的,在匹配过程中,若模板子关键词与初始子关键词之间存在一一对应的关系,则确定匹配成功,否则,则确定匹配失败。可以是,先判断模板子关键词的数量与初始子关键词的数量是否相等,若不相等,则不存在一一对应的可能性,可以确定匹配失败,若相等,则可能存在一一对应的关系,可以进行下一步判断。判断针对每一个初始子关键词,模板子关键词中是否有且仅有一个与初始关键词相对应的目标模板子关键词,若否,则存在一个初始子关键词与多个模板子关键词对应或没有模板子关键词对应的情况,因此不属于一一对应的关系,可以确定匹配失败,若是,则可能存在一一对应的关系,可以进行下一步判断。判断与不同的初始子关键词相对应的目标模板子关键词是否都不相同,若否,则存在多个初始子关键词对应一个目标模板子关键词的情况,不是一一对应的关系,可以确定匹配失败,若是,则表明模板子关键词与初始子关键词之间存在一一对应的关系,则确定匹配成功。
94.需要说明的是,匹配的过程可以理解为初始子关键词的位置变化不影响匹配过程和匹配结果。
95.s230、确定匹配成功的待匹配模板为目标化验单模板,并执行s240。
96.s240、根据目标化验单模板确定目标提取框,并根据目标提取框以及初始化验单的表头位置信息和表尾位置信息,对初始化验单进行提取,确定目标提取字段,并执行s250。
97.具体的,将根据目标化验单模板确定出的提取框作为目标提取框。在初始化验单中,通过目标提取框在表头位置信息和表尾位置信息之间,以目标提取框所对应的移动步长进行移动,以对初始化验单的信息进行逐行提取。进而,可以将提取出的每一行信息作为目标提取字段。
98.可选的,可以通过下述步骤确定目标提取字段:
99.步骤一、确定与初始化验单的列表头信息相对应的位置信息为表头位置信息。
100.具体的,可以将与列表头信息相对应的位置信息作为表头位置信息,具体可以是将位置信息中的下边线信息作为表头位置信息。
101.步骤二、确定初始化验单的表尾,根据表尾确定初始化验单的表尾位置信息。
102.其中,表尾包括表尾关键词和表尾线中的至少一种。
103.具体的,通过ocr识别的方式,根据确定出的表尾关键词和/或表尾线,确定初始化验单的表尾。进而,可以将表尾所对应的位置信息的上边线信息作为表尾位置信息。
104.步骤三、以表头位置信息为滑动提取起点,以表尾位置信息为滑动提取终点,根据目标提取框对初始化验单进行提取,确定目标提取字段。
105.具体的,目标提取框的宽度可以是一行文字的宽度。进而,以表头位置信息为滑动提取起点,以表尾位置信息为滑动提取终点,将目标提取框在滑动提取起点和滑动提取终点之间,对文字信息进行逐行提取,将提取得到的每一行信息作为一个目标提取字段。
106.s250、根据目标提取字段以及目标化验单模板,生成目标化验单。
107.s260、根据初始化验单,构建与初始化验单对应的目标化验单模板,并执行s270。
108.具体的,若匹配结果为匹配失败,则可以确定初始化验单是一种新的化验单,可以进一步根据初始化验单构建新的化验单模板,即目标化验单模板,以便后续使用。
109.可选的,可以根据下述各步骤构建目标化验单模板:
110.步骤一、根据初始化验单的列表头信息以及与列表头信息所对应的目标提取字段,构建与初始化验单相对应的目标提取框。
111.具体的,根据初始化验单的列表头信息可以确定列表头信息所对应的目标提取字段。根据目标提取字段可以确定目标提取框的各种参数信息,例如:长度,宽度,步长等,以用于后续提取所需信息。进而,根据目标提取框的各种参数信息构建与初始化验单相对应的目标提取框。
112.可选的,为了构建合适的目标提取框,可以根据下述方式确定目标提取框的各种参数信息,以构建目标提取框:
113.(1)根据初始化验单的列表头信息,确定与各列表头信息所对应的至少一个目标提取子字段信息。
114.其中,目标提取子字段信息可以是目标提取字段分解得到的子字段信息,每个目标提取子字段信息可以与一个列表头信息相对应,例如:列表头信息结果,对应的一个目标提取子字段信息为阴性。
115.具体的,可以通过文字提取方法,提取初始化验单中各个列表头信息下的目标提取子字段信息。
116.(2)根据目标提取子字段信息,确定各目标提取子字段信息相对应的字段位置信息、字段宽度信息以及字段步长信息。
117.其中,字段位置信息可以是根据各目标提取子字段的起始位置和终止位置信息。字段宽度信息可以是目标提取子字段的宽度信息,即可以是纵向长度信息。字段步长信息可以是两行目标提取子字段的距离,例如:可以是目标提取子字段的下边线位置与下一个目标提取子字段的下边线位置之间的距离。需要说明的是,字段步长信息可以是大于或等于字段宽度信息的。
118.具体的,根据目标提取子字段信息可以确定各目标提取子字段信息相对应的字段位置信息、字段宽度信息以及字段步长信息,以构建目标提取框,用于提取化验单中的信息。
119.(3)根据字段位置信息、字段宽度信息以及字段步长信息,构建与初始化验单相对应的目标提取框。
120.具体的,将字段位置信息、字段宽度信息以及字段步长信息作为目标提取框的各种参数信息,构建目标提取框,以便于后续根据目标提取框提取目标提取框中的各目标提取子字段,以及根据字段步长信息实现逐行提取目标提取子字段的目的。
121.步骤二、根据列表头信息以及目标提取框,构建与初始化验单对应的目标化验单模板。
122.具体的,根据列表头信息可以构建目标化验单模板的列表头。进而,可以建立目标提取框与目标化验单模板的对应关系,以便于根据目标化验单模板确定提取信息时使用的目标提取框。
123.需要说明的是,可以将每个列表头信息与目标提取框中各目标提取子字段信息建立对应关系,以在更改列表头信息顺序时,也能够正确的根据目标提取框提取所需信息。
124.s270、将目标化验单模板与初始关键词对应存储至化验单模板库中,并执行s280。
125.具体的,将初始关键词作为目标化验单模板的待匹配模板关键词,并将初始关键
词与目标化验单模板对应存储在化验单模板库中,以便在后续确定其他初始关键词时,能够与该目标化验单模板的待匹配模板关键词进行关键词匹配。
126.s280、根据初始化验单与目标化验单模板,生成目标化验单。
127.本发明实施例的技术方案,通过获取初始化验单,并根据初始化验单的列表头信息,构建初始关键词,以便唯一确定目标化验单模板,将初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果,若匹配结果为匹配成功,则确定匹配成功的待匹配模板为目标化验单模板,并根据目标提取框以及初始化验单的表头位置信息和表尾位置信息,对初始化验单进行提取,确定目标提取字段,进而,根据目标提取字段以及目标化验单模板,生成目标化验单,若匹配结果为匹配失败,则根据初始化验单构建目标化验单模板,并进行存储,进而,根据初始化验单与目标化验单模板,生成目标化验单,解决了化验单模板的构建和存储难度大的问题,以及针对无框表格进行内容提取准确性差的问题,实现了自动准确的匹配初始化验单所需的化验单模板并进行信息提取,以及根据初始化验单更新化验单模板库的技术效果。
128.实施例三
129.作为上述各实施例的可选实施方案,图3为本发明实施例三所提供的一种目标化验单生成系统的结构示意图。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
130.如图3所述,医疗化验单标准化系统包括:ocr光学字符识别模块、模板制作模块以及模板抽取模块。
131.ocr光学字符识别模块,用于将初始化验单中的文字利用光学字符识别技术识别为文字块对象,其中,文字块对象包含文字块内容信息及文字块坐标信息。
132.模板制作模块,包括关键词配置、字段位置信息标注、字段语义信息标注以及模板调试四个子模块。
133.其中,关键词配置子模块,用于配置模板唯一关键词,来唯一标识各模板。并且,关键词配置子模块可以用于生成模板关键词映射表,该映射表中可以包括关键词与模板之间的映射关系。
134.示例性的,抽取的目标是每个化验单项目(列表头信息),例如:no,检查项目,结果,参考范围,试验方法几个字段,如图4的化验单示意图中的虚线框内容所示。进而,根据表头关键词生成模板关键词,表头关键词(列表头信息)之间用$分割,例如:表头关键词为no、检查项目、结果、参考范围和试验方法,所以,对应关键词可以是no$检验项目$结果$参考范围$试验方式。
135.字段位置信息标注子模块,用于配置待抽取字段在化验单上的坐标信息,即字段位置信息,可以是标注首行信息的位置信息(表头位置信息)。进而,使用矩形的目标提取框框定要抽取的字段内容,并进行标注,确定各字段所对应的表头关键词,标注好的目标提取框用于后续滑动抽取。图5为目标提取框以及框定字段的示意图,实线框为目标提取框,虚线框为框定字段。
136.字段语义信息标注子模块,用于配置表头关键词,可以根据表头下方的字段信息,通过自然语言处理的方式确定对应的语义关键词(列语义信息),即字段语义信息,以更新确定表头关键词。字段语义信息标注子模块,还用于确定初始化验单的表格终点(表尾位置
信息)。如果有表尾关键词,则将表尾关键词对应位置作为表格终点,否则确定表格下方线条(表尾线)作为表格终点,如果也没有表尾线,则确定化验单底边为表格终点。
137.模板调试子模块,用于使用目标化验单模板标注的模板信息进行实时抽取,返回抽取结果,标注员可以根据抽取结果对模板进行相应的标注调整,直到抽取达到预期效果,保存调整后的模板到模板库。
138.模板抽取模块,包括模板分类子模块和模板抽取子模块。
139.其中,模板分类子模块,用于将根据ocr光学字符识别模块识别结果确定的初始关键词,在模板库的模板关键词映射表中进行匹配,如果匹配成功,则确定目标化验单模板。模板库的示意图如图6所示。
140.模板抽取子模块,用于根据模板信息,如:字段位置信息和表尾位置信息,确定滑动起止位置信息(滑动提取起点和滑动提取终点)。进而,从表头开始向表尾滑动,根据目标提取框确定抽取结果,滑动抽取方向如图7中的箭头方向所示,由上至下逐行滑动抽取。还可以根据表头关键词与抽取结果的绑定关系,对抽取结果进行位置调整。
141.本实施例的技术方案,通过目标化验单生成系统构建表头关键词,并根据表头关键词生成模板关键词,以匹配目标化验单模板,进而通过目标提取框滑动抽取所需信息,生成目标化验单,解决了不同医院或科室的化验单模板占用存储空间大的问题,以及针对无框表格进行内容提取准确性差的问题,实现了对化验单模板进行构建整合和存储以及准确的匹配初始化验单所需的化验单模板并进行信息提取的技术效果。
142.实施例四
143.图8为本发明实施例四所提供的一种目标化验单生成装置的结构示意图,该装置包括:初始关键词构建模块310、匹配结果确定模块320、目标化验单模板确定模块330、目标提取字段确定模块340和目标化验单生成模块350。
144.其中,初始关键词构建模块310,用于获取初始化验单,并根据所述初始化验单的列表头信息,构建初始关键词;匹配结果确定模块320,用于将所述初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果;目标化验单模板确定模块330,用于若所述匹配结果为匹配成功,则确定匹配成功的化验单模板为目标化验单模板;目标提取字段确定模块340,用于根据所述目标化验单模板确定目标提取框,并根据所述目标提取框以及所述初始化验单的表头位置信息和表尾位置信息,对所述初始化验单进行提取,确定目标提取字段;目标化验单生成模块350,用于根据所述目标提取字段以及所述目标化验单模板,生成目标化验单。
145.可选的,所述装置还包括:模板生成模块,用于若所述匹配结果为匹配失败,则根据所述初始化验单,构建与所述初始化验单对应的目标化验单模板;将所述目标化验单模板与所述初始关键词对应存储至所述化验单模板库中;根据所述初始化验单与所述目标化验单模板,生成目标化验单。
146.可选的,模板生成模块,还用于根据所述初始化验单的列表头信息以及与列表头信息所对应的目标提取字段,构建与所述初始化验单相对应的目标提取框;根据所述列表头信息以及所述目标提取框,构建与所述初始化验单对应的目标化验单模板。
147.可选的,模板生成模块,还用于根据所述初始化验单的列表头信息,确定与各列表头信息所对应的至少一个目标提取子字段信息;根据所述目标提取子字段信息,确定各目
标提取子字段信息相对应的字段位置信息、字段宽度信息以及字段步长信息;根据所述字段位置信息、字段宽度信息以及字段步长信息,构建与所述初始化验单相对应的目标提取框。
148.可选的,初始关键词构建模块310,用于根据所述初始化验单,确定与所述初始化验单相对应的至少一个列表头信息;针对每个列表头信息,确定与所述列表头信息相对应的至少一个列待抽取字段信息;根据所述列待抽取字段信息,确定与所述列待抽取字段信息相对应的列语义信息,并根据所述列语义信息更新所述列表头信息;将更新后的各个列表头信息进行组合,生成初始关键词。
149.可选的,匹配结果确定模块320,用于针对预先建立的化验单模板库中的每个待匹配模板的待匹配模板关键词,确定所述待匹配模板关键词的至少一个模板子关键词;根据所述初始关键词,确定至少一个初始子关键词;若所述模板子关键词的数量与所述初始子关键词的数量相等,且针对每一个初始子关键词,所述模板子关键词中有且仅有一个与所述初始关键词相对应的目标模板子关键词,且不同的初始子关键词相对应的目标模板子关键词不相同,则确定匹配成功;否则,则确定匹配失败。
150.可选的,目标提取字段确定模块340,用于确定与所述初始化验单的列表头信息相对应的位置信息为表头位置信息;确定所述初始化验单的表尾,根据所述表尾确定所述初始化验单的表尾位置信息;其中,所述表尾包括表尾关键词和表尾线中的至少一种;以表头位置信息为滑动提取起点,以表尾位置信息为滑动提取终点,根据所述目标提取框对所述初始化验单进行提取,确定目标提取字段。
151.本发明实施例的技术方案,通过获取初始化验单,并根据初始化验单的列表头信息,构建初始关键词,以便唯一确定目标化验单模板,将初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果,若匹配结果为匹配成功,则确定匹配成功的待匹配模板为目标化验单模板,以准确确定与初始化验单相对应的目标化验单模板,根据目标化验单模板确定目标提取框,并根据目标提取框以及初始化验单的表头位置信息和表尾位置信息,对初始化验单进行提取,确定目标提取字段,根据目标提取字段以及目标化验单模板,生成目标化验单,解决了化验单模板占用存储空间大的问题,以及针对无框表格进行内容提取准确性差的问题,实现了对化验单模板进行整合存储以及准确的匹配初始化验单所需的化验单模板并进行信息提取的技术效果。
152.本发明实施例所提供的目标化验单生成装置可执行本发明任意实施例所提供的目标化验单生成方法,具备执行方法相应的功能模块和有益效果。
153.值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
154.实施例五
155.图9为本发明实施例五所提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图9显示的电子设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
156.如图9所示,电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包
括系统存储器402和处理单元401)的总线403。
157.总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
158.电子设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
159.系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)404和/或高速缓存存储器405。电子设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。系统存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
160.具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如系统存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
161.电子设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该电子设备40交互的设备通信,和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口411进行。并且,电子设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与电子设备40的其它模块通信。应当明白,尽管图9中未示出,可以结合电子设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
162.处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的目标化验单生成方法。
163.实施例六
164.本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种目标化验单生成方法,该方法包括:
165.获取初始化验单,并根据所述初始化验单的列表头信息,构建初始关键词;
166.将所述初始关键词与预先建立的化验单模板库中各待匹配模板的待匹配模板关键词进行匹配,确定匹配结果;
167.若所述匹配结果为匹配成功,则确定匹配成功的化验单模板为目标化验单模板;
168.根据所述目标化验单模板确定目标提取框,并根据所述目标提取框以及所述初始
化验单的表头位置信息和表尾位置信息,对所述初始化验单进行提取,确定目标提取字段;
169.根据所述目标提取字段以及所述目标化验单模板,生成目标化验单。
170.本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
171.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
172.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
173.可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
174.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献