一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种PDF文本精确提取方法、终端设备及存储介质与流程

2022-06-02 18:09:47 来源:中国专利 TAG:

一种pdf文本精确提取方法、终端设备及存储介质
技术领域
1.本发明涉及pdf文本提取领域,尤其涉及一种pdf文本精确提取方法、终端设备及存储介质。


背景技术:

2.随着医院信息化建设越来越完善,各种不同检查类型的报告都需要进行电子档存档和数据共享,这其中也包括各种电生理检查的单机工作站如动态心电、动态血压等。
3.电生理单机工作站通常将报告转变为pdf文件上传到电子病历系统以实现报告的归档和共享。作为有些希望提取报告pdf里测量值数据进行科研统计的医院而言,从固定页面提取测量值往往是可行的。但遇到提取的测量值分布在pdf报告的不同页内且页索引会因病人差异而发生变化时,由于测量值位置的不固定性,因此程序不知道去哪里查找,无法进行提取。


技术实现要素:

4.为了解决上述问题,本发明提出了一种pdf文本精确提取方法、终端设备及存储介质。
5.具体方案如下:
6.一种pdf文本精确提取方法,包括以下步骤:
7.s1:根据待提取文本,确定待提取文本所在pdf页中的页特征;
8.s2:根据页特征获取pdf文档内包含页特征的页特征候选框的坐标范围,同时根据待提取文本获取pdf文档内包含待提取文本的待提取文本候选框的坐标范围;
9.s3:当接收到需要提取待提取文本的pdf文档时,从pdf文档的各页的页特征候选框的坐标范围内查找是否存在页特征,将存在页特征的页作为待提取文本所在的页;
10.s4:从待提取文本所在的页的待提取文本候选框的坐标范围内提取待提取文本。
11.进一步的,页特征候选框和待提取文本候选框的坐标范围通过将pdf文档转换为带坐标信息的文本格式获取。
12.进一步的,页特征候选框和待提取文本候选框的坐标范围的获取方式为:在pdf文档中框选一个包含了页特征或待提取文本及对应的偏移误差的矩形框,将矩形框的坐标范围作为页特征候选框或待提取文本候选框的坐标范围。
13.进一步的,从页特征候选框的坐标范围内查找页特征和从待提取文本候选框的坐标范围内提取待提取文本的过程均通过正则表达式规则进行。
14.进一步的,在步骤s3的从pdf文档的各页的页特征候选框的坐标范围内查找是否存在页特征之前还包括:将pdf文档转换为带坐标信息的文本格式。
15.一种pdf文本精确提取终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
17.本发明采用如上技术方案,通过配置待提取文本对应的页特征和页特征候选框的坐标范围来对待提取文本所在的页进行定位后,从定位的页内的待提取文本候选框的坐标范围内进行文本提取,可以解决现有pdf文档中测量值所在页面因页索引发生变化导致的无法定位提取的问题。
附图说明
18.图1所示为本发明实施例一的流程图。
19.图2所示为该实施例中pdf文档中需要提取的测量值示意图。
20.图3所示为该实施例中pdf文档中的页特征示意图。
21.图4所示为该实施例中带坐标信息的文本格式示意图。
22.图5所示为该实施例中页特征候选框的示意图。
23.图6所示为该实施例中待提取文本候选框的示意图。
具体实施方式
24.为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
25.现结合附图和具体实施方式对本发明进一步说明。
26.实施例一:
27.本发明实施例提供了一种pdf文本精确提取方法,应用于pdf内容以页为单位进行插入,如电生理单机工作站输出的pdf报告,该实施例中待提取文本以测量值sdnn为例进行说明。如图1所示,所述方法包括以下步骤:
28.s1:根据待提取文本,确定待提取文本所在pdf页中的页特征。
29.页特征需满足:与待提取测量值位于同一页面且始终大致处于一页面中的相同位置。
30.如图2所示为动态心电检查报告pdf文档,用户想提取图中方框里的测量值sdnn进行科研统计,其所在页面当前为第4页。通过分析pdf文档,发现如图3所示的框图内的文本“心率变异趋势”位于与测量值sdnn相同的第4页且始终大致处于第4页面中的相同位置,因此将该“心率变异趋势”作为待提取测量值的页特征。
31.s2:根据页特征获取pdf文档内包含页特征的页特征候选框的坐标范围,同时根据待提取文本获取pdf文档内包含待提取文本的待提取文本候选框的坐标范围。
32.通过将pdf文档转换为带坐标信息的文本格式可以获取pdf文档中各文本对应的坐标范围,如图4所示。
33.进一步的,由于pdf文档在不同情况下打印时,其内容可能发生位置偏移,因此,如果直接将带坐标信息的文本格式中页特征或待提取文本对应的坐标范围设为页特征候选框和待提取文本候选框的坐标范围,则可能由于位置偏移导致无法查找到,因此,该实施例中将页特征候选框和待提取文本候选框的坐标范围设定为一个包含了偏移误差的大的范
围,具体实施过程中,可以通过在pdf文档中框选一个包含了页特征及对应的偏移误差的矩形框,如图5所示,将矩形框的坐标范围作为页特征候选框的坐标范围;待提取文本候选框的坐标范围的设定方式相同,如图6所示。
34.s3:当接收到需要提取待提取文本的pdf文档时,从pdf文档的各页的页特征候选框的坐标范围内查找是否存在页特征,将存在页特征的页作为待提取文本所在的页。
35.s4:从待提取文本所在的页的待提取文本候选框的坐标范围内提取待提取文本。
36.从页特征候选框的坐标范围内查找页特征和从待提取文本候选框的坐标范围内提取待提取文本的过程均可以通过正则表达式规则进行,该实施例中为了方便查找和提取,还包括在查找和提取之间将pdf文档转换为带坐标信息的文本格式。
37.本发明实施例通过配置待提取文本对应的页特征和页特征候选框的坐标范围来对待提取文本所在的页进行定位后,从定位的页内的待提取文本候选框的坐标范围内进行文本提取,可以解决现有pdf文档中测量值所在页面因页索引发生变化导致的无法定位提取的问题。
38.实施例二:
39.本发明还提供一种pdf文本精确提取终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
40.进一步地,作为一个可执行方案,所述pdf文本精确提取终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述pdf文本精确提取终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述pdf文本精确提取终端设备的组成结构仅仅是pdf文本精确提取终端设备的示例,并不构成对pdf文本精确提取终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述pdf文本精确提取终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
41.进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述pdf文本精确提取终端设备的控制中心,利用各种接口和线路连接整个pdf文本精确提取终端设备的各个部分。
42.所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述pdf文本精确提取终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
43.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
44.所述pdf文本精确提取终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)以及软件分发介质等。
45.尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献