中医药中文文献的信息化方法及装置、电子设备和计算机可读介质

2022-10-15 08:24:18 来源：中国专利 TAG：

1.本发明的实施例涉及计算机领域，尤其涉及一种中医药中文文献的信息化方法、一种中医药中文文献的信息化装置、一种电子设备和一种计算机可读介质。

背景技术：

2.现有的中医药文献的信息统计，采用人力进行，这存在效率低下以及统计信息的一致性不高的问题。

技术实现要素：

3.为了有效提取中医药文献中的有用信息，提高提取的统一性，提出本发明。
4.根据本发明的实施例的一个方面，提出了一种中医药中文文献的信息化方法，包括步骤：
5.对文字化的中医药中文文献文本进行初步分割而提取中间结果信息，所述中间结果信息包括出版信息、摘要、前言、临床资料、治疗方法、结果和讨论中的至少两种；
6.确定要提取的目标字段，以及将目标字段与所述中间结果信息相关联；
7.以与所述中医药中文文献关联的方式存储或传送中间结果信息及与之关联的目标字段。
8.本发明的实施例还涉及一种中医药中文文献的信息化装置，包括：
9.中间结果信息提取模块，对文字化的中医药中文文献文本进行初步分割而提取中间结果信息，所述中间结果信息包括出版信息、摘要、前言、临床资料、治疗方法、结果和讨论中的至少两种；
10.关联模块，用于确定要提取的目标字段，并将目标字段与所述中间结果信息相关联；
11.存储或传送模块，以与所述中医药中文文献关联的方式存储或传送中间结果信息及与之关联的目标字段。
12.本发明的实施例还涉及一种电子设备，包括：
13.一个或多个处理器；
14.存储装置，用于存储一个或多个程序，
15.其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述方法。
16.本发明的实施例也涉及一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。
附图说明
17.以下描述与附图可以更好地帮助理解本发明所公布的各种实施例中的这些和其
他特点、优点，其中：
18.图1为根据本发明的一个示例性实施例的体现中医药文献中的中间结果信息与目标字段的关联的示意图；
19.图2为示例性说明本发明的某中医药中文文献首页的像素投影统计直方图的构建示例；
20.图3为根据本发明的一个示例性实施例的通过最大梯度确定潜在的分割位置的流程图；
21.图4示例性示出了以连续空白长度的中位值为阈值确定文本分割线后将文本分割为多个子文本块的示意图；
22.图5为根据本发明的一个示例性实施例的将文本分割为多个子文本块的流程图；
23.图6为将文本分割为多个子文本块后对子文本块编号的示意图。
具体实施方式
24.下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。下述参照附图对本发明实施方式的说明旨在对本发明的总体发明构思进行解释，而不应当理解为对本发明的一种限制。发明的一部分实施例，而并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
25.在本发明中，对于文字化的中医药中文文献，提取中间结果信息以及与中间结果信息关联的目标字段。这有利于后续的统计和检索。
26.图1为根据本发明的一个示例性实施例的体现中医药文献中的中间结果信息与目标字段的关联的示意图。
27.如图1所示，对中医药文献文本进行初步分割或提取，提取出出版信息、摘要、前言、临床资料、治疗方法、结果和讨论七个中间结果信息。如能够理解的，中间结果信息可以包括上述七个中间结果信息的至少两个。
28.接着，依据中医药文献特点及文献综合分析常用信息制定提取目标字段，并将目标字段与中间结果信息进行联系，例如形成图1所示的中间结果信息与字段联系关系图。
29.还可以针对上述的文献，对于上述的中间结果信息以及与之关联的目标字段进行存储或传送。
30.如图1所示，提取的出版信息中间结果中，示例性的，使用正则表达式找到中医药文献的作者、单位、刊物、年份、卷号、分类号、标题和基金项目信息。
31.如图1所示，在提取的摘要中间结果中，示例性的，使用正则表达式找到中医药文献的病人来源、总病例数、摘要和关键词信息。
32.如图1所示，提取的临床资料中间结果中，示例性的，使用正则表达式获取总病例数、男性病例数、女性病例数、西医诊断、西医诊断参考依据、纳入标准、排除标准、中医诊断、中医证候和中医诊断参考依据、中医证候加减和脱落例数的最终结果。
33.如图1所示，在提取的临床资料中间结果中，示例性的，使用正则表达式进一步切分出年龄，病程，分组方式，对照组资料，治疗组资料等中间结果，分别从年龄中间结果中得到年龄最大值、最小值、均值，标准差；病程中间结果中得到病程最大值、最小值、均值、标准差；从分组方式中间结果中得到组名，分组数量、随机序列、分配隐藏、盲法；从对照组资料
和治疗组资料的中间结果中得到对照组病例数，对照组男性病例数，对照组女性病例数，对照组年龄中间结果及所属相关最终结果，对照组病程中间结果所属相关最终结果，和治疗组的所有对应项目。
34.如图1所示，在提取的治疗方法内容中间结果中，示例性的，运用正则表达式找到中医药文献的疗效标准、疗程、观察时间和不良反应内容，并记录在最终结果；根据关键词匹配到对照组干预方式、治疗组干预方式和对照组病程的内容作为中间结果记录。再从中间结果中使用正则表达式分别获取治疗组和对照组干预方式内的最终结果：干预类型、药物名、剂型、剂量、治疗频率、服用方式、中药成分。
35.在图1中，在提取的结果内容中间结果中，示例性的，运用正则表达式关键词匹配找到中医药文献的结局指标、观察指标和观察时间内容，记录在最终结果；根据关键词匹配到统计方法的内容作为中间结果记录。
36.在图1中，提取的讨论内容中间结果中，示例性的，运用正则表达式关键词匹配找到中医药文献的不良反应、中医证候加减和脱落例数内容，记录在最终结果。
37.在本发明中，还可以对于可能在多个中间结果信息中出现的字段，进行交叉验证，确保信息的可信性。
38.在本发明中，鉴于中医药文献具有一定的规律性和语言特色，对这部分规律进行利用，可以利用例如正则表达式进行概括，从而将文献拆分为出版信息、摘要、前言、临床资料、治疗方法、结果和讨论等多个中间结果信息板块，再从中间结果信息版块中逐级获取最终所需的字段信息，将字段信息与中间结果信息相关联，此外，还以与所述中医药中文文献关联的方式存储或传送中间结果信息及与之关联的目标字段。相较于传统的人工提取，在所需文献数量较多的情况下，节约了人力物力的同时，大幅提高提取效率，保持提取一致性，方便后续的统一处理，也为数据信息的互联互通和共享打下基础。
39.在采用例如图1所示的关联之前，需要中医药中文文献为文字化的，即例如为电脑等智能装置或文字处理装置可以识别的文字而非图像。
40.对于排版简单的中医药中文文献，可以采用例如已知的ocr进行识别。
41.不过，由于中医药中文文献的排版一般较为特殊，本发明也提出了一种将中医药文献文字化的方法。
42.如下面详细说明的，本专利中，针对中医药中文文献特有的排版进行识别，划分为多个传统ocr技术可识别区块，并依据文献内容顺序为区块编号，使用传统ocr技术分别将区块转换为文本格式后，按照编号顺序重新连接生成转换后完整文本，以解决传统ocr技术无法识别中文文献排版，识别结果语句不通的问题。
43.在本发明的实施例中，以中医药中文文献为例对其进行识别，需要指出的是，本发明的方案也可以适用于其他文字的排版，或者适用于其他领域的中文文献。
44.在本发明中，文字识别技术不限于ocr，也可以是其他的文字识别技术。
45.基于本发明，将例如pdf格式的中医药中文文献的识别步骤如下：
46.1、使用pymupdf(基于gnu-gpl-v3开源协议的python开源包)将pdf格式中医药中文文献转换为无损压缩的png格式位图。在本发明中，可以采用其他任何将文献转换为图片格式的软件，对此并不限制。
47.2、使用opencv(基于bsd许可(开源)发行的跨平台计算机视觉和机器学习软件库)
将生成的无损压缩的png格式位图进行图像灰度化和图像二值化，转化为相应的纯黑白像素图像。在本发明中，可以使用其他的将图像转化为黑白像素图像的软件，本发明并不限制。此外，在文字识别软件允许的情况下，也可以将图片转换为彩色的像素图像，这也在本发明的保护范围之内。
48.3、创建像素投影直方图：以高度方向为例，首先创建长度与图像高度相等的数组，逐像素点统计每行像素总量并记录至数组的对应位置,数组每个位置的数字即为图像对应行/列上的像素投影累积峰值，形成如图2所示的像素投影统计直方图。
49.在本发明中，通过统计50篇文章的像素投影统计直方图，观察文献样本的无文字空白行，设定像素投影累计峰值不超过3个像素的对应行为不存在文字的空白像素行，超过阈值则视为存在文字的非空白像素行。宽度方向与此过程类似。
50.在本发明中，像素行可以是对应于在宽度方向上的像素行，也可以是在高度方向上的像素行。换言之，在本发明中，像素行包括了像素行和像素列的概念。
51.4、遍历建立的像素投影统计直方图，逐像素行计算当前行与后续三个像素行之间的像素投影峰的差值，并取最大值。得到长度为像素投影统计直方图-2的三像素最大梯度表。降序排列三像素最大梯度表，遍历降序排列的三像素最大梯度表，选择梯度变化比值例如为2作为梯度阈值，这里的梯度变化比值表示文字像素行与非文字像素行的梯度差中的最小值与文字像素行之间或非文字像素行之间的梯度差的最大梯度差之间的比值；记录所有三像素最大梯度表中大于梯度阈值的位置，作为潜在分割位置，参见图3所示的流程图。
52.在本发明中，逐像素行计算当前行与后续三个像素行之间的像素投影峰的差值仅仅是示例性的，也可以逐像素行计算当前行与后续1个或2个或更多个像素行之间的像素投影峰的差值。
53.5、在像素投影统计直方图上统计所有连续空白宽度，取连续空白宽度的中位值作为文本分割阈值。从步骤4中输出的潜在分割位置逐像素向上和向下检测空白区域，直到出现非空白像素行，统计得到的空白区域宽度，若此宽度大于文本分割阈值，则返回文本分割，从而将原图像切分为多个子文本块，如图4和图5所示。与图4对应，其步骤对应于图5中的左侧的水平切分。
54.6、参见图5，将分割出的子文本块在纵向分别上重复以上步骤，从而将每个子文本块或对应的子文本块在纵向上继续切分成新的子文本块。这对应于图5中的右侧的垂直切分。
55.在图5中，反复迭代，直到无法再找到符合条件(即需要进一步划分)的子文本块。
56.7、如图6所示，文本一共被分割为例如8个子文本块，分别记录每个最终无法再切分的子文本块的坐标，另外，根据坐标位置使用opencv进行切分，形成区块，并按照区块的顶点横纵坐标大小对区块进行编号。
57.8、将已经编号的区块传递至例如百度云ocr识别平台，进行ocr识别，生成与该区块对应的文本格式，将生成的不同区块对应的文本按照区块编号重新连接，生成格式无误的文本格式的中医药中文文献。在本发明中，可以在本地执行文字识别，也可以如上所述在云服务器上执行识别。
58.传统ocr技术只能识别单行文字，不适用于特定排版格式的中医药中文文献，使用传统ocr技术生成的文本在内容上出现语序混乱，对于转换后文本的阅读和进一步提取分
析造成了很大的困难。使用本发明提出的方案对例如原pdf文件进行版面划分处理，并按照文献内容顺序对不同版面区块编号，再进行ocr识别后，再次按照编号重新连接，消除排版对ocr技术的影响。避免后续的文章顺序人工调整，节约了时间和成本，避免了可能产生的人为错误。
59.根据本公开的实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。
60.本公开还提供了一种计算机可读存储介质。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。
61.基于以上，本发明提出了如下技术方案：
62.1、一种中医药中文文献的信息化方法，包括步骤：
63.对文字化的中医药中文文献文本进行初步分割而提取中间结果信息，所述中间结果信息包括出版信息、摘要、前言、临床资料、治疗方法、结果和讨论中的至少两种；
64.提取目标字段，以及将目标字段与所述中间结果信息相关联；
65.以与所述中医药中文文献关联的方式存储或传送中间结果信息及与之关联的目标字段。
66.2、根据1所述的方法，其中：
67.以正则表达式对中医药中文文献文本进行初步分割。
68.3、根据1所述的方法，其中：
69.所述中间结果信息包括出版信息、摘要、前言、临床资料、治疗方法、结果。
70.4、根据3所述的方法，其中：
71.所述中间结果信息包括出版信息、摘要、前言、临床资料、治疗方法、结果和讨论。
72.5、根据1-4中任一项所述的方法，还包括步骤：
73.在“对文字化的中医药中文文献文本进行初步分割而提取中间结果信息”之前，对中医药中文文献文本进行文字识别。
74.6、根据5所述的方法，其中：
75.对中医药中文文献文本进行文字识别包括：
76.步骤1：将文本进行图形化处理以得到像素图像，文本具有高度方向和宽度方向；
77.步骤2：将像素图像划分为分隔开的多个部分，每个部分为矩形块，每个矩形块的边与高度方向或宽度方向平行，相邻矩形块之间在高度方向或宽度方向上间隔开；和
78.步骤3：对单个矩形块分别识别，以识别矩形块中的文字。
79.7、根据6所述的方法，其中：
80.在步骤2中，所述分隔开的多个部分包括在高度方向上间隔开的多个矩形块；或者
81.在步骤2中，所述分隔开的多个部分包括在宽度方向上间隔开的多个矩形块。
82.8、根据6所述的方法，其中：
83.在步骤2中，所述分隔开的多个部分包括在高度方向上间隔开的多个矩形块，以及在宽度方向上间隔开的多个矩形块。
84.9、根据8所述的方法，其中：
85.步骤2包括在高度方向上将文本分割为多个高度矩形块之后，将高度矩形块中对
应的矩形块在宽度方向上分割为多个宽度矩形块；或者
86.步骤2包括在宽度方向上将文本分割为多个宽度矩形块之后，将宽度矩形块中对应的矩形块在高度方向上分割为多个高度矩形块。
87.10、根据6所述的方法，其中：
88.在步骤2中，确定分割形成的最终矩形块在文本版面中的位置；且
89.所述方法还包括步骤4：以所述确定的位置，将在步骤3中识别的文字放置到文本版面中的对应位置。
90.11、一种中医药中文文献的信息化装置，包括：
91.中间结果信息提取模块，对文字化的中医药中文文献文本进行初步分割而提取中间结果信息，所述中间结果信息包括出版信息、摘要、前言、临床资料、治疗方法、结果和讨论中的至少两种；
92.关联模块，用于确定要提取的目标字段，并将目标字段与所述中间结果信息相关联；
93.存储或传送模块，以与所述中医药中文文献关联的方式存储或传送中间结果信息及与之关联的目标字段。
94.12、根据11所述的装置，还包括：
95.识别单元，用于在“对文字化的中医药中文文献文本进行初步分割而提取中间结果信息”之前，对中医药中文文献文本进行文字识别。
96.13、根据12所述的装置，其中：
97.所述识别单元包括：
98.图形化模块：将文本进行图形化处理以得到像素图像，文本具有高度方向和宽度方向；
99.分割模块：将像素图像划分为分隔开的多个部分，每个部分为矩形块，每个矩形块的边与高度方向或宽度方向平行，相邻矩形块之间在高度方向或宽度方向上间隔开；和
100.识别模块：对单个矩形块分别识别，以识别矩形块中的文字。
101.14、根据13所述的装置，其中：
102.在分割模块中，所述分隔开的多个部分包括在高度方向上间隔开的多个矩形块；或者
103.在分割模块中，所述分隔开的多个部分包括在宽度方向上间隔开的多个矩形块。
104.15、根据13所述的装置，其中：
105.在分割模块中，所述分隔开的多个部分包括在高度方向上间隔开的多个矩形块，以及在宽度方向上间隔开的多个矩形块。
106.16、根据15所述的装置，其中：
107.分割模块在高度方向上将文本分割为多个高度矩形块之后，将高度矩形块中对应的矩形块在宽度方向上分割为多个宽度矩形块；或者
108.分割模块在宽度方向上将文本分割为多个宽度矩形块之后，将宽度矩形块中对应的矩形块在高度方向上分割为多个高度矩形块。
109.17、根据13所述的装置，其中：
110.分割模块确定在分割模块分割形成的最终矩形块在文本版面中的位置；和
111.所述装置还包括排版模块，排版模块以所述确定的位置，将在识别模块识别的文字放置到文本版面中的对应位置。
112.18、一种电子设备，包括：
113.一个或多个处理器；
114.存储装置，用于存储一个或多个程序，
115.其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据1-10中任一项所述的方法。
116.19、一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据1-10中任一项所述的方法。
117.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行变化，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种6G全场景知识图谱及其构建方法

中医药中文文献的信息化方法及装置、电子设备和计算机可读介质

相关文献

最热文献