多中心研究数据的提取方法、装置、电子设备及存储介质与流程

2022-07-13 20:49:52 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，特别涉及一种多中心研究数据的提取方法、装置、电子设备及存储介质。

背景技术：

2.由于多中心研究能够获得更多数据和进行外部验证，其研究结果更加可靠，越来越多的研究者致力于开展多中心研究。多中心研究的典型缺点是数据获取成本高、处理困难。随着医疗信息化的发展，越来越多的研究采用构建数据库，将多中心数据采集到数据库中进行研究。
3.传统的数据库为医疗或研究人员通过手工录入。随着大数据与人工智能的发展，如何实现自动采集研究数据成为研究者的迫切需要。医务人员在书写病历时语言表达具有多样性，因此医疗数据具有很强的异构性，数据的异构和非标准化为自动提取带来了困难。信息系统中不完整和表达不规范的数据是多中心研究中又一困难，一旦患者离开医院补充和校正数据将变得几乎不可能。
4.因此，如何能够规范数据源头，获得更加完整和高质量的研究数据是研究者的迫切需要。

技术实现要素：

5.本技术提供一种多中心研究数据的提取方法、装置、电子设备及存储介质，能够规范数据源头和提取标准化异构数据，从而获得更加完整和高质量的研究数据。
6.本技术第一方面实施例提供一种多中心研究数据的提取方法，包括以下步骤：
7.从多中心的至少一个患者病历中提取初始研究数据；
8.对所述初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集；以及
9.由所述标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。
10.可选地，所述至少一个研究数据包括症状、体格检查、治疗措施、化验检查、影像检查和病理检查中的一个或多个患者指标。
11.可选地，所述从多中心的至少一个患者病历中提取初始研究数据，包括：
12.识别每个患者病历的实际类型；
13.在所述实际类型为非结构化医疗文本时，对患者病历的文本数据进行自然语言处理和去隐私化处理，得到所述初始研究数据。
14.可选地，在对所述患者病历的文本数据进行自然语言处理和去隐私化处理之前，还包括：
15.检测所述患者病历的文本数据中的缺失数据；
16.对目标人员展示所述缺失数据的提醒信号，并由所述目标人员的输入信息补充所述缺失数据。
17.可选地，在从所述多中心的至少一个患者病历中提取所述初始研究数据之前，还包括：
18.判断当前提取时刻距离上一次提取时刻之间的间隔是否达到预设提取时间间隔；
19.如果未达到所述预设提取时间间隔，则暂不进行提取，否则提取所述初始研究数据。
20.可选地，所述预设提取时间间隔由医疗负荷确定，其中，所述医疗负荷的计算公式为：
21.a*书写文本长度 b*遗嘱条数 c*手术难度 d*手术时长 e*门诊时长 f*抢救病人数 g*重症病人数 h*医疗操作数量，
22.其中，a、b、c、d、e、f、g和h均为系数。
23.本技术第二方面实施例提供一种多中心研究数据的提取装置，包括：
24.第一提取模块，用于从多中心的至少一个患者病历中提取初始研究数据；
25.标准处理模块，用于对所述初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集；以及
26.第二提取模块，用于由所述标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。
27.可选地，所述至少一个研究数据包括症状、体格检查、治疗措施、化验检查、影像检查和病理检查中的一个或多个患者指标。
28.可选地，所述第一提取模块，具体用于：
29.识别每个患者病历的实际类型；
30.在所述实际类型为非结构化医疗文本时，对患者病历的文本数据进行自然语言处理和去隐私化处理，得到所述初始研究数据。
31.可选地，在对所述患者病历的文本数据进行自然语言处理和去隐私化处理之前，所述第一提取模块，还用于：
32.检测所述患者病历的文本数据中的缺失数据；
33.对目标人员展示所述缺失数据的提醒信号，并由所述目标人员的输入信息补充所述缺失数据。
34.可选地，在从所述多中心的至少一个患者病历中提取所述初始研究数据之前，所述第一提取模块，还用于：
35.判断当前提取时刻距离上一次提取时刻之间的间隔是否达到预设提取时间间隔；
36.如果未达到所述预设提取时间间隔，则暂不进行提取，否则提取所述初始研究数据。可选地，所述预设提取时间间隔由医疗负荷确定，其中，所述医疗负荷的计算公式为：
37.a*书写文本长度 b*遗嘱条数 c*手术难度 d*手术时长 e*门诊时长 f*抢救病人数 g*重症病人数 h*医疗操作数量，
38.其中，a、b、c、d、e、f、g和h均为系数。
39.本技术第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的多中心研究数据的提取方法。
40.本技术第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，
该程序被处理器执行，以用于实现如上述实施例所述的多中心研究数据的提取方法。
41.由此，可以从多中心的至少一个患者病历中提取初始研究数据，并对初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集，并由标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。由此，能够规范数据源头和提取标准化异构数据，从而获得更加完整和高质量的研究数据。
42.本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
43.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
44.图1为根据本技术实施例提供的一种多中心研究数据的提取方法的流程图；
45.图2为根据本技术一个实施例的多中心研究数据的提取方法的流程图；
46.图3为根据本技术实施例的多中心研究数据的提取装置的方框示例图；
47.图4为根据本技术实施例的电子设备的示例图。
具体实施方式
48.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本技术，而不能理解为对本技术的限制。
49.下面参考附图描述本技术实施例的多中心研究数据的提取方法、装置、电子设备及存储介质。针对上述背景技术中心提到的数据源头不规范、数据的异构和非标准化难以自动提取等问题，本技术提供了一种多中心研究数据的提取方法，在该方法中，可以从多中心的至少一个患者病历中提取初始研究数据，并对初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集，并由标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。由此，能够规范数据源头和提取标准化异构数据，从而获得更加完整和高质量的研究数据。
50.具体而言，图1为本技术实施例所提供的一种多中心研究数据的提取方法的流程示意图。
51.如图1所示，该多中心研究数据的提取方法包括以下步骤：
52.在步骤s101中，从多中心的至少一个患者病历中提取初始研究数据。
53.可选地，从多中心的至少一个患者病历中提取初始研究数据，包括：识别每个患者病历的实际类型；在实际类型为非结构化医疗文本时，对患者病历的文本数据进行自然语言处理和去隐私化处理，得到初始研究数据。
54.其中，患者病历的实际类型可以包括结构化医疗文本和非结构化医疗文本(如数据的异构和非标准化)。
55.应当理解的是，由于非结构化医疗文本为自动提取带来了困难，因此，本技术实施例可以对识别每个患者病历的实际类型，如果识别到患者病例的实际类型为非结构化医疗文本，则可以对患者病历的文本数据进行自然语言处理和去隐私化处理，从而即可得到初
始研究数据。
56.需要说明的是，自然语言处理和去隐私化处理均可以采用相关技术中的处理方式，为避免冗余，在此不做详细赘述。
57.可选地，在一些实施例中，在对患者病历的文本数据进行自然语言处理和去隐私化处理之前，还包括：检测患者病历的文本数据中的缺失数据；对目标人员展示缺失数据的提醒信号，并由目标人员的输入信息补充缺失数据。
58.应当理解的是，本技术实施例可以预设有标准数据集，在对患者病历的文本数据进行自然语言处理和去隐私化处理之前，本技术实施例可以将患者病历中的文本与标准数据集进行比对，依据标准数据集对缺失数据进行提示，从而便于目标人员(如医生)根据提示进行完善和修改，进而补充缺失数据。
59.可选地，在一些实施例中，在从多中心的至少一个患者病历中提取初始研究数据之前，还包括：判断当前提取时刻距离上一次提取时刻之间的间隔是否达到预设提取时间间隔；如果未达到预设提取时间间隔，则暂不进行提取，否则提取初始研究数据。
60.其中，预设提取时间间隔可以是用户预先设定的时间间隔，可以是通过有限次实验获取的时间间隔，也可以是通过有限次计算机仿真得到的时间间隔，在此不做具体限定。
61.优选地，在一些实施例中，本技术实施例可以根据医疗负荷变化个性化设置预设提取时间间隔，其中，医疗负荷的计算公式为：
62.a*书写文本长度 b*遗嘱条数 c*手术难度 d*手术时长 e*门诊时长 f*抢救病人数 g*重症病人数 h*换药等医疗操作数量，
63.其中，a、b、c、d、e、f、g和h均为系数，该系数可以根据医护人员问卷调查完成，也可以预先设定，在此不做具体限定。
64.应当理解的是，本技术实施例可以基于定时器或者计时器判断当前提取时刻距离上一次提取时刻之间的间隔是否达到预设提取时间间隔，如果当前提取时刻距离上一次提取时刻之间的间隔达到预设提取时间间隔，则可以提取初始研究数据，如果当前提取时刻距离上一次提取时刻之间的间隔未达到预设提取时间间隔，则暂时不进行提取，从而避免实时提取造成的资源浪费。
65.需要说明的是，对于一些特殊情况，本技术实施例也可以进行实时提取，即设置预设提取时间间隔为0。
66.在步骤s102中，对初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集。
67.可选地，至少一个研究数据包括症状、体格检查、治疗措施、化验检查、影像检查和病理检查中的一个或多个患者指标。
68.应当理解的是，在基于步骤s101中得到初始研究数据后，本技术实施例可以对初始研究数据进行标准处理，从而生成至少一个研究数据。其中，标准处理的方式有很多种，如与标准数据进行比对。
69.作为一种可能实现的方式，本技术实施例可以对初始研究数据进行标准处理，生成的研究数据为症状、体格检查、治疗措施和化验检查这四个患者指标，则本技术实施例可以将症状、体格检查、治疗措施和化验检查这四个患者指标组成标准数据集。
70.作为另一种可能实现的方式，本技术实施例可以对初始研究数据进行标准处理，
生成的研究数据为症状、体格检查、治疗措施、化验检查、影像检查和病理检查这六个患者指标，则本技术实施例可以将症状、体格检查、治疗措施、化验检查、影像检查和病理检查这六个患者指标组成标准数据集。
71.需要说明的是，上述描述仅为示例性的，不作为对本技术的限制，本领域相关人员可以根据实际情况进行设定。
72.在步骤s103中，由标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。
73.具体而言，本技术实施例可以在办理患者出院手续时，进行最后一次预提取检查和提示，提取多中心研究数据和隐私安全检查。
74.为便于本领域技术人员进一步了解本技术实施例的多中心研究数据的提取方法，下面结合图2进行详细说明。
75.如图2所示，图2为本技术一个具体实施例的多中心研究数据的提取方法的流程示意图。
76.通过识别非结构化医疗文本，并对非结构化医疗文本进行自然语言处理和去隐私化处理，得到初始研究数据，对初始研究数据进行标准处理，以组成标准数据集，并反馈至非结构化医疗文本，达到标准后进行正式提取和隐私安全检查。
77.根据本技术实施例提出的多中心研究数据的提取方法，可以从多中心的至少一个患者病历中提取初始研究数据，并对初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集，并由标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。由此，能够规范数据源头和提取标准化异构数据，从而获得更加完整和高质量的研究数据。
78.其次参照附图描述根据本技术实施例提出的多中心研究数据的提取置。
79.图3是本技术实施例的多中心研究数据的提取装置的方框示意图。
80.如图3所示，该多中心研究数据的提取装置10包括：第一提取模块100、标准处理模块200和第二提取模块300。
81.其中，第一提取模块100用于从多中心的至少一个患者病历中提取初始研究数据；
82.标准处理模块200用于对初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集；以及
83.第二提取模块300用于由标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。
84.可选地，至少一个研究数据包括症状、体格检查、治疗措施、化验检查、影像检查和病理检查中的一个或多个患者指标。
85.可选地，第一提取模块，具体用于：
86.识别每个患者病历的实际类型；
87.在实际类型为非结构化医疗文本时，对患者病历的文本数据进行自然语言处理和去隐私化处理，得到初始研究数据。
88.可选地，在对患者病历的文本数据进行自然语言处理和去隐私化处理之前，第一提取模块，还用于：
89.检测患者病历的文本数据中的缺失数据；
90.对目标人员展示缺失数据的提醒信号，并由目标人员的输入信息补充缺失数据。
91.可选地，在从多中心的至少一个患者病历中提取初始研究数据之前，第一提取模块，还用于：
92.判断当前提取时刻距离上一次提取时刻之间的间隔是否达到预设提取时间间隔；
93.如果未达到预设提取时间间隔，则暂不进行提取，否则提取初始研究数据。
94.可选地，预设提取时间间隔由医疗负荷确定，其中，医疗负荷的计算公式为：
95.a*书写文本长度 b*遗嘱条数 c*手术难度 d*手术时长 e*门诊时长 f*抢救病人数 g*重症病人数 h*医疗操作数量，
96.其中，a、b、c、d、e、f、g和h均为系数。
97.需要说明的是，前述对多中心研究数据的提取方法实施例的解释说明也适用于该实施例的多中心研究数据的提取装置，此处不再赘述。
98.根据本技术实施例提出的多中心研究数据的提取装置，可以从多中心的至少一个患者病历中提取初始研究数据，并对初始研究数据进行标准处理，生成至少一个研究数据，并组成标准数据集，并由标准数据集中满足隐私安全检查条件的数据，提取多中心研究数据。由此，能够规范数据源头和提取标准化异构数据，从而获得更加完整和高质量的研究数据。
99.图4为本技术实施例提供的电子设备的结构示意图。该电子设备可以包括：
100.存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。
101.处理器402执行程序时实现上述实施例中提供的多中心研究数据的提取方法。
102.进一步地，电子设备还包括：
103.通信接口403，用于存储器401和处理器402之间的通信。
104.存储器401，用于存放可在处理器402上运行的计算机程序。
105.存储器401可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
106.如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连(peripheral component，简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture，简称为eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
107.可选的，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。
108.处理器402可能是一个中央处理器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本技术实施例的一个或多个集成电路。
109.本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的多中心研究数据的提取方法。
110.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示
例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或n个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
111.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“n个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
112.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更n个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
113.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或n个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
114.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，n个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
115.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
116.此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
117.上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限制，本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于蒙特卡罗法的船舶开口板材可靠性分析方法

多中心研究数据的提取方法、装置、电子设备及存储介质与流程

相关文献

最热文献