一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种流行病学本体数据库建立方法

2022-04-27 07:01:17 来源:中国专利 TAG:


1.本发明属于数据库技术领域,具体涉及一种流行病学本体数据库建立方法。


背景技术:

2.本体即对某领域中某个对象的规范说明,一系列对象及其本体的映射关系的集合即为本体资源库,本体资源库的构建对于数据标准化和数据流通至关重要。通过构建本体资源库,可以将复杂的专业术语间的关系梳理清楚,采用统一的标准化术语作为本体,对元数据进行描述和标记,元数据之间可通过本体实现高效地索引、整合,进而进行充分的数据挖掘与分析。
3.在流行病学领域,国内外研究者们和相关机构先后建设了一系列本体资源库供研究者使用,如gene ontology(go)、cbioportal、epidemiologyontology(epo)、genomic epidemiology ontology(genepio)、exposureontology(exo)、medportal等。然而,这些资源库更加侧重于提供权威的专业术语的精确定义,在功能上仅支持基本的查询和索引,更多地起到“词典”的作用,使用方式较为低效,多在数据收集完成后由专人根据该资源库进行人工本体标注,而不能在实际调研过程中实时调用,容易出错,效率较低。且语言多为英文,在国内的实际工作中使用不便。随着国际本体资源库的迅速发展,国内已有研究团队开始搭建本土化的本体平台。国家人口与健康科学数据中心开发了medportal本体信息储存和应用平台,该平台同样缺失研究者自定义本体和即时注释的功能。此外,本体中国也在国内建立了ontobee和ontofox等工具但界面为英文,且应用需要一些编程基础。
4.因此,传统的本体数据库存在不支持自定义、使用不便、无法即时调用与注释、本土化不足、使用效率低等问题,有必要提供一种可靠的本体数据库以合理解决上述问题。


技术实现要素:

5.本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种流行病学本体数据库建立方法,解决现有本体资源库不支持自定义、使用不便、无法即时调用的问题。
6.本发明采用以下技术方案:
7.一种流行病学本体数据库建立方法,包括以下步骤:
8.s1、采用php javascript编程语言制作自定义本体数据库模块和及时标记模块,通过及时标记模块的交互操作界面实现向自定义本体数据库模块中输入指定的本体数据并赋予对应键值;
9.s2、基于mysql数据库搭建数据储存管理模块,基于redcap平台编译制作数据库调用模块,数据库调用模块通过建立与数据储存管理模块的安全通讯,实现本机/远程的自定义本体数据库模块实时调用和标准化标注,完成流行病学本体数据库建立。
10.具体的,步骤s1中,自定义本体数据库模块用于储存流行病学本体数据;即时标记模块通过基于json格式的数组查找功能实时获取并匹配与输入内容相符的本体数据,用流
行病学本体数据对输入的原始数据进行即时标记和匹配。
11.具体的,步骤s1中,自定义本体数据库模块嵌入设置在电子数据收集系统redcap中,自定义本体数据库模块根据本体映射规则对自定义本体和元数据进行匹配,生成自定义本体数据库,利用及时标记模块对自定义本体数据库的本体数据进行实时标记和自动匹配,利用数据储存管理模块将标记好的本体数据存储在自定义本体数据库中,实现本体数据的标准化质控。
12.进一步的,本体映射规则如下:
13.采用值列表方式对匹配规则进行罗列,采用条形分隔符隔开将本体与元数据分隔开,使用json数组对匹配规则进行描述。
14.具体的,步骤s1中,即时标记模块包括:
15.本体数据库检索模块,在调用字段数据时,电子数据收集系统redcap根据输入的内容在自定义本体数据库模块中进行检索,并实时显示检索结果;
16.元数据匹配模块,在检索结果中选择对应的本体,完成数据与本体的匹配;
17.数据即时标记,根据选择结果,使用本体对输入的元数据进行标记,将元数据与本体一一对应,储存至对应的调查记录中。
18.具体的,步骤s2中,数据库调用模块用于将自定义本体数据库模块加载至调查表单中,为特定字段设置相应的本体数据库,实现在调查过程中或数据输入过程中,在对应字段内进行自定义本体数据库模块的实时调用与检索;
19.数据储存管理模块用于将即时标记模块标注好的本体数据存储在自定义本体数据库模块中,实现本体数据的标准化质控。
20.具体的,步骤s2中,数据库调用模块包括:
21.设计调查表模块,将调查问卷模板导入或在线编辑为电子问卷,通过电子数据收集系统redcap实现多种问题字段的设置;
22.数据库调用模块,在字段设置中,对特定的字段进行本体设置,指定已自定义完成的本体数据库,用于实时调用指定的本体数据库。
23.具体的,步骤s2中,数据库调用模块设置好的字段在数据输入时,只允许输入符合本体数据库匹配规则的标准化数据。
24.具体的,步骤s2中,数据储存管理模块包括:
25.数据储存模块,完成本体标记后的数据储存;
26.数据导出模块,将完成本体标记后的数据导出,用于数据整合与分析。
27.具体的,步骤s1中,自定义本体数据库模块遵循csiro开源软件许可协议。
28.与现有技术相比,本发明至少具有以下有益效果:
29.本发明一种流行病学本体数据库建立方法,包含自定义本体数据库、数据库调用、实时标记和数据存储管理四个核心模块,各个模块针对各自需求进行设计和优化,模块间采用通过程序接口进行数据通讯,按照高内聚、低耦合的思路合理设计模块功能,实现了流行病学本体数据库存储的标准化和安全高效的运用。自定义本体数据库便于由研究者自行确定、输入和规范化的流行病学本体数据,方便研究者按需使用。数据库调用模块通过应用程序编程接口(api) 与本体数据库通信,为即时标记模块和数据存储管理模块的运行和功能正常实现提供整理好的结构化数据源;采用mysql数据库作为一种广泛使用的数据库管
理系统,具有开放源码、体积小、查询速度快等多种优点,可高效实现数据储存管理与索引功能,使用php javascript编程语言和mysql数据库为广泛应用的通用技术软件和代码,具有方便使用、扩展功能丰富的特点,有助于本体数据库的成功搭建。本体数据库实现过程中,与现有平台、软件和数据库的主要区别在于功能的具体实现,采用广泛应用的通用技术软件和代码,方便使用,并有利于扩展和开发redcap系统的功能模块。
30.进一步的,即时标记模块通过基于json格式的数组查找功能实现本体数据的实时标记和自动匹配,方便研究者快速标注;通过采用多种方式自定义本体与元数据的匹配规则,并生成对应的自定义本体数据库,可以方便不同研究者根据实际需求和自身特点,选择合适的流行病学本体数据的结构化方式和匹配规则,有利于拓展本数据库适应多种研究或条件下的应用范围。
31.进一步的,采用redcap平台搭建本体数据库可以快速适配多种流行病学研究项目的需求,充分利用该平台已有项目设计、数据收集和管理工具的功能,提高研究效率,降低本体数据库的搭建难度。
32.进一步的,自定义本体与元数据的匹配规则包含三种形式,分别是:值列表方式,上手简单,是对匹配规则进行简单罗列,便于构建简单的本体数据库;条形分隔模式,需要按照列联表格式整理数据,本体与元数据间采用分隔符隔开,是结构化的本体数据库,方便基于已有本体数据库的快速导入;json数组模式,用json数组对匹配规则进行描述,适用于大型本体数据库的构建。通过上述三种形式,拓展了本体数据库的使用范围,方便研究者根据研究类型、数据需求构建合适的本体数据库。
33.进一步的,通过开发即时标记模块可以实时获取并匹配与输入内容相符的本体,用本体对输入的原始数据进行即时标记。
34.进一步的,通过数据库调用模块便于设计调查表时将自定义的本体数据库加载至调查表单中并为特定的字段设置相应的本体数据库,实现在调查过程中或数据输入过程中基于自定义本体数据库的实时调用与检索。
35.进一步的,数据库调用模块可在数据输入的过程中,只允许标准化数据的输入,将数据输入过程与标准化过程合为一体,从而减少后续数据标记和管理的繁琐工作。
36.进一步的,通过开发数据储存管理模块可储存完成本体和元数据匹配标记后,对数据进行标准化,便于后续数据通讯、管理与分析。
37.进一步的,数据存储管理模块将标注好的本体数据存储在自定义本体数据库中,高效率实现本体数据的标准化质控,本发明根据使用者自己规定的映射规则建立自定义的定制化本体数据库用于数据质控和标注,并实现在流行病学调查阶段数据收集过程中的实时调用,而已有本体数据库平台只是一个集成权威本体数据的在线查询工具,不能根据需求实现自定义并在使用过程中实时调用。
38.进一步的,流行病学本体数据库遵循科学与工业联合研究组织(csiro) 开源软件许可协议,可免费供开展非盈利性流行病学研究的科研工作者使用,提供定制化本体数据库的工具,便于其在研究中实现实时调用本体数据库,实现数据标准化,促进流行病学学科发展。
39.综上所述,本发明选择合适的映射规则,按照预先制定的本体映射规则建立自定义本体数据库,实现流行病学调查过程中采集数据的实时质控和标准化标注,实现方式简
单、高效,便于研究者广泛应用。
40.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
41.图1为本发明提出的一种定制化流行病学本体数据库的功能模块结构图;
42.图2为自定义本体数据库模块的设置界面;
43.图3为调用本体数据库的检索结果界面;
44.图4为进行本体标记后的标准化数据显示界面。
具体实施方式
45.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.在本发明的描述中,需要理解的是,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
47.还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
48.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和 /或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
49.在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域 /层。
50.本发明一种流行病学本体数据库建立方法,包括以下步骤:
51.s1、搭建临床研究电子数据收集系统redcap;
52.基于redcap平台源代码、php javascript编程语言和mysql数据库引擎搭建临床研究电子数据收集系统redcap。redcap系统都包括项目管理、项目设计、数据收集和质控、数据管理等模块。搭建好的redcap系统可以为流行病学调查研究提供高质量的项目管理和安全高效的数据收集工具。
53.s2、向步骤s1搭建好的redcap系统中嵌入自定义本体数据库模块(simp le ontology module);
54.自定义本体数据库模块遵循csiro开源软件许可协议,支持多种语言,可提供定制化本体数据库以及实时调用功能。
55.向redcap系统中嵌入自定义本体数据库模块以实现本体数据库自定义构建与即时调用功能。
56.s3、建立自定义本体数据库;
57.通过自定义本体数据库模块,采用自定义本体与元数据的匹配规则,并生成对应的自定义本体数据库,储存于redcap系统中;
58.请参阅图1,流行病学本体数据库包括:自定义本体数据库模块、数据库调用模块、即时标记模块以及数据储存管理模块。
59.自定义本体数据库模块用于研究者根据研究目的自行定义本体数据库,并进行系统储存以便于调用。
60.自定义本体数据库模块包括本体数据库构建与导入。
61.本体数据库构建即研究者根据研究目的,自行定义一系列元数据与其本体的对应规则,通过json数组,excel表格等方式进行记录。导入本体数据库通过本发明所述的“本体”模块实现,可将具有特定格式的本体数据库导入并储存至云端以便调用。
62.数据库调用模块用于在设计调查表时,指定需要调用本体数据库的字段,为该字段设置相应的本体数据库,设置好的字段在数据输入时,只允许输入符合本体数据库匹配规则的标准化数据。
63.数据库调用模块包括设计调查表和调用数据库。
64.设计调查表模块,研究者将调查问卷模板导入或在线编辑为电子问卷,通过redcap系统自带的数据采集工具设计功能实现多种问题字段的设置。
65.数据库调用模块,在字段设置中,对特定的某一个或某几个字段进行本体设置,为其指定已自定义完成的本体数据库,从而实现在调查过程中,输入该字段数据时,实时调用指定的本体数据库。
66.即时标记模块用于在填写调查数据过程中,实时获取并匹配与输入内容相符的本体,进而用本体对输入的原始数据进行即时标记,达到数据输入过程中的标准化。
67.即时标记模块包括本体数据库检索,元数据匹配与数据即时标记。
68.本体数据库检索即在输入调用本体数据库的字段数据时,系统将自动根据输入的内容在该本体数据库中进行检索,支持基于单个关键字检索与整句检索等多种方式,并在该字段文本框的下拉框中实时显示检索结果,如图3所示。元数据匹配即数据录入人员根据元数据特征及工作经验等,在检索结果中点击选择对应的本体,完成该数据与本体的匹配。数据即时标记即系统根据数据录入人员的选择结果,自动用本体将输入的元数据进行标记,将元数据与本体一一对应,储存至该条调查记录中。
69.数据储存管理模块,用于储存完成本体和元数据匹配标记后的标准化数据,数据包括原始输入数据以及其对应本体,研究者可将数据导出为适用于spss、 sas、r等多种统计软件格式的数据集,并通过本体实现数据流通与统计分析。
70.数据储存管理模块包括数据储存与数据导出。完成本体标记后的数据储存于系统云端中,可以进行查看、修改、删除等多种操作。数据导出即将完成标准化标记后的数据,包含其元数据与对应本体,通过系统导出为适用于各大主流统计分析软件的格式,以便后续数据整合与分析。
71.s4、调用步骤s3建立的自定义本体数据库;
72.在redcap系统中设置数据采集工具时,可设置在某一个或几个字段中调用相应的本体数据库,从而实现在该字段数据输入过程中,实时调用该指定本体数据库;
73.s5、调查过程中本体的即时标记,设置在某条目中采用本体数据库后,可在调查数据输入的过程中,即时根据输入内容搜索并匹配对应本体,在这一条目输入过程中即时用标准化的本体来进行数据标记,快捷完成数据标准化;
74.s6、数据的储存与导出。
75.请参阅图4,本体标记后的标准化数据可储存于redcap系统云端中以进行查看、修改等操作,也可进一步导出为各种统计软件适用的格式,以进行后续统计分析。
76.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
77.本技术提出的本体数据库可用于各大高校、医院、科研机构等,具体用于快捷实现数据的标准化并保证数据的流动互通性,节省人力物力,便于后续的数据整合与分析。
78.本发明基于redcap平台源代码、php javascript编程语言和mysql 数据库引擎开发,遵循csiro开源软件许可协议,支持多种语言,可提供自定义本体数据库、实时调用以及即时标记功能。包括自定义本体数据库模块、数据库调用模块、即时标记模块以及数据储存管理模块四个功能模块。
79.请参阅图2,自定义本体数据库模块的运行规则包括:
80.首先,根据研究目的自行定义本体与元数据间的对应规则,一系列对应规则整合起来即形成原始的本体数据库,该本体数据库可以任何形式储存,如ex cel表单、文本列表、json数组等。
81.其次,将自定义好的本体数据库输入系统中,可以通过“本体”模块的设置实现,通过设置可指定本体数据库的名称、类型、语言、检索方式等。语言包括中文、英文、西班牙文等。
82.检索方式包含两种,分别为“基于单词”和“完整匹配”。
[0083]“基于单词”类型下,redcap系统对键入的每一个单词(以空格分隔)分别进行搜索,如键入“霍乱轻型,”则会同时返回“霍乱”的搜索结果以及“轻型”的搜索结果。
[0084]“完整匹配”则为进行全文匹配搜索,系统将文本框内输入的全部内容视为一个关键词进行全文匹配搜索。勾选“找不到匹配结果时,显示“未找到结果”后,可对未找到匹配结果时显示的对象和本体进行设置。
[0085]
系统将以三种设定好的模式对其进行读取,分别为“值列表,”“条形分隔—本体|对象”和“json数组”。除格式以外,本体模块对值的语言和内容没有规定,使用各种语言均可正确读取、设置和显示。研究者可根据实际需要与研究背景,自由填写,实现高度定制化的本体资源库构建。
[0086]
最后,系统将在云端储存研究者自定义完成的本体数据库,以便下一步的修改、调用、标记等操作。
[0087]
数据库调用模块用于将自定义好的本体数据库加载至调查表单中,为特定的字段
设置相应的本体数据库,实现在调查过程中或数据输入过程中,在该字段内进行本体数据库的实时调用与检索。完成本体资源库设置后,在调查表中启用本体功能,就可实现在问卷调查过程中实时调用本体资源库。
[0088]
首先通过redcap系统的电子表单(数据采集工具)设计功能,进行调查问卷的设计,并根据研究目的需要,在某个或某几个字段中设置启用本体数据库。在采集工具设置页面,点击“添加字段,”选择支持本体功能的字段类型——“文本框,”右侧验证选项中即可选择启用本体功能,并选择相应本体名称。需要说明的是,不同的字段可以使用同一个本体数据库,也可以分别使用不同的本体数据库,设置操作简便且灵活。
[0089]
即时标记模块用于在数据输入时进行本体数据库的即时检索、匹配及标记。设计好数据采集工具并启用本体功能后,点击“添加/编辑记录”可进入问卷调查的数据输入界面,在该字段文本框内键入数据,在数据输入界面中,搜索结果会显示在下拉框中,研究者可根据实际情况点选正确的搜索结果,完成本体的匹配与标记。该文本框中最终的存储内容只能是这一步中点选的搜索结果,而不能将输入的内容进行最终储存,因此保证了该字段的数据全部都是来源于本体资源库中的注释好本体的规范数据,避免出现错填、随意填写等影响数据质量的问题。
[0090]
数据储存管理模块可实现对本体标准化标记后的数据进行储存于管理的功能,完成本体匹配和标记后的数据显示形式如图4所示,文本框内显示的内容为输入的对象即疾病名称,文本框右侧显示的内容为对应的本体即icd10编码,该部分数据将以对象和本体匹配的形式保存在数据库中,可供后续查询、修改、导出与统计分析。
[0091]
基于本发明所述的定制化流行病学本体数据库开展人群调查研究,包括以下步骤:
[0092]
步骤1,研究者根据研究需要自定义某领域的本体数据库,也可导入已有的本体数据库;
[0093]
步骤2,基于自定义本体数据库模块,将上述本体数据库导入并储存至re dcap系统中;
[0094]
步骤3,设计电子表单,并在需要的字段进行设置,调用本体数据库;
[0095]
步骤4,输入调查数据,根据输入的数据与其对应的检索结果,点选合适的本体以完成匹配与即时本体标记;
[0096]
步骤5,数据储存与管理。
[0097]
将进行本体标记后的标准化数据储存至系统云端,或导出为需要的格式后进行统计分析。
[0098]
综上所述,本发明一种流行病学本体数据库建立方法构建方法定制化流行病学本体数据库,具有以下特点:
[0099]
可实现自定义本体与元数据的匹配规则,完成本体资源库的构建,将同质化的元数据用同一本体进行标记,即可通过本体对各类数据库进行整合,以便后续分析研究。
[0100]
可用研究者设定好的本体资源库,在数据收集阶段就完成对原始数据的统一注释,实现研究数据库的高度定制化与标准化,免于后续的繁琐标记工作。
[0101]
操作简单,支持中文,使用方式简便,节省人力物力。
[0102]
支持多种研究调查设计,符合研究设计者的现实需要,大大提高科研人员效率。
[0103]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0104]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0105]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0106]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0107]
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献