一种基于大数据技术的临床科研辅助方法与系统与流程

2022-06-01 00:13:15 来源：中国专利 TAG：

1.本发明属于大数据分析与数据挖掘领域，尤其涉及一种基于大数据技术的临床科研辅助方法与系统。

背景技术：

2.在临床医学科研中，各种病症的外在表现，或者检测指标有很多相似性，并且不同的病人，个体差异性很大。因此通常最终获得的医学数据较为复杂，同一患者手术前后的相关症状、身体机能的各项指标，以及用药前后的指标变化情况都是需要研究，从而对于用药或者医疗手段提供重要参考。
3.然而，现有技术中，同一病症的相关医疗数据是非常大的。临床科研中对某一疾病的研究，基于病症的表现与最终确诊的疾病之间的相关性复杂性，需要进行大量的试验，以及数据的记录，当各个医疗机构的海量数据存在于数据库时，试验数据结果的如何匹配、如何精准地获取其他人的相关数据进行参照对比、相互之间的试验结论的认可度，例如，在试验中发现了新的组合物或者合成新的药物成分或者采用了新的治疗手段等等。这些内容如何有效地提供给科研工作者成为当前临床医学科研中亟需提高的问题。

技术实现要素：

4.针对上述现有技术中存在的缺陷，本发明提供一种基于大数据技术的临床科研辅助方法，包括以下步骤：
5.获取临床科研输入文本；
6.确认所述输入文本类型；
7.若所述输入文本类型为词语，则基于大数据技术采用第一辅助策略对所述输入文本进行处理；所述第一辅助策略包括统计数据库中与所述输入文本相关的统计数量；
8.若所述输入文本类型为语句，则基于大数据技术采用第二辅助策略对所述输入文本进行处理；所述第二辅助策略包括对所述输入文本进行分词处理，并基于所述分词处理的结果校正输入文本；
9.显示处理后所述输入文本的相关文本。
10.进一步地，其中若所述输入文本类型为词语，则基于大数据技术采用第一辅助策略对所述输入文本进行处理，包括：
11.将所述词语发送至本地服务器；
12.基于所述词语，所述本地服务器统计第一预存数据库中与所述词语相关的第一统计数量；
13.若所述第一统计数量大于第一预设阈值，则提供第一限制条件输入接口；
14.若所述第一统计数量小于第二预设阈值，则向其他分布式数据库发送统计请求，并将统计结果返回本地数据库。
15.进一步地，其中所述基于所述词语，所述本地服务器统计第一预存数据库中与所
述词语相关的第一统计数量，包括：
16.提取所述词语的词向量特征；
17.基于所述词向量特征，所述本地服务器统计第一预存数据库中与所述词语相关的第一统计数量。
18.进一步地，其中基于所述词语和所述第一限制条件，在所述第一预设数据库中统计与所述词语相关的记录，获得第二统计数量。
19.进一步地，其中当第二统计数量小于所述第一统计数量时，则向其他分布式数据库发送统计请求，并将统计结果返回本地数据库。
20.进一步地，其中所述若所述输入文本类型为语句，则基于大数据技术采用第二辅助策略对所述输入文本进行处理，包括：
21.本地终端对所述语句进行第一分词处理，获取所述语句中相应词语的位置特征；
22.将所述语句发送至服务器，所述服务器对所述语句进行第二分词处理；
23.基于所述第一分词处理和第二分词处理，对所述语句进行校正；
24.基于校正后的语句，由服务器对其进行第三分词处理；
25.基于第三分词处理结果，获取所有服务器的相关内容。
26.进一步地，所述第一分词处理，包括所述本地终端基于词库和分词装置对所述语句进行第一分词处理；所述第二分词处理，包括所述服务器使用基于数字的分词工具对所述语句进行第二分词处理。
27.进一步地，其中所述基于所述第一分词处理和第二分词处理，对所述语句进行校正，包括：
28.基于预设的匹配规则，将所述第一分词处理结果和第二分词处理结果进行合并更新，得到第一分词集合。
29.进一步地，所述基于校正后的语句，由服务器对其进行第三分词处理，包括：
30.使用训练好的神经网络模型对所述第一分词集合进行分词处理；
31.所述基于第三分词处理结果，获取所有服务器的相关内容，包括：
32.获取分布式服务器上所有与所述语句相关的文本，并使用随机森林模型对结果进行处理，以排序显示。
33.另一方面，本发明还提供一种基于大数据技术的临床科研辅助系统，所述基于大数据技术的临床科研辅助系统采用上述任一项所述的基于大数据技术的临床科研辅助方法，包括：
34.获取模块，用于获取临床科研输入文本；
35.确认模块，用于确认所述获取模块中输入文本类型；
36.处理模块，用于对所述输入文本进行处理；
37.显示模块，用于显示处理后所述输入文本的相关文本。
38.与现有技术相比，本发明确认输入文本类型，当输入文本是词语时，提取词语的词向量特征，根据词向量特征统计与输入文本词语相关的统计数量，并基于统计结果显示与输入文本词语相关的文本；当输入文本是语句时，对属于文本语句进行分词处理，并基于分词处理的结果进行校正，对校正后的语句再次进行分词处理，并将处理后的输入文本语句的相关文本排序显示。本发明通过对输入文本进行多级分类处理，能够有效降低文字处理
的复杂程度，同时通过分级分类处理，能够有效提高文本的查找准确性以及有效性，提高了处理效率。
附图说明
39.通过参考附图阅读下文的详细描述，本发明公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：
40.图1是示出根据本发明实施例的一种基于大数据技术的临床科研辅助方法流程图；
41.图2是示出根据本发明实施例的一种基于大数据技术的临床科研辅助系统的示意图。
具体实施方式
42.为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
43.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。
44.应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述
……
，但这些
……
不应限于这些术语。这些术语仅用来将
……
区分开。例如，在不脱离本发明实施例范围的情况下，第一
……
也可以被称为第二
……
，类似地，第二
……
也可以被称为第一
……
。
45.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
46.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
47.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
48.下面结合附图详细说明本发明的可选实施例。
49.如图1所示，本发明实施例公开了一种基于大数据技术的临床科研辅助方法，包括以下步骤：
50.获取临床科研输入文本；
51.确认所述输入文本类型；
52.若所述输入文本类型为词语，则基于大数据技术采用第一辅助策略对所述输入文本进行处理；所述第一辅助策略包括统计数据库中与所述输入文本相关的统计数量；
53.若所述输入文本类型为语句，则基于大数据技术采用第二辅助策略对所述输入文本进行处理；所述第二辅助策略包括对所述输入文本进行分词处理，并基于所述分词处理的结果校正输入文本；
54.显示处理后所述输入文本的相关文本。
55.在本发明实施例中，通过分别对不同的输入文本类型采用不同的辅助策略进行处理，有效降低文字处理的复杂程度，能够有效提高文本的查找准确性以及有效性，提高了处理效率。
56.作为本发明的优选实施例，其中若所述输入文本类型为词语，则基于大数据技术采用第一辅助策略对所述输入文本进行处理，包括：
57.将所述词语发送至本地服务器；
58.基于所述词语，提取所述词语的词向量特征；
59.基于所述词向量特征，所述本地服务器统计第一预存数据库中与所述词语相关的第一统计数量；
60.若所述第一统计数量大于第一预设阈值，则提供第一限制条件输入接口；
61.所述若所述第一统计数量小于第二预设阈值，则向其他分布式数据库发送统计请求，并将统计结果返回本地数据库。
62.在本发明实施例中，将词语发送至本地服务器，提取词语的词向量特征，本地服务器根据词向量特征统计第一预存数据库中与词语相关的第一统计量，本地服务器中有第一预设阈值和第二预设阈值，第一预设阈值大于第二预设阈值，当第一统计数量大于第一预设阈值，则提供第一限制条件输入接口；当第一统计数量小于第二预设阈值，则向其他分布式数据库发送统计请求，并将统计结果返回本地数据库。本发明实施例根据第一统计量排序显示与输入文本词语相关的文本信息，能够有效提高文本的查找准确性以及有效性，提高了处理效率。
63.作为本发明的优选实施例，其中基于所述词语和所述第一限制条件，在所述第一预设数据库中统计与所述词语相关的记录，获得第二统计数量，当第二统计数量小于所述第一统计数量时，则向其他分布式数据库发送统计请求，并将统计结果返回本地数据库。
64.在本发明实施例中，根据输入文本词语和第一限制条件，本地服务器在第一预设数据库中统计与词语相关的第二统计数量，当第二统计数量小于所述第一统计数量时，则向其他分布式数据库发送统计请求，并将统计结果返回本地数据库。本发明实施例第一统计量、第一限制条件以及第二统计量排序显示与输入文本词语相关的文本信息，能够有效提高文本的查找准确性以及有效性，提高了处理效率。
65.作为本发明的优选实施例，其中若所述输入文本类型为语句，则基于大数据技术采用第二辅助策略对所述输入文本进行处理，包括：
66.本地终端对所述语句进行第一分词处理，获取所述语句中相应词语的位置特征；
67.将所述语句发送至服务器，所述服务器对所述语句进行第二分词处理；
68.基于所述第一分词处理和第二分词处理，对所述语句进行校正；
69.基于校正后的语句，由服务器对其进行第三分词处理；
70.基于第三分词处理结果，获取所有服务器的相关内容。
71.进一步地，所述第一分词处理，包括所述本地终端基于词库和分词装置对所述语句进行第一分词处理；所述第二分词处理，包括所述服务器使用基于数字的分词工具对所述语句进行第二分词处理。
72.在本发明实施例中，当输入文本是语句时，本地终端基于现有的词库和分词装置对所述语句进行第一分词处理获取输入文本语句中相应词语的位置特征，其至少基于输入文本语句中的词语的位置特征进行第一分词处理，将输入文本语句发送至服务器，服务器使用基于数字的分词工具对所述语句进行第二分词处理。本发明实施例对输入文本进行多级分类处理，能够有效降低文字处理的复杂程度，同时通过分级分类处理，能够有效提高文本的查找准确性以及有效性，提高了处理效率。
73.作为本发明的优选实施例，其中所述基于所述第一分词处理和第二分词处理，对所述语句进行校正，包括：
74.基于预设的匹配规则，将所述第一分词处理结果和第二分词处理结果进行合并更新，得到第一分词集合。
75.在本发明实施例中，基于预设的匹配规则，将第一分词处理结果和第二分词处理结果进行合并更新，对输入文本语句进行校正，得到第一分词集合，能够有效提高文本的查找准确性以及有效性，提高了处理效率。
76.作为本发明的优选实施例，所述基于校正后的语句，由服务器对其进行第三分词处理，包括：
77.使用训练好的神经网络模型对所述第一分词集合进行分词处理；
78.所述基于第三分词处理结果，获取所有服务器的相关内容，包括：
79.获取分布式服务器上所有与所述语句相关的文本，并使用随机森林模型对结果进行处理，以排序显示。
80.所述随机森林模型由t个决策树组成，每个决策树之间是没有关联的。当所述语句中进行第三分词处理后得到第三分分词集合中的词语特征逐一输入时，由随机森林模型中的每个决策树进行判断，即判断该词语的分值。所述词语特征包括词频特征、信息熵特征等。针对不同的决策树赋予不同的权重值，基于决策树的权重值以及相应决策树的分值进行相乘累加，则得到该词语的最终的得分，最终实现对整个语句的得分，基于该得分进行排序显示。
81.随机森林模型具有较高的准确率，而且通过多个决策树能够有效地评估词语的特征在分类问题上的重要性。此外，对于词语特征不需要进行降维，也无需进行特征选择，使得效率更高。
82.在本发明实施例中，当输入文本类型是词语时，提取输入文本词语的词向量特征，基于词向量特征本地服务器统计第一预存数据库中与输入文本相关的第一统计量，当第一统计量大于第一预设阈值时，则提供第一限制条件输入接口，根据输入文本词语和第一限制条件，本地服务器在第一预设数据库中统计与词语相关的第二统计数量，当第二统计数量小于所述第一统计数量时，则向其他分布式数据库发送统计请求，并将统计结果返回本
地数据库；当第一统计数量小于第二预设阈值时，则向其他分布式数据库发送统计请求，并将统计结果返回本地数据库。
83.当输入文本类型是语句时，本地终端基于现有的词库和分词装置对输入文本语句进行第一分词处理，获取输入文本语句中相应词语的位置特征，将输入文本语句发送至服务器，服务器基于数字的分词工具对输入文本语句进行第二分词处理，基于预设的匹配规则，对第一分词处理的结果和第二分词处理的结果进行校正，服务器使用训练好的神经网络模型对校正后的输入文本语句进行第三分词处理，基于第三分词处理结果，获取分布式服务器上所有与输入文本语句相关的文本，并使用随机森林模型对结果进行处理，以排序显示处理后的结果。本发明通过对输入文本进行多级分类处理，能够有效降低文字处理的复杂程度，同时通过分级分类处理，能够有效提高文本的查找准确性以及有效性，提高了处理效率。
84.作为本发明的优选实施例，本发明还提供一种基于大数据技术的临床科研辅助系统，所述基于大数据技术的临床科研辅助系统采用上述任一项所述的基于大数据技术的临床科研辅助方法，包括：
85.获取模块，用于获取临床科研输入文本；
86.确认模块，用于确认所述获取模块中输入文本类型；
87.处理模块，用于对所述输入文本进行处理；
88.显示模块，用于显示处理后所述输入文本的相关文本。
89.本发明公开实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。
90.需要说明的是，本发明公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
91.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
92.可以以一种或多种程序设计语言或其组合来编写用于执行本发明公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、
smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(an)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
93.附图中的流程图和框图，图示了按照本发明公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
94.描述于本发明公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。
95.以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像生成模型的训练方法及图像生成方法

一种基于大数据技术的临床科研辅助方法与系统与流程

相关文献

最热文献