一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

病例数据推送方法、装置、计算机设备和存储介质与流程

2022-11-19 08:54:28 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别是涉及一种病例数据推送方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.在医疗领域,病例数据推送在科研、临床上具有重大意义,推送的相似病例数据不仅可以辅助医生基于历史相似病例数据对当前病例作出更好的诊断分析,提高诊断准确率,还可以通过历史相似病例数据的治疗方案制定出当前病例的治疗计划,缩短患者的治愈周期,提高治疗效率。
3.传统方式中,仅仅是从文本语义角度计算相似病例数据,计算相似病例数据的特征维度较为单一,导致病例数据推送准确性较低。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高病例数据推送准确性的病例数据推送方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种病例数据推送方法。该方法包括:
6.获取目标病例数据的病例知识图谱;
7.将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示;
8.将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示;
9.将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度;
10.根据相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。
11.在其中一个实施例中,获取目标病例数据的病例知识图谱包括:
12.获取目标病例数据;目标病例数据包括病例文本数据以及检测报告数据;
13.对病例文本数据以及检测报告数据进行标准化处理,得到标准病例数据;
14.根据标准病例数据以及预先构建的遗传知识图谱构建目标病例数据的病例知识图谱。
15.在其中一个实施例中,对病例文本数据以及检测报告数据进行标准化处理,得到标准病例数据包括:
16.通过实体识别模型识别病例文本数据以及检测报告数据中的病例实体;
17.通过实体对齐模型对识别到的病例实体进行实体对齐,得到标准病例数据。
18.在其中一个实施例中,根据标准病例数据以及预先构建的遗传知识图谱构建目标病例数据的病例知识图谱包括:
19.在标准病例数据中提取目标实体数据;
20.将目标实体数据与预先构建的遗传知识图谱进行融合,得到目标病例数据的病例知识图谱。
21.在其中一个实施例中,在获取目标病例数据的病例知识图谱之前,该方法还包括:
22.获取预先构建的遗传知识图谱;
23.在遗传知识图谱中提取病例三元组数据;
24.根据病例三元组数据训练实体链接预测模型,直至满足训练停止条件,得到预先训练的图谱知识表示模型。
25.在其中一个实施例中,在获取目标病例数据的病例知识图谱之前,该方法还包括:
26.获取遗传医学语料库;
27.通过遗传医学语料库对待训练的语言模型进行训练,直至满足训练停止条件,得到预先训练的语言表示模型。
28.第二方面,本技术还提供了一种病例数据推送装置。该装置包括:
29.图谱获取模块,用于获取目标病例数据的病例知识图谱;
30.特征提取模块,用于将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示;
31.特征拼接模块,用于将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示;
32.病例比对模块,用于将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度;
33.病例确定模块,用于根据相似度确定目标病例数据的相似病例数据;
34.病例数据推送模块,用于将相似病例数据进行推送。
35.第三方面,本技术还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
36.获取目标病例数据的病例知识图谱;
37.将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示;
38.将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示;
39.将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度;
40.根据相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。
41.第四方面,本技术还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
42.获取目标病例数据的病例知识图谱;
43.将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言
表示模型输出目标病例数据对应的文本语义表示;
44.将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示;
45.将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度;
46.根据相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。
47.第五方面,本技术还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
48.获取目标病例数据的病例知识图谱;
49.将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示;
50.将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示;
51.将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度;
52.根据相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。
53.上述病例数据推送方法、装置、计算机设备、存储介质和计算机程序产品,将目标病例数据的病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示,图谱知识表示为目标病例数据的结构特征,文本语义表示为目标病例数据的局部语义差异性特征。从而将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示,将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,进而根据比对的相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。通过融合目标病例数据的结构特征以及局部语义差异性特征,实现从结构特征角度以及语义特征角度计算病例间的相似度,能够更准确地表征病例间的相似程度,提高了相似病例数据推送的准确性。
附图说明
54.图1为一个实施例中病例数据推送方法的应用环境图;
55.图2为一个实施例中病例数据推送方法的流程示意图;
56.图3为一个实施例中获取目标病例数据的病例知识图谱步骤的流程示意图;
57.图4为一个实施例中训练图谱知识表示模型步骤的流程示意图;
58.图5为一个实施例中训练语言表示模型步骤的流程示意图;
59.图6为另一个实施例中病例数据推送方法的流程示意图;
60.图7为一个实施例中病例数据推送装置的结构框图;
61.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
62.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
63.本技术实施例提供的病例数据推送方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102发送病例数据推送请求至服务器104,服务器104对病例数据推送请求进行解析,得到病例数据推送请求携带的目标病例数据。服务器104获取目标病例数据的病例知识图谱,将病例知识图谱输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示,从而将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示,将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度,进而根据相似度确定目标病例数据的相似病例数据,将相似病例数据推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
64.在一个实施例中,如图2所示,提供了一种病例数据推送方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
65.步骤202,获取目标病例数据的病例知识图谱。
66.其中,病例数据是对患者的疾病的发生、发展、诊断以及治疗情况进行系统性记录的文件。目标病例数据是指需要检索相似病例数据的病例数据。知识图谱在图书情报界称为知识域可视化或知识领域映射地图,能够更方便地、清晰地、准确地搜索和查询信息。病例知识图谱是指用于表示目标病例数据对应的病例实体间关系的数据结构图。
67.具体地,服务器获取终端发送的病例数据推送请求,对病例数据推送请求进行解析,得到病例数据推送请求携带的目标病例数据。例如,目标病例数据可以是需要检索相似病例数据的遗传性聋病病例数据。目标病例数据中包括患者的病例文本数据以及检测报告数据,从而根据目标病例数据的病例文本数据以及检测报告数据构建目标病例数据的病例知识图谱,此时,服务器获取到目标病例数据的病例知识图谱。其中,病例文本数据可以包括患者的基本信息以及病情信息。例如,基本信息可以包括姓名、年龄、性别、发病年龄、所处地域等。病情信息可以包括主诉、现病史、既往史、个人史、家族史、临床症状、家系关系、诊断结果等。检测报告数据是指通过基因检测设备对患者进行基因检测所生成的报告数据。检测报告数据可以包括检测内容类型、检测范围、变异位点数据、变异致病性评级、文献注释等。例如,当目标病例数据为需要检索相似病例数据的遗传性聋病病例时,检测报告数据为基因检测报告数据,可以包括基因检测内容类型、基因检测范围、致病基因、变异位点数据、变异致病性评级、文献注释等。
68.步骤204,将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示。
69.其中,图谱知识表示是指病例知识图谱的结构特征向量。文本语义表示是指病例知识图谱的语义特征向量。
70.服务器中存储有图谱知识表示模型和语言表示模型,例如,图谱知识表示模型可以是kg-bert(knowledge graph bidirectional encoder representation from transformers,基于知识图谱的预训练语言模型)、gatne(general attributed multiplex heterogeneous network embedding,考虑属性的复用异构图嵌入)模型以及bert-ene(bidirectional encoder representation from transformers-entity name embedding,基于预训练语言模型的实体名称嵌入)模型中的任意一种。语言表示模型可以是基于bert(bidirectional encoder representation from transformers,预训练语言模型)的mlm模型(masked language model,掩码语言模型)。图谱知识表示模型是通过大量的病例三元组数据训练得到的。病例三元组数据是指病例的相关实体关系三元组,可以表示为(实体,关系,实体)。语言表示模型是通过医学语料库训练得到的。
71.具体地,服务器调用预先训练的图谱知识表示模型和语言表示模型,将病例知识图谱分别输入至图谱知识表示模型和语言表示模型中,通过图谱知识表示模型对病例知识图谱进行结构特征提取,得到目标病例数据对应的图谱知识表示。进一步地,结构特征提取可以是将病例知识图谱的实体或实体关系嵌入到连续的向量空间中,在保持病例知识图谱的知识图谱结构的同时得到一个低维稠密的向量化知识表示,即图谱知识表示。图谱知识表示可以包括多个病例知识图谱的实体类型,例如,患者基本信息特征(性别、发病年龄、所处地域、家族史、现病史等)、患者临床表型特征(耳朵、面部、头部、眼睛、鼻子、手臂、呼吸系统、骨骼系统等不同部位表型)、患者致病基因、患者致病变异信息(参考序列、碱基变化、氨基酸变化)、患者家系关系等。通过语言表示模型对病例知识图谱进行语义特征提取,得到目标病例数据对应的语义特征向量,即文本语义表示。
72.病例知识图谱对应的图谱知识表示虽然能够准确地学习到病例知识图谱的关系结构信息,但是仅依据病例知识图谱,无法准确表征一些特有相似信息中的细微差异性和局部相似的关键点。其中,特有相似信息可以包括检测报告数据中的致病基因实体和变异实体。例如,属于同一间隙蛋白家族的两个不同的基因名称gjb2(gap junction protein beta 2,间隙连接蛋白beta 2)和gjb3(gap junction protein beta 2,间隙连接蛋白beta 3)。再如,基因相同但是变异位点不同的病例,图谱知识表示均无法作出明显的区分。因此,服务器可以调用语言表示模型,通过语言表示模型输出目标病例数据对应的文本语义表示,实现从文本语义表示角度弥补图谱知识表示的局限性,并强化病例特有相似信息的差异性特征。
73.步骤206,将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示。
74.服务器将目标病例数据对应的图谱知识表示,与文本语义表示进行拼接,得到目标病例数据对应的融合有结构特征向量以及语义特征向量的病例知识表示。病例知识表示中可以包括多个病例特征,如患者临床表型特征、患者致病基因、患者致病变异信息、患者发病年龄、患者所处地域等。
75.步骤208,将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据对应的病例知识表示进行比对,得到相似度。
76.其中,目标病例数据对应的病例库是指与目标病例数据为同一疾病类型的病例数据所属的病例库。
77.目标病例数据对应的病例库中可以包括多个病例数据,病例库中还可以存储有各个病例数据数据对应的病例知识表示。病例库中各个病例数据数据的病例知识图谱可以存储在病例知识图谱库中,例如,病例知识图谱库可以是本地病例知识图谱库。各个病例数据数据对应的病例知识表示的计算方式与上述目标病例数据对应的病例知识表示的计算过程是相同的。具体地,服务器可以在病例知识图谱库中获取病例库中各个病例数据的病例知识图谱,将各个病例数据的病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出各个病例数据对应的图谱知识表示,以及通过语言表示模型输出各个病例数据对应的文本语义表示。从而将各个病例数据对应的图谱知识表示与文本语义表示进行拼接,得到各个病例数据对应的病例知识表示。
78.可选地,服务器也可以在计算目标病例数据对应的病例知识表示的同时,计算病例库中各个病例数据对应的病例知识表示。
79.服务器可以将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据对应的病例知识表示进行比对,从而得到目标病例数据与病例库中各个病例数据的相似度。相似度可以包括目标病例数据与病例库中各个病例数据在多个病例特征上的相似度分值。例如,病例特征可以包括患者临床表型特征、患者致病基因、患者致病变异信息、患者发病年龄、患者所处地域等。具体地,服务器可以采用余弦相似度方法计算目标病例数据与病例库中各个病例数据的相似度。
80.步骤210,根据相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。
81.由于目标病例数据与病例库中每个病例的相似度包括多个病例特征上的相似度分值,将相似度分值均大于相似度阈值的病例确定为目标病例数据的相似病例数据。目标病例数据的相似病例数据可以有多个,表示为相似病例数据1(v
特征1
,v
特征2
,

,v
特征n
),

,相似病例数据m(v
特征1
,v
特征2
,

,v
特征n
),其中,v
特征n
表示相似病例数据与目标病例数据在某一病例特征上的相似度。进而服务器将相似病例数据推送至终端。由于相似病例数据中包括与目标病例数据在多个病例特征上的相似度分值,医生可以通过登录终端获取相似病例数据更直观的可解释性描述信息,以提高相似病例数据的置信度,同时也让医生能更好地理解病例相似的判断依据。医生还可以基于相似病例数据对目标病例数据作出更好的诊断分析,提高诊断准确率,还可以通过相似病例数据的治疗方案制定出目标病例数据的治疗计划,缩短患者的治愈周期,提高治疗效率。也可以为目标病例数据的病例患者提供相似患者信息,增加对疾病和相关预防知识的了解。
82.上述病例数据推送方法中,将目标病例数据的病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示,图谱知识表示为目标病例数据的结构特征,文本语义表示为目标病例数据的局部语义差异性特征。从而将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示,将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,进而根据比对的相似度确定目标病例数据的相似病例数
据,将相似病例数据进行推送。通过融合目标病例数据的结构特征以及局部语义差异性特征,实现从结构特征角度以及语义特征角度计算病例间的相似度,能够更准确地表征病例间的相似程度,提高了相似病例数据推送的准确性。
83.在一个实施例中,如图3所示,步骤202,获取目标病例数据的病例知识图谱包括:
84.步骤302,获取目标病例数据;目标病例数据包括病例文本数据以及检测报告数据。
85.步骤304,对病例文本数据以及检测报告数据进行标准化处理,得到标准病例数据。
86.步骤306,根据标准病例数据以及预先构建的遗传知识图谱构建目标病例数据的病例知识图谱。
87.其中,目标病例数据是指需要检索相似病例数据的病例。病例文本数据是指原始病例数据。检测报告数据是指通过基因检测设备对患者进行基因检测所生成的报告数据。预先构建的遗传知识图谱是指人类的染色体图,用于显示所知的基因,和/或,遗传标记的相对位置。
88.目标病例数据中的病例文本数据可以包括患者的基本信息以及病情信息。例如,基本信息可以包括姓名、年龄、性别、发病年龄、所处地域等。病情信息可以包括主诉、现病史、既往史、个人史、家族史、临床症状、家系关系、诊断结果等。目标病例数据中的检测报告数据可以包括检测内容类型、检测范围、变异位点数据、变异致病性评级、文献注释等。例如,当目标病例数据为需要检索相似病例数据的遗传性聋病病例时,检测报告数据为基因检测报告数据,由于遗传性聋病的病源一般是源自于人类基因的碱基替换、缺失、重复等基因表达异常因素,所以遗传性聋病患者的目标病例数据通常会附带基因检测报告数据,基因检测报告数据包含了关于聋病患者的潜在致病发生机制信息,是医生对聋病患者进行诊治的一个重要参考依据。基因检测报告数据可以包括基因检测内容类型、基因检测范围、致病基因、变异位点数据、变异致病性评级、文献注释等。
89.由于不同医生的书写格式不同和病例来源多样,病例文本数据具有信息结构差异大特点,例如书写不规范、用词口语化等,难以直接用于病例知识图谱的构建。为了保证病例的一致性和规范性,需要对病例文本数据进行标准化处理,将病例文本数据中的病例实体标准化为统一的医疗用语。由于不同医疗机构的检测报告的检测标准不同,为了保证检测报告数据的一致性和规范性,需要对检测报告数据进行标准化处理,将检测报告数据中的病例实体标准化为统一的医疗用语。
90.服务器可以同时对病例文本数据以及检测报告数据进行标准化处理。具体地,服务器分别识别对病例文本数据以及检测报告数据中的病例实体。例如,病例文本数据中的病例实体可以包括临床症状、疾病、患者名称、性别、年龄等。检测报告数据中的病例实体可以包括变异位点、基因等。从而将识别到的病例实体进行实体对齐,实现将病例文本数据以及检测报告数据中的病例实体标准化为统一的医疗用语,得到标准病例数据。
91.在得到标准病例数据后,服务器可以在标准病例数据中提取用于构建病例知识图谱的实体数据,从而将提取的实体数据导入至预先构建的遗传知识图谱中,进而得到目标病例数据的病例知识图谱。
92.本实施例中,通过对目标病例数据中的病例文本数据以及检测报告数据进行标准
化处理,得到标准病例数据,根据标准病例数据以及预先构建的遗传知识图谱构建目标病例数据的病例知识图谱,能够提高病例的规范性,从而提高病例知识图谱的规范性和准确性。
93.在本实施例的一种可选方式中,步骤304,对病例文本数据以及检测报告数据进行标准化处理,得到标准病例数据包括:通过实体识别模型识别病例文本数据以及检测报告数据中的病例实体;通过实体对齐模型对识别到的病例实体进行实体对齐,得到标准病例数据。
94.其中,实体对齐是指判断两个或多个不同信息来源的实体是否为指向真实世界中的同一个对象,如果多个不同实体表征同一个对象,则对这些实体进行融合和聚集。
95.服务器中预先存储有实体识别模型和实体对齐模型。实体对齐模型是通过将疾病、基因、临床症状等大量的实体数据训练得到的。实体识别模型和实体对齐模型可以是现有的模型。例如,实体识别模型可以是预训练语言模型,实体对齐模型可以是图神经网络(graph neural networks,简称gnn)。
96.服务器调用实体识别模型,将病例文本数据以及检测报告数据分别输入至实体识别模型中,识别出病例文本数据以及检测报告数据中的病例实体。之后,调用实体对齐模型,将识别出的病例实体输入至实体对齐模型中,通过实体对齐模型将病例文本数据以及检测报告数据中的病例实体进行对齐,实现将同一对象所对应的多个病例实体融合为一个病例实体,进而得到标准病例数据。例如,同一个病例对应的临床症状描述中一个为轻微听力损失,一个为轻度听力障碍,这时就需要将这两个临床症状实体融合为统一的轻度听力损失。
97.进一步地,在通过实体识别模型识别病例文本数据以及检测报告数据中的病例实体之前,服务器需要在目标病例数据中抽取病例文本数据。具体地,将目标病例数据中带有标题的文本段按照结构化的标准格式进行抽取,然后在医疗标题字典库中获取已抽取的文本段对应的病例基本数据结构,将已抽取的文本段按照对应的病例基本数据结构进行排列,得到标准结构化文本格式的病例文本数据。其中,医疗标题字典库中存储有多家医疗机构的病例基本数据结构。进而通过实体识别模型识别标准结构化文本格式的病例文本数据中的病例实体。
98.可选地,检测报告数据可以是文本数据,也可以是以表格样式呈现的数据。当检测报告数据是文本数据时,可以直接将检测报告数据输入至实体识别模型中,进行实体识别。当检测报告数据是以表格样式呈现的数据时,在数据提取时需保证数据相对位置结构,以确保数据提取后的逻辑完整性。因此可以对检测报告数据进行字符识别,得到报告文本数据。例如,可以通过ocr(optional character recognition,光学字符识别)文本检测方法从检测报告数据中提取丰富的病例患者信息,如检测内容类型、检测范围、发生变异的区间位置、变异致病性评级、文献注释等信息。进而通过实体识别模型识别报告文本数据中的病例实体。
99.在本实施例中,通过实体识别模型识别病例文本数据以及检测报告数据中的病例实体,通过实体对齐模型对识别到的病例实体进行实体对齐,得到标准病例数据。能够进一步提高病例的规范性。
100.在本实施例的一种可选方式中,步骤306,根据标准病例数据以及预先构建的遗传
知识图谱构建目标病例数据的病例知识图谱包括:在标准病例数据中提取目标实体数据;将目标实体数据与预先构建的遗传知识图谱进行融合,得到目标病例数据的病例知识图谱。
101.其中,目标实体数据是指用于构建病例知识图谱的相关实体数据。
102.服务器可以根据预先定义的病例知识图谱本体框架规范,在标准病例数据中提取目标实体数据。目标实体数据可以包括病例实体、实体属性和实体间关系,并将目标实体数据与预先构建的遗传知识图谱进行融合,得到目标病例数据的病例知识图谱。病例知识图谱本体框架规范是指病例实体类型、实体属性类型、实体间语义关系的定义规范。病例知识图谱本体框架规范可以包括图谱中实体类型的定义种类,如实体定义可包括疾病、患者、临床表型、突变位点、基因、病历、病历检查项等,不同实体之间语义关系的定义规范,如实体间的语义关系定义可包括属于、是一种、导致、遗传自等。
103.进一步地,在将目标实体数据与预先构建的遗传知识图谱进行融合之前,还可以对提取的目标实体数据进行统计分析,检验是否存在异常数据。若存在异常数据,则删除异常数据。
104.在本实施例中,通过在标准病例数据中提取目标实体数据,将目标实体数据与预先构建的遗传知识图谱进行融合,得到目标病例数据的病例知识图谱。有效地保存了病例原有的文本知识结构,提高了病例知识图谱的准确性。
105.在一个实施例中,如图4所示,在获取目标病例数据的病例知识图谱之前,该方法还包括:训练图谱知识表示模型的步骤,该步骤可以包括以下步骤:
106.步骤402,获取预先构建的遗传知识图谱。
107.步骤404,在遗传知识图谱中提取病例三元组数据。
108.步骤406,根据病例三元组数据训练实体链接预测模型,直至满足训练停止条件,得到预先训练的图谱知识表示模型。
109.服务器在获取目标病例数据的病例知识图谱之前,还包括训练图谱知识表示模型的步骤。具体地,在预先构建的遗传知识图谱中提取病例三元组数据,病例三元组数据可以表示为(实体,关系,实体)。将病例三元组数据进行序列化编码,得到头实体向量、关系向量以及尾实体向量。将头实体向量、关系向量以及尾实体向量输入至实体链接预测模型中,进行迭代训练,直至满足训练停止条件,将此时的实体链接预测模型作为预先训练的图谱知识表示模型。例如,训练停止条件可以是模型损失值不再下降或者到达预设迭代次数。预先训练的图谱知识表示模型为能准确预测实体间关系的实体链接预测模型。例如,实体间关系可以是头实体向量加上关系向量近似等于尾实体向量。
110.进一步地,还可以从遗传知识图谱中随机抽取预设数量的病例知识图谱对预先训练的图谱知识表示模型进行模型验证和优化。
111.可选地,在需要提取图谱知识表示时,可以在目标病例数据的病例知识图谱中提取病例三元组,将病例三元组输入至预先训练的图谱知识表示模型中,得到目标病例数据对应的图谱知识表示。
112.在本实施例中,通过在预先构建的遗传知识图谱中提取病例三元组数据,根据病例三元组数据训练实体链接预测模型,直至满足训练停止条件,得到预先训练的图谱知识表示模型。能够在样本数据较少,且病例数据结构较复杂的情况下,训练得到能够准确提取
图谱知识表示的图谱知识表示模型。
113.在一个实施例中,如图5所示,在获取目标病例数据的病例知识图谱之前,该方法还包括:训练语言表示模型的步骤,该步骤包括以下步骤:
114.步骤502,获取遗传医学语料库。
115.步骤504,通过遗传医学语料库对待训练的语言模型进行训练,直至满足训练停止条件,得到预先训练的语言表示模型。
116.其中,遗传医学语料库是指遗传医学领域的医疗用语数据库。
117.具体地,服务器可以根据遗传学相关数据构建遗传医学语料库,其中,遗传学相关数据可以包括与遗传学相关的变异位点、基因、氨基酸、变异参考序列、疾病、表型等相关数据。从而根据遗传医学语料库对待训练的语言模型进行训练。例如,待训练的语言模型可以是基于bert(bidirectional encoder representation from transformers,预训练语言模型)的mlm模型(masked language model,掩码语言模型)。当满足训练停止条件时,得到遗传医学领域的预训练语言表示模型,即预先训练的语言表示模型。例如,训练停止条件可以是模型损失值不再下降或者到达预设迭代次数。
118.进一步地,为了获取病例检测报告数据、临床表型等文本数据中更具有区分度的语义数据,还可以在根据遗传医学语料库对待训练的语言模型进行训练的同时,对遗传医学语料库进行语料标注,得到文本相似二分类语料,从而根据文本相似二分类语料对待训练的语言模型进行微调,采用siamese network(孪生网络)更新模型参数,进而得到预先训练的语言表示模型。文本相似二分类语料中包括临床表型、基因数据、变异数据、疾病等文本数据的相似二分类语料。例如,临床表型的二分类语料可以包括每个临床表型对应的相似同义数据集合,基因数据的二分类语料可以包括每个基因的别名、曾用名、缩写、全称,变异数据的二分类语料可以包括变异的多种写法,疾病可以包括各个遗传病的别名和相似名称。
119.在本实施例中,获取遗传医学语料库,通过遗传医学语料库对待训练的语言模型进行训练,直至满足训练停止条件,得到预先训练的语言表示模型。能够得到准确提取病例对应的文本语义表示的语言表示模型。
120.在一个实施例中,上述训练图谱知识表示模型的步骤和训练语言表示模型的步骤之间的顺序不作限定。可以是同时进行的,也可以是先训练图谱知识表示模型,再训练语言表示模型。还可以是先训练语言表示模型,再训练图谱知识表示模型。
121.在另一个实施例中,如图6所示,提供了一种病例数据推送方法,该方法包括以下步骤:
122.步骤602,获取预先构建的遗传知识图谱。
123.步骤604,在遗传知识图谱中提取病例三元组数据。
124.步骤606,根据病例三元组数据训练实体链接预测模型,直至满足训练停止条件,得到预先训练的图谱知识表示模型。
125.步骤608,获取遗传医学语料库。
126.步骤610,通过遗传医学语料库对待训练的语言模型进行训练,直至满足训练停止条件,得到预先训练的语言表示模型。
127.步骤612,获取目标病例数据;目标病例数据包括病例文本数据以及检测报告数
据。
128.步骤614,通过实体识别模型识别病例文本数据以及检测报告数据中的病例实体。
129.步骤616,通过实体对齐模型对识别到的病例实体进行实体对齐,得到标准病例数据。
130.步骤618,在标准病例数据中提取目标实体数据。
131.步骤620,将目标实体数据与预先构建的遗传知识图谱进行融合,得到目标病例数据的病例知识图谱。
132.步骤622,将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示。
133.步骤624,将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示。
134.步骤626,将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度。
135.步骤628,根据相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。
136.在本实施例中,通过在预先构建的遗传知识图谱中提取病例三元组数据,根据病例三元组数据训练实体链接预测模型,直至满足训练停止条件,得到预先训练的图谱知识表示模型。能够在样本数据较少,且病例数据结构较复杂的情况下,训练得到能够准确提取图谱知识表示的图谱知识表示模型。获取遗传医学语料库,通过遗传医学语料库对待训练的语言模型进行训练,以得到预先训练的语言表示模型。能够得到准确提取病例对应的文本语义表示的语言表示模型。
137.通过对目标病例数据中的病例文本数据以及检测报告数据进行标准化处理,得到标准病例数据,根据标准病例数据以及预先构建的遗传知识图谱构建目标病例数据的病例知识图谱,能够提高病例的规范性,从而提高病例知识图谱的规范性和准确性。
138.将目标病例数据的病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示,图谱知识表示为目标病例数据的结构特征,文本语义表示为目标病例数据的局部语义差异性特征。从而将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示,将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,进而根据比对的相似度确定目标病例数据的相似病例数据,将相似病例数据进行推送。通过融合目标病例数据的结构特征以及局部语义差异性特征,实现从结构特征角度以及语义特征角度计算病例间的相似度,能够更准确地表征病例间的相似程度,提高了相似病例数据推送的准确性。
139.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个
阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
140.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的病例数据推送方法的病例数据推送装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个病例数据推送装置实施例中的具体限定可以参见上文中对于病例数据推送方法的限定,在此不再赘述。
141.在一个实施例中,如图7所示,提供了一种病例数据推送装置,包括:图谱获取模块702、特征提取模块704、特征拼接模块706、病例比对模块708、病例确定模块710和病例数据推送模块712,其中:
142.图谱获取模块702,用于获取目标病例数据的病例知识图谱。
143.特征提取模块704,用于将病例知识图谱分别输入至预先训练的图谱知识表示模型和预先训练的语言表示模型中,通过图谱知识表示模型输出目标病例数据对应的图谱知识表示,以及通过语言表示模型输出目标病例数据对应的文本语义表示。
144.特征拼接模块706,用于将图谱知识表示与文本语义表示进行拼接,得到目标病例数据对应的病例知识表示。
145.病例比对模块708,用于将目标病例数据对应的病例知识表示与目标病例数据对应的病例库中各个病例数据的病例知识表示进行比对,得到相似度。
146.病例确定模块710,用于根据相似度确定目标病例数据的相似病例数据。
147.病例数据推送模块712,用于将相似病例数据进行推送。
148.在一个实施例中,图谱获取模块702还包括:
149.病例获取模块,用于获取目标病例数据;目标病例数据包括病例文本数据以及检测报告数据;
150.数据标准化模块,用于对病例文本数据以及检测报告数据进行标准化处理,得到标准病例数据;
151.图谱构建模块,用于根据标准病例数据以及预先构建的遗传知识图谱构建目标病例数据的病例知识图谱。
152.在一个实施例中,数据标准化模块还用于通过实体识别模型识别病例文本数据以及检测报告数据中的病例实体;通过实体对齐模型对识别到的病例实体进行实体对齐,得到标准病例数据。
153.在一个实施例中,图谱构建模块还用于在标准病例数据中提取目标实体数据;将目标实体数据与预先构建的遗传知识图谱进行融合,得到目标病例数据的病例知识图谱。
154.在一个实施例中,上述装置还包括:第一模型训练模块,用于获取预先构建的遗传知识图谱;在遗传知识图谱中提取病例三元组数据;根据病例三元组数据训练实体链接预测模型,直至满足训练停止条件,得到预先训练的图谱知识表示模型。
155.在一个实施例中,上述装置还包括:第二模型训练模块,用于获取遗传医学语料库;通过遗传医学语料库对待训练的语言模型进行训练,直至满足训练停止条件,得到预先训练的语言表示模型。
156.上述病例数据推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实
现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
157.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。其中,数据库是指病例库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标病例数据、病例知识表示等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种病例数据推送方法。
158.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
159.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
160.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
161.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
162.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
163.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、病例库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的病例库可包括关系型病例库和非关系型病例库中至少一种。非关系型病例库可包括基于区块链的分布式病例库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形
处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
164.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
165.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献