一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质与流程

2021-10-19 23:56:00 来源:中国专利 TAG:融合 特征 方法 病历 数据处理


1.本发明属于医疗领域的数据处理技术,具体涉及一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质。


背景技术:

2.根据世界卫生组织的统计,全球每年有超过4100万的人死于像心血管疾病、糖尿病、呼吸系统疾病等慢性病。在这其中,心血管疾病是主要的致死疾病。这严重影响了人们的健康,并且给社会和经济带来了极其沉重的负担。因此,预测心血管疾病的发病对该病的早期预防和控制具有重要意义。
3.随着医院信息化水平的不断提高,医疗机构都积累了大量的电子病历(electronic health record,ehr)数据,其中包含了极其丰富的患者信息,包括诊断、化验、检查、用药、人口学信息和临床笔记等临床信息。基于电子病历数据,每个病人都可以表示为一个时间序列的医院就诊记录,每次就诊都包含一组异构的临床变量。由于ehr数据的全面性和易用性,它被广泛应用于医学预测的相关研究中,包括特定疾病的风险预测、未来的诊断、再入院预测、死亡率预测等。
4.对于ehr记录,异构性是其显著特征之一,如何有效地整合不同类型的电子病历数据以获得全面的患者表征是ehr预测建模的关键挑战。由于深度学习方法自身良好的自动特征学习能力,避免了传统特征工程对于大量人工的依赖,近年来已经得到了广泛的应用并取得了一定的成功。学者们提出了一系列基于深度神经网络的预测方法,试图通过深度学习方法强大的自动特征学习能力,从异类ehr数据中获取相关疾病发展模式,并且也取得了很好的效果。作为深度神经网络的典型代表,卷积神经网络(cnns)和循环神经网络(rnns)是最常用的模型。对于这两种神经网络,虽然cnn能有效地保留序列数据的邻域关系和局部特征,但由于其丢失了部分和整体之间的相关性,在时态数据挖掘中受到限制。而且现有的基于cnn的方法大多假设医院就诊过程中的医疗事件是严格按时间顺序记录的,而实际上通常不是这样。这进一步限制了这些方法的整体性能。
5.与cnn相比,rnn具有更好的时序建模能力,广泛应用于机器翻译、时间序列预测、语音识别、自然语言处理等领域。为了从序列数据中获取更丰富的上下文信息,使结果更易于理解,现有的方法通常在基于ehrs的时序学习模型中同时应用注意力机制,也取得了相当的成功。注意力机制不仅能有效地提升预测性能,同时也为模型提供了一定的可解释性。异构性是ehr数据的固有特性,患者的每次就诊记录通常包含各种类型的医疗事件信息。如何充分挖掘隐藏在不同类型的ehr序列数据中的独特时序模式,进而形成全面的患者表示,也是基于ehr数据的深度学习模型面临的挑战之一。近年来,一些学者也提出了一些改进的方法来整合多种类型的医学数据。比如将不同类型的原始数据作为一个整体来处理在这些方法中,或者为不同类型的数据建立独立的模块以最大程度地保留其自身的特征。这些方法虽然考虑了不同类型医学数据的差异,但异类数据之间的相互联系还没有得到充分的挖
掘。而且大多数方法都是通过简单地将不同类型数据的相关特征向量串联起来,从而构造最终的患者表示,无法真正实现多方面医学特征的有效融合。


技术实现要素:

6.本发明考虑了不同类型医学数据之间的差异,提供一种全新的多类型数据融合表示学习模型,该模型综合了不同类型医学数据各自的时序和非时序特征及其之间的相互关系,以获得更准确的患者表示。
7.一方面,本发明提供的一种电子病历中异构数据特征融合方法,包括如下步骤:
8.步骤1:将患者的电子病历数据进行处理构成患者的就诊向量;
9.其中,将患者的电子病历数据按照数据类型划分序列并按照就诊时间排列,再依据预设的医疗事件唯一编码集合对每一类数据所在序列进行事件编码得到每一类数据对应的就诊向量;
10.步骤2:将每类数据的就诊向量作为原始输入数据,分别利用bi_lstm模型和cnn模型提取时序特征和非时序特征;
11.步骤3:分别综合每类数据的时序特征和非时序特征得到综合特征;
12.步骤4:利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征,其中,所有类数据的最终特征构成所述患者的电子病历数据的特征表示。
13.可选地,所述每类数据的就诊向量作为原始输入数据,输入所述bi_lstm模型之前,还包括对所述原始输入数据进行调整,调整后再输入所述bi_lstm模型;
14.其中,设定时间衰减因子捕获时间间隔和患者年龄的影响,并基于所述时间衰减因子调整输入数据,再输入所述bi_lstm模型;
15.所述时间衰减因子如下:
[0016][0017]
式中,τ(δt
i
,a
i
)为时间衰减因子,a
i
是就诊向量中第i次就诊r
i
发生时患者的年龄,δt
i
表示就诊向量中第i次就诊r
i
和需要预测的就诊之间的时间间隔;λ是用于调整时间衰减强度的标量参数,e为自然底数;
[0018]
基于所述时间衰减因子调整输入数据时,调整后的数据表示为:
[0019][0020]
其中,r
i
为调整前第i次就诊r
i
对应的表示向量,调整后第i次就诊r
i
对应的表示向量,表示按元素相乘。
[0021]
在一些实现方式中,r
i
直接为就诊向量中第i次就诊r
i
对应的数据构成的表示向量或者是根据实际需求对就诊向量中第i次就诊r
i
对应的数据进行其他数据处理后的表示向量;再另一些实施例中,考虑到初始就诊向量是高维离散的稀疏向量,为了获得更加有效的表示,利用一个全连接层将初始数据嵌入到低维度的连续空间内,形成嵌入向量语义表示,对应是结合时间衰减因子后的表示向量,具体请参照下文描述。
[0022]
可选地,利用所述bi_lstm模型提取时序特征的过程如下:
[0023]
a:将输入数据输入bi_lstm模型得到由前向和后向隐藏状态序列构成的隐藏状态
序列;
[0024]
b:利用基于位置的注意力机制以及softmax函数计算权重分数,并进行加权求和得到融合表示;
[0025][0026][0027][0028]
式中,是参数矩阵,表示实数集,是偏置参数,t

为矩阵的转置符号,n为参数维度,α
i
为第i次就诊对应的影响因子,h
i
为步骤a中得到的隐藏状态序列中第i次就诊对应的数据,为第i次就诊对应的权重,t表示患者的电子病历数据中的就诊总次数,c
t
为输入bi_lstm模型的一类数据对应的融合表示;
[0029]
c:按照如下公式计算基于注意力的隐藏状态向量:
[0030][0031]
为基于注意力计算的隐藏状态向量,w
c
为参数矩阵,h
t
为bi_lstm的最后一个输出向量,tanh为双曲正切函数。可选地,利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征的过程如下:
[0032]
步骤41:将每一类数据的综合特征按照如下公式分别映射得到三个向量;
[0033][0034][0035][0036]
式中,是参数矩阵,表示实数集,u为向量的维度,q
i
、k
i
和υ
i
为将第i类数据的综合特征进行映射得到的三个向量,为第i类数据的综合特征;
[0037]
步骤42:利用softmax函数计算权重分数;
[0038][0039]
式中,β
i1
,β
i2
,β
im
分别表示针对第i类数据与第1类、第2类、第m类数据之间对应的权重分数,m表示数据的类型数,为缩放因子,用来避免点积的结果过大,本文中设置为d
k
=u;
[0040]
步骤43:基于权重分数按照如下公式分别计算出每一类数据的最终特征;
[0041][0042]
其中,s
i
为第i类数据的最终特征。
[0043]
本发明利用自关注机制将每一类数据的表示向量进行融合,通过自关注机制计算每一类数据的表示向量和其他类数据的表示向量之间的相关性分数,然后利用相关性分数和基于每一类数据生成的关键向量生成新的融合向量。这一过程考虑了各类数据之间的联系,从而更加有效地实现了异类数据的融合表示。
[0044]
二方面,本发明提供一种基于电子病历中异构数据融合特征的预测方法,包括如下步骤:
[0045]
步骤s1:采集患者的电子病历数据,并按照前述步骤1

步骤4的过程处理得到患者的电子病历数据的特征表示;
[0046]
其中,依据预测目标选择患者样本;
[0047]
步骤s2:构建预测模型,所述预测模型的输入数据为患者的电子病历数据的特征表示,输出数据为患者对应的预测目标的预测结果;
[0048]
其中,将步骤s1中患者样本的电子病历数据的特征表示以及患者样本中预测目标对应的已知结果训练所述预测模型,训练过程调节所述预测模型和/或步骤1

步骤4中患者的电子病历数据的特征表示生成过程的模型参数。
[0049]
可选地,所述预测模型表示如下:
[0050][0051]
其中,为预测目标的结果,是参数矩阵,表示实数集,u为向量s的维度,b
y
是偏置参数,s1;s2;....s
m
为患者的电子病历数据中第1类,第2类,以及第m类数据对应的最终特征;
[0052]
若所述预测目标为心血管疾病风险,所述预测目标的预测结果为1,表示存在心血管疾病风险;所述预测目标的预测结果为0,表示不存在心血管疾病风险。
[0053]
第三方面,本发明提供一种系统,包括:
[0054]
就诊向量生成模块,用于将患者的电子病历数据进行处理构成患者的就诊向量;
[0055]
时序特征提取模块,用于将每类数据的就诊向量作为原始输入数据,并利用bi_lstm模型提取时序特征;
[0056]
非时序特征提取模块,用于将每类数据的就诊向量作为原始输入数据,并利用cnn模型提取非时序特征;
[0057]
综合特征生成模块,用于分别综合每类数据的时序特征和非时序特征得到综合特征;
[0058]
最终特征表示模块,用于利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征,其中,所有类数据的最终特征构成所述患者的电子病历数据的特征表示。
[0059]
可选地,该系统还包括:
[0060]
预测模型构建模块,用于构建预测模型,并利用患者样本的数据训练模型;
[0061]
预测模块,用于利用预测模型进行预测。
[0062]
第四方面,本发明提供一种系统,包括处理器和存储器,所述存储器存储了计算机程序,所述处理器调用所述计算机程序以执行:
[0063]
一种电子病历中异构数据特征融合方法的步骤以及一种基于电子病历中异构数据融合特征的预测方法的步骤。
[0064]
第五方面,本发明提供一种可读存储介质,存储了计算机程序,所述计算机程序被处理器调用以执行:
[0065]
一种电子病历中异构数据特征融合方法的步骤以及一种基于电子病历中异构数据融合特征的预测方法的步骤。
[0066]
有益效果
[0067]
1.本发明提供的特征融合方法以及预测方法,其构建了一个特征融合的模型,设定了bi_lstm

cnn结构,其中,对于每一个bi_lstm

cnn结构中的两个分支,即学习了ehr序列数据中的时序特征,也捕获了蕴含在其中的非时序特征,再建立了一个基于自关注机制的融合表示模块,在保留每类数据的自身特征的同时,进一步挖掘了它们之间的相互作用信息,更加准确的表达了患者的特征,进而最终为后续预测奠定了基础。
[0068]
2.本发明进一步的优选方案中,在综合考虑患者年龄和不规则就诊时间间隔对疾病发展影响的基础上,利用时间衰减因子模拟其影响,最终体现在提取的时序特征,使得本发明得到的融合特征更具代表性。
[0069]
3.本发明高效实用,易于实施,实验结果表明该发明能够有效地提高心血管疾病风险预测的准确性。
附图说明
[0070]
图1为本发明实施例3提供的预测方法的框架流程示意图;
[0071]
图2为本发明提供的bi_lstm

cnn模块示意图。
具体实施方式
[0072]
本发明提供了一种电子病历中异构数据特征融合方法,用于解决her数据异构的问题,以获得更加准备的患者表示特征,以便后续利用患者的表示特征进行预测等应用。下面将结合实施例对本发明做进一步的说明。
[0073]
实施例1:
[0074]
本实施例1提供的一种电子病历中异构数据特征融合方法,其综合了不同类型医学数据各自的时序和非时序特征及其之间的相互关系,具体包括如下步骤:
[0075]
步骤1:将患者的电子病历数据进行处理构成患者的就诊向量。具体为:
[0076]
1)整理ehr数据中医疗事件唯一编码集合c={c1,c2,

,c
|c|
},其中|c|表示数据集合中医疗事件唯一编码的总个数,每一维的元素c
i
表示一个特定的医疗事件编码。即应当理解,为了将患者的就诊信息转换为神经网络可以处理的数据,将数据库中医疗事件赋予唯一编码,其中,医疗事件包括:诊断、药物、检查、检验等。
[0077]
2)将患者的ehr数据按照数据类型划分序列并按照就诊时间排列。每一个患者p
l
的就诊信息表示为:其中t是患者p
l
的就诊次数。病人p
l
每一次就诊包含一个由多个医疗事件编码组成的集合,每一个编码可能代表一次就诊、一种药物或者一次检查检验;
[0078]
因此,按照数据类型划分序列时,一类数据对应的序列r=<r1,r2,

,r
t
>理解为:由患者每一次就诊信息中的该同一类数据构成的序列。
[0079]
3)将序列数据转为模型可以接受的数据形式,即,对于每一类数据的序列r=<r1,r2,

,r
t
>,把每一次就诊记录r
i
表示为一个二元向量x
i
∈{0,1}
|c|
,每一个维度的元素x
i
表示对应的医疗事件编码,进而每一类数据的向量序列表示为:x=<x1,x2,

,x
t
>。
[0080]
步骤2:将每类数据的就诊向量作为原始输入数据,分别利用bi_lstm模型和cnn模型提取时序特征和非时序特征。
[0081]
针对时序特征:
[0082]
本实施例中,对于每一类数据,均利用所述bi_lstm模型提取时序特征的过程如下:
[0083]
1):将输入数据输入bi_lstm模型得到由前向和后向隐藏状态序列构成的隐藏状态序列;
[0084]
其中,bi_lstm计算得到一个前向隐藏状态序列和一个后向隐藏状态序列然后将和对应的组合生成新的h
i

[0085][0086]
本实施例中,输入至bi_lstm模型的向量序列为对于一类数据的就诊向量x=<x1,x2,

,x
t
>,其他可行的实施例中,本发明对就诊向量进行调整,调整后再注入bi_lstm模型。
[0087]
b:利用基于位置的注意力机制以及softmax函数计算权重分数,并进行加权求和得到融合表示;
[0088][0089][0090][0091]
式中,是参数矩阵,是偏置参数,α
i
为第i次就诊对应的影响因子,h
i
为步骤a中得到的隐藏状态序列中第i次就诊对应的数据,为第i次就诊对应的权重,t表示患者的电子病历数据中的就诊总次数,c
t
为输入bi_lstm模型的一类数据对应的融合表示;
[0092]
c:按照如下公式计算基于注意力的隐藏状态向量:
[0093][0094]
为基于注意力计算的隐藏状态向量,h
t
为bi_lstm的最后一个输出向量。
[0095]
针对非时序特征,本实施例中构建一个1d

cnn网络层来捕获非时序的全局特征。具体地,来自输入层的输入向量序列x=<x1,x2,

,x
t
>也将被用作cnn的输入,然后可以学习获得整个患者就诊序列的非时态特征表示z
t

[0096]
z
t
=1d

cnn(x1,x2,

,x
t
)
[0097]
其中,
[0098]
步骤3:分别综合每类数据的时序特征和非时序特征得到综合特征。
[0099]
其中,将通过bi_lstm分支和cnn分支学习获得的时序特征向量和非时序特征向量z
t
结合起来,得到特定类型数据的综合表示g
t

[0100][0101]
其中,其中,表示按元素求和操作。
[0102]
步骤4:利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征,其中,所有类数据的最终特征构成所述患者的电子病历数据的特征表示。
[0103]
1)本实施例中以四类数据为例,即诊断,用药,试验以及检查。相应的综合表示1)本实施例中以四类数据为例,即诊断,用药,试验以及检查。相应的综合表示和然后利用自关注制进一步挖掘不同类型数据之间的联系。每个表示向量将被映射到三个不同的向量中,包括q
i
、k
i
和υ
i
。每一类数据都会首先映射生成这三个向量:
[0104][0105][0106][0107]
其中,是参数矩阵。每一个g
t
的这三个向量都会与所有g
t
得到的向量进行计算,进而得到每一类数据与其他类数据之间的相互作用和联系,利用softmax函数将这种信息映射到权重分数上,计算过程如下:
[0108][0109]
2)步骤1)计算出了每一个g
t
与其他所有的综合表示之间的权重分数,然后通过下式计算新的上下文向量:
[0110][0111]
3)将来自不同类型数据的融合向量连接在一起,作为最终的患者表示。如本实施例中,s1;s2;s3;s4为患者的特征表示。
[0112]
需要说明的时,得到患者的特征表示后,可以应用于疾病风险预测或者就诊预测等,应当理解,利用患者的病历信息进行的相关应用均可以使用本实施例1得到的特征表示。其中,上述步骤1到步骤4的实现过程中,各个步骤中涉及的参数的取值范围或大小,一方面,是可以依据经验值来确定,另一方面,也可以根据历史数据进行模型的验证以调整参数的取值大小,进而得到准确的模型。
[0113]
实施例2
[0114]
本实施例考虑到连续的患者就诊序列中的时间间隔不规则性是ehr的另一个重要特征。传统的时序建模方法往往忽略了这一特征,或简单地假设患者就诊记录的间隔时间是完全均匀的。然而,实际上患者的就诊可能在任何时候发生,相邻两次就诊之间的间隔时间往往是不规则的,可能从数天到数个月不等。就诊时间间隔的不规律性隐含了与患者健康状态变化模式的重要信息。比如,一段时间内频繁的就诊一定程度上反映了该患者这段时间病情不稳、健康状态不佳;新近发生的就诊事件对于患者当前和未来健康状态发展通常比很久以前发生的就诊事件具有更大的影响,等等。这些信息对于捕捉患者潜在的疾病发展模式,预测患者未来的健康状况具有非常重要的参考价值。因此,最近的一些研究对传统的rnn模型提出了一些改进,试图通过在建模过程中考虑就诊时间间隔的影响来解决不规则时序建模的问题。然而,这些方法通常都忽略了患者年龄对于病程发展的影响。事实上,许多疾病在不同的年龄阶段通常有不同的时间进展模式和发病几率。比如心脑血管疾病随着患者年龄的增长其发病几率显著增加。据报道,在美国,20岁至40岁的人中有11%患有心血管疾病,40岁至60岁的人中有37%,60岁至80岁的人中有71%,80岁以上的人中有85%患有心血管疾病。因此综合考虑患者的年龄和就诊间隔,也是进一步提高时序数据预测准确性的关键之一。
[0115]
为此,本实施例中一个与时间间隔和年龄相关的时间衰减因子来模拟不同时间的就诊和患者的年龄对疾病进展的影响程度,具体是调整输入bi_lstm模型的数据,使得bi_lstm模型输出的时序特征是考虑到了时间间隔以及年龄的影响因子,实现过程如下:
[0116]
1)每一类型数据的向量序列x=<x1,x2,

,x
t
>是一个高维离散的稀疏向量,为了获得更有效的特征表示,利用一个全连接层将x
i
嵌入低维度的连续空间:
[0117]
r
i
=relu(w
r
x
i
b
r
)
[0118]
式中,是参数矩阵,是偏置向量,相对于x
i
,r
i
是一个维度为d的低维且密集的语义表示,relu函数为线性整流函数。
[0119]
2)假定医疗事件对患者之后的健康状况影响程度随着时间的推移逐渐下降,同时一些疾病的发病风险随着患者年龄的增长而增加。时间衰减因子如下表示:
[0120][0121]
式中,τ(δt
i
,a
i
)为时间衰减因子,a
i
是就诊向量中第i次就诊r
i
发生时患者的年龄,δt
i
表示就诊向量中第i次就诊r
i
和需要预测的就诊之间的时间间隔;λ是用于调整时间衰减强度的标量参数,e为自然底数;
[0122]
基于所述时间衰减因子调整输入数据时,调整后的数据表示为:
[0123][0124]
其中,r
i
为调整前第i次就诊r
i
对应的表示向量,调整后第i次就诊r
i
对应的表示向量,表示按元素相乘。
[0125]
应当理解,本实施例中得到的向量序列作为bi_lstm模型的输入数据,直接输入到bi_lstm提取时序特征,其中,通过执行步骤1),将过于稀疏的x转化为稠密的embedding向量r。
[0126]
其他可行的实施例中,可以不执行上述步骤1),即直接将每一类型数据的向量序列x=<x1,x2,

,x
t
>与时间衰减因子进行按元素相乘或者根据实际需求对每一类型数据的向量序列x=<x1,x2,

,x
t
>进行其他数据处理。
[0127]
从上述原理性陈述可知,本实施例中,综合考虑患者年龄和不规则就诊时间间隔对疾病发展影响的基础上,利用时间衰减因子模拟其影响,最终体现在提取的时序特征上。
[0128]
实施例3:
[0129]
在实施例1以及实施例2的基础上,本实施例3用于解决实际应用过程中的疾病风险预测,其他可行的实施例中,按照本实施例的思路,可以用于其他预测目标的预测。
[0130]
具体的,本实施例提供的一种基于电子病历中异构数据融合特征的预测方法,包括如下步骤:
[0131]
步骤s1:采集患者的电子病历数据,并按照前述异构数据特征融合方法的过程处理得到患者的电子病历数据的特征表示;
[0132]
其中,依据预测目标选择患者样本。本实施例中用于预测心血管疾病风险,进而选择心血管疾病的患者以及未得心血管疾病的患者作为患者样本。
[0133]
步骤s2:构建预测模型,所述预测模型的输入数据为患者的电子病历数据的特征表示,输出数据为患者对应的预测目标的预测结果;
[0134]
其中,将步骤s1中患者样本的电子病历数据的特征表示以及患者样本中预测目标对应的已知结果训练所述预测模型,训练过程调节所述预测模型和/或步骤1

步骤4中患者的电子病历数据的特征表示生成过程的模型参数。
[0135]
预测模型表示如下:
[0136][0137]
其中,为预测目标的结果,是参数矩阵,表示实数集,u为向量s的维度,b
y
是偏置参数,s1;s2;....s
m
为患者的电子病历数据中第1类,第2类,以及第m类数据对应的最终特征;
[0138]
本实施例中,所述预测目标为心血管疾病风险,所述预测目标的预测结果为1,表示存在心血管疾病风险;所述预测目标的预测结果为0,表示不存在心血管疾病风险。
[0139]
实施例4:
[0140]
在实施例1的基础上,本发明提供给一种系统,包括:
[0141]
就诊向量生成模块,用于将患者的电子病历数据进行处理构成患者的就诊向量;
[0142]
时序特征提取模块,用于将每类数据的就诊向量作为原始输入数据,并利用bi_lstm模型提取时序特征;
[0143]
非时序特征提取模块,用于将每类数据的就诊向量作为原始输入数据,并利用cnn模型提取非时序特征;
[0144]
综合特征生成模块,用于分别综合每类数据的时序特征和非时序特征得到综合特征;
[0145]
最终特征表示模块,用于利用所述综合特征挖掘每类数据的之间的作用信息得到每类数据对应的最终特征,其中,所有类数据的最终特征构成所述患者的电子病历数据的特征表示。
[0146]
进一步地,若所述系统用于疾病风险预测等,其还包括:
[0147]
预测模型构建模块,用于构建预测模型,并利用患者样本的数据训练模型;
[0148]
预测模块,用于利用预测模型进行预测。
[0149]
其中,预测模型利用预测模型以及按照前述特征融合方法处理患者的电子病历数据进行预测。
[0150]
其中,各个模块的具体实现过程请参照上述方法内容,本发明在此不再赘述。且上述功能模块单元的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0151]
实施例5:
[0152]
本实施例还提供一种系统,其包括:处理器和存储器,存储器上存储了计算机程序,处理器调用该计算机程序以执行:一种电子病历中异构数据特征融合方法的步骤以及一种基于电子病历中异构数据融合特征的预测方法的步骤。
[0153]
具体的可以参照前述实施例1

3的内容。
[0154]
实施例6:
[0155]
本实施例提供一种可读存储介质,其存储了计算机程序,计算机程序被处理器调
用以执行:一种电子病历中异构数据特征融合方法的步骤以及一种基于电子病历中异构数据融合特征的预测方法的步骤。
[0156]
具体的可以参照前述实施例1

3的内容。
[0157]
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field

programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
[0158]
所述存储介质为计算机存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0159]
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

onlymemory)、随机存取存储器(ram,randomaccess memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0160]
实验验证:验证过程以心血管疾病风险预测研究内容开展。
[0161]
1.评价指标
[0162]
本发明实验验证的目标旨在构建一个实用高效的心血管疾病风险预测方法(tamdfr),用以提升心血管疾病风险预测的性能。对于所有模型,均使用recall、precision、f1

score和auc评价最终的预测性能。对于所有实验,均采用十折交叉验证,以减少误差带来的影响。
[0163]
2.与其他方法的比较
[0164]
为了评价本发明所提出的预测方法的性能,将本发明所述方法与以下几种方法进行了比较,并在表1中展示了所有的实验结果。
[0165]
bi_lstm:该方法是是一个标准的双向长短时记忆网络。
[0166]
sen:该方法利用bi

gru网络捕获句子序列中的相关特征来实现ddi的抽取。
[0167]
dipole:该方法是一种基于注意力机制的双向递归神经网络,结合基于位置的注意力机制进行诊断预测,同时不需要任何时间感知机制。
[0168]
deeprisk:该方法是一种利用基于注意力的双向lstm网络来预测心血管风险的方法,利用多个lstm模块来处理异构和时态的医疗数据,但是忽略了就诊时间的不规则性。
[0169]
timeline:该方法是一个可解释的深度学习模型,利用以往的就诊来预测医疗事件。该方法使用了一个依赖于就诊时间间隔的函数捕捉以往就诊对未来的影响,从而进行预测。
[0170]
表1
[0171]
modelrecallprecisionf1

scoreaucbi

lstm0.7493
±
0.01180.6942
±
0.01060.7172
±
0.00860.765
±
0.0074dipole0.7543
±
0.01820.7253
±
0.01270.7393
±
0.00630.8081
±
0.0043deeprisk0.7714
±
0.01490.7191
±
0.01080.7442
±
0.00670.7974
±
0.0046timeline0.8609
±
0.01460.7983
±
0.02610.8276
±
0.01520.8613
±
0.0129tamdfr0.8844
±
0.01670.8775
±
0.02460.8806
±
0.00970.9373
±
0.0062
[0172]
3.时间衰减因子的有效性验证
[0173]
为了验证时间衰减因子的有效性,首先以dipole、deeprisk和tamdfr为例,研究了有无时间衰减因子时模型的性能差异。从表2可以看出,在没有时间衰减因子的情况下,模型的各项性能均下降明显。结果表明本文提出的基于就诊时间间隔和患者年龄的时间衰减因子能够很好地模拟患者健康状况随时间的演化模式,从而显著提高模型的预测性能。同时我们还设计了一个简化的时间感知衰减函数,通过去除患者年龄来分析患者年龄对预测性能的影响。表中的结果表明结合患者年龄和就诊间隔时间的函数使我们的模型表现得更好,证实了考虑患者年龄对准确预测患者心血管疾病风险的积极作用。
[0174]
表2
[0175][0176]
4.非时序特征的有效性验证
[0177]
该发明使用了一个1d

cnn网络学习就诊序列数据的非时序特征,与bi_lstm形成了并行的结构。为了研究cnn的影响,我们将该发明与其他三种方法进行了比较。第一个是
基本的bi_lstm方法,第二个是bi_lstm cnn,这是bi_lstm和1d

cnn的并行组合。第三个是该发明的一个变体,删除了cnn分支。如表3所示,集成了cnn分支的模型比没有cnn的相应模型性能更好。这说明cnn的引入确实可以增强模型的特征表示能力,从而有效地提高预测性能。
[0178]
表3
[0179][0180][0181]
5.多类型数据融合表征的有效性验证
[0182]
对于预测使用的多类型医疗序列数据,为了得到完整的融合表示,该发明提出了一种基于自关注机制的多类型数据融合表征的方法。为了验证其有效性,我们比较了不同的融合方式,包括拼接、按元素操作(相乘、求和、求均值)。从表4可以看出,当采用串联输入向量的方法时,模型的性能最差。采用该发明提出的融合方法时性能最好,其他按元素操作的方法虽然提升了一定性能,但因为无法捕捉不同类数据之间的相互关联与影响的信息,所以性能不足。这也说明了多类型数据同和表征对于心血管疾病预测的有效性。
[0183]
表4
[0184][0185]
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜