一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法和系统与流程

2022-04-02 10:44:13 来源:中国专利 TAG:


1.本发明涉及机器学习领域,特别是指一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测。


背景技术:

2.放射性肺炎属于放射性肺损伤的一部分,是胸部肿瘤放疗最主要也是最严重的并发症,常见于放疗开始后1~3个月内。10%-30%的胸部放疗患者会出现放射性肺炎,它不仅限制了治疗的实施,影响了治疗疗效,也降低了患者的生存质量乃至生存率,因此降低放射性肺炎的发生率在临床上具有重要意义。对放射性肺炎发生情况的准确预测,有利于及时进行临床干预,降低患者放疗风险。
3.目前研究已经发现,急性放射性肺炎的发生,与许多因素相关,如:患者年龄、性别、kps功能状态评分、是否患高血压、是否化疗、放疗前化疗周期数、肿瘤靶区体积、肿瘤位置、淋巴结位置、肺部受照平均剂量、肺部接受5gy、10gy、20gy、30gy剂量的体积、患者每日照射剂量、总疗程照射剂量。临床中常用放疗计划中患者肺部受5gy、20gy剂量照射体积(v5gy,v20gy)及肺部平均受照剂量,来评估放射性肺炎发生情况。但目前尚未建立一个简单有效的模型能够综合各种因素来预测放射性肺炎的发生情况。


技术实现要素:

4.本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法,能够结合大量医疗案例数据库,结合患者的临床信息、剂量信息、ct影像组学等多种因素,更加快速、直观地预测胸部肿瘤患者放疗后的放射性肺炎发生情况。
5.本发明采用如下技术方案:
6.一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法,包括:
7.获取患者数据,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据;
8.将患者数据中非数字的特征进行数字化,并进行特征缺失值预测和冗余特征去除,得到预处理后的患者数据;
9.将预处理后的患者数据分为训练集和测试集,训练生成改进的支持向量机模型;
10.使用测试集计算工作特征曲线roc曲线的曲线下面积auc来评估模型的精度,若曲线下面积大于等于0.9,则验证通过,输出验证通过模型;若曲线下面积小于0.9,则重新生成支持向量机模型;
11.将需要预测的患者相关数据输入验证通过模型,对放射性肺炎发生进行预测。
12.具体地,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据,具体为:
13.患者肺部ct影像组学数据包括:llh小波变换下的一阶纹理特征最小值、hhl小波变换下的一阶纹理特征最小值和灰度共生矩阵的自相关性,hhh小波变换下的灰度共生矩阵的自相关性;
14.患者临床数据包括:胸部肿瘤放疗患者的年龄、性别、kps功能状态评分、是否患高血压、是否化疗、放疗前化疗周期数、肿瘤靶区体积、肿瘤位置、淋巴结位置;
15.患者放疗计划剂量学数据包括:肺部受照平均剂量、肺部接受5gy、10gy、20gy、30gy剂量的体积、患者每日照射剂量、总疗程照射剂量。
16.具体地,并进行特征缺失值预测和冗余特征去除,具体为:
17.采用k最近邻算法对非缺失的患者数据进行拟合,预测特征缺失值;
18.根据方差最大化原理,用一组线性无关且相互正交的新向量组表征原来的数据矩阵的行/列,用以压缩特征个数,剔除冗余特征。
19.具体地,训练生成改进的支持向量机模型,具体包括:
20.训练样本集d={(x1,y1),(x2,y2),

,(xm,ym)},yi∈{-1, 1};m为特征个数;
21.引入“软间隔”,允许某些样本不满足约束
22.yi(ω
t
xi b)≥1
23.优化目标可以写为
[0024][0025]
s.t.yi(ω
t
xi b)≥1-i
[0026]
i≥0,i=1,2,

,m.
[0027]
即为改进的支持向量机模型;
[0028]
模型中高斯核函数:
[0029][0030]
其中,ω和b是模型参数,c称为惩罚系数,γ宽度系数,i为松弛变量,i≥0。
[0031]
本发明实施例还提供一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测系统,包括:
[0032]
获取患者数据模块:获取患者数据,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据;
[0033]
数据预处理模块:将患者数据中非数字的特征进行数字化,并进行特征缺失值预测和冗余特征去除,得到预处理后的患者数据;
[0034]
模型训练模块:将预处理后的患者数据分为训练集和测试集,训练生成改进的支持向量机模型;
[0035]
模型评估模块:使用测试集计算工作特征曲线roc曲线的曲线下面积auc来评估模型的精度,若曲线下面积大于等于0.9,则验证通过,输出验证通过模型;若曲线下面积小于0.9,则重新生成支持向量机模型;
[0036]
预测模块:将需要预测的患者相关数据输入验证通过模型,对放射性肺炎发生进行预测。
[0037]
具体地,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据,具体为:
[0038]
患者肺部ct影像组学数据包括:llh小波变换下的一阶纹理特征最小值、hhl小波变换下的一阶纹理特征最小值和灰度共生矩阵的自相关性,hhh小波变换下的灰度共生矩阵的自相关性;
[0039]
患者临床数据包括:胸部肿瘤放疗患者的年龄、性别、kps功能状态评分、是否患高血压、是否化疗、放疗前化疗周期数、肿瘤靶区体积、肿瘤位置、淋巴结位置;
[0040]
患者放疗计划剂量学数据包括:肺部受照平均剂量、肺部接受5gy、10gy、20gy、30gy剂量的体积、患者每日照射剂量、总疗程照射剂量。
[0041]
具体地,所述数据预处理模块中,进行特征缺失值预测和冗余特征去除,具体为:
[0042]
采用k最近邻算法对非缺失的患者数据进行拟合,预测特征缺失值;
[0043]
根据方差最大化原理,用一组线性无关且相互正交的新向量组表征原来的数据矩阵的行/列,用以压缩特征个数,剔除冗余特征。
[0044]
具体地,所述模型训练模块中,训练生成改进的支持向量机模型,具体包括:
[0045]
训练样本集d={(x1,y1),(x2,y2),

,(xm,ym)},i∈{-1, 1};m为特征个数;
[0046]
引入“软间隔”,允许某些样本不满足约束
[0047]
yi(ω
t
xi b)≥1
[0048]
优化目标可以写为
[0049][0050]
s.t.yi(ω
t
xi b)≥1-i
[0051]
i≥0,i=1,2,

,m.
[0052]
即为改进的支持向量机模型;
[0053]
模型中高斯核函数:
[0054][0055]
其中,ω和b是模型参数,c称为惩罚系数,γ宽度系数,i为松弛变量,i≥0。
[0056]
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0057]
(1)本发明提供的基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法,首先获取患者数据,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据;将患者数据中非数字的特征进行数字化,并进行特征缺失值预测和冗余特征去除,得到预处理后的患者数据;将预处理后的患者数据分为训练集和测试集,训练生成改进的支持向量机模型;使用测试集计算工作特征曲线roc曲线的曲线下面积auc来评估模型的精度,若曲线下面积大于等于0.9,则验证通过,输出验证通过模型;若曲线下面积小于0.9,则重新生成支持向量机模型;将需要预测的患者相关数据输入验证通过模型,对放射性肺炎发生进行预测;本发明提供的方法能够结合大量医疗案例数据库,结合患者的临床信息、剂量信息、ct影像组学等多种因素,更加快速、直观地预测胸部肿瘤患者放疗后的放射性肺炎发生情况。相比以往的单因素预测、剂量学预测,机器学习技术同时输入多种参数,对放
射性肺炎的预测更准确。
[0058]
(2)本发明提供的基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法,采用的是改进后的支持向量机模型,模型中引入了引入“软间隔”,能够实现快速有效的预测。
附图说明
[0059]
图1为本发明实施例提供的一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法流程图;
[0060]
图2为本发明实施例提供的一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测系统结构图。
[0061]
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
[0062]
影像组学特征结合了病变原始图像的形状、强度、纹理特征以及由各种滤波器(如小波和高斯拉普拉斯算子)转换的图像。结合特征选择方法和机器学习算法,可以在训练数据集上构建预测模型,并进一步在测试数据集上进行评估。
[0063]
机器学习是机器基于大数据集学习和预测未来事件和结果的能力。在医疗保健领域,机器学习旨在改进医疗数据的解释,从而加快工作流程,减少错误,消除不必要的开支,改善人类健康。作为放射性肺炎发生的危险因素,患者影像组学特征、临床与治疗参数和剂量学参数是相互交织的,并不可能将放射性肺炎与单一参数联系在一起。使用机器学习方法对放射性肺炎的预测可以帮助降低患者毒性,提高患者的生活质量,同时也带来患者医疗支出的降低。
[0064]
如图1,为本发明实施例提供的一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法流程图,具体包括:
[0065]
s1:获取患者数据,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据;
[0066]
具体地,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据,具体为:
[0067]
患者肺部ct影像组学数据包括:llh小波变换下的一阶纹理特征最小值、hhl小波变换下的一阶纹理特征最小值和灰度共生矩阵的自相关性,hhh小波变换下的灰度共生矩阵的自相关性;
[0068]
患者临床数据包括:胸部肿瘤放疗患者的年龄、性别、kps功能状态评分、是否患高血压、是否化疗、放疗前化疗周期数、肿瘤靶区体积、肿瘤位置、淋巴结位置;
[0069]
患者放疗计划剂量学数据包括:肺部受照平均剂量、肺部接受5gy、10gy、20gy、30gy剂量的体积、患者每日照射剂量、总疗程照射剂量。
[0070]
另外,当有新患者时,相应的数据会更新到患者数据中,增加样本数量,提高预测精确度。
[0071]
s2:将患者数据中非数字的特征进行数字化,并进行特征缺失值预测和冗余特征去除,得到预处理后的患者数据;
[0072]
将患者数据中非数字的特征进行数字化,例如:淋巴结位置分为纵隔、肺门、锁骨
上,在预处理中,将淋巴结位置定义为数字:1——纵膈,2——肺门,3——锁骨上。其他非数字的特征进行同样的处理。
[0073]
具体地,并进行特征缺失值预测和冗余特征去除,具体为:
[0074]
采用k最近邻算法对非缺失的患者数据进行拟合,预测特征缺失值;
[0075]
根据方差最大化原理,用一组线性无关且相互正交的新向量组表征原来的数据矩阵的行/列,用以压缩特征个数,剔除冗余特征。
[0076]
s3:将预处理后的患者数据分为训练集和测试集,训练生成改进的支持向量机模型;
[0077]
随机选取70%比例的数据作为模型训练数据,剩余30%数据作为模型测试数据,将训练数据用于生成支持向量机模型;
[0078]
给定训练样本集d={(x1,y1),(x2,y2),

,(xm,ym)},yi∈{-1, 1},基于训练集d在样本空间找到一个划分超平面,将不同类别分开。对于一些训练样本,无法线性来分类,可将样本从原始空间映射到更高维的特征空间,使得样本在这个特征空间内线性可分。
[0079]
表示将x映射后的特征向量,于是,在特征空间中划分超平面所对应的模型可表示为
[0080][0081]
其中ω和b是模型参数,为了使样本空间中任意点x到超平面(ω,b)的距离最大,也就是知道具有“最大间隔”的划分超平面,即
[0082][0083]
s.t.yi(ω
t
φ(xi) b)≥1,i=1,2,

,m.
[0084]
其对偶问题是
[0085][0086][0087]
αi≥0,i=1,2,

,m.
[0088]
其中φ(xi)
t
φ(xj)是样本xi与xj映射到特征空间之后的内积。由于特征空间维数可能很高,直接计算φ(xi)
t
φ(xj)是困难的。可以定义核函数:
[0089]
κ(xi,xj)=《φ(xi),φ(xj)》=φ(xi)
t
φ(xj)
[0090]
对偶问题可重写为
[0091][0092]
[0093]
αi≥0,i=1,2,

,m.
[0094]
求解后得到
[0095][0096]
κ(
·
,
·
)就是“核函数”(kernel),上式称为“支持向量展式”。
[0097]
在现实问题中往往很难确定合适的核函数使得训练样本在特征空间中线性可分。为了避免模型过拟合,允许支持向量机在一些样本上出错,引入“软间隔”,允许某些样本不满足约束
[0098]
yi(ω
t
xi b)≥1
[0099]
在最大化间隔的同时,不满足约束的样本应该尽量少。于是,优化目标可以写为
[0100][0101]
其中c>0是一个常数,称为惩罚系数,当c取有限值时,上式允许一些样本不满足约束。l
0/1
是“0/1损失函数”:
[0102][0103]
然而,由于l
0/1
非凸、非连续,数学性质不太好,通常使用其他一些函数来替代l
0/1
,称为“替代损失”。该模型采用hinge损失:l
hinge
(z)=max(0,1-z),优化目标可写为
[0104][0105]
引入“松弛变量”i≥0,每个样本都有一个对应的松弛变量,用来表征每个样本不满足约束的程度。可将上式重写为
[0106][0107]
s.t.yi(ω
t
xi b)≥1-i
[0108]
i≥0,i=1,2,

,m.
[0109]
这就是的“改进后的支持向量机”。通过拉格朗日乘子法可得到上式的对偶问题
[0110][0111]
[0112]
0≤αi≤c,i=1,2,

,m.
[0113]
上面提到的核函数选择,与超平面的类型有关,模型中选择适用于线性不可分的情形的高斯核函数(rbf函数):
[0114][0115]
式中宽度系数γ,定义了单个样本的影响范围,γ越大,支持向量越多。
[0116]
上面提到的的惩罚系数(正则化参数)c,定义了对“犯规”样本的容忍程度。
[0117]
使用训练集中的数据,采用网格搜索交叉验证gridsearchcv,c的取值范围为从10-4
到10
10
,中间取15个数。γ的取值范围从10-4
到10
^3
,中间取24个数。遍历所有给定的γ和c的参数组合,对数据进行训练,来寻找参数γ和c的最佳搭配取值,使得预测准确率最高。并生成支持向量机模型。
[0118]
s4:使用测试集计算工作特征曲线roc曲线的曲线下面积auc来评估模型的精度,若曲线下面积大于等于0.9,则验证通过,输出验证通过模型;若曲线下面积小于0.9,则重新生成支持向量机模型;
[0119]
s5:将需要预测的患者相关数据输入验证通过模型,对放射性肺炎发生进行预测。
[0120]
根据预测结果,对于预测结果是“发生”的患者,可以反向调节特征参数,例如降低放疗的处方剂量,修改放疗计划、严格控制肺部受照剂量,调整化疗周期数等。再将新的特征参数输入到输出的模型,对放射性肺炎发生情况进行预测。
[0121]
如图2,本发明另一实施例还提供一种基于机器学习的胸部肿瘤放疗后放射性肺炎预测系统,包括:
[0122]
获取患者数据模块201:获取患者数据,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据;
[0123]
具体地,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据,具体为:
[0124]
患者肺部ct影像组学数据包括:llh小波变换下的一阶纹理特征最小值、hhl小波变换下的一阶纹理特征最小值和灰度共生矩阵的自相关性,hhh小波变换下的灰度共生矩阵的自相关性;
[0125]
患者临床数据包括:胸部肿瘤放疗患者的年龄、性别、kps功能状态评分、是否患高血压、是否化疗、放疗前化疗周期数、肿瘤靶区体积、肿瘤位置、淋巴结位置;
[0126]
患者放疗计划剂量学数据包括:肺部受照平均剂量、肺部接受5gy、10gy、20gy、30gy剂量的体积、患者每日照射剂量、总疗程照射剂量。
[0127]
另外,当有新患者时,相应的数据会更新到患者数据中,增加样本数量,提高预测精确度。
[0128]
数据预处理模块202:将患者数据中非数字的特征进行数字化,并进行特征缺失值预测和冗余特征去除,得到预处理后的患者数据;
[0129]
将患者数据中非数字的特征进行数字化,例如:淋巴结位置分为纵隔、肺门、锁骨上,在预处理中,将淋巴结位置定义为数字:1——纵膈,2——肺门,3——锁骨上。其他非数字的特征进行同样的处理。
[0130]
具体地,并进行特征缺失值预测和冗余特征去除,具体为:
[0131]
采用k最近邻算法对非缺失的患者数据进行拟合,预测特征缺失值;
[0132]
根据方差最大化原理,用一组线性无关且相互正交的新向量组表征原来的数据矩阵的行/列,用以压缩特征个数,剔除冗余特征。
[0133]
模型训练模块203:将预处理后的患者数据分为训练集和测试集,训练生成改进的支持向量机模型;
[0134]
随机选取70%比例的数据作为模型训练数据,剩余30%数据作为模型测试数据,将训练数据用于生成支持向量机模型;
[0135]
给定训练样本集d={(x1,y1),(x2,y2),

,(xm,ym)},yi∈{-1, 1},基于训练集d在样本空间找到一个划分超平面,将不同类别分开。对于一些训练样本,无法线性来分类,可将样本从原始空间映射到更高维的特征空间,使得样本在这个特征空间内线性可分。
[0136]
表示将x映射后的特征向量,于是,在特征空间中划分超平面所对应的模型可表示为
[0137][0138]
其中ω和b是模型参数,为了使样本空间中任意点x到超平面(ω,b)的距离最大,也就是知道具有“最大间隔”的划分超平面,即
[0139][0140]
s.t.yi(ω
t
φ(xi) b)≥1,i=1,2,

,m.
[0141]
其对偶问题是
[0142][0143][0144]
αi≥0,i=1,2,

,m.
[0145]
其中φ(xi)
t
φ(xj)是样本xi与xj映射到特征空间之后的内积。由于特征空间维数可能很高,直接计算φ(xi)
t
φ(xj)是困难的。可以定义核函数:
[0146]
κ(xi,xj)=《φ(xi),φ(xj)》=φ(xi)
t
φ(xj)
[0147]
对偶问题可重写为
[0148][0149][0150]
αi≥0,i=1,2,

,m.
[0151]
求解后得到
[0152][0153]
κ(
·
,
·
)就是“核函数”(kernel),上式称为“支持向量展式”。
[0154]
在现实问题中往往很难确定合适的核函数使得训练样本在特征空间中线性可分。为了避免模型过拟合,允许支持向量机在一些样本上出错,引入“软间隔”,允许某些样本不满足约束
[0155]
yi(ω
t
xi b)≥1
[0156]
在最大化间隔的同时,不满足约束的样本应该尽量少。于是,优化目标可以写为
[0157][0158]
其中c>0是一个常数,称为惩罚系数,当c取有限值时,上式允许一些样本不满足约束。l
0/1
是“0/1损失函数”:
[0159][0160]
然而,由于l
0/1
非凸、非连续,数学性质不太好,通常使用其他一些函数来替代l
0/1
,称为“替代损失”。该模型采用hinge损失:l
hinge
(z)=max(0,1-z),优化目标可写为
[0161][0162]
引入“松弛变量”i≥0,每个样本都有一个对应的松弛变量,用来表征每个样本不满足约束的程度。可将上式重写为
[0163][0164]
s.t.yi(ω
t
xi b)≥1-i
[0165]
i≥0,i=1,2,

,m.
[0166]
这就是的“改进后的支持向量机”。通过拉格朗日乘子法可得到上式的对偶问题
[0167][0168][0169]
0≤αi≤c,i=1,2,

,m.
[0170]
上面提到的核函数选择,与超平面的类型有关,模型中选择适用于线性不可分的
情形的高斯核函数(rbf函数):
[0171][0172]
式中宽度系数γ,定义了单个样本的影响范围,γ越大,支持向量越多。
[0173]
上面提到的的惩罚系数(正则化参数)c,定义了对“犯规”样本的容忍程度。
[0174]
使用训练集中的数据,采用网格搜索交叉验证gridsearchcv,c的取值范围为从10-4
到10
10
,中间取15个数。γ的取值范围从10-4
到10
^3
,中间取24个数。遍历所有给定的γ和c的参数组合,对数据进行训练,来寻找参数γ和c的最佳搭配取值,使得预测准确率最高。并生成支持向量机模型。
[0175]
模型评估模块204:使用测试集计算工作特征曲线roc曲线的曲线下面积auc来评估模型的精度,若曲线下面积大于等于0.9,则验证通过,输出验证通过模型;若曲线下面积小于0.9,则重新生成支持向量机模型;
[0176]
预测模块205:将需要预测的患者相关数据输入验证通过模型,对放射性肺炎发生进行预测。
[0177]
根据预测结果,对于预测结果是“发生”的患者,可以反向调节特征参数,例如降低放疗的处方剂量,修改放疗计划、严格控制肺部受照剂量,调整化疗周期数等。再将新的特征参数输入到输出的模型,对放射性肺炎发生情况进行预测。
[0178]
本发明提供的基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法,首先获取患者数据,所述患者数据包括患者肺部ct影像组学数据、患者临床数据、患者放疗计划剂量学数据;将患者数据中非数字的特征进行数字化,并进行特征缺失值预测和冗余特征去除,得到预处理后的患者数据;将预处理后的患者数据分为训练集和测试集,训练生成改进的支持向量机模型;使用测试集计算工作特征曲线roc曲线的曲线下面积auc来评估模型的精度,若曲线下面积大于等于0.9,则验证通过,输出验证通过模型;若曲线下面积小于0.9,则重新生成支持向量机模型;将需要预测的患者相关数据输入验证通过模型,对放射性肺炎发生进行预测;本发明提供的方法能够结合大量医疗案例数据库,结合患者的临床信息、剂量信息、ct影像组学等多种因素,更加快速、直观地预测胸部肿瘤患者放疗后的放射性肺炎发生情况。相比以往的单因素预测、剂量学预测,机器学习技术同时输入多种参数,对放射性肺炎的预测更准确。
[0179]
本发明提供的基于机器学习的胸部肿瘤放疗后放射性肺炎预测方法,采用的是改进后的支持向量机模型,模型中引入了引入“软间隔”,能够实现快速有效的预测。
[0180]
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献