一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种骨关节炎病情预测方法、系统、计算机设备及介质与流程

2022-02-22 20:12:21 来源:中国专利 TAG:


1.本发明涉及机器学习技术领域,特别是涉及一种骨关节炎病情预测方法、系统、计算机设备及存储介质。


背景技术:

2.骨关节炎是最常见的关节炎形式,据粗略统计,在65岁以上的人群中,有三分之一人群受到此病的困扰,且研究表明,随着肥胖、缺乏运动或关节损伤等导致患骨关节炎的影响因素的增加,骨关节炎的患病率正在逐渐上升,且患骨关节炎患者常伴随关节疼痛,进而导致躯体运动功能受限,睡眠不足,疲劳,精神沮丧和压抑等症状。随之,对骨关节炎病情的预测和评估也就成为众多学者们热衷研究的方向。
3.现有骨关节病情预测方法主要分为统计学方法和模型预测两种,然而,传统的统计学习方法因其自身应用的局限性,导致无法有效处理大量的数据信息,且无法挖掘数据之间潜在的内在关联,即难以给出不同特征对骨关节炎病情严重程度评估的贡献情况;此外,现有模型预测方法虽然在一定程度上解决传统统计学方法的不足,但其在预测应用时,不仅需要基于大量高质量的临床真实数据,而且还要求这些数据尽可能包含导致骨关节炎发病的相关因素,还极易受所选预测模型的影响。可见,目前的临床诊断程序并不能充分满足临床医生对患者骨关节炎病情严重程度给出准确评估和诊断的需求。
4.因此,亟需提供一种能够对骨关节炎病情严重程度进行精准有效预测的方法,便于提升对骨关节炎发病的预测,治疗指导和治疗效果跟踪的应用价值。


技术实现要素:

5.本发明的目的是提供一种骨关节炎病情预测方法,通过收集处理患者临床信息、以及相关生物标志物的检测结果(x射线关节间隙宽度数据)等数据,依此从多个不同类型的机器学习模型中筛选确定最优骨关节炎病情预测模型,并通过该模型对骨关节炎病情进行精准有效的预测,以及给出相应的影响因素,在弥补现有技术的不足且充分满足临床医生对患者骨关节炎病情预测诊断需求的基础上,有效提高预测结果的精准性,进一步提升对骨关节炎发病预测、治疗指导和治疗效果跟踪的应用价值。
6.为了实现上述目的,有必要针对上述技术问题,提供了一种骨关节炎病情预测方法、系统、计算机设备及存储介质。
7.第一方面,本发明实施例提供了一种骨关节炎病情预测方法,所述方法包括以下步骤:
8.获取骨关节炎数据集,并将所述骨关节炎数据集按照预设比例划分为训练集、验证集和测试集;所述骨关节炎数据集包括临床样本数据和x射线关节间隙宽度数据;
9.根据所述训练集和验证集,从不同的机器学习模型中确定最优骨关节炎病情预测模型;
10.根据所述测试集和最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结
果及影响因素。
11.进一步地,所述获取骨关节炎数据集,并将所述骨关节炎数据集按照预设比例划分为训练集、验证集和测试集的步骤包括:
12.筛选所述骨关节炎数据集中疾病无关特征变量,并将所述疾病无关特征变量删除,得到第一骨关节炎数据集;
13.将所述第一骨关节炎数据集中的离散特征变量采用one-hot编码处理为对应的特征数值向量,并采用所述特征数值向量替换对应的所述离散特征变量,得到第二骨关节炎数据集;
14.查找所述第二骨关节炎数据集中的数据缺失样本,并对所述数据缺失样本进行填充处理,得到第三骨关节炎数据集;
15.将所述第三骨关节炎数据集中连续特征变量进行标准化处理,得到第四骨关节炎数据集;
16.将所述第四骨关节炎数据集中同一样本id对应的临床样本数据和x射线关节间隙宽度数据进行合并,得到第五骨关节炎数据集;
17.根据所述第五骨关节炎数据集,获取对应的骨关节炎病情评分统计分布,并根据所述骨关节炎病情评分统计分布,对所述第五骨关节炎数据集进行扩充,得到第六骨关节炎数据集;
18.获取所述第六骨关节炎数据集内各个特征变量与对应kellgren-lawrence分级评分的皮尔森相关系数,并将所述皮尔森相关系数大于预设相关度阈值的特征变量删除,得到第七骨关节炎数据集;
19.将所述第七骨关节炎数据集按照所述预设比例划分为训练集、验证集和测试集。
20.进一步地,所述查找所述第二骨关节炎数据集中的数据缺失样本,并对所述数据缺失样本进行填充处理,得到第三骨关节炎数据集的步骤包括:
21.判断所述数据缺失样本的数据缺失率是否大于预设缺失率阈值,若大于,则将对应的所述数据缺失样本删除,反之,则将所述数据缺失样本的对应的缺失特征变量采用数据完整样本对应特征变量的均值进行填充。
22.进一步地,所述根据所述第五骨关节炎数据集,获取对应的骨关节炎病情评分统计分布,并根据所述骨关节炎病情评分统计分布,对所述第五骨关节炎数据集进行扩充,得到第六骨关节炎数据集的步骤包括:
23.根据所述第五骨关节炎数据集中x射线关节间隙宽度数据对应的kellgren-lawrence分级评分,统计所述骨关节炎病情评分统计分布;
24.根据所述骨关节炎病情评分统计分布,判断所述第五骨关节炎数据集内的各个等级的kellgren-lawrence分级评分是否分布均匀;
25.若所述第五骨关节炎数据集内的各个等级的kellgren-lawrence分级评分分布不均匀,则对所述骨关节炎病情评分统计分布中kellgren-lawrence分级评分占比最少的样本数据进行smote上采样,得到所述第六骨关节炎数据集。
26.进一步地,所述机器学习模型包括逻辑回归、支持向量机、决策树和xgboost;
27.所述根据所述训练集和验证集,从不同的机器学习模型中确定最优骨关节炎病情预测模型的步骤包括:
28.预先建立各个机器学习模型,并采用所述训练集分别对各个机器学习模型进行训练,更新各个机器学习模型的模型参数;
29.采用所述验证集对已更新模型参数的各个机器学习模型进行训练,更新各个机器学习模型的模型超参数,得到对应的骨关节炎病情预测模型及mse指标值;
30.比较各个骨关节炎病情预测模型对应的mse指标值,并将最小mse指标值对应的骨关节炎病情预测模型确定为所述最优骨关节炎病情预测模型。
31.进一步地,所述影响因素包括关键风险特征变量和潜在风险特征变量;
32.所述根据所述测试集和最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结果及影响因素的步骤包括:
33.将所述测试集输入所述最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结果、以及所述测试集内各个特征变量对所述骨关节炎病情预测结果的特征贡献度得分;
34.将各个特征贡献度得分按降序进行排列,得到对应的预测结果贡献度排名,并自上而下筛选出第一预设数目的特征贡献度得分;
35.获取与所述第一预设数目的特征贡献度得分对应的特征变量作为风险特征变量,并按照特征贡献度得分由高到低从所述风险特征变量中筛选出第二预设数目的特征变量作为待分析风险特征变量;
36.根据所述待分析风险特征变量,确定所述关键风险特征变量和潜在风险特征变量。
37.进一步地,所述根据所述待分析风险特征变量,确定所述关键风险特征变量和潜在风险特征变量的步骤包括:
38.获取各个待分析风险特征变量与对应kellgren-lawrence分级评分的皮尔森相关系数,并对所述皮尔森相关系数按照降序进行排列,得到各个待分析风险特征变量对应的相关系数排名;
39.判断各个待分析风险特征变量的相关系数排名和预测结果贡献度排名是否均在预设排名范围内;
40.若各个待分析风险特征变量的相关系数排名和预测结果贡献度排名均在预设排名范围内,则判定所述待分析风险特征变量为所述关键风险特征变量,反之,则判定所述待分析风险特征变量为所述潜在风险特征变量。
41.第二方面,本发明实施例提供了一种骨关节炎病情预测系统,所述系统包括:
42.数据获取模块,用于获取骨关节炎数据集,并将所述骨关节炎数据集按照预设比例划分为训练集、验证集和测试集;所述骨关节炎数据集包括临床样本数据和x射线关节间隙宽度数据;
43.模型构建模块,用于根据所述训练集和验证集,从不同的机器学习模型中确定最优骨关节炎病情预测模型;
44.结果预测模块,用于根据所述测试集和最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结果及影响因素。
45.第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述
方法的步骤。
46.第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
47.上述本技术提供了一种骨关节炎病情预测方法、系统、计算机设备及存储介质,通过所述方法,实现了获取包括临床样本数据和x射线关节间隙宽度数据的骨关节炎数据集,在结合统计分析对该数据集内不同的特征变量进行必要的特征工程预处理得到有效数据集后,按照预设比例划分为训练集、验证集和测试集,且根据训练集和验证集对预设的多个不同类型的机器学习模型进行学习训练,以及根据对应的模型mes指标大小从不同的机器学习模型中筛选确定出最优骨关节炎病情预测模型,再采用确定的最优骨关节炎病情预测模型对测试集数据进行预测,得到对应的骨关节炎病情预测结果,并基于该骨关节炎病情预测结果进一步确定对应的关键风险因素和潜在风险因素。与现有技术相比,本发明通过对患者临床信息和相关生物标志物检测结果的收集处理,对最优骨关节炎病情预测模型的筛选建立,以及通过最优骨关节炎病情预测模型确定对应的骨关节炎的病情预测结果和影响因素,在弥补现有技术的不足且为临床医生对骨关节炎患者病情的评估诊断提供便利的同时,有效提高预测结果的精准性,进一步提升对骨关节炎的发病预测、治疗指导和治疗效果跟踪的应用价值。
附图说明
48.图1是本发明实施例中骨关节炎病情预测方法的应用场景示意图;
49.图2是本发明实施例中骨关节炎病情预测方法的流程示意图;
50.图3是图2中步骤s11获取骨关节炎数据集及数据集划分的流程示意图;
51.图4是本发明实施例中oai数据集的骨关节炎病情评分统计分布示意图;
52.图5中a和b分别是本发明实施例中oai数据集中连续特征变量、离散特征变量与骨关节炎病情评分的相关性系数统计结果示意图;
53.图6是图2中步骤s12确定最优骨关节炎病情预测模型的流程示意图;
54.图7是本发明实施例中最优骨关节炎病情预测模型(xgboost)在测试集上的混淆矩阵示意图;
55.图8是图2中步骤s13根据最优骨关节炎病情预测模型获取病情预测结果及影响因素的流程示意图;
56.图9中a、b、c和d分别是本发明实施例中xgboost模型、决策树(dt)、支持向量机svm和逻辑回归logistic regression分别得到特征变量贡献度排序结果示意图;
57.图10是本发明实施例中骨关节炎病情预测系统的结构示意图;
58.图11是本发明实施例中计算机设备的内部结构图。
具体实施方式
59.为了使本技术的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
60.本发明提供的一种骨关节炎病情预测方法,可以应用于如图1所示的终端或服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可采用本发明的骨关节炎病情预测方法根据实际应用需求,基于公开的骨关节炎数据库(osteoarthritisinitiative,oai,https://data-archive.nimh.nih.gov/oai/)上获取的开源骨关节炎数据集,对多种不同类型的机器学习模型进行预测比较研究以确定最优骨关节炎病情预测模型,并使用该最优骨关节炎病情预测模型对患者病情数据进行分析处理,得到每个患者准确有效的病情预测结果,以及各个特征变量的特征贡献度筛选出预设数目的风险特征变量,并基于获取的风险特征变量,筛选出一定数目的关键风险特征变量和潜在风险特征变量,给出可能导致该病情预测结果的影响因素,并将最终得到的骨关节炎病情预测结果及影响因素用于服务器后续的研究,或发送至终端供终端使用者进一步分析研究使用,不仅能为临床医生对骨关节炎患者病情的评估诊断提供参考,还能有效提高预测结果的精准性,进而提升对骨关节炎的发病预测、治疗指导和治疗效果跟踪的应用价值。下述实施例将对本发明的骨关节炎病情预测方法进行详细说明。
61.在一个实施例中,如图2所示,提供了一种骨关节炎病情预测方法,包括以下步骤:
62.s11、获取骨关节炎数据集,并将所述骨关节炎数据集按照预设比例划分为训练集、验证集和测试集;所述骨关节炎数据集包括临床样本数据和x射线关节间隙宽度数据;其中,骨关节炎数据集原则上可以采用现有能收集到的骨关节炎临床数据,但由于骨关节炎患者的临床数据一般涉及患者隐私,且骨关节炎的疾病诊断是非常专业性的问题,一般可用临床数据量很少,而由美国国立卫生研究院下属的骨关节炎研究所通过一项历时11年的多中心骨关节炎跟踪调查项目(oai)获得的大量临床数据公开,为公众提供自由可用的研究数据。为了保证研究的全面性,以及最优骨关节炎病情预测模型的有效性和精准性,本实施例从如上所述获取的骨关节炎数据库(oai)数据集中选取了4796例骨关节炎病例样本用于研究分析,其包括了年龄在45-79岁患者的数据,且每个样本包含1247个特征。在获取该骨关节炎数据集后,将数据集内分别包括不同特征变量的临床样本数据和x射线关节间隙宽度数据进行相应的特征工程预处理后,根据患者id进行样本特征变量合并,并按照需求划分训练集、验证集和测试集,以建立满足应用需求的最优骨关节炎病情预测模型。需要说明的是,将骨关节炎数据集划分为训练集、验证集和测试集的预设比例可根据实际应用需求进行确定,但需要满足划分得到的训练集、验证集和测试集中不同病情等级分布保持一致。具体地,如图3所示,所述获取骨关节炎数据集,并将所述骨关节炎数据集按照预设比例划分为训练集、验证集和测试集的步骤s11包括:
63.s111、筛选所述骨关节炎数据集中疾病无关特征变量,并将所述疾病无关特征变量删除,得到第一骨关节炎数据集;其中,疾病无关特征变量是指数据集中仅用于统计记录而与关节炎疾病本身无关的特征变量,如编号、版本号、调查完成日期、x-ray临床检测编号、第一次筛选日期和报名日期等,此类特征变量只会增加数据处理量,并不对骨关节炎疾病的研究带来本质上的影响,却可能会导致模型出现过拟合现象,导致缺乏泛化能力。为了有效避免过拟合现象、提高模型的泛化能力,本实施例优选地查找出原始数据集中的疾病无关特征变量,并将它们剔除。
64.s112、将所述第一骨关节炎数据集中的离散特征变量采用one-hot编码处理为对
应的特征数值向量,并采用所述特征数值向量替换对应的所述离散特征变量,得到第二骨关节炎数据集;其中,one-hot编码是一位有效编码,采用n位状态寄存器来对n个状态进行编码,每个状态都有他独立的寄存器位,并且在任意时候只有一位有效,其要求将分类值映射到整数值,且每个整数值被表示为对应的二进制向量,整数的索引位对应的数值标为1,其它位都是零值。本实施例由于离散特征变量较多,此处未对临床样本数据和x射线关节间隙宽度数据中具体需要进行one-hot编码处理的离散特征变量进行罗列,具体如何采用one-hot编码方式对每个离散特征变量进行处理的过程参考现有实现即可,此处不再赘述。
65.s113、查找所述第二骨关节炎数据集中的数据缺失样本,并对所述数据缺失样本进行填充处理,得到第三骨关节炎数据集;其中,数据缺失样本因个别特征变量数据的缺失而导致无法使用,原则上应该全部剔除,但为了保证有足够建模预测使用的数据量,本实施例对数据缺失样本根据不同的缺失率情况采用不处理方式。
66.具体地,所述查找所述第二骨关节炎数据集中的数据缺失样本,并对所述数据缺失样本进行填充处理,得到第三骨关节炎数据集的步骤包括:判断所述数据缺失样本的数据缺失率是否大于预设缺失率阈值,若大于,则将对应的所述数据缺失样本删除,反之,则将所述数据缺失样本的对应的缺失特征变量采用数据完整样本对应特征变量的均值进行填充。需要说明是,预设缺失率阈值可根据实际应用需求进行确定,如若一条样本内特征变量的数据缺失率达到20%,即使采用最优填充方法也会降低模型预测的准确性,则将对应的缺失率阈值定为20%,将超过该阈值的样本直接整条删掉,反之,则对样本中对应缺失数据的特征变量进行有效填充继续使用。上述具体的缺失数据的填充方法可以不局限于均值填充,也可使用默认值填充、众数填充、knn填充、以及插值填充等多种方式,本实施例为在保证缺失数据填充可用的基础上,尽可能提高数据处理效率,对临床样本数据和x射线关节间隙宽度数据中数据缺失样本优选采用均值填充,而上述的其他填充方式原则上也在本发明的保护范围内。
67.s114、将所述第三骨关节炎数据集中连续特征变量进行标准化处理,得到第四骨关节炎数据集;其中,连续特征变量进行标准化原则上可以采用min-max标准化(min-max normalization)、log函数转换、atan函数转换、z-score标准化(zero-mena normalization)和模糊量化法中的任一方法实现即可。且本实施例优选采用常用的z-score标准化对临床样本数据和x射线关节间隙宽度数据中的各个连续特征变量进行标准化。
68.s115、将所述第四骨关节炎数据集中同一样本id对应的临床样本数据和x射线关节间隙宽度数据进行合并,得到第五骨关节炎数据集;其中,如前所述临床样本数据和x射线关节间隙宽度数据都来源于骨关节炎数据库(oai),且临床样本数据和x射线关节间隙宽度数据中同一个患者的数据都使用同一个样本id号进行记录,由于临床样本数据和x射线关节间隙宽度数据中的特征变量都会对骨关节炎病情预测预测产生影响,为了保证特征变量的丰富性和研究的全面性,进而提升模型预测分析的精准性,本实施例将同一患者对应的临床样本数据和x射线关节间隙宽度数据中的特征变量进行合并,得到一个拥有更多特征变量的样本,便于后续的研究使用。
69.s116、根据所述第五骨关节炎数据集,获取对应的骨关节炎病情评分统计分布,并根据所述骨关节炎病情评分统计分布,对所述第五骨关节炎数据集进行扩充,得到第六骨
关节炎数据集;其中,骨关节炎病情评分统计分布可通过对第五骨关节炎数据集按照kellgren-lawrence分级评分进行统计分析得到。骨关节炎的kellgren-lawrence分级评分系统是对膝关节骨性关节炎病情(严重程度)的评估分级方法,其根据膝关节x射线的表现,从轻到重分为:0级(正常的膝关节)、i级、ii级、iii级和iv级(最严重程度的膝关节骨性关节炎),且oai数据集中不同骨关节炎病情也采用0、1、2、3和4表示骨关节炎的逐渐递增的不同严重程度(不同病情预测分级),其中,0为正常、4表示非常严重。如图4所示,oai数据集的骨关节炎病情评分统计分布展示了数据集中不同kellgren-lawrence分级评分在整个数据集中的占比情况,便于直观了解到各个类型样本是否分布均匀,图中骨关节炎非常严重的样本数量显著比其他4种类型少,其表明在采集病例样本中,骨关节炎病情预测数据(严重程度)存在样本不均情况,此时,为了保证建模预测的有效性,则需要对数据样本显著少于其他类型的样本数据进行一定程度的扩充处理。
70.具体地,所述根据所述第五骨关节炎数据集,获取对应的骨关节炎病情评分统计分布,并根据所述骨关节炎病情评分统计分布,对所述第五骨关节炎数据集进行扩充,得到第六骨关节炎数据集的步骤包括:
71.根据所述第五骨关节炎数据集中x射线关节间隙宽度数据对应的kellgren-lawrence分级评分,统计所述骨关节炎病情评分统计分布;
72.根据所述骨关节炎病情评分统计分布,判断所述第五骨关节炎数据集内的各个等级的kellgren-lawrence分级评分是否分布均匀;
73.若所述第五骨关节炎数据集内的各个等级的kellgren-lawrence分级评分分布不均匀,则对所述骨关节炎病情评分统计分布中kellgren-lawrence分级评分占比最少的样本数据进行smote上采样,得到所述第六骨关节炎数据集。其中,smote上采样包括smote-regular、smote-borderline1、smote-borderline2和smote-svm四种方法,具体实际应用中可根据应用需求进行选择,并参照对应的现有技术实现即可。本实施例如上所述数据集中的骨关节炎非常严重的样本数量显著比其他4种类型少,因此,需要对数据集中kellgren-lawrence分级评分未4的样本采用smote上采样进行扩充,以使整个数据集内的样本数量均衡。
74.s117、获取所述第六骨关节炎数据集内各个特征变量与对应kellgren-lawrence分级评分的皮尔森相关系数,并将所述皮尔森相关系数大于预设相关度阈值的特征变量删除,得到第七骨关节炎数据集;其中,预设相关度阈值可根据实际应用需求确定,在实际相关性分析中会发现有一些特征变量与预测结果的相关性非常高,若采用此类特征变量建模,会导致无法观测到更多其他与预测结果相关的特征变量,而导致预测结果失真。因此,为了保证模型预测精准性的同时,能够有效分析更多特征变量对模型预测的价值,本实施例将超过一定预设相关度阈值的特征变量从数据集中移除,不再作为建模数据使用。如图5(a、b)所示,第六骨关节炎数据集中大多数特征变量与对应kellgren-lawrence分级评分的相关性都小于0.3,而左右膝关节的x-ray是否有骨赘、患者的左右膝关节的疼痛症状、以及左右膝盖的x-ray是否显示内侧关节间隙狭窄等部分特征变量与对应的皮尔森相关系数均大于0.6,明显超过大部分特征变量对应的皮尔森相关系数,则将该类特征变量删除即可。
75.s118、将所述第七骨关节炎数据集按照所述预设比例划分为训练集、验证集和测试集。其中,预设比例如前文所述根据实际模型训练需求确定即可,如将完成所有预处理后
得到的第七骨关节炎数据集按照65%、25%和10%的比例划分为训练集、验证集和测试集。在实际划分时,可通过常规的统计分析方法,检查划分后训练集、验证集和测试集对应的骨关节炎病情评分统计分布(骨关节炎严重程度分布)是否与划分前的数据集的骨关节炎病情评分统计分布有出入,若有出入时需要进行相应的调整,即在确保数据集划分过程随机性且满足训练数量要求的基础上,尽可能保证训练集、验证集和测试集中各特征的分布情况无显著差异,为后续的训练得到最优骨关节炎病情预测模型提供可靠保障。如表1所示划分出来的训练集、验证集和测试集与原始样本数据分布情况保持一致,但表2示出的训练集中骨关节炎kl评分为4的样本仅占总样本的5%左右,且测试集中骨关节炎kl评分为4的样本仅占3.14%,将会因训练集和测试集中kl为4的样本数量过少导致模型训练效果不理想,且预测结果不准确的情况,此种划分比例不建议采用,需要重新调整选择更为合适的预设比例进行合理的数据集划分。需要说明的是,上述给出的预设比例仅为示例性描述,此处不作具体限制。
76.表1.部分特征变量在训练集,验证集和测试集中的分布情况
[0077][0078]
表2.骨关节炎病情预测结果(严重程度)分别在训练集,验证集和测试集中分布情况
[0079]
k&ltraining set(%)validation set(%)test set(%)total(%)level 019.1919.3619.9019.29level 135.1135.9137.9635.56level 218.8918.6820.4218.96level 321.0119.9718.5920.53level 45.806.073.145.66
[0080]
s12、根据所述训练集和验证集,从不同的机器学习模型中确定最优骨关节炎病情预测模型;其中,机器学习模型原则上可以选用所有能够基于对应数据集都能够对骨关节炎病情进行预测的网络学习模型,如逻辑回归、支持向量机、决策树、xgboost和朴素贝叶斯模型等,但为了便于后续取得最优骨关节炎病情预测模型后进一步对数据集中的特征变量进行分析,进而确定与病情相关的影响因素,本实施例中的机器学习模型选择了逻辑回归、支持向量机、决策树和xgboost四种可以进行特征变量贡献度分析的学习模型进行了比较
研究,最终从四种模型中筛选出表现效果最好的模型作为最优骨关节炎病情预测模型。具体地,如图6所示,所述根据所述训练集和验证集,从不同的机器学习模型中确定最优骨关节炎病情预测模型的步骤s12包括:
[0081]
s121、预先建立各个机器学习模型,并采用所述训练集分别对各个机器学习模型进行训练,更新各个机器学习模型的模型参数;
[0082]
s122、采用所述验证集对已更新模型参数的各个机器学习模型进行训练,更新各个机器学习模型的模型超参数,得到对应的骨关节炎病情预测模型及mse指标值;
[0083]
s123、比较各个骨关节炎病情预测模型对应的mse指标值,并将最小mse指标值对应的骨关节炎病情预测模型确定为所述最优骨关节炎病情预测模型。
[0084]
具体地,xgboost、decision tree(dt)、支持向量机(svm)和逻辑回归(logistic regression)四种机器学习模型分别按照如下标准设置训练参数后,采用训练集和验证集进行骨关节炎病情预测预测,且对应的表现如表3所示:
[0085]
(1)xgboost模型来自于xgboost模块中的xgbclassifier,其对应的训练参数为learning rate=0.1、nestimators=100、max depth=6、colsample btree=0.8、loss function=multi:softmax;
[0086]
(2)dt模型来自sklearn.tree中的decisiontreeclassifier,其训练参数均选择默认值;
[0087]
(3)svm模型来自于sklearn.svm模块中svc,其对应的模型参数为kernel=linear;
[0088]
(4)logistic模型来自于sklearn.linear_model模块中logisticregression,其相应的训练参数为c=0.1、penalty=elasticnet、l1 ratio=0.5。
[0089]
表3.对于不同的机器学习模型,各kl等级估计f1分数和mse
[0090][0091]
如表3所示,树结构的模型(xgboost、dt)在oai数据集上的预测效果表现相对突出,而支持向量机svm和逻辑回归logistic regression在相同数据处理条件下对应的预测准确率远低于xgboost模型,且xgboost模型的mse为0.812,显著优于其他3个机器学习模型:dt(mse为1.317)、svm(mse为1.955)和logistics(mse为4.745),可见,本实施例确定的
最优骨关节炎病情预测模型应为xgboost模型。
[0092]
为了进一步验证xgboost模型在oai数据集上的优秀表现,选择f1-score得分进行评价,如表4所示,其在测试集的f1-score为0.69,且对于骨关节炎病情预测的kl评分分别为1、2和3的f1-score评分显著高于kl评分为0和4的f1-score;通过精确率和召回率得分,可以发现kl为0的预测精确率最高,kl为1的召回率最高。此外,通过图7所示的混淆矩阵可以较为直观的发现,xgboost在测试集上预测正确的占为68%,剩余32%预测错误的样本,但预测错误样本的预测结果仅接近于真实的骨关节炎病情预测的真实kl得分。
[0093]
表4.xgboost的验证集预测各kl的召回率、精确率和f1得分
[0094][0095]
s13、根据所述测试集和最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结果及影响因素;其中,骨关节炎病情预测结果即骨关节炎的严重程度评分,是将测试集输入上述确定的最优骨关节炎病情预测模型得到的预测结果,而影响因素为采用最优骨关节炎病情预测模型对数据集中参与模型训练的所有特征变量进行排序,确定的与预测结果高度相关的特征变量,且影响因素包括关键风险特征变量和潜在风险特征变量。其中,关键风险特征变量为确定对骨关节炎病情有高度影响的特征变量,而潜在风险特征变量为对骨关节炎病情有潜在影响的特征变量。具体地,如图8所示,所述根据所述测试集和最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结果及影响因素的步骤s13包括:
[0096]
s131、将所述测试集输入所述最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结果、以及所述测试集内各个特征变量对所述骨关节炎病情预测结果的特征贡献度得分;其中,最优骨关节炎病情预测模型在前述实施例中已验证oai数据集上确定为xgboost模型,那么可以在将测试集数据输入到最优骨关节炎病情预测模型得到对应的骨关节炎病情预测结果的同时,通过该xgboost模型基于(classification and regression trees(cart)算法,采用gini系数对所有的特征变量对预测结果的贡献度进行评分,得到图9对应的特征贡献度得分排名。需要说明的是,若在实际应用中采用的不是oai数据集进行研究,也可能得到的最优骨关节炎病情预测模型为其他3种之一,则可采用对应模型的特征贡献度评分算法得到数据集内不同特征变量对相应预测结果的贡献度,比如,决策树(dt)与xgboost同属于树结构模型,也可采用与xgboost相同的特征贡献度评分算法得到特征变量贡献度排序,而支持向量机svm和逻辑回归logistic regression则根据训练得到的每个特征变量的系数,得到各自对应的贡献度得分排序,具体实现参考现有技术即可,此处不再
赘述。
[0097]
s132、将各个特征贡献度得分按降序进行排列,得到对应的预测结果贡献度排名,并自上而下筛选出第一预设数目的特征贡献度得分;
[0098]
其中,预测结果贡献度排名按照上述方法得到后,即可根据实际研究需要确定筛选出来的特征贡献度得分的第一预设数目,比如,可参考现有骨关节炎研究文献,将第一预设数目确定为25,即从现有参与模型训练的所有特征变量中筛选出预测结果贡献度排名前25的特征变量如下表所示,进行后续的进一步分析研究。需要说明的是,此处给出的第一预设数目的数值仅为示例性说明,具体范围不作限定。
[0099]
表5.xgboost筛选的对骨关节炎病情预测贡献度排名前25的特征变量
[0100]
[0101][0102]
图9示出的预测结果贡献度排名前25个特征变量中radiograph information(x射线关节间隙宽度数据)的相关特征变量对xgboost模型预测结果的贡献度最大,且top5的风险特征变量(svrkjsm、svlkjsl、elgrisk、rxrkoa、svrkjsl)全部与radiographic information相关,有效证明了x射线关节间隙宽度数据的相关结果对评估骨关节炎的病情(严重程度)有着直接的指导意义;此外,临床样本数据中的一些关键临床指标对应的特征变量对于模型的预测贡献也比较大,比如与受试者膝关节活动程度直接相关的lkfhdeg、lfthrl和rlver等,也表明了这些关键临床指标可作为一种骨关节炎病情预测的间接方式,同时也揭示了年龄和体重这两个特征变量也是与骨关节炎病情严重程度直接相关的两个关键因素。上述预测结果贡献度排名也进一步验证了本发明将临床样本数据和x射线关节间隙宽度数据合并使用,共同作为预测建模的基础数据的操作,不仅保证了建模数据的完整性和多样性,而且也有助于提升预测研究的全面性,提高预测结果的准确性,以及增强模型泛化能力。
[0103]
s133、获取与所述第一预设数目的特征贡献度得分对应的特征变量作为风险特征变量,并按照特征贡献度得分由高到低从所述风险特征变量中筛选出第二预设数目的特征变量作为待分析风险特征变量;其中,第二预设数目也可根据实际研究需求进行确定,原则上不大于第一预设数目即可。按照上述方法筛选出第二预设数目的待分析风险特征变量后,将其作为筛选关键风险特征变量和潜在风险特征变量的依据。
[0104]
s134、根据所述待分析风险特征变量,确定所述关键风险特征变量和潜在风险特征变量。其中,关键风险特征变量和潜在风险特征变量即是基于待分析风险特征变量与对应kellgren-lawrence分级评分的相关性对待分析风险特征变量的进一步分类。具体地,所述根据所述待分析风险特征变量,确定所述关键风险特征变量和潜在风险特征变量的步骤包括:
[0105]
获取各个待分析风险特征变量与对应kellgren-lawrence分级评分的皮尔森相关系数,并对所述皮尔森相关系数按照降序进行排列,得到各个待分析风险特征变量对应的相关系数排名;
[0106]
判断各个待分析风险特征变量的相关系数排名和预测结果贡献度排名是否均在预设排名范围内;
[0107]
其中,预设排名范围也是可根据实际研究需求确定,若只有待分析风险特征变量的相关系数排名和预测结果贡献度排名均在前五名范围则认为该待分析风险特征变量为关键风险特征变量的话,就可以将预设排名范围设为5,同时,若某个待分析风险特征变量的相关系数排名和预测结果贡献度排名有一个不前五名范围内则认为该待分析风险特征变量不是关键风险特征变量而是潜在风险特征变量,其他情况依此类推。
[0108]
若各个待分析风险特征变量的相关系数排名和预测结果贡献度排名均在预设排名范围内,则判定所述待分析风险特征变量为所述关键风险特征变量,反之,则判定所述待分析风险特征变量为所述潜在风险特征变量。
[0109]
具体地,如前所述最优骨关节炎病情预测模型oai数据集上确定为xgboost模型的基础上,通过xgboost获得特征贡献度得分最高的第一预设数目的风险特征变量后,再从第一预设数目的风险特征变量中进一步筛选出第二预设数目的待分析特征变量,并分别统计其与骨关节炎病情的kl评分之间的相关性情况,比如,在获得25个风险特征变量后,从中筛选出前10个风险特征变量作为待分析特征变量,进一步分析各个待分析特征变量与对应骨关节炎病情的kl评分之间的皮尔森相关系数,得到如表6所示的相关系数排名。由表6的结果可知,其中相关性最高(相关系数大)的两个特征(p01rxrkoa、p02elgrisk)对模型的贡献度得分也偏大,且分别是临床样本数据和x射线关节间隙宽度数据中特征变量,此类特征可肯定是影响骨关节炎病情的关键风险特征变量。然而,p01svrkjsm与骨关节炎病情无明显的相关性,可其对xgboost模型的贡献度却最大,这表明发现并非相关性越大的特征变量,对模型的贡献度也越大,该特征变量不能必然作为影响骨关节炎病情的关键风险特征变量,但与骨关节炎病情存在潜在的内在联系,且证明该通过x-ray image直接观察骨关节之间的间隙情况得到的特征变量可以作为医生对于患者是否患有骨关节炎的一个关键证据,因此,此类待分析风险特征变量可以作为潜在风险特征变量,为临床医生的诊断及研究提供数据支撑。需要说明的是,上述关键风险特征变量和潜在风险特征变量仅给出了对应的示例,并不代表实际研究得到对应特征变量分类。
[0110]
表6.xgboost对骨关节炎病情预测的前10个重要特征贡献评分及相关系数
[0111][0112]
本技术实施例通过提出一种通过对收集到的患者临床信息和x射线检测结果进行相应的特征工程处理后,将二者对应的特征变量合并作为骨关节炎病情预测预测的基础数据集,为后续从多个不同的机器学习模型中筛选出最优骨关节炎病情预测模型提供了丰富全面的数据信息,保证了所选最优骨关节炎病情预测模型具有高精准性和强泛化能力,且依此模型可对骨关节炎的病情预测结果和影响因素进行准确有效的预测,不仅在弥补现有技术的不足且为临床医生对骨关节炎患者病情的评估诊断提供便利的同时,有效提高了预测结果的精准性,还给出数据集中不同风险特征变量的有效分类方法,进一步提升了对骨关节炎的发病预测、治疗指导和治疗效果跟踪的应用价值。
[0113]
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这
些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。
[0114]
在一个实施例中,如图10所示,提供了一种骨关节炎病情预测系统,所述系统包括:
[0115]
数据获取模块1,用于获取骨关节炎数据集,并将所述骨关节炎数据集按照预设比例划分为训练集、验证集和测试集;所述骨关节炎数据集包括临床样本数据和x射线关节间隙宽度数据;
[0116]
模型构建模块2,用于根据所述训练集和验证集,从不同的机器学习模型中确定最优骨关节炎病情预测模型;
[0117]
结果预测模块3,用于根据所述测试集和最优骨关节炎病情预测模型,得到对应的骨关节炎病情预测结果及影响因素。
[0118]
需要说明的是,关于骨关节炎病情预测系统的具体限定可以参见上文中对于骨关节炎病情预测方法的限定,在此不再赘述。上述骨关节炎病情预测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0119]
图11示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图11所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种骨关节炎病情预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0120]
本领域普通技术人员可以理解,图11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比途中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
[0121]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
[0122]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
[0123]
综上,本发明实施例提供的一种骨关节炎病情预测方法、系统、计算机设备及存储介质,其骨关节炎病情预测方法实现了将获取的临床样本数据和x射线关节间隙宽度数据合并最为骨关节炎数据集,结合统计分析对不同特征变量进行必要的特征工程预处理后,按照预设比例划分建立预测模型所需的数据集,且根据训练集和验证集对预设的多个不同类型的机器学习模型进行学习训练,并根据各个模型mes指标大小筛选确定出最优骨关节炎病情预测模型,再采用确定的最优骨关节炎病情预测模型对测试集数据进行预测,得到对应的骨关节炎病情预测结果,并基于该骨关节炎病情预测结果进一步确定对应的关键风
险变量特征(关键影响因素)和潜在风险变量特征(潜在影响因素)的技术方案,通过将临床样本数据和x射线关节间隙宽度数据的特征变量合并作为骨关节炎病情预测预测的基础数据集,为最优骨关节炎病情预测模型提供丰富全面的数据信息的方法,保证了所选最优骨关节炎病情预测模型具有高精准性和强泛化能力,且提高了依此模型可对骨关节炎的病情预测结果和影响因素进行预测的准确性和有效性,为临床医生对骨关节炎患者病情的评估诊断提供有效参考,还给出数据集中不同风险特征变量的有效分类方法,进一步提升了对骨关节炎的发病预测、治疗指导和治疗效果跟踪的应用价值。
[0124]
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0125]
以上所述实施例仅表达了本技术的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本技术的保护范围。因此,本技术专利的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献