一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于SHAP值的风湿免疫疾病特征分类方法及系统与流程

2023-03-18 21:39:29 来源:中国专利 TAG:

一种基于shap值的风湿免疫疾病特征分类方法及系统
技术领域
1.本发明融合了医学、信息科学以及计算机应用等领域的知识,具体涉及一种基于shap值的风湿免疫疾病特征分类方法及系统。


背景技术:

2.风湿免疫疾病是内科学里的一个亚专科学,是指一组主要累及骨、关节和软组织的疾病,与自身免疫系统相关联,造成关节炎等各个系统器官的损伤。风湿免疫疾病分类复杂,疾病种类多,其各种疾病的症状也多种多样,有的疾病甚至症状相似。分类风湿免疫疾病是一种复杂的过程,为了更好地确定患者所患风湿免疫疾病的类型,需要仔细区别各种疾病的特征,该特征包括出现的临床症状、辅助检查结果等。通过更为精确的疾病特征,可以更好地将疾病分类。


技术实现要素:

3.本发明提出一种基于shap值的风湿免疫疾病特征分类方法及系统,从患者过往病历中收集风湿免疫疾病特征信息,进行充分利用,辅助医生治疗,减轻医生压力,提高医疗诊治效率。
4.为实现上述目的,本发明所采用的技术方案为:一种基于shap值的风湿免疫疾病特征分类方法,包括以下步骤:
5.基于风湿免疫疾病的特征,构建原始特征数据集,所述特征反映风湿免疫疾病症状;
6.基于所述原始特征数据集,构建与所述特征相对应的风湿免疫疾病表征疾病类型数据集;
7.基于所述原始特征数据集和风湿免疫表征疾病类型数据集,分别用gcforest、xgboost、lightgbm、rf四种集成学习分类器,计算原始特征数据集中每一个特征的shap值;
8.根据所述四种模型计算出的shap值,对每种模型下的特征进行排序,保留总特征数的1/3个shap值最高的特征,四种模型保留的特征中有处于相同位置的相同特征定义为相似特征,选择和其他三种模型相似特征最多的模型,作为要使用的分类器;
9.根据所选择模型计算出的特征的shap值,对特征进行重要性评估;
10.基于所评估特征的重要性,结合风湿免疫科医生的专业建议,进行特征选择;
11.将风湿免疫疾病信息输入到所选择的分类模型,得到表征疾病类型及其重要特征。
12.收集到的风湿免疫疾病特征包括关节特征、血液检查特征以及实验室影像学检查特征;关节特征包括颞颌关节、肩关节、肘关节、腕关节、近端指间关节、掌指关节、髋关节、膝关节、踝关节和/或跖趾关节;血液检查特征包括免疫学检查特征和血常规检查特征;实验室影像学检查特征包括关节影像学检查和肺部影像检查特征。
13.原始特征数据集涵盖风湿免疫疾病的所有症状表现信息;定期更新特征,在特征
中,明确说明症状的具体表现、持续的时间、检查指标等,多于一处的特殊症状说明其数量。
14.构建反映风湿免疫疾病类型的表征疾病类型数据集时:根据所述的风湿免疫疾病特征原始数据集,其中的特征包括关节特征、血液检查特征和实验室影像学检查特征,根据这三类特征的组合构建对应的表征疾病类型数据集。
15.为风湿免疫疾病特征原始数据集中的特征计算shap值时,
16.分别使用gcforest、xgboost、lightgbm、rf分类器计算原始特征数据集中特征的shap值,对于gcforest分类器,使用kernelshap计算特征的shap值;对于xgboost、lightgbm、rf分类器使用treeshap计算特征的shap值;
17.具体步骤如下:
18.首先,将原始特征数据集输入到所述模型中;
19.其次,shap框架为每一个数据点的每一个特征赋予shap值,该shap值表示特征对于预测结果的贡献值;
20.最后,针对每一种模型,将每个特征按shap值进行排序;
21.在上述步骤中,每个特征j的shap值定义如下:
[0022][0023]
其中,n表示原始特征数据集,|n|表示数据集中元素的个数,s表示数据集n的任意一个特征子集,|s|表示子集中元素的个数,nleft{j}表示特征j之前的序列中所有元素的一个子集,f(s)表示特征子集s的模型的输出,f(s∪{j})表示特征j的累积贡献值;
[0024]
同时,kernelshap的时间复杂度是:
[0025]
o(tl2m)
[0026]
treeshap的时间复杂度是:
[0027]
o(tld2)
[0028]
其中t是个体树的数量,l是每棵树中的最大叶子数,d是每棵树的最大深度,m是每棵树中的最大特征数。
[0029]
根据所选择模型计算出的shap值,对特征进行重要性评估时,
[0030]
首先,根据shap值对特征重要性进行排序;
[0031]
其次,结合风湿免疫科医生的专业建议,根据实际情况,对特征重要性进行评估。
[0032]
特征选择时,
[0033]
首先,将上述根据shap值进行重要性评估后的特征排序;
[0034]
其次,将上述在风湿免疫科医生的指导下进行重要性评估后的特征排序;
[0035]
最后,选择两次排序后位置靠前的特征作为重要特征。
[0036]
同时还提供一种基于shap值的风湿免疫疾病特征分类系统,包括信息收集模块、基于特征shap值分类器选择模块、特征选择模块以及分类模块;
[0037]
信息收集模块,用于收集风湿免疫疾病的特征,构建原始特征数据集,所述特征反映风湿免疫疾病症状;根据原始特征数据集,在风湿免疫科医生的专业指导下,构建反映风湿免疫疾病类型的表征疾病类型数据集;
[0038]
基于特征shap值分类器选择模块,在完成风湿免疫疾病特征原始数据集后,分别用gcforest、xgboost、lightgbm、rf四种集成学习分类器,计算原始特征数据集中每一个特
征的shap值,并根据计算出的特征shap值,确定合适的分类器;
[0039]
特征选择模块,在获取风湿免疫疾病特征原始数据集、风湿免疫表征疾病类型数据集、合适的分类器的基础上,在风湿免疫科医生的专业指导下,对疾病特征重要性进行评估,评估后选择出重要的特征;
[0040]
分类模块,将风湿免疫疾病特征作为输入,经过分类器,得到表征疾病类型及其特征。
[0041]
本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取所述计算机可执行程序并执行,处理器执行计算可执行程序时能实现本发明所述基于shap值的风湿免疫疾病特征分类方法。
[0042]
一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于shap值的风湿免疫疾病特征分类方法。
[0043]
与现有技术相比,本发明至少具有以下有益效果:
[0044]
本发明使用基于shap值的风湿免疫疾病特征分类方法,与现有的风湿免疫疾病特征分类方法相比,能够在面对症状繁多的情况下,确定出各个疾病最关键的特征,为医生更好地对疾病进行特征分类和决策提供重要数据,有助于提高诊断效率;能够对相似的症状,进行快速的分类,降低误诊率;能够帮助医生掌握更多疾病特征信息,提高医生的知识水平。
附图说明
[0045]
图1为一种风湿免疫疾病特征分类方法流程图。
[0046]
图2为一种风湿免疫疾病特征分类系统分类阶段流程图。
[0047]
图3为一种风湿免疫疾病特征分类系统结构图。
[0048]
图4为一种风湿免疫疾病特征分类系统数据交互示意图。
具体实施方式
[0049]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050]
按照图1所示的风湿免疫疾病特征分类方法的流程图,主要有以下步骤:
[0051]
步骤1,收集风湿免疫疾病的症状信息
[0052]
收集风湿免疫疾病的症状信息,主要是通过查阅病历、阅读专业文献资料、咨询医生和专家等方式。其中症状信息包括关节信息、血液检查信息、影像学检查信息等。通过查阅病历可以从实际案例的角度补充其他途径获取的知识,使收集到的信息更为完整。通过阅读专业文献资料可以积累大量医学名词及同义词,使收集到的信息更加统一。
[0053]
步骤2,收集风湿免疫疾病类型
[0054]
收集风湿免疫疾病类型,主要是通过查阅相关书籍,咨询医生和专家等方式。通过查阅相关书籍,可以获得完整的疾病类型,通过咨询医生和专家可以估计疾病出现的频率分布。
[0055]
步骤3,用四种分类模型计算特征的shap值
[0056]
根据步骤1和步骤2得到的信息,可以构建风湿免疫疾病原始特征数据集和风湿免疫表征疾病类型数据集。将风湿免疫疾病原始特征数据集表示为n,取n的任意一个子集s,将s分别输入gcforest、xgboost、lightgbm、rf四种模型中,分别得到输出f(s)。则s中的元素j的shap值可以由如下公式表示:
[0057][0058]
其中,|n|表示数据集中元素的个数,|s|表示子集中元素的个数,nleft{j}表示特征j之前的序列中所有元素的一个子集,f(s)表示特征子集s的模型的输出,f(s∪{j})表示特征j的累积贡献值。
[0059]
步骤3,确定要使用的分类器
[0060]
首先,分别将四种模型下的特征按照其计算出的shap值进行排序;
[0061]
其次,分别在四种模型下,保留总特征数的1/3的shap值最高的特征;
[0062]
然后,观察四种模型保留的特征中是否有处于相同位置的相同特征,将这样的特征定义为相似特征;
[0063]
最后,选择四种模型中与其他三种模型有相似特征最多的模型,并将其确定为要使用的分类器。
[0064]
步骤4,评估特征重要性
[0065]
首先,根据shap值对特征重要性进行排序;
[0066]
其次,结合风湿免疫科医生的专业建议,根据实际情况,对特征重要性进行评估。
[0067]
步骤5,根据特征的重要性,选择特征
[0068]
首先,将上述根据shap值进行重要性评估后的特征排序;
[0069]
其次,将上述在风湿免疫科医生的指导下进行重要性评估后的特征排序;
[0070]
最后,选择两次排序后位置靠前的特征作为重要特征。
[0071]
步骤6,将特征信息输入所选择的模型,得到结果。本步骤中形成了基于shap值的特征分类方法,其分类流程如图2所示。
[0072]
图3所示基于模糊逻辑的风湿免疫疾病特征分类系统,包括以下模块:
[0073]
信息收集模块,用于收集风湿免疫疾病的特征,构建原始特征数据集,所述特征反映风湿免疫疾病症状;根据原始特征数据集,在风湿免疫科医生的专业指导下,构建反映风湿免疫疾病类型的表征疾病类型数据集。
[0074]
基于特征shap值分类器选择模块,在完成风湿免疫疾病特征原始数据集后,分别用gcforest、xgboost、lightgbm、rf四种集成学习分类器,计算原始特征数据集中每一个特征的shap值,并根据计算出的特征shap值,确定合适的分类器。
[0075]
特征选择模块,在获取风湿免疫疾病特征原始数据集、风湿免疫疾病表征疾病类型数据集、合适的分类器的基础上,在风湿免疫科医生的专业指导下,对疾病特征重要性进行评估,评估后选择出重要的特征。
[0076]
分类模块,将风湿免疫疾病特征作为输入,经过分类器,得到表征疾病类型及其重要特征。
[0077]
图4所示风湿免疫疾病特征识别系统的交互图。
[0078]
在实际生活中,医疗数据来自于实际诊断过程,经过系统的信息收集模块的收集,可以得到最新、最常见的症状信息,同时在诊断过程中还要考虑患者的其它情况,如既往病史、家族病史等等。在图4中,风湿免疫疾病患者在与系统交互时,可以输入自己的疾病信息,通过本发明所述的特征识别系统得到疾病特征分类结果。
[0079]
另外,本发明还可以提供一种计算机设备,包括处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述基于shap值的风湿免疫疾病特征分类方法。
[0080]
另一方面,本发明提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于shap值的风湿免疫疾病特征分类方法。
[0081]
所述计算机设备可以采用笔记本电脑、桌面型计算机或工作站。
[0082]
处理器可以是中央处理器(cpu)、数字信号处理器(dsp)、专用集成电路(asic)或现成可编程门阵列(fpga)。
[0083]
对于本发明所述存储器,可以是笔记本电脑、桌面型计算机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
[0084]
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。
[0085]
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献