一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于改进的AdaBoost的乳腺癌生存预测方法

2022-08-13 23:24:24 来源:中国专利 TAG:

技术特征:
1.一种基于改进的adaboost的乳腺癌生存预测方法,其特征在于,该方法包括以下步骤:步骤1:数据输入模块,用于获取待预测的乳腺癌数据;步骤2:数据预处理模块,用于对待预测的乳腺癌数据进行数据的预处理;步骤3:adaboost训练模块,将权值改进的选择性集成弱分类器的adaboost算法处理乳腺癌数据集,同时数据按照7:3的比值分为训练样本集和测试集两组;步骤4:adaboost测试模块,测试数据用于加载训练好的adaboost模型,利用测试样本集对训练好的adaboost模型进行测试;步骤5:乳腺癌生存预测模块,利用训练好的adaboost模型作为最终应用模型,用于乳腺癌的生存状况预测,关于乳腺癌的生存状况预测是一个二分类问题,包括活着和死亡两种状态。2.根据权利要求1所述的一种基于改进的adaboost的乳腺癌生存预测方法,其特征在于,所述步骤2中,数据预处理模块,对待预测的乳腺癌数据进行预处理,具体步骤为:步骤2-1对缺失的特征值进行填补;步骤2-2对异常值进行处理。3.根据权利要求1所述的一种基于改进的adaboost的乳腺癌生存预测方法,其特征在于,所述步骤3中,adaboost训练模块,根据训练集训练出权值改进的选择性集成弱分类器的adaboost算法,具体步骤为:步骤3-1从数据中调用训练集train={(x1,y1),(x2,y2),

,(x
n
,y
n
)},其中)},其中是第i个实例的第j个特征,n为训练集实例个数,n为特征总数;步骤3-2初始化训练样本权值:每一个样本初始权重均为初始化权值向量为步骤3-3在训练集上训练得到弱分类器h
t
,并计算分类器的错误率ε
t
,其计算公式为:其中,h
t
(x
n
)为弱分类器h
t
对样本x
n
的预测结果;步骤3-4计算当前的弱分类器h
t
的权重值,其计算公式为:其中,p
t
是识别正确的正样本的权值和,步骤3-5如果ε
t
<0.5,则回到回到步骤3-3,重新训练h
t
;步骤3-6更新样本权重值。统计第n个样本在前t个弱分类器的组合下能正确分类的概率为
根据e
t
(n)计算第n个样本第t 1次的权值w
t 1
(n),前t次的分类准确率越低,权值提升1越大,其计算公式为:其中,z
t
是归一化因子,其计算公式为:步骤3-7返回训练阶段得到的t个弱分类器集合h={h1,h2,

,h
t
};步骤3-8定义两个弱分类器h
i
和h
j
之间分类结果的相似度为rim(i,j),即被两个弱分类器划分到相同类别的样本数量占总样本数n的比重,其计算公式为:根据两个弱分类器之间的分类结果去除相似性过高的弱分类器,剔除了冗余的弱分类器,得到最终的弱分类器集合h={h1,h2,

,h
t
},并且能够保持相同甚至更高的分类准确率。4.根据权利要求1所述的一种基于改进的adaboost的乳腺癌生存预测方法,其特征在于,所述步骤4中,adaboost测试模块,将权值改进的选择性集成弱分类器的adaboost算法处理乳腺癌测试数据集,具体步骤为:步骤4-1从数据中调用测试集train={(x1,y1),(x2,y2),

,(x
n
,y
n
)},其中)},其中是第i个实例的第j个特征,n为测试集实例个数,n为特征总数;步骤4-2根据最终得到的弱分类器集合h={h1,h2,

,h
t
},预测训练集,每个样本的训练结果为

技术总结
本发明涉及一种基于改进的AdaBoost的乳腺癌生存预测方法,该方法包括以下步骤:数据输入模块、数据预处理模块、AdaBoost训练模块、AdaBoost测试模块、乳腺癌生存预测模块,利用训练好的AdaBoost模型作为最终应用模型,用于乳腺癌的生存状况预测。与现有的相关技术相比,本发明中AdaBoost算法中弱分类器的加权参数不但与错误率有关,还与其对正样本的识别能力有关,改变弱分类器的权重值,同时采用一种弱分类器相似度度量方式,对弱分类器进行选择性集成,组合成强分类器,提高了分类的性能,提高了分类的性能。高了分类的性能。高了分类的性能。


技术研发人员:权霜霜 王卫兵 郑岩
受保护的技术使用者:哈尔滨理工大学
技术研发日:2022.06.04
技术公布日:2022/8/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献