一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种肥胖与肠道微生物关联模型构建方法与流程

2023-10-16 18:27:10 来源:中国专利 TAG:
1.本发明属于肠道微生物
技术领域
:,具体为一种肥胖与肠道微生物关联模型构建方法。
背景技术
::2.随着计算机技术的快速发展,可用来处理肠道微生物数据的算法模型变得越来越多。而肠道微生物数据的指数增长、也增加了处理肠道微生物研究数据的方法,使得越来越多的计算模型用于处理肠道微生物问题变得可行。目前,已有大量计算的方法被用来处理肠道微生物与疾病预测问题。3.但是常见的预测不够精确,缺少肥胖与肠道微生物关联模型,使得后续的数据参考不够精确。技术实现要素:4.本发明的目的在于:为了解决上述提出的问题,提供一种肥胖与肠道微生物关联模型构建方法。5.本发明采用的技术方案如下:一种肥胖与肠道微生物关联模型构建方法,所述肥胖与肠道微生物关联模型构建方法包括以下步骤:6.s1:进行数据集预处理,将所有肠道微生物原始数据,按照生物分类学分类为六个数据集,分别为门、纲、目、科、属、种;对每个数据集的预处理主要采取了以下步骤:7.(1)筛选:人工筛选剔除掉与分类预测结果相关性较小或无关的属性;8.(2)转换:将现有数据特征属性转化为便于数据分析处理的新属性;9.(3)修整:某些特征中的数据出现缺失或数值为零,通过查询测序分析的原始数据将这些数据进行补充和修整;10.s2:进行ntree值的优化,确定模型中的决策树个数ntree的值,先把决策树分裂结点时的变量个数mfeature的值设为默认值,函数randomforestclassifier()中的mfeature值默认就是训练数据的特征个数,然后对ntree分别取值时,建立相应的模型,观察测试集的分类准确率变化趋势;11.s3:进行try值和f值的优化,在确定了随机森林中决策树的个数之后,还需要进一步确定mtry和f这两个参数的取值;首先将mtry和f这两个参数设为默认大小,随后改变ntree值的大小,多次实验取值后确定ntree的参数值;然后选定每一个ntree值不变,同时改变mtry和f两个值;计算模型在上述改变下获取的预测结果袋外错误率ooberror(out-of-bagerror),选取数值最小的预测结果误差所对应着的参数,则该参数值就是随机森林模型的最佳参数值;12.s4:进行roc曲线的分析,模型需要返回每个测试样本的类预测概率;然后按照预测概率由高到低的顺序,对测试样本进行排序;对于给定的样本x,假设分类器返回的值为f(x)→[0,1];对于两类分类问题,常常选择阈值t,使f(x)≥t的样本被预测为正的,而其它样本被预测为负的;这样,真阳性和假阳性都是t的函数,可以被表示为tp(t)和fp(t);进一步,真阳性率和假阳性率就可以被计算出来;在二维坐标系中,如果令假阳性率作为横坐标,真阳性率作为纵坐标,那么所有不同的t值所对应假阳性率和真阳性率代表的点,就构成了一条roc曲线;为了估计模型的性能,可以计算roc曲线下的面积(areaunderthecurve,auc);面积越接近0,对应模型的预测性能越低;预测完全正确的模型面积为1;[0013]s5:进行模型精度评估,基于真正类(tp),假正类(fp),真负类(tn),假负类(fn)4项指标评价模型;通常采用精度指标(accuracy)来衡量模型的性能;[0014]s6:进行特征重要性评估[0015]随机森林模型还具有特征重要性评估的功能,它提供了两种特征重要性度量的方法;[0016](1)依据gini指数的变化程度来反映每个特征的重要程度;[0017](2)依据分类准确度降低的程度来反映每个特征的重要程[0018]s7:进行结果分析,先进行数据处理与数据集分类,将数据样本按照bmi分为三组,分别用he代表正常、ow代表超重、ob代表肥胖,经过对原始数据的人工阅读筛选,修整处理得到数据集数据特征有87个;[0019]s8:进行ntree的优化,ntree是指随机森林中的决策树数目,是随机森林中很重要的参数在对模型的决策树个数ntree取值的调整上,先把mtry和f值设为默认值,然后对ntree分别取500,1000,1500,2000这个值时,建立相应的模型,观察测试集的分类准确率变化趋势,最佳ntree的取值是选取error值最低时的ntree值,得到数据集的ntree取值为580;[0020]s9:进行mtry值和f值的优化,在确定了随机森林中决策树的个数之后,还需要进一步确定mtry与f这个两参数的取值,这两个参数分别用来决定在随机森林中决策树每次结点分裂时所需要的的特征个数以及随机抽取的样本个数;这个两个参数的选择非常重要,我们在构建模型的过程中必须通过逐次计算来挑选最佳的值,在确定mtry值和f值的最佳值时,本研究采取如下步骤:(1)根据确定的ntree值和本研究的每个数据集中的数据特征,mtry取值选择每个特征数据的二次方根及其二次方根±2,经计算,取27、28、29、30、31共五个数值,(2)调用r语言中的rattle包,输入已确定的ntree值,分别输入三个待确定的mtry值和f值,依据mtry值和f值不同组合在测试集上分类准确率的大小变化,从而确定的mtry值和f值的最佳取值,得到以下最佳mtry和f的最佳取值:数据集的mtry和f取值分别为11、27时,测试数据集样本测试ooberror为50%;[0021]s10:进行模型构建验证,混淆矩阵显示了基于训练数据构建的随机森林模型的预测结果,该矩阵主要用于比较模型预测值同实际值之间的差别,这有利于我们根据实际需求去调整相应的模型;混淆矩阵中的行表示实际值,列表示预测值,其中第一个矩阵中的数据则代表该类别样本占总样本的比例,另一个矩阵中的数据表示样本的个数;根据表2和表3所示,有0个样本实际类别是正常,被误预测为超重或肥胖,占比是0%,误差率是0%;有2个样本实际类别是肥胖,却被误预测为超重,占比是25%,误差率是100%;有2个样本实际类别是超重,被误预测为正常,占比是25%,误差率是100%,因此属水平上总体错误率:50%,平均类错误:66.67%;[0022]s11:利用重要菌群再次建模使用重要性评估中得到的重要菌群进行二次建模,再次利用ooberror评估测试数据集样本测试精确度,利用oobroc曲线评估模型的精度,结果显示,auc值为1.938,模型的精度最高。[0023]在一优选的实施方式中,所述步骤s2中,实现代码如下:[0024][0025]在一优选的实施方式中,所述步骤s3中分析软件为r语言,程序包为:rattle、rgtk2。[0026]在一优选的实施方式中,所述步骤s5中分析软件为r语言,程序包为:rattle、rgtk2。[0027]在一优选的实施方式中,所述步骤s2中,分析软件为r语言,程序包为randomforest。[0028]在一优选的实施方式中,所述步骤s1中,使用随机森林算法进行数据处理,随机森林是分类和回归树(cart)的组合,在与训练集大小相同的数据集上训练,称为bootstraps,由训练集本身的随机重采样创建;决策树构建后,一组不包含任何来自原始数据集out-of-bag(oob)的特定数据集被用作测试集;所有测试集分类的错误率是oob对泛化误差的估计;随机森林算法遵循特定的树生长、树组合、自我测试和后处理规则,它对过度拟合具有鲁棒性,与其他机器学习算法相比,它在异常值和高维参数空间中更稳定。[0029]综上所述,由于采用了上述技术方案,本发明的有益效果是:[0030]本发明中,采用随机森林算法进行模型构建,使用重要性评估中得到的重要菌群进行二次建模,再次利用ooberror评估测试数据集样本测试精确度,利用oobroc曲线评估模型的精度。结果显示,auc值为1.938,模型的精度最高,从而提高了整个系统方法在使用过程中的预测精度,提高了整体预测的便利性与高效性,同时也为后续的其他研究实验提供了更为精准的实验数据。附图说明[0031]图1为本发明的ntree拟合度图;[0032]图2为本发明中ooberror图;[0033]图3为本发明中oobroc曲线图;[0034]图4为本发明中再次建模的ooberror图;[0035]图5为本发明中再次建模的oobroc曲线图。具体实施方式[0036]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。[0037]参照图1-5,[0038]一种肥胖与肠道微生物关联模型构建方法,所述肥胖与肠道微生物关联模型构建方法包括以下步骤:[0039]s1:进行数据集预处理,将所有肠道微生物原始数据,按照生物分类学分类为六个数据集,分别为门、纲、目、科、属、种;对每个数据集的预处理主要采取了以下步骤:[0040](1)筛选:人工筛选剔除掉与分类预测结果相关性较小或无关的属性;[0041](2)转换:将现有数据特征属性转化为便于数据分析处理的新属性;[0042](3)修整:某些特征中的数据出现缺失或数值为零,通过查询测序分析的原始数据将这些数据进行补充和修整;[0043]s2:进行ntree值的优化,确定模型中的决策树个数ntree的值,先把决策树分裂结点时的变量个数mfeature的值设为默认值,函数randomforestclassifier()中的mfeature值默认就是训练数据的特征个数,然后对ntree分别取值时,建立相应的模型,观察测试集的分类准确率变化趋势;[0044]s3:进行try值和f值的优化,在确定了随机森林中决策树的个数之后,还需要进一步确定mtry和f这两个参数的取值;首先将mtry和f这两个参数设为默认大小,随后改变ntree值的大小,多次实验取值后确定ntree的参数值;然后选定每一个ntree值不变,同时改变mtry和f两个值;计算模型在上述改变下获取的预测结果袋外错误率ooberror(out-of-bagerror),选取数值最小的预测结果误差所对应着的参数,则该参数值就是随机森林模型的最佳参数值;[0045]表1mtry和f取值不同时测试数据集样本测试错误率[0046]figure2-12testdatasetsampletesterrorratewhenmtryandfvaluesaredifferent[0047][0048][0049]s4:进行roc曲线的分析,模型需要返回每个测试样本的类预测概率;然后按照预测概率由高到低的顺序,对测试样本进行排序;对于给定的样本x,假设分类器返回的值为f(x)→[0,1];对于两类分类问题,常常选择阈值t,使f(x)≥t的样本被预测为正的,而其它样本被预测为负的;这样,真阳性和假阳性都是t的函数,可以被表示为tp(t)和fp(t);进一步,真阳性率和假阳性率就可以被计算出来;在二维坐标系中,如果令假阳性率作为横坐标,真阳性率作为纵坐标,那么所有不同的t值所对应假阳性率和真阳性率代表的点,就构成了一条roc曲线;为了估计模型的性能,可以计算roc曲线下的面积(areaunderthecurve,auc);面积越接近0,对应模型的预测性能越低;预测完全正确的模型面积为1;[0050]s5:进行模型精度评估,基于真正类(tp),假正类(fp),真负类(tn),假负类(fn)4项指标评价模型;通常采用精度指标(accuracy)来衡量模型的性能;[0051]s6:进行特征重要性评估[0052]随机森林模型还具有特征重要性评估的功能,它提供了两种特征重要性度量的方法;[0053](1)依据gini指数的变化程度来反映每个特征的重要程度;[0054](2)依据分类准确度降低的程度来反映每个特征的重要程[0055]s7:进行结果分析,先进行数据处理与数据集分类,将数据样本按照bmi分为三组,分别用he代表正常、ow代表超重、ob代表肥胖,经过对原始数据的人工阅读筛选,修整处理得到数据集数据特征有87个;[0056]s8:进行ntree的优化,ntree是指随机森林中的决策树数目,是随机森林中很重要的参数在对模型的决策树个数ntree取值的调整上,先把mtry和f值设为默认值,然后对ntree分别取500,1000,1500,2000这个值时,建立相应的模型,观察测试集的分类准确率变化趋势,最佳ntree的取值是选取error值最低时的ntree值,得到数据集的ntree取值为580;[0057]s9:进行mtry值和f值的优化,在确定了随机森林中决策树的个数之后,还需要进一步确定mtry与f这个两参数的取值,这两个参数分别用来决定在随机森林中决策树每次结点分裂时所需要的的特征个数以及随机抽取的样本个数;这个两个参数的选择非常重要,我们在构建模型的过程中必须通过逐次计算来挑选最佳的值,在确定mtry值和f值的最佳值时,本研究采取如下步骤:(1)根据确定的ntree值和本研究的每个数据集中的数据特征,mtry取值选择每个特征数据的二次方根及其二次方根±2,经计算,取27、28、29、30、31共五个数值,(2)调用r语言中的rattle包,输入已确定的ntree值,分别输入三个待确定的mtry值和f值,依据mtry值和f值不同组合在测试集上分类准确率的大小变化,从而确定的mtry值和f值的最佳取值,得到以下最佳mtry和f的最佳取值:数据集的mtry和f取值分别为11、27时,测试数据集样本测试ooberror为50%;[0058]s10:进行模型构建验证,混淆矩阵显示了基于训练数据构建的随机森林模型的预测结果,该矩阵主要用于比较模型预测值同实际值之间的差别,这有利于我们根据实际需求去调整相应的模型;混淆矩阵中的行表示实际值,列表示预测值,其中第一个矩阵中的数据则代表该类别样本占总样本的比例,另一个矩阵中的数据表示样本的个数;根据表2和表3所示,有0个样本实际类别是正常,被误预测为超重或肥胖,占比是0%,误差率是0%;有2个样本实际类别是肥胖,却被误预测为超重,占比是25%,误差率是100%;有2个样本实际类别是超重,被误预测为正常,占比是25%,误差率是100%,因此属水平上总体错误率:50%,平均类错误:66.67%;[0059]表2随机森林模型混淆矩阵表[0060][0061]表3测试数据预测结果表[0062]table3-24testdataforecastresultstable[0063][0064]s11:利用重要菌群再次建模使用重要性评估中得到的重要菌群进行二次建模,再次利用ooberror评估测试数据集样本测试精确度,利用oobroc曲线评估模型的精度,结果显示,auc值为1.938,模型的精度最高。[0065]表4重要菌群[0066][0067][0068]所述步骤s2中,实现代码如下:[0069][0070][0071]所述步骤s3中分析软件为r语言,程序包为:rattle、rgtk2。[0072]所述步骤s5中分析软件为r语言,程序包为:rattle、rgtk2。[0073]所述步骤s2中,分析软件为r语言,程序包为randomforest。[0074]所述步骤s1中,使用随机森林算法进行数据处理,随机森林是分类和回归树(cart)的组合,在与训练集大小相同的数据集上训练,称为bootstraps,由训练集本身的随机重采样创建;决策树构建后,一组不包含任何来自原始数据集out-of-bag(oob)的特定数据集被用作测试集;所有测试集分类的错误率是oob对泛化误差的估计;随机森林算法遵循特定的树生长、树组合、自我测试和后处理规则,它对过度拟合具有鲁棒性,与其他机器学习算法相比,它在异常值和高维参数空间中更稳定。[0075]本发明中,采用随机森林算法进行模型构建,使用重要性评估中得到的重要菌群进行二次建模,再次利用ooberror评估测试数据集样本测试精确度,利用oobroc曲线评估模型的精度。结果显示,auc值为1.938,模型的精度最高,从而提高了整个系统方法在使用过程中的预测精度,提高了整体预测的便利性与高效性,同时也为后续的其他研究实验提供了更为精准的实验数据。[0076]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。[0077]以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12当前第1页12
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表