一种肥胖与肠道微生物关联模型构建方法与流程

2023-10-16 18:27:10 来源：中国专利 TAG：

技术特征：
1.一种肥胖与肠道微生物关联模型构建方法，其特征在于：所述肥胖与肠道微生物关联模型构建方法包括以下步骤：s1:进行数据集预处理，将所有肠道微生物原始数据，按照生物分类学分类为六个数据集，分别为门、纲、目、科、属、种；对每个数据集的预处理主要采取了以下步骤：(1)筛选：人工筛选剔除掉与分类预测结果相关性较小或无关的属性；(2)转换：将现有数据特征属性转化为便于数据分析处理的新属性；(3)修整：某些特征中的数据出现缺失或数值为零，通过查询测序分析的原始数据将这些数据进行补充和修整；s2:进行ntree值的优化，确定模型中的决策树个数ntree的值，先把决策树分裂结点时的变量个数mfeature的值设为默认值，函数randomforestclassifier()中的mfeature值默认就是训练数据的特征个数，然后对ntree分别取值时，建立相应的模型，观察测试集的分类准确率变化趋势；s3:进行try值和f值的优化，在确定了随机森林中决策树的个数之后，还需要进一步确定mtry和f这两个参数的取值；首先将mtry和f这两个参数设为默认大小，随后改变ntree值的大小，多次实验取值后确定ntree的参数值；然后选定每一个ntree值不变，同时改变mtry和f两个值；计算模型在上述改变下获取的预测结果袋外错误率ooberror(out-of-bagerror)，选取数值最小的预测结果误差所对应着的参数，则该参数值就是随机森林模型的最佳参数值；s4:进行roc曲线的分析，模型需要返回每个测试样本的类预测概率；然后按照预测概率由高到低的顺序，对测试样本进行排序；对于给定的样本x，假设分类器返回的值为f(x)
→
[0，1]；对于两类分类问题，常常选择阈值t，使f(x)≥t的样本被预测为正的，而其它样本被预测为负的；这样，真阳性和假阳性都是t的函数，可以被表示为tp(t)和fp(t)；进一步，真阳性率和假阳性率就可以被计算出来；在二维坐标系中，如果令假阳性率作为横坐标，真阳性率作为纵坐标，那么所有不同的t值所对应假阳性率和真阳性率代表的点，就构成了一条roc曲线；为了估计模型的性能，可以计算roc曲线下的面积(areaunderthecurve，auc)；面积越接近0，对应模型的预测性能越低；预测完全正确的模型面积为1；s5:进行模型精度评估，基于真正类(tp)，假正类(fp)，真负类(tn)，假负类(fn)4项指标评价模型；通常采用精度指标(accuracy)来衡量模型的性能；s6:进行特征重要性评估随机森林模型还具有特征重要性评估的功能，它提供了两种特征重要性度量的方法；(1)依据gini指数的变化程度来反映每个特征的重要程度；(2)依据分类准确度降低的程度来反映每个特征的重要程s7:进行结果分析，先进行数据处理与数据集分类，将数据样本按照bmi分为三组，分别用he代表正常、ow代表超重、ob代表肥胖，经过对原始数据的人工阅读筛选，修整处理得到数据集数据特征有87个；s8:进行ntree的优化，ntree是指随机森林中的决策树数目，是随机森林中很重要的参数在对模型的决策树个数ntree取值的调整上，先把mtry和f值设为默认值，然后对ntree分别取500，1000，1500，2000这个值时，建立相应的模型，观察测试集的分类准确率变化趋势，最佳ntree的取值是选取error值最低时的ntree值，得到数据集的ntree取值为580；
s9:进行mtry值和f值的优化，在确定了随机森林中决策树的个数之后，还需要进一步确定mtry与f这个两参数的取值，这两个参数分别用来决定在随机森林中决策树每次结点分裂时所需要的的特征个数以及随机抽取的样本个数；这个两个参数的选择非常重要，我们在构建模型的过程中必须通过逐次计算来挑选最佳的值，在确定mtry值和f值的最佳值时，本研究采取如下步骤：(1)根据确定的ntree值和本研究的每个数据集中的数据特征，mtry取值选择每个特征数据的二次方根及其二次方根
±
2，经计算，取27、28、29、30、31共五个数值，(2)调用r语言中的rattle包，输入已确定的ntree值，分别输入三个待确定的mtry值和f值，依据mtry值和f值不同组合在测试集上分类准确率的大小变化，从而确定的mtry值和f值的最佳取值，得到以下最佳mtry和f的最佳取值：根据表3-9所示，数据集的mtry和f取值分别为11、27时，测试数据集样本测试ooberror为50％；s10:进行模型构建验证，混淆矩阵显示了基于训练数据构建的随机森林模型的预测结果，该矩阵主要用于比较模型预测值同实际值之间的差别，这有利于我们根据实际需求去调整相应的模型；混淆矩阵中的行表示实际值，列表示预测值，其中第一个矩阵中的数据则代表该类别样本占总样本的比例，另一个矩阵中的数据表示样本的个数；根据表2-22和2-23所示，有0个样本实际类别是正常，被误预测为超重或肥胖，占比是0％，误差率是0％；有2个样本实际类别是肥胖，却被误预测为超重，占比是25％，误差率是100％；有2个样本实际类别是超重，被误预测为正常，占比是25％，误差率是100％，因此属水平上总体错误率：50％，平均类错误：66.67％；s11:利用重要菌群再次建模使用重要性评估中得到的重要菌群进行二次建模，再次利用ooberror评估测试数据集样本测试精确度，利用oobroc曲线评估模型的精度，结果显示，auc值为1.938，模型的精度最高。2.如权利要求1所述的一种肥胖与肠道微生物关联模型构建方法，其特征在于：所述步骤s2中，实现代码如下：>all<-read.csv("c:/users/administrator/desktop/数据表.csv")ind<-sample(2,nrow(all),replace＝true,prob＝c(1,0))set.seed(100)train<-all[ind＝＝1,]test<-all[ind＝＝2,]str(train)str(test)library(randomforest)n<-length(names(train))set.seed(100)for(iin1:(n-2)){mtry_fit<-randomforest(as.factor(state)～.-sampleid,data＝train,mtry＝i)err<-mean(mtry_fit$err.rate)print(err)}set.seed(100)
ntree_fit<-randomforest(as.factor(state)～.-sampleid,data＝train,mtry＝默认值,ntree＝1000)plot(ntree_fit,col＝c("black"))。3.如权利要求1所述的一种肥胖与肠道微生物关联模型构建方法，其特征在于：所述步骤s3中分析软件为r语言，程序包为：rattle、rgtk2。4.如权利要求1所述的一种肥胖与肠道微生物关联模型构建方法，其特征在于：所述步骤s5中分析软件为r语言，程序包为：rattle、rgtk2。5.如权利要求1所述的一种肥胖与肠道微生物关联模型构建方法，其特征在于：所述步骤s2中，分析软件为r语言，程序包为randomforest。6.如权利要求1所述的一种肥胖与肠道微生物关联模型构建方法，其特征在于：所述步骤s1中，使用随机森林算法进行数据处理，随机森林是分类和回归树(cart)的组合，在与训练集大小相同的数据集上训练，称为bootstraps，由训练集本身的随机重采样创建；决策树构建后，一组不包含任何来自原始数据集out-of-bag(oob)的特定数据集被用作测试集；所有测试集分类的错误率是oob对泛化误差的估计；随机森林算法遵循特定的树生长、树组合、自我测试和后处理规则，它对过度拟合具有鲁棒性，与其他机器学习算法相比，它在异常值和高维参数空间中更稳定。

技术总结
本发明公开了一种肥胖与肠道微生物关联模型构建方法。本发明中，调用R语言中的Rattle包，输入已确定的ntree值，分别输入三个待确定的mtry值和F值，依据mtry值和F值不同组合在测试集上分类准确率的大小变化，从而确定的mtry值和F值的最佳取值，得到以下最佳mtry和F的最佳取值：采用随机森林算法进行模型构建，使用重要性评估中得到的重要菌群进行二次建模，再次利用OOB error评估测试数据集样本测试精确度，利用OOB ROC曲线评估模型的精度。结果显示，AUC值为1.938，模型的精度最高，从而提高了整个系统方法在使用过程中的预测精度，提高了整体预测的便利性与高效性，同时也为后续的其他研究实验提供了更为精准的实验数据。他研究实验提供了更为精准的实验数据。他研究实验提供了更为精准的实验数据。

技术研发人员：周礼红胡久平黄依蓝
受保护的技术使用者：贵安新区数云智康生物技术有限公司
技术研发日：2023.04.13
技术公布日：2023/10/15

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种蹄片带加强筋的制动蹄总成的制作方法

一种肥胖与肠道微生物关联模型构建方法与流程

最热文献