一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于DNA甲基化的肿瘤分类方法与流程

2022-07-10 06:40:07 来源:中国专利 TAG:

技术特征:
1.一种基于dna甲基化的神经肿瘤分类算法,其特征在于,包括如下步骤:甲基化数据校正处理步骤:将基于dna甲基化的神经肿瘤数据运用r语言处理获取原始idat文件信号强度,通过数据校正计算,最终获取所有甲基化探针的信号值用作进一步分析;甲基化数据聚类分析步骤:通过无监督聚类分析k-means,对甲基化样本数据进行聚类分析,同时对聚类结果做效果评估,找出聚类分析的最优类别数;后通过t-sne降维分析来展现聚类后的不同类数据;甲基化数据分类分析步骤:运用有监督的分类分析,建立随机森林模型,后将数据集分成多个部分,进行10倍交叉验证,在每次迭代中,保留一份数据作为验证集并使用其他部分作为训练集;然后使用随机森林方法训练并实现分类功能,随机森林当中采用若干节点进行分类学习;高维小样本的处理步骤:通过特征选择,利用校准分类器对所有特征进行排序,通过选取特征值重要性95%以上的特征集合,本质是防止模型过拟合;所述的dna甲基化的神经肿瘤数据具体为850k探针数据或450k探针数据或450k探针数据。2.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述的r语言处理具体是采用如下的处理步骤:第一步,读取idat甲基化芯片原始数据和建立rgset对象;第二步,对第一步处理后的数据进行质控过滤,过滤强度为p值小于0.05;第三步,对过滤后的数据进行标准化,所述标准化具体为对探针的beta值进行校正,使得重复样本之间的beta值分布更加的接近,减少重复样本间的差异;采用minif包中的preprocessswan()函数进行归一化;第四步,对标准化后的数据进行过滤去掉重复数据和去除x染色体甲基化和y染色体甲基化数据;第五步,将第四步当中进行数据去除后的数据输出形成数据矩阵。3.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述数据校正计算的处理方式具体为应用r语言中minif包中的归一化函数进行背景降噪和归一化处理。4.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述无监督聚类分析k-means,对甲基化样本数据进行聚类分析具体为:步骤s1,在样本集中随机选取91个样本点作为均值的初始点;步骤s2,计算每个样本和每个均值点之间的欧式距离;步骤s3,将样本划入距离最近的均值点所在的簇;步骤s4,计算所有簇内样本的平均值,将计算后的平均值作为更新后的均值点;
步骤s5,重复步骤s2-4至聚类中心不再变化得到该簇的数据;步骤s6,获得最终91个簇的数据即完成聚类分析。5.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述效果评估为采用如下指标1-3进行评估:指标1为inertias指标,所述inertias指标指的是k-means模型对象的属性,它作为没有真实分类结果标签下的非监督式评估指标,用于表示样本到最近的聚类中心的距离总和;所述inertias的数值越小越好,越小表示样本在类间的分布越集中;指标2为兰德系数指标,所述兰德系数指标用c表示实际的类别划分,k表示聚类结果;定义a为在c中被划分为同一类,在k中被划分为同一簇的实例对数量;定义b为在c中被划分为不同类别,在k中被划分为不同簇的实例对数量;定义n为实例总数,则兰德系数ri=2(a b)/n*(n-1);指标3为互信息指标,所述互信息指标指的是相同数据的两个标签之间的相似度,即也是在衡量两个数据分布的相似程度;利用互信息来衡量聚类效果需要知道实际类别信息。6.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述t-sne降维分析的处理方式为使用对称版的sne来简化梯度公式;所述梯度公式为梯度grad公式;在低维空间下,使用t分布替代高斯分布表达两点之间的相似度。7.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述数据集分成10个部分,随机森林采用10000个节点进行分类学习。8.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述校准分类器具体是把分类的结果作为新的训练集,用逻辑回归再训练一个关系,得到具体的概率值,不同肿瘤类型校准分数不同,应用概率值后可反应结果的可信度;应用sigmoid函数对校准分数进行正则化处理,使得分类结果既有校准分数同时有概率值后输出结果。9.如权利要求1所述的一种基于dna甲基化的神经肿瘤分类算法,其特征在于,所述逻辑回归为多分类模型,由条件概率分布p(y|x)表示,形式为参数话的逻辑回归;随机变量x取实数,随机变量y取0或1;通过监督学习方法估计模型参数:p(y=1|x)=exp(w*x b)/1 exp(w*x b)。

技术总结
本发明公开了一种基于DNA甲基化的神经肿瘤分类算法,包括了甲基化数据校正处理步骤、甲基化数据聚类分析步骤、甲基化数据分类分析步骤、高维小样本的处理步骤四大步骤。本发明在应用于基于DNA甲基化的肿瘤分类算法当中的准确率比传统的SVM(支持向量机)、逻辑回归和决策树方法均要高。决策树方法均要高。


技术研发人员:马杰 王佳甲
受保护的技术使用者:马杰
技术研发日:2022.03.18
技术公布日:2022/7/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献