一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种免疫相关lncRNA的筛选方法与流程

2022-02-22 08:38:40 来源:中国专利 TAG:

一种免疫相关lncrna的筛选方法
技术领域
1.本发明属于生物信息学中的关联关系预测领域,涉及一种lncrna的筛选方法。


背景技术:

2.近年来的研究发现癌症的预后不但与癌症的病理分期有关,还与一些肿瘤微环境具有较强且明显的关系,肿瘤的微环境主要包括基质细胞、肿瘤细胞和免疫细胞等。免疫相关的lncrna的差异表达与多种免疫细胞的抑制与活化有关,特异免疫相关lncrna的差异性表达可以通过与调节因子的相互作用,进而调节癌细胞的生物学特征。免疫相关的lncrnas已经被认为是介导免疫过程的免疫细胞特异性表达的调节剂。并且越来越多的研究发现,lncrna在基因转录、翻译和表观遗传等多层面参与生命活动调控,还可以调节巨噬细胞m2极化,从而影响肿瘤细胞的迁移和侵袭。因此通过将lncrna与免疫细胞的数据相结合起来通过机器学习的技术筛选出免疫相关基因。弹性网络算法是一种同时使用l1和l2范数作为先验正则项训练的线性回归模型,弹性网络是一不断叠代的方法。该组合既可以拟合广义线性模型的同时进行复杂度调整和变量筛选,又能具有良好的稳定性,可以提高模型的泛化能力,又能防止过拟合。因此利用弹性网络算法筛选免疫相关lncrna可以具有更好的准确性,以此深入了解癌症免疫相关基因的功能,并可以更好地指导临床工作。


技术实现要素:

3.本发明将癌症患者的lncrna与免疫细胞相结合组成免疫相关lncrna,首先利用弹性网络算法筛选关键免疫相关lncrna,并结合多因素cox比例风险回归模型筛选关键免疫相关lncrna,最终构成预后风险模型。相较于其他方法,该发明纳入了与癌症预后相关具有紧密关系的免疫细胞与lncrna进行关联,并且对于筛选免疫相关lncrna的方法进行了改进,利用弹性网络算法进行筛选相较于以往的方法具有更好的准确性与稳定性。
4.发明目的:基于免疫相关的长链非编码rnas运用弹性网络算法筛选并结合构建cox比例风险回归模型筛选癌症预后免疫相关关键长链非编码rnas,以此构建预后风险模型。所述包括如下步骤:步骤一、获取癌症患者的rna-seq和患者临床数据以及免疫细胞数据;步骤二、对癌症患者的rna-seq和患者临床数据以及免疫细胞数据的预处理,包括提取疾病相关lncrna与免疫细胞;步骤三、对预处理后的lncrna与免疫相关基因进行相关性检验筛选出免疫相关的lncrnas,组成免疫相关lncrnas对;步骤四、将获得免疫相关lncrna数据集与临床生存期数据进行合并,划分为训练集和测试集;步骤五、对训练集基于弹性网络模型筛选出癌症预后相关差异性表达的免疫相关lncrnas;步骤六、对筛选出的免疫相关lncrnas纳入多因素cox回归分析进一步筛选出癌症
预后相关关键差异表达lncrnas步骤七、构建回归预测模型。
5.将下载的rna-seq数据合并为表达矩阵数据,提取出lncrnas和mirnas数据进行差异化表达分析,并对基因表达量进行标准化处理,便于后续分析。利用下载的免疫相关基因集,分析提取免疫相关基因。
6.通过免疫相关基因-lncrna共表达方法鉴定,以相关系数cor=0.4,pvalue=0.001作为过滤标准做相关性检验获得免疫相关的lncrna。
7.将获得的癌症免疫相关的lncrna以及癌症患者临床数据整合为“lncrna-临床信息”矩阵,同时将数据分为训练集与测试集,初步的预后相关lncrnas的筛选以及预后风险评分的回归系数的计算只再训练集中进行,测试集用于验证预后风险模型。
8.将得到的表达数据代入弹性网络回归模型,然后建立模型的目标函数,再通过验证得到最优参数模型,计算回归系数。
9.弹性网络回归的目标函数为:因为,因此总存在[0,1],使得:基于弹性网络筛选出癌症预后相关的差异表达免疫相关lncrna后,进行多因素cox比例风险回归模型,根据最优的赤池信息模拟准则,筛选出最终构成风险评分模型的免疫相关lncrnas。模型公式如下:风险评分=其中n表示构建风险评分模型的免疫相关lncrna数目,表示免疫相关lncrna系数,免疫相关lncrna的表达水平。
附图说明
[0010]
图1.基于弹性网络算法的免疫相关lncrna预后模型构建流程图;图2.依据模型得到的roc图;图3.将生存期分为一年、两年、三年的roc;图4.高低风险组预后模型图。
具体实施方式
[0011]
基于一种免疫相关lncrna的筛选方法,以肝癌为例子进行说明,将免疫相关的长链非编码rnas运用弹性网络算法筛选并结合构建cox比例风险回归模型筛选肝癌预后免疫相关关键长链非编码rnas,并构建预后风险模型。所述包括如下步骤:步骤1对肝癌患者的rna-seq和患者临床数据以及免疫细胞数据的预处理,包括提取疾病相关lncrna与免疫细胞;步骤2对预处理后的lncrna与免疫相关基因进行相关性检验筛选出免疫相关的
lncrnas,组成免疫相关lncrnas;步骤3将数据集划分为训练集和测试集,对训练集基于弹性网络模型筛选出肝癌预后相关差异性表达的免疫相关lncrnas;步骤4对筛选出的免疫相关lncrnas纳入多因素cox回归分析进一步筛选出肝癌预后相关关键差异表达lncrnas并构建回归预测模型。
[0012]
所述步骤1中具体包括下列步骤:步骤1 从tcga数据门户网站(https://portal.gdc.cancer.gov/)下载肝癌的基因表达信息与肝癌患者临床信息,利用perl软件对基因表达信息数据与肝癌患者临床数据进行预处理将下载的数据合并,得到癌症样本374个,正常样本50个。将得到的基因表达数据合并为表达矩阵数据,并对基因表达量进行标准化处理,便于后续分析。通过gencode(https://www.gencodegenes.org/)数据库的注释文件提取lncrnas。
[0013]
所述步骤2中具体包括下列步骤:步骤2 通过immport数据库下载免疫相关基因集,使用r语言的

limma’包分析并提取免疫相关基因。以相关系数cor=0.4,pvalue=0.001作为过滤标准做相关性检验获得免疫相关的lncrna。
[0014]
所述步骤3中具体包括下列步骤:步骤3 .1将获得的肝癌免疫相关的lncrna以及肝癌患者临床数据整合为“lncrna-临床信息”矩阵,同时将数据分为训练集与测试集,初步的预后相关lncrnas的筛选以及预后风险评分的回归系数的计算只再训练集中进行,测试集用于验证预后风险模型;步骤3.2基于弹性网络算法初步筛选出肝癌预后相关的差异性表达免疫相关lncrna:弹性网络回归的目标函数为:因为,因此总存在[0,1],使得:。
[0015]
所述步骤4中具体包括下列步骤:步骤4.1基于弹性网络筛选出肝癌预后相关的差异表达免疫相关lncrna后,进行多因素cox比例风险回归模型,根据最优的赤池信息模拟准则,筛选出最终构成风险评分模型的免疫相关lncrnas。模型公式如下:风险评分=其中n表示构建风险评分模型的免疫相关lncrna数目,表示免疫相关lncrna系数,免疫相关lncrna的表达水平;步骤4.2对建立模型进行roc分析,评估效果。得到预测模型的auc=0.785,表明该模型对肝癌患者预后预测区分能力效果比较好。如图2所示:步骤4.3再将生存期分为一年、两年、三年做roc分析,可以发现该模型在三年的时候auc值最高,可以达到0.830得到结果如图3。
[0016]
所述步骤5中具体包括下列步骤:步骤5基于多因素cox回归预测模型比较肝癌预后高第风险生存差异,首先将数据样本分为高风险组与低风险组,以10年为总体生存期评估该模型的区分情况。绘制生存曲线图如图4,可以明显的发现两组患者的生存具有差异,且高风险组的病人10年生存期显著低于低风险组。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献