一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于随机丢弃的肿瘤分子分型方法及系统与流程

2022-03-05 05:51:25 来源:中国专利 TAG:


1.本发明属于肿瘤组学分析领域,更具体地,涉及一种基于随机丢弃的肿瘤分子分型方法及系统,能够对肿瘤患者数据基于肿瘤组学的分子特征进行分子分型。


背景技术:

2.肿瘤异质性是同一种恶性肿瘤在发生发展过程,在不同患者个体间或者同一患者肿瘤不同肿瘤细胞间从基因型、基因及蛋白表达、修饰水平到表型上存在的差异。随着高通量测序与质谱技术的高速发展,转录组、蛋白质组、蛋白修饰组以及代谢组被用来定量大规模患者肿瘤细胞的分子变化。而基于组学数据的分子分型被广泛用来解决患者间的肿瘤异质性。
3.目前肿瘤组学数据的分子分型方法可以分为两个大类,一种是单一组学层面的分类方法,主要包括一致性聚类(consensus clustering)和非负矩阵分解(non-negative matrix factorization,nmf),另一种是多组学整合分型方法,主要包括非负矩阵分解和icluster算法。所有的分子分型方法都能一定程度上解决分子分型的问题,但具体到分型的结果,例如不同分型的分子特征,不同分型的临床表征,很难有较好的关联与解析,且高度依赖组学数据及分析人员的技术水平。


技术实现要素:

4.针对现有技术的以上缺陷或改进需求,本发明的目的在于提供一种基于随机丢弃的肿瘤分子分型方法及系统,其中通过引入对特征分子随机丢弃(dropout)迭代优化处理,能够在不破坏不同肿瘤亚型的分子特征前提下,提升对肿瘤患者数据进行分型的效果。
5.为实现上述目的,按照本发明的一个方面,提供了一种基于随机丢弃的肿瘤分子分型方法,其特征在于,包括以下步骤:
6.(s1)组学数据的预处理:
7.针对预先选定的肿瘤类型,收集若干位患该类肿瘤的肿瘤患者数据,得到每位肿瘤患者其癌与癌旁组织在预先选定的组学层面的表达数据,并通过癌与癌旁的表达数据对比获得每一种组学层面下的差异特征分子;
8.其中,所述预先选定的组学层面为转录组、蛋白质组、蛋白修饰组以及代谢组中的一者;
9.(s2)初始分型的获得:
10.对所述步骤(s1)得到的所述差异特征分子分别进行编码,得到分子特征输入矩阵;
11.然后,通过预先选定的用于分子分型的若干种聚类方法及预先选定的若干种距离计算方法的排列组合,计算潜在分子亚型;
12.接着,对计算得到的每一个潜在分子亚型进行分型评估,取评估结果最佳者作为初始分型,同时分别记该初始分型所对应的聚类方法及距离计算方法为初始分型的聚类方
法及初始分型的距离计算方法;
13.(s3)随机丢弃迭代以优化分型:
14.对所述差异特征分子进行随机丢弃,并相应得到随机丢弃后的分子特征输入矩阵;
15.同时,采用所述初始分型的聚类方法及初始分型的距离计算方法,基于随机丢弃后的分子特征输入矩阵,计算新分子亚型;
16.然后,对所述新分子亚型进行分型评估,若评估结果相较于所述初始分型的评估结果有变优或维持不变,则保留本次的丢弃,同时以该新分子亚型对所述初始分型进行赋值更新;若评估结果相较于所述初始分型的评估结果有变劣,则取消本次的丢弃;
17.如此重复随机丢弃,迭代运算,直到评估结果波动满足预先设定的要求或者迭代次数达到预先设定的要求;相应的,迭代结束后的所述初始分型即为优化后的分型结果。
18.作为本发明的进一步优选,所述步骤(s1)中,所述收集若干位患该类肿瘤的肿瘤患者数据,具体是收集至少20位患该类肿瘤的肿瘤患者数据。
19.作为本发明的进一步优选,所述步骤(s2)中,所述预先选定的用于分子分型的若干种聚类方法,选自于一致性聚类(consensus clustering)和非负矩阵分解(non-negative matrix factorization,nmf)。
20.作为本发明的进一步优选,所述步骤(s2)中,所述预先选定的用于分子分型的若干种聚类方法,选自于一致性聚类,具体包括:k均值聚类(k-means,km)、分层聚类(hierarchical clustering,hc)、围绕中心点的划分算法(partitioning around medoid,pam)聚类;
21.其中,对于所述分层聚类(hierarchical clustering,hc)和所述围绕中心点的划分算法(partitioning around medoid,pam)聚类,预先选定的若干种距离计算方法,选自:pearson距离、spearman距离、euclidean距离、binary距离、maximum距离、canberra距离、minkowski距离;
22.对于所述k均值聚类(k-means,km),预先选定的若干种距离计算方法为欧氏距离(euclidean distance)。
23.作为本发明的进一步优选,所述分型评估是利用分型与临床指标的相关性进行显著性分析实现的。
24.按照本发明的另一方面,本发明提供了一种基于随机丢弃的肿瘤分子分型系统,其特征在于,包括:
25.组学数据预处理功能模块,用于:针对预先选定的肿瘤类型,收集若干位患该类肿瘤的肿瘤患者数据,得到每位肿瘤患者其癌与癌旁组织在预先选定的组学层面的表达数据,并通过癌与癌旁的表达数据对比获得每一种组学层面下的差异特征分子;其中,所述预先选定的组学层面为转录组、蛋白质组、蛋白修饰组以及代谢组中的一者;
26.初始分型获取功能模块,用于:对所述组学数据预处理功能模块得到的所述差异特征分子分别进行编码,得到分子特征输入矩阵;然后,通过预先选定的用于分子分型的若干种聚类方法及预先选定的若干种距离计算方法的排列组合,计算潜在分子亚型;接着,对计算得到的每一个潜在分子亚型进行分型评估,取评估结果最佳者作为初始分型,同时分别记该初始分型所对应的聚类方法及距离计算方法为初始分型的聚类方法及初始分型的
距离计算方法;
27.随机丢弃迭代功能模块,用于:对所述差异特征分子进行随机丢弃,并相应得到随机丢弃后的分子特征输入矩阵;同时,采用所述初始分型的聚类方法及初始分型的距离计算方法,基于随机丢弃后的分子特征输入矩阵,计算新分子亚型;然后,对所述新分子亚型进行分型评估,若评估结果相较于所述初始分型的评估结果有变优或维持不变,则保留本次的丢弃,同时以该新分子亚型对所述初始分型进行赋值更新;若评估结果相较于所述初始分型的评估结果有变劣,则取消本次的丢弃;如此重复随机丢弃,迭代运算,直到评估结果波动满足预先设定的要求或者迭代次数达到预先设定的要求;相应的,迭代结束后的所述初始分型即为优化后的分型结果。
28.作为本发明的进一步优选,所述组学数据预处理功能模块中,所述收集若干位患该类肿瘤的肿瘤患者数据,具体是收集至少20位患该类肿瘤的肿瘤患者数据。
29.作为本发明的进一步优选,所述初始分型获取功能模块中,所述预先选定的用于分子分型的若干种聚类方法,选自于一致性聚类(consensus clustering)和非负矩阵分解(non-negative matrix factorization,nmf)。
30.作为本发明的进一步优选,所述初始分型获取功能模块中,所述预先选定的用于分子分型的若干种聚类方法,选自于一致性聚类,具体包括:k均值聚类(k-means,km)、分层聚类(hierarchical clustering,hc)、围绕中心点的划分算法(partitioning around medoid,pam)聚类;
31.其中,对于所述分层聚类(hierarchical clustering,hc)和所述围绕中心点的划分算法(partitioning around medoid,pam)聚类,预先选定的若干种距离计算方法,选自:pearson距离、spearman距离、euclidean距离、binary距离、maximum距离、canberra距离、minkowski距离;
32.对于所述k均值聚类(k-means,km),预先选定的若干种距离计算方法为欧氏距离(euclidean distance)。
33.作为本发明的进一步优选,所述分型评估是利用分型与临床指标的相关性进行显著性分析实现的。
34.通过本发明所构思的以上技术方案,与现有技术相比,本发明方法及相应的系统,由于在进行分子分型的过程中加入对特征分子随机丢弃(dropout),并对新分型结果进行评估(包括但不限于生存关联分析,例如,可以将新分型结果与临床指标的相关性进行显著性分析,作为评估结果),保留改进后的特征分子列表,并通过重复随机丢弃过程,得到优化的分型结果。
35.基于本发明,无需先验数据,无需要构建预测模型训练即可实现肿瘤分子分型的提升。本发明引入随机丢弃,实现对目前分子分型方法的优化与改进,目的是提升对肿瘤多组学数据的解析。
36.本发明在研发过程中,也曾受限于肿瘤分子分型的基本思路上(即,基于整体性地差异分子的获取上),后续通过研究发现,癌与癌旁的肿瘤差异分子并不等于是肿瘤不同分子亚型的差异。正是基于此发现,本发明最终转变了研发方向,最终形成了基于随机丢弃的肿瘤分子分型方法及对应系统。并且,考虑到不同肿瘤在进行分子分型过程的聚类方法和距离函数是不同的,本发明还进一步明确了聚类方法与距离函数的使用过程,基于分型评
估结果并选择最佳的聚类方法与距离函数用于该组学数据的后续分析。
附图说明
37.图1是本发明的方法流程图。
38.图2是利用本发明方法对应得到的肝内胆管癌的多组学分子分型实例;其中,图2中的a对应原始的初始分型,图2中的b对应优化后的新分型。
具体实施方式
39.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
40.总的来说,本发明基于随机丢弃的肿瘤分子分型方法,如图1所示,包括3个步骤,分别是组学数据的预处理,初始分型的获得和丢弃优化分型。具体的:
41.1、组学数据的预处理
42.获取一定数量的同一类型的肿瘤患者队列数据(这些数据具有分类的可能性;这些数据可对应例如不少于20位患者,如30位患者等),每个患者的数据,包括利用该患者癌与癌旁组织样本进行测序或者质谱鉴定获得的肿瘤在不同组学层面的表达数据。可参照现有技术中的已知手段(如:li j,tibshirani r.finding consistent patterns:a nonparametric approach for identifying differential expression in rna-seq data.stat methods med res.2013;22(5):519-536.doi:10.1177/0962280211428386),对肿瘤的组学数据进行基本分析,通过癌与癌旁的表达数据对比获得各自组学数据的差异特征分子,用来进行分子分型。
43.2、初始分型的获得
44.1)特征矩阵:对每一个差异特征分子,求得癌比癌旁的表达倍数并进行以2为底的对数转换,构建分子特征输入矩阵,例如,列可对应患者,行可对应特征分子。
45.2)聚类方法:选定进行分子分型的聚类方法,现有技术常用的聚类方法包括一致性聚类(consensus clustering)和非负矩阵分解(non-negative matrix factorization,nmf)。本发明后续实施例以采用一致性聚类为例,通过r包consensusclusterplus(version 1.54.0,http://bioconductor.org/packages/release/bioc/html/consensusclusterplus.html)实现。
46.3)聚类参数,例如:基本参数设置为最大6个分子亚型,1000次重复,重采样80%的样本和重采样80%的特征分子。同时,三种聚类算法与相应的距离计算方法被用来计算获取潜在分子亚型,这些潜在分子亚型可进一步与生存预后等临床指标进行相关性评估分析;这三种聚类算法与相应的距离计算方法被用来计算获取潜在分子亚型,包括:基于欧氏距离(euclidean distance)的k均值聚类(k-means,km),基于七种不同距离函数(pearson(1-pearson’correlation),spearman(1-spearman’s correlation),euclidean,binary,maximum,canberra,and minkowski)的分层聚类(hierarchical clustering,hc)与围绕中心点的划分算法(partitioning around medoid,pam),总共包含15种(即,1 7
×
2种)不同
分型方式。这些聚类算法与相应的距离计算方法均为现有技术中已有的。
47.4)分型评估:可参照现有技术(如,生存分析和association analysis),使用分子亚型与生存预后等临床指标的相关性对每个组学的15个分型方式进行评估。
48.5)初始分型结果:得到各个组学与生存预后等临床指标关联性最佳的分子分型结果,并保存对应的聚类算法及距离计算方法。
49.3、丢弃优化分型
50.1)迭代优化:采用初始分型的聚类及距离计算方法,对特征分子进行随机丢弃的迭代优化。每一轮迭代优化的过程:随机丢弃特征分子重新获取新分型,对新分型与生存预后等临床指标的相关性进行显著性分析,相关性的显著性不变或者提高则保留此次的丢弃,显著性降低即取消此次的丢弃。重复迭代的过程,直到相关性的显著性结果稳定(即,评估结果波动满足预先设定的要求,例如波动为0;当然,若迭代次数达到了预先设定的次数要求,即使结果仍未稳定,也可退出迭代)。
51.2)优化分析结果:基于迭代优化,得到优化后的分型结果。
52.3)进一步对优化分型进行评估:可以进一步将优化分型与初始分型结果进行对比,评估丢弃对分型的影响程度。同时,将优化分子分型与临床指标进行关联分析,评估分型结果的可靠性。
53.以122对肝内胆管癌的多组学分子分型为例,肝内胆管癌多组学数据包括配对样本的转录组、蛋白质组和磷酸化蛋白质组。利用本发明方法,通过对122对肝内胆管癌多组学数据的预处理,分别得到785差异表达蛋白质、3765差异表达mrna和602个差异磷酸化蛋白质,并使用以2为底对数处理的癌相对癌旁的表达倍数变化作为特征编码方式,进行初始分型分析。三种组学都将队列分为三型且与生存显著相关(如图2中的a所示,p值小于0.05),具体参数为:蛋白质分子分型是基于spearman距离的pam方法,mrna分子分型是基于欧氏距离的k均值聚类方法,而磷酸化蛋白质分子分型是基于pearson距离的pam方法。进一步经过随机丢弃特征分子优化分型,最终得到基于695个蛋白质、3485个mrna和578个磷酸化蛋白质的优化分子分型,新分子分型与生存的相关性得到显著提高(如图2中的b所示,蛋白质、mrna和磷酸化蛋白质的p值相较于图2中的a所示的p值均有所下降,统计的显著性提升)。同时,将优化与最初的初始的分子分型结果进行对比,计算两者分型一致的比例,得到蛋白质、mrna和磷酸化蛋白质的一致性分别为89.3%、98.93%和73.77%,高的一致性比例说明丢弃没有破坏不同亚型的分子特征。最后,优化分子分型也与很多项临床指标具有显著相关,表明分子分型的合理性。可见,本发明方法能够提升对数据的分型效果,提升数据解析效果。
54.本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献