一种基于多组学数据集的癌症亚型识别方法及系统与流程

2021-10-24 06:58:00 来源：中国专利 TAG：癌症识别亚型多组特别

1.本发明涉及癌症亚型识别技术领域，特别是涉及一种基于多组学数据集的癌症亚型识别方法及系统。

背景技术：

2.以往的研究大多侧重于使用单一数据识别癌症亚型，很少依赖于综合分析。综合分析的定义是使用多源数据集以更好地了解系统。目前虽然已有大量基于单源组学数据的研究，但是复杂性状的大部分病因仍未得到解释。单源组学数据不能全面地观察生物系统，在识别新亚型时表现不佳。

技术实现要素：

3.本发明的目的是提供一种基于多组学数据集的癌症亚型识别方法及系统，用以快速、准确的识别癌症亚型。
4.为实现上述目的，本发明提供了如下方案：
5.一种基于多组学数据集的癌症亚型识别方法，包括：
6.获取各患者的样本数据；
7.采用主成分分析方法对所述样本数据进行降维处理；
8.基于降维后的数据构建相似图；所述相似图用于表示各患者之间的相似性；
9.将各相似图投影到低维子空间；
10.在格拉斯曼流形上合并各子空间；
11.基于合并后的子空间，通过k
‑
means聚类算法识别癌症亚型。
12.可选地，所述样本数据包括基因表达、mirna表达以及dna甲基化。
13.可选地，所述相似图的表达式如下：
14.g
(m)
＝{v
(m)
，e
(m)
}
15.其中，g
(m)
表示第m个相似图，节点v
(m)
表示患者，边e
(m)
表示患者之间的连接。
16.可选地，在所述基于降维后的数据构建相似图，之后还包括：
17.计算相似图的相似度矩阵；
18.根据所述相似度矩阵，采用k近邻算法保留各相似图的局部结构。
19.本发明还提供了一种基于多组学数据集的癌症亚型识别系统，包括：
20.样本获取膜，用于获取各患者的样本数据；
21.降维模块，用于采用主成分分析方法对所述样本数据进行降维处理；
22.相似图构建模块，用于基于降维后的数据构建相似图；所述相似图用于表示各患者之间的相似性；
23.投影模块，用于将各相似图投影到低维子空间；
24.合并模块，用于在格拉斯曼流形上合并各子空间；
25.识别模块，用于基于合并后的子空间，通过k
‑
means聚类算法识别癌症亚型。
26.可选地，所述样本数据包括基因表达、mirna表达以及dna甲基化。
27.可选地，所述相似图的表达式如下：
28.g
(m)
＝{v
(m)
，e
(m)
}
29.其中，g
(m)
表示第m个相似图，节点v
(m)
表示患者，边e
(m)
表示患者之间的连接。
30.可选地，还包括：
31.计算模块，用于计算相似图的相似度矩阵；
32.保留模块，用于根据所述相似度矩阵，采用k近邻算法保留各相似图的局部结构。
33.根据本发明提供的具体实施例，本发明公开了以下技术效果：
34.本发明提供了一种基于多组学数据集的癌症亚型识别方法，包括：获取各患者的样本数据；采用主成分分析方法对所述样本数据进行降维处理；基于降维后的数据构建相似图；所述相似图用于表示各患者之间的相似性；将各相似图投影到低维子空间；在格拉斯曼流形上合并各子空间；基于合并后的子空间，通过k
‑
means聚类算法识别癌症亚型。本发明结合了多层面的分子数据(mrna、microrna和甲基化)、临床数据和通路信息，以识别具有不同生物学特征和不同预后的患者群体，从而能够快速、准确的识别癌症亚型。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
36.图1为本发明实施例基于多组学数据集的癌症亚型识别方法的流程图；
37.图2为本发明实施例基于多组学数据集的癌症亚型识别方法的原理图。
具体实施方式
38.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
39.本发明的目的是提供一种基于多组学数据集的癌症亚型识别方法及系统，用以快速、准确的识别癌症亚型。
40.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
41.如图1
‑
2所示，本发明公开了一种基于多组学数据集的癌症亚型识别方法，包括以下步骤：
42.步骤101：获取各患者的样本数据。所述样本数据包括基因表达、mirna表达以及dna甲基化。
43.步骤102：采用主成分分析方法对所述样本数据进行降维处理。
44.步骤103：基于降维后的数据构建相似图；所述相似图用于表示各患者之间的相似性。
45.所述相似图的表达式如下：
46.g
(m)
＝{v
(m)
，e
(m)
}
47.其中，g
(m)
表示第m个相似图，节点v
(m)
表示患者，边e
(m)
}表示患者之间的连接。
48.步骤104：将各相似图投影到低维子空间。
49.步骤105：在格拉斯曼流形上合并各子空间。
50.步骤106：基于合并后的子空间，通过k
‑
means聚类算法识别癌症亚型。
51.其中，在步骤103之后还包括：
52.计算相似图的相似度矩阵；
53.根据所述相似度矩阵，采用k近邻算法保留各相似图的局部结构。
54.具体实施例如下：
55.(1)本发明从tcga的网站下载，包括bic(乳腺浸润性癌)、coad(结肠腺癌)、krcc(肾透明细胞癌)、gbm(多形性胶质母细胞瘤)和lscc(肺鳞状细胞癌)。每种癌症包含三种数据类型(dna甲基化、基因表达和mirna表达)。
56.(2)本发明使用流行的主成分分析(pca)技术进行降维。本发明对作为矩阵的单一数据类型进行pca，pca的目标是找到所有样本的最大投影方差，可以表示为：
[0057][0058]
矩阵w＝[w1，w2，
…
，w
k
]是低维空间的标准正交基。显然，eq.2的解是由z
(m)
顶部k特征向量组成的。假设λ1≥λ2≥
…
≥0是z
(m)
的特征值，λ
i
的特征向量是w
k
。因此，pca的最终结果计算为h
(m)t
＝w
t
z
(m)
。
[0059]
(3)本发明在pca空间中构建了一个患者到患者的图，该图对每个视图内的特定结构进行建模。对于第m个图，g
(m)
＝{v
(m)
，e
(m)
}，节点v
(m)
表示空间内的患者，边e
(m)
表示这些患者之间的连接。这样，本发明首先计算了图g
(m)
的相似度矩阵w
(m)
。每个元素测量患者i和j之间的相似性，其计算公式为
[0060][0061]
参数t是归一化因子。该值越高，说明两个患者越相似。
[0062]
接下来，本发明保留每个患者的k最近邻(k
‑
nn)以保留每个图的局部结构。
[0063][0064]
其中n
i
由患者i的k最近邻居组成。参数k取决于样本大小。由于不同的组学具有不同的结构，因此k
‑
nn图比原始相似度更具代表性。
[0065]
(4)为进一步提取组学的关键特征，本发明将所有图投影到低维子空间中，并获得它们在这些空间中的相关嵌入。
[0066]
本发明首先计算了归一化图拉普拉斯矩阵l
(m)
,定义为
其中d
(m)
是的相似度矩阵，且每个元素由计算。使用学习到的拉普拉斯矩阵u
(m)
可以根据谱聚类方法通过求解相关的特征值问题来计算其嵌入。
[0067][0068]
等式(4)的解是归一化拉普拉斯矩阵l
(m)
的最小特征向量k。由于嵌入是每个空间的基点，因此组学之间比原始图更具可比性。
[0069]
(5)对于组学的m嵌入，最小化集成嵌入与其之间的欧几里德距离是获得融合表示的自然方法，
[0070][0071]
但是，该方案假设相似的患者在欧几里得空间中接近，但情况往往并非如此。很明显，多组学数据是复杂和异构的，因此更适合在流形上测量它们的距离，而不是欧几里得空间，比如格拉斯曼流形。
[0072]
格拉斯曼流形g(k，n)是k
‑
维线性子空间的集合。在数学上，g(k，n)的每个点都代表一组标准正交基y,它可以跨越一个k
‑
空间span(y)。因此，空间span(y)和之间的距离可以定义为所有基对的主角之和：
[0073][0074]
其中是基点y
i
和基点之间的主夹角。
[0075]
基于此测量，嵌入之间的距离可以表示为：
[0076][0077]
因此，目标函数为
[0078][0079]
等式(8)迫使集成表示u在格拉斯曼流形上的投影距离方面接近所有嵌入u
(m)
。它的解是修正拉普拉斯矩阵的平均最大特征向量k。
[0080]
最后，通过在l
mod
上应用k
‑
means算法获得聚类标签。
[0081]
为了验证该方法的有效性，本发明将其与相似网络融合(snf)和格拉斯曼聚类进
行了比较。本发明使用cox生存p值将本发明的方法与snf和格拉斯曼聚类的结果进行比较，结果在表(1)中显示。为了进行公平的比较，本发明对每种癌症的snf和格拉斯曼聚类取相同数量的亚型。本发明的方法显示了存活时间之间的重要差异。通过snf研究了五分之三的癌症，表明本发明的方法在不同亚型之间的生存时间有显著差异。
[0082]
表1五种癌症生存率的对数秩检验分析
[0083]
癌症类型格拉斯曼聚类snf本发明的方法bic(5种)2.0
×
10
‑41.1
×
10
‑34.3
×
10
‑5gbm(3种)4.3
×
10
‑32.0
×
10
‑42.3
×
10
‑4krccc(3种)2.8
×
10
‑22.9
×
10
‑21.4
×
10
‑1lscc(4种)1.6
×
10
‑22.0
×
10
‑22.7
×
10
‑3coad(3种)4.2
×
10
‑22.0
×
10
‑22.7
×
10
‑3[0084]
本发明还提供了一种基于多组学数据集的癌症亚型识别系统，包括：
[0085]
样本获取膜，用于获取各患者的样本数据；
[0086]
降维模块，用于采用主成分分析方法对所述样本数据进行降维处理；
[0087]
相似图构建模块，用于基于降维后的数据构建相似图；所述相似图用于表示各患者之间的相似性；
[0088]
投影模块，用于将各相似图投影到低维子空间；
[0089]
合并模块，用于在格拉斯曼流形上合并各子空间；
[0090]
识别模块，用于基于合并后的子空间，通过k
‑
means聚类算法识别癌症亚型。
[0091]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[0092]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据分析查询管理方法、装置、计算机设备及存储介质与流程

一种基于多组学数据集的癌症亚型识别方法及系统与流程

相关文献

最热文献