一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多视图鲁棒表示的癌症亚型识别系统

2022-06-01 00:22:14 来源:中国专利 TAG:


1.本发明涉及癌症亚型识别技术领域,特别是涉及基于多视图鲁棒表示的癌症亚型识别系统。


背景技术:

2.本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
3.癌症每年会导致数百万人死亡,给全世界的医疗保健带来沉重负担。由于其具有异质性且受多种因素影响,因此难以治愈。近年来,多项研究证明,许多癌症可以根据不同的致病基因和临床表现分为若干亚型。癌症亚型识别是根据癌症的分子特征和临床症状对癌症进行分类,旨在为患者提供更精准的诊断和治疗。
4.随着高通量测序技术的发展,许多生物数据库,如癌症基因组图谱(tcga),已经积累了大量的多组学数据(即基因表达、mirna表达和dna甲基化)。这些生物大数据导致需要分析多组学数据以研究生物实体之间的潜在相互作用,并为癌症亚型识别提供了前所未有的机会。由于缺乏对癌症亚型的认识,聚类算法在该领域得到了广泛的应用。早期的方法将每个组学数据分别聚类或简单地连接所有组学数据。然而,这些方法有一些缺点。首先,他们可能没有充分探索和利用每个组学数据的内部结构。其次,他们没有考虑不同生物学水平的多组学数据的相关性。第三,多组学数据的简单串联导致数据维度的激增,并可能增加数据中的实验和生物噪声。
5.近几十年来,多视图聚类已成为研究热点。通过利用多视图数据的一致性和互补性,多视图聚类通常比单独使用单个视图具有更好的性能。因此,为了识别可能的癌症亚型并更全面地揭示其发病机制,人们提出了许多有效的多视图聚类方法来识别癌症亚型。虽然多视图聚类方法识别癌症亚型已经取得了较好的效果,但是仍然存在一些亟待解决的问题。例如,原始多组学数据中通常存在误差、离群值等噪声的干扰,直接在原始多组学数据上学习相似度矩阵,会对聚类结果存在影响。


技术实现要素:

6.为了解决现有技术的不足,本发明提供了基于多视图鲁棒表示的癌症亚型识别系统,充分利用多视图之间的一致和互补信息来提高聚类性能,能够更准确的识别癌症亚型。
7.第一方面,本发明提供了基于多视图鲁棒表示的癌症亚型识别系统;
8.基于多视图鲁棒表示的癌症亚型识别系统,包括:
9.数据获取模块,用于获取多个待识别用户的多组学数据;
10.视图特征提取模块,用于基于所有用户的多组学数据,得到若干个视图;
11.鲁棒表示模块,用于构建每个视图的鲁棒表示和字典矩阵;
12.相似图构建模块,用于基于每个视图的鲁棒表示,计算每个视图的相似图;
13.融合模块,用于构建视图权重参数,并将各个视图的相似图进行加权融合,形成一致图;
14.迭代更新模块,用于迭代更新每个视图的鲁棒表示、字典矩阵、相似图、视图权重参数和一致图,得到最优一致图;
15.聚类模块,用于基于最优一致图,通过聚类将所有待识别用户划分到多种癌症亚型。
16.进一步的,所述迭代更新模块包括鲁棒表示更新模块;
17.所述鲁棒表示更新模块,用于固定字典矩阵、相似图、视图权重参数和一致图,求解每个视图的鲁棒表示。
18.进一步的,所述迭代更新模块包括字典矩阵更新模块;
19.所述字典矩阵更新模块,用于基于鲁棒表示,求解每个视图的字典矩阵。
20.进一步的,所述迭代更新模块包括相似图更新模块;
21.所述相似图更新模块,用于基于鲁棒表示、视图权重参数和一致图,计算相似图。
22.进一步的,所述迭代更新模块包括视图权重参数更新模块;
23.所述视图权重参数更新模块,用于基于相似图和一致图,计算视图权重参数。
24.进一步的,所述迭代更新模块包括一致图更新模块;
25.所述一致图更新模块,用于基于相似图,计算一致图。
26.进一步的,所述多组学数据包括mrna表达、dna甲基化和mirna表达。
27.进一步的,所述聚类采用谱聚类算法。
28.第二方面,本发明还提供了一种电子设备,包括:
29.存储器,用于非暂时性存储计算机可读指令;以及
30.处理器,用于运行所述计算机可读指令,
31.其中,所述计算机可读指令被所述处理器运行时,执行以下步骤:
32.获取多个待识别用户的多组学数据;
33.基于所有用户的多组学数据,得到若干个视图;
34.构建每个视图的鲁棒表示和字典矩阵;
35.基于每个视图的鲁棒表示,计算每个视图的相似图;
36.构建视图权重参数,并将各个视图的相似图进行加权融合,形成一致图;
37.迭代更新每个视图的鲁棒表示、字典矩阵、相似图、视图权重参数和一致图,得到最优一致图;
38.基于最优一致图,通过聚类将所有待识别用户划分到多种癌症亚型。
39.第三方面,本发明还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行以下步骤:
40.获取多个待识别用户的多组学数据;
41.基于所有用户的多组学数据,得到若干个视图;
42.构建每个视图的鲁棒表示和字典矩阵;
43.基于每个视图的鲁棒表示,计算每个视图的相似图;
44.构建视图权重参数,并将各个视图的相似图进行加权融合,形成一致图;
45.迭代更新每个视图的鲁棒表示、字典矩阵、相似图、视图权重参数和一致图,得到最优一致图;
46.基于最优一致图,通过聚类将所有待识别用户划分到多种癌症亚型。
47.与现有技术相比,本发明的有益效果是:
48.本发明方法通过从每个组学数据中学习新的鲁棒表示来减少数据维度并减轻噪声的影响;基于鲁棒表示为每个组学数据自适应学习相似图,这可以为图拉普拉斯正则化提供更可靠的相似关系;并通过学习所有相似图之间的共识结构来获得一致相似图,充分利用多视图之间的一致和互补信息来提高聚类性能;基于所述一致相似图执行谱聚类算法能够更准确的识别癌症亚型。
49.本发明附加方面的优点将在下面的描述中部分给出,或通过本发明的实践了解到。
附图说明
50.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
51.图1为第一个实施例的系统结构图;
52.图2为第一个实施例的原理图;
53.图3为第二个实施例的处理器运行方法的流程图。
具体实施方式
54.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
55.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
56.本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
57.实施例一
58.本实施例提供了基于多视图鲁棒表示的癌症亚型识别系统;
59.如图1所示,基于多视图鲁棒表示的癌症亚型识别系统,包括:
60.数据获取模块,用于获取多个待识别用户的多组学数据。
61.作为一种实施方式,获取通用机器学习样本数据和各个用户样本数据。具体的,包括两类数据集,包括四个通用机器学习数据集和五个癌症数据集。
62.通用机器学习数据集包括coil20、bbc、handwritten(hw)和msrc。coil20来自哥伦比亚对象图像库,msrc来自剑桥的微软研究院。bbc是从bbc新闻网站收集的数据集,hw是手写数字数据集。所有数据集都有真实标签。
63.癌症数据集包括急性髓细胞白血病(aml)、乳腺浸润性癌(bic)、结肠腺癌(coad)、多形性胶质母细胞瘤(gbm)、肾嫌色细胞癌(kirc)、肝细胞癌(lihc)、皮肤黑色素瘤(skcm)、卵巢浆液性囊腺癌(ov)和肉瘤(sarc),从tcga网站下载。
64.每个数据集包含三种组学数据类型,即mrna表达、dna甲基化和mirna表达。
65.视图特征提取模块,用于基于所有用户的多组学数据,得到若干个视图。具体的,对每个用户的多组学数据提取若干个视图的特征,得到所有用户的多视图特征,得到多视图特征数据集。
66.具体的,用x1,x2,...,xm表示各个数据集中各个视图的特征矩阵。表示第v个视图的特征矩阵,其中,dv是特征的维度,n是样本的个数,即待识别患者的个数。
67.鲁棒表示模块,用于构建每个视图的鲁棒表示和字典矩阵。
68.具体的,组学数据通常是高维数据,包含大量噪声,可能会影响聚类性能。稀疏编码算法的目标是学习一个系数矩阵s,它可以被认为是原始数据的稀疏表示,从而减轻高噪声和高维的影响。给定数据矩阵表示第v个视图的特征矩阵,期望学习一个字典矩阵和系数矩阵表示第v个视图的系数矩阵(即第v个视图的鲁棒表示),其中,每个向量表示第v个视图字典矩阵中的一个基向量,kb表示第v个字典矩阵中基向量的个数,每个向量可以看作是字典中基向量的稀疏线性组合系数,表示第v个视图中第i个用户的鲁棒表示,实际上,矩阵sv可以视为第v个视图原始数据新的表示形式。bv和的组合应该最小化数据重构误差,可由表示,考虑p=2的情况,因此通过最小化下面的公式得到多视图的稀疏表示:
[0069][0070]
其中,表示第v个视图的特征矩阵,表示第v个视图的字典矩阵,每个向量表示字典中的一个基向量,表示第v个视图的系数矩阵,每个向量可以看作是字典中基向量的稀疏线性组合系数。是为了避免过小而失去稀疏惩罚的作用,β是一个正则化参数用于避免过拟合,是为了避免过小而失去稀疏惩罚的作用,q是一个常量。
[0071]
鲁棒表示应符合流形假设,即如果学习的潜在表示si和sj对应的数据点xi和xj在数据分布的内在几何中接近,则它们在新空间中应该彼此接近。因此,本发明在公式(1)中添加正则化项以保流形假设:
[0072][0073]
其中,wv是权重矩阵通常由基于第v个原始空间中的数据点的最近邻居图构造,α是一个用户给定的参数,用来平衡目标函数中该项的重要程度。
[0074]
相似图构建模块,用于基于每个视图的鲁棒表示,计算每个视图的相似图wv,相似图用于表示各个用户的相似性。
[0075]
由于wv是固定的,并且是用原始数据点预先计算的,它也可能包含噪声,导致wv的结果不理想。因此,本发明建议根据新的表示sv自适应地为每个视图学习一个新的权值矩阵wv。理想情况下,si和si之间的距离越小,应该为其分配较大的连接概率w
ij
,因此重写公式(2):
[0076][0077]
其中,γ是一个用户给定的参数,用来平衡目标函数中该项的重要程度,1的含义是一个全为1的列向量,的约束是确保了作为两个数据点之间的相似性的可解释性。值得注意的是,公式(3)中的第四项用来避免只有每个点的最近邻居的连接概率为1的平凡解。从公式(3)中可以看到,鲁棒表示学习和相似图学习可以相互增强。具体地说,相似图学习部分可以利用数据中的几何结构信息来指导重建过程,以提高判别能力,而稳健表示学习部分可以提供更有效地揭示内在结构的潜在表示。
[0078]
融合模块,根据自适应的视图权重参数λv,将各个视图的相似图进行加权融合,得到一致图。
[0079]
对于多视图聚类任务,希望每个视图可以相互交互并共享信息,以加强内在的全局图结构。为此,本发明进一步增加了一个一致相似图学习项,使每个wv对一个共同的图结构进行联合优化:
[0080][0081][0082]uij
≥0,1
t
ui=1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0083]
其中,λv为wv的权重,用于衡量一致图u和第v个相似图的相似性,并且λv可以自适应的学习。
[0084]
通过这种方式,本发明使u和wv共同学习,其中每个wv倾向于接近一个共同的图结构,从而基于一致图u得到多个视图之间的底层一致结构。另外,在u的指导下,每个wv可以相互影响,相互促进,从而可以利用其他视图的信息来加强鲁棒表示学习和图学习。如图2所示,通过迭代更新变量{bv,sv,wv}和u,迭代更新步骤为固定变量bv,wv,u,λv求解sv,其他变量求解类似于sv,重复这个步骤,直到收敛迭代终止。最终得到更健壮、更可靠的样本聚类相似矩阵u。
[0085]
迭代更新模块,用于迭代更新每个视图的鲁棒表示、相似图、权值矩阵和一致图,得到最优一致图。
[0086]
具体的,求解基于多视图鲁棒表示聚类的癌症亚型识别方法目标函数中的变量。因为wv的求解依赖于sv和u,sv求解依赖于bv和wv,且u也是在wv的基础上构造的,因此同时求解所有变量具有挑战性。从而,本发明用另一种优化算法求解变量。
[0087]
鲁棒表示更新模块,用于求解每个视图的鲁棒表示sv:当bv,wv,u和λv固定时,每个视图sv的更新都是独立的。公式(4)可以转化为公式(5):
[0088][0089]
其中,lv=d
v-wv是拉普拉斯矩阵,dv是对角矩阵它的第i个对角元素为是对角矩阵它的第i个对角元素为表示第v个视图中和相似性,表示与自身的相似性。因为每个不同i对应的向量都是独立的,可以得到:
[0090][0091]
其中,公式(6)可以用graphsc算法中的特征符号搜索算法解决。
[0092]
字典矩阵更新模块,用于基于鲁棒表示,求解每个视图的字典矩阵bv:当sv,wv,u和λv固定时,每个bv的更新是独立的,公式(6)可以转化为:
[0093][0094]
设和表示第i个约束相应的拉格朗日乘子,可以得到公式(7)的拉格朗日对偶函数:
[0095][0096]
设λv为kb×
kb大小的矩阵,它的对角元素为l(bv,θv)可以写成如下形式:
[0097][0098]
使公式(9)的一阶导数等于零:
[0099][0100]
然后得到的解:
[0101][0102]
将公式(11)带入公式(8)得:
[0103]
g(θv)=tr(x
vt
xv)-qtr(λv)-tr(xvsv(svs
vt
λv)-1
svx
vt
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0104]
然后,这个问题可以转化为下边的函数:
[0105][0106]
公式(13)可以用共轭梯度法或牛顿法求解。将λv带入公式(11)即可求得的最优解。
[0107]
相似图更新模块,用于基于鲁棒表示、视图权重参数和一致图,计算每个视图的相似图wv:同样的将其他变量固定,公式(4)变成:
[0108][0109]
显而易见,每个w
iv
都是独立的,因此,可以转换为解决下边的问题:
[0110][0111]
记向量ei的第j个元素用e
ij
表示,基于此公式(15)可简化为下面的形式:
[0112][0113]
该问题可根据约束条件利用拉格朗日函数进行求解,最终求得的解如下所示:
[0114][0115]
其中u
ij
表示学习到的一致图u中用户i和用户j的相似性。
[0116]
视图权重参数更新模块,用于基于相似图和一致图,计算每个视图的视图权重参数λv:通过解决下边的公式求解λv:
[0117][0118]
如果λv固定,公式(18)等于公式(19):
[0119][0120]
证明如下:
[0121]
公式(19)的拉格朗日函数如下:
[0122][0123]
其中,g为约束形式化项。
[0124]
对公式(20)求导并将其设为零:
[0125][0126]
其中,
[0127][0128]
公式(18)的拉格朗日函数的导数等于公式(21)。因此,公式(18)等于公式(19)。那么λv可由公式(22)求得。
[0129]
一致图更新模块,用于基于各个视图的相似图,计算一致图u:当wv固定时,可以通过求解下面的公式得到一致图。
[0130][0131]
公式(23)可以进一步写成:
[0132][0133]
公式(24)的拉格朗日函数为:
[0134][0135]
其中,和φ都为拉格朗日乘子。
[0136]
记φ
^
为根据1
t
ui=1和kkt条件得:
[0137][0138]
通过用牛顿法求解下面的方程的根得到φ
*

[0139][0140]
将φ
*
带入公式(26)即可求得u的最优解。
[0141]
聚类模块,用于基于最优一致图,通过聚类算法识别癌症亚型,具体的,通过谱聚类算法,将所有待识别用户划分到多个簇,每个簇为一种癌症亚型。利用聚类任务评价特征选择方法的性能。在本发明中,采用三个广泛使用的评估指标,即准确度(acc)、归一化互信息(nmi)和纯度(purity)来衡量本发明的方法在通用机器学习数据集上的性能。
[0142]
acc计算公式如下:
[0143][0144]
其中n表示样本个数,ci表示预测聚类标签,ti表示真实标签。map(*)是一个映射函数找到其排列聚类标签以实现a和b之间的最佳对应。如果x=y,δ(x,y)=1,否则δ(x,y)=0。
[0145]
nmi计算公式为:
[0146][0147]
其中,i(ti,ci)是ti,ci之间的互信息,h(*)是信息交叉熵。
[0148]
纯度的计算公式为:
[0149][0150]
上述三个指标都在0到1的范围内,数值越大,性能越好。
[0151]
对于癌症数据集,本发明使用两个指标:存活率p-value和丰富的临床标签的数量。首先,本发明用对数秩检验评估预测亚型之间的差异存活率。由于这些癌症数据集的样本量很小,并且亚型之间可能存在不平衡分布,因此对数秩检验近似不够精确。因此,本发明排列了聚类标签,并使用测试统计来计算经验p值(基于排列测试的p值),以获得更准确的结果。此外,本发明还对临床标签的丰富程度进行了统计检验。选择6个临床指标:病理t、病理m、病理n、病理分期、性别和诊断年龄。前4个标记物为χ2独立性检验计算出的离散参数,后两个标记物为kruskal-wallis检验法计算的数值标记物(p-value《0.05)。
[0152]
实施例二
[0153]
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行以下步骤,具体的如图3所示:
[0154]
获取多个待识别用户的多组学数据;
[0155]
基于所有用户的多组学数据,得到若干个视图;
[0156]
构建每个视图的鲁棒表示和字典矩阵;
[0157]
基于每个视图的鲁棒表示,计算每个视图的相似图;
[0158]
构建视图权重参数,并将各个视图的相似图进行加权融合,形成一致图;
[0159]
迭代更新每个视图的鲁棒表示、字典矩阵、相似图、视图权重参数和一致图,得到最优一致图;
[0160]
基于最优一致图,通过聚类将所有待识别用户划分到多种癌症亚型。
[0161]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0162]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0163]
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
[0164]
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0165]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0166]
实施例三
[0167]
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,执行以下步骤:
[0168]
获取多个待识别用户的多组学数据;
[0169]
基于所有用户的多组学数据,得到若干个视图;
[0170]
构建每个视图的鲁棒表示和字典矩阵;
[0171]
基于每个视图的鲁棒表示,计算每个视图的相似图;
[0172]
构建视图权重参数,并将各个视图的相似图进行加权融合,形成一致图;
[0173]
迭代更新每个视图的鲁棒表示、字典矩阵、相似图、视图权重参数和一致图,得到最优一致图;
[0174]
基于最优一致图,通过聚类将所有待识别用户划分到多种癌症亚型。
[0175]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献