一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多尺度模块核的致病基因识别方法及系统与流程

2022-03-26 13:21:46 来源:中国专利 TAG:


1.本公开实施例涉及生物信息学技术领域,尤其涉及一种基于多尺度模块核的致病基因识别方法及系统。


背景技术:

2.目前,疾病相关基因的鉴定对于人类复杂疾病的研究非常重要,这是理解疾病分子机制的基础。传统方法存在候选空间大且候选基因的实验鉴定既昂贵又耗时等问题。因此,疾病致病基因预测方法的开发成为计算生物学的一个重要课题,它对复杂疾病的研究有着重要的促进作用。
3.已经提出了许多计算方法来预测疾病相关基因,而基于网络的方法是疾病基因预测中最流行的策略之一。通过候选基因和种子基因(即已知与特定疾病相关的基因)之间的直接相互作用、网络距离或接近度来预测疾病相关基因是一种自然而有效的策略。带重启的随机行走等网络传播方法可以更有效地探索生物网络中种子周围的邻域拓扑,因此已被广泛应用于疾病基因预测以及相关问题,并且还被扩展到更复杂的网络模型,如同质或异构网络中的多图模型、多网络模型和多重网络模型。这些模型可以集成多种类型的生物网络。然而,由于生物网络中的数据噪声等问题,这些方法仍有进一步的改进空间。
4.生物分子网络中模块结构分析可以为人类复杂疾病的研究提供有用的见解。多尺度模块结构(mms)广泛存在于生物分子网络中。这些生物分子网络由子网络组成,而子网络可以在深层的层次结构中逐渐分解为更小的子网络。例如,一些复合物可能由多个次级复合物组成,基因功能注释的层次结构也意味着存在多个尺度上的功能模块。mms可以为疾病研究提供从局部到全局的更丰富的信息,但是如何挖掘隐藏在mms中的有价值的信息仍然是疾病基因预测的一个具有挑战性的课题。
5.可见,亟需一种高效精准的基于多尺度模块核的致病基因识别方法。


技术实现要素:

6.有鉴于此,本公开实施例提供一种基于多尺度模块核的致病基因识别方法及系统,至少部分解决现有技术中存在致病基因识别效率和识别精准度较差的问题。
7.第一方面,本公开实施例提供了一种基于多尺度模块核的致病基因识别方法,包括:
8.通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱;
9.根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵;
10.根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联,分别构建两个概率矩阵,并通过游走动
力学过程从两个所述概率矩阵中提取两个预测列表;
11.通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因。
12.根据本公开实施例的一种具体实现方式,所述网络多尺度模块的公式为其中,e
ss
表示模块s内的边比例,as表示在随机模型中模块s内的边比例,γ为分辨率参数,通过指数抽样方式获得对应不同尺度的γ分辨率参数值;
13.所述标准化多尺度模块谱:b=(b
(1)
,b
(2)
,

,b
(h)
,

),其中,b
(h)
是每个尺度的模块划分矩阵,该矩阵的元素表示基因i是否属于模块s;
14.所述权重化处理的公式为其中,对角矩阵d
ic
的对角元素(d
ic
)
ss
=-log(∑0i(b
is
)/n),i(x)表示计数函数,n表示节点数目。
15.根据本公开实施例的一种具体实现方式,所述根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵的步骤,包括:
16.将所述标准化多尺度模块谱作为节点特征谱并通过所述节点特征谱向量内积计算得到所述多尺度模块核矩阵;
17.通过节点度相关的标准化方法对所述多尺度模块核矩阵内的元素进行标准化,使其元素值约束至0和1之间,得到标准化模块核矩阵;
18.保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化的模块核矩阵进行核稀疏,得到所述稀疏矩阵。
19.根据本公开实施例的一种具体实现方式,所述保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化模块核矩阵进行核稀疏,得到所述稀疏矩阵的步骤,包括:
20.计算所述标准化模块核矩阵中每个所述节点与其邻居节点之间的相似度分值的降序排位值,得到每个所述节点的排位向量;
21.将全部所述节点的排位向量组合,形成排位矩阵;
22.根据所述排位矩阵计算新的基因网络;
23.根据所述基因网络得到所述稀疏矩阵。
24.根据本公开实施例的一种具体实现方式,所述根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表的步骤,包括:
25.根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联建立第一概率矩阵,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联建立第二概率矩阵;
26.将所述第一概率矩阵归一化得到第一概率转移矩阵,以及,将所述第二概率矩阵归一化得到第二概率转移矩阵;
27.根据所述游走动力学过程分别生成所述第一概率转移矩阵和所述第二概率转移矩阵对应的预测分值形成两个所述预测列表。
28.根据本公开实施例的一种具体实现方式,所述通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因的步骤,包括:
29.对两个所述预测列表进行降序排列,得到两个排位列表;
30.通过所述概率模型融合两个所述排位列表,得到所述基因概率列表;
31.将所述基因概率列表进行降序排列并根据排序结果预测疾病的致病基因。
32.第二方面,本公开实施例提供了一种基于多尺度模块核的致病基因识别系统,包括:
33.提取模块,用于通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱;
34.构建模块,用于根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵;
35.关联模块,用于根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表;
36.预测模块,用于通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因。
37.本公开实施例中的基于多尺度模块核的致病基因识别方案,包括:通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱;根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵;根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表;通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因。
38.本公开实施例的有益效果为:通过本公开的方案,提取多尺度模块谱并标准化,有效融合不同层次、不同特异性的网络模块结构信息后构建多尺度模块核并进行稀疏化,提供了新的基因-基因关联信息,然后来自原始异构网络和结合多尺度模块核的异构网络的预测列表的排位聚合有效融合了互补的预测信息,提高了预测效率和预测精准度。
附图说明
39.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
40.图1为本公开实施例提供的一种基于多尺度模块核的致病基因识别方法的流程示意图;
41.图2为本公开实施例提供的一种基于多尺度模块核的致病基因识别方法的处理流
程示意图;
42.图3为本公开实施例提供的多尺度模块核的稀疏化过程对基于多尺度模块核的致病基因识别方法的预测性能的影响示意图;
43.图4为本公开实施例提供的多尺度模块核的稀疏化过程对基于多尺度模块核的致病基因识别方法的时间、空间需求的影响示意图;
44.图5为本公开实施例提供的基于多尺度模块核的致病基因识别方法的预测性能比较图;
45.图6为本公开实施例提供的基于多尺度模块核的致病基因识别方法的局部预测性能比较图;
46.图7为本公开实施例提供的一种基于多尺度模块核的致病基因识别系统的结构示意图。
具体实施方式
47.下面结合附图对本公开实施例进行详细描述。
48.以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
49.需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
50.还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
51.另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
52.本公开实施例提供一种基于多尺度模块核的致病基因识别方法,所述方法可以应用于医疗健康场景的致病基因识别过程中。
53.参见图1,为本公开实施例提供的一种基于多尺度模块核的致病基因识别方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
54.s101,通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网
络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱;
55.具体实施时,考虑到综合的蛋白质相互作用组包含了多个尺度和层次的信息,可以先通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱。
56.可选的,所述网络多尺度模块的公式为其中,e
ss
表示模块s内的边比例,as表示在随机模型中模块s内的边比例,γ为分辨率参数,通过指数抽样方式获得对应不同尺度的γ分辨率参数值;
57.所述标准化多尺度模块谱:b=(b
(1)
,b
(2)
,

,b
(h)
,

),其中,b
(h)
是每个尺度的模块划分矩阵,该矩阵的元素表示基因i是否属于模块s;
58.所述权重化处理的公式为其中,对角矩阵d
ic
的对角元素(d
ic
)
ss
=-log(∑ii(b
is
)/n),i(x)表示计数函数,n表示节点数目。
59.例如,通过指数抽样多尺度模块优化方法提取蛋白质相互作用组的多尺度模块,其中多尺度模块度函数定义为:e
ss
表示模块s内的边比例,as表示在随机模型中模块s内的边比例,γ为分辨率参数;在分辨率参数空间,通过指数抽样方式获得离散的分辨率参数集合;对每个合理的分辨率参数值将通过优化q(γ)函数产生一套网络模块划分(模块划分表示在该分辨率下对网络进行模块分割后的结果),构建模块划分矩阵b
(h)
以描述每个尺度的模块划分结果,其元素表示基因i是否属于模块s;整合模块划分矩阵以构建包含网络局部信息和全局信息的多尺度模块谱:b=(b
(1)
,b
(2)
,

,b
(h)
,

),其中b
(h)
是每个尺度的模块划分矩阵。
60.然后通过特征相对信息量方法对多尺度模块谱进行权重化预处理,获得标准化的多尺度模块谱,计算方法为:其中对角矩阵d
ic
的对角元素(d
ic
)
ss
=-log(∑ii(b
is
)/n),i(x)表示计数函数,n表示节点数目;
61.以上步骤中指数抽样多尺度模块优化能够较好地覆盖各尺度的网络模块结构,多尺度模块谱及其标准化处理过程既能有效融合不同层次的网络结构信息并且考虑了不同尺度的模块的特异性,从而为多尺度模块信息的表示提供了有效方案,为后续疾病致病基因识别能力提供了重要基础。
62.s102,根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵;
63.具体实施时,在得到所述标准化多尺度模块谱后,可以根据所述标准化多尺度模块谱构建多尺度模块核矩阵,进一步凝练了多尺度模块谱中的信息,并进行核稀疏,得到稀疏矩阵为后续疾病致病基因预测提供了新的基因-基因关联类型,并提高计算效率。
64.s103,根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表;
65.具体实施时,所述蛋白质相互作用组、所述疾病-疾病关联和所述疾病-基因关联可以构建原始异构网络,以及,可以根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联构建新的异构网络,然后根据两个不同的异构网络得到两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表,两个所述预测列表为致病基因的有效预测提供了互补的信息。
66.s104,通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因。
67.具体实施时,可以通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,从而综合利用多个关于候选基因的预测分值列表的互补信息,尤其是结合多尺度模块核的预测列表信息,从而有效提升疾病致病基因预测能力,并根据所述基因概率列表预测疾病的致病基因。
68.本实施例提供的基于多尺度模块核的致病基因识别方法,通过提取多尺度模块谱并标准化,有效融合不同层次、不同特异性的网络模块结构信息后构建多尺度模块核并进行稀疏化,提供了新的基因-基因关联信息,然后来自原始异构网络和结合多尺度模块核的异构网络的预测列表的排位聚合有效融合了互补的预测信息,提高了预测效率和预测精准度。
69.进一步的,步骤s102所述的,根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵,包括:
70.将所述标准化多尺度模块谱作为节点特征谱并通过所述节点特征谱向量内积计算得到所述多尺度模块核矩阵;
71.通过节点度相关的标准化方法对所述多尺度模块核矩阵内的元素进行标准化,使其元素值约束至0和1之间,得到标准化模块核矩阵;
72.保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化的模块核矩阵进行核稀疏,得到所述稀疏矩阵。
73.例如,将所述标准化多尺度模块谱作为节点特征谱通过所述节点特征谱向量內积计算得到所述多尺度模块核矩阵,计算公式为:
74.通过节点度相关的标准化方法将所述多尺度模块核矩阵的元素值约束到0和1之间,计算公式为:其中d
nm
为对角矩阵,其对角元素定义为然后根据标准化的多尺度模块核通过保留每个节点的最相似的k个邻居节点,将多尺度模块核进行稀疏化处理,得到所述稀疏矩阵。
75.进一步的,所述保留所述标准化模块核矩阵中每个节点对应的预设数量的相似邻居节点,将所述标准化模块核矩阵进行核稀疏,得到所述稀疏矩阵的步骤,包括:
76.计算所述标准化模块核矩阵中每个所述节点与其邻居节点之间的相似度分值的降序排位值,得到每个所述节点的排位向量;
77.将全部所述节点的排位向量组合,形成排位矩阵;
78.根据所述排位矩阵计算新的基因网络;
79.根据所述基因网络得到所述稀疏矩阵。
80.具体的,对每个节点,计算它与邻居节点之间的相似度分值的降序排位值,得到排位向量其中r
ij
表示基因i的邻居j的排位值(令基因i对于自身的排位值取最大),然后将所有基因的排位向量组合得到排位矩阵再定义新的基因网络g=(v,e,w),其中v,e和w分别表示基因集合,边集合和对应的边权的集合,e={(i,j)|r
ij
≤korr
ji
≤k},而然后根据新的基因网络g=(v,e,w),得到多尺度模块核对应的稀疏矩阵表示:m
msmk
,该矩阵中大于零的元素值表示g中存在的边和边的权重。
81.多尺度模块核的构建及其标准化处理,进一步凝练了多尺度模块谱中的信息,为后续疾病致病基因预测提供了新的基因-基因关联类型,而其稀疏化处理过程能够有效降低多尺度模块核在后续运算过程中的时间和空间需求,提升计算效率。
82.进一步的,步骤s103所述的,根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表,包括:
83.根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联建立第一概率矩阵,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联建立第二概率矩阵;
84.将所述第一概率矩阵归一化得到第一概率转移矩阵,以及,将所述第二概率矩阵归一化得到第二概率转移矩阵;
85.根据所述游走动力学过程分别生成所述第一概率转移矩阵和所述第二概率转移矩阵对应的预测分值形成两个所述预测列表。
86.具体实施时,根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联建立第一概率矩阵以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联建立第二概率矩阵基因关联建立第二概率矩阵其中,tg为对应蛋白质相互作用组的列归一化矩阵(即概率转移矩阵),t
msmk
为对应多尺度模块核稀疏矩阵表示的概率转移矩阵,td为对应疾病-疾病关联矩阵的概率转移矩阵,t
gd
为对应基因-疾病关联矩阵的概率转移矩阵,t
dg
为对应疾病-基因关联矩阵的概率转移矩阵,β为层间跳转概率。
87.然后将矩阵m
hna
和m
hnb
进一步列归一化得到两个最终的异构网络概率转移矩阵t
hna
和t
hnb
,再通过异构网络随机游走动力学过程,分别生成两个关于疾病候选基因的预测分值列表,计算公式为:列表,计算公式为:其中th表示异构网络概率转移矩阵,和表示基因和疾病的初始概率向量。需要说明的是,中对应已知疾病
基因的元素大于零,中对应被研究疾病的元素值等于1,其它元素值为0,pg和pd分别表示基因的稳态概率向量和疾病的稳态概率向量。利用上式,在th分别等于t
hna
和t
hnb
的两个异构网络中,得到两个关于候选基因的预测列表。
88.进一步的,步骤s104所述的,通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因,包括:
89.对两个所述预测列表进行降序排列,得到两个排位列表;
90.通过所述概率模型融合两个所述排位列表,得到所述基因概率列表;
91.将所述基因概率列表进行降序排列并根据排序结果预测疾病的致病基因。
92.具体实施时,在得到所述预测列表后,可以对两个所述预测列表进行降序排列,得到两个关于候选基因的排位列表fa和fb,然后通过所述概率模型p(xi|fa,fb)=∏
h∈{a,b}
p(xi|fh)融合上述两个排位列表以得到最终的基因概率列表,其中概率函数定义为:p(xi|fa)=1/f
ai
,而f
ai
表示基因i在fa中的排位值。然后将所述基因概率列表进行降序排列并根据排序结果预测疾病的致病基因。
93.下面将结合一个具体实施例对本公开的基于多尺度模块核的致病基因识别方法进行说明,为了验证本方法的有效性,将已知的致病基因关联数据作为测试平台,对本基于多尺度模块核的致病基因识别方法hymsmk的性能进行综合评估,过程如图2所示:
94.(1)测试数据:疾病-基因关联数据来自omim和gwas等数据库;基因-基因关联数据来自综合的蛋白质相互作用组研究;疾病-疾病关联数据来自文本挖掘的疾病-症状关联研究;
95.(2)评价方法:通过五折交叉验证对本方法进行性能测试和评估;五折交叉验证分别将每个疾病已知的致病基因集合随机拆分成五份,每一份依次作为阳性测试集,其余的作为训练集;利用top-k预测列表的预测精度(precision或prec)、召回率(recall)和precision-recall曲线下面积(auprc)来定量评估本方法的性能;
96.(3)评价结果
97.图3中,(a)至(f)表明基于多尺度模块核的致病基因识别方法hymsmk方法的预测性能随着多尺度核的稀疏度的降低而逐渐提升,在稀疏化操作中的邻居数超过1000时有较为稳定的预测性能,其中,(a)-(b)为召回率recall,(c)-(d)为精度prec,(e)-(f)为auprc性能;第一行对应在连锁间隔控制集条件下,第二行对应在全基因组控制集条件下。如图4所示,(a)至(f)表明随着多尺度核的稀疏度的降低,hymsmk方法的存储空间需求和时间需求都近似线性的增长,甚至超过全矩阵模式的空间和时间需求,smrm表示稀疏矩阵模式,fmrm表示全矩阵模式,pnnze表示非零元素比例。(a)-(c)为在多尺度核上的测试;(d)-(f)表示在结合了多尺度核的异构网络上的测试。但在k=1000附近时,hymsmk方法的时间和空间需求都明显小于全矩阵模式时的需求。因此,对于hymsmk,k=1000是一个较好的稀疏度参数。
98.如图5所示,其中,(a)-(b)为auprc性能,(c)-(d)为召回率recall,(e)-(f)为精度prec;第一行对应在连锁间隔控制集条件下,第二行对应在全基因组控制集条件下,显示hymsmk方法与其它基于网络的先进预测方法的性能指标。图6中,(a)-(b)表示在连锁间隔控制集条件下的top-k召回率recall和精度precision;(c)-(d)表示在全基因组控制集条
件下top-k召回率recall和精度precision,(a)至(d)进一步展示了hymsmk与其它方法的(top-1到top-10)局部预测性能。结果显示hymsmk方法预测性能优于这些先进的对比方法,显示出hymsmk方法在预测性能上的优势。
99.由此可见,本方法hymsmk通过构建多尺度模块谱来有效描述网络多尺度模块结构信息,通过构建多尺度模块核来利用这些多尺度结构信息推断潜在的新的基因-基因关联,为利用网络多尺度模块结构预测疾病致病基因提供了有效方案,从而提升疾病致病基因的预测能力。
100.与上面的方法实施例相对应,参见图7,本公开实施例还提供了一种基于多尺度模块核的致病基因识别系统70,包括:
101.提取模块701,用于通过指数抽样的多尺度模块度优化算法从综合的蛋白质相互作用组提取网络多尺度模块,构建包含网络局部信息和全局信息的初始多尺度模块谱,并采用特征信息量方法对其进行权重化处理,得到标准化多尺度模块谱;
102.构建模块702,用于根据所述标准化多尺度模块谱构建多尺度模块核矩阵并进行核稀疏,得到稀疏矩阵;
103.关联模块703,用于根据所述蛋白质相互作用组、疾病-疾病关联和疾病-基因关联,以及,根据所述稀疏矩阵、所述疾病-疾病关联和所述疾病-基因关联,分别构建两个概率矩阵,并通过游走动力学过程从两个所述概率矩阵中提取两个预测列表;
104.预测模块704,用于通过基于节点排位聚合的概率模型融合两个所述预测列表,得到基因概率列表,并根据所述基因概率列表预测疾病的致病基因。
105.图7所示系统可以对应的执行上述方法实施例中的内容,本实施例未详细描述的部分,参照上述方法实施例中记载的内容,在此不再赘述。
106.以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献