一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于内容的基因互作网络及其构建方法与流程

2022-07-10 13:28:03 来源:中国专利 TAG:


1.本发明属于生物技术领域,具体涉及一种基于内容的基因互作网络及其构建方法。


背景技术:

2.一直以来,高通量转录组数据的筛选的差异表达基因,主要通过构建基因之间互作的静态网络来识别网络中重要的基因进行筛选在生物学上重要的差异基因。所谓的静态网络就是指通过已知的数据库来进行筛选基因之间的互作关系;而实际上在不同的细胞状态下,基因之间的互作相关是变化的;所以静态网络中很大比例的基因互作并不真实;另外常用的数据库中的互作关系来源于以往的文献资料或实验验证得到的,这种数据库虽然相对比较可靠,但是其中更有可能收录一些明星分子的互作关系,进而引起实验数据中识别得到的网络中的重要基因通常就是那些明星分子,而不是实验数据真实的重要基因;因此获得数据真实的重要基因,可以识别出新的具有生物学意义的基因,更具备生物学意义。


技术实现要素:

3.本发明为了解决以上问题,本发明第一方面提供了一种基于内容的基因互作网络的构建方法,包含以下步骤:
4.s1:对基因表达数据做归一化处理;
5.s2:计算基因间差异的pvalue值和基因差异的倍数,按阈值筛选差异表达基因;
6.s3:将差异表达基因的数据按照功能进行分类;
7.s4:构建差异基因间的静态网络;
8.s5:计算基因间可能的互作关系。
9.优选地,所述s1中基因表达数据为两组样本间的基因表达数据。
10.优选地,所述s3中将差异表达基因进行go分类或kegg pathway的节点映射分类。
11.优选地,所述节点映射为计算富集在该节点的差异基因的数目,并通过超几何分布检验计算该节点富集度的p值。
12.优选地,所述p值《0.05为阈值,按阈值筛选差异表达基因。
13.优选地,所述s4中静态网络为从已知的数据库中筛选差异表达基因之间的互作关系,使用cytoscape软件展示基因之间的网络关系。
14.优选地,所述s4静态网络中每个节点代表不同的基因,同一种颜色代表的基因是通过mcode方法计算的属于同一子网络的基因。
15.优选地,所述已知的数据库包括validated数据库和general数据库。
16.优选地,所述s5计算基因间可能的互作关系为通过clr算法计算。
17.本发明第二方面提供了一种基于内容的基因互作网络的构建方法构建的基因互作网络,所述基因互作网络为将s4和s5计算的网络进行结合得到的。
18.优选地,所述s4和s5计算的网络进行结合包含以下步骤:
19.①
保留s4和s5出现的相同基因的互作关系;
20.②
将s4和s5计算所得不同的基因互作关系作为基于实验数据的基因互作关系;
21.③
用cytoscape软件呈现所有差异基因之间的互作网络。
22.有益效果
23.1.通过本发明方法构建的基于内容的基因互作网络来代替静态网络,并在静态网络的基础上删除那些计算上不存在的互作关系,使用validated数据库和general数据库,减少明星分子互作关系的影响,可以将实验组和对照组的实时基因和基因动态互作关系识别出来。
24.2.通过构建基于内容的基因互作网络,可以清楚互作网络中有哪些基因,能将更有意义的重要基因识别出来。
25.3.通过构建基于内容的基因互作网络,可以清楚哪些基因会一起相互作用。
26.4.通过构建基于内容的基因互作网络,可以获得更贴合实验数据本身的实际现象的实验数据。
附图说明
27.图1为两个实验组和静态网络在监测基因网络的log2差异倍数的绝对值做出的数据图。
28.图2为两个实验组和静态网络在监测基因网络的中间中心度(betweeness)log2转换后的数据图。
29.图3为两个实验组和静态网络在监测基因网络的特征向量中心度(evcent)的数据图。
30.图4为两个实验组和静态网络在监测基因网络的度中心性(degree)的数据图。
具体实施方式
31.下面结合具体实施方式对本发明提供技术方案中的技术特征作进一步清楚、完整的描述,并非对其保护范围的限制。
32.本发明中的词语“优选的”、“更优选的”等是指,在某些情况下可提供某些有益效果的本发明实施方案。然而,在相同的情况下或其他情况下,其他实施方案也可能是优选的。此外,对一个或多个优选实施方案的表述并不暗示其他实施方案不可用,也并非旨在将其他实施方案排除在本发明的范围之外。
33.当本文中公开一个数值范围时,上述范围视为连续,且包括该范围的最小值及最大值,以及这种最小值与最大值之间的每一个值。进一步地,当范围是指整数时,包括该范围的最小值与最大值之间的每一个整数。此外,当提供多个范围描述特征或特性时,可以合并该范围。换言之,除非另有指明,否则本文中所公开之所有范围应理解为包括其中所归入的任何及所有的子范围。例如,从“1至10”的指定范围应视为包括最小值1与最大值10之间的任何及所有的子范围。范围1至10的示例性子范围包括但不限于1至6.1、3.5至7.8、5.5至10等。
34.以下通过实施例形式的具体实施方法,对本发明的上述内容作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下实施例。
35.本发明第一方面提供了一种基于内容的基因互作网络的构建方法,包含以下步骤:
36.s1:对基因表达数据做归一化处理;
37.s2:计算基因间差异的pvalue值和基因差异的倍数,按阈值筛选差异表达基因;
38.s3:将差异表达基因的数据按照功能进行分类;
39.s4:构建差异基因间的静态网络;
40.s5:计算基因间可能的互作关系。
41.在一种实施方式中,所述s1中基因表达数据为两组样本间的基因表达数据。
42.在一种实施方式中,由于实验原因或者其他技术噪音导致不同样本的数据间不存在可比性,需要对基因表达量进行归一化处理,经过归一化处理后,同样本的基因表达量几乎在同一变化范围内,数据间具有可比性。
43.在一种实施方式中,所述s3中将差异表达基因进行go分类或kegg pathway的节点映射分类。
44.go分类:是将每个基因与其对应的go功能联系起来,以获取基因的go注释信息。
45.go富集分析:是将go功能相似的基因集通过统计学检验算法富集到一起,从而方便研究具有某一类go功能的基因。
46.kegg pathway:kegg数据库中包括了代谢、调控、通路、生化、疾病、药物等相关的分子相互作用和关系网络。
47.在一种实施方式中,所述节点映射为计算富集在该节点的差异基因的数目,并通过超几何分布检验计算该节点富集度的p值。
48.在一种实施方式中,所述p值《0.05为阈值,按阈值筛选差异表达基因,通过统计差异基因的数量及做显著差异基因的热图来判断基因的可能的变化趋势。
49.在实验中意外发现差异基因在不同组别的数据中的差异情况是不同的;当差异基因数量太少时,计算基因之间的互作意义就不大,所以可以视情况调整差异筛选的阈值;当显著差异基因在不同组别中进行表达时,可以看出基因可以按不同的表达模式分成不同的集群,如果基因是通过集群来行使功能更有可能表达趋
50.在一种实施方式中,以p《0.05或p.adjust《0.05为阈值,筛选出具有统计学意义的差异基因富集的go分类或pathway。
51.在一种实施方式中,所述s4中静态网络为从已知的数据库中筛选差异表达基因之间的互作关系,使用cytoscape软件展示基因之间的网络关系。
52.在一种实施方式中,所述s4静态网络中每个节点代表不同的基因,同一种颜色代表的基因是通过mcode方法计算的属于同一子网络的基因。
53.在一种实施方式中,所述已知的数据库包括validated数据库和general数据库。
54.所述validated数据库和general构建基于内容的网络,分别定义为hc-net及lar-net。
55.网络中重要节点的计算方式:
[0056][0057]
所述p
hc
及p
lar
分别指的是hc-net及lar-net对应网络中基因属于重要基因(hub)的
经验pvalue。是自由度为2的卡方值。值排前5%的基因认为是hub基因。
[0058]
该计算方法中同时考虑了hc-net及lar-net的结果,避免了单独使用高可信度数据导致找到的hub基因往往是明星分子的缺陷。另外,由于基于内容的网络是不同的实验组数据分别计算,这样可以对不同的实验组不同计算hub基因,通过比较,可以找到实验组间不同的hub基因。
[0059]
在一种实施方式中,所述s5计算基因间可能的互作关系为通过clr算法计算。
[0060]
在一种实施方式中,基于基因表达量预测基因间可能互作关系,这部分分析适用于样本量较大(每组样本至少15个样本,如果单组数据是时间点或梯度的数据,则分别需要至少5个时间或5个梯度)。
[0061]
所述clr算法:为预测方法计算原理,全称context likelihood of relatedness;该算法基于互信息(mutual information)网络原理。
[0062]
所述互信息(mutual information)网络属于调控推理方法的范畴。这种方法的优势在于能够推断出一群基因的互作关系。
[0063]
所述clr算法首先计算基因之间的互信息矩阵,互信息矩阵计算公式如公式1-3。
[0064][0065][0066][0067]
所述公式1代表的是基因i跟基因j的互信息熵(mi)。其中xi代表的是第i个基因的表达。
[0068]
所述公式2及3代表的是基因i跟基因j的互信息熵的zscore值。
[0069]
所述其中μi和分别代表第i基因分别与其他基因间的mi值的均值及标准差。
[0070]
所述clr算法基于估计计算基因间互信息值的阈值,低于该阈值的基因间关系将被删除。
[0071]
所述clr算法是基于基因表达量计算,是跟实验条件下基因的表达量直接相关;所以更能反应出当时基因之间的互作关系。计算基因之间的互作关系时,两个实验组的数据分别计算;这样就能得到两个实验组不同的预测的互作关系。
[0072]
本发明第二方面提供了一种基于内容的基因互作网络的构建方法构建的基因互作网络,所述基因互作网络为将s4和s5计算的网络进行结合得到的。
[0073]
在一种实施方式中,所述s4和s5计算的网络进行结合包含以下步骤:
[0074]

保留s4和s5出现的相同基因的互作关系;
[0075]

将s4和s5计算所得不同的基因互作关系作为基于实验数据的基因互作关系;
[0076]

用cytoscape软件呈现所有差异基因之间的互作网络。
[0077]
在一种实施方式中,所述步骤

中不同的基因互作关系为基于内容的实验数据,是获得的可靠的基因互作关系。
[0078]
实施例1
[0079]
一种基于内容的基因互作网络的构建方法,包含以下步骤:
[0080]
s1:对实验组1和实验组2的基因表达数据做归一化处理;
[0081]
s2:计算基因间差异的pvalue值和基因差异的倍数,按阈值筛选差异表达基因;
[0082]
s3:将实验组1和实验组2的差异表达基因的功能按照差异基因富集的go分类;
[0083]
s4:通过validated数据库和general数据库构建实验组1和实验组2的差异基因间的静态网络;
[0084]
s5:通过clr算法计算实验组1和实验组2的基因间可能的互作关系。
[0085]
网络中重要节点的计算方式:
[0086][0087]
所述p
hc
及p
lar
分别指的是hc-net及lar-net对应网络中基因属于重要基因(hub)的经验pvalue。
[0088]
所述是自由度为2的卡方值。
[0089]
所述值排前5%的基因认为是hub基因。
[0090]
一种基于内容的基因互作网络,所述基于内容的基因互作网络结合包含以下步骤:
[0091]

保留s4和s5出现的实验组1和实验组2的相同基因的互作关系;
[0092]

将s4和s5计算所得不同的基因互作关系作为基于实验数据的基因互作关系;
[0093]

用cytoscape软件呈现差异基因之间的互作网络。
[0094]
数据测试
[0095]
1.通过用cytoscape软件将静态网络与实验组1和实验组2基于内容网络中网络基因数据属性进行了比对,比对结果见表1和图1-4。
[0096]
网络密度:用来形容网络中连接的边的密度,网络密度越大,说明网络中的节点越有可能连接在一起。
[0097]
聚类系数:衡量相邻的节点相互连接的可能性,该值越大,说明网络中节点越有可能成簇存在。
[0098]
子网络的个数:如果网络中节点相邻节点更多表现为相互连接,可以认为是一个簇或子网络。
[0099]
节点数:网络中的基因数。
[0100]
边数:网络中的边数。
[0101][0102][0103]
图1中g1,g2分别指的是两个实验组,pri指的是静态网络。纵轴代表的是基因log2差异倍数的绝对值;从图中来看,静态网络中基因的差异水平小于另外两个实验组。
[0104]
图2-4中g1,g2分别指的是两个实验组,pri指的是静态网络。纵轴分别代表的是固有网络的中间中心度(betweeness)log2转换后的值,特征向量中心度(evcent),度中心性(degree);可以看出静态网络中的值明显高于两个实验组,说明静态网络中识别的hub基因越有可能是明星分子,而不是实验中本身重要的;另外,这些hub基因本身的差异水平越高,可能生物学意义越大。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献