一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于生物网络的个性化疾病病前状态识别方法

2022-07-23 00:28:21 来源:中国专利 TAG:


1.本发明涉及生物信息学与计算生物学技术领域,特别涉及一种基于生物网络的个性化疾病病前状态识别方法。


背景技术:

2.复杂疾病的发生或恶化往往是突然发生的,而不是一个循序渐进的过程。复杂疾病发展过程种存在的这种现象可以用复杂系统的分岔理论来解释。所以依据分叉理论复杂疾病的发展过车可分为正常状态、病前状态和疾病状态三种状态。如果能够在疾病早期诊断出疾病即将发生或疾病即将恶化(疾病病前状态的识别),并给予相应的治疗,将会极大地促进精准医学的发展。但由于复杂疾病的病因来自于多个方面,所以其存在很大的个体差异性,即每个个体病前状态发生的时间点存在很大差异。同时临床获得数据同一个时间只能获取到一个样本。这就需要识别方法能够做到在单样本数据条件下个性化的识别疾病病前状态。
3.当前个性化的疾病病前状态的识别方法都是基于数据计算的方法(如标准差、自相关性、空间相关性等),这些方法一方面忽略了生物数据的具体生物意义,另一方面在计算时使用的生物背景知识也很少,同时计算也相对耗时。
4.在生物网络中,基因间存在相对稳定的内在调控关系,基因的表达受到其周边基因的影响。在本发明中,基于这种影响模式,我们将生物网络种任意一个基因的表达模式通过该基因的表达值和与该基因有直接调控关系的基因的表达值来具体描述。同时,有了各个基因的表达模式,就可以使用具体距离的计算方法计算出每个时刻基因表达模式的变化,通过这种变化就可以识别出疾病的病前状态。然而,现有技术中还缺乏利用生物网络识别疾病的病前状态的方法。


技术实现要素:

5.本发明实施例提供了一种基于生物网络的个性化疾病病前状态识别方法,使用生物网络中基因间内在的调控关系作为背景进行数据处理和分析,旨在解决现有技术缺乏利用生物网络识别疾病的病前状态的问题。
6.本发明为实现上述目的而提供的技术方案是:
7.一种基于生物网络的个性化疾病病前状态识别方法,包括如下步骤:
8.对获取的单个体个性化时序样本数据进行标准化处理,根据时间点将标准化处理后的样本时序数据分为参考样本数据与待测样本数据;
9.根据参考样本数据,得到基准样本数据;
10.从全局蛋白质互作网络提取每个基因的表达模式,计算待测样本数据或参考样本数据中,每个时间点中每个基因相对于基准样本的距离分数;
11.根据距离分数,得到每个时间点标准化的距离分数,根据每个时间点标准化距离分数,识别疾病病前状态。
12.本发明提出的基于生物网络的个性化疾病病前状态识别方法,其有益效果包括:
13.本发明发明提供的方法,在识别疾病病前状态方面有很好的精度,由于该方法主要是使用生物网络中基因间内在的调控关系作为背景进行数据处理和分析,因此该方法更具有生物意义,结果可解释性强,计算过程简单,计算耗时少。
附图说明
14.为了更清楚的说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见的,下面的描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
15.图1为本发明实施例提供的一种基于生物网络的个性化疾病病前状态识别方法流程示意图;
16.图2本发明实施例提供的流感个性化数据上性能结果展示图;
17.图3本发明实施例提供的流感个性化数据上计算耗时结果展示图。
具体实施方式
18.下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
19.参见图1,本发明实施例所示的流程示意图,基于生物网络的个性化疾病病前状态识别方法,包括如下步骤:
20.s101、对获取的单个体个性化时序样本数据进行标准化处理,根据时间点将标准化处理后的样本时序数据分为参考样本数据与待测样本数据。
21.本发明选取公共数据库ncbi geo中单样本时序流感数据集:gse30550,该数据集的具体样本和基因数量信息如下表所示:
[0022][0023]
对单个个体个性化时序样本数据进行z-score标准化,并计算每个基因在每个时间点的离群表达值。若一个基因在某一时间点的z分数大于等于1或小于等于-1,那么该基因在该时间点为离群基因,其离群值为2;若一个基因在某一时间点的z分数大于-1小于1,那么该基因在该时间点为非离群基因,其离群值为1。
[0024]
选取标准化处理后的时序样本数据中前几个时间点的数据作为参考样本数据,其
余时间点的数据作为待测样本数据。
[0025]
s102、根据参考样本数据,得到基准样本数据。
[0026]
基准样本数据基于参考样本数据获得,任意一个基因如果在参考样本中所有时间点的离群值均为2(在所有时间点均为离群基因),那么该基因在基准样本中的离群值就为2,否则为1。
[0027]
对于单个个体,本发明选择起始的4个时间点(baseline、0h、5h、12h)作为参考样本,其他时间点作为待测样本。基准样本数据依据参考样本数据得到,若在参考样本数据中某一基因,其离群表达值在参考样本的4个时间点中均为2,那么该基因在基准样本中的值为2;否则为1。
[0028]
s103、从全局蛋白质互作网络提取每个基因的表达模式,计算待测样本数据或参考样本数据中,每个时间点中每个基因相对于基准样本的距离分数。
[0029]
在全局的蛋白质互作网络中,每个基因的表达都会受到其周边与它直接相连的基因的影响,因此,一个基因的表达模式由其自身的表达值及周边与它直接相连的基因的表达值来表示,选取蛋白质互作网络中一个基因gi及该基因周围与其直接相连的m个基因g
i1
…gim
,则该基因gi在基准样本t
base
中的表达模式用下式表示:
[0030]
ep(gi,t
base
)=(v(gi,t
base
),v(g
i1
,t
base
),

,v(g
ij
,t
base
),

,v(g
im
,t
base
))
[0031]
该基因在待测样本或参考样本中某一时间点ts的表达模式用下式表示:
[0032]
ep(gi,t
base
)=(v(gi,ts),v(g
i1
,ts),

,v(g
ij
,ts),

,v(g
im
,ts))
[0033]
其中,v(g
ij
,ts)与v(g
ij
,t
base
)分别为基因gi周围直接相连基因在待测样本或参考样本中某一时间点ts及基准样本t
base
中的离群值,v(gi,ts)及v(gi,t
base
)分别为基因gi在待测样本或参考样本中某一时间点ts及基准样本t
base
中的离群值。
[0034]
对于全局蛋白质网络中的每个基因计算它们表达模式在待测样本或参考样本中某一时间点ts与基准样本t
base
的距离,具体的计算用下式中的一个来表示:
[0035]
或,
[0036][0037]
根据待测样本数据或参考样本数据中,每个时间点中每个基因相对于基准样本的距离d(gi,ts),结合基因的离群信息v(gi,ts)及基因的度m,基因gi在待测样本或参考样本中每个时间点中的距离分数,通过下式计算距离分数:
[0038][0039]
对于任意个体的参考样本的4个时间点或待测样本中任意一时间点ts,对于基因gi,依据其表达模式以及基因各个时间点的离群值,就可以获得该基因在该时间点以及基准样本中具体的表达模式,然后确定m大小。如果m大于等于10同时在该时间,该基因的离群表达为2,可以认为该基因是一个相对重要的基因。基于余弦距离或欧式距离计算该基因的距离分数。若m小于10或该基因离群表达为1,那么该基因的距离分数为0。
[0040]
将每个时间点的所有基因的距离分数进行从大到小排序,选取前100的距离分数
累加,累加值为该时间点的距离分数。
[0041]
s104、根据距离分数,得到每个时间点标准化的距离分数,根据每个时间点标准化距离分数,识别疾病病前状态。
[0042]
取参考样本中所有时间点距离分数的平均值作为参考距离分数,将待测样本中每个时间点的距离分数减去参考距离分数后取绝对值,得到待测样本中每个时间点的标准化距离分数。依据这个分数的变化就可以识别疾病病前状态。同时选取在疾病病前状态时间点时基因距离分数从大到小排名前50的基因可以作为疾病恶化或发生的关键基因。
[0043]
参见图2和图3实施例所示的流感个性化数据上性能计算图和耗时图;
[0044]
利用本发明的方法对流感病前状态进行观测,对于流感数据集中所有的个体,本发明均采用这种流程进行计算,最终观测标准化距离分数的变化起伏情况,若有较大的变化,则表示该时间点是病前状态,结果表明该方法有很好的病前状态识别效果,结果如图2所示。同时,该方法与之前的计算方法相比,计算耗时大幅缩短,如图3所示。
[0045]
本发明的方法在识别疾病病前状态方面有很好的精度,由于该方法主要是使用生物网络中基因间内在的调控关系作为背景,进行针对性的数据处理和分析,因此该方法更具有生物意义,结果可解释性强,计算过程简单,计算耗时少。
[0046]
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献