一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于全基因组关联信号初筛复杂疾病药物的方法

2022-12-31 15:55:11 来源:中国专利 TAG:


1.本发明涉及高通量药物筛选技术领域,尤其涉及基于全基因组关联信号初筛复杂疾病药物的方法。


背景技术:

2.近年来,研究人员越来越关注为现有药物寻找新的适应症以降低药物研发成本并加快药物研究进程,目前已经有许多癌症相关的药物研究,而针对其他复杂疾病(比如精神疾病)的药物研究似乎并不多,造成这种差异的原因是多方面的,首先,与癌症研究相比,其他复杂疾病(比如精神疾病)的研究更难收集患者或健康人适当的疾病原发组织(比如脑组织),其次,复杂疾病患者常常会服用药物来缓解症状,这可能会改变疾病相关基因的表达状态,进而导致获得疾病的相关组织(比如精神疾病患者的脑组织)并不能完全反映疾病的生物学基础,随着基因组技术的快速发展,复杂疾病(如精神疾病)的药物研究出现了一些潜在的解决方案,现有的研究技术有使用复杂疾病的全基因组关联研究(gwas)鉴定到的与表型相关联的遗传变异位点,进一步地定位到变异位点所在的基因,然后分析这些基因是否是已知药物的靶基因,然而该技术是基于单个基因靶标设计的,对于具有多个易感基因的复杂疾病并不适用,另一种有根据疾病原发组织的转录组学数据,计算出患者相对于健康对照的差异表达基因及这些差异表达基因的表达倍数变化,然而许多复杂疾病的原发组织目前仍不清楚,此外,有些原发组织很难收集(比如精神疾病患者的脑组织),这些因素都限制了该技术的使用。


技术实现要素:

3.为了解决上述技术问题,本发明的目的是提供基于全基因组关联信号初筛复杂疾病药物的方法,能够通过预测特异性扰动多个疾病易感基因的药物进而缩小复杂疾病候选药物的筛选范围。
4.本发明所采用的第一技术方案是:基于全基因组关联信号初筛复杂疾病药物的方法,包括以下步骤:
5.基于全基因关联信号,通过dese算法对复杂疾病细胞进行筛选处理,得到复杂疾病的细胞系;
6.通过药物空白对照对复杂疾病的细胞系进行诱导与分析,得到药物对基因的特异性扰动谱;
7.基于全基因关联信号,结合条件数据对药物对基因的特异性扰动谱进行循环预测分析与计算,得到复杂疾病易感基因的药物。
8.进一步,所述通过药物空白对照对复杂疾病的细胞系进行诱导与分析,得到特异性扰动谱这一步骤,其具体包括:
9.通过药物空白对照诱导复杂疾病的细胞系并进行倍数标记处理,得到基因表达谱;
10.通过鲁棒z-score打分方法对基因表达谱进行计算处理,得到基因的正向特异性扰动谱;
11.对基因的正向特异性扰动谱进行取反操作后进行鲁棒z-score打分方法处理,得到基因的反向特异性扰动谱;
12.整合基因的正向特异性扰动谱和基因的反向特异性扰动谱,得到药物对基因的特异性扰动谱。
13.进一步,所述药物对基因的正向特异性扰动谱的计算公式如下所示:
[0014][0015]
上式中,λ表示用于调整p-value检验以使其遵循均匀分布,yi表示第i种药物诱导某一基因后该基因表达量的倍数变化,μ表示所有药物诱导该基因后表达倍数变化的平均值,δ表示所有药物诱导该基因后该基因表达倍数变化的标准差,zi表示药物对基因的正向特异性扰动谱。
[0016]
进一步,所述基于全基因关联信号,结合条件数据对药物对基因的特异性扰动谱进行循环预测分析与计算,得到复杂疾病易感基因的药物这一步骤,其具体包括:
[0017]
收集gwas summary数据、参考基因型数据和参考基因模型数据,根据基因对表型显著性的排序进行条件关联检验,得到条件关联模式下显著的基因;
[0018]
考察条件关联显著基因,对药物特异性扰动的趋势,通过mann-whitney u进行检验,得到药物的p-value值;
[0019]
基于药物的p-value值和基因在药物的特异性扰动排名进行特性扰动计算,得到基因的特异性扰动评分;
[0020]
根据基因的特异性扰动评分对基因排序,重新做条件关联检验得到新的一批疾病关联基因,重新考察其对药物特异性扰动的趋势,循环上述预测步骤、检验步骤和扰动计算步骤,直至满足循环终止条件,输出复杂疾病易感基因的药物。
[0021]
进一步,所述对药物的p-value值进行特性扰动计算的公式如下所示:
[0022][0023]
上式中,t表示疾病易感基因和非易感基因数目之和,i表示第i个药物,j表示第j个诱导基因,k
j,i
表示第i个药物诱导基因j的特异性扰动效应在药物i诱导的所有基因中的排序,n表示n种药物,pi表示n种药物在mann-whitney u检验后的p-value值。
[0024]
进一步,所述迭代计算的终止条件如下所示:
[0025]
|log(pn)-log(p
n-1
)|《10-5
[0026]
上式中,pn表示n种药物在mann-whitney u检验后的第n个p-value值。
[0027]
本发明方法的有益效果是:本发明通过dese算法对复杂疾病细胞进行筛选处理,再通过使用大量的药物对复杂疾病的细胞类型进行诱导其特异性表达,其中治疗药物倾向于特异性扰动(上调或下调)一部分疾病易感基因的表达,最后结合条件基因关联分析以及药物特异性扰动分析,来预测能够特异性扰动多个疾病易感基因的药物,进而缩小复杂疾病候选药物的筛选范围。
附图说明
[0028]
图1是本发明基于全基因组关联信号初筛复杂疾病药物的方法的步骤流程图;
[0029]
图2是本发明通过dese算法对复杂疾病细胞进行筛选处理的流程示意图;
[0030]
图3是本发明通过大量药物对复杂疾病的细胞系进行诱导与分析的流程示意图;
[0031]
图4是本发明结合gwas summary数据对药物对基因的特异性扰动谱进行分析计算的流程示意图。
具体实施方式
[0032]
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
[0033]
参照图1,本发明提供了基于全基因组关联信号初筛复杂疾病药物的方法,该方法包括以下步骤:
[0034]
s1、基于全基因关联信号,通过dese算法对复杂疾病细胞进行筛选处理,得到复杂疾病的细胞系;
[0035]
具体地,参照图2,基于m种细胞系的基因表达谱数据,使用预测算法dese来推断这m种细胞系中与复杂疾病相关的细胞类型,所述dese算法的过程为利用常规非参数检验(mann-whitney u秩和检验)考察疾病关联基因在组织细胞中特异表达的显著性程度,基本的原理假设是疾病关联基因整体上倾向于在疾病的原发组织中有特异表达,dese会给每种细胞类型计算一个p-value(表示该细胞类型与复杂疾病的关联显著性),然后以校正后p-value小于0.05的标准来筛选与复杂疾病显著相关的细胞类型。
[0036]
s2、通过药物空白对照对复杂疾病的细胞系进行诱导与分析,得到药物对基因的特异性扰动谱;
[0037]
具体地,参照图3,本发明分别根据大量药物和对照(如二甲基亚砜dmso)诱导复杂疾病相关细胞系产生的基因表达谱进行基因的差异表达分析,产生药物诱导基因的差异表达谱。
[0038]
s21、通过药物空白对照诱导复杂疾病的细胞系并进行倍数标记处理,得到基因表达谱;
[0039]
具体地,若s1步骤中与复杂疾病相关的细胞类型数目大于1,则通过对所有细胞系的空白对照诱导产生的基因表达谱取平均,来生成合并了的空白对照诱导表型相关细胞系所产生的基因表达谱;通过对被同一药物诱导产生的基因表达谱(无论细胞类型、药物处理细胞系时间长短或药物浓度多大)取平均来生成同一药物的药物诱导相关细胞系产生的基因表达谱。
[0040]
s22、通过鲁棒z-score打分方法对基因表达谱进行计算处理,得到基因在某些药物的正向特异性扰动谱;
[0041]
具体地,所述鲁棒z-score打分方法即为一种衡量基因在组织中特异表达的方法,假设基因g在n种不同组织有表达量g1,g2,
…gn
用huber稳健回归对,计算每个基因对于回归线的加权值,偏离回归线越大权值越小,基于加权值计算加权均值mu和加权标偏差sd,则某个基因i对某组织特异表达的鲁棒的表达式如下所示:
[0042]
z-score=(g
i-mu)/sd
[0043]
复杂疾病相关细胞系里的基因g1在药物d1的干扰下产生的基因表达量倍数变化记为其中x表示由药物d1诱导基因g1后产生的基因表达量值,y表示由空白对照(如dmso)诱导基因g1后产生的基因表达量值,为了避免在以2为底的对数计算中出现无限值,本发明在计算基因表达量倍数变化的时候给分子和分母各加了1;
[0044]
进一步,所述药物对基因的正向特异性扰动谱的计算公式如下所示:
[0045][0046]
上式中,λ表示用于调整p-value检验以使其遵循均匀分布,yi表示第i种药物诱导某一基因后该基因表达量的倍数变化,μ表示所有药物诱导该基因后表达倍数变化的平均值,δ表示所有药物诱导该基因后该基因表达倍数变化的标准差,zi表示药物对基因的正向特异性扰动谱;
[0047]
在上述公式中,z-score定量描述了每个药物诱导某一基因表达倍数变化与所有药物诱导该基因表达倍数变化的偏差,且用于调整(假设检验)p-value以使其遵循均匀分布;
[0048]
s23、对基因的正向特异性扰动谱进行取反操作后进行鲁棒z-score打分方法处理,得到基因的反向特异性扰动谱;
[0049]
具体地,基于药物诱导基因的差异表达谱,计算药物对基因的特异性扰动谱,在实际分析中,本发明假设治疗药物可能会特异性地上调或下调疾病易感基因的表达,或两者兼而有之。
[0050]
s24、整合原始特异性扰动谱和反向特异性扰动谱,得到药物对基因的特异性扰动谱。
[0051]
具体地,产生的药物对基因的特异性扰动谱简称为原始药物扰动谱,然后本发明对原始扰动谱的数据矩阵取反,得到取反的药物对基因的特异性扰动谱即为反向药物扰动谱。
[0052]
s3、基于全基因关联信号,结合条件数据对药物对基因的特异性扰动谱进行循环预测分析与计算,得到复杂疾病易感基因的药物。
[0053]
具体地,参照图4,基于s31收集的数据和一个迭代循环过程,进行条件基因关联分析和药物对易感基因特异性扰动分析。
[0054]
s31、收集gwas summary数据、参考基因型数据和参考基因模型数据,根据基因对表型显著性的排序进行条件关联检验,得到条件关联模式下显著的基因;
[0055]
具体地,其中,所述gwas summary数据用于得到疾病关联基因,所述参考基因型数据用于计算位点和基因之间的连锁不平衡关系,所述参考基因模型数据用于将gwas位点根据物理位置分配到具体的基因;
[0056]
收集复杂疾病的大规模gwas summary数据(可从公共数据库中获得)、参考基因型数据(可从千人基因组计划网站获得对应人种的参考基因型数据)、参考基因模型数据(refseqgene数据可从相关网页获取)以及hgnc数据库收录的基因类型信息以及s24步骤产生原始药物扰动谱(反向药物扰动谱)数据。
[0057]
第一次迭代循环的第一步是通过有效卡方统计量(ecs)的条件基因关联分析算法,结合复杂疾病的大规模gwas summary数据、参考基因型数据和参考基因模型数据,来进行条件基因关联分析,预测表型相关的潜在易感基因,所述预测的具体过程为,先将基因按照某种评分排序,第一个基因的用ecs做基因水平关联检验得到统计量ecs(g1)用于推断该基因是否与疾病关联,第二个基因的条件关联统计量为ecs(g2|g1)=ecs(g1,g2)-ecs(g1),第三个基因的条件关联统计量为ecs(g3|g1,g2)=ecs(g1,g2,g3)-ecs(g1,g2),依此类推;
[0058]
此分析中基因按照p值大小依次进入条件关联流程,总体而言,先进入流程的基因有更高机会保留显著性p值,所述p值是由预测算法dese得到的;
[0059]
s32、考察条件关联显著基因,对药物特异性扰动的趋势,通过mann-whitney u进行检验,得到药物的p-value值;
[0060]
具体地,第一次迭代循环的第二步是分析s32中产生的条件关联显著基因在每种药物表达谱特意的扰动是否有统计显著性富集。所采用的统计检验方法为mann-whitney u检验(即wilcoxon秩和检验),所述mann-whitney u检验为设基因组有n个基因,其中m个基因是疾病关联基因,用mann-whitney u检验比较m个基因相比于n-m个基因是不是有更高的特异性表达,然后可以获得每个药物的统计显著性p-value值;
[0061]
s33、基于药物的p-value值和基因在药物的特异性扰动排名进行特性扰动计算,得到基因的特异性扰动评分;
[0062]
具体地,第一次迭代循环的第三步是计算每个基因在所有药物中的药物特异性扰动分数,以此来对所有基因进行重新排序,假设n种药物在mann-whitney u检验后的p-value为p1,p2,p3,

,pn,然后对于第i个药物,本发明根据该药物扰动所有基因产生的鲁棒z-score按降序排列,假设第i个药物诱导基因j的特异性扰动效应在药物i诱导的所有基因中的排序是k
j,i
,那么基因j在所有药物中的药物特异性扰动评分sj可用如下公式计算,其计算公式如下所示:
[0063][0064]
上式中,t表示疾病易感基因和非易感基因数目之和,i表示第i个药物,j表示第j个诱导基因,k
j,i
表示第i个药物诱导基因j的特异性扰动效应在药物i诱导的所有基因中的排序,n表示n种药物,pi表示n种药物在mann-whitney u检验后的p-value值。
[0065]
s34、根据基因的特异性扰动评分对基因排序,重新做条件关联检验得到新的一批疾病关联基因,重新考察其对药物特异性扰动的趋势,循环上述预测步骤、检验步骤和扰动计算步骤,直至满足循环终止条件,输出复杂疾病易感基因的药物。
[0066]
具体地,当第一次迭代循环完成后,第二次迭代循环将从新的条件基因关联分析开始,其中具有较高药物特异性扰动分数的基因将优先进入新条件关联检验的流程进行条件基因关联分析,后续迭代过程像第一次迭代循环的步骤和顺序执行,直到第n次迭代过程中每个药物对复杂疾病的易感基因和非易感基因扰动效应的差异显著水平和第n-1次的差异显著水平相差很小,当满足如下终止条件:
[0067]
|log(pn)-log(p
n-1
)|《10-5
[0068]
上式中,pn表示n种药物在mann-whitney u检验后的第n个p-value值
[0069]
迭代过程停止,迭代循环过程停止后,每个药物会产生一个与表型关联的显著性p-value,校正后p-value小于0.05的药物即为复杂疾病相关的药物,需要注意的是,使用原始扰动谱可以预测出能够特异性上调复杂疾病的潜在易感基因的药物,使用反向扰动谱可以预测出能够特异性下调复杂疾病的潜在易感基因的药物。
[0070]
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献