一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

通过调节子富集测定进行的蛋白质活性的虚拟推断

2022-11-30 11:28:16 来源:中国专利 TAG:

通过调节子富集测定进行的蛋白质活性的虚拟推断
1.本技术是申请日为2016年8月26日、发明名称为“通过调节子 富集测定进行的蛋白质活性的虚拟推断”的中国专利申请no. 201680062241.6的分案申请。
2.相关申请的交叉参考
3.本技术要求2015年8月28日提交的美国临时申请序列号 62/211,373、2015年8月28日提交的美国临时申请序列号62/211,562 及2015年11月10日提交的美国临时申请序列号62/253,342号的优 先权,所述申请的全部内容以引用方式并入本文。
[0004][0005][0006]
背景
[0007]
癌症的引发和进展可能是由致癌蛋白的异常活性驱动的,所述致 癌蛋白协同调节关键的肿瘤标志程序。对异常活化的致癌蛋白的药理 学抑制可引发致癌基因依赖性,此可激励在精准癌症医学中研发和使 用靶向抑制剂。尽管活化遗传改变可允许鉴别候选药物靶标,但活化 突变可能仅代表几种使致癌蛋白的活性失调的技术之一。同源结合配 体、竞争性内源rna和上游调节因子中的遗传和表观遗传事件可能 导致致癌蛋白的异常活性。因此,尽管在特定致癌基因中已活化突变 的细胞通常可能对相应的靶向抑制剂更敏感,但缺乏此类突变的细胞 可能呈现等同的敏感性。
[0008]
相反,由于自动调节机制和表观遗传等位基因沉默,活化突变无 法保证会诱导异常蛋白质活性。因此,本领域需要一种更加普遍且系 统的方法来准确且可重复地评估蛋白质活性,以补充基于突变测定鉴 别靶向疗法响应者的能力,尤其是因为许多癌症患者没有可操作的致 癌基因突变。
[0009]
另外,用微扰处理组织后蛋白质活性的变化可能与确定所述微扰 是否在所述特定组织背景下具有治疗价值密切相关。微扰可包括(但 不限于)小分子、生物制剂、生物物理学扰动和抗体。例如,确定小 分子a可抑制可能在癌症c中异常活化或突变的蛋白激酶b,可用 作研发a作为肿瘤c的靶向药物的基础。
[0010]
尽管基因表达数据在癌症研究中无处不在。基于阵列或质谱技术 测量蛋白质丰度的某些方法可能是劳动密集型、昂贵的,并且覆盖蛋 白质组学景观的一小部分或需要大量的组织。更重要的是,这些方法 仅提供蛋白质活性的间接测量,因为所述蛋白质活性是通过复杂的事 件级联(包括蛋白质合成、降解、翻译后修饰、复合物形成和亚细胞 定位)来测定。毕竟不清楚蛋白质活性是否可通过某些个别测定来直 接且系统地评估。
[0011]
一个问题是缺乏某些实验验证的方法来基于个别样品中任意蛋 白质的调节子基因的表达来准确地评估所述蛋白质的活性。此情况的 原因包括缺乏准确的和背景特异性的蛋白质调节子模型、转录调节的 主要多效性质以及缺乏评估单一样品的统计显著性的方法。这可能限 制了如下能力:理解突变对蛋白质活性的功能效应,和基于异常蛋白 质活性而不是突变来鉴别针对靶向抑制剂的候选响应者。
[0012]
因此,本领域需要研发一种实验验证的方法,以基于其调节子基 因的表达来准确评估个别样品中任意蛋白质的活性。


技术实现要素:

[0013]
所公开的标的物提供了从基因表达谱数据推断蛋白质活性的系 统和方法。这可用于(a)确定基因突变的功能影响,(b)鉴别负责实施 在生理学(例如,组织分化或重编程)和/或病理学中两种表型状态之间 转变(例如,正常状态与疾病相关状态之间的转变)的关键调节因子, (c)鉴别癌症中非致癌基因驱动基因(既针对单一患者也针对单细胞水 平),以及(d)表征不同类型的扰动(且特别是那些由微扰(例如小分子化 合物、抗体、营养素和其它生物制剂)实施的扰动)对细胞的细胞背景 特异性作用机制。
[0014]
根据一个实例性实施方案,所公开的标的利用背景特异性的转录 调节模型来根据蛋白质的调节子基因的差异表达来估计所述蛋白质 的差异活性。调节子可定义为特定蛋白质的大量靶基因。例如,转录 因子和信号转导蛋白的蛋白质活性可通过使用其调节子基因的转录 丰度作为基因报告测定来估计。通过根据组织特异性基因表达数据来 系统地推断调节子,可在某些感兴趣的组织背景中针对某些感兴趣的 蛋白质生成调节子模型。为了估计信号传导蛋白和其它翻译后调节因 子的差异活性,可鉴别高信息路径靶标,从而允许鉴别可预测这些蛋 白质活性的调节子。
[0015]
在一些实施方案中,所公开的标的物可包括用于测试在特定基因 表达标记中差异表达的基因中的调节子富集的系统框架。可通过比较 代表不同表型和/或处理的两组样品的基因表达谱(gep)来确定基因 表达标记(ges),以使用(例如)司徒登氏t测试统计来评估所述谱中 每一基因差异表达的统计学显著性。另外或另一选择为,可通过比较 样品gep中每一基因的表达水平与来自参考(例如对照)样品的一组 gep中所述同一基因的表达水平来确定基于单样品的基因表达标记。 可通过使用基于解析秩的富集测定技术(area)和/或用于测量基因集 富集测定的其它等效方法的多个不同实施来确定在ges中差异表达 的基因中的每一调节子的富集。area技术可测试每一调节子基因在 投影于秩分选的基因表达标记上时的位置的总体位移。可通过比较每 一调节子富集得分与通过对样品进行随机且均匀地重排以进行多次 不同的迭代而生成的空模型来估计统计显著性(例如,p值和正规化的 富集得分)。在替代实施方案中,如果确定样品的数目不足以支持重 排,则可使用基因表达标记中的基因重排和/或其解析近似法。
[0016]
所公开的标的物还可根据相应的基因表达谱评估样品中调节蛋 白的活性,由此产生信息性蛋白活性谱。例如,所公开的标的物可基 于下游转录靶标(例如,蛋白质调节子)的丰度来推断蛋白质活性,所 述丰度可最佳地反映调节活性蛋白质同种型的活性,包括翻译后修饰、 适当的亚细胞定位和与辅助因素的相互作用的效应。
[0017]
在一些实施方案中,所公开的标的物可使用考虑靶标方向性、置 信度和/或多效性调节的严格概率框架,从而使得根据单样品和多样 品数据集进行的活性预测的准确度、特异度和再现度较高。另外,通 过建立最少间接调节的靶标并通过测定其差异表达,可推断出信号转 导蛋白和其它非转录调节因子的活性。
[0018]
在一个实例性实施方案中,所公开的标的物可应用于鉴别实施和 维持单一肿瘤的转录状态所必需的关键调节蛋白。例如,所公开的标 的物可用于推断来自单一鼠类神经胶瘤肿瘤的85个个别细胞的细胞 状态的调节因子。
[0019]
在一些实施方案中,所公开的标的物可应用于检测遗传突变(包 括编码和非编码突变)对蛋白质活性的功能影响。例如,所公开的标 的物可用于对罕见和私有性非同义突
变(如减效等位基因、超效等位 基因或中性事件)的功能相关性进行优先级排序。在另一实例性实施 方案中,所公开的标的物可用于区分转录和翻译后介导的突变效应。 在另一实例性实施方案中,所公开的标的物可用于阐明如下蛋白质: 介导微扰(例如小分子化合物、抗体、营养素和其它生物制剂(即其作 用机制))的药理学活性,并且在因果上负责实施由用所述化合物或生 物制剂处理组织而产生的转录细胞状态。
[0020]
这里的描述仅仅阐释了所公开标的物的原理。所属领域技术人员 根据本文的教示将明了对所描述实施方案的各种修改和变更。因此, 本文的公开旨在进行说明,而不是限制所公开的标的物的范围。
[0021]
图式简单说明
[0022]
图1a图解说明所剖析分子层和用于基于蛋白质的调节子推断蛋 白质活性的根据所公开标的物的实例性方法(在本文中称作viper)的 示意图。
[0023]
图1b图解说明生成调节模型的viper工作流程。
[0024]
图1c图解说明area测定的三种可能情况,所述情况为三种调 节蛋白的活性增加、降低或没有变化。
[0025]
图1d图解说明所进行的多效性校正。
[0026]
图1e图解说明用viper进行的基准实验的准确度和特异度数据。
[0027]
图2图解说明用于测试基因表达标记上调节子富集的viper技 术。
[0028]
图3图解说明进行基于解析秩的富集测定(area)的方法。
[0029]
图4a-f图解说明网络和标记质量对viper结果的效应。
[0030]
图4a-c图解说明当使用非组织匹配的相互作用组学时网络质量 对viper准确度的效应。
[0031]
图4d图解说明通过添加高斯噪声(gaussian noise)获得的渐进式 标记退降的viper准确度结果。
[0032]
图4e图解说明通过随机去除基因获得的减少的标记覆盖的viper准确度结果。
[0033]
图4f图解说明viper推断的蛋白质活性标记与根据较低深度 rna测序确定的相应标记之间的平均相关性结果。
[0034]
图5a-c图解说明指示viper结果的再现性的数据。
[0035]
图6a-c图解说明检测由非沉默体细胞突变引起的蛋白质活性变 化的数据。
[0036]
图7a-b图解说明突变表型得分和其与药物敏感性的关联。
[0037]
图8a-b图解说明特定非沉默体细胞突变变体对viper推断的蛋 白质活性的效应。
[0038]
图9a-c图解说明基因表达的热图(图9a和图9c)和viper推断 的蛋白质活性(图9b)。
[0039]
图10a-d图解说明基于b细胞u133的相互作用组学的tf调节 模式的结果。
[0040]
图11a-h图解说明推断调节模式的结果。
[0041]
图12a-b图解说明从多个样品(图12a)和单个样品(图12b)确定 的用于ges的viper的准确度和特异度结果。
[0042]
图13图解说明通过不同算法推断的蛋白质活性的准确度和特异 度。
[0043]
图14图解说明通过viper鉴别的具有差异活性的调节因子的基 因集富集测定结果。
[0044]
图15a-b图解说明检测遗传扰动后蛋白质活性的变化。图15c 图解说明蛋白质活性降低的统计学显著性。图15d图解说明表示为 所估计调节因子的位置百分比的准确度数据。图15d图解说明特异 度,其表示为推断为差异活性的调节因子的比例(%)。
[0045]
图16a-b图解说明遗传扰动后蛋白质活性的变化检测结果。
[0046]
图17图解说明药理学扰动后蛋白质活性的变化检测结果。
[0047]
图18图解说明viper推断的蛋白质活性和蛋白质同种型丰度之 间的关联。
[0048]
图19图解说明单样品基因表达,蛋白质丰度和viper蛋白质活 性特征的再现性。
[0049]
图20说明了由非沉默体细胞突变诱导的蛋白质活性的变化检测 结果。
[0050]
图21显示所有基因的mps得分,其显示突变与总体活性(g活 性)或残差翻译后活性的显著关联。
[0051]
图22图解说明特定的非沉默体细胞突变(nssm)变体对蛋白质活 性的影响。
[0052]
图23图解说明非沉默体细胞突变(nssm)变体对所编码蛋白质活 性的差异影响的总结。
[0053]
图24a-b图解说明沉默基因的差异表达。
[0054]
图25a-b图解说明由单尾fet(25a)和双尾fet(25b)推断的差异 活性标记中的秩位置(y轴)随被认为差异表达的基因的数目(x轴)而变 化。
[0055]
图26a-c图解说明b细胞u95(26a)、b细胞u133plus2(图26b) 和gbm u133a(图26c)相互作用组学中相互作用置信度(y轴)随相互 作用互信息(x轴)而变化。
[0056]
图27a-c图解说明多效性指数参数(pi)对用基准数据评估的viper结果的效应。
[0057]
图28图解说明viper推断的蛋白质活性与编码基因mrna水 平之间的相关性。
[0058]
实施方式
[0059]
本文所提出的方法和系统可用于通过系统地测定蛋白质调节子 的表达来推断蛋白质活性。将结合在本文称作通过富集调节子测定进 行蛋白质活性的虚拟推断的实例性方法(下文为“viper”)来解释所公 开的标的物,以根据基因表达数据进行蛋白质活性的准确评估。所公 开的标的物可使用viper来估计不同样品间调节蛋白中遗传改变的 功能相关性。调节蛋白可定义为直接控制多个基因(例如转录调节因 子)的表达或染色质状态(例如表观遗传调节因子)或多种其它蛋白质 的翻译后修饰(例如信号转导调节因子)的蛋白质。
[0060]
viper也可用于鉴别尽管缺乏突变但具有可成药致癌蛋白异常 活性的肿瘤,并且反之亦然。体外和体内测定可证实viper推断的 蛋白质活性在预测对靶向抑制剂的敏感性方面可能胜过突变测定。
[0061]
出于图解说明而不是限制的目的,图1图解说明通过viper技 术剖析的分子层的示意图。在一些实施方案中,统称作调节子的蛋白 质的转录靶标的表达可代表各别蛋白质活性的最佳多工报告子。
[0062]
尽管调节子测定可帮助鉴别肿瘤中异常活化和失活的蛋白质,但 调节子测定可能需要多个代表相同肿瘤表型的样品,并且不能用于评 估来自个别样品的异常蛋白质活性。为了解决此挑战,已研发出 viper来根据单一基因表达谱推断蛋白质活性。viper可用于系统 地评估高亲和力抑制剂对其可用的致癌蛋白的异常活性,而不依赖于 所述致癌蛋白的突变状态,从而将所述致癌蛋白确立为基于个别患者 的有价值的治疗靶标。基于
viper的测定可能完全通用,并且可轻 易地扩展以研究生殖细胞系变体在使蛋白质活性失调中的作用。
[0063]
图1a图解说明所剖析分子层的示意图:用于测量稳态mrna水 平的转录组学,和用于量化蛋白质水平(包括一些确定的翻译后同种 型)的蛋白质组学。图1a还图解说明viper可用于基于蛋白质调节子 来推断蛋白质活性,反映活性蛋白质同种型的丰度,包括翻译后修饰, 适当的亚细胞定位和与辅因子的相互作用。图1b图解说明viper工 作流程,其中从aracne推断的背景特异性相互作用组学生成调节 模型,并且可根据调节子与靶基因之间的相关性来确定调节模式 (mor)。可根据全基因组表达数据确定单样品基因表达标记(ges), 并且通过area算法转变成调节蛋白活性谱。|ges|是ges的绝对值, 并且nes是正规化的富集得分。图1c图解说明area测定的三种可 能情况:三种调节蛋白(r1、r2和r3)活性的(1)增加、(2)减少或(3) 没有变化。图1d图解说明多效性校正,其是通过估计给定调节子(r4) 的富集是否由第二调节子(r1)共同调节的基因驱动来进行。图1e图 解说明六次基准实验(表2所示)的准确度(例如,沉默蛋白的相对秩) 和特异度(例如,推断为在p《0.05时差异活性的蛋白质的分数),所 述实验利用基于多样品基因表达标记(msviper)和单样品基因表达 标记(viper)的viper。area算法的不同实施可包括双尾(2t)和三尾 (3t)、相互作用置信度(ic)和多效性校正(pc)。
[0064]
在一些实施方案中,viper可用于通过系统地测定蛋白质调节子 的表达来推断蛋白质活性,其是肿瘤背景依赖性的(图1b)。因此, viper使用准确的细胞网络,所述细胞网络可使用反向工程技术(例 如aracne技术)来重建,以系统地使用根据组织特异性基因表达数 据推断出的调节子(图1b和表1)。表1图解说明相互作用组学和可用 于反向改造所述细胞网络的数据集。
[0065][0066]
表1
[0067]
虽然准确、组织特异性地评估蛋白质调节子的各种技术或实验测 定可能有效,但结果指示,aracne可胜过某些从全基因组染色质 免疫沉淀(chip)数据库中获得调节子的其它技术,包括chip富集测 定(chea)、dna元件百科全书(encode)和文献精选的ingenuity网 络。aracne可用于检测最大信息路径目标,以允许鉴别报告代表 转录靶标表达间接调节因子(例如信号传导蛋白)的蛋白质的活性的调 节子。
[0068]
在一些实施方案中,viper可基于直接整合靶标

调节模式’(例如 靶标是否被活
化或抑制)以计算蛋白质调节子在差异表达基因中的富 集的概率框架(图1b、10和11)。在一些实施方案中,viper还可基 于直接整合调节因子-靶标相互作用的统计置信度以确定蛋白质调节 子在差异表达基因中的富集的概率框架(图1b)。在一些实施方案中, viper还可基于直接整合不同调节因子之间的靶标重叠(例如多效性) 以确定差异表达基因中蛋白质调节子的富集的概率框架(图1d)。可使 用几种方法来评估在特定基因表达标记方面差异表达的基因中多个 基因(例如,基因集)的富集。这些方法可包括费希尔精确测试(fisher’sexact test)、t-profiler和基因集富集测定(gsea),其在下文中也统称 作基因富集测定方法。在每一基因富集测定方法中,个别基因对标记 富集的贡献可以是二元的(例如0或1)。相比之下,viper可使用完 全概率性但高效的富集测定框架,以支持对具有代表被活化、被抑制 或未确定的靶标的不同似然的基因进行无缝整合,并且可对低对高似 然的蛋白质靶标进行概率加权。为了实现这一点,可使用为基于秩平 均值的统计测定的基于解析秩的富集测定(在下文也称作“area”)(图 1c)并且在下文中对其进行更详细描述。可使用area来计算正规化 富集得分以定量推断差异蛋白质活性。
[0069]
图2出于图解说明而非限制的目的显示测试基因表达标记上调 节子富集的方法200(在本文中称作viper)。在202,所述方法可包 括通过比较代表不同表型或处理的两组样品来获得基因表达标记。可 使用生成各组间差异的定量测量的任何适宜方法(例如倍数变化、司 徒登氏t测试、曼-惠特尼u测试(mann-whitney u test)等)。或者,可 通过任何适宜方法(包括例如司徒登氏t测试、z得分转变或倍数变化) 相对于一组参考样品比较每一样品中每一特征的表达水平来获得基 于单样品的基因表达标记;或当明确参考样品不可用时,相对于所有 样品的平均表达水平进行。在204,可使用如下文关于图3更详细描 述的area的不同实施来计算基因表达标记上每一调节子的富集。在 206,所述方法可包括确定样品的数目是否高于预定的阈值以支持具 有复位的重排。例如,在一个实例性实施方案中,阈值可被设置为每 组至少五个样品。在208,响应于确定样品的数目高于阈值以支持具 有复位的重排,可通过将每一调节子富集得分与通过将样品随机且均 匀地重排1,000次而生成的空模型进行比较来估计显著性(包括p值和 正规化的富集得分)。在210,响应于确定样品的数目不足以支持具有 复位的重排,可使用基因表达标记中的基因重排或其解析近似法来估 计显著性。
[0070]
出于图解说明而非限制的目的,图3显示进行基于解析秩的富集 测定(例如,area)的方法300。area方法可测试每一调节子基因在 投影于秩分选的基因表达标记上时的位置的总体位移。四分位数转变 的秩位置的平均值可用作测试统计量(例如,富集得分)。富集得分可 确定两次。在302,可通过使用单尾法基于基因表达标记的绝对值来 确定第一富集得分(例如,可从组间较差不变性到最差异表达对基因 进行秩分选,不论变化的方向如何)。在304,可通过使用双尾法来计 算第二富集得分,其中可在确定富集得分之前在基因表达标记中倒置 表达可被调节因子抑制的基因的位置(r-)。在306,可整合第一和第 二富集得分,同时经由“三尾”法技术基于所估计的调节模式来对其贡 献进行加权。在308,可基于调节因子-靶标基因相互作用置信度对来 自给定调节子的每一靶基因对富集得分的贡献进行加权。在310,可 通过与空模型相比较来计算和/或估计富集得分的统计显著性,所述 空模型可通过对样品进行随机均匀地重排或通过等效于对标记中的 基因进行随机均匀改组的解析方法生成。
[0071]
在一些实施方案中,基于算术平均值的富集得分可能会在代数层 面上(通过使靶标对富集得分的加权贡献对于公式化微不足道)以及在 计算层面上具有几个所需的性质。考虑到基于平均值的富集得分的线 性特性,在生成空模型所需的重排数目增加的情况下所述富集得分的 计算可通过矩阵运算来有效地进行。另外,使用算术平均值作为富集 得分可允许解析方法来估计其统计显著性,这等效于对标记中的基因 进行随机均匀地改组。在一些实施方案中,通过这两种替代方法测试 的空假设可以是不同的和/或不等效的。例如,在样品改组的情况下, 可以确定针对给定的基因表达标记(例如对于与表型相关的基因表达 谱)计算的富集得分是否显著高于当表型与基因表达谱之间不存在关 联时获得的富集得分。相反,可使用基因改组和/或其解析近似法来 确定富集得分是否高于当待测基因的集合均匀分布在基因表达标记 中时获得的富集得分。基因改组可如下来解析地近似。根据中心极限 定理,足够大数目的独立随机变量的平均值可能接近正态分布。空假 设的富集得分可满足此条件,并且对于空假设下的富集得分,通过在 确定富集得分之前将基于正态分布的四分位数转变应用于秩转变的 基因表达标记,零和方差的平均值等于1。在空假设下,富集得分可 以是正态分布,其中平均值等于零并且方差是1/n,其中n是调节子 大小。当使用加权平均值时,可通过以下公式来推广此定义:
[0072][0073]
其中wi是靶标i的权重。
[0074]
在一些实施方案中,可基于调节因子与靶标表达之间的斯皮尔曼 相关系数(spearman’s correlation coefficient,scc)来确定调节模式 (mor),所述相关系数是根据用于反向改造网络的数据集来确定。然 而,对于复杂的非单调依赖性(例如,针对背景特异性重新布线),评 估mor可能不那么容易。为了解决这个问题,可使用三高斯混合针 对网络中的所有调节因子-靶标相互作用模制scc概率密度(图10), 所述三高斯混合代表(i)明确抑制的靶标(mor-)、(ii)明确活化的靶标 (mor )和(iii)mor无法可靠估计的非单调调节的靶标(mornm)。例 如,图10a图解说明拟合至3高斯混合模型的tf靶标斯皮尔曼相关 系数分布,并且可图解说明每一分布的估计平均值(m)和标准偏差(s) 以及拟合的最终对数似然。图10b-d图解说明tf(x轴)和靶基因(y轴) 的散点图,其显示最负(图10b)、最弱(图10c)和最正(图10d)的斯皮 尔曼相关系数。可估计三高斯混合模型的参数。不是基于scc的符 号来定义mor 或mor-靶标,而是每一靶标可与三个权重(例如,pa、 pr、pnm)相关,所述三个权重代表在给定其scc的情况下可活化、 抑制和/或非单调调节的概率。这些概率可被确定为拟由这三个模型 中的任何一个描述的给定调节因子-靶标相互作用的相对似然,并且 被确定为活化的累积分布(cdf(g2))与抑制的cdf(cdf(g1))之间的 差异除以总cdf:cdf(g1右尾) cdf(g2左尾) cdf(g0左尾(对于 rho《0)或g0右尾(对于rho》0))(图11a-f)。图11a-c分别图解说明 b细胞u95、u133plus2和gbm u133a相互作用组学中tf-靶标斯 皮尔曼相关系数的直方图和分布密度(虚线)。图11a-c还图解说明拟 合至数据的三高斯分布(对于抑制的靶标为g1、对于诱导的靶标为 g2,并且对于mor无法确定的靶标为g0),其参数如图所示。图11d-f 图解说明每一相互作用组学中g1、g0和g2高斯分布相对于所有三 种分布的比例。图11g-h图解说明g1和g2中的

平均’参数对viper 推断的相对蛋白质活性(显示
为nes)(图11g)和沉默tf的秩位置(图 11h))的效应。每条线都可代表不同基准实验的结果。
[0075]
area-3t方法可在viper中实施,可使用mor来将基于单尾和 双尾的富集得分的贡献加权为:es=|mor|es2 (1-|mor|)es1,其 中es1和es2是富集得分的单尾area和双尾area估计(图1c)。所 述概率公式可避免选择用于确定靶标mor的任意阈值,减少参数选 择并且因此减少数据过拟合的风险。area-3t方法可证明三高斯混合 模型参数估计的变化具有显著的稳健性。例如,在扫描

平均’参数空 间时,可在宽范围内(例如,对于g1为-0.3到-0.6,并且对于g2为 0.3到0.6)扫描,area对所有基准实验中所估计的正规化富集得分和 p值的均匀响应都可被发现,其中只有秩位置受到轻微影响(图11g、 图11h)。
[0076]
调节因子-靶标置信度
[0077]
在一些实施方案中,调节因子与靶基因mrna水平之间的互信 息(mi)或斯皮尔曼相关性或统计独立性的其它测量值的统计显著性 可用作调节因子-靶标相互作用置信度的度量。为了计算调节因子-靶 标相互作用置信度得分,可通过从所有所剖析基因中随机选择靶基因, 同时排除实际调节子中的那些(例如,aracne推断出的),针对每一 调节因子生成相互作用的空集合。可选择空调节子的靶基因的数目以 匹配实际调节子中的那些靶基因。可针对aracne调节子(cdf1)和 空调节子(cdf2)中的mi来确定cdf。给定调节因子-靶标相互作用 (相互作用置信度或ic)的置信度得分可估计为比率:ic=cdf1/ (cdf1 cdf2)。ic可用于对每一靶基因对富集得分的贡献进行加权 (图26)。图26图解说明b细胞u95(图26a)、b细胞u133plus2(图 26b)和gbm u133a(图26c)相互作用组学中相互作用置信度(y轴)随 相互作用互信息(x轴)而变化。图26还图解说明随机相互作用(2610) 和通过aracne推断的相互作用(2620)的分布密度的核函数估计。两 条曲线都可缩放,因此其最大值为1。曲线2630可图解说明ic。
[0078]
多效性
[0079]
在一些实施方案中,如果非活性调节因子与真正的活性调节因子 共享其显著比例的调节子,则基因表达(例如,通过几种不同转录因 子调节的基因)的多效性调节可导致假阳性结果(图1d和表10)。为了 说明此效应,可使用阴影测定程序来充分利用viper所使用的概率 框架。可生成满足两个条件的所有可能的调节因子对ab,第一个条 件是a和b调节子都显著富集基因表达标记(p《0.05),并且第二个 条件是其共调节(a∩b)至少十个基因。每对中的调节子是否富集基 因表达标记可被确定为共调节基因的结果。此类确定可通过确定仅代 表a(pa)和b(pb)中基因的基因表达标记的子集上共调节基因(a∩ b)的富集来进行,其中pa和pb代表通过area确定的富集的估计p 值。多效性差分可被确定为pde=log10(pb)-log10(pa)。如果pa《 pb,则共调节基因会因a而受到pde pi/nt的惩罚,其中多效性指 数(pi)是常数并且nt是涉及调节子a的测试对的数目。相反,如果 pa》pb,则共调节基因会因b而受到|pde|pi/nt的惩罚。viper 结果证明对于多效性指数的不同值具有稳健性(图27)。基于基准数据 (表2),可将pi设置为值20,以达到准确度与特异度之间的折中(图 27)。图27a图解说明viper预测的准确度,表示为对于不同pi值由 沉默基因编码的蛋白质的秩位置。图27图解说明相对于未应用多效 性校正(pi=0)时获得的预测的相对特异度,其表示为对于不同pi值 通过viper推断的差异活性蛋白质的数目。不同沉默实验的结果是 通过图27a-b所指示的线2710、2720、2730、2740、2750和2760来 显示。线2770显示所
有实验的平均值。图27c图解说明所有基准实 验的准确度和特异度的整合。表2图解说明基准实验数据。
[0080]
表2基准实验
[0081][0082]a差异表达的基因。b短发卡rna。c小的干扰rna。
[0083]
表2
[0084]
费希尔精确测试
[0085]
在一些实施方案中,可通过费希尔精确测试(fet)确定在每一基 因的rnai介导的沉默之后差异表达(p《0.01)的基因的子集与其调 节子中的基因之间的重叠是否具有统计学显著性。常规fet方法可 同等地考虑所有差异表达的基因,不论所述基因是上调还是下调,并 且因此,fet不能推断调节活性是通过扰动增加还是减少。为了解决 这个问题,使用改进的fet方法来独立地计算分别上调基因和下调 基因上调节因子被活化和被抑制的靶标(其调节子的正性和负性部分) 的富集。具体来说,每一调节子中的基因可分为两个子集:(i)转录活 化的(r

)和(ii)转录抑制的(r-)靶标。斯皮尔曼相关性的符号可在调节 因子的mrna表达水平与其调节子中的每一基因之间使用以将其分 类为r

或r-的部分。此相关性测定可在用于通过aracne推断网络 的相同数据集上进行。可在每一基因表达标记的两个尾上针对r

和 r-独立地进行fet测定。活性增加的调节因子可分别显示过表达基 因中r

靶标和低表达基因中r-靶标的富集。活性降低的调节因子可 显示相反的效应。通过fet使用离散基因清单会导致在阈值选择方 面不够稳健的富集(图25)。图25a-b图解说明通过单尾(图25a)和双尾 fet(图25b)推断的差异活性标记中的秩位置(y轴)随被认为差异表达 的基因的数目(x轴)而变化。
[0086]
基因集富集测定(gsea)
[0087]
在一些实施方案中,可进行单尾gsea。在一些实施方案中,可 使用双尾gsea,其中查询调节子可被分成两个子集:(1)含有预测将 被调节因子转录活化的基因的正性子集(r

),和(2)涵盖预测被调节因 子抑制的靶基因的负性子集(r-)。基于靶基因的mrna水平是与调节 因子mrna水平正相关还是负相关(例如,斯皮尔曼相关性),可将所 述靶基因分类为r

或r-子集的部分。基因表达标记可从最上调基因 到最下调基因(例如标记a)进行分选,并且可确定r

的秩位置。可根 据从最下调基因到最上调基因(例如,标记b)分选的基因表达标记来 确定r-的秩位置。使用所确定的r

和r-子集的秩位置并且仅从标记 a获得加权得分值,可确定富集得分。
[0088]
在一些实施方案中,可确定残差翻译后(rpt)活性。在一些实施 方案中,可发现viper推断的蛋白质活性与编码基因mrna水平之 间的强关联(图28)。图28图解说明viper推断的蛋白质活性与编码 基因mrna水平之间的相关性。图28图解说明显示每一肿瘤类型的 斯皮尔曼相关系数的密度分布的小提琴图。
[0089]
在一些实施方案中,由于编码基因的表达水平引起的viper推 断的蛋白质活性的差异可通过将线性模型拟合至秩转变的数据来计 算。去除表达效应后,此类拟合的残差可构成蛋白质活性的其余变化。 此残差翻译后蛋白质活性(rpt活性)和编码基因的表达水平可解耦合。
[0090]
在一些实施方案中,非沉默体细胞突变与三种定量特性之间的关 联可通过使用area技术测定每一特性上突变样品的富集来估计。定 量特性可以是:(i)突变基因的mrna水平,(ii)viper推断的总体蛋 白质活性(g活性)和(iii)viper推断的残差翻译后rpt活性。通过确 定这些特性之间的最大关联(例如,最小p值)可获得整合关联。通过 整合给定g活性水平和rpt活性水平的相对突变似然可确定突变表 型得分。对于在至少10个样品中突变的基因,突变和非突变(wt)样 品的分布密度可通过高斯核函数来估计。可通过推导出的累积分布函 数确定的概率可用于计算每一特性的相对似然,如下所示:
[0091][0092]
其中pm和pwt是在所评估特性(g或rpt活性)的给定值x处的 突变和wt表型的估计概率。突变表型得分(mps)可被定义为在两个 评估的特性中如等式(2)中所定义的相对似然(rl)与零的最大偏差。
[0093]
调节网络
[0094]
在一些实施方案中,调节网络可通过aracne从20个不同数据 集(例如分别在affymetrix hg-u95av2和hg-u133plus2平台上剖析 的两个b细胞背景数据集;在affymetrix hg-u133a阵列上剖析的高 级别神经胶瘤数据集;以及由来自tcga的通过rna测序剖析的17 个人类癌症组织数据集(表1))中的任何一个来反向改造。在一个实例 性实施方案中,affymetrix平台数据集可通过使用通过

清洁器’技术1生成的探针簇来总结。清洁器技术1可通过测定映射到相同基因的探 针之间的相关结构并丢弃可能代表杂交不良或交叉杂交探针的非相 关探针来生成“信息性”探针簇。当使用rna测序数据时,可对原始 计数进行正规化以说明不同的库大小,并且可通过将分散拟合为负二 项分布来使方差稳定。aracne网络可使用映射到下列作为候选调 节因子的集合的所有探针簇利用100个自举迭代来执行:1,813种转 录因子(例如,在基因本体论分子功能数据库(go)55中标注为 go:0003700、

转录因子活性’或标注为go:0004677、

dna结合’和 go:0030528、

转录调节因子活性’或标注为go:0004677和 go:0045449、

转录的调节’)、969种转录辅因子(手动策划的清单, 不与转录因子清单重叠,建立在标注为go:0003712、

转录辅因子活 性’或go:0030528或go:0045449的基因的基础上)或3,370种信号传 导路径相关基因(在go生物过程数据库中标注为go:0007165

信号 转导’并且在go细胞组分数据库中标注为go:0005622、

细胞内’或 go:0005886、

质膜’)。可将参数设置为0dpi,其对应于数据处理不 等公差和互信息(mi)p值阈值10-8。可从chea和encode数据中 收集基于chip实验证据的调节网络。可基于转录因子与靶基因表达 之间的相关性来确定调节模式,如下文所描述。
[0095]
基准实验
[0096]
在一些实施方案中,可进行基准实验。在人类b细胞中的 mef2b32、foxm1、myb17(gse17172)和bcl6(gse45838)沉默 和人类神经胶瘤细胞系snb19(gse19114,表2)中的
stat3沉默之 后可使用基因表达谱数据。可在oci-ly7和pfeiffer gcb-dlbcl细 胞系中进行bcl6敲低实验。两种细胞系都可在10%fbs补充的 imdm中维持,并且可用bcl6特异性或非靶标对照sirna寡核苷 酸一式三份来瞬时转染。可在转染后48小时分离总rna(可观察到 bcl6蛋白敲低的时间),如图24a中所图解说明。可遵循制造商的方 案(例如,affymetrix inc.)在h-gu133plus2 affymetrix基因芯片上剖 析基因表达。
[0097]
在一个实例性实施方案中,所有实验都可显示沉默基因在mrna 水平的降低(如通过表达谱所量化),如图24b所图解说明。基因表达 标记可通过基因表达谱的t测试测定获得(表2)。
[0098]
viper性能的评估
[0099]
在一些实施方案中,可确定viper正确推断rna干扰(rnai) 介导的基因沉默后蛋白质活性丧失的能力。例如,可在淋巴瘤细胞中 使mef2b32、foxm1、myb17和bcl6基因沉默,并且可通过rnai 介导的沉默使神经胶母细胞瘤细胞中的stat3沉默(表2)。可包括多 个细胞系、不同的rnai沉默方案和剖析平台,以避免与这些变量相 关的偏误。所述数据可用于对不同的调节模型属性和富集方法进行基 准化。
[0100]
在一些实施方案中,可计算三个度量以确定viper性能:(i)沉 默基因的基于p值的秩(例如,准确度度量)、(ii)通过viper推断的 统计学上显著的调节因子的总数(例如特异度度量)和(iii)沉默基因的 总体p值。所测试的富集测定方法可包括area、费希尔精确测试(单 尾fet)和单尾gsea。另外,还可测试fet和gsea的扩展以说明 靶基因的调节模式(例如,双尾fet和双尾gsea)。使用说明靶标调 节模式、置信度和多效调节的三尾area(area-3t)可证明所述技术 可系统地胜过所有其它已知方法(图1e、12a和13以及表4)。因此, 可选择area-3t方法作为viper技术的选择方法。由myb、bcl6、 stat3、foxm1、mef2b和bcl6基因编码的实验沉默的蛋白质在 所有所测试的那些蛋白质中可分别排序为第1、第1、第1、第2、第 3和第3最显著失活的蛋白质(图12a和表4)。通过area推断的少量 额外转录因子可在差异表达的基因中富集,并且因此可代表沉默的调 节子的下游靶标或rnai脱靶效应(图14)。图12a-d图解说明viper 对于从多样品(msviper,图12a)和单样品viper(图12b)计算的ges 的准确度和特异度。图12a-b的条形图可显示6个基准实验的准确度 (沉默基因的相对秩)和显示特异度的点(p《0.05时显著调节因子的分 数)。条中的数值指示由沉默基因编码的蛋白质的秩位置。图12a显 示了如以前在marina中实施的fet和gsea的单尾和双尾型式所 获得的结果。所显示的viper结果包括area算法的单尾(1t)、双尾 (2t)和三尾(3t)实施,包括相互作用置信度(ic)测定和多效性校正(pc)。 小图中各条下方的盒(图12b)显示相对蛋白质活性的单样品估计。*p 《0.05,**p《0.01,其是通过如方法中所述的重排测定估计的。图12c 图解说明6个基准实验中基于替代调节模型(aracne、chea和 encode)的msviper以及ingenuity上游调节因子测定的准确度。 图12d图解说明来自tcga数据的通过aracne反向改造的17个组 织背景特异性网络的调节子功能保守性(表2)。调节子保守性是如 aytes等[1]中所述来计算的并且表示为-log10(p值)。
[0101]
图13图解说明通过不同算法推断的蛋白质活性的准确度和特异 度,所述算法包括单尾(1t)和双尾(2t)费希尔精确测试(fet)、单尾和 双尾基因集富集测定(gsea),以及area的单尾、双尾、三尾实施(含 有相互作用置信度(ic)和多效性校正(pc))。图13中的盒状图图解说 明六个基准实验的准确度(沉默基因的相对秩)和特异度(p《0.05时显 著调节
因子的分数)(参见表2)。
[0102]
图14图解说明每一基准实验中相应的实验基因表达标记上通过 viper鉴别为具有差异活性(p《0.05)的调节因子的基因集富集测定。 沉默基因和细胞系示于每一图的顶部。水平轴代表从最下调(左侧)到 最上调(右侧)分选的剖析基因。只有在调节网络中代表的基因可用于 此测定,所述基因包括p3hr1和st486的6,403个基因、ly7和pfeiffer 的13,007个以及snb19的8,263个基因。垂直轴指示调节因子的 gsea富集得分,其显示viper推断的蛋白质活性降低(线1410)或增 加(线1420)。
[0103]
表4显示用于检测编码基因沉默后蛋白质活性降低的费希尔精 确测试(fet)、基因集富集测定(gsea)和msviper的准确度和特异 度。表4列出了准确度(沉默基因的秩)、特异度(p《0.05时显著调节 因子的数目)和沉默基因的p值,其是通过单尾(1t)和双尾(2t)fet 和gsea以及通过msviper的单尾、双尾和三尾实施(包括相互作用 置信度(ic)测定和多效性校正(pc))推断出来的。
[0104]
在一些实施方案中,为了评估aracne推断的调节子在viper 中使用的适宜性,可利用非背景特异性调节子来对viper性能进行 基准化,如从chea和encode中的chip测序(chip-seq)数据中所 收集。还可针对ingenuity路径分析的上游调节因子模组对viper进 行基准化。基于aracne的viper可胜过这些方法(图12c)。替代 方法/模型可正确地评估出蛋白质活性仅在foxm1沉默后降低。在五 种所测试转录因子中,foxm1可以是唯一代表核心细胞周期调节因 子的转录因子,其调节子在多种组织背景中高度保守(图12d),因此 不需要使用背景特异性调节模型。
[0105]
从每个实验中,可使用基于对照样品的z转变来生成标记以允许 测定个别样品(表2)。单样品测定的结果与使用viper的多样品型式 获得的那些结果可能实际相同(图1e、图12b和表5),这表明单样品 测定产生稳健且高度可再现的结果。表5显示viper在编码基因沉 默后检测蛋白质活性降低的准确度和特异度。所述表列出了准确度 (沉默基因的秩)、特异度(p《0.05时显著调节因子的数目)和沉默基因 的p值,其是由viper的单尾(1t)、双尾(2t)和3尾(3t)实施(包括相 互作用置信度(ic)测定和多效性校正(pc))推断出来的。
[0106]
可进行其它基准来评估与gsea相比由于area概率测定引起的 特定改良,并且评估所述技术正确鉴别活性受rnai和小分子扰动来 调节或丰度可通过反相蛋白质阵列来量化的蛋白质的总体能力(图 15-18和表6-8)。
[0107]
表6显示所剖析的样品以及来自tcga的rppa数据集中的每 一样品所剖析的蛋白质和同种型的数目。表7显示rppa剖析的蛋白 质的数目,以及转录物(mrna表达)和viper推断的总体蛋白质活 性(g活性)水平(p《0.05,斯皮尔曼相关系数测定)的显著关联。表8 显示rppa剖析的蛋白同种型的数目,以及转录物(mrna表达)、 viper推断的总体蛋白质活性(g活性)、残差翻译后viper推断的活 性(rpt活性)和其整合(整合活性)与蛋白质同种型水平的显著关联(p 《0.05,斯皮尔曼相关系数测定)。
[0108]
基于基准化结果,可响应于短期药理学扰动而生成蛋白质活性失 调的综合图谱。在一些实施方案中,可在cmap33中选择166种化 合物,所述化合物在重复间诱导可再现的扰动特征(fdr《0.05)并且可 影响2,956种调节蛋白的活性。
[0109]
技术稳健性
[0110]
由于生物学重复间的再现性较差,因此基因表达测定尚未广泛用 于临床测试。在
b细胞慢性淋巴细胞性白血病;bl,伯基特淋巴瘤(burkitt lymphoma); hcl,毛细胞白血病;pel,原发性渗出性淋巴瘤;mcl,套膜细胞 淋巴瘤;fl,滤泡性淋巴瘤)。每一表型的样品的数目示于顶部。图 5b图解说明在所有其余所剖析样品中,在每一所剖析基底乳腺癌样 品中鉴别的最上调基因(mrna)、相对丰富的蛋白质(rppa)或活化蛋 白质(viper)的相对秩位置的概率密度。其下方的水平线和数值指示 分布模式。图5c图解说明从相应ffpe样品上的新鲜冷冻样品中鉴 别的前十个最上调的基因或viper推断的活化蛋白质的相对秩位置 的概率密度。
[0117]
图19图解说明单样品基因表达、蛋白质丰度和viper蛋白质活 性标记的再现性。图19a图解说明小提琴图,其显示相同b细胞表型 的样品的基因表达标记或viper蛋白活性标记之间计算的相关系数 的分布,所述表型包括正常表型(由星号指示;gc,生发中心反应; m,记忆;和n,外周血b细胞)和病理表型(b-cll,b细胞慢性淋 巴细胞性白血病;bl,伯基特淋巴瘤;hcl,毛细胞白血病;pel, 原发性渗出性淋巴瘤;mcl,套膜细胞淋巴瘤;fl,滤泡性淋巴瘤)。 此测定对应于图3a中所示的测定,但将表达标记限于viper测定中 代表的调节因子。每一表型的样品的数目示于所述图的顶部。图19b 图解说明在将不同水平的高斯噪声(在x轴中以标准偏差(sd)单位指 示)添加至表达谱中之后,所有可能的gc b细胞单样品基因表达和 viper蛋白质活性标记对之间的相关性的小提琴图。灰色概率密度图 显示原始数据中样品间差异的分布。图19c图解说明在新鲜冷冻和 ffpe衍生的表达与viper推断的蛋白质活性标记之间计算的相关系 数的概率密度。图19d图解说明小提琴图,其显示对应于通过tcga 剖析的基底亚型乳腺癌肿瘤、在所有可能的基因表达、rppa蛋白丰 度和viper推断的蛋白活性标记对之间计算的相关系数的概率密度。 图19e图解说明两个数据集之间的生发中心b细胞基因表达标记、两 个数据集之间或两个不同b细胞背景特异性网络之间的相应viper 推断的蛋白质活性标记的相关性。小提琴图中的水平线指示主要的分 布模式。有关数据集和网络的信息参见表2。
[0118]
添加高斯噪声可降低基于表达的样品间相关性,且对viper推 断的活性相关性仅有极小的效应(图19b)。当从测定中去除标记多达 90%的基因时(图4e)或当从3000万个(m)读数到0.5m个读数中对 rna测序谱二次取样时(图4f),viper活性可能会高度适应减少的 转录组表现,显示最小的准确度降低,使得viper适合于低深度rna 序列特征的测定。当将从新鲜冷冻样品与匹配的福尔马林固定石蜡包 埋的(ffpe)样品中推断的蛋白质活性谱相比较时,此可得到进一步证 明(图5c和图19c)。ffpe样品结果的再现性可能代表精准医学应用 的关键先决条件。
[0119]
在一些实施方案中,为了评估生物变异性的效应,可计算173个 tcga基底乳腺癌的viper活性标记。viper推断的活性标记在样 品间可能显著更相关(对于相关系数,通过魏氏带符号的秩测试测定, p《10-15)(图19d),并且与基于相关基因的差异表达时相比,基于差 异活性时在样品之间顶级异常活化的蛋白质可能更为保守(图5b)。总 的来说,与基因表达相比,样品间的差异可减少250倍以上(图5b)。 因此,在代表相同肿瘤亚型的不同样品之间,viper推断的差异活化 的蛋白质可能比差异表达的基因或差异丰富的蛋白质(例如基于 rppa测量)更为保守(图5b)。
[0120]
对癌症的体细胞突变景观进行功能化
[0121]
在一些实施方案中,viper可用于系统地测试频发突变对相应蛋 白质活性的效
应。可使用代表14种肿瘤类型的3,912个tcga样品 的泛癌集合来测试频发突变对相应蛋白质活性的效应。可计算每一测 定样品中每一转录因子和信号传导蛋白的viper推断的活性。可确 定携带频发突变的样品是否富集受影响蛋白质中具有高的经viper 推断的差异活性的那些蛋白质。表9图解说明cosmic基因中携带 非沉默体细胞突变的样品的数目。从cosmic中的150个频发突变 基因中,可选择89个基因,所选基因在至少一种肿瘤类型的至少10 个样品中突变并且匹配的调节模型可用(表9),导致总共342个基因 对(例如多形性神经胶母细胞瘤gbm中的egfr),其中特定的致癌 蛋白可在特定的肿瘤队列中测试。
[0122]
在一些实施方案中,由于蛋白质活性可基于总蛋白质丰度或特定 的差异活性同种型的丰度变化,因此可通过去除转录差异分量来计算 总体viper活性和残差翻译后(rpt)viper活性(例如,不能是由差 异表达说明的活性分量)。rpt活性可能在统计学上独立于基因表达, 并且应当考虑对蛋白质活性的翻译后贡献。大概30%的携带亚型特异 性变异的蛋白质(92/342)可能与统计学显著的差异蛋白质活性相关, 如分别通过总体活性测定进行的viper所评估((p《0.05):65/342 (19%))和通过rpt活性测定所评估(51/342(15%))(图20)。
[0123]
图20图解说明检测由非沉默体细胞突变诱导的蛋白质活性的变 化。显示了癌症体细胞突变目录(cosmic)中列出的所有基因,其中 突变与以下各项相关:(图20a)蛋白质活性而不是mrna表达、(图 20b)推断出蛋白质活性和mrna表达以及(图20c)mrna表达而不是 蛋白质活性。一些条指示突变对编码基因表达或蛋白质活性的效应的 整合统计学显著性。每组富集图和条形图都指示在编码蛋白的viper 推断的总体活性(g活性)和残差翻译后活性(rpt活性)以及差异基因 表达方面携带非沉默体细胞突变(nssm)的样品的富集,如图中所示。 每一肿瘤类型的样品可根据g活性(左富集图)、rpt活性(中心富集 图)和基因表达(右富集图)进行秩分选,并且携带nssm的样品用垂 直线指示。关联性的显著性水平显示为-log
10
(p)(条形图),其中对于 与高活性或表达相关的突变来说关联性显著(p《0.05),并且条针对与 低活性或表达相关的突变。在p《10-4
时相关的基因的值在各条旁边 显示。图中指示肿瘤类型、基因名称和突变样品的比例。
[0124]
所述总体活性测定和rpt活性测定可包括绝大多数已建立的致 癌基因和肿瘤抑制因子(图6和图20a、20b),表明此综合测定提供了 捕获致癌基因和肿瘤抑制因子活性的突变依赖性失调的有效手段(图 20)。
[0125]
图6图解说明检测由非沉默体细胞突变诱导的蛋白质活性的变 化。图6a-c图解说明以下各种疾病中仅与蛋白质活性相关(图6a)、与 蛋白质活性和mrna表达相关(图6b)和仅与mrna表达相关(图6c) 的变化:gbm、coad、乳腺癌(brca)、肺鳞状细胞癌(lusc)、头 颈部鳞状细胞癌(hnsc)、胃腺癌(stad)、肺腺癌(luad)、肾透明细 胞癌(kirc)、子宫体子宫内膜癌(ucec)、膀胱癌(blca)和前列腺腺 癌(prad)。图20中提供了所评估蛋白质的完整清单。对于每一指示 携带非沉默体细胞突变的基因,指示所述肿瘤类型的突变样品的比例。 小提琴图指示通过mrna表达和viper推断的蛋白质活性进行秩分 选的所有样品上的突变样品的分布密度。条形图显示通过area算法 计算的关联性的显著性。条指示分别在低表达或蛋白质活性中以及在 高水平表达或蛋白质活性中突变样品的富集。
[0126]
viper推断的rpt活性可有效消除反馈环路对相应基因表达的 效应,从而鉴别仅导致翻译后效应的突变(图20a、20b)。可观察到, 与viper推断的差异活性相关的45%的突
变(例如,41/92突变)不会 诱导相应基因的显著差异表达(图6a和图20a),所述突变包括已确立 的致癌基因和肿瘤抑制因子(尤其例如tp53、pten、nfe2l2、 arid1a、card11、brca2、ctnnb1、mlh1、vhl和smad4) 的突变(图6a和图20a)。
[0127]
在一些实施方案中,为了评估药理学可靶向的蛋白质是否可独立 于样品的突变状态在肿瘤样品中异常活化,可生成样品的突变表型得 分(mps)。mps可指示在具有相等或更高总viper活性的样品中观 察到突变的概率(图21)。
[0128]
图7图解说明突变表型得分和其与药物敏感性的关联。图7a图 解说明对于六个可操作突变来说基于mps的未突变和突变样品的概 率密度(图21中的完整清单)。右图显示按mps秩分选的所有样品的 mps(y轴);垂直线指示突变的样品。图7b显示肺癌细胞系上针对 egfr的mps测定。散点图显示随mps而变化的靶egfr药物的药 物敏感性(表示为似然比),其是通过滴定曲线下面积(auc)来量化的。 水平实线和虚线分别指示化学耐药细胞系的平均值和超过所述平均 值的2.33标准偏差。药物敏感性与mps之间的关联性通过皮尔森相 关系数(pearson’s correlation coefficient)(r)和相关p值显示在每一图 的顶部。小提琴图显示根据mps显示egfr wt或突变表型的细胞 系的药物敏感性(auc)的概率密度;水平线指示分布平均值,其与司 徒登氏t测试(插图中的p值)形成对比。
[0129]
图21图解说明显示突变与总体活性(g活性)或残差翻译后活性 (rpt活性)的显著关联的所有基因的清单。每行显示肿瘤类型、基因 和突变样品的比例、针对每一特性的wt和突变样品的概率密度估计 的直方图:viper推断的g活性和viper推断的rpt活性。整合概 率密度直方图显示针对所计算mps的wt和突变样品的分布。最右边 的图显示按mps(x轴)秩分选的样品的mps值(y轴),其中突变样品 用垂直线指示。
[0130]
mps可计算为特定蛋白质和肿瘤类型的突变对野生型(wt)样品 的分数。基于我们先前在上文描述的测定,对于突变样品富集差异活 化的蛋白质的92种蛋白质/肿瘤类型对中的每一种,可基于样品的 mps对所述样品进行排序。虽然大多数突变样品具有较高mps,但 少数具有较低mps,与wt样品相当,表明无功能突变或亚克隆突 变或其效应的调节补偿(图7a和图21),包括可操作蛋白质(如由egfr、 erbb2、braf和pi3 k编码的那些)中携带活化突变的样品,其中 mps≤-0.5(例如,具有wt活性的可能性高出三倍)(图7a),表明对 靶向抑制剂的反应在平均水平以下。许多wt样品的mps≥0.5(即, 具有突变活性的可能性高出三倍)(图7a),表明其可对靶向抑制剂作 出反应。
[0131]
验证药物敏感性
[0132]
在一些实施方案中,为了评估mps是否是药物敏感性的良好预 测物,可对79个肺腺癌细胞系进行egfr特异性mps测定,所述细 胞系的基因表达谱、egfr状态和对egfr抑制剂(包括萨拉米尼 (saracatinib)(azd0530)、埃罗替尼(erlotinib)和拉帕替尼(lapatinib))的 化学敏感性可自癌症细胞系百科全书获得。在具有低egfr mps(例 如,《-0.5)但仍携带egfr突变的细胞系中,可观察到分别0/2、1/2 和1/2的细胞系对azd0530、埃罗替尼和拉帕替尼敏感。相反,可观 察到mps》0.5的那些细胞系的5/6、5/6和4/6的细胞系分别对那些 药物敏感(图7b),表明在mps与egfr突变的细胞系的化学敏感性 之间具有强关联。另外,仅考虑egfr wt细胞系,与mps《-0.5的 那些细胞系相比,在mps》0.5的那些细胞系中响应egfr抑制剂的 分数可能更高(分别地,对于azd0530为50%对33%,对于埃罗替尼 为43%对33%,对于拉帕替尼为36%对27%)(图7b)。通过皮尔森相 关性测定(例如,对于
三种药物中的每一种,p《10-5)(图7b),并且 通过比较具有mps》0.5和mps《-0.5的细胞的敏感性、通过司徒登 氏t测试(例如对于azd0530和埃罗替尼分别为p《0.01和p《0.05) (图7b),mps可能与化学敏感性显著相关,不论egfr突变状态如 何。
[0133]
评估位点特异性突变的作用
[0134]
在一些实施方案中,可确定viper是否也可用于评估与特定蛋 白质位点突变相关的差异活性。所述差异活性评估可能有助于阐明罕 见或私有性突变的功能效应。具体来说,可确定相同基因的不同突变 (例如,对于kras产物的p.gly12val对p.gly12asp变化)是否可对 蛋白质活性产生数量上不同的效应。影响在同一肿瘤类型的至少两个 样品中检测到的的cosmic基因的突变可基于以下四种定量测量来 鉴别:(i)其viper推断的总体活性、(ii)其viper推断的rpt活性、 (iii)其差异基因表达和(iv)其mps(对于影响至少10个样品的突变)。 在一个实例性实施方案中,在12种肿瘤类型中在49个不同基因中测 定648个基因座特异性突变(图22)。
[0135]
图8图解说明特定非沉默体细胞突变变体对viper推断的蛋白 质活性的效应。图8a图解说明非沉默体细胞突变变体与viper推断 的蛋白质活性和mrna表达的关联。小提琴图指示通过编码基因 mrna水平或viper推断的蛋白质活性进行秩分选的所有样品上的 突变样品的概率密度。如通过area(条形图)来估计关联统计水平, 其中阴影指示与增加(暗灰色)或减少(浅灰色)的表达或蛋白质活性相 关联。最右侧的条形图显示突变变体与mps定义的突变表型的关联 性的显著性水平(似然比》3)。错义突变表示为p.xny,其中x代表在 n位突变为y的1个字母的氨基酸;*,无义突变;移码突变表示为 p.xnfs。与各条交叉的垂直线指示0.05的p值阈值。图8b图解说明 在不同的肿瘤类型中整合的非沉默变体的效应。mps可针对所有12 种肿瘤类型(3,343个样品)来整合,并且在图的左侧显示为x轴,而相 对于wt样品具有至少三倍的突变似然(似然比》3)的样品中每一变 体的富集通过条形图指示为-log
10
(p)。虚线指示0.05的p值阈值。
[0136]
图22图解说明特定的非沉默体细胞突变(nssm)变体对蛋白质活 性的影响。图22显示所测定的12种肿瘤类型中的任何一种中至少2 个样品中存在的所有nssm变体。当根据以下四种定量特性进行秩 分选时,条形码状图指示携带每一突变的样品:(1)viper推断的g 活性(最左边的图)、(2)viper推断的rpt活性、(3)突变基因的mrna 表达水平和(4)mps(最右边的图)。各条指示在四种所评估的定量特性 中的每一种上突变样品的富集的统计显著性(显示为-log10(p))。富集
ꢀ‘
侧’由各条的阴影指示,且过表达或高反应性是由深灰色条指示,并 且低表达或低活性是由浅灰色条指示。最左边的条形图指示在整合viper推断的总体活性(g活性)和残差翻译后活性(rpt活性)之后的 统计显著性。最右边的条形图指示在mps定义的突变表型(似然比》3) 或wt表型(似然比》3)中突变样品的富集的统计学显著性。所述图中 指示出肿瘤类型、基因名称、突变类型和突变样品的比例。错义突变 指示为p.xny,其中x代表在n位被y取代的氨基酸。无义突变用

*
’ꢀ
指示,而移码突变用p.xnfs指示。
[0137]
图8图解说明具有足够的统计检定力的情况。仔细检查可显示这 些突变的功能影响具有变体特异性(例如kras:结肠腺癌(coad)中 的p.gly12val对p.gly12asp)(图8a)和肿瘤特异性(例如kras: coad中的p.gly12ala对肺腺癌(luad))(图8a)。另外,尽管一些突 变可诱导等效于差异表达的效应,但其它突变可产生只能通过rtp 活性预测的精巧的翻译
后效应(例如,kras:luad中的p.gly12val 对coad中的p.gly13asp)(图8a和图22)。
[0138]
在一些实施方案中,虽然不同的突变可能对蛋白质活性具有类似 的影响(例如,所有tp53功能变体都可能与所推断的tp53蛋白质活 性的降低相关),但其对基因表达的效益可能是高度异质的。例如, tp53中的无义和移码突变可始终降低mrna水平(图8a),此可能归 因于无义和不停止介导的mrna衰变。相比之下,错义突变可能与 mrna水平增加始终相关,此可能归因于反馈环路尝试补偿突变诱导 的tp53蛋白活性丧失(图8a)。当将所有变体一起考虑时,tp53体细 胞变体效应中的所述二分法可解释突变与基因表达之间缺乏关联性。
[0139]
在一些实施方案中,为了补偿由潜在少量的携带基因座特异性突 变的样品(图22)导致的统计检定力的缺乏,可在所有肿瘤类型间进行 整合测定。肿瘤类型之间的异质性可通过在蛋白质活性水平上聚集样 品来解释,其最初是使用组织匹配的相互作用组学推断的。基于对 12种肿瘤类型的3,343个样品的测定,所述解释可产生功能相关体细 胞变体的泛癌症谱系,其中每一基因座特异性突变与其mps之间的 统计学关联以及泛癌症viper p值图解说明于图8b和图23中。
[0140]
图23图解说明非沉默体细胞突变(nssm)变体对所编码蛋白质活 性的不同影响的总结。最左边的图显示当12种肿瘤类型的所有样品 都根据mps进行秩分选时,突变样品的秩(垂直线)。中心条形图显示 mps定义的突变表型(似然比》3,通过中心图中的盒突出显示)或wt 表型(似然比》3)中的突变样品的富集的统计显著性(表示为-log
10
(p))。 最右边的条形图显示每一特定变体与viper推断的蛋白质活性、条 件性蛋白质活性或mrna水平的关联,其是在12种肿瘤类型中整合 的。条指示存在于至少两个样品中的每一nssm的统计显著性(表示 为-log
10
(p))。所述图中显示了基因名称、突变和携带突变的样品的比 例。
[0141]
在一些实施方案中,常规的精准癌症医学可能以来可操作突变的 鉴别。所述可操作突变可从肿瘤组织的全基因组和外显子组测定中可 再现地鉴别,并且可证明临床相关性。大约地,约有25%的成人癌症 患者可能存在潜在的可操作突变。由于viper可独立于突变状态, 因此viper可补充并且大大扩展可用的基因组方法。遗传突变可能 既不必要也不足以诱导蛋白质同种型的异常活性和肿瘤必需性。最近 几年来,出现了越来越多的非致癌基因依赖性目录,其异常活性取决 于间接遗传改变,例如上游路径中的那些和同源结合蛋白。因此,如 癌症细胞系百科全书中的大规模剂量反应研究和最近对功能肿瘤驱 动子上游路径的测定所显示,即使在不存在活化突变的情况下,几种 肿瘤细胞也可对靶向所确立致癌蛋白(例如egfr)的抑制剂作出反应。
[0142]
在一些实施方案中,viper可具有三种不同的作用。第一,viper 可帮助阐明由直接或路径介导的突变导致的异常蛋白质活性。第二, viper可帮助对罕见和私有性非同义突变(例如减效等位基因、超效 等位基因或中性事件)的功能相关性进行优先级排序。tcga队列的 系统测定可显示,27%的非同义突变可诱导异常的viper推断的蛋 白质活性,考虑到并非所有的突变都显著地影响规范靶标上的蛋白质 活性,包括那些导致全新蛋白质功能的突变(例如新效等位基因),并 且不考虑突变克隆性,所述分数可能是显著分数。第三,viper可帮 助区分转录和翻译后介导的突变效应(图4a-c和图6)。
[0143]
在一些实施方案中,tcga样品的基于viper的系统性测定(图 7a)可图解说明,虽然遗传改变可能与异常的viper推断的致癌蛋白 活性强烈共分离,但几个wt样品可具有相
当于甚至大于携带可操作 突变的那些样品的viper推断的活性。所述结果可能与药理学可操 作的致癌基因(尤其例如braf、egfr、erbb2和fgfr3)的改变有 关,并且可指示viper可用于鉴别可得益于靶向疗法的其它患者。 类似地,viper可用于鉴别没有相应致癌蛋白的异常活性的具有可操 作突变的样品。使用癌症细胞系百科全书验证viper推断的活性的 预测值以推断靶向抑制剂反应可指示viper技术可在精准癌症医学 中提供有价值的见解。
[0144]
已经提出了几种方法来根据基因表达标记估计路径活性、基因表 达模组的共调节或所选蛋白质的活性。然而,这些方法不能预测任意 蛋白质的活性,缺乏肿瘤特异性,并且不能用于测定个别样品。为酵 母和其它模式生物研发的其它方法从未扩展到哺乳动物细胞。早期基 于根据启动子序列测定或根据基于文献的专有网络推断的转录因子 靶标的尝试尚未得到系统验证。viper是第一个得到验证的方法,其 可系统地预测个别样品中所有信号转导和转录因子蛋白质的活性。
[0145]
在一些实施方案中,viper可利用根据原发性肿瘤样品数据反向 改造的蛋白质调节子来定量评估个别样品中的差异蛋白质活性,而无 需任何手动标注或策划的基因集。至关重要的是,viper的性能可能 极其稳健并且可适应标记噪声、调节子二次取样和样品质量。实际上, viper可使用来自lincs微扰标记的《1,000个基因准确地推断所有 调节蛋白的约50%的蛋白质活性(图16)。此外,即使相应的基因表达 数据的相关性可能较低,对来自相同组织的新鲜冷冻或ffpe样品的 差异活性蛋白的推断也可能高度相关。viper预测在属于相同分子肿 瘤亚型的样品中可显著再现,此对于精准医学应用可能是有用的。
[0146]
在一些实施方案中,蛋白质-靶标的组织特异性可以是viper测 定的组成方面。由于谱系特异性染色质重塑、多种转录因子的组合调 节和翻译后修饰,表达受蛋白质活性变化影响的基因可能具有高度背 景特异性。使用不正确的调节模型推断蛋白质活性会产生显著退降的 结果(图4a)。
[0147]
在一些实施方案中,viper可构成准确测量哺乳动物样品中的蛋 白质活性的贡献。实验结果指示,调节模型的准确度和覆盖率的改良 可进一步提高这些预测的质量和广度,从而帮助确定哪些蛋白质驱动 关键的病理生理学表型。所公开的标的物描述了使用viper来挖掘 现有数据集(包括tcga和lincs中的表达谱)。viper能够将相对 蛋白质活性推断为额外的信息层,为经典遗传学和功能基因组学数据 提供另外的证据,以评估非沉默突变的效应。
[0148]
图9a-c图解说明单细胞基因表达(图9a和9c)和viper推断的 蛋白质活性(图9b)的热图。可基于基因表达(图9a)或viper推断的 蛋白质活性(图9b和9c)进行无监督的聚类测定。尽管基于基因表达 没有检测到明确的分层(图9a),但基于viper推断的蛋白质活性的 测定可显示出两个亚群中细胞的强烈分离,此可通过先前表征的原神 经和间质亚型的调节因子的差异蛋白质活性来定义(在图9b的小图 中突出显示)。图9c显示与图9b相同的细胞(列)和基因(行)的排列, 指示子群和相关基因不能直接从基因表达谱数据中鉴别。
[0149]
测试在viper中实施的不同技术的增量值
[0150]
在一些实施方案中,为了评估其他优化的增量值,所述技术的简单实 施可用作起始点,其可评估针对通过绝对差异表达排序的基因表达标 记(ges)的靶基因的富集(例如,单尾法)。此只能评估蛋白质活性的绝 对变化而不能评估其符号(例如,活性增加或降低)。评估6种沉默蛋 白中的4种的显著活性变化,其中的两种(bcl6和mef2b)是在10 种活性差
异最大的蛋白质中推断的(图12a和表4)。
[0151]
在一些实施方案中,为了区分活性增加和降低,可整合预测正性 (斯皮尔曼相关系数(scc)≥0)和负性(scc《0)靶标(双尾测定)的贡献。 所述整合可正确地推断出所有沉默蛋白的活性都显著降低(p《0.05), 并且可显示相比于单尾测定,大多数测定的精确度和灵敏度都有改良 (图12a和图13和表4)。然而,在所有测定中,调节模型(例如三尾 测定)的概率模式可胜过单尾和双尾方法(图1e、12a和13以及表4)。 所有六种沉默tf都可在10种最显著的tf中推断,其中foxm1、 myb、bcl6(ly7)、stat3、mef2b和bcl6(pfeiffer)分别排在第1、 第1、第1、第1、第5和第9(图12a和表4)。
[0152]
在一些实例性实施方案中,在三尾测定中纳入相互作用置信度 (ic)权重不能进一步改良准确性,因为几乎没有改进的余地(图1e和 图12a)。然而,ic权重可改良大多数双尾测定结果的准确度(图1e、 图12a和表4),表明ic权重提供独立信息并且改良技术性能。基于 这些结果,可选择利用ic校正的三尾法(3t/ic)作为最佳进行方法。
[0153]
在一些实施方案中,这些结果的详细测定可揭示调节子与沉默 tf的那些调节子重叠的蛋白质可能具有比偶然预期更高的富集。例 如,与mef2b的重叠最显著(例如,通过费希尔精确测试)的mybl1 可以是mef2b沉默之后第二最显著的tf(具有重叠程序的tf的清 单参见表10)。这些观察结果可表明差异活性的预测可能是与真正的 差异活性蛋白具有显著调节子重叠的结果。实际上,多效性校正(pc) 测定可显著改良特异度(p《0.02,通过成对的u测试,图1e、图12a 和表4)。
[0154]
viper与其它方法的比较
[0155]
在一些实施方案中,可测试费希尔精确测试(单尾fet)和其扩展 以明确说明靶基因的调节模式(双尾fet),如最初在主调节因子测定 (mra)技术中实施。所述双尾fet可独立地说明被调节因子活化(例 如,scc≥0)或抑制(例如,scc《0)的靶标。在一个实例性实施方案 中,可将viper结果与主调节因子推断技术(例如marina)的结果进 行比较,所述主调节因子推断技术的结果可基于单尾和双尾gsea来 计算富集。由于mra和marina可能需要多个样品(n≥6),所以 这些比较可能限于viper的多样品型式(msviper)。
[0156]
在一些实施方案中,对于一些实验来说fet方法可产生良好准 确度,但在foxm1和stat3蛋白质的编码基因已经沉默之后可能 无法捕获所述蛋白质的活性的变化(图12a和表4)。在所有实验中缺 乏一致性可能与fet使用小的离散基因清单有关,所述fet产生的 富集在阈值选择方面通常不稳健(图25)。尽管gsea消除了阈值选择 的问题,但其可部分地改良先前通过fet获得的结果(图12a和表4)。 基于fet和gsea的方法都阐释降低的准确度,并且在gsea的情 况下,在与viper相比时,还阐释极其差的特异度(图12a和表4)。
[0157]
在一些实施方案中,当使用从实验支持的相互作用中收集的组织 背景独立性调节子时,可测试viper的性能。基于chip的chea和 encode数据库可用于从组织匹配的表达谱数据中推断mor。与大 多数tf调节程序的背景特异性相一致(图4a),当与针对所有tf(但 程序在组织间似乎较为保守的foxm1除外)的基于aracne背景特 异性的msviper测定进行比较时,可发现此测定的性能更弱(图12c 和图13a)。在一个实例性实施方案中,mef2b和bcl6无法评估, 因为其转录程序无法在chea和encode模型中代表,所述模型分 别仅包括189个和172个调节程序。
[0158]
在一些实施方案中,可将msviper性能与ingenuity路径测定 (ipa)的上游调节因
子测定模组进行比较。在一个实例性实施方案中, 在我们的基准实验中,对于所有测试的调节因子来说msviper都可 胜过ipa。ipa可正确地推断仅foxm1的敲低的tf蛋白活性下降, 而mef2b无法评估,因为其无法在ipa结果中代表(图12c)。
[0159]
使用遗传扰动无偏置式验证viper推断的蛋白质活性
[0160]
在一些实施方案中,为了对所述技术进行进一步基准化,可将基 因敲低数据的组扩展到在乳腺癌细胞中进行的沉默实验,所述沉默实 验覆盖19个基因和12种不同的细胞系,所述细胞系的谱可从geneexpression omnibus获得。对于此测定,可使用乳腺癌特异性调节子 通过1,037个tcga乳腺癌基因表达谱的aracne测定来推断(表1)。 使用完整概率模型的viper测定可通过area技术来实施,并且可 用于检测23个沉默实验中的20个的显著蛋白质活性失调(87%,p 《0.05)。17种蛋白质的活性可推断为响应于编码基因敲低显著降低, 而3种可推断为被显著活化(图15a)。
[0161]
图15图解说明遗传扰动后检测到的蛋白质活性变化。图15a-b 图解说明基于area(图15a)和双尾gsea(图15b)富集方法的显示 viper推断的tf蛋白活性变化的热图。所展现的结果对应于乳腺癌 细胞中的沉默实验。统计显著性可通过单样品nes的stouffer整合来 估计。与条形图交叉的垂直黑线指示p=0.05时的显著性阈值。在p 《0.05时显示统计学显著的蛋白质活性变化的条是以浅灰色(蛋白质 活性降低,即nes《0)和深灰色(蛋白质活性增加,nes》0)突出显示。 高于轴刻度的值示于每一条的右侧。(c-e)使用area(浅灰色)或双尾 gsea(深灰色)作为基因富集方法在乳腺癌细胞中进行23个沉默实验 的viper测定。图15c图解说明用于蛋白质活性降低的统计学显著 性(表示为-log
10
(p值))。图15d图解说明准确度,其表示为所评估调 节因子的秩位置百分比。图15e图解说明特异度,其表示为被推断为 差异活性的调节因子的比例(%)。
[0162]
在一些实施方案中,使用双尾gsea进行viper测定的灵敏度 和准确度可能始终比area更差,检测到在p《0.05时23种所评估蛋 白质中的14种(61%)显著失调(图15)。另外,gsea的计算要求可能 比area要高得多(例如,area实施的计算机时间为6.7min,而双 尾gsea实施的计算机时间为23天6小时,以8gb ram
×
86 64 1.2 ghz计算机节点测得)。
[0163]
在一些实施方案中,此测定可通过利用来自基于网络的细胞标记 整合库(lincs)在mcf7细胞中在234种调节蛋白的shrna介导的沉 默后生成的基因表达谱来扩展。lincs可代表3,680个基因的shrna 沉默后的大量表达谱。然而,为了确保沉默基因的适当敲低,可基于 以下两个准则来选择实验:(1)沉默基因必须在978个实验评估的基因 中,以便可评估其沉默,和(2)与对照间的平均值相比,所述沉默基因 的表达可降低至少2个标准偏差(sd)。sd≥2可作为在选择具有有效 基因沉默的测定与具有用于代表性测定的足够样品之间的合理折衷 出现。由于lincs表达谱可基于多工luminex技术(l1000)仅978个 基因(即,平均起来,《5%的调节子基因),因此对此数据集的性能测 定应被视为极其保守的下界。viper测定可检测到87个沉默tf中 的44个(50%,p《0.05)具有统计学显著的蛋白活性降低(图16a),而 只有4个tf可被预测为在沉默后显著活化(图16a)。类似地,viper 可检测到147种沉默的信号传导蛋白中的57种(39%,p《0.05)具有 统计学显著的蛋白活性降低,而只有7种可被预测为在沉默后显著活 化(图16b)。有趣的是,一些基因的mor可能会被错误地推断出来, 因为调节反馈环路会在少量蛋白质的基因表达与蛋白质活性之间诱 导逆相关,此在信号转导蛋白中更加频繁。所述观察可能与约10%的 沉默蛋白一致,推断其活性
显著增加。mor倒转可在特定的组织环 境下进行实验评估。
[0164]
药理学扰动后蛋白质活性的变化
[0165]
靶向抑制剂的短期扰动可调节蛋白质活性,而不影响相关的基因 表达。含有mcf7细胞的3,095个基因表达谱的mcf7连结图(cmap) 数据集可在用1,294种化合物扰乱后使用。在所靶向的tf中,根据 药物库(包括氟维司群(fulvestrant)、他莫昔芬(tamoxifen)和氯米芬 (clomifene)),在此数据集中雌激素受体(esr1)可具有最高数目的样品 (n=27)和抑制剂多样性。使用乳腺癌特异性aracne网络(表1)可确 定这些化合物对esr1的抑制是否可通过viper测定有效地重现。 用雌激素抑制剂处理的样品中viper推断的esr1差异活性可根据 其相对于所匹配的dmso处理后对照的差异基因表达标记来确定。 重复样品的p值可通过stouffer方法进行整合。viper可推断出在所 有三种靶向抑制剂的情况下雌激素受体蛋白质活性都有统计学显著、 剂量依赖性的降低(图17)。
[0166]
图17图解说明检测药理学扰动后蛋白质活性的变化。图17的条 形图图解说明在用氟维司群、他莫昔芬和氯米芬(靶向esr1)和西罗 莫司(sirolimus)(靶向fkbp1a和mtor)进行药理学扰动之后通过 viper推断的蛋白质活性变化的统计学显著性。水平虚线指示p= 0.05时的阈值。对于氟维司群和氯米芬可观察到剂量依赖性反应(对 于每一条,浓度是以μm单位指示)。
[0167]
为了将所述测定扩展到信号传导蛋白,可将西罗莫司(fkbp1a 和mtor蛋白的抑制剂)的效应评估为具有最高处理重复次数(n=25) 的效应。一致地,viper可推断对于fkbp1a和mtor具有显著的 蛋白质活性降低(图17)。这些结果可显示,viper可有效地检测响应 于短期药理学扰动的蛋白质活性失调,并且可用于将此测定扩展到其 余的剖析化合物,通过添加蛋白质活性层而以此方式补充 mcf7-cmap数据集。
[0168]
在一些实施方案中,为了使结果的可靠性最大化,仅包括至少一 式两份进行的扰动,并且对于所述扰动我们可验证基因表达标记之间 的显著相关性(fdr《0.05,斯皮尔曼相关性测定)。可计算每一样品k ∈p的平均相关性,其中p是一组重复扰动条件,作为所有样品对 k
×
j|j∈p之间的平均皮尔森相关系数。相关性可在秩转变的标记 之间确定。统计显著性可通过与在每一秩转变的标记与其余不匹配的 药物扰动标记之间获得的相关系数的经验分布进行比较来估计(例如, k
×
j,j|k∈p,)。
[0169]
在一些实施方案中,可将viper与乳腺癌背景特异性相互作用 组学(表1)一起使用以将满足再现性条件的573个基因表达标记转变 为推断的蛋白质活性标记。重复样品的平均值和标准偏差报告于表9 中并且可代表166个独特的扰动条件(涵盖156种不同的小分子化合 物)对2,956种调节蛋白活性的效应的无偏置描写。
[0170]
viper结果与反相蛋白质阵列数据的比较
[0171]
在一些实施方案中,为了使用实验测量基因表达和蛋白质丰度的 金标准对viper进行基准化,可利用17种肿瘤类型中的4,417个肿 瘤样品的样品匹配的rnaseq和rppa数据。rppa阵列监测每一肿 瘤类型平均135种蛋白质和60个磷酸特异性同种型(表6)。蛋白质调 节子可通过相应的基因表达谱数据集的aracne测定来推断(表1)。 对于1,359个肿瘤特异性蛋白质丰度谱中的875个(64.4%,p《0.05, 表7),viper推断的活性可能与基于rppa的蛋白质丰度显著相关。 虽然也可观察到基因表达与蛋白质丰度之间的类似相关性(表7),但 所述蛋白质丰度在个别样品水平上可具有大得多的差异(图5b)。表7 图解说明rppa剖
析的蛋白质的数目以及转录物(mrna表达)与 viper推断的总体蛋白活性(g活性)水平的显著关联(p《0.05,斯皮 尔曼相关性测定)。
[0172]
在一些实施方案中,为了使用rppa数据来估计与翻译后蛋白质 修饰相关的蛋白质活性的变化,可测量443种个别同种型的rppa测 量的丰度与其总蛋白质丰度之间的比率。总的来说,蛋白质活性可取 决于总蛋白质丰度或取决于特定的差异活性的同种型的丰度。为了区 分这两个贡献,可以通过去除转录差异分量(rpt活性)来计算总体 viper活性以及残差翻译后viper活性(例如,不能由差异表达说明 的活性分量)。rpt活性可在统计学上独立于基因表达,并且可说明 对蛋白质活性的纯粹的翻译后贡献。值得注意的是,当结合在一起时, 总体活性和rpt活性可针对105种蛋白同种型的丰度来预测(例如, 24%,p《0.05,斯皮尔曼相关性测定),此可显著胜过通过mrna的 表达预测的38种同种型(8.6%)(p=8
×
10-10,通过x2测试进行)。 个别地,rpt活性可针对77种同种型来预测(17.4%,p=7
×
10-5),其 中只有19种还可通过总体活性来预测,而总体活性可针对47种同种 型来预测(10.6%),表明总体和rpt活性可有效地说明大部分互补效 应(表8)。表8图解说明rppa剖析的蛋白同种型的数目以及转录物 (mrna表达)、viper推断的总体蛋白质活性(g活性)、残差翻译后 viper推断的活性(rpt活性)和其整合(整合活性)与蛋白质同种型水 平的显著关联(p《0.05,通过斯皮尔曼相关性测定)。
[0173]
由于并非所有的翻译后修饰同种型都可能具有不同的蛋白质活 性(图1a),所以并非所有同种型特异性抗体都可提供准确的rppa测 量,并且在tcga队列中大多数同种型几乎不会呈现丰度变化,此 代表大部分(》24%)的rppa监测的蛋白质。总的来说,在105种 viper相关同种型中,74种(70.5%)可能无法通过差异表达来检测, 而通过差异表达捕获的同种型中只有7种可能无法通过viper实现 (图18)。图18图解说明viper推断的蛋白质活性与蛋白质同种型丰 度之间的关联。条显示特定蛋白质同种型丰度与viper活性或编码 基因mrna水平之间的斯皮尔曼相关性的显著性水平(表示为
ꢀ‑
log10(p值))。viper活性显示特定蛋白质同种型丰度与总体活性(g 活性)或残差翻译后viper推断的蛋白质活性(rpt活性)之间的最大 关联性(相关性)。
[0174]
表3提供本公开中通篇使用的首字母缩略词的定义。
[0175][0176]
表3
[0177][0178]
表4
[0179][0180]
表5
[0181][0182]
表6
[0183][0184]
表7
[0185][0186]
表8
[0187]
[0188]
[0189]
[0190][0191]
表9
[0192][0193]
表10
[0194]
oncotarget
[0195]
在一些实施方案中,可将viper扩展到不需要药物扰动数据库 的应用,所述应用在下文中称作“oncotarget”。oncotarget可鉴别在 肿瘤中异常活化的所有可成药蛋白,无
论所述可成药蛋白是否携带活 化突变。这可能包括关键的可成药蛋白质,例如拓扑异构酶和hdac, 所述蛋白质很少在癌症中发生突变,但仍然代表证实可用于癌症治疗 中的显著可成药靶标。
[0196]
在一些实施方案中,oncotarget可基于致癌基因成瘾概念的扩展, 其可代表靶向疗法的基础。根据致癌基因成瘾,肿瘤会变得对突变的 致癌基因的活性成瘾。用特定抑制剂靶向这些突变的基因可诱导肿瘤 细胞死亡。所述现象的实例可包括慢性骨髓性白血病(cml),其中药 物伊马替尼(imatinib)靶向源自两种蛋白质(bcr和abl)的融合的突 变蛋白;乳腺癌,其中药物曲妥珠单抗(trastuzumab)靶向her2(erbb2) 受体的扩增或突变;肺癌,其中例如埃罗替尼/阿法替尼 (erlotiniv/afatinib)和克唑替尼(crizotinib)等药物靶向egfr或alk激 酶的突变;以及几个其它实例。
[0197]
oncotarget可通过以下扩展致癌基因成瘾:假设肿瘤成瘾既不会 因为携带活化突变的致癌基因也不会因为由于肿瘤细胞的完全突变 负担而异常活化的任何一种或多种致癌蛋白而表现。因此,致癌基因 突变可以是诱导相应蛋白质的异常活性的许多可能方式之一。
[0198]
在一些实施方案中,oncotarget可如下来进行。首先,可使用 viper来评估与多个“对照样品”相比肿瘤样品中的所有“可成药蛋白 质”(例如,可使用fda批准的药物和/或研究化合物有效抑制的蛋白 质)的差异活性,自此生成平均基因表达谱(对照谱)。视特定应用而定, 可通过对许多类型样品的基因表达求平均来生成对照谱,所述类型包 括(但不限于)(a)特定肿瘤亚型的所有肿瘤(例如luminal a型乳腺癌)、 (b)所有亚型的所有肿瘤、(c)代表肿瘤正常对应物(例如正常乳腺导管 上皮)的样品、(d)代表转移进展研究所用原发性肿瘤的样品,和(e)代 表耐药性研究所用药物敏感性肿瘤的样品。例如,为了鉴别在特定的 三阴性乳腺癌中控制耐药性的蛋白质,可在所述样品中推断与对药物 敏感的所有三阴性乳腺癌样品相比的蛋白质的差异活性。生成这些参 考基因表达谱的有用数据集是癌症基因组图谱(tcga),其可含有来 自》25种人类恶性肿瘤的》12,000个肿瘤样品。
[0199]
接下来,通过相对于所有可用对照样品的分布来比较特定样品, 可将统计学显著性归因于每一测试蛋白质的差异活性。在优选实施中, 可使用代表肿瘤特异性亚型(例如乳腺腺癌)的平均值以及所有肿瘤亚 型(例如泛癌)的平均值的两种对照样品来确定统计学显著性(p值)。通 过相对于来自相同恶性肿瘤的或所有肿瘤(泛癌)间的所有剖析样品的 表达分布来比较每一基因的表达水平,可确定每一样品基因表达标记。 个别样品基因表达标记上每一调节子基因的富集的统计学显著性可 被确定为当从所有剖析基因中随机均匀地选择调节子中的基因时发 现相等或更高富集的概率。
[0200]
第三,使用预定义的显著性阈值(例如p=0.001)作为特定患者的 潜在相关药理学靶标,以个别患者为基础可对具有统计学显著的异常 表达的可成药蛋白进行优先级排序。可使用各种准则来对特定药物和 靶标进行优先级排序,所述准则包括(但不限于):(a)特定化合物对特 定靶致癌蛋白的亲和力和ic50、(b)针对所有亚型肿瘤的异常致癌蛋 白差异活性的p值、(c)针对所有亚型的所有肿瘤的异常致癌蛋白差异 活性的p值、(d)化合物的毒性、(e)化合物是fda批准后的还是处于 研究中的、(f)药物是否被批准用于患者的特定肿瘤亚型、(g)是否存在 任何表明特定药物在特定肿瘤亚型中具有一些活性的文献或临床试 验结果。
[0201]
上述内容仅仅阐释了所公开标的物的原理。所属领域的技术人员根据本文的教示将明了对所描述实施方案的各种修改和变更。因此,将了解,所属领域的技术人员将能够设想出虽然本文中未明确描述但体现所公开标的物的原理且因此在精神和范围内的众多技术。
[0202]
参考文献清单
[0203]
1.alvarez,m.j.etal.correlatingmeasurementsacrosssamplesimprovesaccuracyoflarge-scaleexpressionprofileexperiments.genomebiol.10(12):r143(2009)
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献