一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于从无细胞DNA中推断基因表达和起源组织的系统和方法与流程

2023-03-17 19:11:04 来源:中国专利 TAG:
用于从无细胞dna中推断基因表达和起源组织的系统和方法1.关于联邦资助研究的声明2.本发明是根据国家卫生研究院授予的合同ca188298在政府支持下完成的。政府对本发明具有某些权利。3.相关专利申请的交叉引用4.本技术要求2020年5月12日提交的美国临时专利申请号63/023,728的权益和优先权,该临时专利申请的全部公开内容出于所有目的特此并入本文中。
背景技术
::5.在血浆中循环的无细胞dna(cfdna)分子主要由染色质片段化产生,伴随着全身不同组织的稳态期间的细胞死亡。因此,cfdna图谱建立了用于检测实体器官移植后的组织排斥、妊娠期间胎儿非整倍体的非侵入性产前检测和非侵入性肿瘤基因分型的临床实用性,以及用于检测不同癌症类型的早期证据。对于这些应用中的每一种,目前的液体活检检测方法主要依赖于cfdna分子序列中的种系或体细胞遗传变异,这与感兴趣组织的病理诊断相关。实际上,基因序列中的这种变异对于循环肿瘤dna(ctdna)的无活检肿瘤基因分型和疾病负担的监测具有高度信息价值,对诊断和早期癌症检测具有潜在效用。6.虽然cfdna图谱用于血液中突变的非侵入性检测有许多应用,甚至在具有高肿瘤突变负荷的癌症中和甚至在具有高疾病负荷的患者中,但大多数癌症来源的片段通常是未突变的。因此,利用表观遗传特征询问这些cfdna片段以告知未突变分子的起源组织的能力具有广泛的效用。例如,这些方法可用于检测没有相关遗传损伤的组织损伤,以及用于癌症实体和分子亚型的分类。由于循环的cfdna分子主要是核小体相关片段,因此它们反映了它们所来源的细胞的核基因组的独特染色质构型。具体而言,与核小体复合物紧密相关的基因组区域通常受到保护,免受细胞内和细胞外核酸内切酶的作用,而开放的染色质区域更容易受到这种降解。7.因此,最近几项研究已经鉴定了基因组中的特定染色质片段化特征,其潜在地用于通过cfdna图谱对起源组织进行分类。这些“片段组学”特征包括测序覆盖深度的降低和转录起始位点(tss)附近核小体定位的破坏。单独地,几项研究已经表明,cfdna片段的长度也可以告知起源组织,包括肿瘤起源,即使在被认为对基因组位置或与基因启动子的关系不可知时。例如,携带体细胞变体的肿瘤来源的分子倾向于比它们的野生型对应物更短,并且可用于区分肿瘤来源的体细胞变体与在克隆造血过程中由循环白细胞产生的那些体细胞变体。8.尽管有这些进展,但目前的片段组学方法(包括依赖相对浅的全基因组测序(wgs)的方法)不能充分利用各种组织对循环dna库的贡献。单独地,目前的片段组学技术不能提供足够的基因组深度和宽度来实现基因水平的分辨。实际上,即使在考虑基因组时,这些片段组学方法仅在高循环肿瘤dna水平下相当好地用于推断基因表达。因此,用于推断基因表达的片段组学方法在很大程度上限于在晚期疾病中通常观察到的具有非常高肿瘤负荷的患者。技术实现要素:9.提供了用于基于对感兴趣样品中的循环无细胞dna(cfdna)的分析通过推断来非侵入性地测定感兴趣基因的表达的组合物和方法。在一些实施例中,感兴趣的样品是从患者抽取的非侵入性血液。在这些方法中,测定表达水平不需要分析mrna。表达谱可用于例如预后和诊断方法。预后和诊断方法包括,例如,确定患有癌症的个体是否会从免疫检查点抑制剂治疗中获得持久的临床益处,用于确定患有非小细胞肺癌(nsclc)的个体是否被分类为腺癌(luad)或鳞状细胞癌(lusc)的方法,用于定量患有弥漫性大b细胞淋巴瘤(dlbcl)的个体中的肿瘤负荷的方法,用于确定患有dlbcl的个体中的起源细胞的方法等。在一个实施例中,方法还包括基于分析为个体选择治疗方案。在一些实施例中,预测是基于第一次ici治疗后不久的样品。10.在一个实施例中,提供了一种综合分析方法,其中单个生物标记物源自启动子片段熵(pfe)和核小体耗尽区(ndr)深度的分析,其中每一个通过对来自感兴趣样品(例如血液或血液来源样品)的cfdna在转录起始位点(tss)两侧的dna区测序来计算。从cfdna构建文库。然后将文库与杂交到用户定义的序列(即tss)的寡核苷酸探针(即选择器)接触。通过在测序之前杂交捕获这些区域,可以使cfdna富集tss。通过分析cfdna在转录起始位点的片段化模式的范围来计算pfe。通过分析tss的约-150bp至 50bp的测序覆盖范围来计算ndr。pfe和ndr独立地与基因表达相关。与基因表达降低相关的特征是较低的pfe;较高的ndr,而基因表达降低与较高的pfe和较低的ndr相关,这从测序cfdna确定。ndr深度可以被归一化到被分析的特定dna区域,其可以被称为归一化的ndr深度,并且得到的值与pfe积分以提供单个预测度量。11.在一些实施例中,选择器组可用于在测序之前的杂交捕获期间靶向基因组内的特异性tss。在一些实施例中,选择器组包括表2中鉴定的一个或多个基因的选择器。例如,选择器组可以包括表2中的至少10个选择器、50个选择器、100个选择器、150个选择器、200个选择器或表2中的选择器的完整列表,或者可以是表2中所示的组。12.通过积分pfe和ndr的测量值,即归一化的ndr深度,提供了用于可靠地预测患者样品的基因表达的完全非侵入性多分析物测定(epic-seq,来自无细胞dna测序的表达推断)的方法。分析可以用硬件或软件或两者的组合来实现。在本发明的一个实施例中,提供了一种机器可读存储介质,该介质包括用机器可读数据编码的数据存储材料,当使用用使用所述数据的指令编程的机器时,该数据存储材料能够显示本发明的任何数据集和数据比较。13.在其他实施例中,通过使用基于计算机的软件程序来执行该方法,其中输入pfe和ndr深度,并且软件程序输出指示由用户定义的特定分类的得分。软件程序采用机器学习来通过训练算法揭示输入度量与目标输出之间的关系。14.通过本发明方法评估的个体可能患有癌症。在一些实施例中,个体先前已被诊断患有癌症。在一些实施例中,癌症是癌(carcinoma),包括但不限于非小细胞肺癌、小细胞肺癌、腺癌、鳞状细胞癌、肝癌、基底细胞癌等,其可以是乳腺癌、结肠直肠癌、膀胱癌、头颈癌、肾细胞癌、肝癌、皮肤癌、胰腺癌等。在一些实施例中,癌症是淋巴瘤,例如霍奇金淋巴瘤、非霍奇金淋巴瘤等。在一些实施例中,癌症是黑素瘤。在某些实施例中,个体患有非小细胞肺癌(nsclc),其可以是早期或晚期。15.在一些实施例中,提供了一种使用epic-seq来促进对患有多种不同癌症的患者的治疗进行个性化选择(如果合适的话,包括ici)的方法。当epic-seq用于确定个体是否将接受来自ici治疗的dcb时,可以选择预测受益于ici的低得分个体,并用ici治疗,通常与另外的治疗剂组合。可以选择预测不会受益于ici的高得分个体,并用非ici疗法,例如化疗、非ici免疫疗法、放射疗法等进行治疗。感兴趣的ici包括但不限于pd-1抑制剂和pd-l1抑制剂。16.在一些实施例中,提供了一种使用epic-seq来促进具有未知来源的癌症亚型的个体的癌症亚型分类的方法,即患有nsclc的个体,其中不清楚其是luad还是lusc,或患有dlbcl的个体,其中不清楚其源自abc或gbc。在一个实施例中,当个体被确定患有一种癌症亚型而不具有另一种时,即,个体被诊断为luad而不是lusc,则个体可以根据医师的确定对所述癌症亚型进行治疗。例如,如果个体的癌症亚型被确定为luad,则他们可以用贝伐单抗(bevacizumab)联合化疗进行治疗,而如果确定个体的癌症亚型是lusc,则他们可以用奈替单抗(nectitumab)联合顺铂和吉西他滨进行治疗。17.在一个实施例中,epic-seq促进对晚期癌症患者的治疗(其可包括ici)进行个性化选择,以改善结果同时使毒性最小化。例如,晚期疾病患者可以用单一药剂pd-1阻断治疗一个周期而与pd-l1表达无关,然后使用epic-seq确定个体对治疗的反应。epic-seq得分低(预期持久受益)的患者仍使用单一药剂pd-1阻断,而epic-seq得分高(预期不会受益)的患者将通过添加化疗而接受治疗升级。18.在本发明的其他实施例中,提供了用于分析患者样品的装置或试剂盒。这些装置或试剂盒将包括特异性识别一种或多种细胞和指示患者状态的信号蛋白的试剂,包括但不限于亲和试剂。试剂可以以分离的形式提供,或作为适合于本发明方法的混合物预混合。试剂盒可以包括使用多种试剂测定来自样品的数据的说明书;以及用于统计分析数据的指令。试剂盒可以与用于分析的系统(例如在计算机上实现的系统)组合提供。这样的系统可以包括被配置用于分析通过本发明的方法获得的数据的软件组件。附图说明19.当结合附图阅读时,从以下详细描述中将最好地理解本发明。专利或申请文件包含至少一张彩色附图。具有彩色附图的本专利或专利申请公开的副本将由专利局在收到要求并支付必要费用后提供。要强调的是,根据惯例,附图的各种特征不是按比例的。相反,为了清楚起见,各种特征的尺寸被任意扩大或缩小。图中包括以下附图。20.图1示出了基因表达与无细胞dna分子特征的相关性。(a)染色质可及性足迹可追溯到起源组织。开放染色质受到核酸酶消化,导致降低的测序覆盖深度(通过核小体耗尽率(ndr)测量)和片段长度多样性(通过启动子片段化熵(pfe)测量)。在该卡通图中,肺上皮细胞表现出非常低的ms4a1(cd20)表达,但nkx2-1(ttf1)高表达。肺癌患者的cfdna片段由与来自经历凋亡的肺腺癌细胞的片段混合的正常主要造血cfdna片段组成。因为肺上皮细胞区室对于nkx2-1片段具有较低覆盖率(ndr)和较高片段长度多样性(pfe),所以所得混合物显示出类似的变化,净效应取决于循环肿瘤衍生片段的总量。另一方面,b细胞以非常低的nkx2-1表达水平高度表达ms4a1(cd20)。因此,b细胞淋巴瘤患者的cfdna片段由与b细胞衍生的ctdna混合的正常cfdna片段组成,ms4a1的过度表达导致转录起始位点(tss)的cfdna片段长度值的较低覆盖率和较高多样性。(b)热图描述了通过高深度全基因组测序(约250x)分析的示例性血浆样品中跨基因组的转录起始位点(tss)的cfdna片段大小密度。x轴描述cfdna片段大小,而热图的各行捕获了通过rna-seq使用每百万转录物(tpm,右)评估的血液白细胞中按gep排序的片段密度。当通过参考pbmc表达载体排序时,每行对应于包含10个基因的tss的一个元基因。对于每个cfdna片段大小箱,数据按列标准化。右侧的点图中描述了每个箱的相应pfe、ndr和tpm水平。(c)散点图描述了血浆cfdnapfe与白细胞rna表达水平(tpm)之间的关系,如在图(b)中所示。(d)单个cfdna片段特征(pfe、ndr、ocf、wps和mds)与白细胞基因表达水平之间的皮尔逊相关性;ocf:定向感知cfdna片段化;wps:窗口化保护得分;mds:基序多样性得分。误差条描述了自举重复(用替换基因组重新取样)产生的95%置信区间。(e)作为距tss中心的距离的函数的白细胞基因表达与两个主要cfdna特征(pfe和ndr)中的每一个之间的相关性。橙色曲线显示在距tss中心的所有距离处,cfdnapfe的平均相关性高于ndr的相关性。虚线对应于当对来自匹配的血液pbmc样品的脱落的白细胞dna进行评估时的一致性量度。(f)测序深度(x轴)对cfdnapfe和ndr与基因表达的相关性(y轴)的影响。对于每个向下采样的深度,产生三个重复,并且阴影区域示出了高于和低于平均值的三个标准偏差。(g)“pfe”的热图反映在来自晚期肺癌和前列腺癌患者或健康成人的五个示例试样(列)中的选择基因的外显子中,如通过深度全外显子cfdna测序所分析。基于在小细胞肺癌(sclc)和去势抗性前列腺癌(crpc)中的预期表达模式选择所描绘的基因(行)。两个sclc样品来自一名患者的治疗前和进展时间点(分别为af=23.4%和37.8%),而crpc元图谱最初由adalsteinsson等人103进行分析。如所预期的,相对于健康成人,ar在crpc病例中表现出高pfe,而ascl1、isnm1和sox2在sclc病例中表现出高pfe。21.图2示出了epic-seq设计和工作流程。(a)该方案描述了epic-seq的一般工作流程,开始于从血浆提取cfdna,文库制备和捕获目的基因的tss,富集区域的高通量测序,最后是cfdna片段化分析,随后是机器学习模型,用于预测每个tss的表达和试样分类。(b-c)火山图描绘了差异表达的基因,为非小细胞肺癌亚型(来自tcga的肺腺癌[luad]相对于肺鳞状细胞癌[lusc])和弥漫性大b细胞淋巴瘤的起源细胞分类(来自schmitz等人的abc相对于gcb)中组织学分类提供了信息。在检查血液白细胞中高表达的基因后,选择以灰色以外的颜色突出显示的基因用于epic-seq中的tss捕获(参见方法)。(d)已知在nsclc-luad肿瘤中高度表达的编码ttf1的nkx2-1通过epic-seq在luad患者的cfdna中表现出显著较高的预测表达。(e)已知作为dlbcl肿瘤标记物的编码cd20的ms4a1通过epic-seq在dlbcl患者的cfdna中表现出显著较高的预测表达。盒须图描述了通过epic-seq分析的单个样品中的预测表达水平(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,每个患者队列中的须跨越1.5iqr。[0022]图3示出了epic-seq在肺癌检测和组织学分类中的应用。(a)epic-肺分类器用于在留一分批分析中区分肺癌与其他肺癌的接受者-操作者曲线(roc)捕获性能(auc=0.91)。auc的95%置信区间使用2000个自举重复计算。(b)epic-肺得分与nsclc疾病分期的关系,通过jonckheere检验测量趋势(p=0.08)。盒须图描述了通过epic-seq分析的单个样品中的epic-肺分类器得分(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,每个疾病阶段组中的须跨越1.5iqr。(c)epic-肺分类器在95%特异性下的敏感性分析。基于对相同样品通过capp-seq估计的平均循环肿瘤等位基因分数(《1%,1-5%和》5%)的箱将患者分组。敏感性随着ctdnaaf增加而提高,当af《1%时,约33%的患者可检测到。误差条描述了500个自举重复产生的敏感性值的95%置信区间。(d)在留一法框架中测试时luad相对于lusc分类器的roc曲线(auc=0.90,95%-ci[0.83-0.97])。(e)nsclc组织学分类器的系数,正系数和负系数分别有利于luad和lusc。当通过t检验比较它们的幅度和极性时,这些系数与现有知识显著相关(p=0.033)。盒须图如(b)中所定义,并且由来自在留一法交叉验证步骤中训练的分类器的67个系数组产生。(f)通过capp-seq测量的作为肿瘤ctdna分数的函数的组织学分类器的准确性。通过最小化类条件误差的平均值,在留一法框架中确定用于分类的(最佳)阈值。误差条如(a)中所定义。(g)从epic-seq推断的基因表达值在预测治疗开始4周内对免疫检查点抑制剂的反应中的应用。(h)散点图描绘了epicseq肺动力学得分相对于通过capp-seq测量的ctdna反应的变化;后者计算为治疗时与治疗前ctdna浓度的对数转化倍数变化。两个正交测量显示出显著的相关性(r=0.77,p=0.006)。(i)在图g中计算的epic-seq肺动力学得分的roc曲线区分在前6个月内具有持久临床益处(dcb)的患者与不具有持久益处(ndb)的患者(auc=0.93,95%ci[0.78-1])。[0023]图4示出了epic-seq在dlbcl检测中的应用。(a)epic-dlbcl分类器用于在留一分批分析中区分淋巴瘤与其他淋巴瘤的接受者-操作者曲线(roc)捕获性能(auc=0.92)。(b)epic-seqdlbcl分类器得分与通过修订的国际预后指数(r-ipi;jonckheere趋势检验p=4e-4)测量的临床预后得分之间的关系。盒须图描述了通过epic-seq分析的单个样品中的epic-dlbcl得分(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,须跨越1.5iqr。(c)epic-dlbcl分类器在95%特异性下的敏感性分析。类似于epic-肺癌分类器,敏感性从af《1%的病例中的约40%显著提高到af》5%的病例中的》95%。误差条描述了500个自举重复产生的敏感性值的95%置信区间。(d-e)在具有gcb(d)和abc(e)起源细胞的两个dlbcl患者中,ctdna疾病负荷应答于治疗和临床进展期间的变化。显示了在连续治疗前和治疗后时间点(x轴)通过pet/ctmtv测量的射线照相反应(第一行y轴),通过capp-seq测量的ctdna平均af(第二行y轴)和epicseq淋巴瘤得分(第三行y轴)。[0024]图5示出了epic-seq在dlbcl起源细胞分类中的应用。(a)dlbcl起源细胞epic-seqgcb得分和通过capp-seq测量的基于突变的gcb得分之间的关系(spearmanrho=0.75,p=1e-5)。在相关分析之前,在通过capp-seq得分排序之后,通过3个患者箱对数据进行平滑。(b)来自cfdna的epicseqgcb得分与通过hans免疫组织化学算法的肿瘤组织临床分类之间的关系(wilcoxonp值=0.001)。盒须图描述了通过epic-seq分析的单个样品中的epic-seqgcb得分(点),其中盒跨越四分位距;在每个盒中用一条线水平标记中位数,须跨越1.5iqr。(c)dlbcl无事件存活的kaplan-meier分析中epic-seq起源细胞得分的预后价值(对数秩p值=0.013)。患者按照中位epic-coo得分进行分层,gcb得分较高,abc亚型水平较低。(d)通过epic-seq和无事件存活分析的单个基因的预后价值,如通过单变量cox比例风险模型的z得分测量的。对于具有多个tss区域的基因,使用stouffer方法104合并z得分。在针对多个假设测试校正后,只有lmo2(红色)仍然与有利的dlbcl结果显著相关。虚线表示bonferroni校正p值0.05的显著性阈值。(e)森林图描述了无事件存活(efs)的多变量cox比例风险模型结果。在针对ipi和ctdna等位基因分数调整后,仅lmo2的远端tss保持对efs的显著预后(p=0.005)。[0025]图6示出了转录起始位点的片段长度密度随基因表达而变化。(a)跨越1,748组基因的片段长度密度的热图(类似于图1a)。三个区域r1(100-150bp)、r2(151-210bp)和r3(211-300bp)在高或低表达基因组中显示富集。(b)图(a)中定义的每个区域内的片段在整个十等分的参考pbmc基因表达载体(即,当按它们在pbmc中的表达值排序时的10组基因)的深度全基因组样品中的百分比。高表达的基因包括较少的单染色体片段,表明分布更广,因此pfe更高。(c)按照表达排序的顶部(和底部)2000个基因的外显子对内含子对tss位点的三个区域r1-r3内的片段分数。tss区域内的单染色体片段的分数显著低于内含子和外显子区域(tss为63.5%,非tss为约71%)。皮尔逊的卡方拟合优度检验产生以下测试统计(tss相对于外显子:g=62,133[p《2.2e-16];tss相对于内含子:g=84,110[p《2.2e-16])。(d)表达(通过热图描绘)相对于基因推断模型中使用的两个特征的等值线图:pfe和ndr。[0026]图7示出了集成模型准确预测验证样品中的基因表达。(a)1,748组基因的预测的基因表达相对于群体平均基因表达的散点图。基础样品是合并的元样品(27名健康受试者在计算机(silico)上合并为一个),在验证中实现0.9的相关性。(b)当在没有基因分组下考虑tss水平表达值以及每组具有2、3、5和10个基因的情况时,来自图(a)的元样品用于评估模型性能。模型预测的表达和pbmc表达之间的皮尔逊相关性以绿色条显示。这种相关性随着每组基因数增加而显著提高。ndr和表达之间的相关值用蓝色条显示。(c-d)对来自zviran等人的健康受试者产生的元全基因组样品进行与图(a-b)中相同的分析。(e)来自zviran等人的全基因组样品(深度约20-40x)按每10个基因分组,并使用皮尔逊相关性评估模型预测表达和pbmc表达之间的一致性(即,每个点是一个受试者)。非癌样品与正常pbmc的相关性高于肺癌病例,wilcoxonp值为0.018。(f)将图f中肺癌病例的ichorcna肿瘤分数估计值用于与图f中的相关性进行比较。如散点图所示,当肿瘤分数增加时,相关性降低(r=-0.69,p=0.00052)。[0027]图8示出了通过epic-seq分析的无细胞dna样品。[0028]图9示出了epic-肺得分与临床因素之间的一致性。(a)epic-肺得分与代谢肿瘤体积(mtv)之间的一致性。使用spearman相关性评估这两个因素。相关系数为=0.67,p值为0.04。(b)使用spearman相关性评估epic-肺得分和ctdna平均等位基因分数之间的一致性。相关系数为=0.5,p值为3e-5。[0029]图10示出了epic-dlbcl得分与临床因素之间的一致性。(a)箱形图显示了根据代谢肿瘤体积分层的两组患者(》220相对于《220ml)。该分析表明,“mtv》220”组中epic-dlbcl得分显著更高,wilcoxonp值为0.015。(b)使用spearman相关性评估epic86dlbcl得分和ctdna平均等位基因分数(来自capp-seq)之间的一致性。相关系数是0.66,p值p《2e-16。(c)将epic-dlbcl模型应用于来自两个dlbcl患者(dlbcl002[abc]和dlbcl007[gcb])的13个样品的cfdna图谱。通过spearman相关性评估所得得分与ctdna平均等位基因分数之间的一致性。相关系数为0.79,p值为0.004。(d)用hans算法标记时患者efs的kaplan-meier曲线。非gcb组包含非gcb和未知。(e)小提琴图显示当在三个肿瘤研究中根据基因对结果(测量为efs)的影响将其分组时,cox比例危险模型z得分的分布。具体实施方式[0030]本发明的这些和其他特征将从本文的描述中变得更加明显。尽管结合各种实施例描述了本发明,但是本发明并不旨在限于这些实施例。相反,本发明包括各种替代、修改和等同物,如本领域技术人员所理解的。[0031]本说明书中使用的大多数词语具有本领域技术人员将归于这些词语的含义。在说明书中具体定义的词语具有作为整体在本发明的上下文中提供的含义,并且如本领域技术人员通常理解的。在本领域理解的词语或短语的定义与本说明书中具体教导的词语或短语的定义之间出现冲突的情况下,以本说明书为准。[0032]必须注意的是,如在说明书和所附权利要求中所使用的,单数形式“一个/种(a)”、“一个/种(an)”和“所述(the)”包括复数指示物,除非上下文另外清楚地指明。[0033]本说明书中提及的所有出版物、专利和专利申请均以引用的方式并入本文中,其程度如同明确且个别地指示每个单独出版物、专利或专利申请以引用的方式并入一般。[0034]术语“免疫检查点抑制剂”是指与免疫检查点蛋白结合并阻断其活性和/或抑制表达其所结合的免疫检查点蛋白的免疫调节细胞(例如treg细胞、肿瘤相关巨噬细胞等)的功能的分子、化合物或组合物。免疫检查点蛋白可包括但不限于ctla4(细胞毒性t淋巴细胞相关蛋白4,cd152)、pd1(还称为pd-1;程序性死亡1受体)、pd-l1、pd-l2、lag-3(淋巴细胞激活基因-3)、ox40、a2ar(腺苷a2a受体)、b7-h3(cd276)、b7-h4(vtcn1)、btla(b和t淋巴细胞衰减子,cd272)、ido(吲哚胺2,3-双加氧酶)、kir(杀伤细胞免疫球蛋白样受体)、tim3(t细胞免疫球蛋白结构域和粘蛋白结构域3)、vista(t细胞激活的v结构域ig抑制剂)和il-2r(白介素-2受体)。[0035]免疫检查点抑制剂是本领域熟知的并且是商业上或临床上可获得的。这些包括但不限于抑制免疫检查点蛋白的抗体。用其靶免疫检查点蛋白提及的检查点抑制剂的说明性实例提供如下。包含ctla-4抑制剂的免疫检查点抑制剂包括但不限于替西木单抗和伊匹木单抗(以yervoy销售)。[0036]包含pd-1抑制剂的免疫检查点抑制剂包括但不限于纳武单抗(opdivo)、匹地利珠单抗(curetech)、amp-514(medimmune)、派姆单抗(keytruda)、aunp12(肽、aurigene和pierre)、西米普利单抗(libtayo)。包含pd-l1抑制剂的免疫检查点抑制剂包括但不限于bms-936559/mdx-1105(bristol-myerssquibb)、mpdl3280a(genentech)、med14736(medlmmune)、msb0010718c(emdsereno)、阿特珠单抗(tecentriq)、阿维鲁单抗(bavencio)、德瓦鲁单抗(imfinzi)。[0037]包含b7-h3抑制剂的免疫检查点抑制剂包括但不限于mga271(macrogenics)。包含lag3抑制剂的免疫检查点抑制剂包括但不限于imp321(immuntep)、bms-986016(bristol-myerssquibb)。包含kir抑制剂的免疫检查点抑制剂包括但不限于iph2101(利瑞鲁单抗,bristol-myerssquibb)。包含ox40抑制剂的免疫检查点抑制剂包括但不限于medi-6469(medlmmune)。用于优先耗尽treg细胞(例如foxp-3 cd4 细胞)的靶向il-2r的免疫检查点抑制剂包含il-2毒素融合蛋白,其包括但不限于denileukindiftitox(ontak;eisai)。[0038]可以使用本发明的主题方法治疗的癌症类型包括但不限于肾上腺皮质癌、肛门癌、再生障碍性贫血、胆管癌、膀胱癌、骨癌、骨转移、脑癌、中枢神经系统(cns)癌、外周神经系统(pns)癌、乳腺癌、宫颈癌、儿童非霍奇金淋巴瘤、结肠癌和直肠癌、子宫内膜癌、食道癌、尤因氏家族肿瘤(例如尤因氏肉瘤)、眼癌、胆囊癌、胃肠道类癌、胃肠道间质瘤、妊娠滋养细胞疾病、毛细胞白血病、霍奇金淋巴瘤、卡波济氏肉瘤、肾癌、喉和下咽癌、急性淋巴细胞性白血病、急性髓性白血病、儿童白血病、慢性淋巴细胞性白血病、慢性髓性白血病、肝癌、肺癌、肺类癌瘤、非霍奇金淋巴瘤、男性乳腺癌、恶性间皮瘤、多发性骨髓瘤、骨髓增生异常综合征、骨髓增生性疾病、鼻腔和鼻旁癌、鼻咽癌、成神经细胞瘤、口腔和口咽癌、骨肉瘤、卵巢癌、胰腺癌、阴茎癌、垂体瘤、前列腺癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、肉瘤、黑素瘤皮肤癌、非黑素瘤皮肤癌、胃癌、睾丸癌、胸腺癌、甲状腺癌、子宫癌(例如子宫肉瘤)、移行细胞癌、阴道癌、外阴癌、间皮瘤、鳞状细胞或表皮样癌、支气管腺瘤、绒毛膜癌、头颈癌、畸胎癌或waldenstrom巨球蛋白血症。[0039]剂量和频率可以根据药剂在患者中的半衰期而变化。本领域技术人员将理解,将针对活性剂的分子量、从血液中的清除率、施用模式和其他药代动力学参数调整这些指导。对于局部施用,例如鼻内、吸入等,或对于全身施用,例如i.m.、i.p.、i.v.、口服等,剂量也可以变化。[0040]术语“受试者”、“个体”和“患者”在本文中可互换使用以指脊椎动物,优选哺乳动物,更优选人。提供用于分析的样品的哺乳动物物种包括犬科动物;猫科动物;马;牛;绵羊等,和灵长类动物,特别是人。动物模型,特别是小型哺乳动物,例如鼠类、兔类等可用于实验研究。本发明的方法可用于兽医目的。[0041]如本文所用,术语“治疗反馈(theranosis)”是指使用从诊断方法获得的结果来指导治疗方案的选择、维持或改变,包括但不限于一种或多种治疗剂的选择、剂量水平的改变、剂量时间表的改变、施用模式的改变和配制品的改变。用于告知治疗反馈的诊断方法可以包括提供关于疾病、病症或症状的状态的信息的任何方法。[0042]术语“治疗剂”、“能够治疗的药剂”或“治疗剂”可互换使用,并且是指在向受试者施用时赋予某些有益效果的分子或化合物。有益效果包括能够诊断确定;疾病、症状、障碍或病理状况的改善;减少或预防疾病、症状、障碍或病症的发作;并且通常抵消疾病、症状、障碍或病理状况。[0043]非ici癌症治疗可能包括abitrexate(甲氨蝶呤注射液)、abraxane(紫杉醇注射液)、adcetris(维布妥昔单抗注射液)、adriamycin(多柔比星)、adrucil注射液(5-fu(氟尿嘧啶))、afinitor(依维莫司)、afinitordisperz(依维莫司)、alimta(pemetexed)、alkeran注射液(美法仑注射液)、alkerantablets(美法仑)、aredia(帕米膦酸盐)、arimidex(阿那曲唑)、aromasin(依西美坦)、arranon(奈拉滨)、arzerra(奥法木单抗注射液)、avastin(贝伐单抗)、bexxar(托西莫单抗)、bicnu(卡莫司汀)、blenoxane(博来霉素)、bosulif(博舒替尼)、busulfexinjection(白消安注射液)、campath(阿仑单抗)、camptosar(伊立替康)、caprelsa(凡德他尼)、casodex(比卡鲁胺)、ceenu(洛莫司汀)、ceenudosepack(洛莫司汀)、cerubidine(道诺霉素)、clolar(克罗拉滨注射液)、cometriq(卡博替尼)、cosmegen(放线菌素)、cytosaru(阿糖胞苷)、cytoxan(cytoxan)、cytoxan注射液(环磷酰胺注射液)、dacogen(地西他滨)、daunoxome(道诺霉素脂质复合物注射液)、decadron(地塞米松)、depocyt(阿糖胞苷脂质复合物注射液)、dexamethasoneintensol(地塞米松)、dexpaktaperpak(地塞米松)、docefrez(多烯紫杉醇)、doxil(多柔比星脂质复合物注射液)、droxia(羟基脲)、dtic(氨烯咪胺)、eligard(亮丙瑞林)、ellence(ellence(表柔比星))、eloxatin(eloxatin(奥沙利铂))、elspar(天冬酰胺酶)、emcyt(雌莫司汀)、erbitux(西妥昔单抗)、erivedge(维莫德吉)、erwinaze(菊欧文氏菌天冬酰胺酶)、ethyol(氨磷汀)、etopophos(依托泊苷注射液)、eulexin(氟他胺)、fareston(托瑞米芬)、faslodex(氟维司群)、femara(来曲唑)、firmagon(地加瑞克注射液)、fludara(氟达拉滨)、folex(甲氨蝶呤注射液)、folotyn(普拉曲沙注射液)、fudr(fudr(氟尿苷))、gemzar(吉西他)、gilotrif(阿法替尼)、gleevec(甲磺酸伊马替尼)、gliadelwafer(卡莫司汀晶片)、halaven(艾日布林注射液)、herceptin(曲妥珠单抗)、hexalen(六甲蜜胺)、hycamtin(拓朴替康)、hycamtin(拓朴替康)、hydrea(羟基脲)、lclusig(帕纳替尼)、idamycinpfs(伊达比星)、ifex(异环磷酰胺)、inlyta(阿昔替尼)、intronaalfab(干扰素α-2a)、iressa(吉非替尼)、istodax(罗咪酯肽注射液)、ixempra(伊沙匹隆注射液)、jakafi(鲁索替尼)、jevtana(卡巴他赛注射液)、kadcyla(恩美曲妥珠单抗)、kyprolis(卡非佐米)、leukeran(氯芥苯丁酸)、leukine(沙格司亭)、leustatin(克拉屈滨)、lupron(亮丙瑞林)、luprondepot(亮丙瑞林)、luprondepotped(亮丙瑞林)、lysodren(米托坦)、marqibokit(长春新碱脂质复合物注射液)、matulane(丙卡巴肼)、megace(甲地孕酮)、mekinist(曲美替尼)、mesnex(美司那)、mesnex(美司那注射液)、metastron(氯化锶89)、mexate(甲氨蝶呤注射液)、mustargen(氮芥)、mutamycin(丝裂霉素)、myleran(白消安)、mylotarg(吉妥珠单抗奥唑米星)、navelbine(长春瑞滨)、neosar注射液(环磷酰胺注射液)、neulasta(非格司亭)、neulasta(乙二醇化非格司亭)、neupogen(非格司亭)、nexavar(索拉非尼)、nilandron(nilandron(尼鲁米特))、nipent(喷托他丁)、nolvadex(他莫昔芬)、novantrone(米托蒽醌)、oncaspar(培门冬酶)、oncovin(长春新碱)、ontak(denileukindiftitox)、onxol(太平洋紫杉醇注射液)、panretin(阿曲诺英)、paraplatin(卡铂)、perjeta(皮妥珠单抗注射液)、platinol(顺铂)、platinol(顺铂注射液)、platinolaq(顺铂)、platinolaq(顺铂注射液)、pomalyst(泊马度胺)、prednisoneintensol(强的松)、proleukin(阿地白介素)、purinethol(巯嘌呤)、r-chop(利妥昔单抗、环磷酰胺、盐酸多柔比星{羟基柔红霉素}、硫酸长春新碱{onocvin}和强的松)、reclast(唑来膦酸)、revlimid(来那度胺)、rheumatrex(甲氨蝶呤)、rituxan(利妥昔单抗)、roferonaalfaa(干扰素α-2a)、rubex(多柔比星)、sandostatin(奥曲肽)、sandostatinlardepot(奥曲肽)、soltamox(他莫昔芬)、sprycel(达沙替尼)、sterapred(强的松)、sterapredds(强的松)、stivarga(瑞戈非尼)、supprelinla(组氨瑞林植入物)、sutent(舒尼替尼)、sylatron(聚乙二醇干扰素α-2b注射液(sylatron))、synribo(奥马西他辛注射液)、tabloid(硫鸟嘌呤)、taflinar(达拉菲尼)、tarceva(厄洛替尼)、targretin胶囊(贝沙罗汀)、tasigna(氨烯咪胺)、taxol(太平洋紫杉醇注射液)、taxotere(多烯紫杉醇)、temodar(替莫唑胺)、temodar(替莫唑胺注射液)、tepadina(噻替哌)、thalomid(沙利度胺)、theracysbcg(bcg)、thioplex(噻替哌)、ticebcg(bcg)、toposar(依托泊苷注射液)、torisel(替西罗莫司)、treanda(盐酸苯达莫司汀)、trelstar(曲普瑞林注射液)、trexall(甲氨蝶呤)、trisenox(三氧化二砷)、tykerb(拉帕替尼)、valstar(膀胱内缬柔比星)、vantas(组氨瑞林植入物)、vectibix(盘尼图单抗)、velban(长春花碱)、velcade(波替单抗)、vepesid(依托泊苷)、vepesid(依托泊苷注射液)、vesanoid(维a酸)、vidaza(阿扎胞苷)、vincasarpfs(长春新碱)、vincrex(长春新碱)、votrient(帕唑帕尼)、vumon(替尼泊苷)、wellcovoriniv(左旋亚叶酸钙注射液)、xalkori(克唑替尼)、xeloda(卡培他滨)、xtandi(恩杂鲁胺)、yervoy(易普利单抗注射液)、zaltrap(阿柏西普注射液)、zanosar(链脲霉素)、zelboraf(维罗非尼)、zevalin(替伊莫单抗)、zoladex(戈舍瑞林)、zolinza(伏立诺他)、zometa(唑来膦酸)、zortress(依维莫司)、zytiga(阿比特龙)。[0044]放射治疗是指使用辐射,通常是x射线来治疗疾病。在1895年发现了x射线,自那时以来,放射已经用于医学诊断和研究(x涉嫌)和治疗(放射治疗)。放射治疗可以从体外作为外部放射治疗,使用x射线、钴放射、电子和更少见的其他粒子如质子进行。它也可以从体内作为内部放射疗法进行,其使用放射性金属或液体(同位素)来治疗癌症。[0045]如本文所用,“治疗(treatment)”或“治疗(treating)”或“减轻(palliating)”或“改善(ameliorating)”可互换使用。这些术语是指用于获得有益或期望结果的方法,包括但不限于治疗益处和/或预防益处。治疗益处是指治疗中一种或多种疾病、病症或症状的任何治疗相关的改善或效果。对于预防益处,可以将组合物施用于处于发展特定疾病、病症或症状的风险的受试者,或施用于报告疾病的一种或多种生理症状的受试者,即使疾病、病症或症状可能尚未显现。[0046]术语“有效量”或“治疗有效量”是指足以实现有益或所需结果的药剂量。治疗有效量将根据所治疗的受试者和疾病状况、受试者的体重和年龄、疾病状况的严重程度、施用方式等而变化,这可由本领域普通技术人员容易地确定。该术语还适用于将提供通过本文所述的任一种成像方法供检测的图像的剂量。具体剂量将根据所选择的具体药剂、待遵循的给药方案、是否与其他化合物组合施用、施用时间、待成像的组织和所携带的物理递送系统而变化。[0047]“合适的条件”应具有取决于使用该术语的上下文的含义。也就是说,当与抗体结合使用时,该术语是指允许抗体与其相应抗原结合的条件。当用于将药剂与细胞接触时,该术语应意指允许能够这样做的药剂进入细胞并执行其预期功能的条件。在一个实施例中,本文所用的术语“合适的病症”是指生理病症。[0048]术语“炎性”反应是体液(抗体介导的)和/或细胞反应的产生,所述细胞反应可由抗原特异性t细胞或其分泌产物和先天免疫细胞介导。“免疫原”能够在施用于哺乳动物时或由于自身免疫疾病而诱导针对自身的免疫反应。[0049]出于本发明目的的术语“生物标记物(biomarker)”、“生物标记物(biomarkers)”、“标记物(marker)”或“标记物(markers)”非限制性地指蛋白质及其相关代谢物、突变、变体、多态性、修饰、片段、亚基、降解产物、元件和其他分析物或样品来源的测量。标记物可包括细胞内蛋白质或细胞外蛋白质的表达水平。标记物还可以包括任一个或多个前述测量的组合,包括时间趋势和差异。广泛使用的标记物也可以指免疫细胞亚群。[0050]“分析”包括通过测量样品中的标记物(例如,标记物或组分表达水平的存在或不存在)来确定与样品相关的一组值,并将该测量值与来自相同受试者或其他对照受试者的样品或一组样品中的测量值进行比较。本教导的标记物可以通过本领域已知的各种常规方法中的任一种进行分析。“分析”可以包括执行统计分析,例如数据的归一化、统计显著性的确定、统计相关性的确定、聚类算法等。[0051]在本教导的上下文中,“样品”是指从受试者分离的任何生物样品,通常是包含无细胞dna的样品。用于获得无循环细胞dna的样品可包括任何合适的样品,通常是血液或血液来源的产物,如血浆、血清等。替代样品可包括例如尿液、腹水、滑液、脑脊液、唾液等。[0052]“数据集”是在所需条件下由样品(或样品群体)的评估产生的一组数值。数据集的值可以例如通过实验中从样品获得测量值并从这些测量值构建数据集来获得;或者可替代地,通过从诸如实验室的服务提供商,或者从数据集已经存储在其上的数据库或服务器获得数据集来获得。类似地,术语“获得与样品相关的数据集”包括获得从至少一个样品确定的一组数据。获得数据集包括获得样品,和处理样品以通过实验确定数据,例如,通过测量抗体结合,或定量信号响应的其他方法。该短语还包括例如从第三方接收一组数据,该第三方已经处理了样品以通过实验确定数据集。[0053]在本教导的上下文中,“测量(measuring)”或“测量(measurement)”是指确定临床或受试者来源的样品中物质的存在、不存在、数量、量或有效量,包括此类物质的存在、不存在或浓度水平,和/或基于对照(例如标记物的基线水平)评估受试者的临床参数的值或分类。[0054]可以根据为确定样品属于给定类别的概率设定阈值的预测建模方法来进行分类。概率优选为至少50%、或至少60%、或至少70%、或至少80%或更高。还可以通过确定所获得的数据集与参考数据集之间的比较是否产生统计上显著的差异来进行分类。如果是,则从中获得数据集的样品被分类为不属于参考数据集类别。相反,如果这种比较在统计上与参考数据集没有显著差异,则从中获得数据集的样品被分类为属于参考数据集类别。[0055]模型的预测能力可根据其提供特定值或值范围的质量度量(例如auc或准确度)的能力来评估。在一些实施例中,期望的质量阈值是预测模型,其将以至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9、至少约0.95或更高的准确度对样品分类。作为可替代的量度,期望的质量阈值可以指预测模型,其将以至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9或更高的auc(曲线下面积)对样品分类。[0056]如本领域已知的,预测模型的相对敏感度和特异性可以“调整”以有利于选择性度量或敏感度度量,其中两个度量具有反比关系。根据所进行的测试的特定要求,可以调整上述模型中的限值以提供选定的敏感度或特异性水平。敏感度和特异性中的一个或两个可为至少约0.7、至少约0.75、至少约0.8、至少约0.85、至少约0.9或更高。[0057]术语“抗体”包括全长抗体和抗体片段,并且可以指来自任何生物体的天然抗体、工程化抗体或重组产生的用于实验、治疗或其他目的的抗体,如下文进一步定义。本领域已知的抗体片段的实例,如fab、fab'、f(ab')2、fv、scfv或抗体的其他抗原结合子序列,通过修饰完整抗体或使用重组dna技术从头合成而产生。术语“抗体”包括单克隆和多克隆抗体。抗体可以是拮抗剂、激动剂、中和抗体、抑制性抗体或刺激性抗体。它们可以是人源化的、糖基化的、与固体支持物结合,并具有其他变化。[0058]本发明的方法可以使用包含标记、标记元件或标签的亲和试剂。标记或标记元件是指可直接(即第一标记)或间接(即第二标记)检测的分子;例如,标记可以被看到和/或测量或以其他方式识别,使得可以知道其存在或不存在。标记包括光学标记如荧光染料或部分。荧光团可以是“小分子”荧光或蛋白质荧光(例如绿色荧光蛋白及其所有变体)。在一些实施例中,激活状态特异性抗体用量子点标记,如chattopadhyay等人(2006)nat.med.12,972-977中公开的。量子点标记的抗体可单独使用或它们可与有机荧光染料缀合的抗体联合使用以增加可用标记的总数。随着标记抗体数量的增加,对已知细胞群体进行亚分型的能力也增加。[0059]本发明方法的检测、分选或分离步骤可需要荧光激活细胞分选(facs)技术或流式细胞术、质量细胞术等,其中facs用于从含有特定表面标记物的群体中选择细胞,或选择步骤可需要使用磁响应颗粒作为靶细胞捕获和/或背景去除的可回收支持物。多种facs系统是本领域已知的,并可用于本发明的方法中(参见例如1999年4月16日提交的w099/54494;美国序列号20010006787,2001年7月5日提交,每个都通过引用明确并入本文中)。[0060]质量细胞术或cytof(dvssciences)是流式细胞术的一种变体,其中抗体用重金属离子标签而不是荧光染料标记。通过飞行时间质谱法读数。这允许在单个样品中组合更多的抗体特异性,而在通道之间没有显著的溢出。例如,参见bodenmiller等人(2012)naturebiotechnology30:858-867。[0061]亲和试剂如抗体也可用于例如免疫组织化学,以测定免疫检查点蛋白如cd274(pd-l1)、b7-1、b7-2、4-1bb-l、gitrl等的表达。替代地,表达可通过本领域已知的任何方便的方法测定,例如mrna杂交、流式细胞术、质量细胞术等。用于分析的样品可包括例如肿瘤活检样品,如针活检样品。[0062]本发明结合了其他申请和文本中公开的信息。以下专利和其他出版物通过引用整体并入本文:alberts等人,themolecularbiologyofthecell,第4版garlandscience,2002;vogelstein和kinzler,thegeneticbasisofhumancancer,第2版,mcgrawhill,2002;michael,biochemicalpathways,johnwileyandsons,1999;weinberg,thebiologyofcancer,2007;immunobiology,janeway等人第7版,garland,andleroithandbondy,growthfactorsandcytokinesinhealthanddisease,amultivolumetreatise,volumes1aandib,growthfactors,1996。[0063]除非从上下文中明显看出,否则本发明的所有元素、步骤或特征可以与其他元素、步骤或特征以任意组合使用。[0064]分子和细胞生物化学中的一般方法可以在以下标准教科书中找到:《分子克隆:实验室手册(molecularcloning:alaboratorymanual)》第3版(sambrook等人,harborlaboratory出版社2001);《分子生物学的短方案(shortprotocolsinmolecularbiology)》第4版(ausubel等人编著,johnwiley&sons1999);《蛋白质方法(proteinmethods)》(bollag等人,johnwiley&sons1996);《用于基因治疗的非病毒载体(nonviralvectorsforgenetherapy)》(wagner等人编著,academic出版社1999);《病毒载体(viralvectors)》(kaplift和loewy编著,academic出版社1995);《免疫学方法手册(immunologymethodsmanual)》(i.lefkovits编著,academic出版社1997);以及《细胞和组织培养:laboratoryproceduresinbiotechnology(doyle&griffiths,johnwiley&sons1998)》。本公开中提及的用于基因操作的试剂、克隆载体和试剂盒可获自商业供应商,诸如biorad、stratagene、invitrogen、sigma-aldrich和clontech。[0065]已经根据本发明人发现或提出的特定实施例描述了本发明,以包括用于实施本发明的优选模式。本领域技术人员将认识到,根据本公开,在不脱离本发明的预期范围的情况下,可以对所示例的特定实施例进行许多修改和改变。由于生物学功能等效性的考虑,可以改变蛋白质结构而不影响种类或量的生物学作用。所有这些修改都包括在所附权利要求的范围内。[0066]本发明方法用于预后、诊断和治疗目的。如本文所用,术语“治疗”用于指预防复发和治疗先前存在的病症。对正在进行的癌症进行治疗以实现持久的临床益处是特别令人感兴趣的。[0067]本文所用的术语“启动子片段化熵”(pfe)是指消化后在转录起始位点(tss)处或附近dna片段长度的相对多样性。使用修改的香农熵指数将启动子片段熵计算为pfe(tss):=ek[∑i:1-5p*(etss>(1 k)×ei)],其中ek[.]表示过量参数k的期望值,并且p^*是dirichlet分布dir(α*)的概率。这里,我们使用k~γ(s=0.5,r=1的伽马分布,其中γ是形状s和速率r的伽马分布。[0068]本文所用的术语“核小体耗尽区”(ndr)是指dna中不含核小体的启动子区域。核小体的缺乏通常指示活跃表达的基因。ndr深度是指发生在核小体耗尽区内的测序深度。为了防止基因组中深度的变化,包括gc含量变化或体细胞拷贝数变化,将深度在用户定义的每个tss两侧的每个窗口内以每百万计数(cpm)空间归一化。将这种归一化的测量值表示为每个tss的核小体耗尽区得分ndr。[0069]术语“测序深度”或“深度”是指来自个体的测试样品的给定基因组位置或基因座处的序列读段或读段片段的总数。[0070]术语“选择器”或“选择器组”是指对应于特定基因组区域的寡核苷酸或寡核苷酸组,其中基因组区域可包含tss或多个tss。本领域已知多种选择器和选择器组(参见例如2014年3月13日提交的us2014-0296081a1,其通过引用明确并入本文)。[0071]本发明的方法[0072]提供了非侵入性测定目的基因表达的方法。然后将这些目的基因的表达谱用于许多应用。这些方法包括但不限于用于确定癌症个体是否将从免疫检查点抑制剂治疗中获得持久临床益处的方法、用于确定患有非小细胞肺癌(nsclc)的个体是否被分类为腺癌(luad)或鳞状细胞癌(lusc)的方法、用于量化患有弥漫性大b细胞淋巴瘤(dlbcl)的个体中的肿瘤负荷的方法、用于确定患有dlbcl的个体中的起源细胞的方法等。提供了一种综合分析方法,其中从启动子片段熵(pfe)和核小体耗尽区(ndr)深度分析中导出单个生物标记物,以产生患者对免疫检查点抑制(ici)的反应性的预后,nsclc亚型的确定,dlbcl肿瘤负荷的测定和/或dlbcl起源细胞分类。在一些仅使用非侵入性抽血的实施例中,方法稳健地鉴定哪些患者将从免疫检查点抑制中获得持久临床益处,癌症亚型分类和/或肿瘤负荷。在一个实施例中,方法还包括基于分析为个体选择治疗方案。在一些实施例中,预测是基于第一次ici治疗后不久的样品。[0073]用于无细胞dna图谱的样品可以是允许分析一种或多种dna样品,优选血液样品的任何合适类型。样品可以从个体获得一次或多次。可在不同时间从个体获得多个样品。在一些实施例中,在ici治疗之前获得样品。在一些实施例中,在第一次ici治疗后,并且在第一次ici治疗的约4周、3周、2周、1周内获得样品。在一些实施例中,在ici治疗之前和之后获得样品。[0074]无细胞dna样品可以从身体样品中分离。可以通过红细胞裂解、离心、淘析、密度梯度分离、单采血液成分术、亲和选择、淘选、facs、用hypaque离心、具有附着抗体的固体支持物(磁珠、柱内珠或其他表面)等从身体样品中分离无细胞dna。如上所述分析样品的感兴趣的特定度量。[0075]在通过推断确定基因表达中使用cfdna提供了优于分析基因表达的基于rna的方法的优点。cfdna的使用提供了用于通过推断确定基因表达的非侵入性手段,因为获得cfdna仅需要血液样品并且不需要如基于rna的方法所需的广泛组织处理。cfdna还通过更稳定和更不易于降解而提供优于rna的明显优势。[0076]本发明的方法包括使用dna寡核苷酸的“选择器”群体的具有多阶段生物信息学的优化文库制备方法,所述“选择器”群体对应于目的基因中的tss区域。dna寡核苷酸的选择器群体(其可以被称为选择器组)包含用于多个基因组区域的探针。[0077]在本发明的一些实施例中,提供了用于识别适合于特定肿瘤类型的选择器组的方法。还提供了选择器组的寡核苷酸组成,其可以粘附于固体基质,标记用于亲和力选择等;以及包含这种选择器组的套件。包括但不限于适用于分析非小细胞肺癌(nsclc)的选择器组。[0078]在其他实施例中,提供了在诊断和监测个体患者的癌症中使用选择器组的方法。在这些实施例中,选择器组用于例如通过杂交选择富集对应于tss区域的cfdna。然后扩增“选择的”cfdna并测序。[0079]全机器人或微流体系统包括自动化液体、颗粒、细胞和生物体处理,包括高通量移液以进行筛选应用的所有步骤。这包括液体、颗粒、细胞和生物体操作,例如抽吸、分配、混合、稀释、洗涤、精确体积转移;回收和丢弃移液管尖端;以及从单次样品抽吸多次输送相同体积的重复移液。这些操作是无交叉污染的液体、颗粒、细胞和生物体转移。该仪器可将微孔板样品自动复制到过滤器、膜和/或子板,进行高密度转移,全板系列稀释和高容量操作。[0080]在一些实施例中,用于多孔板、多管、支架、筒、小管、深孔板、微量离心管、冷冻管、方孔板、过滤器、芯片、光纤、珠和其他固相基质的平台或具有各种体积的平台被容纳在可升级的模块化平台上以用于额外的容量。该模块化平台包括变速轨道振荡器,以及用于源样品、样品和试剂稀释液的多位置工作台,测定板,样品和试剂储存器,移液管尖端和主动洗涤站。在一些实施例中,本发明的方法包括使用读板器。[0081]在一些实施例中,具有单个或多个磁性探针、亲和探针或移液管的可互换移液管头(单通道或多通道)自动操作液体、颗粒、细胞和生物体。多孔或多管磁性分离器或平台以单个或多个样品形式操作液体、颗粒、细胞和生物体。[0082]在一些实施例中,仪器将包括检测器,其可以是多种不同的检测器,取决于标记和测定。在一些实施例中,有用的检测器包括具有多个荧光通道的显微镜;提供荧光、紫外和可见分光光度检测的读板器,具有单波长和双波长终点和动力学能力、荧光共振能量转移(fret)、发光、猝灭、双光子激发和强度再分布;ccd相机,用于捕获数据和图像并将其转换为可量化格式;以及计算机工作站。[0083]在一些实施例中,机器人装置包括通过总线与存储器和一组输入/输出设备(例如,键盘、鼠标、监视器、打印机等)通信的中央处理单元。同样,如下所述,这可以是对本发明的多路复用设备的cpu的补充或替代。中央处理单元、存储器、输入/输出设备和总线之间的一般交互在本领域中是已知的。因此,根据要运行的实验,各种不同的程序存储在cpu存储器中。[0084]建模和统计方法[0085]使用fastq文件对tss位点和样品进行映射、去重复和质量控制,所述fastq文件使用定制管线进行解复用,其中只有当8bp样品条形码和6bpuid在纠错后与预期序列匹配时才考虑读段对。解复用后,移除条形码,并使用fastp从读段的3’端修剪衔接子通读以保存短片段。使用bwa将片段与人基因组(hg19)比对;重要的是,禁用了bwaaln中的自动分布推断,以允许包含更短和更长的cfdna片段,否则这些片段将被异常地标记为不正确地配对。使用定制的条形码方法去除pcr重复,所述方法将内源和外源独特分子标识符(umid),包括cfdna片段起始和终止位置,以及连接的衔接子内的预先指定的umid组合在一起。为了允许覆盖均匀性用于比较,使用“samtoolsview-s”将数据下采样到期望的深度。所需深度包括但不限于大于500x的深度、500至600x、600至700x、700至800x、800至900x、900至1000x、1000至1100x、1100至1200x、1200至1300x、1300至1400x、1400至1500x、1500至1600x、1600至1700x、1700至1800x、1800至1900x、1900至2000x、2000至2100x、2100至2200x、2200至2300x、2300至2400x、2400至2500x、2500至2600x、2600至2700x、2700至2800x、2800至2900x、2900至3000x的深度、或大于3000x的测序深度。考虑测序深度小于500x的样品,任何不符合该深度阈值(中值深度)的样品均被视为质量控制(qc)失败。cfdna片段长度密度模式低于140或高于185的任何样品也被除去,因为预期的片段长度密度模式是167(对应于染色体dna长度)。为了识别和审查由我们的epic-seq小组分析的236个tss区域中的噪声位点,对23个对照进行了分析,允许识别和去除具有可再现低tss覆盖率的定型区域(即,cpm小于跨选择器中tss的均匀分布覆盖率的三分之一的任何位点,即,在超过75%的对照中)。[0086]为了保证进入分析的片段的足够质量,在wgs和epic-seq数据中分别需要》30或》10的映射质量(mapq,k)(使用“samtoolsview-qk-f3084”)。更宽松的epic-seqmapq阈值通过在epic-seq选择器设计期间已经施加在所选择的tss区域上的更严格的可映射性和唯一性要求来限定。分析限于具有以下bamflag组的读段:81、93、97、99、145、147、161和163。为确保去除非唯一片段,对具有重复名称的读段进行审查。[0087]使用tss区域的5个cfdna片段组学特征进行片段组学特征提取和总结,然后将这些特征中的每一个与基因表达进行比较,包括窗口保护得分(wps)、定向感知cfdna片段化(ocf)、基序多样性得分(mds)、核小体耗尽区域得分(ndr)和启动子片段化熵(pfe)。mds、ndr、ocf和wps各自按照最初描述的研究的惯例进行计算,并进行了轻微修改,如下详述。[0088]基序多样性得分(mds)被确定为对单个cfdna片段进行的末端基序序列分析,以评估核苷酸在每个读段对的读段的前几个位置中的分布。这通过计算提取每个序列读段的基因组参考序列的前4个5'核苷酸来进行,产生4聚体序列基序。然后当考虑与每个tss两侧的2kb窗口重叠的片段时,将mds计算为跨每个tss位点的256个基序(4聚体)的分布的香农指数。[0089]使用深度计算核小体耗尽区域得分(ndr),该深度在每个tss两侧的每个窗口内以每百万计数(cpm)空间进行归一化。将这种归一化的测量值表示为每个tss的核小体耗尽区得分ndr。[0090]使用香农熵计算启动子片段化熵(pfe),以总结用户定义的每个tss位点附近的cfdna片段大小值的多样性。定义了201个大小箱[从b1=100bps到b201=300bps]并通过最大似然估计密度,即其中其中ni和n分别表示长度bi的片段数和tss处的片段总数。将香农熵计算为然后如下归一化。为了说明样品间测序深度的变化以及影响可能混淆pfe的总体cfdna片段长度分布的其他隐藏因素,我们通过dirichlet多项式模型使用贝叶斯方法定义了相对熵。在该模型中,假定给定cfdna样品中的片段大小分布遵循多项式分布(p)其概率质量函数本身由dirichlet分布p~dirichlet(α)控制,其中向量α表示dirichlet分布的参数向量。在此,我们首先使用一组基因来创建背景片段长度密度作为α。对于背景分布,集中在两个侧翼区域,(a)-1kbps(上游)到-750bps(上游)和(b) 750bps(下游)到 1kbps(下游)。落在那些区域内的片段用于背景片段长度分布。随机选择5个背景基因子集并计算它们的香农熵,用e1,e2,e3,e4,和e5表示。对于给定的tss,计算dirichlet分布的后验,即然后将给定tss的香农熵与5个随机产生的熵进行比较,以测量感兴趣的tss的片段长度值的多样性过量。在形式上,将pfe定义为pfe(tss):=ek[∑i:1-5p*(etss>(1 k)×ei)],其中ek[.]表示过量参数k的期望值,并且p*是dirichlet分布dir(α*)的概率。这里,我们使用k~γ(s=0.5,r=1的伽马分布,其中γ是形状s和速率r的伽马分布。[0091]使用任何给定基因的原始香农熵(如“使用香农熵计算片段长度多样性”中所述),在使用一组34个cfdnawes图谱(各自具有200-400x深度),将其转化为z得分后进行全外显子组pfe分析。为了说明用于归一化的队列中深度的差异,5个样品的元图谱被认为实现了与最初用于在依赖wgs时关联pfe和基因表达水平的那些相当的深度。[0092]使用81个sclc原发性肿瘤的rna-seq数据产生小细胞肺癌基因标记集。通过将这些肿瘤的rna-seq数据与我们的参考pbmcrna表达水平比较和鉴定在sclc表达的前1500个中与在pbmc表达的后5000个中的基因重叠的基因(“sclc高”)进行差异基因表达分析。类似地,对于“sclc低”基因,我们选择在pbmc表达的前1500个和sclc表达的后5000个中的基因。该基因集进一步限于其tss覆盖在我们的整个外显子组中以确保足够的测序覆盖用于分析的那些。[0093]为了从转录组基因tss区的cfdna片段化图谱推断rna表达水平,使用pfe和ndr两个特征构建预测模型。值得注意的是,在所考虑的5个片段组学特征中,这些指数显示出最高的个体相关性以及互补性。对于训练,使用一个通过wgs测序到高覆盖深度的cfdna样品。对5名健康受试者的pbmc进行rna-seq,并将这些个体中的3名的平均值用作“参考表达载体”。接下来,为了在核心启动子处获得较高的分辨率,基于它们在我们的参考rna-seq载体中的表达按每10个基因分组。在除去用作计算pfe的背景的基因后,总共保留了1,748组(每组10个基因)。在延伸的核心启动子处的所有片段由每组内的基因汇集并提取两个特征:ndr和pfe。将这两个特征通过95%分位数在背景基因上归一化,其中对于pfe,归一化因子是和其中q(.,k)表示第k个分位数。通过自举重采样,我们然后构建了600个集成模型:200个单变量pfe独立模型mpfe,1,mpfe,2,...,mpfe,200,200个单变量ndr独立模型mndr,1,mndr,2,...,mndr,200和200个ndr-pfe集成模型mint,1,mint,2,...,mint,200。[0094]为了将最初导自wgs的该表达预测模型转移到目标tss空间(epic-seq),通过在两名健康受试者上测量其均方根误差(rmse)来评估上述600个模型中的每一个。对于这两名健康受试者中的每一名,通过epic-seq将cfdna图谱与来自同一血样的rna-seq的相应pbmc转录组谱进行比较,并计算600个集合模型中每一个的rmse。然后将每个模型的权重按比例缩放该模型rmse倒数,然后将最终得分计算为600个模型的线性和,如上所述进行加权。[0095]使用tcga和dlbcl基因表达数据集以rna-seqfpkm-uq的形式使用gdcapi对所有个体进行癌症类型特异性基因的鉴定。在从具有超过一种类型的恶性肿瘤病史的个体中取出样品后,将其分成两个单独的队列用于训练和验证(每种癌症类型分别为70%和30%)。在每种癌症类型的训练集中,计算中值基因表达(fpkm-uq),并将上第15分位数的蛋白质编码基因视为高表达基因。为了消除血细胞变异对cfdna的潜在混杂影响,当考虑来自gtex的全血转录组谱时,排除外周血中表达的上第5分位数内的基因。[0096]用显示不同基因表达谱的已知分子亚型确定epic-seq靶向测序组设计的基因选择。包括luad、lusc和dlbcl的癌症特异性基因。为了找到nsclc中的亚型特异性基因,使用rbioconductor中的deseq2包进行差异表达分析,以从tcga中区分luad和lusc肿瘤转录组。对于淋巴瘤分析,使用根据rna-seq基因表达数据在abc和gcb亚型之间差异表达的基因列表。除了这些dlbcl和nsclc特异性基因,包括来自lm22基因集的50个基因,捕获外周血白细胞计数的变化。这些和其他对照基因一起构成总共179个独特基因,其中每个基因为epic-seq贡献了一个或多个tss区域,总计236个靶向tss区域。[0097]区分肺癌(epic-肺分类器)被训练以区分肺癌与非癌症受试者。用于免疫细胞类型和nsclc组织学分类的所有tss用于该分类器。对于具有多个tss区域的基因,在交叉验证的每次迭代中,tss区域首先与超过0.95的基因内相关性相结合,并捕获平均值。对于相关性小于0.95的那些,单独的tss区域作为独立的报告子被保留。这导致模型中的139个特征和143个样品(67个肺癌病例和71个对照)。训练l1-l2-正则逻辑回归模型(α=0.9的“弹性网”),并通过交叉验证获得了最佳λ。通过留一批次(lobo)模型评估整个模型。在此,每个批次包含至少一个样品,并且代表在一个ngs测序通道中一起捕获和/或测序的一组样品。[0098]设计nsclc组织学亚型分类器以区分非小细胞肺癌的两个主要亚型,即肺腺癌(luad)和肺鳞状细胞癌(lusc)。类似于“epic-肺分类器”中的模型,分类模型采用α=0.9的弹性网,其中对应于一个基因的多个tss位点被合并。通过留一法(loo)分析评估该分类器的性能。分类器使用80个特征和67个样品(36个luad和31个lusc)进行训练。为了评估性能,计算了具有相等权重的分类准确度。[0099]评估了使用epic-seq的来自血浆cfdna的nsclc组织学分类器中模型系数的显著性,以及它们与使用rna-seq的来自肿瘤转录组的先前设计的一致性。具体而言,从cfdna分析的弹性网络模型中比较非零系数,然后对luad基因系数与lusc基因系数进行t检验。[0100]为了预测免疫检查点抑制剂的益处,鉴别发现治疗前队列中差异表达的tss(非ici;肺癌相对于正常)。命名以下来自单侧t检验的bonferroni校正p《0.25的基因的tss区域:(folr1tss#3、itga3tss#1、lrrc31tss#1、macc1tss#1、nkx2-1tss#2、scnn1atss#2、sftpbtss#1、wfdc2tss#1、cldn1tss#1、fscn1tss#1、gpc1tss#1、krt17tss#1、pfn2tss#1、pkp1tss#1、s100a2tss#1、sfntss#1、sox2tss#2、tp63tss#2)。对于时间点t0和t1,分别用和表示这些基因的表达水平,(倍数变化)统计数据被定义为其中用于表示平均向量元素。对于每个患者,通过从epic-seq选择器中随机选择k个位点来按经验推导s统计数据的零分布。然后计算经验左侧p值以测量对治疗的反应。然后将epic-seq动力学得分定义为这些经验p值的对数(以10为底)。[0101]使用弹性网训练分类器以区分dlbcl与非癌症受试者,其中正则化参数如在“epic-肺分类器”中设置。用于lobo交叉验证的数据集包括129个特征和167个样品(91个dlbcl病例和71个对照)。[0102]对于dlbclcoo的分类,gcb得分定义如下:(1)在留一法交叉验证框架内,将每个基因表达标准化(即z得分)并将z得分转化为概率,然后(2)将coo得分定义为将每个亚型的基因集定义为最初在用于dlbcl分类的epic-seq选择器设计中选择的。为了评估性能,测量epic-seq得分和(1)从capp-seq获得的遗传coo分类得分以及(2)来自hans免疫组织化学算法的标记之间的一致性。[0103]通过皮尔逊相关性(r)或spearman相关性(ρ)(取决于数据类型)测量已知变量与预测变量之间的关联。当数据呈正态分布时,酌情使用不等方差t检验或配对t检验确定组比较;否则,应用双侧wilcoxon检验。为了测试连续变量相对于分类组的趋势,使用在clinfunr包中实施的jonckheere趋势测试。使用bonferroni方法进行多重假设检验的校正。双侧p《0.05的结果被认为是显著的。使用r4.0.1进行统计分析。置信区间(ci)通过用替换重新采样(即自举)来计算。使用r包proc进行接受者操作特征(roc)曲线分析。使用r包存活率进行存活率分析。在二分法时,使用kaplan-meier估计值绘制存活曲线,并通过对数秩检验评估统计学显著性。否则,将cox比例-危害模型拟合至数据以确定每个协变量的显著性。[0104]在一些实施例中,本发明提供了用于分类、诊断、预后、治疗反馈和/或预测结果的试剂盒。试剂盒可进一步包括用于细胞状态及其生理状态的数据分析的软件包,其可包括用于与测试图谱比较和与上述其他分析比较的参考图谱。试剂盒还可以包括用于任何上述应用的说明书。[0105]本发明提供的试剂盒可包含一种或多种本文所述的亲和试剂、用于cfdna的分离和测序分析的试剂等。试剂盒还可包含可用于本发明的其他试剂,如调节剂、固定剂、容器、板、缓冲液、治疗剂、说明书等。[0106]本发明提供的试剂盒可包含一种或多种标记元件。标记元件的非限制性实例包括小分子荧光团、蛋白质荧光团、放射性同位素、酶、抗体、化学发光分子、生物素、链霉亲和素、地高辛、显色染料、发光染料、磷染料、荧光素酶、磁性颗粒、β-半乳糖苷酶、氨基、羧基、马来酰亚胺基、氧基和硫醇基、量子点、螯合或笼状镧系元素、同位素标签、放射性致密标签、电子致密标签、放射性同位素、顺磁性颗粒、琼脂糖颗粒、质量标签、电子标签、纳米颗粒和囊泡标签。[0107]在一些实施例中,本发明的试剂盒使得能够通过敏感的细胞测定方法,例如ihc和流式细胞术检测信号蛋白,其适用于临床检测、分类、诊断、预后、治疗反馈和结果预测。[0108]这样的试剂盒可以另外包含一种或多种治疗剂。试剂盒可以进一步包括用于生理状态数据分析的软件包,其可以包括用于与测试图谱比较的参考图谱。[0109]这样的试剂盒还可以包括信息,例如科学参考文献、包装插页材料、临床试验结果和/或这些的概述等,其指示或确立组合物的活性和/或优点,和/或描述剂量、施用、副作用、药物相互作用或对健康护理提供者有用的其他信息。这些信息可以基于各种研究的结果,例如,使用涉及体内模型的实验动物的研究和基于人类临床试验的研究。本文所述的试剂盒可提供、销售和/或推广给健康提供者,包括医师、护士、药剂师、处方官员等。在一些实施例中,试剂盒也可以直接销售给消费者。[0110]报告[0111]在一些实施例中,提供对受试者进行分类、诊断、预后、治疗反馈和/或结果预测的评估包括生成书面报告,该书面报告包括技术人员对受试者健康状态的评估,即“诊断评估”,对受试者预后的评估,即“预后评估”,和/或对可能的治疗方案的评估,即“治疗评估”。因此,本发明方法可以进一步包括生成或输出提供诊断评估、预后评估或治疗评估的结果的报告的步骤,该报告可以以电子介质(例如,计算机监视器上的电子显示器)的形式或以有形介质(例如,打印在纸或其他有形介质上的报告)的形式提供。[0112]如本文所述,“报告”是电子或有形文档,其包括提供与诊断评估、预后评估和/或治疗评估及其结果相关的感兴趣信息的报告元素。受试者报告可以完全或部分以电子方式生成。受试者报告至少包括诊断评估,即关于受试者是否将具有特定临床反应和/或将遵循建议疗程的诊断。受试者报告可以进一步包括以下中的一个或多个:1)关于测试设施的信息;2)服务提供商信息;3)受试者数据;4)样品数据;5)评估报告,其可包括各种信息,包括:a)测试数据,其中测试数据可以包括对激活的细胞信号转导反应的分析,b)使用的参考值,如果有的话。[0113]报告可以包括关于测试机构的信息,该信息与进行样品收集和/或数据生成的医院、诊所或实验室有关。该信息可以包括一个或多个细节,这些细节涉及例如测试设施的名称和位置、进行测定和/或输入输入数据的实验室技术人员的身份、进行和/或分析测定的日期和时间、储存样品和/或结果数据的位置、测定中使用的试剂(例如试剂盒等)的批号等。具有该信息的报告字段通常可以使用用户提供的信息来填充。[0114]报告可以包括关于服务提供商的信息,该服务提供商可以位于用户所在的保健机构之外,或者位于保健机构内。这种信息的实例可以包括服务提供商的名称和位置、审查者的名称、以及在必要或需要时进行样品收集和/或数据生成的个人的姓名。具有该信息的报告字段通常可以使用用户输入的数据来填充,该数据可以从预脚本的选择中选择(例如,使用下拉菜单)。报告中的其他服务提供商信息可以包括关于结果和/或关于解释性报告的技术信息的联系信息。[0115]报告可以包括受试者数据部分,包括受试者病史以及管理受试者数据(即,对于诊断、预后或治疗评估不是必需的数据),诸如识别受试者的信息(例如,姓名、受试者出生日期(dob)、性别、邮箱和/或居住地址、医疗记录号(mrn)、医疗机构的房间和/或床位号、保险信息等)、下令易感性预测的受试者医师或其他健康专业人员的姓名、以及如果与医嘱医师不同,负责受试者护理的工作医师(例如,初级护理医师)的姓名。[0116]报告可以包括样品数据部分,其可以提供关于所分析的生物样品的信息,例如从受试者获得的生物样品的来源(例如血液、组织类型等)、样品处理方式(例如存储温度、准备方案)以及采集日期和时间。具有该信息的报告字段通常可以使用用户输入的数据来填充,其中一些可以作为预脚本的选择来提供(例如,使用下拉菜单)。[0117]报告可以包括评估报告部分,其可以包括在如本文所述的数据处理之后生成的信息。解释性报告可以包括患者将从免疫检查点抑制剂获得肿瘤益处的可能性的预后。解释性报告可包括例如分析结果、用于计算分析的方法和解释,即预后。报告的评估部分还可任选地包括建议。例如,结果表明受试者倾向于从免疫检查点抑制剂获得肿瘤益处的预后。[0118]还将容易理解,报告可包括额外元素或修改元素。例如,在电子的情况下,报告可以包含指向内部或外部数据库的超链接,这些数据库提供关于报告的所选元素的更详细信息。例如,报告的患者数据元素可以包括到电子患者记录的超链接或用于访问这样的患者记录的站点,该患者记录被保存在机密数据库中。后一实施例可能对医院内系统或诊所内设置感兴趣。当以电子格式时,报告被记录在合适的物理介质上,诸如计算机可读介质,例如计算机存储器、压缩驱动器、cd、dvd等中。[0119]容易理解的是,报告可以包括以上所有或一些元素,条件是报告通常至少包括足以提供用户请求的分析(例如,诊断、预后或对治疗反应的预测)的元素。[0120]计算机方面[0121]计算系统(例如,计算机)可用于本公开的方法中,以整合和分析从启动子片段熵和归一化ndr深度生成的数据。计算单元可以包括用于分析所测量的图像的任何合适的组件。因此,计算单元可以包括以下的一个或多个:处理器;非瞬态计算机可读存储器,例如计算机可读介质;输入设备,如键盘、鼠标、触摸屏等;输出设备,如监视器、屏幕、扬声器等;网络接口,如有线或无线网络接口;等等。[0122]可以分析来自测量的原始数据,例如启动子片段熵归一化的ndr深度等,并将其存储在基于计算机的系统上。如本文所用,“基于计算机的系统”是指用于分析本发明信息的硬件装置、软件装置和数据存储装置。本发明的基于计算机的系统的最小硬件包括中央处理单元(cpu)、输入装置、输出装置和数据存储装置。本领域技术人员可以容易地理解,当前可用的基于计算机的系统中的任一个都适用于本发明。数据存储设备可以包括包含如上所述的当前信息的记录的任何产品,或者可以访问这种产品的存储器访问装置。[0123]分析可以用硬件或软件或两者的组合来实现。在本发明的一个实施例中,提供了一种机器可读存储介质,该介质包括用机器可读数据编码的数据存储材料,当使用用使用所述数据的指令编程的机器时,该数据存储材料能够显示本发明的任何数据集和数据比较。这些数据可用于各种目的,例如诊断、疾病治疗等。在一些实施例中,本发明在可编程计算机上执行的计算机程序中实现,所述可编程计算机包括处理器、数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备和至少一个输出设备。程序代码被应用于输入数据以执行上述功能并生成输出信息。以已知的方式将输出信息应用于一个或多个输出设备。计算机可以是例如个人计算机、微型计算机或常规设计的工作站。[0124]每个程序优选地以高级过程或面向对象编程语言来实现以与计算机系统通信。然而,如果需要,程序可以用汇编或机器语言来实现。在任何情况下,语言可以是编译或解释语言。每个这样的计算机程序优选地存储在通用或专用可编程计算机可读的存储介质或设备(例如,rom或磁盘)上,用于当存储介质或设备被计算机读取时配置和操作计算机以执行这里描述的过程。该系统还可以被认为被实现为配置有计算机程序的计算机可读存储介质,其中这样配置的存储介质使得计算机以特定的和预定的方式操作以执行这里描述的功能。[0125]输入和输出装置的各种结构格式可用于在本发明的基于计算机的系统中输入和输出信息。输出的一种格式意指测试数据集与可信配置文件具有不同程度的相似性。这种表示为技术人员提供了相似性的排名,并确定了测试模式中包含的相似性程度。[0126]数据及其分析可以在各种介质中提供以便于它们的使用。“介质”是指包含本发明的标记模式信息的产品。本发明的数据库可以记录在计算机可读介质上,例如可以由计算机直接读取和访问的任何介质。此类介质包括但不限于:磁存储介质,例如软盘、硬盘存储介质和磁带;光存储介质如cd-rom;电存储介质如ram和rom;以及这些种类的混合体,例如磁/光存储介质。本领域的技术人员可以容易地理解如何使用任何当前已知的计算机可读介质来创建包括当前数据库信息的记录的产品。“记录”是指使用本领域已知的任何此类方法将信息存储在计算机可读介质上的过程。基于用于访问存储信息的装置,可以选择任何方便的数据存储结构。各种数据处理器程序和格式可用于存储,例如文字处理文本文件、数据库格式等。[0127]输入和输出装置的各种结构格式可用于在基于计算机的系统中输入和输出信息。这种表示为技术人员提供了相似性的排名,并确定了测试数据中包含的相似性程度。[0128]本文还提供了一种经由计算机将序列和通过本文公开的方法收集的其他数据存储和/或传输的方法。包括但不限于软件和存储设备的任何计算机或计算机附件可用于实施本发明。序列或其他数据(例如免疫库分析结果)可由用户直接或间接地输入到计算机中。另外,可用于测序dna或分析dna或分析免疫库数据的任何装置可连接到计算机,使得将数据传输到计算机和/或计算机兼容的存储装置。数据可以存储在计算机或合适的存储设备(例如cd)上。数据还可以经由本领域公知的方法(例如,互联网、地面邮件、空中邮件)从计算机发送到另一个计算机或数据收集点。因此,通过文中描述的方法收集的数据可以在任何点或地理位置收集并被发送到任何其他地理位置。[0129]实施例[0130]给出以下实施例是为了说明本发明的各种实施例,并不意味着以任何方式限制本发明。本实例以及本文所述的方法是目前优选实施例的代表,是示例性的,并且不旨在限制本发明的范围。本领域技术人员将想到包括在由权利要求的范围所限定的本发明的精神内的其中的变化和其他用途。[0131]实例1[0132]在本研究中,我们引入epic-seq,一种利用无细胞dna片段化模式以允许非侵入性推断基因表达的新方法,其可用于多种临床相关应用,包括肿瘤检测、亚型分类、反应评估和具有预后意义的基因分析。与epic-seq相比,先前描述的cfdna片段组学技术和特征的敏感度不足以以高保真度解析单个基因的表达。在此描述的方法通过利用新的基于熵的片段组学度量(pfe)以及通过目标基因的启动子区域的靶向捕获实现的更高的测序深度,实现了显著改进的性能。[0133]为了允许通过epic-seq从cfdna片段组学特征推断rna表达水平,我们试图在转录位点捕获cfdna的特征,这些特征反映来自核小体可及性和定位的表观遗传编码信号,因为这些是确定转录输出的关键因素。当通过全基因组测序分析cfdna时,这些片段组信学号在活跃表达的基因的启动子处表现最强,这激发了我们的tss捕获方法。然而,我们还在全外显子组测序中观察到活跃表达的基因的外显子区域处的显著信号,表明有机会更广泛地扩展epic-seq以研究目的基因的表达。此外,组织特异性和谱系特异性也由可非侵入性测量的几种其他表观遗传信号提供,包括5mcpg和5hmcpg修饰和特异性组蛋白翻译后修饰。[0134]如下所示,epic-seq可用于各种临床相关的癌症分类问题。重要的是,我们使用多个独立的证据线证明了从epic-seq推断基因表达水平的效用。具体地,我们描述了epic-seq信号不仅与组织转录组分析的预期,还与通过总代谢肿瘤体积和基于突变的ctdna分析测量的疾病负荷有显著相关性。此外,我们观察到epic-seq信号与对免疫疗法和化疗的治疗反应有显著相关性,以及其评估预后信息基因表达的能力。[0135]我们专注于肺癌的非侵入性组织学分类和侵袭性b细胞淋巴瘤的分子分类,这是两种常见的并具有代表性的癌症类型,其中这种分类在临床上是常规的,但有时充满诊断挑战。我们观察到的对这些肿瘤亚型中的每一种进行准确分类的稳健表现表明,该方法可以广泛地扩展到其他癌症类型和其他病理。例如,尽管在美国已经有许多诊断工具可用,但不明原发性癌(cup)仍然占约2-5%的发病癌。epic-seq提供了使用非侵入性方法对这类癌进行分类的方法。另外,我们描述的方法具有癌症以外的应用,用于非侵入性检测来自感兴趣的细胞类型、组织和途径和病理的信号。这些包括检测组织损伤和局部缺血的非侵入性策略,以及对不同人类组织的特定治疗靶向途径和毒性特征的药效学作用,否则难以在症状性组织损伤发生之前非侵入性监测(例如脑和胃肠道)。[0136]结果[0137]无细胞dna特征与基因表达相关。我们假设来自活性启动子(受到核小体较少保护)的cfdna片段将比来自非活性启动子(受到核小体较多保护)的片段表现出更随机的切割模式。如果正确,允许从cfdna推断单个基因的表达(图1a)。为了探索该假设,我们通过相对深的wgs(约250x)对来自患有不明原发性癌(cup)但ctdna通过个性化capp-seq水平非常低(《0.05%;方法)的患者的cfdna进行了分析。由于绝大多数cfdna分子是造血来源,因此我们将特定的cfdna片段组学特征与通过rna-seq测定的外周血白细胞的表达水平相关联。然后我们根据它们的表达水平对基因进行排序,并表征cfdna片段在其启动子处的分布(图1b)。为了支持我们的假设,映射到高表达基因的tss两侧的约2kb区域的cfdna分子比映射到低表达基因的tss的片段表现出显著更多的片段长度多样性。这种现象在亚核小体片段中尤其突出(《150bp和210-300bp,图1b和图6a-b)。[0138]我们推测,在活性基因的tss处的核小体置换或耗尽可导致更多样的消化片段,并且估计这种多样性可告知在单个基因tss区域处的相应表达水平。因此,我们捕获cfdna片段长度中的这种多样性作为熵量度,计算每个基因的tss处的片段长度的修改的香农指数,一种我们称为启动子片段化熵(pfe;方法)的标准化度量。我们观察到外周血单核细胞(pbmc;r=0.89,p《1e-16;图1b-c)通过wgs在cfdna中测量的pfe与通过rna-seq测量的表达水平之间显著高的全转录组相关性。尽管tss两侧的核小体耗尽区的测序深度(ndr深度)也与相应基因的基因表达显著相关,但它显示比pfe显著更低的相关性(图1b;r=-0.78,p《1e-16)。仅在cfdna中观察到rna表达水平与片段组学特征之间的显著相关性,而在来自匹配白细胞的声学缺失高分子量基因组dna中未观察到(pfer=0.003;ndrr=0.24)。因此,从cfdna片段化图谱推断表达似乎反映了体内dna的功能性核小体缔合,并且不能从单独的一级dna序列预测。此外,tss区与外显子区和内含子区的区别在于具有最高的亚核小体片段表示(p《0.0001,图6c)。[0139]我们接下来比较了几种其他cfdna片段化特征与外周血白细胞的基因表达水平的相关性(图1d)。虽然现有的cfdna图谱研究已经报道了在活跃表达基因的启动子内的核小体耗尽区(ndr)的测序覆盖深度较低,但是pfe和表达之间的相关性比归一化的ndr深度和表达之间的相关性更强(图1b,d)。除了pfe在使用tss区域的ndr深度从cfdna图谱推断表达方面的优势外,pfe还优于其他先前定义的片段组学度量,包括加窗保护得分(wps)、基序多样性得分(mds)和方向感知cfdna片段化(ocf)。[0140]我们接下来检查距tss的距离是否影响cfdna片段组学特征和基因表达之间的相关性。当考虑每个启动子两侧的20kb区域时,我们观察到cfdnapfe和基因表达之间的峰值相关性集中在tss。然而,与ndr相比,pfe与基因表达的相关性具有更广泛的分散性并延伸到tss两侧的区域中(图1e)。我们还研究了测序深度对cfdna片段组学信号和全转录组rna表达之间的相关性的影响。有趣的是,相关性在约500x测序深度附近稳定(图1f)。总之,这些结果表明,cfdna片段化特征与rna表达强烈相关,并且与所研究的其他度量相比,pfe最好地捕获这种相关性。[0141]通过考虑外显子区域内的片段组学图谱(包括与tss相邻的第一个外显子),我们进一步证实了我们对cfdna的wgs图谱的观察结果。具体地,我们通过全外显子测序(wes)分析了5个cfdna样品-2个来自患有小细胞肺癌(sclc)的患者,2个来自去势抗性前列腺癌(crpc),和1个来自健康成人,以靶向显著更高的深度(中位唯一覆盖深度约2000x)。值得注意的是,已知在这些肿瘤类型中差异表达的单个基因显示了它们的tss区域中肿瘤特异性变异的预期模式(方法)。实际上,sclc和cprc特异性模式在相应的血浆cfdna片段化图谱中是明显的,包括ar和ascl1,分别是crpc和sclc的已知基因(图1g)。然而,这些基因水平的片段组学信号在这些患者的高肿瘤负荷(ctdna》10%)的情况下是可辨别的,可能是由于在wes内捕获第一个外显子所固有的tss区域的部分表示。[0142]从cfdna片段化图谱推断基因表达。我们接下来试图从wgs产生的cfdna片段组学特征预测基因表达。当考虑不同的片段组学度量时,我们将pfe和归一化的ndr深度鉴定为在集成广义线性模型中预测rna表达的互补特征(方法)。具体而言,虽然cfdna片段组学特征彼此相关性不大,但pfe显示低表达基因的较好动态范围,而高表达基因似乎被归一化的ndr深度更好地捕获(图6d)。然后,我们通过将其应用于由来自27个健康成人的血浆cfdna的wgs图谱组装的片段组学“元图谱”来验证该集成模型(方法)。当考虑10个基因的组时,我们再次观察到模型预测的表达水平和观察到的pbmc的rna-seq测量值之间的高度相关性(r=0.9,图7a)。与我们先前的观察结果一致(图1f),这些相关性在较低的测序深度下恶化,其方式阻碍了单个基因水平上的分辨率(10个基因仓的r=0.9,3个基因仓为0.79,单个tss为0.64;图7a-b)。[0143]为了验证我们的模型在健康和癌症患者中的表现,我们接下来重新分析了来自40名健康成人和46名早期肺癌患者的全基因组cfdna图谱数据,这些数据先前通过wgs以约20-40x覆盖率进行分析。当考虑40名健康受试者基因组中的平均cfdna元图谱时,我们观察到预测白细胞基因表达水平的类似表面(图7c-d)。当考虑转录组中的10个基因组时,pbmc的模型预测表达与预期rna表达水平之间的pearson相关性保持在约0.85。[0144]但是,从肺癌患者血浆cfdna片段组学图谱推断的基因表达水平低于pbmc转录组(p=0.018;图7e)。假设肺癌中的较低相关性可能由肺癌来源的片段的增加的贡献驱动,我们使用ichorcna的肿瘤分数估计并观察到与推断的白细胞表达水平的显著负相关(r=-0.69,p=0.0005,图7f)。该实验表明,肿瘤来源的cfdna可以显著降低白细胞区室对无细胞核酸库的贡献,并且该贡献可以通过在肿瘤负荷高时从cfdna推断组织特异性基因表达来测量。[0145]通过靶向深度cfdna测序(epic-seq)对表达的表观遗传推断。基于我们的观察结果,即pfe和ndr与较高wgs测序深度下的基因表达具有更好的相关性(图1f),我们接下来提出开发一种方法,该方法允许通过对tss区域进行更深度的分析来预测单个基因水平的表达。为此,我们设计了一种新方法-从无细胞dna测序推断表观遗传(epic-seq)-其将cfdna中tss区域的基于杂交捕获的靶向深度测序与用于预测rna表达的机器学习相结合(图2a)。在epic-seq实验中靶向的tss区域被定制为包括预期在感兴趣的病症中差异表达的基因(例如,癌症相对于正常、组织学亚型a相对于亚型b等)。[0146]我们通过使用cfdna将epic-seq应用于两个癌症分类问题来测试该框架:1)非侵入性地区分最常见实体瘤(非小细胞肺癌[nsclc])的组织学亚型,和2)分辨最常见血液学恶性肿瘤(弥漫性大b细胞淋巴瘤[dlbcl])的分子亚型。对于这些恶性肿瘤中的每一种,我们首先鉴定了在肿瘤组织中高度表达,但在全血中相对低表达的基因(方法)。然后我们通过评估在nsclc腺癌(luad)与鳞状细胞癌(lusc)以及dlbcl生发中心b(gcb)与激活的b细胞(abc)样亚型中差异表达的那些来鉴定亚型特异性基因。具体而言,当通过癌症基因组图谱中的组织学亚型对1,156个nsclc肿瘤分层时(tcga;n=601个luad相对于n=555个lusc,图2b,表2),我们鉴定了69个差异表达基因(deg)。当通过先前出版物中的分子起源细胞(coo)亚型对381个dlbcl肿瘤分层时(n=138个gcb相对于n=243个abc,图2c,表2),我们分别鉴定了44个deg。除了这113个基因用于肺癌和淋巴瘤亚型分类外,我们还包括50个在白细胞亚群中差异表达的基因以及作为额外对照的16个基因(方法)。[0147]对于每个感兴趣的基因,我们设计探针以捕获tss两侧的约2kb区域,然后如上所述,通过将靶向区域深度测序至中值约2,000x独特覆盖深度来分析血浆cfdna。在wgs捕获的cfdna片段组学图谱中,我们观察到超过约500x标称覆盖深度的全转录组相关性的边际增益(图1f)。然而,对于我们的epic-seq实验和我们的适度大小组,我们靶向约2000x独特深度(超过约4倍),原因有三:(1)确保相关平台的饱和,(2)避免epic-seq预测表达水平准确性的任何基因间变异,否则可能归因于由于感兴趣基因的tss区域的非均匀杂交捕获导致的深度变异的假差异,和(3)解决循环中非造血组织的cfdna的较低部分浓度。[0148]使用该工作流程,我们然后分析了307个血浆cfdna样品,其中263个用于在不同应用中测试epic-seq(图8a)。最后一组包括233名成人(图8a-b),包括67名nsclc患者(n=78个样品)、91名dlbcl患者(n=100个样品)和68名其他健康受试者(n=71个样品)。使用定制epic-seq分析管道(方法),我们计算每个感兴趣基因的cfdna片段组学特征,然后估计其预测的rna表达水平(图2a)。为了探索epic-seq推断单个基因表达的能力,我们接下来评估了nkx2-1(ttf1)和ms4a1(cd20)的表达,nkx2-1是在luad中高度表达并可用于组织病理学诊断的基因,ms4a1是在dlbcl中高度表达并可用于淋巴瘤的免疫分型和分类的基因。值得注意的是,nkx2-1的预测表达水平在nsclc-luad患者血浆中显著较高(wilcoxon检验p=4.2e-6;图2d)。相反,ms4a1的预测表达水平在dlbcl患者的血浆中显著较高(wilcoxon检验p=4.2e-14;图2e)。总之,这些结果表明,使用epic-seq通过靶向深度cfdna测序实现了表达的推断,并且该框架可以在单基因分辨率下恢复组织来源的表达的预期差异。[0149]用于肺癌检测的epic-seq。我们接下来评估了epic-seq是否可用于癌症分类问题,从肺癌开始,肺癌是男性和女性癌症相关死亡的主要原因。我们想知道使用epic-seq从cfdna对nsclc病例相对于健康对照的非侵入性分类是否可行。对epic-seq数据进行训练以区分nsclc患者(n=67,ii期(n=7),iii期(n=30)和iv期(n=30))与非癌症对照(n=71)的分类器揭示了当考虑来自117个基因的141个tss位点时的稳健表现(epic-肺auc=0.91,95%ci:0.86-0.96,基于留一法交叉验证)(图3a;方法)。[0150]我们的epic-seq肺癌分类器捕获的cfdna中的表观遗传信号与总代谢肿瘤体积(mtv)显著相关,如通过联合正电子发射断层扫描和计算机断层扫描研究(pet/ct;ρ=0.67;p=0.04;图9a)中的18氟脱氧葡萄糖(fdg)摄取测量的,这与肿瘤负担较大的患者中较高的ctdna浓度一致。我们还比较了cfdna中来自epic-seq的肺癌表观遗传信号与通过capp-seq单独测量的ctdna中相应肺肿瘤来源的突变信号。此外,cfdna中的epic-seq肺信号似乎捕获肿瘤负荷,因为我们在相同样品上观察到与通过capp-seq测量的肿瘤来源的体细胞突变的平均等位基因分数(af)显著相关(ρ=0.5,p=3e-5;图9b)。虽然我们分析的大多数患者患有晚期nsclc,但我们的分类器显示,iii-iv期病例得分高于ii期病例的统计趋势(p=0.08;图3b)。我们还评估了ctdna浓度对于分类器表现的重要性。当通过使用突变(capp-seq)测定的ctdna浓度对病例进行分箱时,epic-seq肺分类器在等位基因水平低于1%时以95%特异性实现约34%敏感度,并且在ctdna浓度超过5%平均af时实现约86%敏感度(图3c)。这些结果共同表明,由epic-seq推断肺肿瘤rna表达可以区分肺癌病例和非癌个体,并与肿瘤负荷相关。[0151]nsclc亚型的非侵入性分类。腺癌(luad)和鳞状细胞癌(lusc)代表nsclc的两种最常见的组织学亚型,区分它们是确定患者最佳治疗的重要步骤。目前,用于这种分类的形态学和免疫表型标准是使用组织样品确定的,但是侵入性评估可以充满诊断挑战和程序风险。重要的是,据我们所知,目前可用的基于突变的液体活检方法不能可靠地区分luad和lusc。[0152]因此,我们想知道是否可以使用epic-seq非侵入性地进行这种分类。在67名nsclc患者的队列中,在epic-seq数据上训练用于区分组织学亚型的回归分类器(luadn=36;luscn=31)并在交叉验证研究中表明了稳健表现(auc=0.90,95%ci:0.83-0.97;图3d;方法)。具有最大系数并因此对分类具有最强影响的基因包括luad(slc34a2、nkx2-1[ttf1])和lusc(sox2)的典型标记物,从而证实分类器的生物学用途(方法,图3e)。[0153]我们评估了作为通过capp-seq(方法)测定的ctdna水平函数的组织学分类器的准确性,以及与ctdna浓度相关的预期观察性能(图3f)。具体而言,平均af高于5%(87%)时准确度最高,在1-5%之间(81%)和低于1%(73%)时略有下降(图3f)。这些结果表明,epic-seq对肺癌表达差异的推断允许nsclc的非侵入性组织学分类,并且该框架在ctdna浓度范围内显得稳健。[0154]预测对pd-(l)1免疫检查点抑制的反应。对于晚期nsclc患者,使用单克隆抗体对程序性死亡1和程序性死亡配体1(pd-[l]1)信号传导的治疗性阻断已显示出显著的前景。将pd-(l)1阻断与细胞毒性疗法或与其他免疫检查点抑制(ici)策略组合的试验表明,在较高毒性的风险下反应率提高。由于仅少数nsclc患者从ici获得持久的益处,因此,对于可以在ici治疗之前或早期准确鉴定这些患者的可靠生物标记物的需求严重没有得到满足。[0155]因此,我们进行了探索性分析以测试追踪片段组学特征作为治疗反应监测信息的生物合理性。具体而言,我们测试了使用epic-seq对pd-(l)1免疫检查点抑制剂的反应的早期非侵入性评估是否可行。为此,我们使用epic-seq分析了11名使用pd-(l)1阻断治疗的nsclc患者的22个纵向血样。临在pd-(l)1治疗前和治疗开始的前四周内收集样品(图3g)。我们从epic-seq预测的基因表达得到“肺动力学指数”,作为ici治疗益处的函数(方法)。该指数表明了与使用capp-seq对相同样品进行的基于突变的反应评估具有很强的相关性(r=0.77,p=0.006,图3h)。epic-seq肺动力学指数还能够区分获得持久临床益处(dcb;定义为在治疗开始后至少6个月没有进展)的患者与不获得持久临床益处(ndb)的那些,auc为0.93,95%ci:0.78-1(图3i)。值得注意的是,在该小队列的限制内,我们还观察到epic-seq分类器得分与无进展存活率的显著和连续关联(waldp=0.046)。[0156]使用epic-seq定量非侵入性dlbcl。弥漫性大b细胞淋巴瘤(dlbcl)是最常见的非霍奇金淋巴瘤(nhl),并表现出显著的临床和生物学异质性。虽然这种异质性的各方面可以通过临床风险指数如国际预后指数、基因表达图谱或原发性肿瘤活检的基因分型来捕获,但是仍然不清楚使用侵入性较小的方法进行这种分层是否可行。[0157]因此,我们使用epic-seq分析了dlbcl患者的治疗前血样,并测试了cfdna中的表观遗传信号是否允许非侵入检测dlbcl病例,从而将癌症患者与健康对照区分开。另外,对epic-seq数据训练以区分dlbcl患者(n=91)与非癌症对照(n=71)的回归分类器显示稳健性能(epic-dlbclauc=0.92,95%ci0.88-0.97,来自留一法交叉验证;图4a;方法)。我们观察到该表观遗传分类器的得分与修改的国际预后指数(r-ipi;jonckheere趋势检验p=0.004;图4b)之间的显著分级关系。单独地,对于具有可用pet/ct扫描的患者,我们还观察到表观遗传分类器得分在区分具有通过总mtv测量的高与低肿瘤负荷的患者中的显著趋势(wilcoxonp=0.015;图10a)。[0158]为了进一步评估epic-seq得分如何反映cfdna中的肿瘤负荷,我们将它们与先前通过capp-seq在相同血样上测量的突变的平均等位基因分数(af)进行比较。值得注意的是,通过epic-seq测定的dlbcl表观遗传得分与通过capp-seq测定的平均突变af强烈相关(ρ=0.67,p《2e-16;图10b)。我们还评估了分类器在不同ctdna水平下的性能。具体而言,当试图将淋巴瘤病例与作为对照的非淋巴瘤受试者区分开并考虑由capp-seq确定的各种平均af阈值时,我们在95%特异性下计算了dlbcl检测的敏感度。虽然epic-seq敏感性与平均af密切相关,并且在ctdna水平高于1%时表现出最稳健的性能,但是我们观察到对治疗前平均af低于1%的dlbcl病例的约40%检测(图4c)。[0159]为了评估dlbcl治疗期间表观遗传信号和体细胞突变之间的关系及其随时间的稳定性,我们接下来使用epic-seq和capp-seq在有治疗意图的诱导治疗后不久对2名患者的系列血样进行了分析(n=12;图4d-e)。此外,我们观察到dlbclepic-seq得分和ctdna浓度之间在两个患者中随时间的强烈且显著的相关性(ρ=0.79,p=0.004,图10c),尽管施用联合化学免疫治疗以及白细胞血细胞计数发生显著伴随变化。总之,这些结果说明通过epic-seq推断表达可以非侵入性地检测组织来源的dlbcl信号,并如实反映dlbcl治疗前后的疾病负担。[0160]dlbcl起源细胞分类。可将大多数dlbcl肿瘤分为两种转录上不同的分子亚型,每种源自特定的b细胞分化状态(起源细胞[coo]):生发中心b细胞样(gcb)和激活的b细胞样(abc)。这些亚型具有预后性,在患有gcb肿瘤的患者中观察到显著更好的结果,并且还可以预测对新出现的靶向疗法的敏感性。虽然dlbcl的这种分类是最强的预后因素之一和未来个性化疗法的潜在生物标记物,但准确的分型在临床环境中仍然具有挑战性。[0161]因此,我们使用epic-seq分析从治疗前血浆得到非侵入性coo分类器。通过考虑gcb或非gcb(abc)dlbcl中差异表达的基因并由我们的小组靶向,我们构建了类似于上述的概率coo分类器(方法)。当我们在90名dlbcl患者的队列中以该分类器的性能为基准时,我们观察到表观遗传得分与先前描述的基于突变的gcb得分显著相关(ρ=0.75,p=1e-5,图5a)。当比较通过临床上更常用的免疫组织化学hans分类算法分类的患者时,我们观察到gcb病例的coo得分显著高于非gcb(n=66,wilcoxp=0.001,图5b)。使用单变量cox回归比较表观遗传和基于突变的coo得分的预期预后能力,我们观察到epic-seqgcb得分与一线治疗病例中的有利结果之间的更强关联(n=70,epic-seq:hr=0.13,p=0.033相对于capp-seq:hr=0.95,p=0.62)。实际上,当通过kaplan-meier分析中的中值gcb得分分层时,具有较高gcb得分的患者具有显著较好的结果(对数秩p=0.013,图5c)。在通过免疫组织化学和dna基因分型分析的患者中,hans算法未能对患者临床结果进行分层,表明了我们方法分类更准确(图10d)。总之,这些结果表明epic-seq可用于对dlbcl起源细胞的非侵入性分类,并且可以比遗传coo分类器和hans算法更好地对患者进行分层。[0162]使用epic-seq测定单个基因的预后能力。多种肿瘤类型的表达谱研究已经确定了单个基因用于风险分层和治疗管理的预后能力。在dlbcl中,先前的研究已经证实了若干关键基因在相对大的患者群体中的预后效用,所述患者群体用使用r-chop的现代联合免疫化疗均质治疗。这些研究依赖于肿瘤活检样品的表达谱,这可能受到rna样品质量和数量限制的阻碍。[0163]因此,我们希望评估epic-seq在dlbcl中非侵入性测量与预后相关的基因表达的效用。使用单变量cox比例风险回归模型,我们使用来自69名患者的治疗前血浆测试了单个基因的预后价值,并使用z得分测量这些关联的相对强度。我们首先通过检查我们的epic-seq结果与3项近期依赖于手术dlbcl组织样品的肿瘤表达谱研究中描述的结果之间的相关性来评估血浆中我们的结果与原发性肿瘤样品的预后一致性。当比较以此方式分析的基因的预后价值时,我们观察到来自我们使用血浆cfdna的研究的z得分与使用肿瘤rna的先前研究的显著相关性(p=0.026;图10e)。[0164]在我们的队列中,只有lmo2在多假设检验校正后与无进展存活率显著相关(标称p=7.5e-6,校正p=0.0055;图5d)。这与dlbcl中其稳健预后效应的先前数据一致。lmo2是由六个外显子组成的癌基因,其中最靠近3’末端的3个编码蛋白质。三个非编码5'lmo2外显子的包含由替代的近侧、中间和远侧启动子控制。当使用epic-seq比较来自这些替代启动子中的每一个的预测表达在dlbcl中的预后强度时,仅远端tss(grch37/hg19-chr11:33,913,836)显示与结果的显著关联(图5e)。在针对ipi和ctdna水平调整后,来自lmo2的远端tss的较高预测表达在多变量cox回归中仍然是对更有利结果的预后(图5e)。该结果与已知的远端lmo2启动子在驱动人肿瘤中lmo2表达中的重要性一致,如在人基因治疗试验中观察到的逆转录病毒插入诱变事件和介导淋巴瘤发生的染色体重排所证明的。总之,这些观察表明epic-seq可用于非侵入性地测量单个基因的表达和预后价值,以及用于分辨它们的单个tss区域。[0165]材料和方法[0166]人类受试者和队列。研究概述。本研究中分析的所有样品均在知情同意的情况下从在机构审查委员会批准的符合各自中心伦理规范的方案中招募的受试者收集,如下详述。建立了用于epic-seq的片段组学特征,并通过全基因组测序(wgs)和全外显子组测序(wes)分析cfdna来进行初步测试,如表1所示。这些wgs和wescfdna分析数据来自125名受试者,这些受试者是因本研究产生的(n=30),或来自公开可用的数据集(n=95)。为了初始模型开发和cfdna片段组学特征选择,我们通过深度wgs在2个时间点(治疗前和复发)对来自不明原发性癌(cup)患者的cfdna,来自一名晚期sclc(深度wes)患者的cfdna进行分析,并分析了9例crpc病例(wes)。为了使用wgscfdna片段组学进行初步验证分析,我们重新分析了来自67个健康对照和47个先前描述15的癌症患者的样品。在通过wgs/wes鉴定和初步验证上述125名受试者中用于预测基因表达的关键cfdna片段组学信号信息后,将epic-seq应用于来自158名癌症患者和68名健康成人的249个血液样品,如下详述。为了选择epic-seq捕获组的基因,我们分析了癌症基因组图谱中的1156个肺癌和来自schmitz等人的381个淋巴瘤的公开可用的基因表达数据集,如下所述。[0167]健康受试者和非癌症对照:为了鉴定和验证能告知基因表达预测的cfdna片段组学特征,在27位健康受试者中进行wgs。在不同的预定覆盖深度(~1-5x,n=24;~18-25x,n=3)描绘受试者图谱,从而允许构建用于表达推断的元图谱,如下所述(参见“基因表达推断模型”)。我们使用epic-seq分别对来自68位未患癌症的受试者的71个外周血样品的图谱进行描绘。在这些受试者中,由于有重度吸烟史(≥,30包年)和年龄(55-80岁),有20位(29%)使用低剂量ct(ldct)进行肺癌筛查。[0168]epic-seq癌症队列[0169]肺癌队列:epic-seq应用于67位nsclc确诊患者的78份血液样品。在这些患者中,31位(46%)患者组织学诊断为lusc,而36位(54%)患者组织学诊断为luad。在斯坦福大学、得克萨斯州大学md安德森癌症中心或纪念斯隆-凯特琳癌症中心收集样品,患者特征如图8b所示。患有晚期nsclc的患者子集(n=11)用基于pd-(l)1阻断的免疫检查点抑制进行治疗,并且具有可获得的系列治疗前和治疗期间样品。这些患者患有iv期疾病并且用基于pd-(l)1阻断的ici进行治疗。[0170]dlbcl队列:epic-seq还应用于来自91位被诊断为大b细胞淋巴瘤的患者的100份样品。样品收集于:美国加利福尼亚州斯坦福癌症中心;美国得克萨斯州md安德森癌症中心;法国第戎;意大利诺瓦拉;以及在iii期多中心petal试验中,基线特征列于图8b中。[0171]原发性未知癌(cup)患者:为了以高分辨率评估片段组学特征与基因表达之间的关系,我们比较了具有极低肿瘤负荷的患者的深度全基因组测序数据和rna测序数据。使用肿瘤先验(tumor-informed)血浆变异检测策略来估计肿瘤分数。首先,制备患者的肿瘤种系dna,用于使用illuminanextera快速捕获外显子组试剂盒进行外显子组捕获,并使用配对末端测序和75-bp读长(readlength)在illuminanextseq500机器上测序。使用mutect进行单核苷酸变异(snv)调用,并由annovar注释。使用在肿瘤中检测到的重叠snv的120-bpidt寡核苷酸来产生个性化靶向测序组套(panel),并将其应用于肿瘤和种系样品。选择用于监测的变异集由36个snv组成,它们都通过肿瘤/种系质量控制过滤器,并且在肿瘤中以至少10%的等位基因频率存在。在illuminanovaseq机器上对患者的血浆样品进行测序,获得4000x的去重复深度。本研究中使用的时间点具有0.056%的监测平均等位基因频率,其显著低于250x覆盖的疾病检测下限。[0172]临床变量。组织病理学。本研究中描述的每种肿瘤类型(nsclc、dlbcl)的组织学亚型是根据临床指南使用显微术和免疫组织化学建立的,并且用作由受过训练的病理学家评估分类性能的基础事实。根据who指南,基于hans分类器评估dlbcl的coo亚型。对于在先前的rna-seq研究中描述的nsclc和dlbcl亚型,我们依赖于来自tcga(对于nsclc的luad与lusc亚型)或来自schmitz等人的亚型标记(对于dlbcl的gcb与abc亚型)。[0173]m代谢肿瘤体积(mtv)测量。通过分别使用petedge和dlbcl,经由mim,使用如先前针对nsclc所述的半自动化软件工具,由从fdgpet/ct扫描测量治疗前肿瘤mtv。通过软件自动识别区域体积,并通过专家的视觉评估确认,以确认仅包括病理病变。[0174]临床结果。由治疗开始的时间计算无事件生存率(efs)和总生存率(os)。os事件为任何原因导致的死亡;efs事件为进展或复发、计划外再治疗淋巴瘤和任何原因导致的死亡。接受pd(l)1定向治疗的nsclc患者在6个月内分别被标记为“经历进展或死亡”和“持久临床受益”的ndb或dcb。[0175]样本收集和分子图谱分析。血浆收集和处理。将外周血样品收集在k2edta或streck细胞游离dnabct管中,并根据当地标准进行处理以在冷冻前分离血浆。离心后,将血浆储存在-80℃直至cfdna分离。使用qiaamp循环核酸试剂盒(qiagen),根据制造商的说明,从2至16ml血浆中提取细胞游离dna。分离后,使用qubitdsdna高灵敏度试剂盒(thermofisherscientific)和高灵敏度ngs片段分析仪(agilent)定量cfdna。[0176]cfdna测序文库制备。将32ng的中值输入文库制备中。调整dna输入以控制高分子量dna污染。按照kapahyperprep试剂盒制造商的说明,进行含有分子条形码的末端修复、a-加尾和定制衔接子连接,其中连接如前所述在4℃下进行过夜。如下所述,对鸟枪法cfdna文库进行全基因组测序(wgs)和/或进行目的区域的杂交捕获。[0177]杂交捕获和测序。外显子组捕获:对于完整的外体测序(wes),用xgenexomeresearchpanelv2(idt),按照制造商的说明,稍作修改,捕获鸟枪法基因组dna文库。用500ng的每个文库在单倍捕获中于65℃进行杂交16小时。链霉亲和素珠洗涤和pcr扩增后,根据制造商的说明,使用qiaquickpcr纯化试剂盒纯化捕获后的pcr片段。然后使用1.5xampurexp珠清洗进一步纯化洗脱物。[0178]定制捕获组套:我们使用capp-seq通过包括单核苷酸突变的体细胞变异的基因分型来建立ctdna水平。我们使用了dlbcl或nsclc的实体特异性capp-seq捕获组套(seqcapezchoice,rochenimblegen)或cup的个性化capp-seq选择器(idt),如前所述。类似地,对于epic-seq,我们使用seqcapezchoice平台(rochenimblegen)靶向目的基因的tss区域,如下所述。根据制造商的方案进行wes、capp-seq和epic-seq的富集。然后合并杂交捕获物,并在illuminahiseq4000仪器上对多重样品进行测序作为2×150bp读数。[0179]rna-seq。根据制造商的说明,使用illuminatruseqrnaexome试剂盒从20ng输入rna开始,制备rna-seq文库。当使用外周血作为白细胞rna的来源时,我们使用去除珠蛋白的去血浆全血(pdwb)或不去除珠蛋白的富集pbmc。简言之,将总rna片段化,并根据制造商的方案创建双链cdna文库。然后使用生物素化的寡核苷酸诱饵通过外显子捕获富集编码转录组的rna文库。然后汇集杂交捕获物,并将样品在illuminahiseq4000上测序为2×150bp泳道,每泳道16-20个多路测序(multiplex)样品,每例产生约2千万配对末端读数。多路分离(demultiplex)之后,将数据比对并使用salmon至gencode27版转录物模型总结表达水平。我们分别研究了肿瘤rna-seq数据以鉴定用于epic-seq组套设计的差异表达的目的基因,如下文所详细描述的。[0180]数据分析方法。tss位点和样品的映射、去重复和质量控制。使用定制管线对fastq文件进行多路分离,其中只有在纠错后8-bp样品条形码和6-bpuid匹配预期序列时才考虑读对。多路分离之后,去除条形码,并使用fastp从读段的3’端修剪接头通读以保留短片段。使用bwa将片段与人基因组(hg19)比对;重要的是,我们禁用了bwaaln中的自动分布推断,以允许包含更短和更长的cfdna片段,否则这些片段将被异常地标记为不正确地配对。我们使用定制的条形码方法去除了pcr复本,该方法将内源和外源独特分子标识符(umid)、包括cfdna片段起始和终止位置、以及连接的接头内的预先指定的umid组合在一起。为了允许用于比较的覆盖均匀性,我们使用“samtoolsview-s”将数据下采样到2000x深度。由于计算机(in-silico)模拟显示需要》500x测序深度以实现熵和表达之间的合理相关性,我们将不满足该深度阈值(中值深度)的任何样品视为质量控制(qc)失败。cfdna片段长度密度模式低于140或高于185的任何样品也被除去,因为预期的片段长度密度模式是167(对应于染色体dna长度)。这两个标准一起除去了21个不符合qc的样品。为了识别和检查由我们的epic-seq组套描绘的236个tss区域中的噪声位点,我们描绘了23个对照(表2),允许我们识别和去除具有可再现的低tss覆盖的刻板区域(即,cpm小于选择器中tss上均匀分布覆盖的三分之一的任何位点,即,在多于75%的对照中)。这删除了foxo1和sfta2中的两个tss位点,因为不符合qc要求。[0181]为了保证进入分析的片段的足够质量,我们在wgs和epic-seq数据中分别需要》30或》10的映射质量(mapq,k)(使用“samtoolsview-qk-f3084”)。更宽松的epic-seqmapq阈值通过在epic-seq选择器设计期间已经施加在所选择的tss区域上的更严格的可映射性和唯一性要求来限定。我们还将分析限制为具有以下bamlag集的读段:81、93、97、99、145、147、161和163。为确保去除非唯一片段,对具有重复名称的读段进行审查。[0182]片段组学特征提取和归纳。我们考虑了tss区域的5个cfdna片段组学特征,然后将这些特征中的每一个与基因表达进行比较,包括窗口保护分数(wps)、方向感知cfdna片段化(ocf)、基序多样性分数(mds)、核小体缺失区域分数(ndr)和启动子片段化熵(pfe,此处引入)。mds、ndr、ocf和wps各自按照最初描述的研究的惯例进行计算,并进行了轻微修改,如下详述。[0183]基序多样性分数(mds)。我们对各个cfdna片段进行了末端基序序列分析,以评估每个读对的读段的前几个位置中核苷酸的分布,如前所述。这通过计算提取每个序列读段的基因组参考序列的前4个5’核苷酸来进行,产生4聚体序列基序。然后当考虑与每个tss两侧的2kb窗口重叠的片段时,将mds计算为跨每个tss位点的256个基序(4聚体)的分布的香农指数。值得注意的是,不使用前4个3’核苷酸,因为它们可能在文库制备期间通过末端修复而改变,并且可能不反映天然基因组序列。[0184]核小体缺失区域分数(ndr)。为了防止基因组中深度的变化,包括gc含量的变化或体细胞拷贝数的变化,在每个tss侧翼的每个2千碱基窗口(-1000至 1000bp)中以每百万计数(cpm)空间对深度进行归一化。我们将这种归一化的量度表示为每个tss的核小体缺失区域分数ndr。[0185]启动子片段化熵(pfe)[0186]使用香农熵来总结每个tss位点附近的cfdna片段大小值的多样性(-1kbps(上游)至 1kbps(下游))。我们定义了201个大小的bin[从b1=100bps到b201=300bps],并通过最大似然估计密度,即,其中分别用长度ni表示片段的数量n和bitss处的片段总数。将香农熵计算为然后如下归一化。为了说明样品间测序深度的变化以及影响可能混淆pfe的总体cfdna片段长度分布的其他隐藏因素,我们通过dirichlet多项式模型使用贝叶斯方法定义了相对熵。在该模型中,假定给定cfdna样品中的片段大小分布遵循多项式分布(p)其概率质量函数本身由dirichlet分布p~dirichlet控制,其中向量α表示dirichlet分布的参数向量。在此,我们首先使用一组基因来创建背景片段长度密度作为α。对于背景分布,我们集中在两个侧翼区,(a)-1kbps(上游)到-750bps(上游)以及(b)从 750bps(下游)到 1kbps(下游)。落在那些区域内的片段用于背景片段长度分布。然后随机选择5个背景基因子集并计算它们的香农熵,用e1,e2,e3,e4,和e5表示。对于给定的tss,我们然后计算dirichlet分布的后验(posterior),即,然后将给定tss的香农熵与5个随机产生的熵进行比较,以测量感兴趣的tss的片段长度值的多样性过量。形式上,我们将pfe定义为pfe(tss):=ek[∑i:1-5p*(etss>(1 k)×ei)]其中ek[.]表示关于过量参数的预期值k,并且p*是关于dirichlet分布的概率dir(α*).。此处,我们使用γ分布用于k~γ(s=0.5,r=1,其中γ是具有形状s和速率r的γ分布。[0187]通过wes图谱进行cfdna片段组学分析。全外显子组pfe分析。对于整个外显子组分析(图1g中),我们在将任何给定基因转化为z-分数后,使用34cfdnawes图谱(各具有200-400x深度)的队列,在任何给定基因处使用原始香农熵(如“使用香农熵的片段长度多样性计算”中所述)。为了说明队列中深度的差异以进行归一化,我们考虑了5个样品的间位图谱,以实现相当的深度,如同最初用于在依赖wgs(~2000x)时将pfe与基因表达水平进行关联的那些。[0188]小细胞肺癌基因标签集。使用81个sclc原发性肿瘤的rna-seq数据产生sclc基因标签。通过将这些肿瘤的rna-seq数据与我们的参考pbmcrna表达水平进行比较,我们进行了差异基因表达分析,并鉴定了sclc表达的前1500位基因与pbmc表达的后5000位基因重叠(“sclc高”)。类似地,对于“sclc低”基因,我们选择在pbmc表达的前1500个和sclc表达的后5000个中的基因。我们进一步将该基因集限制为其tss覆盖在我们的整个外显子组组套中的那些,以确保足够的测序覆盖用于分析。[0189]用于预测来自tsscfdna片段组学特征的rna输出的基因表达模型。为了从转录组基因tss区的cfdna片段化图谱推断rna表达水平,我们使用两个特征pfe和ndr构建了预测模型。值得注意的是,在所考虑的5个片段组学特征中,这些指数显示出最高的个体相关性以及互补性。为了训练,我们采用将一个cfdna样品通过wgs测序到高覆盖深度。我们对5位健康受试者的pbmc进行了rna-seq,并将这些个体中的3位的平均值用作“参考表达载体”。接下来,为了在核心启动子处获得更高的清晰度,基于它们在我们的参考rna-seq载体中的表达,我们以每10个基因进行分组。在除去用作计算pfe的背景的基因后,总共保留了1,748组(每组10个基因)。然后,我们汇集了每组中基因的延伸核心启动子(转录起始位点周围的-1kb/ 1kb)处的所有片段,并提取了两个特征:ndr和pfe。然后,我们在背景基因上将两个特征归一化95%分位数,其中对于pfe,归一化因子是和其中q(.,k)表示第k分位数。通过自举重采样,我们然后构建了600个集成模型:200个单变量pfe独立模型mpfe,1,mpfe,2,...,mpfe,200,,200个单变量ndr独立模型mndr,1,mndr,2,...,mndr,200和200个ndr-pfe集成模型mint,1,mint,2,...,mint,200。[0190]为了将最初从wgs导出的该表达预测模型转移至目标tss空间(epic-seq),我们通过测量两位被保留的健康受试者的均方根误差(rmse)来评估上述600个模型中的每一个。对于这两位健康受试者中的每一位,我们将epic-seq的cfdna谱与来自相同血样的rna-seq的相应pbmc转录组谱进行比较,并计算600个集成模型中每一个的rmse。然后将每个模型的权重按比例缩放该模型rmse倒数,然后将最终得分计算为600个模型的线性和,如上所述进行加权。[0191]epic-seq组套设计。癌症类型特异性基因的鉴定。我们使用gdcapi以rna-seqfpkm-uq的形式下载了所有个体的tcga和dlbcl基因表达数据。从具有超过一种类型的恶性肿瘤病史的个体中取出样品后,我们将剩余的样品分成两个单独的队列用于训练和验证(分别为每种癌症类型的70%和30%)。在每种癌症类型的训练集中,计算中值基因表达(fpkm-uq),并将上第15分位数的蛋白质编码基因视为高表达基因。为了消除血细胞变异中cfdna的潜在混杂效应,当考虑来自gtex的全血转录组图谱时,我们排除了外周血中表达的前第5分位数内的基因。[0192]用于epic-seq靶向测序组套设计的基因选择。我们考虑了nsclc和dlbcl,已知的分子亚型表现出不同的基因表达图谱。包括luad、lusc和dlbcl的癌症特异性基因。为了发现nsclc中的亚型特异性基因,我们使用rbioconductor中的deseq2包进行差异表达分析,以从tcga中区分luad和lusc肿瘤转录组。对于淋巴瘤分析,使用根据rna-seq基因表达数据在abc和gcb亚型之间差异表达的基因列表。除了这些dlbcl和nsclc特异性基因之外,我们还包括来自lm22基因集的50个基因,其捕获外周血白细胞计数中的变异。这些和其他对照基因一起构成总共179个独特基因,其中每个基因为epic-seq贡献了一个或多个tss区域,总计236个靶向tss区域。[0193]epic-seq分类分析和机器学习。区分肺癌(epic-肺分类器)。训练epic-肺分类器以区分肺癌和非癌症受试者。用于免疫细胞类型和nsclc组织学分类的所有tss用于该分类器。对于具有多个tss区域的基因,在交叉验证的每次迭代中,我们首先组合具有超过0.95的基因内相关性的tss区域并获取平均值。对于相关性小于0.95的那些,我们保留了单独的tss区域作为独立的报告基因。这导致模型中的139个特征和143个样品(67个肺癌病例和71个对照)。然后,我们训练了l1-l2-正则化的逻辑回归模型(“弹性网”α=0.9)并通过交叉验证获得最优值λ。通过留一批次(lobo)模型评估整个模型。在此,每个批次包含至少一个样品,并且代表在一个ngs测序通道中一起捕获和/或测序的一组样品。[0194]nsclc的亚分类(epic-nsclc-亚型)。设计nsclc组织学亚型分类器以区分非小细胞肺癌的两个主要亚型,即肺腺癌luad)和肺鳞状细胞癌(lusc)。类似于“epic-肺分类器”中的模型,分类模型采用α=0.9的弹性网,其中对应于一个基因的多个tss位点被合并。通过留一法(loo)分析评估该分类器的性能。分类器使用80个特征和67个样品(36个luad和31个lusc)进行训练。为了评估性能,计算了具有相等权重的分类准确度。[0195]分类器系数的生物似真性。我们评估了使用epic-seq从血浆cfdna获得的nsclc组织学分类器中的模型系数的显著性以及它们与使用rna-seq从肿瘤转录组获得的先前设计的一致性。具体而言,我们比较了来自cfdna图谱的弹性网模型的非零系数,然后对luad基因系数与lusc基因系数进行t-检验。[0196]ici治疗患者的epic-seq肺动力学分数。为了预测免疫检查点抑制剂的益处,我们首先在发现的治疗前队列(非ici;肺癌对比正常)中鉴定了差异表达的tss。然后我们用单侧t检验从具有bonferroni校正的p《0.25的基因指定以下tss区域:(folr1tss#3、itga3tss#1、lrrc31tss#1、macc1tss#1、nkx2-1tss#2、scnn1atss#2、sftpbtss#1、wfdc2tss#1、cldn1tss#1、fscn1tss#1、gpc1tss#1、krt17tss#1、pfn2tss#1、pkp1tss#1、s100a2tss#1、sfntss#1、sox2tss#2、tp63tss#2)。分别通过时间点和时间点表示t0这些基因的表达水平t1,我们定义了(倍数变化)统计,其中用于表示对载体元件进行平均。然后,对于每个患者,通过从epic-seq选择器中s随机选择k位点,我们根据经验导出统计的零分布。然后计算经验左侧p值以测量对治疗的反应。然后将epic-seq动力学得分定义为这些经验p值的对数(以10为底)。[0197]区分淋巴瘤(epic-dlbcl分类器)。训练该分类器以使用弹性网(elastic-net)区分dlbcl和非癌症受试者,其中正则化参数如在“epic-肺分类器”中所设置的。用于lobo交叉验证的数据集包括129个特征和167个样品(91个dlbcl病例和71个对照)。[0198]dlbcl来源细胞(epic-dlbcl-coo)的亚分类。对于dlbclcoo的分类,我们如下定义gcb分数:(1)在留一法(leave-one-out)交叉验证框架内,我们首先标准化每个基因表达(即,z分数)并将z分数转换为概率,然后(2)将coo分数定义为将每个亚型的基因集定义为最初在用于dlbcl分类的epic-seq选择器设计中选择的。为了评价性能,我们测量了epic-seq分数与(1)从capp-seq62获得的遗传coo分类分数、以及(2)来自hans免疫组织化学算法的标记之间的一致性。[0199]统计和患者生存分析通过皮尔逊相关性(r)或spearman相关性(ρ)(取决于数据类型)测量已知变量与预测变量之间的关联。当数据呈正态分布时,酌情使用不等方差t检验或配对t检验确定组比较;否则,应用双侧wilcoxon检验。为了测试连续变量相对于分类组的趋势,使用在clinfunr包中实施的jonckheere趋势测试。使用bonferroni方法进行多重假设检验的校正。双侧p《0.05的结果被认为是显著的。使用r4.0.1进行统计分析。置信区间(ci)通过用替换重新采样(即自举)来计算。使用r包proc进行接受者操作特征(roc)曲线分析。使用r包存活率进行存活率分析。在二分法时,使用kaplan-meier估计值绘制存活曲线,并通过对数秩检验评估统计学显著性。否则,将cox比例-危害模型拟合至数据以确定每个协变量的显著性。[0200]表1[0201]将细胞游离dna样品的全基因组(n=114)和全外显子组(n=11)测序用于发现pfe、训练基因表达推断模型及其验证。在本研究(n=28)中分析或从zviran等人处下载wgs数据。(ega登录号egas00001004406)。在本研究(n=3)中分析或从adalsteinsson等人处下载wes数据(dbgap登录号phs001417.v1.p1)。使用epic-seq对来自226位受试者的细胞游离dna进行分析。[0202][0203]表2[0204]epic-seq选择器中的tss。每行对应于epic-seq测序组套(“选择器”)中的一个tss。[0205][0206][0207][0208][0209][0210][0211][0212]carcinoma.procnatlacadsciusa115,e10925-e10933(2018).[0234]20.sun,k.etal.orientation-awareplasmacell-freednafragmentationanalysisinopenchromatinregionsinformstissueoforigin.genomeres29,418-427(2019).[0235]21.sadeh,r.etal.chip-seqofplasmacell-freenucleosomesidentifiesgeneexpressionprogramsofthecellsoforigin.natbiotechnol(2021).[0236]22.lui,y.y.etal.predominanthematopoieticoriginofcell-freednainplasmaandserumaftersex-mismatchedbonemarrowtransplantation.clinchem48,421-427(2002).[0237]23.fleischhacker,m.&schmidt,b.circulatingnucleicacids(cnas)andcancer‑‑asurvey.biochimbiophysacta1775,181-232(2007).[0238]24.ramachandran,s.,ahmad,k.&henikoff,s.transcriptionandremodelingproduceasymmetricallyunwrappednucleosomalintermediates.molcell68,1038-1053e1034(2017).[0239]25.snyder,m.w.,kircher,m.,hill,a.j.,daza,r.m.&shendure,j.cell-freednacomprisesaninvivonucleosomefootprintthatinformsitstissues-of-origin.cell164,57-68(2016).[0240]26.ivanov,m.,baranova,a.,butler,t.,spellman,p.&mileyko,v.non-randomfragmentationpatternsincirculatingcell-freednareflectepigeneticregulation.bmcgenomics16suppl13,s1(2015).[0241]27.ulz,p.etal.inferringexpressedgenesbywhole-genomesequencingofplasmadna.natgenet48,1273-1278(2016).[0242]28.wu,j.etal.decodinggeneticandepigeneticinformationembeddedincellfreednawithadaptedsalp-seq.intjcancer145,2395-2406(2019).[0243]29.jiang,p.etal.lengtheningandshorteningofplasmadnainhepatocellularcarcinomapatients.procnatlacadsciusa112,e1317-1325(2015).[0244]30.underhill,h.r.etal.fragmentlengthofcirculatingtumordna.plosgenet12,e1006162(2016).[0245]31.mouliere,f.etal.enhanceddetectionofcirculatingtumordnabyfragmentsizeanalysis.scitranslmed10(2018).[0246]32.ulz,p.etal.inferenceoftranscriptionfactorbindingfromcell-freednaenablestumorsubtypepredictionandearlydetection.natcommun10,4666(2019).[0247]33.moss,j.etal.comprehensivehumancell-typemethylationatlasrevealsoriginsofcirculatingcell-freednainhealthanddisease.natcommun9,5068(2018).[0248]34.weintraub,h.&groudine,m.chromosomalsubunitsinactivegeneshaveanalteredconformation.science193,848-856(1976).distinctsubgroupofgerminalcenterb-cell-likediffuselargeb-celllymphoma.jclinoncol37,190-201(2019).[0295]81.gentles,a.j.&alizadeh,a.a.afewgoodgenes:simple,biologicallymotivatedsignaturesforcancerprognosis.cellcycle10,3615-3616(2011).[0296]82.chambers,j.&rabbitts,t.h.lmo2at25years:aparadigmofchromosomaltranslocationproteins.openbiol5,150062(2015).[0297]83.royer-pokora,b.etal.thettg-2/rbtn2tcelloncogeneencodestwoalternativetranscriptsfromtwopromoters:thedistalpromoterisremovedbymost11p13translocationsinacutetcellleukaemia's(t-all).oncogene10,1353-1360(1995).[0298]84.oram,s.h.etal.apreviouslyunrecognizedpromoteroflmo2formspartofatranscriptionalregulatorycircuitmediatinglmo2expressioninasubsetoft-acutelymphoblasticleukaemiapatients.oncogene29,5796-5808(2010).[0299]85.boehm,t.etal.anunusualstructureofaputativetcelloncogenewhichallowsproductionofsimilarproteinsfromdistinctmrnas.emboj9,857-868(1990).[0300]86.smale,s.t.&kadonaga,j.t.thernapolymeraseiicorepromoter.annurevbiochem72,449-479(2003).[0301]87.bernstein,b.e.etal.genomicmapsandcomparativeanalysisofhistonemodificationsinhumanandmouse.cell120,169-181(2005).[0302]88.wong,i.h.etal.detectionofaberrantp16methylationintheplasmaandserumoflivercancerpatients.cancerres59,71-73(1999).[0303]89.chim,s.s.etal.detectionoftheplacentalepigeneticsignatureofthemaspingeneinmaternalplasma.procnatlacadsciusa102,14753-14758(2005).[0304]90.fernandez,a.f.etal.adnamethylationfingerprintof1628humansamples.genomeres22,407-419(2012).[0305]91.houseman,e.a.etal.dnamethylationarraysassurrogatemeasuresofcellmixturedistribution.bmcbioinformatics13,86(2012).[0306]92.chan,k.c.etal.noninvasivedetectionofcancer-associatedgenome-widehypomethylationandcopynumberaberrationsbyplasmadnabisulfitesequencing.procnatlacadsciusa110,18761-18768(2013).[0307]93.lun,f.m.etal.noninvasiveprenatalmethylomicanalysisbygenomewidebisulfitesequencingofmaternalplasmadna.clinchem59,1583-1594(2013).[0308]94.ou,x.etal.epigenome-widednamethylationassayrevealsplacentalepigeneticmarkersfornoninvasivefetalsingle-nucleotidepolymorphismgenotypinginmaternalplasma.transfusion54,2523-2533(2014).cancer.nature524,47-53(2015).[0324]110.newman,a.m.etal.determiningcelltypeabundanceandexpressionfrombulktissueswithdigitalcytometry.natbiotechnol37,773-782(2019).当前第1页12当前第1页12
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献