一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于癌症筛查和胎儿分析的突变检测的制作方法

2022-02-21 07:54:05 来源:中国专利 TAG:

用于癌症筛查和胎儿分析的突变检测
1.相关申请的交叉引用
2.本技术是申请号为201680009446.8的中国国家申请的分案申请。本技术要求2015年2月10日提交的题为“癌症检测技术”的美国临时申请号62/114,471和2015年12月22日提交的题为“新生突变检测技术”的美国临时申请号62/271,196的优先权并且本技术是它们的pct申请,所述两篇美国临时申请的全部内容通过引用并入本文用于所有目的。
3.本技术也涉及2013年3月13日提交、由lo等人编写的题为“用于癌症检测的血浆dna的突变分析”的共同拥有的美国专利公开号2014/0100121(代理人档案号80015-012010us);以及2013年9月20日提交、由lo等人编写的题为“胎儿的甲基化组或来自血浆的肿瘤的非侵入性确定”的pct专利公开号wo2014/043763(代理人档案号80015-013010pc),所述两篇文献的全部公开内容通过引用并入用于所有目的。


背景技术:

4.已经证明,源自肿瘤的dna存在于癌症患者的无细胞血浆/血清中(chen等人,nat med 1996;2:1033-1035)。大多数现行方法基于已知与癌症相关的突变的直接分析(diehl等人,proc natl acad sci usa 2005;102:16368-16373;forshew等人,sci transl med 2012;4:136ra68)。但是,对分析的一组预定突变的这种直接分析在例如通过分析血浆dna进行癌症筛查方面的准确性较低。
5.进一步地,使用一组预定突变的这种直接分析在肿瘤的遗传组成方面提供了有限的观点。因此,通常采取手术活检以便在肿瘤上进行测序,以获得关于所述肿瘤的遗传信息。手术的要求增加了风险和成本。另外,为了找到肿瘤的位置,在可以进行手术活检之前需要昂贵的扫描技术。
6.因此,期望提供新的技术来特别是以非侵入性方式进行癌症的广泛筛查、检测或评估。


技术实现要素:

7.实施例涉及准确检测癌症患者和针对癌症进行筛查的受试者的血浆(或含有无细胞dna的其它样品)中的体细胞突变。这些分子标记的检测可用于癌症患者的筛查、检测、监测、管理和预后。例如,可以从所鉴定的体细胞突变中确定突变负荷,并且可以使用所述突变负荷来筛查任何类型或各种类型的癌症,其中可以不需要关于受试者的肿瘤或可能的癌症的先验知识。实施例可用于指导对癌症的疗法(例如靶向疗法、免疫疗法、基因组编辑、手术、化疗、栓塞疗法、抗血管生成疗法)的使用。实施例还涉及通过分析来自胎儿的具有无细胞dna的母体样品来鉴定胎儿中的新生突变。
8.其它实施例涉及与本文描述的方法相关联的系统和计算机可读介质。
9.参考以下详细描述和附图,可以更好地理解本发明实施例的性质和优点。
附图说明
10.图1示出了癌症中前28种最常见的突变的表格100。
11.图2是示出针对不同的肿瘤dna分数、测序深度、每个基因组的突变的数量和所搜索的基因组的分数的待检测的突变的预期数量的表格200。
12.图3是示出来自pcr复制的序列读码的百分比与测序深度之间关系的曲线图300。
13.图4a和4b示出了根据本发明的实施例的在各种肿瘤dna分数下pcr方案和无pcr方案检测癌症受试者的血浆中的癌症相关突变所需的测序深度之间的比较。
14.图5是示出根据本发明的实施例的特异于hcc病例、特异于孕妇或两个病例共享的常见末端位置的数量的维恩图。
15.图6是示出hcc患者1-mb区段的增加、减少或无变化的曲线图600。
16.图7示出了根据本发明的实施例的使用动态截止、重新比对和突变分数以及从肿瘤活检物中鉴定的突变的结果数据的过滤过程700。
17.图8示出了与被鉴定为具有野生型等位基因的血浆dna片段的大小相比,被鉴定为具有hcc患者的突变体等位基因的血浆dna片段的大小的曲线图800。
18.图9示出了根据本发明的实施例的使用动态截止、重新比对和突变分数以及从相邻的正常肝活检物中鉴定的突变的结果数据的过滤过程900。
19.图10a和10b示出了携带从相邻的正常肝活检物中鉴定的203个推定突变的血浆dna片段的所评估的大小特征与提供其它非信息性血浆dna分子的大小的比较。
20.图11示出了根据本发明的实施例的过滤过程1100(其使用动态截止、重新比对、突变分数和大小)和从血浆中鉴定的突变的结果数据。
21.图12示出了根据本发明的实施例的过滤过程1200和使用较低突变分数截止值从血浆中鉴定的突变的结果数据。
22.图13示出了根据本发明的实施例的过滤过程1300(其使用动态截止、重新比对和大小)和从血浆中鉴定的突变的结果数据。
23.图14示出了与被鉴定为具有野生型等位基因的血浆dna片段的大小相比,使用血浆被鉴定为具有突变体等位基因的血浆dna片段的大小的曲线图1400。
24.图15示出了根据本发明的实施例的过滤过程1500和使用增加的测序深度从血浆中鉴定的突变的结果数据。
25.图16是示出具有不同值的突变分数的基因座的数量(密度)的曲线图1600。
26.图17a示出了在染色体臂1p和1q上分布的z得分。图17b示出了在染色体臂1p和1q上的表观突变分数。
27.图18是示出根据本发明的实施例的针对某些等位基因计数截止值、针对各种突变分数和测序深度的预测的突变检测的灵敏度的表格1800。
28.图19是示出根据本发明的实施例的针对0.1%的假阳性检出率、针对某些等位基因计数截止值、针对各种突变分数和测序深度的预测的突变检测的灵敏度的表格1900。
29.图20示出了根据本发明的实施例的过滤过程2000和使用较不严格的动态截止从血浆中鉴定的突变的结果数据。
30.图21是示出胎儿和癌症情形的推定突变的数量的分布的曲线图2100。
31.图22是示出当使用重新比对时胎儿和癌症情形的推定突变的数量的分布的曲线
图2200。
32.图23是示出根据本发明的实施例的没有利用重新比对的各种大小截止值的ppv和回收率的表格2300。
33.图24是示出根据本发明的实施例的利用重新比对的各种大小截止值的ppv和回收率的表格2400。
34.图25示出了根据本发明的实施例的过滤过程2500(其使用动态截止、重新比对和大小)和从脐带血血浆中鉴定的突变的结果数据。
35.图26是根据本发明的实施例的由过程2500确定的突变体dna片段以及野生型等位基因的大小分布的曲线图2600。
36.图27示出了根据本发明的实施例的过滤过程2700(其使用动态截止、重新比对和大小)以及从hcc样品的血浆中鉴定的突变的结果数据。
37.图28是根据本发明的实施例的由过程2700确定的突变体dna片段以及野生型等位基因的大小分布的曲线图2800。
38.图29示出了根据本发明的实施例的使用针对从脐带血血浆中鉴定的突变的基于snp的过滤的过滤过程2900。
39.图30示出了根据本发明的实施例的使用针对从hcc血浆中鉴定的突变的基于snp的过滤的过滤过程3000。
40.图31是示出组织与组蛋白修饰的相关性的表格3100。
41.图32示出了在个体snp位点处测量的胎儿分数的频率分布。
42.图33a示出了母体血浆中胎儿特异性dna和共享dna的大小分布。图33b示出了胎儿特异性dna片段和共享dna片段的血浆dna大小的累积频率的曲线图。图33c示出了累积频率的差异,表示为δf。
43.图34a示出了具有突变体等位基因的血浆dna片段的大小分布。图34b示出了突变体等位基因和野生型等位基因的血浆dna大小的累积频率的曲线图。图34c示出了累积频率的差异,表示为δf。
44.图35示出了根据本发明的实施例的过滤过程3300(其使用动态截止、重新比对和突变分数以及大小截止值)和从血浆中鉴定的新生突变的结果数据。
45.图36a示出了与野生型等位基因相比具有使用层级a过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。图36b示出了具有使用层级b过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。图36c示出了具有使用层级c过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。图36d示出了具有使用方法d过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。
46.图37示出了与使用不同层级的过滤标准(即a、b、c和d)鉴定的推定的突变对应的δf值的曲线。
47.图38示出了母体血浆样品和脐带血中各种突变类型的频率计数。
48.图39a示出了根据本发明的实施例的不同尺寸过滤器的ppv%和回收率的图表。图39b示出了不同突变分数截止值的ppv%和回收率的图表。
49.图40a-40d示出了在不同突变分数截止值下各种尺寸过滤器的ppv%和回收率的图表。
50.图41是示出了作为尺寸截止值的函数的不同突变分数截止值下的回收率和ppv%的曲线的曲线图。
51.图42和43示出了47种新生突变的表格。
52.图44示出了检测47种新生突变和3,000种假定的体细胞突变的回收率和ppv。
53.图45a-45c和46a-46c示出了针对各种测序深度和肿瘤分数的不同量的突变下的模拟。
54.图47是示出根据本发明的实施例的通过分析人类受试者的生物样品来鉴定人类受试者中的体细胞突变的方法4700的流程图。
55.图48是示出根据本发明的实施例的使用所鉴定的体细胞突变来分析受试者的生物样品的方法4800的流程图。
56.图49是示出根据本发明的实施例的通过分析怀有胎儿的女性受试者的生物样品来鉴定胎儿的新生突变的方法4900的流程图。
57.图50示出了可用于根据本发明的实施例所述的系统和方法的示例性计算机系统10的框图。
58.术语
59.术语“生物样品”是指从受试者(例如,人类、患有癌症的人、疑似患有癌症的人、针对癌症进行筛查的人、孕妇或其它生物体)取得的任何样品。生物样品可以包括无细胞dna,其中一些无细胞dna可以源自健康细胞并且一些无细胞dna可以源自肿瘤细胞。无细胞dna可以在血液或其组分(例如血浆或血小板)或其衍生物(例如血清)或其它流体(例如,尿液、泌尿生殖道的其它流体、汗液、胸膜液、腹水、腹膜液、唾液、眼泪、乳头溢液、脑脊液、眼内液、羊水和子宫颈灌洗液)中发现。非流体实例是粪便样品,其可以与腹泻液混合。对于此类样品中的一些,可以非侵入性地获得所述生物样品。在一些实施例中,所述生物样品可以用作构成样品。
60.如本文所使用的,术语“基因座(locus)”或其复数形式“基因座(loci)”是在不同个体的基因组或个体内的不同细胞之间(例如,肿瘤细胞和健康细胞之间)可以具有变化的任何长度的核苷酸(或碱基对)的位置或地址。
61.如本文所使用的,术语“随机测序”是指所测序的核酸片段在测序程序之前没有被明确鉴定或预先确定的测序。不需要靶向特定基因的基因座的序列特异性引物。在一个实施例中,将衔接子加入到片段的末端,并且用于测序的引物连接到所述衔接子。因此,可以利用相同的引物对任何片段进行测序,因此所述测序可以是随机的。可以使用随机测序来进行大规模并行测序。
62.如本文所使用的,术语“序列标签”(也称为序列读码)是指从核酸分子的任何一部分或全部测序的核苷酸串。例如,序列标签可以是从核酸片段测序的一短串核苷酸(例如,~30)、核酸片段两个末端处的一短串核苷酸,或生物样品中存在的整个核酸片段的测序。核酸片段是较大核酸分子的任何一部分。片段(例如基因)可以与较大核酸分子的其它部分分开存在(即不连接)。
[0063]“序列变体”(也称为变体)对应于参考基因组的差异,所述参考基因组可以是生物体的构成基因组或亲代基因组。序列变体的实例包括单核苷酸变体(snv)和涉及两个或更多个核苷酸的变体。snv的实例包括单核苷酸多态性(snp)和点突变。作为实例,突变可以是“新生突变”(例如,胎儿的构成基因组中的新突变)或“体细胞突变”(例如,肿瘤中的突变)。野生型等位基因对应于构成基因组中的等位基因。如果受试者在该基因座处是杂合的,则构成基因组可包含两个野生型等位基因。野生型序列变体与构成基因组中特定位置处的序列对应。如果受试者在该基因座处是杂合的,则构成基因组可包含两个野生型序列变体。
[0064]“体细胞突变”是指在产后形成的组织或细胞中的突变。由于dna复制中的错误,或者由于暴露于致癌物质或其它环境因素,生物体随着年龄增涨而累积更多的突变。通常,每次细胞分裂,人类每个细胞获得一个突变。但是,单独地,这些突变以非常低的浓度存在于组织中,因为这些突变是非克隆的。然而,肿瘤相关突变被克隆扩增,并且在肿瘤组织中以更高的分数浓度存在。由于肿瘤异质性,癌症中不同突变的分数浓度可能不同。这意味着肿瘤通常由许多不同的克隆组成,并且每个克隆都有自己的突变特征。
[0065]“癌症相关变化”或“癌症特异性变化”包括但不限于癌症衍生的突变(包括单核苷酸突变、核苷酸的缺失或插入、遗传或染色体区段的缺失、易位、反转)、基因的扩增、遗传区段或染色体区段、病毒相关序列(例如病毒附加体和病毒插入体)、异常甲基化图谱或肿瘤特异性甲基化标记、异常无细胞dna大小图谱、异常组蛋白修饰标记和其它后天修饰,以及是癌症相关或癌症特异性的无细胞dna片段的末端的位置。
[0066]“信息性癌症dna片段”对应于承载或携带任何一种或多种癌症相关或癌症特异性变化或突变的dna片段。“信息性胎儿dna片段”对应于携带在父母的基因组中的任一者中未发现的突变的胎儿dna片段。“信息性dna片段”可以指以上类型的dna片段中的任一种。
[0067]
术语“测序深度”是指基因座被与该基因座比对的序列读码所覆盖的次数。所述基因座可以与核苷酸一样小,或者与染色体臂一样大,或者与整个基因组一样大。测序深度可以被表示为50x、100x等,其中“x”是指基因座被序列读码覆盖的次数。测序深度也可以应用于多个基因座或全基因组,在这种情况下,x可以分别指对基因座或全基因组进行测序的平均次数。超深测序可以指测序深度为至少100x。
[0068]
术语“测序宽度”是指对特定参考基因组(例如,人类)或所述基因组的一部分的多少比率进行分析。分数的分母可以是重复掩蔽的基因组,因此100%可以对应于所有参考基因组减去被掩蔽部分。基因组的任何部分可以被掩蔽,因此可以将分析集中在参考基因组的任何特定部分上。广泛测序可以指对至少0.1%的基因组例如通过鉴定与参考基因组的那部分比对的序列读码进行分析。
[0069]“穷举测序”是指从样品(例如,血浆)中几乎所有实际可分析的临床相关或生物相关的核酸片段获得分子信息。由于样品制备步骤、测序文库制备步骤、测序、碱基调控和比对的限制,并非样品中的所有血浆核酸分子(例如,dna或rna)都是可分析的或可测序的。
[0070]“可分析dna分子”是指已经成功通过所有分析步骤通过任何合适的方法(包括测序)被分析和检测的任何dna分子。“可测序dna分子”是指已经成功通过所有分析步骤通过生物信息学方法被测序和检测的任何dna分子。因此,穷举测序可以指被实施以使将有限血浆样品中的临床相关或生物相关的dna分子(例如,信息性dna片段)尽可能多地转化成可测序分子的能力最大化的过程。在使用此类过程创建可测序dna分子的测序文库之后,可以对文库的全部或部分进行测序。如果确实完全用尽了来自有限样品的可测序dna分子以获得序列信息,则该动作可以被称为“总模板测序”,其对应于穷举测序的一个谱系。
[0071]
样品的“突变负荷”是基于测量到多少突变的测量值。突变负荷可以以各种方式确
定,诸如突变的原始数量、每个碱基数量的突变密度、被鉴定为具有突变的基因组区域的基因座的百分比、特定量(例如体积)的样品中观察到的突变的数量,以及与参考数据相比或自上次评估以来的比例或倍数增加。“突变负荷评估”是指样品的突变负荷的测量。
[0072]
筛查检验的“阳性预测值(ppv)”是指通过检验鉴定的真阳性(tp)的数量,表示为通过所述检验分类的真阳性和假阳性(fp)之和的比例,例如tp/(tp fp)。“阴性预测值(npv)”是指通过检验鉴定的真阴性(tn)的数量,表示为通过所述检验分类的真阴性和假阴性(fn)之和的比例,例如tn/(tn fn)。
[0073]
术语“构成基因组”(也称为cg)由基因组内基因座处的共有核苷酸组成,并且因此可以认为是共有序列。cg可以覆盖受试者的整个基因组(例如,人类基因组),或仅覆盖所述基因组的部分。构成基因组(cg)可以从细胞的dna以及无细胞dna(例如,如可以在血浆中发现的)获得。理想情况下,共有核苷酸应该指示基因座对于一个等位基因是纯合的,或者对于两个等位基因是杂合的。杂合基因座通常包含两个等位基因,这两个等位基因是遗传多态性的成员。作为实例,用于确定基因座是否是杂合的标准可以是两个等位基因的阈值,每个等位基因以与该基因座比对的读码的至少预定百分比(例如,30%或40%)出现。如果一个核苷酸以足够的百分比(例如,70%或更大)出现,则可以确定该基因座在cg中是纯合的。虽然由于细胞分裂期间自发发生的随机突变一个健康细胞的基因组可能与另一个健康细胞的基因组不同,但是当使用这种共有时,cg不应该发生变化。一些细胞可以具有基因组重排的基因组,例如,诸如分别包含抗体和t细胞受体基因的b和t淋巴细胞。这种大规模差异仍然是血液中相对较小的一群总的有核细胞群体,因此此类重排不会影响利用足够的血细胞采样(例如,测序深度)来确定构成基因组。其它细胞类型,包括口腔细胞、皮肤细胞、毛囊,或各种正常人体组织的活检物,也可以作为cg的来源。
[0074]
术语“构成dna”是指反映出受试者出生的遗传组成的任何dna来源。细胞分裂期间可能发生随机突变。与癌症相关突变不同,不存在随机突变的克隆扩增。因此,从构成dna的共有序列获得的cg反映了受试者出生的遗传组成。对于受试者,可以从其获得构成dna的“构成样品”的实例包括健康的血细胞dna、口腔细胞dna、发根dna、唾液dna和来自皮肤刮削的dna。来自这些健康细胞的dna定义了受试者的cg。例如,当已知人不具有癌症或者可以从不可能含有癌性或癌前细胞的组织(例如,当怀疑肝癌时为发根dna)获得样品时,细胞可以以各种方式被鉴定为健康的。作为另一个实例,当患者无癌症时可以获得血浆样品,并且将所确定的构成dna与随后的血浆样品(例如,一年或更晚)的结果进行比较。在另一个实施例中,含有《50%肿瘤dna的单一生物样品可用于推导构成基因组和肿瘤相关遗传变化。在这样的样品中,肿瘤相关单核苷酸突变的浓度低于cg中杂合snp的每个等位基因的浓度。这样的样品可与用于确定如下所述的样品基因组的生物样品相同。
[0075]
术语“样品基因组”(也称为sg)是已经与基因组(例如,人类基因组)的位置比对的序列读码的集合。样品基因组(sg)不是共有序列,但是包括可能只在足够数量的读码(例如,至少2或3个或更高的截止值)中出现的核苷酸。如果等位基因出现足够的次数,并且它不是cg的一部分(即,不是共有序列的一部分),则该等位基因可以指示“单核苷酸突变”(也称为snm)。也可以检测到其它类型的突变,例如包含两个或更多个核苷酸的突变(诸如影响微卫星或简单串联重复多态性中的串联重复单元的数量的那些突变)、染色体易位(其可以是染色体内的或染色体间的)和序列反转。
[0076]
术语“参考基因组”(也称为rg)是指来自生物样品和构成样品的序列读码可以与其进行比对和比较的单倍体或二倍体基因组。对于单倍体基因组,每个基因座处只有一个核苷酸。对于二倍体基因组,可以鉴定杂合基因座,其中这种基因座具有两个等位基因,其中任一个等位基因可以允许与基因座比对的匹配。
[0077]
术语“癌症水平”可以指癌症是否存在、癌症的阶段、肿瘤的大小、癌症对治疗的反应和/或癌症的严重程度或进展的其它量度。突变负荷可用于确定癌症水平。癌症越是晚期,突变负荷越高。癌症水平可以是数字或其它字符,诸如字母或其它符号。水平可以是零。癌症水平还包括与突变或许多突变相关的恶化前或癌前病症(状态)。可以以各种方式使用癌症水平。例如,筛查可以检查以前不知道患有癌症的人是否存在癌症。评估可以研究被诊断患有癌症的人。检测可以指“筛查”或者可意味着检查具有癌症的暗示特征(例如症状或其它阳性检验)或具有癌症风险因素(例如吸烟或饮酒的习惯或病毒感染病史,例如肝炎病毒感染)的人是否患有癌症。
[0078]
如本文所使用的,术语“分类”是指与样品的特定性质相关联的任何数字或其它字符。例如,“ ”符号(或词语“正”)可以表示样品被分类为具有特定的癌症水平。分类可以是二进制(例如,正或负)或具有更多的分类水平(例如,从1到10或0到1的标度)。术语“截止值”和“阈值”是指在操作中使用的预定数量。阈值可以是高于或低于进行特定分类的值。可以参考或不参考样品或人的特征来预先确定截止值。例如,可以基于所检查的个体的年龄或性别来选择截止值。可以在检验数据的输出之后并且基于检验数据的输出选择截止值。例如,当样品的测序达到一定深度时,可以使用某些截止值。
具体实施方式
[0079]
鉴定生物体的生物样品中的突变(例如,由于癌症引起的突变或在胎儿中的突变)受到测序错误和其它困难的普遍性的阻碍。实施例提供通过分析生物体的无细胞dna分子(片段)来准确地鉴定生物体中的突变的技术。对于非侵入性地获得的样品的胎儿分析,胎儿的无细胞dna分子在同样包含怀孕女性的无细胞dna分子的母体样品(例如,母体血浆)中。使用某些测序技术(例如,测序文库的无pcr制备)和某些过滤标准,可以鉴定出大量的真正突变(与假阳性相反),或者可以显著提高检测到的真正突变的比例。
[0080]
当使用足够的测序深度和测序宽度时,可以确定受试者的突变负荷的准确测量值,从而能够评估受试者的癌症水平。下面,描述了用于癌症检测、监测和预后的基于dna的肿瘤标志(例如,在血浆中)的要求的理论基础和实际实施。
[0081]
i.癌症的突变标记
[0082]
没有多少癌症具有用于鉴定癌症存在或很可能存在于个体中的明显的突变标记或其它标记。而且,即使这样的标记确实存在,通常很少有特定癌症特有的这样已知的标记。因此,可能难以在具有无细胞dna的血浆或其它此类样品中检测到癌症,其中这种突变标记不会处于较高浓度。一个例外是鼻咽癌(npc)患者中的eb病毒(ebv)dna。因此,在中国大多数npc病例中,ebv dna可以在npc肿瘤细胞的细胞核中发现(tsang等人,chin j cancer 2014;33:549-555)。此外,ebv dna可以在npc患者的血浆中发现(lo等人,cancer res 1999;59:1188-1191)。
[0083]
该实例用于说明使用组的点突变筛查特定类型的癌症来获得足够的数据来筛查
癌症的难度。该实例进一步说明需要检测血浆中的许多突变以达到癌症筛查的灵敏度。
[0084]
a.npc患者中的ebv dna
[0085]
npc与ebv感染密切相关在中国南方,在几乎所有npc患者的肿瘤组织中均可发现ebv基因组。源自npc组织的血浆ebv dna已被开发为npc的肿瘤标记(lo等人,cancer res 1999;59:1188-1191)。已经显示这种肿瘤标记可用于npc的监测(lo等人,cancer res 1999;59:5452-5455)和预后(lo等人,cancer res 2000;60:6878-6881)。已经证明,使用实时pcr的血浆ebv dna分析可用于检测无症状受试者的早期npc,并且可能潜在地用于筛查npc(chan等人,cancer 2013;119:1838-1844)。在该先前的研究中,用于血浆ebv dna分析的实时pcr测定针对ebv基因组的bamhi-w片段。每个ebv基因组中有大约6-12个bamhi-w片段的重复,并且每个npc肿瘤细胞中有大约50个ebv基因组(longnecker等人,《病毒学领域》,第5版,第61章“eb病毒”;tierney等人,j virol.2011;85:12362-12375)。换句话说,在每个npc肿瘤细胞中,存在300-600(例如,大约500)个拷贝的pcr靶标。每个肿瘤细胞的这种高的靶标数量可以解释为什么血浆ebv dna在早期npc检测中如此敏感。
[0086]
b.ebv dna的靶向测序
[0087]
如以上实例所示,血浆ebv dna的实时pcr分析的高灵敏度与每个npc肿瘤基因组中pcr靶标的多个拷贝的存在有关。因此,我们认为在癌症患者的血浆中寻求检测的肿瘤相关靶标数量的进一步增加将进一步提高血浆dna分析的灵敏度和临床效用。npc患者血浆中的ebv dna分子主要是低于180bp的短片段(chan等人,cancer res 2003;63:2028-2032)。由于ebv基因组的大小约为172kb,所以每个ebv基因组将被裂解成约1,000个血浆dna片段。因此,npc肿瘤细胞中的50个ebv基因组将被裂解成约50,000个血浆dna片段,并且被释放到npc患者的循环中。
[0088]
我们认为,靶向的这50,000个源自肿瘤的ebv dna片段越多,能够实现检测ebv相关癌症的灵敏度越高。可以检测用于分析中的ebv基因组的5%、10%、20%、25%、30%、40%、50%、75%、90%或99%。目的可以是靶向能够通过生物信息学方法与人类基因组区分开的ebv基因组的部分。
[0089]
通过检测血浆中这种高多样性的ebv基因组靶标提供的高检测灵敏度在接受治愈目的放射疗法的患者的疾病复发的检测方面尤其重要。接受治愈目的放射疗法的患者的复发npc的检出率低于初始治疗npc的检出率(leung等人,clin cancer res 2003;9:3431-3134)。使用靶向bamhi-w片段的实时ebv dna pcr的两组癌症的总检出率分别为62.5%和96.4%。这种高检出率说明在任何筛查技术中需要高的多样性。在高度相关的靶标中这样高的多样性通常不适用于其它癌症。
[0090]
预期检测到血浆中高多样性的ebv基因组靶标(或后面所述的推导的突变)将增加前一组中的检出率。这种方法的另一个效用是用于npc的筛查。对于筛查,特别重要的是可以检测早期癌症。高度敏感的血浆ebv dna检测系统使得能够实现这一目标。如之后所解释的,实施例可以提供高度敏感的检测,而不需要使用预定的突变标记或其它分子标记。
[0091]
ii.癌症的筛查
[0092]
在癌症筛查中的一个问题是,可能不知道受试者可能患有或易患有什么类型的癌症。另一个问题是个体可能会感染不止一种类型的癌症。因此,实施例可以从受试者的生物样品中鉴定突变,从而不需要仅筛查预定的一组突变。在后面的章节中描述了如何准确地
从样品中无细胞dna中鉴定突变的细节。现在描述癌症筛查的过程和困难。
[0093]
一旦在生物样品(例如,血浆)中鉴定出突变,则所述突变可用于癌症筛查。术语筛查一般是指通过进行某种形式的评估的主动行为来鉴定疾病。评估工具可以包括评估一个人的人口统计特征概况、进行血液检查、其它体液(例如,尿液、腹水、胸膜液、脑脊液)的检查、对组织活检物的检查、内窥镜检查(例如结肠镜检查)和影像检查(例如经由磁共振成像、计算机断层成像、超声波成像或正电子发射断层成像)。可以使用各评估方式的组合,例如,可以使用多个样品并且可以将结果组合以提供最终评估。
[0094]
a.不同阶段的筛查和概率评估
[0095]
疾病筛查通常可以在疾病的不同阶段应用,即但不限于初级、二级和三级筛查。初级筛查是指在症状出现前鉴定疾病,并且有时被称为无症状筛查。初级筛查可以对一般群体或具有使其发生待筛查的疾病的风险增加的特征的选定群体进行。例如,吸烟者发生肺小细胞癌的风险增加。慢性hbv携带者发生hcc的风险增加。二级筛查是指当受试者呈现症状时鉴定疾病,并且需要对一组推定诊断进行区分。三级筛查是指疾病进展的早期鉴定、疾病分期或严重程度的增加(例如转移的进展)或疾病的再发。在疾病筛查或癌症筛查的每一个阶段,目的是通常在疾病的自然进程之前自身出现症状鉴定或排除疾病或疾病进展的存在,因为治疗方案可能在这么晚的时候受到影响或效果较差。
[0096]
筛查行为为概率评估。一般来说,筛查的目的是杜绝(即排除)或采纳(即确认)推定诊断。所述评估是确定一个人是否具有形成疾病、患有疾病或具有疾病进展的高或低机率(可选地,称为风险)。换句话说,在每次评估之后,对受试者处于高风险还是低风险进行分类。可能需要连续的评估阶段,并且可以进行重复检查。
[0097]
b.ebv实例
[0098]
使用ebv作为说明筛查的实例。一名中国南方中年男性与具有不同人口统计特征概况的人相比形成npc的风险更高。然后可以将血浆ebv dna检验用作该个体的初级筛查工具。如果血浆ebv dna负荷低于用于区分患有npc的个体的截止值,那么这个人被认为此刻具有较低的患npc的机率(chan等人,cancer 2013;119:1838-1844)。这个人可以选择或被建议之后(例如一年或两年后)再次进行血浆ebv dna检验。
[0099]
如果发现血浆ebv dna负荷高于用于区分患有npc的个体的截止值,或者显示出这个人自己先前的值逐渐增加,则这个人可被认为处于患有npc的高风险中。可以建议这个人例如使用确认疾病的其它检验进行下一个阶段检查以进一步采纳或者杜绝疾病。例如,可以在2或6周后进行另一次血浆ebv dna检验,以评估血浆ebv dna是否持续升高。根据怀疑指数,可以建议这个人进行内窥镜检查以对鼻咽进行肉眼观测,包含和不包含进一步的组织活检和组织学评估,以确认npc的存在。可选地,可以进行成像(例如,磁共振成像)以使肿瘤的存在或不存在可视化。此类实例说明了筛查能指示应该执行哪些附加检验的好处。
[0100]
同样的检验可以用作二级和三级筛查的工具。为了说明,可以使用血浆ebv dna检验来评估出现复发性鼻出血(即鼻子流血)或声音嘶哑的患者中的npc的可能性,所述这些症状是npc通常呈现的症状。如果检验结果显示ebv dna负荷高于用于区分具有和不具有疾病的群体的截止值,则这个人被认为处于患有npc的高机率,从而确定较高的癌症水平(lo等人,cancer res 1999;59:1188-1191)。然后可以建议他进行进一步确认检查。另一方面,如果血浆ebv dna检验显示ebv dna负荷低于区分具有和不具有疾病的群体的截止值,则可
以认为npc的机率较低,并且可以考虑其它推定诊断。
[0101]
在三级筛查方面,可以通过血浆ebv dna检验来检验通过放射疗法进行治愈性治疗的npc受试者用于可能的npc复发(换句话说,再发)的早期鉴定(lo等人,cancer res 1999;59:5452-5455;lo等人,cancer res 2000;60:6878-6881)。如果血浆ebv dna水平增加超过受试者自身值的稳定治疗后基线或超过用于鉴定具有npc复发的群体的截止值,则npc复发的概率被认为是高的。
[0102]
c.其它筛查检验和优选特征
[0103]
仅提供用于管理npc的血浆ebv dna检查的实例作为癌症或疾病筛查如何进行的一个说明。如果可以针对其它癌症开发其它有效的筛查检验或方式,那将是理想的。目前,用于其它癌症的筛查检验不存在或性能概况较差。例如,血清甲胎蛋白(afp)是用于评估hcc的标记。然而,血清afp显示较差的灵敏度和特异性。在灵敏度方面,对于afp而言,低于50%的hcc是阳性的。在特异性方面,其它肝脏炎症状况可能与升高的血清afp相关。
[0104]
因此,血清afp通常不被用作无症状低风险个体的初级筛查工具。如果使用,会有许多假阴性和假阳性的hcc鉴定。相反,它可适用于具有较高的形成hcc的怀疑指数的高风险个体。例如,针对血清afp可以检验肝脏超声波扫描显示的具有低回声阴影的慢性hbv载体。如果是阳性,它用作一个额外的证据支持hcc的推定诊断。另外,如果确诊的hcc病例显示为阳性或升高的血清afp,则血清afp可用作筛查hcc复发的后处理工具。
[0105]
作为各种公共卫生举措的一部分实施的癌症筛查工具的其它实例包括乳腺癌筛查的乳房x线照相术、结肠直肠筛查的粪便潜血评估、前列腺癌筛查的血清前列腺特异性抗原检查和子宫颈癌筛查的宫颈刮片评估。已经实施了许多筛查方案,因为普遍认为,早期鉴定疾病或疾病进展将转化为健康益处,诸如更长的无病生存、更高的生活质量年数以及疾病管理上的经济节省。例如,如果可以在早期或甚至在无症状阶段鉴定出癌症,则可以应用更简单的治疗方式或具有较少副作用的治疗方式。例如,肿瘤可能还处于可以考虑手术切除的阶段。
[0106]
一般来说,优先采用非侵入性且对筛查具有很小副作用的工具。对于检验前疾病概率足够高以证明在评估过程中面临此类风险的个体,保留侵入性方式或具有高并发症可能的侵入性方式。例如,对具有非常高的hcc怀疑指数的个体进行肝活检,诸如慢性hbv携带者或肝脏超声波扫描显示的低回声阴影的肝硬化患者。
[0107]
在筛查检验的性能特征方面,优选具有高阳性预测值(ppv)或高阴性预测值(npv)的检验。任何一个筛查指标的实际优选性能特征取决于筛查的目的。具有高ppv的检验通常用于确认或“采纳”疾病分类。具有高npv的检验通常用于排除或“杜绝”疾病分类。一些检验具有高ppv和npv。这些通常是可以提供确定性分类的检验,例如组织活检,随后进行组织学检查。
[0108]
d.鉴定肿瘤组织中癌症特异性靶标以进行筛查
[0109]
目的可以在于检测源自血浆dna中癌细胞的基因组的任何癌症相关突变的存在,从而检测癌症。如以上npc中ebv dna的实例所证实的,使用血浆ebv dna检验的npc的高临床灵敏度或检出率与检测每个npc细胞约500个(例如300-600)癌症衍生的血浆dna片段的能力有关。为了进一步提高所述检验的灵敏度或进行一个或多个其它筛查检验,可能需要能够检测每个癌细胞300个或更多各癌症相关的片段(例如,400、500、600、800或1,000或更
多个)。
[0110]
对npc有超过500个癌症特异性靶标以及将其推广到其它癌症和恶性肿瘤的一种可能的方法是一组受试者特异性单核苷酸突变或涉及多于一个核苷酸的突变的分析。为了鉴定此类受试者特异性信息,可以进行癌症受试者的肿瘤组织的大规模并行测序。可以对受试者的构成dna进行测序作为鉴定肿瘤组织中的突变的参考。构成dna可以从受试者的任何非恶性细胞(例如但不限于血细胞和口腔细胞)获得。除了单核苷酸突变之外,也可以使用其它癌症特异性或癌症相关遗传和表观遗传变化(例如拷贝数量畸变和异常甲基化)作为靶标用于癌症检测。
[0111]
然后可以在可能含有肿瘤dna的受试者的生物样品(例如血浆或血清,两者都含有无细胞dna)中检测到这种变化。在一个实施例中,目的是通过血浆dna分析来评估身体的突变负荷。对于该特定实施例,癌症特异性突变的检测可用于在治疗后监测受试者的进展,因为需要获得肿瘤组织以鉴定受试者特异的癌症相关变化。可以通过如本技术的一些实施例中所述的等位基因特异性pcr、使用大规模并行测序的扩增子测序(例如使用带标签的扩增子深度测序(forshew等人,sci transl med 2012;4:136ra68))、质谱分析和微阵列分析,或超深测序、穷举测序和总模板测序进行癌症特异性变化的检测。
[0112]
在一个实施例中,可以确定携带每个癌症特异性变化的血浆dna的量的总和(突变负荷的实例)并且将其用于反映体内癌细胞的数量。后一信息对于预后、监测和评估对治疗的反应是有用的。在其它实施例中,突变负荷可以被确定为癌症特异性靶标的量的产物或加权平均值。
[0113]
在一些实施例中,例如在初始筛查期间可以确定具有很少或没有关于样品中可能存在哪些突变的信息的突变负荷,如下所述。进一步地,某一位置上的突变和野生型等位基因的相对比例可以用于推断血浆样品中源自肿瘤的dna的分数浓度。
[0114]
iii.用于癌症筛查的循环的无细胞dna突变负荷评估
[0115]
为了鉴定个体的癌症突变以及确定突变负荷,实施例可以分析具有循环的无细胞dna的样品。已知肿瘤、癌症和恶性肿瘤将其dna内容物释放到循环中(bettegowda等人,sci transl med 2014;6:224ra24)。因此,可以在血浆和血清中检测到与肿瘤、癌症和恶性肿瘤相关的突变。此类突变也可以在其它体液中检测到,诸如但不限于尿液、其它泌尿生殖液、子宫颈灌洗液、乳头溢液、唾液、胸膜液、腹水和脑脊液(togneri等人,eur j hum genet 2016;doi:10.1038/ejhg.2015.281;de mattos-arruda等人,nat commun 2015;doi:10.1038/ncomms9839;liu等人,j clin pathol 2013;66:1065-1069.)。
[0116]
所述突变可以在这些体液中检测到,因为细胞或无细胞dna直接从与流体直接接触的那些器官流到所述流体中,例如泌尿道(例如从肾或膀胱)或生殖道(例如从前列腺)到尿液、从血浆转移到尿液中、从大脑到脑脊液、从胰腺到胰液中、从胆囊到胆汁中、从口咽到唾液中、从乳腺细胞到乳头溢液、从腹部器官到腹水,或从肺到胸膜液。另外,所述突变可以在体液中检测到,因为它们部分地源自血浆的过滤。因此,可以在体液中检测到血浆中的内容物,包括来自更远离所述流体的位点的其它器官的源自肿瘤的突变。
[0117]
检测血浆、血清和其它体液中的无细胞核酸中的突变对于癌症筛查检验的开展是有吸引力的,因为它们相对非侵入性地提供对肿瘤相关遗传和基因组变化的获取,并且代替对肿瘤活检物的直接评估。另外,已经在无细胞核酸群体中检测到与肿瘤、癌症或恶性肿
瘤相关的几乎所有形式的遗传和基因组变化。本文提供了癌症相关变化或癌症特异性变化的实例。癌症特异性通常是指来自癌细胞的变化,并且癌症相关意味着变化可能由于解剖学接近、生理关联、发育关联或对癌症存在的反应来自癌细胞、或癌前病变或其它组织。
[0118]
由于对肿瘤相关的遗传和基因组特征(特别是从血浆和血清无细胞核酸确定的)的非侵入性获取,如果用作筛查检验,可以在更短的间隔内(例如数天或数周)或更长的间隔(诸如两年一次、每年一次或每半年一次)重复地测量肿瘤相关特征,以“采纳”或“杜绝”疾病。
[0119]
血浆dna分子以短dna片段的形式天然存在(yu等人,proc natl acad sci usa 2014;111:8583-8588)。它们通常《200bp长,并且可以在某些癌症相关位置处裂解,如下文更详细讨论的。人类血浆中的大部分dna分子源自造血细胞。当一个人特别是在早期形成非造血恶性肿瘤时,源自肿瘤的dna代表与非源自肿瘤的造血dna背景混合的血浆中的一小部分。血浆样品中源自肿瘤的dna的量可以被表示为总dna的分数或基因组当量或细胞当量的癌细胞的数量。在造血恶性肿瘤的情况下,预期血浆中恶性肿瘤相关的dna的分数高于非造血恶性肿瘤情况下的恶性肿瘤相关的dna的分数,并且可以使用本技术中描述的相同的实施例来进行检测。
[0120]
在本技术中,我们描述了一般可应用于任何癌症的检测的方案,只要肿瘤对体液贡献dna即可(bettegowda等人sci transl med 2014;6:224ra24)。原因是因为所描述的实施例不依赖于通常只是某种癌症类型的生物标记的检测。用于区分具有和不具有癌症的个体的分类方案基于突变负荷评估,所述突变负荷评估一般也可以应用于检测任何癌症的目的。
[0121]
为了开展筛查具有高临床灵敏度和特异性的其它癌症的检验,需要检测广泛和大量突变的能力。存在几个理由证明该检验要求。和ebv与npc相关不同,大多数其它癌症与非人类遗传标记无关,所述非人类遗传标记可以相对容易地与非癌症人类dna区分开来。因此,为了开展非ebv相关癌症的筛查检验,所述检验需要检测其它种类的癌症相关变化。
[0122]
a.检验灵敏度要求(例如,宽度和深度)
[0123]
基于以上计算,为了达到与用于npc检测的血浆ebv dna检验相同的灵敏度(chan等人,cancer 2013;119:1838-1844),所述检验优先需要能够检测承载癌症相关变化的血浆dna的至少~500个拷贝,以便实现循环中一个肿瘤细胞的等效dna含量的检测。npc数据被用作模型系统,以推理出实现临床灵敏度和特异性癌症筛查检验的原理。这可以通过诸如在血浆ebv dna检验的情况下检测一个肿瘤相关变化的500个拷贝,或500个不同的肿瘤相关突变的每一个一个拷贝,或组合,即一组《500个突变的多个拷贝来实现。因为血浆dna片段的长度通常《200bp,所以可以假定任何一个癌症相关变化的检测需要检测承载这种变化的一个血浆dna片段,其被称为信息性癌症dna片段。
[0124]
因此,本领域技术研究人员中的一些开发了检测血浆中的某些突变的检验作为检测癌症的手段。例如,通过数字聚合酶链反应(pcr)对表皮生长因子受体突变进行血浆检测已被用于检测非小细胞肺癌(yung等人,clin cancer res 2009;15:2076-2084)。已经开发了诸如在致癌基因和肿瘤抑制基因中包括数百个其它癌症相关突变的面板,用于血浆dna评估。从理论上讲,对于检测那些接近用于npc的血浆ebv dna检验的性能的其它癌症,这些检验实现了临床灵敏度。然而,实际上并非如此。
[0125]
1.宽度
[0126]
现在意识到,癌症是高度异质的。突变特征在不同器官的癌症之间变化很大,在具有同一器官的癌症的不同受试者之间或者甚至在相同受试者的同一器官中的不同肿瘤基因座之间变化很大(gerlinger等人,n engl j med 2012;366:883-892)。因此,任何一种肿瘤相关突变在一小部分任何癌症受试者中仅为阳性。例如,癌症体细胞突变目录(cosmic)数据库记录了在肿瘤组织中检测到的遗传突变的范围(cancer.sanger.ac.uk/cosmic)。
[0127]
图1示出了癌症中前28种最常见的突变的表格100。数据显示,任何给定器官的癌症的前28种最普遍的突变的总和远远不及100%。还值得注意的是,图1中列出的基因中的每一种可能发生不同的突变。因此,如果评估肿瘤中任何一种特定突变的发生率,数值将非常低。因为癌症突变的位置是如此可变化和不可预测,所以为了鉴定任何一个癌症受试者中的500个不同突变,可以首先考虑分析肿瘤活检物。然后,将所鉴定的突变用于通知使用何种血浆dna测定来进行后续监测。然而,对肿瘤活检物的事先评估的需求将妨碍应用用于初级筛查或无症状筛查的血浆dna检验。
[0128]
如图1所示,仅一部分每种肿瘤类型可表现出头几种突变中的任何一种。数据表明,大部分肿瘤不具有cosmic数据库中列出的头几种突变中的任何一种。换句话说,如果基于头几种突变的穷举检测来设计癌症筛查检验,则由于不存在此类突变,许多肿瘤不会被检测到。这些数据表明,检测大量体细胞突变的需求(如本技术中的实施例所证明的)对于实现对不同肿瘤是通用的筛查检验是重要的,并且还可能在大部分癌症群体中产生阳性结果。
[0129]
因此,为了开发一种用于癌症检测或初级筛查的血浆dna检验,需要在基因组内侦察更广泛的搜索空间,以便收集足够的突变(例如,相对于参考基因组的拷贝数量畸变和序列变体,诸如构成基因组或亲本基因组)或其它癌症特异性或癌症相关变化(例如,甲基化变化),以组成每个癌细胞500个癌症特异性血浆dna片段的总和。注意图1所示的数据,假设在任何一个肿瘤中发生任何一种记录在案的癌症相关突变的机率为1%,则所述检验将需要针对50,000个推定突变位点进行检测,以便每个肿瘤检测到至少500个突变(基于泊松概率分布)。需要检验500,000个推定突变或癌症相关变化,以便针对任何一个肿瘤示出至少5,000个突变或癌症相关变化。另一方面,如果在任何一个肿瘤中发生任何一种记录在案的癌症相关突变或变化的机率为0.1%,则需要检验50,000个突变或变化,以便针对任何一个肿瘤示出至少50个突变或变化。
[0130]
因此,为了使癌症筛查检验的癌症检出率或临床灵敏度最大,所述检验需要对样品中的血浆dna片段进行广泛调查,以便鉴定足够的承载任何一种类型的癌症相关变化或突变的片段。调查的宽度可以通过使用覆盖大部分基因组(例如足以覆盖至少50,000个靶标)的全基因组方法或靶向方法来实现。
[0131]
2.深度
[0132]
调查的深度也很重要。根据每个肿瘤检测到的突变的数量,需要检测承载所述突变的多个血浆dna片段以达到指定的阈值,例如,针对每个基因组当量的癌细胞检测500个信息性癌症dna片段。例如,如果在特定肿瘤中仅鉴定出一个突变,则需要500个覆盖所述突变的血浆dna片段。另一方面,如果在肿瘤中存在50个不同的突变,则平均来说,需要检测至少10个覆盖这50个突变中的每一个的信息性癌症dna片段。
[0133]
肿瘤dna通常代表血浆中的少量dna群体。此外,一些癌症相关变化本质上是杂合的(即,每个二倍体基因组具有一个变化)。因此,为了检测每个基因座10个拷贝的信息性癌症dna片段(即携带至少一个癌症相关变化的血浆dna片段),需要分析具有20%肿瘤dna分数的血浆样品中来自基因座的至少100个分子。因此,检测覆盖任何单一突变位点的多个血浆dna片段的能力取决于对血浆样品的调查深度。然而,在血浆样品中只有有限数量的癌细胞基因组,这影响血浆dna分析的所需深度和宽度。
[0134]
为了说明早期癌症的检测,假设目的是开发一种可以检测样品中1%的肿瘤分数的检验或方案。已知每毫升血浆中通常存在1,000个基因组当量的dna,则在具有1%肿瘤dna分数的毫升样品中将存在10个癌细胞当量的dna。这意味着即使可以检测到样品中的每一个单一癌症特异性dna片段,只有最多10个基因组当量的任何一种癌症相关变化,所述癌症相关变化可用于检测。因此,即使事先知道肿瘤中存在特定的突变,其靶向检测仅在最佳情形下提供10个基因组当量的信号,这在1%的分数浓度下可能缺乏对癌症的鲁棒检测的分析灵敏度。如果待检测的突变是杂合的,则只有5个显示出该突变的血浆dna片段。
[0135]
在具有1%肿瘤dna分数的最佳情形下,在该突变位点处分析的深度需要被覆盖至少1,000次才能够检测出具有所述突变的10个基因组当量的血浆dna。在这种情况下,分析的宽度需要弥补每个突变位点检测到的相对较少量的拷贝。少数甚至仅数百个突变位点的选择性检测不太可能达到检测早期癌症的筛查检验所需的灵敏度。
[0136]
3.其它问题
[0137]
另外,在常规分析中,任何一种测定的检测性能远非最佳情形。例如,在样品处理步骤、dna测序文库制备步骤和基于探针的靶标捕获杂交过程中,血浆dna模板和信息性癌症dna片段可能存在损失或减少。一些步骤可能引起不同突变之间以及癌症与非癌症衍生的dna之间的相对比例的偏差。例如,靶标测序文库、基因组dna测序文库和扩增子测序的pcr扩增可引入gc偏差以及产生pcr重复。对于大规模并行dna测序,在鉴定被测序的片段时的错误可能是由pcr扩增期间或测序期间、碱基调用期间引起的测序错误或由于比对错误导致的。最后,在可以为检测突变提供可信的正读出之前,分析平台的信号检测机制可具有检测限(例如,可检测信号可能需要5个突变体片段)。所有这些因素意味着在实践中,血浆dna分析的宽度和深度要求可能需要甚至高于所讨论的理论上理想的情形。
[0138]
实质上,到目前为止的讨论表明,癌症筛查检验的灵敏度要求正在达到分子分析平台在实践中可以实现的限制。在生物学上,据报道,恶性肿瘤所含有的体细胞突变的数量的范围在约1,000至数万之间(lawrence等人,nature 2013;499:214-218)。基于我们的数据,根据血浆样品中肿瘤dna的分数浓度,可以仅使用有限血浆样品(通常每次抽血获得《10毫升的血浆)中的足够的信息性癌症dna片段来实现早期非侵入性癌症检测。
[0139]
因此,为了实际上实现癌症筛查检验的灵敏度要求,需要使可在每个血浆样品中获得的癌症信息含量最大化。在本技术中,我们描述了可以实现达到癌症筛查检验的灵敏度要求所需的有效宽度和深度的方法。在各种实施例中,进行超深和超宽测序、穷举测序或总模板测序。可以进行无pcr大规模并行测序,以提高超深和超宽测序、穷举测序或总模板测序的成本效益。通过单分子测序可以实现超深和超宽测序、穷举测序或总模板测序。
[0140]
一些实施例可以通过多种癌症特异性或癌症相关变化(例如,单核苷酸突变)与癌症特异性或癌症相关dna甲基化标记(例如5-甲基胞嘧啶和羟甲基化的位置)、癌症特异性
或癌症相关短血浆dna分子、癌症特异性或癌症相关组蛋白修饰标记,以及癌症特异性或癌症相关血浆dna末端位置的组合检测来增加可获得的信息性癌症dna片段的数量。某些癌症特异性或癌症相关变化可用作鉴定突变的过滤标准。
[0141]
b.特异性要求(例如,过滤标准)
[0142]
如上所述,期望检测到尽可能多的信息性癌症dna片段。但是,鉴于当前测序技术中存在的噪声水平(例如,来自各种来源的错误),可能难以准确地检测此类信息性癌症dna片段。
[0143]
1.所鉴定的突变的特异性
[0144]
为了实现高ppv或高npv,癌症筛查检验需要显示出高特异性特征。可以在很多水平上实现高特异性。待检测的突变和任何癌症相关变化的特异性需要尽可能对癌症是特异的。只有当与癌症相关的置信度较高时,这才可以通过但不限于将遗传或基因组标记评分为阳性来获得。这可以通过包括先前在其它癌症中报道的标记来实现。例如,可以根据他或她的人口统计特征概况特别关注个体易患的癌症类型中常见的标记。或者,可以特别注意与受试者暴露的致突变的照射相关的突变标记(alexandrov等人,nature 2013;500:415-421)。这也可以通过使可能被误认为突变的测序错误和比对错误的数量最小化来实现。这可以通过与一组健康对照的基因组图谱进行比较来实现,和/或可以通过与这个人自己的构成dna进行比较来实现。
[0145]
这些标准可以用作评估血浆dna片段源自肿瘤的可能性的过滤标准,并且因此有资格成为信息性癌症dna片段。可以单独地、独立地、共同地以相等的加权或不同的加权使用、或者以特定顺序连续使用,或者根据先前的过滤步骤的结果有条件地使用每个过滤标准。对于有条件的使用,可以使用基于贝叶斯的方法,以及基于分类或决策树的方法。单独使用意味着仅仅使用任何一个标准。独立使用可涉及不止一个过滤标准,但是与以特定顺序连续应用相反,每个过滤标准不依赖于另一个过滤标准的应用(例如,可以进行并行应用)。作为使用加权的共同使用的实例,可以使用机器学习技术。例如,监督式学习可以使用具有已知分类的样品的所测量的突变负荷来训练任何模型。可以使用来自大量个体(例如数百、数千或数百万)的测序数据来训练模型。以更简单的形式,可以使用此类已知样品来确定通过过滤标准确定的一个或多个得分的阈值,以确定突变是否有效。
[0146]
在一个实施例中,如果血浆dna片段满足所述标准中的一些或所有,则可以将其视为信息性癌症dna片段,而不满足所述标准中的一些或全部的其它血浆dna片段可被认为是非信息性血浆dna片段。在另一个实施例中,每个血浆dna片段可以被赋予为信息性癌症dna片段的信息加权,这取决于其满足标准列表的强烈程度。片段是源自肿瘤的置信度越高,加权越高。在一个实施例中,可以基于检验受试者的临床特征(例如性别、种族、癌症的危险因素,诸如吸烟或肝炎状态等)来调整加权。
[0147]
如果dna片段显示出不止一种癌症特异性变化,则其可以被赋予更高的信息加权或癌症特异性。例如,许多癌症在全局水平上被低甲基化,特别是在非启动子区域中。癌症dna已证明比血浆中的非癌症dna短。源自肿瘤的血浆dna片段在某些特定位置易于裂解。因此,大小较短(例如《150bp)(jiang等人,proc natl acad sci usa 2015;112:e1317-1325),其中一个或两个末端落在癌症相关的末端位置上,显示出单核苷酸突变,并且定位到非启动子区域,并且具有低甲基化cpg位点的血浆dna片段被认为更可能是癌症相关的。
低甲基化dna的检测可以使用可以区分甲基胞嘧啶与非甲基胞嘧啶的亚硫酸氢盐dna转化或直接单分子测序来实现。在本技术中,我们描述了增加信息性癌症dna片段鉴定中的特异性的过程、方案和步骤。例如,可以使用一个或多个过滤标准来增加特异性。
[0148]
2.突变负荷的特异性
[0149]
在另一个层面上,癌症筛查检验的特异性可以通过评估患有癌症的患者血浆中可检测到的癌症相关变化的量(例如,数量)是否反映与针对癌症预期的相当的突变负荷来实现。在一个实施例中,例如当相对于参考基因组确定突变负荷时,可以将血浆中的突变负荷与在构成dna中测量的突变负荷进行比较。在其它实施例中,可以将血浆中的突变负荷与在不同时间在受试者血浆中观察到的突变负荷,或者具有已知预后(好或坏)或癌症阶段的癌症患者的突变负荷,或者健康的无癌症群体的突变负荷进行比较。参考群体可以是年龄或性别或种族匹配的,因为据报道,即使在未显示患有癌症的人群中,身体中或组织中的突变负荷也随年龄增长而增加(slebos等人br j cancer 2008;98:619-626)。在本技术中,我们描述了血浆dna分析需要进行多广泛和多深入以捕获足够的突变负荷来增强来自健康群体的癌症受试者之间的差异。因此,例如,如果样品具有足够的突变信息,则不需要检测血浆样品中的所有dna片段来实现癌症检测。
[0150]
在一个实施例中,观察到的突变负荷是否暗示癌症可以基于癌症特异性参考范围。据报道,不同器官的癌症往往含有预期范围的突变负荷。所述数值的范围可以在1,000到几万之间(lawrence等人,nature 2013;499:214-218)。因此,如果血浆dna癌症筛查检验显示出一个人的突变负荷接近任何癌症组范围内的数值的证据,则可以进行癌症高风险分类(第viii节的图44、45a-45c和46a-46c)。在另一个实施例中,如果一个人的血浆中的突变负荷显著高于由没有癌症的健康群体建立的参考范围,则可以进行癌症分类。
[0151]
显著更高的突变负荷的证据可以基于统计分布,例如,偏离对照参考数据的平均值的三个以上的标准偏差,或者对照参考数据的中值的多倍,或大于对照参考数据的特定百分比(例如第99百分位数),或比对照参考数据的平均值、中值或第99百分位数大至少1或2或3个数量级。本领域技术人员能够鉴定各种统计学方法来鉴定统计学上显著增加的突变负荷。在另一个实施例中,分类可以考虑已经显示出影响癌症筛查检验的灵敏度和特异性特征的变量,诸如测量的或假定的或推断的样品的肿瘤dna分数、测序深度、测序宽度和测序错误率(第viii节的图44、45a-45c和46a-46c)。
[0152]
突变负荷可以以各种方式确定。突变负荷可以呗表示为检测到的突变的数量。突变的数量可以被归一化为所获得的测序数据的数量,例如表示为被测序的核苷酸的百分比或针对所执行的测序的量检测到的突变的密度。突变的数量也可以被归一化为人类基因组的大小,例如表示为基因组的比例或基因组内每个区域的密度。当进行突变负荷评估或可以随时间对突变负荷评估进行整合时,可以针对每种情况报道突变的数量,例如与先前的评估相比的绝对变化、百分比变化或倍数变化。突变负荷可以被归一化为所分析的样品的量(例如血浆体积),从样品获得的dna的量,或者可分析或可测序dna的量。在一个实施例中,突变负荷可以被归一化为所检验的受试者的生物特征参数,例如体重、身高或体质指数。
[0153]
在本技术中,我们描述了需要多么广泛和深入地进行血浆dna分析来捕获足够的突变负荷,以增强患有癌症的受试者与没有癌症的群体之间的差异,从而实现有效的突变
负荷评估。
[0154]
iv.超深和超宽测序
[0155]
如之前详细解释的,需要进行超深和超宽测序以获得癌症筛查检验所需的性能特征或有效鉴定胎儿新生突变。在本技术中,我们示出了实现超深和超宽测序的多个实施例。此类实施例包括但不限于穷举测序、总模板测序、无pcr测序、单分子测序(一种无pcr测序)和靶向测序。可以使用方法的组合来实现所需的深度和宽度。这样的组合可以整体用于筛查程序,或用于筛查特定的个体或个体组。
[0156]
为了癌症筛查的目的,为了从血浆dna测序中检测癌症相关突变,测序深度将影响区分真正的癌症突变和由于测序错误导致的假阳性的能力。当血浆中的肿瘤dna分数较低时,需要较高的测序深度(图4b)。使用动态截止分析(在后面的章节中描述),当肿瘤dna分数为2%时,200倍的测序深度将能够检测到5.3%的癌症相关突变。假设随机测序错误以0.3%的频率发生,则检测到的突变的数量将高于预期的假阳性的数量。待搜索的基因组的部分将取决于肿瘤组织中预期的突变数量。
[0157]
待搜索的基因组的部分将需要足够大以获得足够数量的待检测的突变。这个宽度参数将取决于检测肿瘤dna分数和待筛查的癌症的类型的期望下限。例如,在黑色素瘤中,突变的中值频率为每1mb约10个。换句话说,在基因组中有约30,000个突变。假设肿瘤dna分数是2%并且搜索基因组的1/10,则预期在200x时通过血浆dna测序将检测到约159个突变。另一方面,如果横纹肌样肿瘤是待筛查的靶标,则突变的中值频率为每1mb仅0.2个。因此,当肿瘤dna分数为2%时,搜索基因组的1/10将产生约3个癌症突变。该数值不足以与测序错误区分开来。
[0158]
图2是示出针对不同的肿瘤dna分数、测序深度、每个基因组的突变的数量和所搜索的基因组的分数的待检测的突变的预期数量的表格200。基于动态截止分析(或其它合适的过滤分析)和0.3%的测序错误率,每个病例的全基因组的假阳性的预期数量《10。因此,当可检测突变的数量(例如,基于深度和宽度)大于10时,实施例将可用于区分真正的癌症突变与假阳性。
[0159]
如表格200的数据所示,待分析的基因组的部分将取决于预期的肿瘤分数和肿瘤中体细胞突变的频率。通过对5%基因组的分析,当肿瘤分数为10%时,突变的数量将远高于假阳性的数量,突变的频率为每mb 10个,以及测序深度为200倍。使用模拟分析,我们推测出,即使在0.1%的基因组上搜索时,检测到的突变的数量将足以区分随机测序错误。对于其它的突变频率和测序深度,可能需要分析基因组的较高部分,例如可以通过将序列读码与参考基因组比对来分析1%、5%、10%和20%的基因组。
[0160]
为了癌症筛查的目的,没有必要鉴定100%的癌症相关突变。在一个实施例中,仅需要显示特定个体在血浆(或其它生物样品)中检测到的突变的数量高于没有癌症的参考对照群体中的突变的数量。然而,为了使这一策略高度准确,由突变负荷评估方案检测到的真正突变的比例需要尽可能高(或假阳性的比例需要尽可能低),从而使得由所述评估检测到的大量的变体反映癌症的存在。如果这不能实现,则样品中检测到的大量的推定突变可能只反映大量的假阳性变体,因此不能将患有癌症的受试者和没有癌症的受试者区分开来。因此,本技术中的实施例描述了如何减少假阳性的检测以及如何增加真正突变的检测以实现有效的突变负荷评估。
[0161]
可以通过穷举测序或其它手段(例如多个靶向测序板的光(非穷举)测序)来实现超深和超宽测序。光测序可用于最小化pcr重复,从而可以获得所需的深度。可以使用多个靶向测序板来提供整个基因组的广泛覆盖。
[0162]
a.穷举测序和总模板测序
[0163]
为了针对癌症的早期鉴定和在早期鉴定癌症开发一种有效的癌症筛查检验,理想情况下,从血浆样品中获得尽可能多的癌症相关信息。有一些问题妨碍了从血浆样品中获得癌症相关信息的能力:(1)待分析的样品具有有限的体积;(2)特定生物样品中的肿瘤分数在早期癌症中可能较低;(3)可用于检测的每个肿瘤的体细胞突变的总量约为1,000至10,000;以及(4)分析步骤和技术过程将导致信息内容的损失。因此,应该尽量使血浆样品中易于检测的任何癌症相关信息内容的损失最小化。
[0164]
由于样品制备步骤、测序文库制备步骤、测序、调用以及比对中的限制,并非样品中的所有血浆dna分子都是可分析或可测序的。穷举测序是指被实施以使有限样品中的信息性dna分子(例如,具有突变的dna分子)尽可能多地转化成可分析或可测序分子的能力最大化的程序。可以采用几种方法来实现穷举测序。
[0165]
什么构成信息性dna群体可以根据正在检验的内容而有所不同。对于癌症检查,它将是信息性癌症血浆dna片段。对于产前检查,它将是母体血浆中的源自胎儿的dna分子。对于移植监测,它将是移植受体的血浆中的源自供体的分子。对于检测其它疾病,它将是源自具有病状的器官或组织或细胞的那些血浆dna分子。对于检测包含突变的异常生物过程,它将是源自参与该过程(例如大脑在衰老)的器官或组织或细胞的那些血浆dna分子。此类生物过程的实例可以包括衰老、突变的遗传易感性(例如,着色性干皮病)、来自环境的诱变影响(例如辐射或uv暴露)或毒素以及药物(例如细胞毒性剂)的作用。至于样品类型,为了检查尿液样品中的dna,它可以是已经从循环系统(例如从血浆)经肾上腺进入尿液样品中的癌症dna分子(botezatu等人,clin chem 2000;46:1078-1084)。对于其它癌症,它可以是从泌尿生殖道癌症(例如从膀胱或肾)到尿液样品中的癌症dna分子。
[0166]
为了尽可能穷举,可以采用以下方法中的任何一种、全部或组合:(1)使用减少dna损失或具有高dna文库转化效率或测序效率的dna制备方案;(2)通过使用无pcr dna制备方案绕过pcr重复的问题;(3)通过使用无pcr dna制备方案减少测序错误;(4)通过采用有效的比对算法(例如重新比对策略)减少比对错误。通过采用这些措施中的一些或全部,可以降低血浆dna信息内容的损失程度以及排序资源的浪费,从而可以更经济有效地实现超深和超宽测序。
[0167]
在应用这种穷举测序意图的措施之后,癌症相关信号或信息性癌症dna片段的量可能变得如此有效,从而只有一部分样品的信息已经足以达到分类以“采纳”或“杜绝”癌症。例如,如在后面的来自hcc患者的血浆样品与脐带血血浆样品之间的突变负荷比较的实例所示,75x深度处的数据已经足以清楚地区分hcc病例与没有癌症的新生儿的脐带血血浆。针对hcc血浆样品生成220x的数据。但是75x的数据已经足够了,因为使用用于穷举测序意图的程序检测到的信息性癌症dna片段的数量已经足够,并且对癌症的阳性分类具有足够的质量。
[0168]
如果确实完全用尽了来自有限样品的可测序血浆dna分子,则这种行为可被称为“总模板测序”。这是指穷举测序的一个谱系。例如,对来自hcc病例的所有血浆dna文库进行
测序以达到220x的深度。
[0169]
还可以使用单分子测序仪进行穷举测序(cheng等人,clin chem 2015;61:1305-1306)。此类单分子dna测序仪的实例包括但不限于使用单分子实时dna测序技术由pacific biosciences制造的测序仪(www.pacificbiosciences.com/)和纳米孔测序仪(例如,由oxford nanopore制造的测序仪(www.nanoporetech.com/))。许多这样的单分子测序平台允许从被测序的分子直接获得表观遗传信息(例如dna甲基化模式)(ahmed等人,j phys chem lett 2014;5:2601-2607)。由于已经描述了癌症中的表观遗传畸变,具有这种表观遗传信息将进一步增强癌症的筛查、检测、监测和预后。例如,下面描述了基于甲基化的过滤技术。
[0170]
可以从测序数据获得表观遗传信息的另外一个实施例是进行模板dna的亚硫酸氢盐转化,然后进行dna测序。亚硫酸氢盐转化是甲基化胞嘧啶保持不变的过程,而未被甲基化的胞嘧啶将被转化成尿嘧啶。后者在dna测序期间将被读作t残基。然后可以对亚硫酸氢盐转化的模板dna的测序文库进行亚硫酸氢盐测序,它是一种甲基化感知测序的形式。然后可以使用本领域技术人员已知的方法来执行比对,例如jiang等人的方法(plos one 2014;9:e100360)。
[0171]
当针对癌症使用无细胞dna的测序时,可以结合来自测序结果的许多类型的分子信息,即血浆中的病毒基因组序列(用于与病毒感染相关的癌症,例如npc的ebv)、肿瘤相关的单核苷酸变体、拷贝数量畸变和表观遗传信息(例如dna甲基化(包括5-甲基胞嘧啶特征和羟甲基化)、组蛋白乙酰化/甲基化变化等)。这种信息的组合可以使分析更加敏感、具体和临床相关。
[0172]
b.无pcr方案
[0173]
为了检测被检查的受试者的血浆(或含有无细胞dna的其它样品类型)中的任何癌症相关变化,检测到这种变化的概率理论上应随着所分析的dna分子的数量的增加而增加。这里我们使用一个假设的实例来说明这个原理。假设癌症受试者中20%的血浆dna源自肿瘤,并且肿瘤在特定核苷酸位置具有点突变。该突变只发生在两个同源染色体之一中。结果是,覆盖此特定核苷酸位置的血浆dna的10%将携带所述突变。如果我们分析覆盖所述核苷酸位置的一个dna分子,则检测到突变的概率将为10%。如果分析了覆盖所述核苷酸变化的10个血浆dna分子,则检测到突变的概率将增加到65.1%(概率=1-0.9
10
)。如果我们进一步将被分析的分子的数量增加到100,则检测到突变的概率将增加到99.99%。
[0174]
在使用大规模并行测序来分析来自癌症受试者的血浆dna时,可以应用这个数学原理来预测检测到癌症相关突变的概率。然而,用于对血浆进行测序的典型的大规模并行测序平台(例如具有truseq文库制备试剂盒的illumina hiseq2000测序系统),在测序之前将对模板dna进行pcr扩增。
[0175]
扩增是指当与原始输入核酸相比较时导致模板dna的量增加(超过1倍)的过程。在本技术中,扩增过程是在dna模板分析步骤(例如测序)之前的文库制备期间进行的步骤。通过扩增,可用于分析的模板dna的量将增加。在一个实施例中,可以使用pcr进行扩增,所述pcr涉及温度的循环变化。在另一个实施例中,可以使用等温方法进行扩增。在一些实施例中,我们示出了扩增的模板dna降低了实现突变负荷评估的效率。在分析步骤期间发生的克隆扩充步骤(例如在合成测序期间的桥式扩增)不被认为是扩增,因为它不会导致额外的序
列读码或序列输出。
[0176]
当使用pcr时,测序深度(即覆盖特定核苷酸的序列读码的数量)不直接反映对多少覆盖该特定核苷酸的血浆dna分子进行分析。这是因为在pcr过程中一个血浆dna分子可以产生多个复制,并且多个序列读码可以源自单个血浆dna分子。这个重复问题对于以下各项将变得更加重要,i)用于扩增测序文库的更高数量的pcr循环;ii)增加的测序深度,以及iii)原始血浆样品中较少数量的dna分子(例如较小体积的血浆)。
[0177]
另外,pcr步骤引入了进一步的错误(kinde等人,proc natl acad sci usa 2011;108:9530-9535),因为dna聚合酶的保真度不是100%,并且偶尔会将错误的核苷酸并入pcr子链中。如果在早期pcr循环期间发生该pcr错误,将产生显示相同错误的子分子的克隆。错误的碱基的分数浓度可能在相同基因座的其它dna分子中达到很高的比例,使得误差将被误解为源自胎儿或源自肿瘤的突变。
[0178]
在这里,我们推测使用无pcr方案进行大规模并行测序将能够更有效地利用测序资源,并且它可以进一步增强生物样品的信息的获取。在一个实施例中,血浆样品中的所有dna分子将在大规模并行测序分析期间使用无pcr方案在测序分析中进行测序。可以使用的一种无pcr方案是由berry genomics(investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=1949110)开发的。还可以使用其它无pcr方案,诸如由illumina(www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html)销售的无pcr方案。这里我们用一个实例来说明该原理。
[0179]
为了说明,我们首先假设所有血浆dna片段大小为150bp,它们与通常小于200bp的血浆dna片段一致,如上所述。因此,每个二倍体人类基因组将被裂解成4000万个血浆dna片段。由于在一毫升血浆中有大约1,000个二倍体人类基因组,所以1ml血浆中将有400亿个血浆dna片段。如果我们对来自1ml血浆的400亿个dna片段进行测序,我们预期所有的dna分子都将被测序。为了说明,如果使用每次运行可以产生20亿个读码的illumina hiseq 2000系统,则需要20次运行才能实现这种测序量,所述测序量可以通过更高吞吐量的平台降低。
[0180]
可以在测序分析之前使用例如但不限于数字pcr或实时pcr来确定血浆样品中的总dna浓度。总dna浓度可用于确定对样品中所有可分析或可测序dna分子进行测序所需的测序量。在涉及其它程度的穷举测序的其它实施例中,可以对血浆样品中的多于20%、25%、30%、40%、50%、60%、75%、90%、95%或99%的dna分子进行测序,所述这些都是穷举测序的实例。
[0181]
待测序的dna分子的百分比的关键决定因素包括突变量、样品中的肿瘤分数和dna文库产量。可以基于文库的体积、浓度和转化效率确定测序文库中潜在可测序的分子的数量。需要被测序的dna片段的数量可以基于肿瘤分数的期望的可检测限度和肿瘤中的突变的预期数量来确定。基于这两个数值,可以确定待测序的文库的部分。
[0182]
使用无pcr方案进行穷举测序的一个优点是,我们可以直接推断样品中任何靶标分子的绝对量,而不是确定与相同反应中被测序的其它参考靶标的相对量。这是因为每个序列读码代表来自一个原始血浆dna分子的信息。事实上,如果使用pcr扩增进行超深和超宽测序,则靶标分子相对于彼此的量将进一步与真实表现偏移。原因是由于作为pcr扩增的结果产生pcr重复,以及由于扩增偏差,其中一些基因组区域比其它基因组区域更好地扩增。
[0183]
测序文库的pcr扩增通常在大多数现有的大规模并行测序方案中进行,因为该步骤可以增加测序文库中的分子的数量,从而可以更容易地进行测序步骤。pcr重复(复制)是原始模板dna分子的克隆产物。pcr重复的存在阻碍了超深和超宽测序的实现。来自pcr复制的序列读码的比例将随着进行的测序的量(测序深度)而增加。换句话说,随着更深入地执行测序,在独特的信息内容中存在受益递减。因此,在许多情况下,pcr复制的测序将导致测序资源的浪费。这最终意味着与无pcr方案相比时,需要多得多的测序来达到相同的基因组覆盖宽度和深度。因此,成本会高得多。事实上,在一些情况下,pcr重复的比例可能非常高,以致于在实践中永远不能达到优选的覆盖宽度和深度。
[0184]
这对于本领域技术人员来说是反直观的。传统上,进行pcr扩增,包括全基因组扩增,以从有限样品提供更多的遗传物质来进行更多的分子分析。我们的数据显示,这样的扩增步骤可能会产生相反效果。这对血浆dna分析尤为是反直观的。
[0185]
已知血浆dna含有低浓度的低丰度dna,由无细胞dna组成的其它样品同样如此。因此,在没有扩增稀少量的dna的情况下,就不会想到获得更多的信息。事实上,在基于扩增的文库制备方案中,通常每4ml血浆获得150至200nm的衔接子连接的dna文库。但是如本技术中的实例所示,从等量的血浆体积获得仅2纳摩尔衔接子连接的dna文库。可以想象,这样低的量将是得到更多基因组信息的障碍,因此可能被诱导在分析之前进行扩增步骤。这种扩增的文库将产生重大问题,因为这样的文库的很大一部分将由pcr重复组成。
[0186]
此外,使用这样一个扩增的文库,实际上不能执行总模板测序来从4ml血浆样品中获得尽可能多的信息(因为每次测序运行应用固定量的文库,并且需要极多次的运行才能用尽所述文库)。如我们的数据所示,需要大约20次illumina测序运行才能完全用尽hcc的无pcr文库和我们研究的怀孕病例。如果使用基于pcr或扩增的文库构建方案来代替,则需要进行100次测序,意味着大约2000次运行。换句话说,使用扩增的文库,正在创建用尽大部分测序功率的重复分子。相比之下,来自无pcr方案的2纳摩尔的文库可以容易用尽,这相当于耗尽4ml血浆样品的可分析信息。
[0187]
能够用完合适比例的4ml血浆样品是重要的。如前面提出的一些计算所示,在早期癌症期间,血浆样品中基因组当量的癌症dna的数量很低,并且需要能够尽可能多地检测血浆样品中这些癌症基因组等价物。假设使用无pcr文库制备方案,可以通过进行10次血浆dna样品的illumina测序来实现癌症分类。这10次运行将用尽一半测序文库。这与使用一半血浆样品(即2ml)的可分析内容相关,以实现癌症分类。另一方面,在相同样品的pcr扩增的文库上进行10次运行相当于仅用尽0.5%的文库(因为在pcr扩增方案的文库生产中通常有100次扩增)。这与使用原始4ml血浆样品的仅0.02ml的可分析内容相关,并且获得的数据量不足以用于实现癌症分类。因此,反直观的是,使用较少的dna文库产生而不进行pcr扩增,可以在每固定量的测序中获得更多的癌症相关信息。
[0188]
本领域技术人员已经证明pcr重复,也称为pcr复制,可以用生物信息学程序去除,所述生物信息学程序鉴定显示相同的起始和末端核苷酸坐标的任何序列读码。然而,如将在后一章节中所示的,我们现在已经鉴定出血浆dna片段末端位置不是随机的,因此会发生错误的过滤。使用无pcr方案而不应用生物信息学步骤来过滤具有相同的起始和末端核苷酸坐标的序列读码,我们用相同的起始坐标或末端坐标或两者鉴定较小百分比的序列读码(通常《5%)。这一观察结果是血浆dna切割的非随机性质的结果。实施例可将癌症特异性末
端位置的鉴定作为筛选标准来鉴定信息性癌症dna片段。采用无pcr方案将有助于这种分析和使用这一标准。此外,这也意味着先前去除具有相同的起始和末端核苷酸坐标的序列读码的实践实际上已经去除了可用的信息性癌症dna片段,从而导致来自血浆dna样品的癌症相关信息内容的损失。
[0189]
illumina测序平台的测序错误率大约为0.1%至0.3%的测序核苷酸(loman等人nat biotechnol 2012;30:434-439;kitzman等人,sci transl med 2012;4:137ra76)。报道的一些其它测序平台的错误率甚至更高。如已经证明的,0.3%的测序错误率并不是微不足道的,而是为研究人员非常高精度地鉴定血浆中的胎儿新生突变(kitzman等人,sci transl med 2012;4:137ra76)或癌症特异性体细胞突变造成了障碍。这种错误率与超深和超宽测序更为相关。深度为200x的测序数据集中0.3%的错误转化为2亿个错误。
[0190]
通过pcr扩增步骤在预测序dna文库制备步骤期间产生一定比例的这种测序错误。通过使用无pcr方案进行文库制备,可以减少这种类型的错误。这将使排序更具成本效益,因为可以花费较少的试剂来测序这些人工制品,并且花费较少的生物信息学时间来处理这些错误。另外,如果包括pcr扩增,则可以在其它情况更小的测序深度下在较少的假阳性中更具体地鉴定出真正的阳性胎儿新生突变和癌症衍生的体细胞突变。事实上,这些优点对其它研究人员来说并不明显(见下一节)。
[0191]
c.在有和没有对测序文库进行预扩增的情况下的测序的结果
[0192]
针对有和没有利用pcr对测序文库进行预扩增的方案,我们进行了模拟分析来比较检测血浆中癌症相关突变所需的测序量。为了确定来自pcr复制的序列读码的比例,即对分子进行不止一次的测序,我们使用了以下假设:(1)在1ml血浆中有500个基因组当量的dna;(2)从2ml血浆中提取dna,产率为50%;(3)40%的所提取的dna可以成功转化为测序文库;(4)对于预扩增进行10个pcr循环,并且pcr效率为100%;(5)预扩增和未扩增的文库的裂解模式是相同的;(6)血浆dna的长度为166bp。
[0193]
图3是示出来自pcr复制的序列读码的百分比与测序深度之间关系的曲线图300。来自pcr复制的序列读码的百分比随着测序深度而增加。在200x的测序深度下,44%的序列读码将来自pcr复制。来自pcr复制的这种序列读码不会提供额外的信息。
[0194]
图4a和4b示出了根据本发明的实施例的在各种肿瘤dna分数下pcr方案和无pcr方案检测癌症受试者的血浆中的癌症相关突变所需的测序深度之间的比较。基于来自pcr复制的预测的百分比,进行模拟分析以确定检测癌症受试者的血浆中的癌症相关突变所需的测序量。进行模拟以覆盖血浆中1%至10%的肿瘤dna分数。假设在这个受试者的癌细胞的基因组中存在30,000个突变。
[0195]
具有pcr预扩增的方案需要更高的测序深度以在肿瘤中的任何肿瘤dna分数下检测癌症相关突变。随着肿瘤dna分数的降低,所需的测序深度差异将呈指数增长。在血浆中的肿瘤dna分数为10%时,有和没有pcr预扩增的方案分别需要37x和25x的测序深度。然而,在血浆中的肿瘤dna分数为2%时,所需的相应测序深度为368x和200x。
[0196]
因此,使用无pcr方案对于检测血浆中的癌症相关变化非常有利,特别是当血浆中的肿瘤dna分数较低时。如果血浆的肿瘤基因组内存在的突变的数量较少,则需要较高的测序深度。有或没有扩增的方案所需的深度的差异甚至更大,特别是当血浆样品中的肿瘤dna分数较低时。
[0197]
d.与传统的“深度测序”的区别
[0198]
有许多区分用于实现超深和超宽测序的穷举测序与先前的测序方法的使用的特征。在一方面,称为“深度测序”的先前测序方法中的一些通常涉及例如通过pcr对感兴趣的靶标序列进行扩增。然后,通过测序对扩增的dna(也称为扩增子)进行多次测序。这种方法的一个实例是标记的扩增子深度测序(forshew等人,sci transl med 2012;4:136ra68)。另一方面,穷举测序在没有任何扩增步骤的情况下被最有效地实施,因为所有检测到的片段都是原始片段,而不是复制数据,从而允许更大的宽度和真正的深度(而不是表观深度)。通过表观深度,我们指的是扩增的测序文库的测序,其中测序功率的一部分在测序pcr重复中被消耗,因此测序的信息产率与其深度不相当。
[0199]
由于深度测序通常使用扩增步骤,所以测序功率的一部分花费在对pcr重复进行测序上。此类pcr重复的存在使得非常难以通过对扩增的测序文库进行深度测序来彻底分析样品内的每个模板dna分子。许多组已经描述了例如通过对测序文库进行条码测序提供关于重复率的信息的方法(kinde等人,proc natl acad sci usa 2011;108:9530-9535)。例如,在kinde等人描述的方法中,必须执行三个步骤:(i)将唯一标识符(uid)与每个模板分子比对,(ii)将每个唯一标记的模板分子扩增以产生uid家族,以及(iii)对扩增产物进行冗余测序。相比之下,使用无pcr文库进行穷举测序将避免pcr重复引起的问题,而且kinde等人描述的方法将是不必要的。
[0200]
事实上,大多数先前实践的深度测序方法无法达到使用穷举测序可以实现的宽度。例如,扩增子测序通常针对较窄的基因组区域获得较高的深度。即使使用复用,覆盖的基因组的总宽度也是有限的并且远远不及全基因组。如本技术中所解释的,对于癌症筛查检验,优选尽可能接近全基因组覆盖率以尽可能多地覆盖推定突变位点。例如,即使应用极端程度的多重扩增子测序,例如,300万个扩增子,每个覆盖1,000个碱基,pcr重复将成为如之前所述的问题。
[0201]
类似地,研究人员已经应用杂交捕获来实现选择性基因组区域的深度测序,称为靶向测序。然而,捕获方案通常涉及扩增步骤。当靶向区域的大小相对较小时,在血浆dna中进行靶向测序时将达到大的pcr重复的比例,约50%甚至高达90%(new等人,j clin endocrinol metab 2014;99:e1022-1030)。在如此高水平的pcr重复下,测序的有效深度降低。测序的宽度受靶标区域的大小限制。
[0202]
这些观察结果表明,研究人员没有被启发同时实现广泛而深入的测序。然而,采用本技术中描述的穷举测序原理,可以修改靶向测序方案,以确保pcr重复率保持最小,同时需要捕获大部分人类基因组。例如,可以使用光扩增来制备靶标测序文库以将pcr重复保持在最小。然后,需要通过汇集来自多个靶标面板的数据来实现分析的宽度。然而,当考虑到这些注意事项时,靶向方法可能不比非靶向穷举测序方法更具成本效益。仍然,可能存在其它原因,其中优选大部分基因组的靶标富集。例如,如果一个部分显示出用于新生突变或体细胞突变的发生的聚类,则可以证明需要将穷举测序工作集中到基因组的重复或非重复区域。作为实例,人们可能更喜欢将精力集中在异染色质而不是基因组的常染色质区域上。
[0203]
e.用于胎儿分析
[0204]
血浆dna的穷举测序可用于非侵入性产前检查。胎儿dna存在于孕妇的血浆中(lo等人,lancet 1997;350:485-487)并且可用于胎儿的非侵入性产前检查(例如用于染色体
非整倍体和单基因疾病)。
[0205]
到目前为止,通过母体血浆dna测序检测新生胎儿突变受到当前一代的大规模并行测序仪(kitzman等人,sci transl med 2012;4:137ra76和美国专利申请us2015/0105261a1)的测序错误率的阻碍。因此,使用先前报道的方法,在母体血浆中鉴定出数百万的候选胎儿新生突变,但这些突变中只有几十个才是真正的突变,尽管包含生物信息学步骤来过滤潜在的假阳性。
[0206]
然而,使用母体血浆dna的穷举测序,可以克服这个问题。使用无pcr文库制备方法,在不止一个的母体血浆dna分子中鉴定的候选胎儿新生突变为真正突变的机率较高。在其它实施例中,可以设置更严格的分类标准,诸如在母体血浆样品中鉴定相同的突变超过2、3、4、5或更多次。
[0207]
许多工人使用单分子测序,例如使用helicos平台,用于母体血浆无创产前检查,从而检测胎儿染色体非整倍体(van den oever等人,clin chem 2012;58:699-706和van den oever等人,clin chem 2013;59:705-709)。然而,这项工作是通过对血浆中的一小部分分子测序进行的,因此无法实现深度和宽度测序。
[0208]
f.穷举测序的进一步应用
[0209]
在另一个实施例中,可以使用穷举血浆甲基化测序来鉴定源自身体内的不同器官的血浆dna分子。这是可能的,因为身体内的不同组织具有不同的甲基化特征。通过去卷积过程,可以鉴定不同组织对血浆的相对贡献(sun等人,proc natl acad sci usa 2015;112:e5503-5512)。
[0210]
在血浆dna的穷举测序的另一个实施例中,可以鉴定与多种生理或病理过程相关的血浆dna中的突变。在一个实施例中,这些方法包括与衰老相关的方法。在另一个实施例中,这些方法包括与环境因素(例如污染、辐射、致病因子、有毒化学物质等)相关的方法。在后一个实施例中,不同的方法可能具有其自己的突变标记(alexandrov等人,nature 2013;500:415-421)。
[0211]
血浆核酸的穷举测序也可以应用于血浆中的mrna和非编码rna(例如微rna和长非编码rna)的测序。先前的数据证明血浆转录组图谱将允许来自各种组织的贡献从血浆样品中去卷积(koh等人,proc natl acad sci usa 2014;111:7361-7366)。血浆的穷举转录组测序将进一步增强这种方法的鲁棒性和可用性。
[0212]
v.用于鉴定突变的过滤标准
[0213]
如上文第iii.b节所述,通过将过滤标准应用于已经比对具有突变的一个或多个序列读码的基因座可以改进鉴定突变的特异性和使用这些突变的任何检验员(例如,使用突变负荷来确定癌症水平)。作为癌症的实例,只有当高度信任其是癌症相关时,才能通过将遗传或基因组标记评分为阳性来实现高特异性。这可以通过使可能被错误地鉴定为突变的测序错误和比对错误的数量最小化来实现,例如通过与一组健康对照的基因组图谱相比较,和/或可以通过与一个人自身的构成dna进行比较来实现和/或可以通过与在较早时间这个人的基因组图谱进行比较来实现。
[0214]
可以将各种标准用作过滤标准来评估dna片段携带突变的可能性。每个过滤标准可以单独地、独立地、共同地以相同的加权或不同的加权或者以指定的顺序串联,或者有条件地依赖于先前的过滤步骤的结果使用,如上所述。以下提供过滤标准的实例。
[0215]
a.动态截止
[0216]
可以使用一种或多种动态截止过滤标准来区分单核苷酸变体(即突变和多态性)与由于测序错误导致的核苷酸变化。根据上下文,突变可以是“新生突变”(例如,胎儿的构成基因组中的新突变)或“体细胞突变”(例如,肿瘤中的突变)。可以针对多个基因座中的每一个确定各种参数值,其中将每个参数值与相应的截止值进行比较。如果参数值不满足截止值,则可以将作为潜在突变的基因座丢弃。
[0217]
为了鉴定癌症中的体细胞突变,可以将来自一个人的构成dna(例如,血沉棕黄层)和血浆dna的高深度测序数据进行比较,以鉴定血浆dna中为杂合的位点(ab)和构成dna中为纯合的位点(aa)。“a”和“b”分别表示野生型等位基因和突变体等位基因。在这里,我们说明了实现用于突变检测的动态截止策略的一个实施例,其中使用二项式和泊松分布模型来计算三个参数。
[0218]
关于第一个参数,确定构成dna中纯合位点(aa)的准确性受到测序错误的影响。测序错误可以通过本领域技术人员已知的许多方法来估计。例如,illumina hiseq平台的测序错误率(由“ε”表示)被估计为0.003。假设顺序计数遵循二项分布,我们计算出第一个参数,得分1,为
[0219]
得分1=1-pbinom(c,d,ε)。d表示测序深度,其等于“c”和“a”的总和。“c”是指覆盖突变体等位基因b的序列读码的数量。“a”是指覆盖野生型a等位基因的序列读码的数量。“pbinom”是二项式累积分布函数,其可以被写成
[0220][0221]
其中表示数学组合函数,即从测序深度d选择突变体等位基因i次的组合数量,其可以使用阶乘被进一步写为得分1的值越高,越确信实际的基因型为aa。可以使用大于0.01的截止值。该参数可用于控制测序错误的影响。
[0222]
关于第二个参数,在构成基因组中的观察到的野生型aa(纯合的)有可能由于snp位点的不足的测序深度而与实际的ab(杂合的)基因型相混淆。为了使这种类型的错误的影响最小化,我们计算了第二个参数,得分2,为得分2=ppois(b,d/2),其中“b”是覆盖b等位基因的被测序计数的数量,以及“ppois”是泊松累积分布函数,其可以被写为
[0223][0224]
其中λ是每条链的平均测序深度(即d/2);e是自然对数的底(~2.717828)。得分2的值越低,越确信实际的基因型为aa。例如,可以使用《0.001、0.0001、10-10
等.的截止值。该参数可用于控制等位基因或变体脱离,其指因为一个等位基因或变体不能被扩增而出现像纯合位点的杂合位点,因此该缺失的等位基因或变体已经脱离。以下某些数据使用得分1》0.01和得分2《0.001的截止值,其中得分1和得分2可用于保证血沉棕黄层是纯合的。
[0225]
关于第三个参数,由于测序错误,观察到的突变体ab有可能与实际的aa基因型相混淆。为了最小化这种类型的错误的影响,我们计算了第三个参数得分3,为
[0226]
得分其中表示一个数学组合函数,即,从测序深度d中选择突变体等位基因b次的组合数量,其可以使用阶乘被进一步写为“ε”表示该实例中被估计为0.003的测序错误率。得分3越低,越确信实际的基因型为ab。例如,可以使用《0.001、0.0001,10-10
等的截止值。
[0227]
得分1和得分2可以应用于构成组织,以及得分3可以应用于混合物(肿瘤或血浆)。因此,可以通过调整得分1、得分2和得分3来进行构成组织与混合样品之间的联合分析,以确定潜在突变。
[0228]
根据预期目的,用于计算每个得分的不同阈值可用在动态截止中。例如,如果在体细胞突变的鉴定中优选高特异性,则可以使用较低的得分3值。类似地,如果优选检测到较大的体细胞突变总数,则可以使用较高的得分3值。通过使用其它过滤参数,例如如下所述,可以改善所鉴定的体细胞突变的特异性。也可以使用其它数学或统计模型,例如,卡方分布、伽马分布、正态分布和其它类型的混合模型。该过程可以类似地应用于胎儿新生突变的鉴定。
[0229]
b.重新比对
[0230]
一个或多个重新比对过滤标准可以减少测序错误和比对错误对检测测序数据中的序列变体的影响,因此也可以减少突变鉴定中的假阳性。现在描述使用重新比对的各种实施例。
[0231]
在初始(第一)比对过程中,例如通过本领域技术人员可获得的任何比对技术,例如soap2(li等人,bioinformatics 2009;25:1966-7),可以将测序读码与参考基因组(例如,参考人类基因组)比对(映射到参考基因组)。在与基因座比对后,可以进行与基因组(例如,参考基因组、受试者的构成基因组或与受试者相关的构成基因组,或者受试者的父母的基因组)的比较,以鉴定读码中是否存在序列变体。
[0232]
通过使用独立(第二)比对器,例如bowtie2(langmead等人,nat methods 2012;9:357-9),可以将携带推定变体的序列读码与参考人类基因组重新比对(再次映射到参考人类基因组)。在匹配算法的使用方面,独立比对器将不同于初始比对器。初始比对器和重新比对器使用的匹配算法的实例可以包括例如但不限于smith-waterman算法、needleman-wunsch算法、哈希算法和burrows-wheeler变换。重新比对可以鉴定和量化所鉴定的突变的质量或确定性。独立比对器可以以其它方式与初始比对器不同,同样地,诸如报告有效比对的阈值、对插入/缺失和错误匹配的惩罚、允许的错误匹配数量、用作比对种子的核苷酸数量。
[0233]
在一些实施例中,以下重新比对标准可以单独使用或组合使用以将映射的读码鉴定为低质量序列读码:(1)携带突变的序列读码没有被与独立比对器回收,所述独立比对器没有与序列读码比对(映射);(2)当使用独立比对器来验证原始比对时(例如,与原始比对结果相比,映射的读码被放置到不同的染色体)时,携带突变的序列读码显示不一致的映射结果;(3)使用独立比对器(例如,映射质量≤q20(即,未比对概率《1%)),与同一基因组坐标比对的携带突变的序列读码表现出小于指定阈值的映射质量——阈值的其它实例可以为0.5%、2%和5%的未比对概率;(4)序列读码具有位于5bp的任一读码末端(即5'或3'末
端)内的突变。最后这个过滤规则可能很重要,因为测序错误在序列读码的两个末端更为普遍。映射质量是在比对器内定义的度量,并且指定序列读码未比对的概率。不同的比对器可以使用不同的度量。
[0234]
如果携带突变的序列读码中低质量序列读码的比例大于某一阈值(例如,30%、35%、40%、45%或50%),则可以丢弃所述候选突变体位点。因此,如果剩余的序列读码小于阈值,则可以从被鉴定为在至少一些组织(例如,肿瘤的组织或胎儿的组织)中具有突变的一组基因座中丢弃该基因座。
[0235]
在先前的工作中,包括gatc(www.gatc-biotech.com)和mutect算法(cibulskis等人,nat biotechnol 2013;31:213-219)的成果,只有潜在的插入或缺失位点被重新比对。那些其它方案不会使用来自不同比对器的数据重新计算序列读码的质量得分。此外,尚未证明重新计算的质量得分可以用于过滤推定变体或突变的目的。下面示出了数据,以说明使用重新比对程序的功效。
[0236]
c.突变分数
[0237]
本领域技术人员将认识到存在可用于测量母体血浆中的胎儿dna的分数浓度或癌症受试者的血浆中肿瘤dna的分数浓度的方法。因此,在一个实施例中,为了提高鉴定真正信息性dna片段的机率,只有具有等于或高于通过另一种方法测量的分数浓度的分数计数的等位基因或变体才被认为是真正的变体或突变。分数浓度截止值被称为突变分数阈值(m%),或仅称为分数阈值。其它实施方式可以使用低于所测量的分数浓度的阈值,但所选择的阈值可以取决于所测量的值(例如,在所测量的分数浓度的指定百分比内)。
[0238]
在另一个实施例中,即使不考虑所测量的胎儿dna部分或肿瘤dna分数,也可以采用其它值作为突变分数阈值。如果优选突变鉴定中较高的特异性,则可以使用较高的m%作为截止值。如果优选突变鉴定中较高的灵敏度,则可以使用较低的m%作为截止值。分数阈值的实例包括5%、10%、15%、20%、25%和30%。
[0239]
在又一个实施例中,连续染色体区域内的推定突变的等位基因分数的方差可以提供关于来自该区域的dna片段为信息性癌症dna片段的可能性的信息。例如,感兴趣的连续染色体区域可以是具有拷贝数量畸变的那些区域。在具有拷贝数量增加的区域中,存在大量源自肿瘤的dna。因此,与具有拷贝数量损失(因为在后面这些区域的源自肿瘤的dna的缺失导致)的区域相比,在具有增加的这些区域中,真正的体细胞突变的等位基因分数预计更高。
[0240]
真正推定突变的等位基因比例的范围或方差在拷贝数量增加区域中比拷贝数量损失区域中大。因此,不同的m%可以被设置为具有拷贝数量增加或损失的区域的过滤截止值,以增加鉴定出真正体细胞突变的可能性。指定观察到的血浆突变分数的方差的截止值也可以用于鉴定源自更可能富集源自肿瘤的dna的染色体区域(对于具有拷贝数量增加的区域)或缺失源自肿瘤的dna的染色体区域(对于具有拷贝数量损失的区域)的dna分子。然后可以做出关于dna片段为信息性癌症dna片段的可能性的决定。
[0241]
d.大小过滤器
[0242]
虽然血浆dna通常作为长度《200bp的片段循环,但源自胎儿和源自肿瘤的血浆dna分子分别比背景非胎儿和非肿瘤dna分子短(chan等人,clin chem 2004;50:88-92和jiang等人,proc natl acad sci usa 2015;112:e1317-1325)。因此,可以使用短尺寸作为增加
血浆dna片段是源自胎儿或源自肿瘤的可能性的另一个特征。因此,在一些实施例中,可以应用dna大小过滤标准。
[0243]
可以使用各种大小标准。例如,携带突变体等位基因和野生型等位基因的dna片段之间的中值大小的阈值差异可能需要为至少一定数量的碱基,其可以表示为δs。因此,δs≥10bp可以用作大小过滤标准。其它大小阈值的实例包括0bp、1bp、2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、11bp、12bp、13bp、14bp、15bp、16bp、17bp、18bp、19bp和20bp。也可以使用其它统计学检验,例如,t检验、mann-whitney u检验、kolmogorov-smirnov检验等。可以使用这些统计学检验确定p值,并且与阈值进行比较,以确定携带序列变体的dna片段是否显著短于携带野生型等位基因的那些dna片段。p值的阈值的实例可以包括但不限于0.05、0.01、0.005、0.001、0.0005和0.0001。
[0244]
因此,在一个实施例中,可以获得关于被测序的血浆dna分子的大小信息。还可以使用配对末端测序做到这一点,所述配对末端测序包括对整个dna分子进行测序。对于后者,由于血浆dna分子通常低于166bp,所以可以使用许多短读大规模并行测序平台容易地对整个dna分子进行测序。由于源自癌细胞的血浆dna通常较短,而来自肿瘤周围或非肿瘤组织的血浆dna通常较长(jiang等人,proc natl acad sci 2015;112:e1317-1325),所以具有血浆dna的大小信息将进一步有助于将被测序的片段分类为可能源自癌细胞或非癌细胞。该信息将进一步帮助癌症的筛查、检测、预后和监测。
[0245]
而且,由于母体血浆中的胎儿dna比母体dna短(chan等人,clin chem 2004;50:88-92和yu等人,proc natl acad sci usa 2014;111:8583-8588),所以当解释来自穷举血浆dna测序的结果时,也可以利用血浆dna的大小信息。因此,母体血浆中较短的片段源自胎儿的机率较高。
[0246]
e.甲基化状态
[0247]
dna甲基化图谱在不同的组织之间是不同的。一些甲基化标记是相对组织特异性的。例如,serpinb5的启动子在胎盘中被低甲基化(chim等人,proc natl acad sci usa 2005;102:14753-14758)并且rassf1a的启动子在胎盘中被超甲基化(chiu等人,am j pathol 2007;170:941-950)。包括rassf1a在内的某些肿瘤抑制基因的启动子在癌症中被超甲基化。然而,胎盘(lun等人,clin chem 2013;59:1583-1594)和癌症组织(chan等人,proc natl acad sci 2013;110:18761-18768)显示为全局低甲基化,特别是在非启动子区域中。
[0248]
由于母体血浆中的胎儿dna已被证明具有与源自母体的dna不同的dna甲基化模式,所以dna甲基化信息可以帮助人们预测被测序的分子源自母体或源自胎儿的概率。在一个实施例中,由于胎盘是母体血浆中胎儿dna的主要来源,并且胎盘dna比母体血细胞dna更多地被低甲基化(lun等人,clin chem 2013;59:1583-1594),所以从母体血浆测序的低甲基化dna片段更可能是源自胎儿的dna片段。类似地,在一个实施例中,由于肿瘤dna比血细胞dna更多地被低甲基化(chan等人,proc natl acad sci 2013;110:18761-18768),所以含有从针对癌症进行检查的个体的血浆中测序的推定(候选)突变的低甲基化dna片段比不具有低甲基化的dna片段更可能是癌症相关或癌症特异性的dna片段。
[0249]
甲基化状态可以以各种方式使用来确定基因座是否表现出突变。例如,在将该基因座被认为是突变之前,可能需要与具有突变的基因座比对的dna片段的甲基化密度的阈
68),如下一节所讨论的。在一个实施例中,也可以使用基于末端位置的类似方法也可用于与其它病理学或生物学过程相关的突变检测(例如由于衰老过程引起的突变或由于环境诱变因子引起的突变)。
[0257]
也可以使用类似的方法来通过对怀有胎儿的孕妇的血浆中的dna进行测序来鉴定胎儿的新生突变。因此,在鉴定对胎盘特异性或相对特异性的末端位置之后,如果母体血浆中的这种dna片段也携带胎盘特异性或富集胎盘的末端位置,则可以将更高的加权归因于推定的胎儿新生突变是真正的突变。由于血浆dna片段具有两个末端,所以可以通过考虑其末端中的一个或两个是否与胎盘相关来进一步修改加权以将其鉴定为源自胎儿的片段。
[0258]
为了说明这种方法的可行性,对hcc患者和孕妇的血浆dna的测序数据进行分析。为了说明的目的,所述分析集中在第8号染色体上。相同的方法可以应用于全基因组或任何其它染色体或任何基因组区域或其组合。
[0259]
确定每个被测序的血浆dna片段两个末端处的终端核苷酸的坐标。然后,对结束在8号染色体上的每个核苷酸上的片段的数量计数。针对来自hcc病例和孕妇的每个血浆样品,确定具有结束在其上的数量最多的dna片段的前100万个核苷酸。
[0260]
图5是示出根据本发明的实施例的特异于hcc病例、特异于孕妇或两个病例共享的常见末端位置的数量的维恩图。然后鉴定463,228个核苷酸的坐标,所述463,228个核苷酸的坐标是两个病例共享的常见末端位置。对于hcc病例,从前100万个中减去共享的463,228个核苷酸,以获得被鉴定的536,772个核苷酸的坐标,所述536,772个核苷酸的坐标是特异于hcc病例的常见末端位置。类似地,从怀孕病例的100万个最常见的末端位置中减去共享的463,228个核苷酸,以获得同样被鉴定的536,772个核苷酸的坐标,所述536,772个核苷酸的坐标是特异于孕妇的常见末端位置。
[0261]
具有恰好结束在536,772个hcc特异性结束位置的终端核苷酸的血浆dna片段更可能源自肿瘤。相比之下,具有结束在怀孕特异性结束位置或由两病例共享的位置的终端核苷酸的血浆dna片段不太可能源自肿瘤,怀孕特异性结束位置潜在地不太可能,并且假定在任何实施例中较低加权使用权重。
[0262]
因此,可以使用特定于hcc病例的前几个结束位置的列表来选择癌症相关突变,并且可以使用特异于怀孕病例或两种病例共享的前几个结束位置的列表来过滤掉假阳性突变。类似的程序可用于鉴定胎儿突变并且过滤掉非侵入性产前检查的假阳性突变。
[0263]
一般来说,为了鉴定这些生物相关的血浆dna末端位置,可以将来自一组具有不同疾病或流行病学背景或生理特征的个体的血浆dna样品与来自另一组没有这些疾病或背景或特征的个体的样品进行比较。在一个实施例中,可以对这些样品中的每一个进行深度测序,使得可以在每个样品内鉴定血浆dna片段的常见末端位置。在另一个实施例中,可以将来自具有互补特征的一组群体的序列数据合并在一起,用于鉴定表示疾病或生理特征的公共末端位置。
[0264]
这一分析的目的是鉴定具具有疾病或生物相关特征的个体常见的血浆dna末端位置,但不鉴定没有疾病或生物相关特征的个体中的血浆dna末端位置。例如,比较可能涉及具有和不具有癌症的个体、具有和不具有特定器官或组织的癌症的个体、怀孕和非怀孕个体、具有和不具有某些怀孕相关疾病或胎儿疾病的怀孕个体以及不同年龄的个体。已经在一组参考样品中鉴定出组织特异性或疾病相关的血浆dna末端位置成为用于解释检验样品
的参考组。
[0265]
样品中的每个血浆dna片段可以被单独询问,并且基于末端位置被分配可能性得分。某个末端位置的可能性得分可以取决于结束在目标个体(例如,癌症)的末端位置处的序列读码(例如,通过样品中的测序深度而被归一化的序列读码的百分比或其它值)的量相对于对照组结束的序列读码的量的分离。更大的分离将导致更高的特异性,因此可以应用更高的可能性得分。因此,可以将具有特定末端位置的血浆dna片段分类成可能与疾病相关或不相关的胎儿或母体的血浆dna片段等。
[0266]
可选地,源自相同区域的血浆dna片段可以被统一解释,即结束在特定核苷酸的频率可以通过归一化为测序深度来计算。以这种方式,例如仅仅基于特定类型的一个样品的分析,某些核苷酸可以被鉴定为相对于基因组中的其它位置为公共末端位置,但是可以使用更多的样品。因此,可以将具有特定末端位置的血浆dna片段分类成可能与疾病相关或不相关的胎儿的或母体的血浆dna片段等。对于显示出高频率的具有这种生物相关血浆dna末端位置的血浆dna片段的基因座,可以确定这样的基因座富含生物相关dna,并且这作为具有较高的为癌症相关或胎儿特异性或与其它疾病或生物过程相关的可能性的一组血浆dna片段而被包括在内。可能性水平可以基于给定核苷酸相对于其它核苷酸的频率多高,以与不同组之间的比较相似的方式,如上所述。
[0267]
为了说明这种方法的功效,潜在的癌症相关突变直接通过hcc患者的血浆dna测序数据鉴定出来。在至少两个血浆dna片段的序列读码中存在的单核苷酸变化被认为是潜在的癌症相关突变。肿瘤组织也被测序,并且存在于肿瘤组织中的突变被认为是真正的癌症相关突变。
[0268]
在没有使用动态截止分析的情况下,在8号染色体上,通过hcc患者的血浆dna测序数据鉴定出总共20,065个潜在突变。如果在至少两个被测序的dna片段中存在序列变体,则所述序列变体将被视为潜在突变。从肿瘤组织的测序结果中鉴定出884个真正的体细胞突变。20,065个推定突变包括884个真正突变中的802个(91%)。因此,只有4%的推定突变是肿瘤组织中真正的体细胞突变,得到ppv为4%。
[0269]
为了提高检测体细胞突变的准确性,我们使用了以下基于携带推定突变的序列读码的终端核苷酸位置的过滤算法。(1).对于任何推定突变,如果有至少一个携带突变并且结束在hcc特异性结束位置处的序列读码,则该突变将适合于下游突变分析。(2).携带推定突变但结束在任何怀孕特异性结束位置或两个病例共享的位置的序列读码将被去除。只有在基于该算法去除读码之后有两个或更多个显示相同突变的序列读码时,所述突变才适合于下游突变分析。
[0270]
应用上述1和2过滤算法,得到表1中的结果。基于携带推定突变的dna片段的终端核苷酸的位置或其末端位置应用不同的过滤算法的效果。
[0271][0272]
表1
[0273]
通过采用为过滤掉怀孕特异性或共享的位置的算法的需要末端位置的三种算法中的任何一种,ppv有了实质性的改善。通过应用两种算法,ppv增加到71%。
[0274]
可以针对每个染色体或实际上针对另一个基因组区域,或实际上针对整个基因组鉴定其它数量的hcc和怀孕相关的末端位置,例如但不限于,50万、200万、300万、400万、500万、600万、700万、800万、900万或1000万。在各种实施例中,可以在一个或多个癌症患者群中确定血浆dna分子中最常见的末端位置,每个癌症患者群是一种癌症类型。另外,可以针对没有癌症的受试者确定血浆dna分子中最常见的末端位置。在一个实施例中,具有癌症的患者和没有癌症的受试者可进一步细分为具有不同临床参数(例如性别、吸烟状况、以前的健康状况(例如肝炎状况、糖尿病、体重)等)的组。
[0275]
作为使用此类过滤标准的一部分,统计分析可用于鉴定具有较高的为用于不同生理和病理条件的循环dna的终端核苷酸或末端位置的概率的位置。统计分析的实例包括但不限于student t检验、chi-square检验和基于二项分布或泊松分布的检验。对于这些统计分析,可以使用不同的p值截止值,例如但不限于0.05、0.01、0.005、0.001和0.0001。还可以调整p值截止值用于多重比较。
[0276]
g.单链测序
[0277]
在一个实施例中,可以对每个模板分子的两条互补链进行测序,称为单链测序(snyder等人,cell 2016;164:57-68)。cell 2016;164:57-68)。存在于两条链的测序读码中的变异用于下游分析,而仅出现在一条链的测序读码中的变异被丢弃,或至少该一个dna片段的数据可以被丢弃。这可以进一步呈指数地减少血浆dna分子的测序错误。
[0278]
因为血浆dna片段的每条链可以被独立分析,所以血浆dna片段的末端位置或终端核苷酸的坐标可以以更高的精度和准确度确定。单链测序还允许检测以单链形式而不是双链形式循环的血浆dna片段。通过在分析中包括单链血浆dna分子(例如通过使用促进单链dna分析的文库制备方案(snyder等人,cell 2016;164:57-68)),潜在信息性癌症dna片段的附加群体变得易于检测。
[0279]
此外,使用有利于单链dna的文库制备方案(例如,见snyder等人,cell 2016;164:57-68)也将允许鉴定可用于基于末端位置的过滤标准的附加位置。例如,如果在两条链的两个序列读码的比对之后,两条链没有与相同的组织特异性末端位置比对,则可以赋予序列读码较低的权重作为具有突变。
[0280]
vi.癌症患者的血浆中的体细胞突变检测
[0281]
现在描述针对癌症进行检查的受试者的体细胞突变检测的各种实例。显示各种过滤标准的数据。而且,说明了无pcr的效率。
[0282]
a.试样制备
[0283]
从hcc患者获得临床试样。手术前收集血液样品。在肿瘤切除时收集hcc肿瘤活检物和相邻的正常肝组织的活检物。使用无pcr文库制备方案由试样制备dna文库,并且使用illumina hiseq系列大规模并行测序仪对所述dna文库进行测序。对于血沉棕黄层、肿瘤活检物、相邻的正常肝组织和血浆的活检物得到的测序深度分别为人类单倍体基因组的45x、45x、40x和220x。
[0284]
1.患者信息
[0285]
hcc患者是一名58岁的中国男性,他是没有肝硬化的hbv携带者。肿瘤大小为18cm。他被送往威尔斯亲王医院外科部进行肿瘤切除术,并获得知情同意。该研究获得香港中文大学和新界东医院联网临床研究伦理联席委员会批准。在手术前,将9ml外周血收集在edta管中。肿瘤切除后收集肿瘤组织和相邻的正常组织。
[0286]
2.样品处理
[0287]
所有血液样品均通过双离心方案进行处理(chiu等人,clin chem 2001;37:1607-1613)。简言之,在4℃下以1,600g离心10分钟后,将血浆部分在4℃下以16,000g重新离心10分钟以去除血细胞。将血细胞部分以2500g重新离心,并且去除任何残留的血浆。分别利用qiaamp dna血液迷你试剂盒和qiaamp dsp dna血液迷你试剂盒(qiagen)的血液和体液方案从血细胞中提取dna以及从血浆中提取dna。根据制造商的组织方案,利用qiaamp dna迷你试剂盒(qiagen)从肿瘤和相邻的正常组织中提取dna。
[0288]
3.血浆dna的定量
[0289]
从3.7ml血浆中提取dna,并且在110微升水中洗脱。dna浓度为0.629纳克/微升(qubit荧光计,thermo fisher scientific),产生69ng dna。然后我们使用30ng dna进行文库构建。由于每个3mb基因组被分成166个碱基对(bp)片段,所以每个基因组应该有约1.81
×
107个血浆dna片段。30ng dna应包含[(30
×
1,000)/3.3]
×
1.81
×
107个片段=1.64
×
10
11
个总片段。
[0290]
4.dna文库构建
[0291]
利用truseq dna无pcr文库准备试剂盒(illumina),根据制造商的方案构建基因组dna样品和母体血浆样品的dna文库,所不同的是使用五分之一的索引衔接子用于血浆dna文库构建。存在三种基因组dna样品,即患者的血沉棕黄层dna、肿瘤组织dna和相邻的正常组织dna。对于每个基因组dna样品,将一微克dna进行声处理成200bp片段(covaris)用于文库构建。在20l文库中的文库浓度范围为17至51nm。
[0292]
对于30ng血浆dna样品(1.64
×
1011个片段),文库产量为在20μl文库中2,242pm,其等于44,854阿托摩尔,即2.70
×
1010 166-bp血浆dna片段。从dna到文库的转化率为16.4%。这一转化水平远远高于我们先前的其它dna文库制备试剂盒的经验,所述其它dna文库制备试剂盒中只有大约1%的输入dna可以被转化为文库。
[0293]
5.dna文库的测序
[0294]
针对75bp
×
2(配对末端),在hiseq 1500、hiseq 2000或hiseq 2500测序平台(illumina)上对所有dna文库进行测序。我们对每个基因组dna文库进行多条线路测序。血沉棕黄层、肿瘤组织和相邻的正常组织dna文库的测序深度分别为45x、45x和40x。我们对血浆dna文库进行30.7条线路测序,并且获得约44亿个非重复的映射配对末端读码。测序深度
为220x。
[0295]
为了计算测序后血浆dna文库的回收率,我们在10pm下对每条线路测序120μl dna文库作为输入。输入的片段总数为120
×
10
×
30.7
×
6.02
×
10
23
/10
18
=2.22
×
10
10
个片段。测序后,我们得到4.40
×
109个片段。测序后dna文库的回收率为19.9%。
[0296]
将血浆dna序列与参考人类基因组比对或映射到参考人类基因组。在整个基因组中确定映射到每个1-mb区段(小区间)的读码数量,作为所有序列读码的比例。将每1mb区段的比例或基因组表达与从一组健康对照获得的血浆dna测序数据进行比较,以鉴定如美国专利公开2009/0029377中先前所述的基因组表达的统计学显著增加或统计学显著降低的基因组区域。
[0297]
图6是示出hcc患者1-mb区段的增加、减少或无变化的曲线图600。基因组表达统计学显著增加的区域表明存在拷贝数量增加,而基因组表达统计学显著降低的区域表明存在拷贝数量损失。基因组表达统计学显著增加、减少或无显著变化的小区间分别显示为绿点、红点和灰点。通过量化显示出这种损失的连续基因组区段上的拷贝数量损失的程度(例如,如美国专利申请14/994,023中所述),血浆中源自肿瘤的dna的分数浓度被确定为15%。
[0298]
b.在肿瘤活检物和相邻组织中存在的突变
[0299]
接下来,我们通过与患者的血沉棕黄层测序数据比较来鉴定肿瘤活检物中存在的体细胞突变。进行该分析以确定该特定肿瘤携带多少体细胞突变并且作为目的在于检测血浆dna中的一组突变的黄金标准。对于在肿瘤活检物中检测到但在血沉棕黄层dna中没有检测到的任何等位基因,我们应用一系列过滤标准来鉴定体细胞突变。对一半(即110x)序列数据进行初步分析。
[0300]
图7示出了根据本发明的实施例的使用动态截止、重新比对和突变分数以及从肿瘤活检物中鉴定的突变的结果数据的过滤过程700。如图7所示,我们首先应用动态截止策略来最大限度地检测假阳性单核苷酸变体,所述假阳性单核苷酸变体主要是测序错误的结果。每个框中显示的数值表示在每个步骤中鉴定的推定突变的数量。
[0301]
然后将重新比对策略作为层级a过滤标准应用于使用动态截止策略鉴定的16,027个推定突变,以进一步去除由于测序错误和比对错误引起的变体。接下来,分别应用两个不同的分数浓度截止值。使用至少20%的肿瘤dna分数(m%)作为截止值(层级b标准),鉴定出12,083个体细胞突变。使用至少30%的肿瘤dna分数作为截止值(层级c标准),鉴定出11,903个体细胞突变。我们将这11,903个变体认为是该肿瘤中存在的真正的体细胞突变。该数值与报道的每个肿瘤存在的突变的平均数量相符。
[0302]
预期源自肿瘤的血浆dna分子比源自非肿瘤的分子短。作为评估这些变体是否是真正的源自肿瘤的体细胞突变的手段,我们搜索了覆盖这11,903个基因座的血浆dna片段,并且评估这些片段的大小特征。
[0303]
图8示出了与被鉴定为具有野生型等位基因的血浆dna片段的大小相比,被鉴定为具有hcc患者的突变体等位基因的血浆dna片段的大小的曲线图800。被鉴定为具有突变的这些血浆dna片段确实比对于这些体细胞突变是非信息性的那些其它血浆dna片段短。这样的大小分析确认了突变鉴定的功效,并且还确认了使用大小作为过滤标准的能力。
[0304]
图9示出了根据本发明的实施例的使用动态截止、重新比对和突变分数以及从相邻的正常肝活检物中鉴定的突变的结果数据的过滤过程900。如同用于肿瘤活检物一样,应
用相同的一组标准来筛查相邻的正常肝活检物的活检物突变。如图9所示,当最终过滤器基于需要至少20%的肿瘤dna分数(层级b标准)时,仅鉴定出203个突变。当最终过滤器基于需要至少30%的肿瘤dna分数(层级c标准)时,仅鉴定出74个突变。
[0305]
图10a和10b示出了携带从相邻的正常肝活检物中鉴定的203个推定突变的血浆dna片段的所评估的大小特征与提供其它非信息性血浆dna分子的大小的比较。图10a示出了血浆dna片段在推定的突变体等位基因和野生型等位基因的大小范围内的频率。图10b示出了作为推定的突变体等位基因和野生型等位基因的大小的函数的血浆dna片段的累积频率。如图10a和10b所示,以大小频率分布曲线的形式表示的两组dna的大小分布以及累积大小差异图没有差异。这些分子的大小特征表明这些变体可能是假阳性。
[0306]
c.血浆的突变分析
[0307]
接下来,我们的目的在于应用各种过滤标准来鉴定血浆中的体细胞突变或信息性癌症dna片段。
[0308]
图11示出了根据本发明的实施例的过滤过程1100(其使用动态截止、重新比对、突变分数和大小)和从血浆中鉴定的突变的结果数据。在图11中,每个框中示出了每个过滤步骤的推定的体细胞突变的数量。以绝对数量以及百分比显示从肿瘤活检物鉴定的11,903个突变中在每个过滤步骤回收的真正的体细胞突变的数量。计算每个过滤步骤的ppv,并且同样进行显示。当层级b、c或d标准与动态截止和层级a过滤结合使用时,可以实现超过85%的ppv。
[0309]
图12示出了根据本发明的实施例的过滤过程1200和使用较低突变分数截止值从血浆中鉴定的突变的结果数据。图12中的数据显示,当在层级b或层级c中应用较低的分数浓度截止值时,可以维持ppv,而回收的真正的体细胞突变的数量高得多。
[0310]
d.大小
[0311]
然后,我们探索了省略分数浓度截止值(层级b和c)的效果。
[0312]
图13示出了根据本发明的实施例的过滤过程1300(其使用动态截止、重新比对和大小)和从血浆中鉴定的突变的结果数据。图13中所示的数据表明,通过使用动态截止、重新比对和大小要求(即优先考虑短dna分子),可以实现相同的回收率和ppv,如同样使用突变分数过滤标准来实现的一样。
[0313]
图14示出了与被鉴定为具有野生型等位基因的血浆dna片段的大小相比,使用血浆被鉴定为具有突变体等位基因的血浆dna片段的大小的曲线图1400。大小分布图显示,使用过滤步骤鉴定的突变表现出与针对源自肿瘤的dna所预期一样短的dna大小。
[0314]
e.增加测序深度
[0315]
我们进一步将血浆样品的测序深度从110x增加到220x。
[0316]
图15示出了根据本发明的实施例的过滤过程1500和使用增加的测序深度从血浆中鉴定的突变的结果数据。过程1500使用与图12所示相同的一组过滤标准。利用增加的测序深度(220x),回收的真正的体细胞突变的比例要高得多。在层级b过滤步骤检测到的10,915个突变中,93个突变位于外显子内。仅有一个突变,即ctnnb1(c.c98g,p.s33c)外显子3中非同义变化,被记录为cosmic数据库中前28种常见癌症突变之一。
[0317]
f.突变分数
[0318]
图11示出了当层级b和层级c截止值分别为20%和30%时对ppv和回收率的影响。
如果优选突变鉴定中较高的灵敏度,则可以使用较低的m%作为截止值。图12示出了当层级b截止值为5%且层级c截止值为10%时对ppv和回收率的影响。
[0319]
如上所述,还可以使用突变体体分数的方差作为过滤标准。我们研究了源自不同染色体区域的体细胞突变分数的血浆等位基因分数。如图6所示,hcc患者的肿瘤在染色体1p中显示拷贝数量损失,在染色体1q中显示拷贝数量增加。我们绘制了突变分数在染色体1p和染色体1q上的频率分布。
[0320]
图16是示出具有不同值的突变分数的基因座的数量(密度)的曲线图1600。如曲线图1600所示,对于拷贝数量增加区域(染色体1q)观察到较高值的突变分数,并且对于拷贝数量损失区域(染色体1p)观察到较低值的突变分数。
[0321]
我们还研究了这两个区域中突变分数值的值范围和方差。
[0322]
图17a示出了在染色体臂1p和1q上分布的z得分。图17b示出了在染色体臂1p和1q上的表观突变分数。拷贝数量增加区域(染色体1q)比拷贝数量损失区域(染色体1p)中值分布的z得分更高(图17a),并且实际值更可变(图17b)。
[0323]
这些数据表明,不同的m%可以被设置为具有拷贝数量增加或损失的区域的过滤截止值以增加鉴定出真正的体细胞突变的可能性。指定观察到的血浆突变分数的方差的截止值也可以用于鉴定源自更可能富集源自肿瘤的dna(对于具有拷贝数量增加的区域)或缺失源自肿瘤的dna(对于具有拷贝数量损失的区域)的染色体区域的血浆dna分子。然后可以作出关于dna片段是信息性癌症dna片段的可能性的决定。
[0324]
g.较不严格的标准
[0325]
我们探索了较不严格的标准是否可用于动态截止中。在前面所示的实例中,所使用的动态截止阈值(得分3)使体细胞突变的假阳性鉴定的变化降到最低。对于动态截止分析,当序列变体存在于多(n)个被测序的dna片段中时,所述序列变体将规定为候选突变,其中数量(n)取决于被测序的基因座的数量、在搜索空间中的核苷酸的数量,以及具有预测的假阳性率的概率。在前面的实例中,预测的假阳性率被设置为《10-10
,以及搜索空间是全基因组(3x109个核苷酸)。
[0326]
图18是示出根据本发明的实施例的针对某些等位基因计数截止值、针对各种突变分数和测序深度的预测的突变检测的灵敏度的表格1800。每行对应于不同的测序深度。血浆中的截止值用于确定血浆中具有突变的dna片段的数量是否足以被认为是突变。使用这些值,剩余的列提供各种肿瘤百分比下血浆中突变检测的预测灵敏度tp/(tp fn)。血沉棕黄层也经过截止,以过滤血沉棕黄层中的测序错误。没有这样的过滤器,实施例可能会错过将该基因座作为血浆中变体检测的纯合位点,因为一些实施例仅检测落在血沉棕黄层是纯合的位置上的变体。当使用较不严格的动态截止时,表1800中的数据用作解释下一个图的基线数据。
[0327]
我们探索了松动阈值以允许假阳性检出率为0.1%的效果。
[0328]
图19是示出根据本发明的实施例的针对0.1%的假阳性检出率、针对某些等位基因计数截止值、针对各种突变分数和测序深度的预测的突变检测的灵敏度的表格1900。该数据显示了较不严格的动态截止的数据。
[0329]
图20示出了根据本发明的实施例的过滤过程2000和使用较不严格的动态截止从血浆中鉴定的突变的结果数据。使用220x的测序深度。当使用较不严格的动态截止时,在第
一步ppv从12%下降到3.3%。当与其它过滤步骤(即层级a、b、c和d)结合时,可以通过类似于基于严格的动态截止的算法的ppv来实现真正的体细胞突变的更高的回收。
[0330]
这些数据表明,每个过滤标准起到不同的作用。可以通过改变所使用的阈值的严格性来改变每个标准的效用。在这个实例中,较不严格的动态截止允许体细胞突变的更敏感的鉴定。总体方案的特异性由于其它标准在过滤掉假阳性方面的有效性而得以维持。
[0331]
接下来,我们进一步评估了动态截止步骤的完全去除。相反,应用固定截止。例如,如果在血浆中看到至少特定次数(例如1、2、3等)的在血沉棕黄层dna中不存在的杂合等位基因,我们确定所鉴定的推定突变的数量。我们应用此分析来分析hcc患者的血浆dna数据以及被测序到超过200x的母体血浆样品。不知道贡献母体血浆样品的母亲是否患有癌症,因此本样品中鉴定的大多数推定突变可能是父系遗传的胎儿特异性等位基因或假阳性。
[0332]
图21是示出胎儿和癌症情形的推定突变的数量的分布的曲线图2100。垂直轴对应于具有推定突变(突变体等位基因)的基因座的数量的计数。横轴对应于被鉴定为具有突变的基因座所需的dna片段的数量。
[0333]
使用无pcr文库制备方案将两个样品测序到相似的深度。因此,测序错误和比对错误引起的假阳性突变在两个样品中应该相似。值得注意的是,推定突变的数量随着用作突变得分的截止值的序列读码的数量增加而减少。因为假阳性突变往往随机发生,因此以较低的等位基因比率存在,很可能随着作为截止值所需的读数的数量的逐渐增加,假阳性可能被过滤掉。
[0334]
另一方面,可以观察到癌症患者中鉴定的推定突变的数量开始分界,并且与大约18个序列读码及其后的截止值相比高于孕妇的血浆中检测到的推定突变的数量。这意味着hcc患者中的突变负荷高于母体血浆样品中父系遗传的胎儿等位基因的数量。
[0335]
然后我们将重新比对(层级a)过滤标准应用于同一数据集。
[0336]
图22是示出当使用重新比对时胎儿和癌症情形的推定突变的数量的分布的曲线图2200。当未应用重新比对时,即使在相应的固定序列读码截止数值处,与图21所示的数据相比,推定突变的总数也显著降低。hcc血浆和母体血浆之间推定突变的数量的分界更为明显。这些数据表明,重新比对步骤是去除假阳性的有力过程。
[0337]
我们进一步评估了大小过滤的价值。再次,在此分析中没有使用动态截止策略。相反,使用显示相同次要等位基因的固定最小数量的序列读码作为鉴定推定突变的第一步。
[0338]
图23是示出根据本发明的实施例的没有利用重新比对的各种大小截止值的ppv和回收率的表格2300。如图23所示,仅使用固定截止的体细胞突变鉴定的ppv不是最佳的。当在每个固定截止水平下使用不同大小截止值时,ppv得到改善。
[0339]
图24是示出根据本发明的实施例的利用重新比对的各种大小截止值的ppv和回收率的表格2400。对于图24中所示的数据,在通过固定截止初步鉴定推定突变后,应用重新比对。ppv显著改善。然后应用不同大小截止值来进一步过滤,观察到ppv的一些改善。
[0340]
h.检测癌症中升高的突变负荷
[0341]
我们使用针对来自hcc患者的血浆样品和新生儿脐带血样品的血浆描述的过滤标准进行突变负荷评估。脐带血样品的构成基因组是脐带血血沉棕黄层。脐带血血浆作为对照效果很好,因为大多数婴儿出生时没有癌症,并且他们尚未获得体细胞突变或暴露于致癌物质。
[0342]
使用无pcr文库制备方案将脐带血血浆测序至75x。
[0343]
图25示出了根据本发明的实施例的过滤过程2500(其使用动态截止、重新比对和大小)和从脐带血血浆中鉴定的突变的结果数据。图25示出了当使用严格的动态截止,随后使用图中所示的层级a至d标准时,在脐带血血浆中检测到的推定突变的数量。鉴定出少量的推定突变。
[0344]
图26是根据本发明的实施例的由过程2500确定的突变体dna片段以及野生型等位基因的大小分布的曲线图2600。当我们评估这些突变的大小特征时,它们不是特别短的,这与癌症衍生的dna不同。
[0345]
接下来,我们随机从hcc样品中挑选75x的血浆dna序列数据,从而可以进行评估。应用相同的一组过滤标准。在89%或以上的ppv下回收了约5,000至6,000个源自肿瘤的突变
[0346]
图27示出了根据本发明的实施例的过滤过程2700(其使用动态截止、重新比对和大小)以及从hcc样品的血浆中鉴定的突变的结果数据。使用75x的测序深度。
[0347]
图28是根据本发明的实施例的由过程2700确定的突变体dna片段以及野生型等位基因的大小分布的曲线图2800。具有这些突变的血浆dna片段确实比非信息性dna片段短。
[0348]
然而,应该注意的是,在脐带血血浆中鉴定的84%的推定突变发生在公开报道的单核苷酸多态性位点上,而这一比例在hcc血浆样品中仅为3%。因此,我们假设公共报道的脐带血血浆中的等位基因可能是已经被运送到胎儿循环中并且在新生儿血液中保持可检测的母体dna分子(lo等人,clin chem 2000;46:1301-1309)。在从已知的单核苷酸多态性位点去除任何位点后,脐带血血浆中的推定突变的数量降低到仅为8(图29),而hcc血浆的数据基本保持不变(图30)。
[0349]
图29示出了根据本发明的实施例的使用针对从脐带血血浆中鉴定的突变的基于snp的过滤的过滤过程2900。图30示出了根据本发明的实施例的使用针对从hcc血浆中鉴定的突变的基于snp的过滤的过滤过程3000。加入过滤步骤去除单核苷酸多态性对应于层级e过滤。因此,在脐带血血浆中检测到的推定突变(其大多是假阳性)的数量减少了84%(49个中有8个)。另一方面,hcc样品中推定突变的数量只减少了3%。
[0350]
我们的数据证明,使用无pcr文库制备方案,随后使用结合所述的一组过滤标准的超深和超宽测序,我们能够基于所鉴定的推定突变的数量敏感地并且特异性地鉴定癌症患者的血浆中源自肿瘤的突变。在癌症患者的血浆中鉴定的突变负荷超过了在对照非癌症脐带血血浆中观察到的突变负荷3个数量级。因此,可以进行癌症与非癌症之间的分类。
[0351]
我们进一步证明了,总的被测序数据(220x)的子样品(75x)已足以达到实现癌症与非癌症之间的区分的目的。如下面的模拟数据所示(第viii节的图44、45a-45c和46a-46c),而在这些实施例中需要超深和超宽序列数据,所述宽度和深度的程度取决于血浆样品中的肿瘤dna分数和由肿瘤携带的易于血浆dna检测的突变的数量。
[0352]
i.起源组织
[0353]
现在有数据(snyder等人,cell 2016;164:57-68;pct wo 2016/015058 a2;ivanov等人,bmc genomics 2015;16suppl 13:s1)表明此类体细胞突变的基因组位置可以根据肿瘤的起源组织显示聚类模式。文献表明,体细胞突变往往与具有特定组蛋白修饰的基因组位置处于同一位置。组蛋白修饰的组织特异性位置可以通过公共数据库获得,诸如
epigenomics roadmap数据库(www.roadmapepigenomics.org)。
[0354]
我们通过epigenomics roadmap数据库(www.roadmapepigenomics.org)获得组蛋白修饰的组织特异性位置。据报道,在健康组织中,h3k4me1与活性/稳定增强子区域相关。h3k27ac与活性增强子区域相关。h3k9me3与组成型异染色质高度相关。换句话说,在健康组织中,h3k4me1和h3k27ac与组织中具有活性基因表达的基因组区域相关,而h3k9me3与基因组的被抑制区相关。然而,已经报道在癌症中体细胞突变的数量在被抑制的基因组区域中更高度地表示。迄今为止没有数据报道血浆dna中存在这种相关性。
[0355]
我们在每个1-mb bin的三个组蛋白修饰中的每一个的数量与相同10mb bin中的体细胞突变的数量之间进行spearman相关性分析。
[0356]
图31是示出组织与组蛋白修饰的相关性的表格3100。图31使用snv来确定肿瘤预测的起源组织。针对肝组织组蛋白修饰模式获得最强相关系数。这与从hcc患者获得血浆dna数据的事实是一致的。因此,如果分析另一个检验样品,则可以鉴定源自与组蛋白修饰相关的基因座的血浆dna片段,所述组蛋白修饰已知与癌症相关。这样的基因座富含癌症衍生的血浆dna片段。因此,这些基因座的血浆dna片段可以分为信息性癌症dna片段。也可以使用已知与胎儿组织(例如胎盘)相关的组蛋白修饰来进行类似方法来鉴定胎儿突变。
[0357]
计算血浆中每兆碱基的snv密度与各种器官或组织中每兆碱基的组蛋白标记密度之间的spearman相关性。最高相关性表明肿瘤起源组织。
[0358]
vii.胎儿中新生突变的检测
[0359]
上面的讨论大多与癌症有关,但也可以使用实施例来鉴定胎儿中的新生突变。
[0360]
先天性突变可导致在产前期间、儿童期或以后的生活中可显现的疾病。先天性突变是指在胎儿基因组中存在的突变。一些疾病适于早期治疗,而其它疾病可能与功能上的显著损伤相关。因此,这些疾病中的一些的产前诊断是有必要的。可以通过在出生前分析胎儿遗传物质来进行与遗传、基因组或染色体异常相关的疾病的产前诊断。胎儿遗传物质可以通过侵入性操作(诸如羊膜穿刺术或绒毛膜绒毛取样)获得。这些程序与胎儿流产的风险有关。因此,优选通过非侵入性方法进行产前评估,包括通过分析母体血浆中存在的无细胞胎儿核酸。
[0361]
大多数先天性突变从父母遗传并且导致遗传性疾病。先前报道了通过在母体血浆中循环无细胞胎儿dna分析来非侵入性检测遗传突变的方法(美国专利出版物2009/0087847和2011/0105353)。推定的胎儿突变可以通过了解或检查母体和/或父系突变来证实。
[0362]
然而,疾病也是由新生突变引起的。新生突变是胎儿的构成基因组中存在的突变,它们不是从父亲或母亲遗传的。新生突变占某种疾病(例如软骨发育不良、多发性内分泌瘤病)的疾病负担的很大比例。据估计,每个人在构成基因组中有大约20到30个新生突变(kong等人,nature 2012;488:471-475)。如果这些突变发生在将损害基因组的遗传功能、表观遗传功能或调节功能的基因组区域处,则它们可能引起疾病。目前没有有效的方法用于新生突变的产前检测,除非已知有先验风险。如果例如胎儿超声检查发现怀疑有软骨发育不全的特征,则可能形成对新生突变的先验怀疑。如果父母都不携带软骨发育不全的突变,那么将在成纤维细胞生长因子受体3基因中搜索到新生突变。
[0363]
对于由新生突变引起的大多数其它疾病,通常没有产前可以检测出的结构或生理
指标来表明要调查哪个基因。目前没有有效的方法来在产前检测新生突变,因为在单倍型基因组的30亿个核苷酸内搜索30个这样的变化就像是大海捞针。通过循环无细胞胎儿dna分析来实现新生突变检测与更大的困难相关联,因为母亲的背景血浆dna进一步将胎儿新生突变体稀释5-10倍。在这里,我们描述了通过分析母体血浆中循环的无细胞胎儿dna来允许有效检测胎儿新生突变的实施例。
[0364]
a.检测胎儿中新生突变的实例
[0365]
1.家庭信息
[0366]
在怀孕第38周,怀有男性胎儿的单胎妊娠定为剖宫产。该家庭在知情同意的情况下在威尔斯亲王医院妇产科招收。该研究获得香港中文大学和新界东医院联网临床研究伦理委员会批准。入院期间收集20ml的母体血液和10ml的父系血液。分娩后收集胎盘组织样品和3ml脐带血。
[0367]
2.样品处理
[0368]
如前所述,通过双离心方案处理所有血液样品(chiu等人,clin chem 2001;37:1607-1613)。简言之,在4℃下以1,600g离心10分钟后,将血浆部分在4℃下以16,000g重新离心10分钟以去除血细胞。将血细胞部分以2500g重新离心,并且去除任何残留的血浆。分别用qiaamp dna血液迷你试剂盒和qiaamp dsp dna血液迷你试剂盒(qiagen)的血液和体液方案提取来自血细胞的dna和来自母体血浆的dna。根据制造商的组织方案,用qiaamp dna迷你试剂盒(qiagen)提取来自胎盘的dna。
[0369]
3.血浆dna的定量
[0370]
从5ml母体血浆中提取dna。使用zfx/y数字pcr测定(lun等人,clin chem 2008;54:1664-1672),zfx和zfy的浓度分别为1,038个拷贝/ml血浆和103个拷贝/ml血浆。然后我们使用4.5ml当量的血浆dna进行文库构建。假设每个基因组被分成166个碱基对(bp)片段,每个基因组应该有大约1.81x107个血浆dna片段。4.5ml血浆dna应包含(1038 103)x4.5x1.81x107个片段=9.28x10
10
个总片段。
[0371]
4.dna文库构建
[0372]
利用truseq dna无pcr文库制备试剂盒(illumina)根据制造商的协议构建基因组dna样品和母体血浆样品的dna文库,所不同的是使用五分之一的索引衔接子进行血浆dna文库构建。有四种基因组dna样品,即母亲的血沉棕黄层dna、父亲的血沉棕黄层dna、脐血血沉棕黄层dna和胎盘dna。对于每个基因组dna样品,将一微克dna超声处理成200bp片段(covaris)用于文库构建。20ll文库中的文库浓度范围为34至58nm。对于来自4.5ml血浆(9.28x10
10
个片段)的母体血浆dna样品,20μl文库中的文库产率为2995pm,其等于59,910摩尔,即3.61x10
10
166-bp血浆dna片段。从dna到文库的转化率为38.9%。
[0373]
5.dna文库的测序
[0374]
针对75bp
×
2(配对末端),在hiseq 1500、hiseq 2000或hiseq 2500测序平台(illumina)上对所有dna文库进行测序。我们针对每个基因组dna文库测序了多条线路。母亲dna文库、父亲dna文库、脐带dna文库和胎盘dna文库的测序深度分别为40x、45x、50x和30x。使用所有母体血浆dna文库进行测序。我们用尽了45条线路的文库,并且获得了大约57.4亿非重复的映射配对读码。测序深度为~255x。
[0375]
为了计算血浆dna文库的回收率,我们在2,995nm下使用16μl dna文库作为输入
(使用来自20μl dna文库的4μl用于文库验证和定量)。输入的片段总数为2,995
×
16
×
6.02
×
10
23
/109=2.89
×
10
10
个片段。测序后,我们获得了5.74
×
109个读码(片段)。测序后dna文库的回收率为19.9%。80%的输入文库在簇生成和/或测序过程中丢失。我们怀疑需要5倍以上的文库作为输入,以便在测序流通池上实现高效率的簇生成。然后将过量的文库片段洗掉,并且只对形成簇的那些片段进行测序。
[0376]
按照以上估计,dna到文库的转化率为38.9%,并且测序后的dna文库的回收率为19.9%。据估计,从血浆dna片段到测序输出片段,回收率为7.7%。
[0377]
b.讨论
[0378]
298,364个信息性snp位点被鉴定为父亲和母亲都是纯合子,但是具有不同等位基因的位点。因此,胎儿是这些位点处的肯定杂合子。在胎盘组织中,这些snp位点的99.8%被证实是杂合的。然后我们确定母体血浆中的胎儿dna分数。结合父系等位基因的计数,并且将其表示为这些298,364个信息性snp位点上的母体等位基因的组合计数的比例,胎儿dna分数被估计为31.8%。然后我们确定这些信息性snp位点中的每一个处的胎儿分数。
[0379]
图32示出了在此类个体snp位点处测量的胎儿分数的频率分布。95%的位点表现出高于20%的胎儿dna分数。
[0380]
图33a示出了母体血浆中胎儿特异性dna和共享dna的大小分布。图33b示出了胎儿特异性dna片段和共享dna片段的血浆dna大小的累积频率的曲线图。图33c示出了累积频率的差异,表示为δf。与先前报道的观察结果类似(lo等人,sci transl med 2010;2:61ra91),母体血浆中的胎儿dna分子表现比非胎儿特异性血浆dna分子更短的尺寸。
[0381]
为了确定该胎儿的基因组中存在的新生突变,我们寻找存在于胎盘dna和脐带血dna中,但不存在于母系基因组dna中且不存在于父系基因组dna中的dna变体、主要点突变或单核苷酸变体。鉴定47个这样的新生突变体位点。然后搜索在母体血浆中表现出新生突变体等位基因的dna分子。然后研究母体血浆中dna分子的大小分布。
[0382]
图34a示出了具有突变体等位基因的血浆dna片段的大小分布。图34b示出了突变体等位基因和野生型等位基因的血浆dna大小的累积频率的曲线图。图34c示出了累积频率的差异,表示为δf。突变体等位基因的大小分布和δf值显示出与源自胎儿特异性等位基因的那些值非常相似(图33a-33c)。它们在母体血浆中的相对较小的尺寸提供了具有突变体等位基因的那些dna分子是胎儿起源的支持证据。
[0383]
接下来,我们研究通过母体血浆dna数据鉴定新生突变的方法的有效性。在这种方法中,需要获得母体和父系基因组序列信息。然后,搜索母体血浆dna分子中存在的变体,而不是母体和父系基因组dna序列中的变体。
[0384]
图35示出了根据本发明的实施例的过滤过程3300(其使用动态截止、重新比对和突变分数以及大小截止值)和从血浆中鉴定的新生突变的结果数据。过滤方法3500可用于通过母体血浆无细胞dna数据鉴定新生突变。在本研究中,我们使用利用无pcr文库制备方案生成的全基因组血浆dna测序数据。
[0385]
首先,我们使用动态截止来筛查血浆中的推定突变。动态截止用于控制人类基因组中假阳性的理论发生率低于一定水平,例如每基因组一次。在这种动态截止模型中可以考虑导致假阳性的两种类型的来源。一个来源是测序错误,所述测序错误意外导致一些位点在同一位置显示出相同的核苷酸变化。这种类型的假阳性的概率可以根据给定的测序错
误率的概率乘法规则来估计。测序错误可以从母亲和父亲都是纯合的并且具有相同的等位基因信息的位点推导出来。在这种情况下,测序错误被估计为0.3%。另一个来源是母亲或父亲中的杂合snp,由于可选的等位基因的欠采样,这些杂合snp被误称为是纯合的。
[0386]
第二,为了进一步最小化实际测序数据中的测序错误和比对错误,我们应用附加的过滤算法。通过使用独立比对器将携带突变的测序读码与人类参考基因组比对(映射到人类参考基因组),所述独立比对器为例如bowtie2(langmead等人,nat methods 2012;9:357-9),可以将携带推定变体的序列读码与参考人类基因组重新比对(再次映射到参考人类基因组)。在一些实施例中,可以使用以下重新比对标准来将映射的读码鉴定为低质量序列读码:(1)携带突变的序列读码不能由独立比对器回收;(2)当使用独立比对器来验证原始比对(例如,与原始比对结果相比,映射的读码被放置到不同的染色体)时,携带突变的序列读码显示不一致的映射结果;(3)携带与相同基因组坐标比对的突变的序列读码表现出映射质量≤q20(即未比对概率《1%);(4)序列读码具有位于5bp的任一读码末端(即,5'或3'末端)5'或3'末端)内的突变。这最后一个过滤规则可能很重要,因为测序错误在序列读码的两个末端更常见。如果携带突变的序列读码中低质量序列读码的比例大于某一阈值,例如40%,则候选突变体位点将被丢弃。将携带突变的测序读码重新比对的这一步骤被称为层级a过滤标准。
[0387]
第三,只有超过某一阈值的突变分数(m%)才被认为更可能是真正的突变,例如20%(层级b过滤标准)和30%(层级c过滤标准)。从信息性snp估计的胎儿dna分数可以用作设置适当的突变分数阈值的参考。
[0388]
第四,因为源自胎儿的dna分子比源自母体的dna分子短,所以我们进一步开发了层级d过滤标准中的大小相关过滤参数。携带突变体等位基因和野生型等位基因的dna片段之间的中值大小的最小差异需要为至少一定的碱基对,表示为δs,例如δs≥10bp。还可以使用其它统计检验,例如,t检验、mann-whitney u检验、kolmogorov-smirnov检验等。当应用每个连续层级的过滤时,我们确定回收率和阳性预测值(ppv)。回收率基于过滤后检测到的47种已知的新生突变体的比例。ppv是指被检测为在母体血浆无细胞dna测序数据中检测到的所有非母体和非父系变体的比例的真正的新生突变体的数量。假阳性新生变体越少,ppv越高。假阳性可能是由于但不限于测序错误和比对错误而导致的。通过这种方法实现的ppv显著优于kitzman等人(sci transl med 2012;137:137ra76)以前报道的。对使用非无pcr方案制备的母体血浆dna文库进行测序达到78x覆盖率使得能够鉴别到2.5x107个假阳性,而真正的新生突变只有44个。本研究的ppv仅为0.000176%。
[0389]
作为证明所检测到的推定的新生变体或突变体是胎儿起源的一条补强证据,我们比较了使用不同层级过滤鉴定的新生变体或突变体的大小特征。
[0390]
图36a示出了与野生型等位基因相比具有使用层级a过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。图36b示出了具有使用层级b过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。图36c示出了具有使用层级c过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。图36d示出了具有使用方法d过滤标准在血浆中鉴定的推定突变的dna片段的大小特征。如图36a-36d所示,由层级d算法鉴定的变体显示出最短的大小分布。
[0391]
图37示出了与使用不同层级的过滤标准(即a、b、c和d)鉴定的推定的突变对应的
δf值的曲线。使用源自298,364个信息性snp(其中母亲和父亲都是纯合的,但具有不同等位基因)的δf值作为代表源自胎儿的dna片段与源自母体的dna片段之间的累积频率差的参考。通过层级d过滤标准推导出的大小分布证明与从信息性snp位点推导的δf值最相似,表明在标准d中鉴定的推定的新生突变富集更多在胎盘/胎儿中存在的真正的突变。
[0392]
图38示出了母体血浆样品和脐带血中各种突变类型的频率计数。在图38中,在血浆中鉴定的突变与在脐带血中发现的突变相似。这些数据表明,母体血浆中检测到的突变存在于胎儿基因组中,如脐带血数据所示。
[0393]
图39a示出了根据本发明的实施例的不同尺寸过滤器的ppv%和回收率的图表。图39a示出了当不施加额外的突变分数(m%)过滤时,大小过滤参数的改变如何显著影响ppv%和回收率。图39b示出了不同突变分数截止值的ppv%和回收率的图表。图39b表明,当不进行额外的δs过滤时,改变突变分数参数显著影响了ppv%和回收率。
[0394]
图40a-40d示出了在不同突变分数截止值下各种尺寸过滤器的ppv%和回收率的图表。在不同标准的m%下改变大小过滤参数δs协同地影响ppv%和回收率。
[0395]
图41是示出了作为尺寸截止值的函数的不同突变分数截止值下的回收率和ppv%的曲线的曲线图。系统图解释了δs、m%和ppv%、回收率之间的相互影响。
[0396]
c.推定的新生突变的确认
[0397]
我们的目标是确认和验证47个新生突变。引物被设计成特异性地扩增每个推定的新生突变,随后进行父系、母体、胎盘和脐带血基因组dna的sanger测序。结果在图i中显示,所述图i示出了48个推定的新生突变的新一代测序(ngs)和sanger测序分析。ngs是指以上提及的大规模并行测序,并且“sanger seq”是指sanger测序。为了清楚起见,用括号示出了等位基因计数。在脐带血中而不是胎盘中检测到这些突变中的一种(tp5)。因为母体血浆中的胎儿dna分子主要源自胎盘,所以母体血浆中无法检测到脐带血特异性突变。因此,仅剩余的47个源自胎盘的突变相关用于验证。
[0398]
图40和41示出了47种新生突变的表格。在图40和41中,在第2列示出了目标突变的染色体位置。在第3列中,示出了母体血浆中检测到的基因型。主要等位基因位于次要等位基因之前。在第4列中,示出了在每个突变位点处显示主要等位基因的读码与显示次要等位基因的读码之比。在随后的列中,基于大规模并行测序或新一代测序(ngs)的结果与sanger测序结果一起示出。47个突变中的43个仅在胎盘dna中检测到,而在父系和母体dna中没有检测到。这意味着通过母体血浆dna测序鉴定的91%突变确实是真正的新生突变,因此sanger测序确认了血浆、母体dna、父系dna、胎盘dna的ngs数据。用于检测突变tp45的sanger测序反应失败。突变tp21、tp30和tp44的测定显示ngs与sanger测序之间的结果不一致。
[0399]
viii.人类血浆中无细胞dna的癌症突变检测的模拟分析
[0400]
使用从怀孕病例产生的测序数据,我们选择了胎儿从其父亲遗传的3000个单核苷酸变体,并且假设它们是由癌症患者中的癌症发展的体细胞突变。换句话说,我们分析了母体血浆dna测序数据,就像它们是来自癌症患者的血浆样品的无细胞dna测序一样。然后,当应用层级d过滤算法时,如果血浆样品仅被测序到25x、50x和100x人类基因组覆盖度,则我们确定将检测到多少变体和假阳性。在255x的血浆dna测序数据中随机选择分别为25x、50x和100x的测序数据。
[0401]
图44示出了检测47种新生突变和3,000种假定的体细胞突变的回收率和ppv。针对表1中数字的层级d过滤算法包括:动态截止、重新比对、突变分数》20%,以及大小过滤器10bp。
[0402]
然后通过计算机模拟进行更广泛的分析。
[0403]
图45a-45c和46a-46c示出了针对各种测序深度和肿瘤分数的不同量的突变下的模拟。在这一组分析中,我们模拟了当血浆dna测序深度范围为25x至800x,肿瘤分数浓度范围为1%至40%时以及当肿瘤发生的体细胞突变的数量范围为3,000至30,000时的情况。所有的分析都是基于层级d过滤算法。
[0404]
对于这些模拟中的每一种,检测到的体细胞突变的数量以及假阳性的数量在图45a-45c和46a-46c中示出。如图45a-45c和46a-46c所示,许多条件将使检测到的体细胞突变比假阳性多。这些条件在临床上可用作“突变负荷检验”,以评估血浆dna分子中存在的突变的负担。当例如与年龄匹配和/或性别匹配的对照相比或与自己的血细胞dna相比该水平大于参考范围时,将怀疑患有癌症。这种方法将用作癌症检测的筛查工具。
[0405]
ix.用于癌症的方法
[0406]
如上所述,实施例可以提供用于准确鉴定正被检查的受试者中体细胞突变的方法。各种实施例可以使用无扩增测序、具有最小扩增的测序(例如,小于2%的重复)和各种过滤标准。鉴定突变可用于确定癌症水平以及其它目的。
[0407]
a.鉴定突变
[0408]
图47是示出根据本发明的实施例的通过分析人类受试者的生物样品来鉴定人类受试者中的体细胞突变的方法4700的流程图。生物样品包括源自正常细胞和可能源自肿瘤细胞或与癌症相关的细胞的dna片段,并且所述生物样品包括无细胞dna片段。方法4700可以至少部分地由计算机系统执行,本文所述的其它方法也是如此。
[0409]
在方框4710,从待分析的生物样品获得模板dna片段。模板dna片段包括无细胞dna片段。在各种实施例中,来自肿瘤细胞或与癌症相关的细胞的无细胞dna片段包含生物样品中小于50%、40%、30%、20%、15%、10%、5%或1%的无细胞dna片段。生物样品可以是血浆或血清,或者本文提及的其它类型的样品,或者以其它方式包括无细胞dna。
[0410]
在方框4720,使用模板dna片段制备可分析dna分子的测序文库。在一个实施例中,可分析dna分子的测序文库的制备不包括模板dna片段的dna扩增的步骤。在另一个实施例中,可以执行某种扩增,使得确实发生一定程度的重复。但是,重复的程度可以最小。在各种实施例中,来自模板dna片段的测序文库的重复率小于5%、小于2%或小于1%。测序文库中可分析dna分子的数量可以小于文库制备之前最初存在于生物样品中的模板dna片段的数量。
[0411]
在方框4730,对可分析dna分子的测序文库进行测序以获得多个序列读码。可以使用各种类型的测序程序,如本文所述。可以使用各种深度和宽度。作为另一个实例,可以进行单分子测序。并且,所述测序可以是甲基化感知测序。
[0412]
在方框4740,在计算机系统处接收所述多个序列读码。可以以任何合适的方式或格式接收所述序列读码,例如通过网络从测序机接收或在存储设备上接收。从测序机接收的数据可以是用于确定碱基调用的原始强度值。
[0413]
在方框4750,计算机可以将所述多个序列读码与参考人类基因组比对以确定所述
多个序列读码的基因组位置。在各种实施例中,可以使用至少30x、35x、40x、50x、75x、100x、150x或200x的测序深度。比对的序列读码可以包含各种比例的参考人类基因组,诸如至少0.1%、1%、5%、10%和15%的参考人类基因组。
[0414]
在方框4760,计算机系统可以获得关于与人类受试者对应的构成基因组的信息。构成基因组可以是人类受试者的构成基因组或与人类受试者对应的参考基因组。例如,构成基因组可以是特定的人类受试者群体的参考基因组。
[0415]
在方框4770处,计算机系统可以将序列读码与构成基因组进行比较以将经过滤的一组基因座鉴定为人类受试者的某一组织中具有体细胞突变。在一个方面,在所述经过滤的一组基因座的每个基因座处,具有序列变体的序列读码相对于构成基因组的数量高于截止值,其中所述截止值大于1。截止值可以是如本文所述的动态截止值。截止值可以是一个过滤标准,并且可以应用其它标准。经过滤的一组基因座可以是可能使用各种过滤标准的所有过滤步骤之后的最终输出。
[0416]
在方框4780,可以使用其它过滤标准来将经过滤的一组基因座鉴定为人体受试者的某一组织中具有体细胞突变。此类过滤标准在其它地方和下面描述。
[0417]
在方框4790,所鉴定的体细胞突变可用于各种目的。下面提供了目的的各种实例。例如,可以确定突变负荷,并且所述突变负荷可以用于确定癌症水平。这些突变可用于设计进一步的检验,可能用于进一步评估患者,并用于确定患者的治疗。
[0418]
在下文以及本文其它章节中描述了应用其它过滤标准的实例。其它过滤标准可以用于将经过滤的一组基因座鉴定为人类受试者的某一组织中具有体细胞突变。针对所述过滤标准中的一些,可以分析被鉴定为可能具有体细胞突变的一组候选基因座。可以使用任何合适的标准(例如,固定截止、动态截止或其它先前使用的过滤标准)来鉴定候选基因座。因此,所得到的一组候选基因座可以是应用另一个过滤标准的输出。
[0419]
1.重新比对
[0420]
对于重新比对,可以分析被鉴定为可能具有体细胞突变的第一组候选基因座中的每一个。可以在重新比对程序中进一步分析使用第一比对程序与候选基因座比对并且具有序列变体的序列读码中的每一个。可以使用第二比对程序来确定序列读码是否与候选基因座比对,所述第二比对程序使用与用于第一比对程序不同的匹配算法,例如,如在第v.b节中所述。当序列读码使用第二比对程序与候选基因座重新比对时,可以确定第二比对程序的重新比对的映射质量。
[0421]
一旦确定了第二比对的映射质量,就可以将映射质量与质量阈值进行比较,以便确定序列读码是否是低质量。然后可以基于映射质量与质量阈值的比较来确定是否丢弃序列读码。所述确定可以是可以丢弃低于阈值的读码。在其它实施例中,可以基于所述比较来确定得分(例如,权重),其中可以执行与多个质量阈值的比较以确定得分,例如,每个阈值对应于不同的重新比对得分。然后,可以以与来自一个或多个其它过滤标准的得分结合的方式使用所述得分,从而确定是否丢弃所述读码。不管具体的方式(包括以上提供的实例)如何,映射质量小于质量阈值提供比映射质量大于质量阈值更高的丢弃序列读码的可能性。
[0422]
作为该过滤过程的一部分,获得剩余序列读码的数量。可以将剩余序列读码的数量与候选阈值进行比较,所述候选阈值可以是最初用于鉴定候选基因座的相同阈值。在与
针对序列读码类似的可能性分析中,可以基于剩余序列读码的数量与候选阈值的比较来确定是否丢弃候选基因座。基于与阈值的比较,分析可以是严格的,或者可以使用以上提及的评分(加权)系统。无论如何,剩余序列读码的数量小于候选阈值提供比剩余序列读码的数量大于候选阈值更高的丢弃候选基因座的可能性。可以使用剩余的候选基因座将经过滤的一组基因座鉴定为具有体细胞突变。
[0423]
2.大小
[0424]
对于大小分析,可以分析一组候选基因座中的每一个。可以确定具有序列变体的第一组dna片段与具有野生型等位基因的第二组dna片段之间的大小差异。本文已经描述了此类大小分析。大小差异可以在两组的大小分布的任何统计值之间。例如,可以使用第一组dna片段和第二组dna片段的中值大小差异。作为另一个实例,可以使用第一组与第二组之间的大小累积频率的最大值。在美国专利公开2011/0276277和2013/0237431中描述了任何大小值。
[0425]
可以将大小差异与大小阈值进行比较,所述大小阈值可以通过被分类的已知患有癌症或其它状态的样品确定。然后可以基于所述比较来确定是否将作为潜在突变的候选基因座丢弃。对于其它过滤标准,所述比较可以严格使用或用作得分。无论如何,大小差异小于大小阈值提供比大小差异大于大小阈值更高的丢弃候选基因座的可能性。可以使用剩余的候选基因座将经过滤的一组基因座鉴定为在人类受试者中具有体细胞突变。
[0426]
3.组蛋白修饰
[0427]
对于组蛋白修饰,可以鉴定已知与组蛋白修饰相关的一组区域,所述组蛋白修饰与癌症相关。可以通过基于候选基因座是否在这组区域中的一个区域中确定是否丢弃候选基因座来分析一组候选基因座中的每一个。对于其它过滤标准,所述比较可以严格使用或用作得分。无论如何,候选基因座不在这组区域中的一个区域中提供比当候选基因座在这组区域中的一个区域中时更高的丢弃候选基因座的可能性。可以使用剩余的候选基因座将经过滤的一组基因座鉴定为在人类受试者中具有体细胞突变。
[0428]
4.突变分数
[0429]
对于突变分数,可以分析一组候选基因座中的每一个。可以确定具有序列变体的序列读码的分数,并且然后将其与分数阈值进行比较。然后可以例如使用得分或严格截止值基于所述比较来确定是否将作为潜在突变的候选基因座丢弃。无论哪种方式,所述分数小于分数阈值提供比所述分数大于分数阈值更高的丢弃所述候选基因座的可能性(例如,5%、10%、20%或30%)。可以使用剩余的候选基因座将经过滤的一组基因座鉴定为在人类受试者中具有体细胞突变。
[0430]
在一些实施例中,可以基于测量的生物样品中肿瘤dna的分数浓度来确定分数阈值。可以(例如,使用类似的技术,但是利用特定于所述区域中一个或多个基因座的数据)针对多个区域中的每个区域测量生物样品中肿瘤dna的分数浓度。用于候选基因座的分数阈值可以是针对候选基因座驻留的区域测量的分数浓度。
[0431]
在另一个实施例中,可以使用异常区域来确定分数阈值。可以鉴定具有拷贝数量畸变的一个或多个异常区域。用于异常区域中的候选基因座的分数阈值可以取决于异常区域是否表现出拷贝数量增加或拷贝数量损失。针对增加可以使用较高的阈值,以及针对损失可以使用较低的阈值。
[0432]
具有拷贝数量畸变的一个或多个异常区域也可以用作确定是否丢弃序列读码的一部分,用于针对经过滤的一组基因座中的每一个确定相对于构成基因组具有序列变体的序列读码的数量。来自表现出拷贝数量增加的第一异常区域的第一序列读码比来自表现出拷贝数量损失的第二异常区域的第二序列读码更可能具有体细胞突变。
[0433]
可以通过分析一组候选基因座来鉴定一个或多个异常区域。可以计算序列变体相对于构成基因组的表观突变分数。可以针对多个区域中的每一个区域确定异常区域中的候选基因座的表观突变分数的方差。可以将方差与方差阈值进行比较,其中表现出拷贝数量增加的异常区域具有大于阈值的方差。
[0434]
5.甲基化状态
[0435]
对于甲基化状态,测序是甲基化感知测序。可以分析一组候选基因座中的每一个,其中序列读码中的每一个与候选基因座比对并且具有正被分析的序列变体。对于序列读码,可以确定一个或多个位点(例如,cpg位点)处相应的可分析dna分子的甲基化状态。可以根据甲基化状态确定是否丢弃所述序列读码。对于其它过滤标准,所述比较可以严格使用或用作得分。无论如何,甲基化状态是未被甲基化的提供比甲基化状态是被甲基化的更高的丢弃序列读码的可能性。
[0436]
可以将剩余序列读码的数量与候选阈值进行比较,所述候选阈值可以与用于鉴定候选基因座的相同(对于其它过滤标准的候选阈值的其它用途同样如此)。在与针对序列读码类似的可能性分析中,可以基于所述剩余序列读码的数量与候选阈值的比较来确定是否丢弃候选基因座。基于与阈值的比较,分析可能是严格的,或者使用以上提及的评分(加权)系统。无论如何,剩余序列读码的数量小于候选阈值提供比剩余序列读码的数量大于候选阈值更高的丢弃候选基因座的可能性。可以使用剩余的候选基因座将经过滤的一组基因座鉴定为具有体细胞突变。
[0437]
6.血浆dna末端位置
[0438]
对于血浆dna末端位置,可以分析一组候选基因座中的每一个,其中序列读码中的每一个与候选基因座比对并且具有正被分析的序列变体。对于序列读码,可以确定与序列读码的末端所比对的位置处相对应的末端位置。可以将末端位置与多个癌症特异性或癌症相关的终端位置进行比较。基于所述比较确定是否丢弃所述序列读码。末端位置不是癌症特异性或癌症相关的终端位置提供比末端位置是癌症特异性或癌症相关的终端位置更高的丢弃序列读码的可能性。序列读码的剩余数量可用于确定是否丢弃候选基因座。
[0439]
7.单链测序
[0440]
可以使用单链测序文库制备方法进行测序,所述单链测序文库制备方法提供随后的测序步骤以针对每个模板dna分子产生两条链读码。在snyder等人,cell 2016;164:57-68中描述了单链测序文库制备方法的一个实例。可以分析一组候选基因座中的每一个,其中每对链读码与正被分析的候选基因座比对。可以确定两条链是否都具有序列变体。然后可以基于两条链是否都具有序列变体来确定是否丢弃序列读码。两条链都不具有序列变体提供比仅一条链具有序列变体更高的丢弃链读码的可能性。序列读码的剩余数量可用于确定是否丢弃候选基因座。
[0441]
b.确定癌症水平
[0442]
图48是示出根据本发明的实施例的使用所鉴定的体细胞突变来分析受试者的生
物样品的方法4800的流程图。
[0443]
在方框4810,鉴定体细胞突变。可以如针对图47的方法4700描述的那样鉴定体细胞突变。
[0444]
在方框4820,使用经过滤的一组基因座中的基因座的量确定人类受试者的突变负荷。在各种实施例中,突变负荷可以被确定为体细胞突变的原始数量、每个碱基数量的体细胞突变的密度、被鉴定为具有体细胞突变的基因组区域的基因座的百分比、在特定量的样品中观察到的体细胞突变的数量,或者与参考负荷相比的增加。
[0445]
在方框4830,将突变负荷与癌症阈值进行比较以确定癌症水平。所述癌症阈值可以基于癌症患者与没有癌症的受试者之间的区别来确定。本领域技术人员将意识到的是,可以根据期望的灵敏度和特异性使用不同的阈值。如本文所示,实施例可以用于确定可区分健康受试者与患有癌症(例如,hcc)的受试者的突变负荷。
[0446]
在方框4840,当癌症水平表明存在肿瘤时,可以确定癌症的起源组织。作为实例,可以使用甲基化标记或组蛋白修饰或所分析的dna片段的末端位置的分布来进行这样的确定。
[0447]
在使用组蛋白修饰的一个实施例中,针对参考人类基因组的第一多个区段中的每一个确定第一量的组蛋白修饰。可以从可获得的关于哪些基因座与相关组蛋白修饰相关联的参考信息确定该第一量。可以针对参考人类基因组的第二多个区段中的每一个确定第二量的经过滤的一组基因座。然后,可以将差异区段可以彼此相关。因此,可以确定具有高于第一阈值的第一量的组蛋白修饰和具有高于第二阈值的第二量的经过滤的一组基因座的第一组区段。两个阈值可以相同。所述阈值可以确保基因组的区段是具有高组蛋白修饰和大量体细胞突变的区段。所述量和阈值可以是原始数量或密度(例如,每兆碱基)。
[0448]
在方框4850,可以根据确定的癌症水平、所鉴定的突变和/或起源组织提供治疗。例如,所鉴定的突变可以用特定的药物或化学疗法靶向。所述起源组织可用于指导手术。并且,癌症水平可用于确定任何类型的治疗的影响程度,所述任何类型的治疗也可以基于癌症水平来确定。
[0449]
c.所鉴定的突变的其它用途
[0450]
如上所述,突变的数量可以用作所检查的受试者患有癌症的指示。在一个实施例中,如果检测到的突变的数量高于在没有癌症的受试者中检测到的突变的数量,则可将个体分类为具有较高的患癌症的可能性。
[0451]
一旦鉴定出这组突变可用于通知设计更有针对性的测定(基于突变负荷中所表现的突变),所述测定用于将来监测患者的癌症、用于确认目的、用于更精确的测量目的或连续测量目的(这比多次重复穷举测序便宜)。这种连续测量对于后续目的将是有用的,例如,以看看血浆中突变特征的浓度是增加(可能是不良预后标志)还是降低(潜在的良好预后标志或癌症对所选择的治疗有反应)。
[0452]
在突变负荷中检测到的特异性突变将提供临床医生选择相关疗法或药物(例如靶向疗法)的信息。作为实例,可以使用酪氨酸激酶抑制剂治疗表皮生长因子受体基因中具有特定突变的癌症。
[0453]
所鉴定的突变的谱系可用于帮助鉴定肿瘤部位,因为已发现不同器官/组织形成的肿瘤具有不同的突变特征(polak等人,nature 2015;518:360-364)。它还可以提供关于
环境暴露和致癌物质的信息,这些信息与所检测到的一组突变有因果关系(alexandrov等人,nature 2013;500:415-421)。所鉴定的突变的谱系可用于帮助预后。例如,一些突变可能是特别具有侵略性或惰性的癌症的标记。
[0454]
在产前检查的背景下,所鉴定的一组突变可用于通知设计更有针对性的测定(基于突变负荷中所表现的突变),所述测定用于母体血浆中此类突变的特异性检测。而且,在产前检查的背景下,所鉴定的一组突变可用于通知临床医生对需要该病例进行特定的临床管理。作为一个实例,如果怀孕妇女选择继续怀孕,则在男性胎儿中检测到散发性血友病突变可表明在分娩过程中需要预防(例如避免产钳分娩)。作为另一个实例,在没有先天性肾上腺皮质增生症(cah)先前家族史的家族中,对cah的突变是纯合子或复合杂合子的女性胎儿的检测将提醒临床医生需要对孕妇进行早期地塞米松疗法,以降低胎儿生殖器男性化的风险。
[0455]
x.用于胎儿分析的方法
[0456]
图49是示出根据本发明的实施例的通过分析怀有胎儿的女性受试者的生物样品来鉴定胎儿的新生突变的方法4900的流程图。生物样品包括来自胎儿和女性受试者的无细胞dna片段。
[0457]
在方框4910,从待分析的生物样品获得模板dna片段。模板dna片段包括无细胞dna片段。可以以与图47的方框4710类似的方式执行方框4910。
[0458]
在方框4920,使用模板dna片段制备可分析dna分子的测序文库。可以以与图47的方框4720类似的方式执行方框4920。
[0459]
在方框4930,对可分析dna分子的测序文库进行测序以获得多个序列读码。可以以与图47的方框4730类似的方式执行方框4930。
[0460]
在方框4940,在计算机系统处接收所述多个序列读码。可以以与图47的方框4740类似的方式执行方框4940。
[0461]
在方框4950,计算机可以将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置。可以以与图47的方框4750类似的方式执行方框4950。
[0462]
在方框4960,计算机系统可以获得关于女性受试者的母系基因组和胎儿的父亲的父系基因组的信息。所述信息可以包括在检测出存在突变的基因座处的关于双亲的基因型信息。这种基因型信息可以经由如本领域技术人员已知的任何合适的技术来获得。
[0463]
在方框4970处,计算机系统可以将所述序列读码与母系基因组和父系基因组进行比较以将经过滤的一组基因座鉴定为胎儿具有新生突变。在一方面,在经过滤的一组基因座的每个基因座处,具有不在母系基因组中并且不在父系基因组中的序列变体的序列读码的数量高于截止值,其中所述截止值大于1。
[0464]
在方框4980,可以使用其它过滤标准来将经过滤的一组基因座鉴定为胎儿具有新生突变。这种过滤标准在其它地方(例如,在第ix节中)描述。
[0465]
在方框4990,所鉴定的新生突变可用于各种目的。此类目的的实例可以在第ix.c节中找到。
[0466]
xi.计算机系统
[0467]
本文提及的计算机系统中的任何一种可以利用任何合适数量的子系统。此类子系统的实例在图15计算机设备10中示出。在一些实施例中,计算机系统包括单个计算机设备,
其中子系统可以是计算机设备的组件。在其它实施例中,计算机系统可以包括具有内部组件的多个计算机设备,每个计算机设备是子系统。计算机系统可以包括台式计算机和膝上型计算机、平板电脑、移动电话和其它移动设备。
[0468]
图15中示出的子系统经由系统总线75互连。示出了附加的子系统,诸如打印机74、键盘78、存储设备79、耦合到显示适配器82的监视器76等等。耦合到i/o控制器71的外围设备和输入/输出(i/o)设备可以通过本领域已知的各种方式(诸如输入/输出(i/o)端口77(例如,usb,))连接到计算机系统。例如,可以使用i/o端口77或外部接口81(例如以太网、wi-fi等)将计算机系统10连接到广域网(诸如因特网)、鼠标输入设备或扫描仪。经由系统总线75的互连允许中央处理器73与每个子系统通信并且控制来自系统存储器72或存储设备79(例如,固定磁盘,诸如硬盘驱动器或光盘)的指令的执行,以及子系统之间的信息交换。系统存储器72和/或存储设备79可以包括计算机可读介质。另一个子系统是数据收集设备85,诸如相机、麦克风、加速计等等。本文提及的数据中的任何一种可以从一个组件输出到另一个组件,并且可以输出给用户。
[0469]
计算机系统可以包括例如通过外部接口81或通过内部接口连接在一起的多个相同的组件或子系统。在一些实施例中,计算机系统、子系统或设备可以通过网络进行通信。在此类情况下,一台计算机可以被认为是客户机,而另一台计算机可以被认为是服务器,其中每台计算机可以是同一计算机系统的一部分。客户机和服务器可以各自包括多个系统、子系统或组件。
[0470]
应当理解,本发明的实施例中的任何一个可以以使用硬件的控制逻辑(例如专用集成电路或现场可编程门阵列)的形式实现,和/或使用具有通用可编程处理器的计算机软件以模块或集成的方式实现。如本文所使用的,处理器包括单核处理器、在同一集成芯片上的多核处理器,或者在单个电路板上或联网的多个处理单元。基于本文提供的公开内容和教导,本领域普通技术人员将知道并且意识到使用硬件以及硬件和软件的组合来实现本发明的实施例的其它方式和/或方法。
[0471]
本技术中描述的软件组件或功能中的任何一种可以作为使用例如常规的或面向对象的技术、使用任何合适的计算机语言(例如java、c、c 、c#、objective-c、swift)或脚本语言(诸如perl或python)由处理器执行的软件代码而实现。软件代码可以作为一系列指令或命令存储在用于存储和/或传输的计算机可读介质上,合适的介质包括随机存取存储器(ram)、只读存储器(rom)、磁性介质(诸如硬盘驱动器或软盘),或光学介质(诸如光盘(cd)或dvd(数字通用盘)、闪速存储器等。计算机可读介质可以是此类存储或传输设备的任何组合。
[0472]
也可以使用适合于经由符合各种协议的有线、光学和/或无线网络(包括因特网)传输的载波信号来编码和传输此类程序。因此,根据本发明的实施例的计算机可读介质可以使用利用此类程序编码的数据信号来创建。用程序代码编码的计算机可读介质可以与兼容设备封装在一起,或者与其它设备分开提供(例如,经由因特网下载)。任何这样的计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、cd或整个计算机系统)上或内部,并且可以存在于系统或网络内的不同计算机产品上或内部。计算机系统可以包括用于向用户提供本文提及的任何一个结果的监视器、打印机或其它合适的显示器。
[0473]
可以利用包括一个或多个处理器的计算机系统来完全或部分地执行本文描述的
任何一种方法,所述一个或多个处理器可以被配置成执行这些步骤。因此,实施例可以涉及被配置成执行本文描述的任何一种方法的步骤的计算机系统,所述计算机系统潜在地具有执行相应步骤或相应的一组步骤的不同组件。尽管以编号的步骤呈现,但是可以在同一时间或以不同的顺序执行本文的方法的步骤。另外,这些步骤的一部分可以与其它方法的其它步骤的一部分一起使用。而且,步骤的全部或部分可以是任选的。另外,任何一种方法的步骤中的任何一个步骤可以利用用于执行这些步骤的模块、电路或其它装置来执行。
[0474]
本技术还涉及以下实施方案:
[0475]
实施方案1.通过分析人类受试者的生物样品来鉴定所述人类受试者中体细胞突变的方法,所述生物样品包括源自正常细胞和可能源自肿瘤细胞或与癌症相关的细胞的dna片段,所述生物样品包括无细胞dna片段,所述方法包括:
[0476]
从待分析的生物样品获得模板dna片段,所述模板dna片段包括无细胞dna片段;
[0477]
使用所述模板dna片段制备可分析dna分子的测序文库,所述可分析dna分子的测序文库的制备不包括所述模板dna片段的dna扩增的步骤;
[0478]
对所述可分析dna分子的测序文库进行测序以获得多个序列读码;
[0479]
在计算机系统处接收所述多个序列读码;
[0480]
通过所述计算机系统将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0481]
通过所述计算机系统获得关于与所述人类受试者相对应的构成基因组的信息;以及
[0482]
通过所述计算机系统将所述序列读码与所述构成基因组进行比较以将经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变,其中:
[0483]
在所述经过滤的一组基因座的每个基因座处,相对于所述构成基因组具有序列变体的所述序列读码的数量高于截止值,所述截止值大于1。
[0484]
实施方案2.通过分析人类受试者的生物样品来鉴定所述人类受试者中体细胞突变的方法,所述生物样品包括源自正常细胞和可能源自肿瘤细胞或与癌症相关的细胞的dna片段,所述生物样品包括无细胞dna片段,所述方法包括:
[0485]
从待分析的生物样品获得模板dna片段,所述模板dna片段包括无细胞dna片段;
[0486]
使用所述模板dna片段制备可分析dna分子的测序文库,其中来自所述模板dna片段的测序文库的重复率小于5%;
[0487]
对所述可分析dna分子的测序文库进行测序以获得多个序列读码;
[0488]
在计算机系统处接收所述多个序列读码;
[0489]
通过所述计算机系统将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0490]
通过所述计算机系统获得关于与所述人类受试者相对应的构成基因组的信息;以及
[0491]
通过所述计算机系统将所述序列读码与所述构成基因组进行比较以将经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变,其中:
[0492]
在所述经过滤的一组基因座的每个基因座处,相对于所述构成基因组具有序列变体的所述序列读码的数量高于截止值,所述截止值大于1。
[0493]
实施方案3.根据实施方案1或实施方案2所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变还包括:
[0494]
针对被鉴定为可能具有体细胞突变的第一组候选基因座中的每一个:
[0495]
针对使用第一比对程序与所述候选基因座比对并且具有所述序列变体的序列读码中的每一个:
[0496]
确定是否使用第二比对程序将所述序列读码与所述候选基因座比对,所述第二比对程序使用与用于所述第一比对程序不同的匹配算法;
[0497]
当使用所述第二比对程序将所述序列读码与所述候选基因座重新比对时,确定用于所述第二比对程序的重新比对的映射质量;
[0498]
将所述映射质量与质量阈值进行比较;以及
[0499]
基于所述映射质量与所述质量阈值的比较确定是否丢弃所述序列读码,其中所述映射质量小于所述质量阈值提供比所述映射质量大于所述质量阈值更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0500]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0501]
基于所述剩余序列读码的数量与所述候选阈值的比较确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0502]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有体细胞突变。
[0503]
实施方案4.根据实施方案2所述的方法,其中,所述重复率小于2%。
[0504]
实施方案5.根据实施方案4所述的方法,其中,所述测序文库中可分析dna分子的数量小于文库制备之前最初存在于所述生物样品中的模板dna片段的数量。
[0505]
实施方案6.通过分析人类受试者的生物样品来鉴定所述人类受试者中体细胞突变的方法,所述生物样品包括源自正常细胞和可能源自肿瘤细胞或与癌症相关的细胞的dna片段,所述生物样品包括无细胞dna片段,所述方法包含通过计算机系统执行:
[0506]
获得关于与所述人类受试者相对应的构成基因组的信息;
[0507]
接收所述生物样品中多个dna片段中的每一个的一个或多个序列读码;
[0508]
使用第一比对程序将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0509]
将所述序列读码与所述构成基因组进行比较以将经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变,其中:
[0510]
在所述经过滤的一组基因座的每个基因座处,相对于所述构成基因组具有序列变体的所述序列读码的数量高于截止值,所述截止值大于1;
[0511]
针对被鉴定为可能具有体细胞突变的第一组候选基因座中的每一个:
[0512]
针对使用所述第一比对程序与所述候选基因座比对并且具有所述序列变体的序列读码中的每一个:
[0513]
确定是否使用第二比对程序将所述序列读码与所述候选基因座比对,所述第二比对程序使用与用于所述第一比对程序不同的匹配算法;
[0514]
将所述映射质量与质量阈值进行比较;以及
[0515]
基于所述映射质量与所述质量阈值的比较确定是否丢弃所述序列读码,其中所述
映射质量小于所述质量阈值提供比所述映射质量大于所述质量阈值更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0516]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0517]
基于所述剩余序列读码的数量与所述候选阈值的比较确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0518]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有体细胞突变。
[0519]
实施方案7.根据实施方案1、2或6中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变还包括:
[0520]
针对被鉴定为可能具有体细胞突变的第二组候选基因座中的每一个:
[0521]
确定具有所述序列变体的第一组dna片段与具有野生型等位基因的第二组dna片段之间的大小差异;
[0522]
将所述大小差异与大小阈值进行比较;
[0523]
基于所述比较确定是否将作为潜在突变的候选基因座丢弃,其中所述大小差异小于所述大小阈值提供比所述大小差异大于所述大小阈值更高的丢弃所述候选基因座的可能性;以及
[0524]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为在所述人类受试者中具有体细胞突变。
[0525]
实施方案8.根据实施方案7所述的方法,其中,所述大小差异是所述第一组dna片段与所述第二组dna片段的中值大小的差异。
[0526]
实施方案9.根据实施方案7所述的方法,其中,所述大小差异是所述第一组与所述第二组之间的大小累积频率的最大值。
[0527]
实施方案10.通过分析人类受试者的生物样品来鉴定所述人类受试者中体细胞突变的方法,所述生物样品包括源自正常细胞和可能源自肿瘤细胞或与癌症相关的细胞的dna片段,所述生物样品包括无细胞dna片段,所述方法包括通过计算机系统执行:
[0528]
获得关于与所述人类受试者相对应的构成基因组的信息;以及
[0529]
接收所述生物样品中的多个dna片段中的每一个的一个或多个序列读码;
[0530]
使用第一比对程序将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0531]
将所述序列读码与所述构成基因组进行比较以将经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变,其中:
[0532]
在所述经过滤的一组基因座的每个基因座处,相对于所述构成基因组具有序列变体的所述序列读码的数量高于截止值,所述截止值大于1;
[0533]
针对被鉴定为可能具有体细胞突变的第一组候选基因座中的每一个:
[0534]
确定具有所述序列变体的第一组dna片段与具有野生型等位基因的第二组dna片段之间的大小差异;
[0535]
将所述大小差异与大小阈值进行比较;
[0536]
当所述大小差异小于所述大小阈值时,将作为潜在突变的候选基因座丢弃;以及使用剩余的候选基因座将所述经过滤的一组基因座鉴定为在所述人类受试者中具有体细
胞突变。
[0537]
实施方案11.根据实施方案1、2、6或10中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变还包括:
[0538]
鉴定已知与组蛋白修饰相关的一组区域,所述组蛋白修饰与癌症相关;
[0539]
针对被鉴定为可能具有体细胞突变的第二组候选基因座中的每一个:
[0540]
确定所述候选基因座是否在所述一组区域之一当中;
[0541]
基于所述候选基因座是否在所述一组区域之一当中来确定是否丢弃所述候选基因座,其中所述候选基因座不在所述一组区域之一当中提供比当所述候选基因座在所述一组区域之一当中更高的丢弃所述候选基因座的可能性;
[0542]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有体细胞突变。
[0543]
实施方案12.通过分析人类受试者的生物样品来鉴定所述人类受试者中体细胞突变的方法,所述生物样品包括源自正常细胞和可能源自肿瘤细胞或与癌症相关的细胞的dna片段,所述生物样品包括无细胞dna片段,所述方法包括通过计算机系统执行:
[0544]
获得关于与所述人类受试者相对应的构成基因组的信息;以及
[0545]
接收所述生物样品中的多个dna片段中的每一个的一个或多个序列读码;
[0546]
使用第一比对程序将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0547]
将所述序列读码与所述构成基因组进行比较以将经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变,其中:
[0548]
在所述经过滤的一组基因座的每个基因座处,相对于所述构成基因组具有序列变体的所述序列读码的数量高于截止值,所述截止值大于1;
[0549]
鉴定已知与组蛋白修饰相关的一组区域,所述组蛋白修饰与癌症相关;
[0550]
针对被鉴定为可能具有体细胞突变的第一组候选基因座中的每一个:
[0551]
确定所述候选基因座是否在所述一组区域之一当中;
[0552]
基于所述候选基因座是否在所述一组区域之一当中来确定是否丢弃所述候选基因座,其中所述候选基因座不在所述一组区域之一当中提供比当所述候选基因座在所述一组区域之一当中更高的丢弃所述候选基因座的可能性;
[0553]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有体细胞突变。
[0554]
实施方案13.根据实施方案1、2、6、10或12中任一项所述的方法,其还包括:
[0555]
使用所述经过滤的一组基因座中的基因座的量来确定所述人类受试者的突变负荷。
[0556]
实施方案14.根据实施方案13所述的方法,其中,所述突变负荷被确定为
[0557]
体细胞突变的原始数量、每碱基数量的体细胞突变的密度、被鉴定为具有体细胞突变的基因组区域的基因座的百分比、在特定量的样品中观察到的体细胞突变的数量,或与参考负荷比较的增加。
[0558]
实施方案15.根据实施方案13所述的方法,其还包括:
[0559]
将所述突变负荷与癌症阈值进行比较以确定癌症水平。
[0560]
实施方案16.根据实施方案15所述的方法,其中,所述癌症水平表示肿瘤,其还包括:
[0561]
针对所述参考人类基因组的第一多个区段中的每一个确定组蛋白修饰的第一量;
[0562]
针对所述参考人类基因组的第二多个区段中的每一个确定所述经过滤的一组基因座的第二量;
[0563]
确定所述组蛋白修饰的第一量高于第一阈值并且所述经过滤的一组基因座的第二量高于第二阈值的第一组区段;以及
[0564]
基于所述第一组区段鉴定所述肿瘤的起源组织。
[0565]
实施方案17.根据实施方案1、2、6、10或12中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变还包括:
[0566]
针对被鉴定为可能具有体细胞突变的第二组候选基因座中的每一个:
[0567]
确定具有所述序列变体的序列读码的分数;
[0568]
将所述分数与分数阈值进行比较;
[0569]
基于所述比较确定是否将作为潜在突变的候选基因座丢弃,其中所述分数小于所述分数阈值提供比所述分数大于所述分数阈值更高的丢弃所述候选基因座的可能性;以及
[0570]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为在所述人类受试者中具有体细胞突变。
[0571]
实施方案18.根据实施方案17所述的方法,其中,所述分数阈值为20%。
[0572]
实施方案19.根据实施方案17所述的方法,其中,所述分数阈值为30%。
[0573]
实施方案20.根据实施方案17所述的方法,其还包括:
[0574]
测量所述生物样品中肿瘤dna的分数浓度,其中所述分数阈值基于所述分数浓度确定。
[0575]
实施方案21.根据实施方案20所述的方法,其中,针对多个区域中的每一个测量所述生物样品中肿瘤dna的分数浓度,并且其中用于候选基因座的分数阈值取决于针对所述候选基因座驻留的区域测量的分数浓度。
[0576]
实施方案22.根据实施方案17所述的方法,其还包括:
[0577]
鉴定具有拷贝数量畸变的一个或多个异常区域,其中用于异常区域中的候选基因座的分数阈值取决于所述异常区域是否表现出拷贝数量增加或拷贝数量损失。
[0578]
实施方案23.根据实施方案17所述的方法,其还包括:
[0579]
鉴定具有拷贝数量畸变的一个或多个异常区域;
[0580]
鉴定出比来自表现出拷贝数量损失的第二异常区域的第二序列读码更可能具有体细胞突变的来自表现出拷贝数量增加的第一异常区域的第一序列读码,其作为确定是否丢弃序列读码的一部分,用于针对所述经过滤的一组基因座中的每一个确定相对于所述构成基因组具有序列变体的所述序列读码的数量。
[0581]
实施方案24.根据实施方案23所述的方法,其中,所述一个或多个异常区域通过以下方式鉴定:
[0582]
针对被鉴定为可能具有体细胞突变的所述第二组候选基因座中的每一个:
[0583]
计算序列变体相对于所述构成基因组的表观突变分数;
[0584]
针对多个区域中的每一个:
[0585]
确定所述异常区域中所述候选基因座的表观突变分数的方差;
[0586]
将所述方差与方差阈值进行比较,其中表现出拷贝数量增加的异常区域具有大于
所述阈值的方差。
[0587]
实施方案25.根据实施方案1、2、6、10或12中任一项所述的方法,其中,所述测序是甲基化感知测序,并且其中将所述经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变还包括:
[0588]
针对被鉴定为可能具有体细胞突变的第二组候选基因座中的每一个:
[0589]
针对与所述候选基因座比对并且具有所述序列变体的所述序列读码中的每一个:
[0590]
确定相应的可分析dna分子在一个或多个位点处的甲基化状态;
[0591]
基于所述甲基化状态确定是否丢弃所述序列读码,其中所述甲基化状态为未被甲基化提供比所述甲基化状态为被甲基化更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0592]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0593]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0594]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有体细胞突变。
[0595]
实施方案26.根据实施方案1、2、6、10或12中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变还包括:
[0596]
针对被鉴定为可能具有体细胞突变的第二组候选基因座中的每一个:
[0597]
针对与所述候选基因座比对并且具有所述序列变体的所述序列读码中的每一个:
[0598]
确定与所述序列读码末端所比对的位置处相对应的末端位置;
[0599]
将所述末端位置与多个癌症特异性或癌症相关的终端位置进行比较;
[0600]
基于所述比较确定是否丢弃所述序列读码,其中所述末端位置不是癌症特异性或癌症相关的终端位置提供比所述末端位置是癌症特异性或癌症相关的终端位置更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0601]
将剩余序列读码的数量与候选阈值进行比较;以及
[0602]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0603]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有体细胞突变。
[0604]
实施方案27.根据实施方案1、2、6、10或12中任一项所述的方法,其中,所述测序使用单链测序文库制备方法进行,所述单链测序文库制备方法提供随后的测序步骤以针对每个模板dna分子产生两条链读码,其中将所述经过滤的一组基因座鉴定为在所述人类受试者的某一组织中具有体细胞突变还包括:
[0605]
针对被鉴定为可能具有体细胞突变的第二组候选基因座中的每一个:
[0606]
针对与所述候选基因座比对的每一对链读码:
[0607]
确定两条链是否都具有所述序列变体;
[0608]
基于两条链是否都具有所述序列变体来确定是否丢弃所述序列读码,其中两条链都不具有所述序列变体提供比仅一条链读码具有所述序列变体更高的丢弃所述链读码的可能性,从而获得剩余序列读码的数量;
[0609]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0610]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0611]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有体细胞突变。
[0612]
实施方案28.根据实施方案1、2、6、10或12中任一项所述的方法,其中,与所述人类受试者相对应的构成基因组是特定人类受试者群体的参考基因组。
[0613]
实施方案29.根据实施方案1、2、6、10或12中任一项所述的方法,其中,来自肿瘤细胞或与癌症相关的细胞的无细胞dna片段构成所述生物样品中无细胞dna片段的50%以下。
[0614]
实施方案30.根据实施方案1、2、6、10或12中任一项所述的方法,其中,所述生物样品包括血浆或血清。
[0615]
实施方案31.根据实施方案1、2、6、10或12中任一项所述的方法,其中,所述比对的序列读码构成所述参考人类基因组的至少5%。
[0616]
实施方案32.根据实施方案31所述的方法,其中,所述比对的序列读码构成所述参考人类基因组的至少10%。
[0617]
实施方案33.根据实施方案1、2、6、10或12中任一项所述的方法,其中,使用至少25x的测序深度。
[0618]
实施方案34.根据实施方案33所述的方法,其中,所述测序深度为至少50x。
[0619]
实施方案35.根据实施方案34所述的方法,其中,所述测序深度为至少100x。
[0620]
实施方案36.通过分析怀有胎儿的女性受试者的生物样品来鉴定所述胎儿的新生突变的方法,所述生物样品包括来自所述胎儿和所述女性受试者的无细胞dna片段,所述方法包括:
[0621]
从待分析的生物样品获得模板dna片段,所述模板dna片段包括无细胞dna片段;
[0622]
使用所述模板dna片段制备可分析dna分子的测序文库,所述可分析dna分子的测序文库的制备不包括所述模板dna片段的dna扩增的步骤;
[0623]
对所述可分析dna分子的测序文库进行测序以获得多个序列读码;
[0624]
在计算机系统处接收所述多个序列读码;
[0625]
通过所述计算机系统将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0626]
通过所述计算机系统获得关于所述女性受试者的母系基因组和所述胎儿的父亲的父系基因组的信息;以及
[0627]
通过所述计算机系统将所述序列读码与所述母系基因组和所述父系基因组进行比较以将经过滤的一组基因座鉴定为在所述胎儿中具有新生突变,其中:
[0628]
在所述经过滤的一组基因座的每个基因座处,具有不在所述母系基因组并且不在所述父系基因组中的序列变体的序列读码的数量高于截止值,所述截止值大于1。
[0629]
实施方案37.通过分析怀有胎儿的女性受试者的生物样品来鉴定所述胎儿的新生突变的方法,所述生物样品包括来自所述胎儿和所述女性受试者的无细胞dna片段,所述方法包括:
[0630]
从待分析的生物样品获得模板dna片段,所述模板dna片段包括无细胞dna片段;
[0631]
使用所述模板dna片段制备可分析dna分子的测序文库,其中来自所述模板dna片段的测序文库的重复率小于5%;
[0632]
对所述可分析dna分子的测序文库进行测序以获得多个序列读码;
[0633]
在计算机系统处接收所述多个序列读码;
[0634]
通过所述计算机系统将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0635]
通过所述计算机系统获得关于所述女性受试者的母系基因组和所述胎儿的父亲的父系基因组的信息;以及
[0636]
通过所述计算机系统将所述序列读码与所述母系基因组和所述父系基因组进行比较以将经过滤的一组基因座鉴定为在所述胎儿中具有新生突变,其中:
[0637]
在所述经过滤的一组基因座的每个基因座处,具有不在所述母系基因组并且不在所述父系基因座中的序列变体的序列读码的数量高于截止值,所述截止值大于1。
[0638]
实施方案38.根据实施方案36或实施方案37所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变还包括:
[0639]
针对被鉴定为可能具有新生突变的第一组候选基因座中的每一个:
[0640]
针对使用第一比对程序与所述候选基因座比对并且具有所述序列变体的序列读码中的每一个:
[0641]
确定是否使用第二比对程序将所述序列读码与所述候选基因座比对,所述第二比对程序使用与用于所述第一比对程序不同的匹配算法;
[0642]
当使用所述第二比对程序将所述序列读码与所述候选基因座重新比对时,确定所述第二比对程序的重新比对的映射质量;
[0643]
将所述映射质量与质量阈值进行比较;以及
[0644]
基于所述映射质量与所述质量阈值的比较来确定是否丢弃所述序列读码,其中所述映射质量小于所述质量阈值提供比所述映射质量大于所述质量阈值更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0645]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0646]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0647]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有新生突变。
[0648]
实施方案39.根据实施方案37所述的方法,其中,所述重复率小于2%。
[0649]
实施方案40.根据实施方案39所述的方法,其中,所述测序文库中可分析dna分子的数量小于模板dna片段的数量。
[0650]
实施方案41.通过分析怀有胎儿的女性受试者的生物样品来鉴定所述胎儿的新生突变的方法,所述生物样品包括来自所述胎儿和所述女性受试者的无细胞dna片段,所述方法包括通过计算机系统执行:
[0651]
获得关于所述女性受试者的母系基因组和所述胎儿的父亲的父系基因组的信息;
[0652]
接收所述生物样品中多个dna片段中的每一个的一个或多个序列读码;
[0653]
使用第一比对程序将所述多个序列读码与参考人类基因组比对以确定所述多个
序列读码的基因组位置;
[0654]
将所述序列读码与所述母系基因组和所述父系基因组进行比较以将经过滤的一组基因座鉴定为在所述胎儿中具有新生突变,其中:
[0655]
在所述经过滤的一组基因座的每个基因座处,具有不在所述母系基因组并且不在所述父系基因组中的序列变体的序列读码的数量高于截止值,所述截止值大于1;
[0656]
针对被鉴定为可能具有新生突变的第一组候选基因座中的每一个:
[0657]
针对使用所述第一比对程序与所述候选基因座比对并且具有所述序列变体的序列读码中的每一个:
[0658]
确定是否使用第二比对程序将所述序列读码与所述候选基因座比对,所述第二比对程序使用与用于所述第一比对程序不同的匹配算法;
[0659]
将所述映射质量与质量阈值进行比较;以及
[0660]
基于所述映射质量与所述质量阈值的比较来确定是否丢弃所述序列读码,其中所述映射质量小于所述质量阈值提供比所述映射质量大于所述质量阈值更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0661]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0662]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0663]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有新生突变。
[0664]
实施方案42.根据实施方案36、37或41中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变还包括:
[0665]
针对被鉴定为可能具有新生突变的第二组候选基因座中的每一个:
[0666]
确定具有所述序列变体的第一组dna片段与具有野生型等位基因的第二组dna片段之间的大小差异;
[0667]
将所述大小差异与大小阈值进行比较;
[0668]
基于所述比较确定是否将作为潜在突变的候选基因座丢弃,其中所述大小差异小于所述大小阈值提供比所述大小差异大于所述大小阈值更高的丢弃所述候选基因座的可能性;以及
[0669]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变。
[0670]
实施方案43.根据实施方案42所述的方法,其中,所述大小差异是所述第一组dna片段与所述第二组dna片段的中值大小的差异。
[0671]
实施方案44.根据实施方案42所述的方法,其中,所述大小差异是所述第一组与所述第二组之间的大小累积频率的最大值。
[0672]
实施方案45.通过分析怀有胎儿的女性受试者的生物样品来鉴定所述胎儿的新生突变的方法,所述生物样品包括来自所述胎儿和所述女性受试者的无细胞dna片段,所述方法包括通过计算机系统执行:
[0673]
获得关于所述女性受试者的母系基因组和所述胎儿的父亲的父系基因组的信息;
[0674]
接收所述生物样品中多个dna片段中的每一个的一个或多个序列读码;
[0675]
使用第一比对程序将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0676]
将所述序列读码与所述母系基因组和所述父系基因组进行比较以将经过滤的一组基因座鉴定为在所述胎儿中具有新生突变,其中:
[0677]
在所述经过滤的一组基因座的每个基因座处,具有不在所述母系基因组并且不在所述父系基因组中的序列变体的序列读码的数量高于截止值,所述截止值大于1;
[0678]
针对被鉴定为可能具有新生突变的第一组候选基因座中的每一个:
[0679]
确定具有所述序列变体的第一组dna片段与具有野生型等位基因的第二组dna片段之间的大小差异;
[0680]
将所述大小差异与大小阈值进行比较;
[0681]
当所述大小差异小于所述大小阈值时,将作为潜在突变的候选基因座丢弃;以及使用剩余的候选基因座将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变。
[0682]
实施方案46.根据实施方案36、37、41或45中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变还包括:
[0683]
鉴定已知与组蛋白修饰相关的一组区域,所述组蛋白修饰与癌症相关;
[0684]
针对被鉴定为可能具有新生突变的第二组候选基因座中的每一个:
[0685]
确定所述候选基因座是否在所述一组区域之一当中;
[0686]
基于所述候选基因座是否在所述一组区域之一当中来确定是否丢弃所述候选基因座,其中所述候选基因座不在所述一组区域之一当中提供比当所述候选基因座在所述一组区域之一当中时更高的丢弃所述候选基因座的可能性;
[0687]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有新生突变。
[0688]
实施方案47.通过分析怀有胎儿的女性受试者的生物样品来鉴定所述胎儿的新生突变的方法,所述生物样品包括来自所述胎儿和所述女性受试者的无细胞dna片段,所述方法包括通过计算机系统执行:
[0689]
获得关于所述女性受试者的母系基因组和所述胎儿的父亲的父系基因组的信息;
[0690]
接收所述生物样品中多个dna片段中的每一个的一个或多个序列读码;
[0691]
使用第一比对程序将所述多个序列读码与参考人类基因组比对以确定所述多个序列读码的基因组位置;
[0692]
将所述序列读码与所述母系基因组和所述父系基因组进行比较以将经过滤的一组基因座鉴定为在所述胎儿中具有新生突变,其中:
[0693]
在所述经过滤的一组基因座的每个基因座处,具有不在所述母系基因组并且不在所述父系基因组中的序列变体的序列读码的数量高于截止值,所述截止值大于1;
[0694]
鉴定已知与组蛋白修饰相关的一组区域,所述组蛋白修饰与胎儿组织相关;
[0695]
针对被鉴定为可能具有新生突变的第一组候选基因座中的每一个:
[0696]
确定所述候选基因座是否在所述一组区域之一当中;
[0697]
基于所述候选基因座是否在所述一组区域之一当中来确定是否丢弃所述候选基因座,其中,所述候选基因座不在所述一组区域之一当中提供比当所述候选基因座在所述一组区域之一当中时更高的丢弃所述候选基因座的可能性;
[0698]
使用所述剩余的候选基因座将所述经过滤的一组基因座鉴定为具有新生突变。
[0699]
实施方案48.根据实施方案36、37、41、45或47中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变还包括:
[0700]
针对被鉴定为可能具有新生突变的第二组候选基因座中的每一个:
[0701]
确定具有所述序列变体的序列读码的分数;
[0702]
将所述分数与分数阈值进行比较;
[0703]
基于所述比较确定是否将作为潜在突变的候选基因座丢弃,其中所述分数小于所述分数阈值提供比所述分数大于所述分数阈值更高的丢弃所述候选基因座的可能性;以及
[0704]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变。
[0705]
实施方案49.根据实施方案48所述的方法,其中,所述分数阈值为20%。
[0706]
实施方案50.根据实施方案48所述的方法,其中,所述分数阈值为30%。
[0707]
实施方案51.根据实施方案48所述的方法,其还包括:
[0708]
测量所述生物样品中的胎儿dna的分数浓度,其中所述分数阈值基于所述分数浓度确定。
[0709]
实施方案52.根据实施方案51所述的方法,其中,针对多个区域中的每一个测量所述生物样品中的胎儿dna的分数浓度,并且其中用于候选基因座的所述分数阈值取决于针对所述候选基因座驻留的区域测量的分数浓度。
[0710]
实施方案53.根据实施方案48所述的方法,其还包括:
[0711]
鉴定具有拷贝数量畸变的一个或多个异常区域,其中用于异常区域中的候选基因座的所述分数阈值取决于所述异常区域是否表现出拷贝数量增加或拷贝数量损失。
[0712]
实施方案54.根据实施方案48所述的方法,其还包括:
[0713]
鉴定所述胎儿具有拷贝数量畸变的一个或多个异常区域;以及
[0714]
鉴定出比来自表现出拷贝数量损失的第二异常区域的第二序列读码更可能具有新生突变的来自表现出拷贝数量增加的第一异常区域的第一序列读码,其作为确定是否丢弃序列读码的一部分,用于针对所述经过滤的一组基因座中的每一个确定相对于所述构成基因组具有序列变体的所述序列读码的数量。
[0715]
实施方案55.根据实施方案54所述的方法,其中,所述一个或多个异常区域通过以下方式鉴定:
[0716]
针对被鉴定为可能具有新生突变的第二组候选基因座中的每一个:
[0717]
计算不在所述母系基因组中并且不在所述父系基因组中的序列变体的表观突变分数;
[0718]
针对多个区域中的每一个:
[0719]
确定所述异常区域中所述候选基因座的表观突变分数的方差;
[0720]
将所述方差与方差阈值进行比较,其中表现出拷贝数量增加的异常区域具有大于所述阈值的方差。
[0721]
实施方案56.根据实施方案36、37、41、45或47中任一项所述的方法,其中,所述测序是甲基化感知测序,并且其中将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变还包括:
[0722]
针对被鉴定为可能具有新生突变的第二组候选基因座中的每一个:
[0723]
针对与所述候选基因座比对并且具有所述序列变体的序列读码中的每一个:
[0724]
确定相应的可分析dna分子在一个或多个位点处的甲基化状态;
[0725]
基于所述甲基化状态确定是否丢弃所述序列读码,其中所述甲基化状态为未被甲基化提供比所述甲基化状态为被甲基化更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0726]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0727]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更大的丢弃所述候选基因座的可能性;以及
[0728]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有新生突变。
[0729]
实施方案57.根据实施方案36、37、41、45或47中任一项所述的方法,其中,将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变还包括:
[0730]
针对被鉴定为可能具有新生突变的第二组候选基因座中的每一个:
[0731]
针对与所述候选基因座比对并且具有所述序列变体的序列读码中的每一个:
[0732]
确定与所述序列读码的末端所比对的位置处相对应的末端位置;
[0733]
将所述末端位置与多个癌症特异性或癌症相关的终端位置进行比较;
[0734]
基于所述比较确定是否丢弃所述序列读码,其中所述末端位置不是癌症特异性或癌症相关的终端位置提供比所述末端位置是癌症特异性或癌症相关的终端位置更高的丢弃所述序列读码的可能性,从而获得剩余序列读码的数量;
[0735]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0736]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0737]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有新生突变。
[0738]
实施方案58.根据实施方案36、37、41、45或47中任一项所述的方法,其中,所述测序使用单链测序文库制备方法执行,所述单链测序文库制备方法提供后续的测序步骤以针对每个模板dna模块产生两条链读码,其中将所述经过滤的一组基因座鉴定为在所述胎儿中具有新生突变还包括:
[0739]
针对被鉴定为可能具有新生突变的第二组候选基因座中的每一个:
[0740]
针对与所述候选基因座比对的每一对链读码:
[0741]
确定两条链是否都具有所述序列变体;
[0742]
基于两条链是否都具有所述序列变体来确定是否丢弃所述序列读码,其中两条链都不具有所述序列变体提供比仅一条链读码具有所述序列变体更高的丢弃所述链读码的可能性,从而获得剩余序列读码的数量;
[0743]
将所述剩余序列读码的数量与候选阈值进行比较;以及
[0744]
基于所述剩余序列读码的数量与所述候选阈值的比较来确定是否丢弃所述候选基因座,其中所述剩余序列读码的数量小于所述候选阈值提供比所述剩余序列读码的数量大于所述候选阈值更高的丢弃所述候选基因座的可能性;以及
[0745]
使用剩余的候选基因座将所述经过滤的一组基因座鉴定为具有新生突变。
[0746]
实施方案59.根据实施方案36、37、41、45或47中任一项所述的方法,其中,来自所述胎儿的无细胞dna片段构成所述生物样品中无细胞dna片段的50%以下。
[0747]
实施方案60.根据实施方案36、37、41、45或47中任一项所述的方法,其中,所述生物样品包括血浆或血清。
[0748]
实施方案61.根据实施方案36、37、41、45或47中任一项所述的方法,其中,所述比对的序列读码构成所述参考基因组的至少5%。
[0749]
实施方案62.根据实施方案61所述的方法,其中,所述比对的序列读码构成所述参考基因组的至少10%。
[0750]
实施方案63.根据实施方案36、37、41、45或47中任一项所述的方法,其中,使用至少25x的测序深度。
[0751]
实施方案64.根据实施方案63所述的方法,其中,所述测序深度为至少50x。
[0752]
实施方案65.根据实施方案64所述的方法,其中,所述测序深度为至少100x。
[0753]
实施方案66.包含计算机可读介质的计算机产品,所述计算机可读介质存储用于控制计算机系统执行实施方案1、2、6、10、12、36、37、41、45或47中任一项的操作的多个指令。
[0754]
实施方案67.系统,其包含:
[0755]
根据实施方案66所述的计算机产品;以及
[0756]
用于执行存储在所述计算机可读介质上的指令的一个或多个处理器。
[0757]
实施方案68.系统,其包含用于执行实施方案1、2、6、10、12、36、37、41、45或47中的任一项所述的方法的装置。
[0758]
实施方案69.系统,其被配置成执行实施方案1、2、6、10、12、36、37、41、45或47中的任一项所述的方法。
[0759]
实施方案70.系统,其包含分别执行实施方案1、2、6、10、12、36、37、41、45或47中的任一项所述的方法中的任一种的步骤的模块。
[0760]
在不脱离本发明的实施例的精神和范围的情况下,可以以任何合适的方式组合特定实施例的具体细节。然而,本发明的其它实施例可以涉及与每个单独方面或这些单独方面的具体组合有关的具体实施例。
[0761]
为了说明和描述的目的,已经呈现了本发明的示例性实施例的以上描述。这并不意味着是穷举的并且并不意味着将本发明限制为所描述的精确形式,并且鉴于以上教导,许多修改和变化是可能的。
[0762]“一”、“一个”或“该”的叙述旨在表示“一个或多个”,除非特别地有相反指示。“或”的使用旨在表示“包含性的或”,而不是“排除性的或”,除非特别地有相反指示。
[0763]
出于所有目的,本文提及的所有专利、专利申请、出版物和描述的全部内容通过引用并入。没有一篇被承认是现有技术。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献