一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

快速非整倍体检测的制作方法

2022-03-19 16:20:27 来源:中国专利 TAG:

快速非整倍体检测
1.相关申请的交叉参考
2.本技术要求2019年5月17日提交的美国临时申请序列号62/849,662;2019年9月24日提交的美国临时申请序列号62/905,327;2020年2月6日提交的美国临时申请序列号62/971,050的优先权。在先申请的公开内容被视为本技术公开内容的一部分(并通过引用纳入本文)。
3.关于联邦资金的声明
4.本发明是在政府支持下由国家卫生研究院(national institutes of health)授予的基金号ca230691和ca230400资助完成。政府对本发明享有某些权利。


背景技术:
1.技术领域
5.本文提供了用于鉴定染色体异常的方法和材料,其可被用于癌症诊断、无创产前检测(nipt)、植入前遗传学诊断和先天性畸形的评估。例如,本发明提供了用于评估测序数据以鉴定哺乳动物患有与一种或多种染色体异常相关的疾病(例如,癌症或先天性畸形)的方法和材料。附加或替代地,本发明提供了用于评估测序数据的方法和材料,其可被用于癌症诊断、无创产前检测(nipt)、植入前遗传学诊断和先天性畸形的评估。
6.2.背景技术
7.非整倍体被定义为染色体数量异常。这是在癌症中鉴定的第一种基因组异常(boveri 2008journal of cell science 121(附录1):1-84;和nowell 1976science 194(4260):23-28),据估计,基因组异常存在于>90%大多数组织病理类型的癌症(knouse等2017annual review of cancer biology1:335-354),癌症中的非整倍体首先通过核型研究检测,后面通过微阵列、sanger测序评估,最近,通过大规模平行测序方法评估(wang等2002proceedings of the national academy of sciences99(25):16156-16161)。最近的测序方法包括采用循环二元分割(circular binary segmentation)、隐马尔可夫建模、期望最大化(expectation maximization)和均值漂移(mean-shift)的方法(如(zhao等2013bmc bioinformatics14(11):s1)中所述)。除了应用于癌症基因组外,这些技术还形成了对患有唐氏综合征和其他三体综合征的胎儿无创产前检测的基础(bianchi等2015jama314(2):162-169;zhao等2015clinical chemistry61(4):608-616)。


技术实现要素:

8.本公开涉及用于鉴定一种或多种染色体异常(例如,非整倍体)的方法和材料。在一些实施方式中,本公开提供了用于使用基于扩增子的测序数据以鉴定哺乳动物患有与一种或多种染色体异常相关的疾病或病症的方法和材料。例如,本文所述的方法和材料可被应用于从哺乳动物中获得的样品,以鉴定该哺乳动物为患有一种或多种染色体异常。例如,哺乳动物可以至少部分地基于一种或多种非整倍体的存在被鉴定为患有疾病或病症。在一
些实施方式中,使用单引物对在整个基因组中扩增基因组元件。例如,本文所述的单引物对可用于扩增约1,000,000个独特重复性元件(unique repetitive element)(例如,扩增子)。在一些实施方式中,扩增的独特重复性元件平均大小小于100个碱基对(bp)。在一些实施方式中,一种方法(样品内非整倍体检测(within-sample-aneuploidy-detection),称为waldo)可用于评估从扩增子获得的测序数据,以鉴定一种或多种染色体异常(例如,非整倍体)的存在。如本文所述,在来自健康人的1,348个血浆样品和来自癌症患者的883个血浆样品中的非整倍体的评估,在来自癌症患者的49%的血浆样品中检测到非整倍体。
9.一方面,本文提供了测试哺乳动物的基因组中非整倍体的存在的方法。该方法包括用与染色体序列互补的引物对扩增dna样品中的多个染色体序列以形成多个扩增子;确定多个扩增子中的一个或多个的核酸序列的至少部分;将经测序的扩增子映射到参考基因组;将dna样品分为多个基因组区间(genomic interval);量化映射到基因组区间的扩增子的多个特征;将第一基因组区间中的扩增子的多个特征与一个或多个不同基因组区间中的扩增子的多个特征进行比较;并且其中在扩增步骤中形成至少100,000个扩增子(例如,多个扩增子可包括约745,000个扩增子)。
10.在一些实施方式中,该方法在体外进行。在一些实施方式中,多个扩增子包括约1,000,000个扩增子,例如,约1,000,000-10,000个扩增子;约1,000,000-50,000个扩增子;约1,000,000-100,000个扩增子;约1,000,000-200,000个扩增子;约1,000,000-300,000个扩增子;约1,000,000-400,000个扩增子;约1,000,000-500,000个扩增子;约1,000,000-600,000个扩增子;约1,000,000-700,000个扩增子;约1,000,000-800,000个扩增子;约1,000,000-900,000个扩增子;约900,000-10,000个扩增子;约800,000-10,000个扩增子;约700,000-10,000个扩增子;约600,000-10,000个扩增子;约500,000-10,000个扩增子;约400,000-10,000个扩增子;约300,000-10,000个扩增子;约200,000-10,000个扩增子;约100,000-10,000个扩增子或约50,000-10,000个扩增子。
11.在一些实施方式中,多个扩增子包括约50,000个扩增子;约100,000个扩增子;约150,000个扩增子;约200,000个扩增子;约250,000个扩增子;约300,000个扩增子;约350,000个扩增子;约400,000个扩增子;约450,000个扩增子;约500,00个扩增子;约550,000个扩增子;约600,000个扩增子;约650,000个扩增子;约700,000个扩增子;约750,000个扩增子;约800,000个扩增子;约850,000个扩增子;约900,000个扩增子;约950,000个扩增子;或约1,000,000个扩增子。
12.在一些实施方式中,多个扩增子包括约750,000个扩增子。
13.在一些实施方式中,多个扩增子包括约350,000个扩增子。
14.在一些实施方式中,通过本文所公开的单引物对扩增的重复性元件(例如扩增子)的数量是样品中存在的重复性元件的数量和/或样品中存在的重复性元件的长度的函数。例如,在一些样品中,可以用单引物对检测到的重复性元件(例如扩增子)的数量为约750,000个扩增子。在一些实施方式中,在其他样品中,可以用单引物对检测到的重复性元件(例如扩增子)的数量为约350,000个扩增子。
15.在一些实施方式中,dna样品是多个整倍体的dna样品。在一些实施方式中,dna样品是多个测试dna样品。在一些实施方式中,dna样品是多个测试dna样品。在一些实施方式中,dna样品来自血浆。在一些实施方式中,dna样品来自血清。在一些实施方式中,dna样品
包含胎儿细胞dna。在一些实施方式中,dna样品包含至少3皮克dna。在一些实施方式中,所述哺乳动物是人。在一些实施方式中,引物对包含含有seq id no:1的第一引物和含有seq id no:10的第二引物。在一些实施方式中,本文提供的方法包括一个或多个额外的引物对。在一些实施方式中,扩增子包括重复性元件(例如,表1中所列出的一种或多种重复性元件)。在一些实施方式中,扩增子包括独特的短散在核苷酸元件(sine)。在一些实施方式中,扩增子包括独特的长散在核苷酸元件(line)。
16.在一些实施方式中,扩增子的平均长度为约100碱基对或更小。在一些实施方式中,扩增子的平均长度小于约110bp,例如约10-110bp、约10-105bp、约10-100bp、约10-99bp、约10-98bp、约10-97bp、约10-96bp、约10-95bp、约10-94bp、约10-93bp、约10-92bp、约10-91bp、约10-90bp、约10-89bp、约10-87bp、约10-86bp、约10-85bp、约10-84bp、约10-83bp、约10-82bp、约10-81bp、约10-80bp、约10-79bp、约10-78bp、约10-77bp、约10-76bp、约10-75bp、约10-74bp、约10-73bp、约10-72bp、约10-71bp、约10-70bp、约10-65bp、约10-60bp、约10-55bp、约10-50bp、约10-40bp、约10-30bp、约10-20bp、约15-110bp、约20-110bp、约25-110bp、约30-110bp、约35-110bp、约40-110bp、约45-110bp、约50-110bp、约55-110bp约60-110bp、约65-110bp、约70-110bp、约75-110bp、约80-110bp、约85-110bp、约90-110bp、约95-110bp、约100-110bp或约105-110bp。
17.在一些实施方式中,扩增子的平均长度为约10bp;约20bp;约30bp;约40bp;约45bp;约50bp;约60bp;约65bp;约70bp;约75bp;约80bp;约85bp;约90bp;约95bp;约100bp;约105bp或约110bp。
18.在一些实施方式中,扩增子包括一个或多个平均长度为1000碱基对或更长的长扩增子。在一些实施方式中,长扩增子包含来自污染细胞的dna。在一些实施方式中,污染细胞是白细胞。在一些实施方式中,基因组区间包含约100个核苷酸至约125,000,000个核苷酸(例如基因组区间可包含约500,000个核苷酸)。
19.在另一方面,本公开提供了一种评估对象的多种(例如至少四种)癌症中的任一种的存在(或发展风险)方法,其包括:
20.(i)获取(例如直接获取或间接获取)用于(例如检测)一个或多个遗传生物标志物的存在的值,例如在一个或多个基因(例如一个或多个驱动基因,例如,在至少四个驱动基因中)中各自的一个或多个突变(例如一个或多个驱动基因突变),可选地,其中每个基因(例如驱动基因)与多种癌症的癌症存在或癌症风险相关;
21.(ii)获取(例如直接获取或间接获取)用于(例如检测)多种(例如至少四种)蛋白质生物标志物中的每一种的水平的值,可选地,其中,多种蛋白质生物标志物的各自的水平与多种癌症的癌症存在或癌症风险相关;或
22.(iii)获取(例如直接获取或间接获取)用于(例如检测)非整倍体的值,其中所述非整倍体值是排列在重复元件家族(re家族(re family))的至少两个末端重复元件之间的基因组序列的拷贝数或长度的函数,其中re家族包括:
23.(a)除长散在核苷酸元件(line)之外的re家族;
24.(b)re家族,当用互补于其重复末端元件的引物部分扩增时,提供平均长度小于x nt的扩增子,其中x为100、105或110,
25.(c)长度小于约700bp的re家族;或
26.(d)每个基因组中存在至少100个拷贝的re家族;
27.可选地,其中非整倍体与多种癌症的癌症存在或癌症风险相关;
28.从而评估对象存在多种癌症(例如至少四种)中的任一种(或发展风险)。
29.在一个实施方式中,(i)、(ii)和(iii)之一被直接获取。在一个实施方式中,(i)和(ii)被直接获取。在一个实施方式中,(i)和(iii)被直接获取。在一个实施方式中,(ii)和(iii)被直接获取。在一个实施方式中,(i)、(ii)和(iii)全部被直接获取。
30.在一个实施方式中,(i)、(ii)和(iii)之一被间接获取。在一个实施方式中,(i)和(ii)被间接获取。在一个实施方式中,(i)和(iii)被间接获取。在一个实施方式中,(ii)和(iii)被间接获取。在一个实施方式中,所有(i)、(ii)和(iii)全部被间接获取。
31.在一个实施方式中,该方法包括测序包含遗传生物标志物的一个或多个亚基因组区间或扩增子。在一个实施方式中,该方法包括分析一个或多个基因组序列的非整倍体。在一个实施方式中,该方法包括将蛋白质生物标志物与检测试剂接触。在一个实施方式中,该方法包括:(1)测序包含遗传生物标志物的一个或多个亚基因组区间或扩增子;(2)分析一个或多个基因组序列的非整倍体,和/或(3)将蛋白质生物标志物与检测试剂接触。
32.在一个实施方式中,非整倍体值是排列re家族的至少两个末端重复元件之间的基因组序列的拷贝数的函数。在一个实施方式中,非整倍体值是排列在重复元件家族(re家族)的至少两个末端重复元件之间的基因组序列的长度的函数。
33.在一些实施方式中,该方法在体外进行。
34.在一些实施方式中,从对象获得的样品(例如生物样品)被(i)-(iii)中的一项、两项或全部评估。在一个实施方式中,生物样品包括液体样品,例如血液样品。在一个实施方式中,生物样品包括无细胞dna样品、血浆样品或血清样品。在一个实施方式中,生物样品包含无细胞dna,例如循环肿瘤dna。在一个实施方式中,生物样品包含细胞和/或组织。在一个实施方式中,生物样品包含细胞(例如正常或癌细胞)和无细胞dna。
35.在本文公开的任何方法的实施方式中,用(i)、(ii)和(iii)检测多种癌症中癌症的特异性基本上等同于(例如基本上不低于)用:(i);(ii);(iii);(i)和(ii);(i)和(iii);或(ii)和(iii)检测多种癌症中癌症的特异性。
36.在本文公开的任何方法的实施方式中,用(i)、(ii)和(iii)检测多种癌症中癌症的灵敏度更高,例如,约1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10倍高于用:(i);(ii);(iii);(i)和(ii);(i)和(iii);或(ii)和(iii)检测多种癌症中癌症的灵敏度。在一个实施方式中,在特定特异性中,例如,在预定特异性中,例如至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%特异性下,检测的灵敏度增加,例如,约1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10倍增加。
37.在一些实施方式中,多个扩增子包括约1,000,000个扩增子,例如,约1,000,000-10,000个扩增子;约1,000,000-50,000个扩增子;约1,000,000-100,000个扩增子;约1,000,000-200,000个扩增子;约1,000,000-300,000个扩增子;约1,000,000-400,000个扩增子;约1,000,000-500,000个扩增子;约1,000,000-600,000个扩增子;约1,000,000-700,000个扩增子;约1,000,000-800,000个扩增子;约1,000,000-900,000个扩增子;约900,000-10,000个扩增子;约800,000-10,000个扩增子;约700,000-10,000个扩增子;约600,
000-10,000个扩增子;约500,000-10,000个扩增子;约400,000-10,000个扩增子;约300,000-10,000个扩增子;约200,000-10,000个扩增子;约100,000-10,000个扩增子或约50,000-10,000个扩增子。
38.在一些实施方式中,多个扩增子包括约50,000个扩增子;约100,000个扩增子;约150,000个扩增子;约200,000个扩增子;约250,000个扩增子;约300,000个扩增子;约350,000个扩增子;约400,000个扩增子;约450,000个扩增子;约500,00个扩增子;约550,000个扩增子;约600,000个扩增子;约650,000个扩增子;约700,000个扩增子;约750,000个扩增子;约800,000个扩增子;约850,000个扩增子;约900,000个扩增子;约950,000个扩增子;或约1,000,000个扩增子。
39.在一些实施方式中,多个扩增子包括约750,000个扩增子。
40.在一些实施方式中,多个扩增子包括约350,000个扩增子。
41.在一些实施方式中,通过本文所公开的单引物对扩增的重复元件(例如扩增子)的数量是样品中存在的重复元件的数量和/或样品中存在的重复元件的长度的函数。例如,在一些样品中,可以用单引物对检测到的重复元件(例如扩增子)的数量为约750,000个扩增子。在一些实施方式中,在其他样品中,可以用单引物对检测到的重复元件(例如扩增子)的数量为约350,000个扩增子。
42.在一些实施方式中,扩增子的平均长度为约100碱基对或更小。在一些实施方式中,扩增子的平均长度小于约110bp,例如约10-110bp、约10-105bp、约10-100bp、约10-99bp、约10-98bp、约10-97bp、约10-96bp、约10-95bp、约10-94bp、约10-93bp、约10-92bp、约10-91bp、约10-90bp、约10-89bp、约10-87bp、约10-86bp、约10-85bp、约10-84bp、约10-83bp、约10-82bp、约10-81bp、约10-80bp、约10-79bp、约10-78bp、约10-77bp、约10-76bp、约10-75bp、约10-74bp、约10-73bp、约10-72bp、约10-71bp、约10-70bp、约10-65bp、约10-60bp、约10-55bp、约10-50bp、约10-40bp、约10-30bp、约10-20bp、约15-110bp、约20-110bp、约25-110bp、约30-110bp、约35-110bp、约40-110bp、约45-110bp、约50-110bp、约55-110bp约60-110bp、约65-110bp、约70-110bp、约75-110bp、约80-110bp、约85-110bp、约90-110bp、约95-110bp、约100-110bp或约105-110bp。
43.在一些实施方式中,扩增子的平均长度为约10bp;约20bp;约30bp;约40bp;约45bp;约50bp;约60bp;约65bp;约70bp;约75bp;约80bp;约85bp;约90bp;约95bp;约100bp;约105bp或约110bp。
44.在一些实施方式中,该方法进一步包括使对象进行器官或身体区域的放射扫描,例如pet-ct扫描。在一些实施方式中,器官或身体区域的放射扫描表征癌症。在一些实施方式中,器官或身体区域的放射扫描鉴定癌症的位置。在一些实施方式中,放射扫描是pet-ct扫描。在一些实施方式中,在对象被评估多种癌症中每种的存在之后,进行放射扫描。
45.另一方面,本公开提供了测试哺乳动物的基因组中非整倍体的存在的方法。所述方法包括:
46.a)用引物部分(例如与染色体序列互补的引物或引物对)扩增dna样品中的多个染色体序列,以形成多个扩增子,例如,其中所述引物部分扩增足够数量的序列以允许非整倍体检测;
47.b)确定多个扩增子中的一个或多个的核酸序列的至少部分;
48.c)将经测序的扩增子映射到参考基因组;
49.d)将dna样品分为多个基因组区间;
50.e)量化映射到基因组区间的扩增子的多个特征;
51.f)将第一基因组区间中的扩增子的多个特征与一个或多个不同基因组区间中的扩增子的多个特征进行比较;且
52.其中在扩增步骤中形成足以检测非整倍体的大量扩增子,例如,至少10,000、20,000、50,000或100,000个扩增子。
53.在一些实施方式中,该方法在体外进行。
54.在本文公开的任何方法的实施方式中,检测多种癌症中癌症的灵敏度的增加不影响(例如降低或实质性降低)检测多种癌症中癌症的特异性。在一个实施方式中,检测多种癌症中癌症的特异性处于平台期,例如,检测特异性不被其他生物标志物的检测改变。
55.在另一方面,本文提供了使用本文公开的任何方法检测含有低输入dna的样品中非整倍体的方法。
56.在一些实施方式中,样品包含约0.01皮克(pg)至500pg的dna。在一些实施方式中,样品包含约0.01-500pg、0.05-400pg、0.1-300pg、0.5-200pg、1-100pg、10-90pg或20-50pgdna。在一些实施方式中,样品包含至少0.01pg、至少.01pg、至少0.1pg、至少1pg、至少2pg、至少3pg、至少4pg、至少5pg、至少6pg、至少7pg、至少8pg、至少9pg、至少10pg、至少11pg、至少12pg、至少13pg、至少14pg、至少15pg、至少16pg、至少17pg、至少18pg、至少19pg、至少20pg、至少21pg、至少22pg、至少23pg、至少24pg、至少25pg、至少26pg、至少27pg、至少28pg、至少29pg、至少30pg、至少31pg、至少32pg、至少33pg、至少34pg、至少35pg、至少36pg、至少37pg、至少38pg、至少39pg、至少40pg、至少50pg、至少60pg、至少70pg、至少80pg、至少90pg、至少100pg、至少150pg、至少200pg、至少300pg、至少350pg、至少400pg、至少450pg或至少500pg dna。
57.在一些实施方式中,样品包含1pg dna。在一些实施方式中,样品包含2pg dna。在一些实施方式中,样品包含3pg dna。在一些实施方式中,样品包含4pg dna。在一些实施方式中,样品包含5pg dna。在一些实施方式中,样品包含10pg dna。
58.在一些实施方式中,样品是来自对象的生物样品。在一个实施方式中,生物样品包括液体样品,例如血液样品。在一个实施方式中,生物样品包括无细胞dna样品、血浆样品和血清样品。在一个实施方式中,生物样品包含无细胞dna,例如循环肿瘤dna。在一个实施方式中,生物样品包含细胞和/或组织。在一个实施方式中,生物样品包含细胞(例如正常或癌细胞)和无细胞dna。
59.在一些实施方式中,样品是21三体样品。在一些实施方式中,所述样品是法医样品。在一些实施方式中,样品来自胚胎,例如,植入前胚胎。
60.在一些实施方式中,样品是生物样本库(biobank)样品,例如,如实施例3所述。
61.在一些实施方式中,该方法可用于诊断,例如植入前诊断。
62.在一些实施方式中,该方法可用于法医学。
63.在一些实施方式中,该方法是体外方法。
64.在另一方面,本文提供了使用本文公开的任何方法鉴定或区分样品的方法。
65.在一些实施方式中,来自对象(例如第一对象)的样品(例如第一样品)与来自第二
对象的第二样品相区分。在一些实施方式中,基于多态性(例如多元多态性(a plurality of polymorphisms),例如共同多态性(common polymorphisms))样品(例如第一样品)被鉴定为来自第一对象。在一些实施方式中,基于多态性(例如多元多态性,例如共同多态性)第二样品(例如第一样品)被鉴定为来自第二对象。在一些实施方式中,共同多态性存在于重复性元件中,例如,如本文所述。在一些实施方式中,实施例8中公开的方法可用于鉴定和/或区分样品。
66.在另一个方面中,本文提供了反应混合物,其包含:至少2、3、4、5、6、7、8、9或10种检测试剂,其中,检测试剂介导读取数,其为以下水平或存在的值:(i)本文提及的一种或多种遗传生物标志物;(ii)本文提及的一种或多种蛋白质生物标志物;和/或(iii)排列在本文提及的重复元件家族(re家族)的至少两个末端重复元件之间的基因组序列的拷贝数或长度,例如非整倍体。
67.又一方面,本公开提供了一种试剂盒,其包含:(a)至少2、3、4、5、6、7、8、9或10种检测试剂,其中,检测试剂介导读取数,其为以下水平或存在的值:(i)本文提及的一种或多种遗传生物标志物;(ii)本文提及的一种或多种蛋白质生物标志物;和/或(iii)排列在本文提及的重复元件家族(re家族)的至少两个末端重复元件之间的基因组序列的拷贝数或长度,例如非整倍体;和(b)使用所述试剂盒的说明书。
68.在本文公开的任何方法的一些实施方式中,量化映射到基因组区间的扩增子包括鉴定具有一个或多个共有扩增子特征的多个基因组区间。在一些实施方式中,共有扩增子特征是映射扩增子的数量。
69.在本文公开的任何方法的一些实施方式中,共有扩增子特征是映射扩增子的平均长度。在一些实施方式中,具有共有扩增子特征的多个基因组区间被分组进簇。在一些实施方式中,每个簇包含约两百个基因组区间。在一些实施方式中,簇包含预定义的簇。在一些实施方式中,基因组区间的比较进一步包括将来自测试样品的一个或多个基因组区间与预定义的簇进行匹配。在一些实施方式中,匹配来自测试样品的基因组区间和预定义的簇进一步包括鉴定一个或多个具有超出预定义簇的预定显著性阈值的共有扩增子特征的基因组区间。一些实施方式中,所述方法包括有监督的机器学习。在一些实施方式中,有监督的机器学习采用支持向量机模型。
70.在本文公开的任何方法的一些实施方式中,单引物对被用于从含有与seq id no:1至少80%相同的序列的第一引物和与seq id no:10至少80%相同的序列的第二引物的dna样品中扩增多个扩增子。在一些实施方式中,第一引物的序列与seq id no.1至少90%相同。在一些实施方式中,第一引物的序列与seq id no.1至少95%相同。在一些实施方式中,第一引物的序列与seq id no.1为100%相同。在一些实施方式中,第二引物的序列与seq id no.10至少90%相同。在一些实施方式中,第二引物的序列与seq id no.10至少95%相同。在一些实施方式中,第二引物的序列与seq id no.10为100%相同。在一些实施方式中,包含引物对的试剂盒被用于从dna样品中扩增多个扩增子,其中该引物对的第一引物含有seq id no:1或至少与其80%相同的序列,该引物对的第二引物含有seq id no:10或至少与其80%相同的序列。
71.另一方面,本公开提供了测试哺乳动物的癌症存在的方法。该方法包括:a)用与染色体序列互补的引物对扩增dna样品中的多个染色体序列以形成多个扩增子;b)确定多个
110bp、约45-110bp、约50-110bp、约55-110bp约60-110bp、约65-110bp、约70-110bp、约75-110bp、约80-110bp、约85-110bp、约90-110bp、约95-110bp、约100-110bp或约105-110bp。
79.在一些实施方式中,扩增子的平均长度为约10bp;约20bp;约30bp;约40bp;约45bp;约50bp;约60bp;约65bp;约70bp;约75bp;约80bp;约85bp;约90bp;约95bp;约100bp;约105bp或约110bp。
80.本文公开的任何方法的其他特征包含以下列举的实施方式的一种或多种。
81.本领域技术人员应了解或能够确定采用不超过常规实验即可获得本文所述的本发明具体实施方式的许多等同形式。这样的等同形式意在被以下列举的实施方式所涵盖。
82.列举的实施方式
83.e1.一种评估对象存在多种(例如至少四种)癌症中的任一种,或对象中发展多种(例如至少四种)癌症中的任一种的风险的方法,其包括:
84.(i)获取,例如直接获取或间接获取,用于(例如检测)一个或多个遗传生物标志物的存在的值,例如在一个或多个基因(例如一个或多个驱动基因,例如,在至少四个驱动基因中)中各自一个或多个突变(例如一个或多个驱动基因突变),可选地,其中每个基因(例如驱动基因)与多种癌症的癌症存在或癌症风险相关;
85.(ii)获取(例如直接获取或间接获取)用于(例如检测)多种(例如至少四种)蛋白质生物标志物中的每一种的水平的值,可选地,其中,多种蛋白质生物标志物的各自的水平与多种癌症的癌症存在或癌症风险相关;或
86.(iii)获取(例如直接获取或间接获取)用于(例如检测)非整倍体的值,其中所述非整倍体值是排列在重复元件家族(re族)的至少两个末端重复元件之间的基因组序列的拷贝数或长度的函数,其中re族包括:
87.(a)除长散在核苷酸元件(line)之外的re家族;
88.(b)re家族,当用互补于其重复末端元件的引物部分扩增时,提供多个平均长度小于x nt的扩增子,其中x为100、105或110,
89.(c)长度小于约700bp的re家族;或
90.(d)每个基因组中存在至少100个拷贝的re家族;
91.可选地,其中非整倍体与多种癌症的癌症存在或癌症风险相关;
92.从而评估对象存在多种癌症(例如至少四种)中的任一种(或发展风险)。
93.e2.如实施方式e1所述的方法,其中:
94.(a)(i)、(ii)和(iii)之一被直接获取;
95.(b)(i)和(ii)被直接获取;
96.(c)(i)和(iii)被直接获取;
97.(d)(ii)和(iii)被直接获取;或
98.(e)(i)、(ii)和(iii)全部被直接获取。
99.e3.如实施方式e1所述的方法,其中:
100.(a)(i)、(ii)和(iii)之一被间接获取;
101.(b)(i)和(ii)被间接获取;
102.(c)(i)和(iii)被间接获取;
103.(d)(ii)和(iii)被间接获取;或
104.(e)(i)、(ii)和(iii)全部被间接获取。
105.e4.如实施方式e1-e3中任一项所述的方法,其包括:
106.(1)测序包含遗传生物标志物的一个或多个亚基因组区间或扩增子;
107.(2)分析非整倍体的一个或多个基因组序列,和/或
108.(3)将蛋白质生物标志物与检测试剂接触。
109.e5.如实施方式e1-e4中任一项所述的方法,其中,所述非整倍体值是以下的函数:
110.(a)排列在re家族的至少两个末端重复元件之间的基因组序列的拷贝数;和/或
111.(b)排列在重复元件家族(re家族)的至少两个末端重复元件之间的基因组序列的长度。
112.e6.如实施方式e1-e5中任一项所述的方法,其中从对象获得的生物样品被评估(i)-(iii)中的一项、两项或全部。
113.e7.如实施方式e6所述的方法,其中所述生物样品包括液体样品,例如血液样品。
114.e8.如实施方式e6或e7所述的方法,其中所述生物样品包括无细胞dna样品、血浆样品或血清样品。
115.e9.如实施方式e6-e8中任一项所述的方法,其中所述生物样品包含无细胞dna,例如循环肿瘤dna。
116.e10.如实施方式e1-e9中任一项所述的方法,其进一步包括:
117.(i)从来自样品的无细胞dna中获取亚基因组区间的序列;
118.(ii)从来自样品的白细胞dna中获取白细胞参数,例如,亚基因组区间的序列。
119.e11.如实施方式e1-e10中任一项所述的方法,其进一步包括:
120.(i)从来自样品的无细胞dna中获取亚基因组区间的序列用于非整倍体分析;
121.(ii)从来自样品的白细胞dna中获取白细胞参数,例如,用于非整倍体分析的亚基因组区间的序列。
122.e12.如实施方式e10或e11所述的方法进一步包括
123.比较(i)和(ii)以评估在无细胞dna亚基因组区间或无细胞dna非整倍体分析样品中发现的基因组事件,例如突变。
124.e13.如实施方式e10-e12中任一项所述的方法,其进一步对来自无细胞dna或来自无细胞dna的非整倍体分析的亚基因组区间中的基因组事件(例如突变)进行分类,例如将所述突变分配为第一类或第二类。
125.e14.如实施方式e10-e13中任一项所述的方法,其进一步包括对来自无细胞dna或来自无细胞dna的非整倍体分析的亚基因组区间中的基因组事件(例如突变)进行分类,分类为失控生长(growth-deregulating),例如癌性的。
126.e15.如实施方式e10-e13中任一项所述的方法,其进一步包括对来自无细胞dna或来自无细胞dna的非整倍体分析的亚基因组区间中的基因组事件(例如突变)进行分类,分类为非失控生长,例如非癌性的。
127.e16.如实施方式e10-e14中任一项所述的方法,其中对来自无细胞dna或来自无细胞dna的非整倍体分析的亚基因组区间中的基因组事件(例如突变)进行分类,在以下情况中分类为癌性的:
128.(a)在无细胞dna中亚基因组区间是非整倍体的,且在白细胞中亚基因组区间不是
非整倍体的;或
129.(b)基因组事件存在于无细胞dna的亚基因组区间,且基因组事件在白细胞的亚基因组区间不存在。
130.e17.如实施方式e10-e13或e15中任一项所述的方法,其中对来自无细胞dna或来自无细胞dna的非整倍体分析的亚基因组区间中的基因组事件(例如突变)进行分类,在以下情况中分类为非失控生长的:
131.(a)在无细胞dna中亚基因组区间是非整倍体的,且在白细胞中亚基因组区间是非整倍体的;或
132.(b)基因组事件存在于无细胞dna的亚基因组区间,且基因组事件存在于白细胞的亚基因组区间。
133.e18.如实施方式e17所述的方法,其中基因组事件与白细胞的克隆扩增相关,例如年龄相关的克隆性造血,例如意义未明的克隆性造血(clonal hematopoiesis of indeterminate potential)(chip)。
134.e19.如实施方式e1-e18中任一项所述的方法,其中用(i)、(ii)和(iii)检测多种癌症中癌症的特异性基本上等同于(例如基本上不低于)用:(i);(ii);(iii);(i)和(ii);(i)和(iii);或(ii)和(iii)检测多种癌症中癌症的特异性。
135.e20.如实施方式e1-19中任一项所述的方法,其中用(i)、(ii)和(iii)检测多种癌症中癌症的灵敏度更高,例如,约1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10倍高于用:(i);(ii);(iii);(i)和(ii);(i)和(iii);或(ii)和(iii)检测多种癌症中癌症的灵敏度。
136.e21.如实施方式e1-e20中任一项所述的方法,其中(i)、(ii)和(iii)导致检测灵敏度增加,例如,在特定特异性下,例如在预定特异性下,例如至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%特异性下,检测的灵敏度增加,例如,约1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10倍。
137.e22.如实施方式e20-e21中任一项所述的方法,其中检测多种癌症中癌症的灵敏度的增加不影响(例如降低或实质性降低)检测多种癌症中癌症的特异性。
138.e23.如实施方式e22所述的方法,其中检测多种癌症中癌症的特异性处于平台期。
139.e24.如实施方式e1-e23中任一项所述的方法,其中re家族是除line之外的。
140.e25.如实施方式e1-e24中任一项所述的方法,其中re家族包含重复元件,当用其重复末端元件的引物扩增时,其提供多个扩增子,扩增子长度小于约110bp,例如约10-110bp、约10-105bp、约10-100bp、约10-99bp、约10-98bp、约10-97bp、约10-96bp、约10-95bp、约10-94bp、约10-93bp、约10-92bp、约10-91bp、约10-90bp、约10-89bp、约10-87bp、约10-86bp、约10-85bp、约10-84bp、约10-83bp、约10-82bp、约10-81bp、约10-80bp、约10-79bp、约10-78bp、约10-77bp、约10-76bp、约10-75bp、约10-74bp、约10-73bp、约10-72bp、约10-71bp、约10-70bp、约10-65bp、约10-60bp、约10-55bp、约10-50bp、约10-40bp、约10-30bp、约10-20bp、约15-110bp、约20-110bp、约25-110bp、约30-110bp、约35-110bp、约40-110bp、约45-110bp、约50-110bp、约55-110bp约60-110bp、约65-110bp、约70-110bp、约75-110bp、约80-110bp、约85-110bp、约90-110bp、约95-110bp、约100-110bp或约105-110bp。
141.e26.如实施方式e1-e25中任一项所述的方法,其中re家族包含表1中所示的一种
或多种重复性元件。
142.e27.如实施方式e1-e26中任一项所述的方法,其中re家族包括sine或串联重复(tandem repeat)(例如,微卫星dna(microsatellite dna)、小卫星dna(mini-satellite dna)、卫星dna或具有多个拷贝的基因的dna(例如编码dna的核糖体rna))。
143.e28.如实施方式e27所述的方法,其中re家族为sine,例如alu家族、mir或mir3,或vassetzky和kramerov(2013)nucleic acids res.41:d83-89中所述的sine。
144.e29.如实施方式e1-e28中任一项所述的方法,其中非整倍体的值进一步为排列在line重复元件的末端重复元件之间的基因组序列的拷贝数或长度的函数。
145.e30.如实施方式e1-e29中任一项所述的方法,其中非整倍体的值进一步为排列在重复元件家族的末端重复元件之间的多个基因组序列的拷贝数或长度的函数,当用互补于其重复末端元件的引物扩增时,其提供平均长度大于100bp的扩增子。
146.e31.如实施方式e1-e30中任一项所述的方法,其中非整倍体的值进一步是以下的函数:
147.a)用互补于染色体序列的引物对扩增dna样品中的多个染色体序列,以形成多个扩增子;
148.b)确定多个扩增子中的一个或多个的核酸序列的至少部分;
149.c)将经测序的扩增子映射到参考基因组;
150.d)将dna样品分为多个基因组区间;
151.e)量化映射到基因组区间的扩增子的多个特征;
152.f)将第一基因组区间中的扩增子的多个特征与一个或多个不同基因组区间中的扩增子的多个特征进行比较;且
153.g)其中在扩增步骤形成至少100,000个扩增子。
154.e32.如实施方式e1-e31中任一项所述的方法,包括提供非整倍体的值,其中所述值为排列在re家族的末端重复元件之间的至少约5、10、20、30、50、100、200、500或1000个不同的基因组序列的拷贝数的函数。
155.e33.如实施方式e1-e32中任一项所述的方法,其中拷贝数大于2或小于2。
156.e34.如实施方式e31-e33中任一项所述的方法,其中形成了至少约100,000个扩增子、约150,000个扩增子、约200,000个扩增子;约250,000个扩增子;约300,000个扩增子;约350,000个扩增子;约400,000个扩增子;约450,000个扩增子;约500,000个扩增子;约550,000个扩增子;约600,000个扩增子;约650,000个扩增子;约700,000个扩增子;约750,000个扩增子;约800,000个扩增子;约850,000个扩增子;约900,000个扩增子;约950,000个扩增子;或约1,000,000个扩增子。
157.e35.如实施方式e1-e34中任一项所述的方法,包括提供非整倍体的值,其中所述值为以下的函数:
158.(i)排列在re家族的末端重复元件之间,位于基因组dna的第一区段上的第一基因组序列的拷贝数或长度;和
159.(ii)排列在(例如相同或不同的)re家族的末端重复元件之间,位于基因组dna的第二区段上的第二基因组序列的拷贝数或长度。
160.e36.如实施方式e35所述的方法,其中:
161.(i)基因组dna的第一区段和基因组dna的第二区段位于同一染色体的不同臂上,例如,第一区段在q臂上,第二区段在同一染色体的p臂上;或第一区段在p臂上,第二区段在同一染色体的q臂上。
162.(ii)基因组dna的第一区段和基因组dna的第二区段在同一染色体的同一臂上,例如,第一区段和第二区段都在染色体的p臂或q臂上;和/或
163.(iii)基因组dna的第一区段和基因组dna的第二区段在不同的染色体上,例如,非同源染色体。
164.e37.如实施方式e1-e36中任一项所述的方法,包括提供非整倍体的值,其中所述值为以下的函数:
165.排列在re家族的末端重复元件之间,位于第三染色体上的第三基因组序列的拷贝数或长度。
166.e38.如实施方式e1-e37中任一项所述的方法,包括提供非整倍体的值,其中所述值为以下的函数:
167.排列在re家族的末端重复元件之间,位于第n染色体上的第n基因组序列的拷贝数或长度,其中n为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23。
168.e39.如实施方式e1-e38中任一项所述的方法,其包括使对象基因组核酸与引物部分接触,扩增包含排列在re家族的末端重复元件之间的基因组序列的序列。
169.e40.如实施方式e39所述的方法,其中引物部分与re家族的末端元件互补。
170.e41.如实施方式e39或e40所述的方法,其中引物部分包含引物对。
171.e42.如实施方式e39-e41中任一项所述的方法,其中引物部分包含单引物,和,例如与等温扩增一起使用。
172.e43.如实施方式e1-e42中任一项所述的方法,其中检测到的生物标志物的数量(例如驱动基因突变的数量)是足够的,使得用与其相关的各种基因(例如驱动基因),通过检测一种或多种其他遗传生物标志物检测多种癌症中癌症的灵敏度并不会大幅增加。
173.e44.如实施方式e1-e42中任一项所述的方法,其中检测遗传生物标志物包括提供(例如通过测序)遗传生物标志物的序列(例如核苷酸序列)。
174.e45.如实施方式e44所述的方法,其中所提供的遗传生物标志物序列的数量是足够的,使得用与其相关的各种基因(例如驱动基因),通过提供一种或多种其他遗传生物标志物的序列,检测多种癌症中癌症的灵敏度并不会大幅增加。
175.e46.如实施方式e1-e42中任一项所述的方法,其中检测生物标志物包括提供包含遗传生物标志物的一个或多个亚基因组区间的序列(例如核苷酸序列)。
176.e47.如实施方式e46所述的方法,其中所提供的亚基因组区间序列的数量是足够的,使得用与其相关的各种基因(例如驱动基因),通过提供一种或多种其他亚基因组区间的序列(例如核苷酸序列),检测多种癌症中癌症的灵敏度并不会大幅增加。
177.e48.如实施方式e1-e42中任一项所述的方法,其中检测遗传生物标志物包括提供包含遗传生物标志物的扩增子的序列。
178.e49.如实施方式e48所述的方法,其中所提供的扩增子序列的数量是足够的,使得用与其相关的各种基因(例如驱动基因),通过提供一种或多种其他扩增子的序列,检测多种癌症中癌症的灵敏度并不会大幅增加。
179.e50.如实施方式e46所述的方法,其中所提供的亚基因组区间序列的数量是足够的,使得用与其相关的各种基因(例如驱动基因),通过提供一种或多种其他亚基因组区间的序列,检测多种癌症中癌症的特异性并不会大幅降低。
180.e51.如实施方式e48所述的方法,其中所提供的扩增子的数量是足够的,使得用与其相关的多种各个基因(例如驱动基因),通过提供一种或多种其他扩增子的序列,检测多种癌症中癌症的特异性并不会大幅降低。
181.e52.前述实施方式中任一项所述的方法,其中所述多种癌症包括4、5、6、7或8种癌症。
182.e53.如前述实施方式中任一项所述的方法,其中所述多种癌症选自实体瘤,例如:间皮瘤(如恶性胸膜间皮瘤)、肺癌(如非小细胞肺癌、小细胞肺癌、鳞状细胞肺癌或大细胞肺癌)、胰腺癌(如胰腺导管腺癌)、肝癌(例如,肝细胞癌或肝胆管型肝癌(cholangiocarcinoma))、食道癌(例如,食道腺癌或鳞状细胞癌)、头颈癌、卵巢癌、结直肠癌、膀胱癌、宫颈癌、子宫癌(子宫内膜癌)、肾癌、乳腺癌、前列腺癌、脑癌(例如成神经管细胞瘤或成胶质细胞瘤)或肉瘤(例如尤文肉瘤(ewing sarcoma)、骨肉瘤、横纹肌肉瘤),或其组合。
183.e54.如前述实施方式中任一项所述的方法,其中所述多种癌选自肝癌、卵巢癌、食道癌、胃癌、胰腺癌、结直肠癌、肺癌、乳腺癌或前列腺癌,或其组合。
184.e55.如前述实施方式中任一项所述的方法,其中所述多种癌中的一种或多种选自肝癌、卵巢癌、食道癌、胃癌、胰腺癌、结直肠癌、肺癌或乳腺癌。
185.e56.如前述实施方式中任一项所述的方法,其中所述多种癌中的一种或多种为血液癌症。
186.e57.如前述实施方式中任一项所述的方法,其中来自一个或多个基因,例如,来自一个或多个驱动基因,例如列于us2019/0256924a1的表60和61的基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2的不超过60、100、150、200、300或400个亚基因组区间或扩增子被测序。
187.e58.如前述实施方式中任一项所述的方法,其中来自一个或多个基因,例如,来自一个或多个驱动基因,例如列于us2019/0256924a1的表60和61的基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、
csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2的至少30、40、50或60个亚基因组区间或扩增子被测序。
188.e59.如前述实施方式中任一项所述的方法,其中来自一个或多个基因,例如,来自一个或多个驱动基因,例如一个或多个列于us2019/0256924a1的表60和61的基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2的至少30个且不超过400个、至少40个且不超过300个、至少50个且不超过200个、至少60个且不超过150个或至少60个且不超过100个亚基因组区间或扩增子被测序。
189.e60.如前述实施方式中任一项所述的方法,其中对基因测序的亚基因组区间或扩增子的数量不超过达到癌症检测灵敏度平台期的最低数量的125%、150%、200%或300%。
190.e61.如前述实施方式中任一项所述的方法,其中遗传生物标志物的各个亚基因组区间或扩增子包含6-800bp,例如,6-750bp、6-700bp、6-650bp、6-600bp、6-550bp、6-500bp、6-450bp、6-400bp、6-350bp、6-300bp、6-250bp、6-200bp、6-150bp、6-100bp、10-800bp、15-800bp、20-800bp、25-800bp、30-800bp、35-800bp、40-800bp、45-800bp、50-800bp、55-800bp、60-800bp、65-800bp、70-800bp、75-800bp、80-800bp、85-800bp、90-800bp、95-800bp、100-800bp、200-800bp、300-800bp、400-800bp、500-800bp、600-800bp、700-800bp、10-700bp、20-600bp、30-500bp、40-400bp、50-300bp、60-200bp、61-150bp、62-140bp、63-130bp、64-120bp或65-100bp,例如66-80bp。
191.e62.如前述实施方式中任一项所述的方法,其中遗传生物标志物的各个亚基因组区间或扩增子包含约35、40、45、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、100或110bp。
192.e63.如前述实施方式中任一项所述的方法,其中遗传生物标志物的各个亚基因组区间或扩增子包含不超过50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700或800bp。
193.e64.如前述实施方式中任一项所述的方法,其中遗传生物标志物的各个亚基因组区间或扩增子包含至少6、10、15、20、25、30、35、40、45或50bp。
194.e65.如前述实施方式中任一项所述的方法,其中遗传生物标志物的各个亚基因组区间或扩增子包含至少6pb且不超过800bp、至少10bp且不超过700bp、至少15bp且不超过600bp、至少20bp且不超过600bp、至少25bp且不超过500bp、至少30bp且不超过400bp、至少35bp且不超过300bp、至少40bp且不超过200bp、至少45bp且不超过100bp、至少50bp且不超过95bp或至少55bp且不超过90bp。
195.e66.如前述实施方式中任一项所述的方法,其中遗传生物标志物的各个亚基因组区间或扩增子包含66-80bp。
196.e67.如前述实施方式中任一项所述的方法,其中遗传生物标志物的亚基因组区间或扩增子的数量包括不超过2000、2500、3000、3500、4000、5000、6000、7000、8000、9000、10,000、15,000或20,000bp。
197.e68.如前述实施方式中任一项所述的方法,其中遗传生物标志物的亚基因组区间或扩增子的数量包括至少200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900或2000bp。
198.e69.如前述实施方式中任一项所述的方法,其中遗传生物标志物的亚基因组区间或扩增子的数量包括至少200bp且不超过20,000bp、至少300bp且不超过15,000bp、至少400bp且不超过10,000bp、至少500bp且不超过9000、至少600bp且不超过8000bp、至少700bp且不超过7000bp、至少800bp且不超过6000bp、至少900bp且不超过5000bp、至少1000bp且不超过4000bp、至少1100bp且不超过3500bp、至少1200bp且不超过3000bp、至少1300bp且不超过2500bp或至少1500bp且不超过2000bp。
199.e70.如前述实施方式中任一项所述的方法,其中遗传生物标志物的亚基因组区间或扩增子的数量包括200 15%、300 15%、400 15%、500 15%、600 15%、700 15%、800 15%、900 15%、1000 15%、1100 15%、1200 15%、1300 15%、1400 15%、1500 15%、1600 15%、1700 15%、1800 15%、1900 15%、2000 15%、2500 15%、3000 15%、3500 15%、4000 15%、5000 15%、6000 15%、7000 15%、8000 15%、9000 15%、10,000 15%、15,000 15%或20,000bp 15%,例如,2000bp 15%。
200.e71.如前述实施方式中任一项所述的方法,其中遗传生物标志物的亚基因组区间或扩增子的数量包括2000bp。
201.e72.如前述实施方式中任一项所述的方法,其中对遗传生物标志物的亚基因组区间或扩增子测序的平均深度是至少5
×
测序深度。
202.e73.如前述实施方式中任一项所述的方法,其中对遗传生物标志物的亚基因组区间或扩增子测序的平均深度是不超过500
×
测序深度。
203.e74.如前述实施方式中任一项所述的方法,其中对遗传生物标志物的亚基因组区间或扩增子测序的平均深度是在5
×
至500
×
测序深度之间。
204.e75.如前述实施方式中任一项所述的方法,其中所述检测步骤包括测序各个亚基
因组区间至每个碱基至少50,000读数的深度。
205.e76.如前述实施方式中任一项所述的方法,其中所述检测步骤包括测序各个亚基因组区间至每个碱基不超过150,000读数的深度。
206.e77.如前述实施方式中任一项所述的方法,其中所述检测步骤包括测序各个亚基因组区间至每个碱基50,000读数至150,000读数的深度。
207.e78.如前述实施方式中任一项所述的方法,其中所述检测步骤包括以足以在所述感兴趣的区域以低至0.0005%的频率检测到突变的深度,测序各个亚基因组区间。
208.e79.如前述实施方式中任一项所述的方法,其中对于各个生物标志物,例如各个基因,例如各个驱动基因,例如us2019/0256924a1中表60或61中所公开的各个基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2,测序不超过20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、100、200或300bp。
209.e80.如前述实施方式中任一项所述的方法,其中在各个生物标志物中,例如各个基因中,例如各个驱动基因中,例如公开于us2019/0256924a1中的表60或61中的各个基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2中的至少6、7、8、9、10、11、12、13、14、15、16、17、18、19或20bp被测序。
210.e81.如前述实施方式中任一项所述的方法,其中在各个生物标志物中,例如在各个基因中,例如在各个驱动基因中,例如,在列于us2019/0256924a1中的表60或61的各个基因中,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、
cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp 1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2中的至少6且不超过300bp、至少7且不超过200bp、至少8bp且不超过100bp、至少9bp且不超过60bp、至少10bp且不超过55bp、至少11bp且不超过50bp、至少12bp且不超过45bp、至少13bp且不超过40bp、至少14bp且不超过35bp、至少15bp且不超过34bp、至少14bp且不超过33bp、至少15bp且不超过32bp、至少16bp且不超过31bp、至少17bp且不超过30bp、至少18bp且不超过29bp、至少19bp且不超过28bp、至少20bp且不超过27bp被测序。
211.e82.如前述实施方式中任一项所述的方法,其中在各个生物标志物中,例如各个基因中,例如各个驱动基因中,例如公开于us2019/0256924a1中的表60或61中的各个基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、medl2、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2中约33bp被测序。
212.e83.如前述实施方式中任一项所述的方法,其中检测生物标志物包括提供长度不超过20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、100、200或300bp的亚基因组区间或扩增子的序列,其中所述亚基因组区间或扩增子包含生物标志物,例如,含有驱动突变的驱动基因。
213.e84.如前述实施方式中任一项所述的方法,其中检测生物标志物包括提供长度至少6、7、8、9、10、11、12、13、14、15、16、17、18、19或20bp的亚基因组区间或扩增子的序列,其中所述亚基因组区间或扩增子包含生物标志物,例如,含有驱动突变的驱动基因。
214.e85.如前述实施方式中任一项所述的方法,其中检测生物标志物包括提供亚基因组区间或扩增子的序列,其长度为至少6且不超过300bp、至少7且不超过200bp、至少8bp且不超过100bp、至少9bp且不超过60bp、至少10bp且不超过55bp、至少11bp且不超过50bp、至少12bp且不超过45bp、至少13bp且不超过40bp、至少14bp且不超过35bp、至少15bp且不超过34bp、至少14bp且不超过33bp、至少15bp且不超过32bp、至少16bp且不超过31bp、至少17bp
且不超过30bp、至少18bp且不超过29bp、至少19bp且不超过28bp、至少20bp且不超过27bp,且其中所述亚基因组区间或扩增子包含生物标志物,例如含有驱动突变的驱动基因。
215.e86.如前述实施方式中任一项所述的方法,其中检测生物标志物包括提供长度为6bp至300bp、7bp至200bp或8至100bp、9bp至60bp、10bp至50bp、15bp至40bp、20bp至35bp的亚基因组区间或扩增子的序列,其中所述亚基因组区间或扩增子包含生物标志物,例如,含有驱动突变的驱动基因。
216.e87.如前述实施方式中任一项所述的方法,其中检测生物标志物包括提供长度为约33bp的亚基因组区间或扩增子的序列,且其中所述亚基因组区间或扩增子包含生物标志物,例如含有驱动突变的驱动基因。
217.e88.如前述实施方式中任一项所述的方法,其进一步包括:
218.b)检测生物样品中多种(例如至少四种)蛋白质生物标志物中的每一种的水平,其中多种蛋白质生物标志物的各自的水平与多种癌症中的癌症存在相关;
219.(可选)(c)将多个蛋白质生物标志物中每种蛋白质生物标志物的检测水平与蛋白质生物标志物的参考水平进行比较;和
220.d)当存在一种或多种遗传生物标志物,且多种蛋白质生物标志物中的一种蛋白质生物标志物的水平被检测到时,鉴定对象中多种癌症的癌症存在。
221.e89.如前述实施方式中任一项所述的方法,其中:
222.(i)对象尚未被确定为患有癌症,例如选自所述多种癌症的癌症,
223.(ii)对象尚未被确定为携带癌细胞,例如选自所述多种癌症的癌细胞,或
224.(iii)对象没有表现出或还没有表现出与患癌相关的症状,例如选自所述多种癌症的癌症。
225.e90.前述实施方式中任一项所述的方法,其中所述对象:
226.(i)是儿科对象或年轻的成年者;例如年龄为6个月-21岁;或
227.(ii)是成年者,例如,18岁或更年长。
228.e91.如前述实施方式中任一项所述的方法,其中所述样品包括肿瘤样品,例如活检样品(例如液体活检样品(例如循环肿瘤dna样品,或无细胞dna样品)或实体瘤活检样品);血液样品(例如循环肿瘤dna样品,或无细胞dna样品)、单采样品(apheresis sample)、尿样品、囊肿液体样品(例如胰腺囊肿液体样品)、巴氏(papanicolaou)(pap)样品或固定的肿瘤样品(例如,福尔马林固定的样品或石蜡包埋样品(fppe))。
229.e92.如前述实施方式中任一项所述的方法,其中所述一个或多个(例如多个)基因包含来自us2019/0256924a1的表60和61的1、2、3或4个基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、
smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2。
230.e93.如前述实施方式中任一项所述的方法,其中所述一个或多个(例如多个)基因包含选自us2019/0256924a5的表60和61中的5、6、7或8个基因,例如,abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe2l2、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1或skp2。
231.e94.如前述实施方式中任一项所述的方法,其中所述一个或多个(例如多个)基因是选自:nras、ctnnb1、pik3ca、fbxw7、apc、egfr、braf、cdkn2a、pten、fgfr2、hras、kras、akt1、tp53、ppp2r1a或gnas的基因。
232.e95.如前述实施方式中任一项所述的方法,其中所述一种或多种(例如多种)生物标志物(例如一个或多个基因)是选自:kras、pik3ca、hras、cdkn2a、tp53、akt1、ctnnb1、apc、egfr、gnas、ppp2r1a、braf、fbxw7、pten或fgfr2或其组合,且癌症是选自:肝癌、卵巢癌、食道癌、胃癌、胰腺癌、结直肠癌、肺癌、乳腺癌或前列腺癌。
233.e96.如前述实施方式中任一项所述的方法,其中所述一种或多种(例如多种)生物标志物(例如一个或多个基因)是选自:kras、pik3ca、hras、cdkn2a、tp53、tert、erbb2、fgfr3、met、mll或vhl或其组合,且癌症是选自:膀胱癌或上尿路上皮癌(utuc)。
234.e97.如前述实施方式中任一项所述的方法,其中所述一种或多种(例如多种)生物标志物(例如一个或多个基因)是选自:kras、pik3ca、cdkn2a、tp53、ctnnb1、ppp2r1a、braf、pten、csmd3、fat3、brca或arid1a或其组合,且癌症是卵巢癌或子宫内膜癌。
235.e98.如前述实施方式中任一项所述的方法,其中所述一种或多种(例如多种)生物标志物(例如一个或多个基因)是选自:kras、pik3ca、cdkn2a、tp53、ctnnb1、gnas、braf、nras、vhl、rnf43或smad4或其组合,且癌症是胰腺癌,例如胰腺导管腺癌(pdac)。
236.e99.如前述实施方式中任一项所述的方法,其中所述一种或多种(例如多种)生物标志物包含5、6、7或8种蛋白质生物标志物。
237.e100.如前述实施方式中任一项所述的方法,其中所述一种或多种(例如多种)生物标志物包含选自ca19-9、cea、hgf、opn、ca125、催乳素(prl)、timp-1、ca15-3、afp或mpo的生物标志物。
238.e101.如前述实施方式中任一项所述的方法,其中检测一种或多种遗传生物标志物的存在包括:
239.a.为存在的多个模板分子的每一个分配独特标识符(uid)
240.在样品中;
241.b.扩增每个被独特地加标签的模板分子以创建uid-家族;和
242.c.对扩增产物进行冗余测序(redundantly sequencing)。
243.e102.如前述实施方式中任一项所述的方法,其进一步包括检测样品中非整倍体的存在,例如检测一个或多个染色体的获得或丢失,例如使用如实施例6中所述的waldo方法。
244.e103.如实施方式102所述的方法,其中所述方法包括:(i)预估体细胞突变负荷;(ii)预估致癌因子特征,和/或(iii)检测微卫星不稳定性(msi)。
245.e104.如实施方式102或103所述的方法,其中所述方法可用于比较两个样品,例如两个不相关的样品,以评估样品之间的遗传相似性或发现样品中的体细胞突变,例如样品中的line元件中的体细胞突变。
246.e105.如实施方式102或103所述的方法,其中所述方法导致非整倍体检测的特异性和/或灵敏度增加。
247.e106.如实施方式102所述的方法,其中非整倍体的存在是在一个或多个染色体臂上检测到的。
248.e107.如前述实施方式中任一项所述的方法,其进一步包括将来源或癌症类型分配至癌症,响应于以下值:遗传标志物、蛋白质生物标志物和/或非整倍体状态。
249.e108.如前述实施方式中任一项所述的方法,其中响应于以下值:遗传标志物、蛋白质生物标志物和/或非整倍体状态,该方法包括鉴定对象患有癌症或具有发展癌症的风险。
250.e109.如实施方式e108所述的方法,其进一步包括给予对象治疗剂以治疗癌症,或选择治疗剂用于治疗对象癌症。
251.e110.如实施方式e109所述的方法,其中患者被给予与一种或多种其他治疗剂组合的治疗剂。
252.e111.一种反应混合物,包含:
253.至少2、3、4、5、6、7、8、9或10种检测试剂,其中,检测试剂介导读取数,其为以下水平或存在的值:
254.(i)本文提及的一种或多种遗传生物标志物;
255.(ii)本文提及的一种或多种蛋白质生物标志物;和/或
256.(iii)排列在本文提及的重复元件家族(re家族)的至少两个末端重复元件之间的基因组序列的拷贝数或长度,例如非整倍体。
257.e112.如实施方式e111所述的反应混合物,其包括多种用于(i)的检测试剂。
258.e113.如实施方式e111-e112中任一项所述的反应混合物,其包括多种用于(ii)的检测试剂。
259.e114.如实施方式e111-e113中任一项所述的反应混合物,其包括多种用于(iii)的检测试剂。
260.e115.如实施方式e111-e114中任一项所述的反应混合物,其包括来自对象的样品,例如对象样品。
261.e116.一种试剂盒,其包括:
262.(a)至少2、3、4、5、6、7、8、9或10种检测试剂,其中,检测试剂介导读取数,其为以下水平或存在的值:
263.(i)本文提及的一种或多种遗传生物标志物;
264.(ii)本文提及的一种或多种蛋白质生物标志物;和/或
265.(iii)排列在本文提及的重复元件家族(re家族)的至少两个末端重复元件之间的基因组序列的拷贝数或长度,例如非整倍体;和
266.(b)使用所述试剂盒的说明书。
267.e117.如实施方式e116所述的反应混合物,其包括多种用于(i)的检测试剂。
268.e118.如实施方式e116-e117中任一项所述的反应混合物,其包括多种用于(ii)的检测试剂。
269.e119.如实施方式e116-e118中任一项所述的反应混合物,其包括多种用于(iii)的检测试剂。
270.e120.如实施方式e1-e110中任一项所述的方法,其中使用第一引物和第二引物评估(例如确定)非整倍体状态。
271.e121.如实施方式e120所述的方法,其中所述第一引物包含与seq id no:1至少80%、85%、90%、95%、96%、96%、98%、99%或100%相同的序列。
272.e122.如实施方式e121所述的方法,其中所述第一引物包含seq id no:1的序列。
273.e123.如实施方式e120所述的方法,其中所述第二引物包含与seq id no:10至少80%、85%、90%、95%、96%、96%、98%、99%或100%相同的序列。
274.e124.如实施方式e123所述的方法,其中所述第二引物包含seq id no:10的序列。
275.e125.如实施方式e1-e110中或e120-e124中任一项所述的方法,其进一步包括使对象进行器官或身体区域的放射扫描,例如pet-ct扫描。
276.e126.如实施方式125所述的方法,其中器官或身体区域的放射扫描表征癌症。
277.e127.如实施方式125所述的方法,其中器官或身体区域的放射扫描鉴定癌症的位置。
278.e128.如实施方式e125-e127中任一项所述的方法,其中所述放射扫描是pet-ct扫描。
279.e129.如实施方式e125-e128中任一项所述的方法,其中在对象被评估多种癌症中每种的存在之后,进行放射扫描。
280.e130.如实施方式e1-e110或e120-e129中任一项所述的方法,其包括给予对象一种或多种治疗干预(例如,手术、辅助化疗、新辅助化疗、放射疗法、免疫疗法、靶向疗法和/或免疫检查点抑制剂)。
281.e131.如实施方式e1-e110或e120-e130中任一项所述的方法,其中所述评估包括评估在一个时间点或不同的时间点来自对象的样品。
282.e132.如实施方式e1-e110或e120-e131中任一项所述的方法,其包括评估从对象获得的一个或多个样品,例如多个样品。
283.e133.如e132所述的方法,其中所述一个或多个样品,例如多个样品,是每年获得的,例如在相隔一年内。
284.e134.如实施方式e1-e110或e120-e133中任一项所述的方法,其中对象存在或不存在多种癌症中的每一种是同时被评估的。
285.e135.如实施方式e1-e110或e120-e134中任一项所述的方法,其中,对象存在或不存在多种癌症中的每一种是共同被评估的。
286.e136.如实施方式e1-e110或e120-e135中任一项所述的方法,其包括在预定的区间内的在一个或多个时间点在对象中评估多种癌症中每一种的存在,例如在对象中至少其中一种癌症的相同或基本相同的临床阶段评估。
287.e137.如实施方式e1-e110或e120-e136中任一项所述的方法,其包括评估从对象获得的样品,例如一个样品或多个样品。
288.e138.如实施方式e1-e110或e120-e137中任一项所述的方法,其中在单个样品、单个样品的等分,或在间隔1、5、24或48小时内取得的多个样品上进行共同评估。
289.e139.如实施方式e1-e110或e120-e138中任一项所述的方法,其中所述对象是癌症无症状的。
290.e140.如实施方式e1-e110或e120-e139中任一项所述的方法,其中所述对象是所述多种中的癌症无症状的。
291.e141.如实施方式e1-e110或e120-e140中任一项所述的方法,其中所述对象是未知或未确定携带癌细胞的。
292.e142.如实施方式e1-e110或e120-e141中任一项所述的方法,其中所述对象尚未被确定患有或被诊断为患有癌症。
293.e143.如实施方式e1-e110或e120-e142中任一项所述的方法,其中所述对象是早期癌症,例如i期或ii期。
294.e144.如实施方式e1-e110或e120-e143中任一项所述的方法,其中所述对象是转移前的。
295.e145.如实施方式e1-e110或e120-e144中任一项所述的方法,其中所述对象没有可检测的转移。
296.e146.如实施方式e1-e110或e120-e145中任一项所述的方法,其中所述对象尚未表现出与癌症相关的症状。
297.e147.如实施方式e1-e110或e120-e146中任一项所述的方法,其中所述对象未表现出一种、两种或更多种临床上与癌症相关的症状。
298.e148.如实施方式e1-e110或e120-e147中任一项所述的方法,其中当非整倍体状态是阳性时,所述对象患有早期癌症,例如i期或ii期,如表3中所提供的。
299.e149.如实施方式e1-e110或e120-e147中任一项所述的方法,其中当非整倍体状态是阴性时,所述对象患有早期癌症,例如i期或ii期,如表3中所提供的。
300.e150.一种在含有低输入dna的样品中检测非整倍体的方法。
301.e151.如实施方式e1-e110或e120-e150中任一项所述的方法,其中所述对象包含约0.01皮克(pg)至500pg dna。
302.e152.如实施方式e151所述的方法,其中所述样品包含约0.01-500pg、0.05-400pg、0.1-300pg、0.5-200pg、1-100pg、10-90pg或20-50pg dna。
303.e153.如实施方式e151所述的方法,其中所述样品包含至少0.01pg、至少.01pg、至
少0.1pg、至少1pg、至少2pg、至少3pg、至少4pg、至少5pg、至少6pg、至少7pg、至少8pg、至少9pg、至少10pg、至少11pg、至少12pg、至少13pg、至少14pg、至少15pg、至少16pg、至少17pg、至少18pg、至少19pg、至少20pg、至少21pg、至少22pg、至少23pg、至少24pg、至少25pg、至少26pg、至少27pg、至少28pg、至少29pg、至少30pg、至少31pg、至少32pg、至少33pg、至少34pg、至少35pg、至少36pg、至少37pg、至少38pg、至少39pg、至少40pg、至少50pg、至少60pg、至少70pg、至少80pg、至少90pg、至少100pg、至少150pg、至少200pg、至少300pg、至少350pg、至少400pg、至少450pg或至少500pg dna。
304.e154.一种鉴定或区分样品的方法,例如,使用本文公开的任何方法。
305.e155.如实施方式e154所述的方法,其中来自对象(例如第一对象)的样品(例如第一样品)与来自第二对象的第二样品相区分。
306.e156.如实施方式e154所述的方法,其中基于多态性(例如多元多态性,例如共同多态性),样品(例如第一样品)被鉴定为来自对象。
307.e157.如实施方式e156所述的方法,其中多态性(例如共同多态性)存在于重复性元件中,例如,如本文所述。
308.e158.如实施方式e154所述的方法,其中实施例8中公开的方法可用于鉴定和/或区分样品。
309.e159.如实施方式e1-e110或e120-e158中任一项所述的方法,其中所述方法是体外方法。
310.除非另外定义,本文使用的所有技术和科学术语的意义与本发明所属领域普通技术人员通常所理解的相同。虽然在本发明的实施可以采用类似于或等同于本文所述的那些方法和材料,但下文描述了合适的方法和材料。本文中述及的所有出版物、专利申请、专利和其它参考文献都通过引用全文纳入本文。若有抵触,以本包括定义在内的本技术说明书为准。此外,材料、方法和实施例都仅是说明性的,并不意在构成限制。
311.附图和以下说明进一步详细说明了本发明的一种或多种实施方式。本发明的其他特征、目的和优点将从说明书、附图以及权利要求中显而易见。
附图说明
312.图1a显示了使用单引物对扩增重复性元件时扩增子大小的分布(参见,例如,表1的重复性元件列表)。图1a中所示的扩增子的大小包含引物中的碱基数。
313.图1b显示了使用单引物对扩增重复性元件时扩增子大小的分布(参见,例如,表1的重复性元件列表)。图1b中所示的扩增子的大小不包含引物中的碱基数。
314.图1c显示了来自2231个血浆样品的无细胞dna中观察到的扩增子数量的分布。
315.图2a.本文所述的工作流程的实施方式的示例性概述。
316.图2b是重复性元件非整倍体测序系统(realseqs)的实施方式的示例性概述。
317.图3显示了不同的癌症类型中非整倍体灵敏度和突变(特异性为99%)的对比。在y轴上描述了每种癌症类型中检测到的非整倍体百分比。
318.图4显示了与其他癌症生物标志物相比,非整倍体显示出非整倍体敏感性。在y轴上描述了检测到的癌症百分比(灵敏度)。
319.图5显示了产生具有多个臂改变的合成物的伪代码。
320.图6显示了读数和dna浓度之间的关系的估计。
321.图7a显示了用不同的多分析物测试的癌症检测的灵敏度比较。三种不同的多分析物试验评估了检测八种指定癌症的灵敏度。三种测试为:(1)非整倍体状态、体细胞突变分析和蛋白质生物标志物评估;(2)非整倍体状态和体细胞突变分析;和(3)非整倍体状态和蛋白质生物标志物评估。
322.图7b显示了与仅比较非整倍体 蛋白质或仅突变和蛋白质的测试相比,纳入非整倍体、突变和8种蛋白质的异常高水平的测试的灵敏度。所有灵敏度均以总计99%特异性(即在纳入了非整倍体、突变和蛋白质的测试中,使用10倍交叉验证的10次迭代,仅1%的血浆样品对非整倍体、突变或蛋白质呈阳性)计算。
323.图8是显示使用多种测试的癌症检测的假阳性分数和y轴的真阳性分数(灵敏度)的图表。该测试包括:(1)非整倍体状态;体细胞突变;和蛋白质生物标志物;(2)非整倍体状态和蛋白质生物标志物;(3)体细胞突变和蛋白质生物标志物;(4)非整倍体状态和体细胞突变;(5)非整倍体状态;和(6)体细胞突变。使用99%特异性的阈值计算真阳性分数(灵敏度)。
324.图9显示与非整倍体和蛋白质生物标志物(特异性为95%)的灵敏度相比,在癌症的不同阶段,单独非整倍体(特异性为98%或99%)的癌症检测的灵敏度。
325.图10显示了在不同的癌症阶段的非整倍体(特异性为99%)。
326.图11显示了在不同的癌症类型的非整倍体(特异性为99%)。
327.图12显示了当非整倍体(特异性为99%)与蛋白质生物标志物的检测结合时的灵敏度。
328.图13显示了在计算机中生成用于比较全基因组测序(whole genome sequencing)、fast-seqs和real seqs的三体和单体样品的伪代码。
329.图14显示了在计算机中产生被用于全基因组非整倍体svm(genomewide aneuploidy svm)训练集的具有多个臂改变的模拟样品的伪代码。
330.图15a-15c显示了使用下一代测序技术的非整倍体检测。计算特异性为99%的灵敏度。误差线表示95%置信区间。图15a,在5%细胞分数下所有39个非-近端着丝粒染色体之间单体和三体灵敏度比较。图15b,在5%细胞分数下22q上1.5mb迪乔治缺失的灵敏度比较。图15c,在1%细胞分数下20拷贝erbb2焦点扩增(focal amplification)的灵敏度比较。
331.图16a-16b显示具有焦点缺失(focaldeletion)或焦点扩增的血浆样品的实例。图16a显示了来自正常个体的血浆样品的realseqs数据,其中22号染色体有约3mb的缺失,这是迪乔治综合征的特征。应注意,在该基因座有微缺失的许多患者有轻微的迹象和症状,并且在临床上未检测到。图16b显示了来自正常个体的典型血浆样品的realseqs数据,显示在迪乔治基因座处没有缺失。
332.图17a-17b显示具有焦点缺失(focal deletion)或焦点扩增的血浆样品的实例。图17a显示了来自患有癌症的患者的血浆样品的realseqs数据,其显示包含染色体17q上erbb2基因座的2.5mb焦点扩增。图17b显示了来自正常个体的典型血浆样品的realseqs数据,显示在erbb2基因座没有扩增。
333.图18显示了对于具有不同数量的肿瘤来源dna的血浆样品的realseqs灵敏度。通过血浆样品中存在的驱动突变的突变等位基因频率(maf)估计肿瘤dna的数量。
334.图19a-19b显示了来自八种不同类型的非转移性癌症样品的液体活检中癌症的检测。在交叉验证期间计算特异性为99%的灵敏度。误差线表示95%置信区间。图19a显示了通过realseqs评估的非整倍体状态与关于肿瘤类型的体细胞突变状态的比较。图19b显示了通过realseqs计算的非整倍体状态与关于癌症阶段的体细胞突变状态的比较。
具体实施方式
335.定义
336.如本文所用术语“驱动基因突变”或“驱动突变”,指的是(i)发生在驱动基因中的突变;且(ii)为其发生的细胞提供了生长优势的突变。细胞的生长优势可包括:
337.a)具有驱动基因突变的细胞中细胞分裂速率的增加,例如,与参考细胞相比细胞分裂速率的增加,例如与其他相似细胞相比,例如相邻的其他相似细胞相比,例如与同类型但不具有驱动基因突变的细胞相比;
338.b)具有驱动基因突变的细胞中克隆扩增速率的增加,例如,与参考细胞相比克隆扩增速率的增加,例如与其他相似细胞相比,例如相邻的其他相似细胞相比,例如与同类型但不具有驱动突变的细胞相比;
339.c)具有驱动基因突变的细胞的子代细胞(例如子细胞)的数量增加,例如与不具有驱动基因突变的细胞所预期的子代细胞的数量相比,子代细胞的数量增加;
340.d)形成肿瘤或促进肿瘤生长的能力的增加,例如肿瘤进展,例如,与参考细胞相比,例如与不具有驱动基因突变的其他相似细胞相比;或
341.e)在对象的第二或后续位点或位置存在或出现。
342.在一个实施方式中,驱动基因突变提供了0.1-5%的生长优势,例如,0.1-4.5%、0.1-4%、0.1-3.5%、0.1-3%、0.1-2.5%、0.1-2%、0.1-1.5%、0.1-1%、0.1-0.5%、0.5-5%、1-5%、1.5-5%、2-5%、2.5-5%、3-5%、3.5-5%、4-5%、4.5-5%、0.5-4.5%、1-4%、1.5-3.5%或2-3%,例如增加细胞出生和细胞死亡之间的差。在一个实施方式中,驱动基因突变提供了至少0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%、1.5%、2%、2.5%、3%、3.5%、4%或4.5%,例如约0.4%的生长优势,例如增加细胞出生和死亡之间的差。在一个实施方式中,驱动基因突变为其发生的细胞提供增殖能力,例如允许细胞扩增,例如克隆扩增。
343.在一些实施方式中,驱动基因突变可与癌症进展有因果关系。
344.在一个实施方式中,驱动基因突变影响(例如改变)编码蛋白质的基因的调控、表达或功能。在一个实施方式中,驱动基因突变影响(例如改变)非编码区(例如,非蛋白质编码区)的功能。在一个实施方式中,驱动基因突变包括:易位、缺失(例如纯合缺失)、插入(例如基因内插入)、小插入和缺失(插入缺失(indel))、单碱基替换(例如,同义突变、非同义突变、无义突变或移码突变)、拷贝数变异(cnv)(例如扩增)或单核苷酸变异(snv)(例如单核苷酸多态性(snp))。us2019/0256924a1的表60和61中公开了示例性驱动突变。
345.在一些实施方式中,细胞中驱动基因突变的存在可以改变(例如增加或减少)该细胞中基因产物的表达。在一些实施方式中,细胞中驱动基因突变的存在可以改变基因产物的功能。在一些情况下,细胞中驱动基因突变的存在可以为该细胞提供生长优势。例如,细胞中驱动基因突变的存在可以导致增殖率增加(例如与参考细胞相比)。例如,细胞中驱动
基因突变的存在可以导致具有驱动基因突变的细胞中克隆扩增速率增加(例如与参考细胞相比)。例如,细胞中驱动基因突变的存在可以导致来源于具有驱动基因突变的细胞的子代细胞的数量增加(例如与参考细胞相比)。例如,细胞中驱动基因突变的存在可以导致细胞形成肿瘤的能力增加(例如与参考细胞相比)。在一些情况下,生长优势可以衡量为细胞发生(例如新细胞的形成)和细胞死亡之间的差的增加。例如,细胞中驱动基因突变的存在可以提供给细胞至少约0.1%(例如,约0.2%、约0.3%、约0.4%、约0.5%、约0.6%、约0.7%、约0.8%、约0.9%、约1%、约1.5%、约2%、约2.5%、约3%、约3.5%、约4%、约4.5%或更多)的生长优势。例如,细胞中驱动基因突变的存在可以为该细胞提供约0.1%至约5%的生长优势(例如,约0.1至约5%、约0.1至约4.5%、约0.1至约4%、约0.1至约3.5%、约0.1至约3%、约0.1至约2.5%、约0.1至约2%、约0.1至约1.5%、约0.1至约1%、约0.1至约0.5%、约0.5至约5%、约1至约5%、约1.5至约5%、约2至约5%、约2.5至约5%、约3至约5%、约3.5至约5%、约4至约5%、约4.5至约5%、约0.5至约4.5%、约1至约4%、约1.5至约3.5%或约2至约3%)。
346.在一些情况下,驱动基因可含有多于一个(例如两个、三个、四个、五个、六个、七个、八个、九个、十个或更多)驱动基因突变。在一些情况下,含有一个或多个驱动基因突变的驱动基因还可以包含一个或多个其他突变(例如乘客基因突变(不是驱动突变的体细胞突变))。
347.如本文所用术语“驱动基因”指的是含有驱动基因突变的基因。在一个实施方式中,驱动基因是其中具有一个或多个(例如一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多)获得性突变(例如驱动基因突变)的基因,可能与癌症进展有因果关系。在一个实施方式中,驱动基因调节一个或多个细胞过程,其包括:细胞命运决定、细胞存活和基因组维持。驱动基因可以与(例如,可以调节)一个或多个信号传导通路有关。信号传导通路的例子包括但不限于tgf-β通路、mapk通路、stat通路、pi3k通路、ras通路、细胞周期通路、细胞凋亡通路、notch通路、刺猬(hedgehog)(hh)通路、apc通路、染色质修饰通路、转录调控通路和dna损伤控制通路。驱动基因的示例包括但不限于:abl1、acvr1b、akt1、alk、apc、ar、arid1a、arid1b、arid2、asxl1、atm、atrx、axin1、b2m、bap1、bcl2、bcor、braf、brca1、brca2、card11、casp8、cbl、cdc73、cdh1、cdkn2a、cebpa、cic、crebbp、crlf2、csf1r、ctnnb1、cyld、daxx、dnmt1、dnmt3a、egfr、ep300、erbb2、ezh2、fam123b、fbxw7、fgfr2、fgfr3、flt3、foxl2、fubp1、gata1、gata2、gata3、gna11、gnaq、gnas、h3f3a、hist1h3b、hnf1a、hras、idh1、idh2、jak1、jak2、jak3、kdm5c、kdm6a、kit、klf4、kras、map2k1、map3k1、med12、men1、met、mlh1、mll2、mll3、mpl、msh2、msh6、myd88、ncor1、nf1、nf2、nfe9l9、notch1、notch2、npm1、nras、pax5、pbrm1、pdgfra、phf6、pik3ca、pik3r1、ppp2r1a、prdm1、ptch1、pten、ptpn11、rb1、ret、rnf43、runx1、setd2、setbp1、sf3b1、smad2、smad4、smarca4、smarcb1、smo、socs1、sox9、spop、srsf2、stag2、stk11、tet2、tnfaip3、traf7、tp53、tsc1、tshr、u2af1、vhl、wt1、ccnd1、cdkn2c、ikzf1、lmo1、map2k4、mdm2、mdm4、myc、mycl1、mycn、ncoa3、nkx2-1和skp2。示例性驱动基因包括癌基因(oncogene)和肿瘤抑制因子。在一个实施方式中,驱动基因有一个或多个驱动基因突变,例如如本文所述。在一个实施方式中,驱动基因是列于us2019/0256924a1中的表60或61的基因。在一个实施方式中,驱动基因调节一个或多个如us2019/0256924a1中表60或61所述的细胞过程,例如,细胞命运决定、细胞存
活和基因组维持。在一个实施方式中,驱动基因是调节us2019/0256924a1中的表60或61所述的一个或多个通路的基因。在一个实施方式中,驱动基因是调节us2019/0256924a1中的表62所述的一个或多个信号传导通路的基因。
348.在一个实施方式中,驱动基因包含多于一个驱动突变,第一驱动基因突变为其发生的细胞提供选择性生长优势。在一个实施方式中,后续突变,例如第二、第三、第四、第五或以后的突变,例如驱动基因中的驱动突变,为其发生的细胞提供增殖能力,例如,允许细胞扩增(例如克隆扩增)。在一个实施方式中,驱动基因具有一个或多个乘客基因突变,例如出现在癌症的发展中的体细胞突变,但它不是驱动突变。在一个实施方式中,驱动基因可以存在(例如表达)于任何细胞类型,例如来源于三种生殖细胞层中任意一种的细胞类型:外胚层、内胚层或中胚层。在一个实施方式中,驱动基因存在(例如表达)于体细胞中。在一个实施方式中,驱动基因存在(例如表达)于生殖细胞中。在一些实施方式中,驱动基因可以存在于大量的癌症中,例如在超过5%的癌症中。在一些实施方式中,驱动基因可以存在于少量的癌症中,例如在少于5%的癌症中。在一个实施方式中,驱动基因具有非随机和/或复发性的突变方式,即,在驱动基因中驱动突变发生的位置在不同的癌症类型中是相同的。示例性的复发性驱动基因突变包括idh1基因中底物结合位点处的突变,例如在密码子132处,以及pik3ca基因中螺旋结构域或激酶结构域中的突变,如vogelstein等(2013)science 339:1546-1558中所述。
349.在一个实施方式中,具有驱动基因突变的驱动基因是癌基因。在一个实施方式中,癌基因是具有至少20%,例如至少25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%或100%癌基因评分的基因。在一个实施方式中,癌基因评分被定义为突变的数量,例如成簇突变(clustered mutation)(例如同一氨基酸处的错义突变,或相同的框内插入或缺失)除以突变的总数量。在一个实施方式中,具有扩增的驱动基因,例如如本文所述,是癌基因。在一个实施方式中,具有驱动基因突变的驱动基因是肿瘤抑制因子基因(tsg)。在一个实施方式中,肿瘤抑制因子基因是具有至少20%,例如至少25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%或100%肿瘤抑制因子基因评分的基因。在一些实施方式中,肿瘤抑制因子基因评分被定义为失活突变的数量除以突变的总数量。在一个实施方式中,具有缺失的驱动基因,例如如本文所述,是肿瘤抑制因子基因。
350.本文所用的短语“重复元件家族”或“re家族”指的是存在于生物体基因组中的重复dna元件的家族(也被称为重复性dna元件或重复单元或dna重复)。dna重复元件可以散在于整个生物体基因组中,或存在于选定的染色体中。re家族可以包含一种或多种重复dna元件。人基因组中的示例性re家族包括:散在重复(例如,长散在核苷酸元件(line);短散在核苷酸元件(sine));和串联重复(例如微卫星、小卫星、卫星dna或多拷贝基因(例如,核糖体rna))。在一些实施方式中,re家族包括表1中所列的一种或多种重复元件,例如sine。
351.本文所使用的“获取”或“获得”是指通过“直接获取”或“间接获取”物理实体或值(例如数值),获得对该物理实体或值的占有。本文所用的术语“直接获取”是指执行过程(例如,执行合成或分析方法)以获得物理实体或值。“间接获取”是指从另一方或来源(例如,直接获取物理实体或值的第三方实验室)接收物理实体或值。直接获取物理实体包括执行包括物理物质(例如起始材料)的物理变化的过程。直接获取值包括执行过程,该过程包括样
品或另一种物质的物理变化,例如,执行包括物质(例如样品、分析物或试剂)的物理变化的分析过程(有时本文中被称为“物理分析”),执行分析方法,例如,包括以下一项或多项的方法:从另一种物质中分离或纯化物质(例如分析物或其片段或其他衍生物);将分析物、或其片段或其他衍生物与另一种物质(如缓冲液、溶剂或反应物)组合;或改变分析物或其片段或其他衍生物的结构。
[0352]“生物样品”、“样品”、“患者样品”或“试样”在本文中用作术语时,都是指从对象或患者获得的样品。样品的来源可以是活检(如液体活检)、抽吸物;血液或任何血液成分;体液(如脑脊液、羊水、腹膜液或间质液)。样品可以包括细胞(例如来自人体的任何细胞,例如正常细胞和/或癌细胞)和/或无细胞dna,例如循环肿瘤dna或来自正常细胞的循环dna。在一个实施方式中,样品(例如肿瘤样品)包括来自手术切缘的组织或细胞。在另一个实施方式中,样品(例如肿瘤样品)包括一种或多种循环肿瘤细胞(ctc)(例如从血液样品中获取的ctc)。
[0353]
如本文所用,术语“灵敏度”是指一种方法检测或鉴定对象中疾病的存在能力。例如,当用于指本文所述的可检测对象中癌症存在的多种方法的任一种时,高灵敏度意味着该方法在很大比例的时间内正确鉴定对象中癌症的存在。例如,在进行本文所述方法的95%的时间内正确地检测对象中癌症的存在的该方法被称为具有95%灵敏度。在一些实施方式中,本文所述方法可以检测对象中癌症的存在,提供至少70%的灵敏度(例如,约70%、约72%、约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%、约99.5%或约100%)。在一些实施方式中,本文提供的包括检测两个或更多类生物标志物(例如,遗传生物标志物和/或蛋白质生物标志物)的一个或多个成员的存在的方法,比包括检测仅一类生物标志物的一个或多个成员的存在的方法提供更高的灵敏度。
[0354]
在一些实施方式中,灵敏度提供了对方法在异质群的序列中检测序列变体的能力的衡量。如果在样品中,序列变体至少占样品中序列的f%,该方法对f%的变体的灵敏度为s%,则该方法可以在c%的置信度下、s%的时间内检测到该序列。举例来说,如果给定样品,其中变体序列至少占样品中5%的序列,该方法可以在99%的置信度下,10次中的9次检测到该序列,该方法对5%的变体的灵敏度为90%(f=5%;c=99%;s=90%)。示例性的灵敏度包括那些在f=0.5%、1%、5%、10%、20%、50%、100%的置信水平为c=90%、95%、99%和99.9%的序列变体的s=90%、95%、99%、99.9%。
[0355]
如上所讨论的,在实施方式中,灵敏度是指测试方法对所有第一状态样品进行第一状态身份分配的能力,换句话说,是找到或鉴定所有第一状态样品。(灵敏度并不涉及将第一状态样品误分配为第二状态样品的方法的倾向)。在一个实施方式中,第一状态是阴性,而灵敏度是指鉴定所有阴性样品的能力。在一个实施方式中,第一状态是阳性,而灵敏度是指鉴定所有阳性样品的能力。
[0356]
如本文所用,术语“特异性”指的是方法检测对象中疾病存在的能力(例如,方法的特异性可被描述为该方法在对象中鉴定真阳性而不是真阴性的能力和/或区分真正发生的序列变体与测序伪像(artifact)或其他密切相关的序列的能力)。例如,当用于指本文所述的可检测对象中癌症存在的多种方法的任一种时,高特异性意味着该方法在很大比例的时间内正确鉴定对象中不存在癌症(例如,该方法在很大比例的时间内不会错误地鉴定对象
中存在癌症)。特异性为x%的方法,如果当应用于ntotal序列的样品集合时,其中xtrue序列是真正的变体,xnot true是非真正变体,该方法可以选择至少x%的非真正变体作为非变体。例如,一个方法的特异性为90%,当应用于由1,000个序列组成的样品集时,其中500个序列是真正变体的,500个是非真正变体的,该方法可将500个非真正变体的序列中的90%选择为非变体。例如,95%的时间内正确地检测对象中癌症不存在的本文所述方法,该方法被进行为所述的具有95%特异性。在一些实施方式中,本文所述的可以检测对象中不存在癌症的方法提供了至少80%的特异性(例如,至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或更高)。具有高特异性的方法导致最小或没有假阳性结果(例如与其他方法相比)。假阳性结果可以从任何来源产生。例如,在本文所述的正确检测不存在癌症并包括对核酸进行测序的各种方法中,假阳性结果可能来自在样品制备过程中引入感兴趣的序列的错误、测序错误和/或对密切相关的序列(如伪基因或基因家族成员)的非有意的测序。在一些实施方式中,本文提供的包括检测两个或更多类生物标志物(例如,遗传生物标志物和/或蛋白质生物标志物)的一个或多个成员的存在的方法,比包括检测仅一类生物标志物的一个或多个成员的存在的方法提供更高的特异性。
[0357]
如上所讨论的,在实施方式中,特异性是测试方法对样品的第一状态身份进行真实分配的能力。(特异性并不涉及该方法找到所有真实的第一状态样品的能力,也就是灵敏度)。在一些实施方式中,第一状态是阴性,则特异性为对阴性进行真实(与不正确相反)分配的能力(而不是误分配第二状态(例如阳性)样品为第一状态(阴性)样品)。在一个实施方式中,第一状态是阳性,则特异性为对阳性进行真实(与不正确相反)分配的能力(而不是误分配第二状态(例如阴性)样品为第一状态(阳性)样品)。
[0358]
如本文所用,短语“亚基因组区间”是指基因组序列的部分。亚基因组区间可以是任何合适的大小(例如,可以包括任何适当数量的核苷酸)。在一些实施方式中,亚基因组区间可以包含单核苷酸(例如,其变体与肿瘤表型相关(正相关或负相关)的单核苷酸)。在一些实施方式中,亚基因组区间可以包含多于一个核苷酸。例如,亚基因组区间可以包含至少约2个(例如,约5个、约10个、约50个、约100个、约150个、约250个或约300个)核苷酸。在一些情况下,亚基因组区间可以包含整个基因。在某些情况下,亚基因组区间可以包括基因的部分(例如,编码区(如外显子),非编码区(例如内含子),或调节区(例如启动子、增强子、5’非翻译区(5’utr)或3’非翻译区(3’utr))。在一些情况下,亚基因组区间可以包含全部或部分天然存在(例如基因组的)的核苷酸序列。例如,亚基因组区间可以对应于基因组dna的片段,其可以进行测序反应。在一些情况下,亚基因组区间可以是来自基因组来源的连续核苷酸序列。在一些情况下,亚基因组区间可以包含基因组内不连续的核苷酸序列。例如,亚基因组区间可以包含含有外显子-外显子连接(exon-exon iunction)(例如,从亚基因组区间逆转录的cdna中)的核苷酸序列。在某些情况下,亚基因组区间可以包括突变(例如,snv、snp、体细胞突变、种系突变、点突变、重排、缺失突变(例如,框内缺失、基因内缺失或全基因缺失)、插入突变(例如基因内插入)、倒置突变(例如染色体内倒置)、倒置复制突变、串联复制(例如染色体内串联复制)、易位(例如染色体易位,或非相互易位)、基因拷贝数的改变,或其任何组合。
[0359]
如本文所用,短语“白细胞参数”是指白细胞核酸(如染色体核酸)的序列。
[0360]
如本文所用短语“基因组事件”是指与参考序列的序列不同的亚基因组区间的序
列。基因组事件可以是,例如突变,例如点突变或重排,例如易位。
[0361]
非整倍体检测
[0362]
本文提供了用于鉴定样品中一种或多种染色体异常(例如,非整倍体)的方法和材料。在一些实施方式中,本文所述的方法和材料是用于鉴定胚胎中一种或多种染色体异常(例如,非整倍体)的方法和材料。在一些实施方式中,本文所述的方法和材料是用于鉴定哺乳动物(例如幼年哺乳动物或成年哺乳动物)中一种或多种染色体异常(例如,非整倍体)的方法和材料。例如,可以评估哺乳动物(例如,从哺乳动物获得的样品)是否存在一种或多种染色体异常。在一些情况下,本文提供了用于使用基于扩增子的测序数据以鉴定哺乳动物患有与一种或多种染色体异常相关的疾病(例如癌症)的方法和材料。例如,本文所述的方法和材料可被应用于从哺乳动物中获得的样品,以鉴定该哺乳动物为患有一种或多种染色体异常。例如,本文所述的方法和材料可被应用于从哺乳动物中获得的样品,以鉴定该哺乳动物为患有与一种或多种染色体异常相关的疾病(例如癌症)。本文还提供了用于鉴定和/或治疗与一种或多种染色体异常(例如,本文所述鉴定的一种或多种染色体异常)相关的疾病或病症的方法和材料。在一些情况下,可以从哺乳动物获得的样品中获得的dna(例如基因组dna)中鉴定一种或多种染色体异常。例如,产前哺乳动物(例如产前人)可以至少部分地基于一种或多种染色体异常的存在被鉴定为患有疾病或病症。在一些实施方式中,至少部分地基于一种或多种染色体异常鉴定为患有疾病或疾病的哺乳动物胚胎可以为体外受精的目的进行评估。在一些实施方式中,至少部分地基于一种或多种染色体异常的存在鉴定为患有癌症的哺乳动物可以接受一种或多种癌症治疗方法治疗。在一些实施方式中,哺乳动物可以至少部分地基于一种或多种染色体异常的存在被鉴定为患有先天性畸形。在一些实施方式中,本文提供的方法和材料被用于在移植到子宫(如人类子宫)进行植入之前,对胚胎(如通过体外受精产生的胚胎)进行染色体异常的测试。
[0363]
本文特别公开了增加检测一种或多种癌症(或多种癌症)的灵敏度,而不改变检测所述癌症或多种癌症的特异性的方法。在实施方式中,通过评估(i)遗传生物标志物(例如体细胞突变);(ii)蛋白质生物标志物;和(iii)非整倍体状态,癌症检测的灵敏度更高,例如,约1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10倍高于通过单独评估(i);单独评估(ii);单独评估(iii);仅评估(i)和(ii);仅评估(i)和(iii);或仅评估(ii)和(iii)的癌症检测的灵敏度。通过包括(i)、(ii)和(iii)的方法增加灵敏度并不改变,例如,降低检测癌症或多个癌症的特异性使用本公开的方法癌症检测灵敏度的示例性增加在本公开的实施例6中被证明。
[0364]
任何合适的哺乳动物可以如本文所述的进行评估。哺乳动物可以是产前哺乳动物(例如,产前人)。哺乳动物可以是被怀疑患有与一种或多种染色体异常有关的疾病(例如癌症或先天性畸形)的哺乳动物。在一些情况下,可以评估人或其他灵长类动物(如猴子)的如本文所述的一种或多种染色体异常的存在。在一些情况下,可以评估狗、猫、马、牛、猪、羊、小鼠和大鼠的如本文所述的一种或多种染色体异常的存在。例如,可以评估人的如本文所述的一种或多种染色体异常的存在。
[0365]
任何来自哺乳动物的合适的样品都可以如本文所述被评估(例如评估一种或多种染色体异常的存在)。样品可以包括基因组dna。在一些情况下,样品可以包括无细胞循环dna(例如无细胞循环胎儿dna)。在一些情况下,样品可以包括循环肿瘤dna(ctdna)。可以含
有dna(例如ctdna)的样品的示例包括但不限于血液(如全血、血清或血浆)、羊膜、组织、尿、脑脊液(cerebrospinal fluid)、唾液、痰涎、支气管肺泡灌洗液、胆汁、淋巴液、囊液、粪便、腹水、子宫颈抹片、脑脊髓液(cerebral spinal fluid)、子宫颈内、子宫内膜和输卵管样品。例如,样品可以是血浆样品。例如,样品可以是尿样品。例如,样品可以是唾液样品。例如,样品可以是囊液样品。例如,样品可以是痰涎样品。在一些情况下,样品可以包含肿瘤细胞部分(例如低肿瘤细胞分数)。
[0366]
在一些实施方式中,样品可以被处理以从样品中分离和/或纯化dna。在一些实施方式中,dna分离和/或纯化可以包括细胞裂解(例如使用去污剂和/或表面活性剂)。在一些实施方式中,进行dna的进一步处理(例如扩增反应)不需要从细胞裂解物中纯化dna。在这种情况下,添加额外的试剂以促进进一步处理,包括但不限于蛋白酶抑制剂。在一些实施方式中,dna分离和/或纯化可以包括除去蛋白质(例如使用蛋白酶)。在一些实施方式中,dna分离和/或纯化可以包括除去rna(例如使用rna酶)。在一些实施方式中,dna分离是使用市售试剂盒(例如但不限于,qiagen dnaeasy试剂盒)或本领域已知的缓冲液(例如tris-缓冲液中的去污剂)进行的。
[0367]
在一些实施方式中,输入到分离和/或纯化反应中的dna量(“输入dna”)可根据多种因素改变,包括但不限于dna片段的平均长度、总体dna质量和/或dna的类型(例如gdna、线粒体dna、cfdna)。在一些实施方式中,任何合适量的输入dna都可被用于本文所述的方法。在一些实施方式中,输入dna的量可以是1皮克(pg)至500pg的任何量。在一些实施方式中,输入dna的量可以是至少0.01pg,至少.01pg,至少0.1pg或至少1pg。在一些实施方式中,输入dna的量可以是至少1皮克(pg)、至少2pg、至少3pg、至少4pg、至少5pg、至少6pg、至少7pg、至少8pg、至少9pg、至少10pg、至少11pg、至少12pg、至少13pg、至少14pg、至少15pg、至少16pg、至少17pg、至少18pg、至少19pg、至少20pg、至少21pg、至少22pg、至少23pg、至少24pg、至少25pg、至少26pg、至少27pg、至少28pg、至少29pg、至少30pg、至少31pg、至少32pg、至少33pg、至少34pg、至少35pg、至少36pg、至少37pg、至少38pg、至少39pg或至少40pg。在一些实施方式中,输入dna的量为3pg。
[0368]
在一些实施方式中,用于鉴定本文所述的一种或多种染色体异常(例如,非整倍体)的方法和材料可以包括多个扩增子的扩增。在一些实施方式中,从dna样品中的多个染色体序列中扩增多个扩增子。在一些实施方式中,可以从多种重复性元件的任一种中扩增多个扩增子(参见,例如,表1的重复性元件列表)。在一些实施方式中,从多个短散在核苷酸元件(sine)中扩增多个扩增子。在一些实施方式中,从多个长散在核苷酸元件(line)中扩增多个扩增子。扩增多个扩增子的方法包括但不限于聚合酶链式反应(pcr)和等温扩增方法(例如滚环扩增或桥式扩增)。在一些实施方式中,进行第二扩增步骤。在一些实施方式中,来自第一扩增反应的经扩增的dna被用作第二扩增反应的模板。在一些实施方式中,在第二扩增反应之前纯化经扩增的dna(例如使用本领域已知的方法pcr纯化)。
[0369]
在一些实施方式中,扩增反应包括使用含有第一引物的单引物对,所述第一引物具有或包含seq id no:1、seq id no:2、seq id no:3、seq id no:4、seq id no:5、seq id no:6、seq id no:7、seq id no:8或seq id no:9。在一些实施方式中,扩增反应包括使用含有第一引物的单引物对,所述第一引物与seq id no:1、seq id no:2、seq id no:3、seq id no:4、seq id no:5、seq id no:6、seq id no:7、seq id no:8或seq id no:9具有至少80%
(例如,至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%)的序列相同性。在一些实施方式中,扩增反应包括使用含有第二引物的单引物对,所述第二引物具有或包含seq id no:10、seq id no:11、seq id no:12、seq id no:14、seq id no:15、seq id no:16、seq id no:17、seq id no:18或seq id no:19。在一些实施方式中,扩增反应包括使用含有第二引物的单引物对,所述第二引物与seq id no:10、seq id no:11、seq id no:12、seq id no:14、seq id no:15、seq id no:16、seq id no:17、seq id no:18或seq id no:19具有至少80%(例如,至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%)的序列相同性。
[0370]
在一些实施方式中,第一引物具有其至少80%相同(例如,至少85%、至少90%、至少95%、至少99%或100%相同)于cgacgtaaaacgacggccagtnnnnnnnnnnnnnnnnggtgaaaccccgtctctaca(seq id no:1)的序列。在一些实施方式中,第二引物具有其至少80%相同(例如,至少85%、至少90%、至少95%、至少99%或100%相同)于cacacaggaaacagctatgaccatgcctcctaagtagctgggactacag(seq id no:10)的序列。在一些实施方式中,扩增反应包括使用包含具有seq id no:1的第一引物和具有seq id no:10的第二引物的单引物对。在一些实施方式中,扩增反应包括使用含有与seq id no.1具有至少80%(例如,至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%)的序列相同性的第一引物和与seq id no.10具有至少80%(例如,至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、或至少99%)的序列相同性的第二引物的单引物对。
[0371]
在一些实施方式中,第一引物从5’至3’末端包含:通用引物序列(ups)、独特标识符dna序列(uid)和扩增序列。在一些实施方式中,第一引物从5’至3’末端包含:ups序列和扩增序列。在一些实施方式中,第一引物从5’至3’末端包含:扩增序列。在第一引物包含至少扩增序列的这种情况下,本领域已知的任何各种种类的文库生成技术可以被用于从扩增的扩增子中产生下一代测序文库。
[0372]
在一些实施方式中,通用引物序列(ups)促进准备用于下一代测序的扩增子文库的产生。例如,在扩增反应期间使用第一引物(seq id no.1)和第二引物(seq id no.10)产生的扩增子被用作第二扩增反应的模板。在这种情况下,设计为结合至ups的第二组引物包括杂交至illumina流动池所必需的5’移植序列(5’grafting sequence)。
[0373]
在一些实施方式中,uid包含16-20个简并碱基(degenerate base)的序列。在一些实施方式中,简并序列是其中核苷酸序列的一些位置包含大量可能的碱基的序列。在本文所述的任何方法的一些实施方式中,简并序列可以是包含约或至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45或50个核苷酸的简并核苷酸序列。在一些实施方式中,核苷酸序列包含核苷酸序列内的1、2、3、4、5、6、7、8、9、0、10、15、20、25或更多个简并位置。在一些实施方式中,简并序列被用作独特标识符dna序列(uid)。在一些实施方式中,简并序列被用于改进扩增子的扩增。例如,简并序列可以包含互补于被扩增的染色体序列的碱基。在这种情况下,互补性增加可以增加对染色体序列的引物亲和力。在一些实施方式中,uid(例如简并碱基)被设计为增加对多个染色体序列的引物亲和力。
[0374]
在一些实施方式中,扩增反应包含一对或多对引物(例如,一对或多对选自表2的引物对)。在一些实施方式中,扩增反应包含至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8或至少9对引物。在一些实施方式中,当扩增反应包含多于一对引物时,至少一对引
物包含具有seq id no:1的引物作为第一引物和具有seq id no:10的引物作为第二引物。在一些实施方式中,当扩增反应包含多于一对引物时,至少一对引物包含与seq id no:1具有至少80%(例如,至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%)的序列相同性的序列的第一引物和与seq id no:10具有至少80%(例如,至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%)的序列相同性的序列的第二引物。
[0375]
在一些实施方式中,当扩增反应包含一对或多对引物时,可以从表2中选择任意多种引物或引物对的组合。例如,包含2对引物(例如,选自表2的4个引物)的扩增反应可以包含第一引物对(例如,来自表2的第一引物对1),其包含第一引物(例如,具有seq id no:1的第一引物)和第二引物(例如,具有seq id no:10的第二引物),以及第二引物对(例如,来自表2的第二引物对2),其包含第三引物(例如具有seq id no:2的第三引物)和第四引物(例如,具有seq id no:11的第四引物)。组合任何列于表2中的正向引物(例如,具有seq id no:1、seq id no:2、seq id no:3、seq id no:4、seq id no:5、seq id no:6、seq id no:7、seq id no:8或seq id no:9的“fp”)与列于表2中的任何反向引物(例如,具有seq id no:10、seq id no:11、seq id no:12、seq id no:14、seq id no:15、seq id no:16、seq id no:17、seq id no:18或seq id no:19的“rp”)将从本文所述的重复性元件中产生扩增子(参见例如,表1的示例性重复性元件列表)。例如,包含2对引物(例如,选自表2的4个引物)的扩增反应可以包含第一引物对(例如,选自表2的第一引物对1),其包含第一引物(例如,具有seq id no:1的第一引物)和第二引物(例如,具有seq id no:10的第二引物),以及第二引物对(例如,未列于表2的引物对),其包含第三引物(例如具有seq id no:2的第三引物)和第四引物(例如,具有seq id no:12的第四引物)。在一些实施方式中,扩增反应包含一对或多对引物,其中第一引物被包含于两对引物中。例如,扩增反应可以包含第一引物对(例如,选自表2的第一引物对1),其包含第一引物(例如具有seq id no:1的第一引物)和第二引物(例如具有seq id no:10的第二引物),以及第二引物对,其包含第三引物(例如具有seq id no:1的第三引物)和第四引物(例如具有seq id no:11的第四引物)。
[0376]
在一些实施方式中,引物对互补于多个染色体序列。如本文所用,术语“互补”或“互补性”是指能够或参与沃森克里克型或类似的碱基对相互作用的核酸残基,其足以支持扩增。在一些实施方式中,第一引物的扩增序列被设计为扩增一个或多个染色体序列。在一些实施方式中,一个或多个染色体序列包括如本文所述的多种重复性元件的任何一个(参见,例如,表1的示例性重复性元件列表)。在一些实施方式中,染色体序列是sine。在一些实施方式中,染色体序列是line。在一些实施方式中,染色体序列是不同类型的重复性元件的混合物(例如,sine、line和/或表1中列出的其他示例性重复性元件)。在一些实施方式中,当扩增反应包含两对或更多对引物时,每对引物扩增不同类型的重复性元件(参见,例如表1的示例性重复性元件列表)。例如,第一引物对可以扩增sine,第二引物对可以扩增line。可选地,第三、第四、第五等等引物对可以扩增第三、第四、第五等等类型的重复性元件(参见,例如表1的其他示例性重复性元件)。在一些实施方式中,当扩增反应包含两对或更多对引物时,每对引物从相同类型的重复性元件(参见,例如表1的示例性重复性元件列表)产生扩增子。例如,第一引物对可以扩增sine,第二引物对扩增sine。可选地,第三、第四、第五等等引物对可以扩增sine。在一些实施方式中,当扩增反应包含两对或更多对引物时,每对引
物从不同类型的重复性元件(参见,例如表1的示例性重复性元件列表)的混合物中产生扩增子。
[0377]
表1:示例性重复性元件列表
[0378]
[0379]
[0380]
[0381]
[0382][0383]
在一些实施方式中,本文所述的引物对的一个或两个引物包含引物修饰。引物修饰的实例包括但不限于:间隔子(例如,c3间隔子、pc间隔子、己二醇、间隔子9、间隔子18、1’,2
’‑
二脱氧核糖(dspacer))、磷酸化、硫代磷酸酯键修饰、修饰核酸、附着化学和/或接头修饰。修饰核酸的实例包括但不限于:2-氨基嘌呤、2,6-二氨基嘌呤(2-氨基-da)、5-溴du、脱氧尿苷、反向dt、反向双脱氧-t、双脱氧-c、5-甲基dc、脱氧肌苷、supersuper锁核酸(lna)、5-硝基吲哚、2
′‑
o-甲基rna碱基、羟基甲基dc、异-dg、异-dc、氟代c、氟代u、氟代a、氟代g、2-甲氧基乙氧基a、2-甲氧基乙氧基mec、2-甲氧基乙氧基g和/或2-甲氧基乙氧基t。附着化学和接头修饰的实例包括但不限于acrydite
tm
、腺苷酸化、叠氮化物(nhs酯)、地高辛(nhs酯)、胆固醇-teg、i-接头、氨基修饰剂(例如氨基修饰剂c6、氨基修饰剂c12、氨基修饰剂c6 dt、氨基修饰剂和/或uni-link
tm
氨基修饰剂)、炔烃(例如5

己炔基和/或5-辛二炔基du)、生物素化(例如生物素、生物素(叠氮化物)、生物素dt、生物素-teg、双生物素、pc生物素和/或脱硫生物素-teg),和/或巯基修饰(例如,巯基修饰剂c3 s-s、二巯基化物和/或巯基修饰剂c6 s-s)。在一些实施方式中,本文所述的任何引物包括合成核酸。
[0384]
在一些实施方式中,本文所述的引物对的一个或两个引物包含增强扩增dna加工的引物修饰。在一些实施方式中,本文所述的任何引物包含促进引物消除(例如扩增反应后引物消除)的引物修饰。在一些实施方式中,引物修饰被传达至扩增反应的产物(例如扩增产物含有修饰碱基)。在这种情况下,扩增产物包含修饰和修饰的固有特性(例如,选择含有修饰的扩增产物的能力)。
[0385]
在一些实施方式中,用于鉴定如本文所述的一种或多种染色体异常的方法包括使
用基于扩增子的测序读数。在一些实施方式中,多个扩增子(例如从dna样品中获得的扩增子)被测序。在一些实施方式中,每个扩增子被测序至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20次或更多次。在一些实施方式中,每个扩增子可以被测序约1次至约20次(例如,约1次至约15次、约1次至约12次、约1次至约10次、约1次至约8次、约1次至约5次、约5次至约20次、约7次至约20次、约10次至约20次、约13次至约20次、约3次至约18次、约5次至约16次或约8次至约12次)。在一些实施方式中,基于扩增子的测序读数可以包含连续测序读数。在一些情况下,扩增子包括短散在核苷酸元件(sine)。在一些情况下,基于扩增子的测序读数可以包括约100,000至约2500万(例如,约100,000至约2000万、约100,000至约1500万、约100,000至约1200万、约100,000至约1000万、约100,000至约500万、约100,000至约100万、约100,000至约750,000、约100,000至约500,000、约100,000至约250,000、约250,000至约2500万、约500,000至约2500万、约750,000至约2500万、约100万至约2500万、约500万至约2500万、约1000万至约2500万、约1500万至约2500万、约200,000至约2000万、约250,000至约1500万、约500,000至约1000万、约750,000至约500万或约100万至约200万)个测序读数。例如,测序多个扩增子可以包括将独特标识符(uid)分配至每个模板分子(例如,至每个扩增子),扩增每个独特地加标签的模板分子以创建uid-家族,并对扩增产物进行冗余测序。例如,测序多个扩增子可以包括使用公式计算所述所选择的染色体臂上变体的z-评分,其中wi是变体i处的uid深度,zi是变体i的z-评分,k是在染色体臂上观察到的变体数量。在一些实施方式中,测序扩增子的方法包括本领域已知的方法(参见,例如,美国专利号2015/0051085;和kinde等2012plos one 7:e41162,其通过引用全文纳入本文)。在一些实施方式中,扩增子与参考基因组(例如grc37)比对。
[0386]
在一些实施方式中,通过本文所述方法产生的多个扩增子包括约10,000至约1,000,000(例如,约15,000至约1,000,000、约25,000至约1,000,000、约35,000至约1,000,000、约50,000至约1,000,000、约75,000至约1,000,000、约100,000至约1,000,000、约125,000至约1,000,000、约160,000至约1,000,000、约180,000至约1,000,000、约200,000至约1,000,000、约300,000至约1,000,000、约500,000至约1,000,000、约750,000至约1,000,000、约10,000至约800,000、约10,000至约500,000、约10,000至约250,000、约10,000至约150,000、约10,000至约100,000、约10,000至约75,000、约10,000至约50,000、约10,000至约40,000、约10,000至约30,000或约10,000至约20,000)个扩增子(例如,独特的扩增子)。作为非限制性实例,多个扩增子可以包括约745,000个扩增子(例如,745,000个独特的扩增子)。多个扩增子中的扩增子可以包含约50至约140(例如,约60至约140、约76至约140、约90至约140、约100至约140、约130至约140、约50至约130、约50至约120、约50至约110、约50至约100、约50至约90、约50至约80、约60至约130、约70至约125、约80至约120或约90至约100)个核苷酸。作为非限制性实例,扩增子可以包含约100个核苷酸。
[0387]
在一些实施方式中,通过本文所述方法产生的多个扩增子的一个或多个扩增子的长度可以大于1000碱基对(bp)(“长扩增子”)。在一些实施方式中,一个或多个长扩增子至少占全部多个扩增子中所有扩增子的4.0%。在一些实施方式中,当长扩增子至少占全部多个扩增子中所有扩增子的4.0%时,本文所述的方法和材料可以检测长扩增子。在一些实施方式中,当长扩增子占全部多个扩增子中所有扩增子的0.01%至3.9%时,本文所述的方法
和材料可以检测长扩增子。
[0388]
在一些实施方式中,一个或多个长度>1000bp的扩增子来源于不含有染色体畸形(chromosomal abnormality)的细胞的dna扩增。在一些实施方式中,不含有染色体畸形的细胞被认为是污染细胞。在一些实施方式中,不含有染色体畸形的细胞被用作对照细胞或对照样品。在一些实施方式中,污染细胞可以是在血浆样品中可能发现的任何多种细胞,其可能会稀释预期目标的扩增。在一些实施方式中,污染细胞是白细胞(例如如白细胞、粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、b细胞、t细胞或自然杀伤细胞)。例如,污染细胞可以是白细胞。
[0389]
在一些实施方式中,用于鉴定本文所述的一种或多种染色体异常的方法和材料包括将测序读数(例如来自多个扩增子的)分组为基因组区间的簇(例如,独特的簇)。在一些实施方式中,基因组区间被包括在一个或多个簇中。在一些实施方式中,基因组区间可以属于约100至约252(例如,约125至约252、约150至约252、约175至约252、约200至约252、约225至约252、约100至约250、约100至约225、约100至约200、约100至约175、约100至约150、约125至约225、约150至约200或约160至约180)个簇。作为一个非限制性实例,一个基因组区间可以属于约176个簇。在一些实施方式中,每个簇包含任何适当数量的基因组区间。在一些实施方式中,每个簇包含相同数量的基因组区间。在一些实施方式中,不同的簇包含不同数量的基因组簇。作为非限制性实例,每个扩增子可以包含约200个基因组区间。
[0390]
在一些实施方式中,基因组区间被鉴定为具有共有扩增子特征。如本文所用,术语“共有扩增子特征”指的是具有一个或多个相似特征的扩增子。在一些实施方式中,基于映射到基因组区间的测序读数的一个或多个共有扩增子特征,将多个基因组区间分组为簇。在一些实施方式中,共有扩增子特征是映射到基因组区间的扩增子数量(例如在每个基因组区间内的测序读数的分布之和)。在一些实施方式中,共有扩增子特征是映射扩增子的平均长度。
[0391]
在一些实施方式中,基因组区间的簇包含约5000至约6000(例如,约5100至约6000、约5200至约6000、约5300至约6000、约5400至约6000、约5500至约6000、约5600至约6000、约5700至约6000、约5800至约6000、约5900至约6000、约5000至约5900、约5000至约5800、约5000至约5700、约5000至约5600、约5000至约5500、约5000至约5400、约5000至约5300、约5000至约5200、约5000至约5100、约5100至约5800、约5100至约5700、约5100至约5600、约5100至约5500、约5100至约5400、约5100至约5300、约5100至约5200、约5200至约5600、约5200至约5500、约5200至约5400、约5200至约5300、约5300至约5500、约5300至约5400或约5400至5500、约5200至约5700或约5300至约5500)个基因组区间。作为一个非限制性实例,基因组区间的簇可以包含约5344个基因组区间。基因组区间可以是任何合适的长度。例如,基因组区间可以是如本文所述测序的扩增子的长度。例如,基因组区间可以是染色体臂的长度。在一些情况下,基因组区间可包含约100至约125,000,000(例如约250至约125,000,000、约500至约125,000,000、约750至约125,000,000、约1,000至约125,000,000、约1,500至约125,000,000、约2,000至约125,000,000、约5,000至约125,000,000、约7,500至约125,000,000、约10,000至约125,000,000、约25,000至约125,000,000、约50,000至约125,000,000、约100,000至约125,000,000、约250,000至约125,000,000、约500,000至约125,000,000、约100至约1,000,000、约100至约750,000、约100至约500,000、约100至约
评分可以被计算,且哺乳动物基因组中的非整倍体的存在或不存在可以被鉴定。每个基因组区间中测序读数的分布可以被求和。例如,每个基因组区间中的测序读数的分布之和可以使用公式计算,其中ri是测序读数的数量,i是染色体臂上簇的数量,n是参数为μi和σ
i2
的高斯分布,μi是每个基因组区间内的测序读数的平均数量,σ
i2
是每个基因组区间中的测序读数的方差。染色体臂的z-评分可以使用任何合适的技术计算。例如,染色体臂的z-评分可以使用分位函数(quantile function)计算。当z-评分在预定的显著性阈值之外时,可以鉴定哺乳动物基因组中存在非整倍体,当z-评分在预定的显著性阈值之内时,可以鉴定哺乳动物基因组中不存在非整倍体。预定阈值可以对应于测试的置信度和可接受的假阳性的数量。例如,显著性阈值可以是
±
1.96、
±
3或
±
5。在一些实施方式中,本文所述方法和材料采用有监督的机器学习。在一些实施方式中,有监督的机器学习可以检测一个或多个染色体臂的小改变。例如,有监督的机器学习可以检测例如染色体臂获得或丢失的改变,其通常存在于与染色体异常有关的疾病或病症中,例如癌症或先天性异常。在一些实施方式中,有监督的机器学习可以检测例如染色体臂获得或丢失的改变,其存在于植入前胚胎(例如,通过体外受精方法产生的植入前胚胎)。在一些情况下,有监督的机器学习可以被用于根据非整倍体状态对样品进行分类。例如,有监督的机器学习可以被用于进行全基因组非整倍体识别(genome-wide aneuploidy call)。在一些情况下,支持向量机模型可以包括获得svm评分。可以使用任何合适的技术获得svm评分。在一些情况下,可以如他处所述(参见例如,cortes1995machine learning 20:273-297;和meyer等2015r package version:1.6-3)获得svm评分。在较低的读数深度,样品通常将具有较高的原始svm评分。因此,在一些情况下,可以基于样品的读数深度,使用公式校正原始svm概率,其中r是在给定足够读数深度下特定样品的特定读数深度下svm评分/最小svm评分的比率。a和b可以如实施例1中所述确定。例如,a=-7.076*10^-7,x=给定样品的独特模板分子的数量,b=-1.946*10^-1。
[0395]
本文还提供了减少样品之间变异性的量的标准化新方法。在一些实施方式中,主成分分析(pca)可以被用于标准化。在一些实施方式中,对来自对照的测序数据进行pca。例如,pca可以将500kb基因组区间的数量从n=5,344减少到更易管理的维数。使用对照的pca坐标,可以生成模型,该模型在未来的样品中基于其pca坐标预测特定的500kb区间是否会被更高效或更低效地扩增。
[0396]
500kb区间i的校正因子
[0397]
=β
0i
β
1i
*pca1 β
2i
*pca2 β
3i
*pca3 β
4i
*pca4 β
5i
*pca5[0398]
例如,对于每个测试样品,样品可以被投影到pca空间,并且每个500kb区间的校正因子可以以其pca坐标的函数计算。将校正因子应用至每个500kb基因组区间后,测试样品可以基于最接近的500kb区间的欧几里得距离被匹配至一个或多个对照样品。
[0399]
在一些实施方式中,为了确保数据质量,样品被排除。在一些实施方式中,在数据分析之前、同时和/或之后,样品被排除。在一些实施方式中,为了排除不满足因子列表中规定的标准的数据,可以对数据应用因子列表。在一些实施方式中,因子列表可以是任何合理数量的因子。例如,可以用五个因子的列表排除样品。可以使用因子的任何组合确定样品应
当被排除。在一些实施方式中,具有低于2.5m读数的样品可以被排除。在一些实施方式中,具有污染的足够证据的样品可以被排除。例如,如果样品具有至少10个显著的等位基因失衡的染色体臂(z评分>=2.5)和少于十个显著的染色体臂获得或丢失(z>=2.5或z<=-2.5),则样品可以被认为是污染的。在一些实施方式中,等位基因失衡可以从snp确定,而获得或丢失可以通过waldo评估。在一些实施方式中,当检查血浆样品的质量时,可以排除其中超过8.5%的扩增子大于94bp(正向和反向引物之间50碱基对)的样品。不意在受理论限制,这种样品可能被白细胞dna污染。在一些实施方式中,如下文公式所定义的测定的动态范围之外的样品可以被排除。
[0400][0401]
例如,该度量的分布具有长尾。可以选择大于0.2450和0.2320的值作为可以评估截止值的动态范围。在一些实施方式中,在同一患者的白细胞中具有已知非整倍体的血浆样品可以被排除。例如,这种患者可能患有意义未明的克隆性造血(chip)或先天性病症。
[0402]
在一些实施方式中,本文提供了检测长度不确定的变体(cnv)拷贝数的方法。在一些实施方式中,本文提供了检测接近固定长度的变异(cnv)拷贝数的方法。在一些实施方式中,检测拷贝数变异包括计算一个或多个变量的值。在一些实施方式中,使用观察到的测试样品的对数比和来自各染色体臂的每个500kb区间的waldo预测值,可以应用循环二元分割算法确定各个整个染色体臂的拷贝数变体。例如,拷贝数变体≤5mb大小的可以被标记标明(flagged)。在一些实施方式中,在分析之前、同时和/或之后,可以去除标记标明的cnv。在一些实施方式中,小cnv可以被用于评估微缺失或微扩增。例如,微缺失或微扩增发生在迪乔治综合征(染色体22q11.2)或乳腺癌(染色体17q12)中。
[0403]
在一些实施方式中,本文提供的是使用合成非整倍体的样品的方法。在一些实施方式中,可以通过将几个染色体臂的读数添加(或减去)这些正常dna样品的读数创建合成非整倍体样品。例如,可以在每个样品的1、10、15或20个染色体臂中添加或减去读数。加法和减法可以被设计成代表0.5%至1.5%的肿瘤细胞分数,并导致合成的样品正好含有1000万个读数。每个染色体臂的读数可以被均一地添加或减去。在一些实施方式中,本文提供的是使用示例性伪代码(图5)产生合成非整倍体的样品的方法。在一些实施方式中,本领域普通技术人员将能够通过将已知的编码语言和技术应用于图5中所示的示例性伪代码来产生合成样品。
[0404]
可以使用本文所述方法和材料检测的染色体异常的例子包括但不限于数目紊乱、结构畸形、等位基因失衡和微卫星不稳定。染色体异常可以包括数目紊乱。例如,染色体异常可包括非整倍体(例如异常的染色体数量)。在一些情况下,非整倍体可以包括整个染色体。在一些情况下,非整倍体可以包括部分染色体(例如染色体臂获得或染色体臂丢失)。非整倍体的例子包括但不限于单倍体、三倍体、四倍体和五倍体。染色体异常可以包括结构异常。结构异常的例子包括但不限于缺失、重复、易位(例如相互易位和罗伯逊易位)、倒位、插入、环化和等臂染色体。染色体异常可以发生在任何染色体对(例如,染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、染色体16、染色体17、染色体18、染色体19、染色体20、
染色体21、染色体22和/或性染色体之一(例如,x染色体或y染色体)上。例如,非整倍体可以发生在,但不限于,染色体13(例如13三体)、染色体16(例如16三体)、染色体18(例如18三体)、染色体21(例如21三体)、和/或性染色体(例如,x染色体单体;性染色体三体,例如xxx、xxy和xyy;性染色体四倍体例如xxxx和xxyy;和性染色体五倍体,例如xxxxx、xxxxy和xyyyy)。例如,结构异常可以发生在,但不限于,染色体4(例如,染色体4的短臂部分缺失)、染色体11(例如,11q末端缺失)、染色体13(例如,染色体13的罗伯逊易位)、染色体14(例如,染色体14的罗伯逊易位)、染色体15(例如,染色体15的罗伯逊易位)、染色体17(例如,编码外周髓鞘蛋白22的基因重复)、染色体21(例如,染色体21的罗伯逊易位)和染色体22(例如,染色体22的罗伯逊易位)。
[0405]
在一些实施方式中,本文所述的方法和材料被用于鉴定和/或治疗与一种或多种染色体异常(例如,本文所述鉴定的一种或多种染色体异常,例如但不限于非整倍体)相关的疾病。在一些情况下,从哺乳动物获得的dna样品(例如基因组dna样品)可以评估哺乳动物是否存在一种或多种染色体异常。例如,哺乳动物(例如人)可以至少部分地基于一种或多种染色体异常的存在被鉴定为患有疾病,可以接受一种或多种癌症疗法治疗。在一些实施方式中,至少部分地基于一种或多种染色体异常的存在鉴定为患有癌症的哺乳动物接受一种或多种癌症治疗方法进行治疗。在一些实施方式中,哺乳动物(例如产前人)可以至少部分地基于一种或多种染色体异常的存在被鉴定为患有疾病或病症。在一些实施方式中,可以至少部分地基于存在一种或多种染色体异常,将胚胎(例如,通过体外受精产生的胚胎)鉴定为不适合移植到子宫(例如,人类子宫)进行植入。在一些实施方式中,可以至少部分地基于不存在一种或多种染色体异常,将胚胎(例如,通过体外受精产生的胚胎)鉴定为适合移植到子宫(例如,人类子宫)进行植入。
[0406]
在一些实施方式中,被鉴定为患有与本文所述的一种或多种染色体异常相关的疾病或病症的哺乳动物(例如,至少部分地基于存在一种或多种染色体异常,例如但不限于非整倍体)可以患有使用任何合适的方法确证的疾病或病症的诊断。可用于确证一种或多种染色体异常存在的方法的例子包括但不限于:核型分析、荧光原位杂交(fish)、短串联重复的定量pcr、定量荧光pcr(qf-pcr)、定量pcr剂量分析、snp的定量质谱、比较基因组杂交(cgh)、全基因组测序(whole genome sequencing)和外显子测序。
[0407]
用于癌症检测的多分析物测试
[0408]
在一些实施方式中,非整倍体的检测被用于鉴定哺乳动物患有癌症(例如本文所述的任何示例性癌)。在一些实施方式中,一种或多种遗传生物标志物的检测被用于确证或鉴定哺乳动物患有癌症(例如本文所述的任何示例性癌)。在一些实施方式中,一种或多种肽生物标志物水平升高被用于确证或鉴定哺乳动物患有癌症(例如本文所述的任何示例性癌)。在一些实施方式中,如本文所述鉴定为患有癌症的哺乳动物(例如基于非整倍体检测,和/或至少部分基于是否存在一种或多种遗传生物标志物(例如突变)和/或一种或多种蛋白质生物标志物(例如肽)的水平升高)可以患有使用任何合适的方法确证的癌症诊断。可用于诊断或确证癌症的方法的例子包括但不限于体格检查(例如骨盆检查)、成像测试(例如超声或ct扫描)、细胞学和组织测试(例如活检)。
[0409]
在一些实施方式中,本文提供的用于鉴定一种或多种染色体异常(例如非整倍体)的方法被用于鉴定哺乳动物患有不同阶段的癌症。在一些实施方式中,癌症可以是i期癌
症。在一些实施方式中,癌症可以是ii期癌症。在一些实施方式中,癌症可以是iii期癌症。在一些实施方式中,癌症可以是iv期癌症。在一些实施方式中,本文提供的用于鉴定一种或多种染色体异常(例如非整倍体)的方法被用于鉴定哺乳动物患有检测癌症的常规方法不能可靠地检测的癌症阶段。例如,本文提供的用于鉴定一种或多种染色体异常(例如非整倍体)的方法可用于鉴定哺乳动物患有检测癌症的常规方法不能可靠地检测的i期癌症。在一些实施方式中,本文提供的方法用于鉴定:1)一种或多种染色体异常(例如非整倍体),和2)一种或多种遗传生物标志物(例如本文提供的任何遗传生物标志物),被用于鉴定哺乳动物患有检测癌症的常规方法不能可靠地检测的癌症阶段。在一些实施方式中,本文提供的方法用于鉴定:1)一种或多种染色体异常(例如非整倍体),和2)一种或多种蛋白质生物标志物(例如本文提供的任何蛋白质生物标志物),被用于鉴定哺乳动物患有检测癌症的常规方法不能可靠地检测的癌症阶段。如本文所述鉴定的癌症的非限制性例子(例如基于非整倍体检测,和/或至少部分地基于是否存在一种或多种遗传生物标志物(例如突变)和/或一种或多种蛋白质生物标志物(例如肽)的水平升高)包括,肝癌、卵巢癌、食道癌、胃癌、胰腺癌、结直肠癌、肺癌、乳腺癌和前列腺癌。
[0410]
在一些实施方式中,被检测到存在一种或多种染色体异常(例如非整倍体)的对象可被选择进行进一步诊断测试。在一些实施方式中,本文提供的方法可用于在常规技术能够诊断对象患有早期癌症的时间段之前的时间段选择对象以进行进一步诊断测试。例如,当通过常规方法未诊断为患有癌症的对象和/或当对象未知患有癌症时,可以使用本文提供的用于选择对象进行进一步诊断测试的方法。在一些实施方式中,与未被选择进行进一步诊断测试的对象相比,被选择进行进一步诊断测试的对象可以被给予更高频率的诊断测试(例如,任何本文所述的诊断测试)。例如,被选中进行进一步诊断测试的对象可以以每天两次、每天、每两周、每周、每两月、每月、每季度、每半年、每年或其中的任何频率被给予诊断测试。在一些实施方式中,与未被选择进行进一步诊断测试的对象相比,被选择进行进一步诊断测试的对象可以被给予一项或多项额外的诊断测试。例如,被选择进行进一步诊断测试的对象可以被给予两项或更多诊断测试,然而未被选择进行进一步诊断测试的对象仅被给予一项诊断测试(或没有诊断测试)。在一些实施方式中,诊断测试方法可以确定与最初检测的癌症相同类型的癌症的存在。附加或替代地,诊断测试方法可以确定与最初检测的癌症不同类型的癌症的存在。
[0411]
在一些实施方式中,诊断测试方法是扫描。在一些实施方式中,扫描是骨扫描、计算机断层扫描(ct)、ct血管造影(cta)、食道造影(吞钡)、钡灌肠、镓扫描、磁共振成像(mri)、乳房x光检查、单克隆抗体扫描(例如,针对前列腺癌的扫描、针对卵巢癌的扫描和针对结肠癌的)、多门采集(muga)扫描、pet扫描、pet/ct扫描、甲状腺扫描、超声波(例如,乳房超声波、支气管内超声波、超声内镜、经阴道超声)、x射线、dexa扫描。
[0412]
在一些实施方式中,诊断测试方法是身体检查,例如但不限于,肛门镜检查、活检、支气管镜检查(例如,自体荧光支气管镜检查、白光支气管镜检查、导航支气管镜检查)、数字乳房断层摄影术、数字直肠检查(digital rectal exam)、内窥镜检查,包括但不限于胶囊内窥镜检查、虚拟内窥镜检查、关节镜检查、支气管镜检查、结肠镜检查、阴道镜检查、膀胱镜检查、食管镜检查、胃镜检查、腹腔镜检查、喉镜检查、神经内窥镜检查,直肠镜检查、乙
chaver等(2014)world j.gastroenterol.20(14):3804-3824)。在一些实施方式中,所述诊断测试方法确定核酸(例如,微小rna(sethi等(2011)j.carcinog.mutag.s1-005)、rna、snp(hosein等(2013)lab.invest doi:10.1038/labinvest.2013.54;falzoi等(2010)pharmacogenomics 11:559-571)、甲基化状态(castelo-branco等(2013)lancet oncol14:534-542)、热点癌症突变(yousem等(2013)chest 143:1679-1684))的存在和/或表达水平。检测样品中核酸的方法的非限制性实例包括:pcr、rt-pcr、测序(例如,下一代测序方法、深度测序)、dna微阵列、微小rna微阵列、snp微阵列、荧光原位杂交(fish)、限制性片段长度多态性(rflp)、凝胶电泳、northern印迹分析、southern印迹分析、显色原位杂交(cish)、染色质免疫沉淀(chip)、snp基因分型和dna甲基化测定。参见,例如,meldrum等(2011)clin.biochem.rev.32(4):177-195;sidranksy(1997)science278(5340):1054-9。
[0417]
在一些实施方式中,诊断测试方法包括确定样品中蛋白质生物标志物的存在(例如,血浆生物标志物(mirus等(2015)clin.cancer res.21(7):1764-1771))。确定蛋白质生物标志物存在的方法的非限制性例子包括:蛋白质印迹分析、免疫组织化学(ihc)、免疫荧光、质谱(ms)(例如,基质辅助激光解吸/电离(maldi)-ms、表面增强激光解吸/电离飞行时间(seldi-tof)-ms)、酶联免疫吸附测定(elisa)、流式细胞术、邻近测定(proximity assay)(例如,veratag邻近测定(shi等(2009)诊断分子病理学:美国外科病理学杂志(diagnostic molecular pathology:the american journal of surgical pathology),b部分:18:11-21、huang等(2010)am.j.clin.pathol.134:303-11))、蛋白质微阵列(例如,抗体微阵列(ingvarsson等(2008)proteomics 8:2211-9、woodbury等(2002)j.proteome res.1:233-237)、基于ihc的微阵列(stromberg等(2007)proteomics 7:2142-50)、微阵列elisa(schroder等(2010)mol.cell.proteomics9:1271-80)。在一些实施方式中,确定蛋白质生物标志物存在的方法是功能测定。在一些实施方式中,功能测定是激酶测定(ghosh等(2010)biosensors和bioelectronics26:424-31、mizutani等(2010)clin.cancer res.16:3964-75、lee等(2012)biomed.microdevices 14:247-57)、蛋白酶测定(lowe等(2012)acs nano.6:851-7、fujiwara等(2006)breast cancer 13:272-8、darragh等(2010)cancer res 70:1505-12)。参见,例如,powers和palecek(2015)j.heathc eng.3(4):503-534,用于诊断癌症患者的蛋白质分析测定的综述。
[0418]
在一些实施方式中,与如本文所述的一种或多种染色体异常相关的(例如,至少部分地基于一种或多种染色体异常的存在,例如但不限于非整倍体)任何合适的疾病或病症如本文所述被鉴定。在一些实施方式中,所述疾病是癌。可与一种或多种染色体异常相关的癌症的例子包括但不限于:肺癌(例如小细胞肺癌或非小细胞肺癌)、甲状腺乳头状癌、甲状腺髓样癌、分化型甲状腺癌、复发性甲状腺癌癌症、难治性分化型甲状腺癌、肺腺癌、细支气管肺癌、多发性内分泌肿瘤2a或2b型(分别为men2a或men2b)、嗜铬细胞瘤、甲状旁腺增生、乳腺癌、结直肠癌(例如转移性结直肠癌)、乳头状肾细胞癌、胃肠粘膜神经节细胞瘤、炎性肌纤维母细胞瘤、或宫颈癌、急性淋巴细胞白血病(all)、急性髓系白血病(aml)、青少年癌症、肾上腺癌、肾上腺皮质癌、肛门癌、阑尾癌、星形细胞瘤、非典型畸胎瘤/横纹肌样瘤、基底细胞癌、胆管癌、膀胱癌、骨癌、脑干胶质瘤、脑肿瘤、乳腺癌、支气管肿瘤、伯基特淋巴瘤、类癌瘤、不明原发癌、心脏肿瘤、宫颈癌、儿童癌症、脊索瘤、慢性淋巴细胞白血病(cll)、慢性粒细胞白血病(cml)、慢性骨髓增生性肿瘤、结肠癌、结直肠癌、颅咽管瘤、皮肤t细胞淋巴
瘤、胆管癌、导管原位癌、胚胎肿瘤、子宫内膜癌、室管膜瘤、食道癌、嗅神经母细胞瘤、尤文肉瘤、颅外生殖细胞瘤、性腺外生殖细胞肿瘤、肝外胆管癌、眼癌、输卵管癌、骨纤维组织细胞瘤、胆囊癌、胃癌、胃肠道类癌、胃肠道间质瘤(gist)、生殖细胞瘤、妊娠滋养细胞疾病、胶质瘤、毛细胞瘤、毛细胞白血病、头颈癌、心脏病、肝细胞癌、组织细胞增生症、霍奇金淋巴瘤、下咽癌、眼内黑色素瘤、胰岛细胞瘤、胰腺神经内分泌肿瘤、卡波西肉瘤、肾癌、朗格汉斯细胞组织细胞增生症、喉癌、白血病、唇和口腔癌、肝癌、肺癌、淋巴瘤、巨球蛋白血症、骨恶性纤维组织细胞瘤、骨癌、黑色素瘤、默克尔细胞癌、间皮瘤、转移性鳞状颈癌、中线癌、口癌、多发性内分泌瘤形成综合征、多发性骨髓瘤、蕈样真菌病、骨髓增生异常综合征、骨髓增生异常/骨髓增生性肿瘤、骨髓性白血病(myelogenous leukemia)、髓系白血病(myeloid leukemia)、多发性骨髓瘤、骨髓增生性肿瘤、鼻腔和鼻窦癌、鼻咽癌、神经母细胞瘤、非霍奇金淋巴瘤、非小细胞肺癌、口腔癌、口腔牙槽癌、唇癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、肝胆癌、上尿路癌、乳头状瘤病、副神经节瘤、鼻窦和鼻腔癌、甲状旁腺癌、阴茎癌、咽癌、嗜铬细胞瘤(pheochromosytoma)、垂体癌、浆细胞肿瘤、胸膜肺母细胞瘤、妊娠和乳腺癌、原发性中枢神经系统淋巴瘤、原发性腹膜癌、前列腺癌、直肠癌、肾细胞癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、肉瘤、sezary综合征、皮肤癌、小细胞肺癌、小肠癌、软组织肉瘤、鳞状细胞癌、鳞状颈癌、胃癌、t细胞淋巴瘤、睾丸癌、咽喉癌、胸腺瘤和胸腺癌、甲状腺癌、肾盂和输尿管移行细胞癌、不明原发癌、尿道癌、子宫癌、子宫肉瘤、阴道癌、外阴癌、waldenstrom巨球蛋白血症、威尔姆氏肿瘤、1p36缺失综合征、1q21.1缺失综合征、2q37缺失综合征、沃夫-贺许宏氏症、猫鸣综合征、5q缺失综合征、威廉姆斯综合征、8p单体、8q单体、alfi综合征、kleefstra综合征、10p单体、10q单体、jacobsen综合征、patau综合征、angelman综合征、prader-willi综合征、miller-dieker综合征、smith-magenis综合征、爱德华综合征、唐氏综合征、迪乔治综合征、phelan-mcdermid综合征、22q11.2远端缺失综合征、猫眼综合征、xyy综合征、三倍x染色体综合征、克氏综合征、沃夫-贺许宏氏症、雅各布森综合征、腓骨肌萎缩症1a型和林奇综合征。
[0419]
一旦被鉴定为患有与本文所述的一种或多种染色体异常相关的疾病(例如,至少部分地基于存在一种或多种染色体异常,例如但不限于非整倍体),哺乳动物(例如人)可以接受相应的治疗。例如,当哺乳动物被鉴定为患有与本文所述的一种或多种染色体异常相关的癌症时,该哺乳动物可以接受一种或多种癌症治疗治疗。所述一种或多种癌症治疗可以包括任何合适的癌症治疗。癌症治疗可以包括手术。癌症治疗可以包括放疗。癌症治疗可以包括给予药物疗法,例如化疗、激素疗法、靶向疗法和/或细胞毒性疗法。癌症治疗的例子包括但不限于:铂类化合物(例如顺铂或卡铂)、紫杉烷类(例如紫杉醇或多西他赛)、白蛋白结合紫杉醇(nab-紫杉醇)、六甲蜜胺、卡培他滨、环磷酰胺、依托泊苷(vp-16)、吉西他滨、异环磷酰胺、伊立替康(cpt-11)、阿霉素脂质体、美法仑、培美曲塞、拓扑替康、长春瑞滨、促黄体素释放激素(lhrh)激动剂(如戈舍瑞林和亮丙瑞林)、抗雌激素治疗(例如他莫昔芬)、芳香酶抑制剂(如来曲唑、阿那曲唑和依西美坦)、血管生成抑制剂(如贝伐单抗)、聚(adp)-核糖聚合酶(parp)抑制剂(如奥拉帕尼、芦卡帕尼(rucaparib)和尼拉帕尼(niraparib))、体外照射放疗、近距放射治疗、放射性磷及其任何组合。
[0420]
多分析物测试以增加检测的灵敏度
[0421]
在一些实施方式中,与使用一种或多种遗传生物标志物的存在作为癌症指标的癌
症检测相比,本文提供的检测非整倍体的方法(例如,使用染色体序列的分析(参见例如表1中可以被分析的重复性元件的示例性列表))增加了癌症检测的灵敏度。在一些实施方式中,与使用一种或多种蛋白质生物标志物的存在作为癌症指标的癌症检测相比,本文提供的检测非整倍体的方法(例如,使用染色体序列的分析(参见例如表1中可以被分析的重复性元件的示例性列表))增加了癌症检测的灵敏度。
[0422]
在一些实施方式中,本文提供的检测非整倍体的方法(例如,使用染色体序列的分析(参见例如表1中可以被分析的重复性元件的示例性列表))与检测一种或多种遗传生物标志物(例如,突变)的存在的一种或多种方法组合。在一些实施方式中,非整倍体检测与遗传生物标志物检测的组合增加了检测癌症的特异性和/或灵敏度。在一些实施方式中,本文提供的检测非整倍体的方法(例如,使用染色体序列的分析(参见例如表1中可以被分析的重复性元件的示例性列表))与检测一组蛋白质生物标志物(例如,肽)的一个或多个成员的存在的一种或多种方法组合。在一些实施方式中,非整倍体检测与蛋白质生物标志物检测的组合增加了检测癌症的特异性和/或灵敏度。在一些实施方式中,本文提供的检测非整倍体的方法(例如,使用染色体序列的分析(参见例如表1中可以被分析的重复性元件的示例性列表))与检测一种或多种遗传生物标志物(例如突变)的存在的多种方法和/或检测一组蛋白质生物标志物(例如,肽)的一个或多个成员的存在的多种方法组合。在一些实施方式中,非整倍体检测与遗传和/或蛋白质生物标志物检测的组合增加了检测癌症的特异性和/或灵敏度。
[0423]
在一些实施方式中,本文提供的检测非整倍体的方法与检测一种或多种遗传生物标志物(例如突变)的存在的方法组合,所述一种或多种遗传生物标志物是在选自下组的一个或多个基因中:nras、pten、fgfr2、kras、pole、akt1、tp53、rnf43、ppp2r1a、mapk1、ctnnb1、pik3ca、fbxw7、pik3r1、apc、egfr、braf。在一些实施方式中,本文提供的检测非整倍体的方法与检测一种或多种遗传生物标志物(例如突变)的存在的方法组合,所述一种或多种遗传生物标志物是在选自下组的一个或多个基因中:pten、tp53、pik3ca、pik3r1、ctnnb1、kras、fgfr2、pole、apc、fbxw7、rnf43和ppp2r1a。在一些实施方式中,测定包括检测遗传生物标志物(例如突变),所述遗传生物标志物在任何本文公开的基因的一个或多个中,包括但不限于:cdkn2a、fgf2、gnas、abl1、evi1、myc、apc、il2、tnfaip3、abl2、ewsr1、mycl1、arhgef12、jak2、tp53、akt1、fev、mycn、atm、map2k4、tsc1、akt2、fgfr1、ncoa4、bcl11b、mdm4、tsc2、atf1、fgfr1op、nfkb2、blm、men1、vhl、bcl11a、fgfr2、nras、bmpr1a、mlh1、wrn、bcl2、fus、ntrk1、brca1、msh2、wt1、bcl3、golga5、nup214、brca2、nf1、bcl6、gopc、pax8、cars、nf2、bcr、hmga1、pdgfb、cbfa2t3、notch1、braf、hmga2、pik3ca、cdh1、npm1、card11、hras、pim1、cdh11、nr4a3、cblb、irf4、plag1、cdk6、nup98、cblc、jun、pparg、smad4、palb2、ccnd1、kit、ptpn11、cebpa、pml、ccnd2、kras、raf1、chek2、pten、ccnd3、lck、rel、creb1、rb1、cdx2、lmo2、ret、crebbp、runx1、ctnnb1、maf、ros1、cyld、sdhb、ddb2、mafb、smo、ddx5、sdhd、ddit3、maml2、ss18、ext1、smarca4、ddx6、mdm2、tcl1a、ext2、smarcb1、dek、met、tet2、fbxw7、socs1、egfr、mitf、tfg、fh、stk11、elk4、mll、tlx1、flt3、sufu、erbb2、mpl、tpr、foxp1、suz12、etv4、myb、usp6、gpc3、syk、etv6、idh1和/或tcf3。在一些实施方式中,非整倍体检测与一种或多种遗传生物标志物(例如突变)检测的组合增加了检测癌症的特异性和/或灵敏度。
[0424]
在一些实施方式中,遗传生物标志物的检测(例如一种或多种遗传生物标志物)包括美国专利号7,700,286中所述的多种方法中的任一种,其通过引用全文纳入本文。本领域已知的多种信使rna(“mrna”)分离方法中任一种可用于从样品中分离rna(例如,qiagen rneasy试剂盒)。本领域已知的多种基因组dna(“gdna”)分离方法中任一种可用于从样品中分离grna(例如,qiagen dneasy试剂盒)。在一些实施方式中,遗传生物标志物的检测包括癌症检测测定。在一些实施方式中,针对本文公开的任何遗传生物标志物测量样品中gdna和/或mrna的量。gdna和/或mrna的量的改变可能指示癌症。例如,在测量gdna时,基因扩增(例如,增加的染色体序列的拷贝数(例如基因的编码区域或非编码dna(参见,例如,表1的可被测量的重复性元件的示例性列表))可能指示癌症。例如,在测量mrna时,rna量的增加(例如遗传生物标志物表达增加)可能指示癌症。在一些情况下,dna和rna的改变可能相关。
[0425]
在一些实施方式中,本文提供的检测非整倍体的方法与检测一种或多种蛋白质生物标志物(例如肽)的存在的方法组合,所述一种或多种蛋白质生物标志物是在选自下组的一种或多种蛋白质中:afp、ca19-9、cea、hgf、opn、ca-125、ca15-3、mpo、催乳素(prl)和/或timp-1,以确定癌症(例如卵巢癌或子宫内膜癌)的存在。在一些实施方式中,蛋白质生物标志物可以是任何合适的肽生物标志物。在一些实施方式中,肽生物标志物可以是与癌症相关的肽生物标志物。例如,肽生物标志物可以是在癌症中水平升高的肽(例如,与该肽的参考水平相比)。
[0426]
某些蛋白质生物标志物的示例性和非限制性阈值水平包括:ca19-9(>92u/ml)、cea(>7,507pg/ml)、ca125(>577u/ml)、afp(>21,321pg/ml)、催乳素(>145,345pg/ml)、hgf(>899pg/ml)、opn(>157,772pg/ml)、timp-1(>176,989pg/ml)、卵泡抑素(>1,970pg/m1)和ca15-3(>98u/ml)。在一些实施方式中,蛋白质生物标志物的阈值水平可以比本文所述的示例性阈值水平更高(例如,约10%、约20%、约30%、约40%、约50%、约60%、约70%、约80%、约90%、约100%或更高)。在一些实施方式中,蛋白质生物标志物的阈值水平可以比本文所述的示例性阈值水平更低(例如,约10%、约20%、约30%、约40%、约50%或更低)。
[0427]
在一些实施方式中,ca19-9的阈值水平可以是至少约92u/ml(例如,约92u/ml)。在一些实施方式中,ca19-9的阈值水平可以是92u/ml。在一些实施方式中,cea的阈值水平可以是至少约7,507pg/ml(例如,约7,507pg/ml)。在一些实施方式中,cea的阈值水平可以是7.5ng/ml。在一些实施方式中,hgf的阈值水平可以是至少约899pg/ml(例如,约899pg/ml)。在一些实施方式中,hgf的阈值水平可以是0.92ng/ml。在一些实施方式中,opn的阈值水平可以是至少约157,772pg/ml(例如,约157,772pg/ml)。在一些实施方式中,opn的阈值水平可以是158ng/ml。在一些实施方式中,ca125的阈值水平可以是至少约577u/ml(例如,约577u/ml)。在一些实施方式中,ca125的阈值水平可以是577u/ml。在一些实施方式中,afp的阈值水平可以是至少约21,321pg/ml(例如,约21,321pg/ml)。在一些实施方式中,afp的阈值水平可以是21,321pg/ml。在一些实施方式中,催乳素的阈值水平可以是至少约145,345pg/ml(例如,约145,345pg/ml)。在一些实施方式中,催乳素的阈值水平可以是145,345pg/ml。在一些实施方式中,timp-1的阈值水平可以是至少约176,989pg/ml(例如,约176,989pg/ml)。在一些实施方式中,timp-1的阈值水平可以是176,989pg/ml。在一些实施方式中,卵泡抑素的阈值水平可以是至少约1,970pg/ml(例如,约1,970pg/ml)。在一些实施
方式中,ca15-3的阈值水平可以是至少约98u/ml(例如,约98u/ml)。在一些实施方式中,ca15-3的阈值水平可以是98u/ml。在一些实施方式中,ca19-9、cea和/或opn的阈值水平可以高于以上列出的阈值水平5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、100%或更高(例如,高于阈值水平:ca-19-9的92u/ml、cea的7,507pg/ml、hgf的899pg/ml、opn的157,772pg/ml、ca125的577u/ml、afp的21,321pg/ml、催乳素的145,345pg/ml、timp-1的176,989pg/ml、卵泡抑素的1,970pg/ml和/或ca15-3的98u/ml)。
[0428]
在一些实施方式中,蛋白质生物标志物的阈值水平可以高于通常为诊断或临床目的而测试的水平。例如,ca19-9的阈值水平可以高于约37u/ml(例如,高于约40、45、50、55、60、65、70、75、80、85、90、95或更多u/ml)。附加或替代地,cea的阈值水平可以高于约2.5ug/l(例如,高于约3.0、3.5、4.0、4.5、5.0、5.5、6.0、6.5、7.0、7.5或更多ug/l)。例如,ca125的阈值水平可以高于约35u/ml(例如,高于约40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550或更多u/ml)。例如,afp的阈值水平可以高于约21ng/ml(例如,高于约25、30、40、50、60、70、80、90、100、150、200、250、300、350、400或更多ng/l)。附加或替代地,timp-1的阈值水平可以高于约2,300ng/ml(例如,高于约2,500、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000或更多ng/l)。附加或替代地,卵泡抑素的阈值水平可以高于约2ug/ml(例如,高于约2.5、3.0、3.5、4.0、4.5、5.0、5.5、6.0、6.5、7.0、7.5或更多ug/l)。附加或替代地,ca15-3的阈值水平可以高于约30u/ml(例如,高于约35、40、45、50、55、60、65、70、75、80、85、90、95或更多u/ml)。在一些实施方式中,以高于通常用于传统诊断或临床测定测试的阈值水平检测一种或多种蛋白质生物标志物可以改进癌症检测的灵敏度。
[0429]
肽生物标志物的例子包括但不限于,afp、血管生成素-2、axl、ca125、ca15-3、ca19-9、cd44、cea、cyfra21-1、dkk1、内皮糖蛋白、fgf2、卵泡抑素、半乳凝素-3、g-csf、gdf15、he4、hgf、il-6、il-8、激肽释放酶-6、瘦素、lrg-1、间皮素、中期因子、髓过氧化物酶、nse、opg、opn、par、催乳素、segfr、sfas、shbg、sher2/segfr2/serbb2、specam-1、tgfa、血小板反应蛋白-2、timp-1、timp-2和玻连蛋白。例如,肽生物标志物可以包括opn、il-6、cea、ca125、hgf、髓过氧化物酶、ca19-9、中期因子和/或timp-1中的一种或多种。在一些实施方式中,非整倍体检测与一种或多种蛋白质生物标志物(例如肽)检测的组合增加了检测癌症的特异性和/或灵敏度。
[0430]
在一些实施方式中,可在从对象(例如,人对象)分离或获得的多种生物样品中的任一种中检测遗传和/或蛋白质生物标志物的存在,所述生物样品包括但不限于血液、血浆、血清、尿液、脑脊液、唾液、痰、支气管肺泡灌洗液、胆汁、淋巴液、囊液、粪便、腹水及其组合。当获得正常、健康人对象不下降,但患有癌症的人对象下降的阈值水平时,可以检测本领域任何已知的蛋白质生物标志物。可以使用任何合适的方法来检测如本文所述的一种或多种蛋白质生物标志物的水平。在一些实施方式中,将一种或多种蛋白质生物标志物的水平与预定阈值进行比较。在一些实施方式中,预定阈值是通用或全局阈值。在一些实施方式中,预定阈值是与特定蛋白质生物标志物相关的阈值。在一些实施方式中,将一种或多种蛋白质生物标志物的水平与参考蛋白质生物标志物的绝对量进行比较。在一些实施方式中,一种或多种蛋白质生物标志物的水平是相对于参考蛋白质生物标志物的量。在一些实施方
式中,一种或多种蛋白质生物标志物的水平是升高的水平。在一些实施方式中,一种或多种蛋白质生物标志物的水平高于预定阈值。在一些实施方式中,一种或多种蛋白质生物标志物的水平在预定阈值范围内。在一些实施方式中,一种或多种蛋白质生物标志物的水平是或接近预定阈值。在一些实施方式中,一种或多种蛋白质生物标志物的水平低于预定阈值。在一些实施方式中,来自生物样品的一种或多种蛋白质生物标志物的水平低于特定阈值。在一些实施方式中,与预定阈值相比,来自生物样品的一种或多种蛋白质生物标志物的水平被抑制。
[0431]
在一些实施方式中,本文所述的方法和材料被用于检测哺乳动物基因组中的一种或多种多态性(例如体细胞突变)。例如,从第一哺乳动物(例如,测试哺乳动物或怀疑携带一个或多个多态性的哺乳动物)获得的样品中获得的多个扩增子可以被测序,从第二哺乳动物(例如,参考哺乳动物)获得的样品中获得多个扩增子可以被测序,来自从第一哺乳动物获得的样品的变体测序读数可以被分组为基因组区间的簇,来自从第二哺乳动物的样品的参考测序读数可以被分组为基因组区间的簇,具有在两个等位基因上具有变体测序读数和参考测序读数之和大于约3(例如,大于约4、大于约5、大于约6、大于约7、大于约8、大于约9、大于约10、大于约12、大于约15、大于约18、大于约20、大于约22、大于约25或大于约30)的染色体臂可以被选择,所选染色体臂的变体等位基因频率(vaf)可以被确定,并且所选染色体臂上一种或多种多态性的存在与否可以被鉴定。所选染色体臂的vaf可以使用任何合适的技术确定。例如,所选染色体臂的vaf可以是变体测序读数的量/测序读数总量。当在哺乳动物的基因组中vaf为约0.2至约0.8(例如,约0.3至约0.8、约0.4至约0.8、约0.5至约0.8、约0.6至约0.8、约0.2至约0.7、约0.2至约0.6、约0.2至约0.5或约0.2至约0.4)时,哺乳动物基因组中一种或多种多态性的存在可以在哺乳动物基因组中被鉴定,并且当vaf在预定的显著阈值内时,哺乳动物基因组中不存在一种或多种多态性可以在哺乳动物基因组中被鉴定。例如但不限于,当vaf为约0.4至0.6时,哺乳动物基因组中一种或多种多态性的存在可以在哺乳动物基因组中被鉴定。
[0432]
在一些实施方式中,本文所述方法和材料可以被用于样品鉴定。通过本文所述的方法扩增的重复性元件包括共同多态性,其可被用于在样品(例如血浆、肿瘤和血液)间证实或否认样品身份。例如,各个多态性位置的基因型都可以在样品之间进行鉴定和比较。多态性位置的样品之间的总体相似性可用于确定样品身份。
[0433]
在一些情况下,当与对照(例如非疾病样品)对比时,与如本文所述的一种或多种染色体异常相关的疾病(例如,至少部分基于一种或多种染色体异常的存在,例如但不限于非整倍性)也与增加的突变率相关(例如突变率增加可与疾病阶段相关)。在这种情况下,本文所述的材料和方法可用于(a)鉴定一种或多种染色体异常(例如非整倍性)的存在和(b)基于确定与对照相比的突变率(例如,突变的数量)鉴定疾病的阶段(例如癌症阶段i、ii、iii和iv)。
[0434]
本发明将在以下实施例中进一步描述,其不限制权利要求中描述的本发明的范围。
[0435]
实施例
[0436]
实施例1:癌症患者中非整倍体的检测
[0437]
本实施例描述了基于扩增子的非整倍体检测的新改变。一种称为waldo的样品内
非整倍体检测的方法(within-sample-aneuploidy-detection),其采用有监督的机器学习来检测染色体臂的改变,与之前的方法相比,改进了非整倍体检测的灵敏度。在此,证明了使用waldo分析dna样品中短散在核苷酸元件(sine)的扩增子增加了非整倍体检测的灵敏度。此外,平均长度约为100bp的约1,000,000个sine扩增子减少了对无细胞dna输入的输入需求,同时还增加了检测灵敏度。
[0438]
材料和方法
[0439]
引物
[0440]
为了生成候选引物列表,计算了hg19的repeatmasker轨迹内所有可能的6-聚体(4^6=4096)的频率。接下来,计算6-聚体上游或下游75bp内所有可能的4-聚体(4^4=256)的频率。连接6-聚体与4-聚体产生2,097,152个候选对。基于pcr介导的扩增所预期的独特基因组基因座的数量、6-聚体与其相对应的4-聚体之间的平均尺寸以及这些尺寸的分布,选择这些对进行进一步评估,旨在实现单峰分布。这个过滤标准产生了16个潜在的k-聚体对,导致设计了16个引物对,其在3-末端纳入了这些k-聚体对。k-聚体在本领域中被理解为指包含在序列内的长度为k的子序列。
[0441]
总计,最初设计并测试了16个引物(表2)。一个引物(seq id no:1)始终具有较少的引物二聚体并且被选择用于测试队列(cohort)。具有seq id no:1的引物对作为引物之一独特地扩增了745,184个扩增子,其扩增子的平均扩增子大小为约88bp(图1a)。图1a中所示的扩增子大小包括45bp的引物。例如,当不包括引物时,扩增子的平均大小为约43碱基对(图1b)。
[0442]
表2.
[0443]
[0444][0445]
测序文库制备
[0446]
具有seq id no:1的第一引物从5’至3’末端包含:通用引物序列(ups)、独特标识符dna序列(uid)和扩增序列。聚合酶链式反应(pcr)在25ul反应中进行,其包含7.25ul水、0.125ul各引物、12.5ul nebnext ultra ii q5主混合物(新英格兰生物实验室公司(new england biolabs)目录号m0544s),和5ul dna。循环条件为:98℃持续120秒,1个循环,然后98℃持续10秒、57℃持续120秒、72℃持续120秒,15个循环。对于用血浆进行的实验,5ul中的dna量为0.14ng。然后进行第二轮pcr,在测序前给每个pcr添加双标引(条形码)。用于第二轮pcr的正向和反向引物列于表2。最初的扩增引物没有被除去,来自第一反应的扩增产物被1∶20稀释。稀释液被直接用于第二轮扩增,使用与第一轮引物引入的ups位点退火的引物,另外还含有杂交到illumina流动池所需的5’移植序列。
[0447]
使用第二反向引物将f标引(例如用于区分样品的序列)引入每个样品,以便之后允许多重测序。第二轮pcr在25ul反应中进行,其包含7.25ul水、0.125ul各引物、12.5ul nebnext ultra ii q5主混合物(新英格兰生物实验室公司,目录号m0544s),和5ul含有5%第一轮pcr产物的dna。循环条件为:98℃持续120秒,1个循环,然后98℃持续10秒、65℃持续15秒、72℃持续120秒,15个循环。扩增产物在琼脂糖凝胶上跑样以检查扩增情况。扩增产物用1.2x的ampure xp珠子纯化,并通过分光光度法、实时pcr、agilent 2100生物分析仪或使用aiglent tapestation的自动电泳进行定量。所有寡核苷酸均购自整合dna技术公司(integrated dna technologies)(爱荷华州,克拉尔维尔)。
[0448]
测序和测序分析
[0449]
bowtie2用于将7对引物中每一对产生的扩增子的读数与人参考基因组组装grc37相比对(langmead等2012)。使用引物对1(具有seq id no:1的引物和具有seq id no:10的引物),平均51.1%的总读数可以被独特比对(uniquely align),平均扩增子大小为88bp(图1a)。图1a中所示的扩增子大小包括45bp的引物。例如,当不包括引物时,扩增子的平均大小为约43碱基对(图1b)。引物对1理论上能够扩增出多达745,184个可以独特比对的重复性元件,但平均样品含有平均350,000个重复性元件,见图1c。不希望受理论限制,血浆样品中扩增子的潜在数量和实际观察到的数量之间的差异有几个潜在原因。(1)序列内的多态性可能引起错配(misalignment),导致“丢失扩增子”。(2)引物内的多态性可能没有扩增。(3)每个扩增子可能有不同的pcr效率,低效率的扩增子在pcr过程中被胜过了。(4)较小的dna片段可能被优先扩增,长扩增子(>100bp)可能没有被扩增。(5)由于无细胞dna中的dna
片段尺寸小,因此无细胞dna中可能不存在长扩增子。(6)用于这些样品的测序的量对于观察到每个扩增子可能不足够高,特别是那些pcr效率低的扩增子。(7)最后,一些重复性元件可能没有在每个个体中存在。在由seq id no:1和seq id no:10的引物对产生的扩增子中,鉴定了52,762种多态性。在由1348个正常血浆和883个来自癌症患者的血浆组成的测试队列中,杂合位点的平均数量是2200个。这些位点可用于测量等位基因失衡、遗传学鉴定样品并确定样品是否被意外地混在一起。使用相同的snp,合成实验被用于在给定混合物中,当样品一dna的量大于样品二dna的量的4%时,估计可以检测到的样品混合。
[0450]
统计分析
[0451]
基于读数深度的分析方法已被广泛应用于全基因组测序(whole-genome sequencing)(wgs)方案。在读数均匀独立分布的假设下,正常拷贝数的区域有望遵循泊松或正态分布(zhao等2013和pirooznia等2015)。基于扩增子的方案以相对较低的成本实现了高覆盖深度,且它们是wgs的一个有吸引力的替代方案,但是来自扩增子测序的比对读数(例如上述测定产生的读数)具有不同于wgs和wes产生的读数的特性。因为这些读数仅限于相对较少的离散基因座,它们是不连续的。这些读数也不是随机分布的,这使得为wgs和wes设计的读数深度覆盖的统计模型难以使用。样品内非整倍体检测(waldo)是一种专门为基于扩增子的非整倍体检测而设计的算法(参见,例如,douville等pnas 201 115(8):1871-1876)。waldo被应用于映射到上述基因组基因座(例如,sine)的测序读数。全基因组非整倍体评分(genome-wide aneuploidy score)被用来鉴定样品是否存在非整倍体。
[0452]
waldo下的统计学原理
[0453]
与大多数评估拷贝数改变的常规方法不同,waldo不将测试样品中各个染色体臂的标准化读数计数与其他样品中各个染色体臂的读数分数进行比较。这种常规比较会受到批次效应和其他与难以控制的变量有关的伪像的影响。为了评估全基因组测序(whole genome sequencing)数据,通过比较5344个基因组区间内的读数计数来检测非整倍体,每个区间包含500-kb的序列。样品内500-kb基因组区间内的读数计数只与同一样品内其他基因组区间的读数计数比较-因此waldo中指定为“样品内”。在本实施例中,对前述的waldo方案进行了定制,这导致了一些分析上的变化(见图2)。所述调整包括新的标准化步骤、调用不确定长度的小拷贝数改变的新方法,以及检测全基因组(genome-wide)非整倍体的改进方法,如下文所述。这些分析上的改进加上使用seq id no:1和seq id no:10引物对实现的扩增子的基因组密度的增加,使得灵敏度更高,以及检测到小于1mb大小的焦点扩增和缺失。
[0454]
在整倍体样品中,每个500-kb的基因组区间内的读数量应跟上与某些其他基因组区域的读数的量。跟上的基因组区间是由于其中的扩增子扩增的程度相似。此处,这种一致的基因组区域被称为“簇”。有可能从整倍体样品的测序数据中鉴定簇。在测试样品中,确定各个预定义簇中每个基因组区间的读数的量是否在该同一样品的其他簇的预期范围内。如果基因组区间内的读数在统计学上的预期范围之外,并且在同一染色体臂上有许多这样的域外值(outsider),那么该染色体臂就被分类为非整倍体的。该测试的统计学基础在其他地方有描述(例如,douville等pnas201115(8):1871-1876)。简言之,虽然读数的量在整个基因组中不是随机分布的,但各个簇内的标度读数(scaled read)的分布近似于正态。正态分布的方便的特性是,多个正态分布之和也是正态分布。因此,可以简单地通过对染色体臂
上呈现的所有簇的平均值和方差进行加和,来计算每个染色体臂上的读数总和的理论平均值和方差。
[0455]
waldo还采用了一些其他创新,使其适用于分析临床样品的pcr生成的扩增子。这些创新之一是控制源于数据对初始模板大小的强烈依赖的扩增偏差。另一个是使用机器学习算法(例如支持向量机(svm)),以能够在含有低肿瘤分数的样品中检测非整倍体。
[0456]
标准化
[0457]
本实施例中描述的改进的waldo方法包括新的标准化方法,其减少了样品之间的变异性的量。在该标准化中,首先对来自对照组的测序数据进行了主成分分析(pca)。pca将500kb基因组区间的数量从n=5,344减少到更易管理的维数。使用对照的pca坐标,创建了模型,该模型在未来的样品中基于其pca坐标预测特定的500kb区间是否将会被更高效或更低效地扩增。
[0458]
500kb区间i的校正因子
[0459]
=β
0i
β
1i
*pca1 β
2i
*pca2 β
3i
*pca3 β
4i
*pca4 β
5i
*pca5[0460]
对于每个测试样品,样品被投影到pca空间,并且每个500kb区间的校正因子可以以其pca坐标的函数计算。将校正因子应用至每个500kb基因组区间后,测试样品以基于最接近的500kb区间的欧几里得距离被匹配至7个对照样品。
[0461]
合成非整倍体样品的产生。
[0462]
数据是选自84个假定的整倍体血浆样品,每个样品至少包含1000万个读数且各自来源于正常wbc的dna。通过将几个染色体臂的读数添加(或减去)这些正常dna样品的读数,创建合成非整倍体的样品。每个样品都从1、10、15或20个染色体臂中添加或减去读数。加法和减法被设计成代表0.5%至1.5%的肿瘤细胞分数,并导致合成的样品正好含有1000万个读数。每个染色体臂的读数被均一地添加或减去。例如,在建立丢失的五个染色体臂的模型时,其各自的丢失程度相同,我们没有将肿瘤的异质性纳入模型中。此外,没有创建含有多于三个任何染色体臂的合成样品;例如,4个染色体3p的拷贝。这种简化方法并没有全面涵盖所有生物学上合理的非整倍体事件。然而,限制改变臂的可能组合使得样品的生成在计算上是易控制的,而且所产生的支持向量机在实践中运行良好。合成产生的样品中,只有一条染色体臂的读数被添加或减去,这使我们能够估计waldo在只有一条感兴趣的染色体臂获得或丢失时的表现。生成合成样品的伪代码如图5所示。
[0463]
全基因组(genome wide)非整倍体的确定
[0464]
训练了一个两类支持向量机(svm)来区分整倍体样品和非整倍体样品。训练集包含了1348个来自正常个体的推测为整倍体的血浆样品的阴性类,其中包含至少2.5m读数和635个非整倍体的样品。非整倍体类包含了合成和实际的非整倍体样品的混合物。使用r中的e1071软件包进行svm训练,使用径向基核和默认参数。每个样品有39个z-评分特征,代表染色体臂获得或丢失。在训练过程中,阳性类被随机采样,使得阳性类的规模为阴性类的10%。阳性类被随机采样比例为两个真实样品对一个合成样品。进行了该过程的10次迭代。最终的全基因组非整倍体评分是10次迭代中原始svm评分的平均值。
[0465]
结果
[0466]
在1348个整倍体血浆样品和883个来自癌症患者的血浆样品的队列上评估了本测定的性能(表3)。癌症患者的样品包括乳腺癌、结直肠癌、食道癌、肝癌、肺癌、卵巢癌、胰腺
癌和胃癌(图3)。使用在我们的1348个整倍体样品队列中定义的导致99%特异性的截止值,发现49%的癌症样品的血浆具有非整倍体。
[0467]
样品排除标准
[0468]
为了确保纳入论文结果部分的所有样品都是高质量的,开发了几个排除标准。首先,具有低于2.5m读数的样品可以被排除。第二,有足够的污染证据的样品被排除。要被标记为污染的,样品需要具有至少10个显著的等位基因失衡的染色体臂(z评分>=2.5)和少于十个显著的染色体臂获得或丢失(z>=2.5或z<=-2.5)。等位基因失衡是从snp确定的,而获得或丢失是通过waldo评估的。正如通过混合实验所确定的那样,在没有大量获得或丢失的情况下,相对大量的等位基因失衡的染色体臂表明样品被来自另一个个体的dna污染。第三,在血浆分析中,超过8.5%的扩增子大于94bp(正向和反向引物之间50个碱基对)的样品被排除。这种样品可能受到白细胞dna的污染。第四,如下文公式所定义的测定的动态范围之外的样品可以被排除。
[0469][0470]
该度量的分布具有长尾。选择大于0.2450和0.2320的值作为可以评估截止值的动态范围。第五,同一患者的白细胞中有已知非整倍体的血浆样品;这种患者被假定为患有意义未明的克隆性造血(chip)或先天性病症。
[0471]
使用多分析物测试检测癌症
[0472]
比较了非整倍体是否可以作为额外的生物标志物整合到已公开的框架中,以及比较了带有非整倍体和蛋白质标志物的逻辑回归模型与使用体细胞突变和蛋白质标志物的原始逻辑回归模型的预测能力。
[0473]
此处,分析了来自健康人的1348个血浆样品和883个癌症患者的样品。在1348份健康样品中,仅有248份与原始研究重叠。所有883个癌症样品都包含在原始研究中。表3中提供了样品人口统计学信息。
[0474]
使用原始的812个健康样品(cohen等)和883个癌症样本,训练了逻辑回归模型,然后用10轮十倍交叉验证来评估性能。表3提供了样品及其生物标志物值的完整列表。由于原始健康样品中有564个没有进行非整倍体分析,因此从1348个正常样品的评分列表中随机采样,给每个缺失的样品分配一个非整倍体值。进行了10轮分析,且每一轮新的分析,再次在1348个正常的评分集合中随机采样以给564个样品分配新的评分。
[0475]
为了说明不同实验中检测下限的变异,第90个百分位数的特征值被用于健康的训练样品。任何低于这个阈值的特征值,并将所有的值设置为第90个百分位数的阈值。对所有训练和测试样品进行了这种转化。对非整倍体评分、体细胞突变评分和蛋白质浓度都进行了这个过程。表4列出了来自逻辑回归模型的第90个百分位数阈值和最终的特征系数。
[0476]
表4.逻辑回归系数和阈值。
[0477][0478][0479]
非整倍体灵敏度检测与其他癌症生物标志物的比较
[0480]
将非整倍体结果作为基准,与驱动基因突变组和7种蛋白质生物标志物的集合(afp、ca-125、ca15-3、ca19-9、cea、hgf、opn、timp1)比较,其最近被公开为血浆样品中癌症检测的关键生物标志物(图4)(cohen等2018,science359(6378):926-930)。非整倍体的表现优于所有蛋白质标志物。非整倍体还能检测出42%被突变漏掉的样品,以及34%被突变组和蛋白质组漏掉的样品。由于这种非整倍体测定的高特异性和各个额外癌症生物标志物的效用,可以理解为这些成分被组合成用于癌症检测的多分析物测试。
[0481]
实施例2:用低输入dna从21三体样品中检测非整倍体
[0482]
在仅几皮克(pg)的dna中可靠地检测的非整倍体对于植入前诊断以及法医应用是必要的。在植入前诊断中,从囊胚中挑选的几个细胞被用来评估拷贝数变异。例如,植入前诊断包括鉴定哺乳动物具有与唐氏综合征有关的非整倍体。为了测试本公开的方法对输入dna的检测极限,在输入dna浓度为3-225pg的情况下分析了具有21三体相关的非整倍体的样品。读数与dna的关系是基于阴性对照(无dna的水孔)和已知浓度的整倍体对照(图6)。21三体非整倍体在每个测试样品(即使是那些输入dna为3pg的样品)中都被检测到,表示二倍体细胞的一半。在21三体的样品中,没有发现21号染色体以外的染色体臂是非整倍体的。在这些实验中使用的整倍体对照中,没有发现(包括21号染色体)染色体臂是非整倍体的。
[0483]
实施例3:用生物样本库样品的低输入dna检测非整倍体
[0484]
来自生物样本库的具有低输入dna的样品被评估非整倍体或鉴定目的。本文所述的方法被应用于793个血浆dna样品,其被储存在pcr板中长达10年之久。对于pcr板中的每个孔,所有的dna体积都已用于其他实验。在干的(空的)孔中加入五微升水,然后用本文所述方法处理。在728个样品中,超过250万个比对读数被测序,这是足以可靠地评估非整倍体的数量。在768个这些样品中,超过100万个比对读数被测序,该数量足以将血浆dna的身份确认为相同供者的其他样品。
[0485]
实施例4:检测血浆样品中白细胞dna污染
[0486]
血浆中的cfdna经常被从白细胞中渗出的dna污染,无论是通过放血还是制备血浆。这种污染的白细胞dna会降低血浆样品非整倍体测试的灵敏度,因为白细胞既不是来源于胎儿细胞(在nipt中),也不是来源于癌细胞(在液体活检中)。白细胞基因组dna(gdna)的平均片段大小为>1000bp,而无细胞血浆dna的平均大小为<160bp。鉴于小片段在pcr反应中被更高效地扩增,检测污染的白细胞gdna是困难的,因为较短的cfdna被优先扩增。应用本文所述的方法,可以通过引物seq id no:1和seq id no:10产生的扩增子来检测污染的白细胞gdna。使用这些方法,鉴定了1241个通常存在于gdna而不是cfdna中的扩增子。这些扩增子的测序读数由此表明血浆样品中的白细胞污染。通过将白细胞dna与无细胞血浆dna混合并使用本文所述的方法,可以检测到含有>4%白细胞dna的样品,如表5所示。
[0487]
表5.血浆中gdna污染的预测。
[0488][0489]
实施例5:不确定长度的拷贝数分析
[0490]
检测不确定长度的拷贝数变体。首先,计算每个染色体臂上每500kb区间的观察测试样品和waldo预测值的对数比。利用对数比,应用循环二元分割算法以在各染色体臂上寻找拷贝数变体。任何大小≤5mb的拷贝数变体可以被标记标明。在计算每个染色体臂的统计
学显著性之前,这些标记标明的cnv被除去。一般来说,小cnv可用于评估微缺失或微扩增,例如发生在迪乔治综合征(染色体22q11.2)或乳腺癌(染色体17q12)中。
[0491]
实施例6:使用多分析物测试检测癌症的灵敏度
[0492]
该实施例描述了使用不同的多分析物测试检测癌症的灵敏度。
[0493]
三种不同的多分析物测试用于评估在来自患者的血浆样品中检测八种癌症的灵敏度:乳腺癌、卵巢癌、肝癌、肺癌、胰腺癌、食道癌、胃癌和结直肠癌。三种测试为:(1)使用非整倍体状态、体细胞突变分析和蛋白质生物标志物评估的三组分测试;(2)使用非整倍体状态和体细胞突变分析的二组分测试;和(3)使用非整倍体状态和蛋白质生物标志物评估的二组分测试。所测试的八种蛋白质生物标志物和所测试的体细胞突变描述于cohen等,science359,pp.926-930,其全部内容通过引用纳入本文。
[0494]
如图7a-7b所示,用三组分多分析物测试检测卵巢癌、肝癌、肺癌、胰腺癌、食道癌、胃癌和结直肠癌的灵敏度中位数为80%,检测灵敏度范围为77%至97%。用三组分多分析物测试检测乳腺癌的灵敏度为38%。使用99%特异性的阈值计算灵敏度。
[0495]
图8进一步显示了使用以下测试的癌症检测的真阳性分数(衡量灵敏度):(1)非整倍体状态;体细胞突变;和蛋白质生物标志物;(2)非整倍体状态和蛋白质生物标志物;(3)体细胞突变和蛋白质生物标志物;(4)非整倍体状态和体细胞突变;(5)非整倍体状态;和(6)体细胞突变。检测的特异性保持在99%。
[0496]
如图8所示,三组分多分析物测试(非整倍体状态、体细胞突变分析和蛋白质生物标志物评估)检测癌症的灵敏度为73%,特异性为99%。与其他测试相比,三组分多分析物测试的真阳性分数(衡量灵敏度)最高。
[0497]
如图9所示,在基于样品观察癌症阶段时,多分析物测试(非整倍体状态和蛋白质生物标志物评估)检测癌症的灵敏度高于单独的非整倍体。
[0498]
因此,本实施例公开的数据表明,具有非整倍体状态、体细胞突变分析和蛋白质生物标志物评价的三组分多分析物测试可以增加检测癌症的灵敏度,同时保持癌症检测的高特异性。
[0499]
实施例7:确定体细胞/种系状态
[0500]
本文所述的材料和方法可用于鉴定从样品(如肿瘤样品或非肿瘤样品(即正常样品))中扩增的重复性元件的序列内的体细胞突变。例如,当使用来自同一患者的两个样品(一个非肿瘤样品和一个肿瘤样品)时,可以辨别出一个样品中有而另一个样品中没有的突变。对于每个样品,可以计数体细胞突变的数量,并确定单碱基取代(sbs)(例如,a->t、a->c等)的频谱。当样品也通过外显子测序进行分析时,可以确定此处扩增的重复性元件中sbs的数量与外显子中sbs的数量之间的相关性。因此,本文所述的材料和方法可用于鉴定样品内的体细胞突变。
[0501]
实施例8:样品鉴定
[0502]
本文所述的材料和方法可用于鉴定和/或区分样品(例如,区分一个对象的样品和第二个对象的样品)。在这种情况下,基于由本文所述材料和方法扩增的重复性元件中存在的共同多态性鉴定样品。然后,通过比较样品之间共同多态性处的序列,将样品与其他样品区分开来。确定每个扩增子的每个多态性的基因型,将基因型分配至样品。可以在样品之间比较基因型以鉴定样品(例如,区分肿瘤样品和非肿瘤样品,或区分来自一个对象的样品和
来自不同对象的样品)。如果一致性(例如,基因型之间的相似度百分比)<0.99,并且至少5,000个扩增子具有足够的覆盖,样品可以被认为来自不同的样品。
[0503]
实施例9:检测不同阶段和不同类型癌症中的非整倍体
[0504]
进行了一组实验来评估不同阶段和不同类型的癌症的非整倍体检测。在这些实验中,根据本文所述的方法,分离出患有不同阶段的乳腺癌、结直肠癌、食道癌、肝癌、肺癌、卵巢癌、胰腺癌和胃癌的对象的血浆。图10显示了i期(n=109)、ii期(n=276)和iii期(173)的非整倍体(特异性为99%)。图11显示了图7中相同癌症的非整倍体(特异性为99%),按癌症类型(图11)而不是癌症阶段(图10)显示。
[0505]
使用real seq方法,在癌症患者的血浆样品中检测到非整倍体比突变更常见。在癌症患者的血浆样品中检测到非整倍体比突变更常见(883个样品中分别为49%和34%;p<10-20,单侧测试,图19a)。关于组织类型,在食道癌、结直肠癌、胰腺癌、肺癌、胃癌和乳腺癌患者的样品中检测到非整倍体比突变更常见(所有p值<0.01),在卵巢癌中不太常见(p=0.048),而在肝癌中同样常见(图19a)。关于阶段,在所有阶段,尤其是i期和ii期,检测到非整倍体比突变更常见(图19b,p值<10-9)。
[0506]
实施例10:在样品中使用非整倍体和蛋白质生物标志物检测癌症
[0507]
进行了一组实验以评估将非整倍体检测与本文所述的蛋白质生物标志物检测相结合时的癌症检测灵敏度。在这些实验中,对来自与实施例8相同队列(例如,不同阶段的乳腺癌、结直肠癌、食道癌、肝癌、肺癌、卵巢癌、胰腺癌和胃癌)的血浆进行非整倍体和蛋白质生物标志物测定。图12显示了不同的癌症阶段(i期(n=109)、ii期(n=276)和iii期(173)中的检测灵敏度。
[0508]
实施例11:real seq与其他下一代测序技术的比较
[0509]
进行了一组实验以评估real seq与其它下一代测序技术相比较的性能。
[0510]
在最常见的nipt形式中,目的是检测染色体(例如唐氏综合征中的21号染色体)的获得或丢失。全基因组测序(whole genome sequencing)(wgs)、fast-seqs和realseqs被用来评估无创产前检测(nipt)中通常遇到的dna混杂物样品的性能,即当胎儿dna分数为5%时。为此目的,使用了用三种方法获得的实际数据,但随后从同一样品的不同染色体区域限定了读数的数量,以模拟如果这些区域有非整倍体会发生什么。用于生成这些计算机模拟样品的伪代码见图13和图14。性能是用一个经常使用的z-评分来计算的,其将观察到的特定染色体臂上的读数分数与正常组的平均读数分数除以正常组的标准偏差比较。报道了所有三种方法所需的总读数的结果,假设是单端100bp读数,并考虑到通常使用的比对率和过滤标准的差异。
[0511]
如图15a所示,realseqs在较低的测序量下持续实现较高的灵敏度。例如,realseqs在5%的细胞分数下对单体和三体的灵敏度为99%(特异性为99%),而wgs和fast-seqs的灵敏度分别为94%和81%(图15a)。
[0512]
测定拷贝数变异的另一个重要方面是检测缺失或扩增的相对较小的区域。通常,迪乔治综合征缺失通常小到1.5mb。对于模拟含有5%缺失的细胞分数的数据,realseqs对1.5mb的迪乔治缺失有75.0%的灵敏度(特异性为99%),而wgs和fast-seqs的灵敏度分别为19.0%和29.0%(图15b;和图16a-16b)。
[0513]
扩增(如乳腺癌中erbb2上的扩增)的检测对于决定患者是否应该用曲妥珠单抗或
其他靶向疗法治疗非常重要。按照本实施例中以上描述的相同方案,为wgs、fast-seqs和realseqs生成了具有约42kb erbb2基因(20个拷贝)的焦点扩增的计算机模拟样品。与wgs或fast-seqs相比,realseqs在计算机模拟样品中检测到的扩增明显测序减少。对于1%的细胞分数,realseqs的灵敏度为91.0%,而wgs为50.0%(图15c;和图17a-17b)。
[0514]
该数据表明real seq技术可以检测到被扩增或缺失的小区域,而且该方法在较低的测序量下具有较高的灵敏度。
[0515]
实施例12:在肿瘤来源dna浓度小的样品中检测非整倍体
[0516]
进行了一组实验,以评估在具有不同浓度的肿瘤来源dna的样品中使用real seq方法检测非整倍体。在评估302个样本中,其中突变体等位基因分数已经通过分析血浆中存在的突变来确定(cohen等,science359;926-930),在突变体等位基因分数≥2%的65个样品中,92%检测到非整倍体,在突变体等位基因分数为0.5%至2%的65个样品中,71%检测到非整倍体,以及突变体等位基因频率范围为0.01%至0.5%的172个样品中,49%检测到非整倍体(图18)。这三类样品中非整倍体的差异是显著的(p<10-3,单侧二项测试)。
[0517]
数据显示,real seq方法可以检测非整倍体,例如,即使是在低浓度的肿瘤dna中。因此,检测非整倍体的灵敏度与样品中循环肿瘤dna的浓度有关。
[0518]
其他实施方式
[0519]
应理解,虽然本发明已经结合具体实施方式进行了描述,但前述描述旨在说明而不是限制由所附权利要求书的范围所限定的本发明的范围。其它方面、优点和改进均在权利要求书的范围内。
[0520]
[0521]
[0522]
[0523]
[0524]
[0525]
[0526]
[0527]
[0528]
[0529]
[0530]
[0531]
[0532]
[0533]
[0534]
[0535]
[0536]
[0537]
[0538]
[0539]
[0540]
[0541]
[0542]
[0543]
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献