一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

PHI29突变体及其用途的制作方法

2022-11-22 18:21:03 来源:中国专利 TAG:

phi29突变体及其用途
交叉引用
1.本技术要求于2020年2月10日提交的美国临时专利申请号62/972,557的权益,所述临时申请通过引用以其全文并入本技术。序列表
2.本技术包含按ascii格式以电子方式提交并特此通过引用以其全文并入的序列表。创建于2021年1月28日的所述ascii副本名称为55461-704_601_sl.txt并且大小为33,771字节。


背景技术:

3.利用核酸扩增的研究方法,例如,下一代测序,提供了关于复杂样品、基因组和其他核酸来源的大量信息。然而,对于涉及小样品的研究、诊断和治疗,需要高度准确、可扩展且有效的核酸扩增和测序方法。援引并入
4.本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文,如同明确且单独地指示每个单独的出版物、专利或专利申请通过引用而并入。


技术实现要素:

5.本文提供了核酸扩增的方法,所述方法包括:(a)提供包含至少一种靶核酸分子的样品;(b)使所述样品与至少一种扩增引物、至少一种聚合酶和核苷酸混合物接触,其中所述核苷酸混合物包含至少一种终止所述聚合酶的核酸复制的终止子核苷酸,其中所述聚合酶包含相对于seq id no:1的至少三个突变,其中至少两个突变在相对于seq id no:1的位置370-395处,并且其中所述聚合酶相对于包含seq id no:1的聚合酶具有增加的持续合成能力、增加的链置换活性、增加的模板或引物结合、降低的错误率、增加的3'-》5'核酸外切酶活性、增加的核苷酸选择性或增加的温度稳定性;以及(c)扩增所述至少一种靶核酸分子以产生多个终止的扩增产物。本文还提供了方法,其中增加的核苷酸选择性包括增加的对非规范核苷酸的亲和力。本文还提供了方法,其中非规范核苷酸包括双脱氧核苷酸。本文还提供了方法,其还包括将步骤(c)中获得的分子连接至衔接子,从而产生扩增产物文库。本文还提供了方法,其中所述方法还包括对扩增产物文库进行测序。本文还提供了方法,其中所述方法还包括将扩增产物序列与至少一个参考序列进行比较,以鉴定至少一个突变。本文还提供了方法,其中所述样品包含基因组dna。本文还提供了方法,其中所述样品是单细胞。本文还提供了方法,其中所述单细胞是哺乳动物细胞。本文还提供了方法,其中所述单细胞是人细胞。本文还提供了方法,其中扩增产物中的至少一些包含条形码。本文还提供了方法,其中扩增产物中的至少一些包含至少两个条形码。本文还提供了方法,其中所述条形码包括细胞条形码。本文还提供了方法,其中所述条形码包括样品条形码。本文还提供了方法,其中扩增引物中的至少一些包含独特的分子标识符(umi)。本文还提供了方法,其中扩增引物中的至少一些包含至少两种独特的分子标识符(umi)。本文还提供了方法,其中所述
方法还包括使用pcr的另外的扩增步骤。本文还提供了方法,其中所述方法还包括在连接至衔接子之前从所述终止的扩增产物中除去至少一种终止子核苷酸。本文还提供了方法,其中使用包括微流体装置的方法从群体中分离单细胞。本文还提供了方法,其中所述至少一个突变在所述扩增产物序列的不多于1%中发生。本文还提供了方法,其中所述至少一个突变在所述扩增产物序列的不多于0.1%中发生。本文还提供了方法,其中所述至少一个突变在所述扩增产物序列的不多于0.01%中发生。本文还提供了方法,其中所述至少一个突变在所述扩增产物序列的不多于0.001%中发生。本文还提供了方法,其中所述至少一个突变在所述扩增产物序列的不多于0.0001%中发生。本文还提供了方法,其中所述至少一个突变存在于与遗传疾病或病症相关的序列区域中。
6.本文提供了包含seq id no:1的变体聚合酶,其中所述聚合酶在相对于seq id no:1的位置370-395处包含至少两个突变,并且其中所述聚合酶相对于包含seq id no:1的聚合酶具有增加的持续合成能力、增加的链置换活性、增加的模板或引物结合、降低的错误率、增加的3'-》5'核酸外切酶活性、增加的核苷酸选择性或增加的温度稳定性。本文还提供了聚合酶,其中所述聚合酶在相对于seq id no:1的位置370-395处包含至少三个突变。本文还提供了聚合酶,其中所述聚合酶在相对于seq id no:1的位置370-395处包含至少四个突变。本文还提供了聚合酶,其中至少一个突变在相对于seq id no:1的位置1-369或396-575处。本文还提供了聚合酶,其中所述至少一个突变包括取代、缺失或添加。本文还提供了聚合酶,其中所述至少一个突变在位置a382、l386、m385或e375处。本文还提供了聚合酶,其中所述至少一个突变包括至少一个取代。本文还提供了聚合酶,其中所述至少一个取代在seq id no:1的丙氨酸、甘氨酸、亮氨酸、甲硫氨酸、谷氨酸或半胱氨酸位置处。本文还提供了聚合酶,其中所述至少一个取代是从丙氨酸、甘氨酸、亮氨酸、甲硫氨酸、谷氨酸或半胱氨酸到苯丙氨酸、酪氨酸或色氨酸。本文还提供了聚合酶,其中所述聚合酶包含p300处的突变。本文还提供了聚合酶,其中所述聚合酶包含p300处的取代。本文还提供了聚合酶,其中所述聚合酶包含在p300处对亮氨酸、异亮氨酸、丙氨酸、甘氨酸、甲硫氨酸或半胱氨酸的取代。本文还提供了聚合酶,其中所述聚合酶包含k512处的突变。本文还提供了聚合酶,其中所述聚合酶包含k512处的取代。本文还提供了聚合酶,其中所述聚合酶包含在k512处对丙氨酸、天冬氨酸、谷氨酸、色氨酸、酪氨酸、苯丙氨酸、亮氨酸或组氨酸的取代。本文还提供了聚合酶,其中所述聚合酶在m8、v51、m97、l123、g197、k209、e221、e239、q497、k512、e515或f526处包含至少一个突变。本文还提供了聚合酶,其中在m8、v51、m97、l123、g197、k209、e221、e239、q497、k512、e515或f526处的所述至少一个突变是至少一个取代。本文还提供了聚合酶,其中所述至少一个取代是m8r、v51a、m97t、l123s、g197d、k209e、e221k、e239g、q497p、k512e、e515a或f526l。本文还提供了聚合酶,其中所述聚合酶在m8、d12、n62、m97、m102、h116、k135、h149、k157、m188、i242、s252、y254、g320、l328、i370、k371、t372、k373、s374、e375、t368、y369、t372、t373、i378、k379、n387、y390、y405、e408、g413、d423、i442、y449、d456、k478、l480、v509、d510、k512、v514、e515、m554处包含至少一个突变。本文还提供了聚合酶,其中所述至少一个突变是至少一个取代。本文还提供了聚合酶,其中所述至少一个取代是d12a/e375w/t372d;d12a/e375w/t372e;d12a/e375w/t372r/k478d;d12a/e375w/t372r/k478e;d12a/e375w/t372k/k478d;d12a/e375w/t372k/d478e;d12a/e375w/k135d;d12a/e375w/k135e;d12a/e375w/k512d;d12a/e375w/k512e;d12a/e375w/e408k;
d12a/e375w/e408r;d12a/e375w/t368d/l480k;d12a/e375w/t368e/l480k;d12a/d456n;n62d/d456n;d12a/d456a;n62d/d456a;d12a/d456s;n62d/d456s;n62d/e375m;n62d/e375l;n62d/e375i;n62d/e375f;n62d/e375d;d12a/k512w;n62d/k512w;d12a/k512y;n62d/k512y;d12a/k512f;n62d/k512f;d12a/e375w/k512l;n62d/e375w/k512l;d12a/e375w/k512y;n52d/e375w/k512y;d12a/e375w/k512f;n62d/e375w/k512f;d12a/e375y/k512l;n62d/e375y/k512l;d12a/e375y/k512y;n62d/e375y/k512y;d12a/e375y/k512f;n62d/e375y/k512f;d12a/e375w/k512h;n62d/e375w/k512h;d12a/e375y/k512h;n62d/e375y/k512h;d12a/d510f;n62d/d510f;d12a/d510y;n62d/d510y;d12a/d510w;n62d/d510w;d12a/e375w/d510f;n62d/e375w/d510f;d12a/e375w/d510y;n62d/e375w/d510y;d12a/e375w/d510w;n62d/e375w/d510w;d12a/e375w/d510w/k512l;n62d/e375w/d510w/k512l;d12a/e375w/d510w/k512f;n62d/e375w/d510w/k512f;d12a/e375w/d510h;n62d/e375w/d510h;d12a/e375w/d510h/k512h;n62d/e375w/d510h/k512h;d12a/e375w/d510h/k512f;n62d/e375w/d510h/k512f;d12a/v509y;n62d/v509y;d12a/v509w;n62d/v509w;d12a/v509f;n62d/v509f;d12a/v514y;n62d/v514y;d12a/v514w;n62d/v514w;d12a/v514f;n62d/v514f;d12s;d12n;d12q;d12k;d12a/n62d/y254f;n62d/y254v;n62d/y254a;n62d/y390f;n62d/y390a;n62d/s252a;n62d/n387a;n62d/k157e;n62d/i242h;n62d/y259s;n62d/g320c;n62d/l328v;n62d/t368m;n62d/t368g;n62d/y369r;n62d/y369h;n62d/y369e;n62d/i370v;n62d/i370k;n62d/k371q;n62d/t372n;n62d/t372d;n62d/t372r;n62d/t372l;n62d/t373a;n62d/t373h;n62d/s374e;n62d/i378k;n62d/k379e;n62d/k379t;n62d/n387d;n62d/y405v;n62d/l408d;n62d/g413d;n62d/d423v;n62d/i442v;n62d/y449f;n62d/d456v;n62d/l480m;n62d/v509k;n62d/v509i;n62d/d510a;n62d/v514i;n62d/v514k;n62d/e515k;n62d/d523t;n62d/h149y/e375w/m554s;m8s/n62d/m102s/h116y/m188s/e375w;n62d/m97s/e375w;m8s/n62d/m97s/m102s/m188s/e375w/m554s;或m8a/n62d/m97a/m102a/m188a/e375w/m554a。
7.本文提供了变体聚合酶,其中所述聚合酶包含与seq id no:4-15中任一个具有至少70%同一性的序列。本文还提供了聚合酶,其中所述聚合酶包含与seq id no:4-15中任一个具有至少80%同一性的序列。本文还提供了聚合酶,其中所述聚合酶包含与seq id no:4-15中任一个具有至少90%同一性的序列。本文还提供了聚合酶,其中所述聚合酶包含与seq id no:4-15中任一个具有至少95%同一性的序列。本文还提供了聚合酶,其中所述聚合酶包含与seq id no:4-15中任一个具有至少97%同一性的序列。
8.本文提供了变体聚合酶,其中所述聚合酶包含seq id no:4-10中任一个的序列。
9.本文提供了变体聚合酶,其中所述聚合酶包含seq id no:11-15中任一个的序列。
10.本文提供了变体聚合酶,其包含具有式i的结构的多肽:x1x2x3x4x5x6x7x8x9x
10
x
11
x
12
x
13
x
14
x
15
x
16
x
17
x
18
x
19
x
20
x
21
x
22
x
23
x
24
x
25
x
26
式(i);其中x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
22
、x
24
和x
25
各自独立地是芳族或非极性氨基酸;x3、x4、x5、x
11
、x
18
、x
19
和x
26
各自独立地是极性氨基酸;x2、x
10
、x
14
和x
23
各自独立地是带正电荷的氨基酸;并且x6是芳族或带负电荷的氨基酸,并且其中所述聚合酶相对于包含seq id no:1的聚合酶具有增加的持续合成能力、增加的链置换活性、增加的模板或引物结合、降低的错误率、增加的3'-》5'核酸外切酶活性、增加的核苷酸选择性或增加的温度稳定性。本文还提供了聚合酶,其中x
21
和x
24
各自独立地是非极性芳族氨基酸。本文还提供了聚合酶,其中x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21

x
25
中的至少一个各自独立地是芳族氨基酸。本文还提供了聚合酶,其中x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。本文还提供了聚合酶,其中x1、x7、x8、x9、x
12
和x
13
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。本文还提供了聚合酶,其中x
15
、x
16、
x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。本文还提供了聚合酶,其中x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少两个各自独立地是酪氨酸、苯丙氨酸或色氨酸。本文还提供了聚合酶,其中x1、x6、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。本文还提供了聚合酶,其中x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是缬氨酸或异亮氨酸。本文还提供了聚合酶,其中x
16
是芳族氨基酸。本文还提供了聚合酶,其中x
16
是酪氨酸、苯丙氨酸或色氨酸。本文还提供了聚合酶,其中x
17
是甘氨酸或丙氨酸。本文还提供了聚合酶,其中x6是芳族氨基酸。本文还提供了聚合酶,其中x6是酪氨酸、苯丙氨酸或色氨酸。
11.本文提供了用于核酸测序的试剂盒,所述试剂盒包括:至少一种扩增引物;本文所述的至少一种变体核酸聚合酶;至少两种核苷酸的混合物,其中所述核苷酸的混合物包含至少一种终止所述聚合酶的核酸复制的终止子核苷酸;以及使用所述试剂盒进行核酸测序的说明书。本文还提供了试剂盒,其中所述至少一种扩增引物是随机引物。本文还提供了试剂盒,其中所述核酸聚合酶是dna聚合酶。本文还提供了试剂盒,其中所述dna聚合酶是链置换dna聚合酶。本文还提供了试剂盒,其中所述至少一种终止子核苷酸包含脱氧核糖的3'碳的r基团的修饰。本文还提供了试剂盒,其中所述至少一种终止子核苷酸选自含有核苷酸的3'封闭的可逆终止子、含有核苷酸的3'未封闭的可逆终止子、含有脱氧核苷酸的2'修饰的终止子、含有对脱氧核苷酸的含氮碱基的修饰的终止子,及其组合。本文还提供了试剂盒,其中所述至少一种终止子核苷酸选自双脱氧核苷酸,反向双脱氧核苷酸,3'生物素化核苷酸,3'氨基核苷酸,3'-磷酸化核苷酸,3'-o-甲基核苷酸,包括3'c3间隔子核苷酸、3'c18核苷酸、3'己二醇间隔子核苷酸的3'碳间隔子核苷酸,无环核苷酸,及其组合。本文还提供了试剂盒,其中所述至少一种终止子核苷酸选自具有对α基团的修饰的核苷酸、c3间隔子核苷酸、锁核酸(lna)、反向核酸、2'氟代核苷酸、3'磷酸化核苷酸、2'-o-甲基修饰的核苷酸和反式核酸。本文还提供了试剂盒,其中具有对α基团的修饰的核苷酸是α-硫代双脱氧核苷酸。本文还提供了试剂盒,其中所述扩增引物的长度为4至70个核苷酸。本文还提供了试剂盒,其中所述至少一种扩增引物的长度为4至20个核苷酸。本文还提供了试剂盒,其中所述至少一种扩增引物包含随机化区域。本文还提供了试剂盒,其中所述随机化区域的长度为4至20个核苷酸。本文还提供了试剂盒,其中所述随机化区域的长度为8至15个核苷酸。本文还提供了试剂盒,其中所述试剂盒还包括文库制备试剂盒。本文还提供了试剂盒,其中所述文库制备试剂盒包括以下中的一种或多种:至少一种多核苷酸衔接子;至少一种高保真聚合酶;至少一种连接酶;用于核酸剪切的试剂;和至少一种引物,其中所述引物被配置成与所述衔接子结合。本文还提供了试剂盒,其中所述试剂盒还包括被配置用于基因编辑的试剂。援引并入
12.本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文,如同明确且单独地指示每个单独的出版物、专利或专利申请通过引用而并入。
附图说明
13.本发明的新颖特征在所附权利要求书中特别地阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述和附图,将会获得对本发明的特征和优点的更好的理解,在这些附图中:
14.图1a示出了现有多重置换扩增(mda)方法与原代模板定向扩增(pta)方法的实施方案之一(即pta-不可逆终止子方法)的比较。
15.图1b示出了pta-不可逆终止子方法与不同实施方案(即pta-可逆终止子方法)的比较。
16.图1c示出了mda与pta-不可逆终止子方法在涉及突变传播时的比较。
17.图1d示出了扩增后进行的方法步骤,包括除去终止子、修复末端以及在衔接子连接之前进行加a尾。然后,在测序之前,可以在合并的细胞文库中对所有外显子或其他感兴趣的特定区域进行杂交介导的富集。源自每次读取的细胞均通过细胞条形码(显示为绿色和蓝色序列)鉴定。
18.图2a示出了在添加增加浓度的终止子(顶部凝胶)的情况下经历pta后扩增子的大小分布。底部凝胶示出了在添加增加浓度的可逆终止子或添加增加浓度的不可逆终止子的情况下经历pta后扩增子的大小分布。
19.图2b(gc)示出了mda和pta的测序碱基的gc含量比较。
20.图2c示出了在单细胞经过pta或mda后,映射到人类基因组(p_mapped)的映射质量得分(e)(mapq)。
21.图2d示出了在单细胞经过pta或mda后,映射到人类基因组(p_mapped)的读取百分比。
22.图2e(pcr)示出了在单细胞经过mda和pta后,2000万个亚取样读取中为pcr复制的读取百分比的比较。
23.图3a示出了在单细胞经过可逆或不可逆终止子pta后,映射到人类基因组(p_mapped2)的映射质量得分(c)(mapq2)。
24.图3b示出了在单细胞经过可逆或不可逆终止子pta后,映射到人类基因组(p_mapped2)的读取百分比。
25.图3c示出了使用各种方法得到的一系列箱形图,描述了与alu元件重叠的平均百分比读取的对齐读取。pta具有与基因组对齐的最大读取数。
26.图3d示出了使用各种方法得到的一系列箱形图,描述了与alu元件重叠的平均百分比读取的pcr复制。
27.图3e示出了使用各种方法得到的一系列箱形图,描述了与alu元件重叠的平均百分比读取的gc含量。
28.图3f示出了使用各种方法得到的一系列箱形图,描述了与alu元件重叠的平均百分比读取的映射质量。pta具有测试方法中最高的映射质量。
29.图3g示出了在固定的7.5x测序深度下用不同的wga方法时sc线粒体基因组覆盖宽度的比较。
30.图4示出了在将每个细胞下取样至4000万个配对读取后,在选择高质量mda细胞(代表约50%细胞)后,与随机引物pta扩增的细胞相比,对染色体1上的10千碱基窗口的平
均覆盖深度。该图显示mda的均匀性较差,更多窗口的覆盖深度比平均覆盖深度大(框a)或小(框c)两倍。由于高gc含量和重复区域的低映射质量,在着丝粒处mda和pta均无覆盖(框b)。
31.图5(a部分)示出了具有寡核苷酸的珠子,所述寡核苷酸附接有可切割的接头、独特细胞条形码和随机引物。b部分示出了单细胞和珠子封装在同一液滴中,然后裂解细胞并切割引物。然后可以将液滴与包括pta扩增混合物的另一液滴融合。c部分示出了扩增后液滴破裂,并且合并来自所有细胞的扩增子。然后将根据本公开内容的方案用于除去终止子、末端修复和加a尾,随后连接衔接子。然后,在测序之前,使合并的细胞文库经历针对感兴趣外显子的杂交介导的富集。然后,使用细胞条形码鉴定源自每次读取的细胞。
32.图6a显示了使用包含细胞条形码和/或独特的分子标识符的引物将细胞条形码和/或独特的分子标识符并入pta反应中。
33.图6b显示了使用包含细胞条形码和/或独特的分子标识符的发夹引物将细胞条形码和/或独特的分子标识符并入pta反应中。
具体实施方式
34.需要开发新的可扩展、准确且有效的核酸扩增(包括单细胞和多细胞基因组扩增)和测序方法,其将通过以可再现的方式增加序列呈现、均匀性和准确性来克服当前方法的局限性。本文提供了用于提供准确且可扩展的原代模板定向扩增(pta)和测序的组合物和方法。这些方法和组合物促进靶标(或“模板”)核酸的高精度扩增,这增加了下游应用(如下一代测序)的准确性和灵敏性。聚合酶,如phi29聚合酶或其变体促进了这些扩增。本文还提供了单核苷酸变体测定、拷贝数变异、结构变异、克隆分型和环境诱变性测量的方法。通过pta测量基因组变异可以用于各种应用,如环境诱变性、预测基因编辑技术的安全性、测量癌症治疗介导的基因组变化、测量化合物或辐射的致癌性,包括用于确定新食品或药物安全性的基因毒性研究、估计年龄、分析抗性细菌以及鉴定工业应用环境中的细菌。此外,这些方法可以用于在环境条件变化(如暴露于抗癌治疗)后检测特定细胞群体的选择,以及基于单个癌细胞中的突变和新抗原负荷来预测对免疫疗法的应答。
35.定义
36.除非另有定义,否则本文使用的所有技术和科学术语的含义与这些发明所属领域的普通技术人员通常所理解的含义相同。
37.在整个本公开内容中,数字特征以范围格式表示。应理解,范围格式的描述仅为了方便和简洁,而不应被解释为对任何实施方案的范围的严格限制。因此,除非上下文另有明确指示,否则应认为对范围的描述已具体公开了所有可能的子范围以及在该范围内直至下限单位的十分之一的单个数值。例如,对范围如从1至6的描述应视为已具体公开了子范围,如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等,以及该范围内的单个值,例如,1.1、2、2.3、5和5.9。无论范围的宽度如何,这都适用。这些中间范围的上限和下限可以独立地包括在较小的范围内,并且也包括在本发明内,受规定范围内任何明确排除的限制。当所述范围包括一个或两个限值时,除非上下文明确指出,否则不包含所包括的那些限值中的一个或两个的范围也包括在本发明中。
38.本文所使用的术语仅出于描述特定实施方案的目的,并且不旨在限制任何实施方
案。如本文所用,单数形式“一”、“一个”和“所述”也旨在包括复数形式,除非上下文另有明确指示。还将理解,当在本说明书中使用术语“包括”(“comprises”和/或“comprising”)时,其指定了所述特征、整体、步骤、操作、元素和/或组分的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组分和/或其群组的存在或添加。如本文所用,术语“和/或”包括一个或多个相关联的所列项目的任何和所有组合。
39.除非特别说明或从上下文可以明显看出,否则如本文所用,术语“约”在提及数值或数值范围时应理解为是指所述数值 /-其10%,或对于一个范围中列出的值,则指从比列出的下限低10%到比列出的上限高10%。
40.如本文所用,术语“对象”或“患者”或“个体”是指动物,包括哺乳动物,如人类、兽医动物(例如,猫、狗、牛、马、绵羊、猪等)和疾病实验动物模型(例如,小鼠、大鼠)。根据本发明,可以在本领域技术范围内使用常规分子生物学、微生物学和重组dna技术。这些技术在文献中有充分的解释。参见,例如,sambrook,fritsch和maniatis,molecular cloning:a laboratory manual,第二版(1989)cold spring harbor laboratory press,cold spring harbor,new york(本文中为"sambrook等人,1989");dna cloning:a practical approach,第i和ii卷(d.n.glover著,1985);oligonucleotide synthesis(mj.gait著,1984);nucleic acid hybridization(b.d.hames和s.j.higgins著,(1985));transcription and translation(b.d.hames和s.j.higgins著,(1984));animal cell culture(r.i.freshney著,(1986));immobilized cells and enzymes(lrl出版社(1986));b.perbal,a practical guide to molecular cloning(1984);f.m.ausubel等人(著),current protocols in molecular biology,john wiley&sons,inc.(1994);等等。
41.术语“核酸”涵盖多链以及单链分子。在双链或三链核酸中,核酸链不需要是共延伸的(即,双链核酸不需要沿两条链的整个长度是双链的)。本文所述的核酸模板可以根据样品(从小的无细胞dna片段至整个基因组)而具有任何大小,包括但不限于长度为50-300个碱基、100-2000个碱基、100-750个碱基、170-500个碱基、100-5000个碱基、50-10,000个碱基或50-2000个碱基。在一些情况下,模板的长度为至少50、100、200、500、1000、2000、5000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000或大于1,000,000个碱基。本文所述的方法提供了核酸如核酸模板的扩增。本文所述的方法另外提供了分离的和至少部分纯化的核酸以及核酸文库的生成。核酸包括但不限于包括以下的那些:dna、rna、环状rna、mtdna(线粒体dna)、cfdna(无细胞dna)、cfrna(无细胞rna)、sirna(小干扰rna)、cffdna(无细胞胎儿dna)、mrna、trna、rrna、mirna(微rna)、合成多核苷酸、多核苷酸类似物、符合本说明书的任何其他核酸,或其任何组合。当提供时,多核苷酸的长度以碱基数描述并且进行缩写,如nt(核苷酸)、bp(碱基)、kb(千碱基)或gb(千兆碱基)。
42.如本文所用,术语“液滴”是指液滴致动器上的一定体积液体。在一些情况下,例如,液滴是水性或非水性的,或者可以是包括水性和非水性组分的混合物或乳液。对于可经受液滴操作的液滴流体的非限制性示例,参见,例如,国际专利申请公开号wo2007/120241。在本文提出的实施方案中,可以使用任何适于形成和操纵液滴的系统。例如,在一些情况下,使用液滴致动器。对于可以使用的液滴致动器的非限制性示例,参见,例如,美国专利号6,911,132、6,977,033、6,773,566、6,565,727、7,163,612、7,052,244、7,328,979、7,547,380、7,641,779、美国专利申请公开号us20060194331、us20030205632、us20060164490、
us20070023292、us20060039823、us20080124252、us20090283407、us20090192044、us20050179746、us20090321262、us20100096266、us20110048951、国际专利申请公开号wo2007/120241。在一些情况下,珠子在液滴中、在液滴操作间隙中或在液滴操作表面上提供。在一些情况下,珠子在位于液滴操作间隙外部或与液滴操作表面分开的储器中提供,并且所述储器可以与流动路径相关联,所述流动路径允许包括所述珠子的液滴进入液滴操作间隙或与液滴操作表面接触。用于固定磁响应珠子和/或非磁响应珠子和/或使用珠子进行液滴操作方案的液滴致动器技术的非限制性示例在美国专利申请公开号us20080053205、国际专利申请公开号wo2008/098236、wo2008/134153、wo2008/116221、wo2007/120241中描述。珠子特性可以在本文所述的方法的多路复用实施方案中采用。具有适合于多路复用的特性的珠子的示例,以及检测和分析从这种珠子发出的信号的方法,可以在美国专利申请公开号us20080305481、us20080151240、us20070207513、us20070064990、us20060159962、us20050277197、us20050118574中找到。
43.如本文所用,术语“独特的分子标识符(umi)”是指附接至多个核酸分子中的每一个的独特核酸序列。当并入核酸分子中时,在一些情况下,umi被用于通过直接对扩增后测序的umi进行计数来校正后续的扩增偏倚。umi的设计、并入和应用描述于例如以下文献中:国际专利申请公开号wo 2012/142213;islam等人nat.methods(2014)11:163-166;以及kivioja,t.等人nat.methods(2012)9:72-74。
44.如本文所用,术语“条形码”是指可用于鉴定核酸材料的样品或来源的核酸标签。因此,在核酸样品来自多个来源的情况下,在一些情况下,每个核酸样品中的核酸用不同的核酸标签标记,使得可以鉴定样品的来源。条形码,通常也称为索引、标签等,是本领域技术人员熟知的。任何合适的条形码或条形码组都可以使用。参见,例如,美国专利号8,053,192和国际专利申请公开号wo2005/068656中提供的非限制性示例。单细胞的条形码化可以例如如美国专利申请公开号2013/0274117中描述地进行。
45.本文中的术语“固体表面”、“固体支持物”和其他语法等同物是指适合于或可以被修饰以适合于本文所述的引物、条形码和序列的附接的任何材料。示例性基底包括但不限于玻璃和改性或功能化玻璃、塑料(包括丙烯酸、聚苯乙烯,和苯乙烯与其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、特氟龙tm等)、多糖、尼龙、硝酸纤维素、陶瓷、树脂、二氧化硅、二氧化硅基材料(例如,硅或改性硅)、碳、金属、无机玻璃、塑料、光纤束和各种其他聚合物。在一些实施方案中,固体支持物包括适于以有序模式固定引物、条形码和序列的图案化表面。
46.如本文所用,术语“生物样品”包括但不限于组织、细胞、生物流体及其分离物。在一些情况下,本文所述方法中使用的细胞或其他样品是从人类患者、动物、植物、土壤或包括如细菌、真菌、原生动物等微生物的其他样品中分离的。在一些情况下,生物样品来源于人类。在一些情况下,生物样品并非来源于人类。在一些情况下,细胞经历本文所述的pta方法和测序。在整个基因组或特定位置检测到的变体可以与从该对象分离的所有其他细胞进行比较,以追踪细胞谱系的历史,以用于研究或诊断目的。
47.术语“同一性”或“同源性”是指在比对序列并引入空位(如果需要)以实现整个序列的最大同一性百分比后,并且在不考虑将任何保守取代作为序列同一性的一部分的情况下,候选序列中与其所比较的相应序列的残基相同的氨基酸残基的百分比。在一些情况下,
保守取代涉及用一个形状(例如,用酪氨酸取代苯丙氨酸)或电荷(谷氨酸取代天冬氨酸)相似的氨基酸取代另一个氨基酸。多核苷酸或多核苷酸区域(或肽或肽区域)与另一序列具有确定百分比(例如,80%、85%、90%或95%)的“序列同一性”或“同源性”意指,当比对时,在比较两个序列中,碱基(或氨基酸)的百分比是相同的。n末端或c末端的延伸或插入均不应解释为减少同一性或同源性。在一些情况下,使用本领域技术人员已知的软件程序确定比对和同源性或序列同一性百分比。在一些情况下,将默认参数用于比对。示例性比对程序是blast,使用默认参数。具体而言,程序是blastn和blastp,使用以下默认参数:遗传密码=标准;过滤器=无;链=两条;截止值=60;期望=10;矩阵=blosum62;描述=50个序列;排序方式=高得分(high score);数据库=非冗余,genbank embl ddbj pdb genbank cds翻译 swissprotein spupdate pir。在一些情况下两个序列的相似性,或百分比相似性,是相同和相似匹配(经历保守取代的残基)的总和。在一些情况下,使用程序blast“阳性”来测量相似性。
48.本文所述的多肽(例如,phi29聚合酶变体)包含氨基酸。此类多肽可以通过一个或多个氨基酸或核酸缺失、添加、取代或侧链修饰而不同于另一种肽,但保留了分子的一种或多种特定功能或生物活性。氨基酸取代包括其中用不同的氨基酸残基替代氨基酸的改变。在一些情况下,此类取代被归类为保守的,在这种情况下,肽或肽中包含的氨基酸残基被另一种在极性、侧链功能或大小方面具有相似特征的天然存在的氨基酸替代。此类保守取代在本领域中是熟知的。本公开内容涵盖的取代也可以是非保守的,其中肽中存在的氨基酸残基被具有不同特性的氨基酸(如来自不同组的氨基酸)取代(例如,用丙氨酸取代带电或疏水氨基酸)。在一些情况下,氨基酸取代是保守的。当参考多核苷酸或肽使用时,也包括在术语变体中的是指分别与参考多核苷酸或肽相比(例如,与野生型多核苷酸或肽相比),可以在一级、二级或三级结构上不同的多核苷酸或肽。
49.本文所述的phi29聚合酶变体可以包含插入、缺失或取代。在一些情况下,插入和缺失在约1至5个氨基酸的范围内。在一些情况下允许的变异是通过合成地产生肽,同时使用重组dna技术系统地进行序列中核苷酸的插入、缺失或取代来实验确定的。在一些情况下,取代包括不同实体(例如另一个氨基酸或氨基酸部分)的氨基酸变化。取代可以是保守或非保守取代。在一些情况下,所述肽是相对于seq id no:1-15中任一个的氨基酸序列包含至少一个氨基酸取代、缺失或插入的变体。如下所述,变体可以包括保守或非保守氨基酸变化。在一些情况下,变体不包含天然存在的蛋白质序列,如phi29聚合酶(seq id no:1)。多核苷酸变化可能导致由参考序列编码的肽中的氨基酸取代、添加、缺失、融合和截短。当描述肽时,术语保守取代是指肽的氨基酸组成的不会显著改变肽的活性的变化。例如,保守取代是指用氨基酸残基取代具有相似化学性质的不同氨基酸残基。保守氨基酸取代包括用异亮氨酸或缬氨酸替代亮氨酸、用谷氨酸替代天冬氨酸,或用丝氨酸替代苏氨酸。保守氨基酸取代是由用具有相似结构和/或化学特性的另一个氨基酸替代一个氨基酸引起的,如用异亮氨酸或缬氨酸替代亮氨酸、用谷氨酸替代天冬氨酸,或用丝氨酸替代苏氨酸。因此,特定氨基酸序列的保守取代是指对肽活性不重要的那些氨基酸的取代或用具有相似特性(例如,酸性、碱性、带正电荷或负电荷、极性或非极性)的其他氨基酸取代氨基酸,使得即使是关键氨基酸的取代也不会降低肽的活性。提供功能相似的氨基酸的保守取代表是本领域熟知的。例如,以下六组各自含有互为保守取代的氨基酸:1)丙氨酸(a)、丝氨酸(s)、苏氨酸
(t);2)天冬氨酸(d)、谷氨酸(e);3)天冬酰胺(n)、谷氨酰胺(q);4)精氨酸(r)、赖氨酸(k);5)异亮氨酸(i)、亮氨酸(l)、甲硫氨酸(m)、缬氨酸(v);以及6)苯丙氨酸(f)、酪氨酸(y)、色氨酸(w)。在一些情况下,氨基酸的组是基于它们各自侧链的极性或电荷来分类的。在一些情况下,非极性氨基酸包括但不限于甘氨酸、丙氨酸、缬氨酸、亮氨酸、异亮氨酸、甲硫氨酸、苯丙氨酸、色氨酸或脯氨酸。在一些情况下,极性氨基酸包括但不限于丝氨酸、苏氨酸、半胱氨酸、色氨酸、天冬酰胺或谷氨酰胺。在一些情况下,带正电荷的氨基酸包括但不限于赖氨酸、精氨酸或组氨酸。在一些情况下,带负电荷的氨基酸包括但不限于天冬氨酸或谷氨酸。在一些情况下,氨基酸是带负电荷的氨基酸。在一些情况下,带负电荷的氨基酸包含在水性生理条件(例如,ph约7)下带负电荷的侧链官能团,如羧酸。
50.在一些情况下,氨基酸是带正电荷的氨基酸。在一些情况下,带正电荷的氨基酸包含在水性生理条件(例如,ph约7)下带正电荷的侧链官能团。在一些情况下,带正电荷的氨基酸包含碱性官能团侧链。在一些情况下,碱性官能团包括但不限于胺(取代或未取代)、吡咯烷或其他碱性官能团。
51.在一些情况下,改变、添加或缺失单个氨基酸或小百分比氨基酸的单次取代、缺失或添加也可以被视为保守取代,如果所述变化不会显著降低肽的活性。插入或缺失通常在约1至5个氨基酸的范围内。在一些情况下,保守氨基酸的选择基于肽中待取代的氨基酸的位置(例如,如果氨基酸在肽的外部并暴露于溶剂,或者在内部但不暴露于溶剂)来选择。在一些情况下,可以基于现有氨基酸的位置,即其暴露于溶剂的情况(即与未暴露于溶剂的内部定位的氨基酸相比,氨基酸是否暴露于溶剂或存在于肽或肽的外表面上)来选择将取代现有氨基酸的氨基酸。此类保守氨基酸取代的选择在本领域中是熟知的。因此,可以选择适用于蛋白质或肽外部的氨基酸(即暴露于溶剂的氨基酸)的保守氨基酸取代。例如,但不限于,可以使用以下取代:用f取代y、用s或k取代t、用a取代p、用d或q取代e、用d或g取代n、用k取代r、用n或a取代g、用s或k取代t、用n或e取代d、用l或v取代i、用y取代f、用tor a取代s、用k取代r、用n或a取代g、用r取代k、用s、k或p取代a。在一些情况下,保守氨基酸取代适用于蛋白质或肽内部的氨基酸,例如,在一些情况下,氨基酸的合适保守取代在蛋白质或肽的内部(即氨基酸不暴露于溶剂)。例如但不限于,可以使用以下保守取代:其中y被f取代、t被a或s取代、i被l或v取代、w被y取代、m被l取代、n被d取代、g被a取代、t被a或s取代、d被n取代、i被l或v取代、f被y或l取代、s被a或t取代以及a被s、g或v取代。在一些情况下,非保守氨基酸取代也包括在变体的术语中。
52.在一些方面,本文公开的肽或肽是seq id no:1-15的衍生物。术语衍生物在一些情况下包括已经被化学修饰的肽,例如但不限于通过如泛素化、标记、聚乙二醇化(即,用聚乙二醇衍生)、脂质化、糖基化或添加其他分子的技术。在一些情况下,当一个分子含有通常不是所述分子一部分的另外的化学部分时,它也是另一个分子的衍生物。此类部分可以提高分子的效力、溶解度、吸收、生物半衰期等。在一些情况下,本文所述的肽包含半衰期延长部分(例如,水溶性聚合物、脂质、蛋白质或肽)。所述部分可以可替代地降低分子的毒性、消除或减弱分子的任何不期望的副作用、增加抗生素谱,或具有其他效果。
53.可以在多肽(例如,phi29聚合酶)中的一个或多个位置处进行氨基酸取代,其中取代是针对具有相似亲水性的氨基酸。亲水氨基酸指数在对蛋白质赋予相互作用性生物功能方面的重要性在本领域中通常被理解。在一些情况下,氨基酸的相对亲水特征有助于所得
蛋白质的二级结构,继而定义了蛋白质与其他分子(例如酶、底物、受体、dna、抗体、抗原等)的相互作用。因此,这种保守取代可以在多肽中进行,并且很可能对它们的活性仅具有微小的影响。例如,可以将以下亲水性值分配给氨基酸残基:精氨酸( 3.0);赖氨酸( 3.0);天冬氨酸( 3.0
±
1);谷氨酸( 3.0
±
1);丝氨酸( 0.3);天冬酰胺( 0.2);谷氨酰胺( 0.2);甘氨酸(0);苏氨酸(-0.4);脯氨酸(-0.5
±
1);丙氨酸(0.5);组氨酸(-0.5);半胱氨酸(-1.0);甲硫氨酸(-1.3);缬氨酸(-1.5);亮氨酸(-1.8);异亮氨酸(-1.8);酪氨酸(-2.3);苯丙氨酸(-2.5);色氨酸(-3.4)。这些值可以用作指导,并且因此亲水性值在
±
2内的氨基酸的取代是优选的,在
±
1内的那些氨基酸是特别优选的,并且在
±
0.5内的那些氨基酸是甚至更特别优选的。因此,在一些情况下,本文所述肽或肽中的任一种都是通过用一种不同但具有相似亲水性值的同源氨基酸取代一种氨基酸来修饰的。亲水性在 /-1.0或 /-0.5点内的氨基酸被认为是同源的。本文所述的phi29聚合酶变体可以包含另外的修饰。在一些情况下,修饰包括共翻译和/或翻译后(c末端肽切割)修饰。在一些情况下,修饰包括但不限于二硫键形成、主链环化、糖基化、乙酰化、磷酸化和蛋白水解切割(例如,由弗林蛋白酶或金属蛋白酶切割)。
54.突变phi29聚合酶
55.本文描述了用于扩增多核苷酸模板的聚合酶。本文还描述了变体phi29聚合酶。在一些情况下,本文所述的聚合酶包含来自野生型序列的一个或多个突变。在一些情况下,此类突变导致更高的保真度、扩增速率、增加的持续合成能力、改善的链置换、更强的模板或引物结合、增加的3'-》5'核酸外切酶活性、改变的对特定核苷酸的亲和力以及更高的温度稳定性。在一些情况下,本文所述的聚合酶具有增加的对非天然核苷酸的亲和力。在一些情况下,本文所述的聚合酶具有增加的对双脱氧核苷酸的亲和力。在一些情况下,本文所述的聚合酶包含3'-5'核酸外切酶链置换结构域。在一些情况下,本文所述的聚合酶包含蛋白质引发的起始和dna聚合结构域。在一些情况下,本文所述的聚合酶包含tpr1和tpr2结构域。在一些情况下,本文所述的聚合酶包含手掌、拇指和手指结构域。在一些情况下,本文所述的聚合酶包含在保守区370-395(seq id no:2)中发现的突变。在一些情况下,聚合酶包含在phi29聚合酶的seq id no:2中的残基处的突变,所述残基类似于在pfu聚合酶471-500(seq id no:3)的保守区中发现的残基。在一些情况下,本文所述的聚合酶(例如,phi29)控制从样品模板扩增的动力学。在一些情况下,本文所述的聚合酶(例如,phi29)控制来自样品模板的扩增子的长度。
56.本文描述了聚合酶phi29的变体,其中肽链中的一个或多个残基被添加、缺失或用不同的氨基酸取代。在一些情况下,本文所述的聚合酶变体包含具有式i的结构的多肽:x1x2x3x4x5x6x7x8x9x
10
x
11
x
12
x
13
x
14
x
15
x
16
x
17
x
18
x
19
x
20
x
21
x
22
x
23
x
24
x
25
x
26
式(i);其中x
1-x
26
独立地是任何氨基酸。在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395被式i的多肽的结构替代。在一些情况下,本文所述的聚合酶变体包含具有式i的结构的多肽,其中所述变体与seq id no:1具有至少99%的序列同一性。在一些情况下,本文所述的聚合酶变体包含具有式i的结构的多肽,其中所述变体与seq id no:1具有至少98%的序列同一性。在一些情况下,本文所述的聚合酶变体包含具有式i的结构的多肽,其中所述变体与seq id no:1具有至少97%的序列同一性。在一些情况下,本文
所述的聚合酶变体包含具有式i的结构的多肽,其中所述变体与seq id no:1具有至少95%的序列同一性。在一些情况下,本文所述的聚合酶变体包含具有式i的结构的多肽,其中所述变体与seq id no:1具有至少90%的序列同一性。
57.在一些情况下,本文所述的聚合酶变体包含具有式i的结构的多肽:x1x2x3x4x5x6x7x8x9x
10
x
11
x
12
x
13
x
14
x
15
x
16
x
17
x
18
x
19
x
20
x
21
x
22
x
23
x
24
x
25
x
26
式(i);其中x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
22
、x
24
和x
25
各自独立地是芳族或非极性氨基酸;x3、x4、x5、x
11
、x
18
、x
19
和x
26
各自独立地是极性氨基酸;x2、x
10
、x
14
和x
23
各自独立地是带正电荷的氨基酸;并且x6是芳族或带负电荷的氨基酸。
58.在式i的多肽的一些情况下,x
21
和x
24
各自独立地是非极性芳族氨基酸。在式i的多肽的一些情况下,x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是芳族氨基酸。在式i的多肽的一些情况下,x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。在式i的多肽的一些情况下,x1、x7、x8、x9、x
12
和x
13
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。在式i的多肽的一些情况下,x
15
、x16、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。
59.在式i的多肽的一些情况下,x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少两个各自独立地是酪氨酸、苯丙氨酸或色氨酸。在式i的多肽的一些情况下,x1、x6、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是酪氨酸、苯丙氨酸或色氨酸。在式i的多肽的一些情况下,x1、x7、x8、x9、x
12
、x
13
、x
15
、x
16
、x
17
、x
20
、x
21
、x
25
中的至少一个各自独立地是缬氨酸或异亮氨酸。在式i的多肽的一些情况下,x
16
是酪氨酸、苯丙氨酸或色氨酸。在式i的多肽的一些情况下,x
17
是甘氨酸或丙氨酸。在式i的多肽的一些情况下,x6是芳族氨基酸。在式i的多肽的一些情况下,x6是酪氨酸、苯丙氨酸或色氨酸。在一些情况下,x1是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x7是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x8是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x9是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
12
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
13
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
15
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
16
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
17
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
20
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
21
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x
25
是异亮氨酸、缬氨酸、丙氨酸、甘氨酸、半胱氨酸、甲硫氨酸或亮氨酸。在一些情况下,x2是赖氨酸、组氨酸或精氨酸。在一些情况下,x
10
是赖氨酸、组氨酸或精氨酸。在一些情况下,x
14
是赖氨酸、组氨酸或精氨酸。在一些情况下,x
23
是赖氨酸、组氨酸或精氨酸。在一些情况下,x3是苏氨酸、丝氨酸、谷氨酰胺或天冬酰胺。在一些情
况下,x4是苏氨酸、丝氨酸、谷氨酰胺或天冬酰胺。在一些情况下,x5是苏氨酸、丝氨酸、谷氨酰胺或天冬酰胺。在一些情况下,x
11
是苏氨酸、丝氨酸、谷氨酰胺或天冬酰胺。在一些情况下,x
18
是苏氨酸、丝氨酸、谷氨酰胺或天冬酰胺。在一些情况下,x
19
是苏氨酸、丝氨酸、谷氨酰胺或天冬酰胺。在一些情况下,x
26
是苏氨酸、丝氨酸、谷氨酰胺或天冬酰胺。
60.在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395(seq id no:3)被式i的多肽的结构替代。在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395被式i的多肽的结构替代,并且包含至少一个另外的突变。在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395被式i的多肽的结构替代,并且包含至少一个另外的取代。在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395被式i的多肽的结构替代,并且包含至少一个另外的缺失。在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395被式i的多肽的结构替代,并且包含至少一个另外的添加。在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395被式i的多肽的结构替代,以及p300处的突变。在一些情况下,本文所述的聚合酶变体包含seq id no:1,其中残基370-395被式i的多肽的结构替代,以及p300处的突变,其中所述突变是亮氨酸、甲硫氨酸、异亮氨酸或丙氨酸。
61.本文描述了聚合酶phi29的变体,其中肽链中的一个或多个残基被添加、缺失或用不同的氨基酸取代。在一些情况下,本文所述的变体在表1中示出。
62.表1
63.在一些情况下,聚合酶(例如,phi29)包含表1的序列。在一些情况下,聚合酶包含seq id no:4-10中的任一个。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及至少一个突变。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及至少一个取代。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及至少一个添加。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及至少一个缺失。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及p300处的取代。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及取代p300l。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及k512处的取代。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及取代k512a、k512d、k512e、k512w、k512y、k512f、k512l或k512h。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及取代m8r、v51a、m97t、l123s、g197d、k209e、e221k、e239g、q497p、k512e、e515a或f526l。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及选自以下任一个的突变或突变组合:d12a/e375w/t372d;d12a/e375w/t372e;d12a/e375w/t372r/k478d;d12a/
e375w/t372r/k478e;d12a/e375w/t372k/k478d;d12a/e375w/t372k/d478e;d12a/e375w/k135d;d12a/e375w/k135e;d12a/e375w/k512d;d12a/e375w/k512e;d12a/e375w/e408k;d12a/e375w/e408r;d12a/e375w/t368d/l480k;d12a/e375w/t368e/l480k;d12a/d456n;n62d/d456n;d12a/d456a;n62d/d456a;d12a/d456s;n62d/d456s;n62d/e375m;n62d/e375l;n62d/e375i;n62d/e375f;n62d/e375d;d12a/k512w;n62d/k512w;d12a/k512y;n62d/k512y;d12a/k512f;n62d/k512f;d12a/e375w/k512l;n62d/e375w/k512l;d12a/e375w/k512y;n52d/e375w/k512y;d12a/e375w/k512f;n62d/e375w/k512f;d12a/e375y/k512l;n62d/e375y/k512l;d12a/e375y/k512y;n62d/e375y/k512y;d12a/e375y/k512f;n62d/e375y/k512f;d12a/e375w/k512h;n62d/e375w/k512h;d12a/e375y/k512h;n62d/e375y/k512h;d12a/d510f;n62d/d510f;d12a/d510y;n62d/d510y;d12a/d510w;n62d/d510w;d12a/e375w/d510f;n62d/e375w/d510f;d12a/e375w/d510y;n62d/e375w/d510y;d12a/e375w/d510w;n62d/e375w/d510w;d12a/e375w/d510w/k512l;n62d/e375w/d510w/k512l;d12a/e375w/d510w/k512f;n62d/e375w/d510w/k512f;d12a/e375w/d510h;n62d/e375w/d510h;d12a/e375w/d510h/k512h;n62d/e375w/d510h/k512h;d12a/e375w/d510h/k512f;n62d/e375w/d510h/k512f;d12a/v509y;n62d/v509y;d12a/v509w;n62d/v509w;d12a/v509f;n62d/v509f;d12a/v514y;n62d/v514y;d12a/v514w;n62d/v514w;d12a/v514f;n62d/v514f;d12s;d12n;d12q;d12k;d12a/n62d/y254f;n62d/y254v;n62d/y254a;n62d/y390f;n62d/y390a;n62d/s252a;n62d/n387a;n62d/k157e;n62d/i242h;n62d/y259s;n62d/g320c;n62d/l328v;n62d/t368m;n62d/t368g;n62d/y369r;n62d/y369h;n62d/y369e;n62d/i370v;n62d/i370k;n62d/k371q;n62d/t372n;n62d/t372d;n62d/t372r;n62d/t372l;n62d/t373a;n62d/t373h;n62d/s374e;n62d/i378k;n62d/k379e;n62d/k379t;n62d/n387d;n62d/y405v;n62d/l408d;n62d/g413d;n62d/d423v;n62d/i442v;n62d/y449f;n62d/d456v;n62d/l480m;n62d/v509k;n62d/v509i;n62d/d510a;n62d/v514i;n62d/v514k;n62d/e515k;n62d/d523t;n62d/h149y/e375w/m554s;m8s/n62d/m102s/h116y/m188s/e375w;n62d/m97s/e375w;m8s/n62d/m97s/m102s/m188s/e375w/m554s;和m8a/n62d/m97a/m102a/m188a/e375w/m554a。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及选自以下任一个的突变或突变组合:k135d、k135e、k512d、k512e、t372d、t372e、l480k、l480r、t368d/l480k、t368e/l480k、t372d/k478r、t372e/k478r、t372r/k478d、t372r/k478e、t372k/k478d和t372k/k478e。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及选自以下的突变或突变组合:m246l、f248l、w367s、y369v、y482v、w483s、w483f、w483l、w483v、w483i、w483p、w483q、h485g、h485n、h485k、h485r、h485a、h485e、h485s、h485i、h485p、h485q、h485t、h485f、h485l、y505v、m506l、y521v和f526l)。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及选自以下任一个的突变或突变组合:v250a/e375y、v250a/e375a/q380a、v250a/e375c、v250a/e375y、v250i/e375a/q380a、v250i/e375c、v250a、v250i、e375a、e375c、e375y、e375a/q380a、q380a、d456n、d456e、d456s、d458n、v250a/e375a/q380a/d456e、e375y/v250l、e375y/v250p、e375y/v250q、e375y/v250r、e375y/v250y、e375y/v250f、e375y/v250s、e375y/v250c、e375y/v250t、e375y/v250k、e375y/v250h、e375y/v250n、e375y/v250d、e375y/v250g、e375y/v250w、e375y/s388g、e375y/k512a、e375y/k525a、y254v/e375y、k132a、k383a、k383r、k383p、k371a、k371t、y254f、y254v、y254s、y254v、y254s、
k379a、k525a、k135a、p255s、s388g、k512a、l384r、e486a、e486d、k478a、e375w、n387a、n387y、v250a/e375w、d456n/d458n/l351p、y254v/a377e、d456n/d458n、d169a、d12a/d66a/d169a、t15i、n62d、c22s、c290s、c448s、c530s、c290s/c448s/c530s、c22s/c448s/c530s、c22s/c290s/c530s和c22s/c290s/c448s。在一些情况下,聚合酶包含seq id no:4-10中的任一个以及以下位点处的突变或突变组合:l253、t368、e375、a484或k512;e375或k512;l253、t368或a484;d193;s215;e420;p477;d66r k135r;k138r;l253t;y369g;y369l;l384m;k422a;i504r;e508k;e508r;d510k;t368/e375或t368/k512。
64.在一些情况下,聚合酶(例如,phi29)包含表1的序列。在一些情况下,聚合酶包含seq id no:11-15中的任一个。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及至少一个突变。在一些情况下,聚合酶包含seqidno:11-15中的任一个以及至少一个取代。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及至少一个添加。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及至少一个缺失。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及p300处的取代。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及取代p300l。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及k512处的取代。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及取代k512a、k512d、k512e、k512w、k512y、k512f、k512l或k512h。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及取代m8r、v51a、m97t、l123s、g197d、k209e、e221k、e239g、q497p、k512e、e515a或f526l。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及选自以下任一个的突变或突变组合:d12a/e375w/t372d;d12a/e375w/t372e;d12a/e375w/t372r/k478d;d12a/e375w/t372r/k478e;d12a/e375w/t372k/k478d;d12a/e375w/t372k/d478e;d12a/e375w/k135d;d12a/e375w/k135e;d12a/e375w/k512d;d12a/e375w/k512e;d12a/e375w/e408k;d12a/e375w/e408r;d12a/e375w/t368d/l480k;d12a/e375w/t368e/l480k;d12a/d456n;n62d/d456n;d12a/d456a;n62d/d456a;d12a/d456s;n62d/d456s;n62d/e375m;n62d/e375l;n62d/e375i;n62d/e375f;n62d/e375d;d12a/k512w;n62d/k512w;d12a/k512y;n62d/k512y;d12a/k512f;n62d/k512f;d12a/e375w/k512l;n62d/e375w/k512l;d12a/e375w/k512y;n52d/e375w/k512y;d12a/e375w/k512f;n62d/e375w/k512f;d12a/e375y/k512l;n62d/e375y/k512l;d12a/e375y/k512y;n62d/e375y/k512y;d12a/e375y/k512f;n62d/e375y/k512f;d12a/e375w/k512h;n62d/e375w/k512h;d12a/e375y/k512h;n62d/e375y/k512h;d12a/d510f;n62d/d510f;d12a/d510y;n62d/d510y;d12a/d510w;n62d/d510w;d12a/e375w/d510f;n62d/e375w/d510f;d12a/e375w/d510y;n62d/e375w/d510y;d12a/e375w/d510w;n62d/e375w/d510w;d12a/e375w/d510w/k512l;n62d/e375w/d510w/k512l;d12a/e375w/d510w/k512f;n62d/e375w/d510w/k512f;d12a/e375w/d510h;n62d/e375w/d510h;d12a/e375w/d510h/k512h;n62d/e375w/d510h/k512h;d12a/e375w/d510h/k512f;n62d/e375w/d510h/k512f;d12a/v509y;n62d/v509y;d12a/v509w;n62d/v509w;d12a/v509f;n62d/v509f;d12a/v514y;n62d/v514y;d12a/v514w;n62d/v514w;d12a/v514f;n62d/v514f;d12s;d12n;d12q;d12k;d12a/n62d/y254f;n62d/y254v;n62d/y254a;n62d/y390f;n62d/y390a;n62d/s252a;n62d/n387a;n62d/k157e;n62d/i242h;n62d/y259s;n62d/g320c;n62d/l328v;n62d/t368m;n62d/t368g;n62d/y369r;n62d/y369h;n62d/y369e;n62d/i370v;n62d/i370k;n62d/k371q;n62d/t372n;n62d/t372d;n62d/t372r;n62d/t372l;n62d/
t373a;n62d/t373h;n62d/s374e;n62d/i378k;n62d/k379e;n62d/k379t;n62d/n387d;n62d/y405v;n62d/l408d;n62d/g413d;n62d/d423v;n62d/i442v;n62d/y449f;n62d/d456v;n62d/l480m;n62d/v509k;n62d/v509i;n62d/d510a;n62d/v514i;n62d/v514k;n62d/e515k;n62d/d523t;n62d/h149y/e375w/m554s;m8s/n62d/m102s/h116y/m188s/e375w;n62d/m97s/e375w;m8s/n62d/m97s/m102s/m188s/e375w/m554s;和m8a/n62d/m97a/m102a/m188a/e375w/m554a。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及选自以下任一个的突变或突变组合:k135d、k135e、k512d、k512e、t372d、t372e、l480k、l480r、t368d/l480k、t368e/l480k、t372d/k478r、t372e/k478r、t372r/k478d、t372r/k478e、t372k/k478d和t372k/k478e。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及选自以下的突变或突变组合:m246l、f248l、w367s、y369v、y482v、w483s、w483f、w483l、w483v、w483i、w483p、w483q、h485g、h485n、h485k、h485r、h485a、h485e、h485s、h485i、h485p、h485q、h485t、h485f、h485l、y505v、m506l、y521v和f526l)。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及选自以下任一个的突变或突变组合:v250a/e375y、v250a/e375a/q380a、v250a/e375c、v250a/e375y、v250i/e375a/q380a、v250i/e375c、v250a、v250i、e375a、e375c、e375y、e375a/q380a、q380a、d456n、d456e、d456s、d458n、v250a/e375a/q380a/d456e、e375y/v250l、e375y/v250p、e375y/v250q、e375y/v250r、e375y/v250y、e375y/v250f、e375y/v250s、e375y/v250c、e375y/v250t、e375y/v250k、e375y/v250h、e375y/v250n、e375y/v250d、e375y/v250g、e375y/v250w、e375y/s388g、e375y/k512a、e375y/k525a、y254v/e375y、k132a、k383a、k383r、k383p、k371a、k371t、y254f、y254v、y254s、y254v、y254s、k379a、k525a、k135a、p255s、s388g、k512a、l384r、e486a、e486d、k478a、e375w、n387a、n387y、v250a/e375w、d456n/d458n/l351p、y254v/a377e、d456n/d458n、d169a、d12a/d66a/d169a、t15i、n62d、c22s、c290s、c448s、c530s、c290s/c448s/c530s、c22s/c448s/c530s、c22s/c290s/c530s和c22s/c290s/c448s。在一些情况下,聚合酶包含seq id no:11-15中的任一个以及以下位点处的突变或突变组合:l253、t368、e375、a484或k512;e375或k512;l253、t368或a484;d193;s215;e420;p477;d66r k135r;k138r;l253t;y369g;y369l;l384m;k422a;i504r;e508k;e508r;d510k;t368/e375或t368/k512。在一些情况下,聚合酶与seq id no:11-15中任一个的至少20个连续碱基具有至少90%的序列同一性。在一些情况下,聚合酶与seq id no:11-15中任一个的至少20个连续碱基具有至少80%的序列同一性。在一些情况下,聚合酶与seq id no:11-15中任一个的至少20个连续碱基具有至少70%的序列同一性。在一些情况下,聚合酶与seq id no:11-15中任一个的至少15个连续碱基具有至少90%的序列同一性。在一些情况下,聚合酶与seq id no:11-15中任一个的至少15个连续碱基具有至少80%的序列同一性。在一些情况下,聚合酶与seq id no:11-15中任一个的至少15个连续碱基具有至少70%的序列同一性。在一些情况下,聚合酶与seq id no:2-10中任一个的至少10个连续碱基具有至少90%的序列同一性。在一些情况下,聚合酶与seq id no:2-10中任一个的至少10个连续碱基具有至少80%的序列同一性。在一些情况下,聚合酶与seq id no:2-10中任一个的至少10个连续碱基具有至少70%的序列同一性。在一些情况下,聚合酶与seq id no:2-10中任一个的至少5个连续碱基具有至少80%的序列同一性。在一些情况下,聚合酶与seq id no:2-10中任一个的至少7个连续碱基具有至少80%的序列同一性。在一些情况下,聚合酶与seq id no:2-10中任一个的至
少15个连续碱基具有至少90%的序列同一性。在一些情况下,聚合酶与seq id no:2-10中任一个的至少15个连续碱基具有至少80%的序列同一性。
65.相对于seq id no:1的聚合酶,本文所述的聚合酶变体可以具有增加的持续合成能力。在一些情况下,这被描述为每分钟的碱基数(nt)。在一些情况下,本文所述的聚合酶使用单链m13模板在30摄氏度下并入至少2000nt/min。在一些情况下,本文所述的聚合酶使用单链m13模板在30摄氏度下并入至少2000nt/min、2200nt/min、2500nt/min、2700nt/min或至少3000nt/min。在一些情况下,在包含至少1%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶使用单链m13模板在30摄氏度下并入至少1500nt/min、2000nt/min、2200nt/min、2500nt/min、2700nt/min或至少3000nt/min。在一些情况下,在包含至少5%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶使用单链m13模板在30摄氏度下并入至少1500nt/min、2000nt/min、2200nt/min、2500nt/min、2700nt/min或至少3000nt/min。在一些情况下,在包含至少10%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶使用单链m13模板在30摄氏度下并入至少1500nt/min、2000nt/min、2200nt/min、2500nt/min、2700nt/min或至少3000nt/min。
66.相对于seq id no:1的聚合酶,本文所述的聚合酶变体可以具有增加的链置换活性。在一些情况下,使用复制滑移测定测量链置换活性(canceill等人j.biol.chem.1999,27481)。在一些情况下,本文所述的聚合酶比seq id no:1的聚合酶包含少5%、10%、15%、20%、30%、40%、50%、60%、70%、80%或90%的复制滑移。在一些情况下,本文所述的聚合酶比seq id no:1的聚合酶包含少5%-90%、10%-90%、25%-90%、50%-95%、50%-99%、5%-25%或5%-50%的复制滑移。在一些情况下,在包含至少10%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶比seq id no:1的聚合酶包含少5%、10%、15%、20%、30%、40%、50%、60%、70%、80%或90%的复制滑移。在一些情况下,在包含5%-20%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶比seq id no:1的聚合酶包含少5%-90%、10%-90%、25%-90%、50%-95%、50%-99%、5%-25%或5%-50%的复制滑移。在一些情况下,在包含至少5%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶比seq id no:1的聚合酶包含少5%、10%、15%、20%、30%、40%、50%、60%、70%、80%或90%的复制滑移。在一些情况下,在包含至少1%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶比seq id no:1的聚合酶包含少5%、10%、15%、20%、30%、40%、50%、60%、70%、80%或90%的复制滑移。
67.相对于seq id no:1的聚合酶,本文所述的聚合酶变体可以具有增强的模板结合。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含对模板的kd值的至少5%、10%、20%、30%、40%、50%、80%、90%、100%、200%或500%增加。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含对模板的kd值的50%-400%、10%-90%、25%-90%、50%-100%、50%-200%、50%-250%或50%-500%增加。
68.相对于seq id no:1的聚合酶,本文所述的聚合酶变体可以具有增强的引物结合。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含对引物的kd值的至少5%、10%、20%、30%、40%、50%、80%、90%、100%、200%或500%增加。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含对引物的kd值的50%-400%、10%-90%、25%-90%、50%-100%、50%-200%、50%-250%或50%-500%增加。
69.相对于seq id no:1的聚合酶,本文所述的聚合酶变体可以具有降低的错误率。在一些情况下,本文所述的聚合酶包含小于1x10-6
、2x10-6
、5x10-6
、8x10-6
、1x10-7
、2x10-7
、5x10-7
、8x10-7
、1x10-8
、2x10-8
、5x10-8
或小于8x10-8
的错误率。在一些情况下,本文所述的聚合酶包含1x10-6
至8x10-8
、2x10-6
至8x10-7
、5x10-6
至5x10-7
、1x10-6
至8x10-7
或5x10-6
至8x10-8
的误差率。相对于seq id no:1的聚合酶,本文所述的聚合酶变体可以具有增加的3'-》5'核酸外切酶活性。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含核酸外切酶活性的至少5%、10%、20%、30%、40%、50%、80%、90%、100%、200%或500%增加。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含核酸外切酶活性的50%-400%、10%-90%、25%-90%、50%-100%、50%-200%、50%-250%或50%-500%增加。
70.本文所述的聚合酶变体可以对胸腺嘧啶/丙氨酸相比于胍/胞嘧啶核苷酸具有改变的亲和力(选择性)。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含ta:gc亲和力的至少5%、10%、20%、30%、40%、50%、80%、90%、100%、200%或500%增加。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含gc:ta亲和力的至少5%、10%、20%、30%、40%、50%、80%、90%、100%、200%或500%增加。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含gc:ta亲和力的50%-400%、10%-90%、25%-90%、50%-100%、50%-200%、50%-250%或50%-500%增加。
71.本文所述的聚合酶变体可以对双脱氧核苷酸具有改变的亲和力(选择性)。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含双脱氧核苷酸亲和力的至少5%、10%、20%、30%、40%、50%、80%、90%、100%、200%或500%增加。在一些情况下,相对于seq id no:1的聚合酶,本文所述的聚合酶包含双脱氧核苷酸亲和力的50%-400%、10%-90%、25%-90%、50%-100%、50%-200%、50%-250%或50%-500%增加。本文所述的聚合酶,例如变体聚合酶,可以更有效地并入双脱氧核苷酸,这导致相对于野生型聚合酶(例如,phi29聚合酶)更短的扩增产物。在一些情况下,在包含至少1%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶产生长度比野生型聚合酶小至少1%、2%、5%、10%、15%、20%、30%、50%、75%、90%、150%、300%或至少500%的扩增产物。在一些情况下,在包含至少5%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶产生长度比野生型聚合酶小至少1%、2%、5%、10%、15%、20%、30%、50%、75%、90%、150%、300%或至少500%的扩增产物。在一些情况下,在包含至少10%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶产生长度比野生型聚合酶小至少1%、2%、5%、10%、15%、20%、30%、50%、75%、90%、150%、300%或至少500%的扩增产物。在一些情况下,在包含1%-10%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶产生长度比野生型聚合酶小至少1%、2%、5%、10%、15%、20%、30%、50%、75%、90%、150%、300%或至少500%的扩增产物。在一些情况下,在包含5%-20%双脱氧核苷酸的核苷酸存在下,本文所述的聚合酶产生长度比野生型聚合酶小至少1%、2%、5%、10%、15%、20%、30%、50%、75%、90%、150%、300%或至少500%的扩增产物。
72.本文所述的聚合酶变体可以具有增加的温度稳定性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持至少99%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持90%-99%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分
钟后保持80%-99%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持50%-99%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持至少99%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持至少90%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持至少80%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持至少50%的活性。在一些情况下,聚合酶变体在暴露于65摄氏度10分钟后保持至少30%的活性。
73.方法和应用
74.本文描述了用pta方法鉴定细胞中的突变的方法。在一些情况下使用pta方法会导致对已知方法(例如,mda)的改进。在一些情况下,与mda方法相比,pta的假阳性和假阴性变体判定率较低。在一些情况下,将基因组,如na12878铂基因组,用于确定pta的更大的基因组覆盖和均匀性是否会导致较低的假阴性变体判定率。不受理论的约束,可以确定pta中错误传播的缺失降低了假阳性变体判定率。在一些情况下,通过比较已知阳性基因座处杂合突变判定的等位基因频率来估算用这两种方法在等位基因之间的扩增平衡。在一些情况下,通过pcr进一步扩增使用pta产生的扩增子文库。在一些情况下,pta方法鉴定群体的单细胞中存在的突变,其中由pta检测到的突变在群体中少于2%、1%、0.5%、0.2%、0.1%、0.05%、0.02%、0.01%、0.001%、0.0001%或少于0.00001%的细胞中发生。在一些情况下,对于给定的碱基或区域,pta方法在少于2%、1%、0.5%、0.2%、0.1%、0.05%、0.02%、0.01%、0.001%、0.0001%或少于0.00001%的测序读数中鉴定突变。
75.基因编辑安全性
76.基因组编辑工具的持续发展显示了改善人类健康的巨大前景;从纠正导致或促成疾病(如镰状细胞性贫血和许多其他疾病)形成的基因到根除目前无法治愈的传染性疾病。然而,这些干预的安全性仍然不清楚,因为我们对这些工具如何与经编辑细胞基因组中的其他位置相互作用并永久改变它们的理解还不完整。已经开发了用于估计基因组编辑策略的脱靶率的方法,但迄今为止已经开发的工具一起询问细胞组,导致不能测量每个细胞的脱靶率和细胞之间脱靶活性的差异,以及检测在少量细胞中发生的罕见编辑事件。这些用于测量基因组编辑保真度的次优策略导致确定给定基因组编辑方法的灵敏度和特异性的能力有限。
77.基因治疗方法可以包括修饰突变的致病基因、敲除致病基因或在细胞中引入新基因。在一些情况下,此类方法包括基因组dna的修饰。在其他情况下,病毒或其他递送系统被配置成使得它们不整合或修饰细胞中的基因组dna。然而,此类系统仍然可能对体细胞或种系dna产生不想要的或意想不到的修饰。利用在单细胞中pta的改进的变体调用敏感性和特异性,在一些情况下,进行了在单细胞中具有高敏感性的基因治疗方法的非预期插入率的定量测量。所述方法在一些情况下通过检测周围序列来检测特定序列在非期望位置的插入,以确定基因治疗方法是否导致宿主基因组的插入或修饰。
78.本文描述了在动物、植物或微生物细胞中鉴定突变和结构修饰(即易位、插入和缺失)的方法,所述细胞经历了基因组编辑(例如,crispr(成簇的规律间隔的短回文重复序列)、talen(转录激活因子样效应物核酸酶)、zfn(锌指核酸酶)、重组酶、大范围核酸酶或其他基因组编辑技术)。在一些情况下,基因组编辑包括位点特异性或靶向基因组编辑。在一些情况下,可以将此类细胞分离并经受pta和测序,以确定每个细胞的突变负荷、突变组合
和结构变异。在一些情况下,将由基因组编辑方案产生的每细胞突变率和突变位置用于评估给定基因组编辑方法的安全性和/或效率。在一些情况下,突变的鉴定包括将使用pta方法获得的测序数据与参考序列进行比较。在一些情况下,参考序列是基因组。在一些情况下,在基因编辑过程后,pta鉴定出至少一个突变。在一些情况下,参考序列是特异性决定序列,其促进向核酸的靶序列中引入突变。在一些情况下,在基因编辑过程后,pta鉴定出至少一个突变,其中所述突变位于靶序列中。在一些情况下,通过鉴定至少一个不在靶序列中的突变来分析脱靶突变率。尽管基于与靶序列的序列同源性,可以预测核酸的一些区域会遭受脱靶突变,但同源性较低的区域也可能具有脱靶突变。在一些情况下,pta方法鉴定序列的非靶区中的突变,包含与靶序列或其反向互补序列的至少0、1、2、3、4、5、6、7或8个碱基错配。在一些情况下,用pta分析单细胞。在一些情况下,用pta分析细胞群体。
79.许多目前的突变分析方法获得大量细胞群体的测序数据。然而,此类方法提供的关于群体中实际突变频率的信息有限,在一些情况下,使用pta的单细胞分析提供了高得多的脱靶插入率、链断裂(导致突变)和易位的分辨率,因为细胞(即单个细胞)的数量是已知的。在已知数量的单细胞中具有已知变异检测率的pta,在一些情况下,允许所述方法准确地确定细胞群体中的每细胞频率和改变的组合。在一些情况下,用pta分析至少10、100、1000、10,000、100,000或多于100,000个单细胞以确定变异率。在一些情况下,用pta分析不多于10、100、1000、10,000、100,000或不多于100,000个单细胞以确定变异率。在一些情况下,用pta分析10-1000、50-5000、100-100,000、1000-100,000、100-1,000,000或100-10,000个单细胞以确定变异率。在一些情况下,通过分析一个或多个单细胞鉴定的突变未从细胞群体的大量测序中鉴定或检测。
80.crispr可以用于将突变引入一种或多种细胞,如哺乳动物细胞,然后通过pta对其进行分析。在一些情况下,特异性决定序列存在于crispr rna(crrna)或单一指导rna(sgrna)中。在一些情况下,所述哺乳动物细胞是人细胞。在一些情况下,所述细胞来源于肝脏、皮肤、肾脏、血液或肺。在一些情况下,所述细胞是原代细胞。在一些情况下,所述细胞是干细胞。先前报道的鉴定crispr产生的脱靶突变的方法包括下拉与催化活性cas9结合的序列,然而这可能导致假阳性,因为突变不是在所有cas9结合位点处引入的。在一些情况下,pta方法鉴定了存在于与催化活性cas9结合的序列区域中的至少一个突变。在一些情况下,pta方法对存在于与催化活性cas9结合的序列区域中的至少一个突变产生较少的假阳性。
81.本文描述了在已经经历基因组编辑(例如,crispr、talen、zfn、重组酶、大范围核酸酶或其他技术)的动物、植物或微生物细胞中鉴定突变的方法,其中所述方法包括在至少一个终止子核苷酸存在下扩增基因组或其片段。在一些情况下,终止子的扩增发生在溶液中。在一些情况下,至少一个引物或至少一个基因组片段中的一个附接至表面。在一些情况下,将至少一个引物附接至第一固体支持物,并且将至少一个基因组片段附接至第二固体支持物,其中第一固体支持物和第二固体支持物不连接。在一些情况下,将至少一个引物附接至第一固体支持物,并且将至少一个基因组片段附接至第二固体支持物,其中第一固体支持物和第二固体支持物不是相同的固体支持物。在一些情况下,所述方法包括在至少一个终止子核苷酸存在下扩增基因组或其片段,其中扩增循环数少于12、10、9、8、7、6、5、4或少于3个循环。在一些情况下,扩增产物的平均长度为100-1000、200-500、200-700、300-700、400-1000或500-1200个碱基。在一些情况下,所述方法包括在至少一个终止子核苷酸
存在下扩增基因组或其片段,其中扩增循环数不多于6个循环。在一些情况下,所述至少一个终止子核苷酸包含可检测的标记或标签。在一些情况下,扩增包含2、3或4个终止子核苷酸。在一些情况下,终止子核苷酸中的至少两个包含不同的碱基。在一些情况下,终止子核苷酸中的至少三个包含不同的碱基。在一些情况下,四个终止子核苷酸各自包含不同的碱基。在一些情况下,直接拷贝数可以通过扩增循环数控制。在一些情况下,使用不多于30、25、20、15、13、11、10、9、8、7、6、5、4或3个循环来产生靶核酸分子的拷贝。在一些情况下,使用约30、25、20、15、13、11、10、9、8、7、6、5、4或约3个循环来产生靶核酸分子的拷贝。在一些情况下,使用3、4、5、6、7或8个循环来产生靶核酸分子的拷贝。在一些情况下,使用2-4、2-5、2-7、2-8、2-10、2-15、3-5、3-10、3-15、4-10、4-15、5-10或5-15个循环来产生靶核酸分子的拷贝。在一些情况下,使用本文所述方法生成的扩增子文库经受额外步骤,如衔接子连接和进一步的扩增。在一些情况下,这些额外步骤在测序步骤之前。在一些情况下,所述循环是pcr循环。在一些情况下,所述循环代表退火、延伸和变性。在一些情况下,所述循环代表在等温或基本等温条件下发生的退火、延伸和变性。
82.本文描述了用于确定基因疗法安全性的方法。在一些情况下,细胞的功能通过基因编辑或其他表达方法进行修饰。在一些情况下,改变细胞功能的病毒递送系统被配置成使得它们不整合到细胞的基因组中。在一些情况下,pta方法用于鉴定细胞基因组的意想不到或不想要的变化。在一些情况下,pta用于鉴定由基因疗法引起的体细胞或种系dna的突变。
83.肿瘤细胞的克隆分析
84.在一些情况下,使用本文所述的方法分析的细胞包括肿瘤细胞。例如,循环肿瘤细胞可以从取自患者的体液中分离,如但不限于血液、骨髓、尿液、唾液、脑脊髓液、胸膜液、心包液、腹水或房水。然后,使细胞经历本文所述的方法(例如,pta)并测序,以确定每个细胞的突变负荷和突变组合。在一些情况下,这些数据用于诊断特定疾病或用作预测治疗应答的工具。类似地,在一些情况下,恶性潜能未知的细胞是从取自患者的体液中分离的,所述体液如但不限于血液、骨髓、尿液、唾液、脑脊髓液、胸膜液、心包液、腹水或房水。在利用本文所述的方法和测序后,这些方法还用于确定每个细胞的突变负荷和突变组合。在一些情况下,这些数据用于诊断特定疾病或用作预测恶性前状态发展为显性恶性肿瘤的工具。在一些情况下,可以从原发性肿瘤样品中分离细胞。然后,细胞可以进行pta和测序,以确定每个细胞的突变负荷和突变组合。这些数据可以用于诊断特定疾病或用作预测患者恶性肿瘤对可用抗癌药物的抗药性的工具。通过将样品暴露于不同的化疗药物,已发现主要和次要克隆对特定药物具有不同的敏感性,这些敏感性不一定与已知的“驱动突变”的存在相关,这表明克隆种群中的突变组合决定了它对特定化疗药物的敏感性。不受理论的约束,这些发现表明,如果检测到尚未扩展并且可演化为基因组修饰数目增加的克隆而使其更有可能对治疗产生抗性的癌前病变,则可能更容易根除恶性肿瘤。参见,ma等人,2018,“pan-cancer genome and transcriptome analyses of 1,699pediatric leukemias and solid tumors”。在一些情况下,单细胞基因组学方案用于检测从患者样品中分离的正常和恶性细胞混合物内的单个癌细胞或克隆型中的体细胞遗传变体组合。在一些情况下,该技术还用于鉴定在体外和/或患者体内暴露于药物后经历阳性选择的克隆型。通过比较暴露于化疗的存活克隆与诊断时鉴定的克隆,可以创建癌症克隆型目录,所述目录记录它们对
特定药物的抗性。在一些情况下,pta方法检测由多种克隆型组成的样品中的特定克隆对现有药物或新药及其组合的敏感性,其中所述方法可以检测特定克隆对药物的敏感性。在一些情况下,这种方法显示了药物对特定克隆的功效,而当前的药物敏感性测量在一次测量中考虑了所有癌症克隆的敏感性,因此可能无法检测到这种功效。当将本文所述的pta应用于诊断时收集的患者样品以检测给定患者癌症中的癌症克隆型时,可以随后使用药物敏感性目录来查找这些克隆,从而告知肿瘤学家哪种药物或药物组合无效,哪种药物或药物组合最有可能对患者的癌症有效。
85.临床和环境诱变
86.本文描述了测量环境因子致突变性的方法。例如,细胞(单细胞或细胞群体)暴露于潜在的环境条件。例如,在一些情况下,所述方法使用如源自器官(肝脏、胰腺、肺、结肠、甲状腺或其他器官)、组织(皮肤或其他组织)、血液或其他生物来源的细胞。在一些情况下,环境条件包括热、光(例如,紫外线)、辐射、化学物质或其任何组合。在一定量的环境条件暴露后,在一些情况下,这是几分钟、几小时、几天或更长时间,分离出单细胞并进行pta方法。在一些情况下,分子条形码和独特的分子标识符用于标记样品。对样品进行测序,然后进行分析,以鉴定暴露于环境条件所导致的突变。在一些情况下,将这种突变与对照环境条件进行比较,如已知的非诱变物质、媒介物/溶剂或缺乏环境条件。在一些情况下,这种分析不仅提供了由环境条件引起的突变总数,而且还提供了这种突变的位置和性质。在一些情况下,模式从数据中鉴定,并且可以用于诊断疾病或病况。在一些情况下,模式可用于预测未来的疾病状态或病况。在一些情况下,本文所述的方法测量在暴露于环境药剂,例如,潜在的诱变剂或致畸剂后细胞的突变负荷、位置和模式。在一些情况下,该方法用于评价给定药剂的安全性,包括其诱发可能导致疾病发展的突变的可能性。例如,所述方法可以用于预测暴露于特定浓度的特定药剂后所述药剂对特定细胞类型的致癌性或致畸性。在一些情况下,所述药剂是药品或药物。在一些情况下,所述药剂是食品。在一些情况下,所述药剂是基因修饰的食品。在一些情况下,所述药剂是杀虫剂或其他农业化学品。在一些情况下,将突变的位置和速率用于预测生物体的年龄。在一些情况下,在数百年、数千年或数万年前的样品上进行此类方法。在一些情况下,将突变模式与其他数据方法(如碳年代测定法)进行比较,以生成标准曲线。在一些情况下,通过比较样品中的突变数量和模式来确定人类的年龄。
87.本文描述了确定用于细胞疗法的细胞中的突变的方法,所述细胞疗法如但不限于诱导多能干细胞的移植、尚未被操纵的造血细胞或其他细胞的移植,或经历基因组编辑的造血细胞或其他细胞的移植。然后,细胞可以进行pta和测序,以确定每个细胞的突变负荷和突变组合。细胞疗法产品中的每细胞突变率和突变位置可以用于评估产品的安全性和潜在功效,包括新抗原负荷的测量。
88.微生物样品
89.本文描述了分析微生物样品的方法。在另一个实施方案中,微生物细胞(例如,细菌、真菌、原生动物)可以从植物或动物(例如,微生物群样品[例如,gi微生物群、皮肤微生物群等]或体液,例如像,血液、骨髓、尿液、唾液、脑脊髓液、胸膜液、心包液、腹水或房水)分离。此外,微生物细胞可以从留置的医疗装置分离,如但不限于,静脉导管、导尿管、脑脊髓分流器、假体瓣膜、人工关节或气管导管。然后,细胞可以经历pta和测序,以确定特定微生物的身份,并检测预测对特定抗菌剂的应答(或抗性)的微生物遗传变体的存在。这些数据
可用于诊断特定的传染病和/或用作预测治疗应答的工具。在一些情况下,分析单个微生物细胞的突变。在一个实施方案中,将pta用于鉴定具有高工业应用价值的微生物,如生产生物燃料或环境恢复(石油泄漏清理、co2封存/去除)。在一些情况下,微生物样品从极端环境中获得,如深海喷口、海洋、矿山、溪流、湖泊、陨石、冰川或火山。在一些情况下,微生物样品包括在标准条件下的实验室中“不可培养”的微生物菌株。
[0090]
胎儿细胞
[0091]
在另一个实施方案中,细胞可以从体外受精产生的卵裂球分离。然后,细胞可以经历pta和测序,以确定每个细胞中潜在疾病易感遗传变体的负荷和组合。然后,可以将细胞的突变谱用于在植入前推断卵裂球对特定疾病的遗传易感性。
[0092]
在一些情况下,本文所述的方法(例如,pta)导致突变检测的较高检测灵敏度和/或较低假阳性率。在一些情况下,当相比于如经由计算机模拟预测、chip-seq、guide-seq、环状-seq、htgts(高通量全基因组易位测序)、idlv(整合缺陷型慢病毒)、digenome-seq、fish(荧光原位杂交)或discover-seq的方法时,pta导致突变检测的较高检测灵敏度和/或较低假阳性率。
[0093]
单细胞分析
[0094]
本文描述了用于分析单细胞的方法和组合物。大量细胞的分析提供有关细胞群体的一般信息,但通常无法在背景上检测低频率突变体。此类突变体可以包括重要特性,如抗药性或与癌症相关的突变。在一些情况下,平行分析来自相同单细胞的dna、rna和/或蛋白质。分析可以包括鉴定表观遗传的翻译后修饰(例如,糖基化、磷酸化、乙酰化、泛素化、组蛋白修饰)和/或转录后修饰(例如,甲基化、羟甲基化)。此类方法可以包括“原代模板定向扩增”(pta),以获得用于测序的核酸文库。在一些情况下,将pta与另外的步骤或方法组合,所述另外的步骤或方法如rt-pcr或蛋白质组/蛋白质定量技术(例如,质谱、抗体染色等)。在一些情况下,在单独分析步骤期间,细胞的各种组分在物理或空间上彼此分离。例如,在一些情况下,工作流程包括标记蛋白质、产生mrna、产生rt-pcr文库、分离基因组dna、使基因组dna经受pta、产生gdna文库和对两个文库进行测序的一般步骤。将蛋白质首先用抗体标记,并基于荧光标记物进行分选。在rt-pcr之后,产生第一链mrna产物,且然后取出以进行分析。然后由rt-pcr产物和存在于蛋白质特异性抗体上的条形码产生文库,随后对其进行测序。同时,对来自同一细胞的基因组dna进行pta,产生文库,并且进行测序。在一些情况下,将来自基因组、蛋白质组和转录物组的测序结果使用生物信息学方法合并。在一些情况下,本文所述的方法包括标记、细胞分选、亲和分离/纯化、特定细胞组分(例如,外膜、核等)的裂解、rna扩增、dna扩增(例如,pta)或与蛋白质、rna或dna分离或分析相关的其他步骤的任何组合。
[0095]
本文描述了单细胞分析的第一方法,所述第一方法包括分析来自单细胞的rna和dna。在一些情况下,所述方法包括分离单细胞、裂解单细胞和逆转录(rt)。在一些情况下,用模板切换寡核苷酸(tso)进行逆转录。在一些情况下,tso包含分子tag如生物素,从而允许随后下拉cdna rt产物,并且pcr扩增rt产物以产生cdna文库。任选地或组合地,使用离心来将上清液中的rna与细胞沉淀中的cdna分离。在一些情况下,将剩余的cdna碎片化并且用udg(尿嘧啶dna糖基糖酶)除去,并且使用碱性裂解来降解rna并使基因组变性。在中和、添加引物和pta之后,在一些情况下,将扩增产物在spri(固相可逆固定)珠子上纯化,并且连
接至衔接子以产生gdna文库。
[0096]
本文描述了单细胞分析的第二方法,所述第二方法包括分析来自单细胞的rna和dna。在一些情况下,所述方法包括分离单细胞、裂解单细胞和逆转录(rt)。在一些情况下,用模板切换寡核苷酸(tso)进行逆转录。在一些情况下,tso包含分子tag如生物素,从而允许随后下拉cdna rt产物,并且pcr扩增rt产物以产生cdna文库。在一些情况下,然后使用碱性裂解来降解rna并使基因组变性。在中和、添加随机引物和pta之后,在一些情况下,将扩增产物在spri(固相可逆固定)珠子上纯化,并且连接至衔接子以产生gdna文库。在一些情况下,将rt产物通过下拉,如用链霉亲和素珠子的下拉分离。
[0097]
本文描述了单细胞分析的第三方法,所述第三方法包括分析来自单细胞的rna和dna。在一些情况下,所述方法包括分离单细胞、裂解单细胞和逆转录(rt)。在一些情况下,在终止子核苷酸的存在下用模板切换寡核苷酸(tso)进行逆转录。在一些情况下,tso包含分子tag如生物素,从而允许随后下拉cdna rt产物,并且pcr扩增rt产物以产生cdna文库。在一些情况下,然后使用碱性裂解来降解rna并使基因组变性。在中和、添加随机引物和pta之后,在一些情况下,将扩增产物在spri(固相可逆固定)珠子上纯化,并且连接至衔接子以产生dna文库。在一些情况下,将rt产物通过下拉,如用链霉亲和素珠子的下拉分离。
[0098]
本文描述了单细胞分析的第四方法,所述第四方法包括分析来自单细胞的rna和dna。在一些情况下,所述方法包括分离单细胞、裂解单细胞和逆转录(rt)。在一些情况下,用模板切换寡核苷酸(tso)进行逆转录。在一些情况下,tso包含分子tag如生物素,从而允许随后下拉cdna rt产物,并且pcr扩增rt产物以产生cdna文库。在一些情况下,然后使用碱性裂解来降解rna并使基因组变性。在中和、添加随机引物和pta之后,在一些情况下,使用封闭且经标记的引物使扩增产物经受rna酶和cdna扩增。将gdna在spri(固相可逆固定)珠子上纯化,并且连接至衔接子以产生gdna文库。在一些情况下,将rt产物通过下拉,如用链霉亲和素珠子的下拉分离。
[0099]
本文描述了单细胞分析的第五方法,所述第五方法包括分析来自单细胞的rna和dna。将细胞群体与抗体文库接触,其中将抗体标记。在一些情况下,将抗体用荧光标记、核酸条形码或两者标记。经标记的抗体与群体中的至少一种细胞结合,并且将此类细胞分选,每个容器(例如,管、小瓶、微孔等)放置一个细胞。在一些情况下,容器包括溶剂。在一些情况下,将容器表面的区域用捕获部分包被。在一些情况下,捕获部分是能够与一个或多个细胞、细胞器或其他细胞组分结合的小分子、抗体、蛋白质或其他药剂。在一些情况下,至少一个细胞、单细胞、或其组分与容器表面的区域结合。在一些情况下,核与容器的区域结合。在一些情况下,将细胞的外膜裂解,从而将mrna释放至容器中的溶液中。在一些情况下,含有基因组dna的细胞的核结合至容器表面的区域。接下来,通常使用溶液中的mrna作为模板来进行rt以产生cdna。在一些情况下,模板切换引物从5’至3’包含tss区域(转录起始位点)、锚定区域、rna bc区域和poly dt尾。在一些情况下,poly dt尾与一个或多个mrna的poly a尾结合。在一些情况下,模板切换引物从3’至5’包含tss区域、锚定区域和poly g区域。在一些情况下,poly g区域包括核糖g。在一些情况下,poly g区域与mrna转录物上的poly c区域结合。在一些情况下,通过末端转移酶将核糖g添加至mrna转录物。在取出rt pcr产物以进行后续测序之后,通过ung除去细胞中的任何剩余rna。然后将核裂解,并且使用随机引物和等温聚合酶对释放的基因组dna进行pta方法。在一些情况下,引物的长度为6-9个碱基。
在一些情况下,pta产生长度为250-1500个碱基的基因组扩增子。在一些情况下,本文所述的方法产生具有约500、约750、约1000、约5000或约10,000倍扩增的短片段cdna池。在一些情况下,本文所述的方法产生具有500-5000、750-1500或250-10,000倍扩增的短片段cdna池。任选地对pta产物进行另外的扩增,并且进行测序。
[0100]
单细胞的样品制备和分离
[0101]
本文所述的方法可能需要分离单细胞以进行分析。任何单细胞分离方法可以与pta一起使用,如口腔移液、微移液、流式细胞术/facs、微流体、分选核的方法(四倍体或其他)或手动稀释。此类方法通过另外的试剂和步骤辅助,所述另外的试剂和步骤例如基于抗体的富集(例如,循环肿瘤细胞)、基于其他小分子或蛋白质的富集方法或荧光标记。在一些情况下,本文所述的多组学分析方法包括将细胞从较大组织中的机械或酶促解离。
[0102]
细胞组分的制备和分析
[0103]
包括本文所述的pta的多组学分析方法可以包括处理细胞组分如dna、rna和/或蛋白质的一种或多种方法。在一些情况下,将核(包含基因组dna)与胞质溶胶(包含mrna)物理分离,然后是膜选择性裂解缓冲剂以溶解膜,但保持核完整。然后使用包括微移液、离心或抗体缀合的磁性微珠的方法将胞质溶胶与核分离。在另一种情况下,寡dt引物包被的磁珠结合聚腺苷酸化mrna以便与dna分离。在另一种情况下,同时预扩增dna和rna,并且然后分离以进行分析。在另一种情况下,将单细胞被分割成两个相等的片,其中从一半处理mrna并且从另一半处理基因组dna。
[0104]
多组学
[0105]
本文所述的方法(例如,pta)可以用作本领域中用于单细胞测序(多组合学等)的任何数量其他已知方法的替代物。pta可以代替基因组dna测序方法,如mda、picoplex、dop-pcr、malbac或靶特异性扩增。在一些情况下,pta替代多组学方法中的标准基因组dna测序方法,包括dr-seq(dey等人,2015)、g&t seq(macaulay等人,2015)、scmt-seq(hu等人,2016)、sc-gem(cheow等人,2016)、sctrio-seq(hou等人,2016)、rna和蛋白质同时多重复用测量(darmanis等人,2016)、sccool-seq(guo等人,2017)、cite-seq(stoeckius等人,2017)、reap-seq(peterson等人,2017)、scnmt-seq(clark等人,2018)或sidr-seq(han等人,2018)。在一些情况下,本文所述的方法包括pta和聚腺苷酸化mrna转录物的方法。在一些情况下,本文所述的方法包括pta和非聚腺苷酸化mrna转录物的方法。在一些情况下,本文所述的方法包括pta和总(聚腺苷酸化和非聚腺苷酸化)mrna转录物的方法。
[0106]
在一些情况下,将pta与标准rna测序方法组合以获得基因组和转录物组数据。在一些情况下,本文所述的多组学方法包括pta和以下之一:drop-seq(macosko等人2015)、mrna-seq(tang等人,2009)、indrop(klein等人,2015)、mars-seq(jaitin等人,2014)、smart-seq2(hashimshony等人,2012;fish等人,2016)、cel-seq(jaitin等人,2014)、strt-seq(islam等人,2011)、quartz-seq(sasagawa等人,2013)、cel-seq2(hashimshony等人2016)、cytoseq(fan等人,2015)、super-seq(fan等人,2011)、ramda-seq(hayashi等人2018)、matq-seq(sheng等人,2017)或smarter(verboom等人,2019)。
[0107]
各种反应条件和混合物可用于产生用于转录物组分析的cdna文库。在一些情况下,使用rt反应混合物来产生cdna文库。在一些情况下,rt反应混合物包含拥挤试剂、至少一种引物、模板切换寡核苷酸(tso)、逆转录酶和dntp混合物。在一些情况下,rt反应混合物
包含rna酶抑制剂。在一些情况下,rt反应混合物包含一种或多种表面活性剂。在一些情况下,rt反应混合物包含tween-20和/或曲通-x。在一些情况下,rt反应混合物包含甜菜碱。在一些情况下,rt反应混合物包含一种或多种盐。在一些情况下,rt反应混合物包含镁盐(例如,氯化镁)和/或四甲基氯化铵。在一些情况下,rt反应混合物包含明胶。在一些情况下,rt反应混合物包含peg(peg1000、peg2000、peg4000、peg6000、peg8000或其他长度的peg)。
[0108]
甲基化组分析
[0109]
本文描述了包括pta的方法,其中使用pta方法确定单细胞中甲基化dna的位点。在一些情况下,这些方法还包括平行分析同一细胞的转录物组和/或蛋白质组。检测甲基化基因组碱基的方法包括用甲基化敏感性内切核酸酶进行选择性限制,然后用pta方法处理。通过此类酶切割的位点根据测序确定,并且鉴定甲基化碱基。在另一种情况下,基因组dna文库的亚硫酸氢盐处理将未甲基化胞嘧啶转化为尿嘧啶。然后在一些情况下,用选择性地退火至甲基化序列的甲基化特异性引物扩增文库。可替代地,进行非甲基化特异性pcr,然后进行用于区分亚硫酸氢盐反应的碱基的一种或多种方法,包括直接焦磷酸测序、ms-snupe、hrm、cobra、ms-ssca或碱基特异性切割/maldi-tof。在一些情况下,将基因组dna样品分割以用于基因组(或其富集部分)和甲基化组分析的平行分析。在一些情况下,基因组和甲基化组的分析包括富集基因组片段(例如,外显子组或其他靶标)或全基因组测序。
[0110]
生物信息学
[0111]
可以将从本文所述的利用pta的单细胞分析方法获得的数据编译成数据库。本文描述了生物信息学数据整合的方法和系统。在一些情况下将来自蛋白质组、基因组、转录物组、甲基化组或其他数据的数据组合/整合为数据库并分析。在一些情况下,生物信息学数据整合方法和系统包括蛋白质检测(facs和/或ngs)、mrna检测和/或基因组变异检测中的一种或多种。在一些情况下,该数据与疾病状态或病症相关。在一些情况下,将来自多个单细胞的数据编译以描述较大细胞群体(如来自特定样品、区域、生物体或组织的细胞)的特性。在一些情况下,从与细胞上的蛋白质选择性结合的经荧光标记的抗体获取蛋白质数据。在一些情况下,蛋白质检测的方法包括基于荧光标记物将细胞分组并且在分选后报告样品位置。在一些情况下,蛋白质检测的方法包括检测样品条形码、检测蛋白质条形码、与设计的序列进行比较并且基于条形码和拷贝数将细胞分组。在一些情况下,从与细胞上的蛋白质选择性结合的条形码化抗体获取蛋白质数据。在一些情况下,从样品和rna特异性条形码获取转录物组数据。在一些情况下,mrna检测的方法包括检测样品和rna特异性条形码、与基因组比对、与refseq/encode比对、报告外显子/内含子/基因间序列、分析外显子-外显子连接点、基于条形码和表达变异将细胞分组以及聚类分析变异和顶级可变基因。在一些情况下,从样品和dna特异性条形码获取基因组数据。在一些情况下,基因组变异检测的方法包括检测样品和dna特异性条形码、与基因组比对、确定基因组回收率和snv映射率、过滤外显子-外显子连接点上的读取、产生变体呼叫文件(vcf)和聚类分析变异和顶级可变突变。
[0112]
原代模板定向扩增
[0113]
本文描述了核酸扩增方法,如“原代模板定向扩增(pta)”。例如,本文所述的pta方法示意性地表示于图1a-1d中。在pta方法中,使用聚合酶(例如,链置换聚合酶)优先从原代模板(“直接拷贝”)生成扩增子。因此,与mda相比,在随后的扩增过程中,错误以较低的速率从子扩增子传播。结果得到一种易于执行的方法,与现有的wga方案不同,所述方法可以以
准确且可再现的方式扩增低输入量的dna(包括单细胞的基因组),且具有高覆盖范围和均匀性。此外,终止的扩增产物可以在除去终止子后进行定向连接,从而允许细胞条形码附接至扩增引物,使得可以在经历平行扩增反应后合并来自所有细胞的产物(图1d)。在一些情况下,在扩增和/或衔接子连接之前不需要除去终止子。
[0114]
本文描述了使用具有链置换活性的核酸聚合酶进行扩增的方法。在一些情况下,这种聚合酶具有链置换活性和低错误率。在一些情况下,这种聚合酶具有链置换活性和校对核酸外切酶活性,如3'-》5’校对活性。在一些情况下,核酸聚合酶与其他组分结合使用,如可逆或不可逆终止子,或其他链置换因子。在一些情况下,聚合酶具有链置换活性,但不具有核酸外切酶校对活性。例如,在一些情况下,这些聚合酶包括噬菌体phi29(φ29)聚合酶,其也有非常低的错误率,这是3
’‑
》5’校对核酸外切酶活性的结果(参见,例如,美国专利号5,198,543和5,001,050)。在一些情况下,链置换核酸聚合酶的非限制性示例包括,例如,基因修饰的phi29(φ29)dna聚合酶、dna聚合酶i的klenow片段(jacobsen等人,eur.j.biochem.45:623-627(1974))、噬菌体m2dna聚合酶(matsumoto等人,gene 84:247(1989))、噬菌体phiprd1dna聚合酶(jung等人,proc.natl.acad.sci.usa 84:8287(1987);zhu和ito,biochim.biophys.acta.1219:267-276(1994))、bst dna聚合酶(例如,bst大片段dna聚合酶(exo(-)bst;aliotta等人,genet.anal.(netherlands)12:185-195(1996))、exo(-)bca dna聚合酶(walker和linn,clinical chemistry42:1604-1608(1996))、bsu dna聚合酶、包括ventr(exo-)dna聚合酶的ventr dna聚合酶(kong等人,j.biol.chem.268:1965-1975(1993))、包括deep vent(exo-)dna聚合酶的deep vent dna聚合酶、isopol dna聚合酶、dna聚合酶i、therminator dna聚合酶、t5dna聚合酶(chatterjee等人,gene 97:13-19(1991))、测序酶(us.biochemicals)、t7dna聚合酶、t7-测序酶、t7gp5dna聚合酶、prdi dna聚合酶、t4dna聚合酶(kaboord和benkovic,curr.biol.5:149-157(1995))。另外的链置换核酸聚合酶也与本文所述的方法相容。给定聚合酶进行链置换复制的能力可以被确定,例如,通过在链置换复制测定中使用所述聚合酶(例如,如美国专利号6,977,148中所公开)。在一些情况下,此类测定是在适合于所用酶的最佳活性温度下进行的,例如,phi29dna聚合酶的所述温度为32℃,exo(-)bst dna聚合酶的所述温度为46℃至64℃,或来自超高温生物的酶的所述温度为约60℃至70℃。选择聚合酶的另一种有用的测定法是在kong等人,j.biol.chem.268:1965-1975(1993)中所述的引物阻断测定。所述测定包括在存在或不存在寡核苷酸的情况下使用m13ssdna模板进行的引物延伸测定,所述寡核苷酸在延伸引物的上游杂交,以阻断其进程。在该测定中,能够置换阻断引物的其他酶在一些情况下对所公开的方法有用。在一些情况下,聚合酶以近似相等的比率并入dntp和终止子。在一些情况下,本文所述聚合酶的dntp和终止子的并入比率为约1:1、约1.5:1、约2:1、约3:1、约4:1、约5:1、约10:1、约20:1、约50:1、约100:1、约200:1、约500:1或约1000:1。在一些情况下,本文所述聚合酶的dntp和终止子的并入比率为1:1至1000:1、2:1至500:1、5:1至100:1、10:1至1000:1、100:1至1000:1、500:1至2000:1、50:1至1500:1或25:1至1000:1。
[0115]
本文描述了扩增方法,其中可以通过使用链置换因子例如解旋酶来促进链置换。在一些情况下,这些因子与另外的扩增组分结合使用,如聚合酶、终止子或其他组分。在一些情况下,链置换因子与不具有链置换活性的聚合酶一起使用。在一些情况下,链置换因子与具有链置换活性的聚合酶一起使用。不受理论的约束,链置换因子可以增加较小的双链
扩增子被引发的速率。在一些情况下,可以在存在链置换因子的情况下进行链置换复制的任何dna聚合酶都适用于pta方法,即使所述dna聚合酶在不存在这种因子的情况下无法进行链置换复制。在一些情况下,可用于链置换复制的链置换因子包括(但不限于)bmrf1聚合酶辅助亚基(tsurumi等人,j.virology 67(12):7648-7653(1993))、腺病毒dna结合蛋白(zijderveld和van der vliet,j.virology68(2):1158-1164(1994))、单纯疱疹病毒蛋白icp8(boehmer和lehman,j.virology 67(2):711-715(1993);skaliter和lehman,proc.natl.acad.sci.usa 91(22):10665-10669(1994));单链dna结合蛋白(ssb;rigler和romano,j.biol.chem.270:8910-8919(1995));噬菌体t4基因32蛋白(villemain和giedroc,biochemistry35:14395-14404(1996);t7解旋酶-引发酶;t7gp2.5ssb蛋白;tte-uvrd(来自腾冲嗜热厌氧菌(thermoanaerobacter tengcongensis)),小牛胸腺解旋酶(siegel等人,j.biol.chem.267:13629-13635(1992));细菌ssb(例如,大肠杆菌ssb),真核生物中的复制蛋白a(rpa),人类线粒体ssb(mtssb)和重组酶(例如,重组酶a(reca)家族蛋白、t4uvsx、噬菌体hk620的sak4、rad51、dmc1或radb)。促进链置换和引发的因子组合也符合本文所述方法。例如,将解旋酶与与聚合酶结合使用。在一些情况下,pta方法包括使用单链dna结合蛋白(ssb、t4gp32或其他单链dna结合蛋白)、解旋酶和聚合酶(例如,saudna聚合酶、bsu聚合酶、bst2.0、gspm、gspm2.0、gspssd或其他合适的聚合酶)。在一些情况下,将逆转录酶与本文所述的链置换因子结合使用。
[0116]
本文描述了扩增方法,其包括使用终止子核苷酸、聚合酶和其他因子或条件。例如,在一些情况下,这些因子在扩增过程中用于使核酸模板或扩增子片段化。在一些情况下,这些因子包括核酸内切酶。在一些情况下,因子包括转座酶。在一些情况下,在扩增过程中使用机械剪切来使核酸片段化。在一些情况下,在扩增过程中添加核苷酸,可以通过添加其他蛋白质或条件使其片段化。例如,将尿嘧啶并入扩增子中;用尿嘧啶d-糖基化酶的处理使核酸在含尿嘧啶位置处片段化。在一些情况下,还采用了选择性核酸片段化的其他体系,例如,切割修饰的胞嘧啶-芘碱基对的工程化dna糖基化酶(kwon,等人chem biol.2003,10(4),351)。
[0117]
本文描述了包括使用终止子核苷酸的扩增方法,所述终止子核苷酸终止核酸复制,从而减小扩增产物的大小。在一些情况下,这些终止子与本文所述的聚合酶、链置换因子或其他扩增组分结合使用。在一些情况下,终止子核苷酸减少或降低了核酸复制的效率。在一些情况下,这些终止子将延伸率减少至少99.9%、99%、98%、95%、90%、85%、80%、75%、70%或至少65%。在一些情况下,这些终止子将延伸率减少50%-90%、60%-80%、65%-90%、70%-85%、60%-90%、70%-99%、80%-99%或50%-80%。在一些情况下,终止子将平均扩增子产物长度减少至少99.9%、99%、98%、95%、90%、85%、80%、75%、70%或至少65%。在一些情况下,终止子将平均扩增子长度减少50%-90%、60%-80%、65%-90%、70%-85%、60%-90%、70%-99%、80%-99%或50%-80%。在一些情况下,包括终止子核苷酸的扩增子会形成环或发夹,从而降低聚合酶将这些扩增子用作模板的能力。在一些情况下,终止子的使用通过并入终止子核苷酸(例如,经过修饰以使其抵抗核酸外切酶从而终止dna延伸的双脱氧核苷酸)而减慢起始扩增位点处的扩增速度,从而产生较小的扩增产物。通过比当前使用的方法产生更小的扩增产物(例如,pta方法的平均长度为50-2000个核苷酸,而mda方法的平均产物长度为》10,000个核苷酸),pta扩增产物在一些情
况下直接经历连接衔接子而无需片段化,从而允许细胞条形码和独特的分子标识符(umi)的有效并入(参见图1d、2b-3e、5、6a和6b)。
[0118]
终止子核苷酸以各种浓度存在,取决于如聚合酶、模板或其他因子。例如,在一些情况下,在本文所述的方法中,终止子核苷酸的量表示为非终止子核苷酸与终止子核苷酸的比率。在一些情况下,这些浓度允许控制扩增子的长度。在一些情况下,非终止子核苷酸与终止子核苷酸的比率为约2:1、5:1、7:1、10:1、20:1、50:1、100:1、200:1、500:1、1000:1、2000:1或5000:1。在一些情况下,非终止子核苷酸与终止子核苷酸的比率为2:1-10:1、5:1-20:1、10:1-100:1、20:1-200:1、50:1-1000:1、50:1-500:1、75:1-150:1或100:1-500:1。在一些情况下,在使用本文所述的方法扩增期间存在的至少一个核苷酸是终止子核苷酸。每种终止子不必以约相同的浓度存在;在一些情况下,对于特定的一组反应条件、样品类型或聚合酶,可以优化本文所述方法中存在的各种终止子的比例。不受理论的约束,每种终止子在响应于模板链上相应核苷酸的配对时,并入扩增子的生长多核苷酸链中的效率可以不同。例如,在一些情况下,与胞嘧啶配对的终止子的浓度比平均终止子浓度高约3%、5%、10%、15%、20%、25%或50%。在一些情况下,与胸腺嘧啶配对的终止子的浓度比平均终止子浓度高约3%、5%、10%、15%、20%、25%或50%。在一些情况下,与鸟嘌呤配对的终止子的浓度比平均终止子浓度高约3%、5%、10%、15%、20%、25%或50%。在一些情况下,与腺嘌呤配对的终止子的浓度比平均终止子浓度高约3%、5%、10%、15%、20%、25%或50%。在一些情况下,与尿嘧啶配对的终止子的浓度比平均终止子浓度高约3%、5%、10%、15%、20%、25%或50%。在一些情况下,能够终止通过核酸聚合酶的核酸延伸的任何核苷酸在本文所述的方法中用作终止子核苷酸。在一些情况下,可逆终止子用于终止核酸复制。在一些情况下,不可逆终止子用于终止核酸复制。在一些情况下,终止子的非限制性示例包括可逆和不可逆核酸和核酸类似物,例如,包括核苷酸的3’封闭的可逆终止子、包括核苷酸的3’未封闭的可逆终止子、包括脱氧核苷酸的2’修饰的终止子、包括对脱氧核苷酸的含氮碱基的修饰的终止子或其任何组合。在一个实施方案中,终止子核苷酸是双脱氧核苷酸。终止核酸复制并且可以适用于实施本发明的其他核苷酸修饰包括但不限于脱氧核糖的3'碳的r基团的任何修饰,如反向双脱氧核苷酸、3'生物素化核苷酸、3'氨基核苷酸、3'-磷酸化核苷酸、3'-o-甲基核苷酸、包括3'c3间隔子核苷酸、3'c18核苷酸、3'己二醇间隔子核苷酸的3'碳间隔子核苷酸、无环核苷酸,及其组合。在一些情况下,终止子是长度为1、2、3、4或更多个碱基的多核苷酸。在一些情况下,终止子不包括可检测的部分或标签(例如,质量标签、荧光标签、染料、放射性原子或其他可检测的部分)。在一些情况下,终止子不包括允许可检测部分或标签附接的化学部分(例如,“点击”叠氮化物/炔烃、共轭加成剂或用于标签附接的其他化学处理)。在一些情况下,所有终止子核苷酸都包括相同的修饰,所述修饰减少核苷酸的某区域(例如,糖部分、碱基部分或磷酸部分)处的扩增。在一些情况下,至少一种终止子具有减少扩增的不同修饰。在一些情况下,所有终止子都具有基本相似的荧光激发或发射波长。在一些情况下,未修饰磷酸基团的终止子与不具有核酸外切酶校对活性的聚合酶一起使用。终止子在与具有可以除去终止子核苷酸的3
’‑
》5’校对核酸外切酶活性的聚合酶(例如,phi29)一起使用时,在一些情况下,还需要进一步修饰使其抵抗核酸外切酶。例如,双脱氧核苷酸被α-硫基修饰,产生硫代磷酸酯键,使这些核苷酸对核酸聚合酶的3
’‑
》5’校对核酸外切酶活性具有抗性。在一些情况下,这种修饰使聚合酶的核酸外切酶校对活性降低至
少99.5%、99%、98%、95%、90%或至少85%。在一些情况下,提供对3'-》5'核酸外切酶活性的抗性的其他终止子核苷酸修饰的非限制性示例包括:具有对α基团的修饰的核苷酸,如产生硫代磷酸酯键的α-硫代双脱氧核苷酸、c3间隔子核苷酸、锁核酸(lna)、反向核酸、2'氟碱基、3'磷酸化、2'-o-甲基修饰(或其他2'-o-烷基修饰)、丙炔修饰的碱基(例如,脱氧胞嘧啶、脱氧尿苷)、l-dna核苷酸、l-rna核苷酸、具有反向连接的核苷酸(例如,5'-5'或3'-3')、5'反向碱基(例如,5'反向的2',3'-二脱氧dt)、甲基膦酸酯骨架和反式核酸。在一些情况下,具有修饰的核苷酸包括具有游离3’oh基团的碱基修饰的核酸(例如,2-硝基苄基烷基化的homedu三磷酸,具有大化学基团修饰如固体支持物或其他较大部分的碱基)。在一些情况下,将具有链置换活性但不具有3
’‑
》5’核酸外切酶校对活性的聚合酶与经历或未经历使其具有核酸外切酶抗性的修饰的终止子核苷酸一起使用。这些核酸聚合酶包括但不限于bst dna聚合酶、bsu dna聚合酶、deep vent(exo-)dna聚合酶、klenow片段(exo-)dna聚合酶、therminator dna聚合酶和ventr(exo-)。
[0119]
引物和扩增子文库
[0120]
本文描述了由至少一种靶核酸分子的扩增产生的扩增子文库。在一些情况下,这些文库是使用本文所述方法生成的,如使用终止子的文库。这些方法包括使用链置换聚合酶或因子、终止子核苷酸(可逆或不可逆)或本文所述的其他特征和实施方案。在一些情况下,使用本文所述的终止子产生的扩增子文库在随后的扩增反应(例如,pcr)中进一步扩增。在一些情况下,随后的扩增反应不包括终止子。在一些情况下,扩增子文库包括多核苷酸,其中至少50%、60%、70%、80%、90%、95%或至少98%的多核苷酸包括至少一种终止子核苷酸。在一些情况下,扩增子文库包括衍生出扩增子文库的靶核酸分子。扩增子文库包括多种多核苷酸,其中至少一些多核苷酸是直接拷贝(例如,直接从靶核酸分子如基因组dna、rna或其他靶核酸复制)。例如,至少5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或多于95%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下,至少5%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下,至少10%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下,至少15%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下,至少20%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下,至少50%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下,3%-5%、3-10%、5%-10%、10%-20%、20%-30%、30%-40%、5%-30%、10%-50%或15%-75%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝。在一些情况下,至少一些多核苷酸是靶核酸分子的直接拷贝或子代(靶核酸的第一拷贝)。例如,至少5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或多于95%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下,至少5%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下,至少10%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下,至少20%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下,至少30%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下,3%-5%、3%-10%、5%-10%、10%-20%、20%-30%、30%-40%、5%-30%、10%-50%或15%-75%的扩增子多核苷酸是至少一种靶核酸分子的直接拷贝或子代。在一些情况下,靶核酸的直接拷贝的长度为50-2500、75-2000、50-2000、25-1000、50-1000、500-2000或50-2000个
碱基。在一些情况下,子代的长度为1000-5000、2000-5000、1000-10,000、2000-5000、1500-5000、3000-7000或2000-7000个碱基。在一些情况下,pta扩增产物的平均长度为25-3000个核苷酸,为50-2500、75-2000、50-2000、25-1000、50-1000、500-2000或50-2000个碱基。在一些情况下,从pta产生的扩增子的长度不多于5000、4000、3000、2000、1700、1500、1200、1000、700、500或不多于300个碱基。在一些情况下,从pta产生的扩增子的长度为1000-5000、1000-3000、200-2000、200-4000、500-2000、750-2500或1000-2000个碱基。在一些情况下,使用本文所述方法产生的扩增子文库包括至少1000、2000、5000、10,000、100,000、200,000、500,000或多于500,000个包括独特序列的扩增子。在一些情况下,文库包括至少100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、2000、2500、3000或至少3500个扩增子。在一些情况下,长度小于1000个碱基的扩增子多核苷酸的至少5%、10%、15%、20%、25%、30%或多于30%是至少一种靶核酸分子的直接拷贝。在一些情况下,长度不多于2000个碱基的扩增子多核苷酸的至少5%、10%、15%、20%、25%、30%或多于30%是至少一种靶核酸分子的直接拷贝。在一些情况下,长度为3000-5000个碱基的扩增子多核苷酸的至少5%、10%、15%、20%、25%、30%或多于30%是至少一种靶核酸分子的直接拷贝。在一些情况下,直接拷贝扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1。在一些情况下,直接拷贝扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1,其中直接拷贝扩增子的长度不多于700-1200个碱基。在一些情况下,直接拷贝扩增子和子扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1。在一些情况下,直接拷贝扩增子和子扩增子与靶核酸分子的比例为至少10:1、100:1、1000:1、10,000:1、100,000:1、1,000,000:1、10,000,000:1或大于10,000,000:1,其中直接拷贝扩增子的长度为700-1200个碱基,并且子扩增子的长度为2500-6000个碱基。在一些情况下,文库包括约50-10,000、约50-5,000、约50-2500、约50-1000、约150-2000、约250-3000、约50-2000、约500-2000或约500-1500个扩增子,这些是靶核酸分子的直接拷贝。在一些情况下,文库包括约50-10,000、约50-5,000、约50-2500、约50-1000、约150-2000、约250-3000、约50-2000、约500-2000或约500-1500个扩增子,这些是靶核酸分子的直接拷贝或子扩增子。在一些情况下,直接拷贝数可以通过pcr扩增循环数控制。在一些情况下,使用不多于30、25、20、15、13、11、10、9、8、7、6、5、4或3个来产生靶核酸分子的拷贝。在一些情况下,使用约30、25、20、15、13、11、10、9、8、7、6、5、4或约3个pcr循环来产生靶核酸分子的拷贝。在一些情况下,使用3、4、5、6、7或8个pcr循环来产生靶核酸分子的拷贝。在一些情况下,使用2-4、2-5、2-7、2-8、2-10、2-15、3-5、3-10、3-15、4-10、4-15、5-10或5-15个pcr循环来产生靶核酸分子的拷贝。在一些情况下,使用本文所述方法生成的扩增子文库经受额外步骤,如衔接子连接和进一步的pcr扩增。在一些情况下,这些额外步骤在测序步骤之前。在一些情况下,使用不多于30、25、20、15、13、11、10、9、8、7、6、5、4或3个循环来产生靶核酸分子的拷贝。在一些情况下,使用约30、25、20、15、13、11、10、9、8、7、6、5、4或约3个循环来产生靶核酸分子的拷贝。在一些情况下,使用3、4、5、6、7或8个循环来产生靶核酸分子的拷贝。在一些情况下,使用2-4、2-5、2-7、2-8、2-10、2-15、3-5、3-10、3-15、4-10、4-15、5-10或5-15个循环来产生靶核酸分子的拷贝。在一些情况下,使用本文所述方法生成的扩增子文库经受额外步骤,
如衔接子连接和进一步的扩增。在一些情况下,这些额外步骤在测序步骤之前。在一些情况下,所述循环是pcr循环。在一些情况下,所述循环代表退火、延伸和变性。在一些情况下,所述循环代表在等温或基本等温条件下发生的退火、延伸和变性。
[0121]
在一些情况下,由本文所述的pta方法和组合物(终止子、聚合酶等)产生的多核苷酸的扩增子文库具有增加的均匀性。在一些情况下,均匀性使用洛伦兹曲线或其他这样的方法来描述。在一些情况下,这种增加使得覆盖所期望的靶核酸分子(例如,基因组dna、rna或其他靶核酸分子)所需的测序读取更少。例如,多核苷酸的累积分数的不多于50%包括靶核酸分子的序列的累积分数的至少80%的序列。在一些情况下,多核苷酸的累积分数的不多于50%包括靶核酸分子的序列的累积分数的至少60%的序列。在一些情况下,多核苷酸的累积分数的不多于50%包括靶核酸分子的序列的累积分数的至少70%的序列。在一些情况下,多核苷酸的累积分数的不多于50%包括靶核酸分子的序列的累积分数的至少90%的序列。在一些情况下,均匀性使用基尼指数描述(其中指数0表示文库的完全相等,指数1表示完全不等)。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.55、0.50、0.45、0.40或0.30。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.50。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.40。在一些情况下,这种均匀性度量取决于所获得的读取次数。例如,获得的读取不多于1亿、2亿、3亿、4亿或不多于5亿。在一些情况下,读取的长度为约50、75、100、125、150、175、200、225或约250个碱基。在一些情况下,均匀性度量取决于靶核酸的覆盖深度。例如,平均覆盖深度为约10x、15x、20x、25x或约30x。在一些情况下,平均覆盖深度为10-30x、20-50x、5-40x、20-60x、5-20x或10-20x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.55,其中获得了约3亿次读取。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.50,其中获得了约3亿次读取。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.45,其中获得了约3亿次读取。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.55,其中获得了不多于3亿次读取。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.50,其中获得了不多于3亿次读取。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.45,其中获得了不多于3亿次读取。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.55,其中测序覆盖的平均深度为约15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.50,其中测序覆盖的平均深度为约15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.45,其中测序覆盖的平均深度为约15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.55,其中测序覆盖的平均深度为至少15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.50,其中测序覆盖的平均深度为至少15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.45,其中测序覆盖的平均深度为至少15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.55,其中测序覆盖的平均深度不多于15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.50,其中测序覆盖的平均深度不多于15x。在一些情况下,本文所述的扩增子文库的基尼指数不多于0.45,其中测序覆盖的平均深度不多于15x。在一些情况下,使用本文所述方法生成的均匀扩增子文库需要经受额外步骤,如衔接子连接和进一步的pcr扩增。在一些情况下,这些额外步骤在测序步骤之前。
[0122]
引物包括用于引发本文所述的扩增反应的核酸。在一些情况下,这些引物包括但不限于具有或不具有使其抵抗核酸外切酶的修饰的任何长度的随机脱氧核苷酸,具有或不
具有使其抵抗核酸外切酶的修饰的任意长度的随机核糖核苷酸,修饰的核酸,如锁核酸、靶向特定基因组区域的dna或rna引物,以及由如引发酶的酶引发的反应。在全基因组pta的情况下,优选使用具有随机或部分随机核苷酸序列的一组引物。在非常复杂的核酸样品中,不需要知道样品中存在的具体核酸序列,并且不需要将引物设计为与任何特定序列互补。相反,核酸样品的复杂性导致样品中大量不同的杂交靶序列,它们将与随机或部分随机序列的各种引物互补。在一些情况下,用于pta的引物的互补部分是完全随机的,仅包括随机的部分,或是选择性地随机的。在一些情况下,例如,引物的互补部分中的随机碱基位置数为引物的互补部分中的核苷酸总数的20%至100%。在一些情况下,引物的互补部分中的随机碱基位置数为引物的互补部分中的核苷酸总数的10%至90%、15-95%、20%-100%、30%-100%、50%-100%、75-100%或90-95%。在一些情况下,引物的互补部分中的随机碱基位置数为引物的互补部分中的核苷酸总数的至少10%、20%、30%、40%、50%、60%、70%、80%或至少90%。在一些情况下,使用标准技术合成具有随机或部分随机序列的引物组,这是通过允许在每个位置随机添加任何核苷酸。在一些情况下,引物组由具有相似的长度和/或杂交特性的引物组成。在一些情况下,术语“随机引物”是指在每个位置均可表现出4倍简并性的引物。在一些情况下,术语“随机引物”是指在每个位置均可表现出3倍简并性的引物。在一些情况下,本文所述方法中使用的随机引物包括长度为3、4、5、6、7、8、10、11、12、13、14、15、16、17、18、19、20或更多个碱基的随机序列。在一些情况下,引物包括长度为3-20、5-15、5-20、6-12或4-10个碱基的随机序列。引物也可以包括不可延伸的元件,其限制产生的扩增子的后续扩增。例如,在一些情况下,具有不可延伸元件的引物包括终止子。在一些情况下,引物包括终止子核苷酸,如1、2、3、4、5、10或多于10种终止子核苷酸。引物不需要局限于从外部添加至扩增反应的组分。在一些情况下,通过添加促进引发的核苷酸和蛋白质来原位产生引物。例如,在一些情况下,将与核苷酸组合的类似于引发酶的酶用于产生本文所述方法的随机引物。在一些情况下,类似引发酶的酶是dnag或aep酶超家族的成员。在一些情况下,类似引发酶的酶是tthprimpol。在一些情况下,类似引发酶的酶是t7gp4解旋酶-引发酶。在一些情况下,这些引发酶与本文所述的聚合酶或链置换因子一起使用。在一些情况下,引发酶用脱氧核糖核苷酸启动引发。在一些情况下,引发酶用核糖核苷酸启动引发。
[0123]
在pta扩增后可以选择扩增子的特定子集。在一些情况下,这种选择取决于大小、亲和力、活性、与探针的杂交或本领域中其他已知的选择因子。在一些情况下,选择在本文所述的额外步骤如衔接子连接和/或文库扩增之前或之后进行。在一些情况下,选择基于扩增子的大小(长度)。在一些情况下,选择较小的扩增子,其不太可能经历指数扩增,从而丰富了从原代模板衍生的产物,同时进一步将扩增从指数形式转化为拟线性扩增过程(图1a)。在一些情况下,选择长度为50-2000、25-5000、40-3000、50-1000、200-1000、300-1000、400-1000、400-600、600-2000或800-1000个碱基的扩增子。在一些情况下,通过使用方案来进行大小选择,例如,在羧化顺磁珠上使用固相可逆固定化(spri)以富集特定大小的核酸片段,或本领域技术人员已知的其他方案。任选地或组合地,选择通过在制备测序文库的同时在pcr期间优先扩增较小片段来进行,也作为在illumina测序期间优先由较小测序文库片段形成簇的结果来进行。选择较小片段的其他策略也符合本文所述的方法,包括但不限于在凝胶电泳后分离特定大小的核酸片段,使用结合特定大小的核酸片段的硅胶柱,以及
使用可以更强地富集较小片段的其他pcr策略。可以将任何数量的文库制备方案与本文所述的pta方法一起使用。在一些情况下,将通过pta产生的扩增子连接至衔接子(任选地在除去终止子核苷酸的情况下)。在一些情况下,通过pta产生的扩增子包含由基于转座酶的碎片化产生的同源区域,其用作引发位点。
[0124]
pta中使用的引物的非互补部分可以包括可用于进一步操纵和/或分析扩增序列的序列。这种序列的一个示例是“检测标签”。检测标签具有与检测探针互补的序列,并使用其同源检测探针进行检测。引物上可以有一个、两个、三个、四个或四个以上的检测标签。除引物的大小外,对引物上可能存在的检测标签的数目没有基本限制。在一些情况下,引物上只有一个检测标签。在一些情况下,引物上有两个检测标签。当有多个检测标签时,它们可以具有相同的序列,也可以具有不同的序列,每个不同的序列与不同的检测探针互补。在一些情况下,多个检测标签具有相同的序列。在一些情况下,多个检测标签具有不同的序列。
[0125]
可以包括在引物的非互补部分中的序列的另一个示例是“地址标签”,所述地址标签可以编码扩增子的其他细节,如组织切片中的位置。在一些情况下,细胞条形码包括地址标签。地址标签具有与地址探针互补的序列。地址标签被并入扩增链的末端。如果存在,引物上可以有一个或多个地址标签。除引物的大小外,引物上可能存在的地址标签的数目没有基本限制。当有多个地址标签时,它们可以具有相同的序列,也可以具有不同的序列,每个不同的序列都与不同的地址探针互补。地址标签部分可以是支持地址标签与地址探针之间特异性且稳定的杂交的任何长度。在一些情况下,来自一个以上来源的核酸可以并入可变标签序列。该标签序列的长度可以高达100个核苷酸,优选地长度为1至10个核苷酸,最优选地为4、5或6个核苷酸,并且包括核苷酸的组合。在一些情况下,标签序列的长度为1-20、2-15、3-13、4-12、5-12或1-10个核苷酸。例如,如果选择六个碱基对形成标签并且使用四个不同核苷酸的排列,则可以制成总共4096个核酸锚(例如,发夹),每个锚具有独特的6碱基标签。
[0126]
本文所述的引物可以存在于溶液中或固定在固体支持物上。在一些情况下,带有样品条形码和/或umi序列的引物可以固定在固体支持物上。例如,固体支持物可以是一个或多个珠子。在一些情况下,使个体细胞与一个或多个具有独特的一组样品条形码和/或umi序列的珠子接触,以鉴定个体细胞。在一些情况下,将来自个体细胞的裂解物与一个或多个具有独特的一组样品条形码和/或umi序列的珠子接触,以鉴定个体细胞裂解物。在一些情况下,将来自个体细胞的纯化的核酸与一个或多个具有独特的一组样品条形码和/或umi序列的珠子接触,以鉴定来自个体细胞的纯化的核酸。珠子可以以本领域已知的任何合适方式来操纵,例如,使用本文所述的液滴致动器。珠子可以是任何合适的大小,包括例如,微珠、微粒、纳米珠和纳米颗粒。在一些实施方案中,珠子是磁响应的;在其他实施方案中,珠子没有明显的磁响应。合适的珠子的非限制性示例包括流式细胞术微珠、聚苯乙烯微粒和纳米颗粒、官能化的聚苯乙烯微粒和纳米颗粒、包覆的聚苯乙烯微粒和纳米颗粒、二氧化硅微珠、荧光微球和纳米球、官能化的荧光微球和纳米球、包覆的荧光微球和纳米球、颜色染色微粒和纳米颗粒、磁性微粒和纳米颗粒、超顺磁性微粒和纳米颗粒(例如,可从invitrogen group,carlsbad,ca获得的)、荧光微粒和纳米颗粒、包覆的磁性微粒和纳米颗粒、铁磁性微粒和纳米颗粒、包覆的铁磁性微粒和纳米颗粒,以及在美国专利申请公开号us20050260686、us20030132538、us20050118574、20050277197、20060159962
中所描述的。珠子可以与抗体、蛋白质或抗原、dna/rna探针或任何其他对所需靶标具有亲和力的分子预耦合。在一些实施方案中,带有样品条形码和/或umi序列的引物可以在溶液中。在某些实施方案中,可以提供多个液滴,其中多个液滴中的每个液滴都具有对于液滴来说独特的样品条形码和对于分子来说独特的umi,从而使得umi在液滴集合内重复多次。在一些实施方案中,使个体细胞与具有独特的一组样品条形码和/或umi序列的液滴接触,以鉴定个体细胞。在一些实施方案中,使来自个体细胞的裂解物与具有独特的一组样品条形码和/或umi序列的液滴接触,以鉴定个体细胞裂解物。在一些实施方案中,将来自个体细胞的纯化的核酸与具有独特的一组样品条形码和/或umi序列的液滴接触,以鉴定来自个体细胞的纯化的核酸。各种微流体平台可用于分析单细胞。在一些情况下,通过流体动力学(液滴微流体、惯性微流体、涡旋、微型阀、微观结构(例如,微孔、微阱))、电方法(电泳(dep)、电渗)、光学方法(光学镊子、光学诱导介电泳(odep)、光学热毛细)、声学方法或磁性方法操纵细胞。在一些情况下,微流体平台包括微孔。在一些情况下,微流体平台包括基于pdms(聚二甲基硅氧烷)的装置。与本文所述的方法相容的单细胞分析平台的非限制示例是:ddseq单细胞分离器(bio-rad,hercules,ca,usa和illumina,san diego,ca,usa));chromium(10x genomics,pleasanton,ca,usa));rhapsody单细胞分析系统(bd,franklin lakes,nj,usa);tapestri平台(missionbio,san francisco,ca,usa));nadia innovate(dolomite bio,royston,uk);c1和polaris(fluidigm,south san francisco,ca,usa);icell8单细胞系统(takara);msnd(wafergen);puncher平台(vycap);cellraft air系统(cellmicrosystems);deparray nxt和deparray系统(menarini silicon biosystems);aviso cellcelector(als);以及indrop系统(1cellbio)。
[0127]
pta引物可以包括序列特异性或随机的引物、地址标签、细胞条形码和/或独特的分子标识符(umi)(参见,例如,图6a(线性引物)和图6b(发夹引物))。在一些情况下,引物包括序列特异性引物。在一些情况下,引物包括随机引物。在一些情况下,引物包括细胞条形码。在一些情况下,引物包括样品条形码。在一些情况下,引物包括独特的分子标识符。在一些情况下,引物包括两个或更多个细胞条形码。在一些情况下,这些条形码标识独特的样品来源或独特的工作流程。在一些情况下,这些条形码或umi的长度为5、6、7、8、9、10、11、12、15、20、25、30或多于30个碱基。在一些情况下,引物包括至少1000、10,000、50,000、100,000、250,000、500,000、106、107、108、109或至少10
10
个独特条形码或umi。在一些情况下,引物包括至少8、16、96或384个独特条形码或umi。在一些情况下,然后在测序前将标准衔接子连接至扩增产物上;测序后,首先根据细胞条形码将读取分配给特定细胞。可以与pta方法一起使用的合适衔接子包括,例如,可从integrated dna technologies(idt)获得的index umi衔接子。然后,使用umi将来自每个细胞的读取分组,并将具有相同umi的读取合并为共有读取。使用细胞条形码允许在制备文库之前合并所有细胞,因为它们之后可以通过细胞条形码鉴定。在一些情况下,使用umi形成共有读取校正pcr偏倚,从而改善拷贝数变异(cnv)检测。此外,可以通过要求来自同一分子的固定百分比的读取在每个位置具有相同的检测到的碱基变化来校正测序错误。这种方法已被用于改善cnv检测并校正大量样品中的测序错误。在一些情况下,umi与本文所述的方法一起使用,例如,美国专利号8,835,358公开了在附接随机可扩增条形码后的数字计数原理。schmitt.等人和fan等人公开了校正测序错误的类似方法。
[0128]
本文所述的方法可以还包括额外步骤,包括对样品或模板进行的步骤。在一些情况下,这些样品或模板在pta之前要经过一个或多个步骤。在一些情况下,对包括细胞的样品进行预处理步骤。例如,使用冻融、triton x-100、tween 20和蛋白酶k的组合对细胞进行裂解和蛋白水解,以增加染色质的可及性。其他裂解策略也适用于实施本文所述的方法。这些策略包括但不限于使用洗涤剂和/或溶菌酶和/或蛋白酶处理,以及/或细胞物理破坏如超声和/或碱裂解和/或低渗裂解的其他组合进行裂解。在一些情况下,将细胞用机械(例如,高压均化器、珠子研磨)或非机械(物理、化学或生物)裂解。在一些情况下,物理裂解方法包括加热、渗透压休克和/或空化。在一些情况下,化学裂解包括碱和/或洗涤剂。在一些情况下,生物裂解包括使用酶。裂解方法的组合也与本文所述的方法相容。裂解酶的非限制示例包括重组溶菌酶、丝氨酸蛋白酶和细菌溶素。在一些情况下,用酶的裂解包括使用溶菌酶、溶葡球菌酶、消解酶、纤维素、蛋白酶或聚糖酶。在一些情况下,对原代模板或靶分子进行预处理步骤。在一些情况下,使用氢氧化钠使原代模板(或靶标)变性,然后中和溶液。其他变性策略也可适用于实施本文所述的方法。这些策略可以包括但不限于将碱裂解与其他碱性溶液组合,提高样品温度和/或改变样品中的盐浓度,添加添加剂如溶剂或油,其他修饰或其任何组合。在一些情况下,额外步骤包括按大小对样品、模板或扩增子进行分类、过滤或分离。例如,在用本文所述的方法扩增后,扩增子文库富集具有期望长度的扩增子。在一些情况下,扩增子文库富含长度为50-2000、25-1000、50-1000、75-2000、100-3000、150-500、75-250、170-500、100-500或75-2000个碱基的扩增子。在一些情况下,扩增子文库富含长度不多于75、100、150、200、500、750、1000、2000、5000或不多于10,000个碱基的扩增子。在一些情况下,扩增子文库富含长度为至少25、50、75、100、150、200、500、750、1000或至少2000个碱基的扩增子。
[0129]
本文所述的方法和组合物可包括缓冲剂或其他制剂。在一些情况下,这些缓冲剂包括表面活性剂/洗涤剂或变性剂(tween-20、dmso、dmf,包括疏水基团的聚乙二醇化聚合物或其他表面活性剂)、盐(磷酸钾或磷酸钠(一元或二元)、氯化钠、氯化钾)、trishcl、氯化镁或硫酸镁、铵盐,如磷酸盐、硝酸盐或硫酸盐、edta)、还原剂(dtt、thp、dte、β-巯基乙醇、tcep或其他还原剂)或其他组分(甘油、亲水性聚合物,如peg)。在一些情况下,将缓冲剂与如聚合酶、链置换因子、终止子或本文所述的其他反应组分等组分结合使用。缓冲剂可以包含一种或多种拥挤剂。在一些情况下,拥挤试剂包括聚合物。在一些情况下,拥挤试剂包括聚合物如多元醇。在一些情况下,拥挤试剂包括聚乙二醇聚合物(peg)。在一些情况下,拥挤试剂包括多糖。非限制地,拥挤试剂的示例包括ficoll(例如,ficoll pm 400、ficoll pm 70或其他分子量ficoll)、peg(例如,peg1000、peg 2000、peg4000、peg6000、peg8000或其他分子量peg)、右旋糖酐(右旋糖酐6、右旋糖酐10、右旋糖酐40、右旋糖酐70、右旋糖酐6000、右旋糖酐138k或其他分子量右旋糖酐)。
[0130]
根据本文所述方法扩增的核酸分子可以使用本领域技术人员已知的方法进行测序和分析。在一些情况下,使用的测序方法的非限制性示例包括,例如,杂交测序(sbh)、连接测序(sbl)(shendure等人(2005)science 309:1728)、定量增量荧光核苷酸添加测序(qifnas)、逐步连接和切割、荧光共振能量转移(fret)、分子信标、taqman报告基因探针消化、焦磷酸测序、荧光原位测序(fisseq)、fisseq珠子(美国专利号7,425,431)、摆动测序(国际专利申请公开号wo2006/073504)、多重测序(美国专利申请公开号us2008/0269068;
porreca等人,2007,nat.methods 4:931)、聚合酶克隆(polony)测序(美国专利号6,432,360、6,485,944和6,511,803,以及国际专利申请公开号wo2005/082098)、纳米网格滚环测序(rolony)(美国专利号9,624,538)、等位基因特异性寡核苷酸连接测定(例如,寡核苷酸连接测定(ola),使用连接的线性探针和滚环扩增(rca)读出的单模板分子ola,连接的挂锁探针和/或使用连接的圆形挂锁探针和滚环扩增(rca)读出的单模板分子ola)、高通量测序方法,例如,使用roche 454、illumina solexa、ab-solid、helicos、polonator平台等的方法,以及基于光的测序技术(landegren等人(1998)genome res.8:769-76;kwok(2000)pharmacogenomics1:95-100;以及shi(2001)clin.chem.47:164-172)。在一些情况下,将扩增的核酸分子进行鸟枪法测序。
[0131]
本文描述了使用本文所述的pta方法从包括短核酸的样品中产生扩增子文库的方法。在一些情况下,pta可以提高短核酸扩增的保真度和均匀性。在一些情况下,核酸的长度不多于2000个碱基。在一些情况下,核酸的长度不多于1000个碱基。在一些情况下,核酸的长度不多于500个碱基。在一些情况下,核酸的长度不多于200、400、750、1000、2000或5000个碱基。在一些情况下,包括短核酸片段的样品包括但不限于古dna(年龄为数百年、数千年、数百万甚至数十亿年)、ffpe(福尔马林固定石蜡包埋的)样品、无细胞dna或其他包括短核酸的样品。试剂盒
[0132]
本文描述了有助于实施pta方法的试剂盒。上文关于示例性反应混合物和反应方法阐述的组分的各种组合可以以试剂盒形式提供。试剂盒可以包括彼此分开的单独组分,例如,在分开的容器或包装中携带。在一些情况下,试剂盒包括本文所阐述组分的一种或多种子组合,所述一种或多种子组合与试剂盒的其他组分分开。在一些情况下,子组合可组合以产生本文所阐述的反应混合物(或组合以进行本文所阐述的反应)。在特定的实施方案中,存在于单个容器或包装中的组分的子组合不足以进行本文所阐述的反应。然而,在一些情况下,作为整体的试剂盒包括容器或包装的集合,其内容物可以组合以进行本文所阐述的反应。
[0133]
试剂盒可以包括合适的包装材料以容纳试剂盒的内容物。在一些情况下,将包装材料通过熟知方法构造,优选地以提供无菌、无污染物的环境。本文采用的包装材料包括,例如,通常用于与核酸测序系统一起使用的市售试剂盒中的包装材料。示例性包装材料包括但不限于玻璃、塑料、纸、箔等,能够将本文所阐述的组分保持在固定限度内。包装材料可以包括标记,所述标记指示组分的特定用途。在一些情况下,由标记指示的试剂盒的用途是本文所阐述的一种或多种方法,其适合于试剂盒中存在的组分的特定组合。例如,在一些情况下,标记指示试剂盒可用于使用pta方法检测核酸样品中突变的方法。试剂盒中还可以包括包装的试剂或组分的使用说明书。说明书通常将包括描述反应参数的有形表达,如试剂盒组分和待混合样品的相对量、试剂/样品混合物的维持时间段、温度、缓冲条件等。应理解,并非特定反应所需的所有组分都需要存在于特定试剂盒中。相反,在一些情况下,一种或多种另外的组分由其他来源提供。在一些情况下,随试剂盒提供的说明书确定了待提供的一种或多种另外的组分以及可以从哪里获得它们。在一个实施方案中,试剂盒提供了至少一种扩增引物;至少一种核酸聚合酶;至少两种核苷酸的混合物,其中所述核苷酸的混合物包含至少一种终止所述聚合酶的核酸复制的终止子核苷酸;以及使用所述试剂盒的说明
书。在一些情况下,所述试剂盒提供了用于进行本文所述方法(如pta)的试剂。在一些情况下,试剂盒还包括配置用于基因编辑(例如,crispr/cas9或本文所述的其他方法)的试剂。在一些情况下,试剂盒包括本文所述的变体聚合酶。
[0134]
在相关方面,本发明提供了包含逆转录酶、核酸聚合酶、一种或多种扩增引物、包含一种或多种终止子核苷酸的核苷酸混合物以及任选的使用说明的试剂盒。在本发明试剂盒的一个实施方案中,核酸聚合酶是链置换dna聚合酶。在本发明试剂盒的一个实施方案中,核酸聚合酶选自噬菌体phi29(φ29)聚合酶、基因修饰的phi29(φ29)dna聚合酶、dna聚合酶i的klenow片段、噬菌体m2dna聚合酶、噬菌体phiprd1 dna聚合酶、bst dna聚合酶、bst大片段dna聚合酶、exo(-)bst聚合酶、exo(-)bca dna聚合酶、bsu dna聚合酶、vent
r dna聚合酶、ventr(exo-)dna聚合酶、deep vent dna聚合酶、deep vent(exo-)dna聚合酶、isopol dna聚合酶、dna聚合酶i、therminator dna聚合酶、t5dna聚合酶、测序酶、t7dna聚合酶、t7-测序酶和t4dna聚合酶。在本发明试剂盒的一个实施方案中,核酸聚合酶具有3'-》5'核酸外切酶活性,并且终止子核苷酸抑制这种3'-》5'核酸外切酶活性(例如,带有α基团修饰的核苷酸[例如,α-硫代双脱氧核苷酸]、c3间隔子核苷酸、锁核酸(lna)、反向核酸、2'氟核苷酸、3'磷酸化核苷酸、2'-o-甲基修饰的核苷酸、反式核酸)。在本发明试剂盒的一个实施方案中,核酸聚合酶不具有3'-》5'核酸外切酶活性(例如,bst dna聚合酶、exo(-)bst聚合酶、exo(-)bca dna聚合酶、bsu dna聚合酶、ventr(exo-)dna聚合酶、deep vent(exo-)dna聚合酶、klenow片段(exo-)dna聚合酶、therminator dna聚合酶)。在一个特定的实施方案中,终止子核苷酸包括脱氧核糖的3'碳的r基团的修饰。在一个特定的实施方案中,终止子核苷酸选自包括核苷酸的3’封闭的可逆终止子、包括核苷酸的3’未封闭的可逆终止子、包括脱氧核苷酸的2’修饰的终止子、包括对脱氧核苷酸的含氮碱基的修饰的终止子及其组合。在一个特定的实施方案中,终止子核苷酸选自双脱氧核苷酸,反向双脱氧核苷酸,3'生物素化核苷酸,3'氨基核苷酸,3'-磷酸化核苷酸,3'-o-甲基核苷酸,包括3'c3间隔子核苷酸、3'c18核苷酸、3'己二醇间隔子核苷酸的3'碳间隔子核苷酸,无环核苷酸,及其组合。实施例
[0135]
提出以下实施例以更清楚地向本领域技术人员说明本文公开的实施方案的原理和实践,并且不应被解释为限制任何要求保护的实施方案的范围。除非另有说明,否则所有份数和百分比均以重量计。
[0136]
实施例1:原代模板定向扩增(pta)
[0137]
尽管pta可以用于任何核酸扩增,但它对于全基因组扩增特别有用,因为与目前使用的方法例如像多重置换扩增(mda)相比,它允许以更均匀且可再现的方式捕获更大百分比的细胞基因组,并且错误率更低,从而避免了目前使用的方法的缺点,如在聚合酶首先延伸随机引物的位置处进行的指数扩增,而所述指数扩增导致基因座和等位基因的随机过度表达和突变传播(参见图1a-1c)。
[0138]
细胞培养
[0139]
将人na12878(coriell institute)细胞维持在rpmi培养基中,所述培养基补充有15%fbs和2mm的l-谷氨酰胺、100单位/ml的青霉素、100μg/ml的链霉素和0.25μg/ml的两性霉素b(gibco,life technologies)。细胞以3.5
×
105个细胞/ml的密度接种。培养物每3天分离一次,并在37c,5%co2的潮湿培养箱中维持。
[0140]
单细胞分离和wga
[0141]
以3.5
×
105个细胞/ml的密度接种后,将na12878细胞培养至少三天,在这之后将3ml的细胞悬浮液以300xg沉淀10分钟。然后弃去培养基,并且将细胞用1ml细胞洗涤缓冲剂(含有2%fbs,不含mg
2
或ca
2
的1x pbs)洗涤3次,以300xg、200xg和最后100xg离心5分钟。然后将细胞重悬于500μl细胞洗涤缓冲剂中。随后用100nm钙黄绿素am(分子探针)和100ng/ml碘化丙啶(pi;sigma-aldrich)染色,以区分活细胞群。将细胞加载在已被eliminase(decon labs)彻底清洗过的bd facscan流式细胞仪(facsaria ii)(bd biosciences)上,并且使用accudrop荧光珠(bd biosciences)校准,以进行细胞筛选。在要经历pta(sigma-aldrich)的细胞中将来自钙黄绿素am阳性且pi阴性的部分中的单细胞分入96孔板的每个孔中,孔中含有3μl的pbs和0.2%tween 20。有意将多个孔留空,以用作无模板对照(ntc)。分选后,立即将板短暂离心并置于冰上。然后,将细胞在-20℃冷冻至少过夜。第二天,在预pcr工作站上进行wga反应,所述工作站提供恒定正压的hepa过滤空气,并在每次实验前用紫外线消毒30分钟。
[0142]
在使用修改的情况下进行mda,所述修改先前已显示出改善扩增均匀性。具体地,将抗核酸外切酶的随机引物(thermofisher)添加至裂解缓冲剂/混合物,至最终浓度为125μm。将4μl所得到的裂解/变性混合物添加至含有单细胞的管,涡旋振荡,短暂离心并在冰上温育10分钟。将细胞裂解液通过添加3μl淬灭缓冲剂来中和,涡旋混合,短暂离心,并置于室温下。随后添加40μl扩增混合物,然后在30℃温育8小时,然后通过加热至65℃持续3分钟来终止扩增。
[0143]
pta通过在冻融后首先进一步裂解细胞来进行,所述裂解是通过添加5%triton x-100(sigma-aldrich)和20mg/ml蛋白酶k(promega)的1:1混合物的2μl预冷溶液。然后将细胞涡旋并短暂离心,然后在40度放置10分钟。然后将4μl裂解缓冲剂/混合物和1μl 500μm抗核酸外切酶的随机引物添加至裂解的细胞,以使dna变性,然后涡旋,离心并在65度下放置15分钟。然后添加4μl室温淬灭缓冲剂,并且将样品涡旋并离心分离。56μl扩增混合物(引物、dntp、聚合酶、缓冲剂)含有等比率的α-硫代-ddntp,其在最终的扩增反应物中浓度为1200μm。然后将样品在30℃放置8小时,然后加热至65℃持续3分钟来终止扩增。
[0144]
扩增步骤后,使用ampure xp磁珠(beckman coulter)以2:1的磁珠样品比纯化来自mda和pta反应的dna,并使用qubit dsdna hs测定试剂盒和qubit 3.0荧光计根据制造商的说明(life technologies)来测量产量。
[0145]
文库制备
[0146]
mda反应导致产生40μg扩增dna。根据标准程序,将1μg产物酶法片段化30分钟。然后用15μm双索引衔接子(t4聚合酶的末端修复、t4多核苷酸激酶和用于加a尾的taq聚合酶)和4个pcr循环,对样品进行标准文库制备。每个pta反应产生40-60ng的物质,所述物质用于标准dna测序文库制备。在与t4连接酶的连接中使用具有umi和双索引的2.5μm衔接子,并且在最终扩增中使用15个pcr循环(热启动聚合酶)。然后使用双侧spri来清理文库,右侧选择和左侧选择所采用的比例分别为0.65x和0.55x。在illumina nextseq平台上测序之前,使用qubit dsdna br测定试剂盒和2100生物分析仪(agilent technologies)对最终文库进行量化。包括novaseq在内的所有illumina测序平台也与所述方案兼容。
[0147]
数据分析
[0148]
使用bcl2fastq基于细胞条形码对测序读取进行多路解编。然后使用trimmomatic修剪读取,随后使用bwa将其与hg19比对。读取由picard进行重复标记,然后使用gatk 4.0进行局部重新比对和碱基重新校准。所有用于计算质量指标的文件都使用picard downsamplesam下取样至2000万次读取。质量指标是使用qualimap以及picard alignmentsummarymetrics和collectwgsmetrics从最终bam文件获取的。总基因组覆盖也使用preseq估算。
[0149]
变体判定
[0150]
使用来自gatk 4.0的gatk unifiedgenotyper判定单核苷酸变体和插入/缺失。将使用gatk最佳实践的标准过滤条件用于过程中的所有步骤(https://software.broadinstitute.org/gatk/best-practices/)。使用control-freec(boeva等人,bioinformatics,2012,28(3):423-5)判定拷贝数变体。结构变体还使用crest检测(wang等人,nat methods,2011,8(8):652-4)。
[0151]
结果如图3a和图3b所示,仅用双脱氧核苷酸(“可逆”)扩增的映射率和映射质量得分分别为15.0 /-2.2和0.8 /-0.08,而掺入抗核酸外切酶的α-硫代双脱氧核苷酸终止子(“不可逆”)的映射率和映射质量得分分别为97.9 /-0.62和46.3 /-3.18。实验还使用可逆的ddntp和不同浓度的终止子进行。(图2a,底部)
[0152]
图2b-2e示出了经过mda(按照dong,x.等人,nat methods.2017,14(5):491-493的方法)或pta的na12878人单细胞所产生的比较数据。虽然两种方案均产生了相当的低pcr重复率(mda为1.26% /-0.52,而pta为1.84% /-0.99)以及gc%(mda为42.0 /-1.47,而pta为40.33 /-0.45),但pta产生的扩增子更小。与mda相比,pta的映射读取百分比和映射质量得分也明显更高(分别为pta97.9 /-0.62与mda 82.13 /-0.62,以及pta 46.3 /-3.18与mda43.2 /-4.21)。总体而言,与mda相比,pta生成更多可用的映射数据。图4示出,与mda相比,pta显著提高了扩增的均匀性,覆盖范围更广且覆盖接近0的区域更少。使用pta允许鉴定核酸群体中的低频序列变体,包括占总序列的≥0.01%的变体。pta可以成功用于单细胞基因组扩增。
[0153]
实施例2:大规模并行单细胞dna测序
[0154]
使用pta,建立了用于大规模并行dna测序的方案。首先,将细胞条形码添加至随机引物。采用了两种策略来最大程度地减少细胞条形码引入的扩增中的任何偏差:1)延长随机引物的大小和/或2)创建引物,使其自身环回,以防止细胞条形码与模板结合(图6b)。一旦建立了最佳引物策略,则可以使用,例如,mosquito hts液体处理器对多达384种分选的细胞进行扩展,所述处理器可以高精度地将粘性液体移至25nl的体积。通过使用1μl pta反应代替标准的50μl反应体积,该液体处理器还可将试剂成本降低约50倍。
[0155]
通过将带有细胞条形码的引物递送至液滴,将扩增方案转化到液滴中。任选地使用固体支持物,如使用裂池策略创建的珠子。例如,合适的珠子可以从chemgenes获得。在一些情况下,寡核苷酸含有随机引物、细胞条形码、独特的分子标识符以及可切割的序列或间隔子,以在将珠和细胞封装在同一液滴中后释放寡核苷酸。在此过程中,优化液滴中低纳升体积的模板、引物、dntp、α-硫代-ddntp和聚合酶浓度。在一些情况下,优化包括使用较大的液滴以增加反应体积。如图5所示,此过程需要两个连续的反应来裂解细胞,随后进行wga。
含有裂解细胞和珠子的第一液滴与含有扩增混合物的第二液滴结合。替代地或组合地,细胞在裂解前封装在水凝胶珠中,然后可以将两种珠子添加至油滴中。参见lan,f.等人,nature biotechnol.,2017,35:640-646)。
[0156]
另外的方法包括使用微孔,在一些情况下,所述微孔在3
″×2″
的显微镜载玻片大小的装置上的20皮升反应室中捕获140,000个单细胞。与基于液滴的方法类似,这些孔将细胞与含有细胞条形码的珠子结合,从而允许进行大规模并行处理。参见gole等人,nature biotechnol.,2013,31:1126-1132。
[0157]
实施例3:phi29变体聚合酶
[0158]
按照实施例1的一般方法,用具有seq id no:11-15中任一个的变体聚合酶进行pta方法。变体聚合酶由合适宿主中的质粒或基因组整合表达,纯化,并与pta方法一起使用。评价测序度量如一致性和碱基调用,并与使用seq id no:1的phi29聚合酶的对照实验进行比较。
[0159]
尽管已经在本文中示出和描述了本发明的优选实施方案,但是对于本领域技术人员而言将显而易见的是,此类实施方案仅为通过举例方式提供。在不脱离本发明的情况下,本领域技术人员现将会想到众多变化、改变和替代。应理解,本文所述的本发明的实施方案的各种替代方案可以用于实践本发明。所附权利要求旨在限定本发明的范围,并且由此涵盖这些权利要求及其等同项范围内的方法和结构。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献