用于基因组修饰的高保真SpCas9核酸酶的制作方法

2022-10-27 00:04:12 来源：中国专利 TAG：

用于基因组修饰的高保真spcas9核酸酶
1.相关申请的交叉引用本技术要求于2020年3月11日提交的美国临时申请号62/988,279的优先权利益，所述美国临时申请的全部内容通过引用并入本文。
2.序列表本技术含有序列表，其已以ascii格式电子提交，并且在此通过引用以其整体并入。于2021年3月11日创建的所述ascii副本命名为p20-035_wo-pct_sl.txt，并且大小为49,120字节。
技术领域
3.本公开内容涉及改造的cas9蛋白质变体和系统，编码所述蛋白质变体和系统的核酸，以及制备和使用所述蛋白质变体和系统用于基因组修饰的方法。

背景技术：

4.化脓性链球菌(streptococcus pyogenes) crispr cas9 (spcas9)作为许多细胞类型和生物中的基因组编辑核酸内切酶已得到广泛采用。然而，野生型核酸酶具有在荷有与靶位点相似的序列的非预期基因组位点处引起突变的倾向。已开发了具有改善特异性的几种spcas9变体来缓解这一缺点。这些包括espcas9 1.0 (k810a、k1003a、r1060a)、espcas9 1.1 (k848a、k1003a、r1060a)、spcas9-hf1 (n497a、r661a、q695a、q926a)、hypacas9 (n692a、m694a、q695a、h698a)、evocas9 (m495v、y515n、k526e、r661l)、sniper cas9 (f539s、m763i、k890n)、hifi cas9 v3 (r691a)、opti-spcas9 (r661a和k1003h)和optihf-spcas9 (q695a、k848a、e293m、t924v和q926a) (slaymaker等人，science 351，84-88；kleinstiver等人，nature 523，490-495；chen等人 nature 550，407-410；casini等人，nature biotechnology 36，265-271；lee等人，nature communications 9，3048；vakulskas等人，nature medicine 24，1216-1224；choi等人，nature methods 16，722-730)。然而，这些变体中的大多数通过以质粒形式筛选得到鉴定，并且它们借助于核糖核蛋白(rnp)递送转换为用于基因组修饰的重组蛋白质经常导致低活性。
5.由于在基因组修饰中关于spcas9重组蛋白质的需求已极大地增加，因此需要以重组蛋白质形式的核酸酶，其可以跨越不同基因组位点以改善的特异性和持续的活性发挥作用。

技术实现要素：

6.在本发明的各个方面中有提供改造的cas9蛋白质变体和包括其的系统。
7.因此，简言之，本公开内容涉及改造的化脓性链球菌cas9 (spcas9)蛋白质变体，其包含在氨基酸位置526、562、652、661、691、780、810、848、855、1003和1060中的一个、两个或更多个处的修饰，其中在前述氨基酸位置中的一个或多个处的赖氨酸(k)改变为亮氨酸(l)或谷氨酰胺(q)，和/或在前述氨基酸位置中的一个或多个处的精氨酸(r)改变为亮氨酸
(l)或谷氨酰胺(q)。例如，在一个示例性实施方案中，改造的spcas9蛋白质变体包含k855l/q突变，以及在氨基酸位置526、562、652、661、691、780、810、848、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个示例性实施方案中，改造的spcas9蛋白质变体包含r661l/q突变，以及在氨基酸位置526、562、652、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在一个特定实施方案中，突变选自下述组：k562l-r661l-k855q；k562q-r661l-k855q；k652l-r661l-k855q；和k652q-r661l-k855q (参考化脓性链球菌cas9——spcas9的编号系统)。
8.本公开内容的另一个方面涉及改造的cas9系统，其包含本文公开的改造的cas9蛋白质变体和至少一种改造的引导rna，其中每种改造的引导rna设计为与改造的cas9蛋白质变体复合。
9.本公开内容的另一个方面涉及编码改造的cas9蛋白质变体的核酸和包括其的系统。还提供了包含核酸的载体。
10.本公开内容的另一个方面涉及制备和使用本文所述的改造的cas9蛋白质变体和系统的方法。
11.其它目的和特征将在下文中部分地显而易见并且部分地指出。
附图说明
12.图1a显示了在人u-2 os细胞中在heksite4靶位点处于k855残基的五种不同取代的中靶活性。k855e和k855a导致中靶活性减少(实施例1)。该图公开了seq id no: 73。
13.图1b显示了在人u-2 os细胞中在heksite4脱靶位点处于k855残基的五种不同取代的脱靶活性(实施例1)。该图公开了seq id no: 74。
14.图2显示了在人u-2 os细胞中在heksite4靶位点处于r661、n692或q695残基的不同取代的中靶活性(实施例2)。该图公开了seq id no: 73。
15.图3a显示了在人k562细胞中于fancf02靶位点处的三重突变蛋白质和四重突变蛋白质的中靶活性(实施例3)。该图公开了seq id no: 75。
16.图3b显示了在人k562细胞中于fancf02单一错配脱靶位点处的三重突变蛋白质和四重突变蛋白质的脱靶活性(实施例3)。该图公开了seq id no: 76。
17.图3c显示了在人k562细胞中于hbb03靶位点处的三重突变蛋白质和四重突变蛋白质的中靶活性(实施例3)。该图公开了seq id no: 77。
18.图3d显示了在人k562细胞中于hbb03单一错配脱靶位点处的三重突变蛋白质和四重突变蛋白质的脱靶活性(实施例3)。该图公开了seq id no: 78。
19.图4显示了在k562细胞中于5个不同基因组位点处的一组所选突变蛋白质的中靶活性(实施例4)。该图按出现次序分别公开了seq id no 79-83。
具体实施方式
20.由于在基因组修饰中关于spcas9重组蛋白质的需求已极大地增加，因此需要以重组蛋白质形式的核酸酶，其可以跨越不同基因组位点以改善的特异性和持续的活性发挥作用。通过使用基于重组蛋白质的筛选方法，已鉴定了具有不同特异性和活性水平的至少两
组不同的spcas9变体。一组具有相对于其它spcas9变体极高的特异性水平，但在不同基因组位点之间高度不同的活性。另一组具有平衡的特异性和活性，在活性方面优于充分确立的espcas9 1.1且在特异性方面优于最近开发的hifi cas9 v3。这组核酸酶在真核细胞中的基因组修饰中具有用于广泛应用的极大潜力。
21.开发高保真spcas9变体的先前尝试已在很大程度上依赖某种基于质粒表达的选择方案。当用作重组蛋白质时，这些变体经常显示低活性。不受特定理论的束缚，推测哺乳动物细胞中的质粒过表达可以掩盖由突变引起的这些变体的减弱活性，以增加特异性。为了避免质粒过表达的这种混杂效应，已采用了基于重组蛋白质的筛选方法来改善核酸酶。此外，与不变地使用丙氨酸取代使关键残基突变的先前尝试形成对比，最佳氨基酸取代用于维持中靶活性，同时改善特异性。这些差异在方法学上将本文公开的蛋白质与衍生自先前spcas9蛋白质工程努力的那些蛋白质区分开。
22.突变及其组合含有推测起来涉及cas9 dna底物结合稳定性潜在的不同机制的关键残基，而先前的尝试将突变组合限制于推测起来涉及一种机制的关键残基。例如，espcas9通过以下进行开发：基于那些带正电荷的残基在链分离时稳定非靶链的假设，使保守的带正电荷的氨基酸残基突变，所述带正电荷的氨基酸残基与非靶链的带负电荷的磷酸酯主链相互作用；并且随后稳定引导rna-靶dna异源双链体的形成(slaymaker等人，science 351，84-88)。相比之下，spcas9-hf1通过减少与靶链的磷酸酯主链的氢键合或电荷相互作用进行开发(kleinstiver等人，nature 523，490-495)。另一方面，hypacas9通过使rec3结构域中的保守残基簇(n692、m694、q695和h698)突变为丙氨酸进行衍生，所述rec3结构域推测起来感知rna-dna相互作用，并且传递这种信号以触发hnh核酸酶结构域的构象转变(chen等人，nature 550，407-410)。
23.通过采用基于重组蛋白质的独特筛选方法并将合理设计扩大到如本文公开的不同机制组合，本公开内容已鉴定了具有不同的特异性和活性水平的至少三组不同的spcas9变体。
24.(i)改造的cas9蛋白质本公开内容的一个方面涉及改造的cas蛋白。改造的cas蛋白包含相对于其野生型配对物的至少一种、至少两种或至少三种氨基酸取代、插入或缺失；即，与野生型cas蛋白相比，改造的cas9蛋白质包括对氨基酸序列的修饰或突变。在各种cas蛋白中，例如，cas9蛋白质是存在于各种细菌中的ii型crispr系统中的单一效应蛋白质。
25.在一个实施方案中，本文公开的改造的cas9蛋白质来自链球菌属(streptococcus)物种。在另一个实施方案中，例如，改造的cas9蛋白质变体来自化脓性链球菌(spcas9)。因此，在一些实施方案中，本文所述的改造的cas9蛋白质是spcas9同源物。
26.野生型cas9蛋白质包含两个核酸酶结构域，即ruvc和hnh结构域，其各自切割双链序列的一条链。cas9蛋白质还包含与引导rna (例如，rec1、rec2)或rna/dna异源双链体(例如，rec3)相互作用的rec结构域，以及与前间隔序列邻近基序(pam)相互作用的结构域(即pam相互作用结构域)。
27.如本文指出的，本公开内容的cas9蛋白质被改造为包含一种或多种修饰(即，至少一个氨基酸的取代、至少一个氨基酸的缺失、至少一个氨基酸的插入)，使得cas9蛋白质具有改变的活性、特异性和/或稳定性。这些改造的cas9蛋白质并非天然地存在。
28.一般而言，已知和/或商购可得的cas9突变体已集中于蛋白质的特定区域中的点突变，而与蛋白质的其它区域和不同区域中的突变组合无关。已有利地发现，相对于已知的cas9突变体，cas9蛋白质的不同区域中的突变组合可以导致改善的特异性、活性(例如，中靶或脱靶活性)和/或其它有益性质。
29.例如，本文公开的cas9蛋白质具有在包括非靶dna链接触残基的蛋白质的结构区域中的至少一个突变、和/或在包括靶dna/引导rna异源双链体接触残基的蛋白质的结构区域中的至少一个突变、和/或在包括α螺旋叶的蛋白质的结构区域中的至少一个突变。为了本公开内容的目的，非靶dna链接触残基包括例如氨基酸r780、k810、k848、k855、k1003和r1060；靶dna/引导rna异源双链体接触残基包括例如氨基酸r661和r691；并且α螺旋叶残基包括例如氨基酸k526、k562和k652 (参考化脓性链球菌cas9——spcas9的编号系统)。因此，在各个实施方案中，本文公开的cas9蛋白质具有在包括非靶dna链接触残基的蛋白质的结构区域中的至少一个突变、以及在包括靶dna/引导rna异源双链体接触残基的蛋白质的结构区域中的至少一个突变。在其它实施方案中，本文公开的cas9蛋白质具有在包括非靶dna链接触残基的蛋白质的结构区域中的至少一个突变、以及在包括α螺旋叶的蛋白质的结构区域中的至少一个突变。在再其它实施方案中，本文公开的cas9蛋白质具有在包括靶dna/引导rna异源双链体接触残基的蛋白质的结构区域中的至少一个突变、以及在包括α螺旋叶的蛋白质的结构区域中的至少一个突变。在再其它实施方案中，本文公开的cas9蛋白质具有在包括非靶dna链接触残基的蛋白质的结构区域中的至少一个突变、以及在包括靶dna/引导rna异源双链体接触残基的蛋白质的结构区域中的至少一个突变、以及在包括α螺旋叶的蛋白质的结构区域中的至少一个突变。
30.本文公开的cas9蛋白质变体具有修饰的氨基酸序列，其通过参考未修饰的成熟(野生型)化脓性链球菌cas9 (seq id no: 1)的相应位置中的氨基酸编号进行鉴定。本文公开的cas9蛋白质变体优选与seq id no: 1具有至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%的同一性或至少99%的同一性：
为了便于参考，20种必需氨基酸的符号及其单字母代码显示于下表a中。
31.表a：氨基酸氨基酸单字母代码丙氨酸a精氨酸r天冬酰胺n天冬氨酸d半胱氨酸c谷氨酰胺q谷氨酸e甘氨酸g组氨酸h异亮氨酸i亮氨酸l赖氨酸k甲硫氨酸m苯丙氨酸f脯氨酸p丝氨酸s苏氨酸t色氨酸w
酪氨酸y缬氨酸v应理解，本文所述的氨基酸修饰利用这样的命名法，其以提及受影响的氨基酸的字母(单字母代码)开头，并且以指定改变的字母(单字母代码)结尾，在两个字母之间具有氨基酸残基位置。例如，假设的蛋白质可能具有在假设的氨基酸位置100处的丙氨酸残基，并且被指定为a100。作为进一步的实例，假设的氨基酸位置100从丙氨酸到缬氨酸的修饰被指定为a100v。选自两个或更多个选项的修饰可以用“/”指定，例如，假设的氨基酸位置100从丙氨酸到缬氨酸或丝氨酸的修饰被指定为a100v/s。
32.在一个实施方案中，改造的cas9蛋白质变体包括在氨基酸位置526、562、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)中的一个或多个处的突变。在另一个实施方案中，改造的cas9蛋白质变体包括在氨基酸位置526、562、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)中的两个或更多个处的突变。因此，例如，改造的cas9蛋白质可以包括在下述中的一个或多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的两个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的三个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的四个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的五个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的六个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的七个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的八个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的九个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述中的十个或更多个处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。作为另一个实例，改造的cas9蛋白质可以包括在下述各自处的突变：k526、k562、k652、r661、r691、r780、k810、k848、k855、k1003和r1060。在这些不同实施方案中的某些中，例如，在前述氨基酸位置中的一个或多个处的赖氨酸(k)改变为亮氨酸(l)或谷氨酰胺(q)，和/或在前述氨基酸位置(r)中的一个或多个处的精氨酸(r)改变为亮氨酸(l)或谷氨酰胺(q)。
33.在一个实施方案中，例如，改造的spcas9变体包括k526l/q突变，以及在氨基酸位置562、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括k562l/q突变，以及在氨基酸位置526、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，
例如，改造的spcas9变体包括k652l/q突变，以及在氨基酸位置526、562、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括r661l/q突变，以及在氨基酸位置526、562、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括r691l/q突变，以及在氨基酸位置562、661、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括r780l/q突变，以及在氨基酸位置526、562、661、691、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括k810l/q突变，以及在氨基酸位置526、562、661、691、780、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括k848l/q突变，以及在氨基酸位置526、562、661、691、780、810、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括k855l/q突变，以及在氨基酸位置526、562、661、691、780、810、848、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括k1003l/q突变，以及在氨基酸位置526、562、661、691、780、810、848、855和1060 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。在另一个实施方案中，例如，改造的spcas9变体包括r1060l/q突变，以及在氨基酸位置526、562、661、691、780、810、848、855和1003 (参考化脓性链球菌cas9——spcas9的编号系统)处的至少一种其它突变。
34.因此，在某些实施方案中，例如，改造的spcas9蛋白质变体包括选自k526l/q、k562l/q、k652l/q、k810l/q、k848l/q、k855l/q、r661l/q、r691l/q、r780l/q、k1003l/q和r1060l/q (参考化脓性链球菌cas9——spcas9的编号系统)的两个不同氨基酸位置处的两种突变。在其它实施方案中，例如，改造的spcas9蛋白质变体包括选自k526l/q、k562l/q、k652l/q、k810l/q、k848l/q、k855l/q、r661l/q、r691l/q、r780l/q、k1003l/q和r1060l/q (参考化脓性链球菌cas9——spcas9的编号系统)的三个不同氨基酸位置处的三种突变。应理解，提供了其它实施方案，其中四种、五种、六种、七种、八种、九种、十种或十一种突变可以存在于选自k526l/q、k562l/q、k652l/q、k810l/q、k848l/q、k855l/q、r661l/q、r691l/q、r780l/q、k1003l/q和r1060l/q (参考化脓性链球菌cas9——spcas9的编号系统)的氨基酸位置处。
35.应理解，在前述段落中，在特定实施方案或实例的范围内的本领域已知的突变体(如果有的话)通过附带条件而排除。
36.在另一个特定实施方案中，改造的spcas9蛋白质变体包括下述突变中的至少一种：k526l、k526q、k562l、k562q、k652l、k652q、k810l、k810q、k848l、k848q、k855l、k855q、r661l、r661q、r691l、r691q、r780l、r780q、k1003l、k1003q、r1060l和r1060q (参考化脓性链球菌cas9——spcas9的编号系统)。
37.在另一个特定实施方案中，改造的spcas9蛋白质变体包括下述突变中的至少两种：k526l、k526q、k562l、k562q、k652l、k652q、k810l、k810q、k848l、k848q、k855l、k855q、
r661l、r661q、r691l、r691q、r780l、r780q、k1003l、k1003q、r1060l和r1060q (参考化脓性链球菌cas9——spcas9的编号系统)。
38.在又一个特定实施方案中，改造的spcas9蛋白质变体包括下述突变中的至少三种：k526l、k526q、k562l、k562q、k652l、k652q、k810l、k810q、k848l、k848q、k855l、k855q、r661l、r661q、r691l、r691q、r780l、r780q、k1003l、k1003q、r1060l和r1060q (参考化脓性链球菌cas9——spcas9的编号系统)。
39.在又一个实施方案中，改造的spcas9蛋白质变体包括下述突变中的至少四种、五种、六种、七种、八种、九种、十种或十一种：k526l、k526q、k562l、k562q、k652l、k652q、k810l、k810q、k848l、k848q、k855l、k855q、r661l、r661q、r691l、r691q、r780l、r780q、k1003l、k1003q、r1060l和r1060q (参考化脓性链球菌cas9——spcas9的编号系统)。
40.在一个特定实施方案中，改造的spcas9蛋白质选自下述变体组之一：k562l-r661l-k855q；k562q-r661l-k855q；k652l-r661l-k855q；k652q-r661l-k855q；r661l-k855q-k1003q；和r661l-k855q-r1060q (参考化脓性链球菌cas9——spcas9的编号系统)。在另一个特定实施方案中，改造的spcas9蛋白质选自下述变体组之一：k562l-r661l-k855q；k562q-r661l-k855q；k652l-r661l-k855q；和k652q-r661l-k855q。因此，例如，改造的spcas9蛋白质变体可以是k562l-r661l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是k562q-r661l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是k652l-r661l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是k652q-r661l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-k855q-k1003q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-k855q-r1060q。这组变体的成员具有相对平衡的特异性和活性，在活性方面优于充分确立的espcas9 1.1且在特异性方面优于最近开发的hifi cas9 v3。
41.在另一个特定实施方案中，改造的spcas9蛋白质选自下述变体组之一：k526l-r661l-k855q；r661l-r691l-k855q；r661l-r780l-k855q；r661l-r780q-k855q；r661l-k810l-k855q和r661l-k848l-k855q (参考化脓性链球菌cas9——spcas9的编号系统)。因此，例如，改造的spcas9蛋白质变体可以是k526l-r661l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-r691l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-r780l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-r780q-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-k810l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-k848l-k855q。这组变体的成员具有极高的特异性水平，但在靶位点之间高度不同的活性。
42.在另一个特定实施方案中，改造的spcas9蛋白质选自下述变体组之一：k526q-r661l-k855q；r661l-k810q-k855q；r661l-k855q-k1003l；和r661l-k855q-r1060l (参考化脓性链球菌cas9——spcas9的编号系统)。因此，例如，改造的spcas9蛋白质变体可以是k526q-r661l-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-k810q-k855q。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-k855q-k1003l。可替代地，例如，改造的spcas9蛋白质变体可以是r661l-k855q-r1060l。这组变体的成员在特异性和活性水平两个方面均与espcas9 1.1相似；然而，它们在突变谱方面与espcas9 1.1不同。
43.除上文讨论的各种突变之外，cas9蛋白质还可以通过一种或多种突变和/或缺失
进行改造，以使核酸酶结构域之一或两者失活。一个核酸酶结构域的失活生成切割双链序列的一条链的cas9蛋白质(即cas9切口酶)。ruvc结构域可以通过突变例如d10a、d8a、e762a和/或d986a进行失活，并且hnh结构域可以通过突变例如h840a、h559a、n854a、n856a和/或n863a (参考化脓性链球菌cas9——spcas9的编号系统)进行失活。两个核酸酶结构域的失活生成没有切割活性的cas9蛋白质(即催化失活或死亡的cas9)。
44.除上文讨论的各种突变之外，cas9蛋白质还可以通过一种或多种氨基酸取代、缺失和/或插入进行改造，以具有改善的靶向特异性、改善的保真度、改变的pam特异性、降低的脱靶效应和/或增加的稳定性。改善靶向特异性、改善保真度和/或降低脱靶效应的一种或多种突变的非限制性实例包括n497a、r661a、q695a、k810a、k848a、k855a、q926a、k1003a、r1060a和/或d1135e (参考化脓性链球菌cas9——spcas9的编号系统)。
45.除上文讨论的修饰之外，cas9蛋白质还可以被改造为包含至少一个异源结构域，即cas9融合到一个或多个异源结构域。在其中两个或更多个异源结构域与cas9融合的情形下，两个或更多个异源结构域可以是相同的，或它们可以是不同的。一个或多个异源结构域可以融合至n末端、c末端、内部位置或其组合。融合可以是经由化学键直接的，或者键合可以是经由一个或多个接头间接的。在各个实施方案中，异源结构域选自核定位信号、细胞穿透结构域、促进检测的标记物或报告结构域(荧光或酶促报告蛋白)、染色质修饰结构域、表观遗传修饰结构域(例如，胞苷脱氨酶结构域、组蛋白乙酰转移酶结构域等等)、转录调控结构域、dna或rna脱氨酶结构域、尿嘧啶-dna-糖基化酶结构域、逆转录酶结构域、重组酶结构域、rna适体结合结构域或非cas9核酸酶结构域。
46.(a)核定位信号在一些实施方案中，一个或多个异源结构域可以是核定位信号(nls)。核定位信号的非限制性实例包括pkkkrkv (seq id no:2)、pkkkrrv (seq id no: 3)、krpaatkkagqakkkk (seq id no: 4)、ygrkkrrqrrr (seq id no: 5)、rkkrrqrrr (seq id no: 6)、paakrvkld (seq id no: 7)、rqrrnelkrsp (seq id no: 8)、vsrkrprp (seq id no: 9)、ppkkared (seq id no: 10)、pqpkkkpl (seq id no: 11)、salikkkkkmap (seq id no: 12)、pkqkkrk (seq id no: 13)、rklkkkikkl (seq id no: 14)、rekkkflkrr (seq id no: 15)、krkgdevdgvdevakkkskk (seq id no: 16)、rkclqagmnlearktkk (seq id no: 17)、nqssnfgpmkggnfggrssgpyggggqyfakprnqggy (seq id no: 18)和rmrizfknkgkdtaelrrrrvevsvelrkakkdeqilkrrnv (seq id no: 19)。
47.(b)细胞穿透结构域在其它实施方案中，一个或多个异源结构域可以是细胞穿透结构域。合适的细胞穿透结构域的实例包括但不限于grkkrrqrrrppqpkkkrkv (seq id no: 20)、plssifsrigdppkkkrkv (seq id no: 21)、galflgwlgaagstmgapkkkrkv (seq id no: 22)、galflgflgaagstmgawsqpkkkrkv (seq id no: 23)、ketwwetwwtewsqpkkkrkv (seq id no: 24)、yaraaarqara (seq id no: 25)、thrlprrrrrr (seq id no: 26)、ggrrarrrrrr (seq id no: 27)、rrqrrtsklmkr (seq id no: 28)、gwtlnsagyllgkinlkalaalakkil (seq id no: 29)、kalaweaklakalakalakhlakalakalkcea (seq id no: 30)和rqikiwfqnrrmkwkk (seq id no: 31)。
48.(c)标记物结构域
在替代实施方案中，一个或多个异源结构域可以是标记物结构域。标记物结构域包括荧光蛋白和纯化标签或表位标签。合适的荧光蛋白包括但不限于绿色荧光蛋白(例如，gfp、egfp、gfp-2、taggfp、turbogfp、emerald、azami green、monomeric azami green、copgfp、acegfp、zsgreen1)、黄色荧光蛋白(例如，yfp、eyfp、citrine、venus、ypet、phiyfp、zsyellow1)、蓝色荧光蛋白(例如，bfp、ebfp、ebfp2、azurite、mkalama1、gfpuv、sapphire、t-sapphire)、青色荧光蛋白(例如，ecfp、cerulean、cypet、amcyan1、midoriishi-cyan)、红色荧光蛋白(例如，mkate、mkate2、mplum、dsred单体、mcherry、mrfp1、dsred-express、dsred2、dsred-monomer、hcred-tandem、hcred1、asred2、eqfp611、mrasberry、mstrawberry、jred)、橙色荧光蛋白(例如，morange、mko、kusabira-orange、monomeric kusabira-orange、mtangerine、tdtomato)或其组合。标记物结构域可以包含一种或多种荧光蛋白(例如，suntag)的串联重复。合适的纯化标签或表位标签的非限制性实例包括6xhis (seq id no: 32)、flag
®
、ha、gst、myc、sam等等。促进crispr复合物的检测或富集的异源融合物的非限制性实例包括链霉抗生物素蛋白(kipriyanov等人，human antibodies，1995，6(3):93-101)、抗生物素蛋白(airenne等人，biomolecular engineering，1999，16(1-4):87-92)、抗生物素蛋白的单体形式(laitinen等人，journal of biological chemistry，2003，278(6):4010-4014)、在重组生产过程中促进生物素化的肽标签(cull等人，methods in enzymology，2000，326:430-440)。
49.(d)染色质调节基序在再其它实施方案中，一个或多个异源结构域可以是染色质调节基序(cmm)。cmm的非限制性实例包括衍生自高迁移率族(hmg)蛋白(例如，hmgb1、hmgb2、hmgb3、hmgn1、hmgn2、hmgn3a、hmgn3b、hmgn4和hmgn5蛋白)的核小体相互作用肽、组蛋白h1变体(例如，组蛋白h1.0、h1.1、h1.2、h1.3、h1.4、h1.5、h1.6、h1.7、h1.8、h1.9和h.1.10)的中央球状结构域、或染色质重塑复合物的dna结合结构域(例如，swi/snf (转换/蔗糖非发酵)、iswi (模拟转换(imitation switch))、chd (染色质结构域-解旋酶-dna结合)、mi-2/nurd (核小体重塑和脱乙酰基酶)、ino80、swr1和rsc复合物。在其它实施方案中，cmm还可以衍生自拓扑异构酶、解旋酶或病毒蛋白质。cmm的来源可以且将变化。cmm可以来自人、动物(即，脊椎动物和无脊椎动物)、植物、藻类或酵母。特定cmm的非限制性实例在下表b中列出。本领域技术人员可以容易地鉴定其它物种中的同源物和/或其中的相关融合基序。
50.表b：染色质调节基序蛋白质登录号融合基序人hmgn1p05114全长人hmgn2p05204全长人hmgn3aq15651全长人hmgn3bq15651-2全长人hmgn4o00479全长人hmgn5p82970核小体结合基序人hmgb1p09429框a人组蛋白h1.0p07305球状基序人组蛋白h1.2p16403球状基序
人chd1o14646dna结合基序酵母chd1p32657dna结合基序酵母iswip38144dna结合基序人top1p11387dna结合基序人疱疹病毒8lanaj9qsf0核小体结合基序人cmvie1p13202染色质栓系基序麻风分枝杆菌(m.leprae)dna解旋酶p40832hhh结合基序(e)表观遗传修饰结构域在另外其它实施方案中，一个或多个异源结构域可以是表观遗传修饰结构域。合适的表观遗传修饰结构域的非限制性实例包括具有以下的那些结构域：dna脱氨作用(例如，胞苷脱氨酶、腺苷脱氨酶、鸟嘌呤脱氨酶)、dna甲基转移酶活性(例如，胞嘧啶甲基转移酶)、dna脱甲基酶活性、dna胺化、dna氧化活性、dna解旋酶活性、组蛋白乙酰转移酶(hat)活性(例如，衍生自e1a结合蛋白p300的hat结构域)、组蛋白脱乙酰基酶活性、组蛋白甲基转移酶活性、组蛋白去甲基化酶活性、组蛋白激酶活性、组蛋白磷酸酶活性、组蛋白泛素连接酶活性、组蛋白去泛素化活性、组蛋白腺苷化活性、组蛋白脱腺苷化活性、组蛋白sumo化活性、组蛋白去sumo化活性、组蛋白核糖基化活性、组蛋白去核糖基化活性、组蛋白肉豆蔻酰化活性、组蛋白去肉豆蔻酰化活性、组蛋白瓜氨酸化活性、组蛋白烷基化活性、组蛋白脱烷基化活性或组蛋白氧化活性。在具体实施方案中，表观遗传修饰结构域可以包含胞苷脱氨酶活性、腺苷脱氨酶活性、组蛋白乙酰转移酶活性或dna甲基转移酶活性。
51.(f)转录调控结构域在其它实施方案中，一个或多个异源结构域可以是转录调控结构域(即，转录激活结构域或转录阻遏结构域)。合适的转录激活结构域包括但不限于单纯疱疹病毒vp16结构域、vp64 (即，vp16的四个串联拷贝)、vp160 (即，vp16的十个串联拷贝)、nfκb p65激活结构域(p65)、eb病毒r反式激活因子(rta)结构域、vpr (即，vp64 p65 rta)、p300依赖性转录激活结构域、p53激活结构域1和2、热休克因子1 (hsf1)激活结构域、smad4激活结构域(sad)、camp应答元件结合蛋白(creb)激活结构域、e2a激活结构域、活化t细胞核因子(nfat)激活结构域或其组合。合适的转录阻遏结构域的非限制性实例包括kruppel相关框(krab)阻遏结构域、mxi阻遏结构域、诱导型camp早期阻遏(icer)结构域、yyl富含甘氨酸阻遏结构域、sp1样阻遏物、e(spl)阻遏物、iκb阻遏物、sin3阻遏物、甲基-cpg结合蛋白2 (mecp2)阻遏物或其组合。转录激活或转录阻遏结构域可以遗传融合至cas9蛋白质，或者经由非共价蛋白质-蛋白质、蛋白质-rna或蛋白质-dna相互作用结合。
52.(g) rna适体结合结构域在进一步的实施方案中，一个或多个异源结构域可以是rna适体结合结构域(konermann等人，nature，2015，517(7536):583-588；zalatan等人，cell，2015，160 (1-2):339-50)。合适的rna适体蛋白结构域的实例包括ms2外壳蛋白(mcp)，pp7细菌噬菌体外壳蛋白(pcp)，μ细菌噬菌体com蛋白，λ细菌噬菌体n22蛋白，茎环结合蛋白(slbp)，脆性x智力低下综合征相关蛋白1 (fxr1)，衍生自细菌噬菌体例如ap205、bz13、f1、f2、fd、fr、id2、jp34/ga、jp501、jp34、jp500、ku1、m11、m12、mx1、nl95、pp7、
ϕ
cb5、
ϕ
cb8r、
ϕ
cb12r、
ϕ
cb23r、qβ、r17、sp-β、tw18、tw19和vk的蛋白质，其片段或其衍生物。
53.(h)非cas9核酸酶结构域在再其它实施方案中，一个或多个异源结构域可以是非cas9核酸酶结构域。合适的核酸酶结构域可以从任何核酸内切酶或核酸外切酶获得。核酸酶结构域可以由其衍生的核酸内切酶的非限制性实例包括但不限于限制性核酸内切酶和归巢核酸内切酶。在一些实施方案中，核酸酶结构域可以衍生自ii-s型限制性核酸内切酶。ii-s型核酸内切酶在通常远离识别/结合位点几个碱基对的位点处切割dna，并且因此具有可分开的结合结构域和切割结构域。这些酶一般是单体，其瞬时缔合以形成二聚体，以在交错位置处切割每条dna链。合适的ii-s型核酸内切酶的非限制性实例包括bfii、bpmi、bsai、bsgi、bsmbi、bsmi、bspmi、foki、mboii和sapi。在一些实施方案中，核酸酶结构域可以是foki核酸酶结构域或其衍生物。ii-s型核酸酶结构域可以进行修饰，以促进两个不同核酸酶结构域的二聚化。例如，foki的切割结构域可以通过使某些氨基酸残基突变进行修饰。作为非限制性实例，在foki核酸酶结构域的位置446、447、479、483、484、486、487、490、491、496、498、499、500、531、534、537和538处的氨基酸残基是用于修饰的靶。在具体实施方案中，foki核酸酶结构域可以包括包含q486e、i499l和/或n496d突变的第一foki半结构域，以及包含e490k、i538k和/或h537r突变的第二foki半结构域。
54.(i)核碱基修饰酶本文所述的改造的cas9变体还可以包含核碱基修饰酶或其催化结构域。
55.各种核碱基修饰酶适用于本文公开的系统。核碱基修饰酶可以是dna碱基编辑器。在一些实施方案中，dna碱基编辑器可以是将胞苷转换成尿苷的胞苷脱氨酶，所述尿苷被聚合酶读取为胸腺嘧啶。胞苷脱氨酶的非限制性实例包括胞苷脱氨酶1 (cda1)、胞苷脱氨酶2 (cda2)、活化诱导的胞苷脱氨酶(aicda)、载脂蛋白b mrna编辑复合物(apobec)家族胞苷脱氨酶(例如，apobec1、apobec2、apobec3a、apobec3b、apobec3c、apobec3d/e、apobec3f、apobec3g、apobec3h、apobec4)、apobec1互补因子/apobec1刺激因子(acf1/asf)胞苷脱氨酶、作用于rna的胞嘧啶脱氨酶(cdar)、细菌长同种型胞苷脱氨酶(cdd
l
)、以及作用于trna的胞嘧啶脱氨酶(cdat)。在其它实施方案中，dna碱基编辑器可以是将腺苷转换成肌苷的腺苷脱氨酶，所述肌苷被聚合酶读取为鸟苷。腺苷脱氨酶的非限制性实例包括trna腺嘌呤脱氨酶、腺苷脱氨酶、作用于rna的腺苷脱氨酶(adar)和作用于trna的腺苷脱氨酶(adat)。
56.核碱基修饰酶(碱基编辑器)可以是野生型或其片段、其修饰形式(例如，非必需结构域可以是缺失的)或其改造的形式。核碱基修饰酶(碱基编辑器)可以具有真核、细菌或古细菌起源。
57.在一些实施方案中，核碱基修饰酶(碱基编辑器)可以是胞苷脱氨酶或其催化结构域。胞苷脱氨酶可以具有人、小鼠、七鳃鳗、鲍鱼或大肠杆菌(e. coli)起源。在其中核碱基修饰酶是胞苷脱氨酶的实施方案中，rna引导的核碱基修饰系统可以进一步包含至少一个尿嘧啶糖基化酶抑制剂(ugi)结构域。通过ugi抑制尿嘧啶自dna的去除，尿嘧啶是胞嘧啶脱氨基作用的结果。合适的ugi结构域是本领域已知的。
58.在一些实施方案中，如果这些组分是过表达的，则采用胞苷脱氨酶和ugi的系统可能具有负面效应。为了预防过表达，可以添加降解标签。降解标签指示蛋白质通过蛋白质回收系统降解。这些降解标签导致不同的蛋白质半衰期。非限制性降解标签的实例是lva、aav、asv和laa。
59.(j)逆转录酶在一些实施方案中，与本文所述的改造的spcas9变体融合的结构域是逆转录酶。逆转录酶的实例包括禽成髓细胞瘤病毒(amv)逆转录酶和莫洛尼鼠白血病病毒(mmlv)逆转录酶。
60.(k)重组酶/整合酶在一些实施方案中，与本文所述的改造的spcas9变体融合的结构域是重组酶或整合酶。合适的重组酶的非限制性实例包括cre重组酶、flp重组酶、gin重组酶、拟杆菌属(bacteroides)intn2酪氨酸整合酶(由nbu2基因编码)、链霉菌属噬菌体phic31 (φc31)重组酶、大肠杆菌噬菌体p4重组酶、大肠杆菌噬菌体λ整合酶、李斯特菌属(listeria) a118噬菌体重组酶、慢病毒或hiv整合酶、以及放线菌噬菌体r4 sre重组酶。重组酶/整合酶介导两个序列特异性识别(或附着)位点(例如，attp位点和attb位点或两个cre/loxp位点)之间的重组，或者可以像hiv整合酶一样随机插入dna。
61.(l)接头一个或多个异源结构域可以经由一个或多个化学键(例如共价键)直接连接到cas9蛋白质，或者一个或多个异源结构域可以经由一个或多个接头间接连接到cas9蛋白质。
62.接头是经由至少一个共价键连接一个或多个其它化学基团的化学基团。合适的接头包括氨基酸、肽、核苷酸、核酸、有机接头分子(例如，马来酰亚胺衍生物、n-乙氧基苄基咪唑、联苯-3,4',5-三羧酸、对氨基苄氧羰基等等)、二硫键接头和聚合物接头(例如，peg)。接头可以包括一个或多个间隔基团，包括但不限于亚烷基、亚烯基、亚炔基、烷基、烯基、炔基、烷氧基、芳基、杂芳基、芳烷基、芳烯基、芳炔基等等。接头可以是中性的，或者携带正电荷或负电荷。另外，接头可以是可切割的，使得将接头与另一个化学基团连接的接头的共价键可以在某些条件下断裂或切割，所述条件包括ph、温度、盐浓度、光、催化剂或酶。在一些实施方案中，接头可以是肽接头。肽接头可以是柔性氨基酸接头(例如，包含小的、非极性或极性氨基酸)。柔性接头的非限制性实例包括legggs (seq id no: 33)、tgsg (seq id no: 34)、ggsgggsg (seq id no: 35)、(ggggs)
1-4 (seq id no: 36)和(gly)
6-8 (seq id no: 37)。可替代地，肽接头可以是刚性氨基酸接头。此类接头包括(eaaak)
1-4 (seq id no: 38)、a (eaaak)
2-5
a (seq id no: 39)、papap (seq id no: 40)和(ap)
6-8 (seq id no: 41)。合适接头的另外实例是本领域众所周知的，并且设计接头的程序是可容易获得的(例如，crasto等人，protein eng.，2000，13 (5):309-312)。
63.(m)改造的cas9蛋白质的产生在一些实施方案中，改造的cas9蛋白质可以在无细胞系统、细菌细胞或真核细胞中重组产生，并且使用常规纯化方法进行纯化。在其它实施方案中，改造的cas9蛋白质由编码改造的cas9蛋白质的核酸在目的真核细胞中在体内产生(参见在下文且通过引用并入本节段(i)中的节段(iii))。
64.在其中改造的cas9蛋白质包含核酸酶或切口酶活性的实施方案中，改造的cas9蛋白质可以进一步包含至少一个核定位信号、细胞穿透结构域和/或标记物结构域，以及至少一个染色质破坏结构域。在其中改造的cas9蛋白质与表观遗传修饰结构域连接的实施方案中，改造的cas9蛋白质可以进一步包含至少一个核定位信号、细胞穿透结构域和/或标记物
结构域，以及至少一个染色质破坏结构域。此外，在其中改造的cas9蛋白质与转录调控结构域连接的实施方案中，改造的cas9蛋白质可以进一步包含至少一个核定位信号、细胞穿透结构域和/或标记物结构域，以及至少一个染色质破坏结构域和/或至少一个rna适体结合结构域。
65.(ii)改造的cas9系统本公开内容的另一个方面提供了改造的cas9系统，其包含如通过引用并入本节段(ii)中的上文节段(i)中讨论的改造的cas9蛋白质变体(例如，包括在氨基酸位置526、562、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)中的一个或多个(例如，两个或三个)处的修饰的改造的cas9蛋白质变体，其中在前述氨基酸位置中的一个或多个处的赖氨酸(k)改变为亮氨酸(l)或谷氨酰胺(q)，和/或在前述氨基酸位置(r)中的一个或多个处的精氨酸改变为亮氨酸(l)或谷氨酰胺(q))和改造的引导rna，其中每种改造的引导rna设计为与特定改造的cas9蛋白质复合。每种改造的引导rna包含设计为与双链序列中的靶序列杂交的5'引导序列，其中所述靶序列是前间隔序列邻近基序(pam)的5'。
66.(a)改造的引导rna改造的引导rna设计为与特定改造的cas9蛋白质复合。引导rna包含(i) crispr rna (crrna)，其在5'端处含有与靶序列杂交的引导序列，以及(ii)募集cas9蛋白质的反式作用crrna (tracrrna)序列。每种引导rna的crrna引导序列是不同的(即，是序列特异性的)。tracrrna序列在引导rna中一般是相同的，所述引导rna设计为与来自特定细菌物种的cas9蛋白质复合。
67.crrna引导序列设计为与双链序列中的靶序列(即，前间隔序列)杂交。一般而言，crrna与靶序列之间的互补性为至少80%、至少85%、至少90%、至少95%或至少99%。在具体实施方案中，互补性是完全的(即，100%)。在各个实施方案中，crrna引导序列的长度范围可以为约15个核苷酸至约25个核苷酸。例如，crrna引导序列的长度可以为约15、16、17、18、19、20、21、22、23、24或25个核苷酸。在具体实施方案中，crrna的长度为约19、20或21个核苷酸。在一个实施方案中，crrna引导序列具有20个核苷酸的长度。
68.引导rna包含形成与cas9蛋白质相互作用的至少一个茎环结构的重复序列，以及保持单链的3'序列。每个环和茎的长度可以变化。例如，环的长度范围可以为约3至约10个核苷酸，而茎的长度范围可以为约6至约20个碱基对。茎可以包含1至约10个核苷酸的一个或多个凸起。单链3'区域的长度可以变化。改造的引导rna中的tracrrna序列一般基于目的细菌物种中的野生型tracrrna的编码序列。野生型序列可以进行修饰，以促进二级结构形成、增加二级结构稳定性、促进在真核细胞中的表达等等。例如，可以将一种或多种核苷酸变化引入引导rna编码序列内(参见下文的实施例3)。tracrrna序列的长度范围可以为约50个核苷酸至约300个核苷酸。在各个实施方案中，tracrrna的长度范围可以为约50至约90个核苷酸、约90至约110个核苷酸、约110至约130个核苷酸、约130至约150个核苷酸、约150至约170个核苷酸、约170至约200个核苷酸、约200至约250个核苷酸、或约250至约300个核苷酸。
69.一般而言，改造的引导rna是单个分子(即，嵌合的单一引导rna或sgrna)，其中crrna序列与tracrrna序列连接。然而，在一些实施方案中，改造的引导rna可以是两个分开
的分子(例如，双分子引导rna)。例如，引导rna可以包括包含crrna的第一分子(或区域)以及包含tracrrna的第二分子(或区域)，所述crrna含有能够与第二分子的5'端碱基配对的3'序列(包含约6至约20个核苷酸)，所述tracrrna含有能够与第一分子(或区域)的3'端碱基配对的5'序列(包含约6至约20个核苷酸)。
70.在一些实施方案中，改造的引导rna的tracrrna序列可以进行修饰，以包含一个或多个适体序列(konermann等人，nature，2015，517(7536):583-588；zalatan等人，cell，2015，160 (1-2):339-50)。合适的适体序列包括结合选自以下的衔接蛋白的那些适体序列：mcp、pcp、com、slbp、fxr1、ap205、bz13、f1、f2、fd、fr、id2、jp34/ga、jp501、jp34、jp500、ku1、m11、m12、mx1、nl95、pp7、
ϕ
cb5、
ϕ
cb8r、
ϕ
cb12r、
ϕ
cb23r、qβ、r17、sp-β、tw18、tw19、vk、其片段或其衍生物。本领域技术人员了解适体序列的长度可以变化。
71.在其它实施方案中，引导rna可以进一步包含至少一种可检测标记。可检测标记可以是荧光团(例如fam、tmr、cy3、cy5、texas red、oregon green、alexa fluors、halo标签或合适的荧光染料)、检测标签(例如生物素、洋地黄毒苷等等)、量子点或金颗粒。
72.引导rna可以包含标准核糖核苷酸和/或修饰的核糖核苷酸。在一些实施方案中，引导rna可以包含标准或修饰的脱氧核糖核苷酸。在其中酶促合成(即，在体内或在体外)引导rna的实施方案中，引导rna一般包含标准核糖核苷酸。在其中化学合成引导rna的实施方案中，引导rna可以包含标准或修饰的核糖核苷酸和/或脱氧核糖核苷酸。修饰的核糖核苷酸和/或脱氧核糖核苷酸包括碱基修饰(例如，假尿苷、2-硫代尿苷、n6-甲基腺苷等等)和/或糖修饰(例如，2'-o-甲基、2'-氟、2'-氨基、锁核酸(lna)等等)。引导rna的主链也可以进行修饰，以包含硫代磷酸酯键合、硼烷磷酸酯键合或肽核酸。
73.(b) pam序列上文详述的改造的cas9系统靶向定位于pam序列上游的双链dna中的特定序列。pam序列可以包括规范的5'-ngg-3' pam或非规范pam，例如5'-nag-3' pam。在一些实施方案中，上文详述的改造的cas9系统可以进行修饰，以识别替代pam，例如5
’–
ngan
–3’
、5
’–
ngng
–3’
和5
’–
ngcg
–3’ꢀ
pam。
74.(iii)核酸本公开内容的一个进一步方面提供了核酸，其编码通过引用并入本节段(iii)中的上文节段(i)和(ii)中描述的改造的cas9蛋白质变体和系统(例如，包括在氨基酸位置526、562、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)中的一个或多个(例如，两个或三个)处的修饰的改造的cas9蛋白质变体，其中在前述氨基酸位置中的一个或多个处的赖氨酸(k)改变为亮氨酸(l)或谷氨酰胺(q)，和/或在前述氨基酸位置中的一个或多个处的精氨酸(r)改变为亮氨酸(l)或谷氨酰胺(q))。蛋白质和系统可以由单一核酸或多重核酸编码。核酸可以是dna或rna、线性或环状的、单链或双链的。rna或dna可以进行密码子优化，用于在目的真核细胞中有效翻译成蛋白质。密码子优化程序可作为免费软件或从商业来源获得。
75.在一些实施方案中，编码改造的cas9蛋白质的核酸可以是rna。rna可以在体外酶促合成。为此，编码改造的cas9蛋白质的dna可以可操作地连接到由噬菌体rna聚合酶识别的启动子序列，用于体外rna合成。例如，启动子序列可以是t7、t3或sp6启动子序列，或者t7、t3或sp6启动子序列的变体。编码改造的蛋白质的dna可以是载体的部分，如下文详述
的。在此类实施方案中，体外转录的rna可以是纯化的、加帽的和/或多聚腺苷酸化的。在其它实施方案中，编码改造的cas9蛋白质的rna可以是自我复制rna的部分(yoshioka等人，cell stem cell，2013，13:246-254)。自我复制的rna可以衍生自非感染性、自我复制的委内瑞拉马脑炎(vee)病毒rna复制子，其是能够自我复制有限次数的细胞分裂的正义单链rna，并且可以进行修饰以编码目的蛋白质(yoshioka等人，cell stem cell，2013，13:246-254)。
76.在其它实施方案中，编码改造的cas9蛋白质的核酸可以是dna。dna编码序列可以可操作地连接到至少一个启动子控制序列，用于目的细胞中的表达。在某些实施方案中，dna编码序列可以可操作地连接到启动子序列，用于在细菌(例如，大肠杆菌)细胞或真核(例如，酵母、昆虫或哺乳动物)细胞中表达改造的cas9蛋白质。合适的细菌启动子包括但不限于t7启动子、lac操纵子启动子、trp启动子、tac启动子(其是trp和lac启动子的杂合体)、任何前述的变体以及任何前述的组合。合适的真核启动子的非限制性实例包括组成型、调节型或者细胞或组织特异性启动子。合适的真核组成型启动子控制序列包括但不限于巨细胞病毒立即早期启动子(cmv)、猿猴病毒(sv40)启动子、腺病毒主要晚期启动子、劳斯肉瘤病毒(rsv)启动子、小鼠乳腺肿瘤病毒(mmtv)启动子、磷酸甘油酸激酶(pgk)启动子、延伸因子(ed1)-α启动子、泛素启动子、肌动蛋白启动子、微管蛋白启动子、免疫球蛋白启动子、其片段或任何前述的组合。合适的真核调节型启动子控制序列的实例包括但不限于受热休克、金属、类固醇、抗生素或醇调节的那些序列。组织特异性启动子的非限制性实例包括b29启动子、cd14启动子、cd43启动子、cd45启动子、cd68启动子、结蛋白启动子、弹性蛋白酶-1启动子、内皮糖蛋白启动子、纤连蛋白启动子、flt-1启动子、gfap启动子、gpiib启动子、icam-2启动子、inf-β启动子、mb启动子、nphsi启动子、og-2启动子、sp-b启动子、syn1启动子和wasp启动子。启动子序列可以是野生型的，或者它可以进行修饰用于更有效或高效的表达。在一些实施方案中，dna编码序列也可以连接至多聚腺苷酸化信号(例如，sv40多聚a信号、牛生长激素(bgh)多聚a信号等)和/或至少一个转录终止序列。在一些情形下，改造的cas9蛋白质可以从细菌细胞或真核细胞中进行纯化。
77.在另外其它实施方案中，改造的引导rna可以由dna编码。在一些情况下，编码改造的引导rna的dna可以可操作地连接到由噬菌体rna聚合酶识别的启动子序列，用于体外rna合成。例如，启动子序列可以是t7、t3或sp6启动子序列，或者t7、t3或sp6启动子序列的变体。在其它情况下，编码改造的引导rna的dna可以可操作地连接到由rna聚合酶iii (pol iii)识别的启动子序列，用于目的真核细胞中的表达。合适的pol iii启动子的实例包括但不限于哺乳动物u6、u3、h1和7sl rna启动子。
78.在各个实施方案中，编码改造的cas9蛋白质的核酸可以存在于载体中。在一些实施方案中，载体可以进一步包含编码改造的引导rna的核酸。合适的载体包括质粒载体、病毒载体和自我复制的rna (yoshioka等人，cell stem cell，2013，13:246-254)。在一些实施方案中，编码复合物或融合蛋白的核酸可以存在于质粒载体中。合适的质粒载体的非限制性实例包括puc、pbr322、pet、pbluescript及其变体。在其它实施方案中，编码复合物或融合蛋白的核酸可以是病毒载体(例如，慢病毒载体、腺伴随病毒载体、腺病毒载体等等)的部分。质粒或病毒载体可以包含另外的表达控制序列(例如，增强子序列、kozak序列、多聚腺苷酸化序列、转录终止序列等)、可选择标记物序列(例如，抗生素抗性基因)、复制起点等
等。关于载体及其用途的另外信息可以在“current protocols in molecular biology
”ꢀ
ausubel等人，john wiley & sons，new york，2003，或者“molecular cloning: a laboratory manual
”ꢀ
sambrook & russell，cold spring harbor press，cold spring harbor，ny，第3版，2001中找到。
79.(iv)真核细胞本公开内容的另一个方面包含真核细胞，其包含如通过引用并入本节段(iv)中的上文节段(i)中详述的至少一种改造的cas9蛋白质变体(例如，包括在氨基酸位置526、562、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)中的一个或多个(例如，两个或三个)处的修饰的改造的cas9蛋白质变体，其中在前述氨基酸位置中的一个或多个处的赖氨酸(k)改变为亮氨酸(l)或谷氨酰胺(q)，和/或在前述氨基酸位置中的一个或多个处的精氨酸(r)改变为亮氨酸(l)或谷氨酰胺(q))，和/或编码如上文节段(i)、(ii)和(iii) (其各自通过引用并入本节段(iv)中)中详述的改造的cas9蛋白质和/或系统和/或改造的引导rna的至少一种核酸。
80.真核细胞可以是人细胞、非人哺乳动物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞、植物细胞或单细胞真核生物。合适的真核细胞的实例在下文节段(v) (c)中详述。真核细胞可以是在体外的、离体的或在体内的。
81.(v)用于修饰序列的方法本公开内容的一个进一步方面包含用于修饰真核细胞中的染色体序列的方法。一般而言，该方法包括将如上文节段(ii)中详述的至少一种改造的cas9系统引入目的真核细胞内，所述改造的cas9系统进一步包括如上文节段(i)中详述的改造的cas9蛋白质变体，其中节段(i)和(ii)各自通过引用并入本节段(v)中(例如，包括在氨基酸位置526、562、652、661、691、780、810、848、855、1003和1060 (参考化脓性链球菌cas9——spcas9的编号系统)中的一个或多个(例如，两个或三个)处的修饰的改造的cas9蛋白质变体，其中在前述氨基酸位置中的一个或多个处的赖氨酸(k)改变为亮氨酸(l)或谷氨酰胺(q)，和/或在前述氨基酸位置中的一个或多个处的精氨酸(r)改变为亮氨酸(l)或谷氨酰胺(q))；和/或将编码如上文节段(i)、(ii)和(iii) (其各自通过引用并入本节段(v)中)中详述的改造的cas9蛋白质和/或系统和/或改造的引导rna的至少一种核酸，引入目的真核细胞内。
82.在其中改造的cas9蛋白质包含核酸酶或切口酶活性的实施方案中，染色体序列修饰可以包含至少一个核苷酸的取代、至少一个核苷酸的缺失、至少一个核苷酸的插入。在一些迭代中，该方法包括将包含核酸酶活性的一种改造的cas9系统或包含切口酶活性的两种改造的cas9系统但没有供体多核苷酸引入真核细胞内，使得一种或多种改造的cas9系统在染色体序列中的靶位点中引入双链断裂，并且通过细胞dna修复过程的双链断裂修复引入至少一种核苷酸变化(即，插入缺失)，从而使染色体序列失活(即，基因敲除)。在其它迭代中，该方法包括将包含核酸酶活性的一种改造的cas9系统或包含切口酶活性的两种改造的cas9系统以及供体多核苷酸引入真核细胞内，使得一种或多种改造的cas9系统在染色体序列中的靶位点中引入双链断裂，并且通过细胞dna修复过程的双链断裂修复导致供体多核苷酸中的序列插入或交换到染色体序列中的靶位点内(即，基因校正或基因敲入)。
83.在其中改造的cas9蛋白质包含表观遗传修饰活性或转录调控活性的实施方案中，染色体序列修饰可以包含在染色体序列上在靶位点中或附近的至少一个核苷酸的转化、在
靶位点中或附近的至少一个核苷酸的修饰、在靶位点中或附近的至少一种组蛋白的修饰、和/或在靶位点中或附近的转录变化。
84.再进一步地，应理解本文所述的改造的cas9变体也可以用于修饰不同于真核细胞，例如微生物基因组。
85.(a)引入细胞内如上文提到的，该方法包括将至少一种改造的cas9系统和/或编码所述系统的核酸(和任选的供体多核苷酸)引入真核细胞内。至少一种系统和/或核酸/供体多核苷酸可以通过各种手段引入目的细胞内。
86.在一些实施方案中，细胞可以用适当的分子(即，蛋白质、dna和/或rna)进行转染。合适的转染方法包括核转染(或电穿孔)、磷酸钙介导的转染、阳离子聚合物转染(例如，deae-葡聚糖或聚乙烯亚胺)、病毒转导、病毒体转染、病毒粒子转染、脂质体转染、阳离子脂质体转染、免疫脂质体转染、非脂质体脂质转染、树形分子转染、热休克转染、磁转染、脂质转染、基因枪递送、穿刺转染、声致穿孔、光转染和专有试剂增强的核酸摄取。转染方法是本领域众所周知的(参见例如，“current protocols in molecular biology
”ꢀ
ausubel等人，john wiley & sons，new york，2003，或者“molecular cloning: a laboratory manual
”ꢀ
sambrook & russell，cold spring harbor press，cold spring harbor，ny，第3版，2001)。在其它实施方案中，分子可以通过显微注射引入细胞内。例如，分子可以注射到目的细胞的细胞质或核内。引入细胞内的每种分子的量可以变化，但本领域技术人员熟悉用于确定适当量的手段。
87.各种分子可以同时或序贯地引入细胞内。例如，改造的cas9系统(或其编码核酸)和供体多核苷酸可以同时引入。可替代地，可以首先引入一种，然后将另一种引入细胞内。
88.一般而言，将细胞维持在适合于细胞生长和/或维持的条件下。合适的细胞培养条件是本领域众所周知的，并且例如在santiago等人，proc. natl. acad. sci. usa，2008，105:5809-5814；moehle等人proc. natl. acad. sci. usa，2007，104:3055-3060；urnov等人，nature，2005，435:646-651；以及lombardo等人，nat. biotechnol.，2007，25:1298-1306中进行描述。本领域技术人员了解用于培养细胞的方法是本领域已知的，并且可以且将根据细胞类型而变。在所有情况下，常规优化都可以用于确定用于特定细胞类型的最佳技术。
89.(b)任选的供体多核苷酸在其中改造的cas9蛋白质包含核酸酶或切口酶活性的实施方案中，该方法可以进一步包括将至少一种供体多核苷酸引入细胞内。供体多核苷酸可以是单链或双链的、线性或环状的和/或rna或dna。在一些实施方案中，供体多核苷酸可以是载体，例如质粒载体。
90.供体多核苷酸包含至少一个供体序列。在一些方面，供体多核苷酸的供体序列可以是内源或天然染色体序列的修饰形式。例如，供体序列可以与在由改造的cas9系统靶向的序列处或附近的染色体序列的一部分基本上等同，但其包含至少一个核苷酸的变化。因此，在与天然序列整合或交换后，在靶向染色体位置处的序列包含至少一个核苷酸的变化。例如，变化可以是一个或多个核苷酸的插入、一个或多个核苷酸的缺失、一个或多个核苷酸的取代、或其组合。作为修饰序列的“基因校正”整合的结果，细胞可以由靶向染色体序列产生修饰的基因产物。
91.在其它方面，供体多核苷酸的供体序列可以是外源序列。如本文使用的，“外源”序列指对于细胞并非天然的序列、或其天然位置在细胞的基因组中的不同位置的序列。例如，外源序列可以包含蛋白质编码序列，其可以可操作地连接到外源启动子控制序列，使得在整合到基因组内时，细胞能够表达由整合序列编码的蛋白质。可替代地，外源序列可以整合到染色体序列内，使得其表达受内源启动子控制序列调控。在其它迭代中，外源序列可以是转录控制序列、另一种表达控制序列、rna编码序列等等。如上文指出的，外源序列整合到染色体序列内被称为“敲入”。
92.如本领域技术人员可以了解的，供体序列的长度可以且将变化。例如，供体序列的长度可以从几个核苷酸到数百个核苷酸到数十万个核苷酸不等。
93.通常，供体多核苷酸中的供体序列侧翼为上游序列和下游序列，其与分别定位于由改造的cas9系统靶向的序列上游和下游的序列具有基本的序列同一性。由于这些序列相似性，供体多核苷酸的上游序列和下游序列允许供体多核苷酸和靶向染色体序列之间的同源重组，使得供体序列可以整合到染色体序列内(或与之交换)。
94.如本文使用的，上游序列指这样的核酸序列，其与由改造的cas9系统靶向的序列上游的染色体序列共享基本的序列同一性。类似地，下游序列指这样的核酸序列，其与由改造的cas9系统靶向的序列下游的染色体序列共享基本的序列同一性。如本文使用的，短语“基本的序列同一性”指具有至少约75%序列同一性的序列。因此，供体多核苷酸中的上游序列和下游序列可以与靶序列上游或下游的序列具有约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性。在一个示例性实施方案中，供体多核苷酸中的上游序列和下游序列可以与由改造的cas9系统靶向的序列上游或下游的染色体序列具有约95%或100%的序列同一性。
95.在一些实施方案中，上游序列与染色体序列共享基本的序列同一性，所述染色体序列定位于由改造的cas9系统靶向的序列直接上游。在其它实施方案中，上游序列与染色体序列共享基本的序列同一性，所述染色体序列定位于靶序列上游约一百(100)个核苷酸内。因此，例如，上游序列可以与染色体序列共享基本的序列同一性，所述染色体序列定位于靶序列上游约1至约20、约21至约40、约41至约60、约61至约80、或约81至约100个核苷酸。在一些实施方案中，下游序列与染色体序列共享基本的序列同一性，所述染色体序列定位于由改造的cas9系统靶向的序列直接下游。在其它实施方案中，下游序列与染色体序列共享基本的序列同一性，所述染色体序列定位于靶序列下游约一百(100)个核苷酸内。因此，例如，下游序列可以与染色体序列共享基本的序列同一性，所述染色体序列定位于靶序列下游约1至约20、约21至约40、约41至约60、约61至约80、或约81至约100个核苷酸。
96.每个上游序列或下游序列的长度范围可以为约20个核苷酸至约5000个核苷酸。在一些实施方案中，上游序列和下游序列可以包含约50、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2800、3000、3200、3400、3600、3800、4000、4200、4400、4600、4800或5000个核苷酸。在具体实施方案中，上游序列和下游序列的长度范围可以为约50至约1500个核苷酸。
97.(c)细胞类型各种细胞适用于本文公开的方法中，包括原核细胞(例如，细菌)和真核细胞(例
如，动物细胞、昆虫细胞和植物细胞)。例如，细胞可以是人细胞、非人哺乳动物细胞、非哺乳动物脊椎动物细胞、无脊椎动物细胞、昆虫细胞、植物细胞、酵母细胞或单细胞真核生物。在一些实施方案中，细胞可以是单细胞胚胎。例如，非人哺乳动物胚胎，包括大鼠、仓鼠、啮齿类动物、兔、猫、犬、羊、猪、牛、马和灵长类动物胚胎。在另外其它实施方案中，细胞可以是干细胞，例如胚胎干细胞、es样干细胞、胎儿干细胞、成体干细胞等等。在一个实施方案中，干细胞并非人胚胎干细胞。此外，干细胞可以包括通过以其整体并入本文的wo2003/046141或chung等人(cell stem cell，2008，2:113-117)中公开的技术制备的那些干细胞。细胞可以是在体外的(即，在培养中)、离体的(即，在从生物中分离的组织内)或在体内的(即，在生物内)。在示例性实施方案中，细胞是哺乳动物细胞或哺乳动物细胞系。在特定实施方案中，细胞是人细胞或人细胞系。
98.例如，在一些实施方案中，真核细胞或真核细胞群体是t细胞、cd8
t细胞、cd8

幼稚t细胞、中枢记忆t细胞、效应记忆t细胞、cd4
t细胞、干细胞记忆t细胞、辅助t细胞、调节t细胞、细胞毒性t细胞、天然杀伤t细胞、造血干细胞、长期造血干细胞、短期造血干细胞、多能祖细胞、谱系受限的祖细胞、淋巴样祖细胞、胰腺祖细胞、内分泌祖细胞、外分泌祖细胞、髓样祖细胞、共同髓样祖细胞、红系祖细胞、巨核细胞红系祖细胞、单核细胞前体细胞、内分泌前体细胞、外分泌细胞、成纤维细胞、成肝细胞、成肌细胞、巨噬细胞、胰岛β细胞、心肌细胞、血细胞、导管细胞、腺泡细胞、α细胞、β细胞、δ细胞、pp细胞、胆管细胞、视网膜细胞、感光细胞、视杆细胞、视锥细胞、视网膜色素上皮细胞、小梁网细胞、耳蜗毛细胞、外毛细胞、内毛细胞、肺上皮细胞、支气管上皮细胞、肺泡上皮细胞、肺上皮祖细胞、横纹肌细胞、心肌细胞、肌卫星细胞、肌细胞、神经元、神经元干细胞、间充质干细胞、诱导多能干(ips)细胞、胚胎干细胞、单核细胞、巨核细胞、嗜中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、肥大细胞、网织红细胞、b细胞(例如祖b细胞、前b细胞、原b细胞、记忆b细胞、浆b细胞)、胃肠上皮细胞、胆管上皮细胞、胰腺导管上皮细胞、肠干细胞、肝细胞、肝星状细胞、肝巨噬细胞、成骨细胞、破骨细胞、脂肪细胞(例如，棕色脂肪细胞或白色脂肪细胞)、前脂肪细胞、胰腺前体细胞、胰岛细胞、胰腺β细胞、胰腺α细胞、胰腺δ细胞、胰腺外分泌细胞、施万细胞或少突胶质细胞、或此类细胞群体。合适的哺乳动物细胞或细胞系的非限制性实例包括人诱导多能干细胞(hipsc)、人t细胞(自体或同种异体的)、人b细胞、人巨噬细胞、人造血干细胞(hhsc)、人肝细胞、人视网膜细胞、胰岛、人胚肾细胞(hek293、hek293t)；人宫颈癌细胞(hela)；人肺细胞(w138)；人肝细胞(hep g2)；人u2-os骨肉瘤细胞、人a549细胞、人a-431细胞和人k562细胞；中国仓鼠卵巢(cho)细胞、幼仓鼠肾(bhk)细胞；小鼠骨髓瘤ns0细胞、小鼠胚胎成纤维细胞3t3细胞(nih3t3)、小鼠b淋巴瘤a20细胞；小鼠黑色素瘤b16细胞；小鼠成肌细胞c2c12细胞；小鼠骨髓瘤sp2/0细胞；小鼠胚胎间充质c3h-10t1/2细胞；小鼠癌ct26细胞、小鼠前列腺ducup细胞；小鼠乳腺emt6细胞；小鼠肝癌hepa1c1c7细胞；小鼠骨髓瘤j5582细胞；小鼠上皮mtd-1a细胞；小鼠心肌myend细胞；小鼠肾renca细胞；小鼠胰腺rin-5f细胞；小鼠黑色素瘤x64细胞；小鼠淋巴瘤yac-1细胞；大鼠胶质母细胞瘤9l细胞；大鼠b淋巴瘤rbl细胞；大鼠神经母细胞瘤b35细胞；大鼠肝癌细胞(htc)；水牛鼠肝brl 3a细胞；犬肾细胞(mdck)；犬乳腺(cmt)细胞；大鼠骨肉瘤d17细胞；大鼠单核细胞/巨噬细胞dh82细胞；猴肾sv-40转化的成纤维细胞(cos7)细胞；猴肾cvi-76细胞；非洲绿猴肾(vero-76)细胞。哺乳动物细胞系的广泛列表可以在美国典型培养物保藏中心目录(atcc，manassas，va)中找到。
99.本公开内容的其它方面包括经改造为编码如上所述的核酸或载体的动物，或者通过本公开内容的改造的spcas9变体永久修饰的动物。例如，动物可以是模型生物(即，黑腹果蝇(drosophila melanogaster)、小鼠、蚊子、大鼠)，或者动物是农场动物或养殖的鱼或宠物。作为另一个实例，动物可以是至少一种疾病的载体。作为另一个实例，生物可以是关于人疾病的载体(即蚊子、蜱、鸟)。
100.本公开内容的另外其它方面包括使用如上所述的核酸或载体改造的植物，或者通过本公开内容的改造的spcas9变体瞬时或永久修饰的植物。例如，植物可以是作物(即，稻、大豆、小麦、烟草、棉花、紫花苜蓿、低芥酸菜籽、玉米、甜菜等等)。
101.(vi)应用本文公开的组合物和方法可以用于各种治疗、诊断、工业和研究应用中。在一些实施方案中，本公开内容可以用于修饰细胞、动物或植物中的任何目的染色体序列，以便构建基因功能模型和/或研究基因的功能，研究目的遗传或表观遗传条件，或者研究涉及各种疾病或病症的生物化学途径。例如，可以产生构建疾病或病症的模型的转基因生物，其中与疾病或病症相关的一个或多个核酸序列的表达是改变的。疾病模型可以用于研究突变对生物的作用，研究疾病的发展和/或进展，研究药物活性化合物对疾病的作用，和/或评价潜在基因治疗策略的功效。
102.在其它实施方案中，组合物和方法可以用于执行有效和成本有效的功能基因组筛选，其可以用于研究涉及特定生物过程的基因的功能以及基因表达的任何改变可以如何影响生物过程，或者执行与细胞表型结合的基因组基因座的饱和或深度扫描诱变。例如，饱和或深度扫描诱变可以用于确定基因表达、药物抗性和疾病逆转所需的功能元件的关键最小特征和离散脆弱性。
103.在进一步的实施方案中，本文公开的组合物和方法可以用于诊断测试，以确定疾病或病症的存在和/或用于确定治疗选项。合适的诊断测试的实例包括检测癌细胞中的特定突变(例如，egfr、her2等等中的特定突变)，检测与特定疾病相关的特定突变(例如，三核苷酸重复、与镰状细胞病相关的β-珠蛋白中的突变、特定snp等)、检测肝炎、检测病毒(例如寨卡病毒)等等。
104.在另外的实施方案中，本文公开的组合物和方法可以用于校正与特定疾病或病症相关的遗传突变，例如，校正与镰状细胞病或地中海贫血相关的珠蛋白基因突变，校正与严重联合免疫缺陷(scid)相关的腺苷脱氨酶基因中的突变，减少亨廷顿氏病的致病基因htt的表达，或校正视紫红质基因中的突变用于治疗色素性视网膜炎。此类修饰可以在离体细胞中进行。
105.在另外其它实施方案中，本文公开的组合物和方法可以用于生成具有改善的性状或对环境胁迫的抗性增加的作物植物。本公开内容还可以用于生成具有改善性状的农场动物或生产动物。例如，猪具有许多特征，这使得其作为生物医学模型具有吸引力，尤其是在再生医学或异种移植方面。
106.例如，本公开内容提供了如上文所述的核苷酸序列或核酸或载体，用作用于基因治疗的药剂。本公开内容还提供了药物组合物，其包含如上文所述的核苷酸序列或核酸或载体、以及至少一种药学上可接受的赋形剂。本发明还提供了药物组合物，其包含含有上述突变的重组cas9多肽和至少一种药学上可接受的赋形剂。药学上可接受的赋形剂通常包括
用作媒介物(例如水、胶囊壳等)、稀释剂、或者构成剂型或药物组合物的组分的非活性成分，所述剂型或药物组合物包含药物例如治疗剂。药学上可接受的赋形剂还包含对组合物赋予粘合功能(即，粘合剂)、崩解功能(即，崩解剂)、润滑剂功能(润滑剂)和/或其它功能(即，溶剂、表面活性剂等)的典型非活性成分。进一步地，本公开内容提供了如上文所述的核苷酸序列或核酸或载体用于基因组工程、细胞工程、蛋白质表达或其它生物技术应用的体外用途。再进一步地，本公开内容提供了含有上述突变的重组cas9多肽连同引导rna (例如，单分子(即，嵌合)引导rna或双分子(即，两部分)引导rna)用于基因组工程、细胞工程、蛋白质表达或其它生物技术应用的体外用途。
107.本公开内容的其它方面涉及试剂盒，其包括本文所述的各种组分，例如本文所述的cas9蛋白质变体、引导rna、载体、引物等等，包括关于其在基因组工程、细胞工程、蛋白质表达或其它生物技术应用中的用途的说明书。
108.定义提供下述定义和方法，以更好地定义本发明并且在本发明的实践中指导本领域的普通技术人员。除非另有说明，否则术语应通过相关领域的普通技术人员根据常规用法进行理解。
109.除非另有定义，否则本文使用的所有技术和科学术语都具有由本发明所属领域的技术人员通常理解的含义。下述参考文献为技术人员提供了本发明中使用的许多术语的一般定义：singleton等人，dictionary of microbiology and molecular biology (第2版1994)；the cambridge dictionary of science and technology (walker编辑，1988)；the glossary of genetics，第5版，r. rieger等人(编辑)，springer verlag (1991)；以及hale & marham，the harper collins dictionary of biology (1991)。如本文使用的，除非另有说明，否则下述术语具有归于其的含义。
110.当介绍本公开内容或其优选实施方案的要素时，冠词“一个”、“一种”、“该”和“所述”预期意指存在一个或多个/一种或多种要素。术语“包含”、“包括”和“具有”预期是包括在内的，并且意指可能存在除所列要素外的另外要素。
111.当与数值x相关使用时，术语“约”例如意指x
ꢀ±ꢀ
5%。
112.如本文使用的，术语“互补的”或“互补性”指双链核酸通过特定氢键合经由碱基配对的缔合。碱基配对可以是标准的沃森-克里克碱基配对(例如，5
’‑
a g t c-3’与互补序列3
’‑
t c a g-5’配对)。碱基配对也可以是hoogsteen或反向hoogsteen氢键合。互补性通常相对于双链体区域进行测量，并且因此例如排除突出端。如果仅一些(例如，70%)碱基是互补的，则双链体区域的两条链之间的互补性可以是部分的并表示为百分比(例如，70%)。并不互补的碱基是“错配的”。如果双链体区域中的所有碱基都是互补的，则互补性也可能是完全的(即，100%)。
113.如本文使用的，术语“crispr/cas系统”或“cas9系统”指包含cas9蛋白质(即核酸酶、切口酶或催化死亡蛋白)和引导rna的复合物。
114.如本文使用的，术语“内源序列”指对于细胞天然的染色体序列。
115.如本文使用的，术语“外源”指对于细胞并非天然的序列，或其在细胞的基因组中的天然位置处于不同染色体位置的染色体序列。
116.如本文使用的，“基因”指编码基因产物的dna区域(包括外显子和内含子)，以及调
控基因产物的产生的所有dna区域，无论此类调控序列是否与编码序列和/或转录序列相邻。相应地，基因包括但不一定限于启动子序列、终止子、翻译调控序列如核糖体结合位点和内部核糖体进入位点、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区域。
117.术语“异源的”指对于目的细胞并非内源或天然的实体。例如，异源蛋白质指衍生自或最初衍生自外源来源(例如外源引入的核酸序列)的蛋白质。在一些情况下，异源蛋白通常并非由目的细胞产生。
118.术语“切口酶”指切割双链核酸序列的一条链(即，使双链序列产生切口)的酶。例如，具有双链切割活性的核酸酶可以通过突变和/或缺失进行修饰，以充当切口酶并且仅切割双链序列的一条链。
119.如本文使用的，术语“核酸酶”指切割双链核酸序列的两条链的酶。
120.术语“核酸”和“多核苷酸”指以线性或环状构象，并且以单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。为了本公开内容的目的，这些术语不应被解释为关于聚合物长度的限制。这些术语可以包含天然核苷酸的已知类似物，以及在碱基、糖和/或磷酸酯部分(例如，硫代磷酸酯主链)中进行修饰的核苷酸。一般而言，特定核苷酸的类似物具有相同的碱基配对特异性；即，a的类似物将与t碱基配对。
121.术语“核苷酸”指脱氧核糖核苷酸或核糖核苷酸。核苷酸可以是标准核苷酸(即，腺苷、鸟苷、胞苷、胸苷和尿苷)、核苷酸异构体或核苷酸类似物。核苷酸类似物指具有修饰的嘌呤或嘧啶碱基或者修饰的核糖部分的核苷酸。核苷酸类似物可以是天然存在的核苷酸(例如，肌苷、假尿苷等)或非天然存在的核苷酸。关于核苷酸的糖或碱基部分的修饰的非限制性实例包括乙酰基、氨基、羧基、羧甲基、羟基、甲基、磷酰基和硫醇基的添加(或去除)，以及碱基的碳原子和氮原子由其它原子的取代(例如，7-脱氮嘌呤)。核苷酸类似物还包括双脱氧核苷酸、2'-o-甲基核苷酸、锁核酸(lna)、肽核酸(pna)和吗啉代。
122.术语“多肽”和“蛋白质”可互换使用，以指氨基酸残基的聚合物。
123.术语“靶序列”、“靶染色体序列”和“靶位点”可互换使用，以指改造的cas9系统所靶向的染色体dna中的特定序列，以及改造的cas9系统在该处修饰dna或与dna相关的蛋白质的位点。
124.用于确定核酸和氨基酸序列同一性的技术是本领域已知的。通常，此类技术包括确定基因的mrna的核苷酸序列和/或确定由此编码的氨基酸序列，并且将这些序列与第二核苷酸或氨基酸序列进行比较。基因组序列也可以以这种方式进行确定和比较。一般而言，同一性指两个多核苷酸或多肽序列分别精确的核苷酸与核苷酸或氨基酸与氨基酸的对应。两个或更多个序列(多核苷酸或氨基酸)可以通过确定其百分比同一性进行比较。两个序列(无论是核酸序列还是氨基酸序列)的百分比同一性是两个比对序列之间的精确匹配数目除以较短序列的长度并乘以100。关于核酸序列的大致比对由smith和waterman，advances in applied mathematics 2:482-489 (1981)的局部同源性算法提供。该算法可以通过使用评分矩阵应用于氨基酸序列，所述评分矩阵通过dayhoff，atlas of protein sequences and structure，m. o. dayhoff编辑，5 suppl. 3:353-358，national biomedical research foundation，washington，d.c.，usa开发，并且通过gribskov，nucl. acids res. 14 (6):6745-6763 (1986)标准化。确定序列的百分比同一性的该算法的示例性实施由
genetics computer group (madison，wis.)在“bestfit”实用程序中提供。用于计算序列之间的百分比同一性或相似性的其它合适程序是本领域一般已知的，例如，另一种比对程序是与缺省参数一起使用的blast。例如，可以使用下述缺省参数来使用blastn和blastp：遗传密码=标准；过滤器=无；链=两条；截断=60；期望=10；矩阵=blosum62；描述=50个序列；排序方式=高评分；数据库=非冗余，genbank embl ddbj pdb genbank cds翻译 swiss蛋白 spupdate pir。这些程序的细节可以在genbank nih遗传序列数据库网站上找到。
125.已详细描述了本发明，显而易见的是不脱离所附权利要求中限定的本发明范围的修改和变化是可能的。此外，应当了解，本公开内容中的所有实例都作为非限制性实例提供。
实施例
126.提供下述非限制性实施例以进一步说明本发明。本领域技术人员应当了解，下述实施例中公开的技术代表发明人已发现在本发明的实践中发挥良好功能的方法，并且因此可以被视为构成其实践模式的实例。然而，鉴于本公开内容，本领域的技术人员应当了解，可以在所公开的具体实施方案中进行许多改变，并且仍获得相同或相似的结果，而不脱离本发明的精神和范围。
127.实施例1：k855上的不同氨基酸取代具有不同的中靶活性野生型spcas9的k855残基突变为丙氨酸、谷氨酸、异亮氨酸、甲硫氨酸或谷氨酰胺，并且重组蛋白质从大肠杆菌中纯化到超过95%的同质性。k855q突变蛋白质的氨基酸序列在表1上列出。除了k855单一突变之外，所有k855突变蛋白质都共享相同的多肽序列。野生型spcas9蛋白质购自milliporesigma用作对照。具有5
’‑
ggcacugcggcuggaggugg-3
’ꢀ
(seq id no: 42)的引导序列的化学合成的heksite4单一引导rna (sgrna)也购自milliporesigma。每种蛋白质以三个生物学重复进行测试。
128.核糖核蛋白(rnp)复合物通过将缓冲液(20 mm hepes、100 mm kcl、0.5 mm dtt、0.1 mm edta，ph 7.5)、150 pmol sgrna和8
ꢀµ
g cas9蛋白质以10
ꢀµ
l总反应体积加入1.5-ml微量离心管中进行制备。sgrna/cas9蛋白质的摩尔比为大约3:1。使复合物在室温下温育15分钟，然后保持在冰上直至转染。以大约80%汇合的人u-2os细胞用胰蛋白酶溶液脱离，并且用hank氏平衡盐溶液洗涤两次。细胞然后以每100
ꢀµ
l大约0.25 x 106个细胞重悬浮于nucleofector solution v (lonza)中。通过将100
ꢀµ
l细胞转移到rnp复合物内，并且立即通过轻轻上下吸取而不引入气泡进行混合，然后转移到比色皿内用于由amaxa程序x-001进行的电穿孔，而执行核转染。细胞立即转移到每孔含有2 ml预热培养基的6孔板中，并且在37℃和5% co2下生长3天，然后收获用于基因组修饰测定。
129.使用quickextract溶液制备来自转染细胞的基因组dna提取物。以下述循环条件使用kapa hifi hotstart readymix pcr kit (roche)，用下一代测序(ngs)引物，对靶向基因组区域进行pcr扩增：95℃/3m；98℃/20s、68℃/30s和72℃/45s，共34个循环；72℃/5m。heksite4靶位点的ngs引物是：5
’‑ꢀ
tcgtcggcagcgtcagatgtgtataagagacagnnnnnnggaacccaggtagccagaga-3’(正向) (seq id no: 43)和5
’‑ꢀ
gtctcgtgggctcggagatgtgtataagagacagnnnnnnggggtggggtcagacgt-3’(反向) (seq id no: 44)。heksite4脱靶位点的ngs引物是：5
’‑
tcgtcggcagcgtcagatgtgtataagagacagnnnnnnctagagcaaaccttggcattgtcc-3’(正
向) (seq id no: 45)和5
’‑ꢀ
gtctcgtgggctcggagatgtgtataagagacagnnnnnnaccctctaccctccctgatg-3
’ꢀ
(反向) (seq id no: 46)。然后以下述循环条件使用jumpstart
™ꢀ
taq readymix
™ꢀ
for quantitative pcr kit (milliporesigma)，用illumina索引引物重新扩增初级pcr产物：95℃/3m；95℃/30s、55℃/30s和72℃/30s，共8个循环；72℃/5m。索引pcr产物用select-a
‑ꢀ
select-a-size dna clean & concentrator试剂盒(zymo)进行纯化，并且通过picogreen (thermofisher)进行定量。然后将pcr产物标准化并合并，以制备ngs文库。ngs使用illumina miseq仪器和2 x 300 bp试剂盒来执行。使用ngs分析管线，就基因组编辑频率分析每种样品的fastq文件。
130.结果呈现于图1a和1b中。结果显示了，不同的k855突变蛋白质具有不同水平的中靶活性，并且所有五种k855突变蛋白质都将脱靶效应基本上减少至相似水平。结果还显示了，谷氨酸和丙氨酸不是k855维持中靶活性的最佳取代。
131.表1. spcas9 k855q氨基酸序列实施例2：具有最佳氨基酸取代的双重突变变体维持中靶活性将在r661、n692或q695处的不同氨基酸取代引入k855m和k855q突变体背景内，以生成双重突变体。重组蛋白质从大肠杆菌中纯化到超过95%的同质性。除了指定的突变之外，所有双重突变体都与表1中列出的k855q突变体共享相同的多肽序列。每种蛋白质以三个生物学重复在u2-os细胞中对相同heksite4靶位点进行测试。rnp复合物制备、细胞转染
和ngs分析如实施例1中所述。
132.结果呈现于图2。结果显示了，在r661、n692或q695处的不同氨基酸取代导致不同水平的中靶活性。在r661残基上，异亮氨酸取代导致活性的显著减少，而亮氨酸、天冬酰胺或谷氨酰胺取代维持与wt cas9相同的活性水平。对两个不带电残基的取代作用不太可预测。
133.实施例3：特征为平衡的特异性和活性的三重突变变体将在k526、k562、k652、r691、r780、k810、k848、k1003或r1060处的亮氨酸或谷氨酰胺取代引入r661l-k855q背景内，以生成18种三重突变体和一种四重突变体(r661l-k855q-k1003q-r1060q)。除了指定的突变之外，所有三重突变体和四重突变体都共享与表1中列出的k855q突变体相同的多肽序列。重组蛋白质从大肠杆菌中纯化到超过95%的同质性。靶向人fancf02和hbb03的合成sgrna购自milliporesigma。这些sgrna的引导序列在表2中列出。espcas9 1.1蛋白质购自milliporesigma，并且hifi cas9 v3蛋白质购自integrated dna technologies。每种蛋白质以三个生物学重复进行测试。
134.如实施例1中所述制备rnp复合物。人k562细胞在转染前一天以0.25 x 106个细胞/ml进行接种，并且在转染时为大约0.5 x 106个细胞/ml。细胞用hank氏平衡盐溶液洗涤两次，然后以每100
ꢀµ
l大约0.35 x 106个细胞重悬浮于nucleofector solution v (lonza)中。通过将100
ꢀµ
l细胞转移到rnp复合物内，并且立即通过轻轻上下吸取而不引入气泡进行混合，然后转移到比色皿内用于由amaxa程序t-016进行的电穿孔，而执行核转染。细胞立即转移到每孔含有2 ml预热培养基的6孔板中，并且在37℃和5% co2下生长3天，然后收获用于基因组修饰测定。使用quickextract溶液制备来自转染细胞的基因组dna提取物。以下述循环条件使用jumpstart
™ꢀ
taq readymix
™ꢀ
for quantitative pcr kit (milliporesigma)，用ngs引物对靶向基因组区域进行pcr扩增：98℃/2m；98℃/15s、62℃/30s和72℃/45s，共34个循环；72℃/5m。ngs引物序列在表2中列出。ngs文库制备、测序和数据分析如实施例1中所述。
135.结果呈现于图3a、3b、3c和3d中。图3a和3b中的结果显示了，所有蛋白质在fancf02靶位点上都是高度活性的，并且在其中仅存在小的变化。然而，在fancf02单一错配脱靶位点处的脱靶突变频率方面，在蛋白质中存在广泛范围的变化。六种三重突变蛋白质在减少脱靶效应方面优于espcas9 1.1。这些包括k526l-r661l-k855q、r661l-r691l-k855q、r661l-r780l-k855q、r661l-r780q-k855q、r661l-k810l-k855q和r661l-k848l-k855q。与wt cas9相比，除了异常突变体r661l-r691q-k855q之外，剩余突变蛋白质在减少脱靶突变频率方面与espcas9 1.1可比较或在espcas9 1.1和hifi cas9 v3之间。图3c和3d中的结果进一步区别这些蛋白质中的中靶活性和特异性水平。如fancf02位点上鉴定的极高特异性突变蛋白质几乎丧失了hbb03位点上的所有中靶活性。然而，六种三重突变蛋白质具有与espcas9 1.1相似水平的脱靶突变频率，但在hbb03位点上，它们具有比espcas9 1.1基本上更高的中靶活性水平。基于组合结果，这组突变蛋白质被鉴定为具有平衡的特异性和活性。该组选择的突变蛋白质包括k562l-r661l-k855q、k562q-r661l-k855q、k652l-r661l-k855q、k652q-r661l-k855q、r661l-k855q-k1003q和r661l-k855q-r1060q。基于组合结果，还鉴定了四种espcas9 1.1样三重突变蛋白质，其包括k526q-r661l-k855q、r661l-k810q-k855q、r661l-k855q-k1003l和r661l-k855q-r1060l。
136.表2. sgrna引导序列和ngs引物实施例4：特异性改善的spcas9核酸酶介导跨越不同基因组位点的有效编辑靶向五个人基因组位点的sgrna购自milliporesigma。这些sgrna的引导序列在表3中列出。如实施例1中所述制备rnp复合物。人k562细胞在转染前一天以0.25 x 106个细胞/ml进行接种，并且在转染时为大约0.5 x 106个细胞/ml。细胞用hank氏平衡盐溶液洗涤两次，然后以每100
ꢀµ
l大约0.35 x 106个细胞重悬浮于nucleofector solution v (lonza)中。通过将100
ꢀµ
l细胞转移到rnp复合物内，并且立即通过轻轻上下吸取而不引入气泡进行混合，然后转移到比色皿内用于由amaxa程序t-016进行的电穿孔，而执行核转染。细胞立即转移到每孔含有2 ml预热培养基的6孔板中，并且在37℃和5% co2下生长3天，然后收获用于基因组修饰测定。
137.使用quickextract溶液制备来自转染细胞的基因组dna提取物。以下述循环条件使用jumpstart
™ꢀ
taq readymix
™ꢀ
for quantitative pcr kit (milliporesigma)，用ngs引物对靶向基因组区域进行pcr扩增：98℃/2m；98℃/15s、62℃/30s和72℃/45s，共34个循环；72℃/5m。ngs引物序列在表3中列出。ngs文库制备、测序和数据分析如实施例1中所述。结果呈现于图4中。结果显示了，所鉴定的具有平衡的特异性和活性的四种三重突变蛋白质具有比espcas9 1.1基本上更高的编辑效率，并且跨越所有五个基因组靶位点与wt cas9可比较。
138.表3. sgrna引导序列和ngs引物。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：神经活性类固醇和含有其的药物组合物的制作方法

用于基因组修饰的高保真SpCas9核酸酶的制作方法

相关文献

最热文献