一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于编辑核苷酸序列的方法和组合物

2022-07-10 16:56:48 来源:中国专利 TAG:
用于编辑核苷酸序列的方法和组合物1.政府支持2.本发明是在美国国立卫生研究院授予的资助号u01ai142756、rm1hg009490、r01eb022376和r35gm118062的政府支持下完成的。政府对本发明享有一定的权利。3.相关申请和参考并入4.本美国临时申请涉及并通过引用以下申请并入,即2019年3月19日提交的美国临时申请号62/820,813(代理人案卷号b1195.70074us00)、2019年6月7日提交的美国临时申请号62/858,958(代理人案卷号b1195.70074us01),2019年8月21日提交的美国临时申请号62/889,996(代理人案卷号b1195.70074us02),2019年8月21日提交的美国临时申请号62/922,654(代理人案卷编号b1195.70083us00),2019年10月10日提交的美国临时申请号62/913,553(代理人案卷编号b1195.70074us03),2019年10月10日提交的美国临时申请号62/973,558(代理人案卷编号b1195.70083us01),2019年11月5日提交的美国临时申请号62/931,195(代理人案卷编号b1195.70074us04),2019年12月5日提交的美国临时申请号62/944,231(代理人案卷编号b1195.70074us05),2019年12月5日提交的美国临时申请号62/974,537(代理人案卷编号b1195.70083us02),2020年3月17日提交的美国临时申请号62/991,069(代理人案卷编号b1195.70074us06),以及2020年3月17日提交的美国临时申请号(截至本文件提交时,编号不可用)(代理人案卷编号b1195.70083us03)。5.序列表引用合并6.根据37cfr§1.52(e),本说明书包括在光盘上同时提交的序列表(2份)。根据37cfr§1.52(e)(5)的要求,申请人通过引用明确将光盘上的所有信息和材料合并到指定为“b119570083wo00-seq.txt,”的文件中,该文件创建于2020年3月19日,大小为371.109mb。通过这一声明,序列表构成了本说明书的一部分。光盘不包含其他文件。7.发明背景8.致病性单个核苷酸突变导致大约67%的人类疾病对此存在遗传成分7。不幸的是,尽管进行了数十年的基因治疗探索,但这些遗传疾病患者的治疗选择仍然极其有限8。也许应对这一治疗挑战最直接的解决方案之一是直接校正患者基因组中的单个核苷酸突变,这将解决疾病的根本原因并可能提供持久的益处。尽管这种策略以前是不可想象的,但最近crisrp/cas系统9的出现带来的基因组编辑能力的改进,现在已经使这种治疗方法触手可及。通过直接设计包含与靶dna序列互补的约20个核苷酸的向导rna(grna)序列,crispr相关(cas)核酸酶可以专门访问几乎任何可能的基因组位点1,2。迄今为止,已经鉴定了几种单体细菌cas核酸酶系统并适用于基因组编辑应用10。cas核酸酶的这种天然多样性,以及越来越多的工程变体11-14,为开发新基因组编辑技术提供了肥沃的土壤。9.虽然利用crispr进行基因破坏现在是一种成熟的技术,但人类基因组中单个碱基对的精确编辑仍然是一个主要挑战3。同源定向修复(hdr)长期以来用于人类细胞和其他生物体,使用编码所需编辑的供体dna修复模板在双链断裂(dsb)位点插入、校正或交换dna序列15。然而,传统hdr在大多数人类细胞类型中的效率非常低,尤其是在非分裂细胞中,并且竞争性非同源末端连接(nhej)主要导致插入-缺失(indel)副产物16。与dsb的产生有关的其他问题,这会导致靶基因座上的大染色体重排和缺失17,或激活p53轴导致生长停滞和细胞凋亡18,19。10.已经探索了几种方法来解决hdr的缺点。例如,用寡核苷酸供体修复单链dna断裂(切口)已被显示可以减少插入缺失的形成,但所需修复产物的产量仍然很低20。其他策略尝试使用小分子和生物试剂将修复偏向于hdr而不是nhej21-23。然而,这些方法的有效性取决于细胞类型,正常细胞状态的扰动可能导致不良和不可预见的影响。11.最近,liu等人开发碱基编辑作为编辑靶核苷酸的技术,无需创建dsb或依赖hdr4-6,24-27。通过cas融合脱氨酶对dna碱基的直接修饰允许c·g到t·a,或a·t到g·c,碱基对在短靶窗口(~5-7个碱基)内高效转换。因此,碱基编辑器已迅速被科学界采用。然而,几个因素可能会限制它们对精确基因组编辑的普遍性。12.因此,开发能够引入任何所需的单个或多个核苷酸变化的可编程编辑器,其可以安装核苷酸插入或缺失(例如,至少1、2、3、4、5、6、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50、60、70、80、90、100或更多个碱基对插入或缺失),和/或可以高特异性和高效率地改变或修改靶位点的核苷酸序列,将大大扩展基于crispr的基因组编辑技术的范围和治疗潜力。13.发明概述14.本发明公开了新的组合物(例如,新的pegrna和包含它们的pe复合物)和使用引导编辑(pe)修复治疗靶标的方法,例如在clinvar数据库中鉴定的那些靶标,使用利用本文描述的专门算法设计的pegrna。因此,在一个方面,本技术公开了用于大规模预测可用于修复治疗靶标(例如,包括在clinvar数据库中的那些)的pegrna序列的算法。此外,本技术公开了使用所公开的算法设计的治疗性pegrna的预测序列,并且可以与引导编辑一起使用以修复治疗性靶标。15.本文公开的算法和预测的pegrna序列一般涉及引导编辑。因此,本公开内容还提供了对引导编辑的各种组件和方面的描述,包括合适的napdnabp(例如,cas9切口酶)和聚合酶(例如,逆转录酶),以及其他合适的组件(例如,接头、nls)和pe融合蛋白,其可以与本文公开的治疗性pegrna一起使用。16.如本文所公开的,引导编辑是一种通用且精确的基因组编辑方法,其使用与聚合酶(即,以融合蛋白的形式或以其他方式与napdnabp反式提供)结合的核酸可编程dna结合蛋白(“napdnabp”)将新的遗传信息直接写入特定的引导编辑dna引导编辑位点,其中引导编辑系统用引导编辑(pe)向导rna(“pegrna”)编程,两者都指定了靶位点和模板以替换dna链的形式合成所需的编辑,通过延伸(dna或rna)工程化到向导rna上(例如,在5′或3′末端,或在向导rna的内部部分)。包含所需编辑(例如,单个核碱基替换)的替换链与要编辑的靶位点的内源性链共享相同的序列(除了它包括所需的编辑)。通过dna修复和/或复制机制,靶位点的内源性链被新合成的包含所需编辑的替换链替换。在某些情况下,引导编辑可能被认为是一种“搜索和替换”基因组编辑技术,因为本文所述的引导编辑器不仅搜索和定位要编辑的所需靶位点,而且同时,编码含有所需编辑的替换链,该编辑被安装在相应的靶位点内源dna链的位置。本公开的引导编辑器部分涉及以下发现:靶标引导逆转录(tprt)或“引导编辑”的机制可以被利用或适应以高效地进行基于crispr/cas的精确基因组编辑和遗传灵活性(例如,如图1a-1f的各种实施方案中所描绘的)。tprt天然地被移动dna元件使用,例如哺乳动物非ltr逆转录转座子和细菌ii组内含子28,29。发明人在本文中使用cas蛋白-逆转录酶融合或相关系统以利用向导rna靶向特定dna序列,在靶位点产生单链切口,并使用带切口的dna作为引物进行工程化逆转录酶模板的逆转录,所述逆转录模板与向导rna整合。然而,虽然该概念始于使用逆转录酶作为dna聚合酶成分的引导编辑器,但本文所述的引导编辑器不限于逆转录酶,而是可以包括使用虚拟(virtually)和dna聚合酶。事实上,虽然本技术自始至终都提到了具有″逆转录酶″的引导编辑器,但这里提出逆转录酶只是一种可以与引导编辑一起工作的dna聚合酶。因此,无论说明书何时提及“逆转录酶”,本领域普通技术人员都应该理解,可以使用任何合适的dna聚合酶代替逆转录酶。因此,在一个方面,引导编辑器可以包含cas9(或等效的napdnabp),其被编程为通过将其与含有与靶dna中互补前间隔区退火的间隔区序列的指定向导rna(即,pegrna)相关联来靶向dna序列。指定的向导rna还包含延伸形式的新的遗传信息,该信息编码包含所需遗传改变的dna替代链,其用于替代靶位点处的相应内源性dna链。为了将信息从pegrna转移到靶dna,引导编辑的机制包括在dna的一条链上切割靶位点以暴露3’‑羟基。然后可以使用暴露的3’‑羟基将pegrna上的编辑编码延伸的dna聚合直接引向靶位点。在各种实施方案中,延伸——其为包含编辑的置换链的聚合提供模板——可以由rna或dna形成。在rna延伸的情况下,引导编辑器的聚合酶可以是rna依赖性dna聚合酶(例如逆转录酶)。在dna延伸的情况下,引导编辑器的聚合酶可以是dna依赖性dna聚合酶。17.由本文公开的引导编辑器形成的新合成链(即,含有所需编辑的置换dna链)将与基因组靶序列同源(即,具有相同的序列),除了包含所需的核苷酸变化(例如,单个核苷酸变化、缺失或插入,或其组合)。新合成(或置换)的dna链也可称为单链dnaflap,它将与互补的同源内源dna链竞争杂交,从而取代相应的内源性链。在某些实施方案中,该系统可以与易错逆转录酶(例如,作为与cas9结构域的融合蛋白提供,或反式提供给cas9结构域)的使用组合。易错逆转录酶可以在单链dnaflap的合成过程中引入改变。因此,在某些实施方案中,可利用易错逆转录酶将核苷酸变化引入靶dna。根据与系统一起使用的易错逆转录酶,变化可以是随机的或非随机的。18.杂交中间体(包含由与内源性dna链杂交的逆转录酶合成的单链dnaflap)的拆分可包括去除所产生的内源性dna的置换flap(例如,使用5’端dnaflap内切核酸酶fenl),合成的单链dnaflap与靶dna的连接,以及由于细胞dna修复和/或复制过程而导致的所需核苷酸变化的同化。由于模板化dna合成为任何核苷酸的修饰(包括插入和缺失)提供了单个核苷酸精度,因此这种方法的范围非常广泛,可以预见,可用于基础科学和治疗学中的无数应用。19.设计治疗性pegrna的算法和方法20.一方面,本公开涉及用于设计治疗性pegrna的新算法,特别是与一次性pegrna设计练习相反的大规模设计。21.因此,一些方面涉及用于确定引导编辑器向导rna(pegrna)的序列的计算机化方法。该方法包括使用至少一个计算机硬件处理器来访问指示输入等位基因、输出等位基因和包含核酸可编程dna结合蛋白和聚合酶(例如逆转录酶)的融合蛋白的数据。该方法包括基于输入等位基因、输出等位基因和融合蛋白确定pegrna序列,其中pegrna序列被设计为与融合蛋白相关以将输入等位基因改变为输出等位基因,包括确定pegrna序列的一个或多个以下特征:与输入等位基因中的靶核苷酸序列互补的间隔区(即,间隔区,如图27中所定义);用于与融合蛋白相互作用的grna主链(即,图27中定义的grna核心);和延伸(即,如图27所示的延伸臂),其包含以下一项或多项:dna合成模板(如图27所示),包括将输入等位基因改变为输出等位基因的所需核苷酸变化;引物结合位点(即图27所示的引物结合位点)。pegrna还可以包含终止启动子的转录的3’终止信号。此外,pegrna可包括位于延伸臂5’端的第一修饰和位于延伸臂3’端的第二修饰。此类序列(在图27中显示为“e1”和“e2”)可包括茎环序列,其可增加pegrna的稳定性。22.在一些实例中,该方法包括确定间隔区和延伸,并且确定间隔区在pegrna的5’端,并且延伸在pegrna结构的3’端。23.在一些实例中,该方法包括确定间隔区和延伸,并且确定间隔区在pegrna的5’端,并且延伸在间隔区的3’。24.在一些实例中,访问指示输入等位基因和输出等位基因的数据包括访问包含一组输入等位基因和相关输出等位基因的数据库。访问数据库可以包括访问国家生物技术信息中心(www.ncbi.nlm.nih.gov/clinvar/)的clinvar数据库,该数据库包含多个条目,每个条目包含来自输入等位基因组的输入等位基因和来自输出等位基因组的输出等位基因(例如,野生型或具有所需活性的等位基因)。确定pegrna序列可以包括确定该组中每个输入等位基因和相关输出等位基因的一个或多个pegrna序列。25.在一些实例中,访问指示融合蛋白的数据包括从多种融合蛋白中确定融合蛋白。26.在一些实例中,融合蛋白包含cas9蛋白。融合蛋白可以包括cas9-ng蛋白、cas9-ngg、sacas9-kkh或spcas9蛋白。27.在一些实例中,将输入等位基因改变为输出等位基因包括单个核苷酸变化、一个或多个核苷酸的插入、一个或多个核苷酸的缺失、或其组合。28.在一些实施方案中,该方法包括确定间隔区,其中间隔区包括1至40个核苷酸之间的核苷酸序列。在一些实施方案中,该方法包括确定间隔区,其中间隔区包括5至35个核苷酸之间的核苷酸序列。在一些实施方案中,该方法包括确定间隔区,其中间隔区包括10至30个核苷酸之间的核苷酸序列。在一些实施方案中,该方法包括确定间隔区,其中间隔区包括15至25个核苷酸之间的核苷酸序列。在一些实例中,该方法包括确定间隔区,其中间隔区包括大约20个核苷酸的核苷酸序列。该方法可以包括基于相应前间隔区核苷酸序列中变化的位置来确定间隔区。变化可以安装在大约前间隔位置-15到前间隔位置 39之间的编辑窗口中。变化可以安装在大约前间隔位置-10到前间隔位置 34之间的编辑窗口中变化可以安装在大约前间隔位置-5到前间隔位置 29之间的编辑窗口中。变化可以安装在大约前间隔位置-1到前间隔位置 27之间的编辑窗口中。29.在一些实例中,该方法可以包括:基于所述输入等位基因和所述融合蛋白确定一组初始候选前间隔区,其中每个初始候选前间隔区包含所述输入等位基因中融合蛋白的pam;从初始候选前间隔区组中确定一个或多个初始候选前间隔区,其中每个包含不相容的切口位置;从所述组中去除所确定的一个或多个初始候选前间隔区以生成一组剩余的候选前间隔区;和其中确定所述pegrna结构包括确定多个pegrna结构,其中每个所述pegrna结构包含基于来自剩余的候选前间隔区组的相应前间隔区确定的不同间隔区。30.在一些实例中,该方法包括确定所述延伸和所述dna合成模板(例如,rt模板序列),其中所述dna合成模板(例如,rt模板序列)包含约1个核苷酸至约40个核苷酸。在一些实例中,该方法包括确定所述延伸和所述dna合成模板(例如,rt模板序列),其中所述dna合成模板(例如,rt模板序列)包含约3个核苷酸至约38个核苷酸。在一些实例中,该方法包括确定所述延伸和所述dna合成模板(例如,rt模板序列),其中所述dna合成模板(例如,rt模板序列)包含约5个核苷酸至约36个核苷酸。在一些实例中,该方法包括确定所述延伸和所述dna合成模板(例如,rt模板序列),其中所述dna合成模板(例如,rt模板序列)包含约7个核苷酸至约34个核苷酸。31.在一些实例中,确定pegrna包括基于所述输入的等位基因和/或所述融合蛋白确定所述间隔区;和基于所述间隔区确定所述dna合成模板(例如,rt模板序列)。32.在一些实例中,所述dna合成模板(例如,rt模板序列)编码与切口位点相邻的内源dna序列互补的单链dnaflap,其中所述单链dnaflap包含所需的核苷酸变化。所述单链dnaflap能够与切口位点相邻的内源dna序列杂交,从而导致安装所需核苷酸变化。所述单链dnaflap能够取代与切口位点相邻的内源dna序列。所述单链dnaflap的细胞修复导致所述所需核苷酸变化的安装,从而形成所需产物。33.在一些实例中,所述融合蛋白与pegrna复合时能够结合靶dna序列。所述靶dna序列包含发生变化的靶链和互补的非靶链。34.在一些实例中,所述输入等位基因包含致病性dna突变,所述输出等位基因包含经校正的dna序列。35.一些实施方案涉及一种系统,该系统包括至少一个处理器;和至少一个其上编码有指令的计算机可读存储介质,当执行该指令时,使该至少一个处理器执行用于确定pegrna结构的计算机化方法。36.一些实施方案涉及其上编码有指令的至少一个计算机可读存储介质,当执行该指令时,使至少一个处理器执行用于确定pegrna序列的计算机化方法。一些实施方案涉及使用根据用于确定pegrna的计算机化方法确定的pegrna的碱基编辑方法。37.治疗pegrna38.在另一方面,本公开提供已经使用本文公开的算法设计的治疗性pegrna,如图27和图28所示。39.例如,可用于本文公开的pegrna在图27中举例说明。该图提供了本文涵盖的pegrna的一个实施方案的结构,其可以根据实施例2中定义的方法设计。pegrna包含在5’至3’方向上排列的三个主要成分元件,即:间隔区、grna核心和3’端的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)、编辑模板(b)和同源臂(c)。此外,pegrna可以包含任选的3’末端修饰物区(e1)和任选的5’末端修饰物区(e2)。更进一步地,pegrna可以在pegrna的3’末端包含转录终止信号(未描述)。这些结构元件在本文中进一步定义。pegrna结构的描述并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端。图27所示的pegrna可以通过本文公开的算法设计。40.在另一个实例例中,图28提供了本文涵盖的pegrna的另一个实施方案的结构,其可以根据实施例2中定义的方法设计。pegrna包含在5’至3’方向上排列的三个主要成分元件,即:间隔区、grna核心和3’端的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)、编辑模板(b)和同源臂(c)。此外,pegrna可以包含任选的3’末端修饰物区(e1)和任选的5’末端修饰物区(e2)。更进一步地,pegrna可以在pegrna的3’末端包含转录终止信号(未描述)。这些结构元件在本文中进一步定义。pegrna结构的描述并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端。图27所示的pegrna可以通过本文公开的算法设计。41.在各种实施方案中,本公开提供了使用本文公开的算法针对clinvar数据库条目设计的seqidno:1-135514和813085-880462的治疗性pegrna。42.在各种其他实施方案中,使用本文公开的算法针对clinvar数据库设计的示例性pegrna被包括在序列表中,该序列表形成了本说明书的一部分。序列表包括seqidno:1-135514和813085-880462的完整pegrna序列。这些完整的pegrna中的每一个都由间隔区(seqidno:135515-271028和880463-947840)和延伸臂(seqidno:271029-406542和947841-1015218)组成。此外,每个pegrna包含grna核心,例如,如seqidno:1361579-1361580所定义的。seqidno:271029-406542和947841-1015218的延伸臂还各自包含引物结合位点(seqidno:406543-542056和1015219-1082596)、编辑模板(seqidno:542057-677570和1082597-1149974),以及同源臂(seqidno:677571-813084和1149975-1217352)。pegrna任选地可以包含5’末端修饰物区和/或3’末端修饰物区。pegrna还可以在pegrna的3’处包含逆转录终止信号(例如,seqidno:1361560-1361566)。该应用包含所有这些序列的设计和使用。43.在各种实施方案中,引导编辑器向导rna包含(a)向导rna和(b)在向导rna的5’或3’末端处,或在向导rna中的分子内位置处的rna延伸,其示例如图3a-c所示。rna延伸可包含(i)包含所需核苷酸变化的dna合成模板,(ii)逆转录引物结合位点,和(iii)任选的接头序列。在各种实施方案中,dna合成模板编码与切口位点相邻的内源dna序列互补的单链dnaflap,其中单链dnaflap包含所需的核苷酸变化。44.在各种实施方案中,rna延伸臂的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸或至少25个核苷酸。45.在某些实施方案中,引导编辑器向导rna包含seqidno:1361548-1361581的核苷酸序列,或与seqidno:1361548-1361581中的任一个具有至少85%、或至少90%、或至少95%、或至少98%或至少99%的序列同一性的核苷酸序列。46.在一些实施方案中,引导编辑器向导rna(pegrna)包含seqidno:1361548-1361581的核苷酸序列的变体,与seqidno:1361548-1361581的核苷酸序列相比,包含至少一个突变。在一些实施方案中,与seqidno:1361548-1361581的核苷酸序列相比,变体包含多于1个(例如,2、3、4、5、6、7、8、9、10、15、20或更多个)突变。47.在另一方面,本公开提供了包含向导rna和至少一个rna延伸(即,延伸臂,根据图27)的引导编辑器向导rna。rna延伸位于向导rna的3’末端。在其他实施方案中,rna延伸位于向导rna的5’末端。在其他实施方案中,rna延伸位于向导rna内的分子内位置,优选地,延伸部分的分子内定位不破坏前间隔区的功能。48.在各种实施方案中,引导编辑器向导rna(pegrna)能够结合napdnabp并将napdnabp引导至靶dna序列。靶dna序列可包含靶链和互补的非靶链,其中向导rna与靶链杂交以形成rna-dna杂交体和r-环。49.引导编辑器向导rna的各种实施方案中,至少一个rna延伸包含dna合成模板。在各种其他实施方案中,rna延伸进一步包含逆转录引物结合位点。在其他实施方案中,rna延伸包含将rna延伸连接到向导rna的接头或间隔区。50.在各种实施方案中,rna延伸的长度可以至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸或至少500个核苷酸。51.在其他实施方案中,dna合成模板(即编辑模板,根据图27)的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸或至少500个核苷酸。52.在其他实施方案中,其中逆转录引物结合位点序列(即,引物结合位点,根据图27)的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸或至少500个核苷酸。53.在各种实施方案中,任选的接头或间隔区的长度为至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸或至少500个核苷酸。54.本文公开的设计的pegrna可以与引导编辑器融合蛋白复合。55.在一方面,本说明书提供了一种引导编辑器融合蛋白,其包含核酸可编程dna结合蛋白(napdnabp)和逆转录酶。在各种实施方案中,融合蛋白能够在引导编辑器向导rna(pegrna)存在下通过靶向引导的逆转录进行基因组编辑。56.在一些实施方案中,napdnabp选自由以下组成的组:cas9、casx、casy、cpfl、c2c1、c2c2、c2c3和argonaute,并且任选地具有切口酶活性。57.在其他实施方案中,当与如本文所述的引导编辑器向导rna复合时,融合蛋白能够结合靶dna序列(例如,基因组dna)。58.在其他实施方案中,靶dna序列包含靶链和互补的非靶链。59.在其他实施方案中,融合蛋白与引导编辑器向导rna复合的结合形成r-环。r-环可包含(i)包含引导编辑器向导rna和靶链的rna-dna杂交体,和(ii)互补的非靶链。60.在其他实施方案中,互补的非靶链被切割以形成具有游离3’端的逆转录酶引导序列。61.在其他实施方案中,单链dnaflap与邻近切口位点的内源dna序列杂交,从而安装所需的核苷酸变化。在其他实施方案中,单链dnaflap置换邻近切口位点并具有游离5’端的内源dna序列。在一些实施方案中,具有5’末端的置换的内源dna被细胞切除。62.在各种实施方案中,单链dnaflap的细胞修复导致所需核苷酸变化的安装,从而形成所需产物。63.在各种其他实施方案中,所需的核苷酸变化被安装在pam序列的约-4至 10之间的编辑窗口中。64.在其他实施方案中,所需核苷酸变化被安装在切口位点的约-5至 5个核苷酸之间,或切口位点的约-10至 10之间,或切口位点的约-20至 20之间,或切口位点的约-30至 30之间,或切口位点的约-40至 40之间,或切口位点的约-50至 50之间,或切口位点的约-60至 60之间,或切口位点的约-70至 70之间,或切口位点的约-80至 80之间,或切口位点的约-90至 90之间,或切口位点的约-100至 100之间,或切口位点的约-200至 200之间的编辑窗口中。65.在各种实施方案中,napdnabp包含seqidno:1361421的氨基酸序列。在各种其他实施方案中,napdnabp包含与seqidno:1361421-1361484和1361593-1361596中任一项的氨基酸序列至少80%、85%、90%、95%、98%或99%相同的氨基酸序列。66.在其他实施方案中,所公开的融合蛋白和/或组合物的逆转录酶可包含seqidno:1361485-1361514和1361597-1361598中任一项的氨基酸序列。在其他实施方案中,逆转录酶可包含与seqidno:1361485-1361514和1361597-1361598中任一项的氨基酸序列至少80%、85%、90%、95%、98%或99%相同的氨基酸序列。这些序列可以是天然存在的逆转录酶序列,例如来自逆转录病毒或逆转录转座子,或者这些序列可以是非天然存在的或工程化改造的。67.在各种其他实施方案中,本文公开的融合蛋白可包含各种结构构型。例如,融合蛋白可以包含结构nh2-[napdnabp]-[逆转录酶]-cooh;或nh2-[逆转录酶]-[napdnabp]-cooh,其中“]-[”的每个实例表示存在任选的接头序列。[0068]在各种实施方案中,接头序列包含seqidno:1361520-1361530、1361585和1361603的氨基酸序列,或与seqidno:1361520-1361530、1361585和1361603中的任一接头氨基酸序列至少80%、85%、或90%、或95%、或99%相同的氨基酸序列。[0069]在各种实施方案中,掺入靶dna的所需核苷酸变化可以是单个核苷酸变化(例如,转换或颠换)、一个或多个核苷酸的插入、一个或多个核苷酸的缺失,或它们的组合。[0070]在某些情况下,插入的长度为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400或至少500个核苷酸。[0071]在某些其他情况下,缺失的长度为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400或至少500个核苷酸。[0072]在引导编辑器向导rna的各种实施方案中,dna合成模板(即,编辑模板,根据图27)可以编码与切口位点相邻的内源性dna序列互补的单链dnaflap,其中单链dnaflap包含期望的核苷酸变化。单链dnaflap可以在切口位点取代内源性单链dna。在切口位点被取代的内源性单链dna可以有5’端并形成内源性flap,可以被细胞切除。在各种实施方案中,5’端内源性flap的切除可有助于驱动产物形成,因为去除5’端内源flap促进单链3’dnaflap与相应互补dna链的杂交,以及掺入或同化由单链3’dnaflap携带到靶dna中的所需核苷酸变化。[0073]在引导编辑器向导rna的各种实施方案中,单链dnaflap的细胞修复导致所需核苷酸变化的安装,从而形成所需产物。[0074]在本发明的又一方面,说明书提供了包含本文所述的融合蛋白和任何上述的引导编辑器向导rna(pegrna)的复合物。[0075]在本发明的其他方面,本说明书提供了一种复合物,其包含napdnabp(例如,cas9)和引导编辑器向导rna。该napdnabp可以是cas9切口酶(例如spcas9),或者可以是与seqidno:1361421-1361484和1361593-1361596中任一项的氨基酸序列至少80%、至少85%、至少90%、至少95%、至少98%或至少99%相同的氨基酸序列。[0076]在涉及复合物的各种实施方案中,引导编辑器向导rna能够将napdnabp引导至靶dna序列。在各种实施方案中,逆转录酶可以反式提供,即从与复合物本身不同的来源提供。例如,可以通过引入单独编码逆转录酶的单独载体向具有复合物的相同细胞提供逆转录酶。[0077]在另一方面,本说明书提供了药物组合物(例如,本文所述的融合蛋白,seqidno:1-135,514的pegrna)。在一些实施方案中,药物组合物包含napdnabp、融合蛋白、逆转录酶和引导编辑器向导rna中的一种或多种。在一些实施方案中,本文描述的融合蛋白和药学上可接受的赋形剂。在其他实施方案中,药物组合物包含本文所述的任何延伸向导rna和药学上可接受的赋形剂。在其他实施方案中,药物组合物包含与本文所述的任何融合蛋白和药学上可接受的赋形剂组合的本文所述的任何延伸向导rna。在其他实施方案中,药物组合物包含编码napdnabp、融合蛋白、逆转录酶和引导编辑器向导rna中的一种或多种的任何多核苷酸序列。在其他实施方案中,本文公开的各种组分可以分离成一种或多种药物组合物。例如,第一药物组合物可包含融合蛋白或napdnabp,第二药物组合物可包含逆转录酶,且第三药物组合物可包含引导编辑器向导rna。[0078]在又一方面,本公开提供试剂盒。在一个实施方案中,该试剂盒包含编码一种或多种组分的一种或多种多核苷酸,包括融合蛋白、napdnabp、逆转录酶和引导编辑器向导rna(例如,seqidno:1-135514或813085-880462中的任一种)。试剂盒还可包含载体、细胞和多肽的分离制剂,包括本文公开的任何融合蛋白、napdnabp或逆转录酶。[0079]在又一方面,本公开提供了使用公开的pegrna物质组成的方法。[0080]在一个实施方案中,该方法涉及一种使用本文公开的pegrna在双链dna中安装所需核苷酸变化的方法。该方法首先包括使双链dna序列与包含如本文所述的融合蛋白和引导编辑器向导rna的复合物接触,其中融合蛋白包含napdnabp和逆转录酶,并且其中引导编辑器向导rna包括包含所需核苷酸变化的dna合成模板。napdnabp在非靶链上切割双链dna序列,从而产生具有3’末端的游离单链dna。切割后,游离单链dna的3’端与dna合成模板杂交,从而引导逆转录酶结构域。然后逆转录酶促进dna从3’端聚合,从而产生包含所需核苷酸变化的单链dnaflap。然后,单链dnaflap替换切割位点附近的内源dna链,从而在双链dna序列中安装所需的核苷酸变化。[0081]在其他实施方案中,本公开提供了一种方法,用于在靶基因座处的dna分子的核苷酸序列中引入一个或多个变化,包括将dna分子与核酸可编程dna结合蛋白(napdnabp)和将napdnabp靶向靶基因座的向导rna接触,其中所述向导rna包含逆转录酶(rt)模板序列,所述逆转录酶(rt)模板序列包含至少一个所需核苷酸变化。napdnabp在靶基因座处的dna链中暴露3’末端,其与dna合成模板(例如rt模板序列)杂交以引导逆转录。接下来,通过逆转录酶合成或聚合包含基于dna合成模板(例如,rt模板序列)的至少一种所需核苷酸变化的单链dnaflap。最后,将至少一种所需的核苷酸变化掺入相应的内源性dna,从而在靶基因座处的dna分子的核苷酸序列中引入一种或多种变化。[0082]在其他实施方案中,本公开提供了一种通过靶引导的逆转录在dna分子的靶基因座处的核苷酸序列中引入一种或多种变化的方法,该方法包括:将靶基因座处的dna分子与以下接触:(i)包含核酸可编程dna结合蛋白(napdnabp)和逆转录酶的融合蛋白,和(ii)包含rt模板的向导rna,所述rt模板包含所需的核苷酸变化(例如,seqidno:1-135514或813085-880462中的任一种);这种接触促进了rt模板的靶引发的逆转录以产生包含所需核苷酸变化的单链dna,并通过dna修复和/或复制过程将所需核苷酸变化掺入靶基因座处的dna分子中。[0083]在一些实施方案中,替换内源dna链的步骤包括:(i)将单链dnaflap与邻近切割位点的内源dna链杂交以产生序列错配;(ii)切除内源dna链;(iii)修复错配以在dna两条链中形成包含所需核苷酸变化的所需产物。[0084]本文公开的方法可涉及具有napdnabp的融合蛋白,所述napdnabp是核酸酶死亡的cas9(dcas9)、cas9切口酶(ncas9)或核酸酶活性cas9。在其他实施方案中,napdnabp和逆转录酶不编码为单一融合蛋白,而是可以在单独的构建体中提供。因此,在一些实施方案中,逆转录酶可以相对于napdnabp反式提供(而不是通过融合蛋白的方式)。[0085]在涉及方法的各种实施方案中,napdnabp可以包含seqidno:1361421(cas9)的氨基酸序列。该napdnabp还可以包含与seqidno:1361421中任一项的氨基酸序列至少80%、85%、90%、95%、98%或99%相同的氨基酸序列。[0086]在涉及方法的各种实施方案中,逆转录酶可包含seqidno:1361485-1361514和1361597-1361598的氨基酸序列中的任一个。逆转录酶还可包含与seqidno:1361485-1361514和1361597-1361598中任一项的氨基酸序列至少80%、85%、90%、95%、98%或99%相同的氨基酸序列。[0087]该方法可以涉及使用具有seqidno:271029-406542和947841-1015218的核苷酸序列的延伸rna,或与其具有至少80%、或至少85%、或至少90%、或至少95%、或至少99%序列同一性的核苷酸序列。[0088]该方法可以包括使用在3’端包含rna延伸的引导编辑器向导rna,其中该rna延伸包含dna合成模板,例如图3b中显示的pegrna(具有以下组分从5’到3’描述:间隔区;grna核心;逆转录模板;引物结合位点)具有延伸臂,从5’到3’,包含逆转录模板和引物结合位点。[0089]该方法可以包括使用在5’端包含rna延伸的引导编辑器向导rna,其中该rna延伸包含dna合成模板,例如图3a中显示的pegrna(具有以下组分从5’到3’描述:逆转录模板;引物结合位点;接头;间隔区;grna核心)具有延伸臂,从5’到3’,包含逆转录模板、引物结合位点和5-20个核苷酸长接头。[0090]所述方法可以包括使用在向导rna的分子内位置处包含rna延伸的引导编辑器向导rna,其中所述rna延伸包含dna合成模板。[0091]所述方法可以包括使用具有一个或多个rna延伸的引导编辑器向导rna,所述rna延伸的长度为至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400或至少500个核苷酸。[0092]应当理解,前述概念和下面讨论的附加概念可以以任何合适的组合来安排,因为本公开在这方面不受限制。此外,当结合随附的附图考虑时,各种非限制性实施方案的以下详细描述,本公开的其他优点和新颖特征将变得显而易见。[0093]附图简述[0094]以下附图构成本说明书的一部分并被包括在内,以进一步说明本公开的某些方面,通过参考这些附图中的一个或多个并结合本文呈现的具体实施方案的详细描述可以更好地理解。[0095]图1a.1提供了使用包含与napdnabp(例如cas9)蛋白融合的逆转录酶的融合蛋白与引导编辑器向导rna复合将单个核苷酸变化、插入和/或缺失引入dna分子(例如,基因组)的示例性过程的示意图。在该实施方案中,向导rna在3’末端处延伸以包括dna合成模板。该示意图显示了与cas9切口酶融合,与向导rna(grna)复合的逆转录酶(rt)如何结合dna靶位点并在与靶核苷酸相邻的含pam的dna链上产生切口。rt模板使用带切口的dna作为从grna合成dna的引物,其用作合成编码期望编辑的新dna链的模板。所示的编辑过程可以称为靶标引导的逆转录编辑(引导编辑)。图1a.2提供了与图1a.1相同的表示,除了引导编辑器复合物更一般地表示为[napdnabp]-[p]:pegrnapegrna或[p]-[napdnabp]:pegrnapegrna,其中:″p″是指任何聚合酶(例如,逆转录酶),″napdnabp″是指核酸可编程的dna结合蛋白(例如spcas9),且″pegrnapegrna″是指引导编辑向导rna,且“]-[”是指任选的接头。如别处所描述的,例如,图3a-3g,pegrnapegrna包括包含引物结合位点和dna合成模板的5’延伸臂。虽然未显示,但预期pegrnapegrna的延伸臂(即,其包含引物结合位点和dna合成模板)可以是dna或rna。该构型中涵盖的特定聚合酶将取决于dna合成模板的性质。例如,如果dna合成模板是rna,则聚合酶实例是rna依赖性dna聚合酶(例如逆转录酶)。如果dna合成模板是dna,则聚合酶可以是dna依赖性dna聚合酶。在各种实施方案中,pegrna可以经工程化改造或合成以掺入基于dna的dna合成模板。[0096]图1b.1提供了使用包含与napdnabp(例如cas9)融合的逆转录酶的融合蛋白与引导编辑器向导rna复合将单个核苷酸变化、插入和/或缺失引入dna分子(例如,基因组)的示例性过程的示意图。在该实施方案中,向导rna在5’末端延伸以包括dna合成模板。该示意图显示了与cas9切口酶融合,与向导rna(grna)复合的逆转录酶(rt)如何结合dna靶位点并在与靶核苷酸相邻的含pam的dna链上产生切口。规范的pam序列是5’‑ngg-3’,但不同的pam序列可以与来自不同生物体的不同cas9蛋白或等效蛋白相关联。此外,可以修饰任何给定的cas9核酸酶,例如spcas9,以改变蛋白质的pam特异性以识别可替代pam序列。rt酶使用带切口的dna作为从grna合成dna的引物,其用作合成编码期望编辑的新dna链的模板。所示的编辑过程可以称为靶标引导的逆转录编辑(tprt编辑器或引导编辑器)。图1b.2提供了与图1b.1相同的表示,除了引导编辑器复合物更一般地表示为[napdnabp]-[p]:pegrnapegrna或[p]-[napdnabp]:pegrnapegrna,其中:″p″是指任何聚合酶(例如,逆转录酶),″napdnabp″是指核酸可编程的dna结合蛋白(例如spcas9),且″pegrnapegrna″是指引导编辑向导rna,且″]-[″是指任选的接头。如别处所描述的,例如,图3a-3g,pegrnapegrna包括包含引物结合位点和dna合成模板的3’延伸臂。虽然未显示,但预期pegrnapegrna的延伸臂(即,其包含引物结合位点和dna合成模板)可以是dna或rna。该构型中涵盖的特定聚合酶将取决于dna合成模板的性质。例如,如果dna合成模板是rna,则聚合酶实例是rna依赖性dna聚合酶(例如逆转录酶)。如果dna合成模板是dna,则聚合酶可以是dna依赖性dna聚合酶。[0097]图1c是描述合成的dna单链(其包含期望的核苷酸变化)如何分解,从而将期望的核苷酸变化、插入和/或缺失掺入到dna中的示例性过程的示意图。如所示,在合成经编辑的链(或″诱变的链″)之后,与内源性链的平衡,内源性链的flap切割,和连接导致通过内源性dna修复和/或复制过程的作用解决错配的dna双链体后,掺入dna编辑。[0098]图1d是显示″相反链切口形成″可以掺入图1c的分解方法以帮助驱动期望产物对抗逆转产物的形成的示意图。在相反链切口形成中,第二napdnabp/grna复合物(例如,cas9/grna复合物)用于从初始切口链在相反链上引入第二切口。这诱导内源性细胞dna修复和/或复制过程,以优先取代未编辑的链(即,含有第二切口位点的链)。[0099]图1e提供了使用与引导编辑器向导rna(例如引导编辑)复合的核酸可编程dna结合蛋白(napdnabp)用于将至少一个核苷酸变化(例如,1、2、3、4、5、6、7、8、9、10或更多)、插入和/或缺失引入到dna分子(例如,基因组)的靶基因座的示例性过程的另一示意图。引导编辑器向导rna在向导rna的3’或5’末端处或在向导rna中的分子内位置处包含延伸。在步骤(a)中,napdnabp/grna复合物接触dna分子,且grna引导napdnabp与靶基因座结合。在步骤(b)中,在靶基因座的一条dna链中(r环链、或含有pam的链、或非靶dna链、或前间隔区链)引入切口(例如,通过核酸酶或化学试剂),从而在靶基因座的一条链中产生可用的3’末端。在某些实施方案中,切口是在对应于r环链的dna链中产生的,即未与向导rna序列杂交的链。在步骤(c)中,3’末端dna链与向导rna的延伸部分相互作用以引导逆转录。在一些实施方案中,3’末端dna链与向导rna的延伸部分上的特定引物结合位点杂交。在步骤(d)中,引入了逆转录酶,该酶从引导位点的3’末端向向导rna的3’末端合成单链dna。这形成了包含期望的核苷酸变化(例如,单个或多个碱基变化、插入、缺失或其组合)的单链dnaflap。在步骤(e)中,napdnabp和向导rna被释放。步骤(f)和(g)涉及单链dnaflap的分解,使得期望的核苷酸变化掺入靶基因座。可以通过去除相应的5’内源性dnaflap驱动该过程朝向期望产物形成,一旦3’单链dnaflap侵入并与另一条链上的互补序列杂交,其就会形成。该过程可以被驱动朝向利用第二链切口产生形成产物,如图1d所示。该过程可以引入至少一种或多种以下遗传变化:颠换、转换、缺失和插入。[0100]图1f是描绘可能利用本文所述的靶标引发的逆转录编辑(引导编辑)过程的遗传变化类型的示意图。通过引导编辑可实现的核苷酸变化类型包括缺失(包括短和长的缺失)、单个和/或多个核苷酸变化和插入(包括短和长的插入)。[0101]图1g是描绘由引导编辑器复合物示例的时间(temporal)第二链切口的实例的示意图。时间第二链切口形成是第二链切口形成的变体,以促进期望的编辑产物的形成。术语″时间″是指这样一个事实,即未编辑链的第二链缺口仅在已编辑链中安装了期望的编辑后才会出现。这避免了可能导致双链dna断裂的两条链上的并发切口。[0102]图1h描绘了本文考虑的引导编辑的变体,其用任何可编程核酸酶结构域(诸如锌指核酸酶(zfn)或转录激活因子样效应核酸酶(talen))替换napdnabp(例如spcas9切口酶)。因此,据考虑合适的核酸酶不一定需要由核酸靶向分子(如向导rna)″编程″,而是可以通过定义dna结合结构域的特异性来编程,诸如尤其是核酸酶。正如在利用napdnabp部分进行引导编辑,优选地对此类替代的可编程核酸酶进行修饰,使得仅切割靶dna的一条链。换句话说,可编程核酸酶应优选起切口酶的作用。一旦选择了可编程核酸酶(例如,zfn或talen),然后就可以将另外的功能经工程化改造到系统中,以允许其按照引导编辑样机制进行操作。例如,可编程核酸酶可以通过偶联(例如,经由化学接头)rna或dna延伸臂到其上来修饰,其中延伸臂包含引物结合位点(pbs)和dna合成模板。可编程核酸酶也可以偶联(例如,经由化学或氨基酸接头)至聚合酶,聚合酶的性质将取决于延伸臂是dna还是rna。在rna延伸臂的情况下,聚合酶可以是rna依赖性dna聚合酶(例如逆转录酶)。在dna延伸臂的情况下,聚合酶可以是dna依赖性dna聚合酶(例如,原核聚合酶,包括poli、polii或poliii,或真核聚合酶,包括pola、polb、polg、pold、pole或polz)。该系统还可以包括作为融合物添加到可编程核酸酶,或反式添加的其他功能以促进整个反应(例如,(a)解旋酶,在切割位点解开dna以使具有3’末端的切割链可用作引物,(b)fen1,帮助去除切割链上的内源性链,以驱动反应朝向用合成链替换内源性链,或(c)ncas9:grna复合物,以创建相反链上的第二位点缺口,这可能有助于通过非编辑链的有利细胞修复来驱动合成修复的整合)。以类似于利用napdnabp进行引导编辑的方式,此类具有其他可编程核酸酶的复合物可以用于合成,然后将携带感兴趣编辑的新合成的dna替换链永久地安装到dna的靶位点中。[0103]图1i描绘了在一个实施方案中,可以通过引导编辑进行编辑的靶dna的结构特征。靶dna包含″非靶链″和″靶链″。靶链是退火至与识别pam位点的引导编辑器复合物的pegrna的间隔区的链(在这种情况下,ngg,它通过基于规范的spcas9的引导编辑器识别)。靶链也可以称为″非pam链″或″非编辑链″。相比之下,非靶链(即,包含前间隔区和ngg的pam序列的链)可以称为″pam链″或″编辑链″。在各种实施方案中,pe复合物的切口位点将在pam链上的前间隔区中(例如,对于基于spcas9的pe)。切口的位置将是形成pe的特定cas9的特征。例如,对于基于spcas9的pe,碱基三(相对于pam序列的位置1的″‑3″位置)和四(相对于pam序列的位置1的″‑4″位置)之间的磷酸二酯键中的切口位点。前间隔区中的切口位点形成游离的3’羟基,如下图所示,它与pegrna的延伸臂的引物结合位点复合,并提供底物以通过pegrna延伸臂的dna合成模板开始聚合单链dna编码。这种聚合反应由pe融合蛋白的聚合酶(例如逆转录酶)在5’到3’方向催化。聚合在到达grna核心之前终止(例如,通过包含聚合终止信号或二级结构,其功能是终止pe的聚合活性),产生从带切口的pam链的原始3’羟基延伸的单链dnaflap。dna合成模板编码与内源性5’端单链dna同源的单链dna,所述内源性5’末端单链dna紧随pam链上的切口位点并掺入期望的核苷酸变化(例如,单个碱基取代、插入、缺失、倒位)。期望编辑的位置可以在pam链上切口位点下游的任何位置,其可以包括位置 1、 2、 3、 4(pam位点的开始)、 5(pam位点的位置2)、 6(pam位点的位置3)、 7、 8、 9、 10、 11、 12、 13、 14、 15、 16、 17、 18、 19、 20、 21、 22、 23、 24、 25、 26、 27、 28、 29、 30、 31、 32、 33、 34、 35、 36、 37、 38、 39、 40、 41、 42、 43、 44、 45、 46、 47、 48、 49、 50、 51、 52、 53、 54、 55、 56、 57、 58、 59、 60、 61、 62、 63、 64、 65、 66、 67、 68、 69、 70、 71、 72、 73、 74、 75、 76、 77、 78、 79、 80、 81、 82、 83、 84、 85、 86、 87、 88、 89、 90、 91、 92、 93、 94、 95、 96、 97、 98、 99、 100、 101、 102、 103、 104、 105、 106、 107、 108、 109、 110、 111、 112、 113、 114、 115、 116、 117、 118、 119、 120、 121、 122、 123、 124、 125、 126、 127、 128、 129、 130、 131、 132、 133、 134、 135、 136、 137、 138、 139、 140、 141、 142、 143、 144、 145、 146、 147、 148、 149或 150或更多(相对于切口位点的下游位置)。一旦3’末端单链dna(含有感兴趣的编辑)取代内源性5’末端单链dna,dna修复和复制过程将导致pam链上的编辑位点永久安装,然后校正将存在于编辑位点的非pam链上的错配。这样,编辑将延伸到靶dna位点上的两条dna链。应当理解,对″编辑链″和″非编辑″链的提及仅旨在描绘pe机制中涉及的dna链。″编辑链″是首先通过用含有期望编辑的合成3’末端单链dna替换紧邻切口位点下游的5’末端单链dna进行编辑的链。″非编辑″链是与编辑链配对的链,但它本身也通过修复和/或复制被编辑以与经编辑的链互补,特别是感兴趣的编辑。[0104]图1j描绘了引导编辑的机制,显示了靶dna、引导编辑器复合物以及pegrna与靶dna之间的相互作用的结构特征。首先,包含具有聚合酶(例如,逆转录酶)和napdnabp(例如,spcas9切口酶,例如在hnh核酸酶结构域中具有失活突变(例如h840a)或在ruvc核酸酶结构域中具有失活突变(d10a)的spcas9)的融合蛋白的引导编辑器与pegrna和具有待编辑的靶dna的dna复合。pegrna包含间隔区、grna核心(又名grna支架或grna主链)(与napdnabp结合)和延伸臂。延伸臂可以位于3’末端、5’末端或pegrna分子内的某处。如所示,延伸臂位于pegrna的3’末端。延伸臂在3’到5’方向包含引物结合位点和dna合成模板(包括感兴趣的编辑)和与在pam链上的切口位点之后的5’末端单链dna直接同源的同源区域(即同源臂)。如所示,一旦引入切口,从而在切口位点的紧上游产生游离的3’羟基,紧邻pam链上切口位点上游的区域退火至在延伸臂的3’末端称为″引物结合位点″的互补序列,从而创建带有可用3’羟基末端的短双链区域,其形成了引导编辑复合物的聚合酶的底物。聚合酶(例如逆转录酶)然后聚合酶作为dna链从3’羟基末端到延伸臂末端。单链dna的序列由dna合成模板编码,其为聚合酶″读取″以合成新dna的延伸臂部分(即,不包括引物结合位点)。这种聚合有效地延伸了初始切口位点的原始3’羟基末端的序列。dna合成模板编码dna单链,它不仅包含期望的编辑,而且还包含与pam链上切口位点下游紧邻的内源性单链dna同源的区域。接下来,编码的3’末端dna单链(即3’单链dnaflap)置换相应的同源内源性5’末端dna单链,所述内源性5’端dna单链紧邻pam链上切口位点下游,从而形成具有5’末端单链dnaflap的dna中间体,其由细胞移除(例如,通过flap核酸内切酶)。退火至内源性5’端单链dnaflap的互补物的3’末端单链dnaflap,在去除5’dnaflap后连接到内源性链。现在退火并连接的3’末端单链dnaflap中的期望的编辑与互补链形成错配,进行dna修复和/或一轮复制,从而在两条链上永久安装期望的编辑。[0105]图2显示了三种将被测试的cas复合物及其pam、grna和dna切割特征。该图显示了涉及spcas9、sacas9和lbcas12a的复合物的设计。[0106]图3a-3c显示了工程化5’延伸grna(图3a)、3’延伸grna(图3b)和分子内延伸(图3c)的设计,它们中的每一个都可以用于引导编辑。实施方案描绘了dna合成模板、引物结合位点和3’、5’的延伸部分中的任选接头序列和分子内延伸grna的示例性排列,以及前间隔区和核心区域的排列。所公开的tprt过程不限于引导编辑器向导rna的这些构型。[0107]图4a-4e展示了体外tprt测定。图4a是通过rt酶进行的荧光标记dna底物grna模板化延伸,逆转录酶产物的聚丙烯酰胺凝胶电泳(page)分析的示意图。图4b显示了具有不同编辑模板长度的预先形成切口的底物、dcas9和5’‑延伸grna的tprt。图4c显示了在不存在cas9的情况下与预先形成切口的dna底物的rt反应。图4d显示了在具有cas9(h840a)和5’延伸grna的全dsdna底物上的tprt。图4e显示了具有预先形成切口的和完整的dsdna底物的3’延伸的grna模板。所有反应均采用m-mlvrt。[0108]图5显示了使用具有不同长度编辑模板的5’延伸grna进行的体外验证。荧光标记的(cy5)dna靶标用作底物,并在这组实验中预先形成切口。这些实验中使用的cas9是催化死亡的cas9(dcas9),所用的rt是superscriptiii,一种衍生自莫洛尼-鼠白血病病毒(m-mlv)的市售rt。dcas9:grna复合物由纯化的组分形成。然后,将荧光标记的dna底物与dntp和rt酶一起加入。在37℃温育1小时后,通过变性尿素-聚丙烯酰胺凝胶电泳(page)分析反应产物。凝胶图像显示原始dna链的延伸长度与逆转录模板的长度一致。[0109]图6显示了使用具有不同长度编辑模板的5’延伸grna的体外验证,这与图5中所示的那些非常相似。然而,在这组实验中,dna底物没有预先形成切口。这些实验中使用的cas9是cas9切口酶(spycas9h840a突变体),并且所用的rt是superscriptiii,一种衍生自莫洛尼-鼠白血病病毒(m-mlv)的市售rt。通过变性尿素-聚丙烯酰胺凝胶电泳(page)分析反应产物。如凝胶所示,当使用grna时,切口酶可有效切割dna链(grna_0,泳道3)。[0110]图7显示3’延伸支持dna合成并且不显著影响cas9切口酶活性。当使用dcas9或cas9切口酶时,预先形成切口的底物(黑色箭头)几乎定量地转化为rt产物(泳道4和5)。利用完整底物(泳道3)观察到超过50%的rt产物转化(红色箭头)。使用cas9切口酶(spycas9h840a突变体),催化死亡的cas9(dcas9),superscriptiii,一种源自莫洛尼-鼠白血病病毒(m-mlv)的市售rt。[0111]图8显示双色实验用于确定rt反应是否优先利用顺式的grna(结合在同一复合物中)发生。对5’‑延伸的和3’‑延伸的grna进行了两个单独的实验。通过page分析产物。产物比率计算为(cy3cis/cy3trans)/(cy5trans/cy5cis)。[0112]图9a-9d展示了flap模型底物。图9a显示了用于flap定向诱变的双fp报道物。图9b显示了hek细胞中的终止密码子修复。图9c显示了flap修复后测序的酵母克隆。图9d显示了人细胞中不同flap特征的测试。[0113]图10展示了对质粒底物的引导编辑。构建了双荧光报告物质粒用于酵母(酿酒酵母(s.cerevisiae))表达。该构建体在酵母中的表达仅产生gfp。体外trt反应引入点突变,并将亲本质粒或体外cas9(h840a)带切口的质粒转化到酵母中。通过荧光成像使菌落可视化。显示了酵母双fp质粒转化体。转化亲本质粒或体外cas9(h840a)带切口的质粒仅产生绿色gfp表达菌落。与5’‑延伸或3’‑延伸grna的trt反应产生绿色和黄色菌落的混合物。后者表达gfp和mcherry两者。利用3’‑延伸的grna观察到更多的黄色菌落。还显示了不含终止密码子的阳性对照。[0114]图11显示与图10中的实验类似的质粒底物上的引导编辑,但不是在终止密码子中安装点突变,引导编辑安装修复移码突变并允许下游mcherry的合成的单个核苷酸插入(左)或缺失(右)。两个实验都使用3’延伸grna。[0115]图12显示了质粒底物上引导编辑的编辑产物,其通过sanger测序表征。通过sanger测序选择和分析来自trt转化的单个菌落。通过对选择的菌落进行测序来观察精确的编辑。绿色菌落含有具有原始dna序列的质粒,而黄色菌落含有由引导编辑grna设计的精确突变。没有观察到其他点突变或插入缺失。[0116]图13显示了新的引导编辑技术的潜在范围,并与脱氨酶介导的碱基编辑器技术进行了比较。[0117]图14显示了人细胞中编辑的示意图。[0118]图15展示了grna中引物结合位点的延伸。[0119]图16显示了用于相邻靶向的截短的grna。[0120]图17a-17c是显示在人胚胎肾(hek)细胞中转染组分之后靶核苷酸处的%t到a转化的图。图17a显示数据,其呈现使用野生型mlv逆转录酶与cas9(h840a)切口酶(32个氨基酸的接头)的n端融合的结果。图17b类似于图17a,但用于rt酶的c端融合。图17c类似于图17a,但mlvrt和cas9之间的接头为60个氨基酸长,而不是32个氨基酸。[0121]图18显示了通过高通量扩增子测序在hek3位点处的高纯度t到a编辑。测序分析的输出显示了编辑细胞的最丰富的基因型。[0122]图19显示了靶核苷酸处的编辑效率(每对条的左侧条)以及插入缺失率(每对条的右侧条)。wt是指野生型mlvrt酶。突变体酶(m1到m4)含有右侧列出的突变。编辑率通过基因组dna扩增子的高通量测序来定量。[0123]图20显示了当在邻近靶核苷酸的互补dna链中引入单链切口时靶核苷酸的编辑效率。测试了与靶核苷酸不同距离处的切口(橙色三角形)。靶碱基对的编辑效率(蓝色条)与插入缺失形成率(橙色条)一起显示。“无”示例不含有互补链带切口的向导rna。编辑率通过基因组dna扩增子的高通量测序来定量。[0124]图21展示了加工过的高通量测序数据,其显示了期望的t到a颠换突变和其他主要基因组编辑副产物的普遍缺失。[0125]图22提供了使用与引导编辑器向导rna复合的核酸可编程dna结合蛋白(napdnabp)在靶基因座上用易错逆转录酶进行靶向诱变的示例性过程的示意图。该过程可以称为用于靶向诱变的引导编辑的实施方案。引导编辑器向导rna包含向导rna的3’或5’末端处或向导rna中分子内位置处的延伸。在步骤(a)中,napdnabp/grna复合物与dna分子接触,且grna引导napdnabp与待诱变的靶基因座结合。在步骤(b)中,在靶基因座的一条dna链中引入切口(例如,通过核酸酶或化学剂),从而在靶基因座的一条链中创建可用的3’末端。在某些实施方案中,在对应于r环链的dna链中创建切口,即未与向导rna序列杂交的链。在步骤(c)中,3’末端dna链与向导rna的延伸部分相互作用以引发逆转录。在一些实施方案中,3’末端的dna链与向导rna的延伸部分上的特定引物结合位点杂交。在步骤(d)中,引入了易错逆转录酶,其从引发位点的3’末端到向导rna的3’末端合成诱变的dna单链。示例性突变用星号“*”表示。这形成了包含期望的诱变区的单链dnaflap。在步骤(e)中,释放napdnabp和向导rna。步骤(f)和(g)涉及单链dna活flap(包含诱变区域)的分解,使得期望的诱变区域掺入到靶基因座中。可以通过去除相应的5’内源性dnaflap驱动该过程朝向期望产物形成,一旦3’单链dnaflap侵入并与另一条链上的互补序列杂交,其就会形成。也可以通过第二链切口形成驱动该过程朝向产物形成,如图1d中所示。在内源性dna修复和/或复制过程之后,诱变区域掺入到dna基因座的两条dna链中。[0126]图23是用tprt基因组编辑缩小三核苷酸重复序列和三核苷酸重复缩小的grna设计的示意图。三核苷酸重复扩增与许多人类疾病有关,包括亨廷顿病、脆性x综合征和弗里德赖希共济失调。最常见的三核苷酸重复含有cag三联体,但也发生gaa三联体(弗里德赖希共济失调)和cgg三联体(脆性x综合征)。继承扩增的素因,或获得已经扩增的亲本等位基因会增加获得疾病的可能性。三核苷酸重复的致病性扩增使用引导编辑可以假设地得以校正。重复区域上游的区域可以通过rna向导的核酸酶形成切口,然后用于引发含有健康的重复数量(取决于特定基因和疾病)的新dna链的合成。在重复序列之后,添加与重复的另一末端(红色链)相邻的序列的身份相匹配的一小段同源性。对新合成的链的侵入,以及随后用新合成的flap对内源性dna的替换导致缩小的重复等位基因。[0127]图24是显示利用引导编辑的精确的10个核苷酸缺失的示意图。靶向hek3基因座的向导rna经设计具有逆转录模板,该模板编码切口位点后的10个核苷酸的缺失。使用扩增子测序评估转染hek细胞中的编辑效率。[0128]图25是显示用于内源性基因组基因座处的肽标签化基因和使用tprt基因组编辑的肽标签化的grna设计的示意图。flash和reash标签化系统包含两部分:(1)荧光团-双砷探针,和(2)含有四半胱氨酸基序的基因编码肽,示例为序列flnccpgccmep(seqidno:1361586)。当在细胞内表达时,含有四半胱氨酸基序的蛋白质可以用荧光团-砷探针进行荧光标记(参见参考文献:j.am.chem.soc.,2002,124(21),pp6063-6076.doi:10.1021/ja017687n)。“分选标签化(sortagging)”系统采用细菌分选酶将标记的肽探针与含有合适肽底物的蛋白质共价结合(参见参考文献:nat.chem.biol.2007nov;3(11):707-8.doi:10.1038/nchembio.2007.31)。通常采用flag标签(dykddddk(seqidno:1361587))、v5标签(gkpipnpllgldst(seqidno:1361588))、gcn4标签(eellsknyhlenevarlkk(seqidno:1361589))、ha标签(ypydvpdya(seqidno:1361590))和myc标签(eqkliseedl(seqidno:1361591))作为免疫测定的表位标签。pi-clamp编码肽序列(fcpf(seqidno:1361592)),其可以用五氟芳香族底物进行标记(参考:nat.chem.2016feb;8(2):120-8.doi:10.1038/nchem.2413)。[0129]图26显示了his6标签和flag标签在基因组dna中的精确安装。靶向hek3基因座的向导rna经设计具有逆转录模板,该模板编码18-nthis标签插入或24-ntflag标签插入。使用扩增子测序评估转染hek细胞的编辑效率。请注意,flag标签的完整24-nt序列在查看框架之外(测序确认完整和精确插入)。[0130]图27提供了本文考虑的pegrna的实施方案的结构,并且其可以根据实施例2中定义的方法进行设计。pegrna包含在5’至3’方向上排列的三个主要组分元件,即:间隔区、grna核心和3’末端处的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)、编辑模板(b)和同源臂(c)。此外,pegrna可以包含任选的3’末端修饰物区(e1)和任选的5’末端修饰物区(e2)。更进一步地,pegrna可以在pegrna的3’末端处包含转录终止信号(未描绘)。这些结构元件在本文中进一步定义。pegrna结构的描绘并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰物(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端处。在某些实施方案中,pegrnapegrna可以包含二级rna结构,诸如但不限于发夹、茎/环、趾环、rna结合蛋白募集结构域(例如,募集并结合ms2cp蛋白的ms2适体)。例如,此类二级结构可以位于间隔区、grna核心或延伸臂内,特别是在e1和/或e2修饰物区内。除了二级rna结构之外,pegrnapegrna可以包含(例如,在e1和/或e2修饰物区域内)化学接头或poly(n)接头或尾,其中“n”可以是任何核碱基。在一些实施方案中(例如,如图72(c)中所示),化学接头可以发挥作用以防止sgrna支架或核心的逆转录。此外,在某些实施方案中(例如,参见图72(c)),延伸臂(3)可以包含rna或dna,和/或可以包括一种或多种核碱基类似物(例如,其可以添加功能性,如温度弹性)。更进一步地,延伸臂(3)的定向可以是自然的5’至3’方向,或者以3’至5’方向的相反方向(相对于整个pegrnapegrna分子的定向)进行合成。还应注意,本领域普通技术人员将能够根据延伸臂的核酸材料(即dna或rna)的性质选择合适的dna聚合酶,用于引导编辑,其可以作为与napdnabp的融合物来实现,也可以作为单独的部分反式提供,以合成期望的模板编码的包括期望的编辑的3’单链dnaflap。例如,如果延伸臂是rna,则dna聚合酶可以是逆转录酶或任何其他合适的rna依赖性dna聚合酶。然而,如果延伸臂是dna,则dna聚合酶可以是dna依赖性dna聚合酶。在各种实施方案中,dna聚合酶的提供可以是反式的,例如通过使用rna-蛋白质募集结构域(例如,安装在pegrnapegrna上(例如,在e1或e2区域中,或其他地方,且ms2cp蛋白与dna聚合酶融合,从而将dna聚合酶共定位到pegrnapegrna)。还应注意,引物结合位点通常不形成dna聚合酶(例如逆转录酶)使用以编码包括期望的编辑的所得3’单链dnaflap的模板的一部分。因此,“dna合成模板”的名称是指dna聚合酶使用作为模板以编码含有编辑的期望的3’单链dnaflap的的延伸臂(3)的区域或部分。在一些实施方案中,dna合成模板包括“编辑模板”和“同源臂”。在其他实施方案中,dna合成模板还可以包括e2区或其部分。例如,如果e2区包含导致dna聚合酶活性终止的二级结构,则在e2区的任何部分实际编码到dna中之前,dna聚合酶的功能可能终止。一些或者甚至全部e2区域将也有可能编码到dna中。有多少e2实际用作模板将取决于其构成以及该构成是否中断dna聚合酶功能。[0131]图28提供了本文考虑的pegrna的另一个实施方案的结构,并且其可以根据实施例2中定义的方法进行设计。pegrna包含在5’至3’方向上排列的三个主要组分元件,即:间隔区、grna核心和3’末端处的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)、编辑模板(b)和同源臂(c)。此外,pegrna可以包含任选的3’末端修饰物区(e1)和任选的5’末端修饰物区(e2)。更进一步地,pegrna可以在pegrna的3’末端上包含转录终止信号(未描绘)。这些结构元件在本文中进一步定义。pegrna结构的描绘并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰物(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端处。在某些实施方案中,pegrnapegrna可以包含二级rna结构,诸如但不限于发夹、茎/环、趾环、rna结合蛋白募集结构域(例如,募集并结合ms2cp蛋白的ms2适体)。这些二级结构可以位于pegrnapegrna分子中的任何地方。例如,此类二级结构可以位于间隔区、grna核心或延伸臂内,特别是在e1和/或e2修饰物区内。除了二级rna结构之外,pegrnapegrna可以包含(例如,在e1和/或e2修饰物区域内)化学接头或poly(n)接头或尾,其中“n”可以是任何核碱基。在一些实施方案中(例如,如图27中所示),化学接头可以发挥作用以防止sgrna支架或核心的逆转录。此外,在某些实施方案中(例如,参见图28),延伸臂(3)可以包含rna或dna,和/或可以包括一种或多种核碱基类似物(例如,其可以添加功能性,如温度弹性)。更进一步地,延伸臂(3)的定向可以是自然的5’至3’方向,或者以3’至5’方向的相反方向(相对于整个pegrnapegrna分子的定向)进行合成。还应注意,本领域普通技术人员将能够根据延伸臂的核酸材料(即dna或rna)的性质选择合适的dna聚合酶,用于引导编辑,其可以作为与napdnabp的融合物来实现,也可以作为单独的部分反式提供,以合成期望的模板编码的包括期望的编辑的3’单链dnaflap。例如,如果延伸臂是rna,则dna聚合酶可以是逆转录酶或任何其他合适的rna依赖性dna聚合酶。然而,如果延伸臂是dna,则dna聚合酶可以是dna依赖性dna聚合酶。在各种实施方案中,dna聚合酶的提供可以是反式的,例如通过使用rna-蛋白质募集结构域(例如,安装在pegrnapegrna上(例如,在e1或e2区域中,或其他地方,且ms2cp蛋白与dna聚合酶融合,从而将dna聚合酶共定位到pegrnapegrna)。还应注意,引物结合位点通常不形成dna聚合酶(例如逆转录酶)使用以编码包括期望的编辑的所得3’单链dnaflap的模板的一部分。因此,“dna合成模板”的名称是指dna聚合酶使用作为模板以编码含有编辑的期望的3’单链dnaflap的的延伸臂(3)的区域或部分。在一些实施方案中,dna合成模板包括“编辑模板”和“同源臂”。在其他实施方案中,dna合成模板还可以包括e2区或其部分。例如,如果e2区包含导致dna聚合酶活性终止的二级结构,则在e2区的任何部分实际编码到dna中之前,dna聚合酶的功能可能终止。一些或者甚至全部e2区域将也有可能编码到dna中。有多少e2实际用作模板将取决于其构成以及该构成是否中断dna聚合酶功能。[0132]图29是描绘典型pegrna与双链dna的靶位点的相互作用以及伴随产生含有感兴趣的遗传变化的3’单链dnaflap的示意图。双链dna显示为3’到5’定向的顶部链(即靶链)和5’到3’定向的下部链(即pam链或非靶链)。顶部链包含“前间隔区”的互补物和pam序列的互补物,其被称为“靶链”。因为它是pegrna的间隔区靶向的链,且其退火至pegrna的间隔区。互补的下部链称为“非靶链”或“pam链”或“前间隔区链”,因为它含有pam序列(例如,ngg)和前间隔区。尽管未显示,但所描绘的pegrna将与cas9或等同物复合。引导编辑器融合蛋白的结构域。如示意图中所示,pegrna的间隔区退火至靶链上前间隔区的互补区域,其称为前间隔区,恰位于pam序列的下游,长度约为20个核苷酸。该相互作用形成为间隔区rna和前间隔区dna的互补序列之间的dna/rna杂交体,并诱导在与前间隔区相对的区域形成r环。如本文别处所教导的,cas9蛋白(未显示)然后在非靶链中诱导切口,如所示。这然后会导致紧邻切口位点上游的3’ssdnaflap区的形成,其根据*z*与引物结合位点处的pegrna的3’末端相互作用。ssdnaflap的3’末端(即逆转录酶引物序列)退火至pegrna上的引物结合位点(a),从而引发逆转录酶。接下来,逆转录酶(例如,以反式提供或顺式提供作为融合蛋白,附接到cas9构建体)然后聚合由dna合成模板(包括编辑模板(b)和同源臂(c))编码的dna单链。聚合继续朝着延伸臂的5’末端。ssdna的聚合链形成ssdna3’末端flap,如别处所述(例如,如图1e中所示),其侵入内源性性dna,置换相应的内源性链(其作为内源性dna的5’dnaflap得以去除),并通过天然存在的dna修复/复制轮安装期望的核苷酸编辑(单个核苷酸碱基对变化、缺失、插入(包括整个基因))。[0133]图30有助于理解序列表的pegrna的公开。附图显示了两个示例性的pegrna序列(seqidno:135529(顶部)和seqidno:135880(底部))以及各种公开的序列子集如何在其上定位。对于seqidno:135529,相应的序列是间隔区(seqidno:271043)、延伸臂(seqidno:406557)、引物结合位点(seqidno:542071)、编辑模板(seqidno:677585)和同源臂(seqidno:813099)。对于seqidno:135880,相应的序列是间隔区(seqidno:880463)、延伸臂(seqidno:947841)、引物结合位点(seqidno:1015219)、编辑模板(seqidno:1082597)和同源臂(seqidno:1149975)。[0134]图31是显示根据本公开的一些实施方案的用于确定延伸grna结构的示例性高级计算机化方法3100的流程图。在步骤3102,计算设备(例如,结合图34描述的计算设备3400)访问指示输入等位基因、输出等位基因和融合蛋白的数据,该融合蛋白包括核酸可编程dna结合蛋白和逆转录酶。虽然步骤3102描述了在一个步骤中访问输入等位基因、输出等位基因和融合蛋白的全部三个,但这是为了说明的目的,并且应当理解,可以使用一个或多个步骤访问此类数据而不背离本文中描述的技术的精神。访问数据可以包括接收数据、存储数据、访问数据库等。[0135]图32是显示根据一些实施方案的用于确定延伸grna结构的组分(包括延伸的组分)的示例性计算机化方法3200的流程图。应当理解,图32旨在说明性,因此,用于确定延伸grna的技术可以包括比图32中所示的那些更多或更少的步骤。[0136]图33是显示根据一些实施方案的用于确定数据库中每个突变条目的延伸grna结构集的示例性计算机化方法3300的流程图。在步骤3302,计算设备访问包括突变条目集的数据库(例如,clinvar数据库,其可在www.ncbi.nlm.nih.gov/clinvar/访问),所述突变条目各自包括代表突变的输入等位基因和代表校正的野生型序列的输出等位基因。[0137]图34是可以用于进行本文公开的技术和实施方案的任何方面的计算机系统3400的说明性实现。计算机系统3400可以包括一个或多个处理器3410和一个或多个非暂时性计算机可读存储介质(例如,存储器3420和一个或多个非易失性存储介质3430)和显示器3440。处理器3410可以以任何合适的方式控制向存储器3420和非易失性存储设备3430写入数据和从中读取数据,因为本文中描述的本发明的方面在这方面不受限制。[0138]图35a是与实施例3相关的编码rna基序的序列的基于pe的插入的示意图。[0139]图35b是与实施例3相关的可以潜在地插入的一些示例基序及其功能的列表(不详尽)。[0140]图36提供了比较pe2、pe2-trunc、pe3和pe3-trunc在各种细胞系中的不同靶位点上的效率(即“具有指定编辑或插入缺失的总测序读段的百分比”)的条形图。数据显示包含截短的rt变体的引导编辑器与包含非截短的rt蛋白质的引导编辑器大致一样有效。[0141]图37a显示spcas9pegrna分子的核苷酸序列(顶部),其终止于“ugu”中的3’末端处并且不含有趾环元件。该图的下半部分描绘了相同的spcas9pegrna分子,但经过进一步修饰以含有插入在“uuu”3’末端之前的具有序列5’‑“gaaannnnn”‑3’的趾环元件。“n”可以是任何核碱基。[0142]图37b显示了实施例4的结果,其证明了使用含有趾环元件的pegrna提高了hek细胞或emx细胞中的引导编辑的效率,而插入缺失形成的百分比基本上没有变化。[0143]图38描绘了作为两个pe半蛋白提供的引导编辑器的一个实施方案,其通过位于每个引导编辑器半蛋白的末端或开始处的分裂内含肽半部(split-inteinhalves)的自剪接作用再生为完整的引导编辑器。[0144]图39描绘了从多肽序列中去除内含肽以及在n端和c端外显肽序列之间重新形成肽键的机制。(a)描绘了两个半蛋白的一般机制,蛋白各自含有一半的内含肽序列,当其在细胞内接触时会产生全功能的内含肽,然后其经历自剪接和切除。切除过程导致在n端蛋白半部(或“n外显肽”)和c端蛋白半部(或“c外显肽”)之间形成肽键以形成包含n外显肽和c外显肽部分的完整的单一多肽。在各种实施方案中,n外显肽可以对应于分裂引导编辑器融合蛋白的n端半部,并且c外显肽可以对应于分裂引导编辑器的c端半部。(b)显示了内含肽切除以及接合n外显肽半部(红色半部)和c外显肽半部(蓝色半部)的肽键的重新形成的化学力学。分裂内含肽(即分裂内含肽构型中的n内含肽和c内含肽)的切除也可以称为“反式剪接”,因为它涉及以反式提供的两个独立组分的剪接作用。[0145]定义[0146]反义链[0147]在遗传学中,双链dna内一个片段的“反义”链是模板链,并且被认为是在3’到5’方向运行。相比之下,“有义”链是双链dna中从5’到3’的片段,它与dna的反义链或模板链(从3’到5’)互补。在编码蛋白质的dna片段的情况下,有义链是与mrna具有相同序列的dna链,它在转录过程中以反义链为模板,并最终进行(通常,并非总是)翻译变成蛋白质。因此,反义链负责生成后来翻译成蛋白质的rna,而有义链具有与mrna几乎相同的组成。请注意,对于dsdna的每个片段,可能会有两组有义和反义,这取决于读取的方向(因为有义和反义是相对于视角而言的)。最终是基因产物或mrna决定了dsdna片段的哪条链被称为有义或反义。[0148]cas9[0149]术语“cas9”或“cas9核酸酶”是指包含cas9结构域或其片段(例如,包含cas9的活性或非活性dna切割结构域的蛋白质,和/或grnacas9的结合结构域)。如本文所用,“cas9结构域”是包含cas9的活性或非活性切割结构域和/或cas9的grna结合结构域的蛋白质片段。“cas9蛋白”是全长cas9蛋白。cas9核酸酶有时也称为casn1核酸酶或crispr(成簇规则间隔短回文重复序列)相关核酸酶。crispr是一种适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。crispr簇包含间隔区、与先行移动元件互补的序列和靶标入侵核酸。crispr簇被转录并加工成crisprrna(crrna)。在ii型crispr系统中,正确处理pre-crrna需要反式编码小rna(tracrrna)、内源性核糖核酸酶3(rnc)和cas9结构域。tracrrna作为核糖核酸酶3辅助处理pre-crrna的指南。随后,cas9/crrna/tracrrna核酸内切切割与间隔区互补的线性或环状dsdna靶标。与crrna不互补的靶标链首先被核酸内切切割,然后3’‑5’核酸外切修剪。在自然界中,dna结合和切割通常需要蛋白质和两种rna。然而,可以对单向导rna(“sgrna”,或简称为“gnra”)进行工程改造,以便将crrna和tracrrna的各个方面整合到单个rna种类中。参见,例如,jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012)),其全部内容通过引用并入本文。cas9识别crispr重复序列(pam或前间隔区相邻基序)中的短基序,以帮助区分自我与非自我。cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,例如“completegenomesequenceofanm1strainofstreptococcuspyogenes.”ferrettietal.,j.j.,mcshanw.m.,ajdicd.j.,savicd.j.,savicg.,lyonk.,primeauxc.,sezates.,suvorova.n.,kentons.,laih.s.,lins.p.,qiany.,jiah.g.,najarez.,renq.,zhuh.,songl.,whitej.,yuanx.,cliftons.w.,roeb.a.,mclaughlinr.e.,proc.natl.acad.sci.u.s.a.98:4658-4663(2001);“crisprrnamaturationbytrans-encodedsmallrnaandhostfactorrnaseiii.”deltchevae.,chylinskik.,sharmac.m.,gonzalesk.,chaoy.,pirzadaz.a.,eckertm.r.,vogelj.,charpentiere.,nature471:602-607(2011);and“aprogrammabledual-rna-guideddnaendonucleaseinadaptivebacterialimmunity.”jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),其全部内容通过引用并入本文)。cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类cas9核酸酶和序列包括来自chylinski,rhun,andcharpentier,“thetracrrnaandcas9familiesoftypeiicrispr-casimmunitysystems”(2013)rnabiology10:5,726-737中公开的生物体和基因座的cas9序列;其全部内容通过引用方式并入本文。在一些实施方案中,cas9核酸酶包含一个或多个部分削弱或灭活dna切割结构域的突变。[0150]核酸酶失活的cas9结构域可互换地称为″dcas9″蛋白(对于核酸酶‑″死的″cas9)。用于产生具有无活性dna切割结构域的cas9结构域(或其片段)的方法是已知的(参见,例如,jineketal.,science.337:816-821(2012);qietal.,“repurposingcrisprasanrna-guidedplatformforsequence-specificcontrolofgeneexpression”(2013)cell.28;152(5):1173-83,每篇文献的全部内容通过引用并入本文)。例如,已知cas9的dna切割域包括两个子域,hnh核酸酶子域和ruvc1子域。hnh子域切割与grna互补的链,而ruvc1子域切割非互补链。这些子域内的突变可以使cas9的核酸酶活性沉默。例如,突变d10a和h840a使化脓性链球菌cas9的核酸酶活性完全失活(jineketal.,science.337:816-821(2012);qietal.,cell.28;152(5):1173-83(2013))。在一些实施方案中,提供了包含cas9片段的蛋白质。例如,在一些实施例中,蛋白质包含两个cas9域之一:(1)cas9的grna结合结构域;或(2)cas9的dna切割域。在一些实施方案中,包含cas9或其片段的蛋白质被称为″cas9变体″。cas9变体与cas9或其片段具有同源性。例如,cas9变体与野生型cas9(例如,seqidno:1361421的spcas9)至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、至少约99.8%相同或至少约99.9%相同。在一些实施方案中,cas9变体与野生型cas9(例如,seqidno:1361421的spcas9)相比,可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50,或更多个氨基酸变化。在一些实施方案中,cas9变体包含seqidno:xcas9的片段(例如,grna结合结构域或dna切割结构域),使得该片段与野生型cas9的相应片段(例如,seqidno:1361421的spcas9)至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,该片段是相应野生型cas9(例如,seqidno:1361421的spcas9)的氨基酸长度至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%。[0151]cdna[0152]术语″cdna″是指从rna模板复制的dna链。cdna与rna模板互补。[0153]循环排列(circularpermutant)[0154]如本文所用,术语″循环排列″是指包含循环排列的蛋白质或多肽(例如cas9),其是蛋白质结构构型的改变,涉及蛋白质中出现的氨基酸顺序的改变。氨基酸序列。换言之,循环置换体是与野生型对应物相比具有改变的n端和c端的蛋白质,例如,蛋白质的野生型c端一半变成了新的n端一半。循环排列(或cp)本质上是蛋白质一级序列的拓扑重排,通常使用肽接头连接其n和c末端,同时在不同位置拆分其序列以创建新的相邻n和c-终点站。结果是具有不同连接性的蛋白质结构,但通常可以具有相同的整体相似的三维(3d)形状,并且可能包括改进或改变的特征,包括降低的蛋白水解敏感性、提高的催化活性、改变的底物或配体结合,和/或改进的热稳定性。环状置换蛋白可以在自然界中出现(例如,伴刀豆球蛋白a和凝集素)。此外,循环排列可以作为翻译后修饰的结果发生,或者可以使用重组技术进行工程改造。[0155]循环排列cas9[0156]术语″循环排列cas9″是指任何cas9蛋白或其变体,其以循环排列形式出现,由此通过蛋白质的一级序列的重排,其n端和c端已被重新配置。这种循环排列的cas9蛋白(″cp-cas9″)或其变体在与引导rna(grna)复合时保留了结合dna的能力。参见oakesetal.,“proteinengineeringofcas9forenhancedfunction,”methodsenzymol,2014,546:491-511andoakesetal.,“crispr-cas9circularpermutantsasprogrammablescaffoldsforgenomemodification,”cell,january10,2019,176:254-267,每个都通过引用并入本文。本公开考虑任何先前已知的cp-cas9或使用新的cp-cas9,只要所得循环排列的蛋白质在与向导rna(grna)复合时保留结合dna的能力。示例性cp-cas9蛋白是seqidno:1361475-1361484。[0157]dna合成模板[0158]如本文所用,术语″dna合成模板″是指pegrna的延伸臂的区域或部分,其被引导编辑器的聚合酶用作模板链以编码3’单链dnaflap它包含所需的编辑,然后通过引导编辑机制替换靶标位点相应的内源dna链。在各种实施方案中,dna合成模板示于图3a(在包含5’延伸臂的pegrna的情况下)、图3b(在包含3’延伸臂的pegrna的情况下)、图3c(在内部延伸臂的情况下)、图3d(在3’延伸臂的情况下)和图3e(在5′延伸臂的情况下)中。延伸臂,包括dna合成模板,可以由dna或rna组成。在rna的情况下,主要编辑器的聚合酶可以是依赖于rna的dna聚合酶(例如,逆转录酶)。在dna的情况下,引导编辑器的聚合酶可以是dna依赖性dna聚合酶。在各种实施方案中(例如,如图3d-3e中所示),dna合成模板(4)可以包含″编辑模板″和″同源臂″,以及可选的5’末端修饰区的全部或部分,e2。也就是说,根据e2区的性质(例如,它是否包括发夹、趾环或茎/环二级结构),聚合酶也可以不编码、部分或全部e2区。换句话说,在3’延伸臂的情况下,dna合成模板(3)可以包括延伸臂(3)的部分,该部分从引物结合位点(pbs)的5’端延伸到引物结合位点(pbs)的3’端。grna核心可作为模板用于聚合酶(例如逆转录酶)合成单链dna。在5′延伸臂的情况下,dna合成模板(3)可以包括延伸臂(3)的一部分,该部分从pegrna分子的5′端跨越到编辑模板的3′端。优选地,dna合成模板不包括具有3’延伸臂或5’延伸臂的pegrna的引物结合位点(pbs)。此处描述的某些实施方案(例如,图71a)涉及″rt模板″,其包括编辑模板和同源臂,即在dna过程中实际用作模板的pegrna延伸臂的序列合成。术语″rt模板″等同于术语″dna合成模板″。[0159]下游[0160]如本文所用,术语″上游″和″下游″是相对性术语,其定义了位于以5’‑到-3′方向。特别地,第一个元件在核酸分子中第二个元件的上游,其中第一个元件位于第二个元件5’的某处。例如,如果snp位于切口位点的5’侧,则snp位于cas9诱导的切口位点的上游。相反,第一个元件位于核酸分子中第二个元件的下游,其中第一个元件位于第二个元件3’的某处。例如,如果snp位于切口位点的3’侧,则snp位于cas9诱导的切口位点的下游。核酸分子可以是dna(双链或单链)。rna(双链或单链),或dna和rna的杂交体。单链核酸分子和双链分子的分析相同,因为上游和下游的术语仅指核酸分子的单链,只是需要选择双链分子的哪条链正在考虑。通常,可用于确定至少两个元素的位置相关性的双链dna的链是″有义″或″编码″链。在遗传学中,″有义″链是双链dna中从5’到3’的片段,它与dna的反义链或模板链(从3’到5’)互补。因此,例如,如果snp核碱基在有义链或编码链上启动子的3’侧,则snp核碱基是基因组dna(双链)中启动子序列的″下游″。[0161]crispr[0162]crispr是细菌和古细菌中的一个dna序列家族(即,crispr簇),其代表已侵入原核生物的病毒先前感染的片段。原核细胞使用dna片段来检测和破坏dna免受类似病毒的后续攻击,并有效地合成一系列crispr相关蛋白(包括cas9及其同源物)和crispr相关rna,一种原核免疫防御系统。在自然界中,crispr簇被转录并加工成crisprrna(crrna)。在某些类型的crispr系统(例如ii型crispr系统)中,pre-crrna的正确处理需要反式编码小rna(tracrrna)、内源性核糖核酸酶3(rnc)和cas9蛋白。tracrrna作为核糖核酸酶3辅助处理pre-crrna的指南。随后,cas9/crrna/tracrrna核酸内切切割与rna互补的线性或环状dsdna靶标。具体而言,与crrna不互补的靶标链首先被核酸内切切割,然后3’‑5’核酸外切修剪。在自然界中,dna结合和切割通常需要蛋白质和两种rna。然而,可以对单个向导rna(″sgrna″,或简称为″gnra″)进行工程改造,以便将crrna和tracrrna的各个方面整合到一个单一的rna物种中——向导rna。参见,例如,jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),其全部内容通过引用并入本文。cas9识别crispr重复序列(pam或前间隔区相邻基序)中的短基序,以帮助区分自我与非自我。crispr生物学以及cas9核酸酶序列和结构是本领域技术人员众所周知的(参见例如“completegenomesequenceofanm1strainofstreptococcuspyogenes.”ferrettietal.,j.j.,mcshanw.m.,ajdicd.j.,savicd.j.,savicg.,lyonk.,primeauxc.,sezates.,suvorova.n.,kentons.,laih.s.,lins.p.,qiany.,jiah.g.,najarf.z.,renq.,zhuh.,songl.,whitej.,yuanx.,cliftons.w.,roeb.a.,mclaughlinr.e.,proc.natl.acad.sci.u.s.a.98:4658-4663(2001);“crisprrnamaturationbytrans-encodedsmallrnaandhostfactorrnaseiii.”deltchevae.,chylinskik.,sharmac.m.,gonzalesk.,chaoy.,pirzadaz.a.,eckertm.r.,vogelj.,charpentiere.,nature471:602-607(2011);and“aprogrammabledual-rna-guideddnaendonucleaseinadaptivebacterialimmunity.”jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),其全部内容通过引用并入本文)。cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类cas9核酸酶和序列包括来自chylinski,rhun,andcharpentier,“thetracrrnaandcas9familiesoftypeiicrispr-casimmunitysystems”(2013)rnabiology10:5,726-737中公开的生物体和基因座的cas9序列;其全部内容通过引用方式并入本文。[0163]术语″cas9″或″cas9核酸酶″是指包含cas9结构域或其片段(例如,包含cas9的活性或非活性dna切割结构域的蛋白质,和/或grnacas9的结合结构域)。如本文所用,″cas9结构域″是包含cas9的活性或非活性切割结构域和/或cas9的grna结合结构域的蛋白质片段。″cas9蛋白″是全长cas9蛋白。cas9核酸酶有时也称为casn1核酸酶或crispr(成簇规则间隔短回文重复序列)相关核酸酶。crispr是一种适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。crispr簇包含间隔区、与先行移动元件互补的序列和靶标入侵核酸。crispr簇被转录并加工成crisprrna(crrna)。在ii型crispr系统中,正确处理pre-crrna需要反式编码小rna(tracrrna)、内源性核糖核酸酶3(rnc)和cas9结构域。tracrrna作为核糖核酸酶3辅助处理pre-crrna的指南。随后,cas9/crrna/tracrrna核酸内切切割与间隔区互补的线性或环状dsdna靶标。与crrna不互补的靶标链首先被核酸内切切割,然后3’‑5’核酸外切修剪。在自然界中,dna结合和切割通常需要蛋白质和两种rna。然而,可以对单向导rna(″sgrna″,或简称为″gnra″)进行工程改造,以便将crrna和tracrrna的各个方面整合到单个rna种类中。参见,例如,jinekm.,chylinskik.,fonfarai.,hauer·m.,doudnaj.a.,charpentiere.science337:816-821(2012),其全部内容通过引用并入本文。cas9识别crispr重复序列(pam或前间隔区相邻基序)中的短基序,以帮助区分自我与非自我。cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,例如,“completegenomesequenceofanm1strainofstreptococcuspyogenes.”ferrettietal.,j.j.,mcshanw.m.,ajdicd.j.,savicd.j.,savicg.,lyonk.,primeauxc.,sezates.,suvorova.n.,kentons.,laih.s.,lins.p.,qiany.,jiah.g.,najarf.z.,renq.,zhuh.,songl.,whitej.,yuanx.,cliftons.w.,roeb.a.,mclaughlinr.e.,proc.natl.acad.sci.u.s.a.98:4658-4663(2001);“crisprrnamaturationbytrans-encodedsmallrnaandhostfactorrnaseiii.”deltchevae.,chylinskik.,sharmac.m.,gonzalesk.,chaoy.,pirzadaz.a.,eckertm.r.,vogelj.,charpentiere.,nature471:602-607(2011);and“aprogrammabledual-rna-guideddnaendonucleaseinadaptivebacterialimmunity.”jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),每个的全部内容以引用方式并入本文)。cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类cas9核酸酶和序列包括来自chylinski,rhun,andcharpentier,“thetracrrnaandcas9familiesoftypeiicrispr-casimmunitysystems”(2013)rnabiology10:5,726-737中公开的生物体和基因座的cas9序列;其全部内容通过引用方式并入本文。在一些实施方案中,cas9核酸酶包含一个或多个部分削弱或灭活dna切割结构域的突变。[0164]核酸酶失活的cas9结构域可互换地称为″dcas9″蛋白(对于核酸酶‑″死的″cas9)。用于产生具有无活性dna切割结构域的cas9结构域(或其片段)的方法是已知的(参见,例如,jineketal.,science.337:816-821(2012);qietal.,“repurposingcrisprasanrna-guidedplatformforsequence-specificcontrolofgeneexpression”(2013)cell.28;152(5):1173-83,每篇文献的全部内容通过引用并入本文)。例如,已知cas9的dna切割域包括两个子域,hnh核酸酶子域和ruvc1子域。hnh子域切割与grna互补的链,而ruvc1子域切割非互补链。这些子域内的突变可以使cas9的核酸酶活性沉默。例如,突变d10a和h840a使化脓性链球菌cas9的核酸酶活性完全失活(jineketal.,science.337:816-821(2012);qietal.,cell.28;152(5):1173-83(2013))。在一些实施方案中,提供了包含cas9片段的蛋白质。例如,在一些实施例中,蛋白质包含两个cas9结构域之一:(1)cas9的grna结合结构域;或(2)cas9的dna切割域。在一些实施方案中,包含cas9或其片段的蛋白质被称为″cas9变体″。cas9变体与cas9或其片段具有同源性。例如,cas9变体与野生型cas9(例如,seqidno:1361421的spcas9)至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、至少约99.8%相同或至少约99.9%相同。在一些实施方案中,cas9变体与野生型cas9(例如,seqidno:1361421的spcas9)相比,可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50,或更多个氨基酸变化。在一些实施方案中,cas9变体包含seqidno:1361421的片段(例如,grna结合结构域或dna切割结构域),使得该片段与野生型cas9的相应片段(例如,seqidno:1361421的spcas9)至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,该片段是相应野生型cas9(例如,seqidno:1361421的spcas9)的氨基酸长度至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%。[0165]编辑模板[0166]术语″编辑模板″是指在由聚合酶合成的单链3’dnaflap中编码所需编辑的延伸臂的一部分,例如依赖于dna的dna聚合酶、依赖于rna的dna聚合酶(例如,逆转录酶)。此处描述的某些实施方案(例如,图71a)指的是″rt模板″,其指的是编辑模板和同源臂两者,即,在dna过程中实际用作模板的pegrna延伸臂的序列合成。术语″rt编辑模板″也等同于术语″dna合成模板″,但其中rt编辑模板反映了使用具有逆转录酶聚合酶的主要编辑器,其中dna合成模板更广泛地反映了使用具有任何聚合酶的主要编辑器。[0167]易错[0168]如本文所用,术语″易错″逆转录酶(或更广泛地,任何聚合酶)是指天然存在的或衍生自另一种逆转录酶的逆转录酶(或更广泛地,任何聚合酶)(例如,野生型m-mlv逆转录酶),其错误率小于野生型m-mlv逆转录酶的错误率。据报道,野生型m-mlv逆转录酶的错误率在15,000(较高)至27,000(较低)的范围内。15,000分之一的错误率对应于6.7x10-5的错误率。27,000.分之一的错误率对应于3.7x10-5的错误率。参见boutaboutetal.(2001)“dnasynthesisfidelitybythereversetranscriptaseoftheyeastretrotransposonty1,”nucleicacidsres29(11):2217-2222,通过引用将其并入本文。因此,出于本技术的目的,术语″易错″是指错误率大于15,000个核碱基掺入中的一个错误(6.7x10-5或更高)的那些rt,例如14,000个核碱基中的1个错误(7.14x10-5或更高),13,000个或更少的核碱基中有1个错误(7.7x10-5或更高),12,000个或更少的核碱基中有1个错误(7.7x10-5或更高),11,000个或更多的核碱基中有1个错误更少(9.1x10-5或更高),10,000个或更少的核碱基中有1个错误(1x10-4或0.0001或更高),9,000个或更少的核碱基中有1个错误(0.00011或更高),8,000个或更少的碱基中有1个错误(0.00013或更高)7,000个或更少的核碱基中有1个错误(0.00014或更高),6,000个或更少的核碱基中有1个错误(0.00016或更高),5,000个或更少的核碱基中有1个错误(0.0002或更高的碱基错误)更少(0.00025或更高),3,000个核碱基或更少(0.00033或更高)中的1个错误,2,000个核碱基或更少(0.00050或更高)中的1个错误,或1,000个或更少的核碱基(0.001或更高),或500个或更少的核碱基中有1个错误(0.002或更高),或250个或更少的核碱基中有1个错误(0.004或更高)。[0169]延伸臂[0170]术语″延伸臂″是指pegrna的核苷酸序列组分,其提供多种功能,包括引物结合位点和逆转录酶的编辑模板。在一些实施例中,例如,图3d中,延伸臂位于引导rna的3′末端。在其他实施例中,例如,图3e中,延伸臂位于引导rna的5′末端。在一些实施例中,延伸臂还包括同源臂。在各种实施例中,延伸臂在5’到3’方向上包含以下组件:同源臂、编辑模板和引物结合位点。由于逆转录酶的聚合活性在5’到3’方向,同源臂、编辑模板和引物结合位点的优选排列是在5’到3’方向,这样逆转录酶一旦被退火的引物序列引发,使用编辑模板作为互补模板链聚合酶单链dna。进一步的细节,例如延伸臂的长度,在本文别处描述。[0171]延伸臂也可以描述为通常包括两个区域:引物结合位点(pbs)和dna合成模板,如图3g(顶部)所示。当引物结合位点被引导编辑复合体切割时,引物结合位点与由靶位点的内源dna链形成的引物序列结合,从而暴露内源带切口链上的3’末端。如本文所述,引物序列与pegrna延伸臂上的引物结合位点的结合产生了一个双链体区域,该区域具有暴露的3’末端(即引物序列的3’),然后为聚合酶提供底物沿着dna合成模板的长度,从暴露的3′末端开始聚合单链dna。单链dna产物的序列是dna合成模板的互补序列。聚合向dna合成模板(或延伸臂)的5′方向继续,直到聚合终止。因此,dna合成模板代表了延伸臂的一部分,该部分被引导编辑复合体的聚合酶编码成单链dna产物(即含有所需遗传编辑信息的3’单链dnaflap),并最终取代位于pe诱导切口位点下游的靶标位点的相应内源dna链。不受理论的束缚,dna合成模板的聚合朝着延伸臂的5’端继续,直到终止事件。聚合可能以多种方式终止,包括但不限于(a)到达pegrna的5’末端(例如,在5’延伸臂的情况下,其中dna聚合酶简单地耗尽模板),(b)达到不可逾越的rna二级结构(例如,发夹或茎/环),或(c)达到复制终止信号,例如阻断或抑制聚合酶的特定核苷酸序列,或核酸拓扑信号,例如超螺旋dna或rna。[0172]有效量[0173]如本文所用,术语″有效量″是指足以引发所需生物反应的生物活性剂的量。例如,在一些实施方案中,起始编辑器的有效量可以指足以编辑靶位点核苷酸序列例如基因组的编辑器的量。在一些实施方案中,本文提供的引发编辑器的有效量,例如包含切口酶cas9结构域和逆转录酶的融合蛋白的有效量可以指足以诱导特异性结合的靶位点的编辑的融合蛋白的量。并由融合蛋白编辑。本领域技术人员将理解,有效量的试剂,例如融合蛋白、核酸酶、杂合蛋白、蛋白二聚体、蛋白(或蛋白二聚体)和多核苷酸的复合物,或多核苷酸可以根据各种因素而变化,例如,取决于所需的生物反应,例如,具体的等位基因、基因组或待编辑的靶位点,所靶向的细胞或组织,以及所使用的试剂。[0174]功能等同物[0175]术语″功能等同物″是指与第一生物分子在功能上等效但在结构上不一定等效的第二生物分子。例如,″cas9等同物″是指具有与cas9相同或基本相同功能但不一定具有相同氨基酸序列的蛋白质。在本公开内容的上下文中,本说明书自始至终都提到″蛋白质x或其功能等同物″。在这种情况下,蛋白质x的″功能等效物″包括具有等效功能的蛋白质x的任何同系物、旁系同源物、片段、天然存在的、工程化的、突变的或合成形式。[0176]融合蛋白[0177]如本文所用,术语″融合蛋白″是指包含来自至少两种不同蛋白质的蛋白质结构域的杂合多肽。一种蛋白质可能位于融合蛋白的氨基端(n端)部分或羧基端(c端)蛋白,从而形成″氨基端融合蛋白″或″羧基端融合蛋白″,″分别。蛋白质可以包含不同的结构域,例如,核酸结合结构域(例如,指导蛋白质与靶位点结合的cas9的grna结合结构域)和核酸切割结构域或核酸催化结构域。酸编辑蛋白。另一个例子包括逆转录酶的cas9或其等同物。本文提供的任何蛋白质可以通过本领域已知的任何方法产生。例如,本文提供的蛋白质可以通过重组蛋白质表达和纯化产生,这尤其适用于包含肽接头的融合蛋白质。重组蛋白表达和纯化的方法是众所周知的,包括greenandsambrook,molecularcloning:alaboratorymanual(4thed.,coldspringharborlaboratorypress,coldspringharbor,n.y.(2012))中描述的那些,全部内容其通过引用并入本文。[0178]基因产物[0179]如本文所用,术语″基因产物″是指由核酸序列编码的任何产物。因此,基因产物可以例如是初级转录物、成熟转录物、加工的转录物或由转录物编码的蛋白质或肽。因此,基因产物的实例包括mrnas、rrnas、trnas、发夹rnas、微小rnas(mirnas)、shrnas、sirnas以及肽和蛋白质,例如,报告蛋白或治疗性蛋白质。[0180]感兴趣的基因(goi)[0181]术语″感兴趣的基因″或″goi″是指编码感兴趣的生物分子(例如,蛋白质或rna分子)的基因。感兴趣的蛋白质可以包括任何细胞内蛋白质、膜蛋白质或细胞外蛋白质,例如核蛋白质、转录因子、核膜转运蛋白、细胞内细胞器相关蛋白质、膜受体、催化蛋白质和酶、治疗蛋白质、膜蛋白、膜转运蛋白、信号转导蛋白或免疫蛋白(例如igg或其他抗体蛋白)等。感兴趣的基因还可以编码rna分子,包括但不限于信使rna(mrna)、转移rna(trna)、核糖体rna(rrna)、小核rna(snrna)、反义rna、向导rna、微小rna(mirna)、小干扰rna(sirna)和无细胞rna(cfrna)。[0182]向导rna(″grna″)[0183]如本文所用,术语″向导rna″是特定类型的向导核酸,其通常通常与crispr-cas9的cas蛋白相关并且与cas9相关联,将cas9蛋白引导至特定序列包含与向导rna的原始空间序列互补的dna分子。如别处所述,pegrna是向导rna的一个子类别,其进一步包含位于向导3’或5’末端的延伸臂,使分子能够与本文公开的主要编辑器一起使用。术语″引导rna″还包括与cas9等效物、同源物、直向同源物或旁系同源物相关联的等效引导核酸分子,无论是天然存在的还是非天然存在的(例如,工程化的或重组的),并且以其他方式对cas9等效物进行编程定位到特定的靶核苷酸序列。cas9等同物可包括来自任何类型的crispr系统(例如,ii、v、vi型)的其他napdnabp,包括cpf1(v型crispr-cas系统)、c2c1(v型crispr-cas系统)、c2c2(vi型crispr-cas系统)和c2c3(v型crispr-cas系统)。makarovaetal.,“c2c2isasingle-componentprogrammablerna-guidedrna-targetingcrispreffector,”science2016;353(6299)描述了进一步的cas等同物,其内容以引用方式并入本文。本文提供了向导rna的示例性序列和结构。此外,本文提供了用于设计合适的向导rna序列的方法。如本文所用,″向导rna″也可称为″传统向导rna″以将其与被称为″主要编辑器向导rna″(或″pegrna″)的向导rna的修饰形式形成对比,后者已被发明用于本文公开的主要编辑方法和组合物。[0184]向导rna或pegrna可包含各种结构元件,包括但不限于:[0185]间隔区序列-向导rna或pegrna中的序列(具有约10至约40个(例如,约10、约15、约20、约25、约30个)核苷酸长度),其结合到在靶标dna中的前间隔区(如在下文中定义)。[0186]grna核心(或grna骨架或骨架序列)-指grna内负责napdnabp(例如,cas9)结合的序列,它不包括用于引导napdnabp(例如,cas9)以靶向dna的间隔区/靶向序列。[0187]延伸臂-指向导rna在5’或3’端的延伸部分,包括同源臂、编辑模板和引物结合位点。该组件在别处进一步定义。[0188]同源臂-指编码所得逆转录酶编码的单链dnaflap的一部分的延伸臂的一部分,该部分将通过替换内源链整合到靶dna位点中。由同源臂编码的单链dnaflap部分与靶标dna序列的非编辑链互补,这有利于内源链的置换和单链dnaflap在其位置上的退火,从而安装编辑。该组件在别处进一步定义。[0189]编辑模板-指在由逆转录酶合成的单链dnaflap中编码所需编辑的延伸臂的一部分。该组件在别处进一步定义。[0190]引物结合位点-指与引物序列退火的延伸臂的一部分,其由在cas9介导的切口酶作用于其上的靶dna链形成。该组件在别处进一步定义。[0191]转录终止子-向导rna或pegrna可以在分子的3’处包含转录终止序列。通常转录终止子序列(例如,seqidno:1361560-1361565)的长度为约70至约125个核苷酸,但也涵盖了短和更长的转录终止子序列,并且可以使用本领域已知的任何序列。[0192]flap内切核酸酶(例如,fen1)[0193]如本文所用,术语″flap内切核酸酶″是指催化5’单链dnaflap去除的酶。这些是天然存在的酶,进行去除细胞过程,包括dna复制中形成的5’flap。本文所描述的引导编辑方法可以利用内源性提供的flap内切核酸酶或反式提供的那些来去除引导编辑期间在靶位点处形成的内源性dna的5’flap。flap内切核酸酶是本领域已知的并且可以找到描述于pateletal.,“flapendonucleasespass5’‑flapsthroughaflexiblearchusingadisorder-thread-ordermechanismtoconferspecificityforfree5’‑ends,”nucleicacidsresearch,2012,40(10):4507-4519和tsutakawaetal.,“humanflapendonucleasestructures,dnadouble-baseflipping,andaunifiedunderstandingofthefen1superfamily,”cell,2011,145(2):198-211,和balakrishnanetal.,“flapendonuclease1,”annurevbiochem,2013,vol82:119-138中(每篇文献均通过引用并入本文)。示例性flap内切核酸酶是fen1,其可由以下氨基酸序列表示:[0194][0195]融合蛋白[0196]如本文所用,术语“融合蛋白”是指包含来自至少两种不同蛋白质的蛋白质域的杂合多肽。一种蛋白质可以位于融合蛋白的氨基端(n端)部分或羧基端(c端)蛋白质,从而分别形成“氨基端融合蛋白”或“羧基端融合蛋白”。蛋白质可以包含不同的域,例如核酸结合域(例如指导蛋白质与靶位点结合的cas9的grna结合域)和核酸编辑蛋白(例如rt结构域)的核酸切割域(例如cas9切口酶、napdnabp)或催化域。另一个实例包括与逆转录酶融合的napdnabp(例如rnacas9)或其等同物。本文提供的任何蛋白质可以通过本领域已知的任何方法产生。例如,本文提供的蛋白质可以经由重组蛋白质表达和纯化产生,其特别适用于包含肽接头的融合蛋白。用于重组蛋白质表达和纯化的方法是熟知的,并且包括greenandsambrook,molecularcloning:alaboratorymanual(第4版,coldspringharborlaboratorypress,coldspringharbor,n.y.(2012))描述的那些,其全部内容通过引用并入本文。[0197]同源臂[0198]术语″同源臂″是指延伸臂的部分,其包括由此产生的逆转录酶编码的单链dnaflap的序列,该序列将通过替换内源性链整合到靶dna位点中。由同源臂编码的单链dnaflap的部分与靶dna序列的未经编辑链互补,这有利于内源性链的置换和单链dnaflap在其位置上的退火,从而安装编辑。该组分在别处进一步定义。[0199]宿主细胞[0200]如本文所用,术语″宿主细胞″是指可以做为宿主、复制和表达本文所描述的载体的细胞,例如包含编码融合蛋白的核酸分子的载体,该融合蛋白包含napdnabp或napdnabp等同物(例如,cas9或等同物)和逆转录酶。[0201]分离的[0202]″分离的″是指从自然状态改变或去除。例如,天然存在于活体动物中的核酸或肽不是″分离的″,而从其天然状态的共存材料部分或完全分离的相同核酸或肽是″分离的″。分离的核酸或蛋白质可以以基本上纯化的形式存在,或者可以存在于非天然环境,例如宿主细胞中。[0203]在一些实施方案中,感兴趣的基因由分离的核酸编码。如本文所用,术语″分离的″是指如本文提供的材料从其原始或天然环境(例如,如果它是天然存在的,则为自然环境)去除的特性。因此,存在于活体动物中的天然存在的多核苷酸或蛋白质或多肽不是分离的,但是通过人为干预从自然系统的一些或全部共存材料分离的相同多核苷酸或多肽是分离的。因此,人工或工程化改造的材料,例如非天然存在的核酸构建体,诸如本文所描述的表达构建体和载体,也因此称为分离的。材料不必为了分离而纯化。因此,材料可以是载体的部分和/或组合物的部分,并且仍然是分离的,因为此类载体或组合物不是在自然界中发现材料的环境的部分。[0204]nandnabp[0205]如本文所用,术语″核酸可编程dna结合蛋白″或″napdnabp″,其中cas9是实例,是指使用rna:dna杂交以靶向并与dna分子中的特定序列结合的蛋白质。每个napdnabp与至少一个向导核酸(例如,向导rna)相关联,其将nadnabp定位于dna序列,该序列包含与向导核酸或其部分(例如,向导rna的前间隔区)互补的dna链(即,靶链)。换句话说,向导核酸″编程″napdnabp(例如,cas9或等同物)以定位并与.互补序列结合。[0206]不受理论束缚,napdnabp-向导rna复合物的结合机制通常包括形成r环的步骤,由此napdnabp诱导双链dna靶标的解旋,从而分离通过napdnabp结合的区域中的链。然后向导rna前间隔区与″靶链″杂交。这替代与靶链互补的″非靶链″,形成了r环的单链区域。在一些实施方案中,napdnabp包括一种或多种核酸酶活性,然后其切割dna留下各种类型的损伤。例如,napdnabp可以包含在第一位置切割非靶链,和/或在第二位置切割靶链的核酸酶活性。根据核酸酶活性,可以切割靶dna以形成″双链断裂″,从而切割两条链。在其他实施方案中,可以仅在单个位点切割靶dna,即dna在一条链上″形成切口″。具有不同核酸酶活性的示例性napdnabp包括″cas9切口酶″(″ncas9″)和没有核酸酶活性的失活cas9(″死亡cas9″或″dcas9″)。本文提供了这些和其他napdnabp的示例性序列。[0207]接头[0208]如本文所用,术语″接头″是指连接两个其他分子或部分的分子。接头是本领域公知的并且可以包含任何合适的核酸或氨基酸组合以促进它们连接的结构的适当功能。接头可以是一系列氨基酸。在连接两个融合蛋白的接头的情况下,接头可以是氨基酸序列。例如,napdnabp(例如,cas9)可以通过氨基酸接头序列与逆转录酶融合。在将两个核苷酸序列连接在一起的情况下,接头也可以是核苷酸序列。例如,在当前情况下,传统的向导rna通过间隔区或接头核苷酸序列连接至引物编辑器向导rna的rna延伸,其可以包含dna合成模板(例如,rt模板序列)和引物结合位点。在其他实施方案中,接头是有机分子、基团、聚合物或化学部分。在一些实施方案中,接头的长度为5-100个氨基酸,例如长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸。在一些实施方案中,接头的长度为5-100个核苷酸,例如长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150、150-200、200-300、300-500、500-1000、1000-2000或2000-5000个核苷酸。也可以考虑更长或更短的接头。[0209]切口酶[0210]术语″切口酶″是指两个核酸酶结构域之一失活的napdnabp(例如,cas9)。这种酶能够仅切割靶dna的一条链。[0211]核定位序列(nls)[0212]术语″核定位序列″或″nls″是指,例如通过核转运促进蛋白质输入细胞核的氨基酸序列。核定位序列是本领域已知的并且对技术人员来说是显而易见的。例如,核定位序列描述于planketal.,2000年11月23日提交的国际pct申请pct/ep2000/011690,作为wo2001/038547在2001年5月31日公布,为其示例性核定位序列的公开,其内容通过引用并入本文。在一些实施方案中,nls包含氨基酸序列pkkkrkv(seqidno:1361531)或mdsllmnrrkflyqfknvrwakgrretylc(seqidno:1361533)。[0213]核酸分子[0214]如本文所用,术语″核酸″是指核苷酸的聚合物(即,多个、多于一个(例如,2、3、4等)个核苷酸。该聚合物可以包括天然核苷(即,腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷)、核苷类似物(例如,2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、5-甲基腺苷、5-甲基腺苷、5-甲基腺苷溴尿苷、c5氟尿苷、c5碘尿苷、c5丙炔基尿苷、c5丙炔基胞苷、c5甲基胞苷、7脱氮腺苷、7脱氮鸟苷、8氧代腺苷、8氧代鸟苷、o(6)甲基鸟苷、4-乙酰基5-羟基尿苷、二甲基尿苷、甲基假尿苷、1-甲基腺苷、1-甲基鸟苷、n6-甲基腺苷和2-硫胞苷)、化学修饰碱基、生物修饰碱基(例如甲基化碱基)、嵌入碱基、经修饰的糖(例如2’‑氟核糖、核糖,2’‑脱氧核糖,2’‑o-甲基胞苷,阿拉伯鼻和己糖)或经修饰的磷酸基团(例如,硫代磷酸酯和5’‑n亚磷酰胺键)。[0215]核苷碱基[0216]如本文所用,术语″核苷碱基″,也称为″含氮碱基″或通常仅仅″碱基″,是形成核苷的含氮生物化合物,核苷进而是核苷酸的组分,具有所有这些单体构成核酸的基本构件。核苷碱基形成碱基对并相互堆积的能力直接导致长链螺旋结构,例如核糖核酸(rna)和脱氧核糖核酸(dna)。[0217]五个核苷碱基,它们是腺嘌呤(a)、胞嘧啶(c)、鸟嘌呤(g)、胸腺嘧啶(t)和尿嘧啶(u),可以称为是主要的或经典的。它们起遗传密码基本单位的功能,碱基a、g、c和t存在于dna中,而a、g、c和u存在于rna中。胸腺嘧啶和尿嘧啶是同一的,除了t包括u缺少的甲基。dna和rna也可能含有经修饰的核苷碱基。例如,对于腺苷和鸟苷核苷碱基,替代的核苷碱基可以包括次黄嘌呤、黄嘌呤或7-甲基鸟嘌呤,它们分别对应于肌苷、黄嘌呤核苷和7-甲基鸟苷的替代核苷碱基。此外,例如,胞嘧啶、胸腺嘧啶或尿苷核苷碱基,替代核苷碱基可包括5,6二氢尿嘧啶、5-甲基胞嘧啶或5-羟甲基胞嘧啶,其分别对应于二氢尿苷、5-甲基胞苷和5-羟甲基胞苷的替代核苷碱基。核苷碱基还可以包括核苷碱基类似物,其中大量是本领域已知的。通常,类似的核苷碱基赋予,除其它外不同的碱基配对和碱基堆积特性等。实例包括通用碱基,它可以与所有四个经典碱基配对,以及磷酸盐-糖主链类似物,诸如pna,它们会影响链的特性(pna甚至可以形成三螺旋)。核酸类似物也称为″异种核酸″,代表了地外生物学的主要支柱之一,基于替代生物化学的自然界新生的生命形式的设计。人工核酸包括肽核酸(pna)、吗啉代和锁核酸(lna),以及乙二醇核酸(gna)和苏糖核酸(tna)。这些中的每一个都通过分子主链的变化与天然存在的dna或rna区分开来。实例类似物是(例如,2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、c5溴尿苷、c5氟尿苷、c5碘尿苷、c5丙炔基尿苷、c5丙炔基甲基胞苷、c57脱氮腺苷、7脱氮鸟苷、8氧腺苷、8氧鸟苷、o(6)甲基鸟嘌呤、4-乙酰胞苷、5-(羧基羟甲基)尿苷、二氢尿苷、甲基假尿苷、1-甲基腺苷、1-甲基鸟苷、n6-甲基腺苷硫胞苷)、化学修饰碱基、生物修饰碱基(例如甲基化碱基)、嵌入碱基、经修饰的糖(例如,2’‑氟核糖、核糖、2’‑脱氧核糖、2’‑o-甲基胞苷、阿拉伯糖和己糖),或经修饰的磷酸基团(例如,硫代磷酸酯和5’‑n亚磷酰胺键)。[0218]pegrna[0219]如本文所用,术语″引导编辑器向导rna″或″pegrna″或″延伸向导rna″是指向导rna的特化形式,已经将其修饰以包括一个或多个额外的序列以用于本文描述的引导编辑方法、组合物和系统。如本文所述,引导编辑器向导rna包含核酸序列的一个或多个″延伸区″。延伸区可包括但不限于单链rna。此外,扩展区可能出现在传统向导rna的3’末端。在其他安排中,延长的重新gions可能出现在传统向导rna的5′末端。在其他排列中,延伸区可以出现在传统向导rna的分子内区域而不是末端之一,例如,在与napdnabp缔合和/或结合的grna核心区域中。延伸区包含″逆转录酶模板序列″,其是单链rna分子,编码单链互补dna(cdna),cdna进而设计为(a)与待编辑的内源性靶dna同源。和(b)包含至少一种待引入或整合到内源性靶dna中的期望核苷酸变化(例如,转变、颠换、缺失、插入或其组合)。延伸区还可包含其他功能序列元件,例如但不限于″引物结合位点″和/或″间隔区或接头″序列。如本文所用,″引物结合位点″包含与单链dna序列杂交的序列,该单链dna序列具有从r环的带切口dna产生的3’端并且包含逆转录酶的引物。[0220]在一些实施方案中,pegrna由图3a表示,其显示了具有5’延伸臂、间隔区和grna核心的pegrna。5’延伸在5’至3’方向进一步包含逆转录酶模板、引物结合位点和接头。[0221]在一些实施方案中,pegrna由图3b表示,其显示了具有3’延伸臂、间隔区和grna核心的pegrna。3’延伸在5’到3’方向进一步包含逆转录酶模板和引物结合位点。[0222]在其他实施方案中,pegrna由图27表示,其显示了在5’到3’方向上具有间隔区(1)、grna核心(2)和延伸臂(3)的pegrna。延伸臂(3)位于pegrna的3’末端。延伸臂(3)在5’到3’方向进一步包含″引物结合位点″(a)、″编辑模板″(b)和″同源臂″(c)。延伸臂(3)还可以在3’和5’末端包含任选的修饰物区,其可以是相同序列或不同序列。此外,pegrna的3’末端可以包含转录终止子序列。pegrna的这些序列元件在本文中进一步描述和定义。此外,说明书在随附的序列表中公开了示例性的pegrna,其根据本文公开的方法设计。[0223]仍然在其他实施方案中,pegrna由图28表示,其显示了在5’到3’方向具有延伸臂(3)、间隔区(1)和grna核心(2)的pegrna。延伸臂(3)位于pegrna的5’末端。延伸臂(3)在3’到5’方向进一步包括″引物结合位点″(a)、″编辑模板″(b)和″同源臂″(c)。延伸臂(3)还可以在3’和5’末端包括任选的修饰物区,其可以是相同序列或不同序列。pegrna还可以在3’末端包含转录终止子序列。pegrna的这些序列元件在本文中进一步描述和定义。[0224]肽标签[0225]术语″肽标签″是指与蛋白质序列遗传性融合以赋予该蛋白质一种或多种功能的肽氨基酸序列,这些功能便于为了各种目的的蛋白质操作,例如可视化、鉴定、定位、纯化、增溶、分离等。肽标签可以包括按目的或功能分类的各种类型的标签,其中可能包括″亲和标签″(以便于蛋白质纯化)、″增溶标签″(以协助蛋白质的正确折叠)、″色谱标签″(以改变蛋白质的色谱特性)、″表位标签″(以与高亲和力抗体结合)、″荧光标签″(以便于细胞内或体外蛋白质的可视化)。[0226]pe1[0227]如本文所用,“pe1”是指包含融合蛋白的pe复合物,该融合蛋白包含cas9(h840a)和具有以下结构的野生型mmlvrt:[nls]-[cas9(h840a)]-[接头]-[mmlv_rt(wt)] 所需的pegrna,其中pe融合物具有seqidno:1361515的氨基酸序列,如下所示;[0228][0229]关键:[0230]核定位序列(nls)顶部:(seqidno:1361532),底部:(seqidno:1361541)[0231]cas9(h840a)(seqidno:1361454)[0232]33-氨基酸接头(seqidno:1361528)[0233]m-mlv逆转录酶(seqidno:1361485).[0234]pe2[0235]如本文所用,“pe2”是指包含融合蛋白的pe复合物,该融合蛋白包含cas9(h840a)和具有以下结构的mmlvrt变体:[nls]-[cas9(h840a)]-[接头]-[mmlv_rt(d200n)(t330p)(l603w)(t306k)(w313f)] 所需的pegrna,其中pe融合物具有seqidno:1361516的氨基酸序列,如下所示:[0236][0237]关键:[0238]核定位序列(nls)顶部:(seqidno:1361532),底部:(seqidno:1361541)[0239]cas9(h840a)(seqidno:1361454)[0240]33-氨基酸接头(seqidno:1361528)[0241]m-mlv逆转录酶(seqidno:1361514).[0242]pe3[0243]如本文所用,“pe3”是指pe2加上与pe2复合并在非编辑dna链中引入切口以诱导编辑链优先替换的第二链切口引向导rna。[0244]pe3b[0245]如本文所用,“pe3b”是指pe3,但其中第二链切口向导rna被设计用于时间控制,使得直到安装所需编辑之后才引入第二链切口。这是通过设计具有一个间隔序列的grna来实现的,该序列仅与经编辑的链相匹配,而不与原始等位基因相匹配。使用此策略(以下称为pe3b),前间隔区和未编辑的等位基因之间的错配应该不利于sgrna的切口,直到pam链上的编辑事件发生之后。[0246]pe-短的[0247]如本文所用,“pe-短的”是指与c-末端截短的逆转录酶融合的pe构建体,其具有以下氨基酸序列:[0248][0249]关键:[0250]核定位序列(nls)顶部:(seqidno:1361532),底部::(seqidno:1361541)[0251]cas9(h840a)(seqidno:1361454)[0252]33-氨基酸接头1(seqidno:1361528)[0253]m-mlv截短的逆转录酶[0254](seqidno:1361597)[0255]同一性百分比[0256]序列(例如,核酸或氨基酸)的″同一性百分比″、″序列同一性″、″%同一性″或″%序列同一性″(因为它们在本文中可以互换使用)是指定量测量两个序列(例如,核酸或氨基酸)之间的相似性。人类与其他物种之间的基因组dna序列、内含子和外显子序列以及氨基酸序列的百分比同一性因物种类型而异,在每个类别中,黑猩猩与人类具有最高的同一性百分比。可以使用karlin和altschul,proc.natl.acad.sci.usa87:2264-68,1990,modifiedasinkarlinandaltschul,proc.natl.acad.sci.usa90:5873-77,1993的算法来确定同一性百分比。此类算法被掺入altschuletal.,j.mol.biol.215:403-10,1990的nblast和xblast程序(2.0版)。可以使用xblast程序进行blast蛋白质搜索,得分=50,字长=3,以获得与感兴趣的蛋白质分子同源的氨基酸序列。在两个序列之间存在间隙的情况下,可以利用如altschuletal.,nucleicacidsres.25(17):3389-3402,1997中描述的gappedblast。当利用blast和gappedblast程序时,可以使用各自程序(例如xblast和nblast)的默认参数。当陈述或引用百分比同一性或其范围(例如,至少、大于、之间等)时,除非另有规定,否则端点应包括在内,并且范围(例如,至少70%同一性)应包括在所引用范围内的所有范围(例如,至少71%、至少72%、至少73%、至少74%、至少75%、至少76%、至少77%、至少78%、至少79%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%,至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少95.5%、至少96%、至少96.5%,至少97%、至少97.5%、至少98%、至少98.5%、至少99%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%同一性)及其所有增量(例如,十分之一百分比(即0.1%)、百分之一(即0.01%)等)。[0257]引导编辑器[0258]术语″引导编辑器″是指本文所述的融合构建体,其包含napdnabp(例如cas9切口酶)和逆转录酶并且能够在存在pegrna(或“延伸向导rna”)的情况下对靶标核苷酸序列进行引导编辑。术语″引导编辑器″可以指融合蛋白或与pegrna复合的融合蛋白。在一些实施方案中,引导编辑器还可以指包含融合蛋白(与napdnabp融合的逆转录酶)、pegrna和能够指导非编辑链的第二位点切口步骤的常规向导rna的复合物,如本文描述。在某些实施方案中,“引导编辑器”的逆转录酶组分以反式提供。[0259]引物结合位点[0260]术语″引物结合位点″或″pbs”是指作为延伸臂组分,位于pegrna上的核苷酸序列(通常在延伸臂的3’端)并用于结合在napdnabp(例如,cas9)被引导编辑器切割靶标序列后形成的引物序列。如别处详述,当引导编辑器的cas9切口酶组分切割靶标dna序列的一条链时,会形成一个3’端的ssdnaflap,它作为引物序列与pegrna上的引物结合位点退火以引发逆转录。图27和28分别显示了位于3’和5’延伸臂上的引物结合位点的实施方案。[0261]蛋白质、肽和多肽[0262]术语“蛋白质”、“肽”和“多肽”在本文中可互换使用,是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。这些术语是指任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽的长度至少为三个氨基酸。蛋白质、肽或多肽可以指单个蛋白质或蛋白质的集合。蛋白质、肽或多肽中的一个或多个氨基酸可以被修饰,例如通过添加化学实体,例如碳水化合物基团、羟基、磷酸基团、法呢基基团(farnesylgroup)、异法呢基基团(isofarnesylgroup)、脂肪酸基团、用于缀合、功能化或其他修饰的接头等。蛋白质、肽或多肽也可以是单分子或可以是多分子复合物。蛋白质、肽或多肽可以只是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在的、重组的或合成的,或其任何组合。本文提供的任何蛋白质可以通过本领域已知的任何方法产生。例如,本文提供的蛋白质可以通过重组蛋白质表达和纯化产生,这尤其适用于包含肽接头的融合蛋白质。重组蛋白表达和纯化的方法是众所周知的,包括被greenandsambrook,molecularcloning:alaboratorymanual(4thed.,coldspringharborlaboratorypress,coldspringharbor,n.y.(2012))描述的那些,其全部内容通过引用并入本文。[0263]可操作地连接[0264]如本文所用,术语“可操作地连接”是指调节序列和异源核酸序列(例如,转基因)之间的功能性连接,导致异源核酸序列(例如,转基因)的表达。例如,当第一核酸序列与第二核酸序列处于功能关系时,第一核酸序列与第二核酸序列可操作地连接。例如,如果启动子影响编码序列的转录或表达,则启动子与编码序列可操作地连接。通常,可操作连接的核酸序列是连续的,并且在需要连接两个蛋白质编码区时在同一阅读框中。[0265]启动子[0266]术语″启动子″是本领域公认的,是指具有被细胞转录机制识别的序列并且能够启动下游基因转录的核酸分子。启动子可以是组成型活性的,意味着该启动子在给定的细胞环境中总是有活性的,或者是有条件的活性,意味着该启动子仅在存在特定条件时才具有活性。例如,条件启动子可能仅在特定蛋白质存在时才具有活性,该特定蛋白质将与启动子中的调控元件相关的蛋白质与基本转录机制连接起来,或者仅在不存在抑制性分子的情况下才具有活性。条件活性启动子的一个亚类是诱导型启动子,需要存在小分子″诱导剂″才有活性。诱导型启动子的实例包括但不限于阿拉伯糖诱导型启动子、tet-on启动子和它莫昔芬(tamoxifen)诱导型启动子。技术人员熟知多种组成型、条件型和诱导型启动子,并且技术人员将能够确定用于实施本发明的多种此类启动子,本发明在这方面不受限制。[0267]前间隔区相邻基序(pam)[0268]如本文所用,术语“前间隔区相邻序列”或“pam”是指大约2-6个碱基对的dna序列,其是cas9核酸酶的重要靶向组分。通常,pam序列位于任一链上,并位于cas9切割位点的5’到3’方向的下游。标准的pam序列(即与化脓性链球菌的cas9核酸酶或spcas9相关的pam序列)是5′‑ngg-3′,其中“n”是任何核碱基,后跟两个鸟嘌呤(“g”)核碱基。不同的pam序列可以与来自不同生物体的不同cas9核酸酶或等效蛋白质相关,例如,5′‑ng-3′,其中″n”是任何核碱基,后跟一个鸟嘌呤(“g”)核碱基,或5′‑kkh-3′,其中两个赖氨酸(“k”)后跟一个组氨酸(“h”)。此外,可以修饰任何给定的cas9核酸酶,例如spcas9,以改变核酸酶的pam特异性,使得核酸酶识别替代的pam序列。[0269]例如,参考标准的spcas9氨基酸序列seqidno:1361421(spcas9m1qq99zw2野生型),pam序列可以通过引入一个或多个突变来修饰,包括(a)d1135v、r1335q和t1337r“vqr变体”,其将pam特异性改变为ngan或ngng,(b)d1135e、r1335q和t1337r“eqr变体”,将pam特异性改变为ngag,以及(c)d1135v、g1218r、r1335e和t1337r“vrer变体”,其改变了pam对ngcg的特异性。此外,标准spcas9的d1135e变体仍可识别ngg,但与野生型spcas9蛋白相比,它更具选择性。[0270]还应理解,来自不同细菌物种(即,cas9直向同源物)的cas9酶可具有不同的pam特异性。例如,来自金黄色葡萄球菌(sacas9)的cas9识别ngrrt或ngrrn。此外,来自脑膜炎奈瑟菌(neisseriameningitis)(nmcas)的cas9识别nnnngatt。在另一个实例中,来自嗜热链球菌(stcas9)的cas9识别nnagaaw。在另一个实例中,来自齿垢密螺旋体(treponemadenticola)(tdcas)的cas9识别naaaac。这些示例并不意味着限制。应进一步理解,非spcas9结合多种pam序列,这使得它们在期望的靶切割位点不存在合适的spcas9pam序列时有用。此外,非spcas9可能具有使它们比spcas9更有用的其他特征。例如,来自金黄色葡萄球菌(sacas9)的cas9比spcas9小1kb左右,因此可以包装成腺相关病毒(aav)。可进一步参考shahetal.,“protospacerrecognitionmotifs:mixedidentitiesandfunctionaldiversity,”rnabiology,10(5):891-899(通过引用并入本文)。[0271]前间隔区[0272]如本文所用,术语“前间隔区”是指dna中与pam(前间隔区相邻基序)序列相邻的序列(~20bp),其具有与向导rna的间隔区序列相同的序列。引导rna与靶dna上的原始间隔区序列的互补序列退火(具体而言,其一条链,即“靶标链”对靶序列的“非靶标链”)。为了使cas9发挥作用,它还需要一个特定的前间隔区相邻基序(pam),该基序因cas9基因的细菌种类而异。最常用的cas9核酸酶源自化脓性链球菌,可识别ngg的pam序列,该序列位于基因组dna靶标序列下游的非靶标链上。技术人员会理解,现有技术中的文献有时将″前间隔区″称为向导rna本身上的~20-nt靶标特异性指导序列,而不是将其称为“间隔区”。因此,在一些情况下,本文使用的术语“前间隔区”可以与术语“间隔区”互换使用。围绕“前间隔区”或“间隔区”出现的描述上下文将有助于告知读者该术语是针对grna还是dna靶标进行细化。这些术语的两种用法都是可接受的,因为现有技术以这些方式中的每一种方式使用这两种术语。[0273]逆转录酶[0274]术语“逆转录酶”描述了一类聚合酶,其特征在于rna依赖性dna聚合酶。所有已知的逆转录酶都需要引物才能从rna模板合成dna转录物。历史上,逆转录酶主要用于将mrna转录为cdna,然后可以将其克隆到载体中进行进一步操作。禽成肌细胞病毒(amv)逆转录酶是第一种广泛使用的依赖于rna的dna聚合酶(verma,biochim.biophys.acta473:1(1977))。该酶具有5’‑3’rna导向的dna聚合酶活性、5’‑3’dna导向的dna聚合酶活性和rnaseh活性。rnaseh是一种持续性5’和3’核糖核酸酶,对rna-dna杂交的rna链具有特异性(perbal,apracticalguidetomolecularcloning,newyork:wiley&sons(1984))。逆转录酶不能纠正转录错误,因为已知的病毒逆转录酶缺乏校对所需的3’‑5’核酸外切酶活性(saundersandsaunders,microbialgeneticsappliedtobiotechnology,london:croomhelm(1987))。bergeretal.,biochemistry22:2365-2372(1983)提出了amv逆转录酶活性及其相关rnaseh活性的详细研究。另一种广泛用于分子生物学的逆转录酶是源自莫洛尼鼠白血病病毒(m-mlv)的逆转录酶。参见,例如gerard,g.r.,dna5:271-279(1986)andkotewicz,m.l.,etal.,gene35:249-258(1985)。还描述了基本上缺乏rnaseh活性的m-mlv逆转录酶。参见,例如,美国专利号5,244,797。本发明考虑使用任何此类逆转录酶,或其变体或突变体。[0275]此外,本发明涵盖使用易错的逆转录酶,即,其可被称为易错逆转录酶或不支持聚合过程中高保真核苷酸掺入的逆转录酶。在基于与向导rna整合的rt模板合成单链dnaflap的过程中,易错逆转录酶可以引入一个或多个与dna合成模板(例如rt模板序列)错配的核苷酸,从而引入通过单链dnaflap的错误聚合来改变核苷酸序列。在单链dnaflap合成过程中引入的这些错误然后通过与相应的内源性靶链杂交、去除内源性置换链、连接,然后通过多轮内源性dna修复和/或复制。[0276]逆转录[0277]如本文所用,术语“逆转录”表示酶使用rna作为模板合成dna链(即,互补dna或cdna)的能力。在一些实施方案中,逆转录可以是“易错逆转录”,其指某些逆转录酶的特性,其在其dna聚合活性中易错。[0278]有义链[0279]在遗传学中,“有义”链是双链dna中从5’到3’的片段,它与dna的反义链或模板链互补,从3’到5’。在编码蛋白质的dna片段的情况下,有义链是与mrna具有相同序列的dna链,它在转录过程中以反义链为模板,并最终进行(通常,并非总是)翻译变成蛋白质。因此,反义链负责生成后来翻译成蛋白质的rna,而有义链具有与mrna几乎相同的组成。请注意,对于dsdna的每个片段,可能会有两组有义和反义,这取决于读取的方向(因为有义和反义是相对于视角而言的)。最终是基因产物或mrna决定了dsdna片段的哪条链被称为有义或反义。[0280]在pegrna的背景下,第一步是合成单链互补dna(即3′ssdnaflap,它被掺入)以5’到3’方向定向,其模板化脱离了pegrna延伸手臂。3′ssdnaflap应该被视为有义链还是反义链取决于转录的方向,因为人们普遍认为两条dna链都可以作为转录的模板(但不能同时)。因此,在一些实施方案中,3’ssdnaflap(其总体上沿5’到3’方向延伸)将作为有义链,因为它是编码链。在其他实施方案中,3’ssdnaflap(其总体上沿5’到3’方向延伸)将作为反义链并因此作为转录模板。[0281]第二链切口[0282]如本文所用,该概念是指在第一个切口下游的位置处引入第二个切口(即,提供游离3’末端的初始切口位点,用于引发延伸的逆转录酶)。引导rna的一部分)。在一些实施方案中,第一切口和第二切口位于相反的链上。在其他实施例中,第一切口和第二切口位于相反的链上。在又一个实施方案中,第一个切口在非靶标链(即,形成r环的单链部分的链)上,而第二个切口在靶标链上。第二切口位于第一切口下游至少5个核苷酸处,或第一切口下游的至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个或更多个核苷酸处。不受理论束缚,第二个切口诱导细胞的内源性dna修复和复制过程,以替换未编辑的链。在一些实施方案中,编辑的链是非靶标链并且未编辑的链是靶标链。在其他实施方案中,编辑链是靶标链,未编辑链是非靶标链。[0283]间隔区序列[0284]如本文所用,与向导rna或pegrna相关的术语“间隔区序列”是指向导rna或pegrna的约10至约40(例如,约10、约15、约20、约25、约30)个核苷酸的部分,其包含与靶dna序列中的前间隔区序列互补的核苷酸序列。间隔序列与前间隔序列退火以在靶位点形成ssrna/ssdna杂交结构和与前间隔序列互补的内源dna链的相应r环ssdna结构。[0285]受试者[0286]如本文所用,术语“受试者”是指个体生物体,例如个体哺乳动物。在一些实施方案中,受试者是人。在一些实施方案中,受试者是非人类哺乳动物。在一些实施方案中,受试者是非人灵长类动物。在一些实施例中,受试者是啮齿动物。在一些实施方案中,受试者是绵羊、山羊、牛、猫或狗。在一些实施方案中,受试者是脊椎动物、两栖动物、爬行动物、鱼、昆虫、苍蝇或线虫。在一些实施方案中,受试者是研究动物。在一些实施方案中,受试者是基因工程化的,例如基因工程化的非人类受试者。受试者可以是任何性别,也可以处于任何发展阶段。[0287]靶位点[0288]术语“靶位点”是指由本文公开的引导编辑器编辑的核酸分子内的序列。靶位点还指碱基编辑器和grna的复合物结合的核酸分子内的序列。[0289]时间(temporal)第二链切口[0290]如本文所用,术语“时间第二链切口”是指第二链切口的变体,由此在未编辑链中安装第二切口仅在所需编辑安装在已编辑链中之后发生。这避免了可能导致双链dna断裂的两条链上的并发切口。第二链切口引导rna设计用于时间控制,以便在安装所需的编辑之后才引入第二链切口。这是通过设计一个间隔序列的grna来实现的,该序列仅与编辑过的链相匹配,而不与原始等位基因相匹配。使用这种策略,原始间隔区和未编辑的等位基因之间的不匹配应该不利于sgrna的切口,直到pam链上的编辑事件发生之后。[0291]tpert[0292]参见“反式引导编辑器rna模板(tpert)”的定义。[0293]时间第二链切口[0294]如本文所用,术语“时间第二链切口”是指第二链切口的变体,由此在未编辑链中安装第二切口仅在所需编辑安装在已编辑链中之后发生。这避免了可能导致双链dna断裂的两条链上的并发切口。第二链切口引导rna设计用于时间控制,以便在安装所需的编辑之后才引入第二链切口。这是通过设计一个间隔序列的grna来实现的,该序列仅与编辑过的链相匹配,而不与原始等位基因相匹配。使用这种策略,原始间隔区和未编辑的等位基因之间的不匹配应该不利于sgrna的切口,直到pam链上的编辑事件发生之后。[0295]反式引导编辑[0296]如本文所用,术语“反式引导编辑”是指利用分裂的(split)pegrna的引导编辑的修饰形式,即,其中将pegrna分成两个单独的分子:sgrna和反式引导编辑rna模板(tpert)。sgrna用于将引导编辑器(或更一般地,将引导编辑器的napdnabp组件靶向)到所需的基因组靶标位点,而tpert被聚合酶(例如,逆转录酶)用于编写新的dna序列通过位于引导编辑器和tpert上的结合域的相互作用,一旦tpert被反式招募到引导编辑器,就会进入靶标基因座。在一个实施方案中,结合域可以包括rna-蛋白质募集部分,例如位于tpert上的ms2适体和融合到引导编辑器的ms2cp蛋白质。反式引导编辑的一个优点是,通过将dna合成模板与向导rna分开,可以使用更长的模板。[0297]反式引导编辑的一个实施方案示于图3g和3h中。图3g显示左侧的反式引导编辑器复合物(“rp-pe:grna复合物”)的组成,其包含与聚合酶(例如逆转录酶)和rpert募集蛋白(例如ms2sc)中的每一种融合的napdnabp,并与指导rna复合。图3g进一步显示了单独的tpert分子,其包含pegrna的延伸臂特征,包括dna合成模板和引物结合序列。tpert分子还包括一个rna蛋白募集结构域(在这种情况下,它是一个茎环结构,可以是,例如,ms2适体)。如图中描述的过程所示。图3h,rp-pe:grna复合物结合并切割靶标dna序列。然后,招募蛋白(rp)招募tpert共定位到与dna靶位点结合的引导编辑复合体,从而使引物结合位点与带切口的链上的引物序列结合,随后,允许聚合酶(例如,rt)以通过tpert的5′的dna合成模板合成单链dna。[0298]虽然tpert示于图3g和图3h。由于在rna-蛋白质募集结构域的5’端包含pbs和dna合成模板的3h,其他配置中的tpert可以设计为pbs和dna合成模板位于rna-蛋白质募集结构域的3’端。然而,具有5’延伸的tpert的优点是单链dna的合成将在tpert的5’末端自然终止,因此不会冒险使用rna蛋白募集域的任何部分作为模板在引导编辑的dna合成阶段。[0299]反式引导编辑器rna模板(tpert)[0300]如本文所用,“反式引导编辑器rna模板(tpert)”是指用于反式引导编辑的组件,引导编辑的修改版本通过将pegrna分离成两个不同的分子来操作:引导rna和tpert分子。tpert分子被编程为与靶标dna位点的引导编辑器复合物共定位,将引物结合位点和dna合成模板反式引入引导编辑器。例如,见图3g用于反式引导编辑器(tpe)的一个实施方案,其显示了包含(1)rp-pe:grna复合物和(2)包含引物结合位点和dna合成模板的tpert的双组分系统rna-蛋白质募集域,其中rp-pe:grna复合物的rp(募集蛋白质)成分将tpert募集到要编辑的靶位点,从而将pbs和dna合成模板与反式的引导编辑器相关联。换句话说,tpert被设计成包含(全部或部分)pegrna的延伸臂,其中包括引物结合位点和dna合成模板。[0301]转换[0302]如本文所用,“转换”是指嘌呤核碱基的互换或嘧啶核碱基的互换。这类交换涉及相似形状的核碱基。本文公开的组合物和方法能够诱导靶dna分子中的一种或多种转换。本文公开的组合物和方法还能够在同一靶dna分子中诱导转换和颠换。这些变化涉及或在具有watson-crick配对核碱基的双链dna的情况下,颠换是指以下碱基对交换:或本文公开的组合物和方法能够诱导靶dna分子中的一种或多种转换。本文公开的组合物和方法还能够诱导相同靶dna分子中的转换和颠换,以及其他核苷酸变化,包括缺失和插入。[0303]颠换[0304]如本文所用,“颠换”是指嘌呤核碱基与嘧啶核碱基的互换,或相反,因此涉及具有不同形状的核碱基的互换。这些变化涉及不同形状的核碱基的互换。这些变化涉及和在双链dna与watson-crick配对的情况下核碱基,颠换是指以下碱基对交换:和本文公开的组合物和方法能够诱导靶dna分子中的一种或多种颠换。本文公开的组合物和方法还能够诱导相同靶dna分子中的转换和颠换,以及其他核苷酸变化,包括缺失和插入。[0305]治疗[0306]术语“治疗(treatment)”、“治疗(treat)”和“治疗中(treating)”是指旨在逆转、减轻、延迟疾病或病症或其一种或多种症状的发作或抑制其进展的临床干预,如本文所述。如本文所用,术语“治疗(treatment)”、“治疗(treat)”和“治疗中(treating)”是指旨在逆转、减轻、延迟疾病或病症或其一种或多种症状的发作或抑制其进展的临床干预,如本文所述。在一些实施方案中,治疗可以在一种或多种症状出现后和/或疾病被诊断后进行。在其他实施方案中,治疗可以在没有症状的情况下施用,例如以预防或延迟症状的发作或抑制疾病的发作或进展。例如,可以在症状出现之前对易感个体进行治疗(例如,根据症状史和/或根据遗传或其他易感因素)。在症状消退后也可以继续治疗,例如,以防止或延迟其复发。[0307]三核苷酸重复病症[0308]如本文所用,“三核苷酸重复病症”(或可选地,“扩增重复病症”或“重复扩增障碍”)是指由“三核苷酸重复扩增”引起的一组遗传障碍,其是一种特定基因或内含子中特定三核苷酸重复的突变。三核苷酸重复曾经被认为是基因组中常见的重复,但1990年代澄清了这些疾病。这些明显“良性”的dna片段有时会扩展并导致疾病。三核苷酸重复扩增引起的疾病有几个共同的特征。首先,突变重复显示体细胞和种系的不稳定性,而且更常见的是,它们在连续传输中扩大而不是收缩。其次,较早的发病年龄和后代(预期)表型的严重程度通常与较大的重复长度相关。最后,疾病等位基因的父母起源通常会影响预期,其中许多疾病的父系传播具有更大的扩展风险。[0309]三联体扩增被认为是由dna复制过程中的滑动引起的。由于这些区域中dna序列的重复性质,“环出”结构可能会在dna复制过程中形成,同时保持正在合成的母链和子链之间的互补碱基配对。如果环出结构是由子链上的序列形成的,这将导致重复次数增加。但是,如果在母链上形成环出结构,则重复次数会减少。这些重复的扩展似乎比减少更常见。一般来说,扩张越大,它们就越有可能引起疾病或增加疾病的严重性。这种特性导致在三核苷酸重复病症中看到的预期特征。预期描述了由于这些重复的扩大,受影响家庭的连续几代人的发病年龄降低和症状严重程度增加的趋势。[0310]核苷酸重复病症可以包括其中三联体重复出现在非编码区(即,非编码三核苷酸重复病症)或编码区中的那些。[0311]本文描述的引导编辑器(pe)系统可用于治疗核苷酸重复病症,其可包括脆性x综合征(fraxa)、脆性xemr(fraxe)、弗赖德赖希共济失调(freidreichataxia)(frda)、肌强直性营养不良(myotonicdystrophy)(dm)、脊髓小脑共济失调8型(spinocerebellarataxiatype8)(sca8)和脊髓小脑共济失调12型(sca12)等。[0312]引导编辑或″引导编辑(pe)”[0313]如本文所用,术语“引导编辑”或“引导编辑(pe)”是指使用如本技术中描述的且在图1a-1j的实施方案中举例说明的napdnabps和专门的向导rna进行基因编辑的新方法。tprt是指“靶标引发的逆转录”,因为在一个实施方案中,靶dna分子用于通过逆转录酶(或另一种聚合酶)引发dna链的合成。在各种实施方案中,引导编辑通过将靶dna分子(需要对其引入核苷酸序列的变化)与与引导编辑器引导rna复合的核酸可编程dna结合蛋白(napdnabp)接触来进行。参考图1e,引导编辑器向导rna在向导rna的3’或5’末端或向导rna的分子内位置包含一个延伸,并编码所需的核苷酸变化(例如,单核苷酸变化、插入或删除)。在步骤(a)中,napdnabp/延伸的grna复合物接触dna分子,延伸的grna引导napdnabp与靶标基因座结合。在步骤(b)中,在靶标基因座的一条dna链中引入切口(例如,通过核酸酶或化学试剂),从而在靶标基因座的一条链中产生可用的3’末端。在一些实施方案中,切口是在对应于r-环链的dna链中产生的,即未与指导rna序列杂交的链,即“非靶标链”。然而,切口可以在任何一条链中引入。也就是说,可以将切口引入“靶标链”(即与延伸的grna的间隔区杂交的链)或“非靶标链”(即形成基因单链部分的链)。r-环并且与靶标链互补)。在步骤(c)中,dna链的3’末端(由切口形成)与引导rna的延伸部分相互作用以引发逆转录(即“靶标引发的rt”)。在一些实施方案中,3’端dna链与向导rna的延伸部分上的特定引物结合位点杂交,即“逆转录酶引发序列”。在步骤(d)中,引入逆转录酶,从引发位点的3’端到引发编辑器引导rna的3’端合成单链dna。这形成了包含所需核苷酸变化(例如,单碱基变化、插入或缺失或其组合)的单链dnaflap,并且在其他方面与切口位点处或邻近切口位点的内源性dna同源。在步骤(e)中,napdnabp和向导rna被释放。步骤(f)和(g)涉及单链dnaflap的分解,以便所需的核苷酸变化被纳入靶标基因座。该过程可以通过去除相应的5’内源dnaflap,一旦3’单链dnaflap侵入内源dna序列并与内源dna序列杂交,就会形成所需的产物。不受理论束缚,细胞内源性dna修复和复制过程解决错配的dna以掺入核苷酸变化以形成所需的改变产物。该过程还可以通过“第二链切口”推动产物形成,如图1d所示。该过程可能会引入至少一种或多种以下遗传变化:颠换、转换、缺失和插入。[0314]术语“引导编辑器(pe)系统”或“引导编辑器”或“pe系统”或“pe编辑系统”是指本文描述的使用靶标引发逆转录(tprt)的基因组编辑方法中涉及的组合物,包括但不限于napdnabps、逆转录酶、融合蛋白(例如,包含napdnabps和逆转录酶)、引导编辑器引导rna,以及包含融合蛋白和引导编辑器引导rna的复合物,以及辅助元件,例如第二个链切口成分和5′内源性dnaflap去除核酸内切酶有助于推动主要编辑过程朝着编辑后的产物形成。[0315]上游[0316]如本文所用,术语“上游”和“下游”是相对性术语,其定义了位于以5’到3′方向取向的核酸分子(无论是单链还是双链)中的至少两个元件的线性位置。特别地,第一个元件在核酸分子中第二个元件的上游,其中第一个元件位于第二个元件5’的某处。例如,如果snp位于切口位点的5’侧,则snp位于cas9诱导的切口位点的上游。相反,第一个元件位于核酸分子中第二个元件的下游,其中第一个元件位于第二个元件3’的某处。例如,如果snp位于切口位点的5’侧,则snp位于cas9诱导的切口位点的上游。相反,第一个元件位于核酸分子中第二个元件的下游,其中第一个元件位于第二个元件3’的某处。例如,如果snp位于切口位点的3’侧,则snp位于cas9诱导的切口位点的下游。核酸分子可以是dna(双链或单链)、rna(双链或单链),或dna和rna的杂交体。单链核酸分子和双链分子的分析相同,因为上游和下游的术语仅指核酸分子的单链,除了需要选择正在考虑的双链分子的哪条链。通常,可用于确定至少两个元件的位置相关性的双链dna的链是“有义”或“编码”链。在遗传学中,“有义”链是双链dna中从5’到3’的片段,它与dna的反义链或模板链(从3’到5’)互补。因此,例如,如果snp核碱基在有义链或编码链上启动子的3’侧,则snp核碱基是基因组dna(双链)中启动子序列的“下游”。[0317]变体[0318]如本文所用,术语“变体”应被认为是指表现出具有偏离自然界存在的模式的特性,例如,变体cas9是与野生型cas9氨基酸序列相比包含一个或多个氨基酸残基变化的cas9。术语“变体”涵盖与参考序列具有至少75%、或至少80%、或至少85%、或至少90%、或至少95%、或至少99%的同一性的同源蛋白质,并且具有与参考序列相同或基本相同的功能活性。该术语还涵盖参考序列的突变体、截断或结构域,并且其显示出与参考序列相同或基本相同的一种或多种功能活性。[0319]载体[0320]如本文所用,术语”载体”是指可以被修饰以编码感兴趣的基因并且能够进入宿主细胞,在宿主细胞内发生突变和复制,然后将复制形式的载体转移到另一个宿主细胞中的核酸。示例性的合适载体包括病毒载体,例如逆转录病毒载体或噬菌体和丝状噬菌体,以及接合质粒。基于本公开,其他合适的载体对于本领域技术人员来说将是显而易见的。[0321]野生型[0322]如本文所用,术语“野生型”是技术人员理解的本领域术语,并且是指生物体、菌株、基因或特征的典型形式,如其在自然界中出现的,有别于突变体或变异体形式。[0323]5’内源dnaflap去除[0324]如本文所用,术语“5’内源dnaflap去除”或“5’flap去除”是指[0325]当rt合成的单链dnaflap竞争性侵入和与内源性dna杂交时,去除形成的5’内源dnaflap,在此过程中取代内源性链。去除这种内源性置换链可以驱动反应向形成包含所需核苷酸变化的所需产物的方向。细胞自身的dna修复酶可催化5’内源性flap(例如,flap核酸内切酶,如exo1或fen1)的去除或切除。此外,宿主细胞可以被转化以表达一种或多种催化去除所述5’内源flap的酶,从而驱动该过程朝向产物形成(例如flap核酸内切酶)。flap核酸内切酶是本领域已知的,可以在pateletal.,“flapendonucleasespass5′‑flapsthroughaflexiblearchusingadisorder-thread-ordermechanismtoconferspecificityforfree5′‑ends,”nucleicacidsresearch,2012,40(10):4507-4519和tsutakawaetal.,“humanflapendonucleasestructures,dnadouble-baseflipping,andaunifiedunderstandingofthefen1superfamily,”cell,2011,145(2):198-211中发现(每个都通过引用并入本文)。[0326]5’内源性dnaflap[0327]如本文所用,术语“5’内源dnaflap”是指位于靶dna中pe诱导切口位点紧临下游的dna链。pe对靶标dna链的切口暴露了切口位点上游侧的3’羟基和切口位点下游侧的5’羟基。以3’羟基结束的内源链用于引导引导编辑器的dna聚合酶(例如,其中dna聚合酶是逆转录酶)。切口位点下游侧的内源链以暴露的5′羟基开始,被称为“5′p内源dnaflap”,最终被去除并被由pegrna的延伸编码的新合成的取代链(即“3′f取代dnaflap”)取代。[0328]3’取代dnaflap[0329]如本文所用,术语“3’取代dnaflap”或简称为“取代dnaflap”是指由引导编辑器合成并由引导编辑器pegrna的延伸臂编码的dna链。更具体地说,3′取代dnaflap由pegrna的聚合酶模板编码。3′取代dnaflap包含与5′内源性dnaflap相同的序列,除了它还含有编辑的序列(例如,单核苷酸变化)。3′取代dnaflap与靶标dna重组,置换或取代5′内源性dnaflap(例如,可以通过5′flap内切核酸酶,如fen1或exo1来切除),然后连接以将3′取代dnaflap的3′端加入到暴露的内源性dna的5′羟基末端(在切除5′内源性dnaflap后暴露),从而重新形成磷酸二酯键并安装3’取代dnaflap以形成异源双链dna,所述异源双链dna包含一条编辑链和一条未编辑链。dna修复过程通过将编辑链中的信息复制到互补链来解析异源双链核酸分子,从而将编辑永久地安装到dna中。可以通过切割未编辑链进一步完成此解析过程,即,通过“第二链切口”,如本文所述。[0330]某些实施方案详述[0331]本发明公开了新的组合物(例如,新的pegrna和包含它们的pe复合物)和使用引导编辑(pe)修复治疗靶标的方法,例如在clinvar数据库中鉴定的那些靶标,使用利用本文描述的专门算法设计的pegrna。因此,本技术公开了用于大规模预测可用于修复治疗靶标(例如,包括在clinvar数据库中的那些)的pegrna序列的算法。此外,本技术公开了使用所公开的算法设计的治疗性pegrna的预测序列,并且可以与引导编辑一起使用以修复治疗性靶标。[0332]本文公开的算法和预测的pegrna序列一般涉及引导编辑。因此,本公开内容还提供了对引导编辑的各种组件和方面的描述,包括合适的napdnabp(例如,cas9切口酶)和逆转录酶,以及其他合适的组件(例如,接头、nls)和pe融合蛋白,其可以与本文公开的治疗性pegrna一起使用。[0333]采用成簇的规律间隔短回文重复序列(crispr)系统进行基因组编辑已经彻底改变了生命科学1-3。尽管使用crispr进行基因破坏现在已成为常规,但单核苷酸编辑的精确安装仍然是一项重大挑战,尽管对于研究或纠正大量致病突变是必要的。同源定向修复(hdr)能够实现此类编辑,但效率低下(通常<5%),需要供体dna修复模板,以及双链dna断裂(dsb)形成的有害影响。最近,davidliu教授等人的实验室开发了碱基编辑,无需dsb即可实现高效的单核苷酸编辑。碱基编辑器(be)将cirspr系统与碱基修饰脱氨酶结合,以将靶标c·g或a·t碱基对分别转换为a·t或g·c4-6。尽管已经被全世界的研究人员广泛使用,但当前的be仅支持十二种可能的碱基对转换中的四种,并且无法纠正小的插入或缺失。此外,碱基编辑的靶向范围受到与靶标碱基相邻的非靶标c或a碱基的编辑(“旁观者编辑(bystanderediting)”)以及pam序列存在于距靶标碱基15±2bp的要求的限制。因此,克服这些限制将大大拓宽基因组编辑的基础研究和治疗应用。[0334]本公开提出了一种新的精确编辑方法,该方法提供碱基编辑的许多好处-即避免双链断裂和供体dna修复模板-同时克服其主要限制。本文所述的提出的方法使用靶标引导的逆转录(tprt)实现在靶标基因组位点直接安装经编辑的dna链。在本文讨论的设计中,crispr向导rna(grna)将被设计为携带逆转录酶(rt)模板序列,该序列编码包含所需核苷酸变化的单链dna。crispr核酸酶(cas9)切割的靶标位点dna将充当经修饰的grna上模板序列逆转录的引物,允许直接掺入任何所需的核苷酸编辑。[0335]因此,本发明部分涉及这样的发现,可以利用或调整靶标引导逆转录(tprt)的机制以进行具有高效和遗传灵活性的基于crispr/cas的精确基因组编辑(例如,如图1a-1g的各种实施方案所述)。发明人在本文中已经提出使用napdnabp-聚合酶融合物(例如,与逆转录酶融合的cas9切口酶)来靶向具有修饰的向导rna(“延伸的向导rna”或pegrna)的特定dna序列,在靶位点产生单链切口,并使用经切割的dna作为引物,通过聚合酶(例如逆转录酶)基于作为pegrna组成部分的dna合成模板合成dna。新合成的链将与基因组靶序列同源,除了包含所需的核苷酸变化(例如,单个核苷酸变化、缺失或插入,或其组合)。新合成的dna链可以称为单链dnaflap,其将与互补的同源内源dna链竞争杂交,从而取代相应的内源链。这种杂交中间体的拆分可以包括去除由此产生的内源性dna的置换flap(例如,利用5’端dnaflap核酸内切酶,fen1),将合成的单链dnaflap连接到靶标dna,以及作为细胞dna修复和/或复制过程的结果,对所需核苷酸变化的同化。由于模板化dna合成提供单核苷酸精度,因此这种方法的范围非常广泛,可预见地可用于基础科学和治疗学中的无数应用。[0336]i.治疗pegrna[0337]本文所述的引导编辑器(pe)系统涵盖使用任何合适的引导编辑器向导rna或pegrna。发明人已经发现,通过使用包含dna合成模板的特殊配置的向导rna,可以利用或调整靶标引发逆转录(tprt)的机制,以进行精确且多功能的基于crispr/cas的基因组编辑,所述向导rna通过聚合酶(例如逆转录酶)对所需核苷酸变化进行编码。该应用是指将这种特殊配置的向导rna称为“引导编辑器向导rna”(或pegrna),因为dna合成模板可以作为标准或传统向导rna分子的延伸提供。该应用涵盖了导编辑器向导rna的任何合适的配置或排列。[0338]在各种实施方案中,本公开提供了使用本文公开的算法针对clinvar数据库条目设计的seqidno:1-135514和813085-880462的治疗性pegrna。[0339]在各种其他实施方案中,使用本文公开的算法针对clinvar数据库设计的示例性pegrna被包括在序列表中,该序列表形成了本说明书的一部分。序列表包括seqidno:1-135514和813085-880462的完整pegrna序列。这些完整的pegrna中的每一个都由间隔区(seqidno:135515-271028和880463-947840)和延伸臂(seqidno:271029-406542和947841-1015218)组成。此外,每个pegrna包含grna核心,例如,如seqidno:1361579-1361580所定义的。seqidno:271029-406542和947841-1015218的延伸臂还各自包含引物结合位点(seqidno:406543-542056和1015219-1082596)、编辑模板(seqidno:542057-677570和1082597-1149974),以及同源臂(seqidno:677571-813084和1149975-1217352)。pegrna任选地可以包含5’末端修饰物区和/或3’末端修饰物区。pegrna还可以在pegrna的3’处包含逆转录终止信号(例如,seqidno:1361560-1361566)。该应用包含所有这些序列的设计和使用。[0340]图3a显示了可用于本文公开的引导编辑器(pe)系统中的引导编辑器向导rna(称为″pegrna″或″扩展的grna″)的一个实施方案,其中传统的向导rna(绿色部分)包括间隔区和grna核心区域,其与napdnabp结合。在该实施方案中,向导rna在5’端包括延伸的rna片段,即5’延伸。在该实施方案中,5’延伸包括dna合成模板、引物结合位点和任选的5-20个核苷酸接头序列。如图1a所示,引物结合位点与在r环的非靶标链中形成切口后形成的游离3’末端杂交(hydride),从而引导聚合酶(例如逆转录酶)以5’到3’方向进行dna聚合。[0341]图3b显示了可用于本文公开的引导编辑器(pe)系统中的引导编辑器向导rna的另一个实施方案,其中传统的向导rna(绿色部分)包括~20nt间隔区和grna核心,其与napdnabp结合。在该实施方案中,向导rna在3’端包括延伸的rna片段,即3’延伸。在该实施方案中,3’延伸包括dna合成模板和引物结合位点。如图1b所示,引物结合位点与在r环的非靶标链中形成切口后形成的游离3’末端杂交(hydride),从而引导聚合酶以5’到3’方向进行dna聚合。[0342]图3c显示了可用于本文公开的引导编辑器(pe)系统中的延伸向导rna的另一个实施方案,其中传统的向导rna(绿色部分)包括~20nt间隔区和grna核心,其与napdnabp结合。在该实施方案中,向导rna包括在grna核心内的分子内位置处的延伸rna区段,即,分子内延伸。在该实施方案中,分子内延伸包括dna合成模板和引物结合位点。引物结合位点与在r环的非靶标链中形成切口后形成的游离3’末端杂交,从而引导聚合酶以5’到3’方向进行dna聚合。[0343]在一个实施方案中,分子内rna延伸的位置在向导rna的间隔区中。在另一个实施方案中,分子内rna延伸的位置在grna核心中。在又一个实施方案中,分子内rna延伸的位置在向导rna分子内除间隔区外的任何地方,或在破坏间隔区的位置。[0344]在一个实施方案中,分子内rna延伸插入间隔区的3’端的下游。在另一个实施方案中,分子内rna延伸插入间隔区的3’端的下游至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸。[0345]在其他实施方案中,分子内rna延伸插入到grna中,grna是指向导rna对应于或包含tracrrna的部分,其与cas9蛋白或其等同物结合和/或相互作用(即,不同的napdnabp)。优选地,分子内rna延伸的插入不破坏或最低限度地破坏tracrrna部分和napdnabp之间的相互作用。[0346]rna延伸的长度可以是任意有用的长度。在各种实施方案中,rna延伸的长度为至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸或至少500个核苷酸。[0347]dna合成模板(例如,rt模板序列)也可以是任意有用的长度。例如,dna合成模板(例如,rt模板序列)的长度可以是至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸、至少400个核苷酸或至少500个核苷酸。[0348]在其他实施方案中,其中逆转录引物结合位点序列的长度是至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸或至少100个核苷酸[0349]在其他实施方案中,任选的接头或间隔区的长度是至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少30个核苷酸、至少40个核苷酸、至少50个核苷酸、至少60个核苷酸、至少70个核苷酸、至少80个核苷酸、至少90个核苷酸、至少100个核苷酸、至少200个核苷酸、至少300个核苷酸或至少400个核苷酸。[0350]在一些实施方案中,dna合成模板(例如,rt模板序列)编码与非靶标链同源(并因此与靶标链的相应位点互补)但包括一个或多个核苷酸变化的单链dna分子。核苷酸变化可以包括一个或多个单碱基核苷酸变化、一个或多个缺失、一个或多个插入及其组合。[0351]如图1e所示,dna合成模板(例如,rt模板序列)的合成单链dna产物与非靶标链同源并含有一个或多个核苷酸变化。dna合成模板的单链dna产物(例如rt模板序列)与互补靶标链序列平衡杂交,从而取代同源内源靶标链序列。在一些实施方案中,取代的内源链可被称为5’内源dnaflap种类(例如,参见图1c)。这种5’内源dnaflap种类可以通过5’flap核酸内切酶(例如fen1)去除,现在与内源靶标链杂交的单链dna产物可以连接,从而在内源序列和新合成的链之间建立错配。该错配可以通过细胞的先天dna修复和/或复制过程解决。[0352]在各种实施方案中,dna合成模板(例如,rt模板序列)的核苷酸序列对应于非靶标链的核苷酸序列,其作为5’flap种类而被取代并且与待编辑的位点重叠。[0353]在引导编辑器向导rna的各种实施方案中,dna合成模板可以编码与切口位点相邻的内源dna序列互补的单链dnaflap,其中单链dnaflap包含所需核苷酸改变。单链dnaflap可以在切口位点取代内源性单链dna。在切口位点被取代的内源性单链dna可以有5’端并形成一个内源性flap,其可以被细胞切除。在各种实施方案中,5’端内源flap的切除可有助于驱动产物形成,因为去除5’端内源flap促进单链3’dnaflap与相应互补dna链的杂交,以及由单链3′dnaflap携带到靶标dna中的所需核苷酸变化的掺入或同化。[0354]在引导编辑器向导rna的各种实施方案中,单链dnaflap的细胞修复导致所需核苷酸变化的安装,从而形成所需产物。[0355]在其他实施方案中,所需核苷酸变化安装在切口位点的约-5至 5之间、或切口位点的约-10至 10之间、或切口位点的约-20至 20之间、或切口位点的约-30至 30之间、或切口位点的约-40至 40之间、或切口位点的约-50至 50之间、或切口位点的约-60至 60之间、或切口位点的约-70至 70之间、或切口位点的约-80至 80之间、或切口位点的约-90至 90之间、或切口位点的约-100至 100之间、或切口位点的约-200至 200之间的编辑窗口中。[0356]在各个方面,引导编辑器向导rna是向导rna的修饰版本。向导rna可能是天然存在的、由编码核酸表达的或化学合成的。用于获得或以其他方式合成向导rna和用于确定向导rna的适当序列的方法是本领域众所周知的,包括与感兴趣的基因组靶标位点的靶标链相互作用和杂交的间隔区。[0357]在各种实施方案中,向导rna序列的特定设计方面将取决于感兴趣的基因组靶标位点(即,待编辑的所需位点)的核苷酸序列和存在于本文所述的引导编辑器(pe)系统中的napdnabp的类型(例如,cas9蛋白),以及其他因子,诸如pam序列位置、靶标序列中的g/c含量百分比、微同源区域的程度、二级结构等。[0358]通常,向导序列是与靶标多核苷酸序列具有足够互补性以与靶标序列杂交并引导napdnabp(例如,cas9、cas9同源物或cas9变体)的序列特异性结合至靶标序列的任何多核苷酸序列。在一些实施方案中,当使用合适的比对算法最佳比对时,向导序列与其对应的靶标序列之间的互补程度为约或大于约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或更多。最佳比对可以使用用于比对序列的任何合适的算法来确定,其非限制性示例包括史密斯-沃特曼算法(smith-watermanalgorithm)、尼德曼-翁施算法(needleman-wunschalgorithm)、基于伯罗斯-惠勒变换的算法(例如,伯罗斯惠勒比对算法)、clustalw、clustalx、blat、novoalign(novocrafttechnologies)、eland(illumina,加利福尼亚州圣地亚哥)、soap(可在soap.genomics.org.cn上获得)和maq(可在maq.sourceforge.net上获得)。在一些实施方案中,向导序列的长度为约或大于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75或更多个核苷酸。[0359]在一些实施方案中,向导序列的长度小于约75、50、45、40、35、30、25、20、15、12或更小的核苷酸。向导序列指导碱基编辑器与靶标序列的序列特异性结合的能力可以通过任何合适的测定来评估。例如,碱基编辑器的组件,包括待测试的向导序列,可以提供给具有相应靶标序列的宿主细胞,诸如通过用编码本文公开的碱基编辑器的组件的载体转染,然后是评估靶标序列内的优先切割,诸如通过如本文所述的surveyor测定。[0360]类似地,可以通过提供靶标序列、碱基编辑器的组件,包括待测定的向导序列和不同于测试向导序列的对照向导序列,在试管中评估靶标多核苷酸序列的切割,并比较结合或测定和对照向导序列反应之间靶标序列的切割率。其他测定是可能的,并且是本领域技术人员会想到的。[0361]可以选择向导序列以靶向任何靶标序列。在一些实施方案中,靶标序列是细胞基因组内的序列。示例性靶标序列包括在靶标基因组中独特的那些。例如,对于化脓性链球菌cas9,基因组中的独特靶标序列可以包括形式为mmmmmmmmnnnnnnnnnnnnxgg(seqidno:1361548)的cas9靶位点,其中nnnnnnnnnnnnxgg(seqidno:1361549)(n是a、g、t或c;而x可以是任何东西)在基因组中只出现一次。基因组中的独特靶标序列可以包括mmmmmmmmmnnnnnnnnnnnxgg(seqidno:1361550)形式的化脓性链球菌cas9靶位点,其中nnnnnnnnnnnxgg(seqidno:1361551)(n是a、g、t或c;而x可以是任何东西)在基因组中只出现一次。对于嗜热链球菌(s.thermophilus)crispr1cas9,基因组中的独特靶标序列可以包括mmmmmmmmnnnnnnnnnnnnxxagaaw(seqidno:1361552)形式的cas9靶位点,其中nnnnnnnnnnnnxxagaaw(seqidno:1361553)(n是a、g、t或c;x可以是任何东西;w是a或t)在基因组中只出现一次。基因组中的独特靶标序列可以包括mmmmmmmmmnnnnnnnnnnnxxagaaw(seqidno:1361554)形式的嗜热链球菌crispr1cas9,其中nnnnnnnnnnnxxagaaw(seqidno:1361555)(n是a、g、t或c;x可以是任何东西;w是a或t)在基因组中只出现一次。对于化脓性链球菌cas9,基因组中的独特靶标序列可以包括形式为mmmmmmmmnnnnnnnnnnnnxggxg(seqidno:1361556)的cas9靶位点,其中nnnnnnnnnnnnxggxg(seqidno:1361557)(n是a、g、t或c;而x可以是任何东西)在基因组中只出现一次。基因组中的独特靶标序列可以包括mmmmmmmmmnnnnnnnnnnnxggxg(seqidno:1361558)形式的化脓性链球菌cas9靶位点,其中nnnnnnnnnnnxggxg(seqidno:1361559)(n是a、g、t或c;而x可以是任何东西)在基因组中只出现一次。在这些序列中的每一个中,“m”可以是a、g、t或c,并且在序列鉴定为唯一时不需考虑。[0362]在一些实施方案中,选择向导序列以降低向导序列内二级结构的程度。二级结构可以通过任何合适的多核苷酸折叠算法确定。一些程序基于计算最小吉布斯自由能。一种此类算法的示例是mfold,如zuker和stiegler所述(nucleicacidsres.9(1981),133-148)。另一个示例折叠算法是维也纳大学理论化学研究所(institutefortheoreticalchemistryattheuniversityofvienna)开发的在线网络服务器rna折叠,使用质心结构预测算法(参见例如a.r.gruberetal.,2008,cell106(1):23-24;andpacarrandgmchurch,2009,naturebiotechnology27(12):1151-62)。进一步的算法可以在美国申请系列no.61/836,080;broadreferencebi-2013/004a中发现,通过引用并入本文。[0363]通常,tracr配对序列包括与tracr序列具有足够互补性以促进以下一项或多项的任何序列:(1)在含有相应tracr序列的细胞中切除侧接tracr配对序列的向导序列;(2)在靶序列处形成复合物,其中该复合物包含与tracr序列杂交的tracr配对序列。一般而言,互补性程度参考tracr配对序列和tracr序列沿两个序列中较短序列的长度的最佳比对。最佳比对可以通过任何合适的比对算法确定,并且可以进一步说明二级结构,例如tracr序列或tracr配对序列内的自互补。在一些实施方案中,当最佳比对时,tracr序列和tracr配对序列之间沿着两者中较短者的长度的互补程度为约或大于约25%、30%、40%、50%、60%、70%、80%、90%、95%、97.5%、99%或更高。在一些实施方案中,tracr序列是约或多于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50或更多个核苷酸的长度。在一些实施方案中,tracr序列和tracr配对序列包含在单个转录物内,使得两者之间的杂交产生具有二级结构例如发夹的转录物。用于发夹结构的优选环形成序列长度为四个核苷酸,最优选具有序列gaaa。然而,可以使用更长或更短的环序列,也可以使用替代序列。序列优选地包括核苷酸三联体(例如,aaa)和额外的核苷酸(例如c或g)。成环序列的例子包括caaa和aaag。在本发明的一个实施方案中,转录物或转录的多核苷酸序列具有至少两个或更多个发夹。在优选的实施方案中,转录物具有两个、三个、四个或五个发夹。在本发明的另一个实施方案中,转录物具有至多五个发夹。在一些实施方案中,单个转录物还包括转录终止序列;优选地,这是polyt序列,例如六个t核苷酸。包含向导序列、tracr配对序列和tracr序列的单个多核苷酸的其他非限制性实例如下(从5’到3’列出),其中“n”代表指导序列的碱基,第一块小写字母tracr配对序列,第二块小写字母代表tracr序列,最后的poly-t序列代表转录终止子:(1)nnnnnnnngtttttgtactctcaagatttagaaataaatcttgcagaagctacaaagataaggcttcatgccgaaatcaacaccctgtcattttatggcagggtgttttcgttatttaatttttt(seqidno:1361560);(2)nnnnnnnnnnnnnnnnnngtttttgtactctcagaaatgcagaagctacaaagataaggcttcatgccgaaatcaacaccctgtcattttatggcagggtgttttcgttatttaatttttt(seqidno:1361561);(3)nnnnnnnnnnnnnnnnnnnngtttttgtactctcagaaatgcagaagctacaaagataaggcttcatgccgaaatcaacaccctgtcattttatggcagggtgtttttt(seqidno:1361562);(4)nnnnnnnnnnnnnnnnnnnngttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgctttttt(seqidno:1361563);(5)nnnnnnnnnnnnnnnnnnnngttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtgttttttt(seqidno:1361564and(6)nnnnnnnnnnnnnnnnnnnngttttagagctagaaatagcaagttaaaataaggctagtccgttatcatttttttt(seqidno:1361565)。在一些实施方案中,序列(1)至(3)与来自嗜热链球菌crispr1的cas9组合使用。在一些实施方案中,序列(4)至(6)与来自化脓性链球菌的cas9组合使用。在一些实施方案中,tracr序列是与包含tracr配对序列的转录物分开的转录物。[0364]对本领域技术人员显而易见的是,为了将包含cas9结构域和单链dna结合蛋白的任何融合蛋白,如本文公开的,靶向靶标位点,例如包含要编辑的点突变的位点,通常需要将融合蛋白与向导rna(例如sgrna)一起共表达。如本文别处更详细解释的,向导rna通常包含允许cas9结合的tracrrna框架和赋予cas9:核酸编辑酶/结构域融合蛋白序列特异性的指导序列。[0365]在一些实施方案中,向导rna包含结构5’‑[向导序列]-guuuuagagcuagaaauagcaaguuaaaauaaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugcuuuuu-3’(seqidno:1361566),其中向导序列包含与靶序列互补的序列。向导序列的长度通常为20个核苷酸。基于本公开,用于将cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶位点的合适的向导rna的序列对于本领域技术人员来说将是显而易见的。此类合适的向导rna序列通常包含与待编辑的靶核苷酸上游或下游50个核苷酸内的核酸序列互补的指导序列。本文提供了适用于将任何提供的融合蛋白靶向特定靶序列的一些示例性向导rna序列。额外的指导序列是本领域众所周知的并且可以与本文所述的碱基编辑器一起使用。[0366]在其他实施方案中,pegrna可以包括由图27所示的结构描述的那些,其包含向导rna和3’延伸臂。[0367]图27提供了本文涵盖的pegrna的一个实施方案的结构,其可以根据实施例2中定义的方法设计。pegrna包含在5’至3’方向上排列的三个主要成分元件,即:间隔区、grna核心和3’端的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)、编辑模板(b)和同源臂(c)。此外,pegrna可以包含任选的3’末端修饰物区(e1)和任选的5’末端修饰物区(e2)。更进一步地,pegrna可以在pegrna的3’末端包含转录终止信号(未描述)。这些结构元件在本文中进一步定义。pegrna结构的描述并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端。[0368]在其他实施方案中,pegrna可以包括由图28中所示的结构描绘的那些,其包含引向导rna和5’延伸臂。[0369]图28提供了本文涵盖的pegrna的另一个实施方案的结构,其可以根据实施例2中定义的方法设计。pegrna包含在5’至3’方向上排列的三个主要成分元件,即:间隔区、grna核心和3’端的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)(seqidno:406543-542056和1015219-1082596)、编辑模板(b)(seqidno:542057-677570和1082597-1149974)和同源臂(c)(seqidno:677571-813084和1149975-1217352)。此外,pegrna可以包含任选的3’末端修饰物区(e1)和任选的5’末端修饰物区(e2)。更进一步地,pegrna可以在pegrna的3’末端包含转录终止信号(未描述)。这些结构元件在本文中进一步定义。pegrna结构的描述并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端。[0370]pegrna还可以包括额外的设计改进,可以修改pegrna的特性和/或特征,从而改善引导编辑的效率。在各种实施方案中,这些改进可以属于许多不同类别中的一个或多个,包括但不限于:(1)设计能够从非聚合酶iii(poliii)启动子高效表达功能性pegrna,这将能够表达更长的pegrna,而无需繁重的序列要求;(2)对核心、cas9结合pegrna支架的改进,这可以改善功效;(3)修饰pegrna以改善rt持续合成能力,从而能够在靶基因组基因座插入更长的序列;和(4)在pegrna的5’或3’末端添加rna基序,以改善pegrna稳定性、增强rt持续合成能力、防止pegrna错误折叠或招募对基因组编辑重要的其他因子。[0371]在一个实施方案中,pegrna可以设计具有poliii启动子以改善具有更大延伸臂的更长长度的pegrna的表达。sgrna通常从u6snrna启动子表达。该启动子募集poliii以表达相关的rna,且用于表达保留在细胞核内的短rna。然而,poliii的加工能力不强,无法在有效基因组编辑所需的水平上表达长度超过几百个核苷酸的rna。此外,poliii可以在u的延伸处停止或终止,这可能会限制使用pegrna插入的序列多样性。募集聚合酶ii(诸如pcmv)或聚合酶i(诸如u1snrna启动子)的其他启动子已被检查其表达更长sgrna的能力。然而,这些启动子通常是部分转录的,这将导致表达的pegrna中间隔区的额外序列5’,这已被证明会导致cas9:sgrna活性以位点依赖性方式显著降低。此外,虽然poliii转录的pegrna可以简单地在6-7u的运行中终止,但从polii或poli转录的pegrna需要不同的终止信号。通常,此类信号还会导致聚腺苷酸化,从而导致pegrna从细胞核中意外转运。类似地,从polii启动子(诸如pcmv)表达的rna通常是5’加帽的,这也导致它们的核输出。[0372]此前,rinn和同事筛选了多种表达平台,用于产生长链非编码rna-(lncrna)标记的sgrnas183。这些平台包括从pcmv表达并终止于来自人类malat1ncrna的ene元件184、来自kshv的panene元件185或来自u1snrna的3’框186的rna。值得注意的是,malat1ncrna和panene形成三重螺旋保护polya尾184、187。这些构建体还可以增强rna的稳定性。预计这些表达系统也将能够表达更长的pegrna。[0373]此外,还设计了一系列方法来切割将作为pegrna一部分转录的polii启动子部分,添加自切割核酶(诸如锤头188(hammerhead188)、手枪189(pistol189)、斧头189(hatchet189)、发夹190、vs191、twister192或twistersister192核酶)或其他自切割元件来处理转录向导,或被csy4193识别并导致向导处理的发夹。此外,假设合并多个ene基序可以导致改善pegrna表达和稳定性,如先前对kshvpanrna和元件所证明的那样185。还预计以环状内含子rna(cirna)形式环化pegrna也可能导致增强的rna表达和稳定性,以及核定位194。[0374]在各种实施方案中,pegrna可包括各种上述元件,如以下序列所示例。[0375]非限制性实例1-由pcmv、csy4发夹、pegrna和malatlene组成的pegrna表达平台[0376][0377]非限制性实例2-由pcmv、csy4hairing、pegrna和panene组成的pegrna表达平台[0378][0379]非限制性实例3-由pcmv、csy4hairing、pegrna和3xpanene组成的pegrna表达平台[0380][0381]非限制性实例4-由pcmv、csy4hairing、pegrna和3’框组成的pegrna表达平台[0382][0383]非限制性实例5-由pu1、csy4发夹、pegrna和3’框组成的pegrna表达平台[0384][0385][0386]在各种其他实施方案中,可以通过对支架或核心序列引入改进来改进pegrna。这可以通过引入已知的进行。[0387]核心的、cas9结合pegrna支架可以经改进以增强pe活性。已经证明了几种此类方法。例如,支架(p1)的第一个配对元件含有gtttt-aaaac配对元件。此类ts运行已被证明会导致poliii中止和rna转录的过早终止。在p1的这一部分将t-a对之一合理突变为g-c对已被证明可以增强sgrna活性,表明这种方法对于pegrna195也是可行的。此外,增加p1的长度也显示可以增强sgrna折叠并导致活性改善195,表明它是改善pegrna活性的另一条途径。对核心的改进实例包括:[0388]含有针对p1的6nt延伸的pegrna[0389][0390]p1内含有t-a至g-c突变的pegrna[0391][0392]在各种其他实施方案中,可以通过向编辑模板区域引入修饰来改进pegrna。随着由pegrna模板化的插入的大小增加,它更有可能被内切核酸酶降解,经历自发水解,或折叠成不能被rt逆转录的二级结构或破坏pegrna支架折叠和随后的cas9-rt结合。因此,可能需要对pegrna模板进行修饰才能影响大的插入,诸如整个基因的插入。这样做的一些策略包括在合成或半合成的pegrna中掺入经修饰的核苷酸,使rna对降解或水解更具抵抗力,或者不太可能采用抑制性二级结构196。此类修饰可能包括8-氮杂-7-deazaguanosine,其会减少富含g的序列中的rna二级结构;可减少降解并增强某些种类的rna二级结构的锁核酸(lna);可增强rna稳定性的2’‑o-甲基、2’‑氟或2’‑o-甲氧基乙氧基修饰。此类修饰也可以包括在pegrna的其他地方,以增强稳定性和活性。或者或另外,可以设计pegrna的模板,使其既编码所需的蛋白质产物,也更可能采用能够通过rt展开的简单二级结构。此类简单的结构将充当热力学池(sink),从而不太可能出现阻止逆转录的更复杂的结构。在这样的设计中,pe将用于启动转录,并通过与cas9融合的rna结合蛋白或pegrna本身上的rna识别元件(如ms2适体)将单独的模板rna招募到靶位点。rt可以直接结合到该单独的模板rna,或者在交换到第二模板之前在原始pegrna上启动逆转录。此类方法可以通过防止添加长模板时pegrna的错误折叠以及不需要将cas9从基因组解离用于发生长插入来实现长插入,这可能会抑制基于pe的长插入。[0393](iv)在5’或3’末端安装额外的rna基序[0394]在其他实施方案中,可以通过在pegrna的5’和3’末端引入额外的rna基序来改进pegrna。几个此类基序-诸如以上讨论过的来自kshv的panene和来自malat1的ene,其作为终止来自非poliii启动子的较长pegrna表达的可能手段。这些元件形成吞没polya尾的rna三螺旋,导致它们保留在细胞核内184,187。然而,通过在pegrna的3’末端形成封闭末端核苷酸的复杂结构,这些结构也可能有助于防止外切核酸酶介导的pegrna降解。[0395]在3’末端插入的其他结构元件也可以增强rna稳定性,尽管不能从非poliii启动子终止。此类基序可能包括发夹或rna四联体,它们会封闭3’末端197,或自切割核酶(诸如hdv),其会导致在3’末端形成2’‑3’‑环状磷酸酯,并可能导致pegrna不太可能被外切核酸酶降解198。通过不完全剪接诱导pegrna环化-形成cirna-也可以增加pegrna的稳定性并导致pegrna保留在细胞核内194。[0396]额外的rna基序也可以通过增强rt与dna-rna双链体的结合来改进rt持续合成能力或增强pegrna活性。在其同源逆转录病毒基因组中添加由rt结合的天然序列可以增强rt活性199。这可能包括天然引物结合位点(pbs)、多嘌呤束(polypurinetract)(ppt)或参与逆转录病毒基因组二聚化和转录起始的吻合环199。[0397]在pegrna的5’和3’末端添加二聚化基序-诸如吻合环或gnra四环/四环受体对200-也可以导致pegrna的有效环化,改善稳定性。此外,预计添加这些基序可以实现pegrna间隔区和引物的物理分离,防止会阻碍pe活性的间隔区遮蔽(occlusion)。在间隔区形成小的toehold发夹的pegrna的短5’延伸,也可以有利地与结合间隔区的pegrna的退火区竞争。最后,吻合环也可用于将其他模板rna招募到基因组位点,并使rt活性从一种rna交换到另一种。示例改进包括但不限于:[0398]pegrna-hdv融合[0399][0400]pegrna-mmlv吻合环[0401][0402]pegrna-vs核酶吻合环、[0403][0404]pegrna-gnra四环/四环受体[0405][0406]pegrna模板转换二次rna-hdv融合[0407][0408]可以通过定向进化进一步改进pegrna支架,以与已改进的spcas9和碱基编辑器的类似方式。定向进化可以增强由cas9或进化的cas9变体对pegrna的识别。此外,不同的pegrna支架序列可能在不同的基因组基因座上是最佳的,要么增强相关位点的pe活性,要么减少脱靶活性,或两者兼有。最后,添加了其他rna基序的pegrna支架的进化几乎肯定会改善融合pegrna相对于未进化的融合rna的活性。例如,由c-di-gmp-i适体和锤头状核酶(hammerheadribozyme)组成的变构核酶的进化导致活性显著改善202,表明进化也会改善锤头状-pegrna融合的活性。此外,虽然cas9目前通常不耐受sgrna的5’延伸,但定向进化可能会产生使这种不耐受性减轻的突变,从而允许利用额外的rna基序。[0409]本公开涵盖任何此类方式来进一步改进这里公开的引导编辑系统的功效。[0410]ii.用于设计治疗性pegrna的算法和方法[0411]如本文所述,发明人发现并理解使用pegrna的引导编辑可用于安装多种核苷酸变化,包括插入(任何长度,包括整个基因或蛋白质编码区)、缺失(任何长度)和校正致病突变。然而,尚不存在确定和/或预测pegrna结构的技术,包括指定pegrna的各种组件,诸如间隔区、grna核心和延伸臂(以及本文所述的延伸组件)。发明人已经开发了用于确定pegrna的计算机化技术,包括确定延伸的grna结构。每个延伸的grna结构可以基于输入等位基因(例如,代表致病突变)、输出等位基因(例如,代表校正的野生型序列)和融合蛋白(例如,用于引导编辑的crispr系统,包括pam基序和引导编辑器切口的相对位置)确定。输入等位基因和输出等位基因之间的差异代表所需的编辑(例如,单个核苷酸变化、插入、缺失等)。所确定的结构可以被创建并用于执行碱基编辑以将输入等位基因改变为输出等位基因,如本文进一步描述的。[0412]图31是显示根据一些实施方案,用于确定延伸的grna结构的示例性高级计算机化方法3100的流程图。在步骤3102,计算设备(例如,结合图34描述的计算设备3400)访问指示输入等位基因、输出等位基因和融合蛋白的数据,该融合蛋白包括核酸可编程dna结合蛋白和拟转录酶。虽然步骤3102描述了在一个步骤中访问所有三个输入等位基因、输出等位基因和融合蛋白,但这是用于说明的目的,且应该理解,可以使用一个或多个步骤访问此类数据而不背离本文所述的技术的精神。访问数据可以包括接收数据、存储数据、访问数据库idno:1361579),gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgc(seqidno:1361580),和/或其他grna主链序列,诸如保留野生型rna二级结构的grna主链序列。[0420]在步骤3210,计算设备在步骤3208选择确定的一组参数。在步骤3212,计算设备使用所选参数组确定同源臂、引物结合位点序列和grna主链。在步骤3214,计算设备然后通过连接间隔物、grna主链、pegrna延伸臂(其包括同源臂和编辑模板)来形成所得pegrna序列。此外,延伸臂可以包括终止子信号,该终止子信号是触发逆转录终止的序列。此类终止子序列可以包括,例如,ttitttgtttt(seqidno:1361581)。在一些实施方案中,可以认为pegrna延伸臂包含终止信号。在其他实施方案中,pegrna延伸臂可被认为排除终止信号,但其中延伸臂作为位于延伸臂外部的元件附接到终止信号。[0421]方法3200进行到步骤3216,并且计算设备确定是否存在更多参数组。如果是,则该方法进行到步骤3210并且计算设备选择另一组参数。如果否,则该方法进行到步骤3218并且计算设备确定是否存在更多前间隔区。如果是,则该方法返回到步骤3204并且计算设备从前间隔区组中选择另一前间隔区。如果否,则该方法进行到步骤3220并结束。[0422]如本文所述,延伸的dna合成模板(例如,rt模板序列)包括将输入等位基因改变为输出等位基因的所需核苷酸变化,并且包括rt编辑模板(例如,在步骤3206中确定的)和同源性臂(例如,在步骤3212确定的)。还如本文所述,dna合成模板(例如,rt模板序列)编码与切口位点相邻的内源dna序列互补的单链dnaflap。单链dnaflap包含所需的核苷酸变化(例如,单个核苷酸变化、一个或多个核苷酸插入、一个或多个核苷酸缺失等)。在一些碱基编辑部署中,单链dnaflap可以与邻近切口位点的内源dna序列杂交,以安装所需的核苷酸变化。在一些碱基编辑部署中,单链dnaflap取代了与切口位点相邻的内源dna序列。单链dnaflap的细胞修复可导致安装所需的核苷酸变化以形成所需的输出等位基因产物。dna合成模板(例如,rt模板序列)可以具有可变数量的核苷酸,并且可以在大约7个核苷酸到34个核苷酸的范围内。[0423]虽然图32中未显示,计算设备可以被配置为确定延伸grna的其他组件。例如,在一些实施方案中,计算设备被配置为确定与rt模板相邻的rt终止信号。在一些实施方案中,计算设备可以被配置为确定与rt终止信号相邻的第一修饰。在一些实施方案中,计算设备被配置为确定与引物结合位点相邻的第二修饰。[0424]延伸的grna组件可以以不同的结构排列,诸如图3a-3b和图27-28中所示的那些。例如,参考图3a,延伸位于延伸的grna结构的5’末端,间隔区位于延伸的3’且位于grna核心的5’。作为另一个实例,参考图3b,间隔区位于延伸的grna结构的5’端(并且位于grna核心的5’),并且延伸位于延伸的grna结构的3’端(并且位于grna核心的3’)。[0425]在一些实施方案中,计算设备访问包括一组输入等位基因和相关联的输出等位基因的数据库。例如,计算设备可以访问由clinvar提供的数据库,该数据库包括数十万个突变,每个突变包括代表致病突变的等位基因和代表校正的野生型序列的等位基因。该技术可用于确定每个数据库条目的一个或多个延伸的grna结构。图33是显示根据一些实施方案,用于确定数据库中每个突变条目的延伸grna结构组的示例性计算机化方法3300的流程图。在步骤3302,计算设备访问包括一组突变条目的数据库(例如,clinvar数据库),每个突变条目包括代表突变的输入等位基因和代表校正的野生型序列的输出等位基因。[0426]在步骤3304,计算设备访问一组一个或多个融合蛋白。在一些实施方案中,该技术可以包括针对单个融合蛋白和/或不同融合蛋白的组合(例如,针对不同的cas9蛋白)生成延伸的grna结构组。计算设备可以被配置为访问指示多种融合蛋白的数据,并且可以为如本文所述的每个融合蛋白(例如,cas9-ng蛋白和spcas9蛋白)创建一组延伸的grna结构。[0427]在步骤3306,计算设备从融合蛋白组中选择融合蛋白。在步骤3308,计算设备从数据库中的条目组中选择突变条目。计算设备可以被配置为例如循环访问数据库中的每个条目并为该条目创建一组延伸的grna结构(例如,一组用于特定融合蛋白,和/或多组用于多个融合蛋白中的每一个)。在一些实施方案中,计算设备可以被配置为生成数据库中条目亚组的延伸grna结构,诸如预先配置的组、具有最高显著性的一组突变(例如,具有已知治疗益处的那些)等。在一些实施方案中,如果数据库包括与用于引导编辑的一些融合蛋白不兼容的条目,则计算设备可以被配置为使用从步骤3304中选择的融合蛋白确定数据库中的哪些条目用于引导编辑是兼容的,并且选择与步骤3308中所选融合蛋白兼容的条目。[0428]在步骤3310,使用本文描述的技术,计算设备确定一组一个或多个延伸的grna结构。该方法从步骤3310进行到步骤3312,并且计算设备确定数据库中是否存在额外的条目。如果是,则计算设备返回到步骤3308并选择另一个条目。如果否,则计算设备进行到步骤3314并确定是否存在更多融合蛋白。如果是,则计算设备返回到步骤3306并选择另一个融合蛋白。如果否,则计算设备进行到步骤3316并结束方法3300。[0429]在一些实施方案中,该技术可以设计具有含有非互补序列的grna延伸的pegrna,诸如为同源臂的5’、引物结合位点的3’或两者的非互补序列。例如,可以设计非互补序列以形成吻合环相互作用,充当用于rna稳定性的保护发夹等。[0430]在一些实施方案中,可以使用在多个设计候选者中优先考虑的策略来设计pegrna。例如,这些技术可以设计为避免pegrna延伸,其中最5’端的核苷酸是胞嘧啶(例如,由于中断了sgrna:cas9复合物中的天然核苷酸-蛋白质相互作用)。作为另一个实例,这些技术可以使用rna二级结构预测工具基于延伸的grna的其他参数(诸如前间隔区、所需的编辑等)来选择优选的pbs长度、flap长度等。[0431]本文描述的用于确定延伸的grna结构的计算机化技术的示例性实施如下:[0432][0433][0434][0435][0436][0437][0438]使用本文描述的技术,利用输入等位基因和相应的输出等位基因的clinvar数据库,生成随此提交的示例性序列表。clinvar数据库中的条目首先被过滤为注释为致病性或可能致病性的种系突变。对于这些示例,cas9-ng和spcas9用于鉴定兼容突变。在经过滤的突变中,大约72,020个独特的clinvar突变被确定为与利用cas9-ng的引导编辑兼容,并且大约63,496个独特的clinvar突变被鉴定为与利用nggpam的spcas9的引导编辑兼容。应当理解,如果使用含有具有不同pam兼容性的不同cas9变体的引导编辑器,则其他和/或额外的突变是可校正的。[0439]在各种实施方案中,该算法用于设计seqidno:1-135514和813085-880462的治疗性pegrna,其使用本文公开的算法针对clinvar数据库条目设计。[0440]在各种其他实施方案中,该算法用于使用本文公开的算法针对clinvar数据库设计pegrna,该算法包括在序列表中,其构成本说明书的一部分。序列表包括seqidno:1-135514和813085-880462的完整pegrna序列。这些完整的pegrna中的每一个各自包含间隔区(seqidno:135515-271028和880463-947840)和延伸臂(seqidno:271029-406542和947841-1015218)组成。此外,每个pegrna包含grna核心,例如,如seqidno:1361579-1361580所定义的。seqidno:271029-406542和947841-1015218的延伸臂还各自包含引物结合位点(seqidno:406543-542056和1015219-1082596),编辑模板(seqidno:542057-677570和1082597-1149974),以及同源臂(seqidno:677571-813084和1149975-1217352)。pegrna任选地可以包含5’末端修饰物区和/或3’末端修饰物区。pegrna还可以在pegrna的3’包含逆转录终止信号(例如,seqidno:1361560-1361566)。该应用包含所有这些序列的设计和使用。[0441]使用次等位基因频率、提交者的数量、提交者的解释是否有冲突以及突变是否由专家小组审查,将突变分为临床意义的四类。在63,496个spcas9兼容突变中:4,627个突变被鉴定为最显著水平(4个);13,943个突变被鉴定为显著性水平为3或4;和44,385个突变被鉴定为显著性水平2、3或4。[0442]所提供的序列表列举了每个独特突变的单个pegrna,选择作为切口和编辑之间距离最短的pegrna。pegrna涉及为具有同源臂长度13nt,引物结合位点长度13nt,grna切口位置在17nt,grna长度20nt。具有比编辑远20nt的缺口位点的前间隔区被忽略。使用的grna主链序列是gtttaagagctatgctggaaacagcatagcaagtttaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgc(seqidno:1361579)。使用的终止子序列是ttttttgtttt(seqidno:1361581)。[0443]如本文所述,所提供的示例性序列表不旨在进行限制。应当理解,所提供的pegrna设计的变体可以包括本文所述的变体,包括改变grna主链序列、引物结合位点长度、flap长度等。[0444]可用于执行本文公开的技术和实施方案的任何方面的计算机系统3400的说明性实现在图34中示出。计算机系统3400可以包括一个或多个处理器3410和一个或多个非暂时性计算机可读存储介质(例如,存储器3420和一个或多个非易失性存储介质3430)和显示器3440。处理器3410可以控制以任何合适的方式向存储器3420和非易失性存储设备3430写入数据和从其中读取数据,因为本文描述的本发明的方面在这方面不受限。为了执行本文描述的功能和/或技术,处理器3410可以执行存储在一个或多个计算机可读存储介质(例如,存储器3420、存储介质等)中的一个或多个指令,其可以用作由处理器3410执行指令的非暂时性计算机可读存储介质。[0445]结合本文描述的技术,用于例如确定延伸的grna结构的代码可以存储在计算机系统3400的一个或多个计算机可读存储介质上。处理器3410可以执行任何此类代码以提供任何技术用于计划本文所述的运行。本文描述的任何其他软件、程序或指令也可以由计算机系统3400存储和执行。应当理解,计算机代码可以应用于本文描述的方法和技术的任何方面。例如,可以应用计算机代码与操作系统交互,以通过常规操作系统进程确定延伸的grna结构。[0446]本文概述的各种方法或过程可被编程为可在采用多种操作系统或平台中的任一种的一个或多个处理器上执行的软件。此外,此类软件可以使用多种合适的编程语言和/或编程或脚本工具中的任一种来编写,并且还可以编译为在虚拟机或合适的框架上执行的可执行机器语言代码或中间代码。[0447]在这方面,各种发明构思可以体现为至少一种非暂时性计算机可读存储介质(例如,计算机存储器、一个或多个软盘、光盘(compactdiscs)、光盘(opticaldiscs)、磁带、闪存、现场可编程门阵列(fieldprogrammablegatearray)或其他半导体器件中的电路排布等)用一个或多个程序编码,当在一个或多个计算机或其他处理器上执行时,实现本发明的各种实施方案。非暂时性计算机可读介质(medium)或媒介(media)可以是可移动的,使得存储在其上的一个或多个程序可以加载到任何计算机资源上以实现如上所述的本发明的各个方面。[0448]术语″程序″、″软件″和/或″应用程序″在本文中以一般意义使用以指代任何类型的计算机代码或计算机可执行指令集,其可用于对计算机或其他处理器编程来实现上述实施方案的各个方面。此外,应当理解,根据一方面,当执行本发明的方法时,一个或多个计算机程序不需要驻留在单个计算机或处理器上,而是可以以模块化方式分布在不同的计算机或处理器之间以实施本发明的各个方面。[0449]计算机可执行指令可以是由一台或多台计算机或其他设备执行的多种形式,例如程序模块。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常,程序模块的功能可以根据需要在各种实施方案中组合或分布。[0450]此外,数据结构可以以任何合适的形式存储在非暂时性计算机可读存储介质中。数据结构可能具有通过数据结构中的位置相关的字段。此类关系同样可以通过为字段分配存储空间来实现,该存储具有在非暂时性计算机可读介质中传达字段之间的关系的位置。然而,可以使用任何合适的机制来在数据结构的字段中的信息之间建立关系,包括通过使用指针、标签或在数据元素之间建立关系的其他机制。[0451]各种发明构思可以体现为一种或多种方法,已经提供了这些方法的示例。执行方法的一部分的动作可以以任何合适的方式排序。因此,实施方案可以被构建为以不同于所示出的顺序执行动作,这可以包括同时执行一些动作,即使在说明性实施方案中被示为顺序动作。[0452]iii.利用治疗性pegrna用于引导编辑器[0453]当与引导编辑器复合时,根据本文公开的算法设计的治疗性pegrna可用于进行引导编辑。引导编辑器包含与聚合酶(例如逆转录酶)(或以反式提供的)融合的napdnabp,任选地其中两个结构域通过接头连接并且进一步可包含一个或多个nls。这些方面进一步描述如下。[0454]a.napdnabp[0455]本文所述的引导编辑器可包含核酸可编程dna结合蛋白(napdnabp)。[0456]在一方面,napdnabp可以与至少一种向导核酸(例如,向导rna或pegrna)相关联或复合,其将nadnabp定位于包含dna链的dna序列(即,靶链),其与向导核酸或其一部分(例如,与dna靶的前间隔区重组的向导rna的间隔区)互补。换句话说,向导核酸″编程″napdnabp(例如,cas9或等同物)以定位并结合dna中前间隔区的互补序列。[0457]任何合适的napdnabp都可以用于本文描述的引导编辑器中。在各种实施方案中,napdnabp可以是任何2类crispr-cas系统,包括任何ii型、v型或vi型crispr-cas酶。鉴于crispr-cas作为基因组编辑工具的快速发展,用于描述和/或鉴定crispr-cas酶的命名法不断发展,例如cas9和cas9直向同源物。本技术引用了crispr-cas酶,其命名法可能是旧的和/或新的。技术人员将能够基于所使用的命名法,无论它是旧的(即″遗留的″)或新的命名法来鉴定在本技术中引用的特定的crispr-cas酶。crispr-cas命名法在makarovaetal.,“classificationandnomenclatureofcrispr-cassystems:wherefromhere?,”thecrisprjournal,vol.1.no.5,2018中进行了广泛讨论,其全部内容通过引用并入本文。在本技术的任何给定实例中使用的特定crispr-cas命名法不以任何方式进行限制,并且技术人员将能够确定所引用的是哪种crispr-cas酶。[0458]例如,以下ii型、v型和vi型2类crispr-cas酶具有以下本领域公认的旧的(即,遗留的)和新的名称。这些酶中的每一种,和/或其变体,可以与本文描述的引导编辑器一起使用:[0459][0460]*参见makarovaetal.,thecrisprjournal,vol.1,no.5,2018.[0461]不受理论束缚,本文涵盖的某些nadnabp的作用机制包括形成r-环的步骤,由此napdnabp诱导双链dna靶的解旋,从而分离由napdnabp结合的区域中的链。然后,向导rna间隔区与前间隔区序列处的″靶链″杂交。这取代了与靶链互补的“非靶链”,形成了r环的单链区域。在一些实施方案中,napdnabp包括一种或多种核酸酶活性,其然后切割dna留下各种类型的损伤。例如,napdnabp可以包含在第一位置切割非靶链和/或在第二位置切割靶链的核酸酶活性。根据核酸酶活性,可以切割靶dna以形成″双链断裂″,从而切割两条链。在其他实施方案中,靶dna可以仅在单个位点被切割,即dna在一条链上是“带切口的”。具有不同核酸酶活性的示例性napdnabp包括″cas9切口酶″(″ncas9″)和没有核酸酶活性的失活cas9(″死亡cas9″或″dcas9″)。[0462]可与目前公开的引导编辑器结合使用的各种napdnabp的以下描述并不意味着以任何方式进行限制。引导编辑器可以包括规范的spcas9,或任何直系同源cas9蛋白,或任何变体cas9蛋白——包括任何天然存在的cas9变体、突变体或其他工程化改造版本——已知的或可以通过定向进化制造或进化或其他诱变过程。在各种实施方案中,cas9或cas9变体具有切口酶活性,即仅切割靶dna序列的链。在其他实施方案中,cas9或cas9变体具有无活性的核酸酶,即″死亡″cas9蛋白。可以使用的其他变体cas9蛋白是具有比规范spcas9更小的分子量(例如,为了更容易递送)或具有经修饰或重排的一级氨基酸结构(例如,循环排列形式)的那些。[0463]本文所述的引导编辑器还可以包含cas9等同物,包括cas12a(cpf1)和cas12b1蛋白,它们是趋同进化的结果。本文使用的napdnabp(例如,spcas9、cas9变体或cas9等同物)还可以含有改变/增强其pam特异性的各种修饰。最后,本技术涵盖了与参考cas9序列具有至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.9%的序列同一性的任何cas9、cas9变体或cas9等同物,诸如参考spcas9规范序列或参考cas9等同物(例如,cas12a(cpf1))。[0464]napdnabp可以是crispr(成簇的规则间隔短回文重复序列)相关的核酸酶。如上所述,crispr是适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。crispr簇含有间隔区、与先前移动元件互补的序列和靶入侵核酸。crispr簇被转录并加工成crisprrna(crrna)。在ii型crispr系统中,正确处理pre-crrna需要转编码的小rna(tracrrna)、内源性核糖核酸酶3(rnc)和cas9蛋白。tracrrna作为核糖核酸酶3辅助加工pre-crrna的向导。随后,cas9/crrna/tracrrna核酸内切切割与间隔区互补的线性或环状dsdna靶。与crrna不互补的靶链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3’‑5’。在自然界中,dna结合和切割通常需要蛋白质和两种rna。然而,可以对单向导rna(″sgrna″,或简称为″grna″)进行工程改造,以便将crrna和tracrrna的各个方面整合到单个rna种类中。参见,例如,jinekm.etal.,science337:816-821(2012),其全部内容通过引用并入本文。[0465]在一些实施方案中,napdnabp指导在靶序列的位置,例如在靶序列内和/或在靶序列的互补序列内切割一条或两条链。在一些实施方案中,napdnabp指导切割来自靶序列的第一个或最后一个核苷酸的约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多个碱基对的的一条或两条链。在一些实施方案中,载体编码napdnabp,其相对于相应的野生型酶发生突变,使得经突变的napdnabp缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。例如,来自化脓性链球菌的cas9的ruvci催化结构域中的天冬氨酸到丙氨酸取代(d10a)将cas9从切割两条链的核酸酶转化为切口酶(切割单链)。使cas9成为切口酶的其他突变实例包括但不限于h840a、n854a和n863a,参考规范spcas9序列或其他cas9变体或cas9等同物中的等同氨基酸位置。[0466]如本文所用,术语″cas蛋白″是指从自然界获得的全长cas蛋白,具有与天然存在的cas蛋白不同的序列的重组cas蛋白,或保留了所公开的方法所需的全部或大量必需的基本功能(即,(i)拥有cas蛋白与靶dna的核酸可编程结合,和(ii)在一条链上切割靶dna序列的能力)的cas蛋白的任何片段。本文涵盖的cas蛋白包括crisprcas9蛋白,以及cas9等同物、变体(例如,cas9切口酶(ncas9)或核酸酶失活的cas9(dcas9))同源物、直向同源物或旁系同源物,无论是天然存在的还是非天然存在的(例如,经工程化改造的或重组的),并且可以包括来自任何2类crispr系统的cas9等同物(例如ii、v、vi型),包括cas12a(cpf1)、cas12e(casx)、cas12b1(c2c1)、cas12b2、cas12c(c2c3)、c2c4、c2c8、c2c5、c2c10、c2c9cas13a(c2c2)、cas13d、cas13c(c2c7)、cas13b(c2c6)和cas13b。进一步的cas等同物描述于makarovaetal.,“c2c2isasingle-componentprogrammablerna-guidedrna-targetingcrispreffector,”science2016;353(6299)andmakarovaetal.,“classificationandnomenclatureofcrispr-cassystems:wherefromhere?,”thecrisprjournal,vol.1.no.5,2018,其全部内容通过引用并入本文。[0467]术语″cas9″或″cas9核酸酶″或″cas9部分″”或″cas9结构域″包括来自任何生物体的任何天然存在的cas9、其任何天然存在的cas9等同物或功能片段、来自任何生物体的任何cas9同源物、直向同源物或旁系同源物,以及天然存在的或工程化改造的cas9的任何突变体或变体。术语cas9并不旨在特别限制并且可以称为″cas9或等同物″。示例性cas9蛋白在本文中进一步描述和/或在本领域中描述并且通过引用并入本文。本公开对于在本发明的引导编辑器(pe)中采用的特定cas9是不受限制的。[0468]如本文所述,cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,例如,“completegenomesequenceofanm1strainofstreptococcuspyogenes.”ferrettietal.,j.j.,mcshanw.m.,ajdicd.j.,savicd.j.,savicg.,lyonk.,primeauxc.,sezates.,suvorova.n.,kentons.,laih.s.,lins.p.,qiany.,jiah.g.,najarf.z.,renq.,zhuh.,songl.,whitej.,yuanx.,cliftons.w.,roeb.a.,mclaughlinr.e.,proc.natl.acad.sci.u.s.a.98:4658-4663(2001);“crisprrnamaturationbytrans-encodedsmallrnaandhostfactorrnaseiii.”deltchevae.,chylinskik.,sharmac.m.,gonzalesk.,chaoy.,pirzadaz.a.,eckertm.r.,vogelj.,charpentiere.,nature471:602-607(2011);and“aprogrammabledual-rna-guideddnaendonucleaseinadaptivebacterialimmunity.”jinekm.,chylinskik.,fonfarai.,hauerm.,doudnaj.a.,charpentiere.science337:816-821(2012),其全部内容通过引用并入本文)。[0469]cas9和cas9等同物的实例提供如下;然而,这些具体示例并不旨在限制。本公开的引导编辑器可以使用任何合适的napdnabp,包括任何合适的cas9或cas9等同物。[0470](i)野生型规范spcas9[0471]在一个实施方案中,本文所述的引导编辑器构建体可包含来自化脓链球菌的″规范spcas9″核酸酶,其已被广泛用作基因组工程的工具并被归类为2类crispr-cas系统的ii型亚组酶。这种cas9蛋白是大的多结构域蛋白,其含有两个不同的核酸酶结构域。可以将点突变引入cas9以消除一种或两种核酸酶活性,分别导致切口酶cas9(ncas9)或死亡cas9(dcas9),但它们仍保留其以sgrna编程方式结合dna的能力。原则上,当与另一种蛋白质或结构域融合时,cas9或其变体(例如ncas9)可以通过与适当的sgrna共表达将该蛋白质靶向几乎任何dna序列。如本文所用,规范的spcas9蛋白是指来自化脓性链球菌的具有以下氨基酸序列的野生型蛋白:[0472][0473][0474][0475]本文所述的引导编辑器可包括与上面提供的野生型cas9具有至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的规范spcas9或其任何变体。这些变体可包括含有一个或多个突变的spcas9变体,包括利用swissprot登录号q99zw2条目报告的任何已知突变,其中包括:[0476][0477][0478]可用于本公开的其他野生型spcas9序列包括:[0479][0480][0481][0482]本文所述的引导编辑器可包括任何上述spcas9序列,或其中具有至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的任何变体。[0483](ii)野生型cas9直向同源物[0484]在其他实施方案中,cas9蛋白可以是来自不同于来自化脓链球菌的规范cas9的另一种细菌物种的野生型cas9直向同源物。例如,以下cas9直向同源物可与本说明书中描述的引导编辑器构建体结合使用。此外,与任何以下直向同源物具有至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的任何变体cas9直向同源物也可以与本引导编辑器一起使用。[0485][0486][0487][0488][0489]本文所述的引导编辑器可包括任何上述cas9直向同源序列,或具有其中至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的其任何变体。[0490]napdnabp可以包括任何合适的同源物和/或直向同源物或天然存在的酶,诸如cas9。cas9同源物和/或直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。优选地,cas部分被配置(例如,诱变、重组工程化改造或以其他方式从自然界获得)为切口酶,即,能够仅切割靶单链的双重合适的cas9核酸酶且基于本公开的本领域技术人员来说序列是显而易见的,此类cas9核酸酶和序列包括来自chylinski、rhun和charpentier,″thetracrrnaandcas9familiesoftypeiicrispr-casimmunitysystems”(2013)rnabiology10:5,726-737中公开的生物体和基因座的cas9序列;其全部内容通过引用并入本文。在一些实施方案中,cas9核酸酶具有无活性(例如,失活的)dna切割结构域,即cas9是切口酶。在一些实施方案中,cas9蛋白包含与表3的任一变体提供的cas9蛋白的氨基酸序列至少80%相同的氨基酸序列。在一些实施方案中,cas9蛋白包含与上表中任一cas9直向同源物提供的cas9蛋白的氨基酸序列至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。[0491](iii)死亡cas9变体[0492]在一些实施方案中,本文所述的引导编辑器可以包括死亡cas9,例如死亡spcas9,由于使cas9的两个核酸酶结构域(即ruvc结构域(其切割非前间隔区dna链)和hnh结构域(其切割前间隔区dna链))失活的一个或多个突变,其不具有核酸酶活性。核酸酶失活可能是由于一个或多个突变导致编码的蛋白质或具有其中至少80%、至少85%、至少90%、至少95%或至少99%的序列同一性的其任何变体的氨基酸序列中的一个或多个取代和/或缺失。[0493]如本文所用,术语″dcas9″是指核酸酶失活的cas9或核酸酶死亡的cas9,或其功能片段,其包括来自任何生物体的任何天然存在的dcas9、任何天然存在的dcas9等同物或其功能片段、来自任何生物体的任何dcas9同系物、直向同源物或旁系同源物(paralog),以及天然存在的或工程化改造的dcas9的任何突变体或变体。术语dcas9并不意味着特别限制并且可以称为″dcas9或等同物″。示例性的dcas9蛋白和用于制备dcas9蛋白的方法在本文中进一步描述和/或在本领域中描述并且通过引用并入本文。[0494]在其他实施方案中,dcas9对应于或部分或全部包含具有一个或多个使cas9核酸酶活性失活的突变的cas9氨基酸序列。在其他实施方案中,提供了具有除d10a和h840a之外的突变的cas9变体,其可导致内源性cas9核酸酶活性(例如,分别为ncas9或dcas9)的完全或部分失活。例如,参考野生型序列,诸如来自化脓性链球菌的cas9(ncbi参考序列:nc_017053.1(seqidno:1361424)),此类突变包括在d10和h820处的其他氨基酸取代,或cas9核酸酶结构域内的其他取代(例如,hnh核酸酶亚结构域和/或ruvc1亚结构域中的取代)。在一些实施方案中,提供cas9的变体或同源物(例如,来自化脓性链球菌cas9变体(ncbi参考序列:nc_017053.1(seqidno:1361424))),其与ncbi参考序列:nc_017053.1(seqidno:1361424)至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供dcas9的变体(例如,ncbi参考序列:nc_017053.1(seqidno:1361424)的变体),其具有比nc_017053.1(seqidno:1361424)约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多的更短或更长的氨基酸序列。[0495]在一个实施方案中,死亡cas9可以基于q99zw2的规范spcas9序列并且可以具有以下序列,其包含d10a和h810a取代(下划线和粗体),或具有其中至少80%、至少85%、至少90%、至少95%或至少99%的序列同一性的seqidno:1361444的变体:[0496][0497](iv)cas9切口酶变体[0498]在一个实施方案中,本文所述的引导编辑器包含cas9切口酶。术语″cas9切口酶″、″ncas9″是指能够在双链dna分子靶中引入单链断裂的cas9变体。在一些实施方案中,cas9切口酶仅包含单个功能性核酸酶结构域。野生型cas9(例如,规范的spcas9)包含两个独立的核酸酶结构域,即ruvc结构域(其切割非前间隔序列dna链)和hnh结构域(其切割前间隔序列dna链)。在一个实施方案中,cas9切口酶在ruvc结构域中包含使ruvc核酸酶活性失活的突变。例如,天冬氨酸(d)10、组氨酸(h)983、天冬氨酸(d)986或谷氨酸(e)762中的突变已被报道为ruvc核酸酶结构域和功能性cas9切口酶的产生的功能丧失突变(例如,nishimasuetal.,“crystalstructureofcas9incomplexwithguidernaandtargetdna,”cell156(5),935-949,通过引用并入本文)。因此,ruvc结构域中的切口酶突变可包括d10x、h983x、d986x或e762x,其中x是除野生型氨基酸之外的任意氨基酸。在一些实施方案中,切口酶可以是d10a、h983a、或d986a、或e762a、或其组合。[0499]在各种实施方案中,cas9切口酶可在ruvc核酸酶结构域中具有突变并具有以下氨基酸序列之一,或具有其中至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的氨基酸序列的其变体。[0500][0501][0502][0503]在另一个实施方案中,cas9切口酶在hnh结构域中包含使hnh核酸酶活性失活的突变。例如,组氨酸(h)840或天冬酰胺(r)863中的突变已被报道为hnh核酸酶结构域和功能性cas9切口酶的产生的功能丧失突变(例如,nishimasuetal.,“crystalstructureofcas9incomplexwithguidernaandtargetdna,”cell156(5),935-949,通过引用并入本文)。因此,hnh结构域中的切口酶突变可包括h840x和r863x,其中x是除野生型氨基酸之外的任意氨基酸。在一些实施方案中,切口酶可以是h840a或r863a,或其组合。[0504]在各种实施方案中,cas9切口酶可在hnh核酸酶结构域中具有突变并具有以下氨基酸序列之一,或具有其中至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的氨基酸序列的其变体。[0505][0506][0507](v)其他cas9变体[0508]除了死亡cas9和cas9切口酶变体,本文使用的cas9蛋白还可以包括与任意参考cas9蛋白具有至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同的其他″cas9变体″,所述参考cas9蛋白包括任意野生型cas9,或突变cas9(例如,死亡cas9或cas9切口酶),或cas9片段,或循环排列cas9,或本文公开或本领域已知的cas9的其他变体。在一些实施方案中,cas9变体与参考cas9相比可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸变化。在一些实施方案中,cas9变体包含参考cas9的片段(例如,grna结合结构域或dna切割结构域),使得该片段与野生型cas9的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,该片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%的对应野生型cas9(例如,seqidno:1361421)的氨基酸长度。[0509]在一些实施方案中,本公开还可以利用保留其功能性并且是本文公开的任意cas9蛋白的片段的cas9片段。在一些实施方案中,cas9片段的长度为至少100个氨基酸。在一些实施方案中,该片段是至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或至少1300个氨基酸的长度。[0510]在各种实施方案中,本文公开的引导编辑器可包含如下所述的cas9变体之一,或与任意参考cas9变体具有至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同的其cas9变体。[0511](vi)小型cas9变体[0512]在一些实施方案中,本文涵盖的引导编辑器可包括分子量小于规范spcas9序列的cas9蛋白。在一些实施方案中,较小尺寸的cas9变体可促进递送至细胞,例如通过表达载体、纳米颗粒或其他递送方式。在某些实施方案中,较小尺寸的cas9变体可包括归类为2类crispr-cas系统的ii型酶的酶。在一些实施方案中,较小尺寸的cas9变体可包括归类为2类crispr-cas系统的v型酶的酶。在其他实施方案中,较小尺寸的cas9变体可包括归类为2类crispr-cas系统的vi型酶的酶。[0513]规范的spcas9蛋白的长度为1368个氨基酸并且具有158千道尔顿的预测分子量。如本文所用,术语″小尺寸cas9变体″是指任意cas9变体——天然存在的、经工程化改造的或以其他方式——少于至少1300个氨基酸,或至少少于1290个氨基酸,或少于1280个氨基酸,或少于1270个氨基酸,或少于1260个氨基酸,或少于1250个氨基酸,或少于1240个氨基酸,或少于1230个氨基酸,或少于1220个氨基酸,或少于1210个氨基酸,或少于1200个氨基酸,或少于1190个氨基酸,或少于1180个氨基酸,或少于1170个氨基酸,或少于1160个氨基酸,或少于1150个氨基酸,或少于1140个氨基酸,或少于1130个氨基酸,或少于1120个氨基酸,或少于1110个氨基酸,或少于1100个氨基酸,或少于1050个氨基酸,或少于1000个氨基酸,或少于950个氨基酸氨基酸,或少于900个氨基酸,或少于850个氨基酸,或少于800个氨基酸,或少于750个氨基酸,或少于700个氨基酸,或少于650个氨基酸,或少于600个氨基酸,或少于550个氨基酸,或少于500个氨基酸,但至少大于约400个氨基酸并保留cas9蛋白所需的功能。cas9变体可以包括归类为2类crispr-cas系统的ii型、v型或vi型酶的那些。[0514]在各种实施方案中,本文公开的引导编辑器可包含如下所述的小尺寸cas9变体之一,或与任意参考小尺寸cas9蛋白具有至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%与相同的其cas9变体。[0515][0516][0517](vii)cas9等同物[0518]在一些实施方案中,本文所述的引导编辑器可包括任意cas9等同物。如本文所用,术语″cas9等价物″是一个广义的术语,包括在本引导编辑器中起到与cas9相同功能的任意napdnabp蛋白,尽管其氨基酸一级序列和/或其三维结构可能不同和/或从进化的角度来看无关。因此,虽然cas9等同物包括本文描述或包含的进化相关的任意cas9直系同源物、同源物、突变体或变体,但cas9等价物也包括可能已经通过趋同进化过程进化为具有与cas9相同或相似功能的蛋白质,但是它们不一定在氨基酸序列和/或三维结构方面具有任何相似性。此处描述的引导编辑器包含将提供与cas9相同或相似功能的任意cas9等同物,尽管cas9等同物可能基于通过趋同进化产生的蛋白质。例如,如果cas9是指crispr-cas系统的ii型酶,那么cas9等同物可以指crispr-cas系统的v型或vi型酶。[0519]例如,cas12e(casx)是据报道具有与cas9相同功能但通过趋同进化进化的cas9等价物。因此,liu等人在“casxenzymescomprisesadistinctfamilyofrna-guidedgenomeeditors,”nature,2019,vol.566:218-223中描述的cas12e(casx)蛋白预期与本文所述的引导编辑器一起使用。此外,cas12e(casx)的任意变体或修饰都是可以想到的并且在本公开的范围内。[0520]cas9是在多种物种中进化的细菌酶。然而,本文涵盖的cas9等同物也可以从古细菌获得,其构成不同于细菌的单细胞原核微生物的领域和界。[0521]在一些实施方案中,cas9等同物可指cas12e(casx)或cas12d(casy),其已在例如bursteinetal.,“newcrispr-cassystemsfromuncultivatedmicrobes.”cellres.2017feb21.doi:10.1038/cr.2017.21(其全部内容通过引用并入本文)中描述。使用基因组解析的宏基因组学,确定了许多crispr-cas系统,包括在生命古细菌领域第一次报道的cas9。在很少研究的纳米古细菌中发现了这种不同的cas9蛋白,作为活性crispr-cas系统的一部分。在细菌中,发现了两种以前未知的系统,crispr-cas12e和crispr-cas12d,它们是迄今为止发现的最小型(compact)的系统之一。在一些实施方案中,cas9是指cas12e,或cas12e的变体。在一些实施方案中,cas9是指cas12d或cas12d的变体。应当理解,其他rna引导的dna结合蛋白可以用作核酸可编程dna结合蛋白(napdnabp),并且在本公开的范围内。另参见liuetal.,“casx-enzymescomprisesadistinctfamilyofrna-guidedgenomeeditodrs,”nature,2019,vol.566:218-223。任何这些cas9等同物都被涵盖在内。[0522]在一些实施方案中,cas9等同物包含与天然存在的cas12e(casx)或cas12d(casy)蛋白至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,napdnabp是天然存在的cas12e(casx)或cas12d(casy)蛋白。在一些实施方案中,napdnabp包含与本文提供的野生型cas部分或任意cas部分至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。[0523]在各种实施方案中,核酸可编程dna结合蛋白包括但不限于cas9(例如dcas9和ncas9)、cas12e(casx)、cas12d(casy)、cas12a(cpf1)、cas12b1(c2c1)、cas13a(c2c2)、cas12c(c2c3)、argonaute和cas12b1。具有与cas9不同的pam特异性的核酸可编程dna结合蛋白的一个实例是来自普氏菌属(prevotella)和弗朗西斯氏菌属1(francisella1)的成簇规则间隔短回文重复序列(即cas12a(cpf1))。与cas9类似,cas12a(cpf1)也是2类crispr效应子,但它是酶的v型亚群成员,而不是ii型亚群。已经表明cas12a(cpf1)介导强大的dna干扰,其特征与cas9不同。cas12a(cpf1)是缺乏tracrrna的单一的rna引导的内切核酸酶,它利用富含t的前间隔序列临近基序(ttn、tttn或ytn)。此外,cpf1通过交错的dna双链断裂来切割dna。在16个cpf1家族蛋白中,来自氨基酸球菌属(acidaminococcus)和毛螺菌科(lachnospiraceae)的两种酶显示在人类细胞中具有有效的基因组编辑活性。cpf1蛋白是本领域已知的并且之前已经描述过,例如yamanoetal.,“crystalstructureofcpf1incomplexwithguidernaandtargetdna.”cell(165)2016,p.949-962;其全部内容通过引用并入本文[0524]在其他实施方案中,cas蛋白可以包括任意crispr相关蛋白,包括但不限于cas12a、cas12b1、cas1、cas1b、cas2、cas3、cas4、cas5、cas6、cas7、cas8、cas9(也称为csn1和csx12)、cas10、csy1、csy2、csy3、cse1、cse2、csc1、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmr1、cmr3、cmr4、cmr5、cmr6、csb1、csb2、csb3、csx17、csx14、csx10、csx16、csax、csx3、csx1、csx15、csf1、csf2、csf3、csf4其同源物或其修饰形式,并且优选地包含切口酶突变(例如,对应于seqidno:1361421的野生型cas9多肽的d10a突变的突变)。[0525]在各种其他实施方式中,napdnabp可以是以下蛋白质中的任一种:cas9、cas12a(cpf1)、cas12e(casx)、cas12d(casy)、cas12b1(c2c1)、cas13a(c2c2)、cas12c(c2c3)、geocas9、cjcas9、cas12g、cas12h、cas12i、cas13b、cas13c、cas13d、cas14、csn2、xcas9、spcas9-ng、循环排列的cas9,或argonaute(ago)结构域,或其变体。[0526]示例性的cas9等效蛋白质序列可以包括以下:[0527][0528][0529][0530]本文描述的引导编辑器还可以包含cas12a/cpf1(dcpf1)变体,其可以用作指导核苷酸序列可编程的dna结合蛋白结构域。cas12a/cpf1蛋白具有与cas9的ruvc结构域相似的ruvc样核酸内切酶结构域,但不具有hnh核酸内切酶结构域,cpf1的n端不具有cas9的α-螺旋识别lobe。zetscheetal.,cell,163,759-771,2015(通过引用并入本文)表明,cpf1的ruvc样结构域负责切割两条dna链且ruvc样结构域失活使cpf1核酸酶活性失活。本文所述的引导编辑器还可以包含cas12a(cpf1)(dcpf1)变体,其可以用作指导核苷酸序列可编程的dna结合蛋白结构域。cas12a(cpf1)蛋白具有与cas9的ruvc结构域相似的ruvc样核酸内切酶结构域,但不具有hnh核酸内切酶结构域,cas12a(cpf1)的n端不具有cas9的α-螺旋识别lobe。zetscheetal.,cell,163,759-771,2015(通过引用并入本文)表明,cas12a(cpf1)的ruvc样结构域负责切割两条dna链并且ruvc样结构域失活使cas12a(cpf1)核酸酶活性失活。[0531]在一些实施方案中,napdnabp是微生物crispr-cas系统的单一效应子。微生物crispr-cas系统的单一效应子包括但不限于cas9、cas12a(cpf1)、cas12b1(c2c1)、cas13a(c2c2)和cas12c(c2c3)。通常,微生物crispr-cas系统分为1类和2类系统。1类系统具有多亚基效应复合物,而2类系统具有单个蛋白质效应子。例如,cas9和cas12a(cpf1)是2类效应子。除了cas9和cas12a(cpf1)之外,shmakov等人在“discoveryandfunctionalcharacterizationofdiverseclass2crisprcassystems”,mol.cell,2015nov5;60(3):385-397(其全部内容通过引用并入本文)中已经描述了三个不同的2类crispr-cas系统(cas12b1、cas13a和cas12c)。[0532]两个系统的效应子,cas12b1和cas12c,含有与cas12a相关的ruvc样核酸内切酶结构域。第三个系统cas13a含有具有两个预测hepnrnase结构域的效应子。成熟crisprrna的产生不依赖于tracrrna,这与由cas12b1产生的crisprrna不同。cas12b1依赖crisprrna和tracrrna用于dna切割。细菌cas13a已显示出具有用于crisprrna成熟的独特的rnase活性,不同于其rna激活的单链rna降解活性。这些rnase功能彼此不同,也与cas12a的crisprrna加工行为不同。例如,参见east-seletsky,etal.,“twodistinctrnaseactivitiesofcrispr-cas13aenableguide-rnaprocessingandrnadetection”,nature,2016oct13;538(7624):270-273,其全部内容通过引用并入本文。沙氏纤毛菌(leptotrichiashahii)中cas13a的体外生化分析显示,cas13a由单个crisprrna引导,并且可以编程以切割携带有互补前间隔序列的ssrna靶。两个保守的hepn结构域中的催化残基介导切割。催化残基的突变产生催化失活的rna结合蛋白。参见例如abudayyehetal.,“c2c2isasingle-componentprogrammablerna-guidedrna-targetingcrispreffector”,science,2016aug5;353(6299),其全部内容通过引用并入本文。[0533]已经报道了酸土脂环酸芽孢杆菌(alicyclobaccillusacidoterrastris)cas12b1(aacc2c1)的晶体结构与嵌合单分子向导rna(sgrna)复合。参见例如,liuetal.,“c2c1-sgrnacomplexstructurerevealsrna-guideddnacleavagemechanism”,mol.cell,2017jan19;65(2):310-322,其全部内容通过引用并入本文。在以三元复合物形式与靶dna结合的酸土脂环酸芽孢杆菌c2c1中也报道了晶体结构。参见例如,“pam-dependenttargetdnarecognitionandcleavagebyc2c1crispr-casendonuclease”,cell,2016dec15;167(7):1814-1828,其全部内容通过引用并入本文。aacc2c1的具有催化能力的构象,与靶和非靶dna链,已被独立地捕获在单个ruvc催化口袋内,c2c1介导的切割导致靶dna的七核苷酸交错断裂。c2c1三元复合物与先前确定的cas9和cpf1对应物之间的结构比较证明了crispr-cas9系统使用的机制的多样性。[0534]在一些实施方案中,napdnabp可以是c2c1、c2c2或c2c3蛋白。在一些实施方案中,napdnabp是c2c1蛋白。在一些实施方案中,napdnabp是cas13a蛋白。在一些实施方案中,napdnabp是cas12c蛋白。在一些实施方案中,napdnabp包含与天然存在的cas12b1(c2c1)、cas13a(c2c2)或cas12c(c2c3)蛋白至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,napdnabp是天然存在的cas12b1(c2c1)、cas13a(c2c2)或cas12c(c2c3)蛋白。[0535](viii)cas9循环排列[0536]在各种实施方案中,本文公开的引导编辑器可包含cas9的循环排列。[0537]术语″循环排列的cas9”″或cas9的″循环排列″或″cp-cas9″是指发生或已经被修饰以工程化改造为循环排列变体的任意cas9蛋白或其变体,这意味着cas9蛋白(例如,野生型cas9蛋白)的n端和c端已被局部重排。当与向导rna(grna)复合时,此类循环排列的cas9蛋白或其变体保留了结合dna的能力。参见oakesetal.,“proteinengineeringofcas9forenhancedfunction,”methodsenzymol,2014,546:491-511和oakesetal.,“crispr-cas9circularpermutantsasprogrammablescaffoldsforgenomemodification,”cell,january10,2019,176:254-267,每个都通过引用并入本文。本公开涵盖任何先前已知的cp-cas9或使用新的cp-cas9,只要所得循环排列的蛋白质在与向导rna(grna)复合时保留结合dna的能力。[0538]本文所述的任意cas9蛋白,包括任意变体、直向同源物、或天然存在的cas9或其等价物,都可以被重新配置为循环排列变体。[0539]在各种实施方案中,cas9的循环排列可以具有以下结构:[0540]n端-[原始c端]-[任选接头]-[原始n端]-c端。[0541]作为一个实例,本公开涵盖规范化脓性链球菌cas9的以下循环排列(uniprotkb-q99zw2(cas9_strp1)的1368个氨基酸)(编号基于seqidno:1361421中的氨基酸位置):[0542]n端-[1268-1368]-[任选接头]-[1-1267]-c端;[0543]n端-[1168-1368]-[任选接头]-[1-1167]-c端;[0544]n端-[1068-1368]-[任选接头]-[1-1067]-c端;[0545]n端-[968-1368]-[任选接头]-[1-967]-c端;[0546]n端-[868-1368]-[任选接头]-[1-867]-c端;[0547]n端-[768-1368]-[任选接头]-[1-767]-c端;[0548]n端-[668-1368]-[任选接头]-[1-667]-c端;[0549]n端-[568-1368]-[任选接头]-[1-567]-c端;[0550]n端-[468-1368]-[任选接头]-[1-467]-c端;[0551]n端-[368-1368]-[任选接头]-[1-367]-c端;[0552]n端-[268-1368]-[任选接头]-[1-267]-c端;[0553]n端-[168-1368]-[任选接头]-[1-167]-c端;[0554]n端-[68-1368]-[任选接头]-[1-67]-c端;或者[0555]n端-[10-1368]-[任选接头]-[1-9]-c端,或其他cas9蛋白(包括其他cas9直向同源物、变体等)的相应循环排列。[0556]在特定实施方案中,循环排列cas9具有以下结构(基于化脓性链球菌cas9(uniprotkb-q99zw2(cas9_strp1的1368个氨基酸)(编号基于seqidno:1361421中的氨基酸位置):[0557]n端-[102-1368]-[任选接头]-[1-101]-c端;[0558]n端-[1028-1368]-[任选接头]-[1-1027]-c端;[0559]n端-[1041-1368]-[任选接头]-[1-1043]-c端;[0560]n端-[1249-1368]-[任选接头]-[1-1248]-c端;或者[0561]n端-[1300-1368]-[任选接头]-[1-1299]-c端,或其他cas9蛋白(包括其他cas9直向同源物、变体等)的相应循环排列。[0562]在其他实施方案中,循环排列cas9具有以下结构(基于化脓性链球菌cas9(uniprotkb-q99zw2(cas9_strp1的1368个氨基酸)(编号基于seqidno:1361421中的氨基酸位置):[0563]n端-[103-1368]-[任选接头]-[1-102]-c端;[0564]n端-[1029-1368]-[任选接头]-[1-1028]-c端;[0565]n端-[1042-1368]-[任选接头]-[1-1041]-c端;[0566]n端-[1250-1368]-[任选接头]-[1-1249]-c端;或者[0567]n端-[1301-1368]-[任选接头]-[1-1300]-c端,或其他cas9蛋白(包括其他cas9直向同源物、变体等)的相应循环排列。[0568]在一些实施方案中,循环排列可以通过将cas9的c端片段直接或通过使用接头(例如氨基酸接头)连接至cas9的n端片段来形成。在一些实施方案中,c端片段可以对应于cas9的c端95%或更多氨基酸(例如,约1300-1368个氨基酸),或cas9的c端90%、85%、80%、75%、70%、65%、60%、55%、50%、45%、40%、35%、30%、25%、20%、15%、10%或5%或更多(例如,seqidno:1361421-1361484和1361593-1361596中的任意一个)。n端部分可以对应于cas9(例如,seqidno:1361421)的n端95%或更多氨基酸(例如,约1-1300个氨基酸),或n端90%、85%、80%、75%、70%、65%、60%、55%、50%、45%、40%、35%、30%、25%、20%、15%、10%或5%或更多。[0569]在一些实施方案中,循环排列可以通过将cas9的c端片段直接或通过使用接头(例如氨基酸接头)连接至cas9的n端片段来形成。在一些实施方案中,重排至n端的c端片段包括或对应于cas9的c端30%或更少的氨基酸(例如,seqidno:1361421的氨基酸1012-1368)。在一些实施方案中,重排至n端的c端片段包括或对应于cas9(例如,seqidno:1361421的cas9)的c端30%、29%、28%、27%、26%、25%、24%、23%、22%、21%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%或1%的氨基酸。在一些实施方案中,重排至n端的c端片段包括或对应于cas9(例如,seqidno:1361421的cas9)的c端410个残基或更少。在一些实施例中,重排至n端的c端部分包括或对应于cas9(例如,seqidno:1361421的cas9)的c端410、400、390、380、370、360、350、340、330、320、310、300、290、280、270、260、250、240、230、220、210、200、190、180、170、160、150、140、130、120、110、100、90、80、70、60、50、40、30、20或10个残基。在一些实施方案中,重排至n端的c端部分包括或对应于cas9(例如,seqidno:1361421的cas9)的c端357、341、328、120或69个残基。[0570]在其他实施方案中,循环排列cas9变体可定义为基于以下方法的cas9一级结构的拓扑重排,其基于seqidno:1361421的化脓性链球菌cas9:(a)选择对应于cas9一级结构的内部氨基酸残基的循环排列(cp)位点,其将原始蛋白质分为两半:n端区域和c端区域;(b)通过将原始c端区域(包含cp位点氨基酸)移动到原始n端区域之前来修饰cas9蛋白序列(例如,通过基因工程技术),从而形成现在以cp位点氨基酸残基开始的cas9蛋白的新的n端。cp位点可以位于cas9蛋白的任何结构域中,包括例如螺旋-ii结构域、ruvciii结构域或ctd结构域。例如,cp位点可以位于(相对于seqidno:1361421的化脓链球菌cas9)原始氨基酸残基181、199、230、270、310、1010、1016、1023、1029、1047、1247、1249或1282。因此,一旦重新定位到n末端,原始氨基酸181、199、230、270、310、1010、1016、1023、1029、1041、1247、1249或1282将成为新的n-末端氨基酸。这些cp-cas9蛋白的命名法可分别称为cas9-cp181、cas9-cp199、cas9-cp230、cas9-cp270、cas9-cp310、cas9-cp1010、cas9-cp1016、cas9-cp1023、cas9-cp1029、cas9-cp1041、cas9-cp1247、cas9-cp1249和cas9-cp1282。该描述并不意味着限于从seqidno:1361421制备cp变体,而是可以实施在任何cas9序列中制备cp变体,无论是在对应于这些位置的cp位点,还是完全在其他cp位点。此描述并非旨在以任何方式限制特定cp位点。几乎任何cp位点都可用于形成cp-cas9变体。[0571]下面提供了基于seqidno:1361421的cas9的示例性cp-cas9氨基酸序列,其中接头序列用下划线表示并且任选的甲硫氨酸(m)残基用粗体表示。应当理解,本公开提供了不包括接头序列或包括不同接头序列的cp-cas9序列。应当理解,cp-cas9序列可以基于除seqidno:1361421之外的cas9序列并且本文提供的任何示例不旨在限制。[0572][0573][0574][0575]可用于本文描述的引导编辑构建体中的cas9循环排列(circularpermutant)。下文提供了cas9的示例性c末端片段,基于seqidno:1361421的cas9,其可重排至cas9的n末端。应当理解,cas9的此类c末端片段是示例性的而不是限制性的。[0576][0577][0578](ix)具有经修饰的pam特异性的cas9变体[0579]本公开的引导编辑器还可以包含具有修饰的pam特异性的cas9变体。本公开的一些方面提供了对靶序列表现出活性的cas9蛋白,该靶序列在其3’‑末端不包含规范的pam(5’‑ngg-3’,其中n是a、c、g或t)。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑ngg-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑nng-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑nna-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑nnc-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑nnt-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑ngt-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑nga-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑ngc-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑naa-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑nac-3’pam序列的靶序列表现出活性。在一些实施方案中,cas9蛋白针对在其3’末端包含5’‑nat-3’pam序列的靶序列表现出活性。[0580]在其他实施方案中,cas9蛋白针对在其3’末端包含5’‑nag-3’pam序列的靶序列表现出活性。[0581]应当理解,本文所述的任何氨基酸突变(例如,a262t)从第一个氨基酸残基(例如,a)到第二个氨基酸残基(例如,t)也可以包括从第一个氨基酸残基的突变残基至与第二个氨基酸残基相似(例如,保守的)的氨基酸残基。例如,具有疏水侧链的氨基酸的突变(例如丙氨酸、缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、酪氨酸或色氨酸)可以是具有不同疏水侧链的第二个氨基酸的突变(例如,丙氨酸、缬氨酸、异亮氨酸、亮氨酸、甲硫氨酸、苯丙氨酸、酪氨酸或色氨酸)。例如,丙氨酸突变为苏氨酸(例如,a262t突变)也可以是从丙氨酸突变为在大小和化学性质上与苏氨酸相似的氨基酸(例如丝氨酸)。作为另一个实例,具有带正电荷的侧链的氨基酸突变(例如精氨酸、组氨酸或赖氨酸)可以是具有不同的带正电荷的侧链的第二个氨基酸的突变(例如精氨酸、组氨酸或赖氨酸)。作为另一个实例,具有极性侧链的氨基酸的突变(例如,丝氨酸、苏氨酸、天冬酰胺或谷氨酰胺)可以是具有不同极性侧链的第二个氨基酸的突变(例如,丝氨酸、苏氨酸、天冬酰胺、或谷氨酰胺)。其他类似的氨基酸对包括但不限于以下:苯丙氨酸和酪氨酸;天冬酰胺和谷氨酰胺;蛋氨酸和半胱氨酸;天冬氨酸和谷氨酸;以及精氨酸和赖氨酸。技术人员会认识到,此类保守的氨基酸取代将可能对蛋白质结构具有较小影响,并且可能在不损害功能的情况下被很好地耐受。在一些实施方案中,本文提供的从一个氨基酸到苏氨酸的任何氨基的氨基酸突变可以是到丝氨酸的氨基酸突变。在一些实施方案中,本文提供的从一个氨基酸到精氨酸的任何氨基的氨基酸突变可以是到赖氨酸的氨基酸突变。在一些实施方案中,本文提供的从一个氨基酸到异亮氨酸的任何氨基的氨基酸突变可以是到丙氨酸、缬氨酸、甲硫氨酸或亮氨酸的氨基酸突变。在一些实施方案中,本文提供的从一个氨基酸到赖氨酸的任何氨基的氨基酸突变可以是到精氨酸的氨基酸突变。在一些实施方案中,本文提供的从一个氨基酸到天冬氨酸的任何氨基的氨基酸突变可以是到谷氨酸或天冬酰胺的氨基酸突变。在一些实施方案中,本文提供的从一个氨基酸到缬氨酸的任何氨基的氨基酸突变可以是到丙氨酸、异亮氨酸、甲硫氨酸或亮氨酸的氨基酸突变。在一些实施方案中,本文提供的从一个氨基酸到甘氨酸的任何氨基的氨基酸突变可以是到丙氨酸的氨基酸突变。然而,应当理解,技术人员会认识到额外的保守氨基酸残基,并且任何氨基酸突变为其他保守氨基酸残基也在本公开的范围内。[0582]在一些实施方案中,本公开可以利用本文序列表部分中公开的任何cas9变体。[0583]spcas9h840a[0584][0585]cas9-ng_h840a[0586][0587][0588]kkh-cas9n580a[0589][0590][0591]在一些实施方案中,cas9蛋白包含突变组合,这些突变组合针对在其3’末端包含5’‑naa-3’pam序列的靶序列表现出活性。在一些实施方案中,突变组合存在于表1中所列的任一克隆中。在一些实施方案中,突变组合是表1中所列克隆的保守突变。在一些实施方案中,cas9蛋白包含组合表x中列出的任意一个cas9克隆的突变的组合。[0592]表x:naapam克隆[0593][0594][0595]在一些实施方案中,cas9蛋白包含与表1的任一变体提供的cas9蛋白的氨基酸序列至少80%相同的氨基酸序列。在一些实施方案中,cas9蛋白包含与表x的任一变体提供的cas9蛋白的氨基酸序列至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。[0596]在一些实施方案中,与由seqidno:1361421提供的化脓性链球菌cas9相比,cas9蛋白对在其3’端不包含规范pam(5’‑ngg-3’)的靶序列表现出增加的活性。在一些实施方案中,与由seqidno:1361421提供的化脓性链球菌cas9对相同靶序列的活性相比,cas9蛋白对具有不直接邻近规范pam序列(5’‑ngg-3’)的3’末端的靶序列表现出至少增加5倍的活性。在一些实施方案中,与由seqidno:1361421提供的针对相同靶序列的化脓性链球菌的活性相比,cas9蛋白对不直接与规范pam序列(5’‑ngg-3’)临近的靶序列表现出至少10倍、至少50倍、至少100倍、至少500倍、至少1,000倍、至少5,000倍、至少10,000倍、至少50,000倍、至少100,000倍、至少500,000倍或至少1,000,000倍增加的活性。在一些实施方案中,靶序列的3’末端与aaa、gaa、caa或taa序列直接临近。在一些实施方案中,cas9蛋白包含突变组合,这些突变组合针对在其3’末端包含5’‑nac-3’pam序列的靶序列表现出活性。在一些实施方案中,突变组合存在于表2中所列的任一克隆中。在一些实施方案中,突变组合是表2中所列克隆的保守突变。在一些实施方案中,cas9蛋白包含组合表y中列出的任意一个cas9克隆的突变的组合。[0597]表y:natpam克隆[0598][0599][0600]在一些实施方案中,cas9蛋白包含与表2的任一变体提供的cas9蛋白的氨基酸序列至少80%相同的氨基酸序列。在一些实施方案中,cas9蛋白包含与表y的任一变体提供的cas9蛋白的氨基酸序列至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。[0601]在一些实施方案中,与由seqidno:1361421提供的化脓性链球菌(streptococcuspyogenes)cas9相比,cas9蛋白对在其3’端不包含规范pam(5’‑ngg-3’)的靶序列表现出增加的活性。在一些实施方案中,与由seqidno:1361421提供的化脓性链球菌cas9对相同靶序列的活性相比,cas9蛋白对具有不直接邻近规范pam序列(5’‑ngg-3’)的3’末端的靶序列表现出至少增加5倍的活性。在一些实施方案中,与由seqidno:1361421提供的针对相同靶序列的化脓性链球菌的活性相比,cas9蛋白对不直接与规范pam序列(5’‑ngg-3’)临近的靶序列表现出至少10倍、至少50倍、至少100倍、至少500倍、至少1,000倍、至少5,000倍、至少10,000倍、至少50,000倍、至少100,000倍、至少500,000倍或至少1,000,000倍增加的活性。在一些实施方案中,靶序列的3’末端与aac、gac、cac或tac序列直接临近。[0602]在一些实施方案中,cas9蛋白包含突变组合,这些突变组合针对在其3’末端包含5’‑nat-3’pam序列的靶序列表现出活性。在一些实施方案中,突变组合存在于表3中所列的任一克隆中。在一些实施方案中,突变组合是表3中所列克隆的保守突变。在一些实施方案中,cas9蛋白包含组合表z中列出的任意一个cas9克隆的突变的组合。[0603]表z:natpam克隆[0604][0605][0606]可以与当前公开的引导编辑器结合使用的各种napdnabp的以上描述并不意味着以任何方式进行限制。引导编辑器可以包括规范spcas9,或任何种间同源cas9蛋白,或任何变体cas9蛋白——包括任何cas9的天然存在变体、突变体或其他经工程化改造的版本——其是已知的或可以通过定向进化或其他诱变过程制造或进化。在各种实施方案中,cas9或cas9变体具有切口酶活性,即仅切割靶dna序列的链。在其他实施方案中,cas9或cas9变体具有无活性的核酸酶,即是“死亡的”cas9蛋白。可以使用的其他变体cas9蛋白是具有比规范spcas9更小的分子量(例如,为了更容易递送)或具有修饰或重排的一级氨基酸结构(例如,循环排列形式)的那些。本文所描述的引导编辑器还可以包含cas9等同物,包括cas12a/cpf1和cas12b蛋白,其是趋同进化的结果。本文使用的napdnabp(例如,spcas9、cas9变体或cas9等同物)还可以含有改变/增强其pam特性的各种修饰。最后,本技术涵盖了任何cas9、cas9变体或cas9等同物,其与参考cas9序列(例如作为参考spcas9规范序列或参考cas9等同物(例如,cas12a/cpf1))具有至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.9%的序列同一性。[0607]此外,可以利用任何可获得的方法来获得或构建变体或突变的cas9蛋白。如本文所用,术语“突变”指序列(例如核酸或氨基酸序列)内的残基用另一残基取代,或序列内一个或多个残基的缺失或插入。本文通常通过鉴定初始残基,随后是序列内残基的位置以及新取代的残基的身份来描述突变。用于产生本文提供的氨基酸取代(突变)的各种方法本领域中是熟知的,并且由例如greenandsambrook,molecularcloning:alaboratorymanual(4thed.,coldspringharborlaboratorypress,coldspringharbor,n.y.(2012))提供。突变可以包括多种类别,例如单碱基多态性、微重复区域、插入/缺失和倒位,并且不意味着以任何方式进行限制。突变可以包括“功能丧失”突变,这是降低或消除蛋白质活性的突变的正常结果。大多数功能丧失突变是隐性的,因为在杂合子中,第二个染色体拷贝携带未突变版本的编码全功能蛋白质的基因,其存在补偿了突变的影响。突变还包括“功能获得”突变,这是一种赋予除此之外正常情况下不存在的蛋白质或细胞异常活性的突变。许多功能获得突变在调节序列而不是编码区中,因此可能具有许多后果。例如,突变可能导致一个或多个基因在错误的组织中表达,这些组织获得了它们通常缺乏的功能。由于其性质,功能获得突变通常是显性的。[0608]可以使用定点诱变将突变引入参考cas9蛋白。本领域已知的较老的定点诱变方法依赖于将待突变序列亚克隆到载体中,例如m13噬菌体载体,其允许单链dna模板的分离。在这些方法中,将诱变引物(即能够与待突变位点退火但在待突变位点携带一个或多个错配核苷酸的引物)与单链模板退火,然后从诱变引物的3’末端开始聚合模板的互补物。然后将合成的双链体转化到宿主细菌中,并针对期望突变筛选噬菌斑。最近,定点诱变采用了pcr方法,其具有不需要单链模板的优点。此外,开发了不需要亚克隆的方法。在进行基于pcr的定点诱变时,必须考虑几个问题。第一,在这些方法中,需要减少pcr循环的次数,以防止聚合酶引入的不希望突变的扩增。第二,必须采用选择以便减少反应中持续存在的非突变亲本分子的数量。第三,优选延长长度的pcr方法以便允许单个pcr引物集的使用。第四,由于一些热稳定聚合酶的非模板依赖性末端延伸活性,在pcr生成的突变产物的平端连接之前,通常需要在规程中掺入末端抛光步骤。[0609]突变也可以通过定向进化过程,例如噬菌体辅助的连续进化(pace)或噬菌体辅助的非连续进化(pance)引入。如本文所用,术语“噬菌体辅助的连续进化(pace)”指采用噬菌体作为病毒载体的连续进化。pace技术的一般概念已经描述于,例如2009年9月8日提交的国际pct申请pct/us2009/056194,2010年3月11日公布为wo2010/028347;2011年12月22日提交的国际pct申请pct/us2011/066747,2012年6月28日公布为wo2012/088381;2015年5月5日授权的美国申请美国专利号9,023,594,2015年1月20日提交的国际pct申请pct/us2015/012022,2015年9月11日公布为wo2015/134121,以及2016年4月15日提交的国际pct申请pct/us2016/027795,2016年10月20日公布为wo2016/168631中,每篇的全部内容通过引用并入本文。易错配逆转录酶也可以通过噬菌体辅助的″非连续进化(pance)″获得,如本文所用,是指使用噬菌体作为病毒载体的非连续进化。pance是用于快速体内定向进化的简化技术,其使用进化的’选择噬菌体’(sp)的连续烧瓶转移,其中包含待进化的感兴趣基因,跨越新鲜的e.coli宿主细胞,从而允许宿主e.coli内的基因保持不变,而sp中包含的基因连续进化。连续烧瓶转移长期充当微生物实验室进化广泛使用的方法,最近,已经开发出类似的方法用于噬菌体进化。pance系统的特征在于低于pace系统的严格性。[0610]上述提到的有关cas9或cas9等同物的任何参考文献,如果尚未说明,则通过引用整体并入本文。[0611]在一些实施方案中,napdnabp是不需要规范(ngg)pam序列的核酸可编程dna结合蛋白。在一些实施方案中,napdnabp是argonaute蛋白。此类核酸可编程dna结合蛋白的一个实例是来自格氏嗜盐碱杆菌(natronobacteriumgregoryi)的argonaute蛋白(ngago)。ngago是ssdna引导的内切核酸酶。ngago结合约24个核苷酸的5’磷酸化ssdna(gdna),以将其引导至靶位点,并将在gdna位点处产生dna双链断裂。与cas9相比,ngago-gdna系统不需要前间隔区相邻基序(pam)。使用核酸酶无活性的ngago(dngago)可以极大地扩展可以靶向的碱基。ngago的表征和使用已经描述于gaoetal.,natbiotechnol.,2016jul;34(7):768-73.pubmedpmid:27136078;swartsetal.,nature.507(7491)(2014):258-61;和swartsetal.,nucleicacidsres.43(10)(2015):5120-9中,每篇通过引用并入本文。[0612]在一些实施方案中,napdnabp是argonaute蛋白的原核同源物。argonaute蛋白的原核同源物是已知的并且已经描述于例如makarovak.,etal.,“prokaryotichomologsofargonauteproteinsarepredictedtofunctionaskeycomponentsofanovelsystemofdefenseagainstmobilegeneticelements”,bioldirect.2009aug25;4:29.doi:10.1186/1745-6150-4-29中,其全部内容在此通过引用并入。在一些实施方案中,napdnabp是marinitogapiezophilaargunaute(mpago)蛋白。crispr相关的marinitogapiezophilaargunaute(mpago)蛋白使用5’‑磷酸化的向导切割单链靶序列。所有已知的argonautes均使用5’向导。mpago-rna复合物的晶体结构显示向导链结合位点,其包含阻断5’磷酸盐相互作用的残基。该数据表明具有5’‑羟基化向导的非规范特异性的argonaute亚类的演化。参见例如,kayaetal.,“abacterialargonautewithnoncanonicalguidernaspecificity”,procnatlacadsciusa.2016apr12;113(15):4057-62,其全部内容在此通过引用并入)。应当理解,可以使用其他argonaute蛋白质,并且它们在本公开的范围内。[0613]在一些实施方案中,napdnabp是微生物crispr-cas系统的单一效应物。微生物crispr-cas系统的单一效应物包括但不限于cas9、cpf1、c2c1、c2c2和c2c3。通常,微生物crispr-cas系统分为1类和2类系统。1类系统具有多亚基效应物复合物,而2类系统具有单一蛋白质效应器。例如,cas9和cpf1是2类效应器。除了cas9和cpf1之外,shmakovetal.,“discoveryandfunctionalcharacterizationofdiverseclass2crisprcassystems”,mol.cell,2015nov5;60(3):385-397已经描述了三种不同的2类crispr-cas系统(c2c1、c2c2和c2c3),其全部内容在此通过引用并入。系统中的两种(c2c1和c2c3)的效应物含有与cpf1相关的ruvc样内切核酸酶结构域。第三种系统c2c2含有具有两个预测的hepnrnase结构域的效应物。与c2c1产生的crisprrna不同,成熟crisprrna的产生不依赖于tracrrna。c2c1依赖于crisprrna和tracrrna两者用于dna切割。已显示细菌性c2c2对于crisprrna成熟具有独特的rnase活性,不同于其rna激活的单链rna降解活性。这些rnase功能彼此不同,并且与cpf1的crisprrna加工行为不同。参见例如east-seletsky,etal.,“twodistinctrnaseactivitiesofcrispr-c2c2enableguide-rnaprocessingandrnadetection”,nature,2016oct13;538(7624):270-273,其全部内容在此通过引用并入。沙氏纤毛菌(leptotrichiashahii)中c2c2的体外生化分析已显示,c2c2由单一crisprrna引导,并且可以编程以切割携带互补前间隔区的ssrna靶。两个保守的hepn结构域中的催化残基介导切割。催化残基的突变产生催化无活性的rna结合蛋白。参见例如abudayyehetal.,“c2c2isasingle-componentprogrammablerna-guidedrna-targetingcrispreffector”,science,2016aug5;353(6299),其全部内容在此通过引用并入。[0614]已经报道了与嵌合单分子向导rna(sgrna)复合的酸土脂环酸芽孢杆菌(alicyclobaccillusacidoterrastris)c2c1(aacc2c1)的晶体结构。参见例如,liuetal.,“c2c1-sgrnacomplexstructurerevealsrna-guideddnacleavagemechanism”,mol.cell,2017jan19;65(2):310-322,其全部内容在此通过引用并入。还已经报道了在与靶dna结合的酸土脂环酸芽孢杆菌c2c1中作为三元复合物的晶体结构。参见例如,yangetal.,“pam-dependenttargetdnarecognitionandcleavagebyc2c1crispr-casendonuclease”,cell,2016dec15;167(7):1814-1828,其全部内容在此通过引用并入。具有靶dna链和非靶dna链两者的aacc2c1的催化能力构象已被独立地捕获,定位在单一ruvc催化口袋内,c2c1介导的切割导致靶dna的交错的七核苷酸断裂。c2c1三元复合物与先前鉴定的cas9和cpf1对应物之间的结构比较证明了crispr-cas9系统使用的机制的多样性。[0615]在一些实施方案中,napdnabp可以是c2c1、c2c2或c2c3蛋白。在一些实施方案中,napdnabp是c2c1蛋白。在一些实施方案中,napdnabp是c2c2蛋白。在一些实施方案中,napdnabp是c2c3蛋白。在一些实施方案中,napdnabp包含与天然存在的c2c1、c2c2或c2c3蛋白至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,napdnabp是天然存在的c2c1、c2c2或c2c3蛋白。[0616]本公开的一些方面提供了具有不同pam特异性的cas9结构域。通常,cas9蛋白,例如来自酿脓链球菌(s.pyogenes)的cas9(spcas9),需要规范的nggpam序列来结合特定的核酸区域。这可以限制在基因组内编辑期望的碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋白需要位于精确的位置,例如,靶碱基位于4碱基区域(例如“编辑窗口”)内,其在pam的上游的约15个碱基。参见komor,a.c.,etal.,“programmableeditingofatargetbaseingenomicdnawithoutdouble-strandeddnacleavage”nature533,420-424(2016),其全部内容在此通过引用并入。因此,在一些实施方案中,本文提供的任何融合蛋白可以含有能够结合不含规范的(例如,ngg)pam序列的核苷酸序列的cas9结构域。本领域已经描述了结合非规范pam序列的cas9结构域,并且其对熟练技术人员来说是显而易见的。例如,结合非规范pam序列的cas9结构域已经描述于kleinstiver,b.p.,etal.,“engineeredcrispr-cas9nucleaseswithalteredpamspecificities”nature523,481-485(2015);和kleinstiver,b.p.,etal.,“broadeningthetargetingrangeofstaphylococcusaureuscrispr-cas9bymodifyingpamrecognition”naturebiotechnology33,1293-1298(2015);每篇的全部内容在此通过引用并入。[0617]例如,可以使用具有改变的pam特异性的napdnabp结构域,例如与野生型新凶手弗朗西斯菌(francisellanovicida)cpf1(seqidno:1361472)(d917、e1006和d1255是粗体且加下划线的)具有至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的结构域:[0618][0619]可以使用额外的具有改变的pam特异性的napdnabp结构域,例如与野生型嗜热脱氮土壤芽孢杆菌(geobacillusthermodenitrificans)cas9(seqidno:1361473)具有至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的结构域。[0620][0621][0622]在一些实施方案中,核酸可编程dna结合蛋白(napdnabp)是不需要规范(ngg)pam序列的核酸可编程dna结合蛋白。在一些实施方案中,napdnabp是argonaute蛋白。此类核酸可编程dna结合蛋白的一个实例是来自格氏嗜盐碱杆菌的argonaute蛋白(ngago)。ngago是ssdna引导的内切核酸酶。ngago结合约24个核苷酸的5’磷酸化ssdna(gdna),以将其引导至其靶位点,并将在gdna位点处产生dna双链断裂。与cas9相比,ngago-gdna系统不需要前间隔区相邻基序(pam)。使用核酸酶无活性的ngago(dngago)可以极大地扩展可以靶向的碱基。ngago的表征和使用已经描述于gaoetal.,natbiotechnol.,34(7):768-73(2016),pubmedpmid:27136078;swartsetal.,nature,507(7491):258-61(2014);和swartsetal.,nucleicacidsres.43(10)(2015):5120-9,每篇通过引用并入本文。格氏嗜盐碱杆菌argonaute的序列提供于seqidno:1361474中。[0623]所公开的融合蛋白可以包含与野生型格氏嗜盐碱杆菌argonaute(seqidno:1361474)具有至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的napdnabp结构域。[0624][0625]在一些实施方案中,cas9结构域是来自金黄色葡萄球菌的cas9结构域(sacas9)。在一些实施方案中,sacas9结构域是核酸酶活性的sacas9、核酸酶无活性的sacas9(sacas9d)或sacas9切口酶(sacas9n)。[0626](x)分开的napdnabp结构域用于分裂pe递送[0627]在各种实施方案中,本文所描述的引导编辑器可以作为两个或更多个片段递送至细胞,这些片段在细胞内组装(通过被动组装,或通过主动组装,例如使用分裂内含肽(splitintein)序列)成为重组的引导编辑器。在某些情况下,自组装可以是被动的,凭此两个或更多个引导编辑器片段在细胞内共价或非共价缔合以重组引导编辑器。在其他情况下,自组装可以由安装在每个片段上的二聚化结构域催化。本文描述了二聚化结构域的实例。仍然在其他情况下,自组装可由安装在每个引导编辑器片段上的分裂内含肽序列催化。[0628]分裂pe递送可能有利于解决不同递送方法的各种尺寸限制。例如,递送方法可以包括基于病毒的递送方法、基于信使rna的递送方法或基于rnp的递送(基于核糖核蛋白的递送)。并且,通过将引导编辑器分开成较小的部分,这些递送方法中的每一种都可能更高效和/或更有效。一旦进入细胞,较小的部分就可以组装成功能性的引导编辑器。根据分裂的方式,分开的引导编辑器片段可以以非共价方式或共价方式重新组装以重新形成引导编辑器。在一个实施方案中,引导编辑器可以在一个或多个分裂位点分裂成两个或更多个片段。片段可以是未经修饰的(除了被分裂)。一旦片段被递送至细胞(例如,通过核糖核蛋白复合物的直接递送或通过核酸递送——例如,mrna递送或基于病毒载体的递送),片段可以共价或非共价地重缔合以重组引导编辑器。在另一个实施方案中,引导编辑器可以在一个或多个分裂位点分裂成两个或更多个片段。每个片段可以经修饰以包含二聚化结构域,由此形成的每个片段都与二聚化结构域偶联。一旦递送至细胞内或在细胞内表达,不同片段的二聚化结构域就会相互缔合并结合,将不同的引导编辑器片段带到一起以重新形成功能性的引导编辑器。在又一个实施方案中,引导编辑器片段可以经修饰以包含分裂内含肽。一旦递送至细胞内或在细胞内表达,不同片段的分裂内含肽结构域就会相互缔合并结合,然后进行反式剪接,其导致分裂内含肽结构域从每个片段中的切除,以及片段之间肽键的伴随形成,从而重建引导编辑器。[0629]在一个实施方案中,可以使用分裂内含肽方法递送引导编辑器。[0630]分裂位点的位置可以位于引导编辑器和其中任何结构域的任何一对或多对残基之间,包括在napdnabp结构域内、聚合酶结构域(例如rt结构域)、连接napdnabp结构域和聚合酶结构域的接头结构域内。[0631]在一个实施方案中,如图66所描绘的,引导编辑器(pe)在napdnabp内的分裂位点分开。[0632]在某些实施方案中,napdnabp是seqidno:1361421的规范spcas9多肽,如下:[0633][0634]在某些实施方案中,spcas9在位于残基1和2、或2和3、或3和4、或4和5、或5和6、或6和7、或7和8、或8和9、或9和10之间的分裂位点处分裂成两个片段,或在位于seqidno:proteintrans-splicingbyanaturallysplitdnaeinteinfromnostcpunctiforme,febslett,580:1853-1858中找到,每篇文献通过引用并入本文。额外的分裂内含肽序列可以在例如wo2013/045632、wo2014/055782、wo2016/069774和ep2877490中找到,其每篇的内容通过引用并入本文。[0644]此外,已经在体内和体外描述了蛋白质反式剪接(shingledecker,etal.,gene207:187(1998),southworth,etal.,emboj.17:918(1998);mills,etal.,proc.natl.acad.sci.usa,95:3543-3548(1998);lew,etal.,j..biol.chem.,273:15887-15890(1998);wu,etal.,biochim.biophys.acta35732:1(1998b),yamazaki,etal.,j.am.chem.soc.120:5591(1998),evans,etal.,j.biol.chem.275:9091(2000);otomo,etal.,biochemistry38:16040-16044(1999);otomo,etal.,j.biolmol.nmr14:105-114(1999);scott,etal.,proc.natl.acad.sci.usa96:13638-13643(1999))并提供了表达关于两个无活性片段的蛋白质的机会,该片段随后经历连接以形成功能性产物,例如,如关于从两个单独表达的一半形成完整的pe融合蛋白的图38和图39中所示。[0645]在本文所描述的各种实施方案中,连续进化方法(例如,pace)可用于进化碱基编辑器的第一部分。第一部分可以包括单个组件或结构域,例如cas9结构域、脱氨酶结构域或ugi结构域。然后可以通过用分裂内含肽多肽域分别表达进化部分和剩余未进化部分,将单独进化的组分或结构域融合到细胞内碱基编辑器的剩余部分。第一部分可以更广泛地包括希望使用本文所描述的连续进化方法进化的碱基编辑器的任何第一氨基酸部分。在该实施方案中,第二部分将指未使用本文方法进化的碱基编辑器的剩余氨基酸部分。碱基编辑器的进化的第一部分和第二部分可以各自在细胞中用分裂内含肽多肽结构域表达。细胞的天然蛋白质剪接机制将重新组装进化的第一部分和未进化的第二部分以形成单个融合蛋白进化碱基编辑器。进化的第一部分可以包含单个融合蛋白n端部分或者c端部分。以类似的方式,使用第二正交反式剪接内含肽对可以允许进化的第一部分包含单个融合蛋白的内部部分。[0646]因此,本文描述的碱基编辑器的进化和非进化组分中的任何一个可以用分裂内含肽标签表达以促进细胞内包含进化和非进化组分的完整碱基编辑器的形成。[0647]已经非常详细地研究了蛋白质剪接过程的机制(chong,etal.,j.biol.chem.1996,271,22159-22168;xu,m-q&perler,f.b.embojournal,1996,15,5146-5153)并且已经在内含肽和外显肽剪接点发现保守氨基酸(xu,etal.,embojournal,1994,135517-522)。本文所描述的构建体含有与第一基因的5’端融合的内含肽序列(例如,碱基编辑器的进化部分)。合适的内含肽序列可以选自已知含有蛋白质剪接元件的任何蛋白质。可以在万维网上找到包含所有已知内含肽的数据库(perler,f.b.nucleicacidsresearch,1999,27,346-347)。内含肽序列在3’末端与第二基因的5’末端融合。为了将该基因靶向某个细胞器,可以将肽信号与该基因的编码序列融合。在第二基因之后,内含肽基因序列可以在每当有需要时重复多次,以在相同细胞中表达多种蛋白质。对于含有多个内含肽的构建体,使用来自不同来源的内含肽元件可能很有用。在最后一个待表达基因的序列之后,必须插入转录终止序列。在一个实施方案中,设计修饰的内含肽剪接单元,以便其既可以催化外显肽从内含肽的切除又可以防止外显肽的连接。发现热球菌属(pyrococcus)的种gb-ddna聚合酶中c端外显肽连接处的诱变产生改变的剪接元件,该元件诱导外显肽和内含肽的切割,但阻止随后的外显肽连接(xu,m-q&perler,f.b.embojournal,1996,15,5146-5153)。丝氨酸538到丙氨酸或者甘氨酸的突变诱导切割但阻止连接。由于c端外显肽与内含肽连接处氨基酸的保守性,在其他内含肽剪接单元中等效残基的突变也应阻止外显肽连接。不含内切核酸酶结构域的优选内含肽是蟾蜍分枝杆菌(mycobacteriumxenopi)gyra蛋白(telenti,etal.j.bacteriol.1997,179,6378-6382)。其他已经在自然界中发现或已经通过从含有内含肽的内切核酸酶中去除内切核酸酶结构域创建的(chong,etal.j.biol.chem.1997,272,15587-15590)。在优选实施方案中,选择内含肽以便其由执行剪接功能所需的最少数量的氨基酸组成,比如来自蟾蜍分枝杆菌gyra蛋白的内含肽(telenti,a.,etal.,j.bacteriol.1997,179,6378-6382)。在替代实施方案中,选择没有内切核酸酶活性的内含肽,比如来自蟾蜍分枝杆菌gyra蛋白的内含肽或经修饰该内含肽以去除内切核酸酶结构域的酿酒酵母(saccharaomycescerevisiae)vma内含肽(chong,1997)。内含肽剪接单元的进一步修饰可以允许改变切割反应的反应速率,允许通过简单地修改剪接单元的基因序列来控制蛋白质剂量。[0648]内含肽也可以作为由两个单独转录和翻译的基因编码的两个片段存在。这些所谓的分裂内含肽自缔合并催化反式蛋白质剪接活性。已在不同的蓝细菌和古菌中鉴定了分裂内含肽(caspietal,molmicrobiol.50:1569-1577(2003);choij.etal,jmolbiol.556:1093-1106(2006.);dassab.etal,biochemistry.46:322-330(2007.);liux.andyangj.,jbiolchem.275:26315-26318(2003);wuh.etal.[0649]procnatlacadsciusa.5:9226-9231(1998.);andzettlerj.etal,febsletters.553:909-914(2009)),但迄今为止尚未在真核生物中发现。最近,环境宏基因组数据的生物信息学分析揭示了26个具有新基因组排列的不同基因座。在每个基因座上,保守的酶编码区经分裂内含肽中断,在编码内含肽亚结构域的部分之间插入独立的内切核酸酶基因。其中,完整组装了5个基因座:dna解旋酶(gp41-l、gp41-8);肌苷-5’‑单磷酸脱氢酶(impdh-1);和核糖核苷酸还原酶催化亚基(nrda-2和nrdj-1)。这种断裂的基因组织似乎主要存在于噬菌体中(dassaetal,nucleicacidsresearch.57:2560-2573(2009))。[0650]分裂内含肽npudnae的特征在于具有最高的蛋白质反式剪接反应的报告率。此外,人们认为npudnae蛋白质剪接反应在不同的外显肽序列、6至37℃的温度以及高达6m尿素的存在下是稳健且高产的(zettlerj.etal,febsletters.553:909-914(2009);iwaii.etal,febsletters550:1853-1858(2006))。正如预期的那样,当在这些内含肽的n结构域引入cyslala突变时,最初的n到s酰基转移并因此阻断了蛋白质剪接。不幸的是,c端切割反应也几乎完全被抑制。c端剪接连接处的天冬酰胺环化对n端易裂肽键的酰基转移的依赖性似乎是自然分裂的dnae内含肽等位基因共有的独特性质(zettlerj.etal.febsletters.555:909-914(2009))。[0651]蛋白质剪接的机制通常有四个步骤[29-30]:1)在内含肽n端的n-s或n-o酰基转移,其破坏上游肽键并在n外显肽和内含肽的第一个氨基酸(cys或ser)的侧链之间形成酯键;2)酯交换将n外显肽重新定位到内含肽c端,形成新的连接n外显肽与c外显肽的第一个氨基酸(cys、ser或thr)的侧链的酯键;3)ash环化破坏内含肽和c外显肽之间的肽键;以及4)s-n或o-n酰基转移用n外显肽和c外显肽之间的肽键代替酯键。[0652]由分裂内含肽催化的蛋白质反式剪接为蛋白质连接提供了完整的酶促方法[31]。分裂内含肽本质上是连续内含肽(例如,微型内含肽)经分裂成两个分别命名为n内含肽和c内含肽的段。分裂内含肽的n内含肽和c内含肽可以非共价缔合以形成活性内含肽,并以与连续内含肽做的本质上相同的方式催化剪接反应。分裂内含肽已在自然界中发现,也在实验室中进行了工程化改造[31-35]。如本文所用,术语“分裂内含肽”指其中在n端和c端氨基酸序列之间存在一个或多个肽键断裂使得n端和c端序列成为单独分子的任何内含肽,这些单独分子可以非共价地重缔合或重组为对反式剪接反应起作用的内含肽。任何具有催化活性的内含肽或其片段可用于衍生用于本发明方法的分裂内含肽。例如,在一方面,分裂内含肽可衍生自真核生物内含肽。在另一方面,分裂内含肽可衍生自细菌内含肽。在另一方面,分裂内含肽可衍生自古菌内含肽。优选地,如此衍生的分裂内含肽将仅具有催化反式剪接反应所必需的氨基酸序列。[0653]如本文所用,″n端分裂内含肽(in)″指包含对反式剪接反应起作用的n端氨基酸序列的任何内含肽序列。因此,in还包含当反式剪接发生时剪接出的序列。in可以包含是天然存在内含肽序列的n端部分的修饰的序列。例如,in可以包含额外的氨基酸残基和/或突变的残基,只要包含此类额外的和/或突变的残基不会使in在反式剪接中无功能。优选地,包含额外的和/或突变的残基改善或增强in的反式剪接活性。[0654]如本文所用,“c端分裂内含肽(ic)”指包含对反式剪接反应起作用的c端氨基酸序列的任何内含肽序列。一方面,ic包含4至7个连续的氨基酸残基,其中至少4个氨基酸来自其所衍生自的内含肽的最后β链。因此,ic还包含当反式剪接发生时剪接出的序列。ic可以包含是天然存在内含肽序列的c端部分的修饰的序列。例如,ic可以包含额外的氨基酸残基和/或突变的残基,只要包含此类额外的和/或突变的残基不会使in(ic)在反式剪接中无功能。优选地,包含额外的和/或突变的残基改善或增强ic的反式剪接活性。[0655]在本发明的一些实施方案中,与ic或in连接的肽可包含额外的化学部分,其中包括荧光基团、生物素、聚乙二醇(peg)、氨基酸类似物、非天然氨基酸、磷酸基团、糖基、放射性同位素标记和药物分子。在其他实施方案中,与ic连接的肽可包含一个或多个化学反应基团,其中包括酮、醛、cys残基和lys残基。当“内含肽剪接多肽(isp)”存在时,分裂内含肽的n内含肽和c内含肽可以非共价缔合以形成活性内含肽并催化剪接反应。如本文所用,“内含肽剪接多肽(isp)”指当ic、in或两者从分裂内含肽去除时,保留的分裂内含肽的氨基酸序列部分。在某些实施方案中,in包含isp。在另一个实施方案中,ic包含isp。在又一个实施方案中,isp是既不与in也不与ic共价连接的单独肽。[0656]通过在非结构化环中设计一个或多个分裂位点或在微型内含肽的结构中发现的12个保守β链之间插入氨基酸序列,可以从连续内含肽创建分裂内含肽[25-28]。β链之间区域内分裂位点的位置可能存在一些灵活性,前提是分裂的产生不会破坏内含肽的结构,特别是结构化的β链,到足够程度以使蛋白质剪接活性丢失。[0657]在蛋白质反式剪接中,一种前体蛋白质由n外显肽部分和n内含肽组成,另一种前体蛋白质由c内含肽和c外显肽部分组成,反式剪接反应(由n和c内含肽共同催化)切除两个内含肽序列并用肽键连接这两个外显肽序列。蛋白质反式剪接是酶促反应,可以在非常低(例如,微摩尔)浓度的蛋白质下工作,并且可以在生理条件下进行。[0658]b.可编程核酸酶(非napdnabp)[0659]在本文所描述的各种实施方案中,引导编辑器包含napdnabp,例如cas9蛋白。这些蛋白质通过与向导rna(或pegrna,视情况而定)复合而是“可编程的”,该向导rna将cas9蛋白质引导至dna上的靶位点,该位点具有与grna(或pegrna)间隔区部分互补的序列,并且还具有期望的pam序列。然而,在这里设想的某些实施方案中,napdnabp可以经不同类型的可编程蛋白质取代,例如锌指核酸酶或转录激活因子样效应物核酸酶(talen)。[0660]图1h描绘了本文设想的引导编辑的此种变化,用任何可编程核酸酶结构域,例如锌指核酸酶(zfn)或转录激活因子样效应物核酸酶(talen)替换napdnabp(例如spcas9切口酶)。因此,设想了合适的核酸酶不一定需要通过核酸靶向分子(例如向导rna)“编程”,而是可以通过定义dna结合域,例如尤其是核酸酶的特异性来编程。正如用napdnabp部分进行引导编辑一样,优选地对此类替代的可编程核酸酶进行修饰,以便仅切割靶dna的一条链。换句话说,可编程核酸酶应优选起切口酶的作用。一旦选择了可编程核酸酶(例如,zfn或talen),则可以将额外功能工程化改造到系统中,以允许其依照引导编辑样机制进行操作。例如,可编程核酸酶可以通过偶联(例如,通过化学接头)rna或dna延伸臂到其上进行修饰,其中延伸臂包含引物结合位点(pbs)和dna合成模板。可编程核酸酶也可以偶联(例如,通过化学或氨基酸接头)到聚合酶,聚合酶的性质将取决于延伸臂是dna还是rna。在rna延伸臂的情况下,聚合酶可以是rna依赖性dna聚合酶(例如逆转录酶)。在dna延伸臂的情况下,聚合酶可以是dna依赖性dna聚合酶(例如,原核聚合酶,包括poli、polii或poliii,或真核聚合酶,包括pola、polb、polg、pold、pole或polz)。该系统还可以包括作为融合物添加到可编程核酸酶或反式添加以促进整个反应的其他功能(例如,(a)解旋酶在切割位点处解开dna,使具有3’末端的切割链可用作引物,(b)fen1有助于去除切割链上的内源性链,以驱动反应朝向用合成链替换内源性链,或(c)ncas9:grna复合物在相反链上创建第二位点缺口,这可能有助于通过未经编辑链的有利细胞修复来驱动合成修复的整合)。以类似的方式用napdnabp引导编辑,这种具有其他可编程核酸酶的复合物可用于合成,然后将携带感兴趣编辑的新合成的dna替换链永久地安装到dna的靶位点中。[0661]合适的替代可编程核酸酶是本领域所熟知的,其可用于替代napdnabp:grna复合物以构建替代的引导编辑器系统,该系统可经编程以选择性结合dna的靶位点,并且其可以进一步以上述方式修饰以将聚合酶和包含引物结合位点和dna合成模板的rna或dna延伸臂共定位到特定切口位点。例如,如图1h所示,转录激活因子样效应物核酸酶(talen)可用作本文所描述问题的引导编辑方法和组合物中的可编程核酸酶。talen是通过将tal效应物dna结合域与dna切割结构域融合而生成的人工限制酶。这些试剂能够高效、可编程和特异性切割dna,代表原位基因组编辑的强大工具。可以快速工程化改造转录激活因子样效应物(tale)以结合几乎任何dna序列。如本文所用,术语talen是广义的并且包括可以在没有另一个talen帮助的情况下切割双链dna的单体talen。术语talen也用于指一对talen中的一个或两个成员,其经工程化改造以共同工作在同一位点切割dna。可以将共同工作的talen称为左talen和右talen,它们参考了dna的旋向性(handedness)。参见美国序列号12/965,590;美国序列号13/426,991(美国专利号8,450,471);美国序列号13/427,040(美国专利号8,440,431);美国序列号13/427,137(美国专利号8,440,432);和美国序列号13/738,381,其全部通过引用整体并入本文。此外,talens在wo2015/027134,us9,181,535,bochetal.,″breakingthecodeofdnabindingspecificityoftal-typeiiieffectors″,science,vol.326,pp.1509-1512(2009),bogdanoveetal.,taleffectors:customizableproteinsfordnatargeting,science,vol.333,pp.1843-1846(2011),cadeetal.,″highlyefficientgenerationofheritablezebrafishgenemutationsusinghomo-andheterodimerictalens″,nucleicacidsresearch,vol.40,pp.8001-8010(2012),andcermaketal.,″efficientdesignandassemblyofcustomtalenandothertaleffector-basedconstructsfordnatargeting″,nucleicacidsresearch,vol.39,no.17,e82(2011)中描述,每篇通过引用并入本文。[0662]如图1h所示,锌指核酸酶也可用作替代的可编程核酸酶,用于在引导编辑中代替napdnabp,例如cas9切口酶。与talens一样,可以修饰zfn蛋白以使它们起切口酶的作用,即,工程化改造zfn以使其仅切割靶dna的一条链,其方式类似于与本文所描述的引导编辑器一起使用的napdnabp。已经在本领域广泛描述zfn蛋白,例如,在carrolletal.,“genomeengineeringwithzinc-fingernucleases,”genetics,aug2011,vol.188:773-782;duraietal.,“zincfingernucleases:custom-designedmolecularscissorsforgenomeengineeringofplantandmammaliancells,”nucleicacidsres,2005,vol.33:5978-90;andgajetal.,“zfn,talen,andcrispr/cas-basedmethodsforgenomeengineering,”trendsbiotechnol.2013,vol.31:397-405中,每篇均通过引用整体并入本文。[0663]c.聚合酶(例如,逆转录酶)[0664]在各种实施方案中,本文公开的引导编辑器(pe)系统包括聚合酶(例如,dna依赖性dna聚合酶或rna依赖性dna聚合酶,诸如逆转录酶)或其变体,其可以与napdnabp或其他可编程核酸酶作为融合蛋白提供,或以反式提供。[0665]任何聚合酶均可用于本文公开的引导编辑器中。聚合酶可以是野生型聚合酶、功能片段、突变体、变体或截短的变体等等。聚合酶可以包括来自真核生物、原核生物、古菌或病毒生物体的野生型聚合酶,和/或可以通过基因工程改造、诱变、基于定向进化的过程进行修饰的聚合酶。聚合酶可以包括t7dna聚合酶、t5dna聚合酶、t4dna聚合酶、克列诺片段dna聚合酶、dna聚合酶iii等等。聚合酶也可以是热稳定的,并且可以包括taq、tne、tma、pfu、tfl、tth、stoffel片段、和dna聚合酶、kod、tgo、jdf3及其突变体、变体和衍生物(参见美国专利号5,436,149;美国专利号4,889,818;美国专利号4,965,185;美国专利号5,079,352;美国专利号5,614,365;美国专利号5,374,553;美国专利号5,270,179;美国专利号5,047,342;美国专利号5,512,462;wo92/06188;wo92/06200;wo96/10640;barnes,w.m.,gene112:29-35(1992);lawyer,f.c.,etal.,pcrmeth.appl.2:275-287(1993);flaman,j.-m,etal.,nuc.acidsres.22(15):3259-3260(1994),每篇均通过引用并入)。为了合成更长的核酸分子(例如,长度超过约3-5kb的核酸分子),可以采用至少两种dna聚合酶。在某些实施方案中,聚合酶之一可以实质上缺乏3’外切核酸酶活性,而另一种可以具有3’外切核酸酶活性。这种配对可以包括相同或不同的聚合酶。实质上缺乏3’外切核酸酶活性的dna聚合酶的实例包括但不限于taq、tne(exo-)、tma(exo-)、pfu(exo-)、pwo(exo-)、exo-kod和tthdna聚合酶及其突变体、变体和衍生物。[0666]优选地,可用于本文公开的引物编辑器中的聚合酶是“模板依赖性”聚合酶(因为聚合酶旨在依赖于dna合成模板来指定引导编辑期间合成的dna链的序列。如在本文中所使用的,术语“模板dna分子”指例如,在pegrnapegrna的dna合成模板的引物延伸反应中通过dna聚合酶合成互补核酸链的核酸链。[0667]如本文所用,术语“模板依赖性方式”旨在指涉及引物分子的模板依赖性延伸的过程(例如,通过dna聚合酶合成dna)。术语“模板依赖性方式”指rna或dna的多核苷酸合成,其中新合成的多核苷酸链的序列由众所周知的互补碱基配对规则决定(参见,例如,watson,j.d.etal.,in:molecularbiologyofthegene,4thed.,w.a.benjamin,inc.,menlopark,calif.(1987))。术语“互补”指两条多核苷酸链的区域之间或两个核苷酸之间通过碱基配对的序列互补的广义概念。已知腺嘌呤核苷酸能够与胸腺嘧啶或尿嘧啶核苷酸形成特异性氢键(“碱基配对”)。类似地,已知胞嘧啶核苷酸能够与鸟嘌呤核苷酸碱基配对。因此,在引导编辑的情况下,可以说通过针对dna合成模板的引导编辑器的聚合酶合成的单链dna称为与dna合成模板的序列“互补”。[0668](i)示例性聚合酶[0669]在各种实施方案中,本文所描述的引导编辑器包含聚合酶。本公开涵盖从天然存在的有机体或病毒获得的,或者从商业或非商业来源获得的任何野生型聚合酶。此外,可用于本公开的引导编辑器中的聚合酶可以包括任何天然存在的突变聚合酶、工程化改造的突变聚合酶或其他变体聚合酶,包括保留功能的截短变体。本文可用的聚合酶也可以经工程化改造以包含特定的氨基酸取代,例如本文具体公开的那些。在某些优选的实施方案中,可用于本公开的引导编辑器的聚合酶是基于模板的聚合酶,即它们以依赖模板性方式合成核苷酸序列。[0670]聚合酶是合成核苷酸链的酶,其可以与本文所描述的引导编辑器系统结合使用。聚合酶优选为“模板依赖性”聚合酶(即,基于模板链的核苷酸碱基顺序合成核苷酸链的聚合酶)。在某些配置中,聚合酶也可以是“非模板依赖性的”(即,不需要模板链就合成核苷酸链的聚合酶)。聚合酶还可以进一步分类为“dna聚合酶”或“rna聚合酶”。在各种实施方案中,引导编辑器系统包含dna聚合酶。在各种实施方案中,dna聚合酶可以是“dna依赖性dna聚合酶”(即,模板分子由此是dna链)。在这种情况下,dna模板分子可以是pegrnapegrna,其中延伸臂包含dna链。在这种情况下,pegrnapegrna可称为嵌合或杂合pegrnapegrna,其包含rna部分(即向导rna组分,包括间隔区和grna核心)和dna部分(即延伸臂)。在各种其他实施方式中,dna聚合酶可以是“rna依赖性dna聚合酶”(即,模板分子由此是rna链)。在这种情况下,pegrnapegrna是rna,即包括rna延伸。术语“聚合酶”还可以指催化核苷酸聚合(即聚合酶活性)的酶。通常,酶将在与多核苷酸模板序列退火的引物的3’末端开始合成(例如,与pegrnapegrna的引物结合位点退火的引物序列),并将朝向模板链的5’末端进行。“dna聚合酶”催化脱氧核苷酸的聚合。如本文所用关于dna聚合酶,术语dna聚合酶包括“其功能片段”。“其功能片段”指野生型或突变dna聚合酶的任何部分,其包含少于聚合酶完整氨基酸序列并在至少一组条件下保留催化多核苷酸聚合的能力。此类功能片段可以作为单独的实体存在,或者它可以是更大多肽,例如融合蛋白的组分。[0671]在一些实施方案中,聚合酶可以来自噬菌体。噬菌体dna聚合酶通常缺乏5’到3’外切核酸酶活性,因为该活性由单独的多肽编码。合适的dna聚合酶的实例是t4、t7和phi29dna聚合酶。商业可获得的酶是:t4(可从许多来源获得,例如epicentre)和t7(可从许多来源获得,例如epicenter的未修饰的和usb的3’到5’ꢀexot7“测序酶”dna聚合酶)。[0672]在其他实施方案中,聚合酶是古菌聚合酶。已经在古菌中鉴定出2种不同类型的dna聚合酶:1.家族b/poli型(来自激烈热球菌(pyrococcusfuriosus)的pfu的同源物)和2.polii型(p.furiosusdp1/dp22-亚基聚合酶的同源物)。来自这两类的dna聚合酶已经显示出天然缺乏相关的5’到3’外切核酸酶活性,并具有3’到5’外切核酸酶(校对)活性。合适的dna聚合酶(poli或polii)可以衍生自具有与期望测定温度相似的最佳生长温度的古菌。[0673]热稳定的古菌dna聚合酶分离自热球菌属的种(furiosus、种gb-d、woesii、abysii、horikoshii)、嗜热球菌属(thermococcus)的种(kodakaraensiskodl、litoralis、种9degreesnorth-7、种jdf-3、gorgonarius)、隐蔽热网菌(pyrodictiumoccultum)和闪烁古生球菌(archaeoglobusfulgidus)。[0674]聚合酶也可以来自真细菌的种。有3类真细菌dna聚合酶,poli、ii和iii。polidna聚合酶家族中的酶具有5’到3’外切核酸酶活性,且某些成员也表现出3’到5’外切核酸酶活性。poliidna聚合酶天然缺乏5’到3’外切核酸酶活性,但确实表现出3’到5’外切核酸酶活性。poliiidna聚合酶代表细胞的主要复制性dna聚合酶,由多个亚基组成。poliii催化亚基缺乏5’到3’外切核酸酶活性,但在某些情况下,3’到5’外切核酸酶活性位于同一多肽中。[0675]有多种商业可获得的polidna聚合酶,其中一些已经修饰以降低或消除5’至3’外切核酸酶活性。[0676]合适的热稳定性polidna聚合酶可以从多种嗜热真细菌中分离,包括栖热菌属(thermus)的种和海栖热袍菌(thermotogamaritima),例如水生栖热菌(thermusaquaticus)(taq)、嗜热栖热菌(thermusthermophilus)(tth)和海栖热袍菌(tmaultma)。[0677]与以上所列那些相关的其他真细菌在thermophilicbacteria(kristjansson,j.k.,ed.)crcpress,inc.,bocaraton,fla.,1992中描述。[0678]本发明进一步提供了根据美国专利号5,677,152、6,479,264和6,183,998中公开的方法进行化学修饰的嵌合或非嵌合dna聚合酶,其内容在此通过引用整体并入。[0679]在以下参考文献中描述了与以上所列那些相关的其他古菌dna聚合酶:archaea:alaboratorymanual(robb,f.t.andplace,a.r.,eds.),coldspringharborlaboratorypress,coldspringharbor,n.y.,1995和thermophilicbacteria(kristjansson,j.k.,ed.)crcpress,inc.,bocaraton,fla.,1992。[0680](ii)b.示例性逆转录酶[0681]在各种实施方案中,本文公开的引导编辑器(pe)系统包括逆转录酶或其变体。[0682]逆转录酶是多功能酶,通常具有三种酶活性,包括rna和dna依赖性dna聚合活性,以及催化rna-dna杂交体中rna切割的rnaseh活性。一些逆转录酶突变体具有丧失功能的rnaseh部分以阻止对mrna的意外损伤。这些以mrna为模板合成互补dna(cdna)的酶首先在rna病毒中经鉴定。随后,直接从病毒颗粒、细胞或组织中分离和纯化逆转录酶。(例如,参见kacianetal.,1971,biochim.biophys.acta46:365-83;yangetal.,1972,biochem.biophys.res.comm.47:505-11;gerardetal.,1975,j.virol.15:785-97;liuetal.,1977,arch.virol.55187-200;katoetal.,1984,j.virol.methods9:325-39;lukeetal.,1990,biochem.29:1764-69andlegriceetal.,1991,j.virol.65:7004-07,每篇通过引用并入)。最近,为了寻求改进的特性,例如热稳定性、保真度和活性,已经创建了突变体和融合蛋白。本文涵盖了本领域已知的或可以使用本领域已知的方法制备的逆转录酶的任何野生型、变体和/或突变体形式。[0683]逆转录酶(rt)基因(或其中包含的遗传信息)可以从许多不同的来源获得。例如,该基因可以从经逆转录病毒感染的真核细胞中获得,或者从包含部分或整个逆转录病毒基因组的许多质粒中获得。此外,含有rt基因的信使rna样rna可以从逆转录病毒中获得。rt来源的实例包括但不限于莫洛尼鼠白血病病毒(moloneymurineleukemiavirus)(m-mlv或mlvrt);人t细胞白血病病毒1型(htlv-1);牛白血病病毒(blv);劳斯肉瘤病毒(roussarcomavirus)(rsv);人类免疫缺陷病毒(hiv);酵母,包括酵母菌(saccharomyces)、脉孢菌属(neurospora);果蝇属(drosophila);灵长类动物;和啮齿动物。参见,例如,weiss,etal/,u.s.pat.no.4,663,290(1987);gerard,g.r.,dna:271-79(1986);kotewicz,m.l.,etal.,gene35:249-58(1985);tanese,n.,etal.,proc.natl.acad.sci.(usa):4944-48(1985);roth,m.j.,atal.,j.biol.chem.260:9326-35(1985);michel,f.,etal.,nature316:641-43(1985);akins,r.a.,etal.,cell47:505-16(1986),emboj.4:1267-75(1985);andfawcett,d.f.,cell47:1007-15(1986)(每篇文献均通过引用整体并入本文)。[0684](a)野生型rt[0685]与本文公开的引导编辑器一起使用的示例性酶可以包括但不限于m-mlv逆转录酶和rsv逆转录酶。具有逆转录酶活性的酶是可商购的。在某些实施方案中,逆转录酶以反式提供给引导编辑器(pe)系统的其他组件。即,逆转录酶作为单独的组分表达或以其他方式提供,即,不是作为与napdnabp的融合蛋白。[0686]本领域普通技术人员将认识到野生型逆转录酶,包括但不限于莫洛尼鼠白血病病毒(m-mlv);人类免疫缺陷病毒(hiv)逆转录酶和禽肉瘤白血病病毒(aviansarcoma-leukosisvirus)(aslv)逆转录酶,其包括但不限于劳斯肉瘤病毒(rsv)逆转录酶、禽成髓细胞瘤病毒(avianmyeloblastosisvirus)(amv)逆转录酶、禽成红细胞增多症病毒(avianerythroblastosisvirus)(aev)辅助病毒mcav逆转录酶、禽髓细胞瘤病毒(avianmyelocytomatosisvirus)mc29辅助病毒mcav逆转录酶、禽网状内皮组织增生症病毒(avianreticuloendotheliosisvirus)(rev-t)辅助病毒rev-a逆转录酶、禽肉瘤病毒(aviansarcomavirus)ur2辅助病毒ur2av逆转录酶、禽肉瘤病毒y73辅助病毒yav逆转录酶、劳斯相关病毒(rousassociatedvirus)(rav)逆转录酶,以及成髓细胞瘤相关病毒(myeloblastosisassociatedvirus)(mav)逆转录酶可以适当地用于本文所描述的主题方法和组合物。[0687]示例性的野生型rt酶如下:[0688][0689][0690][0691](b)变体rt[0692]在各种实施方案中,逆转录酶可以是变体逆转录酶。如本文所用,“变体逆转录酶”包括任何天然存在或基因工程改造的变体,相对于参考序列(例如,参考野生型序列),其包含一个或多个突变(包括单一突变、倒位、缺失、插入和重排)。rt天然具有多种活性,包括rna依赖性dna聚合酶活性、核糖核酸酶h活性和dna依赖性dna聚合酶活性。总的来说,这些活性使酶能够将单链rna转化为双链cdna。在逆转录病毒和逆转录转座子中,这种edna可以整合到宿主基因组中,通过宿主细胞转录可以从中制成新的rna拷贝。变体rt可能包含影响一种或多种这些活性的突变(减少或增加这些活性,或一起消除这些活性)。此外,变体rt可以包含一种或多种突变,这些突变使rt更稳定或更不稳定,更不容易聚集,并促进纯化和/或检测,和/或其他特性或特征的修饰。[0693]本领域普通技术人员将认识到变体逆转录酶衍生自其他逆转录酶,包括但不限于莫洛尼鼠白血病病毒(m-mlv);人类免疫缺陷病毒(hiv)逆转录酶和禽肉瘤白血病病毒(aslv)逆转录酶,其包括但不限于劳斯肉瘤病毒(rsv)逆转录酶、禽成髓细胞瘤病毒(amv)逆转录酶、禽成红细胞增多症病毒(aev)辅助病毒mcav逆转录酶、禽髓细胞瘤病毒mc29辅助病毒mcav逆转录酶、禽网状内皮组织增生症病毒(rev-t)辅助病毒rev-a逆转录酶、禽肉瘤病毒ur2辅助病毒ur2av逆转录酶、禽肉瘤病毒y73辅助病毒yav逆转录酶、劳斯相关病毒(rav)逆转录酶,以及成髓细胞瘤相关病毒(mav)逆转录酶可以适当地用于本文所描述的主题方法和组合物。[0694]制备变体rt的一种方法是通过遗传修饰(例如,通过修饰野生型逆转录酶的dna序列)。本领域已知许多允许dna序列随机和靶向突变的方法(参见例如ausubelet.al.shorrprotocolsinmolecularbiology(1995)3.sup.rded.johnwiley&sons,inc.)。此外,还有许多用于定点诱变的商业可获得的试剂盒,包括常规和基于pcr的方法。实例包括快速定点诱变试剂盒定点诱变试剂盒(newengland)和genearttm定点诱变系统(thermofisher)。[0695]此外,可以根据本领域技术人员已知的方法通过插入突变或截短(n端、内部或c端插入或截短)来生成突变逆转录酶。如本文所用,术语“突变”指序列(例如核酸或氨基酸序列)内的残基用另一残基取代,或序列内一个或多个残基的缺失或插入。本文通常通过鉴定初始残基,随后是序列内残基的位置以及新取代的残基的身份来描述突变。用于产生本文提供的氨基酸取代(突变)的各种方法本领域中是熟知的,并且由例如greenandsambrook,molecularcloning:alaboratorymanual(4thed.,coldspringharborlaboratorypress,coldspringharbor,n.y.(2012))提供。突变可以包括多种类别,例如单碱基多态性、微重复区域、插入/缺失和倒位,并且不意味着以任何方式进行限制。突变可以包括“功能丧失”突变,这是降低或消除蛋白质活性的突变的正常结果。大多数功能丧失突变是隐性的,因为在杂合子中,第二个染色体拷贝携带未突变版本的编码全功能蛋白质的基因,其存在补偿了突变的影响。突变还包括“功能获得”突变,这是一种赋予除此之外正常情况下不存在的蛋白质或细胞异常活性的突变。许多功能获得性突变在调节序列中而不是编码区中,因此可能具有许多后果。例如,突变可能导致一个或多个基因在错误的组织中表达,这些组织获得了它们通常缺乏的功能。由于其性质,功能获得突变通常是显性的。[0696]本领域已知的较老的定点诱变方法依赖于将待突变序列亚克隆到载体中,例如m13噬菌体载体,其允许单链dna模板的分离。在这些方法中,将诱变引物(即能够与待突变位点退火但在待突变位点携带一个或多个错配核苷酸的引物)与单链模板退火,然后从诱变引物的3’末端开始聚合模板的互补物。然后将合成的双链体转化到宿主细菌中,并针对期望突变筛选噬菌斑。[0697]最近,定点诱变采用了pcr方法,其具有不需要单链模板的优点。此外,开发了不需要亚克隆的方法。在进行基于pcr的定点诱变时,必须考虑几个问题。第一,在这些方法中,需要减少pcr循环的次数,以防止聚合酶引入的不希望突变的扩增。第二,必须采用选择以便减少反应中持续存在的非突变亲本分子的数量。第三,优选延长长度的pcr方法以便允许单个pcr引物集的使用。第四,由于一些热稳定聚合酶的非模板依赖性末端延伸活性,在pcr生成的突变产物的平端连接之前,通常需要在规程中掺入末端抛光步骤。[0698]本领域中存在随机诱变方法,其将导致一组携带一个或多个随机定位突变的突变idno:1361485)氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%、或至少99.5%。[0704]在一些实施方案中,本公开还可以利用保留其功能性并且是本文公开的任何rt蛋白质的片段的rt片段。在一些实施方案中,rt片段长度为至少100个氨基酸。在一些实施方案中,该片段长度为至少100、150、200、250、300、350、400、450、500、550或多达600个或更多个氨基酸。[0705]在其他实施方案中,本公开内容还可以利用在n端或c端或两者处截短一定数量的氨基酸的rt变体,这导致截短的变体仍然保留足够的聚合酶功能。在一些实施方案中,rt截短变体在蛋白质的n端末端具有至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240或250个氨基酸的截短。在其他实施方案中,rt截短变体在蛋白质的c端末端具有至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少21、至少22、至少23、至少24、至少25、至少30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240或250个氨基酸的截短。仍然在其他实施方案中,rt截短变体在n端和c端末端具有相同或不同长度的截短。[0706]例如,本文公开的引导编辑器可以包括m-mlv逆转录酶的截短版本。在该实施方案中,逆转录酶含有4个突变(d200n、t306k、w313f、t330p;注意pe2中存在的l603w突变由于截短而不再存在)。编码这种截短编辑器的dna序列比pe2小522bp,因此使它潜在地对由于其大小而具有挑战性的dna序列递送(即腺相关病毒和慢病毒递送)的应用有用。该实施方案被称为mmlv-rt(trunc)并且具有以下氨基酸序列:[0707][0708]在各种实施方案中,本文公开的引导编辑器可以包含如下所描述的cas9变体之一,或者其中与任何参考rt变体具有至少约70%同一性、至少约80%同一性、至少约90%同一性、至少约95%同一性、至少约96%同一性、至少约97%同一性、至少约98%同一性、至少约99%同一性、至少约99.5%同一性或至少约99.9%同一性的rt变体。[0709]其他易错配逆转录酶已经在文献中描述,其中的每一种都设想用于本文的方法和组合物中。例如,易错配逆转录酶已描述于bebeneketal.,“error-pronepolymerizationbyhiv-1reversetranscriptase,”jbiolchem,1993,vol.268:10324-10334andsebastian-martinetal.,“transcriptionalinaccuracythresholdattenuatesdifferencesinrna-dependentdnasynthesisfidelitybetweenretroviralreversetranscriptases,”scientificreports,2018,vol.8:627中,每篇都通过引用并入。更进一步,逆转录酶,包括易错配逆转录酶,可以从商业供应商处获得,包括(ii)逆转录酶、amv逆转录酶、逆转录酶和m-mulv逆转录酶,均来自newengland或者amv逆转录酶xl、smartscribe逆转录酶、gpr超纯mmlv逆转录酶,均来自takarabiousa,inc.(原名clontech)。[0710]仍然在其他实施方案中,本方法和组合物可以利用已经进化成逆转录酶的dna聚合酶,如effefsonetal.,“syntheticevolutionaryoriginofaproofreadingreversetranscriptase,”science,june24,2016,vol.352:1590-1593所描述,其内容通过引用并入本文。[0711]在一些实施方案中,逆转录酶作为还包含napdnabp的融合蛋白的组分提供。换言之,在一些实施方案中,逆转录酶作为融合蛋白与napdnabp融合。[0712]下面提供了一些示例性逆转录酶,其可以与napdnabp蛋白质融合或根据本公开的各种实施方案作为单独蛋白质提供。示例性逆转录酶包括与以下野生型酶或部分酶具有至少80%、至少85%、至少90%、至少95%或至少99%序列同一性的变体:[0713][0714][0715][0716][0717]在各种实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可以包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的一个或多个以下突变:p51l、s67k、e69k、l139p、t197a、d200n、h204r、f209n、e302k、e302r、t306k、f309n、w313f、t330p、l345g、l435g、n454k、d524g、e562q、d583n、h594q、l603w、e607k或d653n。[0718]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可以包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的一个或多个以下突变:p51x、s67x、e69x、l139x、t197x、d200x、h204x、f209x、e302x、t306x、f309x、w313x、t330x、l345x、l435x、n454x、d524x、e562x、d583x、h594x、l603x、e607x、或d653x,其中“x”可以是任何氨基酸。[0719]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的p51x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是l。[0720]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的s67x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是k。[0721]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的e69x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是k。[0722]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的l139x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是p。[0723]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的t197x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是a。[0724]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在sfqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的d200x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是n。[0725]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的h204x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是r。[0726]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的f209x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是n。[0727]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的e302x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是k。[0728]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的e302x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是r。[0729]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的t306x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是k。[0730]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的f309x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是n。[0731]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的w313x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是f。[0732]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的t330x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是p。[0733]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的l345x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是g。[0734]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的l435x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是g。[0735]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的n454x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是k。[0736]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的d524x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是g。[0737]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的e562x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是q。[0738]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的d583x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是n。[0739]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的h594x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是q。[0740]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的l603x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是w。[0741]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的e607x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是k。[0742]在各种其他实施方案中,本文所描述的引导编辑器(具有作为融合配偶体或反式提供的rt)可包括变体rt,其包含在seqidno:1361485的野生型m-mlvrt中或者在另一个野生型rt多肽序列中的相应氨基酸位置的d653x突变,其中“x”可以是任何氨基酸。在一些实施方案中,x是n。[0743]这里描述的引导编辑器(pe)系统涵盖了在以下美国专利中的任一个中描述或公开的任何公开可获得的逆转录酶(每个专利均通过引用整体并入):美国专利号:10,202,658;10,189,831;10,150,955;9,932,567;9,783,791;9,580,698;9,534,201;和9,458,484,以及可以使用用于安装突变的已知方法或用于进化蛋白质的已知方法制备的其任何变体。以下参考文献描述了本领域的逆转录酶。他们的每个公开内容均通过引用整体并入本文。[0744]herzig,e.,voronin,n.,kucherenko,n.&hizi,a.anovelleu92mutantofhiv-1reversetranscriptasewithaselectivedeficiencyinstrandtransfercausesalossofviralreplication.j.virrol.89,8119-8129(2015).[0745]mohr,g.etal.areversetranscriptase-cas1fusionproteincontainsacas6domainrequiredforbothcrisprrnabiogenesisandrnaspaceracquisition.mol.cell72,700-714.e8(2018).[0746]zhao,c.,liu,f.&pyle,a.m.anultraprocessive,accuratereversetranscriptaseencodedbyametazoangroupiiintron.rna24,183-195(2018).[0747]zimmerly,s.&wu,l.anunexploreddiversityofreversetranscriptasesinbacteria.microbiolspectr3,mdna3-0058-2014(2015).[0748]ostertag,e.m.&kazazianjr,h.h.biologyofmammalianl1retrotransposons.annualreviewofgenetics35,501-538(2001).[0749]perach,m.&hizi,a.catalyticfeaturesoftherecombinantreversetranscriptaseofbovineleukemiavirusexpressedinbacteria.virology259,transcriptionofr2bmrnaisprimedbyanickatthechromosomaltargetsite:amechanismfornon-ltrretrotransposition.cell72,595-605(1993).[0765]nottingham,r.m.etal.rna-seqofhumanreferencernasamplesusingathermostablegroupiiintronreversetranscriptase.rna22,597-613(2016).[0766]telesnitsky,a.&goff,s.p.rnasehdomainmutationsaffecttheinteractionbetweenmoloneymurineleukemiavirusreversetranscriptaseanditsprimer-template.proc.natl.acad.sci.u.s.a.90,1276-1280(1993).[0767]halvas,e.k.,svarovskaia,e.s.&pathak,v.k.roleofmurineleukemiavirusreversetranscriptasedeoxyribonucleosidetriphosphate-bindingsiteinretroviralreplicationandinvivofidelity.journalofvirology74,10349-10358(2000).[0768]nowak,e.etal.structuralanalysisofmonomericretroviralreversetranscriptaseincomplexwithanrna/dnahybrid.nucleicacidsres41,3874-3887(2013).[0769]stamos,j.l.,lentzsch,a.m.&lambowitz,a.m.structureofathermostablegroupiiintronreversetranscriptasewithtemplate-primeranditsfunctionalandevolutionaryimplications.molecularcell68,926-939.e4(2017).[0770]das,d.&georgiadis,m.m.thecrystalstructureofthemonomericreversetranscriptasefrommoloneymurineleukemiavirus.structure12,819-829(2004).[0771]avidan,o.,meer,m.e.,oz,i.&hizi,a.theprocessivityandfidelityofdnasynthesisexhibitedbythereversetranscriptaseofbovineleukemiavirus.europeanjournalofbiochemistry269,859-867(2002).[0772]gerard,g.f.etal.theroleoftemplate-primerinprotectionofreversetranscriptasefromthermalinactivation.nucleicacidsres30,3118-3129(2002).[0773]monot,c.etal.thespecificityandflexibilityofl1reversetranscriptionprimingatimperfectt-tracts.plosgenetics9,e1003499(2013).[0774]mohr,s.etal.thermostablegroupiiintronreversetranscriptasefusionproteinsandtheiruseincdnasynthesisandnext-generationrnasequencing.rna19,958-970(2013).[0775]上述提到的与逆转录酶相关的任何参考文献,如果尚未说明,在此通过引用整体并入。[0776]d.pe融合蛋白[0777]本文所述的引导编辑器(pe)系统考虑包含napdnabp和聚合酶(例如dna依赖性dna聚合酶或rna依赖性dna聚合酶,如逆转录酶)并且任选地通过接头连接的融合蛋白。该申请考虑将任何合适的napdnabp和聚合酶(例如,dna依赖性dna聚合酶或rna依赖性dna聚合酶,如逆转录酶)组合在单个融合蛋白中。nadnabps和聚合酶(例如dna依赖性dna聚合酶或rna依赖性dna聚合酶,如逆转录酶)的实例分别在本文中定义。由于聚合酶是本领域众所周知的,并且氨基酸序列易于获得,因此本公开并不意味着以任何方式限于本文鉴定的那些特定聚合酶。[0778]在各种实施方案中,融合蛋白可以包含任何合适的结构构型。例如,融合蛋白可以从n端到c端方向包含与聚合酶(例如dna依赖性dna聚合酶或rna依赖性dna聚合酶,如逆转录酶)融合的napdnabp。在其他实施方案中,融合蛋白可以从n端到c端方向包含与napdnabp融合的聚合酶(例如逆转录酶)。融合结构域可以任选地通过接头连接,例如氨基酸序列。在其他实施方案中,融合蛋白可以包含结构nh2-[napdnabp]-[聚合酶]-cooh;或nh2-[聚合酶]-[napdnabp]-cooh,其中″]-[″的每个例子表示存在任选的接头序列。在聚合酶是逆转录酶的实施方案中,融合蛋白可以包含结构nh2-[napdnabp]-[rt]-cooh;或nh2-[rt]-[napdnabp]-cooh,其中″]-[″的每个例子表示存在任选的接头序列。[0779]在图14中描述了示例性融合蛋白,其显示了包含经由接头序列与切口酶cas9(“cas9(h840a)”)融合的mlv逆转录酶(″mlv-rt″)的融合蛋白。本实例不旨在限制可用于本文所述的引导编辑器(pe)系统的融合蛋白的范围。[0780]在各种实施方案中,引导编辑器融合蛋白可具有以下氨基酸序列(本文称为″pe1″),其包括包含h840a突变的cas9变体(即,cas9切口酶)和m-mlvrt野生型,以及n端nls序列(19个氨基酸)和将cas9切口酶结构域的c端连接到rt结构域的n端的氨基酸接头(32个氨基酸)。pe1融合蛋白具有以下结构:[nls]-[cas9(h840a)]-[接头]-[mmlv_rt(wt)]。pe1及其个体组分的氨基酸序列如下:[0781][0782]在另一个实施方案中,引导编辑器融合蛋白可具有以下氨基酸序列(本文称为″pe2″),其包括包含h840a突变的的cas9变体(即,cas9切口酶)和包含突变d200n、t330p、l603w、t306k和w313f的m-mlvrt,以及n端nls序列(19个氨基酸)和将cas9切口酶结构域的c端连接到rt结构域的n端的氨基酸接头(33个氨基酸)。pe2融合蛋白具有以下结构:[nls]-[cas9(h840a)]-[接头]-[mmlv_rt(d200n)(t330p)(l603w)(t306k)(w313f)]。pe2的氨基酸序列如下:[0783][0784]仍然在其他实施方案中,引导编辑器融合蛋白可具有以下氨基酸序列:[0785][0786][0787][0788]在各种实施方案中,本文考虑的引导编辑器融合蛋白还可包括上述公开序列的任何变体,所述序列变体具有与pe1、pe2或任何上述指示的引导编辑器融合序列至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同的氨基酸序列。[0789]在一些实施方案中,接头可用于连接本发明的任何肽或肽结构域或部分(例如,与逆转录酶连接或融合的napdnabp)。[0790]在其他实施方案中,引导编辑器融合蛋白可以基于具有改变的pam特异性的sacas9或spcas9切口酶,如以下示例性序列:[0791][0792][0793]在其他实施方案中,本文考虑的引导编辑器融合蛋白可包括与截短形式的m-mlv逆转录酶融合的cas9切口酶(例如,cas9(h840a))。在该实施方案中,逆转录酶还包含4个突变(d200n、t306k、w313f、t330p;注意pe2中存在的l603w突变由于截断而不再存在)。编码这种截断编辑器的dna序列比pe2小522bp,因此它可能适用于dna序列的递送因其大小而具有挑战性的应用(即腺相关病毒和慢病毒递送)。该实施方案被称为cas9(h840a)-mmlv-rt(trunc)或″pezai2-短″或″pe2-trunc″,并具有以下氨基酸序列:[0794][0795]见图36,其提供了条形图来比较pe2、pe2-t.runc、pe3和pe3-trunc在各种细胞系中不同靶项位点的效率(即″具有特定编辑或插入缺失的总测序读数的百分比″)。数据显示包含截短的rt变体的引导编辑器与包含非截短的rt蛋白的引导编辑器大致一样有效。[0796]在各种实施方案中,本文考虑的引导编辑器融合蛋白还可以包括上述公开序列的任何变体,其具有与pe1、pe2或任何上述表示的引导编辑器融合序列至少约70%相同、至少约80%相同、至少约90%、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同的氨基酸序列。[0797]在某些实施方案中,接头可用于连接本发明的任何肽或肽结构域或部分(例如,与逆转录酶连接或融合的napdnabp)。[0798]e.接头和其他融合蛋白结构域[0799]除了napdnabp(例如,cas9结构域)和聚合酶结构域(例如,rt结构域)之外,pe融合蛋白可以包含各种其他结构域。例如,在napdnabp是cas9并且聚合酶是rt的情况下,pe融合蛋白可以包含一个或多个连接cas9结构域和rt结构域的接头。接头还可以将其他功能结构域,如核定位序列(nls)或fen1(或其他flap核酸内切酶)连接到pe融合蛋白或其结构域。[0800](i)接头[0801]如上文定义,如本文所用,术语″接头″是指连接两个分子或部分例如核酸酶的结合结构域和切割结构域的化学基团或分子。在一些实施方案中,接头连接rna可编程核酸酶的grna结合结构域和聚合酶(例如逆转录酶)的催化结构域。在一些实施方案中,接头连接dcas9和逆转录酶。通常,接头位于两个基团、分子或其他部分之间或两侧,并经由共价键相互连接,从而将两者连接起来。在一些实施方案中,接头是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。在一些实施方案中,接头的长度为5-100个氨基酸,例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸的长度。更长或更短的接头也被考虑。[0802]接头可以像共价键一样简单,或者它可以是许多原子长度的聚合接头。在一些实施方案中,接头是多肽或基于氨基酸。在其他实施方案中,接头不是肽样的。在一些实施方案中,接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在一些实施方案中,接头是酰胺键的碳-氮键。在一些实施方案中,接头是环状或无环的、取代或未取代的、支化或未支化的脂族或杂脂族接头。在一些实施方案中,接头是聚合物的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在一些实施方案中,接头包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中,接头包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施方案中,接头包含氨基己酸(ahx)的单体、二聚体或聚合物。在一些实施方案中,接头基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,接头包含聚乙二醇部分(peg)。在其他实施方案中,接头包含氨基酸。在一些实施方案中,接头包含肽。在一些实施方案中,接头包含芳基或杂芳基部分。在一些实施方案中,接头基于苯环。接头可以包括功能化部分以促进亲核试剂(例如,硫醇、氨基)从肽连接到接头。任何亲电子试剂都可以用作接头的一部分。示例性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔(michael)受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。[0803]在一些其他实施方案中,接头包含氨基酸序列(ggggs)n(seqidno:1361520)、(g)n(seqidno:1361521)、(eaaak)n(seqidno:1361522)、(ggs)n(seqidno:1361523)、(sggs)n(seqidno:1361524)、(xp)n(seqidno:1361525)或其任何组合,其中n独立地为1和30之间的整数,其中x是任何氨基酸。在一些实施方案中,接头包含氨基酸序列(ggs)n(seqidno:1361526),其中n为1、3或7。在一些实施方案中,接头包含氨基酸序列sgsetpgtsesatpes(seqidno:1361527)。在一些实施方案中,接头包含氨基酸序列sggssggssgsetpgtsesatpessggssggs(seqidno:1361528)。在一些实施方案中,接头包含氨基酸序列sggsggsggs(seqidno:1361529)。在一些实施方案中,接头包含氨基酸序列sggs(seqidno:1361530)。[0804]特别地,以下接头可用于各种实施方案中以将引导编辑器结构域彼此连接:[0805][0806][0807](ii)核定位序列(nls)[0808]在各种实施方案中,pe融合蛋白可包含一种或多种核定位序列(nls),其有助于促进蛋白质易位到细胞核中。此类序列在本领域是众所周知的并且可以包括以下实例:[0809][0810]上述nls实例是非限制性的。pe融合蛋白可以包含任何已知的nls序列,包括cokoletal.,“findingnuclearlocalizationsignals,”emborep.,2000,1(5):411-415以及freitasetal.,“mechanismsandsignalsforthenuclearimportofproteins,”currentgenomics,2009,10(8):550-7中描述的任何nls序列,在此通过引用并入。[0811]在各种实施方案中,本文公开的引导编辑器和编码引导编辑器的构建体进一步包含一个或多个,优选地,至少两个核定位信号。在某些实施方案中,引导编辑器包含至少两个nls。在具有至少两个nls的实施方案中,nls可以是相同的nls或者它们可以是不同的nls。此外,nls可以作为融合蛋白的部分与引导编辑器的其余部分一起表达。在一些实施方案中,一个或多个nls是二分nls(″bpnls″)。在某些实施方案中,所公开的融合蛋白包含两个二分nls。在一些实施方案中,所公开的融合蛋白包含多于两个的二分nls。[0812]nls融合的位置可以在n端、c端或在引导编辑器的序列内,例如,插入在编码的napdnabp组分(例如,cas9)和聚合酶结构域(例如,逆转录酶结构域)之间。[0813]nls可以是本领域中任何已知的nls序列。nls也可能是任何未来发现的用于核定位的nls。nls还可以是任何天然存在的nls,或任何非天然存在的nls(例如,具有一个或多个所需突变的nls)。[0814]术语″核定位序列″或″nls″是指例如通过核转运促进蛋白质输入细胞核的氨基酸序列。核定位序列是本领域已知的并且对技术人员来说是显而易见的。例如,planketal.2000年11月23日提交,2001年5月31日作为wo/2001/038547公开的国际pct申请pct/ep2000/011690中描述的nls序列,其内容在此通过引用并入。在一些实施方案中,nls包含氨基酸序列pkkkrkv(seqidno:1361531)、mdsllmnrrkflyqfknvrwakgrretylc(seqidno:1361533)、krtadgsefespkkkrkv(seqidno:1361659)或krtadgsefepkkkrkv(seqidno:1361660)的氨基酸序列。在其他实施方案中,nls包含氨基酸序列nlskrpaaikkagqakkkk(seqidno:1361661)、paakrvkld(seqidno:1361536)、rqrrnelkrsf(seqidno:1361662)、nqssnfgpmkggnfggrssgpyggggqyfakprnqggy(seqidno:1361663)。[0815]在本公开的一方面,可以用一个或多个核定位信号(nls),优选地至少两个nls来修饰引导编辑器。在某些实施方案中,引导编辑器用两个或更多个nls修饰。本公开考虑使用在公开时本领域已知的任何核定位信号,或在即时提交时间之后在现有技术中被识别或以其他方式可用的任何核定位信号。代表性的核定位信号是将蛋白质引导至表达该序列的细胞核的肽序列。核定位信号主要是碱性的,几乎可以位于蛋白质氨基酸序列的任何位置,通常包含四个氨基酸(autieri&agrawal,(1998)j.biol.chem.273:14731-37,在此通过引用并入)至八个氨基酸的短序列,并且通常富含赖氨酸和精氨酸残基(maginetal.,(2000)virology274:11-16,在此通过引用并入)。核定位信号通常包含脯氨酸残基。多种核定位信号已被鉴定并已用于影响生物分子从细胞质到细胞核的转运。参见,例如,tinlandetal.,(1992)proc.natl.acad.sci.u.sa.89:7442-46;moedeetal.,(1999)febslett.461:229-34,其通过引用并入。目前认为易位涉及核孔蛋白。[0816]大多数nls可分为三类:(i)单部分nls,以sv40大t抗原nls(pkkkrkv(seqidno:1361531))为例;(ii)由两个基本结构域组成的二分基序,由不同数量的间隔氨基酸隔开,并以爪蟾核质蛋白nls(krxxxxxxxxxxkkkl(sfqidno:1361664))为例;(iii)非常规序列,如hnrnpa1蛋白的m9、流感病毒核蛋白nls和酵母ga14蛋白nls(dingwallandlaskey1991)。[0817]核定位信号出现在蛋白质的氨基酸序列中的不同点。nls已经在n端、c端和蛋白质的中心区域被鉴定出来。因此,本公开提供了可以在引导编辑器的c端、n端以及在内部区域用一个或多个nls修饰的引导编辑器。应选择不作为组分nls残基发挥作用的较长序列的残基,以免干扰(例如在张力或空间上干扰)核定位信号本身。因此,虽然对包含nls的序列的组成没有严格限制,但实际上,此类序列在长度和组成上可以在功能上受到限制。[0818]本公开考虑了任何合适的手段,通过这些手段来修改引导编辑器以包括一个或多个nls。一方面,可将引导编辑器设计成表达在其n端或c端(或两者)翻译融合到一个或多个nls的引导编辑器蛋白,即形成引导编辑器-nls融合构建体。在其他实施方案中,编码引导编辑器的核苷酸序列可以被遗传修饰以在编码的引导编辑器的内部区域中并入编码一个或多个nls的阅读框。此外,nls可以包括在引导编辑器和n端、c端或内部连接的nls氨基酸序列之间编码的各种氨基酸接头或间隔区,例如,以及在蛋白质的中心区域中。因此,本公开还提供了用于表达包含引导编辑器和一个或多个nls的融合蛋白的核苷酸构建体、载体和宿主细胞。[0819]本文所述的引导编辑器还可以包含核定位信号,其通过一个或多个接头连接至引导编辑器,例如聚合物、氨基酸、核酸、多糖、化学或核酸接头元件。本公开的预期范围内的接头不意图具有任何限制并且可以是任何合适类型的分子(例如,聚合物、氨基酸、多糖、核酸、脂质或任何合成的化学接头结构域)并通过实现在引导编辑器和一个或多个nls之间形成键(例如,共价连接、氢键)的任何合适的策略来连接到引导编辑器上。[0820](iii)flap核酸内切酶(例如,fen1)[0821]在各种实施方案中,pe融合蛋白可包含一种或多种flap核酸内切酶(例如,fen1),其指催化去除5’单链dnaflap的酶。这些是天然存在的酶,用于去除细胞过程中形成的5’flap,包括dna复制。本文所述的引导编辑方法可以利用内源提供的flap核酸内切酶或反式提供的那些flap核酸内切酶来去除在引导编辑期间在靶位点形成的内源dna的5’flap。flap核酸内切酶是本领域已知的,并且可以在pateletal.,“flapendonucleasespass5’‑flapsthroughaflexiblearchusingadisorder-thread-ordermechanismtoconferspecificityforfree5’‑ends,”nucleicacidsresearch,2012,40(10):4507-4519和tsutakawaetal.,“humanflapendonucleasestructures,dnadouble-baseflipping,andaunifiedunderstandingofthefen1superfamily,”cell,2011,145(2):198-211(每个在此都通过引用并入)的描述中找到。示例性flap核酸内切酶是fen1,其可由以下氨基酸序列代表:[0822][0823]flap核酸内切酶还可以包括任何的fen1变体、突变体或其他flap核酸内切酶直向同系物、同源物或变体。非限制性的实例如下:[0824][0825][0826]在各种实施方案中,本文考虑的引导编辑器融合蛋白可以包括上述公开序列的任何flap核酸内切酶变体,其具有与上述任何序列至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同的氨基酸序列。[0827]可被本方法利用以促进去除5’末端单链dnaflap的其他核酸内切酶包括但不限于(1)trex2,(2)exo1核酸内切酶(例如keijzersetal.,bioscirep.2015,35(3):e00206)[0828]trex2[0829]3’三引导修复核酸外切酶2(trex2)-人[0830]登录号nm_080701[0831][0832][0833]3’三引导修复核酸外切酶2(trex2)-小鼠[0834]登录号nm_011907[0835][0836]3’三引导修复核酸外切酶2(trex2)-大鼠[0837]登录号nm_001107580[0838][0839]exol[0840]人核酸外切酶1(exo1)涉及许多不同的dna代谢过程,包括dna错配修复(mmr)、微介导的末端连接、同源重组(hr)和复制。人exo1属于真核核酸酶rad2/xpg家族,其中还包括fen1和gen1。rad2/xpg家族在从噬菌体到人类的各种物种的核酸酶结构域中都是保守的。exo1基因产物表现出5’核酸外切酶和5’flap活性。此外,exo1含有固有的5’rn酶h活性。人类exo1对处理双链dna(dsdna)、切口、空位、假y结构具有高亲和力,并且可以使用其继承的flap活性解决holliday连接。人exo1涉及mmr,并含有与mlh1和msh2直接相互作用的保守结合结构域。pcna、mutsα(msh2/msh6复合物)、14-3-3、mrn和9-1-1复合物可积极刺激exo1核溶解活性。[0841]核酸外切酶1(exo1)登录号nm_003686(智人核酸外切酶1(exo1),转录变体3)-同种型a[0842][0843]核酸外切酶1(exo1)登录号nm_006027(智人核酸外切酶1(exo1),转录变体3)-同种型b[0844][0845][0846]核酸外切酶1(exo1)登录号nm_001319224(智人核酸外切酶1(exo1),转录变体4)-同种型c[0847][0848](iv)内含肽和分裂内含肽[0849]应当理解,在一些实施方案中(例如,使用aav颗粒在体内递送引导编辑器),分裂多肽(例如,脱氨酶或napdnabp)或融合蛋白(例如,引导编辑器)为n端一半和c端一半,分别递送它们,然后允许它们共定位以在细胞内重新形成完整蛋白(视情况而定,或融合蛋白)可能是有利的。蛋白质或融合蛋白质的分开的一半可以各自包含分裂内含肽标签以通过蛋白质反式剪接机制促进完整蛋白或融合蛋白的再形成。[0850]通过分裂内含肽催化的蛋白质反式剪接为蛋白质连接提供了完全酶促的方法。分裂内含肽本质上是连续的内含肽(例如微型内含肽)被分成两个件分别命名为n内含肽和c内含肽。分裂内含肽的n内含肽和c内含肽可以非共价结合形成活性内含肽,并以与连续内含肽基本相同的方式催化剪接反应。已在自然界中发现了分裂内含肽,也在实验室中工程改造了分裂内含肽。如本文所用,术语″分裂内含肽″是指其中在n端和c端氨基酸序列之间存在一个或多个肽键断裂使得n端和c端序列成为单独的分子的任何内含肽,其中单独的分子可以非共价地重新结合或重组为对反式剪接反应起作用的内含肽。任何具有催化活性的内含肽或其片段均可用于衍生用于本发明方法的分裂内含肽。例如,在一方面,分裂内含肽可源自真核内含肽。在另一方面,分裂内含肽可源自细菌内含肽。在另一方面,分裂内含肽可源自古细菌内含肽。优选地,如此衍生的分裂内含肽将仅具有对催化反式剪接反应必需的氨基酸序列。[0851]如本文所用,″n端分裂内含肽(in)″是指包含对反式剪接反应起作用的n端氨基酸序列的任何内含肽序列。因此,in还包括在发生反式剪接时剪出的序列。in可以包含天然存在的内含肽序列的n端部分的修饰的序列。例如,in可以包含额外的氨基酸残基和/或突变的残基,只要包含此类的额外的和/或突变的残基不会使in在反式剪接中失去功能。优选地,包含额外的和/或突变的残基改善或增强in的反式剪接活性。[0852]如本文所用,″c端分裂内含肽(ic)″是指包含对反式剪接反应起作用的c端氨基酸序列的任何内含肽序列。一方面,ic包含4至7个连续氨基酸残基,其中至少4个氨基酸来自其衍生自的内含肽的最后β链。因此,ic还包括在发生反式剪接时剪接出的序列。ic可以包含天然存在的内含肽序列的c端部分的修饰的序列。例如,ic可以包含额外的氨基酸残基和/或突变的残基,只要包含此类的额外的和/或突变的残基不会使in在反式剪接中失去功能。优选地,包含额外的和/或突变的残基改善或增强ic的反式剪接活性。[0853]在本发明的一些实施方案中,与ic或in连接的肽可包含额外的化学部分,其中包括荧光基团、生物素、聚乙二醇(peg)、氨基酸类似物、非天然氨基酸、磷酸盐基团、糖基团、放射性同位素标记和药物分子等。在其他实施方案中,与ic连接的肽可包含一个或多个化学反应性基团,其中包括酮、醛、cys残基和lys残基等。当存在″内含肽剪接多肽(isp)″时,分裂内含肽的n内含肽和c内含肽可以非共价结合形成活性内含肽并催化剪接反应。如本文所用,″内含肽剪接多肽(isp)″是指当ic、in或两者从分裂内含肽去除时保留的分裂内含肽的氨基酸序列部分。在某些实施方案中,in包括isp。在另一个实施方案中,ic包括isp。在又一个实施方案中,isp是分离的肽,它既不与in也不与ic共价连接。[0854]分裂内含肽可以通过工程改造非结构化环中的一个或多个分裂位点或在微型内含肽结构中发现的-12个保守β链之间插入氨基酸序列而从连续内含肽产生。β链之间区域内分裂位点的位置可能存在一些灵活性,前提是分裂的产生不会破坏内含肽的结构(特别是结构化的β链)达到足以使蛋白质剪接活性丢失的程度。[0855]在蛋白质反式剪接中,一个前体蛋白质由n外显肽部分和随后的n内含肽组成,另一种前体蛋白质由c内含肽和随后的c外显肽部分组成,以及反式剪接反应(由n和c内含肽共同催化)切除两个内含肽序列并用肽键连接这两个外显肽序列。蛋白质反式剪接是酶促反应,可以用非常低(例如微摩尔)浓度的蛋白质工作,并且可以在生理条件下进行。[0856]示例性序列如下:[0857]配体依赖性内含肽的名称序列[0858]2-4内含肽:[0859][0860]3-2内含肽[0861][0862][0863]30r3-1内含肽[0864][0865]30r3-2内含肽[0866][0867]30r3-3内含肽[0868][0869][0870]37r3-1内含肽[0871][0872]37r3-2内含肽[0873][0874]37r3-3内含肽[0875][0876][0877]尽管内含肽最常被发现为连续结构域,但有些以自然分裂的形式存在。在这种情况下,这两个片段作为单独的多肽表达,并且必须在剪接发生之前结合,即所谓的蛋白质反式剪接。[0878]示例性分裂内含肽是sspdnae内含肽,其包含两个亚基,即dnae-n和dnae-c。这两个不同的亚基由单独的基因编码,即dnae-n和dnae-c,它们分别编码dnae-n和dnae-c亚基。dnae是天然存在于集胞藻pcc6803(synechocytissp.pcc6803)的分裂内含肽,能够指导两种单独的蛋白质的反式剪接,每种蛋白质都包含与dnae-n或dnae-c的融合体。[0879]另外的天然存在的或工程改造的分裂内含肽序列是本领域已知的或可以由本文所述的全内含肽序列或本领域可获得的那些内含肽序列制成。分裂内含肽序列的实例可以在stevensetal.,“apromiscuoussplitinteinwithexpandedproteinengineeringapplications,”pnas,2017,vol.114:8538-8543;iwaietal.,“highlyefficientproteintrans-splicingbyanaturallysplitdnaeinteinfromnostcpunctiforme,febslett,580:1853-1858中找到,每篇文献在此均通过引用并入。额外的分裂内含肽序列可以在,例如,wo2013/045632、wo2014/055782、wo2016/069774和ep2877490中找到,其各自的内容在此通过引用并入。[0880]此外,已经在体内和体外描述了蛋白质反式剪接(shingledecker,etal.,gene207:187(1998),southworth,etal.,emboj.17:918(1998);mills,etal.,proc.natl.acad.sci.usa,95:3543-3548(1998);lew,etal.,j.biol.chem.,273:15887-15890(1998);wu,etal.,biochim.biophys.acta35732:1(1998b),yamazaki,etal.,j.am.chem.soc.120:5591(1998),evans,etal.,j.biol.chem.275:9091(2000);otomo,etal.,biochemistry38:16040-16044(1999);otomo,etal.,j.biolmol.nmr14:105-114(1999);scott,etal.,proc.natl.acad.sci.usa96:13638-13643(1999))并提供了表达关于随后经历连接以形成功能性产物的两个无活性片段的蛋白质的机会,例如,如图66和67中显示,关于从两个单独表达的一半形成完整的pe融合蛋白。[0881](v)rna-蛋白质募集系统[0882]在各种实施方案中,两个单独的蛋白质结构域(例如,cas9结构域和聚合酶结构域)可以通过使用″rna-蛋白质募集系统″,如″ms2标签技术″,彼此共定位以形成功能复合物(类似于包含两个单独的蛋白质结构域的融合蛋白的功能)。此类系统通常用″rna-蛋白质相互作用结构域″(又名″rna-蛋白质募集结构域″)标签一个蛋白质结构域,用″rna-结合蛋白″标签另一个蛋白质结构域,其中″rna-结合蛋白″特异性地识别并结合到rna-蛋白质相互作用结构域,例如,特异的发夹结构。可以利用这些类型的系统来共定位引导编辑器的域结构,以及为引导编辑器募集附加功能,如ugi结构域。在一个实例中,ms2标签技术基于ms2噬菌体外壳蛋白(″mcp″或″ms2cp″)与噬菌体基因组中存在的茎环或发夹结构(即″ms2发夹″)的自然相互作用。在ms2发夹的情况下,它被ms2噬菌体外壳蛋白(mcp)识别和结合。因此,在一个示例性场景中,脱氨酶-ms2融合体可以募集cas9-mcp融合体。[0883]本领域中描述了其他模块化rna-蛋白质相互作用结构域的综述,例如,johanssonetal.,“rnarecognitionbythems2phagecoatprotein,”semvirol.,1997,vol.8(3):176-185;delebecqueetal.,“organizationofintracellularreactionswithrationallydesignedrnaassemblies,”science,2011,vol.333:470-474;malietal.,“cas9transcriptionalactivatorsfortargetspecificityscreeningandpairednickasesforcooperativegenomeengineering,”nat.biotechnol.,2013,vol.31:833-838;以及zalatanetal.,“engineeringcomplexsynthetictranscriptionalprogramswithcrisprrnascaffolds,”cell,2015,vol.160:339-350中描述的,每篇文章在此均通过引用整体并入。其他系统包括专门募集pcp蛋白的pp7发夹和专门募集com蛋白的″com″发夹。见zalatanetal。[0884]ms2发夹(或等效地称为″ms2适体″)的核苷酸序列为:[0885][0886]mcp或ms2cp的氨基酸序列为:[0887][0888][0889](vi)ugi结构域[0890]在其他实施方案中,本文所述的引物编辑器可包含一个或多个尿嘧啶糖基化酶抑制剂结构域。如本文所用术语″尿嘧啶糖基化酶抑制剂(ugi)″或″ugi结构域″是指能够抑制尿嘧啶-dna糖基化酶碱基切除修复酶的蛋白质。在一些实施方案中,ugi结构域包含野生型ugi或如seqidno:1361681中所示的ugi。在一些实施方案中,本文提供的ugi蛋白包括ugi的片段和与ugi或ugi片段同源的蛋白质。例如,在一些实施方案中,ugi结构域包含seqidno:1361681中列出的氨基酸序列的片段。在一些实施方案中,ugi片段包含包含至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的如seqidno:1361681中所示的氨基酸序列。在一些实施方案中,包含ugi或ugi片段或ugi或ugi片段的同源物的蛋白质,被称为″ugi变体″。ugi变体与ugi或其片段具有同源性。例如,ugi变体至少与野生型ugi或如seqidno:1361681中所示的ugi至少70%相同、至少75%相同、至少80%相同、至少85%相同、至少90%相同、至少95%相同、至少96%相同、至少97%、至少98%、至少99%、至少99.5%或至少99.9%相同。在一些实施方案中,ugi变体包含ugi的片段,使得该片段与野生型ugi或如seqidno:1361681中所示的ugi的对应片段至少70%相同,至少80%相同,至少90%相同,至少95%相同,至少96%相同,至少97%相同,至少98%相同、至少99%相同、至少99.5%相同、或至少99.9%相同。在一些实施方案中,ugi包含以下氨基酸序列:[0891]尿嘧啶-dna糖基化酶抑制剂:[0892]>sp|p14739|ungi_bppb2[0893][0894]本文所述的引导编辑器可包含多于一个的ugi结构域,其可被如本文所述的一个或多个接头隔开。[0895](vii)额外的pe元件[0896]在某些实施方案中,本文所述的引导编辑器可包含碱基修复抑制剂。术语″碱基修复抑制剂″或″ibr″是指能够抑制核酸修复酶,例如碱基切除修复酶的活性的蛋白质。在一些实施方案中,ibr是ogg碱基切除修复的抑制剂。在一些实施方案中,ibr是碱基切除修复抑制剂(″iber″)。碱基切除修复的示例性抑制剂包括ape1、endoiii、endoiv、endov、endoviii、fpg、hogg1、hneil1、t7endoi、t4pdg、udg、hsmug1和haag的抑制剂。在一些实施方案中,ibr是endov或haag的抑制剂。在一些实施方案中,ibr是iber,其可以是无催化活性的糖基化酶或无催化活性的双加氧酶或氧化酶的小分子或肽抑制剂,或其变体。在一些实施方案中,ibr是iber,其可以是tdg抑制剂、mbd4抑制剂或alkbh酶抑制剂。在一些实施方案中,ibr是包含无催化活性的tdg或无催化活性的mbd4的iber。示例性无催化活性的tdg是seqidno:3872(人tdg)的n140a突变体。[0897]下面提供了一些示例性糖基化酶。这些糖基化酶结构域中任一个的催化失活变体是可以融合到本公开中提供的引导编辑器的napdnabp或聚合酶结构域的iber。[0898]ogg(人)[0899][0900]mpg(人)[0901][0902][0903]mbd4(人)[0904][0905]tdg(人)[0906][0907]在一些实施方案中,本文所述的融合蛋白可包含一个或多个异源蛋白结构域(例如,除了引导编辑器组分外,约或多于约1、2、3、4、5、6、7、8、9、10或更多的结构域)。融合蛋白可以包含任何额外的蛋白质序列,并且任选地包含任何两个结构域之间的接头序列。可能存在的其他示例性特征是定位序列,如细胞质定位序列、输出序列,如核输出序列或其他定位序列,以及可用于溶解、纯化或检测融合蛋白的序列标签。[0908]可以融合到引导编辑器或其组分(例如,napdnabp结构域、聚合酶结构域或nls结构域)的蛋白质结构域的实例包括但不限于表位标签和报告基因序列。表位标签的非限制性实例包括组氨酸(his)标签、v5标签、flag标签、流感血凝素(ha)标签、myc标签、vsv-g标签和硫氧还蛋白(trx)标签。报告基因的实例包括但不限于谷胱甘肽-5-转移酶(gst)、辣根过氧化物酶(hrp)、氯霉素乙酰转移酶(cat)、β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(gfp)、hcred、dsred、青色荧光蛋白(cfp)、黄色荧光蛋白(yfp)和自发荧光蛋白,包括蓝色荧光蛋白(bfp)。引导编辑器可以与编码结合dna分子或结合其他细胞分子的蛋白质或蛋白质片段的基因序列融合,所述其他细胞分子包括但不限于麦芽糖结合蛋白(mbp)、s-标签、lexadna结合结构域(dbd)融合体、gal4dna结合结构域融合体和单纯疱疹病毒(hsv)bp16蛋白融合体。2011年3月10日公布的美国专利公开号2011/0059502中描述了可以形成引导编辑器一部分的额外结构域,其内容在此通过引用整体并入。[0909]在本公开的一个方面,报告基因包括但不限于谷胱甘肽-5-转移酶(gst)、辣根过氧化物酶(hrp)、氯霉素乙酰转移酶(cat)、β-半乳糖苷酶、β-葡糖醛酸苷酶、荧光素酶、绿色荧光蛋白(gfp)、hcred、dsred、青色荧光蛋白(cfp)、黄色荧光蛋白(yfp)和自发荧光蛋白(包括蓝色荧光蛋白(bfp)),可用作测量基因产物表达的改变或修饰的标记物被引入细胞来编码基因产物。在本公开的某些实施方案中,基因产物是荧光素酶。在本公开进一步的实施方案中,基因产物的表达降低。[0910]本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(bccp)标签、myc-标签、钙调蛋白-标签、flag-标签、血凝素(ha)-标签、多组氨酸标签,也称为组氨酸标签或his-标签、麦芽糖结合蛋白(mbp)标签、nus-标签、谷胱甘肽-s-转移酶(gst)标签、绿色荧光蛋白(gfp)标签、硫氧还蛋白标签、s-标签、softags(例如,softag1、softag3)、strep-标签、生物素连接酶标签、flash标签、v5标签和sbp标签。额外合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个his标签。[0911]在本公开的一些实施方案中,可以通过调整pe系统的表达组分的停留时间、量和/[接头]-[mmlv_rt(wt)]。其结构显示如下:[0917][0918][0919]在一些实施方案中,pe2与pegrna复合。该复合物可称为″pe3″并具有以下结构:[nls]-[cas9(h840a)]-[接头]-[mmlv_rt(d200n)(t330p)(l603w)(t306k)(w313f)] pegrna。pe3具有以下结构:[0920][0921][0922]在一些实施方案中,pegrna为约15-100个核苷酸长并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中,向导rna为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,向导rna包含与靶序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸的序列。在一些实施方案中,靶序列是dna序列。在一些实施方案中,靶序列在生物体的基因组中。在一些实施方案中,生物体是原核生物。在一些实施方案中,原核生物是细菌。在一些实施方案中,细菌是大肠杆菌。在一些实施方案中,生物体是真核生物。在一些实施方案中,生物体是植物或真菌。在一些实施方案中,生物体是脊椎动物。在一些实施方案中,脊椎动物是哺乳动物。在一些实施方案中,哺乳动物是人。在一些实施方案中,生物体是细胞。在一些实施方案中,细胞是人类细胞。在一些实施方案中,细胞是hek293t或u2os细胞。[0923]在一些实施方案中,靶序列包含与疾病或病症相关的序列。在一些实施方案中,靶序列包含与疾病或病症相关的点突变。在一些实施方案中,靶序列包含t→c点突变。在一些实施方案中,复合物使靶c点突变脱氨基,其中脱氨基产生与疾病或病症无关的序列。在一些实施方案中,靶c点突变存在于与指导rna不互补的dna链中。在一些实施方案中,靶序列包含t→a点突变。在一些实施方案中,复合物使靶a点突变脱氨基,并且其中脱氨基产生与疾病或病症无关的序列。在一些实施方案中,靶a点突变存在于与向导rna不互补的dna链中。[0924]在一些实施方案中,pe复合物进一步包含用于进行第二链切口的向导rna,其是指在未编辑链上的第一切口下游的位置处(即,提供了游离的3’末端的初始切口位点,其用于在向导rna的延伸部分上引导逆转录酶)引入第二切口。在一些实施方案中,第一切口和第二切口位于相反的链上。在其他实施方案中,第一切口和第二切口位于相反的链上。在又一个实施方案中,第一个切口在非靶链(即,形成r环的单链部分的链)上,第二个切口在靶链上。第二切口位于第一切口下游至少5个核苷酸处,或第一切口下游至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30或更多个核苷酸处。不受理论的束缚,第二个切口诱导细胞的内源性dna修复和复制过程以替换未编辑的链,而不是替换所需的编辑链。在一些实施方案中,编辑的链是非靶链并且未编辑的链是靶链。在其他实施方案中,编辑链是靶链,未编辑链是非靶链。[0925]可以使用第二向导rna安装第二链切口,其在第二但邻近的前间隔区序列处与pe融合蛋白复合并安装切口。[0926]在一些实施方案中,第二链切口的插入可在安装所需编辑之后发生。这个概念指的是″时间第二链切口″。这避免了可能导致双链dna断裂的两条链上的并发切口。可以通过多种方式引入时间第二链切口,其包括在进行所需编辑后引入第二向导rna。[0927]在一个实施方案中,本公开提供了″pe3b″复合物,其是指pe3复合物加上用于第二链切口的向导rna。这个复合物具有以下的结构:[nls]-[cas9(h840a)]-[接头]-[mmlv_rt(d200n)(t330p)(l603w)(t306k)(w313f)] pegrna 第二链切口向导rna。pe3b具有以下结构:[0928][0929][0930]可以将作为完整融合复合物的pe复合物递送至细胞。也可以使用一种或多种表达载体(例如,慢病毒载体或腺相关病毒载体)将pe复合物递送至细胞。例如,所需pe复合物的递送可包括编码pe融合蛋白和pegrna以及来自相同或不同启动子的任选的第二链向导rna的单一表达载体。在另一个实例中,所需pe复合物的递送可包括两个或更多个编码pe融合蛋白的表达载体、第一表达载体和来自第二表达载体的pegrna和/或任选的第二链向导rna。[0931]可以作为这些复合物的一部分包括在内的pegrna包括序列表中包括的任何那些治疗性的pegrna,例如,seqidno:1-135514或813085-880462的完整pegrna序列。[0932]iv.pe方法和处理[0933]在另一方面,本说明书提供了用″引导编辑器″编辑靶dna序列的方法。如本文所用,术语″引导编辑″(primeediting)是指使用如本技术所述并在图1a-1h的实施方案中举例说明的napdnabps、聚合酶和特化向导rna进行基因编辑的新方法。引导编辑也可以描述为″靶-引导的逆转录″(tprt),因为靶dna分子用于引导通过聚合酶(例如,逆转录酶)合成的dna链。在″靶-引导的逆转录″名称中使用术语″逆转录″并非旨在将引导编辑限制为使用逆转录酶,而是tprt或引导编辑器可以包含任何聚合酶(例如,dna依赖性dna聚合酶或rna依赖性dna聚合酶)。在各种实施方案中,引导编辑通过将靶dna分子(需要对该dna分子引入核苷酸序列的变化)与与引导编辑器向导rna复合的核酸可编程dna结合蛋白(napdnabp)接触来进行。参考图1e,引导编辑器向导rna在向导rna的3’或5’末端或向导rna的分子内位置包含延伸,并编码所需的核苷酸变化(例如,单个核苷酸变化、插入或缺失)。在步骤(a)中,napdnabp/延伸的grna复合物接触dna分子,延伸的grna引导napdnabp与靶基因座结合。在步骤(b)中,在靶基因座的dna链中引入切口(例如,通过核酸酶或化学试剂),从而在靶基因座的一条链中产生可用的3’末端。在一些实施方案中,切口是在对应于r-环链的dna链中产生的,即未与向导rna序列杂交的链,即″非靶链″。然而,可以在任何链中引入切口。也就是说,可以将切口引入r环″靶链″(即与延伸grna的原始间隔区杂交的链)或″非靶链″(即形成r环的单链部分的链,并且与靶链互补)。在步骤(c)中,dna链的3’末端(由切口形成)与向导rna的延伸部分相互作用以引导逆转录(即″靶引导的rt”)。在一些实施方案中,3’末端dna链与向导rna的延伸部分上的特异引物结合位点杂交,即″逆转录酶引导序列″。在步骤(d)中,引入逆转录酶,从引导位点的3’末端到引导编辑器向导rna的3’末端合成单链dna。这形成了包含所需核苷酸变化(例如,单碱基变化、插入或缺失或其组合)的单链dnaflap,并且flap的3’末端(即逆转录酶引导序列)与pegrna上的引导结合位点(a)退火,从而引导逆转录酶。接下来,逆转录酶(例如,提供反式或提供顺式来作为融合蛋白,连接到cas9构建体)然后聚合由编辑模板(b)和同源臂(c)编码的单链dna。聚合继续朝向延伸臂的5’末端。ssdna的聚合链形成ssdna3’末端flap,如别处所述(例如,如图1e所显示),其侵入内源性dna,取代相应的内源性链(其作为内源性dna的5’dnaflap被移除),并通过自然发生的dna修复/复制轮次安装所需的核苷酸编辑(单个核苷酸碱基对变化、缺失、插入(包括整个基因)。[0937]本公开提供了用于治疗诊断患有与点突变相关或由点突变引起的疾病的受试者的方法,所述点突变可以通过本文提供的引导编辑融器(pe)系统进行校正。例如,在一些实施方案中,提供的方法包括向患有此类疾病(例如,与如上所述的点突变相关的癌症)的受试者施用有效量的本文所述的引导编辑器(pe)系统来校正在包含所需遗传变化的供体dna分子的存在下,通过同源定向修复介导的点突变或将失活性突变引入到疾病相关基因。在一些实施方案中,提供的方法包括向患有此类疾病(例如,与如上所述的点突变相关的癌症)的受试者施用有效量的本文所述的引导编辑器(pe)系统来校正点突变或将失活性突变引入到疾病相关基因。在一些实施方案中,疾病是增殖性疾病。在一些实施方案中,疾病是遗传疾病。在一些实施方案中,疾病是新生性疾病。在一些实施方案中,疾病是代谢性疾病。在一些实施方案中,疾病是溶酶体贮积病。可以通过校正点突变或将失活性突变引入到疾病相关基因中来治疗的其他疾病对于本领域技术人员来说是已知的,并且本公开在这方面不受限制。[0938]本公开提供了用于治疗另外的疾病或病症,例如与点突变相关或由点突变引起的疾病或病症的方法,所述点突变可以通过tprt介导的基因编辑校正。本文描述了一些此类疾病,并且基于本公开,可以用本文提供的策略和融合蛋白治疗的另外的合适的疾病对于本领域技术人员将是显而易见的。下面列出了示例性合适的疾病和病症。应当理解,相应序列中特定位置或残基的编号取决于所用的特定蛋白质和编号方案。编号可以不同,例如在成熟蛋白质的前体和成熟蛋白质本身中,并且从物种到物种的序列差异可以影响编号。本领域技术人员将能够通过本领域熟知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质中和相应编码核酸中的相应残基。示例性合适的疾病和病症包括但不限于:2-甲基-3-羟基丁酸尿症(2-methyl-3-hydroxybutyricaciduria);3beta-羟基类固醇脱氢酶缺乏症(3beta-hydroxysteroiddehydrogenasedeficiency);3-甲基戊二酸尿症(3-methylglutaconicaciduria);3-氧代-5alpha-甾体delta4-脱氢酶缺乏症(3-oxo-5alpha-steroiddelta4-dehydrogenasedeficiency);46,xy性别逆转,1、3和5型;5-氧代丙烯酶缺乏症(5-oxoprolinasedeficiency);6-丙酮酰-四氢蝶呤合酶缺乏症(6-pyruvoyl-tetrahydropterinsynthasedeficiency);aarskog综合征;aase综合征;软骨生成不全(achondrogenesis)2型;全色盲(achromatopsia)2和7;获得性长qt综合征;acrocallosal综合征,schinzel型;acrocapitofemoral发育不良;肢端发育不全(acrodysostosis)2,伴或不伴激素抵抗;acroerythrokeratoderma;acromicric发育不良;acth非依赖性大结节肾上腺增生2;激活性pi3k-delta综合征;急性间歇性卟啉症;缺乏酰基辅酶a脱氢酶家族,成员9;adams-oliver综合征5和6;腺嘌呤磷酸核糖转移酶缺乏症;腺苷酸激酶缺乏症;由于腺苷酸琥珀酸裂合酶缺乏引起的溶血性贫血;青少年肾单位肾痨(nephronophthisis);肾-肝-胰腺发育不良;meckel综合征7型;肾上腺脑白质营养不良(adrenoleukodystrophy);成人交界性大疱性表皮松解症(adultjunctionalepidermolysisbullosa);大疱性表皮松解症,交界性,localisata变体;成人神经元蜡样脂褐质沉着症;成人神经元蜡样脂褐质沉着症;成人发病性共济失调伴有动眼神经失用症;adult综合征;无纤维蛋白原血症和先天性无纤维蛋白原血症;常染色体隐性丙种球蛋白血症2;年龄相关性黄斑变性3、6、11和12;aicardigoutieres综合征1、4和5;chilbain狼疮1;alagille综合征1和2;alexander病;尿黑酸尿;allan-herndon-dudley综合征;普遍性先天性脱发;alpers脑病;alpha-1-抗胰蛋白酶缺乏症;常染色体显性、常染色体隐性和x连锁隐性alport综合征;阿尔茨海默病,家族性,3,伴有痉挛性下肢瘫痪和失用症;阿尔茨海默病,1、3和4型;低钙化类型和低成熟类型,iia1釉质发育不全(amelogenesisimperfecta);氨酰化酶1缺乏症;阿米什婴儿癫痫综合征;淀粉样蛋白转运蛋白淀粉样变性;淀粉样变心肌病,转甲状腺素蛋白相关;心肌病;肌萎缩侧索硬化症1、6、15(伴或不伴额颞叶痴呆)、22(伴或不伴额颞叶痴呆)和10型;带有tdp43内含物的额颞叶痴呆,tardbp相关;andermann综合征;andersentawil综合征;先天性长qt综合征;贫血症,非小细胞性溶血,由于g6pd缺乏;angelman综合征;严重的新生儿发病性脑病伴小头畸形;对自闭症的易感性,x连锁3;血管病,遗传性,伴有肾病、动脉瘤和肌肉痉挛;血管紧张素i-转换酶,良性血清增加;无虹膜(aniridia),小脑性共济失调和精神发育迟滞;无甲症(anonychia);抗凝血酶iii缺乏症;antley-bixler综合征伴生殖器异常和紊乱的类固醇生成;主动脉瘤,家族性胸部4、6和9;胸主动脉瘤和主动脉夹层;多系统平滑肌功能障碍综合征;moyamoya病5;再生障碍性贫血;表观盐皮质激素过量;精氨酸酶缺乏症;精氨琥珀酸裂解酶缺乏症;芳香酶缺乏症;致心律失常性右心室心肌病5、8和10型;原发性家族性肥厚心肌病;关节弯曲(arthrogryposis)多重先天性,远端,x连锁;关节弯曲肾功能不全胆汁淤积综合征;关节弯曲,肾功能不全,胆汁淤积2;天冬酰胺合成酶缺乏症;神经元迁移异常;共济失调伴维生素e缺乏症;共济失调,感觉性,常染色体显性;共济失调-毛细血管扩张综合征;遗传性癌症易感综合征;atransferrinemia;心房颤动,家族性,11、12、13和16;房间隔缺损2、4和7(伴或不伴有房室传导缺陷);心房停滞2;房室隔缺损4;遗传性眼球萎缩(atrophiabulborumhereditaria);atr-x综合征;auriculocondylar综合征2;自身免疫性疾病,多系统,婴儿期发病;自身免疫性淋巴细胞增生综合征,1a型;常染色体显性少汗型外胚层发育不良;常染色体显性进行性外眼肌麻痹,伴有线粒体dna缺失1和3;常染色体显性扭转肌张力障碍(dystonia)4;常染色体隐性中央核心肌病;常染色体隐性先天性鱼鳞病1、2、3、4a和4b;常染色体隐性皮肤松弛症(cutislaxa)ia和1b型;常染色体隐性少汗型外胚层发育不良综合征;外胚层发育不良11b;少汗/头发/牙齿型,常染色体隐性;常染色体隐性低磷血症骨病;axenfeld-rieger综合征3型;bainbridge-ropers综合征;bannayan-riley-ruvalcaba综合征;pten错构瘤综合征;baraitser-winter综合征1和2;barakat综合征;bardet-biedl综合征1、11、16和19;裸淋巴细胞综合征2型,互补群e;bartter综合征产前2型;bartter综合征3型,3伴有高钙尿(hypocalciuria)和4;基底神经节钙化,特发性,4;串珠的头发(beadedhair);良性家族性血尿;良性家族性新生儿癫痫发作1和2;癫痫发作,良性家族性新生儿,1,和/或肌无力;癫痫发作,早期婴儿癫痫性脑病7;良性家族性新生儿-婴儿癫痫发作;良性遗传性舞蹈病;良性肩胛骨肌营养不良症伴有心肌病;bernard-soulier综合征,a1和a2型(常染色体显性);bestrophinopathy,常染色体隐性;beta地中海贫血;bethlem肌病和bethlem肌病2;bietti结晶角膜视网膜营养不良;胆汁酸合成缺陷,先天性,2;生物素酶缺乏症;birkbarel精神发育迟滞畸形综合征;睑裂、上睑下垂和倒转型内眦赘皮(blepharophimosis,ptosis,andepicanthusinversus);bloom综合征;borjeson-forssman-lehmann综合征;boucherneuhauser综合征;短指症a1和a2型;短指症伴有高血压;脑小血管病伴有出血;支链酮酸脱氢酶激酶缺乏症;branchiootic综合征2和3;乳腺癌,早发;乳腺癌-卵巢癌,家族性1、2和4;脆性角膜综合征2;brody肌病;支气管扩张伴或不伴有升高的汗液氯化物3;brown-vialetto-vanlaere综合征和brown-vialetto-vanlaere综合征2;brugada综合征;brugada综合征1;心室颤动;阵发性家族性心室颤动;brugada综合征和brugada综合征4;长qt综合征;心脏猝死;牛眼黄斑营养不良;stargardt病4;锥杆营养不良12;大疱性鱼鳞状红皮病;burn-mckeown综合征;念珠菌病,家族性,2、5、6和8;碳水化合物缺乏的糖蛋白综合征i和ii型;碳酸酐酶va缺乏症,由于高氨血症;结肠癌;心律失常;长qt综合征,lqt1亚型;心脑肌病,致命婴儿期,由于细胞色素c氧化酶缺乏;心面皮肤(cardiofaciocutaneous)综合征;心肌病;danon病;肥厚心肌病;左心室非致密性心肌病;carnevale综合征;carney复合体,1型;肉碱酰基肉碱移位酶缺乏症;肉碱棕榈酰转移酶i、ii、ii(迟发)和ii(婴儿)缺乏症;白内障1、4,常染色体显性,常染色体显性,多类型,伴有小角膜,coppock样,青少年,伴有小角膜和糖尿,核弥漫性非进行性;儿茶酚胺能多形性室性心动过速;尾部退化综合征;cd8缺乏症,家族性;中央核心疾病;染色体1、9和16的着丝粒不稳定性和免疫缺陷;小脑性共济失调婴儿伴有进行性外眼肌和小脑性共济失调,精神发育迟滞和平衡失调综合征2;脑淀粉样血管病,app相关;脑常染色体显性和隐性动脉病伴有皮质下梗塞和白质脑病;脑海绵状血管畸形2;脑眼面骨骼(cerebrooculofacioskeletal)综合征2;脑眼-面-骨骼综合征;脑血管微血管病伴有钙化和囊肿;蜡样脂褐质沉着神经元2、6、7和10;ch\xc3\xa9diak-higashi综合征,chediak-higashi综合征,成人型;腓骨肌萎缩病(charcot-marie-tooth)1b、2b2、2c、2f、2i、2u(轴突)、1c(脱髓鞘)、显性中间体c、隐性中间体a、2a2、4c、4d、4h、if、ivf和x型;肩胛骨脊髓性肌萎缩;远端脊髓性肌萎缩,先天性非进行性;脊柱肌肉萎缩,远端,常染色体隐性,5;连锁畸形(chargeassociation);儿童低磷酸酯酶症;成人低磷酸酯酶症;胆囊炎;进行性家族性肝内胆汁淤积3;胆汁淤积,肝内,妊娠期3;胆汁甾醇贮积病;胆固醇单加氧酶(侧链切割)缺乏症;软骨发育异常(chondrodysplasia)blomstrand型;软骨发育异常点状1,x连锁隐性和2x连锁显性;chops综合征;慢性肉芽肿病,常染色体隐性细胞色素b阳性,1和2型;chudley-mccullough综合征;纤毛运动障碍,原发性,7、11、15、20和22;瓜氨酸血症i型;瓜氨酸血症i和ii型;锁骨颅骨发育不全;c样综合征;cockayne综合征a型,;辅酶q10缺乏症,原发性1、4和7;coffinsiris/智力残疾;coffin-lowry综合征;cohen综合征,;感冒引起的出汗综合征(cold-inducedsweatingsyndrome)1;cole-carpenter综合征2;结合细胞和体液免疫缺陷伴有肉芽肿;联合的d-2-和l-2-羟基戊二酸尿症;联合的丙二酸和甲基丙二酸尿症;结合氧化磷酸化缺陷1、3、4、12、15和25;部分和完全联合的17-alpha-羟化酶/17,20-裂解酶缺乏症;常见变异免疫缺陷9;补体成分4,部分缺乏,由于功能失调的c1抑制剂;补体因子b缺乏症;锥全色盲;锥杆营养不良2和6;锥杆营养不良釉质发育不全;先天性肾上腺增生和先天性肾上腺发育不全,x连锁;先天性无巨核细胞(amegakaryocytic)血小板减少症;先天性无虹膜;先天性中枢通气不足;hirschsprung病3;先天性挛缩蜘蛛脚样指(contracturalarachnodactyly);先天性四肢和面部挛缩,肌张力减退和发育迟缓;先天性糖基化障碍1b、1d、1g、1h、1j、1k、1n、1p、2c、2j、2k、iim型;先天性红细胞生成异常贫血,i和ii型;先天性外胚层发育不良的面部;先天性红细胞生成性卟啉症;先天性全身性脂肪代谢障碍2型;先天性心脏病,多类型,2;先天性心脏病;主动脉弓中断;先天性脂质过度生长,血管畸形和表皮痣;非小细胞肺癌;卵巢新生物;心脏传导缺陷,非特异性;先天性微绒毛萎缩;先天性肌营养不良症;由于部分lama2缺乏导致先天性肌肉营养不良症;先天性肌营养不良症-肌营养不良蛋白聚糖病(dystroglycanopathy)伴有大脑和眼睛异常,a2、a7、a8、a11和a14型;先天性肌营养不良症-肌营养不良蛋白聚糖病伴有精神发育迟滞,b2、b3、b5和b15型;先天性肌营养不良症-肌营养不良蛋白聚糖病不伴有精神发育迟滞,b5型;先天性肌肉肥大-脑综合征;先天性肌无力综合征,乙酰唑胺响应性;先天性肌病伴有纤维类型不成比例;先天性眼部缺损;先天性静止性夜盲,1a、1b、1c、1e、1f和2a型;粪卟啉症(coproporphyria);角膜扁平(corneaplana)2;角膜营养不良,fuchs内皮细胞,4;角膜内皮细胞营养不良症2型;角膜脆性角膜红斑,蓝色巩膜和关节过度活动;corneliadelange综合征1和5;冠状动脉疾病,常染色体显性2;冠状动脉心脏疾病;高α脂蛋白血症(hyperalphalipoproteinemia)2;皮质发育不良,复杂,伴有其他脑部畸形5和6;皮质畸形,枕骨;皮质类固醇结合球蛋白缺乏症;皮质酮甲基氧化酶2型缺乏症;costello综合征;cowden综合征1;扁平髋(coxaplana);颅骨骨干(craniodiaphyseal)发育不良,常染色体显性;颅缝早闭1和4;颅缝早闭和牙齿异常;肌酸缺乏症,x连锁;crouzon综合征;隐眼(cryptophthalmos)综合征;隐睾症,单侧或双侧;cushing指骨关节黏连症(指/趾关节粘连);皮肤恶性黑色素瘤1;皮肤松弛症伴有骨质营养不良症和伴有严重的肺、胃肠和泌尿系统异常;发绀(cyanosis),短暂新生儿和非典型性肾病;囊性纤维化;胱氨酸尿;细胞色素c氧化酶i缺乏症;细胞色素c氧化酶缺乏症;d-2-羟基戊二酸尿症2;darier病,节段性;耳聋伴有迷路发育不良小耳畸形和微小症(lamm);耳聋,常染色体显性3a、4、12、13、15,常染色体显性非综合征感觉神经病17、20和65;耳聋,常染色体隐性1a、2、3、6、8、9、12、15、16、18b、22、28、31、44、49、63、77、86和89;耳聋,耳蜗,伴有近视和智力障碍,不伴有前庭受累,常染色体显性,x连锁2;缺乏2-甲基丁酰辅酶a脱氢酶;缺乏3-羟基酰基-coa脱氢酶;缺乏alpha-甘露糖苷酶;缺乏芳香族-l-氨基酸脱羧酶;缺乏双磷酸甘油酸变位酶;缺乏丁酰辅酶a脱氢酶;缺乏铁氧化酶;缺乏半乳糖激酶;缺乏胍基乙酸甲基转移酶;缺乏透明质酸氨基葡糖苷酶(hyaluronoglucosaminidase);缺乏核糖-5-磷酸异构酶;缺乏类固醇11-beta-单加氧酶;缺乏udp葡萄糖-己糖-1-磷酸尿苷酰转移酶;缺乏黄嘌呤氧化酶;dejerine-sottas病;腓骨肌萎缩病,id和ivf型;dejerine-sottas综合征,常染色体显性;树突状细胞、单核细胞、b淋巴细胞和自然杀伤淋巴细胞缺乏症;desbuquois发育不良2;desbuquois综合征;dfna2非综合征听力损失;糖尿病和尿崩症伴有视神经萎缩和耳聋;糖尿病,2型和胰岛素依赖型,20;diamond-blackfan贫血症1、5、8和10;腹泻3(分泌钠,先天性,综合征)和5(伴有簇绒性肠病,先天性);二羧酸氨基酸尿症;弥漫性掌跖角化病,bothnian型;digitorenocerebral综合征;二氢蝶啶还原酶缺乏症;扩张型心肌病1a、1aa、1c、1g、1bb、1dd、1ff、1hh、1i、1kk、1n、1s、1y和3b;左心室致密化不全3;由于细胞色素p450氧化还原酶缺乏的紊乱的类固醇生成;远端关节弯曲2b型;远端遗传性运动神经元病2b型;远端肌病markesbery-griggs型;远端脊髓性肌萎缩,x连锁3;dementia);额颞叶痴呆和/或肌萎缩侧索硬化症3和4;额颞叶痴呆染色体3连锁和额颞叶痴呆泛素阳性;果糖二磷酸酶缺乏症;fuhrmann综合征;gamma-氨基丁酸转氨酶缺乏症;gamstorp-wohlfart综合征;gaucher病1型和亚急性神经病变;凝视麻痹,家族性水平,伴有进行性脊柱侧凸;广泛性显性营养不良性大疱性表皮松解症;全身性癫痫伴有高热惊厥加3、1型、2型;癫痫性脑病lennox-gastaut型;巨轴索神经病变;glanzmann血小板机能不全;青光眼(glaucoma)1,开角,e、f和g;青光眼3,原发性先天性,d;青光眼,先天性和青光眼,先天性,缺损;青光眼,原发性开角,青少年发病;胶质瘤易感性1;葡萄糖转运蛋白1型缺乏综合征;葡萄糖-6-磷酸转运缺陷;glut1缺乏综合征2;癫痫,特发性全身性,易感性,12;谷氨酸甲酰氨基转移酶缺乏症;戊二酸血症iia和iib;戊二酸尿症,1型;谷胱甘肽合成酶缺乏症;糖原贮积病0(肌肉)、ii(成人形式)、ixa2、ixc、1a型;ii型、iv、iv(联合的肝脏和肌病)型、v型和vi型;goldmann-favre综合征;gordon综合征;gorlin综合征;全脑畸形序列;前脑无裂畸形(holoprosencephaly)7;肉芽肿病,慢性,x连锁,变异;卵巢颗粒细胞瘤;灰色血小板综合征;griscelli综合征3型;groenouw角膜营养不良症型i;成长与精神发育迟滞,颌面部骨发育障碍(mandibulofacialdysostosis),小头畸形和腭裂;生长激素缺乏症伴有垂体异常;生长激素不敏感伴有免疫缺陷;gtp环化水解酶i缺乏症;hajdu-cheney综合征;手足子宫综合征;听觉受损;血管瘤,毛细血管婴儿;血液新生物;血色沉着病(hemochromatosis)1、2b和3型;糖尿病的微血管并发症7;转铁蛋白血清水平数量性状基因座2;血红蛋白h病,非缺失性;溶血性贫血,非球形细胞,由于葡萄糖磷酸异构酶缺乏症;噬血细胞性淋巴组织细胞增多症(hemophagocyticlymphohistiocytosis),家族性,2;噬血细胞性淋巴组织细胞增多症,家族性,3;肝素辅助因子ii缺乏症;遗传性肠病性肢端皮炎(acrodermatitisenteropathica);遗传性乳腺癌和卵巢癌综合征;共济失调-毛细血管扩张样疾病;遗传性弥漫性胃癌;伴有球状体的遗传性弥漫性白质脑病;遗传性因子ii、ix、viii缺乏病;遗传性出血性毛细血管扩张症2型;遗传性对疼痛不敏感伴有无汗症;遗传性淋巴水肿i型;遗传性运动和感觉神经病伴有视神经萎缩;遗传性肌病伴有早期呼吸衰竭;遗传性神经性肌萎缩;遗传性非息肉病结肠直肠新生物;lynch综合征i和ii;遗传性胰腺炎;胰腺炎,慢性,易感性;遗传性感觉和自主神经病变iib和iia型;遗传性铁粒细胞性贫血;hermansky-pudlak综合征1、3、4和6;异位,内脏,2、4和6,常染色体;异位,内脏,x连锁;异位症;组织细胞性髓质网状细胞病;组织细胞增生症-淋巴结病加综合征;全羧化酶合成酶缺乏症;前脑无裂畸形2、3、7和9;holt-oram综合征;由于mthfr缺乏,cbs缺乏引起的同型半胱氨酸血症(homocysteinemia)和高胱氨酸尿症(homocystinuria),吡哆醇响应性;由于钴胺素代谢缺陷引起的高胱氨酸尿症-巨幼红细胞贫血症,cble互补型;howel-evans综合征;hurler综合征;hutchinson-gilford综合征;脑积水;高血氨症,iii型;高胆甾醇血症(hypercholesterolaemia)和高胆固醇血症,常染色体隐性;惊跳症(hyperekplexia)2和惊跳症遗传性;高铁蛋白血症白内障综合征;高甘氨酸尿;高免疫球蛋白(hyperimmunoglobulin)d伴有周期性发烧;甲羟戊酸尿症;高免疫球蛋白e综合征;高胰岛素血症低血糖家族性3、4和5;高胰岛素血症-高氨血症综合征;高赖氨酸血症(hyperlysinemia);高锰血症(hypermanganesemia)伴有肌张力障碍、红细胞增多症和肝硬化;高鸟氨酸血症(hyperornithinemia)-高氨血症-高瓜氨酸尿(homocitrullinuria)综合征;甲状旁腺功能亢进症1和2;甲状旁腺功能亢进症,新生儿严重;高苯丙氨酸血症,bh4缺乏,a,由于部分pts缺乏、bh4缺乏、d和非pku;高磷酸酶症(hyperphosphatasia)伴有精神发育迟滞综合征2、3和4;高血压性骨软骨发育不良;低β脂蛋白血症(hypobetalipoproteinemia),家族性,与apob32相关联;低钙血症,常染色体显性1;低钙尿高钙血症(hypocalciurichypercalcemia),家族性,1和3型;软骨发育不良(hypochondrogenesis);低色素小细胞性贫血伴有铁超负荷;低血糖伴有肝脏中糖原合成酶缺乏;低促性腺功能减退症11,伴或不伴有嗅觉丧失症;少汗型外胚层发育不良,伴有免疫缺陷;少汗型x连锁外胚层发育不良;低钾性周期性麻痹1和2;低镁血症1,肠;低镁血症,癫痫发作和精神发育迟滞;髓鞘发育不良脑白质营养不良(hypomyelinatingleukodystrophy)7;左心发育不良综合征;房室隔缺损和常见的房室交界处;尿道下裂(hypospadias)1和2,x连锁;甲状腺功能减退症,先天性,无肿大性(nongoitrous),1;少毛症8和12;少毛症-淋巴水肿-毛细血管扩张综合征;i血型系统;siemens大疱性鱼鳞病(鱼鳞病);鱼鳞病剥脱;鱼鳞病早产综合征;特发性基底神经节钙化5;特发性纤维化肺泡炎,慢性形式;先天性角化不良,常染色体显性,2和5;婴儿期特发性高钙血症;由于钙进入缺陷引起伴有t细胞失活的免疫功能障碍2;免疫缺陷15、16、19、30、31c、38、40、8,由于cd3-zeta的缺陷,伴有高igm1和2型和x连锁,伴有镁缺陷,epstein-barr病毒感染和瘤变;免疫缺陷-着丝粒不稳定性-面部异常综合征2;包涵体肌病2和3;nonaka肌病;婴儿惊厥和阵发性舞蹈病,家族性;婴儿皮质骨质增生;婴儿gm1神经节苷脂贮积病;婴儿低磷酸酯酶症;婴儿肾单位肾痨;婴儿眼球震颤,x连锁;婴儿帕金森病-肌张力障碍;与多尾精子和过量dna有关的不育症;胰岛素抵抗;胰岛素抵抗性糖尿病和黑棘皮病;胰岛素依赖型糖尿病分泌性腹泻综合征;间质性肾炎,karyomegalic;宫内发育迟缓,干骺端发育不良,肾上腺先天性发育不全和生殖器异常;碘酪胺酰偶联缺陷;irak4缺乏症;iridogoniodysgenesis主导型和1型;脑铁蓄积(ironaccumulationinbrain);ischiopatellar发育不良;胰岛细胞增生;分离的17,20-裂解酶缺乏症;分离的促黄体素缺乏症;异戊酰基-coa脱氢酶缺乏症;jankovicrivera综合征;jervell和lange-nielsen综合征2;joubert综合征1、6、7、9/15(二基因型)、14、16和17和orofaciodigital综合征xiv;herlitz的连接性表皮松解疱疹;少年gm>1<神经节苷脂贮积病;少年息肉综合征;少年息肉/遗传性出血性毛细血管扩张综合征;少年视网膜劈裂症;歌舞伎化妆(kabukimake-up)综合征;kallmann综合征1、2和6;青春期延迟;kanzaki病;karak综合征;kartagener综合征;kenny-caffey综合征2型;keppen-lubinsky综合征;圆锥角膜1;毛囊角化病;条纹状掌跖角化病(keratosispalmoplantarisstriata)1;kindler综合征;l-2-羟基戊二酸尿症;larsen综合征,主导型;格子状角膜营养不良症iii型;leber黑矇(amaurosis);zellweger综合征;过氧化物酶体生物发生障碍;zellweger综合征谱;leber先天性黑矇11、12、13、16、4、7和9;leber视神经萎缩;氨基糖苷类诱导性耳聋;耳聋,非综合征感觉神经,线粒体;左心室致密化不全5;左右轴畸形;leigh病;线粒体短链烯酰辅酶a水合酶1缺乏症;由于线粒体复合物i缺乏的leigh综合征;leiner病;leriweill软骨骨生成障碍(dyschondrosteosis);致命先天性挛缩综合征6;白细胞粘附缺陷i和iii型;脑白质营养不良,髓鞘发育不良,11和6;白质脑病伴有共济失调,伴有脑干和脊髓受累和乳酸盐升高,伴有消失的白质和进行性,伴有卵巢衰竭;全白甲(leukonychiatotalis);路易体痴呆症;lichtenstein-knorr综合征;li-fraumeni综合征1;lig4综合征;肢带型肌营养不良症,1b、2a、2b、2d、c1、c5、c9、c14型;先天性肌营养不良症-肌营养不良蛋白聚糖病伴有大脑和眼睛异常,a14和b14型;脂肪酶缺乏症联合;脂质蛋白沉积症;脂肪代谢障碍,家族性部分性,2和3型;无脑回畸形1、2(x连锁)、3、6(伴有小头畸形),x连锁;皮质下层状异位,x连锁;肝功能衰竭急性婴儿期;loeys-dietz综合征1、2、3;长qt综合征1、2、2/9、2/5、(二基因型)、3、5和5,获得性,易感;肺癌;淋巴水肿,遗传性,id;淋巴水肿,原发性,伴有脊髓发育不良;淋巴组织增生性综合征1、l(x连锁)和2;溶酶体酸性脂肪酶缺乏症;面部畸形;黄斑营养不良,卵黄样,成人发病;恶性高热易感性1型;恶性淋巴瘤,非hodgkin;恶性黑色素瘤;前列腺恶性肿瘤;下颌骨端(mandibuloacral)骨发育障碍;下颌骨端发育不良伴有a或b型脂肪代谢障碍,非典型;颌面部骨发育障碍,treachercollins型,常染色体隐性;甘露糖结合蛋白缺乏症;枫糖尿病1a型和3型;mardenwalker样综合征;marfan综合征;marinesco-sj\xc3\xb6gren综合征;martsolf综合征;年轻人的成年发病型糖尿病,1型、2型、11型、3型和9型;may-hegglin异常;myh9相关病症;sebastian综合征;mccune-albright综合征;生长激素腺瘤;性索间质肿瘤;cushing综合征;mckusickkaufman综合征;mcleod神经棘红细胞增多综合征;meckel-gruber综合征;中链酰基辅酶a脱氢酶缺乏症;髓母细胞瘤(medulloblastoma);巨噬细胞白质脑病伴有皮质下囊肿1和2a;先天性巨脑毛细血管扩张性大理石样皮肤(megalencephalycutismarmoratatelangiectatica);pik3ca相关的过度生长谱;巨脑-多小脑回-多指畸形-脑积水综合征2;巨幼细胞性贫血,硫胺素响应性,伴有糖尿病和感音神经性耳聋;meier-gorlin综合征1和4;melnick-needles综合征;脑膜瘤;精神发育迟滞,x连锁,3、21、30和72;精神发育迟滞和小头畸形伴有脑桥和小脑发育不全;精神发育迟滞x连锁综合征性5;精神发育迟滞,前上颌前突和斜视;精神发育迟滞,常染色体显性12、13、15、24、3、30、4、5、6和9;精神发育迟滞,常染色体隐性15、44、46和5;精神发育迟滞,刻板运动,癫痫,和/或脑畸形;精神发育迟滞,综合征性,claes-jensen型,x连锁;精神发育迟滞,x连锁,非特异性,综合征性,hedera型和综合征性,wu型;merosin缺陷性先天性肌营养不良症;异色性脑白质营养不良症(异色性脑白质营养不良症)少年、晚期婴儿和成人型;异色性脑白质营养不良症;后生营养性(metatrophic)发育不良;高铁血红蛋白血症i和2型;甲硫氨酸腺苷转移酶缺乏症,常染色体显性;甲基丙二酸血症伴有高胱氨酸尿症,;甲基丙二酸尿症cblb型,;由甲基丙二酰辅酶a变异酶缺乏引起的甲基丙二酸尿症;甲基丙二酸尿症,mut(0)型;小头畸形骨发育不良原始性侏儒症2型;小头畸形伴或不伴有脉络膜视网膜病变,淋巴水肿,或精神发育迟滞;小头畸形,食管裂孔疝和肾病综合征;小头畸形;胼胝体发育不全;痉挛性截瘫50,常染色体隐性;整体发育迟缓;cns低髓鞘形成(hypomyelination);脑萎缩;小头畸形,正常智力和免疫缺陷;小头畸形-毛细血管畸形综合征;小红细胞性贫血;小眼综合征5、7和9;小眼,孤立的3,5,6,8和伴有缺损6;小球形晶状体(microspherophakia);偏头痛,家族性基底的(basilar);miller综合征;微轴空(minicore)肌病伴有外眼肌麻痹;肌病,先天性伴有轴空(core);mitchell-riley综合征;线粒体3-羟基-3-甲基戊二酰辅酶a合酶缺乏症;线粒体复合物i、ii、iii、iii(核型2、4或8)缺乏症;线粒体dna耗竭综合征11、12(心肌病型)、2、4b(mngie型)、8b(mngie型);线粒体dna耗竭综合征3和7,肝脑型和13(脑肌病型);线粒体磷酸盐载体和丙酮酸盐载体缺乏症;线粒体三功能蛋白缺乏症;长链3-羟基酰基-coa脱氢酶缺乏症;miyoshi肌营养不良症1;肌病,远端,伴有胫前发病;mohr-tranebjaerg综合征;钼辅助因子缺乏症,互补群a;mowat-wilson综合征;黏脂贮积症iiigamma;黏多糖贮积症vi型、vi型(严重)和vii型;黏多糖贮积症,mps-i-h/s、mps-ii、mps-iii-a、mps-iii-b、mps-iii-c、mps-iv-a、mps-iv-b;视网膜色素变性73;神经节苷脂贮积病gm11型(伴有心脏受累)3;多中心骨溶解性肾病;多中心骨溶解,结节病(nodulosis)和关节病;多发先天性异常;房间隔缺损2;多发先天性异常-肌张力低下-癫痫发作综合征3;多发性皮肤和粘膜静脉畸形;多发性内分泌腺瘤病,1和4型;多发性骨骺发育不良5或显性的;多发性胃肠道闭锁;多发性翼状胬肉综合征escobar型;多硫酸酯酶缺乏症;多发性骨性连接综合征3;肌amp鸟嘌呤氧化酶缺乏症;肌-眼-脑病;肌营养不良症,先天性,大锥状颗粒型(megaconialtype);肌无力,家族性婴儿,1;肌无力综合征,先天性,11,伴有乙酰胆碱受体缺乏;肌无力综合征,先天性,17、2a(慢通道)、4b(快通道)并且无管状聚集体(tubularaggregate);髓过氧化物酶缺乏症;myh-相关息肉病;子宫内膜癌;心肌梗塞1;肌肉阵挛性肌张力障碍;失张力癫痫;肌阵挛伴有癫痫伴有不整红边纤维;肌纤维肌病1和zasp相关;肌红蛋白尿,急性复发性,常染色体隐性;肌神经性胃肠脑病综合征;婴儿小脑共济失调伴进行性眼外麻痹;线粒体dna缺失综合征4b,mngie型;肌病,中心核,1,先天性,伴有过多的肌梭,远端,1,乳酸酸中毒和铁粒幼细胞性贫血1,线粒体进行性(mitochondrialprogressive)伴有先天性白内障、听力损失和发育迟滞和管状聚集体,2;近视6;肌硬化症,常染色体隐性;肌强直先天性;先天性肌强直,常染色体显性和隐性;nail-patella综合征;nance-horan综合征;真性小眼球2;纳瓦霍神经肝病;线状体肌病3和9;新生儿张力减退;智能障碍;癫痫;言语和语言发育迟缓;精神发育迟滞,常染色体显性31;维生素p缺乏导致的新生儿肝内胆管淤积;肾性尿崩症,肾性尿崩症,x连锁;肾结石/骨质疏松,低磷酸盐血症,2;肾单位肾痨13、15和4;不育;小脑-眼-肾综合征(肾单位肾痨,眼球运动失用和小脑畸形);肾病综合征,3型,5型,伴或不伴有眼部异常,7型和9型;nestor-guillermo早衰综合征;neu-laxova综合征1;神经退行性变伴有脑铁沉积4和6;神经铁蛋白病(neuroferritinopathy);多发性神经纤维瘤,1型和2型;神经纤维肉瘤;垂体性尿崩症;神经病,遗传性感觉,ic型;中性1氨基酸转运缺陷;中性脂质贮存病伴肌病;中性粒细胞免疫缺陷综合征;nicolaides-baraitser综合征;niemann-pick病c1型,c2型,a型和c1型,成人型;非酮症性高甘氨酸血症;noonan综合征1和4,leopard综合征1;noonan综合征样失常伴或不伴有少年髓单核细胞白血病;正常血钾型周期性麻痹,钾-敏感性;norum病;癫痫,听力损失和精神发育迟滞综合征;精神发育迟滞,x连锁102和症候群13;肥胖;眼白化病,i型;眼皮肤白化病1b型,3型和4型;眼齿指发育不良;牙齿型低碱性磷酸酯酶症;odontotrichomelic综合征;oguchi病;少牙-直肠癌综合征;opitzg/bbb综合征;视神经萎缩9;口-面-指综合征;鸟氨酸氨基转移酶缺乏症;唇腭裂11和7,唇裂/腭裂-外胚层发育不良综合征;orstaviklindemannsolberg综合征;骨关节炎伴轻度软骨发育不良;剥脱性骨软骨炎;成骨不全症12型、5型、7型、8型、i型、iii型,伴有正常巩膜,显性型,隐性围产期致死性;纹状骨瘤伴颅骨硬化;骨硬化病常染色体显性1和2型,隐性4,隐性1,隐性6;骨质疏松症(osteoporosis)伴有假神经胶质瘤(pseudoglioma);耳-腭-指综合征,i和ii型;卵巢发育不全1;卵巢白体营养不良(ovarioleukodystrophy);先天性厚甲4和2型;paget骨病,家族性;pallister-hall综合征;掌跖角化病,非表皮松解,局灶或弥漫;胰腺发育不全和先天性心脏病;papillon-lef\xc3\xa8vre综合征;副神经节瘤3;voneulenburg先天性副肌强直;甲状旁腺癌;帕金森氏病14、15、19(青少年期发病)、2、20(早期发病)、6、(常染色体隐性早期发病和9;部分白化病;部分次黄嘌呤-鸟嘌呤磷酸核糖转移酶缺乏症;视网膜色素上皮细胞的图案性营养不良症(patterneddystrophyofretinalpigmentepithelium);pc-k6a;pelizaeus-merzbacher病;pendred综合征;外周脱髓鞘神经病变,中枢性髓鞘形成;hirschsprung病;永久性新生儿糖尿病;糖尿病,永久性新生儿的,伴有神经学特征;新生儿胰岛素依赖性糖尿病;年轻的成年发病型糖尿病,2型;过氧化物酶体生物发生障碍14b、2a、4a、5b、6a、7a和7b;perrault综合征4;perry综合征;婴儿期持续性高胰岛素低血糖症;家族性高胰岛素血症;表型;苯丙酮尿症;嗜铬细胞瘤;遗传性副神经节瘤-嗜铬细胞瘤综合征;副神经节瘤1;肠类癌;cowden综合征3;磷酸甘油酸酯脱氢酶缺乏症;磷酸甘油酸激酶1缺乏症;光敏性毛发硫性营养不良(photosensitivetrichothiodystrophy);植烷酸贮积病;pick病;pierson综合征色素性视网膜变性;色素性结节状肾上腺皮质病,原发性,1;甲床细胞瘤;pitt-hopkins综合征;垂体依赖性皮质醇增多症;垂体激素缺乏,联合1、2、3和4;纤溶酶原激活物抑制剂1型缺乏症;纤溶酶原缺乏症物,i型;血小板-型出血性病症15和8;皮肤异色病,遗传性纤维化,伴有肌腱挛缩,肌病和肺纤维化;多囊性肾病2,成人型和婴儿型;多囊性脂膜性骨发育不良伴硬化性脑白质病;聚葡萄糖体肌病1伴或不伴免疫缺陷;多小脑回,不对称,双侧额顶;多发性神经病,听力损失,共济失调,视网膜色素变性和白内障;脑桥小脑发育不全4型;腘翼状胬肉综合征;脑穿通畸形2;汗孔角化病8,播散性浅表光化型;胆色素原合成酶缺乏症;迟发性皮肤卟啉病;后索性共济失调伴视网膜色素变性;后极性白内障2型;prader-willi样综合征;卵巢功能早衰4、5、7和9;原发性常染色体隐性小头畸形10、2、3和5;原发性纤毛运动障碍24;原发性扩张性心肌病;左心室致密化不全6;4,左心室致密化不全10;阵发性心房颤动;原发性高草酸尿症,i型、ii型和iii型;原发性肥大性骨关节病,常染色体隐性2;原发性低镁血症;原发性开角型青光眼青少年期发病1;原发性肺动脉高压;primrose综合征;进行性家族性心传导阻滞1b型;进行性家族性肝内胆汁淤积2和3;进行性肝内胆汁淤积;进行性肌阵挛癫痫伴共济失调;进行性假性类风湿性发育不良;进行性硬化性灰质营养不良;脯氨酰氨基酸酶缺乏症;脯氨酸脱氢酶缺乏症;精神分裂症4;备解素缺乏症,x连锁;丙酸血症;前蛋白转化酶1/3缺乏症;前列腺癌,遗传性,2;protan缺陷;蛋白尿;finnish先天性肾病综合征;proteus综合征;乳腺腺癌;假性软骨发育不全性脊椎骨骺(spondyloepiphyseal)发育不良综合征;假性醛固酮减少症1型常染色体显性和隐性和2型;假性甲状旁腺功能减退症1a型,假性假甲状旁腺功能减退症(pseudopseudohypoparathyroidism);假性新生儿肾上腺脑白质营养不良;假性原发性醛固酮增多症;弹性纤维性假黄瘤;婴儿期全身动脉钙化2;弹性纤维性假黄瘤样失常伴多种凝血因子缺乏;银屑病易感性2;pten错构瘤综合征;遗传性出血性毛细血管扩张相关的肺动脉高压;肺纤维化和/或骨髓衰竭,端粒相关,1和3;肺动脉高压,原发性,1,伴有遗传性出血性毛细血管扩张;嘌呤-核苷磷酸化酶缺乏症;丙酮酸羧化酶缺乏症;丙酮酸脱氢酶e1-alpha缺乏症;红细胞丙酮酸激酶缺乏症;raine综合征;rasopathy;隐性营养不良性大疱性表皮松解症;指甲病症(naildisorder),非综合征型先天性,8;reifenstein综合征;肾脏发育不良;肾性肉毒碱转运缺陷;肾损害综合征;肾脏发育不良;肾脏发育不良,视网膜色素萎缩症,小脑共济失调和骨骼发育不良;肾小管酸中毒,远端,常染色体隐性,伴晚发感觉神经性听力损失,或伴溶血性贫血;肾小管酸中毒,近端,伴有眼部异常和精神发育迟滞;视锥营养不良症3b;视网膜色素变性;视网膜色素变性10、11、12、14、15、17和19;视网膜色素变性2、20、25、35、36、38、39、4、40、43、45、48、66、7、70、72;视网膜母细胞瘤;rett症;横纹肌样瘤易感综合征(rhabdoidtumorpredispositionsyndrome)2;孔源性视网膜脱离,常染色体显性;四肢近端(rhizomelic)软骨发育异常点状2型和3型;roberts-sc短肢畸形(phocomelia)综合征;robinowsorauf综合征;robinow综合征,常染色体隐性,常染色体隐性,伴有短-并-多指/趾;rothmund-thomson综合征;rapadilino综合征;rrm2b-相关线粒体病;rubinstein-taybi综合征;salla病;sandhoff病,成人和婴幼儿型;肉状瘤病(sarcoidosis),早期发病;blau综合征;schindler病,1型;脑裂畸形;精神分裂症15;schneckenbecken发育不良;神经鞘瘤病2;schwartzjampel综合征1型;硬化性角膜,常染色体隐性;硬化性骨化病;继发性甲状腺机能减退;segawa综合征,常染色体隐性;senior-loken综合征4和5,;感觉性共济失调性神经病,构音障碍和眼肌瘫痪;墨蝶呤还原酶(sepiapterinreductase)缺乏症;sesame综合征;ada缺乏导致的严重联合免疫缺陷,伴小头畸形,生长迟缓和电离辐射敏感性,非典型的,常染色体隐性,t细胞阴性,b细保阳性,nk细胞阴性ofnk-阳性;重症先天性粒细胞缺乏症;重症先天性粒细胞缺乏症3,常染色体隐性或显性;重症先天性粒细胞缺乏症和6,常染色体隐性;婴儿期严重肌阵挛型癫痫;全身性癫痫伴高热惊厥加,1和2型;严重伴x连锁肌管性肌病;短qt综合征3;身材矮小伴非特异性骨骼异常;身材矮小,耳道闭锁,下颌发育不全,骨骼异常;身材矮小,甲发育不良,面部畸形和少毛症;先天性侏儒症;短肋胸发育不良11或3伴或不伴有多指/趾畸形;涎酸贮积症i和ii型;silver痉挛性截瘫综合征;神经传导速度减慢,常染色体显性;smith-lemli-opitz综合征;snyderrobinson综合征;生长激素腺瘤;泌乳素瘤;家族性,垂体腺瘤易感性;sotos综合征1或2;痉挛性共济失调5,常染色体隐性,charlevoix-saguenay,1、10或11型,常染色体隐性;肌萎缩侧索硬化症5型;痉挛性截瘫15、2、3、35、39、4,常染色体显性,55,常染色体隐性和5a;胆汁酸合成缺陷,先天性,3;生精障碍11、3和8;球形红细胞增多症4和5型;球状体肌病;脊髓性肌萎缩,下肢占优势2,常染色体显性;脊髓性肌萎缩,ii型;脊髓小脑性共济失调14、21、35、40和6;脊髓小脑性共济失调常染色体隐性1和16;脾发育不全;脊椎关节骨性关节炎综合征;脊椎细胞发育不良(spondylocheirodysplasia),ehlers-danlos综合征样,伴免疫失调,聚集蛋白聚糖型,伴有先天性关节脱位,短肢手型,sedaghatian型,伴锥杆营养不良和kozlowski型;类扭伤性侏儒;stargardt病1;锥杆营养不良3;stickler综合征1型;kniest发育不良;stickler综合征,1(非综合征性眼球)和4型;刺痛相关性血管病变,婴儿期发病;stormorken综合征;sturge-weber综合征,毛细血管畸形,先天性,1;琥珀酰辅酶a乙酰乙酸转移酶缺乏症;蔗糖酶-异麦芽糖酶缺乏症;婴儿猝死综合征;亚硫酸盐氧化酶缺乏症,孤立的;升主动脉flap狭窄;表面活性物质代谢功能障碍,肺,2和3;指/趾关节粘连,近端,1b;并指/趾cenanilenz型;并指/趾3型;综合征的x连锁精神发育迟滞16;马蹄内翻足;tangier病;tarp综合征;tay-sachs病,b1变体,gm2-神经节苷脂贮积病(成人),gm2-神经节苷脂贮积病(成人发病);temtamy综合征;tenorio综合征;终端骨质发育不良;睾酮17-β-脱氢酶缺乏症;四联症,常染色体隐性;法洛四联症;左心发育不全综合征2;动脉干;心脏和大血管畸形;v室间隔缺损1;thiel-behnke角膜营养不良;胸主动脉瘤和主动脉夹层;marfanoid习惯;3m综合征2;血小板减少,血小板功能障碍,溶血和球蛋白合成不平衡;血小板减少,x连锁;血栓形成倾向,遗传性,由于蛋白质c缺乏,常染色体显性和隐性;甲状腺发育不全;甲状腺癌,滤泡的;甲状腺激素代谢,异常;甲状腺激素抵抗,全身性,常染色体显性;甲状腺机能周期性麻痹和甲状腺机能周期性麻痹2;促甲状腺激素释放激素抵抗,全身性;timothy综合征;tnf受体相关周期性发热综合征(traps);牙齿发育不全,选择性,3和4;尖端扭转;townes-brocks-branchiootorenal样综合征;新生儿暂时性大疱性皮肤松解;treachercollins综合征1;睫毛粗长症伴有精神发育迟滞,侏儒症和视网膜色素变性;发鼻指(趾)发育不良i型;发鼻指(趾)综合征3型;三甲基胺尿症;结节性硬化综合征;淋巴管肌瘤病;结节性硬化1和2;酪氨酸酶阴性眼皮肤白化病;酪氨酸酶阳性眼皮肤白化病;酪氨酸血症i型;udp葡萄糖-4-差向异构酶缺乏症;ullrich先天性肌营养不良症;尺骨和腓骨缺失伴有严重肢体缺乏症;upshaw-schulman综合征;尿刊酸(urocanate)水合酶缺乏症;usher综合征,1、1b、1d、1g、2a、2c和2d型;视网膜色素变性39;uv敏感综合征;vanderwoude综合征;vanmaldergem综合征2;hennekamlymphangiectasia-淋巴水肿综合征2;杂色卟啉症;巨脑室伴有囊性肾病;verheij综合征;超长链酰基辅酶a脱氢酶缺乏症;膀胱输尿管反流8;内脏异位5,常染色体;内脏肌病;维生素d依赖性佝偻病,1和2型;卵黄状变性;vonwillebrand病2m型和3型;waardenburg综合征1、4c和2e(伴有神经系统受累)型;klein-waardenberg综合征;walker-warburg先天性肌营养不良症;warburgmicro综合征2和4;疣,低丙种球蛋白血症,感染和先天性骨髓粒细胞缺乏症;weaver综合征;weill-marchesani综合征1和3;weill-marchesani样综合征;weissenbacher-zweymuller综合征;werdnig-hoffmann病;charcot-marie-tooth病;werner综合征;wfs1相关病症;wiedemann-steiner综合征;wilson病;wolfram样综合征,常染色体显性;worth病;vanbuchem病2型;着色性干皮病,互补群b、群d、群e和群g;x连锁无丙种球蛋白血症;x连锁遗传性运动和感觉神经病;x连锁鱼鳞病伴有固醇硫酸酯酶缺乏症;x连锁脑室周围异位;耳-腭-指综合征,i型;x连锁重度联合免疫缺陷;zimmermann-laband综合征和zimmermann-laband综合征2;和带状粉状白内障3。[0939]在特定方面,本公开提供了用于治疗诊断患有扩增重复病症(也称为重复扩增病症或三核苷酸重复病症)的受试者的基于tprt的方法。当微卫星重复扩展超过阈值长度时,发生扩展重复病症。目前,据信至少有30种遗传疾病是由重复扩增引起的。1990年代初期,随着发现三核苷酸重复是几种主要遗传病状的基础,对这组不同疾病的科学理解逐渐浮出水面,所述遗传病状包括脆性x、脊髓和延髓肌萎缩症、强直性营养不良和亨廷顿病(nelsonetal,“theunstablerepeats-threeevolvingfacesofneurologicaldisease,”neuron,march6,2013,vol.77;825-843,其通过引用并入本文),以及hawriver综合征、jacobsen综合征、齿状核-红核-苍白球-丘脑下部萎缩(drpla)、machado-joseph病、并指多指畸形(spdii)、手足生殖器综合征(hfgs)、颅骨发育不良(ccd)、前脑无裂畸形病症(hpe)、先天性中枢性低通气综合征(cchs)、arx非综合征性x连锁智力低下(xlmr)和眼咽肌营养不良症(opmd)(见。据发现微卫星重复不稳定性是这些病状的标志,正如预期一样-每一代都可能发生重复扩增的现象,这导致后代中更严重的表型和更早的发作年龄。据信重复扩增经由几种不同的机制引起疾病。即,扩增可以在基因、mrna转录物和/或编码的蛋白质的水平上干扰细胞功能。在一些情况下,突变通过沉默含有重复的基因经由功能丧失机制起作用。在其他情况下,疾病是由功能获得机制引起的,凭此mrna转录物或蛋白质具有新的异常功能。[0940]在一个实施方案中,治疗三核苷酸重复病症的方法在图23中描绘。一般而言,该方法涉及使用tprt基因组编辑与延伸的grna组合,该延伸的grna包含编码期望的且健康的替lemli-opitzsyndrome);和泰萨克斯病(tay-sachsdisease)。在其他实施方案中,疾病相关基因可以与选自由以下组成的组的多基因病症相关:心脏病;高血压;阿尔茨海默氏病;关节炎;糖尿病;癌症;和肥胖。[0948]靶核苷酸序列可以包含与疾病、病症或病状相关的靶序列(例如,点突变)。靶序列可以包含与疾病、病症或病状相关的t到c(或a到g)点突变,并且其中突变体c碱基的脱氨基导致错配修复介导的校正为不与疾病、病症或病状相关的序列。靶序列可以包含与疾病、病症或病状相关的g到a(或c到t)点突变,并且其中突变体a碱基的脱氨基导致错配修复介导的校正为不与疾病、病症或病状相关的序列。靶序列可以编码蛋白质,并且其中点突变在密码子中且导致与野生型密码子相比,突变体密码子编码的氨基酸的变化。靶序列也可以处于剪接位点,且与野生型转录物相比,点突变导致mrna转录物的剪接发生变化。此外,靶可以处于基因的非编码序列,如启动子,且点突变导致基因表达的增加或减少。[0949]因此,在一些方面,突变体c的脱氨基导致突变体密码子编码的氨基酸的变化,这在一些情况下可以导致野生型氨基酸的表达。在其他方面,突变体a的脱氨基导致突变体密码子编码的氨基酸的变化,这在一些情况下可以导致野生型氨基酸的表达。[0950]本文所述的涉及使细胞与组合物或raav颗粒接触的方法可以在体外、离体或体内发生。在某些实施方案中,接触步骤发生在受试者中。在某些实施方案中,受试者已被诊断患有疾病、病症或病状。[0951]在一些实施方案中,本文公开的方法涉及使哺乳动物细胞与组合物或raav颗粒接触。在特定实施方案中,方法涉及接触视网膜细胞、皮质细胞或小脑细胞。[0952]使用本文描述的方法递送的分裂cas9蛋白或分裂引导编辑器优选具有与原始cas9蛋白或引导编辑器(即作为整体递送至细胞或在细胞中表达的未分裂蛋白)相当的活性。例如,分裂cas9蛋白或分裂引导编辑器保留至少50%(例如,至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、至少98%、至少99%或100%)的原始cas9蛋白或引导编辑器的活性。在一些实施方案中,分裂cas9蛋白或分裂引导编辑器比原始cas9蛋白或引导编辑器更具活性(例如,2倍、5倍、10倍、100倍、1000倍或更多)。[0953]本文所述的组合物可以以治疗有效量施用于有此需要的受试者以治疗和/或预防受试者患有的疾病或病症。可以使用基于crispr/cas9的基因组编辑技术治疗和/或预防的任何疾病或病症可以通过本文所述的分裂cas9蛋白或分裂引导编辑器进行治疗。应理解,如果编码分裂cas9蛋白或引导编辑器的核苷酸序列不进一步编码grna,则可以将编码grna的单独的核酸载体与本文所述的组合物一起施用。[0954]示例性的合适的疾病、病症或病状包括但不限于选自下组的疾病或病症:囊性纤维化、苯丙酮尿症、表皮松解性角化过度(ehk)、慢性阻塞性肺病(copd)、charcot-marie-toot疾病4j.型、神经母细胞瘤(nb)、血管性血友病(vwd)、先天性肌强直、遗传性肾淀粉样变性、扩张型心肌病、遗传性淋巴水肿、家族性阿尔茨海默病、朊病毒病、慢性婴儿神经性皮肤关节综合征(cinca)、先天性耳聋、niemann-pick病c型(npc)和结蛋白相关性肌病(drm)。在特定实施方案中,疾病或病症是niemann-pick病c型(npc)疾病。[0955]在一些实施方案中,疾病、病症或病状与npc基因、dnmt1基因、pcsk9基因或tmc1基因中的点突变相关。在某些实施方案中,点突变是npc中的t3182c突变,其导致i1061t氨基酸取代。[0956]在某些实施方案中,点突变是tmc1中的a545g突变,其导致y182c氨基酸取代。tmc1编码在内耳的感觉毛细胞中形成机械敏感离子通道的蛋白质,并且是正常听觉功能所必需的。y182c氨基酸取代与先天性耳聋有关。[0957]在一些实施方案中,疾病、病症或病状与产生终止密码子的点突变有关,例如,基因编码区内的提前终止密码子。[0958]另外的示例性疾病、病症和病状包括囊性纤维化(参见例如,schwanketal.,functionalrepairofcftrbycrispr/cas9inintestinalstemcellorganoidsofcysticfibrosispatients.cellstemcell.2013;13:653-658;和wuet.al.,correctionofageneticdiseaseinmouseviauseofcrispr-cas9.cellstemcell.2013;13:659-662,两者都不使用脱氨酶融合蛋白来校正遗传缺陷);苯丙酮尿症-例如,苯丙氨酸羟化酶基因中位置835(小鼠)或240(人)或同源残基处的苯丙氨酸至丝氨酸突变(t>c突变)-参见例如,mcdonaldetal.,genomics.1997;39:402-405;巨血小板综合征(bss)-例如,血小板膜糖蛋白ix中位置55或同源残基处的苯丙氨酸至丝氨酸突变,或者残基24或同源残基处的半胱氨酸至精氨酸(t>c突变)-参见例如,norisetal.,britishjournalofhaematology.1997;97:312-320,和alietal.,hematol.2014;93:381-384;表皮松解性角化过度(ehk)-例如,角蛋白1中位置160或161(如果算上起始子甲硫氨酸)或同源残基处的亮氨酸至脯氨酸突变(t>c突变)-参见例如,chipevetal.,cell.1992;70:821-828,也参见位于www[dot]uniprot[dot]org的uniprot数据库中的登录号p04264;慢性阻塞性肺病(copd)-例如,加工形式的α1-抗胰蛋白酶中位置54或55(如果算上起始子甲硫氨酸)或同源残基或者未加工形式中的残基78或同源残基处的亮氨酸至脯氨酸突变(t>c突变)-参见例如,polleretal.,genomics.1993;17:740-743,也参见uniprot数据库中的登录号p01011;charcot-marie-toot疾病4j型-例如,fig4中位置41或同源残基处的异亮氨酸至苏氨酸突变(t>c突变)-参见例如,lenketal.,plosgenetics.2011;7:e1002104;神经母细胞瘤(nb)-例如,胱天蛋白酶-9中位置197或同源残基处的亮氨酸至脯氨酸突变(t>c突变)-参见例如,kunduetal.,3biotech.2013,3:225-234;血管性血友病(vwd)-例如,加工形式的血管性血友病因子中位置509或同源残基处,或者未加工形式的血管性血友病因子中位置1272或同源残基处的半胱氨酸至精氨酸突变(t>c突变)-参见例如,lavergneetal.,br.j.haematol.1992,也参见uniprot数据库中的登录号p04275;82:66-72;先天性肌强直-例如,肌肉氯通道基因clcn1中位置277或同源残基处的半胱氨酸至精氨酸突变(t>c突变)-参见例如,weinbergeretal.,thej.ofphysiology.2012;590:3449-3464;遗传性肾淀粉样变性-例如,加工形式的载脂蛋白aii中位置78或同源残基处,或者未加工形式中的位置101或同源残基处的终止密码子至精氨酸突变(t>c突变)-参见例如,yazakietal.,kidneyint.2003;64:11-16;扩张型心肌病(dcm)-例如,foxd4基因中位置148或同源残基处的色氨酸至精氨酸突变(t>c突变),参见例如,minorettiet.al.,int.j.ofmol.med.2007;19:369-372;遗传性淋巴水肿-例如,vegfr3酪氨酸激酶中位置1035或同源残基处组氨酸至精氨酸突变(a>g突变),参见例如,irrthumetal.,am.j.hum.genet.2000;67:295-301;家族性阿尔茨海默病-例如,衰老蛋白1中位置143或同源残基处的异亮氨酸至缬氨酸突变(a>g突变),参见例如,galloet.al.,j.alzheimer’sdisease.2011;25:425-431;朊病毒病-例如,朊病毒蛋白中位置129或同源残基处甲硫氨酸至缬氨酸突变(a>g突变)-参见例如,lewiset.al.,j.ofgeneralvirology.2006;87:2443-2449;慢性婴儿神经性皮肤关节综合征(cinca)-例如,cryopyrin中位置570或同源残基处的酪氨酸至半胱氨酸突变(a>g突变)-参见例如,fuiisawaet.al.blood.2007;109:2903-2911;和结蛋白相关性肌病(drm)-例如,αβ晶体蛋白中位置120或同源残基处的精氨酸至甘氨酸突变(a>g突变)-参见例如,kumaretal.,j.biol.chem.1999;274:24137-24141。所有参考文献和数据库条目的全部内容通过引用并入本文。[0959]v.药物组合物[0960]本公开的其他方面涉及包含本文所述的引导编辑器(pe)系统的各种组分(例如,包括但不限于,napdnabp、逆转录酶、融合蛋白(例如,其包含napdnabp和逆转录酶)、引导编辑器向导rna、第二链切口向导rna以及包含融合蛋白和引导编辑器向导rna的复合物,以及辅助元件,如第二链切口组分和5’内源性dnaflap去除内切核酸酶,用于帮助驱动引导编辑过程朝向经编辑的产物形成)中的任一种的药物组合物。此类组合物可以包括pe1、pe2、pe3或pe3b。[0961]如本文所用,术语″药物组合物″是指配制用于药物用途的组合物。在一些实施方案中,药物组合物进一步包含药学上可接受的载体。在一些实施方案中,药物组合物包含另外的试剂(例如用于特异性递送,增加半衰期或其他治疗性化合物)。[0962]如本文所用,术语″药学上可接受的载体″是指药学上可接受的材料、组合物或媒介物,例如液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石粉、硬脂酸镁、钙或锌或硬脂酸)或溶剂包封材料,涉及将化合物从身体的一个部位(例如,递送部位)运送或运输到另一个部位(例如,器官、组织或身体的一部分)。药学上可接受的载体是″可接受的″,意思是与制剂的其他成分相容并且对受试者的组织无害(例如,生理学相容的、无菌的、生理学的ph等)。可以充当药学上可接受的载体的材料的一些实例包括:(1)糖,例如乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉和马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和醋酸纤维素;(4)粉末黄蓍胶;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠和滑石粉;(8)赋形剂,如可可脂和栓剂蜡;(9)油,如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油和豆油;(10)二醇,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露醇和聚乙二醇(peg);(12)酯类,如油酸乙酯和月桂酸乙酯;(13)琼脂;(14)缓冲剂,如氢氧化镁和氢氧化铝;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格氏液;(19)乙醇;(20)ph缓冲溶液;(21)聚酯,聚碳酸酯和/或聚酸酐;(22)增量剂(bulkingagent),如多肽和氨基酸(23)血清成分,如血清白蛋白、hdl和ldl;(22)c2-c12醇,如乙醇;和(23)药物制剂中采用的其他无毒相容物质。润湿剂、着色剂、脱模剂、包衣剂、甜味剂、调味剂、芳香剂、防腐剂和抗氧化剂也可以存在于制剂中。诸如″赋形剂″、″载体″、″药学上可接受的载体″等术语在本文中可互换使用。[0963]在一些实施方案中,配制药物组合物用于递送至受试者,例如用于基因编辑。施用本文所述药物组合物的合适途径包括但不限于:局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓室、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内(intraosseus)、眼周、肿瘤内、脑内和脑室内施用。[0964]在一些实施方案中,将本文所述的药物组合物局部施用于患病部位(例如,肿瘤部位)。在一些实施方案中,本文所述的药物组合物通过注射、通过导管的方法、通过栓剂的方法或通过植入物的方法施用于受试者,所述植入物是多孔的、无孔的或凝胶状的材料,包括膜(例如硅橡胶膜(sialasticmembrane))或纤维。[0965]在其他实施方案中,本文所述的药物组合物在控释系统中递送。在一个实施方案中,可以使用泵(参见例如,langer,1990,science249:1527-1533;seffon,1989,crccrit.ref.biomed.eng.14:201;buchwaldetal.,1980,surgery88:507;saudeketal.,1989,n.engl.j.med.321:574)。在另一个实施方案中,可以使用聚合物材料。(参见例如,medicalapplicationsofcontrolledrelease(langerandwiseeds.,crcpress,bocaraton,fla.,1974);controlleddrugbioavailability,drugproductdesignandperformance(smolenandballeds.,wiley,newyork,1984);rangerandpeppas,1983,macromol.sci.rev.macromol.chem.23:61.还参见levyetal.,1985,science228:190;duringetal.,1989,ann.neurol.25:351;howardetal.,1989,j.neurosurg.71:105.)其他控释系统讨论于例如langer,同上中。[0966]在一些实施方案中,药物组合物根据常规规程配制为适合于对受试者(例如人)进行静脉内或皮下施用的组合物。在一些实施方案中,用于通过注射施用的药物组合物是无菌等渗水性缓冲液中的溶液。必要时,药物还可以包括增溶剂和局部麻醉剂如利多卡因,以缓解注射部位的疼痛。通常,成分单独供应或以单位剂量形式混合在一起,例如,作为干燥的冻干粉末或无水浓缩物,在密封容器如安瓿或小药囊中,其表明活性剂的量。当药物通过输注施用时,可以用含有无菌药用级水或盐水的输液瓶分配。当药物组合物通过注射施用时,可以提供一安瓿的无菌注射用水或盐水,以便在施用前混合成分。[0967]用于全身施用的药物组合物可以是液体,例如无菌盐水、乳酸林格氏液或汉克氏液。此外,药物组合物可以是固体形式,并在使用前立即重新溶解或悬浮。还考虑了冻干形式。[0968]药物组合物可以包含在脂质颗粒或囊泡(例如脂质体或微晶)内,其也适用于肠胃外施用。颗粒可以是任何合适的结构的,例如单层或多层,只要其中含有组合物即可。化合物可以包埋在含有融合脂质二油酰磷脂酰乙醇胺(dope)、低水平(5-10mol%)的阳离子脂质的″稳定质粒-脂质颗粒″(splp)中,并通过聚乙二醇(peg)涂层稳定(zhangy.p.etal.,genether.1999,6:1438-47)。对于此类颗粒和囊泡,特别优选带正电荷的脂质如n-[1-(2,3-二油酰氧基)丙基]-n,n,n-三甲基-甲基硫酸铵或″dotap″。此类脂质颗粒的制备是众所周知的。参见例如,美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;和4,921,757;其每一个通过引用并入本文。[0969]例如,本文所述的药物组合物可以作为单位剂量施用或包装。当用于提及本公开的药物组合物时,术语″单位剂量″是指适合作为受试者的单一剂量的物理上离散的单位,每个单位含有预定量的活性物质,其经计算与所需稀释剂联合产生所需治疗效果;即载体(carrier)或媒介物(vehicle)。[0970]此外,药物组合物可以作为药物试剂盒提供,其包含(a)含有冻干形式的本发明的化合物的容器和(b)含有用于注射的药学上可接受的稀释剂(例如无菌水)的第二容器。药学上可接受的稀释剂可以用于重构或稀释本发明的冻干化合物。任选地与这种容器结合的可以是由管理药物或生物制品的制造、使用或销售的政府机构规定的形式的通知,该通知反映了制造、使用或销售机构对人类施用的批准。[0971]在另一方面,包括含有可用于治疗上述疾病的材料的制品。在一些实施方案中,制品包含容器和标签。合适的容器包括例如瓶子、小瓶、注射器和试管。容器可以由多种材料形成,例如玻璃或塑料。在一些实施方案中,容器容纳有效治疗本文所述疾病的组合物,并且可以具有无菌进入口。例如,容器可以是静脉内溶液袋或具有可由皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中,容器上或与容器结合的标签表明组合物用于治疗所选择的疾病。制品可以进一步包含第二容器,其包含药学上可接受的缓冲液,例如磷酸盐缓冲盐水、林格氏溶液或右旋糖溶液。它可以进一步包括从商业和用户角度所需的其他材料,包括其他缓冲剂、稀释剂、过滤器、针头、注射器和具有使用说明的包装说明书。[0972]vi.病毒递送方法[0973]在一些方面,本发明提供了方法,其包括向宿主细胞递送一种或多种多核苷酸,如一种或多种如本文所述的载体,其编码本文所述的引导编辑器(pe)系统的一种或多种组分、其一种或多种转录物,和/或从其转录的一种或多种蛋白质。在一些方面,本发明进一步提供了通过此类方法产生的细胞,以及包含此类细胞或由此类细胞产生的生物体(如动物、植物或真菌)。在一些实施方案中,将如本文所述的碱基编辑器与向导序列组合(并任选地与向导序列复合)递送至细胞。可以使用常规的基于病毒和非病毒的基因转移方法以在哺乳动物细胞或靶组织中引入核酸。此类方法可以用于将编码碱基编辑器组分的核酸施用于培养中的细胞或宿主生物体中。非病毒载体递送系统包括dna质粒、rna(例如本文所述载体的转录物)、裸核酸和与递送媒介物(如脂质体)复合的核酸。病毒载体递送系统包括dna和rna病毒,它们在递送至细胞后具有附加型或整合基因组。关于基因疗法规程的综述,参见anderson,science256:808-813(1992);nabel&felgner,tibtech11:211-217(1993);mitani&caskey,tibtech11:162-166(1993);dillon,tibtech11:167-175(1993);miller,nature357:455-460(1992);vanbrunt,biotechnology6(10):1149-1154(1988);vigne,restorativeneurologyandneuroscience8:35-36(1995);kremer&perricaudet,britishmedicalbulletin51(1):31-44(1995);haddadaetal.,incurrenttopicsinmicrobiologyandimmunologydoerflerandbihm(eds)(1995);和yuetal.,genetherapy1:13-26(1994)。[0974]核酸的非病毒递送的方法包括脂质转染、核转染、显微注射、生物弹道、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸dna、人工病毒粒子和试剂增强dna摄取。脂质转染描述于例如美国专利号5,049,386,4,946,787;和4,897,355)且脂质转染试剂是商业销售的(例如transfectamtm和lipofectintm)。适用于多核苷酸的有效率的受体识别脂质转染的阳离子和中性脂质包括feigner,wo91/17424;wo91/16024的那些。递送可以到细胞(例如体外或离体施用)或靶组织(例如体内施用)。[0975]脂质:核酸复合物,包括靶向脂质体如免疫脂质复合物的制备是本领域技术人员众所周知的(参见例如,crystal,science270:404-410(1995);blaeseetal.,cancergenether.2:291-297(1995);behretal.,bioconjugatechem.5:382-389(1994);remyetal.,bioconjugatechem.5:647-654(1994);gaoetal.,genetherapy2:710-722(1995);ahmadetal.,cancerres.52:4817-4820(1992);美国专利号4,186,183,4,217,344,4,235,871,4,261,975,4,485,054,4,501,728,4,774,085,4,837,028和4,946,787)。[0976]使用基于rna或dna病毒的系统来递送核酸利用了高度进化的过程,用于将病毒靶向体内的特定细胞并将病毒有效载荷运输到核。病毒载体可以直接施用于患者(体内)或者它们可以用于体外处理细胞,并且可以任选地将经修饰的细胞施用于患者(离体)。常规的基于病毒的系统可以包括逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体用于基因转移。利用逆转录病毒、慢病毒和腺相关病毒基因转移方法可以整合到宿主基因组中,其通常导致插入的转基因的长期表达。此外,在许多不同的细胞类型和靶组织中都观察到了高转导效率。[0977]病毒的趋性可以通过掺入外来包膜蛋白、扩增靶细胞的潜在靶群来改变。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此,逆转录病毒基因转移系统的选择将取决于靶组织。逆转录病毒载体由顺式作用的长末端重复组成,其包装容量高达6-10kb的外来序列。最小的顺式作用ltr足以复制和包装载体,然后将其用于将治疗基因整合到靶细胞中以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(mulv)、长臂猿白血病病毒(galv)、猿猴免疫缺陷病毒(siv)、人类免疫缺陷病毒(hiv)及其组合的那些(参见例如buchscheretal.,j.virol.66:2731-2739(1992);johann.etal.,j.virol.66:1635-1640(1992);sommnerfeltetal.,virol.176:58-59(1990);wilsonetal.,j.virol.63:2374-2378(1989);milleretal.,j.virol.65:2220-2224(1991);pct/us94/05700)。在优选瞬时表达的应用中,可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率并且不需要细胞分裂。使用此类载体,已经获得了高滴度和表达水平。该载体可以在相对简单的系统中大量生产。腺相关病毒(″aav″)载体也可以用于用靶核酸转导细胞,例如在核酸和肽的体外生产中,以及用于体内和离体基因疗法规程(参见例如,westetal.,virology160:38-47(1987);u.s.pat.no.4,797,368;wo93/24641;kotin,humangenetherapy5:793-801(1994);muzyczka,j.clin.invest.94:1351(1994)。重组aav载体的构建在许多出版物中有所描述,包括美国专利号5,173,414;tratschinetal.,mol.cell.biol.5:3251-3260(1985);tratschin,etal.,mol.cell.biol.4:2072-2081(1984);hermonat&muzyczka,pnas81:6466-6470(1984);和samulskietal.,j.virol.63:03822-3828(1989)。[0978]包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。此类细胞包括包装腺病毒的293细胞和包装逆转录病毒的ψ2细胞或pa317细胞。用于基因疗法中的病毒载体通常通过产生将核酸载体包装到病毒颗粒中的细胞系来生成。载体通常含有包装和随后整合到宿主中所需的最小病毒序列,其他病毒序列被用于待表达的多核苷酸的表达盒替换。缺失的病毒功能通常通过包装细胞系反式供应。例如,用于基因疗法中的aav载体通常仅具有来自aav基因组的itr序列,所述序列是包装和整合到宿主基因组中所需的。病毒dna包装在细胞系中,其含有编码其他aav基因(即rep和cap)但缺少itr序列的辅助质粒。也可以用腺病毒作为辅助感染细胞系。辅助病毒促进复制aav载体和从辅助质粒表达aav基因。由于缺乏itr序列,辅助质粒没有以显著的量进行包装。可以通过,例如热处理来减少腺病毒的污染,腺病毒对热处理比aav更敏感。将核酸递送至细胞的另外的方法是本领域技术人员已知的。参见例如,us20030087817,其通过引用并入本文。[0979]vii.试剂盒、载体、细胞和递送[0980]本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含编码本文所述的引导编辑器(pe)系统的各种组分(例如,包括但不限于,napdnabp、逆转录酶、融合蛋白(例如,其包含napdnabp和逆转录酶)、引导编辑器向导rna以及包含融合蛋白和引导编辑器向导rna的复合物,以及辅助元件,如第二链切口组分和5’内源性dnaflap去除内切核酸酶,用于帮助驱动引导编辑过程朝向经编辑的产物形成)的核苷酸序列。在一些实施方案中,核苷酸序列包含驱动引导编辑器(pe)系统组分表达的异源启动子。[0981]本公开的一些方面提供了试剂盒,其包含一种或多种编码本文所述的引导编辑器(pe)系统的各种组分的核酸构建体,例如,其包含能够修饰靶dna序列的编码引导编辑器(pe)系统的组分的核苷酸序列。在一些实施方案中,核苷酸序列包含驱动引导编辑器(pe)系统组分表达的异源启动子。[0982]本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含(a)编码融合至逆转录酶的napdnabp(例如cas9结构域)的核苷酸序列和(b)驱动(a)的序列表达的异源启动子。[0983]试剂盒[0984]可以将本公开的组合物组装成试剂盒。在一些实施方案中,试剂盒包含用于表达本文所述的引导编辑器的核酸载体。在其他实施方案中,试剂盒进一步包含适当的指导核苷酸序列(例如pegrna和第二位点grna)或用于表达此类指导核苷酸序列的核酸载体,以将cas9蛋白或引导编辑器靶向所期望的靶序列。[0985]本文所述的试剂盒可以包括一个或多个容器,所述容器容纳用于实施本文所述方法的组分和任选的使用说明书。本文所述的任何试剂盒可以进一步包含实施测定方法所需的组分。如果适用,试剂盒的每种组分可以以液体形式(例如,以溶液)或以固体形式(例如,干粉)提供。在某些情况下,一些组分可以是可重构的或以其他方式可加工的(例如,成为活性形式),例如,通过添加合适的溶剂或其他物质(例如水),其可以或可以不随试剂盒提供。[0986]在一些实施方案中,试剂盒可以任选地包括用于使用所提供组分的说明书和/或广告宣传。如本文所用,″说明书″可以定义说明和/或广告宣传的组分,并且通常涉及针对本公开的包装或与之相关的书面说明书。说明书还可以包括以任何方式提供的任何口头或电子说明书,使得用户将清楚地认识到说明书与该试剂盒相关,例如,视听(例如,录像带、dvd等),因特网和/或基于网络的通信等。书面说明书可以是以由管理药品或生物制品的制造、使用或销售的政府机构规定的形式,其也可以反映用于动物施用的制造、使用或销售的机构的批准。如本文所用,″宣传的″包括做生意的所有方法,其包括教育的方法、医院和其他临床指导、科学探究、药物发现或开发、学术研究、制药行业活动包括药品销售,以及任何广告或其他广告宣传活动包括与本公开相关的任何形式的书面、口头和电子通信。另外,如本文所述,取决于具体应用,试剂盒可以包括其他组分。[0987]试剂盒可以在一个或多个容器中含有本文所述的任何一种或多种组分。这些组分可以无菌制备,包装在注射器中并冷藏运输。或者,其可以容纳在小瓶或其他容器中用于储存。第二容器可以具有无菌制备的其他组分。或者,试剂盒可以包括预混合的活性剂并在小瓶、管或其他容器中运输。[0988]试剂盒可以具有多种形式,例如泡罩袋、收缩包装袋、真空可密封袋、可密封的热成型托盘或类似的袋或托盘形式,其中附件松散地包装在袋内,一个或多个管、容器、盒子或袋子。在添加附件后,可以对试剂盒进行灭菌,从而允许容器中的各个附件以其他方式拆开。可以使用任何适当的灭菌技术对试剂盒进行灭菌,例如辐射灭菌、加热灭菌或本领域已知的其他灭菌方法。试剂盒还可以包括其他组分,取决于具体应用,例如容器、细胞培养基、盐、缓冲液、试剂、注射器、针、织物例如纱布,用于施加或去除消毒剂、一次性手套、施用前对试剂的支持物等。本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含编码本文所述的引导编辑系统的各种组分(例如,包括但不限于,napdnabp、逆转录酶、聚合酶、融合蛋白(例如,其包含napdnabp和逆转录酶(或更广泛地,聚合酶)、延伸的向导rna以及包含融合蛋白和延伸的向导rna的复合物,以及辅助元件,如第二链切口组分(例如第二链切口grna)和5’内源性dnaflap去除内切核酸酶,用于帮助驱动引导编辑过程朝向经编辑的产物形成)的核苷酸序列。在一些实施方案中,核苷酸序列包含驱动引导编辑系统组分表达的异源启动子(或超过单一启动子)。[0989]本公开的其他方面提供了试剂盒,其包含一种或多种编码本文所述的引导编辑系统的各种组分的核酸构建体,例如,其包含能够修饰靶dna序列的编码引导编辑系统的组分的核苷酸序列。在一些实施方案中,核苷酸序列包含驱动引导编辑系统组分表达的异源启动子。[0990]本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含(a)编码融合至逆转录酶的napdnabp(例如cas9结构域)的核苷酸序列和(b)驱动(a)的序列表达的异源启动子。[0991]细胞[0992]可以含有本文所述任何组合物的细胞包括原核细胞和真核细胞。本文所述的方法用于将cas9蛋白或引导编辑器递送到真核细胞(例如哺乳动物细胞,例如人细胞)中。在一些实施方案中,细胞是体外的(例如,培养的细胞。在一些实施方案中,细胞是体内的(例如,在受试者如人受试者中)。在一些实施方案中,细胞是离体的(例如,从受试者分离的并且可以施用回相同或不同的受试者)。[0993]本公开的哺乳动物细胞包括人细胞、灵长类动物细胞(例如vero细胞)、大鼠细胞(例如gh3细胞、oc23细胞)或小鼠细胞(例如mc3t3细胞)。存在多种人细胞系,其包括但不限于,人胚肾(hek)细胞、hela细胞、来自国家癌症研究所(nationalcancerinstitute)的60癌细胞系(nci60)的癌症细胞、du145(前列腺癌)细胞、lncap(前列腺癌)细胞、mcf-7(乳腺癌)细胞、mda-mb-438(乳腺癌)细胞、pc3(前列腺癌)细胞、t47d(乳腺癌)细胞、thp-1(急性髓样白血病)细胞、u87(胶质母细胞瘤)细胞、shsy5y人神经母细胞瘤细胞(克隆自骨髓瘤)和saos-2(骨癌)细胞。在一些实施方案中,raav载体被递送到人胚肾(hek)细胞(例如hek293或hek293t细胞)中。在一些实施方案中,raav载体被递送到干细胞(例如人干细胞)中,诸如例如多能干细胞(例如人多能干细胞包括人诱导多能干细胞(hipsc))。干细胞是指具有在培养中无限期分裂并产生特化细胞的能力的细胞。多能干细胞是指一种类型的干细胞,其能够分化成生物体的所有组织,但不能单独支撑完整的生物体发育。人诱导多能干细胞是指通过被迫表达对维持胚胎干细胞的定义性质重要的基因和因子而重编程为胚胎干细胞样状态的体细胞(例如,成熟或成体)细胞(参见例如,takahashiandyamanaka,cell126(4):663-76,2006,通过引用本文并入)。人诱导多能干细胞表达干细胞标志物并且能够产生所有三个胚层(外胚层、内胚层、中胚层)的特征性细胞。[0994]可以根据本公开使用的细胞系的另外的非限制性实例包括293-t、293-t、3t3、4t1、721、9l、a-549、a172、a20、a253、a2780、a2780adr、a2780cis、a431、alc、b16、b35、bcp-1、beas-2b、bend.3、bhk-21、br293、bxpc3、c2c12、c3h-10t1/2、c6、c6/36、cal-27、cgr8、cho、cmlt1、cmt、cor-l23、cor-l23/5010、cor-l23/cpr、cor-l23/r23、cos-7、cov-434、ct26、d17、dh82、du145、ducap、e14tg2a、el4、em2、em3、emt6/ar1、emt6/ar10.0、fm3、h1299、h69、hb54、hb55、hca2、hepalc1c7、highfive细胞、hl-60、hmec、ht-29、huvec、j558l细胞、jurkat、jy细胞、k562细胞、kcl22、kg1、ku812、kyo1、lncap、ma-mel1、2、3....48、mc-38、mcf-10a、mcf-7、mda-mb-231、mda-mb-435、mda-mb-468、mdckii、mg63、mono-mac6、mor/02r、mrc5、mtd-1a、myend、nalm-1、nci-h69/cpr、nci-h69/lx10、nci-h69/lx20、nci-h69/lx4、nih-3t3、nw-145、opcn/opctpeer、pnt-1a/pnt2、ptk2、raji、rbl细胞、renca、rin-5f、rma/rmas、s2、saos-2细胞、sf21、sf9、siha、skbr3、skov-3、t-47d、t2、t84、thp1、u373、u87、u937、vcap、wm39、wt-49、x63、yac-1和yar细胞。[0995]本公开的一些方面提供了包含本文公开的任何构建体的细胞。在一些实施方案中,用本文所述的一种或多种载体瞬时或非瞬时转染宿主细胞。在一些实施方案中,在细胞天然存在于受试者中时对其进行转染。在一些实施方案中,经转染的细胞取自受试者。在一些实施方案中,细胞衍生于取自受试者的细胞,如细胞系。用于组织培养的多种细胞系是本领域已知的。细胞系的实例包括但不限于c8161、ccrf-cem、molt、mimcd-3、nhdf、hela-s3、huh1、huh4、huh7、huvec、hasmc、hekn、heka、miapacell、panc1、pc-3、tf1、ctll-2、c1r、rat6、cv1、rpte、a10、t24、j82、a375、arh-77、calu1、sw480、sw620、skov3、sk-ut、caco2、p388d1、sem-k2、wehi-231、hb56、tib55、jurkat、j45.01、lrmb、bcl-1、bc-3、ic21、dld2、raw264.7、nrk、nrk-52e、mrc5、mef、hepg2、helab、helat4、cos、cos-1、cos-6、cos-m6a、bs-c-1猴肾上皮、balb/3t3小鼠胚胎成纤维细胞、3t3swiss、3t3-l1、132-d5人胎儿成纤维细胞;10.1小鼠成纤维细胞、293-t、3t3、721、9l、a2780、a2780adr、a2780cis、a172、a20、a253、a431、a-549、alc、b16、b35、bcp-1细胞、beas-2b、bend.3、bhk-21、br293.bxpc3.c3h-10t1/2、c6/36、cal-27、cho、cho-7、cho-ir、cho-k1、cho-k2、cho-t、chodhfr-/-、cor-l23、cor-l23/cpr、cor-l23/5010、cor-l23/r23、cos-7、cov-434、cmlt1、cmt、ct26、d17、dh82、du145、ducap、el4、em2、em3、emt6/ar1、emt6/ar10.0、fm3、h1299、h69、hb54、hb55、hca2、hek-293、hela、hepa1c1c7、hl-60、hmec、ht-29、jurkat、jy细胞、k562细胞、ku812、kcl22、kg1、kyo1、lncap、ma-mel1-48、mc-38、mcf-7、mcf-10a、mda-mb-231、mda-mb-468、mda-mb-435、mdckii、mdck11、mor/0.2r、mono-mac6、mtd-1a、myend、nci-h69/cpr、nci-h69/lx10、nci-h69/lx20、nci-h69/lx4、nih-3t3、nalm-1、nw-145、opcn/opct细胞系、peer、pnt-1a/pnt2、renca、rin-5f、rma/rmas、saos-2细胞、sf-9、skbr3、t2、t-47d、t84、thp1细胞系、u373、u87、u937、vcap、vero细胞、wm39、wt-49、x63、yac-1、yar及其转基因品种。[0996]细胞系可从本领域技术人员已知的多种来源获得(参见例如美国典型培养物保藏中心(atcc)(manassus,va.))。在一些实施方案中,用本文所述的一种或多种载体转染的细胞用于建立包含一种或多种载体衍生序列的新细胞系。在一些实施方案中,用如本文所述的crispr系统的组分瞬时转染(如通过一种或多种载体的瞬时转染,或用rna转染)并通过crispr复合物的活性修饰的细胞用于建立新的细胞系,所述细胞系包含含有修饰但缺乏任何其他外源性序列的细胞。在一些实施方案中,用一种或多种本文所述的载体瞬时或非瞬时转染的细胞,或者衍生自此类细胞的细胞系用于评估一种或多种测试化合物。[0997]载体[0998]本公开的一些方面涉及使用重组病毒载体(例如,腺相关病毒载体、腺病毒载体或单纯疱疹病毒载体)用于向细胞中递送本文所述的引导编辑器或其组分,例如分裂cas9蛋白或分裂的核碱基引导编辑器。在分裂的pe方法的情况下,pe融合蛋白的n端部分和pe融合物的c端部分由单独的重组病毒载体(例如,腺相关病毒载体、腺病毒载体或单纯疱疹病毒载体)递送到相同细胞中,因为全长cas9蛋白或引导编辑器超过了各种病毒载体的包装限制,例如raav(~4.9kb)。[0999]因此,在一个实施方案中,本公开内容考虑能够递送分裂的引导编辑器融合蛋白或其分裂组分的载体。在一些实施方案中,提供了用于将分裂cas9蛋白或分裂引导编辑器递送到细胞(例如,哺乳动物细胞、人细胞)中的组合物。在一些实施方案中,本公开的组合物包含:(i)第一重组腺相关病毒(raav)颗粒,其包含编码在其c端融合至内含肽-n的cas9蛋白或引导编辑器的n端部分的第一核苷酸序列;和(ii)第二重组腺相关病毒(raav)颗粒,其包含编码融合至cas9蛋白或引导编辑器的c端部分的n端的内含肽-c的第二核苷酸序列。本公开的raav颗粒包含包裹在病毒衣壳蛋白中的raav载体(即,raav的重组基因组)。[1000]在一些实施方案中,raav载体包含:(1)异源核酸区域,其包含编码分裂cas9蛋白或分裂引导编辑器的n端部分或c端部分的第一或第二核苷酸序列,以如本文所述的任何形式,(2)包含促进异源核酸区域表达的序列的一个或多个核苷酸序列(例如启动子),和(3)包含促进异源核酸区域整合到细胞的基因组中的序列的一个或多个核酸区域(任选地具有包含促进表达的序列的一个或多个核酸区域)。在一些实施方案中,促进整合的病毒序列包含反向末端重复(itr)序列。在一些实施方案中,编码分裂cas9蛋白或分裂引导编辑器的n端部分或c端部分的第一或第二核苷酸序列在每一侧的侧翼为itr序列。在一些实施方案中,核酸载体进一步包含编码如本文所述的aavrep蛋白的区域,其包含在侧翼为itr的区域内或该区域外。itr序列可以衍生自任何aav血清型(例如,1、2、3、4、5、6、7、8、9或10)或者可以衍生自超过一种血清型。在一些实施方案中,itr序列衍生自aav2或aav6。[1001]因此,在一些实施方案中,本文公开的raav颗粒包含至少一种raav2颗粒、raav6颗粒、raav8颗粒、rphp.b颗粒、rphp.eb颗粒或raav9颗粒,或其变体。在特定实施方案中,所公开的raav颗粒是rphp.b颗粒、rphp.eb颗粒、raav9颗粒。[1002]itr序列和含有itr序列的质粒是本领域已知的并且可商购获得(参见例如,可从以下获得产品和服务:vectorbiolabs,philadelphia,pa;cellbiolabs,sandiego,ca;agilenttechnologies,santaclara,ca;和addgene,cambridge,ma;以及genedeliverytoskeletalmuscleresultsinsustainedexpressionandsystemicdeliveryofatherapeuticprotein.kesslerpd,podsakoffgm,chenx,mcquistonsa,colosipc,matelisla,kurtzmangj,byrnebj.procnatlacadsciusa.1996nov26;93(24):14082-7;和curtisa.machida.methodsinmolecularmedicinetm.viralvectorsforgenetherapymethodsandprotocols.10.1385/1-59259-304-6:201humanapressinc.2003.chapter10.targetedintegrationbyadeno-associatedvirus.matthewd.weitzman,samuelm.youngjr.,tonicathomenandrichardjudesamulski;美国专利号5,139,941和5,962,313,其全部通过引用并入本文)。[1003]在一些实施方案中,本公开的raav载体包含一种或多种调控元件以控制异源核酸区域的表达(例如,启动子、转录终止子和/或其他调控元件)。在一些实施方案中,第一和/或第二核苷酸序列与一个或多个(例如,1、2、3、4、5或更多个)转录终止子可操作地连接。可以根据本公开使用的转录终止子的非限制性实例包括牛生长激素基因(bgh)、人生长激素基因(hgh)、sv40、cw3、φ的转录终止子或其组合。已经测试了几种转录终止子的效率,以确定它们各自对分裂cas9蛋白或分裂引导编辑器的表达水平的作用。在一些实施方案中,本公开中使用的转录终止子是bgh转录终止子。在一些实施方案中,raav载体进一步包含土拨鼠肝炎病毒转录后调控元件(wpre)。在某些实施方案中,wpre是截短的wpre序列,如″w3″。在一些实施方案中,wpre插入转录终止子的5’。此类序列在转录时产生三级结构,该结构增强了表达,特别是来自病毒载体的表达。[1004]在一些实施方案中,本文使用的载体可以编码pe融合蛋白或其任何组分(例如,napdnabp、接头或聚合酶)。此外,本文使用的载体可以编码用于第二链切口产生的pegrna和/或辅助grna。载体可以能够驱动细胞中一种或多种编码序列的表达。在一些实施方案中,细胞可以是原核细胞,诸如例如细菌细胞。在一些实施方案中,细胞可以是真核细胞,诸如例如酵母、植物、昆虫或哺乳动物细胞。在一些实施方案中,真核细胞可以是哺乳动物细胞。在一些实施方案中,真核细胞可以是啮齿动物细胞。在一些实施方案中,真核细胞可以是人细胞。在不同类型的细胞中驱动表达的合适启动子是本领域已知的。在一些实施方案中,启动子可以是野生型的。在其他实施方案中,可以对启动子进行修饰以进行更有效率或更有效的表达。在其他实施方案中,启动子可以经截短但保留其功能。例如,启动子可以具有适合将载体正确包装到病毒中的正常大小或减小的大小。[1005]在一些实施方案中,可以用于引导编辑器载体的启动子可以是组成型的、诱导型的或组织特异性的。在一些实施方案中,启动子可以是组成型启动子。非限制性示例性组成型启动子包括巨细胞病毒立即早期启动子(cmv)、猿猴病毒(sv40)启动子、腺病毒主要晚期(mlp)启动子、劳斯肉瘤病毒(rsv)启动子、小鼠乳腺肿瘤病毒(mmtv)启动子、磷酸甘油酸激酶(pgk)启动子、延伸因子-alpha(efla)启动子、泛素启动子、肌动蛋白启动子、微管蛋白启动子、免疫球蛋白启动子、其功能片段,或任何前述的组合。在一些实施方案中,启动子可以是cmv启动子。在一些实施方案中,启动子可以是截短的cmv启动子。在其他实施方案中,启动子可以是efla启动子。在一些实施方案中,启动子可以是诱导型启动子。非限制性示例性诱导型启动子包括可通过热休克、光、化学品、肽、金属、类固醇、抗生素或醇诱导的那些。在一些实施方案中,诱导型启动子可以是具有低基础(非诱导)表达水平的启动子,例如,启动子(clontech)。在一些实施方案中,启动子可以是组织特异性启动子。在一些实施方案中,组织特异性启动子在肝脏组织中排他地或主要地表达。非限制性示例性组织特异性启动子包括b29启动子、cd14启动子、cd43启动子、cd45启动子、cd68启动子、结蛋白启动子、弹性蛋白酶-1启动子、内皮联蛋白启动子、纤连蛋白启动子、flt-1启动子、gfap启动子、gpiib启动子、icam-2启动子、inf-β启动子、mb启动子、nphsl启动子、og-2启动子、sp-b启动子、syn1启动子和wasp启动子。[1006]在一些实施方案中,引导编辑器载体(例如,包括编码引导编辑器融合蛋白和/或pegrna和/或辅助第二链切口grna的任何载体)可以包含诱导型启动子以仅在其递送至靶细胞后开始表达。非限制性示例性诱导型启动子包括可通过热休克、光、化学品、肽、金属、类固醇、抗生素或醇诱导的那些。在一些实施方案中,诱导型启动子可以是具有低基础(非诱导)表达水平的启动子,诸如例如,启动子(clontech)。[1007]在另外的实施方案中,引导编辑器载体(例如,包括编码引导编辑器融合蛋白和/或pegrna和/或辅助第二链切口grna的任何载体)可以包含组织特异性启动子以仅在其递送至特定组织后开始表达。非限制性示例性组织特异性启动子包括b29启动子、cd14启动子、cd43启动子、cd45启动子、cd68启动子、结蛋白启动子、弹性蛋白酶-1启动子、内皮联蛋白启动子、纤连蛋白启动子、flt-1启动子、gfap启动子、gpiib启动子、icam-2启动子、inf‑‑β启动子、mb启动子、nphs1启动子、og-2启动子、sp-b启动子、syn1启动子和wasp启动子。[1008]在一些实施方案中,编码pegrna(或与引导编辑结合使用的任何向导rna)的核苷酸序列可以与至少一个转录或翻译控制序列可操作地连接。在一些实施方案中,编码向导rna的核苷酸序列可以与至少一个启动子可操作地连接。在一些实施方案中,启动子可以由rna聚合酶iii(poliii)识别。poliii启动子的非限制性实例包括u6、hi和trna启动子。在一些实施方案中,编码向导rna的核苷酸序列可以与小鼠或人u6启动子可操作地连接。在其他实施方案中,编码向导rna的核苷酸序列可以与小鼠或人hi启动子可操作地连接。在一些实施方案中,编码向导rna的核苷酸序列可以与小鼠或人trna启动子可操作地连接。在具有超过一种向导rna的实施方案中,用于驱动表达的启动子可以相同或不同。在一些实施方案中,编码向导rna的crrna的核苷酸和编码向导rna的tracrrna的核苷酸可以在同一载体上提供。在一些实施方案中,编码crrna的核苷酸和编码tracrrna的核苷酸可以由相同的启动子驱动。在一些实施方案中,crrna和tracrrna可以转录成单个转录物。例如,crrna和tracrrna可以从单个转录物加工以形成双分子向导rna。或者,crrna和tracrrna可以转录成单分子向导rna。[1009]在一些实施方案中,编码向导rna的核苷酸序列可以位于包含编码pe融合蛋白的核苷酸序列的相同载体上。在一些实施方案中,向导rna和pe融合蛋白的表达可以由它们相应的启动子驱动。在一些实施方案中,向导rna的表达可以由驱动pe融合蛋白表达的相同启动子驱动。在一些实施方案中,向导rna和pe融合蛋白转录物可以包含在单个转录物内。例如,向导rna可以在cas9蛋白转录物的非翻译区(utr)内。在一些实施方案中,向导rna可以在pe融合蛋白转录物的5’utr内。在其他实施方案中,向导rna可以在pe融合蛋白转录物的3’utr内。在一些实施方案中,pe融合蛋白转录物的细胞内半衰期可以通过在其3’utr内含有向导rna并由此缩短其3’utr的长度而减少。在另外的实施方案中,向导rna可以在pe融合蛋白转录物的内含子内。在一些实施方案中,可以在向导rna位于其中的内含子处添加合适的剪接位点,使得向导rna从转录物正确剪接出来。在一些实施方案中,相同载体上紧密相邻的cas9蛋白和向导rna的表达可以促进crispr复合物的更有效形成。[1010]引导编辑器载体系统可以包含一种载体、或两种载体、或三种载体、或四种载体、或五种载体或更多。在一些实施方案中,载体系统可以包含一种单一载体,其编码pe融合蛋白和pegrna两者。在其他实施方案中,载体系统可以包含两种载体,其中一种载体编码pe融合蛋白,且另一种编码pegrna。在另外的实施方案中,载体系统可以包含三种载体,其中第三种载体编码本文方法中使用的第二链切口grna。[1011]在一些实施方案中,包含raav颗粒(以本文考虑的任何形式)的组合物进一步包含药学上可接受的载体。在一些实施方案中,将组合物配制在合适的药物媒介物中以用于施用于人或动物受试者。[1012]可以充当药学上可接受的载体的材料的一些实例包括:(1)糖,例如乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉和马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和醋酸纤维素;(4)粉末黄蓍胶;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠和滑石粉;(8)赋形剂,如可可脂和栓剂蜡;(9)油,如花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油和豆油;(10)二醇,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露醇和聚乙二醇(peg);(12)酯类,如油酸乙酯和月桂酸乙酯;(13)琼脂;(14)缓冲剂,如氢氧化镁和氢氧化铝;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格氏液;(19)乙醇;(20)ph缓冲溶液;(21)聚酯,聚碳酸酯和/或聚酸酐;(22)增量剂(bulkingagent),如多肽和氨基酸(23)血清成分,如血清白蛋白、hdl和ldl;(22)c2-c12醇,如乙醇;和(23)药物制剂中采用的其他无毒相容物质。润湿剂、着色剂、脱模剂、包衣剂、甜味剂、调味剂、芳香剂、防腐剂和抗氧化剂也可以存在于制剂中。诸如″赋形剂″、″载体″、″药学上可接受的载体″等术语在本文中可互换使用。[1013]递送方法[1014]在一些方面,本发明提供方法,其包括将一种或多种多核苷酸,如一种或多种如本文所述的载体、其一种或多种转录物和/或从其转录的一种或多种蛋白质递送至宿主细胞。在一些方面,本发明进一步提供了通过此类方法产生的细胞,以及包含此类细胞或由此类细胞产生的生物体(如动物、植物或真菌)。在一些实施方案中,将如本文所述的碱基编辑器与向导序列组合(并任选地与向导序列复合)递送至细胞。[1015]示例性递送策略在本文中别处描述,其包括基于载体的策略、pe核糖核蛋白复合物递送和通过mrna方法递送pe。[1016]在一些实施方案中,提供的递送方法包括核转染、显微注射、生物弹道、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸dna、人工病毒粒子和试剂增强的dna摄取。[1017]示例性的核酸递送方法包括脂质转染、核转染、电穿孔、稳定基因组整合(例如,piggybac)、显微注射、生物弹道、病毒体、脂质体、免疫脂质体、聚阳离子或脂质:核酸缀合物、裸dna、人工病毒粒子和试剂增强的dna摄取。脂质转染描述于例如美国专利号5,049,386,4,946,787;和4,897,355中)且脂质转染试剂是商业销售的(例如transfectamtm、lipofectintm和sfcellline4d-nucleofectorxkittm(lonza))。适用于多核苷酸的有效率的受体识别脂质转染的阳离子和中性脂质包括feigner,wo91/17424;wo91/16024。递送可以至细胞(例如体外或离体施用)或靶组织(例如体内施用)。递送可以通过使用rnp复合物来实现。[1018]脂质:核酸复合物,包括靶向脂质体如免疫脂质复合物的制备是本领域技术人员众所周知的(参见例如,crystal,science270:404-410(1995);blaeseeta1.,cancergenether.2:291-297(1995);behretal.,bioconjugatechem.5:382-389(1994);remyetal.,bioconjugatechem.5:647-654(1994);gaoetal.,genetherapy2:710-722(1995);ahmadetal.,cancerres.52:4817-4820(1992);美国专利号4,186,183,4,217,344,4,235,871,4,261,975,4,485,054,4,501,728,4,774,085,4,837,028和4,946,787)。[1019]在其他实施方案中,本文提供的递送方法和载体是rnp复合物。融合蛋白的rnp递送显著增加了碱基编辑的dna特异性。融合蛋白的rnp递送导致中靶和脱靶dna编辑的解偶联。rnp递送消除了非重复位点处的脱靶编辑,同时维持了与质粒递送相当的中靶编辑,并且即使在高度重复的vegfa位点2处也大大减少了脱靶dna编辑。参见rees,h.a.etal.,improvingthednaspecificityandapplicabilityofbaseeditingthroughproteinengineeringandproteindelivery,nat.commun.8,15790(2017),2016年12月27日颁发的美国专利号9,526,784,以及2017年8月22日颁发的美国专利号9,737,604,其每一篇通过引用并入本文。[1020]将核酸递送至细胞的另外的方法是本领域技术人员已知的。参见例如,us2003/0087817,通过引用并入本文。[1021]本公开的其他方面提供了将引导编辑器构建体递送到细胞中以在细胞内形成完整且功能性的引导编辑器的方法。例如,在一些实施方案中,细胞与本文所述的组合物(例如,包含编码分裂cas9或分裂引导编辑器的核苷酸序列的组合物或含有包含此类核苷酸序列的核酸载体的aav颗粒)接触。在一些实施方案中,接触导致此类核苷酸序列递送到细胞中,其中cas9蛋白或引导编辑器的n端部分和cas9蛋白或引导编辑器的c端部分在细胞中表达并接合以形成完整的cas9蛋白或完整的引导编辑器。[1022]应当理解,本文提供的任何raav颗粒、核酸分子或组合物可以以任何合适的方式稳定地或瞬时地引入细胞中。在一些实施方案中,可以将所公开的蛋白质转染到细胞中。在一些实施方案中,可以用核酸分子转导或转染细胞。例如,可以用编码分裂蛋白的核酸分子或含有编码一种或多种核酸分子的病毒基因组的raav颗粒转导(例如用编码分裂蛋白的病毒)或转染(例如用编码分裂蛋白的质粒)细胞。此类转导可以是稳定的或瞬时的转导。在一些实施方案中,可以用一种或多种向导rna序列转导或转染表达分裂蛋白或含有分裂蛋白的细胞,例如递送分裂cas9(例如,ncas9)蛋白。在一些实施方案中,可以通过电穿孔、瞬时(例如脂质转染)和稳定基因组整合(例如piggybac)和病毒转导或本领域技术人员已知的其他方法将表达分裂蛋白的质粒引入细胞。[1023]在某些实施方案中,本文提供的组合物包含脂质和/或聚合物。在某些实施方案中,脂质和/或聚合物是阳离子的。此类脂质颗粒的制备是众所周知的。参见例如美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;4,921,757;和9,737,604,其每一篇通过引用并入本文。[1024]向导rna序列的长度可以是15-100个核苷酸并且包含与靶核苷酸序列互补的至少10、至少15或至少20个连续核苷酸的序列。向导rna可以包含与靶核苷酸序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸的序列。向导rna的长度可以是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸。[1025]在一些实施方案中,靶核苷酸序列是基因组中的dna序列,例如真核基因组。在某些实施方案中,靶核苷酸序列在哺乳动物(例如人)基因组中。[1026]例如,本公开组合物可以作为单位剂量施用或包装为单位剂量。当用于提及本公开的药物组合物时,术语″单位剂量″是指适合作为受试者的单一剂量的物理上离散的单位,每个单位含有预定量的活性物质,其经计算与所需稀释剂(即载体或媒介物)联合产生所期望的治疗效果。[1027]疾病或病症的治疗包括延迟疾病的发展或进展,或降低疾病严重性。治疗疾病并不一定需要有治愈结果。[1028]如其中所用,″延迟″疾病的发展意指推迟、阻碍、减缓、延缓、稳定和/或延期疾病的进展。该延迟可以是不同的时间长度的,取决于疾病的历史和/或被治疗的个体。″延迟″或减轻疾病的发展或延迟疾病的发作的方法是当与不使用该方法相比,降低在给定时间范围中发展一种或多种疾病的症状的可能性和/或降低在给定时间范围中症状的程度。此类比较通常基于临床研究,使用足以给出统计学显著结果的多个受试者。[1029]疾病的″发展″或″进展″意指疾病的初始表现和/或随后的进展。可以使用本领域熟知的标准临床技术检测和评估疾病的发展。然而,发展也指可以不可检测的进展。出于本公开的目的,发展或进展是指症状的生物学过程。″发展″包括发生、复发和发作。[1030]如本文所用,疾病的″发作″或″发生″包括初始发作和/或复发。医疗领域普通技术人员已知的常规方法可以用于将分离的多肽或药物组合物施用于受试者,取决于待治疗的疾病的类型或疾病的部位。[1031]无需进一步阐述,相信本领域技术人员可以基于以上描述充分利用本公开。因此,以下特定实施方案应被解释为仅是说明性的,而不以任何方式限制本公开的其余部分。出于本文引用的目的或主题,本文引用的所有出版物通过引用并入。[1032]序列[1033]本技术通篇描述了与本公开的各个方面相关的多种氨基酸和核苷酸序列,包括示例性cas9序列、逆转录酶序列、融合蛋白序列、接头、向导rna和其他序列。此外,实施例2(和本文其他地方)描述了用于设计和/或确定数千个示例性引导编辑器向导rna(pegrna)的序列以修复来自clinvar数据库的示例性序列的过程和算法。[1034]本技术与序列表一起提交。序列表包括对根据实施例2确定的每个pegrna的描述。总的来说,实施例2确定了133515个示例性pegrna完整序列的序列。这些序列中的每一个呈现/包括在序列表中并被鉴定为seq1dno:1-135514和813085-880462。此外,如别处所述,pegrna各自包含间隔区(seqidno:135515-271028和880463-947840)和延伸臂(seqidno:271029-406542和947841-1015218)。此外,每个pegrna包含grna核心,例如,如通过seqidno:1361579-1361580所定义。seqidno:271029-406542和947841-1015218的延伸臂进一步各自包含引物结合位点(seqidnos.:406543-542056和1015219-1082596),编辑模板(seqidno:542057-677570和1082597-1149974)以及同源臂(seqidno:677571-813084和1149975-1217352)。pegrna任选地可以包含5’末端修饰物区和/或3’末端修饰物区。pegrna还可以在pegrna的3’处包含逆转录终止信号(例如,seqidno:1361560-1361566)。[1035]对于序列表(seqidno:1-135514)中提供的每个全长pegrna序列,该序列表包括一组五(5)个相应的亚序列:即,(1)间隔区、(2)延伸臂、(3)引物结合位点、(4)编辑模板和(5)同源臂。任何给定的pegrna全长序列的亚序列集可以通过以下数学运算确定。[1036]确定每个pegrna的亚序列集[1037]对于序列表中的每个pegrna序列(例如seqidno:1),序列表中的以下序列构成相应的亚序列集:[1038]对于seqidno:1-813084:(1)间隔区、(2)延伸臂、(3)引物结合位点、(4)编辑模板和(5)同源臂,关系如下:[1039]间隔区:对于每个给定的pegrna序列,将相应间隔区的序列标识为添加至因子135514的pegrna序列标识符的数字(例如seqidno:1的数字“1”)。例如对应于seqidno:1的pegrna的间隔区是seqidno:135515。[1040]延伸臂:对于每个给定的pegrna序列,将相应的延伸臂标识为添加至因子271028(135514x2)的pegrna序列标识符的数字(例如seqidno:1的数字“1”)。例如对应于seqidno:1的pegrna的延伸臂是seqidno:271029。[1041]引物结合位点:对于每个给定的pegrna序列,将相应的引物结合位点标识为添加至因子406542(135514x3)的pegrna序列标识符的数字(例如seqidno:1的数字“1”)。例如对应于seqidno:1的pegrna的引物结合位点是seqidno:406542。[1042]编辑模板:对于每个给定的pegrna序列,将相应的编辑模板标识为添加至因子542056(135514x4)的pegrna序列标识符的数字(例如seqidno:1的数字“1”)。例如对应于seqidno:1的pegrna的编辑模板是seqidno:542057。[1043]同源臂:对于每个给定的pegrna序列,将相应的同源臂标识为添加至因子677570(135514x5)的pegrna序列标识符的数字(例如seqidno:1的数字“1”)。例如对应于seqidno:1的pegrna的编辑模板是seqidno:677571。[1044]其他pegrna序列集的实例(即,包含来自序列1-813084的任何给定的pegrna,其中每一个针对spcas9(ng)(seqidno:1361594)或spcas9(ngg)(seqidno:1361593),以及相应的间隔区、延伸臂、引物结合位点、编辑模板和同源臂进行设计)如下表中所示:[1045][1046]参考″完整的pegrna″序列列,针对spcas9(ng)设计了以下序列:seqidno:1-5647、11805-16732、22103-25050、28363-29187、30093-32319、35189-36933、38922-39997、41226-42469、43878-44208、44586-46456、48645-49697、50844-52070、53532-54670、55949-57576、59335-60913、62672-64332、66233-67299、68520-69273、70195-72171、74385-74390、74398-77256、80717-81275、81899-81962、82033-82033、82036-82044、82057-82063、82072-82075、82080-82084、82090-82092、82096-82100、82106-82110、82117-82122、82129-82405、82715-84431、86323-86687、87092-87715、88417-88800、89256-89791、90405-92752、95411-98661、102329-103777、105393-107009、108826-109348、109932-110356、110863-111265、111744-112224、112822-113854、115060-115952、116995-117667、118418-118426、118436-119980、121698-121921、122175-122445、122774-124123、125657-126486、127395-127872、128428-128931、129509-130164、130892-131784、132784-134059。[1047]参考″完整的pegrna″序列列,针对spcas9(ngg)设计了以下序列:seqidno:5648-11804、16733-22102、25051-28362、29188-30092、32320-35188、36934-38921、39998-41225、42470-43877、44209-44585、46457-48644、49698-50843、52071-53531、54671-55948、57577-59334、60914-62671、64333-66232、67300-68519、69274-70194、72172-74384、74391-74397、77257-80716、81276-81898、81963-82032、82034-82035、82045-82056、82064-82071、82076-82079、82085-82089、82093-82095、82101-82105、82111-82116、82123-82128、82406-82714、84432-86322、86688-87091、87716-88416、88801-89255、89792-90404、92753-95410、98662-102328、103778-105392、107010-108825、109349-109931、110357-110862、111266-111743、112225-112821、113855-115059、115953-116994、117668-118417、118427-118435、119981-121697、121922-122174、122446-122773、124124-125656、126487-127394、127873-128427、128932-129508、130165-130891、131785-132783、134060-135514。[1048]对于seqidno:813085-1217352:(1)间隔区、(2)延伸臂、(3)引物结合位点、(4)编辑模板和(5)同源臂,关系如下:[1049]间隔区:对于每个给定的pegrna序列,将相应间隔区的序列标识为添加至因子67378的pegrna序列标识符的数字(例如seqidno:813085的数字“813085”)。例如对应于seqidno:813085的pegrna的间隔区是seqidno:880463。[1050]延伸臂:对于每个给定的pegrna序列,将相应的延伸臂标识为添加至因子134756(67378x2)的pegrna序列标识符的数字(例如seqidno:813085的数字“813085”)。例如对应于seqidno:813085的pegrna的延伸臂是seqidno:947841。[1051]引物结合位点:对于每个给定的pegrna序列,将相应的引物结合位点标识为添加至因子202134(67378x3)的pegrna序列标识符的数字(例如seqidno:813085的数字“813085”)。例如对应于seqidno:813085的pegrna的引物结合位点是seqidno:1015219。[1052]编辑模板:对于每个给定的pegrna序列,将相应的编辑模板标识为添加至因子269512(67378x4)的pegrna序列标识符的数字(例如seqidno:813085的数字“813085”)。例如对应于seqidno:813085的pegrna的编辑模板是seqidno:1082597。[1053]同源臂:对于每个给定的pegrna序列,将相应的同源臂标识为添加至因子336890(67378x5)的pegrna序列标识符的数字(例如seqidno:813085的数字“813085”)。例如对应于seqidno:813085的pegrna的编辑模板是seqidno:1149975。[1054]序列表中提供的序列总数为1217352。pegrna完整序列共有202892个(每个至少包含间隔区、grna核心和延伸臂)。有相同数量的(1)间隔区、(2)延伸臂、(3)引物结合位点、(4)编辑模板和(5)同源臂,其集定义如上。[1055]其他pegrna序列集的实例(即,包含来自序列813085-1217352的任何给定的pegrna,以及相应的间隔区、延伸臂、引物结合位点、编辑模板和同源臂进行设计)如下表中所示:[1056][1057]seqidno:813,085-1,217,352的序列的每一个针对sacas9-kkh(seqidno:1361596)进行设计。[1058]随此提交的序列表旨在并且确实形成了最初提交的本说明书的一部分。[1059]序列表(即清单)的内容的总结如下表xy:[1060][1061][1062]pam识别位点[1063]对于每个pegrna,cas9可以具有与其相关的pam识别位点。在一些实施方案中,pam识别位点是ngg。在一些实施方案中,pam识别位点是ng。在一些实施方案中,pam识别位点是kkh。下表说明了与本公开的pegrna靶向相关的pam位点:[1064]表xx:pam关联[1065][1066][1067]实施例[1068]实施例1在基因组中用于安装精确核苷酸变化的引导编辑(pe)[1069]目的是开发转化基因组编辑技术,用于精确和通用安装哺乳动物基因组中的单个核苷酸变化。这项技术将允许研究人员能够研究几乎任何哺乳动物基因中单个核苷酸变异的影响,并可能使治疗干预能够用于校正人类患者的中致病点突变。[1070]采用成簇的规律间隔短回文重复序列(crispr)系统进行基因组编辑已经彻底改变了生命科学1-3。尽管使用crispr进行基因破坏现在已成为常规,但单个核苷酸编辑的精确安装仍然是一项重大挑战,尽管对于研究或校正大量致病突变是必要的。同源定向修复(hdr)能够实现此类编辑,但苦于效率低下(通常<5%)、需要供体dna修复模板,以及双链dna断裂(dsb)形成的有害影响。最近,liu实验室开发了碱基编辑,无需dsb即可实现高效的单个核苷酸编辑。碱基编辑器(be)将cirspr系统与碱基修饰脱氨酶结合,以将靶c·g或a·t碱基对分别转换为a·t或g·c4-6。尽管已经被全世界的研究人员广泛使用(由addgene分发的>5,000个liu实验室be构建体),但当前的be仅能够转换十二种可能的碱基对中的四种,并且不能够校正小的插入或缺失。此外,碱基编辑的靶向范围受到与靶碱基相邻的非靶c或a碱基的编辑(“旁观者编辑(bystanderediting)”)以及pam序列存在于距靶碱基15±2bp的要求的限制。因此,克服这些限制将大大拓宽基因组编辑的基础研究和治疗应用。[1071]在此,提议开发新的精确编辑方法,该方法提供碱基编辑的许多好处-即避免双链断裂和供体dna修复模板-同时克服其主要限制。为了实现这个艰巨的目标,旨在使用靶引导逆转录(tprt)在靶基因组位点直接安装经编辑的dna链。在本文讨论的设计中,crispr向导rna(grna)将经工程化改造以携带编码诱变dna链合成的模板,由相关的逆转录酶(rt)酶执行。经crispr核酸酶(cas9)形成切口的靶位点dna将充当逆转录的引物,允许直接掺入任何期望的核苷酸编辑。[1072]实验1[1073]建立诱变dna链的以向导rna为模板的逆转录。先前的研究已经显示,在dna切割之后而复合物解离之前,cas9释放非靶dna链以暴露游离的3’末端。假设该dna链可以通过聚合酶进行延伸,并且可以通过延伸其5’或3’端来工程化改造grna,以充当dna合成的模板。在初步体外研究中,已确定cas9:grna结合复合物中的带切口dna链确实可以使用结合的grna作为模板(反式逆转录酶)引导逆转录。接下来,将探索不同的grna接头、引物结合位点和编辑模板,以确定体外的最佳设计规则。然后,将在体外评估反式作用或作为与cas9融合的不同rt酶。最后,将确定在细胞中保留有效结合和切割活性的工程化改造grna设计。这一目的的成功证明将为在细胞中进行诱变链合成提供基础。[1074]实验2[1075]在人类细胞中建立引导编辑。基于dna加工和修复机制,假设诱变dna链(单链flap)可用于指导靶核苷酸的特异性和有效编辑。在令人鼓舞的初步研究中,通过证明利用含有诱变flap的模型质粒底物进行编辑,确定了该策略的可行性。在进行实验1的同时,将通过系统地改变诱变flap的长度、序列组成、靶核苷酸同一性和3’端来进一步评估修复结果。还将测试小的1到3个核苷酸插入和缺失。同时,从实验1构建,将评估cas9-rt架构,包括融合蛋白和非共价招募策略。cas9-rt架构和延伸grna将在人类基因组的多个靶位点进行细胞编辑分析,然后将进行优化以提高效率。如果成功,这一目标将立即为基础科学应用建立tprt基因组编辑。[1076]实验3[1077]在培养的人类细胞中实现致病突变的位点特异性编辑。这项技术的潜在普遍性可以使目前无法由be校正的颠换突变和插入/缺失突变能够编辑。在实验1和实验2的结果指导下,将在培养的人类细胞中靶向致病性颠换突变,包括β珠蛋白中的镰状细胞贫血病创建者突变(需要a·t到t·a颠换来校正)和atp7b中最普遍的威尔逊病突变(需要g·c到t·a颠换来校正)。还将检查小插入和缺失突变的校正校正,包括导致囊性纤维化的cftr中的3核苷酸δf508缺失。如果成功,这将为开发解决这些重要人类疾病的强大治疗方法奠定基础。[1078]方法[1079]目的是开发在靶定基因组位点处直接安装点突变的基因组编辑策略。在技术开发阶段,工作将集中在蛋白质和rna工程化改造上,以将tprt功能整合到crispr/cas系统中。体外检测将用于仔细探索tprt每个步骤的功能,从头开始构建(实验1)。第二个重点领域将使用模型底物和工程化改造crispr/cas系统的组合来评估哺乳动物细胞中的编辑结果(实验2)。最后,应用阶段将使用该技术校正突变,该突变通过其他方法进行基因组编辑是难处理的(实验3)。[1080]一般的编辑设计在图1a-1b中显示。cas9切口酶含有hnh核酸酶结构域的失活突变(spycas9h840a或n863a),将dna切割限制为含有pam的链(非靶链)。将向导rna(grna)工程化改造为含有用于逆转录的模板。显示的是grna的5’延伸,但也可以实施3’延伸。cas9切口酶通过c端或n端与逆转录酶(rt)融合。grna:cas9-rt复合物靶向感兴趣的dna区域并在取代非靶链后形成r环。cas9使非靶dna链形成切口。带切口链的释放暴露了游离的3’‑oh端,该端能够使用延伸的grna作为模板引导逆转录。这种dna合成反应是通过融合rt酶进行的。grna模板编码与原始dna双链体同源的dna序列,但用于编辑的靶定核苷酸除外。逆转录的产物是编码期望编辑的单链dnaflap。该flap含有游离的3’端,可以与相邻的dna链平衡,从而产生5’flap种类。将后一种种类假设为充当fen1(flap核酸内切酶1)的有效底物,该酶在后随链dna合成过程中从冈崎片段中天然切除5’flap,并在长补丁碱基切除修复期间发生的链置换合成后去除5’flap。带切口的dna的连接产生错配的碱基对。该中间体可以通过错配修复(mmr)过程逆转为原始碱基对或转化为期望的编辑碱基对。或者,半保守的dna复制可能会产生每个回复和编辑的副本。[1081]1.建立诱变dna链以向导rna为模板的逆转录.[1082]背景和原理[1083]在提议的基因组编辑策略中,经cas9形成切口的非靶dna链(形成r环的含有pam的链)充当dna合成的引物。根据几条生化和结构数据假设这是可能的。核酸酶保护实验32、晶体学研究33和碱基编辑窗口4,24已经证明,cas9结合复合物的所谓r环内的非靶链核苷酸-20到-10具有很大程度的灵活性和无序性(编号表示从第一个pam核苷酸到5’的距离)。此外,当反式添加互补ssdna时,经切割的非靶链的pam远端部分可以从紧密结合的三元复合物中置换20。这些研究支持非靶链高度灵活,是酶可接近的,并且在形成切口后,pam远端片段的3’端在cas9解离之前释放。此外,假设grna可以延伸到模板dna合成。先前的研究显示,针对spcas9、sacas9和lbcas12a(原名cpf1)的grna对具有rna适体34、配体诱导自切割核酶35和长非编码rna36的grna延伸耐受。该文献为将要利用的两个主要特征建立了先例。在评估该策略时,将结合使用体外和细胞分析的组合利用5’和3’延伸grna设计来评估多个crispr-cas系统(图2a-2c)。[1084]用于引导编辑的工程化grna的设计示于图3a-3b。dna合成从5’到3’进行,从而在3’到5’方向复制rna模板。5’延伸的设计含有接头区域、引物结合位点(带切口的dna链在此退火),以及通过逆转录进行dna合成的模板。3’延伸grna含有引物结合位点和逆转录模板。在某些情况下,修饰grna核心的3’rna发夹以匹配dna靶序列,如体外实验所示,逆转录将约3个核苷酸延伸到3’延伸grna构建体的grna核心中(只要进行维持发夹rna结构的补偿性改变,对发夹序列的修饰呈现良好耐受性)。dna合成从5’到3’进行,核苷酸添加到正在生长的dna链的3’oh。[1085]初步结果[1086]经cas9形成切口的dna引导grna模板的逆转录。为了评估带切口的非靶dna链的可及性,使用来自化脓性链球菌(s.pyogenes)(spcas9)的cas9核酸酶和cy5荧光标记的双链dna底物(51个碱基对)进行体外生化测定。首先,通过体外转录制备含有具有不同编辑模板长度的5’延伸的一系列grna(总体设计显示于图2b)。利用核酸酶死亡的cas9(dcas9)的电泳迁移率变动测定(emsa)确定5’延伸grna维持靶结合亲和力(数据未显示)。接下来,使用dcas9、5’‑延伸的grna和莫洛尼鼠白血病病毒(m-mlv)逆转录酶(superscriptiii)在预先形成切口的cy5标记的双链dna底物上测试tprt活性。在37℃下温育1小时后,通过变性聚丙烯酰胺凝胶电泳(page)评估产物并使用cy5荧光成像(图4a)。每个5’‑延伸的grna变体导致显著的产物形成,观察到的dna产物大小与延伸模板的长度一致(图4b)。重要的是,在没有dcas9的情况下,预先形成切口的底物延伸到dna底物的51bp全长,这强烈表明当dcas9不存在时,是互补的dna链而不是grna用作dna合成的模板(图4c)。值得注意的是,设计该系统使得新合成的dna链反映了靶位点编辑所需的产品(具有单个核苷酸变化的同源链)。该结果表明cas9:grna结合暴露了带切口的非靶链的3’末端,并且非靶链可以进行逆转录。[1087]接下来,使用cas9(h840a)突变体评估未形成切口的dsdna底物,该突变体使非靶dna链形成切口。首先,为了用5’‑延伸的grna测试cas9(h840a)切口酶活性,如前所述进行体外切割测定。尽管与标准grna相比,切口形成受损,但形成了可观的切割产物(图4d)。重要的是,当用5’‑延伸的grna和cas9(h840a)进行tprt反应时,也观察到rt产物,尽管产量较低,这可能是由于降低的切口形成活性所致(图4d)。该结果表明5’‑延伸的grna:cas9(h840a)复合物可以使dna形成切口和模板逆转录。[1088]最后,针对cas9(h840a)切口形成和tprt评估3’grna延伸。通过与5’‑延伸的grna比较,相比于标准grna,3’‑延伸grna的dna切割没有受损到任何可检测程度。显著地,当m-mlvrt以反式提供时,3’‑延伸的grna模板也支持利用预先形成切口和完整双链dna底物的有效逆转录(图4e)。令人惊讶的是,对于3’‑延伸的模板仅观察到单一产物,表明逆转录终止于沿着grna支架的特定位置。具有末端转移酶的产物的均聚物加尾,随后是klenow延伸和sanger测序,表明除了grna核心的末端3个核苷酸外,还复制了完整的grna编辑模板。将来,flap端将通过改变末端grna序列重新编程38,39。该结果表明3’‑延伸的grna可以充当有效的核酸酶靶向向导,并且可以作为逆转录模板。[1089]cas9-tprt使用带切口的dna和顺式grna。双色实验用于确定rt反应是否优先利用顺式的grna(结合在同一复合物中)发生(参见图8)。对5’‑延伸的和3’‑延伸的grna进行了两个单独的实验。对于给定的实验,dcas9、grna和dna底物的三元复合物在不同的管中形成。在一个管中,grna编码长rt产物,dna底物用cy3(红色)标记;另一方面,grna编码短的rt产物,dna底物用cy5(蓝色)标记。短暂温育后,将复合物混合,然后用rt酶和dntp处理。通过尿素变性page分离产物,并通过cy3和cy5通道中的荧光可视化。发现使用与dna底物预复合的grna模板优先形成反应产物,表明rt反应可能以顺式发生。该结果支持单个cas9:grna复合物可以靶向dna位点和诱变dna链的模板逆转录。[1090](viii)用其他cas系统测试tprt[1091]使用其他cas系统,包括来自s.aureus的cas9和来自l型细菌(l.bacterium)的cas12a将进行与前面部分中呈现的那些类似的实验(参见图2a-2c)。如果trpt也可以证实用于这些cas变体,那么潜在的编辑范围和细胞中整体成功的可能性将会增加。[1092](ix)用rt-cas9融合蛋白测试tprt[1093]一系列市售或可纯化的rt酶将首先以反式评价tprt活性。除了来自m-mlv的已测试rt,将评估来自禽类成髓细胞瘤病毒(amv)、嗜热脂肪芽孢杆菌ii群内含子(geobacillusstearothermophilusgroupiiintron)(gsi-iic)41,42和直肠真杆菌ii群内含子(eubacteriumrectalegroupiiintron)(eu.re.i2)43,44的rt。显著地,后两种rt在其自然生物环境中进行tprt。在相关的情况下,将测试rnase失活突变和其他潜在有益的rt酶修饰。当以反式提供时一旦鉴定了功能性rt,将每个rt评估为cas9变体的融合蛋白。将测试n端和c端融合方向,以及各种接头长度和架构。将使用动力学时程实验来确定是否可以使用顺式rt酶进行tprt。如果可以构建允许有效tprt化学的rt-cas9融合架构,这将大大增加在细胞背景下功能编辑的可能性。[1094](x)cas9靶向细胞中的经工程化改造的grna[1095]在先前的亚目标中开发的候选经工程化改造的grna将在人类细胞培养实验(hek293)中进行评估,以确认cas9靶向效率。使用已建立的采用野生型spcas945的插入/缺失形成测定,将在人类基因组中的5个或更多位点上将经工程化改造的grna与标准grna并排比较。基因组编辑效率将通过使用实验室内的illuminamiseq平台进行多重扩增子测序来表征。预计这一部分和前面部分的结果将产生见解,为设计-构建-测试循环的后续迭代提供信息,在此可以为细胞中的模板逆转录和有效cas9靶向对grna进行优化。[1096]体外验证的结果显示在图5-7中。体外实验证实,带切口的非靶dna链是柔性的,可用于引导dna合成,并且grna延伸可充当用于逆转录的模板(见图5)。这组实验使用了具有不同长度编辑模板(左侧列出)的5’‑延伸的grna(如图3a-3b所示设计)。荧光标记的(cy5)dna靶标用作底物,并在这组实验中预先形成切口。这些实验中使用的cas9是催化死亡的cas9(dcas9),因此不能切割dna但仍可以有效结合。superscriptiii是衍生自莫洛尼鼠白血病病毒(m-mlv)的商业rt,以反式提供。首先,dcas9:grna复合物由纯化的组分形成。然后,将荧光标记的dna底物与dntps和rt酶一起加入。在37℃温育1小时后,通过变性尿素-聚丙烯酰胺凝胶电泳(page)分析反应产物。凝胶图像显示原始dna链的延伸长度与逆转录模板的长度一致。值得注意的是,在不存在dcas9的情况下进行的反应会产生长度为51个核苷酸的dna产物,而与所使用的grna无关。该产品对应于使用互补dna链作为dna合成的模板,而不是rna(数据未显示)。因此,需要cas9结合才能将dna合成引导至rna模板。这组体外实验与图5所示的那些非常相似,不同之处在于dna底物没有预先形成切口,而是使用了cas9切口酶(spycas9h840a突变体)。如凝胶所示,当使用标准grna时,切口酶可有效切割dna链(grna_0,泳道3)。观察到多种切割产物,与之前对spycas9的生化研究一致。5’延伸会削弱切口形成的活性(泳道4-8),但仍观察到一些rt产物。图7显示3’延伸支持dna合成并且不显著影响cas9切口酶活性。当使用dcas9或cas9切口酶时,预先形成切口的底物(黑色箭头)几乎定量地转化为rt产物(泳道4和5)。利用完整底物(泳道3)观察到超过50%的rt产物转化(红色箭头)。为了确定rt产物的长度和序列,从凝胶上切下产物条带,提取并测序。这表明rt将3个核苷酸延伸到grna核心的3’端发夹中。随后的实验表明,只要进行互补的变化以保持发夹rna结构,就可以改变这三个核苷酸以匹配靶dna序列。[1097](xi)潜在的困难和替代方案[1098](1)rt起融合的功能:分子拥挤和/或不利的几何形状可能阻碍cas9融合rt酶的聚合酶延伸。首先,可以测试接头优化。将评估cas9的环状排列变体,其可以重新定位dna引物、grna和rt酶之间的空间关系。可以测试实验2中详述的非共价rt招募策略。(2)延伸的grna变体降低了cas靶向效率:这很可能是5’‑延伸的grna的问题。基于结构数据24,可以设计和筛选cas9突变体以识别对grna延伸具有更大耐受性的变体。此外,可以在细胞中筛选grna文库以获得改善靶向活性的接头。[1099]意义[1100]这些初步结果证实,cas9切口酶和延伸的grna可以使用提供的反式逆转录酶在结合的dna靶标上启动靶引导的逆转录。重要的是,发现cas9结合对于产品形成至关重要。虽然可能不是细胞中基因组编辑的绝对要求,但进一步开发将rt酶功能整合到顺式的系统将显著增加基于细胞的应用成功的可能性。该目的其余方面的实现将为在人类基因组的背景下进行精确的基因组编辑提供分子基础。[1101]2.在人类细胞中建立引导编辑,[1102]背景和原理[1103]在提出的策略中,经工程化改造的rt-cas9:grna复合物将在基因组靶位点引入诱变的3’dnaflap。假设含有单个错配的诱变3’flap将通过dna修复机制通过与相邻5’flap的能量可及的平衡而掺入,这将被优先去除(图1b)。dna复制和修复机制在处理冈崎片段46和长补丁碱基切除修复(lp-ber)47时遇到5’ssdnaflap。5’flap是广泛表达的flap核酸内切酶fen1的首选底物,它被同源三聚体滑动钳复合物(homotrimericslidingclampcomplex)pcna48募集到dna修复位点。pcna还可充当同时招募其他修复因子(包括dna连接酶lig149)的支架。作为″工具带(toolbelt)″,pcna可加速连续flap切割和连接,这对于处理每次细胞分裂过程中产生的数百万冈崎片段至关重要50,51。基于与这些天然dna中间体的相似性,假设诱变链将通过与5’flap平衡,随后协调的5’flap切除和连接而掺入。然后错配修复(mmr)应该以相等的概率发生在任一链上,导致编辑或回复突变(图1b)。或者,dna复制可能首先发生,并直接导致编辑掺入新合成的子链。虽然来自该过程的最高预期产量为50%,但由于编辑修复的不可逆性,多次底物编辑尝试可能会促使反应趋于完成。[1104]初步结果[1105]dnaflap在酵母和hek细胞的质粒模型底物中诱导位点特异性诱变。为了测试提出的编辑策略,研究是用含有类似于tprt产物的诱变3’flap的模型质粒底物发起的。创建了双荧光蛋白报告基因,其编码gfp和mcherry之间的终止密码子。诱变flap编码对终止密码子的修正(图9a),使mcherry能够合成。因此,突变效率可以通过gfp:mcherry比率来量化。质粒底物在体外制备并引入酵母(酿酒酵母)或人类细胞(hek293)。在两个系统中都观察到高频诱变(图9b),并且分离的酵母菌落含有回复碱基、突变碱基或两种产物的混合物(图9c)。后者的检测表明在这些情况下质粒复制发生在mmr之前,并进一步表明flap切除和连接在mmr之前。这一结果确立了使用3’诱变链进行dna编辑的可行性。[1106](i)模型flap底物的系统研究[1107]基于上述初步结果,将在hek细胞中评估更广泛的flap底物,以推断有效编辑的原理。3’ssdnaflap将被系统地改变以确定错配配对的影响、沿flap的诱变核苷酸的位置以及末端核苷酸的身份(图9d)。还将测试单个核苷酸插入和缺失。扩增子测序将用于分析编辑精度。这些结果将有助于了解grna逆转录模板的设计。[1108]质粒底物上的体外tprt导致有效的编辑结果。实验1中开发的tprt反应用于在质粒底物中诱导诱变。反应在环状dna质粒底物上进行(见图10)。这排除了dna链解离作为先前体外实验中rt延伸机制的可能性。还允许测试细胞中flap底物的dna修复。构建了双荧光报告质粒用于酵母(s.cerevisiae)表达。该质粒编码具有中间终止密码子(tga)的gfp(绿色荧光蛋白)和mcherry(红色荧光蛋白)。该构建体在酵母中的表达仅产生gfp。该质粒用作体外trt[cas9(h840a)切口酶、工程化的grna、mlvrt酶、dntps]的底物。grna延伸编码终止密码子的突变。flap链用于修复终止密码子,预计会产生质粒,该质粒表达gfp和mcherry作为融合蛋白。酵母双-fp质粒转化子示于图10。转化亲本质粒或体外cas9(h840a)带切口质粒后,导致仅产生绿色gfp表达菌落。trt与5’‑延伸或3’‑延伸的grna反应产生绿色和黄色菌落的混合物。后者同时表达gfp和mcherry。利用3’‑延伸的grna观察到更多的黄色菌落。还显示了不含终止密码子的阳性对照。[1109]该结果表明,长双链底物可以进行tprt,并且tprt产物在真核细胞中诱导编辑。[1110]进行了与上述引导编辑实验类似的另一个实验,但不是在终止密码子中安装点突变,引导编辑安装单个核苷酸插入(左)或缺失(右),修复移码突变并允许用于下游mcherry的合成(参见图11)。两个实验都使用了3’延伸的grna。通过sanger测序选择和分析来自trt转化的单个菌落(参见图12)。绿色菌落含有具有原始dna序列的质粒,而黄色菌落含有由引导编辑grna设计的精确突变。没有观察到其他点突变或插入/突变缺失。[1111](ii)使用rt-cas9架构在hek细胞中建立引导编辑[1112]来自先前目标的优化构建体将适用于哺乳动物在人类基因组中的靶位点的表达和编辑。除了利用二级grna(截短以防止形成切口)的相邻靶向之外,还将测试多种rt酶和融合架构。非共价rt招募也将使用sun-tag系统52和ms2适体系统53进行评估。插入/缺失形成测定将用于评估标准grna和rt-cas9融合(如上)的靶向效率。然后,对于每个基因组位点,将测定延伸的grna和rt-cas9对用于单个核苷酸编辑。编辑结果将利用miseq评估。[1113]hek细胞中的初始实验使用cas9-rt融合进行。通过细胞内表达的组分进行编辑需要cas9(h840a)切口酶、逆转录酶(以融合形物表达或以反式提供)和具有3’延伸的经工程化改造的grna(参见图14)。初步研究表明,grna延伸中引物结合位点的长度对于提高人类细胞中的编辑效率很重要(参见图15)。[1114](iii)优化hek细胞中的引导编辑参数[1115]确定了可以在细胞中进行引物编辑的cas9-rt架构后,将优化组分和设计以实现高效编辑。编码点突变的位置和核苷酸身份,以及新合成的dna链的总长度将有所不同,以评估编辑范围和潜在限制。还将评估短插入和缺失突变。蛋白质表达构建体将进行密码子优化。如果成功,这将在哺乳动物细胞中建立有效的引导编辑。[1116]初步结果。额外的grna设计为使rt酶在编辑基因座处达到更高的局部浓度,以防融合rt酶无法进行分子内逆转录。这些辅助向导在5’端截短(14-15nt间隔区),这在之前已经显示可以防止cas9切割但保留结合(参见图16)。选择hek3基因座来探索这一策略。[1117](iv)潜在的困难和替代方案[1118]1)细胞中的grna降解:如果延伸的grna末端在细胞中被截短,则可以安装稳定二级结构,或者可以测试具有稳定修饰的合成grna。(2)在人类细胞中未观察到编辑:将探索额外的策略,包括将rt-cas9融合物二次靶向到相邻的基因组位点54。此外,可以探索大肠杆菌或酿酒酵母中潜在的定向进化策略。[1119]意义[1120]如果可以在实验细胞系中建立引物编辑,这将通过快速生成和表征人类基因中的大量点突变而对基础生物医学研究产生直接影响。该方法的通用性及其相对于碱基编辑器的正交编辑窗口将提供一种安装许多当前无法获取的突变的方法。此外,如果可以针对高效率和产品纯度对引导编辑进行优化,那么其在校正其他人类细胞类型中的疾病突变方面的潜在适用性将是显著的。[1121]3.实现对培养的人类细胞中致病突变的位点特异性编辑.[1122]背景和原理[1123]由于pam限制,或者需要颠换或插入/缺失突变校正,大量的致病突变不能被当前的碱基编辑器校正。利用引导编辑,理论上所有的转换和颠换都是可能的,小插入和缺失也是如此。此外,关于pam,引导编辑窗口(预期-3到 4)不同于碱基编辑器(-18到-12)(图13)。碱基编辑器目前无法校正的孟德尔病况包括:(1)血红蛋白β中的镰状细胞贫血病glu6val创始者突变(foundermutation)(需要at向ta颠换);(2)atp7b中最常见的威尔逊氏病变体his1069gln(需要gc向ta颠换);和(3)cftr中的δphe508突变导致囊性纤维化(需要3个核苷酸插入)。这些靶标中的每一个都含有用于spcas9靶向和引导编辑的适当定位的pam。[1124]初步结果[1125](i)hek3细胞中的t到a编辑不能通过当前碱基编辑实现,但可以通过trpt编辑实现(参见图17a-17c)。[1126]图17a显示了展示在人类胚胎肾(hek)细胞中的组分转染之后靶核苷酸处的t到a转换%的图。该数据呈现了使用野生型mlv逆转录酶与cas9(h840a)切口酶(32个氨基酸接头)的n端融合的结果。当引物结合位点的长度从7个核苷酸扩展到11或12个核苷酸时,编辑效率显著提高。此外,刚好位于编辑基因座上游的辅助向导a(参见图16)显著提高了编辑活性,特别是对于较短长度的引物结合位点。使用illuminamiseq平台通过扩增子测序来量化编辑效率。图17b还显示了在人类胚胎肾(hek)细胞中的组分转染后靶核苷酸处的t到a转换%,但该数据表示使用rt酶的c-末端融合的结果。在这里,辅助向导a没有那么大的作用,整体编辑效率更高。图17c显示了使用与图17a中使用的相似的野生型mlv逆转录酶与cas9(h840a)切口酶的n-末端融合物的数据呈现结果。然而,mlvrt和cas9之间的接头长60个氨基酸,而不是32个氨基酸。[1127](ii)在hek3位点通过trpt编辑结果显示高纯度的t到a编辑。[1128]图18显示了通过高通量扩增子测序进行的测序分析的输出。输出显示编辑细胞的最丰富的基因型。值得注意的是,没有获得主要的插入/缺失产物,并且无需旁观者(bystander)编辑即可干净地安装期望的点突变(t到a)。第一个序列显示参考基因型。顶部两个产物是含有内源性多态性的起始基因型(g或a)。底部的两个产物代表正确编辑的基因型。[1129](iii)mlvrt突变体改善编辑。[1130]在baranauskas等人(doi:10.1093/protein/gzs034)中描述的突变逆转录酶被测试为与cas9(h840a)切口酶的c端融合,用于人胚胎肾(hek)细胞中的靶核苷酸编辑。cas9-rt编辑器质粒与编码3’‑引导编辑器向导rna的质粒共转染,该质粒作为逆转录模板。靶核苷酸处的编辑效率(蓝色条)与插入/缺失率(橙色条)一起显示在图19中。wt是指野生型mlvrt酶。突变酶(m1到m4)含有右侧列出的突变。编辑率通过基因组dna扩增子的高通量测序来量化。[1131](iv)利用第二grna使互补链形成切口改善编辑。[1132]该实验评估了当在互补dna链中邻近靶核苷酸处引入单链切口时靶核苷酸的编辑效率,假设这将指导错配修复以优先去除原始核苷酸并转换碱基对到期望的编辑。cas9(h840a)-rt编辑构建体与两种向导rna编码质粒共转染,其中一种以逆转录反应为模板,而另一种以互补dna链为靶标形成切口。测试距靶核苷酸不同距离处的切口(橙色三角形)(参见图20)。靶碱基对的编辑效率(蓝色条)与插入/缺失形成率(橙色条)一起显示。″无″示例不含有互补链切口形成向导rna。编辑率通过基因组dna扩增子的高通量测序来量化。[1133]图21显示了处理过的高通量测序数据,显示了期望的t至a颠换突变和其他主要基因组编辑副产物的普遍缺失。[1134]范围。新编辑技术的潜在范围如图13所示,并与脱氨酶介导的碱基编辑器技术进行比较。先前开发的碱基编辑器靶向pam的上游约15±2bp的区域。通过将靶c或a核苷酸分别转换为t或g,先前开发的碱基编辑器可实现所有转换突变(a:t到g:c的转换)。然而,以前开发的碱基编辑器无法安装颠换突变(a到t、a到c、g到t、g到c、t到a、t到g、c到a、c到g)。此外,如果编辑窗口中有多个靶核苷酸,可能会导致额外的非期望的编辑。[1135]新的引物编辑技术理论上可以安装任何核苷酸和碱基对转换,以及潜在的小的插入和缺失编辑。对于pam,引导编辑窗口从dna切口形成位点(pam上游3个碱基)开始,并在pam下游尚未确定的位置结束。值得注意的是,此编辑窗口不同于脱氨酶碱基编辑器的编辑窗口。由于tprt系统使用dna聚合酶进行编辑,因此它可能具有所有优点,包括通用性、精确度和保真度。[1136](v)校正患者来源细胞系中的致病突变。[1137]包含相关突变的细胞系(镰状细胞贫血病:cd34 造血干细胞;威尔逊病:培养的成纤维细胞;囊性纤维化:培养的支气管上皮细胞)将从atcc、coriell生物样本库(coriellbiobank)或合作的哈佛/广泛附属实验室(harvard/broadaffiliatelaboratories)获得。编辑效率将通过高通量测序进行评估,校正后的基因型的功效将使用表型测定(血红蛋白hplc、atp7b免疫染色和cftr膜电位测定)进行测试。[1138](vi)表征脱靶编辑活性。[1139]将使用与野生型cas9配对的靶grna,利用已建立的方法(例如guide-seq55和circle-seq56)筛选潜在的脱靶编辑。如果确定了潜在的脱靶,这些基因座将在tprt编辑的细胞中进行探测,以确定真正的脱靶编辑事件。[1140](vii)潜在的困难和替代方案。[1141](1)低编辑效率:引导编辑器可能需要对每个靶标优化。在这种情况下,可以测试grna文库,以确定特定应用的最高功能变体。可以优化rt-cas融合表达和核定位。脂质体rnp递送可用于限制脱靶编辑。[1142](viii)即将进行的实验。[1143]grna设计的优化可以通过进一步探索引物结合位点长度和编辑模板的延伸来实现。测试范围和通用性将包括人类基因组中不同的核苷酸转换、小的插入和缺失,以及关于pam的不同编辑位置,以及多个位点。rt组件的优化将包括探索mlvrt中的突变以增强活性(rnaseh失活、增加引物-模板结合亲和力、调整持续合成能力)和新的rt酶(ii组内含子rt、其他逆转录病毒rt)。[1144]意义.[1145]无数的遗传病是由单个基因中的单个核苷酸变化引起的。开发这里描述的基因组编辑技术,并将其应用于与疾病相关的细胞类型,将为临床转化奠定基础。对于某些疾病,诸如镰状细胞贫血病,单个点突变代表整个人群的显性基因型。然而,对于许多其他遗传疾病,在整个患者群体中观察到单个基因内不同点突变的巨大异质性,每一种都会导致相似的疾病表型。因此,作为理论上可以针对大量此类突变的通用基因组编辑方法,这项技术可以为这些患者及其家属中的许多人提供巨大的潜在利益。如果可以在细胞中建立这些应用的原则证明,它将为疾病动物模型的研究奠定基础。[1146]优势[1147]精确度:期望的编辑是针对核酸序列编码的。通用性:理论上,可以进行任何碱基对转换,包括颠换编辑,以及小的插入或缺失。关于cas9前间隔区相邻基序(pam)序列,存在与碱基编辑器不同的编辑窗口。这种方法实现了同源定向修复(hdr)的许多编辑能力,但不受hdr的主要限制(在大多数细胞类型中效率低下,并且通常伴随着过量的非期望的副产品物,诸如插入/缺失)。此外,它不会造成双链dna断裂(dsb,因此很少插入/缺失、易位、大的缺失、p53激活等。[1148]实施例2.设计用于利用引导编辑校正致病性人类基因变体的治疗性引导编辑向导rna(pegrna)和潜在靶标和pegrna的过程。[1149]介绍[1150]引导编辑是用于基因组编辑的转化工具。在其众多可能的应用中,引导编辑代表了校正致病突变的新策略,具有潜在的治疗益处。clinvar是可能与疾病相关的已报道的人类突变的可公开访问的数据库。[1151]本实施例展示了使用简单程序确定pegrna序列并将其应用于436,042个独特的clinvar突变的计算机程序/算法的设计。本实施例首先描述了pegrna结构和功能元件,然后描述了设计程序,包括定义提供了以下贡献的计算机程序/算法的描述,该计算机程序/算法使用简单的程序来设计潜在的治疗性pegrna,并讨论了pegrna设计的变体。[1152]此外,本实施例提供了随附提交的序列表,其中包含示例性pegrna序列,其用于校正来自clinvar的潜在致病突变。上面提供了序列表的描述。[1153]pegrna结构[1154]图27和图28提供了可以根据本实施例设计的pegrna的两种可能构型的示意图。[1155]图27提供了本文涵盖的pegrna的一个实施方案的结构,其可以根据实施例2中定义的方法设计。pegrna包含在5’至3’方向上排列的三个主要组成元件,即:间隔区、grna核心和3’端的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)、编辑模板(b)和同源臂(c)。此外,pegrna可以包含任选的3’末端修饰区(e1)和任选的5’末端修饰区(e2)。更进一步地,pegrna可以在pegrna的3’末端包含转录终止信号(未描述)。这些结构元件在本文中进一步定义。pegrna结构的描述并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端。[1156]图28提供了本文涵盖的pegrna的另一个实施方案的结构,其可以根据实施例2中定义的方法设计。pegrna包含在5’至3’方向上排列的三个主要组成元件,即:间隔区、grna核心和3’端的延伸臂。延伸臂在5’到3’方向还可以进一步分为以下结构元件,即:引物结合位点(a)、编辑模板(b)和同源臂(c)。此外,pegrna可以包含任选的3’末端修饰区(e1)和任选的5’末端修饰区(e2)。更进一步地,pegrna可以在pegrna的3’末端包含转录终止信号(未描述)。这些结构元件在本文中进一步定义。pegrna结构的描述并不意味着是限制性的,而是包含元件排列的变化。例如,任选的序列修饰(e1)和(e2)可以位于所示的任何其他区域内或之间,并且不限于位于3’和5’末端。[1157]pegrna结构元件可以描述如下:[1158]间隔区:grna的部分,通常长度为20nt,与基因组中的靶dna序列互补。间隔区与dna中的前间隔区互补。可以以各种非限制性方式改进间隔区。例如,当最5’端的核苷酸不是g时,可以修饰间隔区以添加5’‑g以形成21-nt间隔区。这种修饰改善了从u6启动子的转录。[1159]grna核心或″grna主链″:grna的部分通常位于间隔区的3’侧并且包括与cas9蛋白相互作用的几个发夹。示例性的grna核心可以包括,例如:[1160]grna主链序列1:[1161][1162][1163]grna主链序列2:[1164][1165]本文涵盖的pegrna可以采用其他grna核心序列,其保持grna与cas9结合的相同或相似的能力。[1166]延伸臂:本文涵盖的pegrna包含延伸臂,其包含各种功能元件,包括引物结合位点、编辑模板和同源臂。延伸臂可位于grna核心的3’端。在其他实施方案中,延伸臂可位于间隔区的5’端。延伸臂几乎与基因组序列背景互补,期望的编辑代表非互补部分。延伸臂的序列可以变化以包括以下变化:引物结合位点长度的变化(见下文);编码区域长度的变化。[1167]引物结合位点:引物结合位点位于pegrna延伸臂的3’端,并且与在cas介导的切口之后被间隔区取代的ssdnaflap互补。ssdna:rna杂交充当用于5’到3’聚合方向上逆转录剩余的pegrna延伸的引物。对于spcas9,ruvc切口位于前间隔区位置-4和-3之间,其中-1是20-nt间隔区最3’端的核苷酸,-20是20-nt间隔区最5’端的核苷酸。长度x的引物结合位点被设计为从间隔位置-4的3’开始直到并包括间隔位置-4的x个核苷酸。常见的变化包括不同的长度,范围从大约8nt到大约20nt(例如,在8和17nt之间)。[1168]编辑模板:编辑模板与引物结合位点的5’端相邻并编码期望的编辑序列(例如,单个核苷酸改变、缺失或插入)。[1169]同源臂:同源臂位于编辑模板的5’端并且与天然基因组背景互补。[1170]逆转录模板或编码整合到内源性dna中的ssdnaflap的区域:不包括引物结合位点的pegrna延伸(因为引物结合位点不会成为逆转录酶进行ssdna聚合的模板。逆转录酶模板含有编辑模板和同源臂。在从前间隔区解除间隔区的结合后,逆转录酶引物ssdna序列重新结合到其天然基因组背景,将逆转录酶模板保留为3’ssdnaflap。常见的变化包括:flap长度可以变化,例如,从7nt到34nt(但涵盖了大范围的flap长度,如本文所述);flap内编辑的位置可以变化。已经观察到成功的编辑具有短至2nt的同源臂长度。编辑通常(但并非必须)尽可能位于靠近切口。[1171]转录终止子序列:在pegrna的3’端的序列,其在pegrna的产生过程中终止转录,例如,当从u6启动子或其他启动子表达时。示例性终止子序列是ttttttgtttt(seqidno:1361581)。[1172]pegrna设计的其他变化是可行的并且涵盖在本文中。例如,可以想象,pegrna可以被设计为具有pegrna延伸臂,所述pegrna延伸臂含有同源臂的5’或引物结合位点的3’或两者的非互补序列,例如,以形成亲吻环相互作用,或作为rna稳定性的保护发夹。这些序列在图27和28中以序列元件e1和e2表示,称为″任选的3’或5’末端修饰区″。此外,可以想象,pegrna可以使用优先考虑多个设计候选者的策略和方法来设计。实例包括避免pegrna延伸,其中最5’核苷酸是胞嘧啶,因为中断了sgrna:cas9复合物中的天然核苷酸-蛋白质相互作用,或使用rna二级结构预测工具选择优选的pbs长度和flap长度给定间隔和期望的编辑。[1173]pegrna设计算法[1174]给定输入等位基因、输出等位基因和用于引导编辑的crispr系统(重要的是,pam基序和引物编辑器切口的相对位置),该算法设计能够将输入等位基因编辑为输出等位基因的pegrna或pegrna列表。输出和输入等位基因之间的序列差异称为期望编辑。一个这样的实施方案可以是代表致病突变的输入等位基因和代表校正的野生型序列的输出等位基因。[1175]可由单个pegrna诱导的编辑类别包括单个核苷酸取代、从1nt到大约40nt的插入、从1nt到大约30nt的缺失,以及上述所有的组合或混合。已知引导编辑支持这些类型的编辑,主要从间隔位置-3(紧接(immediately)切口的3’)到间隔区位置 27(输入等位基因中切口的30nt3’)。这些指定数字中的每一个都代表算法的一个参数,随着有关引导编辑的知识的增加,该参数可能会随着时间而改变。顺便说一句,使用spcas9系统在前间隔区位置-4处的编辑已经观察到引导编辑,这可能是由前间隔区位置-5和-4之间偶然的ruvc切割引起的。[1176]该算法在两条链的输入等位基因中列举与所选crispr系统的pam基序相容的所有间隔区,然后将其相关切口位置与引导编辑不相容的前间隔区过滤到输出等位基因,要么是因为切口位于该链上期望编辑的3’侧,或者因为切口与期望编辑之间的距离太大(大于用户定义的阈值,例如30nt)。[1177]对于每个间隔区,该算法使用输入等位基因的序列、切口的位置和期望编辑的序列构建间隔区和编辑模板序列。然后,该算法选择一个或多个引物结合位点长度值,该值可以从8nt到17nt变化;同源臂长度,可以从2nt到33nt变化;以及grna主链序列,可以是gtttaagagctatgctggaaacagcatagcaagtttaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgc(seqidno:1361579)或gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgc(seqidno:1361580)或另一个保留野生型rna二级结构的grna主链序列。对于选择的每个参数组合,该算法使用给定的参数构建同源臂、引物结合位点序列和grna主链。然后,该算法通过连接前间隔区、grna主链、pegrna延伸和终止子序列来形成pegrna序列。[1178]在对注释为致病性或可能致病性的种系突变进行基本过滤后,鉴定了72,020个独特的clinvar突变,其中与利用cas9-ng的引导编辑相容,以及63,496个独特的clinvar突变,其与利用nggpam的spcas9的引导编辑相容。注意,如果使用含有具有不同pam兼容性的不同cas9变体的引导编辑器,则额外的突变将是可校正的。[1179]使用小的等位基因频率、提交者的数量、提交者的解释是否存在冲突以及该突变是否由专家小组审查,将这些突变分为具有临床意义的四类。[1180]在63,496个spcas9相容突变中:[1181]●鉴定出最显著水平的4,627个突变(四个)[1182]●鉴定出显著性水平三或四的13,943个突变[1183]●鉴定出显著性水平二、三或四的44,385个突变。[1184]所提供的序列表列举了每个独特突变的单个pegrna,选择作为切口和编辑之间距离最短的pegrna。pegrna被设计为同源臂长度为13,引物结合位点长度为13。切口位点距离编辑超过20nt的间隔区被忽略。使用的grna主链序列是gtttaagagctatgctggaaacagcatagcaagtttaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgc(seqidno:1361579)。使用的终止子序列是ttttttgtttt(seqidno:1361581)。[1185]序列表包括对根据实施例2确定的每个pegrna的描述。总的来说,实施例2确定了133515个示例性pegrna完整序列的序列。这些序列中的每一个都呈现/包括在序列表中并被鉴定为seqidno:1-135514。此外,如别处所述,pegrna均由间隔区(seqidno:135515271028)和延伸臂(seqidno:271029406542)组成。此外,每个pegrna包含grna核心,例如,如seqidno:1361579-1361580所定义的。seqidno:271029406542的延伸臂进一步每个均由引物结合位点(seqidno:406543542056)、编辑模板(seqidno:542057677570)和同源臂(seqidno:677571813084)。pegrna任选地可以包含5’末端修饰区(seqidno:ee-ee)和/或3’末端修饰区(seqidno:ff-ff)。pegrna还可以在pegrna的3’处包含逆转录终止信号(例如,seqidno:1361560-1361565)。[1186]对于序列表(seqidno:1-135514)中提供的每个全长pegrna序列,序列表包括一组五(5)个相应的子序列:即(1)间隔区、(2)延伸臂、(3)引物结合位点、(4)编辑模板和(5)同源臂。任何给定的pegrna全长序列的子序列集可以通过以下数学运算确定。[1187]对于序列表中的每个pegrna序列(例如,seqidno:1),序列表中的以下序列构成一组相应的子序列:(1)间隔区、(2)延伸臂、(3)引物结合位点、(4)编辑模板和(5)同源臂,如下:[1188]间隔区:对于每个给定的pegrna序列,对应的间隔区序列鉴定为添加到因子135514的pegrna序列标识的数字(例如,针对seqidno:1的数字″1″)。例如,对应于seqidno:1的pegrna的间隔区是seqidno:135515。[1189]延伸臂:对于每个给定的pegrna序列,对应的延伸臂鉴定为添加到因子271028(135514x2)的pegrna序列标识的数字(例如,针对seqidno:1的数字″1″)。例如,对应于seqidno:1的pegrna的延伸臂是seqidno:271029。[1190]引物结合位点:对于每个给定的pegrna序列,对应的引物结合位点鉴定为添加到因子406542(135514x3)的pegrna序列标识的数字(例如,针对seqidno:1的数字″1″)。例如,对应于seqidno:1的pegrna的引物结合位点是seqidno:406542。[1191]编辑模板:对于每个给定的pegrna序列,对应的编辑模板鉴定为添加到因子542056(135514x4)的pegrna序列标识的数字(例如,针对seqidno:1的数字″1″)。例如,对应于seqidno:1的pegrna的编辑模板是seqidno:542057。[1192]同源臂:对于每个给定的pegrna序列,对应的同源臂鉴定为添加到因子677570(135514x5)的pegrna序列标识的数字(例如,针对seqidno:1的数字″1″)。例如,对应于seqidno:1的pegrna的编辑模板是seqidno:677571。[1193]序列表中提供的序列总数为813084个。共有135514个pegrna完整序列(每个序列至少包含间隔区、grna核心和延伸臂)。有相同数量的(1)间隔区、(2)延伸臂、(3)引物结合位点、(4)编辑模板和(5)同源臂,每组的定义如上。[1194]其他pegrna序列组的实例(即,包含任何给定的pegrna和相应的间隔区、延伸臂、引物结合位点、编辑模板和同源臂)如下表所示:[1195][1196]所提供的pegrna设计的变化包括先前讨论的所有变化,包括变化grna主链序列、引物结合位点长度、flap长度等。[1197]参考文献(针对实施例2)[1198]landrum,m.j.,lee,j.m.,riley,g.r.,jang,w.,rubinstein,w.s.,church,d.m.,&maglott,d.r.(2014).clinvar:publicarchiveofrelationshipsamongsequencevariationandhumanphenotype.nucleicacidsresearch,42(databaseissue),d980-d985.doi:10.1093/nar/gkt1113[1199]stenson,p.d.,mort,m.,ball,e.v.,evans,k.,hayden,m.,heywood,s.,...cooper,d.n.(2017).thehumangenemutationdatabase:towardsacomprehensiverepositoryofinheritedmutationdataformedicalresearch,geneticdiagnosisandnext-generationsequencingstudies.humangenetics,136(6),665-677.doi:10.1007/s00439-017-1779-6[1200]nishimasu,h.,ran,f.a.,hsu,p.d.,konermann,s.,shehata,s.i.,dohrmae,n.,...nureki,o.(2014).crystalstructureofcas9incomplexwithguidernaandtargetdna.cell,156(5),935-949.doi:10.1016/j.cell.2014.02.001[1201]lorenz,r.,bernhart,s.h.,zusiederdissen,c.,tafer,h.,flamm,c.,stadler,p.f.,&hofacker,i.l.(2011).viennarnapackage2.0.algorithmsformolecularbiology:amb,6,26.doi:10.1186/1748-7188-6-26[1202]实施例3.用于引导编辑的pegrna的设计和工程化改造[1203]概述[1204]本文描述了一系列可以改善引导编辑(pe)效率的pegrna设计和策略。[1205]背景[1206]引导编辑(pe)是基因组编辑技术,其可以使用引导编辑器向导rna(pegrna)内编码的信息取代、插入或去除靶基因座内的确定的dna序列。引导编辑器(pe)由与逆转录酶(rt)融合的具有核酸酶活性(cas9)的序列可编程dna结合蛋白组成。pe与pegrna形成复合物,其中含有用于在其间隔区序列中靶向特定dna基因座的信息,以及在标准sgrna支架中内置的工程化延伸中指定期望编辑的信息。pe:pegrna复合物结合并使程序化的靶dna基因座形成切口,允许带切口的dna链与pegrna的工程化引物结合序列(pbs)杂交。然后,逆转录酶结构域使用带切口的基因组dna作为dna聚合的引物,复制pegrna的rt模板部分内的编辑编码信息。随后的dna修复过程将新合成的经编辑的dna链掺入基因组基因座中。尽管引导编辑的多功能性作为一种研究工具和潜在的治疗方法具有很大的前景,但由于编辑所需的多步骤过程,在效率和范围方面存在一些限制。例如,在pegrna内形成的不利rna结构可以抑制dna编辑从pegrna复制到基因组基因座。改进pe技术的一种潜在方法是重新设计和工程化改造关键的pegrna组件。改进这些pegrna的设计可能是改善pe效率所必需的,并且能够将更长的插入序列安装到基因组中。[1207]描述[1208]本文描述了一系列旨在改善pe功效的pegrna设计。这些设计利用了许多以前发表的方法来改善sgrna的功效和/或稳定性,并利用了许多新的策略。这些改进可以属于许多不同类别中的一个或多个:i)设计能够从非聚合酶iii(poliii)启动子高效表达功能性pegrna,这将能够表达更长的pegrna,而无需繁重的序列要求;ii)对核心、cas9结合pegrna支架的改进,这可以改善功效;iii)修饰pegrna以改善rt持续合成能力,从而能够在靶基因组基因座插入更长的序列;iv)在pegrna的5’或3’末端添加rna基序,以改善pegrna稳定性、增强rt持续合成能力、防止pegrna错误折叠或招募对基因组编辑重要的其他因子。本文描述了每个类别中许多潜在的此类pegrna设计。之前已经描述了这些设计中的一些,用于改善cas9的sgrna活性,并如此指出。本文还描述了用于针对给定序列靶标演变pegrna的平台,该平台将能够修正pegrna支架并增强pe活性;(v)值得注意的是,这些设计也可以很容易地应用于改进由任意cas9或其进化变体识别的pegrna。[1209](i)从非poliii启动子表达pegrna[1210]sgrna通常从u6snrna启动子表达。该启动子募集poliii以表达相关的rna,且用于表达保留在细胞核内的短rna。然而,poliii的加工能力不强,无法在有效基因组编辑所需的水平上表达长度超过几百个核苷酸的rna183。此外,poliii可以在u的延伸处停止或终止,这可能会限制使用pegrna插入的序列多样性。募集聚合酶ii(诸如pcmv)或聚合酶i(诸如u1snrna启动子)的其他启动子已被检查其表达更长sgrna的能力183。然而,这些启动子通常是部分转录的,这将导致表达的pegrna中间隔区的额外序列5’,这已被证明会导致cas9:sgrna活性以位点依赖性方式显著降低。此外,虽然poliii转录的pegrna可以简单地在6-7u的运行中终止,但从polii或poli转录的pegrna需要不同的终止信号。通常,此类信号还会导致聚腺苷酸化,从而导致pegrna从细胞核中的非期望转运。类似地,从polii启动子(诸如pcmv)表达的rna通常是5’加帽的,这也导致它们的核输出。[1211]此前,rinn和同事筛选了多种表达平台,用于产生长链非编码rna-(lncrna)标记的sgrnas183。这些平台包括从pcmv表达并终止于来自人类malat1ncrna的ene元件184、来自kshv的panene元件185或来自u1snrna的3’框186的rna。值得注意的是,malat1ncrna和panene形成三重螺旋保护polya尾184、187。预计除了能够表达rna外,这些构建体还可以增强rna稳定性(参见第iv部分)。还探索了使用来自u1snrna的启动子来表达这些更长的sgrna183。预计这些表达系统也将能够表达更长的pegrna。此外,还设计了一系列方法来切割将作为pegrna一部分转录的polii启动子部分,添加自切割核酶(诸如锤头188(hammerhead188)、手枪189(pistol189)、斧头189(hatchet189)、发夹190、vs191、twister192或twistersister192核酶)或其他自切割元件来处理转录向导,或被csy4193识别并导致向导处理的发夹。此外,假设合并多个ene基序可以导致改善pegrna表达和稳定性,如先前对kshvpanrna和元件所证明的那样185。还预计以环状内含子rna(cirna)形式环化pegrna也可能导致增强的rna表达和稳定性,以及核定位194。[1212]序列:[1213]由pcmv、csy4发夹、pegrna和malatlene组成的pegrna表达平台[1214][1215]由pcmv、csy4发夹、pegrna和panene组成的pegrna表达平台[1216][1217][1218]由pcmv、csy4发夹、pegrna和3xpanene组成的pegrna表达平台[1219][1220]由pcmv、csy4发夹、pegrna和3’盒组成的pegrna表达平台[1221][1222]由pu1、csy4发夹、pegrna和3’盒组成的pegrna表达平台[1223][1224][1225](ii)对pegrna支架的改进[1226]核心的、cas9结合pegrna支架可能被改进以增强pe活性。已经证明了几种此类方法。例如,支架(p1)的第一个配对元件含有gtttt-aaaac配对元件。此类ts运行已被证明会导致poliii中止和rna转录的过早终止。在p1的这一部分将t-a对之一合理突变为g-c对已被证明可以增强sgrna活性,表明这种方法对于pegrna195也是可行的。此外,增加p1的长度也显示可以增强sgrna折叠并导致活性改善195,表明它是改善pegrna活性的另一条途径。最后,通过pegrna在给定dna靶标上的定向进化来修正pegrna支架也可能导致活性改善。这在第(v)部分中进行了描述。[1227]序列:[1228]含有针对p1的6nt延伸的pegrna[1229][1230]p1内含有t-a至g-c突变的pegrna[1231][1232](iii)通过修饰pegrna的模板区域改善rt持续合成能力[1233]随着由pegrna模板化的插入的大小增加,它更有可能被内切核酸酶降解,经历自发水解,或折叠成不能被rt逆转录的二级结构或破坏pegrna支架折叠和随后的cas9-rt结合。因此,可能需要对pegrna模板进行修饰才能影响大的插入,诸如整个基因的插入。这样做的一些策略包括在合成或半合成的pegrna中掺入经修饰的核苷酸,使rna对降解或水解更具抵抗力,或者不太可能采用抑制性二级结构196。此类修饰可能包括8-氮杂-7-去氮杂鸟嘌呤核苷(8-aza-7-deazaguanosine),其会减少富含g的序列中的rna二级结构;可减少降解并增强某些种类的rna二级结构的锁核酸(lna);可增强rna稳定性的2’‑o-甲基、2’‑氟代或2’‑o-甲氧基乙氧基修饰。此类修饰也可以包括在pegrna的其他地方,以增强稳定性和活性。或者或另外,可以设计pegrna的模板,使其既编码期望的蛋白质产物,也更可能采用能够通过rt展开的简单二级结构。此类简单的结构将充当热力学池(sink),从而不太可能出现阻止逆转录的更复杂的结构。最后,人们还可以想象将模板分成两个独立的pegrna。在这样的设计中,pe将用于启动转录,并通过与cas9融合的rna结合蛋白或pegrna本身上的rna识别元件(如ms2适体)将单独的模板rna招募到靶位点。rt可以直接结合到该单独的模板rna,或者在交换到第二模板之前在原始pegrna上启动逆转录。此类方法可以通过防止添加长模板时pegrna的错误折叠以及不需要将cas9从基因组解离用于发生长插入来实现长插入,这可能会抑制基于pe的长插入。[1234](iv)在5’或3’端安装额外的rna基序[1235]还可以通过在rna末端的任一端安装额外的基序来改进pegrna设计。几个此类基序-诸如在前面的部分(i)184,185中讨论过的来自kshv的panene和来自malat1的ene,其作为终止来自非poliii启动子的较长pegrna表达的可能手段。这些元件形成吞没polya尾的rna三螺旋,导致它们保留在细胞核内184,187。然而,通过在pegrna的3’端形成封闭末端核苷酸的复杂结构,这些结构也可能有助于防止外切核酸酶介导的pegrna降解。在3’端插入的其他结构元件也可以增强rna稳定性,尽管不能从非poliii启动子终止。此类基序可能包括发夹或rna四联体,它们会封闭3’端197,或自切割核酶(诸如hdv),其会导致在3’端形成2’‑3’‑环状磷酸酯,并可能导致pegrna不太可能被外切核酸酶降解198。通过不完全剪接诱导pegrna环化-形成cirna-也可以增加pegrna的稳定性并导致pegrna保留在细胞核内194。[1236]额外的rna基序也可以通过增强rt与dna-rna双链体的结合来改进rt持续合成能力或增强pegrna活性。在其同源逆转录病毒基因组中添加由rt结合的天然序列可以增强rt活性199。这可能包括天然引物结合位点(pbs)、多嘌呤束(polypurinetract)(ppt)或参与逆转录病毒基因组二聚化和转录起始的接吻环199。在pegrna的5’和3’末端添加二聚化基序-诸如接吻环或gnra四环/四环受体对200-也可以导致pegrna的有效环化,改善稳定性。此外,预计添加这些基序可以实现pegrna间隔区和引物的物理分离,防止会阻碍pe活性的间隔区遮蔽(occlusion)。在间隔区形成小的toehold发夹的pegrna的短5’延伸,也可以有利地与结合间隔区的pegrna的退火区竞争。最后,接吻环也可用于将其他模板rna招募到基因组位点,并使rt活性从一种rna交换到另一种(第iii部分)。[1237]序列[1238]pegrna-hdv融合[1239][1240]pegrna-mmlv接吻环[1241][1242]pegrna-vs核酶接吻环[1243][1244]pegrna-gnra四环/四环受体[1245][1246]pegrna模板转换二次rna-hdv融合[1247][1248](v)pegrna的进化[1249]可能可以通过定向进化进一步改进pegrna支架,以与已改进的spcas9和碱基编辑器的类似方式201。定向进化可以增强由cas9或进化的cas9变体对pegrna的识别。此外,不同的pegrna支架序列可能在不同的基因组基因座上是最佳的,要么增强相关位点的pe活性,要么减少脱靶活性,或两者兼有。最后,添加了其他rna基序的pegrna支架的进化几乎肯定会改善融合pegrna相对于未进化的融合rna的活性。例如,由c-di-gmp-i适体和锤头状核酶(hammerheadribozyme)组成的变构核酶的进化导致活性显著改善202,表明进化也会改善锤头状-pegrna融合的活性。此外,虽然cas9目前通常不耐受sgrna的5’延伸,但定向进化可能会产生使这种不耐受性减轻的突变,从而允许利用额外的rna基序。[1250]竞争方法[1251]如本文所述,已经描述了与cas9:sgrna复合物一起使用的许多这些方法,但是没有报道用于改进pegrna活性的设计。将可编程突变安装到基因组中的其他策略包括碱基编辑、同源定向重组(hdr)、精确微同源介导的末端连接(mmej)或转座酶介导的编辑。然而,与pe相比,所有这些方法都有明显的缺点。当前的碱基编辑器虽然比现有的pe更有效,但只能安装某些类别的基因组突变,并可能在感兴趣的位点导致额外的、非期望的核苷酸转换。hdr仅适用于极少数细胞类型,并导致随机插入和缺失突变(插入/缺失)的发生率相对较高。精确mmej可以导致双链断裂的可预测修复,但主要限于安装缺失,非常依赖位点,并且也可能具有相对较高的非期望的插入/缺失率。迄今为止,转座酶介导的编辑仅显示在细菌中起作用。因此,对pe的此类改进可能代表了对广泛基因组突变进行治疗校正的最佳途径。[1252]实施例4.在引物结合位点(pbs)中掺入3’toe环改善pegrna活性[1253]为了进一步改进pe活性,发明人考虑在具有3’延伸臂的pegrna的3’末端添加趾环序列。图37a提供了具有3’延伸臂(顶部分子)的通用spcas9pegrna的实例。3’延伸臂又包含rt模板(包括期望的编辑)和位于分子3’末端的引物结合位点(pbs)。该分子以包含三个u核酸碱基(即5’‑uuu-3’)的聚(u)序列终止。[1254]相比之下,图37a的底部部分显示与图37的顶部部分相同的pegrna分子,但其中在引物结合位点的3’端和末端poly(u)序列的5’端之间插入了5’‑gaaannnnn-3’的9-核碱基序列。该结构自身折回180°,形成″趾环″rna结构,其中9-核碱基插入的5’‑nnnnn-3’序列与引物结合位点的互补序列退火,其中5’‑gaaa-3’部分形成180°转弯。图37a中描述的趾环序列的特征并非旨在限制或缩小可以在其位置使用的可能的趾环的范围。此外,趾环的序列将取决于引物结合位点的互补序列。但基本上,在各种实施方案中,趾环序列可以具有形成180°的第一序列部分和具有与引物结合位点的一部分互补的序列的第二序列部分。[1255]不受理论的束缚,认为趾环序列使pegrna能够使用具有比其他情况下可能的越来越长的引物结合位点的pegrna。反过来,更长的pbs序列被认为可以改善pe活性。pegrna更具体地说,趾环的可能功能是阻止或至少最小化pbs与间隔区的相互作用。pbs和间隔区之间稳定的发夹形成可导致pegrna失活。没有趾环的情况下,这种相互作用可能需要限制pbs的长度。使用3’末端趾环阻断或最小化间隔区和pbs之间的相互作用可能会导致pe活性的改善。[1256]图37b显示了实施例4的结果,其证明使用含有趾环元件的pegrna提高了hek细胞或emx细胞中的引导编辑的效率,而插入/缺失形成的百分比基本上没有变化。[1257]实施方案[1258]以下实施方案在本公开的范围内。此外,本公开涵盖这些实施方案的所有变化、组合和排列,其中来自一个或多个所列实施方案的一个或多个限制、要素、项目和描述性术语被引入到本部分中的另一个所列实施方案中。例如,可以修改依赖于另一实施方案的任何列出的实施方案以包括在依赖于相同基本实施方案的本部分中的任何其他列出的实施方案中发现的一个或多个限制。在要素以列表形式呈现的情况下,例如,在马库什组格式中,还公开了要素的每个亚组,并且可以从组中删除任何要素。应当理解,一般而言,在本公开或本公开的方面被称为包含特定要素和/或特征的情况下,本发明的某些实施方案或本发明的方面由或基本上由此类元素和/或特征组成。还应注意,术语″包含(comprising)″和″含有(containing)″旨在是开放的并且允许包括额外的要素或步骤。在给出范围处,包括端点。此外,除非根据上下文和本领域普通技术人员的理解另有说明或以其它方式显而易见,否则表示为范围的值可以假定本发明的不同实施方案中所述范围内的任何特定值或子范围,对于范围下限单位的十分之一,除非上下文另有明确规定。[1259]1.向导rna,其包含间隔区、grna核心和延伸臂,其中所述向导rna包含选自由seqidno:1-135514组成的组的序列,或与seqidno:1-135514中的任一项具有至少90%序列同一性的序列。[1260]2.向导rna,其包含间隔区、grna核心和延伸臂,其中所述间隔区包含选自由seqidno:135515-271028组成的组的核苷酸序列,或具有与seqidno:135515-271028中的任一项具有至少90%序列同一性的核苷酸序列的间隔区。[1261]3.向导rna,其包含间隔区、grna核心和延伸臂,其中所述延伸臂具有选自由seqidno:271029-406542组成的组的核苷酸序列,或具有与seqidno:271029-406542中的任一项具有至少90%序列同一性的核苷酸序列的延伸臂。[1262]4.向导rna,其包含间隔区、grna核心和延伸臂,其中所述延伸臂包含:(i)引物结合位点,(ii)编辑模板,和(iii)同源臂。[1263]5.向导rna,其包含间隔区、grna核心和延伸臂,其中所述延伸臂包含具有选自由seqidno:406543-542056组成的组的核苷酸序列的引物结合位点,或具有与seqidno:406543-542056中的任一项至少90%序列相同的核苷酸序列的引物结合位点。[1264]6.向导rna,其包含间隔区、grna核心和延伸臂,其中所述延伸臂包括包含选自由seqidno:542057-677570组成的组的核苷酸序列的编辑模板,或具有与seqidno:542057-677570中的任一项至少90%相同的核苷酸序列的编辑模板。[1265]7.向导rna,其包含间隔区、grna核心和延伸臂,其中所述延伸臂包含具有选自由seqidno:677571-813084组成的组的核苷酸序列的同源臂,或具有与seqidno:677571-813084中的任一项至少90%相同的核苷酸序列的同源臂。[1266]8.向导rna,其包含:[1267](i)具有选自由seqidno:135515-271028组成的组的核苷酸序列的间隔区,或具有与seqidno:135515-271028中的任一项具有至少90%序列同一性的核苷酸序列的间隔区,和[1268](ii)选自由seqidno:271029-406542组成的组的延伸臂,或具有与seqidno:271029-406542具有至少90%序列同一性的核苷酸序列的延伸臂。[1269]9.向导rna,其包含:[1270](i)具有选自由seqidno:135515-271028组成的组的核苷酸序列的间隔区,或具有与seqidno:135515-271028中的任一项至少90%相同的核苷酸序列的间隔区,和[1271](ii)选自由seqidno:406543-542056组成的组的引物结合位点,或具有与seqidno:406543-542056中的任一项至少90%相同的核苷酸序列的引物结合位点。[1272]10.向导rna,其包含:[1273](i)具有选自由seqidno:135515-271028组成的组的核苷酸序列的间隔区,或具有与seqidno:135515-271028中的任一项具有至少90%序列同一性的核苷酸序列的间隔区,和[1274](ii)具有选自由seqidno:542057-677570组成的组的核苷酸序列的编辑模板,或具有与seqidno:542057-677570中的任一项至少90%相同的核苷酸序列的编辑模板。[1275]11.向导rna,其包含:[1276](i)具有选自由seqidno:135515-271028组成的组的核苷酸序列的间隔区,或具有与seqidno:135515-271028中的任一项至少90%相同的核苷酸序列的间隔区,和[1277](ii)具有选自由seqidno:677571-813084组成的组的核苷酸序列的同源臂,或具有与seqidno:677571-813084中的任一项至少90%相同的核苷酸序列的间隔区。[1278]12.实施方案1-11中任一项的所述向导rna,其进一步包含seqidno:813086的终止信号,或与seqidno:813086具有至少90%序列同一性的终止信号。[1279]13.实施方案1-12中任一项的所述向导rna,其进一步包括包含发夹序列、茎/环序列或趾环序列的5’末端修饰区。[1280]14.实施方案1-13中任一项的所述向导rna,其进一步包括包含发夹序列、茎/环序列或趾环序列的3’末端修饰区。[1281]15.实施方案1-14中任一项的所述向导rna,其进一步包括包含seqidno:813085的grna核心,或与seqidno:813085具有至少90%序列同一性的grna核心。[1282]16.实施方案1-15中任一项的所述向导rna,其中所述向导rna能够与适于引导编辑的napdnabp结合并将所述napdnabp引导至靶dna序列。[1283]17.实施方案16的所述向导rna,其中所述靶核酸序列包含靶链(或pam链)和互补非靶链(或非pam链),其中所述向导rna的间隔区与所述互补非靶链(非pam链)杂交以形成rna-dna杂交体和r环。[1284]18.实施方案1-17中任一项的所述向导rna,其中所述引物结合位点的长度在约8个和约20个核苷酸之间。[1285]19实施方案1-18中任一项的所述向导rna,其中所述引物结合位点的长度为8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。[1286]20.上述实施方案中任一项的所述向导rna,其中所述引物结合位点的长度为至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸或至少20个核苷酸。[1287]21.实施方案1-19中任一项的所述向导rna,其中所述同源臂与所述靶dna的链互补。[1288]22.实施方案1-10中任一项的所述向导rna,其中所述延伸臂的长度在约7和约500个核苷酸之间。[1289]23.上述实施方案中任一项的所述向导rna,其中所述延伸臂的长度为至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸或至少100个核苷酸。[1290]24.上述实施方案中任一项的所述向导rna,其中所述编辑模板的长度为至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸或至少100个核苷酸。[1291]25.上述实施方案中任一项的所述向导rna,其中所述同源臂是至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸或至少30个核苷酸。[1292]26.上述实施方案中任一项的所述向导rna,其中所述编辑模板和同源臂可以被逆转录酶用作模板序列用于合成具有3’末端的相应单链dnaflap,其中所述dnaflap与邻近切口位点的内源性靶dna序列的链互补,且其中所述单链dnaflap包含由所述编辑模板编码的核苷酸变化。[1293]27.实施方案25的所述向导rna,其中所述单链dnaflap置换已形成切口的靶dna序列中具有5’末端的内源性单链dna。[1294]28.实施方案26的所述向导rna,其中所述细胞切除具有游离5’末端的所述内源性单链dna。[1295]29.实施方案27的所述向导rna,凭此所述单链dnaflap的细胞修复导致所述核苷酸变化的安装(installation),从而形成期望产物。[1296]30.实施方案28的所述向导rna,其中所述期望的核苷酸变化是插入。[1297]31.实施方案29的所述向导rna,其中所述插入的长度为至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸或至少100个核苷酸。[1298]32.实施方案29的所述向导rna,其中所述插入是编码多肽的序列。[1299]33.引导编辑复合物,其包含napdnabp、逆转录酶和实施方案1-32中任一项的所述向导rna。[1300]34.实施方案32的所述引导编辑复合物,其中所述napdnabp和所述逆转录酶形成为融合蛋白。[1301]35.实施方案32的所述引导编辑复合物,其中所述napdnabp是cas9。[1302]36.实施方案34的所述引导编辑复合物,其中所述cas9选自由cas9切口酶或其变体组成的组。[1303]37.实施方案34的所述引导编辑复合物,其中所述cas9具有选自由seqidno:1-135514组成的组的氨基酸序列。[1304]38.实施方案33的所述引导编辑复合物,其中所述融合蛋白具有选自由seqidno:1-135514组成的组的氨基酸序列。[1305]39.实施方案33的所述引导编辑复合物,其中所述融合蛋白包含连接所述napdnabp和逆转录酶的接头。[1306]40.实施方案38的所述引导编辑复合物,其中所述接头具有选自由seqidno:1-135514组成的组的氨基酸序列。[1307]41.编码实施方案32-39中任一项的所述引导编辑复合物的一种或多种多核苷酸。[1308]42.载体,其包含实施方案41的所述多核苷酸和驱动所述向导rna和所述引导编辑复合物的融合蛋白的表达的一个或多个启动子。[1309]43.细胞,其包含实施方案41的载体。[1310]44.细胞,其包含实施方案32-39中任一项的引导编辑复合物。[1311]45.药物组合物,其包含:(i)实施方案1-31中任一项的向导rna、实施方案32-39的引导编辑复合物、实施方案40的多核苷酸或实施方案41的载体;和(ii)药学上可接受的赋形剂。[1312]46.在核酸序列中安装核苷酸变化的方法,所述方法包括:使所述核酸序列与包含融合蛋白和实施方案1-31中任一项或实施方案83-85中任一项的向导rna的复合物接触,其中所述融合蛋白包含napdnabp和聚合酶,且其中所述向导rna包含间隔区、grna核心和包含编码核苷酸变化的编辑模板的延伸臂;由此[1313](i)在靶链(或pam链)上使双链dna序列形成切口,并产生具有3’末端的游离单链dna;[1314](ii)在引物结合位点处将所述游离单链dna的3’末端与所述向导rna杂交,由此引导所述聚合酶;[1315](iii)从所述3’末端聚合dna的链,由此产生包含所述核苷酸变化的单链dnaflap;和[1316](iv)用所述单链dnaflap替换紧邻所述靶链(或pam链)上切割位点的下游的内源性dna链,由此在所述双链dna序列中安装期望的核苷酸变化。[1317]47.实施方案46的所述方法,其中所述核苷酸变化是单个核苷酸取代、缺失、插入或其组合。[1318]48.实施方案46的所述方法,其中所述单个核苷酸取代是转换或颠换。[1319]49.实施方案46的所述方法,其中所述核苷酸变化是(1)g到t取代,(2)g到a取代,(3)g到c取代,(4)t到g取代,(5)t到a取代,(6)t到c取代,(7)c到g取代,(8)c到t取代,(9)c到a取代,(10)a到t取代,(11)a到g取代,或(12)a到c取代。[1320]50.实施方案46的所述方法,其中所述核苷酸变化转换(1)g:c碱基对为t:a碱基对,(2)g:c碱基对为a:t碱基对,(3)g:c碱基对为c:g碱基对,(4)t:a碱基对为g:c碱基对,(5)t:a碱基对为a:t碱基对,(6)t:a碱基对为c:g碱基对,(7)c:g碱基对为g:c碱基对,(8)c:g碱基对为t:a碱基对,(9)c:g碱基对为a:t碱基对,(10)a:t碱基对为t:a碱基对,(11)a:t碱基对为g:c碱基对,或(12)a:t碱基对为c:g碱基对。[1321]51.实施方案46的所述方法,其中所述核苷酸变化是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。[1322]52.实施方案46的所述方法,其中所述核苷酸变化是多肽编码序列的插入。[1323]53.实施方案46的所述方法,其中所述核苷酸变化校正疾病相关基因。[1324]54.实施方案46的所述方法,其中所述疾病相关基因与选自由以下组成的组的单基因病症相关:腺苷脱氨酶(ada)缺乏症;α-1抗胰蛋白酶缺乏症;囊性纤维化;假肥大型肌营养不良症;半乳糖血症;血色沉着病;亨廷顿氏病;枫糖浆尿病;马凡综合征;1型神经纤维瘤病;先天性厚甲症;苯丙酮尿症;严重联合免疫缺陷;镰状细胞贫血病;史-李-欧综合征;和泰萨克斯病。[1325]55.实施方案46的所述方法,其中所述疾病相关基因与选自由以下组成的组的多基因病症相关:心脏病;高血压;阿尔茨海默氏病;关节炎;糖尿病;癌症;和肥胖。[1326]56.用于确定引导编辑器向导rna(pegrna)结构的计算机化方法,所述方法包括使用至少一个计算机硬件处理器来执行:[1327]访问数据表明:[1328]输入等位基因;[1329]输出等位基因;和[1330]融合蛋白,其包含核酸可编程dna结合蛋白和聚合酶(例如,逆转录酶);和[1331]基于所述输入等位基因、所述输出等位基因和所述融合蛋白确定pegrna结构,其中所述pegrna结构设计为与融合蛋白相关以将所述输入等位基因改变为所述输出等位基因,其包括对于pegrna结构确定一个或多个以下特征:[1332]与所述输入等位基因中的靶核苷酸序列互补的间隔区;[1333]用于与所述融合蛋白相互作用的grna主链;和[1334]包含以下一项或多项的延伸:[1335]dna合成模板序列,其包含期望的核苷酸变化以将所述输入等位基因改变为所述输出等位基因;[1336]引物结合位点;[1337]任选地,与所述dna合成模板相邻的终止信号;[1338]任选地,与所述终止信号相邻的第一修饰;和[1339]任选地,与所述引物结合位点相邻的第二修饰。[1340]57.实施方案56的所述方法,其进一步包括确定所述间隔区和所述延伸,并且确定所述间隔区在pegrna结构的5’端,且所述延伸在所述pegrna结构的3’端。[1341]58.实施方案56的所述方法,其进一步包括确定所述间隔区和所述延伸,其中所述间隔区在pegrna结构的5’端,且所述延伸在所述间隔区的3’。[1342]59.实施方案56的所述方法,其中访问指示所述输入等位基因和所述输出等位基因的数据包括访问包含一组输入等位基因和相关输出等位基因的数据库。[1343]60.实施方案59的所述方法,其中访问所述数据库包括访问包含多个条目的clinvar数据库,其中每个条目包含来自输入等位基因集的输入等位基因和来自输出等位基因集的输出等位基因。[1344]61.实施方案59的所述方法,其中确定所述pegrna结构包括确定集中每个输入等位基因和相关输出等位基因的一个或多个pegrna结构。[1345]62.实施方案56的所述方法,其中访问指示融合蛋白的数据包括从多种融合蛋白中确定所述融合蛋白。[1346]63.实施方案56的所述方法,其中所述融合蛋白包含cas9蛋白。[1347]64.实施方案63的所述方法,其中所述融合蛋白包含cas9-ng蛋白或spcas9蛋白。[1348]65.实施方案56的所述方法,其中将所述输入等位基因改变为所述输出等位基因包括单个核苷酸变化、一个或多个核苷酸的插入、一个或多个核苷酸的缺失、或其组合。[1349]66.实施方案56的所述方法,其进一步包括确定间隔区,其中所述间隔区包含约20个核苷酸的核苷酸序列。[1350]67.实施方案66的所述方法,其进一步包括基于相应前间隔区核苷酸序列的变化位置确定间隔区。[1351]68.实施方案67的所述方法,其中所述变化安装在约前间隔区位置-3到前间隔区位置 27之间的编辑窗口中。[1352]69.实施方案67的所述方法,其进一步包括:[1353]基于所述输入等位基因和所述融合蛋白确定初始候选前间隔区集,其中每个初始候选前间隔区包含所述输入等位基因中融合蛋白的pam;[1354]从初始候选前间隔区集中确定一个或多个初始候选前间隔区,其中每个包含不相容的切口位置;[1355]从所述组中去除所确定的一个或多个初始候选前间隔区以生成一组剩余的候选前间隔区;和[1356]其中确定所述pegrna结构包括确定多个pegrna结构,其中每个所述pegrna结构包含基于来自剩余的候选前间隔区集的相应前间隔区确定的不同间隔区。[1357]70.实施方案55的所述方法,其进一步包括确定所述延伸和所述dna合成模板(例如,rt模板序列),其中所述dna合成模板(例如,rt模板序列)包含约7个核苷酸至约34个核苷酸。[1358]71.实施方案56的所述方法,其中确定所述pegrna包括:[1359]基于所述输入的等位基因和/或所述融合蛋白确定所述间隔区;和[1360]基于所述间隔区确定所述dna合成模板(例如,rt模板序列)。[1361]72.实施方案56的所述方法,其中所述dna合成模板(例如,rt模板序列)编码与切口位点相邻的内源性dna序列互补的单链dnaflap,其中所述单链dnaflap包含期望的核苷酸变化。[1362]73.实施方案72的所述方法,其中所述单链dnaflap能够与切口位点相邻的内源性dna序列杂交,从而导致期望核苷酸变化的安装。[1363]74.实施方案72的所述方法,其中所述单链dnaflap能够取代与切口位点相邻的内源性dna序列。[1364]75.实施方案72的所述方法,凭此所述单链dnaflap的细胞修复导致所述期望核苷酸变化的安装,从而形成期望产物。[1365]76.实施方案56的所述方法,其中所述融合蛋白与pegrna复合时能够结合靶dna序列。[1366]77.实施方案76的所述方法,其中所述靶标dna序列包含发生变化的靶链和互补的非靶链。[1367]78.实施方案56的所述方法,其中所述输入等位基因包含致病性dna突变,所述输出等位基因包含经校正的dna序列。[1368]79.实施方案56的所述方法,其中所述输入等位基因是seqidno:1217353-1289387的疾病等位基因中的任一种。[1369]80.实施方案56的所述方法,其中所述输出等位基因是seqidno:1289388-1361420的健康等位基因中的任一种。[1370]81.系统,其包含:[1371]至少一个处理器;和[1372]至少一个其上编码有指令的计算机可读存储介质,当执行该指令时,使该至少一个处理器执行实施方案56-81中任一项的方法。[1373]82.其上编码有指令的至少一个计算机可读存储介质,当执行该指令时,使至少一个处理器执行实施方案56-81中任一项的方法。[1374]83.使用根据实施方案56-81中任一项的方法确定的pegrna结构的碱基编辑方法。[1375]84.根据实施方案56-81中任一项的方法确定的pegrna。[1376]85.向导rna,其用于引导编辑以校正靶dna序列中的疾病等位基因以形成健康等位基因,所述向导包含间隔区、grna核心和延伸臂,其中所述间隔区能够与seqidno:1217353-1289387或其互补链内的~20个核苷酸区域结合。[1377]86.向导rna,其包含间隔区、grna核心和延伸臂,其中所述延伸臂包含dna合成模板和有效进行引导编辑的引物结合位点。\[1378]87.实施方案85的所述向导rna,其中seqidno:1217353-1289387的任意核苷酸序列中的编辑位点在5’到3’定向的位置201处开始。[1379]88.用于引导编辑的向导rna,其包含间隔区、grna核心和延伸臂,其中所述延伸臂包含引物结合位点和dna合成模板。[1380]89.实施方案88的所述向导rna,其中所述引物结合位点具有选自由seqidno:406543-542056组成的组的核苷酸序列(引物结合位点),或与seqidno:406543-542056中的任一项具有至少90%序列同一性的核苷酸序列。[1381]90.实施方案88的所述向导rna,其中所述dna合成模板包含seqidno:542057-677570的核苷酸序列(编辑模板),或与seqidno:542057-677570中的任一项具有至少90%序列同一性的核苷酸序列。[1382]91.实施方案88的所述向导rna,其中所述dna合成模板包含seqidno:677571-813084的核苷酸序列(同源臂),或与seqidno:677571-813084中的任一项具有至少90%序列同一性的核苷酸序列。[1383]92.实施方案88的所述向导rna,其中所述dna合成模板包含编辑模板和同源臂,其中所述编辑模板包含seqidno:542057-677570的核苷酸序列,并且所述同源臂包含seqidno:677571-813084的核苷酸序列。[1384]93.实施方案86-92中任一项的所述向导rna,其进一步包含seqidno:813086的终止信号,或与seqidno:813086具有至少90%序列同一性的终止信号。[1385]94.实施方案86-93中任一项的所述向导rna,其进一步包括包含发夹序列、茎/环序列或趾环序列的5’末端修饰物区。[1386]95.实施方案86-94中任一项的所述向导rna,其进一步包括包含发夹序列、茎/环序列或趾环序列的3’末端修饰物区。[1387]96.实施方案86-95中任一项的所述向导rna。其进一步包括包含seqidno:813085的grna核心,或与seqidno:813085具有至少90%序列同一性的grna核心。[1388]97.实施方案86-96中任一项的所述向导rna,其中所述向导rna能够与适于引导编辑的napdnabp结合并将所述napdnabp引导至靶dna序列。[1389]98.实施方案97的所述向导rna,其中所述靶核酸序列包含靶链(或pam或编辑链)和互补非靶链(或非pam或非编辑链),其中所述向导rna的间隔区与所述非pam链杂交以形成rna-dna杂交和r环。[1390]99.实施方案86-98中任一项的所述向导rna,其中所述引物结合位点的长度在约8个和约20个核苷酸之间。[1391]100.实施方案86-99中任一项的所述向导rna,其中所述引物结合位点的长度为8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。[1392]101.实施方案86-100中任一项的所述向导rna,其中所述延伸臂的长度为至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少100个核苷酸。[1393]102.实施方案86-101中任一项的所述向导rna,其中所述引物结合位点的长度为至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸或至少20个核苷酸。[1394]103.实施方案86-102中任一项的所述向导rna,其中所述dna合成模板的长度为至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少100个核苷酸。[1395]104.实施方案86-103中任一项的所述向导rna,其中所述dna合成模板可以被rna依赖性dna聚合酶(例如,逆转录酶)用作模板以用于合成具有3’末端的相应单链dnaflap,其中所述dnaflap与邻近切口位点的内源性靶dna序列的链互补,且其中所述单链dnaflap包含由所述dna合成模板编码的期望的核苷酸变化。[1396]105.实施方案104的所述向导rna,其中所述单链dnaflap置换已形成切口的靶dna序列中具有5’末端的内源性单链dna。[1397]106.实施方案105的所述向导rna,其中所述细胞切除具有游离5’末端的所述内源性单链dna。[1398]107.实施方案105的所述向导rna,凭此所述单链dnaflap的细胞修复导致所述核苷酸变化的安装,从而形成经编辑的dna产物。[1399]108.实施方案107的所述向导rna,其中所述核苷酸变化是插入。[1400]109.实施方案108的所述向导rna,其中所述插入的长度为至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少100个核苷酸。[1401]110.实施方案108的所述向导rna,其中所述插入是编码多肽的序列。[1402]111.引导编辑复合物,其包含napdnabp、rna依赖性dna聚合酶和实施方案86-110中任一项的所述向导rna。[1403]112.实施方案111的所述引导编辑复合物,其中所述napdnabp和所述rna依赖性dna聚合酶形成为融合蛋白。[1404]113.实施方案111的所述引导编辑复合物,其中所述napdnabp是cas9。[1405]114.实施方案113的所述引导编辑复合物,其中所述cas9是cas9切口酶或其变体。[1406]115.实施方案113的所述引导编辑复合物,其中所述cas9具有选自由seqidno:1-135514组成的组的氨基酸序列。[1407]116.实施方案112的所述引导编辑复合物,其中所述融合蛋白具有选自由seqidno:1-135514组成的组的氨基酸序列。[1408]117.实施方案112的所述引导编辑复合物,其中所述融合蛋白包含连接所述napdnabp和rna依赖性dna聚合酶的接头。[1409]118.实施方案117的所述引导编辑复合物,其中所述接头具有选自由seqidno:1-135514组成的组的氨基酸序列。[1410]119.编码实施方案111-118中任一项的所述引导编辑复合物的一种或多种多核苷酸。[1411]120.载体,其包含实施方案119的所述多核苷酸和驱动所述向导rna和所述引导编辑复合物的融合蛋白的表达的一个或多个启动子。[1412]121.细胞,其包含实施方案120的所述载体。[1413]122.细胞,其包含实施方案111-118中任一项的引导编辑复合物。[1414]123.药物组合物,其包含:(i)实施方案84-110中任一项的向导rna、实施方案111-118的引导编辑复合物、实施方案119的多核苷酸或实施方案120的载体;和(ii)药学上可接受的赋形剂。[1415]124.在核酸序列中安装核苷酸变化的方法,所述方法包括:使所述核酸序列与包含融合蛋白和实施方案109-116中任一项的向导rna的复合物接触,其中所述融合蛋白包含napdnabp和rna依赖性dna聚合酶,其中所述向导rna包含间隔区、grna核心和包含dna合成模板和引物结合位点的延伸臂,所述dna合成模板编码核苷酸变化,且其中所述间隔区能够退火至邻近可用pam和前间隔区的非pam链,由此[1416](i)在pam链上使双链dna序列形成切口,由此产生具有3’末端的游离单链dna;[1417](ii)在所述引物结合位点处将所述游离单链dna的3’末端与所述向导rna杂交,由此引导所述rna依赖性dna聚合酶;[1418](iii)从dna的3’末端聚合dna的链,由所述dna合成模板编码,由此产生从所述dna的3’末端延伸的单链dnaflap,其中所述flap包含所述核苷酸变化;[1419](iv)所述单链dnaflap替换紧邻所述pam链上切割位点的下游的所述内源性dna链,由此在所述双链dna序列中安装所述核苷酸变化。[1420]125.实施方案124的所述方法,其中当步骤(v)在细胞内完成时,所述细胞通过细胞dna修复和/或复制来修复非编辑链。[1421]126.实施方案124的所述方法,其中所述核苷酸变化是单个核苷酸取代、缺失、插入或其组合。[1422]127.实施方案124的所述方法,其中所述单个核苷酸取代是转换或颠换。[1423]128.实施方案124的所述方法,其中所述单个核苷酸取代是(1)g到t取代,(2)g到a取代,(3)g到c取代,(4)t到g取代,(5)t到a取代,(6)t到c取代,(7)c到g取代,(8)c到t取代,(9)c到a取代,(10)a到t取代,(11)a到g取代,或(12)a到c取代。[1424]129.实施方案124的所述方法,其中所述单个核苷酸取代转换(1)g:c碱基对为t:a碱基对,(2)g:c碱基对为a:t碱基对,(3)g:c碱基对为c:g碱基对,(4)t:a碱基对为g:c碱基对,(5)t:a碱基对为a:t碱基对,(6)t:a碱基对为c:g碱基对,(7)c:g碱基对为g:c碱基对,(8)c:g碱基对为t:a碱基对,(9)c:g碱基对为a:t碱基对,(10)a:t碱基对为t:a碱基对,(11)a:t碱基对为g:c碱基对,或(12)a:t碱基对为c:g碱基对。[1425]130.实施方案124的所述方法,其中所述核苷酸变化是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。[1426]131.实施方案124的所述方法,其中所述核苷酸变化是多肽编码序列的插入。[1427]132.实施方案124的所述方法,其中所述核苷酸变化校正疾病相关基因。[1428]133.实施方案132的所述方法,其中所述疾病相关基因与选自由以下组成的组的单基因病症相关:腺苷脱氨酶(ada)缺乏症;α-1抗胰蛋白酶缺乏症;囊性纤维化;假肥大型肌营养不良症;半乳糖血症;血色沉着病;亨廷顿氏病;枫糖浆尿病;马凡综合征;1型神经纤维瘤病;先天性厚甲症;苯丙酮尿症;严重联合免疫缺陷;镰状细胞贫血病;史-李-欧综合征;和泰萨克斯病。[1429]134.实施方案132的所述方法,其中所述疾病相关基因与选自由以下组成的组的多基因病症相关:心脏病;高血压;阿尔茨海默氏病;关节炎;糖尿病;癌症;和肥胖。[1430]135.向导rna,其用于引导编辑以利用插入、缺失、倒位、取代或其组合来改变靶dna分子的核苷酸序列以产生相应的经编辑的dna分子,其中:[1431](i)所述向导rna能够与融合蛋白形成复合物,所述融合蛋白包含napdnabp和包含rna依赖性dna聚合酶活性的结构域;[1432](ii)所述向导rna包含(a)能够退火至邻近所述靶dna分子上的pam链上的可用pam和前间隔区的非pam链的间隔区,和(b)grna核心;[1433](iii)所述向导rna,其在所述向导rna的5’或3’末端处进一步包含延伸臂;[1434](iv)所述延伸臂包含(a)引物结合位点和(b)dna合成模板,其中所述dna合成模板编码单链dnaflap,其中所述单链dnaflap包括编辑以整合期待紧邻所述pam链上切割位点的下游的内源性链;[1435](v)所述靶dna分子选自由seqidno:seqidno:1217353-1289387组成的组;和[1436](vi)所述相应的经编辑的dna分子选自由seqidno:1289388-1361420组成的组。[1437]136.实施方案135的所述向导rna,其中所述靶dna分子是clinvar变体序列。[1438]137.实施方案135的所述向导rna,其中所述napdnabp是cas9、cas12e、cas12d、cas12a、cas12b1、cas13a、cas12c或argonaute,或cas9、cas12e、cas12d、cas12a、cas12b1、cas13a、cas12c或argonaute的变体。[1439]138.实施方案135的所述向导rna,其中所述napdnabp结构域包含切口酶活性。[1440]139.实施方案135的所述向导rna,其中所述napdnabp是cas9或其变体。[1441]140.实施方案135的所述向导rna,其中所述napdnabp是核酸酶活性的cas9、无核酸酶活性的cas9(dcas9)或cas9切口酶(ncas9)。[1442]141.实施方案135的所述向导rna,其中所述napdnabp是cas9切口酶(ncas9)。[1443]142.实施方案135的所述向导rna,其中所述napdnabp包含氨基酸。[1444]143.实施方案135的所述向导rna,其中所述napdnabp是氨基酸序列1361421-1361428中的任一项,或与seqidno:1361421-1361428中的任一项具有至少80%序列同一性的氨基酸序列的spcas9野生型或其变体。[1445]144.实施方案135的所述向导rna,其中所述napdnabp是氨基酸序列1361429-1361442中的任一项,或与seqidno:1361429-1361442中的任一项具有至少80%序列同一性的氨基酸序列的spcas9直系同源物。[1446]145.实施方案135的所述向导rna,其中所述napdnabp是氨基酸序列1361421-1361484中的任一项,或与seqidno:1361421-1361484中的任一项具有至少80%序列同一性的氨基酸序列。[1447]146.实施方案135的所述向导rna,其中所述包含rna依赖性dna聚合酶活性的结构域是逆转录酶。[1448]147.实施方案146的所述向导rna,其中所述逆转录酶是具有seqidno:1361485-1361496中的任一项的氨基酸序列,或与seqidno:1361485-1361496中的任一项具有至少80%序列同一性的氨基酸序列的天然存在的野生型逆转录酶。[1449]148.实施方案146的所述向导rna,其中所述逆转录酶是具有seqidno:1361497-1361514中的任一项的氨基酸序列,或与seqidno:1361497-1361514中的任一项具有至少80%序列同一性的氨基酸序列的变体逆转录酶。[1450]149.实施方案135的所述向导rna,其中所述融合蛋白包含seqidno:1361515-1361519中的任一项的氨基酸序列,或与seqidno:1361515-1361519中的任一项具有至少80%序列同一性的氨基酸序列。[1451]150.实施方案135的所述向导rna,其中所述融合蛋白包含seqidno:1361515(pe1)或1361516(pe2)的氨基酸序列,或与seqidno:1361515或1361516中的任一个具有至少80%序列同一性的氨基酸序列。[1452]151.实施方案135的所述向导rna,其中所述可用的pam序列是步骤(i)中使用的napdnabp的功能。[1453]152.实施方案135的所述向导rna,其中所述可用的pam序列选自由以下组成的组:(a)5′‑ngg-3′(标准pam序列),(b)5′‑nng-3′,(c)5′‑nna-3′,(d)5′‑nnc-3′,(e)5′‑nnt-3′,(f)5′‑ngt-3′,(g)5′‑nga-3′,(h)5′‑ngc-3′,(i)5′‑naa-3′,(j)5′‑nac-3′,(k)5′‑nag-3′和(l)5′‑nat-3′,对其的选择是napdnabp的选择功能。[1454]153.实施方案135的所述向导rna,其中步骤(v)的seqidno:1217353-1289387的核苷酸序列中的任一项的编辑位点在5’至3’定向位置201处开始。[1455]154.实施方案135的所述向导rna,其中所述核苷酸变化是核苷酸取代、缺失、插入或其组合。[1456]155.实施方案135的所述向导rna,其中所述核苷酸取代是转变或颠换。[1457]156.实施方案135的所述向导rna,其中所述单核苷酸取代是(1)g到t的取代,(2)g到a的取代,(3)g到c的取代,(4)t到g的取代,(5)t到a的取代,(6)t到c的取代,(7)c到g的取代,(8)c到t的取代,(9)c到a的取代,(10)a到t的取代,(11)a到g的取代,或(12)a到c的取代。[1458]157.实施方案135的所述向导rna,其中所述单核苷酸取代转换(1)g:c碱基对为t:a碱基对,(2)g:c碱基对为a:t碱基对,(3)g:c碱基对为c:g碱基对,(4)t:a碱基对为g:c碱基对,(5)t:a碱基对为a:t碱基对,(6)t:a碱基对为c:g碱基对,(7)c:g碱基对为g:c碱基对,(8)c:g碱基对为t:a碱基对,(9)c:g碱基对为a:t碱基对,(10)a:t碱基对为t:a碱基对,(11)a:t碱基对为g:c碱基对,或(12)a:t碱基对为c:g碱基对。[1459]158.实施方案135的所述向导rna,其中所述期望核苷酸变化是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸的插入或缺失。[1460]159.实施方案135的所述向导rna,其中所述核苷酸变化是多肽编码序列的插入。[1461]160.实施方案135的所述向导rna,其中所述核苷酸变化校正疾病相关基因。[1462]161.实施方案160的所述向导rna,其中所述疾病相关基因与选自由以下组成的组的单基因病症相关:腺苷脱氨酶(ada)缺乏症;α-1抗胰蛋白酶缺乏症;囊性纤维化;假肥大型肌营养不良症;半乳糖血症;血色沉着病;亨廷顿氏病;枫糖浆尿病;马凡综合征;1型神经纤维瘤病;先天性厚甲症;苯丙酮尿症;严重联合免疫缺陷;镰状细胞贫血病;史-李-欧综合征;和泰萨克斯病。[1463]162.实施方案160的所述向导rna,其中所述疾病相关基因与选自由以下组成的组的多基因病症相关:心脏病;高血压;阿尔茨海默氏病;关节炎;糖尿病;癌症;和肥胖。[1464]163.在核酸序列中安装核苷酸变化的方法,所述方法包括:使所述核酸序列与包含融合蛋白和实施方案1-32或135-162中任一项的向导rna的复合物接触。[1465]164.实施方案163的所述方法,其中所述融合蛋白包含napdnabp和rna依赖性dna聚合酶。[1466]165.实施方案163的所述方法,其中所述向导rna包含间隔区、grna核心和包含dna合成模板和引物结合位点的延伸臂。[1467]166.实施方案165的所述方法,其中所述dna合成模板编码核苷酸变化。[1468]167.实施方案163-166中任一项的所述方法,其中所述向导rna能够与适于引导编辑的napdnabp结合并将所述napdnabp引导至靶dna序列。[1469]168.实施方案167的所述方法,其中所述靶核酸序列包含靶链(或pam或编辑链)和互补非靶链(或非pam或非编辑链),其中所述向导rna的间隔区与所述非pam链杂交以形成rna-dna杂交和r环。[1470]169.实施方案165的所述方法,其中所述引物结合位点的长度在约8个和约20个核苷酸之间。[1471]170.实施方案165的所述方法,其中所述引物结合位点的长度为8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。[1472]171.实施方案165的所述方法,其中所述延伸臂的长度为至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少100个核苷酸。[1473]172.实施方案165的所述方法,其中所述引物结合位点的长度为至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸或至少20个核苷酸。[1474]173.实施方案165的所述方法,其中所述dna合成模板的长度为至少1个核苷酸、至少2个核苷酸、至少3个核苷酸、至少4个核苷酸、至少5个核苷酸、至少6个核苷酸、至少7个核苷酸、至少8个核苷酸、至少9个核苷酸、至少10个核苷酸、至少11个核苷酸、至少12个核苷酸、至少13个核苷酸、至少14个核苷酸、至少15个核苷酸、至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸、至少22个核苷酸、至少23个核苷酸、至少24个核苷酸、至少25个核苷酸、至少26个核苷酸、至少27个核苷酸、至少28个核苷酸、至少29个核苷酸、至少30个核苷酸、至少31个核苷酸、至少32个核苷酸、至少33个核苷酸、至少34个核苷酸、至少35个核苷酸、至少36个核苷酸、至少37个核苷酸、至少38个核苷酸、至少39个核苷酸、至少40个核苷酸、至少100个核苷酸。activityandorthogonality.mol.cell56,333-339(2014).[1522]39.nowak,c.m.,lawson,s.,zerez,m.&bleris,l.guidernaengineeringforversatilecas9functionality.nucleicacidsres.44,9555-9564(2016).[1523]40.sternberg,s.h.,redding,s.,jinek,m.,greene,e.c.&doudna,j.a.dnainterrogationbythecrisprrna-guidedendonucleasecas9.nature507,62-67(2014).[1524]41.mohr,s.etal.thermostablegroupiiintronreversetranscriptasefusionproteinsandtheiruseinednasynthesisandnext-generationrnasequencing.rna19,958-970(2013).[1525]42.stamos,j.l.,lentzsch,a.m.&lambowitz,a.m.structureofathermostablegroupiiintronreversetranscriptasewithtemplate-primeranditsfunctionalandevolutionaryimplications.mol.cell68,926-939.e4(2017).[1526]43.zhao,c.&pyle,a.m.crystalstructuresofagroupiiintronmaturaserevealamissinglinkinspliceosomeevolution.nat.struct.mol.biol.23,558-565(2016).[1527]44.zhao,c.,liu,f.&pyle,a.m.anultraprocessive,accuratereversetranscriptaseencodedbyametazoangroupiiintron.rna24,183-195(2018).[1528]45.ran,f.a.etal.genomeengineeringusingthecrispr-cas9system.nat.protoc.8,2281-2308(2013).[1529]46.liu,y.,kao,h.-i.&bambara,r.a.flapendonuclease1:acentralcomponentofdnametabolism.annu.rev.biochem.73,589-615(2004).[1530]47.krokan,h.e.&m.baseexcisionrepair.coldspringharb.perspect.biol.5,(2013).[1531]48.kelman,z.pcna:structure,functionsandinteractions.oncogene14,629-640(1997).[1532]49.choe,k.n.&moldovan,g.-l.forgingaheadthroughdarkness:pcna,stilltheprincipalconductoratthereplicationfork.mol.cell65,380-392(2017).[1533]50.li,x.,li,j.,harrington,j.,lieber,m.r.&burgers,p.m.laggingstranddnasynthesisattheeukaryoticreplicationforkinvolvesbindingandstimulationoffen-1byproliferatingcellnuclearantigen.j.biol.chem.270,22109-22112(1995).[1534]51.tom,s.,henricksen,l.a.&bambara,r.a.mechanismwherebyproliferatingcellnuclearantigenstimulatesflapendonuclease1.j.biol.chem.275,10498-10505(2000).[1535]52.tanenbaum,m.e.,gilbert,l.a.,qi,l.s.,weissman,j.s.&vale,r.d.aprotein-taggingsystemforsignalamplificationingeneexpressionandfluorescenceimaging.cell159,635-646(2014).[1536]53.bertrand,e.etal.localizationofash1mrnaparticlesinlivingyeast.mol.cell2,437-445(1998).[1537]54.dahlman,j.e.etal.orthogonalgeneknockoutandactivationwithacatalyticallyactivecas9nuclease.nat.biotechnol.33,1159-1161(2015).[1538]55.tsai,s.q.etal.guide-seqenablesgenome-wideprofilingofoff-targetcleavagebycrispr-casnucleases.nat.biotechnol.33,187-197(2015).[1539]56.tsai,s.q.etal.circle-seq:ahighlysensitiveinvitroscreenforgenome-widecrispr-cas9nucleaseoff-targets.nat.methods14,607-614(2017).[1540]等同物和范围[1541]在权利要求条款中,诸如″一个(a)″、″一个(an)″和″该″之类的冠词可以表示一个或多于一个,除非根据上下文有相反的指示或以其它方式显而易见。如果一个、多于一个或所有的组成员存在于、被采用于或以其他方式与给定的产品或过程相关,则认为在组的一个或多个成员之间包括″或″的权利要求或描述是满足的,或者除非根据上下文另有说明或以其它方式显而易见。本发明包括这样的实施方案,其中该组中的一个成员恰好存在于、被用于或以其他方式与给定的产品或过程相关。本发明包括这样的实施方案,其中多于一个或所有的组成员存在于、被采用于或以其他方式与给定的产品或过程相关。[1542]此外,本发明涵盖所有变化、组合和排列,其中来自一个或多个所列权利要求的一个或多个限制、元素、项目和描述性术语被引入另一权利要求中。例如,从属于另一权利要求的任意权利要求可以修改为包括在从属于同一基本权利要求的任意其他权利要求中发现的一个或多个限制。在元素以列表形式呈现的情况下,例如,在马库什组格式中,还公开了元素的每个亚组,并且可以从组中去除任何元素。应当理解,一般而言,在本发明或本发明的方面被称为包含特定元素和/或特征的情况下,本发明的某些实施方案或本发明的方面由或基本上由此类元素和/或特征组成。为简单起见,此类实施方案并未在本文用同样的话中具体阐述。还应注意,术语″包含″和″含有″旨在是开放的并且允许包括额外的元素或步骤。在给出范围处,包括端点。此外,除非根据上下文和本领域普通技术人员的理解另有指示或以其它方式显而易见,否则表示为范围的值可以假定本发明的不同实施方案中所述范围内的任意特定值或子范围,对于范围下限单位的十分之一,除非上下文另有明确规定。[1543]本技术涉及各种已发布的专利、已公开的专利申请、期刊文章和其他出版物,所有这些都通过引用并入本文。如果任何并入的参考文献与本说明书之间存在冲突,则以说明书为准。此外,属于现有技术的本发明的任何特定实施方案可以明确地从任何一项或多项权利要求中排除。因为此类实施方案被认为是本领域普通技术人员已知的,所以即使在本文中没有明确阐述排除,它们也可以被排除。出于任何原因,无论是否与现有技术的存在相关,本发明的任何特定实施方案都可以从任何权利要求中排除。[1544]本领域技术人员将认识到或能够仅使用常规实验来确定本文描述的特定实施方案的许多等同物。本文描述的本实施方案的范围不旨在限于上述描述,而是如所附权利要求中所阐述的。本领域的普通技术人员将理解,在不脱离如以下权利要求所限定的本发明的精神或范围的情况下,可以对本描述进行各种改变和修改。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献