一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于植物中RNA模板化编辑的组合物和方法与流程

2022-11-06 21:21:48 来源:中国专利 TAG:

用于植物中rna模板化编辑的组合物和方法
1.关于序列表电子递交的声明
2.提供根据37 c.f.r.
§
1.821提交的标题为1499-11wo_st25.txt、大小为408,119字节、于2020年10月23日生成并通过efs-web提交的ascii文本格式的序列表用于代替纸质副本。该序列表在此通过引用并入本说明书的公开内容。
发明领域
3.本发明涉及包含dna结合结构域、内切核酸酶和逆转录酶的重组核酸构建体及其用于修饰植物中的核酸的方法。
4.发明背景
5.碱基编辑已被证明是将胞嘧啶和腺嘌呤残基分别改变为胸腺嘧啶和鸟嘌呤的有效方法。这些工具虽然功能强大,但确实有一些限制,例如旁观者碱基、小碱基编辑窗口,除非具有高pam密度的酶可以补偿,否则对性状相关靶的可及性有限,将胞嘧啶和腺嘌呤分别转化为除胸腺嘧啶和鸟嘌呤之外的残基的能力有限,并且没有编辑胸腺嘧啶或鸟嘌呤残基的能力。因此,目前可用于碱基编辑的工具是有限的,特别是在植物中。因此,为了使核酸编辑在包括植物在内的更多生物中更有用,需要新的编辑工具。
6.发明概述
7.本发明的第一方面涉及一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)dna结合结构域(例如,第一dna结合结构域);(b)dna内切核酸酶(例如,第一dna内切核酸酶);和(c)逆转录酶(例如,第一逆转录酶),从而修饰植物细胞中的靶核酸。
8.本发明的另一方面涉及一种针对在植物中的表达进行密码子优化的表达盒,其从5'至3'包含(a)编码植物特异性启动子序列(例如,zmubi1、mtub2、rna聚合酶ii(pol ii))的多核苷酸,(b)编码crispr-cas核酸酶(例如,ncas9、dcas9、cpf1(cas12a)、dcas12a等)的针对植物进行密码子优化的多核苷酸;(c)接头序列;和(d)编码逆转录酶的针对植物进行密码子优化的多核苷酸。
9.本发明的又一方面涉及一种针对在植物中的表达进行密码子优化的表达盒,其包含:(a)编码植物特异性启动子序列(例如,zmubi1、mtub2)的多核苷酸,和(b)延伸指导核酸,其中延伸指导核酸包含延伸部分,所述延伸部分在其3'端包含引物结合位点和待并入靶核酸中的编辑(例如,逆转录酶模板),任选地其中延伸指导核酸包含在表达盒中,任选地其中延伸指导核酸可操作地连接至pol ii启动子。
10.本发明的另外的方面涉及一种修饰植物细胞中的靶核酸的方法,其包括使靶核酸与以下接触:靶向靶核酸上第一位点的dna结合结构域和dna内切核酸酶结构域以及靶向靶核酸上第二位点的相同或不同的dna结合结构域和dna内切核酸酶结构域,其中第一位点和第二位点在相同(非靶)链上彼此接近,从而将靶核酸在第一和第二位点处造成切口;逆转录酶;和编码修复模板的核酸,其编码待并入靶核酸的修饰,从而修饰植物中的靶核酸。
11.本发明的另一方面涉及一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶
核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(切口酶);(b)逆转录酶;(c)crispr rna(crrna),其包含与靶核酸上的第一位点具有基本同源性的间隔区;(d)反式激活crrna(tracrrna),其与crrna和crispr-cas核酸酶相互作用(募集/结合);和(e)编码修复模板的核酸(例如,编码修复模板的rna),其包含引物结合位点和编码待并入靶核酸的修饰的模板,其中tracrrna包含与逆转录酶模板的5'端或3'端的序列互补的5'端或3'端的序列,从而修饰靶核酸。
12.本发明的又一方面涉及一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(切口酶);(b)逆转录酶;(c)crispr rna(crrna),其包含与靶核酸上的第一位点具有基本同源性的间隔区;(d)反式激活crrna(tracrrna),其与crrna和crispr-cas核酸酶相互作用(募集/结合);和(e)编码修复模板的核酸(例如,编码修复模板的rna),其包含引物结合位点和编码待并入靶核酸的修饰的模板,从而修饰靶核酸。
13.本发明的另一方面涉及一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(切口酶);(b)逆转录酶;(c)crispr rna(crrna)指导,其与crispr-cas核酸酶相互作用(募集/结合)并且包含与靶核酸上的第一位点具有基本同源性的间隔区;和(e)编码修复模板的核酸(例如,编码修复模板的rna),其包含引物结合位点和(编码待并入靶核酸的修饰的)rna模板,其中crrna在其5'端或3'端包含与引物结合位点互补的序列,从而修饰靶核酸。
14.本发明的又一方面涉及一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(例如,切口酶);(b)逆转录酶;(c)延伸指导核酸,其包含与crispr-cas核酸酶相互作用(募集/结合)的序列和与靶核酸上的第一位点具有基本同源性的间隔区(例如,crispr rna(crrna)(第一crrna)和/或tracrrna crrna(sgrna))和编码修复模板的核酸(例如,编码修复模板的rna),所述编码修复模板的核酸包含引物结合位点和rna模板(其编码待并入靶核酸的修饰),从而修饰靶核酸。
15.本发明的另外的方面涉及一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)第一crispr-cas核酸酶(切口酶),其包含第一dna结合结构域和第一dna内切核酸酶;(b)延伸指导核酸,其包含crispr rna(crrna)、反式激活crrna(tracrrna)和rna模板,所述crrna包含与靶核酸上的第一位点具有基本同源性的间隔区,所述tracrrna募集第一crispr-cas核酸酶,所述rna模板包含待并入靶核酸的修饰,其中第一crispr-cas核酸酶将靶核酸在第一位点处(在非靶链上)造成切口;(c)第二crispr-cas核酸酶(切口酶),其包含第一dna结合结构域和第一dna内切核酸酶(切口酶);(d)指导核酸,其包含crispr rna(crrna)、反式激活crrna(tracrrna),所述crrna包含与靶核酸上的第二位点具有基本同源性的间隔区,所述第二位点与靶核酸上第一位点接近(并且位于与其相同的链上),所述tracrrna募集第二crispr-cas核酸酶,从而将dna在第二位点处(在非靶链上)造成切口;和(e)逆转录酶,其融合至或被募集到第一crispr-cas核酸酶和/或第二crispr-cas核酸酶,从而修饰靶核酸。
16.本发明的又一方面涉及一种释放双链核酸的部分的方法,其包括:(a)将第一dna内切核酸酶靶向至核酸的第一位点;(b)在核酸的第一链中的第一位点处造成切口;(c)将
第一dna内切核酸酶或第二dna内切核酸酶靶向至第一链上的第二位点;和(d)在第一链中的第二位点处造成切口,其中在第一位点和第二位点之间的核酸的第一链的部分能够从核酸释放。
17.本发明还提供了包含本发明的核酸构建体的表达盒和/或载体,以及包含本发明的多肽、融合蛋白和/或核酸构建体的细胞。此外,本发明提供了包含本发明的核酸构建体和包含其的表达盒、载体和/或细胞的试剂盒。
18.应当注意,尽管没有相对于不同的实施方案的具体描述,但是关于一个实施方案描述的本发明的方面可以结合在不同的实施方案中。也就是说,所有实施方案和/或任何实施方案的特征可以以任何方式和/或组合进行组合。尽管最初没有提出要求以这种方式,但是申请人保留更改任何最初提交的权利要求和/或相应地提交任何新的权利要求的权利,包括能够修改任何最初提交的权利要求以从属于和/或并入任何其他权利要求的任何特征的权利。本发明的这些和其他目的和/或方面在下面阐述的说明书中详细解释。本领域普通技术人员通过阅读附图和随后的优选实施方案的详细描述将理解本发明的其他特征、优点和细节,这样的描述仅是对本发明是示例性的。
19.附图的简要说明
20.图1提供了一个示意图,其显示了从sgrna逆转录生成出dna序列并随后整合到切口位点。延伸sgrna以浅灰色显示,并与非靶链切口酶cas9(ncas9,左上)结合。sgrna的3'端与切口位点的dna互补(黑色配对线,左上)。然后,rt从dna切口的3'端聚合dna,生成具有非互补核苷酸(由大括号指示的配对线,右上)接着互补核苷酸(黑色配对线,右上)的dna序列。解离后,得到的dna具有延伸单链dna,带有3'突出端,与原始dna的序列基本相同(黑色配对线,右下),但有一些非天然核苷酸(由大括号指示的配对线,右下)。该瓣与具有5'突出端(左下)的结构处于平衡状态,其中错配的核苷酸并入dna中。
21.图2提供了减少错配修复的示意图。为了驱动平衡更有利于形成具有修饰核苷酸的最终产物(由大括号指示),将靶链(ts)切口酶靶向rt编辑泡之外的区域(闪电)。ncas9:sgrna分子可能位于编辑泡的任一侧或两侧。对靶链(虚线)造成切口表明向细胞新并入的核苷酸是错配修复和复制期间的正确核苷酸,因此有利于具有新核苷酸的最终产物。
22.图3显示了使用本发明的组合物修饰核酸的替代方法,其中在含有pam的链中引入两个切口,并且由rt引入的序列取代双切口wt序列,从而更有效地并入基因组。
23.图4是示例性效应序列的示意图,其包括切口酶(cas9(h840a))(白色),随后是接头(黑色),其后是八个重复的gcn4表位基序。
24.图5是示例性序列的示意图,其包括融合至逆转录酶mulv-5m的scfv片段(灰色),随后是鸟嘌呤核苷酸结合蛋白亚基β序列。
25.图6是示例性pegrna结构的示意图,其中启动子(hs.u6)促进间隔区的转录,随后是sgrna支架、逆转录酶模板(rt模板)和引物结合位点(pbs)。
26.图7是显示使用募集(suntag)策略或发表的pe2策略在fancf1基因座处编辑的结果的图。
27.图8是显示使用募集(suntag)策略或发表的pe2策略在dmnt1基因座处编辑的结果的图。
28.图9是显示使用募集(suntag)策略或发表的pe2策略在runx1基因座处编辑的结果
的图。
29.图10是显示使用募集(suntag)策略或发表的pe2策略在rnf2基因座处编辑的结果的图。
30.图11是通过相反链上的指导将逆转录酶募集到上游模板的策略的示意图。逆转录酶通过包含ms2茎环的二级指导被募集到pegrna。
31.图12是用于测试通过ms2环募集逆转录酶的两个靶位点的图。间隔区结合位点用箭头表示,设计的变化用方框表示。位点o2的wt序列(seq id no:77);位点o2的编辑序列(seq id no:78);位点o3的wt序列(seq id no:79);和位点o3的编辑序列(seq id no:80)。
32.图13是通过相同链上的指导将逆转录酶募集到上游模板的策略的示意图。逆转录酶通过包含ms2茎环的二级指导被募集到pegrna。
33.图14是显示在o2位点进行募集逆转录酶编辑的证据的图。编辑以浅灰色显示并由大括号指示。上行:seq id no:81;下行:seq id no:82。
34.图15是显示在o3位点进行募集逆转录酶编辑的证据的图。编辑以浅灰色显示并由大括号指示。上行:seq id no:83;中行:seq id no:84;下行:seq id no:85。
35.图16是用于烟草实验的pegrna结构的示意图。
36.图17是显示植物中先导(prime)编辑的证据的图。上行是靶向基因序列(seq id no:130),其中标注了间隔区和引物结合位点。第二行(seq id no:131)是与参考比对的扩增子测序结果,显示了靶向缺失和插入。下行(seq id no:132)显示了引物(prime)结合位点、逆转录酶模板和支架的前三个碱基,证明了缺失和插入的来源。
37.详述
38.现在将在下文中参考附图和实施例来描述本发明,其中示出了本发明的实施方案。该描述并非旨在成为可以实施本发明的所有不同方式或可以添加到本发明的所有特征的详细目录。例如,关于一个实施方案说明的特征可以并入其他实施方案中,并且关于特定实施方案说明的特征可以从该实施方案中删除。因此,本发明考虑了在本发明的一些实施方案中,可以排除或省略本文阐述的任何特征或特征组合。此外,根据本公开内容,对本文提出的各种实施方案的许多变化和添加对于本领域技术人员来说将是显而易见的,它们不违背本发明。因此,以下描述旨在说明本发明的一些特定实施方案,而不是详尽地指定其所有排列、组合和变化。
39.除非另有定义,否则本文使用的所有技术和科学术语与本发明所属领域的普通技术人员通常理解的含义相同。在本文的本发明的描述中使用的术语仅用于描述特定实施方案的目的,并不旨在限制本发明。
40.本文引用的所有出版物、专利申请、专利和其他参考文献通过引用的方式整体并入,以用于与在其中呈现参考文献的句子和/或段落相关的教导。
41.除非上下文另有说明,否则本文所述的本发明的各种特征特别旨在以任何组合形式使用。此外,本发明还考虑了在本发明的一些实施方案中,可以排除或省略本文阐述的任何特征或特征组合。为了说明,如果说明书记载组合物包含组分a、b和c,则特别意在a、b或c中的任何一个或其组合可以单独或以任何组合被省略和放弃。
42.除非上下文另有明确指示,否则如在本发明的描述和所附权利要求书中使用的,单数形式“a”、“an”和“the”旨在也包括复数形式。
43.还如本文所用,“和/或”是指并涵盖一个或多个相关列出的项目的任何和所有可能的组合,以及在解释为备选方案(“或”)时缺少组合。
44.如本文所用的术语“约”在提及诸如量或浓度等的可测量值时,意在包括规定值的
±
10%、
±
5%、
±
1%、
±
0.5%或甚至
±
0.1%的变化以及规定值。例如,“约x”,其中x是可测量值,意味着包括x以及x的
±
10%、
±
5%、
±
1%、
±
0.5%或甚至
±
0.1%的变化。本文就可测量值所提供的范围可以包括其中的任何其他范围和/或单个值。
45.如本文所用,诸如“在x和y之间”和“在约x和y之间”的短语应当被解释为包括x和y。如本文所使用的,诸如“在约x和y之间”的短语是指“在约x和约y之间”并且诸如“从约x到y”的短语是指“从约x到约y”。
46.除非在本文中另有说明,否则本文中数值范围的记载仅旨在用作单独引用落入该范围内的每个单独值的速记方法,并且每个单独值被并入说明书中,就好像它在本文中单独记载一样。例如,如果公开了范围10到15,则也公开了11、12、13和14。
47.如本文所用,术语“包括(comprise)”、“包含(comprise)”和“包含(comprising)”指定了所述特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组的存在或添加。
48.如本文所用,过渡性短语“基本上由
……
组成”是指权利要求的范围应解释为包括权利要求中记载的具体材料或步骤,以及那些不实质影响要求保护的发明的基本和新颖特征的材料或步骤。因此,当在本发明的权利要求中使用时,术语“基本上由
……
组成”并不旨在解释为等同于“包含(comprising)”。
49.如本文所用,术语“提高(increase、increasing)”、“增强(enhance、enhancing)”和“改善(improve、improving)”(及其语法变体)描述了与对照相比,至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、100%、150%、200%、300%、400%、500%或更多的提升。
50.如本文所用,术语“减少(reduce、reduced、reducing、reduction、diminish和decrease)”(及其语法变体)描述了例如与对照相比,至少约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、98%、99%或100%的减少。在特定实施方案中,减少可导致没有或基本上没有(即,微不足道的量,例如,小于约10%或甚至5%)可检测的活性或量。
[0051]“异源”或“重组”核苷酸序列是与引入它的宿主细胞不天然相关的核苷酸序列,包括天然存在的核苷酸序列的非天然存在的多个拷贝。
[0052]“天然”或“野生型”核酸、核苷酸序列、多肽或氨基酸序列是指天然存在或内源核酸、核苷酸序列、多肽或氨基酸序列。因此,例如,“野生型mrna”是在参考生物中天然存在或内源的mrna。“同源”核酸序列是与引入它的宿主细胞天然相关的核苷酸序列。
[0053]
如本文所用,术语“核酸”、“核酸分子”、“核苷酸序列”和“多核苷酸”是指线性或分支、单链或双链rna或dna或其杂合体。该术语还包括rna/dna杂合体。当合成产生双链rna时,不太常见的碱基,如肌苷、5-甲基胞嘧啶、6-甲基腺嘌呤、次黄嘌呤等也可用于反义、双链rna和核酶配对。例如,含有尿苷和胞苷的c-5丙炔类似物的多核苷酸已显示以高亲和力结合rna,并且是基因表达的有效反义抑制剂。也可以进行其他修饰,例如对磷酸二酯主链或rna核糖基团中的2'-羟基的修饰。
[0054]
如本文所用,术语“核苷酸序列”是指核苷酸的杂聚物或这些核苷酸从核酸分子的5'至3'端的序列,并且包括dna或rna分子,包括cdna、dna片段或部分、基因组dna、合成(例如化学合成)dna、质粒dna、mrna和反义rna,其中任何一种都可以是单链或双链的。术语“核苷酸序列”、“核酸”、“核酸分子”、“核酸构建体”、“重组核酸”、“寡核苷酸”和“多核苷酸”在本文中也可互换使用以指代核苷酸的杂聚物。本文提供的核酸分子和/或核苷酸序列在本文中以从5'至3'方向从左到右呈现,并使用如美国序列规则37cfr
§§
1.821-1.825和世界知识产权组织(wipo)标准st.25所示的用于表示核苷酸字符的标准代码表示。如本文所用,“5'区域”可以指多核苷酸中最接近多核苷酸5'端的区域。因此,例如,多核苷酸的5'区域中的元件可以位于从位于多核苷酸5'端的第一个核苷酸到位于多核苷酸中途的核苷酸的任何位置。如本文所用,“3'区域”可以指多核苷酸中最接近多核苷酸的3'端的区域。因此,例如,多核苷酸的3'区域中的元件可以位于从位于多核苷酸3'端的第一个核苷酸到位于多核苷酸中途的核苷酸的任何位置。
[0055]
如本文所用,术语“基因”是指能够用于产生mrna、反义rna、mirna、抗微rna反义寡脱氧核糖核苷酸(amo)等的核酸分子。基因可能或可能不能用于产生功能性蛋白质或基因产物。基因可以包括编码区和非编码区(例如,内含子、调节元件、启动子、增强子、终止序列和/或5'和3'非翻译区)。基因可以是“分离的”,其意指基本上或本质上不含通常发现的与其天然状态的核酸关联的组分的核酸。此类组分包括其他细胞材料、来自重组生产的培养基和/或用于化学合成核酸的各种化学品。
[0056]
术语“突变”是指点突变(例如,错义或无义,或导致移码的单个碱基对的插入或缺失)、插入、缺失和/或截短。当突变是氨基酸序列中的一个残基被另一个残基取代,或者是序列中一个或多个残基的缺失或插入时,突变通常通过识别原始残基接着是该残基在序列中的位置和新取代残基的身份来描述。
[0057]
如本文所用,术语“互补”或“互补性”是指多核苷酸在允许的盐和温度条件下通过碱基配对的天然结合。例如,序列“a-g-t”(从5'至3')与互补序列“t-c-a”(从3'至5')结合。两个单链分子之间的互补性可能是“部分的”,其中只有一些核苷酸结合,或者当单链分子之间存在完全互补性时,互补性可能是完全的。核酸链之间的互补程度对核酸链之间杂交的效率和强度有显著影响。
[0058]
如本文所用,“互补”可以表示与比较核苷酸序列的100%互补性,或者它可以表示小于100%的互补性(例如,“基本上互补”,诸如,约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%等的互补性)。
[0059]
核苷酸序列或多肽的“部分”或“片段”将被理解为表示相对于参考核苷酸序列或多肽长度分别减少的核苷酸序列或多肽(例如,减少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个残基(例如,核苷酸或肽)),并且包含与参考核苷酸序列或多肽相同或几乎相同(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%相同)的连续残基、基本上由其组成和/或由其组成。根据本发明的这样的核酸片段或部分可以在适当的情况下包含在它是其组成部分的更大的多核苷酸中。例如,本发明的指导核酸的重复序列可以包含野生型crispr-cas重复序列(例如,野
生型crispr-cas重复;例如,来自cas9、cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c等的crispr cas系统的重复)的一部分。
[0060]
具有同源性的不同核酸或蛋白质在本文中称为“同源物”。术语同源物包括来自相同和其他物种的同源序列以及来自相同和其他物种的直系同源序列。“同源性”是指两个或多个核酸和/或氨基酸序列之间在位置同一性(即序列相似性或同一性)百分比方面的相似性水平。同源性也指不同核酸或蛋白质之间具有相似功能特性的概念。因此,本发明的组合物和方法还包含本发明的核苷酸序列和多肽序列的同源物。如本文所用,“直系同源”是指不同物种中在物种形成过程中由共同祖先基因产生的同源核苷酸序列和/或氨基酸序列。本发明的核苷酸序列的同源物对本发明的所述核苷酸序列具有基本的序列同一性(例如,至少约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%)。
[0061]
如本文所用,“序列同一性”是指两个最佳比对的多核苷酸或多肽序列在整个组分(例如核苷酸或氨基酸)的比对窗口中不变的程度。“同一性”可以很容易地通过已知方法计算,包括但不限于以下描述的方法:computational molecular biology(lesk,a.m.,ed.)oxford university press,new york(1988);biocomputing:informatics and genome projects(smith,d.w.,ed.)academic press,new york(1993);computer analysis of sequence data,part i(griffin,a.m.,and griffin,h.g.,eds.)humana press,new jersey(1994);sequence analysis in molecular biology(von heinje,g.,ed.)academic press(1987);和sequence analysis primer(gribskov,m.and devereux,j.,eds.)stockton press,new york(1991)。
[0062]
如本文所用,术语“序列同一性百分比”或“同一性百分比”是指当两个序列最佳对齐时,与测试(“受试”)多核苷酸分子(或其互补链)相比,参考(“查询”)多核苷酸分子(或其互补链)的线性多核苷酸序列中相同核苷酸的百分比。在一些实施方案中,“同一性百分比”可以指与参考多肽相比,氨基酸序列中相同氨基酸的百分比。
[0063]
如本文所用,在两个核酸分子、核苷酸序列或蛋白质序列的情况中的短语“基本相同”或“基本同一性”是指当如使用以下序列比较算法之一或通过目测测量的比较和比对最大对应时,两个或更多个序列或子序列具有至少约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%核苷酸或氨基酸残基同一性。在本发明的一些实施方案中,基本同一性存在于本发明核苷酸序列的连续核苷酸区域上,其长度为约10个核苷酸至约20个核苷酸、约10个核苷酸至约25个核苷酸、约10个核苷酸至约30个核苷酸,约15个核苷酸至约25个核苷酸、约30个核苷酸至约40个核苷酸、约50个核苷酸至约60个核苷酸、约70个核苷酸至约80个核苷酸、约90个核苷酸至约100个核苷酸或更多核苷酸,以及其中的任何范围,直到序列的全长。在一些实施方案中,核苷酸序列可以在至少约20个核苷酸(例如,约20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40个核苷酸)上基本相同。在一些实施方案中,基本相同的核苷酸或蛋白质序列执行与其基本相同的核苷酸(或编码的蛋白质序列)基本相同的功能。
[0064]
对于序列比较,通常一个序列充当与测试序列进行比较的参考序列。当使用序列比较算法时,将测试和参考序列输入计算机,必要时指定子序列坐标,并指定序列算法程序参数。然后序列比较算法基于指定的程序参数计算测试序列相对于参考序列的序列同一性百分比。
[0065]
用于比对比较窗口的序列的最佳比对是本领域技术人员众所周知的,并且可以通过诸如smith和waterman的局部同源性算法、needleman和wunsch的同源性比对算法、pearson和lipman的相似性搜索方法以及可选地通过这些算法的计算机化实现等工具进行,例如gap、bestfit、fasta和tfasta,其作为wisconsin(accelrys inc.,san diego,ca)的一部分提供。测试序列和参考序列的比对片段的“同一性分数”是两个比对序列共有的相同组分的数量除以参考序列片段、例如整个参考序列或参考序列的较小定义部分中的组分总数。序列同一性百分比表示为同一性分数乘以100。一个或多个多核苷酸序列的比较可以是与全长多核苷酸序列或其一部分的比较,或与更长的多核苷酸序列的比较。出于本发明的目的,“同一性百分比”也可以使用用于翻译的核苷酸序列的blastx 2.0版和用于多核苷酸序列的blastn 2.0版来确定。
[0066]
当两个核苷酸序列在严格条件下相互杂交时,也可以认为这两个核苷酸序列基本上互补。在一些代表性实施方案中,被认为基本上互补的两个核苷酸序列在高度严格的条件下彼此杂交。
[0067]
在核酸杂交实验如southern和northern杂交情况下的“严格杂交条件”和“严格杂交洗涤条件”是序列依赖性的,并且在不同的环境参数下是不同的。核酸杂交的详尽指南见于tijssen laboratory techniques in biochemistry and molecular biology-hybridization with nucleic acid probes part i chapter 2“overview of principles of hybridization and the strategy of nucleic acid probe assays”elsevier,new york(1993)。通常,高度严格的杂交和洗涤条件选择为比特定序列在确定的离子强度和ph值下的热解链点(tm)低约5℃。
[0068]
tm是(在规定的离子强度和ph下)50%的靶序列与完美匹配的探针杂交的温度。选择非常严格的条件以等于特定探针的tm。在southern或northern印迹中,滤膜上具有超过100个互补残基的互补核苷酸序列杂交的严格杂交条件的一个实例是50%甲酰胺与1mg肝素在42℃下过夜进行杂交。高度严格的洗涤条件的一个实例是0.15m nacl在72℃下洗涤约15分钟。严格洗涤条件的一个实例是0.2xssc在65℃下洗涤15分钟(参见sambrook,见下文,对ssc缓冲液的描述)。通常,高严格性洗涤之前是低严格性洗涤以去除背景探针信号。对于例如超过100个核苷酸的双链体,中等严格洗涤的一个实例是1x ssc在45℃下15分钟。对于例如超过100个核苷酸的双链体的低严格洗涤的一个实例是4-6x ssc在40℃下15分钟。对于短探针(例如,约10至50个核苷酸),严格条件通常涉及在ph 7.0至8.3下小于约1.0m na离子的盐浓度,通常为约0.01至1.0m na离子浓度(或其他盐),以及温度通常至少约为30℃。添加去稳定剂如甲酰胺也可以实现严格条件。一般而言,在特定杂交测定中观察到的信噪比是不相关探针的2倍(或更高)表明检测到特异性杂交。如果它们编码的蛋白质基本相同,则在严格条件下不相互杂交的核苷酸序列仍然基本相同。例如,当使用遗传密码允许的最大密码子简并性产生核苷酸序列的拷贝时,可能会发生这种情况。
[0069]
本发明的多核苷酸和/或重组核酸构建体可以针对表达进行密码子优化。在一些
实施方案中,本发明的多核苷酸、核酸构建体、表达盒和/或载体(例如,包含/编码dna结合结构域、dna内切核酸酶、逆转录酶、瓣内切核酸酶和/或类似的)针对在生物(例如,动物、植物(例如,在特定植物物种中)、真菌、古菌或细菌)中表达进行密码子优化。在一些实施方案中,本发明的密码子优化的核酸构建体、多核苷酸、表达盒和/或载体与没有经过密码子优化的参考核酸构建体、多核苷酸、表达盒和/或载体具有约70%至约99.9%(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、99.9%或100%)的同一性或更高的同一性。
[0070]
在本文所述的任何实施方案中,本发明的多核苷酸或核酸构建体可以与多种启动子和/或其他调节元件可操作地关联以在生物或其细胞(例如,植物和/或植物细胞)中表达。因此,在一些实施方案中,本发明的多核苷酸或核酸构建体可以还包含可操作地连接至一种或多种核苷酸序列的一种或多种启动子、内含子、增强子和/或终止子。在一些实施方案中,启动子可以与内含子(例如,ubi1启动子和内含子)可操作地关联。在一些实施方案中,与内含子关联的启动子可以称为“启动子区”(例如,ubi1启动子和内含子)。
[0071]
如本文所用的关于多核苷酸的“可操作地连接”或“可操作地关联”是指所示元件在功能上彼此相关,并且通常也是物理相关的。因此,如本文所用,术语“可操作地连接”或“可操作地关联”是指单个核酸分子上功能性关联的核苷酸序列。因此,可操作地连接至第二核苷酸序列的第一核苷酸序列是指当第一核苷酸序列与第二核苷酸序列处于功能关系时的情况。例如,如果启动子影响所述核苷酸序列的转录或表达,则启动子与核苷酸序列可操作地关联。本领域技术人员将理解,控制序列(例如,启动子)不需要与其可操作地关联的核苷酸序列连续,只要控制序列的功能是指导其表达即可。因此,例如,插入的未翻译但转录的核酸序列可以存在于启动子和核苷酸序列之间,并且启动子仍然可以被认为是“可操作地连接”至核苷酸序列。
[0072]
如本文所用,关于多肽的术语“连接”或“融合”是指一种多肽与另一种多肽的附接。多肽可以直接(例如,通过肽键)或通过接头(例如,肽接头)连接(例如,融合)至另一多肽(在n-末端或c-末端)。
[0073]
就多肽而言的术语“接头”是本领域公认的并且是指连接两个分子或部分的化学基团或分子,例如融合蛋白的两个结构域,例如dna结合多肽(例如,dna结合结构域)和肽标签(例如,肽重复单元)的融合蛋白,和/或包含逆转录酶和与肽标签结合的亲和多肽的融合蛋白,包含dna内切核酸酶多肽(例如,dna结合结构域)和肽标签的融合蛋白和/或包含逆转录酶和与肽标签结合的亲和多肽的融合蛋白。接头可以由单个连接分子(例如,单个氨基酸)组成或可以包含多于一个的连接分子。在一些实施方案中,接头可以是有机分子、基团、聚合物或化学部分,例如二价有机部分。在一些实施方案中,接头可以是氨基酸或者它可以是肽。在一些实施方案中,接头是肽。
[0074]
在一些实施方案中,可用于本发明的肽接头的长度可为约2个至约100个或更多个氨基酸,例如长度为约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、
1154(2010))。在一些实施方案中,可用于本发明的启动子是rna聚合酶ii(pol ii)启动子。在一些实施方案中,来自玉米(zea mays)的u6启动子或7sl启动子可用于本发明的构建体。在一些实施方案中,来自玉米的u6c启动子和/或7sl启动子可用于驱动指导核酸的表达。在一些实施方案中,来自大豆(glycine max)的u6c启动子、u6i启动子和/或7sl启动子可用于本发明的构建体。在一些实施方案中,来自大豆的u6c启动子、u6i启动子和/或7sl启动子可用于驱动指导核酸的表达。
[0080]
可用于植物的组成型启动子的实例包括但不限于:夜香树(cestrum)病毒启动子(cmp)(美国专利号7,166,770)、水稻肌动蛋白1启动子(wang et al.(1992)mol.cell.biol.12:3399-3406;以及美国专利号5,641,876)、camv 35s启动子(odell et al.(1985)nature 313:810-812)、camv 19s启动子(lawton et al.(1987)plant mol.biol.9:315-324)、nos启动子(ebert et al.(1987)proc.natl.acad.sci usa 84:5745-5749)、adh启动子(walker et al.(1987)proc.natl.acad.sci.usa 84:6624-6629)、蔗糖合酶启动子(yang&russell(1990)proc.natl.acad.sci.usa 87:4144-4148)和泛素启动子。源自泛素的组成型启动子在许多细胞类型中积累。泛素启动子已经从几种植物物种中克隆出来用于转基因植物,例如向日葵(binet et al.,1991.plant science 79:87-94)、玉米(christensen et al.,1989.plant molec.biol.12:619-632)和拟南芥(norris et al.1993.plant molec.biol.21:895-906)。玉米泛素启动子(ubip)已在转基因单子叶植物系统中开发,并且其序列和构建用于单子叶植物转化的载体在欧洲专利公开ep0342926中公开。泛素启动子适用于本发明的核苷酸序列在转基因植物、尤其是单子叶植物中表达。此外,mcelroy等人描述的启动子表达盒(mol.gen.genet.231:150-160(1991))可以容易地被修饰以表达本发明的核苷酸序列并且特别适用于单子叶植物宿主。
[0081]
在一些实施方案中,组织特异性/组织优选启动子可用于在植物细胞中表达异源多核苷酸。组织特异性或优选表达模式包括但不限于绿色组织特异性或优选、根特异性或优选、茎特异性或优选、花特异性或优选或者花粉特异性或优选。适合在绿色组织中表达的启动子包括许多调节参与光合作用的基因,其中许多已从单子叶植物和双子叶植物中克隆。在一个实施方案中,可用于本发明的启动子是来自磷酸烯醇羧化酶基因的玉米pepc启动子(hudspeth&grula,plant molec.biol.12:579-589(1989))。组织特异性启动子的非限制性实例包括与编码种子贮藏蛋白(例如β-伴大豆球蛋白、十字花科蛋白、napin和菜豆蛋白)、玉米醇溶蛋白或油体蛋白(例如油质蛋白)或涉及脂肪酸生物合成的蛋白质(包括酰基载体蛋白、硬脂酰-acp去饱和酶和脂肪酸去饱和酶(fad 2-1))的基因相关的启动子,以及在胚胎发育过程中表达的其他核酸(例如bce4,参见例如,kridl et al.(1991)seed sci.res.1:209-219;以及ep专利号255378)。用于在植物、特别是玉米中表达本发明的核苷酸序列的组织特异性或组织优先启动子包括但不限于直接在根、髓、叶或花粉中表达的启动子。此类启动子公开于例如wo 93/07278中,其通过引用整体并入本文。可用于本发明的组织特异性或组织优选启动子的其他非限制性实例是美国专利6,040,504中公开的棉花rubisco启动子;美国专利5,604,121中公开的水稻蔗糖合酶启动子;de framond(febs 290:103-106(1991);ciba-geigy的欧洲专利ep0452269)描述的根特异性启动子;在美国专利5,625,136(ciba-geigy)中描述的茎特异性启动子,其驱动玉米trpa基因的表达;wo 01/73087中公开的夜香树黄卷叶病毒启动子;和花粉特异性或优选的启动子,包括但不限于来
自水稻的prooslps10和prooslps11(nguyen et al.plant biotechnol.reports 9(5):297-306(2015))、来自玉米的zmstk2_usp(wang et al.genome 60(6):485-495(2017))、来自番茄的lat52和lat59(twell et al.development 109(3):705-713(1990))、zm13(美国专利号10,421,972)、来自拟南芥的pla
2-δ启动子(美国专利号7,141,424)和/或来自玉米的zmc5启动子(国际pct公开号wo1999/042587。
[0082]
植物组织特异性/组织优选启动子的其他实例包括但不限于根毛特异性顺式元件(rhe)(kim et al.the plant cell 18:2958-2970(2006))、根特异性启动子rcc3(jeong et al.plant physiol.153:185-197(2010))和rb7(美国专利号5459252)、凝集素启动子(lindstrom et al.(1990)der.genet.11:160-167;和vodkin(1983)prog.clin.biol.res.138:87-98)、玉米醇脱氢酶1启动子(dennis et al.(1984)nucleic acids res.12:3983-4000)、s-腺苷-l-甲硫氨酸合成酶(sams)(vander mijnsbrugge et al.(1996)plant and cell physiology,37(8):1108-1115)、玉米光收获复合启动子(bansal et al.(1992)proc.natl.acad.sci.usa 89:3654-3658)、玉米热休克蛋白启动子(o'dell et al.(1985)embo j.5:451-458;和rochester et al.(1986)embo j.5:451-458)、豌豆小亚基rubp羧化酶启动子(cashmore,“nuclear genes encoding the small subunit of ribulose-l,5-bisphosphate carboxylase”pp.29-39于:genetic engineering of plants(hollaender ed.,plenum press 1983;和poulsen et al.(1986)mol.gen.genet.205:193-200)、ti质粒甘露碱合酶启动子(langridge et al.(1989)proc.natl.acad.sci.usa 86:3219-3223)、ti质粒胭脂碱合酶启动子(langridge et al.(1989),同上)、矮牵牛查尔酮异构酶启动子(van tunen et al.(1988)embo j.7:1257-1263)、豆甘氨酸富集蛋白1启动子(keller et al.(1989)genes dev.3:1639-1646)、截短的camv 35s启动子(o'dell et al.(1985)nature 313:810-812)、马铃薯patatin启动子(wenzler et al.(1989)plant mol.biol.13:347-354)、根细胞启动子(yamamoto et al.(1990)nucleic acids res.18:7449)、玉米的玉米醇溶蛋白启动子(kriz et al.(1987)mol.gen.genet.207:90-98;langridge et al.(1983)cell 34:1015-1022;reina et al.(1990)nucleic acids res.18:6425;reina et al.(1990)nucleic acids res.18:7449;和wandelt et al.(1989)nucleic acids res.17:2354)、球蛋白-1启动子(belanger et al.(1991)genetics 129:863-872)、α-微管蛋白cab启动子(sullivan et al.(1989)mol.gen.genet.215:431-440)、pepcase启动子(hudspeth&grula(1989)plant mol.biol.12:579-589)、r基因复合物相关启动子(chandler et al.(1989)plant cell 1:1175-1183)和查耳酮合酶启动子(franken et al.(1991)embo j.10:2605-2612)。
[0083]
对种子特异性表达有用的启动子是豌豆的豌豆球蛋白启动子(czako et al.(1992)mol.gen.genet.235:33-40)以及美国专利号5,625,136中公开的种子特异性启动子。对在成熟叶中的表达有用的启动子是在衰老开始时被转换的启动子,例如来自拟南芥的sag启动子(gan et al.(1995)science 270:1986-1988)。
[0084]
此外,可以使用在叶绿体中起作用的启动子。此类启动子的非限制性实例包括噬菌体t3基因9的5'utr和美国专利号7,579,516中公开的其他启动子。可用于本发明的其他启动子包括但不限于s-e9小亚基rubp羧化酶启动子和kunitz胰蛋白酶抑制剂基因启动子(kti3)。
[0085]
可用于本发明的其他调节元件包括但不限于内含子、增强子、终止序列和/或5'和3'非翻译区。
[0086]
可用于本发明的内含子可以是在植物中鉴定和分离的内含子,然后插入到表达盒中以用于植物的转化。如本领域技术人员将理解的,内含子可包含自我切除所需的序列,并以与阅读框同框的方式并入核酸构建体/表达盒中。内含子可用作间隔区以分隔一个核酸构建体中的多个蛋白质编码序列,或者内含子可用于一个蛋白质编码序列内以例如稳定mrna。如果它们在蛋白质编码序列中使用,它们将被“以与阅读框同框的方式”插入并包含切除位点。内含子也可以与启动子关联以改善或修饰表达。作为一个实例,可用于本发明的启动子/内含子组合包括但不限于玉米ubi1启动子和内含子的组合。
[0087]
可用于本发明的内含子的非限制性实例包括来自以下基因的内含子:adhi基因(例如,adh1-s内含子1、2和6)、泛素基因(ubi1)、rubisco小亚基(rbcs)基因、rubisco大亚基(rbcl)基因、肌动蛋白基因(例如,actin-1内含子)、丙酮酸脱氢酶激酶基因(pdk)、硝酸还原酶基因(nr)、双拷贝碳酸酐酶基因1(tdca1)、psba基因、atpa基因或其任意组合。
[0088]
在一些实施方案中,本发明的多核苷酸和/或核酸构建体可以是“表达盒”或可以包含在表达盒内。如本文所用,“表达盒”是指重组核酸分子,其包含例如本发明的核酸构建体(例如,dna结合多肽或结构域(例如,crispr-cas核酸酶、转录激活因子样效应(tale)蛋白结构域或多肽和/或锌指蛋白结构域或多肽)、内切核酸酶多肽或结构域(例如,crispr-cas核酸酶和/或fok1内切核酸酶)、逆转录酶多肽或结构域和/或瓣内切核酸酶多肽或结构域(例如,fen))),其中核酸构建体与至少一个或多个控制序列(例如,启动子、终止子等)可操作地关联。因此,本发明的一些实施方案提供了被设计用于表达例如本发明的核酸构建体(例如,本发明的编码dna结合多肽或结构域、内切核酸酶多肽或结构域、逆转录酶多肽或结构域、瓣内切核酸酶多肽或结构域和/或核酸修饰多肽或结构域的核酸构建体)的表达盒。当表达盒包含多于一个多核苷酸时,所述多核苷酸可以可操作地连接至驱动所有的表达的单个启动子,或者多核苷酸或多核苷酸可以可操作地连接至一个或多个分开的启动子(例如,三个多核苷酸可以由一个、两个或三个启动子的任意组合驱动)。当使用两个或更多个分开的启动子时,启动子可以是相同的启动子或者它们可以是不同的启动子。因此,包含在表达盒中的编码dna结合多肽或结构域的多核苷酸、编码内切核酸酶多肽或结构域的多核苷酸、编码逆转录酶或结构域的多核苷酸、编码瓣内切核酸酶多肽或结构域的多核苷酸和/或编码核酸修饰多肽或结构域的多核苷酸可以各自可操作地连接至分开的启动子,或者它们可以可操作地连接至任意组合的两个或更多个启动子。
[0089]
在一些实施方案中,表达盒以及包含在其中的多核苷酸可针对在生物(例如,动物、植物、细菌等)中的表达进行优化。
[0090]
包含本发明的核酸构建体的表达盒可以是嵌合的,这意味着它的至少一种组分相对于它的至少一种其它组分(例如,来自宿主生物的启动子可操作地连接至待在宿主生物中表达的感兴趣的多核苷酸,其中感兴趣的多核苷酸来自与宿主不同的生物或通常不与该启动子关联)是异源的。表达盒也可以是天然存在的但已经以可用于异源表达的重组形式获得的表达盒。
[0091]
表达盒可以任选地包括在所选宿主细胞中起作用的转录和/或翻译终止区(即终止区)和/或增强子区。各种转录终止子和增强子是本领域已知的并且可用于表达盒。转录
终止子负责转录的终止和正确的mrna多聚腺苷酸化。终止区和/或增强子区对于转录起始区可以是天然的,对于编码dna结合多肽的基因、编码内切核酸酶多肽的基因、编码逆转录酶的基因、编码瓣内切核酸酶的基因和/或编码核酸修饰多肽核酸酶的基因可以是天然的,对于宿主细胞可以是天然的,或对于另一来源可以是天然的(例如,对于该启动子、对于编码dna结合多肽的基因、对于编码内切核酸酶多肽的基因、对于编码逆转录酶的基因、对于编码瓣内切核酸酶的基因、对于编码核酸修饰多肽核酸酶的基因、对于宿主细胞或它们的任何组合是外源的或异源的)。
[0092]
本发明的表达盒还可包括编码可选择标记的多核苷酸,其可用于选择转化的宿主细胞。如本文所用,“可选择标记”是指多核苷酸序列,其在表达时赋予表达该标记的宿主细胞不同的表型并因此允许将此类转化的细胞与不具有该标记的细胞区分开来。这样的多核苷酸序列可以编码可选择标记或可筛选标记,这取决于标记是否赋予可以通过化学手段选择的性状,例如通过使用选择剂(例如抗生素等),或者取决于标记是否只是一种可以通过观察或测试来识别的性状,例如通过筛选(例如荧光)。合适的可选择标记的许多实例是本领域已知的并且可以用于本文所述的表达盒中。
[0093]
本文所述的表达盒、核酸分子/构建体和多核苷酸序列可以与载体结合使用。术语“载体”是指用于将一种核酸(或多种核酸)转移、递送或引入细胞中的组合物。载体包含核酸构建体,其包含待转移、递送或引入的核苷酸序列。用于宿主生物转化的载体在本领域是众所周知的。一般类型的载体的非限制性实例包括可以或者可能无法自我传染或移动的双链或单链线性或环状形式的病毒载体、质粒载体、噬菌体(phage)载体、噬菌粒载体、黏粒载体、f黏粒载体、噬菌体(bacteriophage)、人工染色体、小环或农杆菌双元载体。在一些实施方案中,病毒载体可以包括但不限于逆转录病毒、慢病毒、腺病毒、腺相关病毒或单纯疱疹病毒载体。本文定义的载体能够通过整合到细胞基因组中或存在于染色体外(例如具有复制起点的自主复制质粒)来转化原核或真核宿主。还包括穿梭载体,其意指能够在两种不同宿主生物中天然或通过设计复制的dna媒介物,所述宿主生物可以选自放线菌和相关物种、细菌和真核生物(例如高等植物、哺乳动物、酵母或真菌细胞)。在一些实施方案中,载体中的核酸在宿主细胞中转录的合适启动子或其他调节元件的控制下并且可操作地连接至宿主细胞中转录的合适启动子或其他调节元件。载体可以是在多个宿主中起作用的双功能表达载体。在基因组dna的情况下,这可以包含它自己的启动子和/或其他调节元件,而在cdna的情况下,这可以在合适的启动子和/或其他调节元件的控制下用于在宿主细胞中表达。因此,本发明的核酸构建体或多核苷酸和/或包含它们的表达盒可以包含在如本文所述和如本领域已知的载体中。
[0094]
如本文所用,“接触(contact、contacting、contacted)”及其语法变体是指将所需反应的组分放在适合进行所需反应的条件下(例如,转化、转录控制、基因组编辑、造成切口和/或切割)。作为一个实例,靶核酸可以与核酸结合结构域(例如,dna结合结构域诸如序列特异性dna结合蛋白(例如多核苷酸指导的内切核酸酶、crispr-cas效应蛋白(例如crispr-cas内切核酸酶)、锌指核酸酶、转录激活因子样效应核酸酶(talen)和/或argonaute蛋白)以及逆转录酶或编码其的核酸构建体在这样的条件下接触,由此核酸结合结构域(例如,crispr-cas核酸酶)和逆转录酶被表达并且核酸结合结构域与靶核酸结合,并且逆转录酶或者融合至核酸结合结构域或者被募集到核酸结合结构域(例如,通过,融合至核酸结合结
构域的肽标签(例如,肽重复单元)和融合至逆转录酶的亲和标签),(并且因此逆转录酶位于靶核酸附近),从而修饰靶核酸。在一些实施方案中,逆转录酶和核酸结合结构域(例如,crispr-cas内切核酸酶)定位于靶核酸,任选地通过共价和/或非共价相互作用定位于靶核酸。
[0095]
如本文所用,关于靶核酸的“修饰(modifying或modification)”包括编辑(例如,突变)、共价修饰、交换/取代核酸/核苷酸碱基、缺失、切割、造成切口和/或转录控制靶核酸。在一些实施方案中,修饰可以包括任何大小的插入缺失和/或任何类型的单碱基改变(snp)。
[0096]
如本文所用,“募集(recruit、recruiting或recruitment)”是指使用蛋白质-蛋白质相互作用、rna-蛋白质相互作用和/或化学相互作用将一个或多个多肽或多核苷酸吸引至另一多肽或多核苷酸(例如,至基因组中的特定位置)。蛋白质-蛋白质相互作用可以包括但不限于肽标签(表位、多聚化表位)和相应的亲和多肽、rna募集基序和相应的亲和多肽和/或化学相互作用。可用于募集目的的多肽和多核苷酸的化学相互作用的实例可包括但不限于雷帕霉素诱导的frb-fkbp二聚化;生物素-链霉抗生物素蛋白相互作用;snap标签(hussain et al.curr pharm des.19(30):5437-42(2013));halo标签(los et al.acs chem biol.3(6):373-82(2008));clip标签(gautier et al.chemistry&biology 15:128

136(2008));化合物诱导的dmra-dmrc异二聚体(tak et al.nat methods 14(12):1163

1166(2017));双功能配体(两种蛋白质结合化学物质融合在一起(voβet al.curr opin chemical biology 28:194-201(2015))(例如,二氢叶酸还原酶(dhfr)(kopyteck et al.cell cehm biol 7(5):313-321(2000))。
[0097]
在感兴趣的多核苷酸的情况下,“引入(introducing、introduce、introduced)”(及其语法变体)是指将感兴趣的核苷酸序列(例如,多核苷酸、核酸构建体和/或指导核酸)以使核苷酸序列进入细胞内部的方式呈递至宿主生物或所述生物的细胞(例如,宿主细胞;例如,植物细胞)。因此,例如,可以将编码dna结合结构域、dna内切核酸酶和/或逆转录酶的本发明的核酸构建体引入生物的细胞中,从而用dna结合结构域、dna内切核酸酶和/或逆转录酶转化细胞。
[0098]
术语“转化”或“转染”可以互换使用,并且如本文所用,是指将异源核酸引入细胞。细胞的转化可以是稳定的或短暂的。因此,在一些实施方案中,宿主细胞或宿主生物可以用本发明的多核苷酸/核酸分子稳定转化。在一些实施方案中,宿主细胞或宿主生物可以用本发明的核酸构建体瞬时转化。
[0099]
在多核苷酸的上下文中,“瞬时转化”是指多核苷酸被引入细胞中并且不整合到细胞的基因组中。
[0100]
在引入细胞中的多核苷酸的上下文中,“稳定地引入(stably introducing或stably introduced)”意指引入的多核苷酸被稳定地并入细胞的基因组中,因此细胞被多核苷酸稳定地转化。
[0101]
如本文所用,“稳定的转化”或“稳定转化”是指将核酸分子引入细胞并整合到细胞的基因组中。因此,整合的核酸分子能够被其后代,更具体地,被多个连续世代的后代遗传。如本文所用,“基因组”包括核基因组和质体基因组,因此包括将核酸整合到例如叶绿体或线粒体基因组中。如本文所用,稳定转化还可以指在染色体外维持的转基因,例如,作为微
染色体或质粒。
[0102]
瞬时转化可以通过例如酶联免疫吸附测定(elisa)或蛋白质印迹来检测,其能够检测由引入生物的一种或多种转基因编码的肽或多肽的存在。细胞的稳定转化可以通过例如细胞的基因组dna与核酸序列的southern印迹杂交测定来检测,所述核酸序列与引入生物(例如植物)中的转基因的核苷酸序列特异性杂交。细胞的稳定转化可以通过例如细胞的rna与核酸序列的northern印迹杂交测定来检测,所述核酸序列与引入宿主生物的转基因的核苷酸序列特异性杂交。细胞的稳定转化也可以通过例如聚合酶链式反应(pcr)或本领域众所周知的其他扩增反应来检测,使用与转基因的靶序列杂交的特异性引物序列,导致转基因序列的扩增,可以根据标准方法检测转基因序列。也可以通过本领域众所周知的直接测序和/或杂交方案检测转化。
[0103]
因此,在一些实施方案中,本发明的核苷酸序列、多核苷酸、核酸构建体和/或表达盒可以瞬时表达和/或它们可以稳定地并入宿主生物的基因组中。因此,在一些实施方案中,本发明的核酸构建体(例如,一种或多种编码dna结合多肽或结构域、内切核酸酶多肽或结构域、逆转录酶多肽或结构域、瓣内切核酸酶多肽或结构域和/或核酸修饰多肽或结构域的表达盒)可以将指导核酸瞬时引入细胞中,因此,细胞中不保留dna。
[0104]
可以通过本领域技术人员已知的任何方法将本发明的核酸构建体引入细胞中。在本发明的一些实施方案中,细胞的转化包括细胞核转化。在其他实施方案中,细胞的转化包括质体转化(例如,叶绿体转化)。在更进一步的实施方案中,可以通过常规育种技术将本发明的重组核酸构建体引入细胞中。
[0105]
用于转化真核生物和原核生物的程序在本领域中是众所周知的并且是常规的并且在整个文献中都有描述(参见例如jiang et al.2013.nat.biotechnol.31:233-239;ran et al.nature protocols 8:2281

2308(2013))。
[0106]
因此,可以以本领域众所周知的许多方式将核苷酸序列引入宿主生物或其细胞中。本发明的方法不依赖于将一种或多种核苷酸序列引入生物的特定方法,仅依赖于它们能够进入生物的至少一个细胞的内部。在待引入多于一个核苷酸序列的情况下,它们可以组装为单个核酸构建体的一部分,或作为分开的核酸构建体,并且可以位于相同或不同的核酸构建体上。因此,核苷酸序列可以在单个转化事件中和/或在分开的转化事件中被引入感兴趣的细胞,或者,可选地,在相关的情况下,核苷酸序列可以被并入植物中,例如,作为育种方案的一部分。
[0107]
碱基编辑已被证明是将胞嘧啶和腺嘌呤残基分别改变为胸腺嘧啶和鸟嘌呤的有效方法。这些工具虽然功能强大,但也有一些限制,例如旁观者碱基、小碱基编辑窗口和有限的pam。
[0108]
要在细胞中执行精确的模板化编辑,有几个基本步骤,每个步骤都有速率限制,由于效率低,这些速率限制一起会严重阻碍有效执行编辑的能力。例如,一个步骤需要诱导细胞在靶位点启动修复事件。这通常通过由外源提供的序列特异性核酸酶或切口酶引起双链断裂(dsb)或切口来执行。另一个步骤需要用于修复的同源模板的局部可用性。这一步骤需要模板在dsb有能力投入模板化编辑路径时恰好位于dsb附近。特别是,这一步骤被广泛认为是现有编辑技术的速率限制步骤。进一步的步骤是将模板中的序列有效地并入到断裂或有切口的靶中。在本发明之前,这一步骤通常由细胞的内源性dna修复酶提供。这一步骤可
能效率低且非常难以操作。本发明通过以协调方式共同定位执行上述步骤所需的功能,绕过了模板化编辑过程效率的许多主要障碍。
[0109]
图1显示了使用本发明的方法和构建体从sgrna的逆转录和随后整合到切口位点中产生dna序列。延伸sgrna以浅灰色显示,并与非靶链切口酶cas9(ncas9,左上)(例如,结合结构域和dne内切核酸酶结构域(例如,h840a))结合。如本文更详细描述的,ncas9可以通过例如肽与逆转录酶(rt)共价连接,或者可以将rt募集到ncas9(例如,通过使用本文所述的肽重复单元基序/与肽重复单元结合的亲和多肽),在这种情况下可以募集多种逆转录酶蛋白(rtn)。sgrna的3'端与切口位点的dna互补(黑色配对线,左上)。然后rt从dna切口的3'端聚合dna,生成具有不互补核苷酸的dna序列(由大括号指示的配对线,右上),然后是互补核苷酸(黑色配对线,右上)。解离后,得到的dna有一个延伸的单链dna,带有3'突出端,与原始dna的序列基本相同(黑色配对线,右下),但有一些非天然核苷酸(由大括号指示的配对线,右下)。该瓣与具有5'突出端(左下)的结构处于平衡状态,其中错配的核苷酸并入dna中。这种平衡更多地取决于右侧的有利完美配对,但可以通过各种方式减少可以被驱动,包括例如将靶链造成切口。左边的结构会被参与dna滞后链合成的细胞瓣内切核酸酶优先切割,这些酶在哺乳动物和植物细胞之间高度保守(智人(homo sapiens)fen1的氨基酸序列与玉米和大豆fen1均超过50%相同)。因此,可以引入瓣内切核酸酶以在包含非天然/错配核苷酸的3'瓣的方向上驱动平衡。
[0110]
此外,在本发明的方法中,如图2所示,为了减少错配修复和驱动平衡更有利于形成具有修饰的核苷酸的最终产物(由大括号指示),可以靶向靶链(ts)切口酶(例如,cas9-d10a)到rt编辑泡之外的区域(闪电)。ncas9:sgrna分子可能位于编辑泡的任一侧或两侧上。将靶链(虚线)造成切口表明,新并入细胞的核苷酸是错配修复和复制过程中的正确核苷酸,因此有利于具有新的核苷酸的最终产物。
[0111]
逆转录酶(rt)酶的变体会对编辑系统的温度敏感性和持续合成能力产生显著影响。rt的自然和合理和非合理工程改造(即定向进化)变体可用于优化植物优选温度下的活性和优化持续合成能力谱。
[0112]
与rt酶融合的蛋白质结构域可对编辑系统的温度敏感性和持续合成能力产生显著影响。通过与单链rna结合域(rbd)的融合,可以改善rt酶的温度敏感性、持续合成能力和模板亲和力。这些rbd可能具有序列特异性、非特异性或序列偏好。一系列亲和力分布可能有利于在不同的细胞和体外环境中进行编辑。通过增大或减小rbd的大小,可以对rbd的特异性和结合自由能进行修饰,以识别更多或更少的核苷酸。多个rbd导致蛋白质的亲和力分布是单个rbd的组合。向rt酶添加一个或多个rbd可导致亲和力提高、序列特异性提高或降低,和/或促进协同性。
[0113]
在逆转录酶将该编辑整合到基因组中后,新合成的编辑序列和它打算替换的原始wt序列之间存在序列冗余。这会导致靶位点处出现5'或3'瓣,其必须由细胞修复。平衡存在这两种状态。结合能有利于3'瓣,因为当wt序列与其互补序列配对时,比编辑链与其互补序列配对时有更多的碱基对可用。这不利于有效编辑,因为3'瓣的处理(去除)会去除编辑的残基并将靶恢复为wt序列。然而,细胞瓣内切核酸酶如fen1能够有效地处理5'瓣。因此,不依赖于细胞天然的5'瓣内切核酸酶的功能,在本发明的一些实施方案中,可以提高在靶处的瓣内切核酸酶的浓度以进一步有利于所需的平衡结果(去除在5'瓣中的wt序列,以便编
辑的序列在靶位点稳定并入)。这可以通过将5'瓣内切核酸酶作为游离蛋白在细胞中过表达来实现。或者,fen可以通过与crispr复合物关联主动募集到靶位点,所述关联通过直接蛋白质融合或通过非共价募集,例如与肽标签(例如,肽重复单元)和亲和多肽对(例如,suntag抗体/表位对)。
[0114]
因此,在一些实施方案中,提供了一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)dna结合结构域(例如,第一dna结合结构域);(b)dna内切核酸酶(例如,第一dna内切核酸酶);和(c)逆转录酶(例如第一逆转录酶),从而修饰靶核酸。在一些实施方案中,(a)dna结合结构域;(b)dna核酸内切酶;和(c)逆转录酶包含在复合物中。在一些实施方案中,dna结合蛋白是dna结合融合蛋白,其包含融合(连接)至肽标签(例如肽重复单元、表位或多聚化表位)的dna结合蛋白结构域,和/或,dna内切核酸酶是dna内切核酸酶融合蛋白,其包含融合(连接)到肽标签(例如,肽重复单元、表位或多聚化表位)的dna内切核酸酶结构域,并且逆转录酶是逆转录酶融合蛋白,其包含融合(例如,连接)至与肽标签结合的亲和多肽的逆转录酶结构域,任选地其中靶核酸与两种或更多种逆转录酶融合蛋白接触。
[0115]
在一些实施方案中,dna结合结构域可以是crispr-cas核酸酶结构域、转录激活因子样效应(tale)蛋白结构域和/或锌指蛋白结构域。在一些实施方案中,dna内切核酸酶可以是crispr-cas核酸内切酶和/或fok1内切核酸酶。在一些实施方案中,dna结合结构域(a)和/或dna内切核酸酶(b)可以包含在crispr-cas核酸酶中。在一些实施方案中,crispr-cas核酸酶是cas9切口酶(ncas9)。在一些实施方案中,dna结合结构域可以是crispr-cas核酸酶,其包含在一个或多个核酸酶活性位点中(例如,在ruvc结构域中、在hnh结构域中)的突变,(例如,失活的或deadcas(dcas)),任选地dcas9或dcas12a。在一些实施方案中,dna内切核酸酶是fok1内切核酸酶。
[0116]
在一些实施方案中,本发明的方法还可包括使靶核酸与延伸指导核酸(例如,pegrna)接触,其中延伸指导核酸包含延伸部分,延伸部分包含引物结合位点和逆转录酶模板,其中逆转录酶模板包含待并入靶核酸中的编辑,任选地其中延伸指导核酸包含在表达盒中,任选地其中延伸指导核酸可操作地连接至pol ii启动子。
[0117]
在一些实施方案中,延伸指导rna从5'-3'可包含间隔区序列、重复序列和延伸部分,延伸部分从5'至3'包含逆转录酶模板和引物结合位点。在一些实施方案中,延伸指导rna从5'-3'可包含间隔区序列、重复序列和延伸部分,延伸部分从5'至3'包含引物结合位点和逆转录酶模板。在一些实施方案中,延伸指导rna从5'-3'可包含延伸部分、间隔区序列和重复序列,其中延伸部分从5'至3'包含逆转录酶模板和引物结合位点。在一些实施方案中,延伸指导rna从5'-3'可包含、延伸部分、间隔区序列和重复序列,其中延伸部分从5'至3'包含引物结合位点和逆转录酶模板。
[0118]
在一些实施方案中,延伸指导核酸可以连接至rna募集基序,并且逆转录酶可以是逆转录酶融合蛋白,其包含融合(连接)至与rna募集基序结合的亲和多肽的逆转录酶结构域,任选地,其中靶核酸与两种或更多种逆转录酶融合蛋白接触。在一些实施方案中,可以通过rna募集来募集逆转录酶,这可以将逆转录酶引导至延伸指导核酸上的确切模板位置。在一些实施方案中,延伸指导核酸包含肽标签(例如,蛋白质募集支架,例如但不限于ms2噬菌体操纵子茎环、pp7噬菌体操纵子茎环或sfmu噬菌体com茎环)可用于募集逆转录酶,因为
逆转录酶包含与肽标签相对应的亲和多肽(例如,蛋白质募集结构域,例如但不限于ms2包被蛋白(mcp)多肽、pp7包被蛋白(pcp)多肽或com rna结合蛋白多肽)。
[0119]
根据一些实施方案,延伸指导核酸(例如,pegrna)可以具有如anzalone et al.,nature,2019dec;576(7785):149

157中所述的结构和/或进行设计。在一些实施方案中,延伸指导核酸包含任选地具有1、2、3、4或5至6、7、8、9、10、11、12、13、14或15个核苷酸的序列的引物结合位点(pbs)和任选地具有65个或更多核苷酸的序列的逆转录酶模板(rt模板)序列。在一些实施方案中,延伸指导核酸的pbs具有少于15个核苷酸的序列并且具有1、2、3、4、5、6、7、8、9、10、11、12、13或14个核苷酸的序列(例如,长度为5或6个核苷酸的序列)。rt模板序列可以在5'至3'方向上在pbs序列之后。在一些实施方案中,延伸指导核酸的rt模板序列具有大于65个核苷酸的长度,并且可以包含相对于靶位点(例如,靶核酸)约50个或更多的异源性核苷酸,然后是相对于靶位点约15个或更多的同源性核苷酸。在一些实施方案中,延伸指导核酸的rt模板序列在pbs序列之后并且rt模板序列具有大于65个核苷酸的长度,其中该序列包括相对于靶位点超过50个的异源性核苷酸,然后是相对于靶位点超过15个的同源性核苷酸。因此,在一些实施方案中,当延伸指导核酸被逆转录时,所得新转录的序列可以与靶位点的无切口链杂交和/或被配置为与靶位点的无切口链杂交,从而可以产生具有大插入的异源双链dna进入新合成的链。在修复这种错配的dna后,得到的修复后的dna可能包含大量的dna序列插入(例如,大于50个核苷酸)。在一些实施方案中,该方法可以提供大量的dna序列缺失(例如,大于50个核苷酸)。在一些实施方案中,pbs和与靶位点同源的15个或更多个核苷酸可包含同源臂,其可用于任选地使用同源定向修复将异源插入靶位点。插入的dna可以对应于任何功能性dna序列,例如但不限于:功能性转基因;插入基因的dna片段,当基因转录时,会产生足以通过rnai使同源基因沉默的发夹rna;和/或一个或多个功能位点特异性重组位点,例如lox、frt,然后可用于随后的cre或flp介导的位点特异性重组过程。在一些实施方案中,延伸指导核酸可能太大而不能在体内使用poliii启动子产生。在一些实施方案中,延伸指导核酸可以与polii启动子可操作地相关和/或使用polii启动子产生。在一些实施方案中,dna结合结构域和/或dna内切核酸酶可以具有如anzalone et al.,nature,2019dec;576(7785):149

157中所述的结构和/或进行设计。在一些实施方案中,dna结合结构域和/或dna内切核酸酶是crispr cas多肽,例如cas9切口酶或另一crispr cas多肽例如但不限于cas12a的类似切口变体。
[0120]
在一些实施方案中,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可用于进行和/或可使用同源定向修复进行大型编辑(例如,长度大于50个核苷酸)。示例性的大型编辑包括但不限于;大缺失、大倒位、染色体间重组和/或染色体内重组。在一些实施方案中,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可用于和/或可配置用于单交叉编辑(1xe)方法和/或系统,其中修饰靶核酸发生在单倍体诱导步骤期间。
[0121]
在一些实施方案中,可以使用两个延伸指导核酸(例如,pegrna)。延伸指导核酸之一或两个延伸指导核酸可以具有如anzalone et al.,nature,2019dec;576(7785):149

157中所述的结构和/或进行设计。延伸指导核酸可包含任选地具有1、2、3、4或5至6、7、8、9、10、11、12、13、14或15个核苷酸的序列的引物结合位点(pbs)和任选地具有50个或更多核苷酸的序列的逆转录酶模板(rt模板)序列。两个延伸指导核酸的rt模板序列彼此互补,因此
分别从每个rt模板逆转录的多核苷酸将彼此互补并且会能够彼此杂交。这可以允许由该系统和/或方法产生的中间体将另外由超过50个核苷酸分开的两个dna部分连接在一起,这两个dna部分例如在染色体内,或位于两个分开的dna片段上,例如在两条不同的染色体上。中间体修复后,根据rt模板的设计,所得产物可能会产生大缺失、大倒位或染色体间重组。由于所有这些产物都是通过同源定向修复生产的,因此这些产物可能是可预测地精确的和/或可再现的。在一些实施方案中,dna结合结构域和/或dna内切核酸酶可以具有如anzalone et al.,nature,2019 dec;576(7785):149

157中所述的结构和/或进行设计。在一些实施方案中,dna结合结构域和/或dna内切核酸酶是crispr cas多肽,例如cas9切口酶或另一crispr cas多肽例如但不限于cas12a的类似切口变体。在一些实施方案中,dna结合结构域和/或dna内切核酸酶是cas9核酸酶或来自另一crispr cas多肽例如但不限于cas12a的类似核酸酶。使用核酸酶(而不是切口酶)可以通过单链退火超过50个核苷酸的3'突出端来促进染色体内或染色体间重组过程,该突出端将在对应于两个pegrna靶核酸的两个靶位点中的每一个处产生。
[0122]
在一些实施方案中,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可以通过同源性指导以修饰靶核酸。在一些实施方案中,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可用于在靶核酸中进行和/或可进行相同的修饰(例如,编辑)。在一些实施方案中,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可用于在任选在多个种质中独立多次产生的靶核酸中进行和/或可进行相同的修饰(例如,编辑)。
[0123]
在一些实施方案中,dna结合结构域可以由多核苷酸编码,dna内切核酸酶可以由多核苷酸编码并且逆转录酶可以由多核苷酸编码。在一些实施方案中,编码dna结合结构域的多核苷酸、编码dna内切核酸酶的多核苷酸和编码逆转录酶的多核苷酸可以包含在相同或分开的表达盒中,任选地其中当存在于相同的表达盒中时,编码dna结合结构域的多核苷酸、编码dna内切核酸酶的多核苷酸和编码逆转录酶的多核苷酸可以可操作地连接至单个启动子,或者它们可以以任何组合连接至两个或更多个分开的启动子。
[0124]
在一些实施方案中,本发明的表达盒可以包含在一种或多种载体中。在一些实施方案中,本发明的表达盒和/或一种或多种载体可以包含指导rna和/或延伸指导rna。
[0125]
在一些实施方案中,本发明的方法还可包括使靶核酸与以下接触:第二dna结合结构域、第二dna内切核酸酶和rna编码的模板,任选地其中第二dna结合结构域、第二dna内切核酸酶和第二逆转录酶包含在复合物中。
[0126]
在一些实施方案中,第二dna结合蛋白可以是第二dna结合融合蛋白,其包含融合(连接)至肽标签(例如,肽重复单元、表位或多聚化表位)的第二dna结合蛋白结构域,和/或,第二dna内切核酸酶可以是第二dna内切核酸酶融合蛋白,其包含融合(连接)至肽标签(例如,肽重复单元、表位或多聚化表位)的第二dna内切核酸酶结构域,并且第二逆转录酶可以是第二逆转录酶融合蛋白,其包含融合(连接)至与肽标签结合的亲和多肽的第二逆转录酶结构域,任选地其中靶核酸可以与两种或更多种第二逆转录酶融合蛋白接触。在一些实施方案中,本发明的方法还可包括使靶核酸与指导核酸接触。在一些实施方案中,指导核酸连接至rna募集基序,并且第二逆转录酶是第二逆转录酶融合蛋白,其包含融合(连接)至与rna募集基序结合的亲和多肽的第二逆转录酶结构域,任选地其中靶核酸与两种或更多
种第二逆转录酶融合蛋白接触。
[0127]
在一些实施方案中,第二dna结合结构域可以是crispr-cas核酸酶结构域、转录激活因子样效应(tale)蛋白结构域和/或锌指蛋白结构域。在一些实施方案中,第二dna内切核酸酶可以是crispr-cas核酸内切酶和/或fok1内切核酸酶。在一些实施方案中,第二dna结合结构域和第二dna内切核酸酶可以包含在crispr-cas核酸酶中。在一些实施方案中,crispr-cas核酸酶可以是cas9切口酶(ncas9),任选地其中cas9切口酶由任选地包含在表达盒中的多核苷酸编码。在一些实施方案中,第二dna结合结构域可以由多核苷酸编码并且第二dna内切核酸酶可以由多核苷酸编码。
[0128]
在一些实施方案中,编码第二dna结合结构域的多核苷酸和编码第二dna内切核酸酶的多核苷酸可以包含在相同或分开的表达盒中,任选地其中当存在于相同表达盒中时,编码第二dna结合结构域的多核苷酸和编码第二dna内切核酸酶的多核苷酸可以连接至单个启动子或以任何组合可操作地连接至两个或更多个分开的启动子。在一些实施方案中,本发明的表达盒可以包含在一种或多种载体中,任选地其中本发明的表达盒和/或载体还可包含指导rna。在一些实施方案中,指导核酸和/或延伸指导核酸可以可操作地连接至poliii或polii启动子。
[0129]
在一些实施方案中,本发明的方法还可包括使靶核酸与5'瓣内切核酸酶(fen)、任选地fen1多肽接触。在一些实施方案中,fen可以在植物或植物细胞中过表达。在一些实施方案中,fen可以是融合蛋白,其包含融合至dna结合结构域和/或dna核酸内切酶的fen结构域。在一些实施方案中,dna结合蛋白可以是dna结合融合蛋白,其包含融合(连接)至肽标签(例如肽重复单元、表位或多聚化表位),和/或,dna内切核酸酶可以是dna内切核酸酶融合蛋白,其包含融合(连接)至肽标签(例如,肽重复单元、表位或多聚化表位)的dna内切核酸酶结构域,并且fen可以是fen融合蛋白,其包含融合(连接)至与肽重复单元结合的亲和多肽的fen结构域,任选地其中靶核酸与两个或更多个fen融合蛋白接触,从而将fen募集到dna结合蛋白和/或dna核酸内切酶,和靶核酸。
[0130]
在本发明的一些实施方案中,逆转录酶(例如,第一逆转录酶、第二逆转录酶等)可以融合至一个或多个单链rna结合域(rbd)。
[0131]
在本发明的一些实施方案中,编码dna结合结构域、dna内切核酸酶、逆转录酶、瓣内切核酸酶的多核苷酸、延伸指导核酸、指导核酸、表达盒和/或载体可以针对在植物中的表达进行密码子优化,任选地其中多核苷酸可以针对在双子叶植物中的表达或在单子叶植物中的表达进行密码子优化。
[0132]
在一些实施方案中,肽标签(例如,肽重复单元)可以包含1个或2个或更多个拷贝的肽重复单元(例如,表位、多聚化表位)(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个或更多个重复单元。在一些实施方案中,肽重复单元可包括但不限于gcn4肽重复单元(例如sun-tag)、c-myc亲和标签、ha亲和标签、his亲和标签、s亲和标签、甲硫氨酸-his亲和标签、rgd-his亲和标签、flag八肽、strep标签或strep标签ii、v5标签和/或vsv-g表位。
[0133]
在一些实施方案中,与肽标签(例如,肽重复单元)结合的亲和多肽可以是抗体,任选地其中抗体是scfv抗体。
[0134]
在本发明的一些实施方案中,延伸指导rna和/或指导rna可以连接至一个或两个
或多个rna募集基序(例如,1、2、3、4、5、6、7、8、9、10个或更多个基序;例如,至少10个至约25个基序),任选地其中两个或更多个rna募集基序可以是相同的rna募集基序或不同的rna募集基序。在一些实施方案中,rna募集基序和相应的亲和多肽可以包括但不限于端粒酶ku结合基序(例如,ku结合发夹)和相应的亲和多肽ku(例如,ku异二聚体)、端粒酶sm7结合基序和相应的亲和多肽sm7、ms2噬菌体操纵子茎环和相应的亲和多肽ms2包被蛋白(mcp)、pp7噬菌体操纵子茎环和相应的亲和多肽pp7包被蛋白(pcp)、sfmu噬菌体com茎环和相应的亲和多肽com rna结合蛋白,和/或合成的rna适配体和作为相应的亲和多肽的适配体配体。
[0135]
在一些实施方案中,本发明提供了一种修饰植物细胞中的靶核酸的方法,其包括使核酸与以下接触:靶向靶核酸上第一位点的dna结合结构域和dna内切核酸酶结构域以及靶向靶核酸上第二位点的相同或不同的dna结合结构域和dna内切核酸酶结构域,其中第一位点和第二位点在相同(非靶)链上彼此接近,从而将靶核酸在第一和第二位点处造成切口;逆转录酶;和编码修复模板的核酸,其编码待并入靶核酸的修饰,从而修饰植物中的靶核酸。
[0136]
在一些实施方案中,提供了一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(切口酶);(b)逆转录酶;(c)crispr rna(crrna),其包含与靶核酸上的第一位点具有基本同源性的间隔区;(d)反式激活crrna(tracrrna),其与crrna和crispr-cas核酸酶相互作用(募集/结合);和(e)编码修复模板的核酸(例如,编码修复模板的rna),其包含引物结合位点和编码待并入靶核酸的修饰的模板,其中tracrrna包含与逆转录酶模板的5'端或3'端的序列互补的5'端或3'端的序列,从而修饰靶核酸。在一些实施方案中,本发明的方法还包括使靶核酸与两种或更多种crrna、两种或更多种tracrrna、两种或更多种编码修复模板的核酸和/或两种或更多种crispr-cas核酸酶接触。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与第二crrna和第二tracrrna接触,所述第二crrna包含与靶核酸上的第二位点具有基本同源性的间隔区,所述第二位点与第一位点接近并且在相同链(非靶链)上,其中第二tracrrna可包含或不包含与逆转录酶模板的5'端或3'端的序列互补的5'或3'端的序列(例如,用于去除野生型核酸的双切口)。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与第二crrna接触,所述第二crrna包含与靶核酸上与第一位点在不同链上的第三位点具有基本同源性的间隔区(例如,用于改善错配修复)。
[0137]
在一些实施方案中,本发明提供了一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(切口酶);(b)逆转录酶;(c)crispr rna(crrna),其包含与靶核酸上的第一位点具有基本同源性的间隔区;(d)反式激活crrna(tracrrna),其与crrna和crispr-cas核酸酶相互作用(募集/结合);和编码修复模板的核酸(例如,编码修复模板的rna),其包含引物结合位点和编码待并入靶核酸的修饰的模板,从而修饰靶核酸。在一些实施方案中,本发明的方法还包括使靶核酸与两种或更多种crrna、两种或更多种tracrrna和/或两种或更多种crispr-cas核酸酶接触。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与第二crrna和第二tracrrna接触,所述第二crrna包含与靶核酸上的第二位点具有基本同源性的间隔区,所述第二位点与第一位点接近并且在相同链(非靶链)上,所述第二tracrrna与第二crrna和第一crispr-cas核酸酶或不同的crispr-cas核酸酶相互作用(募
集/结合),从而提供用于去除野生型核酸的双切口。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与第三crrna和第三tracrrna接触,所述第三crrna包含与靶核酸上的第三位点具有基本同源性的间隔区,所述第三位点与第一位点在不同的链(靶链)上,所述第三tracrrna与第三crrna和第一crispr-cas核酸酶或不同的crispr-cas核酸酶相互作用(募集/结合),从而改善错配修复。
[0138]
在一些实施方案中,提供了一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(例如,切口酶);(b)逆转录酶;(c)crispr rna(crrna)指导,其与crispr-cas核酸酶相互作用(募集/结合),并包含与靶核酸上的第一位点具有基本同源性的间隔区;(e)编码修复模板的核酸(例如,编码修复模板的rna),其包含引物结合位点和编码待并入靶核酸的修饰的rna模板,其中crrna在其5'端或3'端包含与引物结合位点互补的序列,从而修饰靶核酸。在一些实施方案中,本发明的方法还包括使靶核酸与两种或更多种crrna、两种或更多种编码修复模板的核酸和/或两种或更多种crispr-cas核酸酶接触。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与第二crrna接触,所述第二crrna与所述crispr-cas核酸酶或不同的crispr-cas核酸酶相互作用(募集/结合)并且包含与靶核酸上的第二位点具有基本同源性的间隔区,所述第二位点与第一位点接近并且在相同链(非靶链)上,从而提供用于去除野生型核酸的双切口。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与第三crrna接触,所述第三crrna与所述crispr-cas核酸酶或不同的crispr-cas核酸酶相互作用(募集/结合)并且包含与靶核酸上的第三位点具有基本同源性的间隔区,所述第三位点与第一位点在不同的链(靶链)上,从而改善错配修复。
[0139]
在一些实施方案中,提供了一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)crispr-cas核酸酶,其包含第一dna结合结构域和第一dna内切核酸酶(例如,切口酶);(b)逆转录酶;(c)延伸指导核酸,其包含与crispr-cas核酸酶相互作用(募集/结合)的序列和与靶核酸上的第一位点具有基本同源性的间隔区(例如,crispr rna(crrna)(第一crrna)和/或tracrrna crrna(sgrna))和编码修复模板的核酸(例如,编码修复模板的rna),所述编码修复模板的核酸包含引物结合位点和rna模板(其编码待并入靶核酸的修饰),从而修饰靶核酸。在一些实施方案中,本发明的方法还包括使靶核酸与两种或更多种延伸指导核酸和/或两种或更多种crispr-cas核酸酶接触。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与crrna(例如,第二crrna)接触,所述第二crrna与所述crispr-cas核酸酶或不同的crispr-cas核酸酶相互作用(募集/结合)并且包含与靶核酸上的第二位点具有基本同源性的间隔区,所述第二位点与第一位点接近并且在相同链(非靶链)上,从而提供用于去除野生型核酸的双切口。在一些实施方案中,本发明的方法还包括使靶核酸(例如,靶dna)与第二crrna(例如,第三crrna)接触,所述第二crrna与所述crispr-cas核酸酶或不同的crispr-cas核酸酶相互作用(募集/结合)并且包含与靶核酸上的第三位点具有基本同源性的间隔区,所述第三位点与第一位点在不同的链(靶链)上,从而改善错配修复。
[0140]
在一些实施方案中,本发明提供了一种修饰植物细胞中的靶核酸的方法,该方法包括:使靶核酸与以下接触:(a)第一crispr-cas核酸酶(切口酶),其包含第一dna结合结构域和第一dna内切核酸酶;(b)延伸指导核酸,其包含crispr rna(crrna)、反式激活crrna
(tracrrna)和rna模板,所述crrna包含与靶核酸上的第一位点具有基本同源性的间隔区,所述tracrrna募集第一crispr-cas核酸酶,所述rna模板包含待并入靶核酸的修饰,其中第一crispr-cas核酸酶将靶核酸在第一位点处(在非靶链上)造成切口;(c)第二crispr-cas核酸酶(例如,切口酶),其包含第一dna结合结构域和第一dna内切核酸酶(例如,切口酶);(d)指导核酸,其包含crispr rna(crrna)、反式激活crrna(tracrrna),所述crrna包含与靶核酸上的第二位点具有基本同源性的间隔区,所述第二位点与靶核酸上第一位点接近(例如,并且位于与其相同的链上),所述tracrrna募集第二crispr-cas核酸酶,从而将dna在第二位点处(在非靶链上)造成切口;和(e)逆转录酶,其融合至或被募集到第一crispr-cas核酸酶和/或第二crispr-cas核酸酶,从而修饰靶核酸。参见例如图3。
[0141]
在一些实施方案中,提供了一种释放双链核酸的部分的方法,其包括:(a)将第一dna内切核酸酶靶向至核酸的第一位点;(b)在核酸的第一链中的第一位点处造成切口;(c)将第一dna内切核酸酶或第二dna内切核酸酶靶向至第一链上的第二位点;和(d)在第一链中的第二位点处造成切口,其中在第一位点和第二位点之间的核酸的第一链的部分能够从核酸释放。在一些实施方案中,该方法还包括使核酸与逆转录酶接触。在一些实施方案中,该方法还包括使核酸与逆转录酶模板接触。在一些实施方案中,转录酶模板可以包含与核酸的释放部分基本上类似的序列,并且另外包含至少一个核苷酸插入、缺失或置换。在一些实施方案中,逆转录酶模板可以取代释放部分并且成为双链核酸的一部分。
[0142]
在一些实施方案中,本发明提供了在生物(例如植物)中插入一个或多个核苷酸。插入可包含生物中特定基因组基因座处的重组位点或完整基因。在一些实施方案中,延伸指导核酸内的逆转录酶模板包括插入序列,例如但不限于重组位点(例如,野生型或突变的loxp、frt、rs、attp和attb位点)或基因的编码序列和/或调节元件(例如,启动子、5'utr序列和/或3'utr序列)。示例性重组位点序列包括但不限于表1中列出的那些序列。在本发明的一些实施方案中,指导核酸(例如,sgrna)的3'端可以包含与包含靶核酸、任选地靶核酸的3'端的区域互补的序列。在本发明的一些实施方案中,指导核酸(例如,sgrna)的3'端可以包含结合靶核酸3'端的微同源区(例如,小同源区,例如长度为5-25个核苷酸),其可以任选地提供微同源介导的末端连接(mmej)和/或修复机制。
[0143]
表1:示例性重组位点序列。
[0144][0145][0146]
在一些实施方案中,可以提供多核苷酸、核酸构建体、表达盒和载体用于实施本发明的方法。因此,在一些实施方案中,提供了针对在植物中的表达进行密码子优化的表达盒,其从5'至3'包含:(a)编码植物特异性启动子序列(例如zmubi1、mtub2、rna聚合酶ii(pol ii))的多核苷酸,(b)编码crispr-cas核酸酶(例如,ncas9、dcas9、cpfl(cas12a)、dcas12a等)的针对植物进行密码子优化的多核苷酸,(c)接头序列;和(d)编码逆转录酶的针对植物进行密码子优化的多核苷酸。
[0147]
在本发明的一些实施方案中,逆转录酶可以融合至一个或多个单链rna结合域(rbd)。
[0148]
在一些实施方案中,本发明的多肽可以是包含一个或多个通过接头彼此连接的多肽的融合蛋白。在一些实施方案中,接头可以是氨基酸或肽接头。在一些实施方案中,肽接头的长度可为约2个至约100个氨基酸(残基)。在一些实施方案中,肽接头可以是gs接头。
[0149]
在一些实施方案中,本发明提供了一种针对在植物中的表达进行密码子优化的表达盒,其包含:(a)编码植物特异性启动子序列(例如zmubi1、mtub2)的多核苷酸,和(b)延伸指导核酸,其中延伸指导核酸包含延伸部分,该延伸部分在其3'端包含引物结合位点和待并入靶核酸中的编辑(例如,逆转录酶模板),任选地其中延伸指导核酸包含在表达盒中,任选地其中延伸指导核酸可操作地连接至pol ii启动子。
[0150]
在一些实施方案中,植物特异性启动子可以与内含子相关联或可以是包含内含子的启动子区(例如,包含内含子的zmubi1;包含内含子的mtub2)。
[0151]
在一些实施方案中,本发明的表达盒可以针对在双子叶植物中的表达或在单子叶植物中的表达进行密码子优化。在一些实施方案中,本发明的表达盒可用于修饰植物或植物细胞中的靶核酸的方法,该方法包括将一种或多种本发明的表达盒引入植物或植物细胞中,从而修饰植物或植物细胞中的靶核酸以产生包含修饰的靶核酸的植物或植物细胞。在一些实施方案中,该方法还可包括再生包含修饰的靶核酸的植物细胞以产生包含修饰的靶核酸的植物。
[0152]
在一些实施方案中,本发明提供了一种核酸分子,其包含(a)与crispr-cas核酸酶(tracrrna)相互作用(例如,结合、募集)的序列,(b)将crispr-cas核酸酶引导至靶核酸(例如,crrna)的序列,和(c)编码用于将修饰引入靶核酸的模板的序列,或(a)与crispr-cas核酸酶相互作用(例如,结合、募集)并将crispr-cas核酸酶引导至靶核酸(crrna)的序列和(b)编码用于将修饰引入靶核酸的模板的序列。
[0153]
在本发明的一些实施方案中,crispr-cas核酸酶、dna结合结构域和/或dna核酸内切酶可以来自i型crispr-cas系统、ii型crispr-cas系统、iii型crispr-cas系统、iv型crispr-cas系统或v型crispr-cas系统。在一些实施方案中,crispr-cas核酸酶来自ii型crispr-cas系统或v型crispr-cas系统。在一些实施方案中,crispr-cas效应蛋白可以是ii型crispr-cas效应蛋白,例如cas9效应蛋白。在一些实施方案中,crispr-cas效应蛋白可以是v型crispr-cas效应蛋白,例如cas12效应蛋白。
[0154]
在本发明的一些实施方案中,crispr-cas核酸酶、dna结合结构域和/或dna内切核酸酶可以是cas9、c2c1、c2c3、cas12a(也称为cpf1)、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、casl、caslb、cas2、cas3、cas3'、cas3”、cas4、cas5、cas6、cas7、cas8、cas9(也称为csnl和csx12)、cas10、csyl、csy2、csy3、csel、cse2、cscl、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmrl、cmr3、cmr4、cmr5、cmr6、csbl、csb2、csb3、csxl7、csxl4、csx10、csx16、csax、csx3、csxl、csxl5、csfl、csf2、csf3、csf4(ding)和/或csf5核酸酶,任选地其中crispr-cas核酸酶可以是cas9、cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c核酸酶。
[0155]
在一些实施方案中,crispr-cas核酸酶、dna结合结构域和/或dna内切核酸酶可以是cas9切口酶或cas12a切口酶。
[0156]
在一些实施方案中,编码dna结合多肽或结构域的多核苷酸、编码dna内切核酸酶多肽或结构域的多核苷酸、编码逆转录酶多肽或结构域的多核苷酸和/或编码瓣内切核酸酶多肽或结构域的多核苷酸可以可操作地连接至至少一种调节序列,任选地,其中所述至少一种调节序列可以针对在植物中的表达而进行密码子优化。在一些实施方案中,至少一个调节序列可以是例如启动子、操纵子、终止子或增强子。在一些实施方案中,至少一个调节序列可以是启动子。在一些实施方案中,调节序列可以是内含子。在一些实施方案中,至少一个调节序列可以是例如与内含子可操作地关联的启动子或包含内含子的启动子区。在一些实施方案中,至少一个调节序列可以是例如泛素启动子及其相关内含子(例如,蒺藜苜蓿(medicago truncatula)和/或玉米及其相关内含子)。在一些实施方案中,至少一种调节
序列可以是终止核苷酸序列和/或增强子核苷酸序列。
[0157]
在一些实施方案中,本发明提供了与一个或多个启动子区可操作地相关的编码dna结合多肽或结构域的多核苷酸、编码核酸内切酶多肽或结构域的多核苷酸、编码逆转录酶多肽或结构域的多核苷酸和/或编码瓣内切核酸酶多肽或结构域的多核苷酸,其中一个或多个启动子区可以包含内含子,任选地其中启动子区可以是泛素启动子和内含子(例如,苜蓿(medicago)或玉米泛素启动子和内含子,例如,seq id no:1或2)。在一些实施方案中,与包含内含子的启动子区可操作地相关的crispr-cas核酸酶可以针对在植物中的表达而进行密码子优化。
[0158]
可用于本发明的crispr-cas核酸酶可以包括但不限于cas9、c2c1、c2c3、cas12a(也称为cpf1)、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、casl、caslb、cas2、cas3、cas3'、cas3”、cas4、cas5、cas6、cas7、cas8、cas9(也称为csnl和csx12)、cas10、csyl、csy2、csy3、csel、cse2、cscl、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmrl、cmr3、cmr4、cmr5、cmr6、csbl、csb2、csb3、csxl7、csxl4、csx10、csx16、csax、csx3、csxl、csxl5、csfl、csf2、csf3、csf4(ding)和/或csf5核酸酶,任选地其中crispr-cas核酸酶可以是cas9、cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c效应蛋白。
[0159]
在一些实施方案中,可用于本发明的crispr-cas核酸酶可以在其核酸酶活性位点(例如,ruvc、hnh,例如cas12a核酸酶结构域的ruvc位点;例如,cas9核酸酶结构域的ruvc位点和/或hnh位点)中包含突变。在其核酸酶活性位点具有突变并因此不再包含核酸酶活性的crispr-cas核酸酶通常被称为“死的”,例如dcas,如dcas9。在一些实施方案中,在其核酸酶活性位点具有突变的crispr-cas核酸酶结构域或多肽与没有突变的相同crispr-cas核酸酶例如切口酶例如cas9切口酶、cas12a切口酶相比可能具有受损的活性或降低的活性。
[0160]
可用于本发明的crispr cas9多肽或crispr cas9结构域可以是任何已知的或以后鉴定的cas9核酸酶。在一些实施方案中,crispr cas9多肽可以是来自例如链球菌属(streptococcus spp.)(例如,化脓性链球菌(s.pyogenes)、嗜热链球菌(s.thermophilus))、乳杆菌属(lactobacillus spp.)、双歧杆菌属(bifidobacterium spp.)、坎德勒菌属(kandleria spp.)、明串珠菌属(leuconostoc spp.)、酒球菌属(oenococcus spp.)、片球菌属(pediococcus spp.)、魏斯氏菌属(weissella spp.)和/或奥森氏菌属(olsenella spp.)的cas9多肽。
[0161]
在一些实施方案中,crispr-cas核酸酶可以是cas9多肽或其结构域,并且任选地可以具有seq id no:3-13中任一个的核苷酸序列和/或seq id no:14-15中任一个的氨基酸序列。
[0162]
在一些实施方案中,crispr-cas核酸酶可以是源自化脓性链球菌(streptococcus pyogenes)并且识别pam序列基序ngg、nag、nga的cas9多肽(mali et al,science 2013;339(6121):823-826)。在一些实施方案中,crispr-cas核酸酶可以是源自嗜热链球菌(streptococcus thermophiles)并且识别pam序列基序nggng和/或nnagaaw(w=a或t)的cas9多肽(参见例如horvath et al,science,2010;327(5962):167-170和deveau et al,j bacteriol 2008;190(4):1390-1400)。在一些实施方案中,crispr-cas核酸酶可以是源自
变形链球菌(streptococcus mutans)并且识别pam序列基序ngg和/或naar(r=a或g)的cas9多肽(参见例如deveau et al,jbacteriol 2008;190(4):1390-1400)。在一些实施方案中,crispr-cas核酸酶可以是源自金黄色葡萄球菌(streptococcus aureus)并且识别pam序列基序nngrr(r=a或g)的cas9多肽。在一些实施方案中,crispr-cas核酸酶可以是源自金黄色葡萄球菌(s.aureus)并且识别pam序列基序n grrt(r=a或g)的cas9蛋白。在一些实施方案中,crispr-cas核酸酶可以是源自金黄色葡萄球菌并且识别pam序列基序n grrv(r=a或g)的cas9多肽。在一些实施方案中,crispr-cas核酸酶可以是源自脑膜炎奈瑟菌(neisseria meningitidis)并且识别pam序列基序n gatt或n gctt(r=a或g,v=a、g或c)的cas9多肽(参见例如hou et ah,pnas 2013,1-6)。在上述实施方案中,n可以是任何核苷酸残基,例如a、g、c或t中的任何一个。在一些实施方案中,crispr-cas核酸酶可以是源自leptotrichia shahii的cas13a蛋白,其识别单个3'a、u或c的原型间隔区侧翼序列(pfs)(或rna pam(rpam))序列基序,其可能位于靶核酸内。
[0163]
可用于本发明实施方案的v型crispr-cas核酸酶可以是任何v型crispr-cas核酸酶。可用于本发明作为效应蛋白的v型crispr-cas核酸酶可包括但不限于cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c1、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c核酸酶。在一些实施方案中,可用于本发明实施方案的v型crispr-cas核酸酶多肽或结构域可以是cas12a多肽或结构域。在一些实施方案中,可用于本发明实施方案的v型crispr-cas核酸酶或结构域可以是切口酶,任选地,cas12a切口酶。
[0164]
在一些实施方案中,crispr-cas核酸酶可以衍生自cas12a,cas12a是v型成簇规则间隔短回文重复(crispr)-cas核酸酶。cas12a在几个方面与更众所周知的ii型crispr cas9核酸酶不同。例如,cas9识别一个富含g的原型间隔区序列邻近基序(pam),它位于其指导rna(grna、sgrna、crrna、crdna、crispr阵列)结合位点(原型间隔区、靶核酸、靶dna)的3'(3'-ngg),而cas12a识别位于靶核酸富含t的pam的5'(5'-ttn,5'-tttn。事实上,cas9和cas12a结合其指导rna的方向与其n和c端的关系几乎是相反的。此外,cas12a酶使用单指导rna(grna、crispr阵列、crrna)而不是天然cas9系统中发现的双指导rna(sgrna(例如crrna和tracrrna)),并且cas12a加工其自己的grna。此外,cas12a的核酸酶活性产生交错的dna双链断裂,而不是由cas9的核酸酶活性产生的平末端,并且cas12a依靠单个ruvc结构域来切割两条dna链,而cas9利用hnh结构域和ruvc结构域来切割。
[0165]
可用于本发明的crispr cas12a多肽或crispr cas12a结构域可以是任何已知的或以后鉴定的cas12a核酸酶(以前称为cpf1)(参见例如美国专利号9,790,490,其公开的cpf1(cas12a)序列通过引用并入本文)。术语“cas12a”、“cas12a多肽”或“cas12a结构域”是指包含cas12a多肽或其片段的rna指导核酸酶,其包含cas12a的指导核酸结合结构域和/或cas12a的活性、非活性、或部分活性dna切割结构域。在一些实施方案中,可用于本发明的cas12a可包含核酸酶活性位点(例如,cas12a结构域的ruvc位点)中的突变。在其核酸酶活性位点具有突变并因此不再包含核酸酶活性的cas12a结构域或cas12a多肽通常被称为死的cas12a(例如,dcas12a)。在一些实施方案中,在其核酸酶活性位点中具有突变的cas12a结构域或cas12a多肽可能具有受损的活性,例如,可能具有切口酶活性。
[0166]
在一些实施方案中,可以针对在生物中例如在动物、植物、真菌、古菌或细菌中的
表达优化crispr-cas核酸酶。在一些实施方案中,可以针对在植物中的表达优化crispr-cas核酸酶(例如,cas12a多肽/结构域或cas9多肽/结构域)。在一些实施方案中,可根据本发明优化的cas12a多肽/结构域可包括但不限于seq id no:16-32中任一个的氨基酸序列(例如,seq id no:16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31或32),或编码其的多核苷酸,例如但不限于seq id no:33-35中任一个的多核苷酸。
[0167]
如本文所用,“指导核酸”、“指导rna”、“grna”、“crispr rna/dna”、“crrna”或“crdna”是指包含至少一个间隔区序列的核酸,所述间隔区序列与靶dna(例如,原型间隔区)互补(并与其杂交),以及至少一个重复序列(例如,v型cas12a crispr-cas系统或其片段或部分的重复;ii型cas9 crispr-cas系统或其片段的重复;v型c2c1 crispr-cas系统或其片段的重复;例如c2c3、cas12a(也称为cpf1)、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、casl、caslb、cas2、cas3、cas3'、cas3”、cas4、cas5、cas6、cas7、cas8、cas9(也称为csnl和csx12)、cas10、csyl、csy2、csy3、csel、cse2、cscl、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmrl、cmr3、cmr4、cmr5、cmr6、csbl、csb2、csb3、csxl7、csxl4、csx10、csx16、csax、csx3、csxl、csxl5、csfl、csf2、csf3、csf4(ding)和/或csf5的crispr-cas系统或其片段的重复),其中重复序列可连接至间隔区序列的5'端和/或3'端。在一些实施方案中,指导核酸包含dna。在一些实施方案中,指导核酸包含rna(例如,是指导rna)。本发明的grna的设计可以基于i型、ii型、iii型、iv型、v型或vi型crispr-cas系统。
[0168]
在一些实施方案中,cas12a grna可从5'至3'包含重复序列(全长或其部分(“柄”);例如,假结样结构)和间隔区序列。
[0169]
在一些实施方案中,指导核酸可以包含多于一个重复序列-间隔区序列(例如,2、3、4、5、6、7、8、9、10个或更多个重复间隔区序列)(例如,重复-间隔区-重复,例如,重复-间隔区-重复-间隔区-重复-间隔区-重复-间隔区-重复-间隔区等)。本发明的指导核酸是合成的、人造的并且在自然界中不存在。grna可能很长,可以用作适配体(如在ms2募集策略中)或悬挂在间隔区上的其他rna结构。在一些实施方案中,如本文所述,指导rna可以包括用于编辑的模板和引物结合位点。在一些实施方案中,指导rna可以在其5'端或3'端包括与编辑模板(逆转录酶模板)互补的区域或序列,从而将编辑模板募集到靶核酸。
[0170]
如本文所用,“重复序列”是指例如野生型crispr cas基因座(例如,cas9基因座、cas12a基因座、c2c1基因座等)的任何重复序列或与本发明的核酸构建体编码的crispr-cas核酸酶一起起作用的合成crrna的重复序列。可用于本发明的重复序列可以是任何已知或以后鉴定的crispr-cas基因座(例如,i型、ii型、iii型、iv型、v型或vi型)的重复序列,或者它可以是设计用于i、ii、iii、iv、v或vi型crispr-cas系统的合成的重复。重复序列可以包含发夹结构和/或茎环结构。在一些实施方案中,重复序列可以在其5'端形成假结样结构(即,“柄”)。因此,在一些实施方案中,重复序列可以与来自野生型i型crispr-cas基因座、ii型、crispr-cas基因座、iii型、crispr-cas基因座、iv型crispr-cas基因座、v型crispr-cas基因座和/或vi型crispr-cas基因座的重复序列相同或基本相同。来自野生型crispr-cas基因座的重复序列可以通过已建立的算法确定,例如使用通过crisprdb提供的crisprfinder(参见grissa et al.nucleic acids res.35(web server issue):w52-7)。在一些实施方案中,重复序列或其部分在其3'端连接至间隔区序列的5'端,从而形成重复-间隔区序列(例如,指导核酸、指导rna/dna、crrna、crdna)。
[0171]
在一些实施方案中,取决于特定的重复以及包含重复的指导核酸是加工的还是未加工的,重复序列包含至少10个核苷酸、基本上由其组成或由其组成(例如,约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50至100个或更多个核苷酸,或其中的任何范围或值;例如,约)。在一些实施方案中,重复序列包含以下、基本上由以下组成或由以下组成:约10至约20、约10至约30、约10至约45、约10至约50、约15至约30、约15至约40、约15至约45、约15至约50、约20至约30、约20至约40、约20至约50、约30至约40、约40至约80、约50至约100个或更多个的核苷酸。
[0172]
连接至间隔区序列的5'端的重复序列可以包含重复序列的一部分(例如,野生型重复序列的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35个或更多个连续核苷酸)。在一些实施方案中,连接至间隔区序列的5'端的重复序列的一部分的长度可以是约5至约10个连续核苷酸(例如,约5、6、7、8、9、10个核苷酸)并且具有与野生型crispr cas重复核苷酸序列的同一区域(例如,5'端)具有至少90%序列同一性(例如,至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多)。在一些实施方案中,重复序列的一部分可以在其5'端包含假结样结构(例如,“柄”)。
[0173]
如本文所用,“间隔区”是与靶核酸(例如,靶dna)(例如,原型间隔区)互补的核苷酸序列。间隔区可以与靶核酸完全互补或基本上互补(例如,至少约70%互补(例如,约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多))。因此,在一些实施方案中,与靶核酸相比,间隔区序列可以具有1个、2个、3个、4个或5个错配,这些错配可以是连续的或不连续的。在一些实施方案中,间隔区序列可以与靶核酸具有70%的互补性。在其他实施方案中,间隔区核苷酸序列可以与靶核酸具有80%的互补性。在其他实施方案中,间隔区核苷酸序列可以与靶核酸(原型间隔区)具有85%、90%、95%、96%、97%、98%、99%或99.5%的互补性等。在一些实施方案中,间隔区序列与靶核酸100%互补。间隔区序列可具有约15个核苷酸至约30个核苷酸(例如,15、16、17、18、19、20、21、22、23、24、25、26、27、28、29个或30个核苷酸,或其中的任何范围或值)。因此,在一些实施方案中,间隔区序列可在长度为至少约15个核苷酸至约30个核苷酸的靶核酸(例如,原型间隔区)的区域上具有完全互补性或基本互补性。在一些实施方案中,间隔区的长度约为20个核苷酸。在一些实施方案中,间隔区的长度约为23个核苷酸。
[0174]
在一些实施方案中,指导核酸(例如,指导rna)的间隔区序列的5'区可以与靶dna相同,而间隔区的3'区可以与靶dna(例如,v型crispr-cas)基本上互补,或指导核酸的间隔区序列的3'区可以与靶dna相同,而间隔区的5'区可以与靶dna(例如,ii型crispr-cas)基本上互补,因此,间隔区序列与靶dna的总体互补性可能低于100%。因此,例如,在v型crispr-cas系统的指导中,5'区(即种子区)中的前1、2、3、4、5、6、7、8、9、10个核苷酸例如,20个核苷酸的间隔区序列可以与靶dna 100%互补,而间隔区序列的3'区的剩余核苷酸与靶dna基本上互补(例如,至少约70%互补)。在一些实施方案中,间隔区序列的5'端的前1至8个核苷酸(例如,前1、2、3、4、5、6、7、8个核苷酸,以及其中的任何范围)可以与靶dna 100%互补,而间隔区序列的3'区的剩余核苷酸与靶dna基本上互补(例如,至少约50%互补(例如,50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、
80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多))。募集指导rna还包含一个或多个如本文所述的募集基序,其可以连接至指导的5'端或3'端,或者它可以插入募集指导核酸中(例如,在发夹环内)。
[0175]
作为另一个实例,在ii型crispr-cas系统的指导中,3'区(即种子区)中的前1、2、3、4、5、6、7、8、9、10个核苷酸例如,20个核苷酸的间隔区序列可以与靶dna 100%互补,而间隔区序列的5'区的剩余核苷酸与靶dna基本上互补(例如,至少约70%互补)。在一些实施方案中,间隔区序列的3'端的前1至10个核苷酸(例如,前1、2、3、4、5、6、7、8、9、10个核苷酸,以及其中的任何范围)可以与靶dna 100%互补,而间隔区序列的5'区的剩余核苷酸与靶dna基本上互补(例如,至少约50%互补(例如,至少约50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多,或其中的任何范围或值))。
[0176]
在一些实施方案中,间隔区的种子区的长度可以是约8至约10个核苷酸、长度为约5至约6个核苷酸或长度为约6个核苷酸。
[0177]
如本文所用,“靶核酸”、“靶dna”、“靶核苷酸序列”、“靶区域”或“基因组中的靶区域”是指生物基因组中与本发明的指导核酸(例如,指导rna)中的间隔序区列完全互补的区域(100%互补)或基本上互补(例如,至少70%互补(例如,70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多))。对crispr-cas系统有用的靶区域可以位于生物基因组(例如,植物基因组)中pam序列的紧邻3'(例如,v型crispr-cas系统)或紧邻5'(例如,ii型crispr-cas系统)的位置。靶区域可以选自紧邻pam序列的至少15个连续核苷酸(例如,16、17、18、19、20、21、22、23、24、25、26、27、28、29、30个核苷酸等)。
[0178]“原型间隔区序列”是指靶双链dna,特别是靶dna的一部分(例如,或基因组中的靶区域),其与crispr重复-间隔区序列(例如,指导核酸、crispr阵列、crrna)的间隔区序列完全或基本上互补(并与其杂交)。
[0179]
在v型crispr-cas(例如,cas12a)系统和ii型crispr-cas(cas9)系统的情况下,原型间隔区序列的两侧是(例如,紧邻)原型间隔区相邻基序(pam)。对于iv型crispr-cas系统,pam位于非靶链的5'端和靶链的3'端(例如,参见下文)。
[0180][0181]
在ii型crispr-cas(例如cas9)系统的情况下,pam紧邻靶区域的3'。i型crispr-cas系统的pam位于靶链的5'。没有已知的用于iii型crispr-cas系统的pam。makarova等人描述了crispr系统的所有类别、类型和亚型的命名法(nature reviews microbiology 13:722

736(2015))。r.barrangou(genome biol.16:247(2015))描述了指导结构和pam。
[0182]
典型的(canonical)cas12a pam富含t。在一些实施方案中,典型的cas12a pam序列可以是5'-ttn、5'-tttn或5'-tttv。在一些实施方案中,典型的cas9(例如,化脓性链球菌)pam可以是5'-ngg-3'。在一些实施方案中,可以使用非典型的pam,但效率可能较低。
[0183]
本领域技术人员可以通过已建立的实验和计算方法确定另外的pam序列。因此,例如,实验方法包括靶向侧接所有可能的核苷酸序列的序列并识别不经历靶向的序列成员,例如通过靶质粒dna的转化(esvelt et al.2013.nat.methods 10:1116-1121;jiang et al.2013.nat.biotechnol.31:233-239)。在一些方面,计算方法可以包括对天然间隔区进行blast检索以识别噬菌体或质粒中的原始靶dna序列,并比对这些序列以确定与靶序列相邻的保守序列(briner and barrangou.2014.appl.environ.microbiol.80:994-1001;mojica et al.2009.microbiology 155:733-740)。
[0184]
本发明的融合蛋白可以包含融合至肽标签或亲和多肽的dna结合结构域、dna内切核酸酶、指导核酸或逆转录酶。在一些实施方案中,dna结合结构域融合至肽标签或与肽标签相互作用的亲和多肽,如本领域已知的,用于将dna结合结构域募集到靶核酸,和/或,dna内切核酸酶融合至肽标签或与肽标签相互作用的亲和多肽,如本领域已知的,用于将dna核酸内切酶募集到靶核酸。在一些实施方案中,募集方法可以包括连接至rna募集基序的引导核酸和融合至能够与rna募集基序相互作用的亲和多肽的逆转录酶,从而将逆转录酶募集到靶核酸。或者,可以使用化学相互作用将多肽(例如,逆转录酶)募集到靶核酸。
[0185]
如本文所述,“肽标签”可用于募集一种或多种多肽。肽标签可以是能够被相应的亲和多肽结合的任何多肽。肽标签也可以称为“表位”,当以多个拷贝提供时,称为“多聚化表位”。示例肽标签可以包括但不限于gcn4肽标签(例如,sun-tag)、c-myc亲和标签、ha亲和标签、his亲和标签、s亲和标签、甲硫氨酸-his亲和标签、rgd-his亲和标签、flag八肽、strep标签或strep标签ii、v5标签和/或vsv-g表位。在一些实施方案中,肽标签还可以包括被sh2结构域识别的特定序列情况下的磷酸化酪氨酸、含有被14-3-3蛋白识别的磷酸丝氨酸的特征共有序列、被sh3结构域识别的富含脯氨酸的肽基序、pdz蛋白相互作用结构域或pdz信号序列,以及来自植物的ago钩基序。肽标签在wo2018/136783和美国专利申请公开号2017/0219596中公开,它们公开的肽标签通过引用并入本文。可用于本发明的肽标签可包括但不限于seq id no:39和seq id no:40。与肽标签一起使用的亲和多肽包括但不限于seq id no:41。
[0186]
肽标签可以包含或存在于肽标签(例如,多聚化肽标签或多聚化表位)的一个拷贝或2个或更多个拷贝中(例如,约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、9、20、21、22、23、24或25个或更多个肽标签)。当多聚化时,肽标签可以直接彼此融合,或者它们可以通过一个或多个氨基酸(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多个氨基酸,任选约3至约10、约4至约10、约5至约10、约5至约15或约5至约20个氨基酸等,以及其中的任何值或范围)彼此连接。因此,在一些实施方案中,本发明的crispr-cas核酸酶可以包含融合至一个肽标签或两个或更多个肽标签的crispr-cas核酸酶结构域,任选地其中两个或更多个肽标签通过一个或多个氨基酸残基彼此融合。在一些实施方案中,可用于本发明的肽标签可以是单拷贝的gcn4肽标签或表位,或者可以是包含约2至约25个或更多拷贝的肽标签(例如约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个或更多个拷贝的gcn4表位,或其中的任何范围)的多聚化gcn4表位。
[0187]
本发明可以使用任何表位,其可以与多肽连接并且针对其存在可以与另一多肽连接的相应亲和多肽。在一些实施方案中,肽标签可包含1个或2个或更多个拷贝的肽标签(例如,重复单元、多聚化表位(例如,串联重复))(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个或更多个重复单元。在一些实施方案中,与肽标签相互作用/结合的亲和多肽可以是抗体。在一些实施方案中,抗体可以是scfv抗体。在一些实施方案中,与肽标签结合的亲和多肽可以是合成的(例如,逐步发展以用于亲和相互作用),包括但不限于亲和体、anticalin、单体和/或darpin(参见例如sha et al.,protein sci.26(5):910-924(2017));gilbreth(curr opin struc biol 22(4):413-420(2013)),美国专利号9,982,053,其每一个都通过引用整体并入以用于与亲和体、anticalin、单体和/或darpin相关的教导。
[0188]
在一些实施方案中,指导核酸可连接至rna募集基序,待募集的多肽(例如逆转录酶)可融合至与rna募集基序结合的亲和多肽,其中指导核酸与靶核酸结合并且rna募集基序与亲和多肽结合,从而将多肽募集到指导并使靶核酸与多肽(例如逆转录酶)接触。在一些实施方案中,可以将两种或更多种多肽募集到指导核酸,从而使靶核酸与两种或更多种多肽接触。
[0189]
在本发明的一些实施方案中,指导rna可以连接至一个或两个或更多个rna募集基序(例如,1、2、3、4、5、6、7、8、9、10个或更多个基序;例如,至少10个至约25个基序),任选地其中两个或更多个rna募集基序可以是相同的rna募集基序或不同的rna募集基序。在一些实施方案中,rna募集基序和相应的亲和多肽可以包括但不限于端粒酶ku结合基序(例如,ku结合发夹)和相应的亲和多肽ku(例如,ku异二聚体)、端粒酶sm7结合基序和相应的亲和多肽sm7、ms2噬菌体操纵子茎环和相应的亲和多肽ms2包被蛋白(mcp)、pp7噬菌体操纵子茎环和相应的亲和多肽pp7包被蛋白(pcp)、sfmu噬菌体com茎环和相应的亲和多肽com rna结合蛋白、puf结合位点(pbs)和亲和多肽pumilio/fem-3mrna结合因子(puf),和/或合成的rna适配体和作为相应的亲和多肽的适配体配体。在一些实施方案中,rna募集基序和相应的亲和多肽可以是ms2噬菌体操纵子茎环和亲和多肽ms2包被蛋白(mcp)。在一些实施方案中,rna募集基序和相应的亲和多肽可以是puf结合位点(pbs)和亲和多肽pumilio/fem-3mrna结合因子(puf)。可用于本发明的示例性rna募集基序和相应的亲和多肽可包括但不限于seq id no:42-52。
[0190]
在一些实施方案中,用于募集多肽和核酸的组分可以是通过化学相互作用起作用的组分,其可以包括但不限于雷帕霉素诱导的frb-fkbp二聚化;生物素-链霉抗生物素蛋白;snap标签;halo标签;clip标签;化合物诱导的dmra-dmrc异二聚体;双功能配体(例如,两种蛋白质结合化学物质融合在一起;例如,二氢叶酸还原酶(dhfr))。
[0191]
在一些实施方案中,肽标签可以融合至crispr-cas多肽或结构域。在一些实施方案中,肽标签可以融合或连接至crispr-cas核酸酶的c端以形成crispr-cas融合蛋白。在一些实施方案中,肽标签可以融合或连接至crispr-cas核酸酶的n端以形成crispr-cas融合蛋白。在一些实施方案中,肽标签可以融合在crispr-cas核酸酶内(例如,肽标签可以在crispr-cas效应蛋白的环区中)。
[0192]
在一些实施方案中,当肽标签包含多于一个肽标签时,可以优化每个肽标签的数量和间距以最大化肽标签的占据并且最小化例如多肽部分彼此之间的空间干扰。
[0193]“亲和多肽”(例如,“募集多肽”)是指能够与其相应的肽标签、肽标签或rna募集基序结合的任何多肽。肽标签的亲和多肽可以是例如分别特异性结合肽标签的抗体和/或单链抗体。在一些实施方案中,肽标签的抗体可以是但不限于scfv抗体。在一些实施方案中,亲和多肽可以融合或连接至逆转录酶的n端。在一些实施方案中,亲和多肽在细胞或细胞提取物的还原条件下是稳定的。
[0194]
本发明的核酸构建体和/或指导核酸可以包含在如本文所述的一种或多种表达盒中。在一些实施方案中,本发明的核酸构建体可以包含在与包含指导核酸和/或募集指导核酸的表达盒或载体中相同或分开的表达盒或载体中。
[0195]
在一些实施方案中,针对在植物中的表达进行优化的本发明的核酸构建体、表达盒或载体可以与包含相同但未针对在植物中的表达进行密码子优化的核酸构建体、表达盒或载体约70%至100%相同的(例如,约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%)。
[0196]
在一些实施方案中,本发明提供了包含本发明的一种或多种多核苷酸、指导核酸、核酸构建体、表达盒或载体的细胞(例如,植物细胞、动物细胞、细菌细胞、古菌细胞等)。
[0197]
当与指导核酸组合使用时,本发明的核酸构建体(以及包含其的表达盒及载体)可用于修饰靶核酸。靶核酸可以在靶核酸与指导核酸接触之前、同时或之后与本发明的核酸构建体和/或包含其的表达盒和/或载体接触。在一些实施方案中,本发明的核酸构建体和指导核酸可以包含在相同的表达盒或载体中,因此,靶核酸可以与本发明的核酸构建体和指导核酸同时接触。在一些实施方案中,本发明的多核苷酸和指导核酸可以在不同的表达盒或载体中,因此,靶核酸可以在与指导核酸接触之前、同时或之后与本发明的核酸构建体接触。
[0198]
在一些实施方案中,在使靶核酸与本发明的多肽、组合物、复合物(例如,组装的核糖核蛋白复合物)、核酸构建体、表达盒和/或载体接触后,包含靶核酸的细胞和/或生物可以暴露于和/或提供在温度高于25℃的环境中一段时间(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60或更多分钟、小时或天)。在一些实施方案中,细胞和/或生物暴露于(例如,提供、孵育、培养、生长等在以下温度的环境中)范围在约26℃、28℃、30℃或32℃至约34℃、36℃、38℃、40℃或42℃的温度一段时间(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60或更多分钟、小时或天)。将细胞和/或生物暴露于高于25℃的温度一段时间可以增加编辑效率,任选地通过增加逆转录酶活性和/或破坏延伸指导核酸中的rna二级结构元件。在一些实施方案中,将细胞和/或生物暴露于高于25℃的温度可以改善本发明的多肽、组合物、复合物(例如,组装的核糖核蛋白复合物)、核酸构建体、表达盒和/或载体的性能。在一些实施方案中,生物是植物组织,并且在植物组织的植物细胞与本发明的多肽、组合物、复合物(例如,组装的核糖核蛋白复合物)、核酸构建体、表达盒和/或载体接触和/或转化后,植物组织在高于25℃的温度下孵育一段时间(例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60或更多分钟、小时或天)。在一些实施方案中,本发明的方法包括将细胞和/或生物暴露于两种或更多种不同的温度。例如,在用本发明的多肽、组合物、复合物(例如,组装的核糖核蛋白复合物)、核酸构建体、表达盒和/或载体接触和/或转化生物细胞之前、期间和/或之后,将细胞暴露于约25℃或更低的第一温度,
然后暴露于高于25℃的第二温度(例如,约26℃至约42℃),或反之亦然。在一些实施方案中,第一温度是在接触和/或转化步骤之前和/或期间,第二温度是在接触和/或转化步骤之后。
[0199]
根据本发明的一些实施方案,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可用于和/或配置以修饰(例如,编辑)基因组中的一个或多个基因座(基因座)以改变基因功能。在一些实施方案中,这可以通过修饰启动子、增强子、5'utr、外显子、内含子、3'utr、终止子、mirna结合位点和/或其他功能元件和/或这些元件之间的连接(junction)来实现。在一些实施方案中,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可用于和/或配置以提供一种或多种靶向启动子序列变化。可以以合理的方式设计靶向启动子序列变化,以通过插入或缺失已知调节序列来增加或减少任何时空点的基因表达。靶向序列变化也可用于非合理设计,以开发等位基因多样性,将其进行筛选确定有利的等位基因。在一些实施方案中,本发明的方法包括生成待筛选的等位基因多样性,例如通过在启动子敲击型(bashing)方法中靶向启动子区。可以生成包含2到5、10、25、50、100、200、300、400、500个或更多个延伸指导核酸的文库,这些指导核酸靶向基因启动子或编码序列,这可能有助于引入和/或这可能引入大量等位基因变异,这些变异可能有助于筛选优化的表型。
[0200]
在一些实施方案中,本发明的多核苷酸、复合物、组合物、系统、试剂盒和/或方法包含具有延伸的3'延伸的crrna(例如,1、2、3、4个或更多个crrna),并且crrna可以帮助和/或配置以帮助在生物中产生等位基因多样性。crrna可以与dna结合结构域和/或dna内切核酸酶(例如,crispr cas多肽)一起递送,或者可以分开递送。在一些实施方案中,crrna可以与dna结合结构域和/或dna内切核酸酶(例如,crispr cas多肽)组装和/或在相同的复合物中递送。在一些实施方案中,crrna和dna结合结构域和/或dna内切核酸酶分开递送至细胞(例如植物细胞)。在一些实施方案中,可以用dna结合结构域和/或dna内切核酸酶(例如crispr cas多肽)和任选的0、1、2或3个crrna转化第一生物(例如第一植物或(a)),并且可以用一个或多个crrna转化第二生物(例如,第二植物或品系(b))。如果存在至少一个crrna,则可以在品系a中在由crrna靶向的第一靶核酸(例如,第一基因座)处修饰(例如,编辑)第一生物(例如,品系a)。由于缺乏dna结合结构域和/或dna内切核酸酶,在第二生物中crrna不会修饰第二生物(例如,品系b)。该方法还可包括使第一生物和第二生物杂交,这可导致后代中的修饰,该修饰由在第一生物和第二生物中未修饰的第二靶核酸(例如,第二基因座)处的杂交引起,但也可以是由于未修饰的靶核酸和编辑机制的新组合,在后代中进行了修饰。杂交后代可能会遗传各种修饰和/或修复结果,这可能会导致等位基因多样性,其可以通过表型分析筛选获得理想的结果。该方法可以提供在靶核酸处引入的高密度等位基因变异,并且可以允许将表型分析用作初级筛选。
[0201]
根据本发明的一些实施方案,本发明的多肽、多核苷酸、复合物、组合物、系统、试剂盒和/或方法可用于和/或配置以共同修饰(例如共同编辑)基因,其赋予有助于分离改良植物的表型。该应用对转化系统效率低的作物具有很高的价值,适用于在不整合转基因dna序列的情况下进行修饰的要求。这可能对诸如蔓藤类浆果、核果和其他具有较长世代时间的无性繁殖杂交作物等作物特别有用。在一些实施方案中,递送针对两种不同靶核酸(例如,两种不同基因)的至少两种pegrna或一种pegrna和一种指导rna。第一靶核酸可以在感
兴趣的性状基因中并且可以使用诸如本文所述的编辑系统进行修饰(例如,使用先导编辑器或任何其他类型的基因组编辑工具以赋予具有经济价值的表型)。第二靶核酸可以是不同的靶核酸(例如,不同的基因),其使用编辑系统(例如,先导编辑器)进行修饰以赋予有助于鉴定和/或分离获得该编辑的细胞、组织的表型。例如,表型可以是视觉表型(例如,无刺、有光泽)、抗除草剂表型(例如,als抑制剂、草甘膦、ppo抑制剂等)和/或抗抗生素表型。赋予这种表型的修饰可以使得能够识别和/或分离已接受编辑机制的细胞、组织或植物。这样,提供的表型类似于可选择标记盒作为帮助恢复改良植物的工具。然而,一个关键的区别是该方法不需要转基因标记盒的基因组整合。因为两种pegrna可以通过相同的机制递送,在第二靶核酸中获得修饰的细胞可能比在第一靶核酸中获得修饰的随机概率大得多。因此,它们可用于帮助恢复通过编辑工具的瞬时递送获得的非转基因、修饰的生物(例如,植物)。试图获得非转基因、修饰植物的一个困难是无法防止未经处理的细胞再生,需要处理和筛选数千或数百万个外植体。因此,本发明的实施方案具有重大的经济利益并且可以实现非转基因的、修饰的生物(例如,植物)的研发生产系统(pipeline),其在没有选择工具的情况下实施会是不切实际的。
[0202]
可以使用本发明的核酸构建体(例如,seq id no:1-129)对任何植物或植物部分的靶核酸进行修饰(例如突变,例如碱基编辑、切割、造成切口等)。可以使用本发明的核酸构建体修饰任何植物(或将植物分组,例如,归入一个属或更高级的分类),包括被子植物、裸子植物、单子叶植物、双子叶植物、c3、c4、cam植物、苔藓植物、蕨类植物和/或拟蕨类植物、微藻和/或大型藻类。可用于本发明的植物和/或植物部分可以是任何植物物种/品种/栽培品种的植物和/或植物部分。如本文所用,术语“植物部分”包括但不限于胚、花粉、胚珠、种子、叶、茎、芽、花、枝、果实、籽粒、穗、穗轴、外壳、杆、根、根尖、花药、植物细胞,包括在植物和/或植物部分中完整的植物细胞、植物原生质体、植物组织、植物细胞组织培养物、植物愈伤组织、植物团块等。如本文所用,“芽”是指地上部分,包括叶和茎。此外,如本文所用,“植物细胞”是指植物的结构和生理单元,其包括细胞壁,也可以指原生质体。植物细胞可以是分离的单细胞的形式,或者可以是培养的细胞,或者可以是更高组织单元的一部分,例如植物组织或植物器官。
[0203]
可用于本发明的植物的非限制性实例包括草坪草(例如早熟禾、剪股颖、黑麦草、羊茅)、羽毛芦苇草、丛生发草、芒草、芦竹、柳枝稷、蔬菜作物,包括朝鲜蓟、球茎甘蓝、芝麻菜、韭葱、天门冬、莴苣(如结球莴苣、散叶莴苣、长叶莴苣)、黄肉芋、瓜(如甜瓜、西瓜、香瓜、蜜瓜、哈密瓜)、油菜作物(如抱子甘蓝、甘蓝、花椰菜、青花菜、羽衣甘蓝(collards)、羽衣甘蓝(kale)、大白菜、白菜)、刺菜蓟、胡萝卜、纳帕、黄秋葵、洋葱、芹菜、香芹菜、鹰嘴豆、欧洲防风、菊苣、辣椒、土豆、瓜类蔬菜(如西葫芦、黄瓜、意大利青瓜、笋瓜、南瓜、蜜瓜、西瓜、哈密瓜)、萝卜、干洋葱、芜菁甘蓝、茄子、婆罗门参、茅菜、青葱、苦苣、蒜、菠菜、葱、笋瓜、绿叶蔬菜、甜菜(糖用甜菜和饲用甜菜)、甘薯、牛皮菜、辣根、西红柿、芜菁和香料;水果作物,例如苹果、杏、车厘子、油桃、桃、梨、李子、西梅、樱桃、温柏、无花果、坚果(例如,栗子、长山核桃、开心果、榛子、开心果、花生、核桃、澳洲坚果、杏仁等)、柑橘(例如,克莱门氏小柑橘、金橘、橙子、葡萄柚、橘子、柑橘、柠檬、酸橙等)、蓝莓、黑树莓、波森莓、蔓越莓、黑醋栗、醋栗、罗甘莓、覆盆子、草莓、黑莓、葡萄(酿酒葡萄和鲜食葡萄)、鳄梨、香蕉、猕猴桃、柿、石榴、菠萝、热带水果、梨果、瓜、芒果、番木瓜和荔枝,三叶草、苜蓿、梯牧草、月见草等大田作物,白
芒花、玉米(饲料玉米、甜玉米、爆米花玉米)、蛇麻草、荷荷巴、荞麦、红花、藜麦、小麦、水稻、大麦、黑麦、粟、高粱、燕麦、小黑麦、高粱、烟草、木棉、豆科植物(豆类)(例如,青豆和干豆)、小扁豆、豌豆、大豆)、油料植物(油菜、卡诺拉、芥菜、罂粟、橄榄、向日葵、椰子、蓖麻、可可豆、落花生、油棕)、浮萍、拟南芥(arabidopsis)、纤维植物(棉花、亚麻、大麻、黄麻)、大麻(例如,大麻(cannabis sativa)、印度大麻(cannabis indica)和俄罗斯大麻(cannabis ruderalis))、樟科(肉桂、樟树)或咖啡、甘蔗、茶和天然橡胶植物等植物;和/或花坛植物,例如,开花植物、仙人掌、肉质植物和/或观赏植物(例如,玫瑰、郁金香、紫罗兰),以及树木,例如,林木(阔叶树和常青树,诸如针叶树;例如,榆树、白蜡树、橡树、枫树、冷杉、云杉、雪松、松树、桦树、柏树、桉树、柳树),以及灌木和其他苗木。在一些实施方案中,本发明的核酸构建体和/或编码其的表达盒和/或载体可用于修饰玉米、大豆、小麦、卡诺拉、水稻、西红柿、辣椒、向日葵、覆盆子、黑莓、黑树莓和/或樱桃。
[0204]
本发明还包括用于实施本发明方法的一个或多个试剂盒。适用于修饰靶核酸的本发明的试剂盒可以包括用于混合、测量、分类、标记等的试剂、缓冲液和装置,以及说明书等。
[0205]
在一些实施方案中,本发明提供了一种试剂盒,该试剂盒包含如本文所述的一种或多种本发明的核酸构建体和/或包含其的表达盒和/或载体和/或细胞,以及任选的使用说明书。在一些实施方案中,试剂盒还可包含crispr-cas指导核酸(对应于由本发明的多核苷酸编码的crispr-cas核酸酶)和/或包含其的表达盒和/或载体。在一些实施方案中,指导核酸可以提供在与本发明的核酸构建体相同的表达盒和/或载体上。在一些实施方案中,指导核酸可以提供在与包含本发明的核酸构建体的表达盒或载体分开的表达盒或载体上。
[0206]
因此,在一些实施方案中,提供了包含核酸构建体的试剂盒,所述核酸构建体包含(a)本文提供的多核苷酸和(b)驱动(a)的多核苷酸表达的启动子。在一些实施方案中,所述试剂盒还可包含编码指导核酸的核酸构建体,其中构建体包含用于将与靶核酸序列相同或互补的核酸序列克隆到指导核酸主链中的克隆位点。
[0207]
在一些实施方案中,本发明的核酸构建体可以是可以在编码的多核苷酸内编码一个或多个内含子的mrna。在一些实施方案中,本发明的核酸构建体和/或包含其的表达盒和/或载体还可编码一种或多种用于鉴定转化体的可选择标记(例如,编码抗生素抗性基因、除草剂抗性基因的核酸等)。
[0208]
现在将参考以下实施例描述本发明。应当理解,这些实施例并非旨在将权利要求书的范围限制到本发明,而是旨在示例某些实施方案。本领域技术人员想到的示例性方法的任何变化都旨在落入本发明的范围内。
实施例
[0209]
实施例1:通过募集进行先导编辑
[0210]
先前发表的先导编辑策略依赖于使用逆转录酶,逆转录酶通过多肽接头连接至效应蛋白。这自然会将逆转录酶限制在该接头长度可进入的区域。为了缓解这个问题,开发了将逆转录酶(rt)募集到基因组区的方法,从而导致编辑位点的局部浓度增加。测试了两种方法来实现这一目标,通过添加肽表位(suntag)募集到cas效应蛋白,以及通过添加发夹环募集到指导。
[0211]
方法:
[0212]
人细胞测试
[0213]
在添加10%(v/v)fbs(fbs)的杜氏改良伊格尔培养基加glutamax(thermofisher)中于37℃和5%co2下培养真核hek293t(atcc crl-3216)细胞。cas和逆转录酶组分是使用固态合成而合成的,随后被克隆到质粒中,在cmv启动子后面。crispr rna(crrna)和pegrna(例如,延伸指导核酸)克隆在人u6启动子后面。将hek293t细胞接种在48孔包被了胶原蛋白的biocoat板(corning)上。在约70%的汇合度转染细胞。根据制造商的方案,每孔使用1.5μl lipofectamine 3000(thermofisher scientific)转染750ng蛋白质质粒和250ng crrna表达质粒。3天后获得来自转染细胞的基因组dna,并使用高通量illumina扩增子测序检测和定量插入缺失。
[0214]
通过肽标签募集rt用于编辑
[0215]
为了测试逆转录酶募集的策略,设计了一个三质粒系统用于在人细胞中表达。作为对照,由ncas9蛋白组成的pe2架构与募集设计一起进行了测试,所述蛋白直接融合至与单个pegrna共同递送的mulv(5m)(具有五个突变-d200n l603w t330p t306k w313f的鼠白血病病毒逆转录酶)(anzalone et al.2019)逆转录酶。
[0216]
如图4所示,为了使得能够将逆转录酶募集到cas蛋白,将一组八个gcn4表位基序添加到切口酶cas9蛋白序列的c端,在ncas9(h840a)和八个gcn4表位基序之间具有接头(ncas9::gcn4)。ncas9::gcn4表达质粒包括驱动ncas9::gcn4转录单元的cmv启动子,ncas9::gcn4转录单元通过p2a核糖体切割序列与egfp标记分开。转录由bgh多a信号基序终止。在seq id no:53中提供了包括ncas9::gcn4::p2a::egfp的核苷酸序列。
[0217]
在分开的质粒上递送逆转录酶。逆转录酶mulv-5m融合至单链可变片段(scfv),scfv是一种抗体,该抗体会与融合至切口酶cas9的gcn4表位结合。如图5所示,逆转录酶之后是鸟嘌呤核苷酸结合蛋白亚基β(gb1)序列以增加溶解度(scfv::rt::gb1)。scfv::rt::gb1表达质粒包括驱动scfv::rt::gb1转录单元的cmv启动子,scfv::rt::gb1转录单元通过p2a核糖体切割序列与egfp标记分开。转录由bgh多a信号基序终止。在seq id no:54中提供了包括scfv::mulv(5m)::gb1::p2a::egfp的核苷酸序列。
[0218]
此外,还递送了第三质粒,其包含指导支架形式的pegrna(sgrna支架)和智人u6启动子(hs.u6)后面的cas9序列。pegrna的序列被设计为包含逆转录酶模板和引物结合序列(pbs),用于从逆转录酶进行设计编辑,如前文所述用于先导编辑。具有启动子的pegrna结构如图6所示。为了进行该测试,如表2所提供的,使用16个分开的指导质粒靶向人基因组中的4个分开的位点。
[0219]
表2:用于逆转录酶募集测试的指导质粒。
[0220]
[0221]
[0222][0223]
为了检查是否可以在不募集并因此通过逆转录酶的过表达的情况下实现编辑,使用相同的scfv::逆转录酶::gb1质粒但使用不包含gcn4基序的标准ncas9进行反式(in trans)处理。
[0224]
递送至细胞后,提取基因组dna,并通过扩增子测序对靶区域进行测序。如图7-10所示,募集策略与先前发表的pe2策略相同。
[0225]
将rt募集到上游模板
[0226]
将逆转录酶募集到编辑位点的另一种方法是将其募集到指导本身。为了检查这种架构,设计了一种策略,其中一个指导会募集逆转录酶,以便它可以定位在附接到第二指导的模板附近。如图11所示,募集是通过利用ms2 rna茎环序列作为sgrna支架后的3'延伸来实现的。然后这会募集逆转录酶,该逆转录酶已被工程改造为包含mcp包被蛋白序列,该序列将与rna上的ms2环结合,从而将逆转录酶募集到指导rna。在seq id no:71中提供了包括mcp::mulv(5m)的核苷酸序列。grna位于附近基因组位置的上游,模板和引物结合位点设计为位于募集的逆转录酶附近。在seq id no:72-73中提供了fancf grna的核苷酸序列。
[0227]
在质粒载体上使用用于ncas9和逆转录酶的cmv启动子以及用于指导rna的人u6启动子将这些组分分别引入人细胞。在seq id no:74中提供了包括ncas9(h840a)::p2a::egfp的核苷酸序列。作为对照,尝试使用pe3策略进行相同的编辑,其中逆转录酶连接至ncas9,并且将最初包含ms2环的指导交换为包含用于编辑的模板的pegrna。在seq id no:75-76中提供了fancf pegrna的核苷酸序列。
[0228]
为了检查募集策略是否可以通过募集来编辑人细胞中fancf基因座的两个靶,这些靶在两个分开的间隔区之间设计了变化。这些靶代表了多个变化,并且也代表了一个宽
的窗口,预计通过这种策略可以实现。图12显示了尝试的用于相反链策略的编辑实例(位点o2的wt序列(seq id no:77);位点o2的编辑序列(seq id no:78);位点o3的wt序列(seq id no:79);和位点o3的编辑序列(seq id no:80)。该设计与图13中所示的相同链策略相似。
[0229]
在递送试剂后,通过扩增子测序对靶进行测序。pe3阳性对照显示在两个位点都针对相反链和相同链策略进行了编辑。如图14中提供(上行:seq id no:81;下行:seq id no:82)和图15(上行:seq id no:83;中行:seq id no:84;下行:seq id no:85)的比对所示,在实验中,仅通过相反链策略获得阳性编辑,其中在o2和o3位点均观察到编辑(图12)。当逆转录酶未引入系统时,未观察到编辑。
[0230]
实施例2:植物中先导编辑的证据
[0231]
方法
[0232]
烟草渗透:
[0233]
简言之,4周大的本氏烟草(nicotiana benthamiana)植物被用于用编辑构建体进行渗透。在渗透之前,从植物中去除所有侧枝和花芽并给植物浇水。将构建体接种到含有适当抗生素的lb液体培养基中,并在28摄氏度下摇动2天。渗透当天上午,将培养物重新悬浮在渗透缓冲液(10mm mgcl2、10mm mes、ph5.6)中并稀释至最终od为0.7。先导构建体与包含zsgreen荧光报告基因的pwise711以3:1的编辑与报告基因比例混合。用无针注射器将叶子渗透到叶子的下面。渗透后,让植物在实验室工作台上静置1小时,然后移至生长室。5-6天后,从生长室收集植物并用蓝光手电筒观察处理过的叶子。叶样品是从显示荧光的区域收集的,因此存在引入的构建体。在用于扩增子测序之前,从这些样品中收集基因组dna。
[0234]
实验设计:
[0235]
为了使先前发表的在人细胞中进行的先导编辑实验适应植物,设计了一个实验来询问不同的逆转录酶和密码子优化。首先,mumlv(5m)逆转录酶针对单子叶植物和双子叶植物进行了密码子优化。此外,大豆褪绿斑驳病毒(sbcmv)(uniprot id p15629)和花椰菜花叶病毒(camv)(uniprot id p03556)逆转录酶针对双子叶植物进行了优化以及使用天然序列。实验中使用的各种逆转录酶列于表3中。
[0236]
表3:用于实验的逆转录酶
[0237]
名称逆转录酶密码子优化靶mmlv_mo1(seq id no:86)mumlv(5m)单子叶植物mmlv_mo2(seq id no:87)mumlv(5m)单子叶植物mmlv_mo3(seq id no:88)mumlv(5m)单子叶植物mmlv_do1(seq id no:89)mumlv(5m)双子叶植物mmlv_do2(seq id no:90)mumlv(5m)双子叶植物sbcmv_天然片段(seq id no:91)sbcmv天然序列sbcmv_do1(seq id no:92)sbcmv双子叶植物camv_天然片段(seq id no:93)camv天然序列camv_do1(seq id no:94)camv双子叶植物
[0238]
这些逆转录酶通过xten接头连接至spcas9(h840a)的切口酶变体。为了检查表达的影响,这些编辑器中的每一个都被放置在由香蕉条纹病毒增强子和大丽花花叶病毒的启动子和5'utr或蒺藜苜蓿的泛素2启动子组成的双病毒启动子后面。然后将这18个编辑盒
(由2个启动子驱动的9个逆转录酶序列)与靶向pe3架构中烟草的pds或肌动蛋白基因座的双引导盒组合,其中包含一个pegrna,该pegrna包含用于用逆转录酶进行编辑的模板,以及一个标准的sgrna,它将在pegrna的靶位点附近引入一个切口;切口序列是seq id no:122-128之一。在表4中提供了pegrna序列。每个pegrna具有在甘氨酸max 7sl pol iii启动子之后使用的seq id no:95-101之一的序列,并且包括具有seq id no:102-108之一的序列的间隔区,具有seq id no:129的序列的sgrna支架,具有seq id no:115-121之一的序列的引物结合位点,以及编码如图16所示的所需变化的具有seq id no:109-114或seq id no:161之一的序列的逆转录酶模板。表4中还提供了sgrna盒序列。每个sgrna具有seq id no:130-136之一的序列并且包括具有seq id no:137-143之一的序列的间隔区和具有seq id no:129的序列的sgrna支架。对于本实验,所有逆转录酶模板和引物结合位点的长度均为10bp,编码的变化为6bp缺失。
[0239]
然后如方法部分所述,将这126个构建体渗透到烟叶中。
[0240]
[0241]
[0242][0243]
结果
[0244]
在扩增子测序后,观察到pwise2780(seq id no:144)的阳性编辑,其中在双病毒
启动子后面使用了mmlv_mo1密码子优化的mumlv(5m)逆转录酶。观察到所需的6bp缺失以及在逆转录酶模板之后并入支架序列开始的2bp插入,最终结果是6bp缺失和2bp插入,如图17所示,其中上行是靶向基因序列(seq id no:130),带有注释的间隔区和引物结合位点。图17的第二行(seq id no:131)是与参考比对的扩增子测序结果,其显示了靶向缺失和插入,下行是seq id no:132。
[0245]
以上是对本发明的说明,不应被解释为对其的限制。本发明由所附权利要求书限定,其中包括权利要求的等同物。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献