一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

控制分生组织大小以改良作物的方法与流程

2023-01-15 05:17:23 来源:中国专利 TAG:

控制分生组织大小以改良作物的方法
1.关于序列表电子提交的声明
2.根据37c.f.r.
§
1.821,经由efs-web提交了文件名为1499.26.wo_st25.txt的ascii文本格式的序列表,以代替其纸质副本。序列表大小为454,224字节,于2021年3月25日生成。该序列表在此通过引用将其公开内容并入说明书中。
3.优先权声明
4.本技术根据35u.s.c.
§
119(e)要求2020年3月26日提交的美国临时申请no.63/000,206的权益,其全部内容通过引用并入本文。
技术领域
5.本发明涉及用于修饰植物中的faciated ear2(fea2)基因、任选地用于修饰分生组织尺寸的组合物和方法。本发明还涉及使用本发明的方法和组合物生产的具有增加的穗行数(kernel row number)的植物。


背景技术:

6.新的植物器官在植物的称为分生组织的生长尖端处起始。在分生组织中维持着未分化干细胞群。在生长期间,分生组织将干细胞分配给新形成的器官,包括种子,同时保留一些干细胞以连续维持分生组织。已经描述了几种保守的分子机制,其控制干细胞群的大小以确保组织化生长和适当的分生组织大小。
7.由于玉米穗发育的模块化性质,较大的分生组织倾向于启动更多的花,因此,分生组织尺寸对穗行数和产量具有直接影响。在玉米穗的发育期间启动的花的数量直接限制了谷粒产量。围绕穗周围启动的增加数量的花(穗行数或krn)是在玉米驯化期间选择的一个主要性状。通过育种的显著进步已经导致了穗行数的急剧增加,从作为玉米先辈的teosinte中的2行,到现代优秀玉米品种中的~8-20行。在各种玉米品系中,穗行数可以高达36。
8.在模型植物拟南芥模型中描述的经典调控途径中,分生组织顶点中的细胞分泌clavata3(clv3)肽,其移动通过质外体进入中心干细胞结构域,在那里它与包括clavata1(clv1)和clavata2(clv2)的若干富含亮氨酸的受体(lrr)相互作用。这种受体-配体相互作用刺激信号传导,其最终起到降低wus表达和限制干细胞群扩增的作用。wus的靶标之一是clv3基因本身,通过这种方式,wus起到限制其自身表达并维持干细胞稳态的作用(fletcher,j.c.,plants 7:87(2018))。
9.clv1、clv2或clv3中功能丧失突变导致wus结构域的扩增和增加的分生组织大小(schoof等人,cell 100:635

644(2000))。通常,这种分生组织大小的增加导致异常的植物生长,因为分生组织不受控制地膨胀并且变得紊乱,这种现象被称为扁化(je等人,nat genet 48:ng.3567(2016a))。重要的是,较大的分生组织不仅制造较大的器官,而且围绕较大区域的器官数量增加。由于分生组织大小和器官数目之间的这种关系,玉米clv-wus信号传导基因中的突变可以导致增加的花数目和产量。然而,虽然玉米clv2直系同源物
faciated ear2(fea2)中强的功能丧失突变导致扩大的分生组织和krn的增加,但是穗是无序的,并且因此没有产量增加(taguchi-shiobara等人,gene dev 15:2755

2766(2001))。
10.需要用于调节分生组织大小的新策略以改善作物性能。


技术实现要素:

11.本发明的一个方面提供了一种植物或其植物部分,其包含在编码fea2蛋白的内源faciated ear2(fea2)基因中的至少一个非天然突变。
12.本发明的第二方面提供了一种植物细胞,其包含编辑系统,所述编辑系统包含:(a)crispr-cas效应蛋白;和(b)引导核酸(grna、gdna、crrna、crdna、sgrna、sgdna),其包含与编码fea2蛋白的内源性靶基因具有互补性的间隔子序列。
13.本发明的第三方面提供了在fea2基因内包含至少一个非天然存在的突变的玉米植物细胞,其中所述突变是使用编辑系统引入的取代、插入或缺失,所述编辑系统包含与所述fea2基因中的靶位点结合的核酸结合结构域。
14.本发明的第四方面提供了一种产生/培育无转基因的经过编辑的玉米植物的方法,包括:将本发明的玉米植物与无转基因的玉米植物杂交,从而将所述至少一个非天然突变引入所述无转基因的玉米植物中;和选择包含所述至少一个非天然突变且无转基因的子代玉米植物,从而产生无转基因的经过编辑的玉米植物。
15.本发明的第五方面提供了一种提供具有增加的穗行数的多个玉米植物的方法,该方法包括在生长区域中种植本发明的两株或更多株植物,从而提供与不包含所述突变的多个对照玉米植物相比具有增加的穗行数的多个玉米植物。
16.本发明的第六方面提供了一种在玉米fea2蛋白的区域中产生变异的方法,包括:将编辑系统引入玉米植物细胞中,其中所述编辑系统靶向编码所述玉米fea2蛋白的区域的玉米fea2基因的区域,其中所述区域包含seq id no:69或seq id no:70的氨基酸序列,或者所述区域由seq id no:71或seq id no:72的核苷酸序列编码;以及使所述玉米fea2基因的区域与所述编辑系统接触,从而将突变引入玉米fea2蛋白的区域中;以及在fea2蛋白的区域中产生变异。
17.本发明的第七方面提供了一种用于编辑玉米植物细胞的基因组中编辑特异性位点的方法,所述方法包括:以位点特异性方式切割玉米植物细胞中的内源fea2基因内的靶位点,所述内源fea2基因包含与seq id no:66或seq id no:67的核苷酸序列具有至少90%序列同一性的序列,或编码与seq id no:68的氨基酸序列具有至少95%序列同一性的序列,从而在玉米植物细胞的内源fea2基因中产生编辑并产生在所述内源fea2基因中包含所述编辑的玉米植物细胞。
18.第八方面提供了一种用于制造玉米植物的方法,其包括:(a)使包含野生型内源fea2基因的玉米植物细胞群与连接到核酸结合结构域(例如dna结合结构域;例如编辑系统)的核酸酶接触,所述核酸结合结构域结合与seq id no:71或seq id no:72的核苷酸序列具有至少90%序列同一性的序列;或结合编码与seq id no:69或seq id no:70具有至少90%序列同一性的氨基酸序列的序列;(b)从所述群中选择其中至少一个野生型内源fea2基因已经被突变的玉米植物细胞;和(c)将所选择的植物细胞生长成玉米植物。
19.第九方面提供了一种用于增加玉米植物中的穗行数的方法,包括:(a)使包含野生
型内源fea2基因的玉米植物细胞与靶向所述野生型内源fea2基因的核酸酶接触,其中所述核酸酶与核酸结合结构域(例如dna结合结构域;rna结合结构域;例如编辑系统)连接,该核酸结合结构域结合野生型内源fea2基因中的靶位点,其中所述野生型内源fea2基因:(i)编码与seq id no:68的氨基酸序列具有至少95%序列同一性的序列;(ii)包含与seq id no:66或seq id no:67的核苷酸序列具有至少90%序列同一性的序列;(iii)包含与seq id no:71或seq id no:72的核苷酸序列具有至少90%序列同一性的序列;或(iv)编码与seq id no:69或seq id no:70的氨基酸序列具有至少90%序列同一性的序列,以产生在野生型内源fea2基因中包含突变的玉米植物细胞,从而产生包含在所述内源fea2基因中具有至少一个突变的细胞的玉米植物;和(b)将所述玉米植物细胞生长成玉米植物,其在所述野生型内源fea2基因中包含突变,从而产生具有突变的内源性fea2基因并产生具有增加的穗行数的一个或多个穗的玉米植物,任选地其中所述具有增加的穗行数的所述一个或多个穗的长度没有实质性减小。
20.第十方面提供了用于产生包含具有突变的内源fea2基因的至少一个细胞的玉米植物或其部分的方法,该方法包括使玉米植物或植物部分中的内源fea2基因中的靶位点与包含切割结构域和核酸结合结构域的核酸酶接触,其中所述核酸结合结构域结合内源fea2基因中的靶位点,其中所述内源fea2基因(a)编码与seq id no:68的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:66或seq id no:67的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:71或seq id no:72的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:69或seq id no:70的氨基酸序列具有至少90%序列同一性的序列,以产生在野生型内源fea2基因中包含突变的植物细胞,从而产生包含在内源fea2基因中具有突变的至少一个细胞的玉米植物或其部分。
21.本发明的第十一方面提供了用于生产包含突变的内源fea2基因并表现出增加的穗行数(例如产生具有增加的穗行数的穗,任选地基本上不缩短穗的长度)的玉米植物或其部分的方法,该方法包括使所述玉米植物或植物部分中的内源fea2基因中的靶位点与包含切割结构域和核酸结合结构域的核酸酶接触,其中所述核酸结合结构域结合所述内源fea2基因中的靶位点,其中所述内源fea2基因:(a)编码与seq id no:68的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:66或seq id no:67的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:71或seq id no:72的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:69或seq id no:70的氨基酸序列具有至少90%序列同一性的序列,从而生产包含具有突变的内源fea2基因并表现出增加的穗行数的玉米植物或其部分。
22.第十二方面提供了与fea2基因中的靶位点结合的引导核酸,所述靶位点包含seq id no:71或seq id no:72的核苷酸序列或编码seq id no:69或seq id no:70的氨基酸序列的核苷酸序列。
23.在第十三方面,提供了一种系统,其包含本发明的引导核酸和与所述引导核酸结合的crispr-cas效应蛋白。
24.第十四方面提供了一种基因编辑系统,其包含与引导核酸缔合的crispr-cas效应蛋白,其中所述引导核酸包含与内源fea2基因结合的间隔子序列。
25.在第十五方面,提供了一种复合物,所述复合物包含引导核酸和含有切割结构域
的crispr-cas效应蛋白,其中所述引导核酸结合内源fea2基因中的靶位点,其中所述内源fea2基因:(a)编码与seq id no:68的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:66或seq id no:67的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:71或seq id no:72的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:69或seq id no:70的氨基酸序列具有至少90%序列同一性的序列,其中所述切割结构域切割所述fea2基因中的靶标链。
26.在第十六方面,提供了一种表达盒,所述表达盒包含(a)编码crispr-cas效应蛋白的多核苷酸,所述crispr-cas效应蛋白包含切割结构域,和(b)与内源fea2基因中的靶位点结合的引导核酸,其中所述引导核酸包含与下述互补并与之结合的间隔子序列:(i)编码与seq id no:68的氨基酸序列具有至少95%序列同一性的氨基酸序列的核酸的一部分;(ii)与seq id no:66或seq id no:67的核苷酸序列具有至少90%序列同一性的序列的一部分;(iii)与seq id no:71或seq id no:72的核苷酸序列中的任一个具有至少90%序列同一性的序列的一部分;和/或(iv)与编码seq id no:69或seq id no:70的氨基酸序列的序列具有至少90%序列同一性的序列。
27.在另一个方面,提供了一种在植物中的内源fea2基因中产生突变的方法,包括:(a)将基因编辑系统靶向fea2基因的编码相对于seq id no:68的氨基酸位置编号而言位于位置475、476、477、478或479处的氨基酸残基的部分,和(b)选择在相对于seq id no:68的氨基酸位置编号而言位于位置475-479之一处的替代氨基酸、任选地在位置477处的氨基酸残基处的替代氨基酸的植物。
28.本发明的另一方面提供了编码玉米fea2蛋白的显性负突变(dominant negative mutation)、半显性突变(semi-dominant mutation)或弱的功能损失突变(weak loss-of-function mutation)的核酸。在一些实施方案中,该核酸包含seq id no:83-113中任一个的核苷酸序列和/或编码seq id no:159-186中任一个的氨基酸序列。在一些实施方案中,本发明的核酸的一部分包含seq id no:114-128中任一个的序列和/或编码seq id no:134-148中任一个的氨基酸序列。
29.本文还提供了如本文所述修饰的fea2多肽,所述修饰的fea2多肽包含相对于seq id no:74的氨基酸位置编号而言位于位置475、476、477、478或479处的一个或多个氨基酸残基中的突变和/或包含seq id no:134-148中任一个的氨基酸序列。
30.在另一方面,提供了包含本发明的核酸和/或如本文所述的修饰的fea2多肽的玉米植物或其部分。
31.在另一方面,提供了一种玉米植物或其部分,其包含内源fea2基因中的至少一种非天然突变,所述玉米植物表现出增加的穗行数(例如产生具有增加的穗行数的穗,任选地基本上不减少穗的长度)。在一些方面,提供了一种玉米植物,其还表现出增加的产量,和改善的抗病性,以及表现出维持的更大的分生组织和根分生组织。
32.还提供了在其基因组中包含通过本发明的方法产生的在子基因组中包含一种或多种突变的faciated ear2(fea2)基因的植物以及用于制造本发明的植物的多肽、多核苷酸、核酸构建体、表达盒和载体。
33.在下面的本发明描述中更详细地阐述了本发明的这些和其他方面。
34.序列的简要描述
35.seq id no:1-17是可用于本发明的示例性cas12a氨基酸序列。
36.seq id no:18-20是可用于本发明的示例性cas12a核苷酸序列。
37.seq id no:21-22是编码启动子和内含子的示例性调节序列。
38.seq id no:23-29是可用于本发明的示例性胞嘧啶脱氨酶序列。
39.seq id no:30-40是可用于本发明的示例性腺嘌呤脱氨酶氨基酸序列。
40.seq id no:41是可用于本发明的示例性尿嘧啶-dna糖基化酶抑制剂(ugi)序列。
41.seq id no:42-44提供v型crispr-cas12a核酸酶的原间隔子邻近基序位置的实例。
42.seq id no:45-47提供可用于本发明的示例性肽标签和亲和多肽。
43.seq id no:48-58提供可用于本发明的rna募集基序示例和相应的亲和多肽。
44.seq id no:59-60是可用于本发明的示例性cas9多肽序列。
45.seq id no:61-71是可用于本发明的示例性cas9多核苷酸序列。
46.seq id no:72是fea2基因组序列的实例。
47.seq id no:73是fea2编码(cds)序列的实例。
48.seq id no:74是fea2多肽序列的实例。
49.seq id no:75和seq id no:76是fea2多肽的示例性靶标区域。
50.seq id no:77和seq id no:78是fea2基因组序列的示例性靶区域。
51.seq id no:79-82是可用于本发明的核酸引导的示例性间隔子序列。
52.seq id no:83-113是示例性的经编辑的fea2核酸序列。
53.seq id no:114-128是图3中所示的经编辑的fea2核酸序列的部分。
54.seq id no:129是fea2核酸序列的一部分,其显示如图4中所示的用于编辑的示例性靶区域。
55.seq id no:130显示了图3中所示的共有fea2核苷酸序列。
56.seq id no:131显示了图3中所示的共有野生型(wt)fea2编码序列。
57.seq id no:132-148是图3中所示的经编辑的fea2氨基酸序列的部分。
58.seq id no:149-153是图4所示的经编辑的fea2核苷酸序列的部分。
59.seq id no:154-158是图4中所示的经编辑的fea2氨基酸序列的部分。
60.seq id no:159-186是分别由经编辑的fea2核酸序列seq id no:83-113编码的多肽。
附图说明
61.图1提供了fea2多肽的图谱,其显示富含亮氨酸的重复(lrr)结构域的位置和一个靶区域实例。
62.图2提供了fea2编码序列(cds)(seq id no:129)的区域或部分的示意图,其示出了lrr结构域和示例靶区域以及用于编辑靶区域的示例间隔子。间隔子1(seq id no:74)、间隔子2(seq id no:75)、间隔子3(seq id no:76)和间隔子4(seq id no:73)。
63.图3提供了经编辑的fea2核酸和氨基酸序列的比对(从上到下,fea2共有序列(分别为seq id no:130、seq id no:131、对应的氨基酸序列seq id no:132和seq id no:133)、seq id no:114(对应的氨基酸序列seq id no:134)、seq id no:115(对应的氨基酸
序列seq id no:135)、seq id no:116(对应的氨基酸序列seq id no:136)、seq id no:117(对应的氨基酸序列seq id no:137)、seq id no:118(对应的氨基酸序列seq id no:138)、seq id no:119(对应的氨基酸序列seq id no:139)、seq id no:120(对应的氨基酸序列seq id no:140)、seq id no:121(对应的氨基酸序列seq id no:141)、seq id no:122(对应的氨基酸序列seq id no:142)、seq id no:123(对应的氨基酸序列seq id no:143)、seq id no:124(对应的氨基酸序列seq id no:144)、seq id no:125(对应的氨基酸序列seq id no:145)、seq id no:126(对应的氨基酸序列seq id no:146)、seq id no:127(对应的氨基酸序列seq id no:147)和seq id no:128(对应的氨基酸序列seq id no:148)。
64.图4示出了修饰内源性fea2的靶区域以生成多个等位基因的结果。图a示出了对穗行数(krn)的影响,下面包括来自包含所述经编辑的等位基因的植物的玉米芯的横截面照片及其图形描绘。图b显示经编辑的内源fea2基因的区域和所产生的特定编辑(从上到下:内源wt fea2基因(gus对照)的部分(seq id no:149和相应的氨基酸序列seq id no:154)、p477>s、(seq id no:150和相应的氨基酸序列seq id no:155)、p477>c(seq id no:151和相应的氨基酸序列seq id no:156)、p477>f(seq id no:152和相应的氨基酸序列seq id no:157)、终止2类(seq id no:153和相应的氨基酸序列seq id no:158)。图c提供每个经编辑的等位基因的平均穗行数(krn)和平均穗长(cm)的条形图。
具体实施方式
65.现在将在下文中参考附图和实施例描述本发明,在实施例中示出了本发明的一些实施方式。该描述并非意在详细列出可以执行本发明的所有不同方式或者可以添加到本发明中的所有特征。例如,关于一个实施方式示出的特征可以并入其他实施方式中,并且关于一个特定实施方式示出的特征可以从该实施方式中删除。因此,本发明中包括,在本发明的一些实施方式中,可以排除或省略本文阐述的任何特征或特征组合。另外,基于本发明的本公开,对本文提出的各种实施方式的许多变化和添加对于本领域技术人员将是显而易见的,它们并不脱离本发明。因此,以下描述旨在说明本发明的一些特定实施方式,而不是详尽地指定其所有排列、组合和变化。
66.除非另外定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同含义。本文在对本发明的描述中所使用的术语仅出于描述特定实施方式的目的,且并不意图限制本发明。
67.本文引用的所有出版物、专利申请、专利和其他参考文献通过引用整体并入本文,以获得与呈现参考文献的句子和/或段落相关的教导。
68.除非上下文另有说明,否则本文描述的本发明的各种特征可以任何组合使用。此外,本发明还预期在本发明的一些实施方式中,可以排除或省略本文阐述的任何特征或特征组合。举例来说,如果说明书中陈述组合物包含组分a、b和c,则其具体地表明可以省略a、b或c中的任何一个或其组合,以及单独地或以任何组合进行放弃。
69.如在本发明的描述和所附权利要求中所使用的,单数形式“一种”、“一个”和“该”/“所述”旨在也包括其复数形式,除非上下文另有明确说明。
70.同样如本文所使用的,“和/或”是指“和”涵盖一个或多个相关联的所列项目的任何和所有可能的组合,当解释成替代方案(“或”)时指缺乏组合。
71.当提及诸如量或浓度等的可测量值时,如本文所用的术语“约”意在涵盖指定值以及指定值的
±
10%、
±
5%、
±
1%、
±
0.5%或甚至
±
0.1%的变化。例如,“约x”(其中x是可测量值)是指包括x以及x的
±
10%、
±
5%、
±
1%、
±
0.5%或甚至
±
0.1%的变化。本文中针对可测量值提供的范围可包含其中的任何其它范围及/或具体值。
72.如本文所用,诸如“在x和y之间”/“x-y”和“在约x和y之间”/“约x-y”的短语应被解释为包括x和y。如本文所用,短语诸如“在约x与y之间”/“约x-y”意指“在约x与约y之间”,短语诸如“从约x至y”意指“从约x至约y”。
73.除非本文另有说明,否则本文中对数值范围的叙述仅旨在用作单独提及落入该范围内的每个单独值的简写方法,并且每个单独的值并入本说明书中,如同其在本文中被单独记载一样。例如,如果公开了范围10到15,则还公开了11、12、13和14。
74.如本文中所使用的术语“包括”、“具有”和“包含”等是指存在所陈述的特征、整数、步骤、操作、要素和/或组件,但不排除一个或多个其它特征、整数、步骤、操作、要素、组件和/或其群组的存在或添加。
75.如本文所用,过渡短语“基本上由
……
组成”是指权利要求的范围应被解释为涵盖权利要求中所述的指定材料或步骤以及不实质上影响所要求保护的本发明的基本和新颖特征的那些材料或步骤。因此,当在本发明的权利要求中使用时,术语“基本上由
……
组成”不旨在被解释为等同于“包括”。
76.如本文所用,术语“增加”、“增加的”、“增强”、“增强的”(及其语法变型)描述了与对照相比至少约5%、10%、15%、20%、25%、50%、75%、100%、150%、200%、300%、400%、500%或更多的升高。例如,包含如本文所述的fea2基因中的突变的植物可以表现出增加的穗行数(例如产生具有增加的穗行数的穗),其比不包含相同突变的对照植物的穗行数多至少约5%或更多,任选地,其中包含增加的穗行数的穗的长度没有实质性减小(例如与不包含相同fea2突变的植物的穗相比,长度减小小于30%)。对照植物通常是与被编辑的植物相同的植物,但是对照植物尚未被类似地编辑,因此不包含所述突变。对照植物可以是等基因植物和/或野生型植物。因此,对照植物可以是与渐渐渗本文所述突变的受试植物相同的育种系、品种或栽培品种,但对照育种系、品种或栽培品种没有所述突变。在一些实施方案中,本发明的植物和对照植物之间的比较是在相同的生长条件下进行的,例如相同的环境条件(土壤、水合、光、热、营养物等)。
77.如本文所用,术语“减少”、“减少的”、“降低”、“降低的”(及其语法变体)描述了例如与对照物相比至少约5%、10%、15%、20%、25%、35%、50%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、99.6%、99.7%、99.8%、99.9%或100%的减少。在特定实施方式中,该减少可以导致没有或基本上没有(即,不显著的量,例如小于约10%或甚至5%)可检测的活性或量。
78.如本文所用,关于核酸分子和/或核苷酸序列(例如rna或dna)使用的术语“表达”、“表达的”等表示核酸分子和/或核苷酸序列被转录并任选地被翻译。因此,核酸分子和/或核苷酸序列可以表达感兴趣的多肽或例如功能性非翻译rna。
[0079]“异源”或“重组”核苷酸序列是不与其被引入的宿主细胞天然关联的核苷酸序列,包括天然存在的核苷酸序列的非天然存在的多个拷贝。“异源”核苷酸/多肽可以源自外来物种,或者如果来自相同物种,则其通过有意的人类干预从组合物和/或基因组基因座的其
天然形式被实质性修饰。
[0080]“天然”或“野生型”核酸、核苷酸序列、多肽或氨基酸序列是指天然存在的或内源的核酸、核苷酸序列、多肽或氨基酸序列。因此,例如,“野生型内源性faciated ear2(fea2)基因”是天然存在于参考生物体(例如玉米植物)中或其内源性的fea2基因。
[0081]
如本文所用,术语“杂合”是指其中不同等位基因存在于同源染色体上的相应基因座处的遗传状态。
[0082]
如本文所用,术语“纯合”是指其中相同等位基因存在于同源染色体上的相应基因座处的遗传状态。
[0083]
如本文所用,术语“等位基因”是指在特定基因座处出现的两个或更多个不同核苷酸或核苷酸序列中的一个。
[0084]“无效等位基因”是由基因突变引起的非功能性等位基因,其导致完全缺乏相应蛋白质的产生或产生非功能性的蛋白质。
[0085]“显性负突变”是产生改变的基因产物(例如相对于野生型而言具有异常功能)的突变,该基因产物不利地影响野生型等位基因或基因产物的功能。例如,“显性负突变”可以阻断野生型基因产物的功能。显性负突变也可以被称为“反效等位基因突变”(anti-morphic mutation)。
[0086]“半显性突变”是指杂合生物体中表型的渐渗小于对纯合生物体观察到的渐渗的突变。
[0087]“弱的功能缺失突变”(weak loss-of-function mutation)是导致与野生型基因产物相比具有部分功能或功能降低(部分失活)的基因产物的突变。
[0088]“基因座”是染色体上基因或标记或等位基因所在的位置。在一些实施方式中,基因座可以涵盖一或多个核苷酸。
[0089]
如本文所用,术语“所需等位基因”、“靶等位基因”和/或“感兴趣的等位基因”可互换使用,以指代与所需性状相关的等位基因。在一些实施方案中,取决于所需表型的性质,所需等位基因可以与给定性状的增加或减少(相对于对照)相关联。
[0090]
当性状与标记连锁时以及当标记的存在是所需性状或性状形式是否存在于和/或在何种程度上将存在于包含所述标记的植物/种质中的指标时,则所述标记与所述性状“相关联”。类似地,当标记与等位基因或染色体间隔连锁时并且当标记的存在是所述等位基因或染色体间隔是否存在于包含该标记的植物/种质中的指标时,则所述标记与所述等位基因或所述染色体间隔“相关联”。
[0091]
如本文所用,术语“回交”和“进行回交”是指后代植物返回与其亲本之一进行一次或多次(例如1、2、3、4、5、6、7、8等)杂交的过程。在回交方案中,“供体”亲本是指具有待渐渗的所需基因或基因座的亲本植物。“接受者”亲本(使用一次或多次)或“回交”亲本(使用两次或更多次)是指基因或基因座被渐渗其中的亲本植物。例如参见ragot,m.et al.marker-assisted backcrossing:a practical example,in techniques et utilisations des marqueurs moleculaires les colloques,vol.72,pp.45-56(1995);和openshaw et al.,marker-assisted selection in backcross breeding,in proceedings of the symposium"analysis of molecular marker data,"pp.41-43(1994)。初始杂交产生f1代。术语“bc1”是指回交亲本的第二次使用,“bc2”是指回交亲本的第三次使用,等等。
[0092]
如本文所用,术语“杂交”或“杂交的”是指通过授粉而配子融合以产生子代(例如细胞、种子或植物)。该术语包括有性杂交(一株植物被另一株植物授粉)和自交(自花授粉,例如当花粉和胚珠来自同一植物时)。术语“杂交”是指通过授粉融合配子以产生子代的动作。
[0093]
如本文中所用,术语“渐渗(introgression)”、“进行渐渗(introgressing)”和“渐渗的(introgressed)”是指一个或多个基因座的所需等位基因或所需等位基因的组合从一个遗传背景到另一个遗传背景的自然和人工传递。例如,特定基因座的所需等位基因可以通过同一物种的两个亲本间的有性杂交传递给至少一个后代,其中至少一个亲本在其基因组中具有所需等位基因。或者,例如,等位基因的传递可以例如在融合的原生质体中通过两个供体基因组之间的重组发生,其中至少一个供体原生质体在其基因组中具有所需的等位基因。所需等位基因可以是标记、qtl、转基因等的选定等位基因。包含所需等位基因的后代可以与具有所需遗传背景的品系回交一次或多次(例如1次、2次、3次、4次或更多次),选择所需等位基因,结果是所需等位基因变成固定在所需遗传背景中。例如,与非水胁迫条件下产量增加相关联的标记可从供体渐渗到不包含该标记且在非水胁迫条件下不显示产量增加的回交亲本。然后可以将得到的后代回交一次或多次,并进行选择,直至后代具有与在回交亲本背景下非水分胁迫条件下产量增加相关联的遗传标记。
[0094]“遗传图谱”是对给定物种中一条或多条染色体上的基因座之间的遗传连锁关系的描述,通常以图表或表格的形式描述。对于每个遗传图谱,基因座之间的距离通过它们之间的重组频率来测量。可以使用多种标记检测基因座之间的重组。遗传图谱是作图群体、所用标记类型和不同群体间每个标记的多态性潜力的产物。基因座之间的顺序和遗传距离可以因遗传图谱的不同而不同。
[0095]
如本文中所用,术语“基因型”是指个体(或个体群体)在一个或多个基因座的遗传组成,与可观察和/或可检测和/或表现的性状(表型)形成对比。基因型由个体从其亲本遗传的一个或多个已知基因座的一个或多个等位基因定义。术语基因型可用于指个体在单个基因座、多个基因座的遗传组成,或者更一般地,术语基因型可用于指个体基因组中所有基因的个体遗传组成。基因型可以例如使用标记间接表征和/或通过核酸测序直接表征。
[0096]
如本文中所用,术语“种质”指个体(例如植物)、个体群(例如植物品系、品种或家族)或源自品系、品种、物种或培养物的克隆的遗传物质,或来自其的遗传物质。种质可以是生物体或细胞的一部分,或者可以与生物体或细胞分离。一般来说,种质提供了具有特定遗传组成的遗传物质,所述遗传物质为生物体或细胞培养物的一些或全部遗传性质提供了基础。如本文中所用,种质包括可从其生长出新植物的细胞、种子或组织,以及可培养成完整植物的植物部分(例如叶、茎、芽、根、花粉、细胞等)。
[0097]
如本文中所用,术语“栽培品种”和“品种”是指一组相似的植物,它们通过结构或遗传特征和/或性能可以与同一物种内的其它品种相区别。
[0098]
如本文中所用,术语“外来的”、“外来品系”和“外来种质”是指任何非优良的植物、品系或种质。一般来说,外来植物/种质不源自任何已知的优良植物或种质,而是被选择来将一种或多种所需遗传元件引入育种程序(例如以将新颖等位基因引入育种程序)。
[0099]
如本文中所用,植物育种上下文中的术语“杂种”是指通过不同品系或品种或物种的植物杂交(包括但不限于两个近交系之间的杂交)产生的遗传上相异的亲本的后代。
[0100]
如本文中所用,术语“近交”是指基本上纯合的植物或品种。该术语可以指在整个基因组中基本上纯合的植物或植物品种,或者就特别感兴趣的基因组部分而言基本上纯合的植物或植物品种。
[0101]“单倍型”是个体在多个基因座的基因型,即等位基因的组合。通常,定义单倍型的遗传基因座是物理和遗传连锁的,即在同一染色体片段上。术语“单倍型”可以指特定基因座处的多态性,诸如单个标记基因座,或沿染色体区段的多个基因座处的多态性。
[0102]
如本文中所用,术语“异源的”是指源自外来物种的核苷酸/多肽,或者,如果源自同一物种,则是通过有意的人为干预,在组成和/或基因组基因座上对其天然形式进行了实质性的修饰。
[0103]
如本文中所用,术语“核酸”、“核酸分子”、“核苷酸序列”和“多核苷酸”指线性或分支的、单链或双链的rna或dna,或其杂交体。该术语还包括rna/dna杂交体。当合成产生dsrna时,不太常见的碱基,诸如肌苷、5-甲基胞嘧啶、6-甲基腺嘌呤、次黄嘌呤等也可用于反义、dsrna和核酶配对。例如,含有尿苷和胞苷的c-5丙炔类似物的多核苷酸已经显示出以高亲和力结合rna,并且是基因表达的强效反义抑制剂。也可以进行其他修饰,诸如对磷酸二酯骨架或rna的核糖基团中的2
’‑
羟基的修饰。
[0104]
如本文中所用,术语“核苷酸序列”是指核苷酸的杂聚物或这些核苷酸从核酸分子的5’末端至3'末端的序列,包括dna或rna分子,包括cdna、dna片段或部分、基因组dna、合成的(例如化学合成的)dna、质粒dna、mrna和反义rna,其中任一种都可以是单链或双链的。术语“核苷酸序列”、“核酸”、“核酸分子”、“核酸构建体”、“寡核苷酸”和“多核苷酸”在本文中也可互换使用,是指核苷酸的杂多聚体。本文提供的核酸分子和/或核苷酸序列在本文中以从左至右的5’至3’方向呈现,并且使用美国测序规则37 cfr
§§
1.821-1.825和世界知识产权组织(wipo)标准st.25中阐述的用于表示核苷酸特征的标准代码来表示。如本文中所用,“5’区”可以指多核苷酸的最靠近多核苷酸5’末端的区域。因此,例如,多核苷酸的5’区中的元件可以位于从位于所述多核苷酸的5’末端的第一个核苷酸至位于该多核苷酸中间的核苷酸的任何位置。如本文中所用,“3’区”可以指多核苷酸的最靠近多核苷酸3’末端的区域。因此,例如,多核苷酸的3’区中的元件可以位于从位于所述多核苷酸的3’末端的第一个核苷酸至位于该多核苷酸中间的核苷酸的任何位置。
[0105]
如本文中关于核酸所使用的,术语“片段”或“部分”是指相对于参考核酸而言长度缩短(例如缩短1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、20个、40个、50个、60个、70个、80个、90个、100个、110个、120个、130个、140个、150个、160个、170个、180个、190个、200个、210个、220个、230个、240个、250个、260个、270个、280个、290个、300个、310个、320个、330个、340个、350个、400个、450个、500个、550个、600个、650个、700个、750个、800个、850或900个或更多个核苷酸或者其间的任何范围或数值)的核酸,并且其包含与所述参考核酸的相应部分相同或几乎相同(例如70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%相同)的连续核苷酸的核苷酸序列、基本上由所述核苷酸序列组成和/或由所述核苷酸序列组成。如果合适,这种核酸片段可以包含在更大的多核苷酸中作为其组分。例如,本发明的引导核酸的重复序列可以包含野生型crispr-cas重复序列(例如野生型crispr-cas重
复序列;例如来自例如cas9、cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c等的crispr cas系统的重复)的“部分”。
[0106]
在一些实施方案中,核酸片段可包含编码fea2多肽的核酸的约800、810、820、850、860、870、880、890、900、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1810、1820、1830、1840、1841、1842、1843、1844、1845、1850、1900、2000、2100、2200、2300或2319个连续核苷酸或者其中的任何范围或数值,基本上由其组成或由其组成,任选地,fea2基因的片段可以是约850至约1000个连续核苷酸长,约750至约950个连续核苷酸长,约700至约800个连续核苷酸长,约500至约800个连续核苷酸长,约400至约600个连续核苷酸长,约300至约400个连续核苷酸长,约200至约300个连续核苷酸长,约100至约200个连续核苷酸长,约100至约150个连续核苷酸长,约50至约100个连续核苷酸长,约10至约50个连续核苷酸长,或其中的任何范围或值。
[0107]
在一些实施方案中,“序列特异性核酸结合结构域”(例如序列特异性dna结合结构域)可与编码本文所述的fea2多肽的核苷酸序列的一个或多个片段或部分结合。
[0108]
如本文关于多肽所使用的,术语“片段”或“部分”可指相对于参考多肽而言长度缩短的多肽,其包含与所述参考多肽的相应部分相同或几乎相同(例如90%、91%、92%、93%、94%、95%、96%、97%、98%、99%相同)的连续氨基酸的氨基酸序列或基本上由所述氨基酸序列组成或由所述氨基酸序列组成。在适当的情况下,这种多肽片段可以包含在一个更大的多肽中作为其构成部分。在一些实施方案中,所述多肽片段包含参考多肽的至少约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个、125个、150个、175个、200个、225个、250个、260个、270个、280个、290个或更多个连续氨基酸,基本上由所述连续氨基酸组成或由所述连续氨基酸组成。在一些实施方式中,多肽片段可包含fea2多肽的约10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、125、150、175、200、225、250、275、300、350、400、450、500、550或600个连续氨基酸残基,或其间的任何范围或值(例如seq id no:74的片段或一部分(例如seq id no:75或seq id no:76)),基本上由其组成或由其组成。在一些实施方案中,缺失可以导致框内缺失等位基因。在一些实施方案中,这种缺失可以是显性负突变、半显性突变或弱的功能损失突变,其被包含在植物中时可以导致植物与不包含所述缺失的植物相比表现出增加的穗行数(例如产生表现出增加的穗行数的一个或多个穗),任选地,其中表现出增加的穗行数的一个或多个穗的长度没有实质性减小。在一些实施方式中,这样的植物还可表现出增加的产量和增加的抗病性,以及更大的分生组织和根部分生组织的维持。在一些实施方案中,缺失可以是长度为约3个连续碱基对至约42个连续碱基对,任选长度为约9个连续碱基对至约33个连续碱基对(例如长度为约3至约11个氨基酸)的缺失。可以在多于一个位置编辑fea2基因,从而提供包含多于一个突变的fea2基因。
[0109]
在一些实施方案中,针对核酸的“部分”或“区域”是指来自基因(例如fea2基因)的至少2、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、
79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个或更多个连续的核苷酸。在一些实施方案中,fea2基因的一部分可以是约35、36、37、38、39、40、41、42、43、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63或更多个连续核苷酸(例如seq id no:72的核苷酸1500-1538或seq id no:73的核苷酸1417-1455;例如seq id no:77;或seq id no:72的核苷酸1488-1550或seq id no:73的核苷酸1405-1467,例如seq id no:78)。在一些实施方案中,关于多肽的“部分”或“区域”意指来自多肽(例如fea2多肽)的至少2、4、5、6、7、8、9、10、11、12、13、15、16、17、18、19、21、23、24、25、26、27、28、29、30、31、32、33、34或35个或更多个连续氨基酸残基。在一些实施方案中,fea2多肽的一部分可以是约8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个或更多个连续的氨基酸残基(例如seq id no:74的氨基酸残基473-485;例如seq id no:75;或seq id no:74的氨基酸残基468-489;例如seq id no:76)。(参见例如图2-4)。
[0110]
在一些实施方案中,“序列特异性核酸结合结构域”可与编码本文所述的fea2多肽的核苷酸序列的一个或多个片段或部分结合。
[0111]
如本文关于核酸所使用的,术语“功能性片段”是指编码多肽的功能性片段的核酸。
[0112]
如本文中所用,术语“基因”是指能够用于产生mrna、反义rna、mirna、抗微小rna反义寡脱氧核糖核苷酸(amo)等的核酸分子。基因可以能够用于或不能够用于产生功能性蛋白质或基因产物。基因可以包括编码区和非编码区(例如内含子、调控元件、启动子、增强子、终止序列和/或5’和3’非翻译区)。基因可以是“分离的”,其是指核酸实质性或基本上不含通常被发现与以其天然状态存在的所述核酸相关联的组分。此类组分包括来自重组生产的其他细胞材料、培养基和/或用于化学合成所述核酸的各种化学物质。
[0113]
术语“突变”是指点突变(例如错义或无义,或导致移框的单个碱基对的插入或缺失)、插入、缺失和/或截短。当突变是氨基酸序列中的残基被另一个残基取代,或者序列中一个或多个残基的缺失或插入时,通常通过列出原始残基、随后是该残基在所述序列中的位置以及新取代的残基的身份来描述突变。截短可包括在多肽的c末端或在多肽的n末端的截短。多肽的截短可以是编码所述多肽的基因的相应5’端或3’端的缺失的结果。当将一个或多个碱基对的缺失或插入引入基因时,可以发生移框突变。基因中的移框突变可以导致产生与野生型多肽相比更长、更短或相同长度的多肽,这取决于第一终止密码子在所述基因的突变区域之后何时出现。
[0114]
如本文中所用,术语“互补的”或“互补性”是指多核苷酸在允许的盐和温度条件下通过碱基配对的天然结合。例如,序列“a-g-t”(5’至3’)与互补序列“t-c-a”(3’至5’)结合。两个单链分子之间的互补性可以是“部分的”,其中只有一些核苷酸结合,或者当单链分子之间存在完全互补性时,互补性可以是完全的。核酸链之间的互补程度对核酸链之间杂交的效率和强度有显著影响。
[0115]
如本文中所用,“互补”可以指与比较核苷酸序列有100%互补性,或者其可以指与比较核苷酸序列有小于100%互补性(例如约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%等的互补性)。
[0116]
具有同源性的不同核酸或蛋白质在本文中被称为“同源物”。术语同源物包括来自
相同物种和其他物种的同源序列以及来自相同物种和其他物种的直向同源序列。“同源性”是指两个或更多个核酸和/或氨基酸序列之间以位置同一性百分比(即,序列相似性或同一性)表示的相似性水平。同源性也指不同核酸或蛋白质之间相似功能特性的概念。因此,本发明的组合物和方法还包含与本发明核苷酸序列和多肽序列的同源物。如本文中所用,“直向同源”是指在物种形成期间从共同的祖先基因产生的不同物种中的同源核苷酸序列和/或氨基酸序列。本发明核苷酸序列的同源物与本发明的所述核苷酸序列具有实质性的序列同一性(例如至少约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%)。
[0117]
如本文中所用,“序列同一性”是指两个最佳比对的多核苷酸或多肽序列在组分(例如核苷酸或氨基酸)比对窗口中不变的程度。“同一性”可以通过已知的方法容易地计算,所述方法包括、但不限于在以下文献中描述的方法:computational molecular biology(lesk,a.m.编辑)oxford university press,new york(1988);biocomputing:informatics and genome projects(smith,d.w.编辑)academic press,new york(1993);computer analysis of sequence data,part i(griffin,a.m.和griffin,h.g.编辑)humana press,new jersey(1994);sequence analysis in molecular biology(von heinje,g.编辑)academic press(1987);和sequence analysis primer(gribskov,m.和devereux,j.编辑)stockton press,new york(1991)。
[0118]
如本文中所用,术语“序列同一性百分比”或“同一性百分比”是指当两个序列最佳比对时,参考(“查询”)多核苷酸分子(或其互补链)的线性多核苷酸序列中与测试(“受试”)多核苷酸分子(或其互补链)的线性多核苷酸序列中相同核苷酸的百分比。在一些实施方案中,“序列同一性百分比”可以指与参照多肽相比,氨基酸序列中相同氨基酸的百分比。
[0119]
如本文中所用,在两个核酸分子、核苷酸序列或多肽序列的上下文中,短语“实质性同一”/“实质性相同”或“实质性同一性”是指两个或更多个序列或亚序列在就最大对应性进行比较和比对时,具有如使用以下序列比较算法之一或通过目测检查所测量的至少约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%核苷酸或氨基酸残基同一性。在本发明的一些实施方案中,实质性同一性存在于本发明核苷酸序列的连续核苷酸区域中,所述连续核苷酸区域的长度为约10个核苷酸至约20个核苷酸、约10个核苷酸至约25个核苷酸、约10个核苷酸至约30个核苷酸、约15个核苷酸至约25个核苷酸、约30个核苷酸至约40个核苷酸、约50个核苷酸至约60个核苷酸、约70个核苷酸至约80个核苷酸、约90个核苷酸至约100个核苷酸、约100个核苷酸至约200个核苷酸、约100个核苷酸至约300个核苷酸、约100个核苷酸至约400个核苷酸、约100个核苷酸至约500个核苷酸、约100个核苷酸至约600个核苷酸、约100个核苷酸至约800个核苷酸、约100个核苷酸至约900个核苷酸、或更多个核苷酸,或者其间的任何范围,直至序列的全长。在一些实施方案中,核苷酸序列可以在至少约20个核苷酸(例如约20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、50个、60个、70个或80个核苷酸或更多个)上实质性相同。
[0120]
在本发明的一些实施方案中,实质性同一性存在于本发明多肽的连续氨基酸残基
区域上,其为长度为约3个氨基酸残基至约20个氨基酸残基、约5个氨基酸残基至约25个氨基酸残基、约7个氨基酸残基至约30个氨基酸残基、约10个氨基酸残基至约25个氨基酸残基、约15个氨基酸残基至约30个氨基酸残基、约20个氨基酸残基至约40个氨基酸残基、约25个氨基酸残基至约40个氨基酸残基、约25个氨基酸残基至约50个氨基酸残基、约30个氨基酸残基至约50个氨基酸残基、约40个氨基酸残基至约50个氨基酸残基、约40个氨基酸残基至约70个氨基酸残基、约50个氨基酸残基至约70个氨基酸残基、约60个氨基酸残基至约80个氨基酸残基、约70个氨基酸残基至约80个氨基酸残基、约90个氨基酸残基至约100个氨基酸残基,或更多个氨基酸残基,以及其中的任何范围,直至序列的全长。在一些实施方案中,多肽序列可以在至少约8个连续的氨基酸残基(例如长度约8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个、75个、76个、77个、78个、79个、80个、81个、82个、83个、84个、85个、86个、87个、88个、89个、90个、91个、92个、93个、94个、95个、96个、97个、98个、99个、100个、101个、102个、103个、104个、105个、106个、107个、108个、109个、110个、111个、112个、113个、114个、115个、116个、117个、118个、119个、120个、130个、140个、150个、175个、200个、225个、250个、300个、350个或更多个氨基酸,或更多连续氨基酸残基)上彼此实质性相同。在一些实施方式中,两种或更多种fea2多肽可以相同或基本上相同(例如至少70%至99.9%相同);例如约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、99.9%相同或其间的任何范围或值。
[0121]
对于序列比较,通常一个序列作为与测试序列进行比较的参考序列。当使用序列比较算法时,将测试序列和参考序列输入计算机,如果需要,指定子序列坐标,并指定序列算法程序参数。然后,序列比较算法基于指定的程序参数,计算一个或多个测试序列相对于参考序列的序列同一性百分比。
[0122]
用于比对比较窗口的序列的最佳比对是本领域技术人员公知的,并且可以通过诸如以下的工具进行:smith和waterman的局部同源性算法、needleman和wunsch的同源性比对算法、pearson和lipman的相似性搜索方法,以及任选地通过这些算法的计算机化实现(诸如gap、bestfit、fasta和tfasta(可作为wisconsin (accelrys inc.,san diego,ca)的一部分获得))进行。测试序列和参考序列的比对区段的“同一性分数”是两个比对的序列共有的相同组分的数目除以参考序列区段(例如整个参考序列或参考序列的较小确定部分)中组分的总数。序列同一性百分比表示为同一性分数乘以100。一个或多个多核苷酸序列的比较可以是与全长多核苷酸序列或其一部分的比较,或者是与更长的多核苷酸序列的比较。出于本发明的目的,对于翻译的核苷酸序列,也可以使用blastx 2.0版,对于多核苷酸序列,使用blastn 2.0版来确定“同一性百分比”。
[0123]
当两个核苷酸序列在严格条件下相互杂交时,也可以认为这两个序列是实质性互补的。在一些实施方案中,被认为实质性互补的两个核苷酸序列在高度严格条件下相互杂交。
[0124]
核酸杂交实验如southern和northern杂交上下文中的“严格杂交条件”和“严格杂交洗涤条件”是序列依赖性的,并且在不同的环境参数下是不同的。核酸杂交的详细指南可见于laboratory techniques in biochemistry and molecular biology-hybridization with nucleic acid probes第i部分第2章"overview of principles of hybridization and the strategy of nucleic acid probe assays”,elsevier,new york(1993)。通常,在确定的离子强度和ph下,高度严格的杂交和洗涤条件被选择为比具体序列的热熔点(tm)低约5℃。
[0125]
tm是50%的靶序列与完全匹配的探针杂交时的温度(在确定的离子强度和ph下)。选择非常严格的条件,使其等于特定探针的tm。在southern或northern印迹中,用于具有超过100个互补残基的互补核苷酸序列在滤膜上杂交的严格杂交条件的实例是42℃下的50%甲酰胺和1mg肝素,其中杂交进行过夜。高度严格的洗涤条件的实例是在72℃下用0.1 5m nacl洗涤约15分钟。严格洗涤条件的实例是在65℃下用0.2x ssc洗涤15分钟(关于ssc缓冲液的描述,参见sambrook,同下)。通常,高严格洗涤之前是低严格性洗涤,以去除背景探针信号。对于例如超过100个核苷酸的双链体,中等严格洗涤的实例是在45℃下用1x ssc洗涤15分钟。对于例如超过100个核苷酸的双链体,低严格洗涤的实例是在40℃下用4-6x ssc洗涤15分钟。对于短探针(例如约10至50个核苷酸),严格条件通常涉及小于约1.0m na离子的盐浓度,在ph 7.0至8.3下通常为约0.01至1.0m na离子浓度(或其他盐),并且温度通常为至少约30℃。还可通过加入诸如甲酰胺等去稳定剂来达到严格条件。一般来说,在特定的杂交测定中,信噪比为对于无关探针观察的信噪比的2倍(或更高)表明检测到了特异性杂交。如果在严格条件下不相互杂交的核苷酸序列编码的蛋白质实质性相同,则所述核苷酸序列仍然是实质性相同的。这可以在例如使用遗传密码所允许的最大密码子简并性产生核苷酸序列的拷贝时发生。
[0126]
可以对本发明的多核苷酸和/或重组核酸构建体(例如表达盒和/或载体)进行密码子优化以用于表达。在一些实施方案中,可以对本发明编辑系统的多核苷酸、核酸构建体、表达盒和/或载体(例如包含/编码序列特异性核酸结合结构域(例如来自多核苷酸引导的核酸内切酶、锌指核酸酶、转录激活因子样效应核酸酶(talen)、argonaute蛋白和/或crispr-cas核酸内切酶(例如crispr-cas效应蛋白)(例如i型crispr-cas效应蛋白、ii型crispr-cas效应蛋白、iii型crispr-cas效应蛋白、iv型crispr-cas效应蛋白、v型crispr-cas效应蛋白或vi型crispr-cas效应蛋白)、核酸酶(例如核酸内切酶(例如fok1)、多核苷酸引导的核酸内切酶、crispr-cas核酸内切酶(例如crispr-cas效应蛋白)、锌指核酸酶和/或转录激活因子样效应核酸酶(talen))、脱氨酶蛋白/结构域(例如腺嘌呤脱氨酶、胞嘧啶脱氨酶)、编码逆转录酶或结构域的多核苷酸、编码5'-3’核酸外切酶多肽的多核苷酸和/或亲和多肽、肽标签等的序列特异性核酸结合结构域)进行密码子优化,以用于在植物中表达。在一些实施方案中,本发明的经密码子优化的核酸、多核苷酸、表达盒和/或载体与未经密码子优化的参考核酸、多核苷酸、表达盒和/或载体具有约70%至约99.9%(例如70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、99.9%或100%)同一性或更高同一性。
[0127]
在本文所述的任何实施方案中,本发明的多核苷酸或核酸构建体可以与多种启动
子和/或其它调控元件可操作地连接,用于在植物和/或植物细胞中表达。因此,在一些实施方案中,本发明的多核苷酸或核酸构建体还可包含与一个或多个核苷酸序列可操作地连接的一个或多个启动子、内含子、增强子和/或终止子。在一些实施方案中,启动子可以与内含子(例如ubi1启动子和内含子)可操作地相关联。在一些实施方案中,与内含子相关联的启动子可被称为“启动子区”(例如ubi1启动子和内含子)。
[0128]
如本文中提及多核苷酸时使用的“可操作地连接”或“可操作地相关联的”是指所示元件在功能上彼此相关,并且通常在物理上也相关。因此,如本文中所用,术语“可操作地连接”或“可操作地相关联的”是指单个核酸分子上功能上相关联的核苷酸序列。因此,与第二核苷酸序列可操作连接的第一核苷酸序列意指第一核苷酸序列被放置成与第二核苷酸序列处于功能关系中时的情况。例如,如果启动子实现核苷酸序列的转录或表达,则所述启动子与所述核苷酸序列可操作地相关联。本领域技术人员将会理解,控制序列(例如启动子)不需要与与其可操作地相关联的核苷酸序列毗邻,只要控制序列能够指导其表达即可。因此,例如居间的不翻译、但仍转录的核酸序列可存在于启动子与所述核苷酸序列之间,并且所述启动子仍然可以被认为是可与该核苷酸序列“可操作地连接”。
[0129]
如本文中所用,涉及多肽时,术语“连接的”是指一个多肽与另一个多肽的附接。多肽可以直接(例如通过肽键)或通过接头与另一多肽(在n-末端或c-末端)连接。
[0130]
术语“接头”是本领域公认的,是指连接两个分子或部分(例如,融合蛋白的两个结构域,例如核酸结合多肽或结构域和肽标签和/或逆转录酶和与肽标签结合的亲和多肽;或dna核酸内切酶多肽或结构域和肽标签和/或逆转录酶和与肽标签结合的亲和多肽)的化学基团或分子。接头可以由单个连接分子组成,或者可以包含不止一个连接分子。在一些实施方案中,接头可以是有机分子、基团、聚合物或化学部分,诸如二价有机部分。在一些实施方案中,接头可以是氨基酸或者其可以是肽。在一些实施方案中,接头是肽。
[0131]
在一些实施方案中,可用于本发明的肽接头的长度可为约2至约100个或更多个氨基酸,例如,约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个、75个、76个、77个、78个、79个、80个、81个、82个、83个、84个、85个、86个、87个、88个、89个、90个、91个、92个、93个、94个、95个、96个、97个、98个、99个、100个或更多个氨基酸(例如长度为约2至约40个、约2至约50个、约2至约60个、约4至约40个、约4至约50个、约4至约60个、约5至约40个、约5至约50个、约5至约60个、约9至约40个、约9至约50个、约9至约60个、约10至约40个、约10至约50个、约10至约60个,或长度为约2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个氨基酸至约26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个、75个、76个、77个、78个、79个、80个、81个、82个、83个、84个、85个、86个、87个、88个、89个、90个、91个、92个、93个、94个、95个、96个、97个、98个、99
个、100个或更多个氨基酸(例如长度为约105个、110个、115个、120个、130个、140个、150个或更多个氨基酸))。在一些实施方案中,肽接头可以是gs接头。
[0132]
如本文中所用,关于多核苷酸的术语“连接的”或“融合的”是指一个多核苷酸与另一个多核苷酸的附接。在一些实施方案中,两个或更多个多核苷酸分子可以通过接头连接,所述接头可以是有机分子、基团、聚合物或化学部分,诸如二价有机部分。多核苷酸可以通过共价或非共价键联或结合(包括例如watson-crick碱基配对)或通过一个或多个连接核苷酸与另一个多核苷酸(在5’末端或3’末端)连接或融合。在一些实施方案中,某一结构的多核苷酸基序可插入另一多核苷酸序列中(例如引导rna中发夹结构的延伸)。在一些实施方案中,连接核苷酸可以是天然存在的核苷酸。在一些实施方案中,连接核苷酸可以是非天然存在的核苷酸。
[0133]“启动子”是控制或调节与所述启动子可操作地相关联的核苷酸序列(例如编码序列)的转录的核苷酸序列。由启动子控制或调节的编码序列可以编码多肽和/或功能性rna。通常,“启动子”是指含有rna聚合酶ii的结合位点并指导转录起始的核苷酸序列。通常,相对于相应编码序列的编码区的起始,启动子位于5’或上游。启动子可包含作为基因表达的调控子的其它元件;例如启动子区域。这些包括tata盒共有序列,并且通常是caat盒共有序列(breathnach和chambon,(1981)annu.rev.biochem.50:349)。在植物中,caat盒可用agga盒代替(messing等,(1983)于genetic engineering of plants,t.kosuge,c.meredith和a.hollaender(编辑),plenum press,第211-227页中)。
[0134]
可用于本发明的启动子可包括例如组成型、诱导型、时间调控型、发育调控型、化学调控型、组织优先型和/或组织特异性启动子,用于制备重组核酸分子,例如“合成核酸构建体”或“蛋白质-rna复合物”。这些不同类型的启动子是本领域已知的。
[0135]
启动子的选择可以根据表达的时间和空间要求而变化,也可以根据待转化的宿主细胞而变化。用于许多不同生物体的启动子是本领域公知的。基于本领域的广泛知识,可以为特定目标宿主生物选择合适的启动子。因此,例如,对模式生物中高度组成型表达的基因上游的启动子了解很多,此类知识可以容易地访问并在适当的情况下应用于其它系统中。
[0136]
在一些实施方案中,在植物中有功能的启动子可以与本发明的构建体一起使用。可用于在植物中驱动表达的启动子的非限制性实例包括rubisco小亚基基因1的启动子(prbcs1)、肌动蛋白基因的启动子(pactin)、硝酸还原酶基因的启动子(pnr)和重复碳酸酐酶基因1的启动子(pdca1)(参见,walker等人,plant cell rep.23:727-735(2005);li等人,gene 403:132-142(2007);li等人,mol biol.rep.37:1143-1154(2010))。prbcs1和pactin是组成型启动子,pnr和pdca1是诱导型启动子。pnr受硝酸盐诱导,受铵抑制(li等人,gene 403:132-142(2007)),pdca1受盐诱导(li等人,mol biol.rep.37:1143-1154(2010))。在一些实施方案中,可用于本发明的启动子是rna聚合酶ii(pol ii)启动子。在一些实施方案中,来自玉米的u6启动子或7sl启动子可用于本发明的构建体。在一些实施方案中,来自玉米的u6c启动子和/或7sl启动子可用于驱动引导核酸的表达。在一些实施方案中,来自大豆的u6c启动子、u6i启动子和/或7sl启动子可用于本发明的构建体。在一些实施方案中,来自大豆的u6c启动子、u6i启动子和/或7sl启动子可用于驱动引导核酸的表达。
[0137]
可用于植物的组成型启动子的实例包括但不限于,叶香树病毒启动子(cestrum virus promotet,cmp)(美国专利第7,166,770号)、水稻肌动蛋白1启动子(wang等人(1992)
mol.cell.biol.12:3399-3406;以及美国专利第5,641,876号)、camv 35s启动子(odell等人(1985)nature 313:810-812)、camv 19s启动子(lawton等人(1987)plant mol.biol.9:315-324)、nos启动子(ebert等人(1987)proc.natl.acad.sci usa 84:5745-5749)、adh启动子(walker等人(1987)proc.natl.acad.sci.usa 84:6624-6629)、蔗糖合酶启动子(yang&russell(1990)proc.natl.acad.sci.usa 87:4144-4148)和遍在蛋白启动子。来源于遍在蛋白的组成型启动子在许多细胞类型中积累。已经从几种植物物种中克隆了遍在蛋白启动子用于转基因植物,例如向日葵(binet等人,1991.plant science 79:87-94)、玉米(christensen等人,1989,plant molec.biol.12:619-632)和拟南芥(norris等人1993.plant molec.biol.21:895-906)。已经在转基因单子叶植物系统中开发了玉米遍在蛋白启动子(ubip),专利公开ep 0 342 926中公开了其序列和构建用于单子叶植物转化的载体。遍在蛋白启动子适用于在转基因植物,尤其是单子叶植物中表达本发明的核苷酸序列。另外,由mcelroy等人描述的启动子表达盒(mol.gen.genet.231:150-160(1991))可被容易地修饰以表达本发明的核苷酸序列,并且特别适用于单子叶宿主。
[0138]
在一些实施方案中,组织特异性/组织偏好启动子可用于在植物细胞中表达异源多核苷酸。组织特异性或偏好性表达模式包括但不限于绿色组织特异性或偏好性、根特异性或偏好性、茎特异性或偏好性、花特异性或偏好性或者花粉特异性或偏好性表达模式。适于在绿色组织中表达的启动子包括许多调节参与光合作用的基因的启动子,这些启动子中的许多启动子已被从单子叶植物和双子叶植物中克隆出来。在一个实施方案中,可用于本发明的启动子是来自磷酸烯醇羧化酶基因的玉米pepc启动子(hudspeth&grula,plant molec.biol.12:579-589(1989))。组织特异性启动子的非限制性实例包括那些与编码种子贮藏蛋白(诸如β-伴大豆球蛋白、十字花科蛋白(cruciferin)、油菜籽蛋白(napin)和菜豆蛋白)、玉米蛋白或油体蛋白(诸如油质蛋白)、或参与脂肪酸生物合成的蛋白(包括酰基载体蛋白、硬脂酰-acp去饱和酶和脂肪酸去饱和酶(fad 2-1))的基因相关联的启动子,以及在胚胎发育期间表达的其它核酸(诸如bce4,参见例如kridl等人(1991)seed sci.res.1:209-219;以及欧洲专利第255378号)。可用于在植物,特别是玉米中表达本发明核苷酸序列的组织特异性或组织偏好性启动子包括但不限于在根、髓、叶或花粉中指导表达的启动子。此类启动子公开于例如wo 93/07278(通过引用以其整体并入本文)中。可用于本发明的组织特异性或组织偏好性启动子的其它非限制性实例:美国专利6,040,504中公开的棉花rubisco启动子;美国专利5,604,121中公开的水稻蔗糖合酶启动子;de framond(febs 290:103-106(1991);属于ciba-geigy的ep 0 452 269)描述的根特异性启动子;美国专利5,625,136(属于ciba-geigy)中描述的茎特异性启动子,其驱动玉米trpa基因的表达;wo 01/73087中公开的夜香树夜香树黄叶卷曲病毒启动子;和花粉特异性或偏好性启动子,包括但不限于来自水稻的prooslps10和prooslps11(nguyen等人,plant biotechnol.reports 9(5):297-306(2015))、来自玉米的zmstk2_usp(wang等人,genome 60(6):485-495(2017))、来自番茄的lat52和lat59(twell等人,development 109(3):705-713(1990))、zm13(美国专利第10,421,972号)、来自拟南芥的pla
2-δ启动子(美国专利第7,141,424号)和/或来自玉米的zmc5启动子(国际pct公布第wo1999/042587号)。
[0139]
植物组织特异性/组织偏好性启动子的其他实例包括但不限于根毛特异性顺式元件(rhe)(kim等人,the plant cell 18:2958-2970(2006))、根特异性启动子rcc3(jeong等
人,plant physiol.153:185-197(2010))和rb7(美国专利第5459252号)、植物凝集素启动子(lindstrom等人(1990)der.genet.11:160-167;和vodkin(1983)prog.clin.biol.res.138:87-98)、玉米醇脱氢酶1启动子(dennis等人(1984)nucleic acids res.12:3983-4000)、s-腺苷-l-甲硫氨酸合成酶(sams)(vander mijnsbrugge等人(1996)plant and cell physiology,37(8):1108-1115)、玉米光收获复合物启动子(bansal等人(1992)proc.natl.acad.sci.usa 89:3654-3658)、玉米热休克蛋白启动子(o'dell等人(1985)embo j.5:451-458;和rochester等人(1986)embo j.5:451-458)、豌豆小亚基rubp羧化酶启动子(cashmore,"nuclear genes encoding the small subunit of ribulose-l,5-bisphosphate carboxylase”第29-39页:genetic engineering of plants(hollaender编辑,plenum press 1983;和poulsen等人(1986)mol.gen.genet.205:193-200)、ti质粒甘露碱合酶启动子(langridge等人(1989)proc.natl.acad.sci.usa 86:3219-3223)、ti质粒胭脂氨酸合酶启动子(langridge等人(1989),同上),矮牵牛查尔酮异构酶启动子(van tunen等人(1988)embo j.7:1257-1263)、大豆富含甘氨酸蛋白1启动子(keller等人(1989)genes dev.3:1639-1646)、截短的camv 35s启动子(o'dell等人(1985)nature 313:810-812)、马铃薯块茎储藏蛋白(patatin)启动子(wenzler等人(1989)plant mol.biol.13:347-354)、根细胞启动子(yamamoto等人(1990)nucleic acids res.18:7449)、玉米醇溶蛋白启动子(kriz等人(1987)mol.gen.genet.207:90-98;langridge等人(1983)cell 34:1015-1022;reina等人(1990)nucleic acids res.18:6425;reina等人(1990)nucleic acids res.18:7449;和wandelt等人(1989)nucleic acids res.17:2354)、球蛋白-1启动子(belanger等人(1991)genetics 129:863-872)、α-微管蛋白cab启动子(sullivan等人(1989)mol.gen.genet.215:431-440)、pepcase启动子(hudspeth&grula(1989)plant mol.biol.12:579-589)、r基因复合物相关启动子(chandler等人(1989)plant cell 1:1175-1183)和查尔酮合酶启动子(franken等人(1991)embo j.10:2605-2612)。
[0140]
对种子特异性表达有用的是豌豆的豌豆球蛋白启动子(czako等人(1992)mol.gen.genet.235:33-40);以及美国专利第5,625,136号中公开的种子特异性启动子。用于在成熟叶中表达的有用启动子是那些在衰老开始时被转换的启动子,诸如来自拟南芥的sag启动子(gan等人(1995)science 270:1986-1988)。
[0141]
另外,可以使用在叶绿体中有功能的启动子。此类启动子的非限制性实例包括噬菌体t3基因9的5’utr和美国专利第7,579,516号中公开的其他启动子。可用于本发明的其它启动子包括但不限于s-e9小亚基rubp羧化酶启动子和kunitz胰蛋白酶抑制剂基因启动子(kti3)。
[0142]
可用于本发明的其它调控元件包括但不限于内含子、增强子、终止序列和/或5’和3’非翻译区。
[0143]
可用于本发明的内含子可以是从植物中鉴定和分离的内含子,然后被插入到用于植物转化的表达盒。如本领域技术人员所理解的,内含子可以包含自我切除所需的序列,并被框内整合到核酸构建体/表达盒中。内含子可以用作间隔子来分隔一个核酸构建体中的多个蛋白质编码序列,或者可在一个蛋白质编码序列内部使用内含子来例如稳定mrna。如果它们被用在蛋白质编码序列中,则它们被插入“框内”,其中包括切除位点。还可将内含子
与启动子结合以改善或修饰表达。例如,可用于本发明的启动子/内含子组合包括但不限于玉米ubi1启动子和内含子的组合(参见例如seq id no:21和seq id no:22)。
[0144]
可用于本发明的内含子的非限制性实例包括来自adhi基因(例如adh1-s内含子1、2和6)、遍在蛋白基因(ubi1)、rubisco小亚基(rbcs)基因、rubisco大亚基(rbcl)基因、肌动蛋白基因(例如肌动蛋白-1内含子)、丙酮酸脱氢酶激酶基因(pdk)、硝酸还原酶基因(nr)、重复碳酸酐酶基因1(tdca1)、psba基因、atpa基因或其任意组合的内含子。
[0145]
在一些实施方案中,本发明的多核苷酸和/或核酸构建体可以是“表达盒”或可以包含在表达盒内。如本文中所用,“表达盒”意指包含例如一种或多种本发明的多核苷酸的重组核酸分子(例如编码序列特异性核酸(例如dna)结合结构域的多核苷酸、编码脱氨酶蛋白或结构域的多核苷酸、编码逆转录酶蛋白或结构域的多核苷酸、编码5
’‑3’
核酸外切酶多肽或结构域的多核苷酸、引导核酸和/或逆转录酶(rt)模板),其中一种或多种多核苷酸与一种或多种控制序列(例如启动子、终止子等)可操作地相关联。因此,在一些实施方案中,可以提供一个或多个表达盒,其被设计成表达例如本发明的核酸构建体(例如编码序列特异性核酸结合结构域的多核苷酸、编码核酸酶多肽/结构域的多核苷酸、编码脱氨酶蛋白/结构域的多核苷酸、编码逆转录酶蛋白/结构域的多核苷酸、编码5
’‑3’
核酸外切酶多肽/结构域的多核苷酸、编码肽标签的多核苷酸和/或编码亲和多肽的多核苷酸等,或者包含引导核酸、延伸的引导核酸和/或rt模板等)。当本发明的表达盒包含不止一个多核苷酸时,所述多核苷酸可以与驱动所有多核苷酸表达的单个启动子可操作地连接,或者所述多核苷酸可以与一个或多个单独的启动子可操作地连接(例如三个多核苷酸可以由一个、两个或三个启动子以任意组合驱动)。当使用两个或更多个不同的启动子时,所述启动子可以是相同的启动子,也可以是不同的启动子。因此,当包含在单个表达盒中时,编码序列特异性核酸结合结构域的多核苷酸、编码核酸酶蛋白/结构域的多核苷酸、编码crispr-cas效应蛋白/结构域的多核苷酸、编码脱氨酶蛋白/结构域的多核苷酸、编码逆转录酶多肽/结构域的多核苷酸(例如rna依赖性dna聚合酶)、和/或编码5
’‑3’
核酸外切酶多肽/结构域的多核苷酸、引导核酸、延伸的引导核酸和/或rt模板可以各自与单个启动子或任意组合的独立启动子可操作地连接。
[0146]
包含本发明的核酸构建体的表达盒可以是嵌合的,意味着其至少一个组分相对于其至少一个其它组分是异源的(例如来自宿主生物的启动子可操作地连接到将在该宿主生物中表达的感兴趣多核苷酸,其中所述感兴趣多核苷酸来自不同于宿主的生物体,或者通常被发现不与该启动子相关联)。表达盒也可以是天然存在的,但已经以用于异源表达的重组形式获得的表达盒。
[0147]
表达盒可以任选地包括转录和/或翻译终止区(即终止区)和/或在所选宿主细胞中有功能的增强子区。多种转录终止子和增强子是本领域已知的,并且可获得用于表达盒中。转录终止子负责转录的终止和正确的mrna多聚腺苷酸化。终止区和/或增强子区对于转录起始区可以是天然的,对于例如编码序列特异性核酸结合蛋白的基因、编码核酸酶的基因、编码逆转录酶的基因、编码脱氨酶的基因等可以是天然的,或者可以是宿主细胞天然的,或者可以是另一来源天然的(例如对于例如启动子、编码序列特异性核酸结合蛋白的基因、编码核酸酶的基因、编码逆转录酶的基因、编码脱氨酶的基因等,或对于宿主细胞或其任意组合是外来的或异源的)。
[0148]
本发明的表达盒还可包括编码选择标记的多核苷酸,其可用于选择转化的宿主细胞。如本文中所用,“选择标记”是指这样的多核苷酸序列,当其被表达时,对表达该标记的宿主细胞赋予独特的表型,从而使此类转化的细胞与那些不具有该标记的细胞相区别。这种多核苷酸序列可以编码选择标记或可筛选的标记,这取决于该标记是否赋予可通过化学手段,诸如通过使用选择剂(例如抗生素等)选择的性状,或者取决于该标记是否只是可通过观察或测试,诸如通过筛选(例如荧光)鉴定的性状。合适的选择性标记的许多实例是本领域已知的,并且可用于本文所述的表达盒中。
[0149]
除了表达盒之外,本文所述的核酸分子/构建体和多核苷酸序列也可与载体结合使用。术语“载体”是指用于将核酸(或多种核酸)转移、递送或引入细胞的组合物。载体包含含有待转移、递送或引入的一种或多种核苷酸序列的核酸构建体(例如表达盒)。用于转化宿主生物体的载体是本领域公知的。一般类别的载体的非限制性实例包括呈双链或单链线性或环状形式的病毒载体、质粒载体、噬菌体载体、噬菌粒载体、粘粒载体、fosmid载体、噬菌体、人工染色体、微环或土壤杆菌(agrobacterium)二元载体,其可以是或可以不是自我传递的或可移动的。在一些实施方案中,病毒载体可以包括但不限于逆转录病毒、慢病毒、腺病毒、腺相关病毒或单纯疱疹病毒载体。本文定义的载体可以通过整合入细胞基因组或存在于染色体外(例如具有复制起点的自主复制质粒)来转化原核或真核宿主。另外还包括穿梭载体,所述穿梭载体是指天然地或通过设计能够在两种不同的宿主生物体中复制的dna媒介物,所述宿主生物体可选自放线菌(actinomycetes)和相关物种、细菌和真核生物(例如高等植物、哺乳动物、酵母或真菌细胞)。在一些实施方案中,载体中的核酸处于合适的启动子或用于在宿主细胞中转录的其他调控元件的控制之下,并与其可操作地连接。载体可以是在多种宿主中起作用的双功能表达载体。在基因组dna的情况下,这可能包含其自身的启动子和/或其它调控元件,而在cdna的情况下,这可能处于合适的启动子和/或其它调控元件的控制之下,以便在宿主细胞中表达。因此,本发明的核酸或多核苷酸和/或包含其的表达盒可以包括在本文所述和本领域已知的载体中。
[0150]
如本文中所用,“接触(contact)”、“接触(contacting)”、“接触(contacted)”及其语法变型是指在适于进行所需反应(例如转化、转录控制、基因组编辑、产生切口和/或切割)的条件下,将所需反应的组分放置在一起。例如,可在序列特异性dna结合蛋白、逆转录酶和/或脱氨酶被表达并且序列特异性核酸结合蛋白与靶核酸结合的条件下,将靶核酸与序列特异性核酸结合蛋白(例如多核苷酸引导的核酸内切酶、crispr-cas核酸内切酶(例如crispr-cas效应蛋白)、锌指核酸酶、转录激活因子样效应核酸酶(talen)和/或argonaute蛋白))和脱氨酶或编码其的核酸构建体接触,并且可将逆转录酶和/或脱氨酶与序列特异性核酸结合蛋白融合,或者募集到序列特异性核酸结合蛋白(例如通过与序列特异性核酸结合蛋白融合的肽标签和与逆转录酶和/或脱氨酶融合的亲和标签),因此,脱氨酶和/或逆转录酶位于靶核酸附近,从而修饰所述靶核酸。可以使用利用其他蛋白质-蛋白质相互作用募集逆转录酶和/或脱氨酶的其他方法,并且还可将rna-蛋白质相互作用和化学相互作用用于蛋白质-蛋白质和蛋白质-核酸募集。
[0151]
如本文中所用,涉及靶核酸的“修饰(modifying)”或“修饰(modification)”包括编辑(例如突变)、共价修饰、交换/取代核酸/核苷酸碱基、删除、切割、切刻和/或改变靶核酸的转录控制。在一些实施方案中,修饰可以包括任何类型的一个或多个单碱基改变
(snp)。
[0152]
在感兴趣多核苷酸的上下文中,“引入(introducing)”、“引入(introduce)”、“引入(introduced)”(及其语法变型)是指将感兴趣核苷酸序列(例如多核苷酸、rt模板、核酸构建体和/或引导核酸)以使得该核苷酸序列能够进入细胞内部的方式呈递至植物、其植物部分或其细胞。
[0153]
术语“转化”或“转染”可以互换使用,并且如本文中所用,是指将异源核酸导入细胞。细胞的转化可以是稳定的或瞬时的。因此,在一些实施方案中,可用本发明的多核苷酸/核酸分子稳定转化宿主细胞或宿主生物体(例如植物)。在一些实施方案中,可用本发明的多核苷酸/核酸分子瞬时转化宿主细胞或宿主生物体。
[0154]
多核苷酸上下文中的“瞬时转化”意指多核苷酸被引入细胞,但不整合到细胞的基因组中。
[0155]
在引入细胞的多核苷酸的上下文中,“稳定地引入(stably introducing)”或“被稳定地引入(stably introduced)”旨在指引入的多核苷酸被稳定整合到细胞的基因组中,因此细胞被所述多核苷酸稳定地转化。
[0156]
如本文中所用,“稳定的转化”或“被稳定地转化”意指将核酸分子引入细胞并整合到细胞的基因组中。因此,整合的核酸分子能够被其后代遗传,更具体地,被多个连续世代的后代遗传。如本文中所用,“基因组”包括细胞核和质体基因组,因此包括将核酸整合到例如叶绿体或线粒体基因组中。如本文中所用,稳定的转化也可指保持在染色体外的转基因(例如作为微小染色体或质粒)。
[0157]
瞬时转化可以通过例如酶联免疫吸附测定(elisa)或蛋白质印迹来检测,所述测定或蛋白质印迹可以检测由引入生物体的一种或多种转基因编码的肽或多肽的存在。细胞的稳定转化可以通过例如细胞基因组dna与核酸序列的southern印迹杂交分析来检测,所述核酸序列与导入生物体(例如植物)的转基因的核苷酸序列特异性杂交。细胞的稳定转化可以通过例如细胞的rna与核酸序列的northern印迹杂交测定来检测,所述核酸序列与引入宿主生物体的转基因的核苷酸序列特异性杂交。细胞的稳定转化还可以通过例如聚合酶链式反应(pcr)或本领域公知的其它扩增反应来检测,所述聚合酶链式反应或其它扩增反应使用与转基因的靶序列杂交的特异性引物序列,导致转基因序列的扩增,这可以根据标准方法来检测。转化也可以通过本领域公知的直接测序和/或杂交方案来检测。
[0158]
因此,在一些实施方案中,本发明的核苷酸序列、多核苷酸、核酸构建体和/或表达盒可以瞬时表达,并且/或者它们可被稳定地整合到宿主生物体的基因组中。因此,在一些实施方案中,本发明的核酸构建体(例如包含如本文所述用于编辑的多核苷酸的一个或多个表达盒)可被瞬时引入具有引导核酸的细胞中,因此,细胞中不保留dna。
[0159]
可以通过本领域技术人员已知的任何方法将本发明的核酸构建体引入植物细胞。转化方法的非限制性实例包括通过细菌介导的核酸递送(例如通过土壤杆菌)、病毒介导的核酸递送、碳化硅或核酸晶须介导的核酸递送、脂质体介导的核酸递送、显微注射、微粒轰击、磷酸钙介导的转化、环糊精介导的转化、电穿孔、纳米颗粒介导的转化、超声处理、浸润、peg介导的核酸摄取以及导致核酸引入植物细胞的任何其他电、化学、物理(机械)和/或生物机制(包括其任意组合)的转化。转化真核生物体和原核生物体的方法是本领域公知的常规方法,并在整个文献中有描述(参见例如jiang等人2013.nat.biotechnol.31:233-239;
ran等人nature protocols 8:2281

2308(2013))。本领域已知的各种植物转化方法的一般指南包括miki等人("procedures for introducing foreign dna into plants"in methods in plant molecular biology and biotechnology,glick,b.r.和thompson,j.e.编辑(crc press,inc.,boca raton,1993),第67-88页)和rakowoczy-trojanowska(cell.mol.biol.lett.7:849-858(2002))。
[0160]
在本发明的一些实施方案中,细胞的转化可以包括核转化。在其他实施方案中,细胞的转化可以包括质体转化(例如叶绿体转化)。在又一另外的实施方案中,可以通过常规育种技术将本发明的核酸引入细胞。在一些实施方案中,可以通过土壤杆菌转化将多核苷酸、表达盒和/或载体中的一种或多种引入植物细胞。
[0161]
因此,可以以本领域公知的许多方式将多核苷酸引入植物、植物部分、植物细胞。本发明的方法不依赖于将一种或多种核苷酸序列引入植物的特定方法,仅要它们进入细胞内部即可。当要引入不止一种多核苷酸时,它们可以作为单个核酸构建体的一部分装配,或者作为单独的核酸构建体装配,并且可以位于同一或不同的核酸构建体上。因此,所述多核苷酸可以在单个转化事件中或在分开的转化事件中被引入感兴趣细胞中,或者,多核苷酸可以作为育种方案的一部分被整合到植物中。
[0162]
本发明提供了用于降低基因影响的方法和组合物,所述基因通常用于限制分生组织尺寸以产生具有较大分生组织的植物,以维持根分生组织,以增加穗行数(任选地,基本上不减少穗长(例如与不包含相同fea2突变的植物的穗相比,不减少穗长超过30%))和产量,以及改善抗病性。
[0163]
clv1、clv2和clv3基因是利用类似机制来调节分生组织大小的若干重叠信号传导途径的一部分。植物表达许多clv3样(cle)肽,其由许多富含亮氨酸的重复(lrr)结构域感测,并且下游信号传导调节植物中的多个生长过程(fletcher,j.c.,plants 7:87(2018))。玉米中的clv2直向同源物是faciated ear2(fea2)。
[0164]
因此,如本文所述,编辑技术用于靶向植物中的fea2基因,以产生具有较大分生组织、具有增加的穗行数、增加的产量和改善的抗病性的植物,以及产生维持其根分生组织的植物。可用于生产表现出增加的穗行数的植物的突变包括例如取代、缺失和插入。在一些方面,由编辑技术生成的突变可以是点突变、显性负突变、半显性突变或弱的功能损失突变。
[0165]
在一些实施方案中,本发明提供一种植物或其植物部分,所述植物或植物部分包含编码fea2蛋白的内源faciated ear2(fea2)基因中的至少一个非天然突变(例如1、2、3、4、5或更多个突变)。在一些实施方案中,所述至少一个非天然突变导致显性负突变、半显性突变和/或弱的功能损失突变。
[0166]
在一些实施方案中,提供了一种植物细胞,所述植物细胞包含编辑系统,所述编辑系统包含:(a)crispr-cas效应蛋白;和(b)引导核酸(grna、gdna、crrna、crdna、sgrna、sgdna),所述引导核酸包含与编码fea2蛋白的内源性靶基因具有互补性的间隔子序列。所述编辑系统可用于在编码fea2蛋白的内源性靶基因中产生突变。在一些实施方案中,所述突变是非天然突变。在一些实施方案中,编辑系统的引导核酸可包含seq id no:79-82(例如seq id no:79、80、81、82)中任一个的核苷酸序列(间隔子序列)。
[0167]
植物、其植物部分或植物细胞的fea2基因中的突变可以是任何类型的突变,包括碱基取代、缺失和/或插入。在一些实施方案中,非天然突变可以包括对a、t、g或c的碱基取
代。在一些实施方案中,所述至少一个非天然突变可以是从c到t(c》t)的碱基取代。在一些实施方案中,非天然突变可以是至少一个碱基对(例如1个碱基对至约50个碱基对)的缺失或至少一个碱基对(例如1个碱基对至约50个碱基对)的插入。在一些实施方案中,缺失可包括fea2基因的1个碱基对至约10个连续碱基对(例如1、2bp至约3、4、5、6、7、8、9或10bp;例如1、2、3、4、5、6、7、8、9、10个连续碱基对)、1个碱基对至约20个连续碱基对(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续碱基对;例如1、2、3、4、5、6bp至约7、8、9、10、11、12、13、14、15、16、17、18、19或20个连续碱基对)、1个碱基对至约30个连续碱基对、1个碱基对至约40个连续碱基对、1个碱基对至约50个连续碱基对(例如1、2、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25个连续碱基对到约26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个连续碱基对,或者其间的任何数值或范围。在一些实施方案中,缺失是框内缺失。
[0168]
可用于本发明的内源fea2基因可以(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序列。fea2基因中的示例性非天然突变可导致突变的fea2基因。内源fea2基因中的示例性非天然突变可以编码fea2蛋白。在一些实施方案中,突变的fea2基因包含与seq id no:83-113的任何一个核酸序列至少约90%的序列同一性,或编码与seq id no:159-186的任何一个氨基酸序列具有至少90%的序列同一性的多肽。在一些实施方案中,突变的fea2基因包含与seq id no:114-128的核酸序列中的任一个具有至少约90%序列同一性的部分或区,或者编码与seq id no:134-148中的任一个具有至少约90%序列同一性的序列的部分或区。
[0169]
在一些实施方式中,与不具有所述至少一个突变(例如非天然突变)的植物相比,在内源fea2基因中包含至少一个突变(例如非天然突变)的植物表现出增加的分生组织维持和/或增加的穗行数,任选地穗长没有实质性减小(例如减小少于30%)。在一些实施方案中,在内源fea2基因中包含至少一个突变的所述植物是展现增加的穗行数的玉米植物。在一些实施方案中,在内源fea2基因中包含至少一个突变的植物是展现增加的产量以及增加的抗病性的玉米植物。在一些实施方案中,植物(例如玉米植物)可以从本发明的植物部分和/或植物细胞再生,其中与不包含所述突变的植物(例如玉米植物)相比,再生的植物(例如再生的玉米植物)包含内源性fea2基因中的突变和增加的穗行数的表型,任选地,其中具有增加的穗行数的穗的长度没有实质性减少(例如与不包含相同fea2突变的植物的穗相比,展现出穗长减少不超过30%)。
[0170]
在一些实施方案中,提供了玉米植物细胞,所述玉米植物细胞包含fea2基因内的至少一个非天然突变,其中所述突变是使用编辑系统引入的取代、插入或缺失,所述编辑系统包含与fea2基因中的靶位点结合的核酸结合结构域。在一些实施方案中,fea2基因内的所述取代、插入或缺失产生显性负等位基因、半显性等位基因或弱的功能损失等位基因。在一些实施方案中,缺失产生框内缺失等位基因。在一些实施方案中,靶位点在fea2基因的一个区域内,该区域包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性(例如约90、91、92、93、94、95、96、97、98、99、99.5、99.6、99.7、99.8、99.9或100%序列
同一性)和/或编码与seq id no:75或seq id no:76的氨基酸序列具有至少95%序列同一性(例如约95、96、97、98、99、99.5、99.5、99.6、99.7、99.8、99.9或100%序列同一性)的序列。在一些实施方式中,fea2基因包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列或编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列。
[0171]
在一些实施方案中,提供了一种产生/培育无转基因的经编辑的玉米植物的方法,所述方法包括:使本发明的玉米植物(例如包含fea2基因中的突变并且具有增加的穗行数的玉米植物,任选地穗长度没有实质性减少(例如减少小于30%))与无转基因的玉米植物杂交,从而将所述至少一个非天然突变引入所述无转基因的玉米植物中;以及选择包含所述至少一个非天然突变并且无转基因的后代玉米植物,从而产生无转基因的经编辑的玉米植物。
[0172]
本文还提供了一种提供具有增加的穗行数的多个玉米植物的方法,该方法包括在生长区域(例如田地(例如耕作田地、农田)、生长室、温室、娱乐区域、草坪和/或路边等)中种植本发明的两个或更多个玉米植物(例如2、3、4、5、6、7、8、9、10或更多个玉米植物,其包含fea2多肽中的突变并且具有增加的穗行数,任选地穗长度没有实质性减小(例如减少小于30%)),从而提供与不包含所述突变的多个对照玉米植物相比具有增加的穗行数的多个玉米植物。在一些实施方式中,所述多个植物还可以表现出更大的分生组织、增加的产量、增加的抗病性以及维持其根分生组织。
[0173]
本发明还提供了一种在玉米fea2蛋白的区域中产生变异的方法,包括:将编辑系统引入玉米植物细胞中,其中所述编辑系统靶向编码玉米fea2蛋白的所述区域的玉米fea2基因的区域,其中所述区域包含seq id no:75或seq id no:76的氨基酸序列,或者所述区域由seq id no:77或seq id no:78的核苷酸序列编码;以及使玉米fea2基因的区域与编辑系统接触,从而将突变引入玉米植物细胞中fea2蛋白的区域内;以及在所述fea2蛋白的所述区域中产生变异。
[0174]
在一些实施方式中,用于编辑玉米植物细胞的基因组中的特异性位点的方法,所述方法包括:以位点特异性方式切割玉米植物细胞中的内源fea2基因内的靶位点,所述内源fea2基因包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列,或编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列,从而在玉米植物细胞的内源fea2基因中产生编辑并产生包含内源fea2基因中的编辑的玉米植物细胞。内源fea2基因编码fea2蛋白,并且该编辑导致fea2蛋白的编码区中氨基酸的变化。在一些实施方案中,编辑导致非天然存在的突变,包括但不限于缺失、取代或插入,其中编辑可以导致显性负突变、半显性突变或弱的功能损失突变。在一些实施方案中,非天然存在的突变是缺失,任选地其中所述缺失包含fea2基因的至少1bp至约50bp。在一些实施方案中,该缺失可以导致经编辑的fea2核酸,其与seq id no:83-91、seq id no:92-98或seq id no:99-113中的任一个具有至少90%的序列同一性。在一些实施方案中,缺失产生框内缺失等位基因,任选地,其中所述框内缺失包括与seq id no:91-98或105-108的序列中的任一者具有至少90%同一性的序列。在一些实施方案中,缺失导致产生过早终止的密码子,任选地其中所述终止密码子缺失包括与seq id no:83-91、99或109-113的序列中的任一个具有至少90%同一性的序列。在一些实施方案中,所述非天然存在的突变是取代,任选地其中所述
取代包含fea2基因的至少1bp至约5、6、7、8、9或10bp。在一些实施方案中,一个或多个取代产生与seq id no:100-104的任一个序列具有至少90%同一性的序列。在一些实施方案中,所述缺失和/或取代在seq id no:74的fea2多肽的区域内(例如氨基酸残基461-613或473-485,例如氨基酸残基461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489或490个或更多个氨基酸残基)产生变化。在一些实施方式中,所述内源fea2基因编码fea2蛋白,并且该编辑导致相对于seq id no:74的氨基酸位置编号而言在位于位置475、476、477、478或479处的氨基酸残基发生变化。
[0175]
在一些实施方案中,编辑方法可以进一步包括从在内源fea2基因中包含所述编辑的玉米植物细胞再生玉米植物,从而产生其内源fea2基因中包含该编辑并且与不包含所述编辑的对照玉米植物相比具有增加的穗行数的表型(例如产生具有增加的穗行数的一个或多个穗)的玉米植物,任选地其中所述具有增加的穗行数的一个或多个穗的长度没有实质性减小。
[0176]
在一些实施方案中,用于制造玉米植物的方法,包括:(a)使包含野生型内源fea2基因的玉米植物细胞群与连接到核酸结合结构域(例如dna结合结构域,例如编辑系统)的核酸酶接触,所述核酸结合结构域结合与seq id no:77或seq id no:78的核苷酸序列或编码与seq id no:75或seq id no:76具有至少90%序列同一性的氨基酸序列的序列具有至少90%序列同一性的序列;(b)从其中至少一个野生型内源fea2基因已经突变的群中选择玉米植物细胞;和(c)将所选择的植物细胞生长成玉米植物。
[0177]
在一些实施方案中,一种增加玉米植物中的穗行数的方法,任选地不减少穗长度,所述方法包括(a)使包含野生型内源fea2基因的玉米植物细胞与靶向野生型内源fea2基因的核酸酶接触,其中所述核酸酶与结合野生型内源fea2基因中的靶位点的核酸结合结构域(例如编辑系统)连接,其中所述野生型内源fea2基因:(i)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(ii)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(iii)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(iv)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序列,以产生在野生型内源fea2基因中包含突变的玉米植物细胞,从而产生包含在内源fea2基因中具有突变的至少一个细胞的玉米植物;和(b)将所述玉米植物细胞生长成在野生型内源fea2基因中包含所述突变的玉米植物,从而产生具有突变的内源fea2基因和增加的穗行数的玉米植物,任选地,其中穗长度没有实质性减少的穗长度(例如减小少于30%)。
[0178]
在一些实施方案中,用于产生包含具有突变的内源fea2基因的至少一个细胞的玉米植物或其部分的方法,该方法包括使玉米植物或植物部分中的内源fea2基因中的靶位点与包含切割结构域和dna结合结构域的核酸酶接触,其中所述核酸结合结构域结合内源fea2基因中的靶位点,其中所述内源fea2基因(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序列,以产生在野生型内源fea2基因中包含突变的植物细胞,
从而产生包含在内源fea2基因中具有突变的至少一个细胞的玉米植物或其部分。
[0179]
本文还提供了一种用于生产玉米植物或其部分的方法,所述玉米植物或其部分包含突变的内源fea2基因,并且表现出增加的穗行数、增加的产率,和改善的抗病性,以及维持的更大的分生组织和根分生组织,所述方法包括使玉米植物或植物部分中的内源fea2基因中的靶位点与包含切割结构域和核酸结合结构域的核酸酶接触,其中所述核酸结合结构域结合内源fea2基因中的靶位点,其中所述内源fea2基因:(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序列,从而产生包含具有突变的内源fea2基因、并且表现出增加的穗行数(例如产生具有增加的穗行数的一个或多个穗)的玉米植物或其部分,任选地,其中具有增加的穗行数的一个或多个穗的长度没有实质性减少(例如减少小于30%)。
[0180]
在一些实施方案中,包含在如本文所述的内源fea2基因中具有突变的至少一个细胞的玉米植物或其部分包含与seq id no:83-98的任何一个序列具有至少90%同一性的序列。
[0181]
在一些实施方式中,核酸酶可以切割内源fea2基因,从而将突变引入所述内源fea2基因。可用于本发明的核酸酶可以是可用于编辑/修饰靶核酸的任何核酸酶。此类核酸酶包括、但不限于锌指核酸酶、转录激活因子样效应物核酸酶(talen)、核酸内切酶(例如fok1)和/或crispr-cas效应物蛋白。同样,可用于本发明的任何核酸结合结构域(例如dna结合结构域、rna结合结构域)可以是可用于编辑/修饰靶核酸的任何核酸结合结构域。此类核酸结合结构域包括、但不限于锌指、转录激活因子样dna结合结构域(tal)、argonaute和/或crispr-cas效应物dna结合结构域。
[0182]
在一些实施方式中,提供了编辑玉米植物或植物部分中的内源fea2基因的方法,所述方法包括使所述玉米植物或植物部分中的fea2基因中的靶位点与胞嘧啶碱基编辑系统接触,所述胞嘧啶碱基编辑系统包含胞嘧啶脱氨酶和与fea2基因中的靶位点结合的核酸结合结构域,所述fea2基因(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序列,从而编辑所述玉米植物或其部分中的内源fea2基因并产生包含在内源fea2基因中具有突变的至少一个细胞的玉米植物或其部分。
[0183]
在一些实施方式中,提供了编辑玉米植物或植物部分中的内源fea2基因的方法,所述方法包括使玉米植物或植物部分中的fea2基因中的靶位点与腺苷碱基编辑系统接触,所述腺苷碱基编辑系统包含腺苷脱氨酶和与fea2基因中的靶位点结合的核酸结合结构域,所述fea2基因(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序
id no:73的核苷酸序列具有至少约90%序列同一性(例如约90、91、92、93、94、95、96、97、98、99、99.5、100%序列同一性)的序列,或者fea2基因在其内包含与seq id no:77或seq id no:78的核苷酸序列中的任一个具有至少90%同一性(例如约90、91、92、93、94、95、96、97、98、99、99.5、100%序列同一性)的序列。
[0192]
在一些实施方案中,玉米植物中的内源fea2基因中的所述至少一个非天然突变可以是取代、缺失和/或插入。在一些实施方案中,与不包含所述编辑/突变的对照玉米植物相比,玉米植物中的内源fea2基因中的所述至少一个非天然突变可以是导致显性负突变、半显性突变或弱的功能损失突变的取代、缺失和/或插入,并且植物具有增加的穗行数的表型(例如产生具有增加的穗行数的生产穗的表型),任选地,其中具有增加的穗行数的穗的长度没有实质性减小(例如,与不包含相同fea2突变的植物相比,减少低于30%)。例如,所述突变可以是来自编码fea2多肽的基因的一个或多个氨基酸残基(例如fea2多肽的1、2、3、4、5、6、7、8、9、10个或更多个氨基酸)的取代、缺失和/或插入,或者突变可以是至少1个核苷酸至约50个连续核苷酸(例如约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49个或50个连续核苷酸、或其中的任何范围或值)(例如碱基取代、缺失和/或插入)的取代、缺失和/或插入。在一些实施方案中,缺失产生框内缺失等位基因。在一些实施方案中,所述至少一个非天然突变可以是对a、t、g或c的碱基取代。在一些实施方案中,所述至少一个非天然突变可以是从c到t(c》t)、c到a(c》a)或c到g(c》g)的碱基取代。
[0193]
在一些实施方式中,内源fea2基因中的突变可以在由编辑系统切割之后进行,所述编辑系统包含核酸酶和dna结合结构域,所述dna结合结构域结合至靶核酸(例如fea2基因)内的靶位点,所述靶核酸包含seq id no:72或seq id no:73的核苷酸序列或与seq id no:77-78的任何一个核苷酸序列具有至少90%同一性的核苷酸序列,或编码包含与seq id no:74的氨基酸序列或seq id no:75-76的任何一个氨基酸序列具有至少95%序列同一性的序列的多肽的靶核酸(例如fea2基因)。在一些实施方案中,所述核酸酶切割内源fea2基因,并且将突变引入所述内源fea2基因中。在一些实施方案中,切割导致内源fea2基因中的突变,该基因包含与seq id no:83-98的任何一个序列具有至少90%同一性的序列。
[0194]
本文还提供了与fea2基因中的靶位点结合的引导核酸(例如grna、gdna、crrna、crdna),其中所述内源fea2基因:(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;和/或(c)包含与seq id no:77-78的核苷酸序列中的任一个具有至少90%同一性的序列。在一些实施方案中,引导核酸包含具有seq id no:75-76中任一个的核苷酸序列的间隔子。
[0195]
在一些实施方案中,提供了与玉米植物中的faciated ear2(fea2)基因中的靶核酸结合的引导核酸,其中所述靶核酸位于由染色体4上的碱基对(bp)位置136,766,300至碱基对位置136,766,251限定并包括它们的染色体间隔中。关于玉米(zea mays),本发明的标记物在本文中针对标记物基因座在maizegdb互联网资源(maizegdb.org/assembly)的b73玉米基因组,版本4,“b73refgen_v4”(assemblyaka b73refgen_v4,agpv4)中的标记物位置进行了描述。在一些实施方案中,本发明提供了一种引导核酸,其与具有zm00001d051012(参考b73玉米基因组)的基因标识号(基因id)的faciated ear2(fea2)基因中的靶核酸结
合。
[0196]
在一些实施方案中,提供了包含引导核酸的系统,所述引导核酸包含具有seq id no:79-82中任一个的核苷酸序列的间隔子和与所述引导核酸缔合的crispr-cas效应蛋白。在一些实施方案中,所述系统还可包含与引导核酸缔合的tracr核酸和crispr-cas效应蛋白,任选地其中tracr核酸和引导核酸共价连接。
[0197]
本发明还提供了一种基因编辑系统,其包含与引导核酸缔合的crispr-cas效应蛋白,并且所述引导核酸包含与fea2基因结合的间隔子序列,所述fea2基因(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序列。在一些实施方案中,引导核酸的间隔子序列可以包含seq id no:79-82中任一个的核苷酸序列。在一些实施方案中,基因编辑系统还可包含与引导核酸缔合的tracr核酸和crispr-cas效应蛋白,任选地其中所述tracr核酸和所述引导核酸共价连接。如本文所用,“与引导核酸缔合的crispr-cas效应蛋白”是指在crispr-cas效应蛋白和引导核酸之间形成的复合物,以将crispr-cas效应蛋白引导至基因中的靶位点。
[0198]
本发明还提供了一种复合物,其包含引导核酸和包含切割结构域的crispr-cas效应蛋白,其中所述引导核酸结合内源fea2基因中的靶位点,其中所述内源fea2基因,其中所述内源fea2基因:(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序列具有至少90%序列同一性的序列,其中所述切割结构域切割fea2基因中的靶标链。在一些实施方式中,所述切割结构域切割fea2基因中的靶标链,使得其在包含与seq id no:83-98的任何一个序列具有至少90%同一性的序列的内源fea2基因中产生突变。
[0199]
在一些实施方式中,提供了表达盒,其包含(a)编码crispr-cas效应蛋白的多核苷酸,其包含切割结构域和(b)与内源fea2基因中的靶位点结合的引导核酸,其中所述引导核酸包含与下述互补并且与之结合的间隔子序列:(i)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的氨基酸序列的核酸的一部分;(ii)与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列的一部分;(iii)与seq id no:77或seq id no:78的核苷酸序列中的任一个具有至少90%序列同一性的序列的一部分;和/或(iv)与编码seq id no:75或seq id no:76的氨基酸序列的序列具有至少90%序列同一性的序列。
[0200]
本文还提供了编码突变的fea2基因的核酸,当存在于玉米植物或植物部分中时,与不包含fea2突变的对照玉米植物相比,所述突变的fea2基因导致玉米植物包含增加的穗行数的表型(例如产生具有增加的穗行数的穗的表型),任选地,其中具有增加的穗行数的穗不具有显著减小的长度(例如,与不包含相同fea2突变的植物的穗相比,长度减小小于30%)。在一些实施方案中,突变的fea2基因可以包含与seq id no:83-113中任一个的核苷酸序列具有至少90%序列同一性的序列,或者编码与seq id no:159-186的任何一个氨基
酸序列具有至少90%序列同一性的多肽。在一些实施方案中,突变的fea2基因包含与seq id no:114-128的核酸序列中的任一个具有至少约90%序列同一性的部分或区域,或者编码与seq id no:134-148中的任一个具有至少约90%序列同一性的序列的部分或区域。
[0201]
本发明的核酸构建体(例如包含序列特异性核酸结合结构域、crispr-cas效应结构域、脱氨酶结构域、逆转录酶(rt)、rt模板和/或引导核酸等的构建体)和包含其的表达盒/载体可以用作本发明的编辑系统,用于修饰靶核酸(例如内源fea2基因)和/或其表达。可以如本文所述(例如使用本发明的多肽、多核苷酸、rnps、核酸构建体、表达盒和/或载体)修饰(例如突变,例如碱基编辑、切割、切口等)包含能够在如本文所述修饰时赋予增加的穗行数的内源fea2基因的任何玉米植物,以增加玉米植物中的穗行数。与不包含突变的内源fea2基因的植物或其部分相比,表现出增加的穗行数的植物中的穗行数可以增加约5%至约500%(例如约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50%或其中的任何范围或值;例如约5%至约10%、约5%至约20%、约10%至约20%、约10%至约50%、约20%至约50%、约30%至约50%或其中的任何范围或值)(例如多约1、2、3、4、5、6、7、8、9、10、11、12、13、14或15行)。在一些实施方案中,如本文所述表现出增加的穗行数的植物(例如产生具有增加的穗行数的穗的植物)产生长度没有实质性减小的穗。如本文所用,与不包含相同fea2突变的植物相比,包含如本文所述的突变的植物的“长度没有实质性减小”的穗的长度减小小于30%(例如减小0%或减小约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30%)。
[0202]
在一些实施方式中,提供了玉米植物或其植物部分,其包含位于染色体4上的碱基对(bp)位置136,766,300至碱基对位置136,766,251所定义并且包括它们的染色体间隔中的至少一个内源faciated ear2(fea2)基因中的至少一个非天然突变。关于玉米(zea mays),本发明的标记物在本文中针对maizegdb互联网资源(maizegdb.org/assembly)中b73玉米基因组,版本4,“b73refgen_v4”(assemblyaka b73refgen_v4,agpv4)中标记物基因组的位置进行了描述。在一些实施方案中,提供了玉米植物或其植物部分,所述玉米植物或其植物部分在基因标识号(基因id)未zm00001d051012(参考b73玉米基因组)的至少一个内源faciated ear2(fea2)基因中包含至少一个非天然突变。
[0203]
如本文中所用,术语“植物部分”包括、但不限于生殖组织(例如花瓣、萼片、雄蕊、雌蕊、花托、花药、花粉、花、果实、花芽、胚珠、种子和胚);营养组织(例如叶柄、茎(stem)、根、根毛、根尖、髓、胚芽鞘、茎(stalk)、芽、枝、树皮、顶端分生组织、腋芽、子叶、下胚轴和叶);维管组织(例如韧皮部和木质部);特化细胞,诸如表皮细胞、薄壁细胞、厚角细胞、厚壁细胞、气孔、保卫细胞、角质层、叶肉细胞;愈伤组织;和插枝。术语“植物部分”还包括植物细胞,包括在植物和/或植物部分中完整的植物细胞、植物原生质体、植物组织、植物器官、植物细胞组织培养物、植物愈伤组织、植物团块等。如本文中所用,“芽”是指包括叶和茎在内的地上部分。如本文中所用,术语“组织培养物”包括组织、细胞、原生质体和愈伤组织的培养物。
[0204]
如本文中所用,“植物细胞”是指植物的结构和生理单位,其通常包括细胞壁,但也包括原生质体。本发明的植物细胞可呈分离的单细胞形式,或者可以是培养的细胞,或者可以是更高组织单位的一部分,例如植物组织(包括愈伤组织)或植物器官。“原生质体”是没
有细胞壁或只有部分细胞壁的分离的植物细胞。因此,在本发明的一些实施方案中,包含本发明核酸分子和/或核苷酸序列的转基因细胞是任何植物或植物部分的细胞,包括但不限于根细胞、叶细胞、组织培养物细胞、种子细胞、花细胞、果实细胞、花粉细胞等。在本发明的一些方面,植物部分可以是植物种质。在一些方面,植物细胞可以是不能再生为植物的非繁殖植物细胞。
[0205]“植物细胞培养物”意指植物单位例如原生质体、细胞培养细胞、植物组织中的细胞、花粉、花粉管、胚珠、胚囊、合子和不同发育阶段的胚的培养物。
[0206]
如本文中所用,“植物器官”是植物的独特且明显结构化和分化的部分,例如根、茎、叶、花蕾或胚。
[0207]
如本文中所用,“植物组织”是指组织成结构和功能单位的一群植物细胞。包括在植物中或培养中的任何植物组织。该术语包括、但不限于完整植物、植物器官、植物种子、组织培养物和组织成结构和/或功能单位的任何植物细胞群。该术语在结合上面列出的或以其它方式由本定义包含的任何特定类型的植物组织使用时,或者在不提及上面列出的或以其它方式由本定义包含的任何特定类型的植物组织而使用时,并不意图排除任何其他类型的植物组织。
[0208]
在本发明的一些实施方案中,提供了转基因组织培养物或转基因植物细胞培养物,其中所述转基因组织或细胞培养物包含本发明的核酸分子/核苷酸序列。在一些实施方案中,可以通过将所述转基因植物与非转基因植物杂交,并在后代中选择包含所需基因编辑但不包含用于产生所述编辑的转基因的植物,从由所述转基因组织或细胞发育的植物中消除所述转基因。
[0209]
可用于本发明的编辑系统可以是现在已知或以后开发的任何位点特异性(序列特异性)基因组编辑系统,所述系统可以以靶特异性方式引入突变。例如,编辑系统(例如位点特异性或序列特异性编辑系统)可以包括、但不限于crispr-cas编辑系统、大范围核酸酶编辑系统、锌指核酸酶(zfn)编辑系统、转录激活因子样效应子核酸酶(talen)编辑系统、碱基编辑系统和/或先导编辑系统,其中的每一种都可以包含一种或多种多肽和/或一种或多种多核苷酸,当它们在细胞中作为系统表达时,可以以序列特异性方式修饰(突变)靶核酸。在一些实施方案中,编辑系统(例如位点特异性或序列特异性编辑系统)可以包含一种或多种多核苷酸和/或一种或多种多肽,包括但不限于核酸结合结构域(dna结合结构域)、核酸酶和/或其他多肽和/或多核苷酸。
[0210]
在一些实施方案中,编辑系统可以包含一个或多个序列特异性核酸结合结构域(dna结合结构域),其可以来自例如多核苷酸引导的核酸内切酶、crispr-cas核酸内切酶(例如crispr-cas效应蛋白)、锌指核酸酶、转录激活因子样效应子核酸酶(talen)和/或argonaute蛋白。在一些实施方案中,编辑系统可包含一个或多个切割结构域(例如核酸酶),包括、但不限于核酸内切酶(例如fok1)、多核苷酸引导的核酸内切酶、crispr-cas核酸内切酶(例如crispr-cas效应子蛋白)、锌指核酸酶和/或转录激活因子样效应核酸酶(talen)。在一些实施方案中,编辑系统可包含一种或多种多肽,所述多肽包括但不限于脱氨酶(例如胞嘧啶脱氨酶、腺嘌呤脱氨酶)、逆转录酶、dna2多肽和/或5’flap核酸内切酶(fen)。在一些实施方案中,编辑系统可以包含一种或多种多核苷酸,包括但不限于crispr阵列(crispr引导)核酸、延伸的引导核酸和/或逆转录酶模板。
[0211]
在一些实施方案中,修饰或编辑fea2基因的方法可包括将靶核酸(例如编码fea2的核酸)与和脱氨酶结构域(例如腺嘌呤脱氨酶和/或胞嘧啶脱氨酶)融合的碱基编辑融合蛋白(例如序列特异性核酸结合蛋白、序列特异性dna结合蛋白(例如crispr-cas效应蛋白或结构域))和引导核酸接触,其中所述引导核酸能够将所述碱基编辑融合蛋白引导/靶向靶核酸,从而编码所述靶核酸内的基因座。在一些实施方案中,碱基编辑融合蛋白和引导核酸可以包含在一种或多种表达盒中。在一些实施方案中,可将靶核酸与碱基编辑融合蛋白和包含引导核酸的表达盒接触。在一些实施方案中,所述序列特异性核酸结合融合蛋白和引导核酸可以以核糖核蛋白(rnp)的形式提供。在一些实施方案中,可将细胞与不止一种碱基编辑融合蛋白和/或一种或多种引导核酸接触,所述引导核酸可以靶向细胞中的一种或多种靶核酸。
[0212]
在一些实施方案中,修饰或编辑fea2基因的方法可包括将靶核酸(例如编码fea2的核酸)与和肽标签融合的序列特异性核酸结合融合蛋白(例如序列特异性dna结合蛋白(例如crispr-cas效应蛋白或结构域)、脱氨酶融合蛋白(其包含与能够与肽标签结合的亲和多肽融合的脱氨酶结构域(例如腺嘌呤脱氨酶和/或胞嘧啶脱氨酶))和引导核酸接触,其中所述引导核酸能够将序列特异性核酸结合融合蛋白引导至/靶向靶核酸,序列特异性核酸结合融合蛋白能够通过肽标签-亲和多肽相互作用将脱氨酶融合蛋白募集到靶核酸,从而编辑靶核酸内的基因座。在一些实施方案中,可将序列特异性核酸结合融合蛋白与结合肽标签的亲和多肽融合,以及可将脱氨酶与肽标签融合,从而将脱氨酶募集到所述序列特异性核酸结合融合蛋白和靶核酸处。在一些实施方案中,所述序列特异性结合融合蛋白、脱氨酶融合蛋白和引导核酸可以包含在一个或多个表达盒中。在一些实施方案中,可将靶核酸与序列特异性结合融合蛋白、脱氨酶融合蛋白和包含引导核酸的表达盒接触。在一些实施方案中,所述序列特异性核酸结合融合蛋白、脱氨酶融合蛋白和引导核酸可以以核糖核蛋白(rnp)的形式提供。
[0213]
在一些实施方案中,诸如先导编辑(prime editing)等方法可用于在内源fea2基因中产生突变。在先导编辑中,将rna依赖性dna聚合酶(逆转录酶,rt)和逆转录酶模板(rt模板)与序列特异性dna结合结构域组合使用,所述序列特异性核酸结合结构域赋予以序列特异性方式识别并结合靶标的能力,并且也能够在靶标内引起含pam链的切口。所述核酸结合结构域可以是crispr-cas效应蛋白,并且在该情况下,crispr阵列或引导rna可以是包含延伸部分的延伸的引导核酸,所述延伸部分包含引物结合位点(primer binding site,psb)和待整合到基因组(模板)中的编辑。类似于碱基编辑,先导编辑可以利用各种将用于编辑的蛋白质募集到靶位点的方法,此类方法包括在基因组编辑的选定过程中使用的蛋白质与核酸之间的非共价和共价相互作用。
[0214]
如本文所用,“crispr-cas效应蛋白”是切割或切开核酸、结合核酸(例如靶核酸和/或引导核酸)和/或鉴定、识别或结合如本文所定义的引导核酸的蛋白或多肽或其结构域。在一些实施方式中,crispr-cas效应蛋白可以是酶(例如核酸酶、内切核酸酶、切口酶等)或其部分,和/或可作为酶发挥功能。在一些实施方案中,crispr-cas效应蛋白是指crispr-cas核酸酶多肽或其结构域,其包含核酸酶活性或其中核酸酶活性已被降低或消除,和/或包含切口酶活性或其中切口酶已被降低或消除,和/或包含单链dna切割活性(ss dnase活性)或其中ssdnase活性已被降低或消除,和/或包含自加工rnase活性或其中自加
工rnase活性已被降低或消除。crispr-cas效应蛋白可以与靶核酸结合。
[0215]
在一些实施方案中,序列特异性核酸结合结构域(例如序列特异性dna结合结构域)可以是crispr-cas效应蛋白。在一些实施方案中,crispr-cas效应蛋白可以来自i型crispr-cas系统、ii型crispr-cas系统、iii型crispr-cas系统、iv型crispr-cas系统、v型crispr-cas系统或vi型crispr-cas系统。在一些实施方案中,本发明的crispr-cas效应蛋白可以来自ii型crispr-cas系统或v型crispr-cas系统。在一些实施方案中,crispr-cas效应蛋白可以是ii型crispr-cas效应蛋白,例如cas9效应蛋白。在一些实施方案中,crispr-cas效应蛋白可以是v型crispr-cas效应蛋白,例如cas12效应蛋白。
[0216]
在一些实施方案中,crispr-cas效应蛋白可包括但不限于cas9、c2c1、c2c3、cas12a(也称为cpf1)、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、casl、caslb、cas2、cas3、cas3'、cas3"、cas4、cas5、cas6、cas7、cas8、cas9(也称为csnl和csx12)、cas10、csyl、csy2、csy3、csel、cse2、cscl、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmrl、cmr3、cmr4、cmr5、cmr6、csbl、csb2、csb3、csxl7、csxl4、csx10、csx16、csax、csx3、csxl、csxl5、csfl、csf2、csf3、csf4(ding)和/或csf5核酸酶,任选地其中crispr-cas效应蛋白可以是cas9、cas12a(cpf1)、cas12b、cas12c(c2c3)、cas12d(casy)、cas12e(casx)、cas12g、cas12h、cas12i、c2c4、c2c5、c2c8、c2c9、c2c10、cas14a、cas14b和/或cas14c效应蛋白。
[0217]
在一些实施方案中,用于本发明的crispr-cas效应蛋白可在其核酸酶活性位点(例如ruvc、hnh,例如cas12a核酸酶结构域的ruvc位点,例如cas9核酸酶结构域的ruvc位点和/或hnh位点)包含突变。在其核酸酶活性位点具有突变、因此不再包含核酸酶活性的crispr-cas效应蛋白通常被称为“无活力的(dead)”,例如dcas。在一些实施方案中,与无突变的相同crispr-cas效应蛋白(例如切口酶,例如cas9切口酶、cas12a切口酶)相比,在其核酸酶活性位点中具有突变的crispr-cas效应蛋白结构域或多肽可具有受损的活性或降低的活性。
[0218]
可用于本发明的crispr cas9效应蛋白或crispr cas9效应结构域可以是任何已知的或以后鉴定的cas9核酸酶。在一些实施方案中,crispr cas9多肽可以是来自例如链球菌属某些种(streptococcus spp.)(例如化脓性链球菌(s.pyogenes)、嗜热链球菌(s.thermophilus))、乳杆菌属某些种(lactobacillus spp.)、双歧杆菌属某些种(bifidobacterium spp.)、坎德勒氏菌某些种(kandleria spp.)、明串珠菌属某些种(leuconostoc spp.)、酒球菌属某些种(oenococcus spp.)、片球菌属某些种(pediococcus spp.)、魏斯氏菌属某些种(weissella spp.)和/或欧陆森氏菌属某些种(olsenella spp.)的cas9多肽。示例性的cas9序列包括、但不限于seq id no:59和seq id no:60的氨基酸序列或者seq id no:61-71的核苷酸序列。
[0219]
在一些实施方案中,crispr-cas效应蛋白可以是源自化脓性链球菌的cas9多肽,其识别pam序列基序ngg、nag、nga(mali等人,science 2013;339(6121):823-826)。在一些实施方案中,crispr-cas效应蛋白可以是来源于嗜热链球菌的cas9多肽,其识别pam序列基序nggng和/或nnagaaw(w=a或t)(参见例如horvath等人,science,2010;327(5962):167-170,以及deveau等人,j bacteriol 2008;190(4):1390-1400)。在一些实施方案中,crispr-cas效应蛋白可以是源自变形链球菌(streptococcus mutans)的cas9多肽,其识别
pam序列基序ngg和/或naar(r=a或g)(参见例如deveau等人,j bacteriol 2008;190(4):1390-1400)。在一些实施方案中,crispr-cas效应蛋白可以是源自金黄色葡萄球菌(streptococcus aureus)的cas9多肽,其识别pam序列基序nngrr(r=a或g)。在一些实施方案中,crispr-cas效应蛋白可以是源自金黄色葡萄球菌(s.aureus)的cas9蛋白,其识别pam序列基序ngrrt(r=a或g)。在一些实施方案中,crispr-cas效应蛋白可以是源自金黄色葡萄球菌的cas9多肽,其识别pam序列基序n grrv(r=a或g)。在一些实施方案中,crispr-cas效应蛋白可以是源自脑膜炎奈瑟氏球菌(neisseria meningitidis)的cas9多肽,其识别pam序列基序n gatt或n gctt(r=a或g,v=a、g或c)(参见,例如hou等人,2013,1-6)。在上述实施方案中,n可以是任何核苷酸残基,例如a、g、c或t中的任一个。在一些实施方案中,crispr-cas效应蛋白可以是源自沙氏纤毛菌(leptotrichia shahii)的cas13a蛋白,其识别单个3’a、u或c的原间隔子侧翼序列(pfs)(或rna pam(rpam))序列基序,所述序列基序可以位于靶核酸内。
[0220]
在一些实施方案中,crispr-cas效应蛋白可源自cas12a,其是v型成簇的规律间隔的短回文重复序列(crispr)-cas核酸酶。参见例如seq id no:1-20。cas12a在几个方面不同于更广为人知的ii型crispr cas9核酸酶。例如,cas9识别位于其引导rna(grna、sgrna、crrna、crdna、crispr阵列)结合位点(原间隔子、靶核酸、靶dna)3’的富含g的原间隔子邻近基序(pam)(3
’‑
ngg),而cas12a识别位于靶核酸5’的富含t的pam(5
’‑
ttn、5
’‑
tttn)。事实上,cas9和cas12a结合其引导rna的方向与它们的n和c末端几乎相反。此外,cas12a酶使用单引导rna(grna,crispr阵列,crrna),而不是天然cas9系统中发现的双引导rna(sgrna(例如crrna和tracrrna)),并且cas12a加工其自身的grna。另外,cas12a核酸酶活性产生交错的dna双链断裂,而不是由cas9核酸酶活性产生的平端,并且cas12a依赖于单个ruvc结构域来切割两条dna链,而cas9利用hnh结构域和ruvc结构域来切割。
[0221]
可用于本发明的crispr cas12a效应蛋白/结构域可以是任何已知或后来鉴定的cas12a多肽(以前称为cpf1)(参见,例如美国专利第9,790,490号,就其中cpf1(cas12a)序列的公开内容将其通过引用并入本文)。术语“cas12a”、“cas12a多肽”或“cas12a结构域”是指包含cas12a多肽或其片段的rna引导的核酸酶,其包含cas12a的引导核酸结合结构域和/或cas12a的活性、无活性或部分活性的dna切割结构域。在一些实施方案中,可用于本发明的cas12a可在核酸酶活性部位(例如cas12a结构域的ruvc位点)中包含突变。在其核酸酶活性部位具有突变并因此不再包含核酸酶活性的cas12a结构域或cas12a多肽通常被称为deadcas12a(例如dcas12a)。在一些实施方案中,在其核酸酶活性部位中具有突变的cas12a结构域或cas12a多肽可能具有受损的活性,例如,可能具有切口酶活性。
[0222]
任何可用于碱基编辑的脱氨酶结构域/多肽都可以用于本发明。在一些实施方案中,脱氨酶结构域可以是胞嘧啶脱氨酶结构域或腺嘌呤脱氨酶结构域。可用于本发明的胞嘧啶脱氨酶(或胞苷脱氨酶)可以是来自任何生物体的任何已知或后来鉴定的胞嘧啶脱氨酶(参见,例如美国专利第0,167,457号和thuronyi等人nat.biotechnol.37:1070

1079(2019),其中每一篇都就其胞嘧啶脱氨酶的公开内容通过引用并入本文)。胞嘧啶脱氨酶可分别催化胞苷或脱氧胞苷水解脱氨为尿苷或脱氧尿苷。因此,在一些实施方案中,可用于本发明的脱氨酶或脱氨酶结构域可以是胞苷脱氨酶结构域,催化胞嘧啶水解脱氨为尿嘧啶。在一些实施方案中,胞嘧啶脱氨酶可以是天然存在的胞嘧啶脱氨酶(包括但不限于灵长类
动物(例如人、猴、黑猩猩、大猩猩)、狗、牛、大鼠或小鼠)的变体。因此,在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可以与野生型胞嘧啶脱氨酶具有约70%至约100%同一性(例如与天然存在的胞嘧啶脱氨酶具有约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性,以及其中的任何范围或值)。
[0223]
在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可以是载脂蛋白b mrna编辑复合物(apobec)家族脱氨酶。在一些实施方案中,胞嘧啶脱氨酶可以是apobec1脱氨酶、apobec2脱氨酶、apobec3a脱氨酶、apobec3b脱氨酶、apobec3c脱氨酶、apobec3d脱氨酶、apobec3f脱氨酶、apobec3g脱氨酶、apobec3h脱氨酶、apobec4脱氨酶、人活化诱导脱氨酶(haid)、rapobec1、ferny和/或cda1,任选地是pmcda1、atcda1(例如at2g 19570)及其进化形式(例如seq id no:27,seq id no:28或seq id no:29)。在一些实施方案中,胞嘧啶脱氨酶可以是具有seq id no:23的氨基酸序列的apobec1脱氨酶。在一些实施方案中,胞嘧啶脱氨酶可以是具有seq id no:24的氨基酸序列的apobec3a脱氨酶。在一些实施方案中,胞嘧啶脱氨酶可以是cda1脱氨酶,任选地是具有seq id no:25的氨基酸序列的cda1。在一些实施方案中,胞嘧啶脱氨酶可以是ferny脱氨酶,任选地是具有seq id no:26的氨基酸序列的ferny。在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可以与天然存在的胞嘧啶脱氨酶(例如进化的脱氨酶)的氨基酸序列具有约70%至约100%同一性(例如70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%同一性)。在一些实施方案中,可用于本发明的胞嘧啶脱氨酶可与seq id no:23、seq id no:24、seq id no:25或seq id no:26的氨基酸序列具有约70%至约99.5%同一性(例如约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或99.5%同一性)(例如与seq id no:23、seq id no:24、seq id no:25、seq id no:26、seq id no:27、seq id no:28或seq id no:29的氨基酸序列具有至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性)。在一些实施方案中,可以为了在植物中表达而对编码胞嘧啶脱氨酶的多核苷酸进行密码子优化,并且经密码子优化的多肽可与参考多核苷酸具有约70%至99.5%同一性。
[0224]
在一些实施方案中,本发明的核酸构建体还可编码尿嘧啶糖基化酶抑制剂(ugi)(例如尿嘧啶-dna糖基化酶抑制剂)多肽/结构域。因此,在一些实施方案中,编码crispr-cas效应蛋白和胞嘧啶脱氨酶结构域(例如编码包含与胞嘧啶脱氨酶结构域融合的crispr-cas效应蛋白结构域,和/或与肽标签或能够结合肽标签的亲和多肽融合的crispr-cas效应蛋白结构域,和/或与肽标签或能够结合肽标签的亲和多肽融合的脱氨酶蛋白结构域的融合蛋白)的核酸构建体还可编码尿嘧啶-dna糖基化酶抑制剂(ugi),任选地其中可以为了在植物中表达而对ugi进行密码子优化。在一些实施方案中,本发明提供了包含crispr-cas效应多肽、脱氨酶结构域和ugi的融合蛋白和/或编码其的一种或多种多核苷酸,任选地,其中可以为了在植物中表达而对所述一种或多种多核苷酸进行密码子优化。在一些实施方案中,本发明提供了融合蛋白,其中可将crispr-cas效应多肽、脱氨酶结构域和ugi与本文所述的肽标签和亲和多肽的任意组合融合,从而将脱氨酶结构域和ugi募集到crispr-cas效
应多肽和靶核酸。在一些实施方案中,可将引导核酸与募集rna基序连接,并且可将一个或多个脱氨酶结构域和/或ugi与能够与募集rna基序相互作用的亲和多肽融合,从而将脱氨酶结构域和ugi募集到靶核酸上。
[0225]
可用于本发明的“尿嘧啶糖基化酶抑制剂”可以是能够抑制尿嘧啶-dna糖基化酶碱基-切除修复酶的任何蛋白质。在一些实施方案中,ugi结构域包含野生型ugi或其片段。在一些实施方案中,可用于本发明的ugi结构域可以与天然存在的ugi结构域的氨基酸序列具有约70%至约100%同一性(例如70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%同一性,以及其中的任何范围或值)。在一些实施方案中,ugi结构域可包含seq id no:41的氨基酸序列或与seq id no:41的氨基酸序列具有约70%至约99.5%序列同一性(例如与seq id no:41的氨基酸序列具有至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%同一性)的多肽。例如,在一些实施方案中,ugi结构域可包含seq id no:41的氨基酸序列的片段,所述片段与seq id no:41的氨基酸序列的一部分连续核苷酸(例如10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个连续核苷酸;例如约10个、15个、20个、25个、30个、35个、40个、45个至约50个、55个、60个、65个、70个、75个、80个连续核苷酸)具有100%同一性。在一些实施方案中,ugi结构域可以是已知ugi(例如seq id no:41)的变体,其与已知ugi具有约70%至约99.5%序列同一性(例如70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%序列同一性,以及其中的任何范围或值)。在一些实施方案中,可以为了在植物(例如植物)中表达而对编码ugi的多核苷酸进行密码子优化,并且经密码子优化的多肽可与参考多核苷酸具有约70%至约99.5%同一性。
[0226]
可用于本发明的腺嘌呤脱氨酶(或腺苷脱氨酶)可以是来自任何生物体的任何已知的或后来鉴定的腺嘌呤脱氨酶(参见,例如美国专利第10,113,163号,其就其腺嘌呤脱氨酶的公开内容通过引用并入本文)。腺嘌呤脱氨酶可以催化腺嘌呤或腺苷的水解脱氨。在一些实施方案中,腺嘌呤脱氨酶可以分别催化腺苷或脱氧腺苷水解脱氨为肌苷或脱氧肌苷。在一些实施方案中,腺苷脱氨酶可以催化dna中腺嘌呤或腺苷的水解脱氨。在一些实施方案中,由本发明的核酸构建体编码的腺嘌呤脱氨酶可在靶核酸的有义(例如“ ”;模板)链中产生a

g转换或在靶核酸的反义(如
“‑”
,互补)链中产生t

c转换。
[0227]
在一些实施方案中,腺苷脱氨酶可以是天然存在的腺嘌呤脱氨酶的变体。因此,在一些实施方案中,腺苷脱氨酶可以与野生型腺嘌呤脱氨酶具有约70%至100%同一性(例如与天然存在的腺嘌吟脱氨酶具有约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%同一性,以及其中的任何范围或值)。在一些实施方案中,所述脱氨酶不是天然存在的,并且可以被称为工程化的、突变的或进化的腺苷脱氨酶。因此,例如,工程化的、突变的或进化的腺嘌呤脱氨酶多肽或腺嘌呤脱氨酶结构域可以与天然存在的腺嘌呤脱氨酶多肽/结构域具有约70%至99.9%同一性(例如与天然存在的腺嘌呤脱氨酶多肽或腺嘌呤脱氨酶结构域具有约70%、71%、72%、73%、74%、75%、76%、
77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%同一性,以及其中的任何范围或值)。在一些实施方案中,腺苷脱氨酶可以来自细菌(例如大肠杆菌、金黄色葡萄球菌、流感嗜血杆菌(haemophilus influenzae)、新月柄杆菌(caulobacter crescentus)等)。在一些实施方案中,可以对编码腺嘌呤脱氨酶多肽/结构域的多核苷酸进行密码子优化以用于在植物中表达。
[0228]
在一些实施方案中,腺嘌呤脱氨酶结构域可以是野生型trna特异性腺苷脱氨酶结构域,例如trna特异性腺苷脱氨酶(tada)和/或突变/进化的腺苷脱氨酶结构域,例如突变/进化的trna特异性腺苷脱氨酶结构域(tada*)。在一些实施方案中,tada结构域可来自大肠杆菌。在一些实施方案中,tada可以被修饰,例如被截短,可以相对于全长tada缺失一个或多个n-末端和/或c-末端氨基酸(例如,可以相对于全长tada缺失1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、6个、17个、18个、19个或20个n-末端和/或c-末端氨基酸残基)。在一些实施方案中,tada多肽或tada结构域不包含n-末端甲硫氨酸。在一些实施方案中,野生型大肠杆菌tada包含seq id no:30的氨基酸序列。在一些实施方案中,突变/进化的大肠杆菌tada*包含seq id no:31-40(例如seq id no:31、32、33、34、35、36、37、38、39或40)的氨基酸序列。在一些实施方案中,可以对编码tada/tada*的多核苷酸进行密码子优化而用于植物中表达。
[0229]
胞嘧啶脱氨酶催化胞嘧啶脱氨并产生胸苷(通过尿嘧啶中间体),引起基因组中c至t的转换或互补链内g至a的转换。因此,在一些实施方案中,由本发明的多核苷酸编码的胞嘧啶脱氨酶在靶核酸的有义(例如“ ”;模板)链中产生c

t的转换或在靶核酸的反义(如
“‑”
,互补)链中产生g

a的转换。
[0230]
在一些实施方案中,由本发明的核酸构建体编码的腺嘌呤脱氨酶在靶核酸的有义(例如“ ”;模板)链中产生a

g的转换或在靶核酸的反义(如
“‑”
,互补)链中产生t

c的转换。
[0231]
编码包含序列特异性核酸结合蛋白和胞嘧啶脱氨酶多肽的碱基编辑器的本发明核酸构建体,以及编码所述碱基编辑器的核酸构建体/表达盒/载体,可以与引导核酸组合用于修饰靶核酸,包括但不限于在靶核酸中产生c

t或g

a突变,所述靶核酸包括但不限于质粒序列;在编码序列中产生c

t或g

a突变以改变氨基酸身份;在编码序列中产生c

t或g

a突变以产生终止密码子;在编码序列中产生c

t或g

a突变以破坏起始密码子;在基因组dna中产生点突变以破坏功能;和/或在基因组dna中产生点突变以破坏剪接点。
[0232]
编码包含序列特异性核酸结合蛋白和腺嘌呤脱氨酶多肽的碱基编辑器的本发明的核酸构建体,以及编码所述碱基编辑器的表达盒和/或载体可以与引导核酸组合用于修饰靶核酸,包括但不限于在靶核酸中产生a

g或t

c突变,所述靶核酸包括但不限于质粒序列;在编码序列中产生a

g或t

c突变以改变氨基酸身份;在编码序列中产生a

g或t

c突变以产生终止密码子;在编码序列中产生a

g或t

c突变以破坏起始密码子;在基因组dna中产生点突变以破坏功能;和/或在基因组dna中产生点突变以破坏剪接点。
[0233]
包含crispr-cas效应蛋白或其融合蛋白的本发明核酸构建体可与引导rna(grna、crispr阵列、crispr rna、crrna)组合使用,以修饰靶核酸,所述引导rna被设计成与编码的crispr-cas效应蛋白或结构域一起发挥作用。可用于本发明的引导核酸包含至少一个间隔
子序列和至少一个重复序列。引导核酸能够与由本发明的核酸构建体编码和表达的crispr-cas核酸酶结构域形成复合物,并且所述间隔子序列能够与靶核酸杂交,从而将复合物(例如crispr-cas效应子融合蛋白(例如与脱氨酶结构域融合的crispr-cas效应子结构域,和/或与肽标签或亲和多肽融合的crispr-cas效应子结构域,以募集脱氨酶结构域和任选地ugi)引导至靶核酸,其中靶核酸可以被脱氨酶结构域修饰(例如切割或编辑)或调节(例如调节转录)。
[0234]
例如,编码与胞嘧啶脱氨酶结构域连接的cas9结构域(例如融合蛋白)的核酸构建体可与cas9引导核酸组合使用,以修饰靶核酸,其中融合蛋白的胞嘧啶脱氨酶结构域使靶核酸中的胞嘧啶碱基脱氨基,从而编辑靶核酸。在另一个实例中,编码与腺嘌呤脱氨酶结构域连接的cas9结构域(例如融合蛋白)的核酸构建体可与cas9引导核酸组合使用,以修饰靶核酸,其中融合蛋白的腺嘌呤脱氨酶结构域使靶核酸中的腺苷碱基脱氨基,从而编辑靶核酸。
[0235]
同样,编码与胞嘧啶脱氨酶结构域或腺嘌脱氨酶结构域连接的cas12a结构域(或其他选定的crispr-cas核酸酶,例如c2c1、c2c3、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、casl、caslb、cas2、cas3、cas3’、cas3"、cas4、cas5、cas6、cas7、cas8、cas9(也称为csnl和csx12)、cas10、csyl、csy2、csy3、csel、cse2、cscl、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmrl、cmr3、cmr4、cmr5、cmr6、csbl、csb2、csb3、csxl7、csxl4、csx10、csx16、csax、csx3、csxl、csxl5、csfl、csf2、csf3、csf4(ding)和/或csf5)(例如融合蛋白)的核酸构建体可与cas12a引导核酸(或用于其它选定的crispr-cas核酸酶的引导核酸)组合使用,以修饰靶核酸,其中融合蛋白的胞嘧啶脱氨酶结构域或腺嘌呤脱氨酶结构域使靶核酸中的胞嘧啶碱基脱氨基,从而编辑所述靶核酸。
[0236]
如本文中所用,“引导核酸”、“引导rna”、“grna”、“crispr rna/dna”、“crrna”或“crdna”意指包含至少一个与靶dna互补(并与之杂交)的间隔子序列(例如原间隔子)和至少一个重复序列(例如v型cas12a crispr-cas系统的重复序列,或其片段或部分;ii型cas9 crispr-cas系统的重复序列,或其片段;v型c2c1 crispr cas系统的重复序列或其片段;例如c2c3、cas12a(也称为cpf1)、cas12b、cas12c、cas12d、cas12e、cas13a、cas13b、cas13c、cas13d、casl、caslb、cas2、cas3、cas3’、cas3"、cas4、cas5、cas6、cas7、cas8、cas9(也称为csnl和csx12)、cas10、csyl、csy2、csy3、csel、cse2、cscl、csc2、csa5、csn2、csm2、csm3、csm4、csm5、csm6、cmrl、cmr3、cmr4、cmr5、cmr6、csbl、csb2、csb3、csxl7、csxl4、csx10、csx16、csax、csx3、csxl、csxl5、csfl、csf2、csf3、csf4(ding)和/或csf5的crispr-cas系统的重复序列或其片段)的核酸,其中重复序列可与间隔子序列的5’末端和/或3’末端连接。本发明的grna的设计可以基于i型、ii型、iii型、iv型、v型或vi型crispr-cas系统。
[0237]
在一些实施方案中,cas12a grna可以从5’至3’包含重复序列(全长或其部分(“柄(handle)”);例如假结样结构)和间隔子序列。
[0238]
在一些实施方案中,引导核酸可包含不止一个重复序列-间隔子序列(例如2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个重复序列-间隔子序列)(例如重复序列-间隔子序列-重复序列,例如重复序列-间隔子序列-重复序列-间隔子序列-重复序列-间隔子序列-重复序列-间隔子序列-重复序列-间隔子序列,等等)。本发明的引导核酸是合成的、人造的和不是在自然界中发现的。grna可以相当长,可以用作适体(如在ms2募集策略中那样)
或其他从间隔子垂悬的rna结构。
[0239]
如本文中所用,“重复序列”是指例如野生型crispr cas基因座(例如cas9基因座、cas12a基因座、c2c1基因座等)的任何重复序列或与本发明核酸构建体编码的crispr-cas效应蛋白一起发挥功能的合成crrna的重复序列。可用于本发明的重复序列可以是crispr-cas基因座(例如i型、ii型、iii型、iv型、v型或vi型)的任何已知或后来鉴定的重复序列,或者其可以是被设计成在i型、ii型、iii型、iv型、v型或vi型crispr-cas系统中起作用的合成重复序列。重复序列可以包含发夹结构和/或茎环结构。在一些实施方案中,重复序列可以在其5’末端形成假结样结构(即,“柄”)。因此,在一些实施方案中,重复序列可以与来自野生型i型crispr-cas基因座、ii型crispr-cas基因座、iii型crispr-cas基因座、iv型crispr-cas基因座、v型crispr-cas基因座和/或vi型crispr-cas基因座的重复序列相同或实质性相同。来自野生型crispr-cas基因座的重复序列可以通过已建立的算法,诸如使用通过crisprdb提供的crisprfinder(参见,grissa等人nucleic acids res.35(网络服务器发行):w52-7)来确定。在一些实施方案中,重复序列或其部分在其3’末端与间隔子序列的5’末端连接,从而形成重复序列-间隔子序列(例如引导核酸、引导rna/dna、crrna、crdna)。
[0240]
在一些实施方案中,重复序列包含至少10个核苷酸,或基本上由至少10个核苷酸组成,或由至少10个核苷酸组成,这取决于具体的重复序列和包含该重复序列的引导核酸被加工还是未被加工(例如约10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个至100个或更多个核苷酸,或其中的任何范围或值)。在一些实施方案中,重复序列包含约10至约20个、约10至约30个、约10至约45个、约10至约50个、约15至约30个、约15至约40个、约15至约45个、约15至约50个、约20至约30个、约20至约40个、约20至约50个、约30至约40个、约40至约80个、约50至约100个或更多个核苷酸,基本由所述核苷酸组成,或由所述核苷酸组成。
[0241]
与间隔子序列的5’末端连接的重复序列可以包含重复序列的一部分(例如野生型重复序列的5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个或更多个连续核苷酸)。在一些实施方案中,与间隔子序列的5’末端连接的重复序列的一部分在长度上可以是野生型crispr cas重复核苷酸序列的约5至约10个连续核苷酸(例如约5个、6个、7个、8个、9个、10个核苷酸),并且与野生型crispr cas重复核苷酸序列的相同区域(例如5’末端)具有至少90%序列同一性(例如至少约90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多(例如99.1、99.2、99.3、99.4、99.5、99.6、99.7、99.8、99.9或100%))。在一些实施方案中,重复序列的一部分可在其5’末端包含假结样结构(例如“柄”)。
[0242]
如本文中所用,“间隔子序列”是与靶核酸(例如靶dna)(例如原间隔子)(例如序列的连续核苷酸)互补的核苷酸序列,其中所述序列(a)编码与seq id no:74的氨基酸序列具有至少95%序列同一性的序列;(b)包含与seq id no:72或seq id no:73的核苷酸序列具有至少90%序列同一性的序列;(c)包含与seq id no:77或seq id no:78的核苷酸序列具有至少90%序列同一性的序列;和/或(d)编码与seq id no:75或seq id no:76的氨基酸序
列具有至少90%序列同一性的序列。在一些实施方案中,间隔子序列可以包括、但不限于seq id no:79-82中任一个的核苷酸序列。间隔子序列可以与靶核酸完全互补或实质性互补(例如至少约70%(例如约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高)(例如99.1、99.2、99.3、99.4、99.5、99.6、99.7、99.8、99.9或100%)互补)。因此,在一些实施方案中,与靶核酸相比,间隔子序列可具有一个、两个、三个、四个或五个错配,所述错配可以是连续的或不连续的。在一些实施方案中,间隔子序列可以与靶核酸具有70%的互补性。在其他实施方案中,间隔子核苷酸序列可以与靶核酸具有80%的互补性。在其他实施方案中,间隔子核苷酸序列可与靶核酸(原间隔子)具有85%、90%、95%、96%、97%、98%、99%或99.5%的互补性等。在一些实施方案中,间隔子序列与靶核酸100%互补。间隔子序列可具有约15个核苷酸至约30个核苷酸(例如15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸,或其中的任何范围或值)的长度。因此,在一些实施方案中,间隔子序列可以在靶核酸(例如原间隔子)的长度为至少约15个核苷酸至约30个核苷酸的区域上具有完全互补性或实质性互补性。在一些实施方案中,间隔子长度约为20个核苷酸。在一些实施方案中,间隔子长度为约21个、22个或23个核苷酸。
[0243]
在一些实施方案中,引导核酸的间隔子序列的5’区域可以与靶dna相同,而所述间隔子的3’区域可以与靶dna(例如v型crispr-cas)实质性互补,或者引导核酸的间隔子序列的3’区域可与靶dna相同,而所述间隔子的5’区域可以与靶dna(例如ii型crispr-cas)实质性互补,因此,间隔子序列与靶dna的总体互补性可以小于100%。因此,例如,在v型crispr-cas系统的引导核酸中,例如20个核苷酸的间隔子序列的5’区域(即,种子区域)中的前1个、2个、3个、4个、5个、6个、7个、8个、9个、10个核苷酸可以与靶dna 100%互补,而间隔子序列的3’区中的其余核苷酸与靶dna实质性互补(例如至少约70%互补)。在一些实施方案中,间隔子序列5’末端的前1至8个核苷酸(例如前1个、2个、3个、4个、5个、6个、7个、8个核苷酸以及其中的任何范围)可以与靶dna 100%互补,而间隔子序列3’区域的其余核苷酸与靶dna实质性互补(例如至少约50%(例如50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高)互补)。
[0244]
作为另外的实例,在ii型crispr-cas系统的引导核酸中,例如20个核苷酸的间隔子序列的3’区域(即种子区)中的前1个、2个、3个、4个、5个、6个、7个、8个、9个、10个核苷酸可以与靶dna 100%互补,而间隔子序列的5’区域中的其余核苷酸与靶dna实质性互补(例如至少约70%互补)。在一些实施方案中,间隔子序列3’端的前1至10个核苷酸(例如前1个、2个、3个、4个、5个、6个、7个、8个、9个、10个核苷酸以及其中的任何范围)可以与靶dna 100%互补,而间隔子序列5’区中的其余核苷酸与靶dna实质性互补(例如至少约50%(例如至少约50%、55%、60%、65%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多或其中的任何范围或值)互补)。
[0245]
在一些实施方案中,间隔子的种子区长度可为约8至约10个核苷酸,长度可为约5至约6个核苷酸,或长度可为约6个核苷酸。
[0246]
如本文中所用,“靶核酸”、“靶dna”、“靶核苷酸序列”、“靶区域”或“基因组中的靶区域”是指植物基因组中与本发明的引导核酸中的间隔子序列完全互补(100%互补)或实质性互补(例如至少70%(例如70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高)互补)的区域。对crispr-cas系统有用的靶区域可以紧邻生物体基因组(例如植物基因组)中pam序列的3’(例如v型crispr-cas系统)或5’(例如ii型crispr-cas系统)。靶区域可以选自紧邻pam序列定位的至少15个连续核苷酸(例如16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个核苷酸等)的任何区域。
[0247]“原间隔子序列”是指靶双链dna,具体是指与crispr重复-间隔子序列(例如引导核酸、crispr阵列、crrna)的间隔子序列完全互补或实质性互补(并杂交)的靶dna的部分(例如,或基因组中的靶区域)。
[0248]
在v型crispr-cas(例如cas12a)系统和ii型crispr-cas(cas9)系统的情况下,原间隔子序列侧接(例如紧邻)原间隔子邻近基序(protospacer adjacent motif,pam)。对于iv型crispr-cas系统,pam位于非靶链的5’末端和靶链的3’末端(例如参见下文)。
[0249][0250]
在ii型crispr-cas(例如cas9)系统的情况下,pam紧邻靶区域的3’。i型crispr-cas系统的pam位于靶链的5’。iii型crispr-cas系统没有已知的pam。makarova等人描述了crispr系统的所有类别、类型和亚型的命名法(nature reviews microbiology 13:722

736(2015))。引导结构和pam由r.barrangou(genome biol.16:247(2015))描述。
[0251]
典型的cas12a pam富含t。在一些实施方案中,典型的cas12apam序列可以是5
’‑
ttn、5
’‑
tttn或5
’‑
tttv。在一些实施方案中,典型的cas9(例如化脓性链球菌)pam可以是5
’‑
ngg-3’。在一些实施方案中,可以使用非典型的pam,但是可能效率更低一些。
[0252]
本领域技术人员可以通过已建立的实验和计算方法确定其他pam序列。因此,例如,实验方法包括靶向两侧为所有可能的核苷酸序列的序列,并鉴定不经历靶向的序列成员,诸如通过靶质粒dna的转化(esvelt等人2013.nat.methods 10:1116-1121;jiang等人2013.nat.biotechnol.31:233-239)。在一些方面,计算方法可包括对天然间隔子进行blast搜索以鉴定噬菌体或质粒中的原始靶dna序列,并比对这些序列以确定邻近靶序列的保守序列(briner和barrangou 2014.appl.environ.microbiol.80:994-1001;mojica等人2009.microbiology 155:733-740)。
[0253]
在一些实施方案中,本发明提供了包含本发明核酸构建体的表达盒和/或载体(例如本发明编辑系统的一个或多个组分)。在一些实施方案中,可以提供包含本发明的核酸构建体和/或一种或多种引导核酸的表达盒和/或载体。在一些实施方案中,编码碱基编辑器的本发明的核酸构建体(例如包含crispr-cas效应蛋白和脱氨酶结构域的构建体(例如融合蛋白))或用于碱基编辑的组分(例如与肽标签或亲和多肽融合的crispr-cas效应蛋白,
与肽标签或亲和多肽融合的脱氨酶结构域,和/或与肽标签或亲和多肽融合的ugi),可以包含在与包含所述一种或多种引导核酸的表达盒或载体相同的表达盒或载体上或者另外的表达盒或载体上。当编码碱基编辑器的核酸构建体或用于碱基编辑的组分包含在与包含引导核酸的表达盒或载体分开的表达盒或载体上时,可以例如在提供(例如与靶核酸接触)包含引导核酸的表达盒之前、与之同时或之后,将靶核酸以彼此之间的任何顺序与编码碱基编辑器或用于碱基编辑的组分的表达盒或载体和引导核酸接触(例如与其一起提供)。
[0254]
如本领域已知的,本发明的融合蛋白可包含序列特异性核酸结合结构域、crispr-cas多肽和/或与肽标签或与肽标签相互作用的亲和多肽融合的脱氨酶结构域,用于将脱氨酶募集到靶核酸。募集方法还可包括与rna募集基序和脱氨酶(其与能够与rna募集基序相互作用的亲和多肽融合)连接的引导核酸,从而将脱氨酶募集到靶核酸上。或者,化学相互作用可用于将多肽(例如脱氨酶)募集到靶核酸上。
[0255]
可用于本发明的肽标签(例如表位)可包括、但不限于gcn4肽标签(例如sun标签)、c-myc亲和标签、ha亲和标签、his亲和标签、s亲和标签、甲硫氨酸-his亲和标签、rgd-his亲和标签、flag八肽、strep标签或strep标签ii、v5标签和/或vsv-g表位。可以与多肽连接的以及对于其存在可以与另一种多肽连接的相应的亲和多肽的任何表位,都可以在本发明中用作肽标签。在一些实施方案中,肽标签可包含1个或2个或更多个拷贝的肽标签(例如重复单元、多聚化表位(例如串联重复))(例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个或更多个重复单元)。在一些实施方案中,与肽标签相互作用/结合的亲和多肽可以是抗体。在一些实施方案中,所述抗体可以是scfv抗体。在一些实施方案中,与肽标签结合的亲和多肽可以是合成的(例如为亲和相互作用而进化的),包括但不限于亲和体、anticalin、单抗体(monobody)和/或darpin(参见例如sha等人,protein sci.26(5):910-924(2017));gilbreth(curr opin struc biol 22(4):413-420(2013)),美国专利第9,982,053号,就与亲和体、抗anticalin、单抗体和/或darpin相关的教导将它们均通过引用整体并入本文。
[0256]
在一些实施方案中,引导核酸可与rna募集基序连接,待募集的多肽(例如脱氨酶)可与和所述rna募集基序结合的亲和多肽融合,其中所述引导核酸与靶核酸结合,并且所述rna募集基序与亲和多肽结合,从而将多肽募集到引导核酸处,并使靶核酸与所述多肽(例如脱氨酶)接触。在一些实施方案中,两种或更多种多肽可被募集到引导核酸,从而使靶核酸与两种或更多种多肽(例如脱氨酶)接触。
[0257]
在一些实施方案中,与亲和多肽融合的多肽可以是逆转录酶,引导核酸可以是与rna募集基序连接的延伸的引导核酸。在一些实施方案中,rna募集基序可以位于延伸的引导核酸的延伸部分的3’末端(例如5
’‑3’
,重复序列-间隔子-延伸的部分(rt模板-引物结合位点)-rna募集基序)。在一些实施方案中,rna募集基序可以嵌入延伸的部分。
[0258]
在本发明的一些实施方案中,可将延伸的引导rna和/或引导rna与一个或两个或更多个rna募集基序(例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个基序,例如至少10至约25个基序)连接,任选地,其中所述两个或更多个rna募集基序可以是相同的rna募集基序或是不同的rna募集基序。在一些实施方案中,rna募集基序和相应的亲和多肽可以包括但不限于端粒酶ku结合基序(例如ku结合发夹)和相应的亲和多肽ku(例如ku异二聚体)、端粒酶sm7结合基序和相应的亲和多肽sm7、ms2噬菌体操纵子茎环和相应的亲和多
肽ms2外壳蛋白(mcp)、pp7噬菌体操纵子茎环和相应的亲和多肽pp7外壳蛋白(pcp)、sfmu噬菌体com茎环和相应的亲和多肽com rna结合蛋白、puf结合位点(pbs)和亲和多肽pumilio/fem-3mrna结合因子(puf),和/或合成的rna-适体和适体配体作为相应的亲和多肽。在一些实施方案中,rna募集基序和相应的亲和多肽可以是ms2噬菌体操纵子茎环和亲和多肽ms2外壳蛋白(mcp)。在一些实施方案中,rna募集基序和相应的亲和多肽可以是puf结合位点(pbs)和亲和多肽pumilio/fem-3mrna结合因子(puf)。
[0259]
在一些实施方案中,用于募集多肽和核酸的组分可以是通过化学相互作用起作用的那些组分,包括但不限于:雷帕霉素诱导的frb

fkbp的二聚化;生物素-链霉抗生物素蛋白素;snap标签;halo标签;clip标签;由化合物诱导的dmra-dmrc异二聚体;双功能配体(例如两种蛋白结合化学物质融合在一起,例如二氢叶酸还原酶(dhfr))。
[0260]
在一些实施方案中,为了在植物中表达而优化的本发明的核酸构建体、表达盒或载体可以与包含相同多核苷酸(但其未针对在植物中表达而进行过密码子优化)的核酸构建体、表达盒或载体具有约70%至100%(例如约70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或100%)同一性。
[0261]
本文还提供了包含本发明的一种或多种多核苷酸、引导核酸、核酸构建体、表达盒或载体的细胞。
[0262]
现在将参考以下实施例描述本发明。应该理解的是,这些实施例并不旨在限制本发明的权利要求的范围,而是旨在作为某些实施方案的示例。技术人员想到的示例性方法的任何变化都落入本发明的范围内。
[0263]
实施例
[0264]
实施例1设计编辑构建体用于fea2编辑
[0265]
在享有产权的玉米系鉴定了fea2基因的基因组序列。根据该参考序列,设计间隔子序列(seq id no:73-76)用于编辑构建体。所述编辑构建体包含crispr-cas效应物和被设计成靶向由fea2基因编码的fea2蛋白的氨基酸位置477的间隔子序列。将间隔子与cas-效应子切割酶或cas-效应子碱基编辑复合物一起部署。
[0266]
实施例2被编辑的e0植物的转化和选择
[0267]
使用土壤杆菌将编码间隔子的载体(表1)以及选择的crispr-cas效应子引入干燥的切下的玉米胚中。在体外用抗生素选择维持转化的组织以再生阳性转化体。选择健康的非嵌合植物(e0)并插入生长盘中。从再生植物收集组织(e0代)用于dna提取,随后进行分子筛选来鉴定fea2中的编辑。将鉴定为(1)健康、非嵌合和可育,具有(2)低转基因拷贝和(3)在位置477附近的编辑的植物推进到下一代。将满足所有上述标准的e0植物自交以产生e1代。将所选择的e1自交以产生e2代。我们鉴定了在氨基酸位置477处和周围具有缺失和取代的几个家族。
[0268]
表1每个pwise载体中存在的间隔子
[0269][0270]
实施例3性状活性的表型评估
[0271]
将e1和e2材料的种子在平板上种植,然后在出苗后转移到罐中。所有材料在标准温室条件下栽培并生长至繁殖成熟。根据标准实践,在丝出现之前,用小纸袋覆盖出现的穗,并且在花期覆盖穗以便基于植物靠植物捕获花粉。在一些情况下,花期和出丝不同步,并且穗没有被授粉。我们将这些称为未被授粉的穗,并且在干燥后从植物中取出所有穗后,对它们分开评估穗行数测定值(如下所述)。
[0272]
在穗收获和干燥之后,对所有穗手动计数穗行数。数据表示从最明确的行谱线的穗的中间部分取得的每穗三行计数的平均值。为了防止对行的双重计数,在计数开始的行之间插入标记(例如纸夹),并且指定行计数应该停止的位置。
[0273]
用canon数码相机和eos应用对所有穗进行光记录。随后将图像导入imagej中,并使用线轨迹函数测量所有的穗。在图像分析程序中通过设定比例以厘米为单位确定穗长,以输出在用沿着穗的长度从其尖端到穗的基部的线跟踪穗之后以厘米为单位的距离。未被编辑的种质(第01dkd2行)和用gus质粒转化的品系被用作表型分型的野生型对照。表2和表3示出了源自自交e0穗的e1家族的穗行数(krn)和穗长度测量值,表4和表5示出了源自自交e1穗的e2家族的穗行数和穗长度测量值。
[0274]
表2 e1纯合等位基因
[0275][0276][0277]
表3 e1纯合等位基因
[0278][0279][0280]
表4 e2同源等位基因
[0281][0282]
表5 e2纯合等位基因
[0283][0284]
前述内容对本发明进行了说明,它们不应被解释为对本发明的限制。本发明由所附权利要求书限定,其中各权利要求的等同方式被包括在其中。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献