一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

修饰基因组的组合物和方法与流程

2022-07-11 12:21:17 来源:中国专利 TAG:
修饰基因组的组合物和方法发明领域1.本发明涉及用于在预选位置编辑基因组序列和用于调节基因表达的组合物和方法。2.相关申请的交叉引用3.本技术要求2019年9月5日提交的美国临时申请第62/896,243号的优先权,其内容通过引用纳入本文。4.关于通过efs-web以文本文件形式提交的序列表5.序列表的正式文本通过efs-web以按照美国信息交换标准码(ascii)的文本文件与说明书同时提交,文件名为b88552_1260wo_seq_list_9-8-20.txt,创建日期为2020年9月8日,大小为1260kb。通过efs-web提交的该序列表是本说明书的一部分且通过引用全文纳入本文。6.发明背景7.基因组dna的修饰对于基础和应用研究是极其重要的。基因组修饰有可能说明并且在一些情况中疗愈病因,以及在包括此类修饰的个体和/或细胞中提供所需特性。基因组修饰可以包括例如植物、动物、真菌的修饰,和/或原核基因组修饰。修饰基因组dna的最常用方法趋向于在基因组内的随机位点修饰dna,但是最近的发现使位点特异性基因组修饰成为可能。此类技术依赖于在所需位点上产生dsb。该dsb导致将宿主细胞的原生dna修复机制募集到dsb。可以控制dna修复机制,以在预定位点插入异源性dna,以使原生植物基因组dna缺失,或以在所需位点生成点突变、插入或缺失。对于位点特异性基因组修饰特别感兴趣的是成簇规律间隔短回文重复序列(crispr)核酸酶。crispr核酸酶使用引导分子,通常是引导rna分子,它与核酸酶相互作用并且与靶向的dna碱基配对,从而允许核酸酶在所需位点产生双链断裂(dsb)。dsb的产生要求原型间隔子-邻近基序(pam)序列的存在;在pam序列的识别之后,crispr核酸酶能够产生所需dsb。cpf1(或者称作cas12a)crispr核酸酶是一类crispr核酸酶,相对于其它crispr核酸酶(例如cas9核酸酶)具有某些所需性质。然而,某些cpf1核酸酶在对于一种或多种所需应用可能不是最佳的温度下具有最佳活性。例如,一些cpf1核酸酶在相对较高的温度下具有最佳活性,然而一些基因编辑应用需要在相对较低(即cpf1活性的次优)温度下进行组织培养或其他操作。在较低的温度下具有改进的活性的替代或突变的cpf1核酸酶将为这些应用提供优势。8.实施基因组修饰的一个领域是植物基因组dna的修饰。植物基因组dna的修饰对于基础和应用植物学研究是极其重要的。具有稳定修饰的基因组dna的转基因植物可以具有新的性状,如除草剂耐受,抗虫性,和/或积累有价值蛋白质,包括它们提供的药用蛋白质和工业酶。原生植物基因的表达可能会被上调或下调或以其他方式改变(例如,通过改变表达原生植物基因的组织),它们的表达可能会被完全消除,dna序列可能会被改变(例如,通过点突变、插入或缺失),或新的非原生基因可能会被插入植物基因组,从而将新的性状赋予植物。9.发明概述10.提供了使用在宽温度范围内保持其活性的cpf1crispr系统进行基因组dna序列修饰的组合物和方法。本文所用基因组dna表示线性和/或染色体dna和/或感兴趣的一种或多种细胞中存在的质粒或其它染色体外dna序列。该方法在基因组dna序列中的预定靶位点生成双链断裂(dsb),在基因组中的靶位点导致dna序列的突变、插入和/或缺失。该组合物包含含有编码cpf1蛋白的核苷酸序列的dna构建体,其中所述cpf1蛋白选自与seqidno:9-11具有约80%序列同一性的序列,其中该核苷酸序列可以可操作地连接至能够在感兴趣的细胞中驱动表达的启动子。在一些实施方式中,编码的cpf1蛋白包含相对于野生型cpf1蛋白序列的突变。dna构建体可以用于指导在预定基因组基因座的基因组dna修饰。本文描述了使用这些dna构建体来修饰基因组dna序列的方法。本文还涵盖经修饰的真核生物和真核细胞,包括酵母,变形虫,昆虫,真菌,哺乳动物,植物,植物细胞,植物部分和种子,以及经修饰的原核生物,包括细菌和古细菌。11.还提供了用于调节基因表达的组合物和方法。该方法靶向一种或多种蛋白质至基因组中预定位点以实现上调或下调一种或多种基因,其表达由基因组中靶向的位点调节。组合物包括含有核苷酸序列的dna构建体,所述核苷酸序列编码具有减弱或消失的核酸酶活性的修饰的cpf1蛋白,任选地融合转录激活或抑制结构域。本文描述了使用这些dna构建体来修饰基因表达的方法。12.在第一方面,本发明提供了一种在真核或原核细胞基因组中在靶位点处修饰核苷酸序列的方法,通过向真核或原核细胞引入(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含互补于所述真核或原核细胞基因组中靶向的序列的核苷酸序列;和(b)第二区段,其包含选自seqidno:12-17的序列;和(ii)cpf1多肽或编码cpf1多肽的多核苷酸,其中所述cpf1多肽包含:(a)与靶向dna的rna相互作用的结合rna的部分;和(b)显示定点酶促活性的活性部分,其中cpf1多肽与选自seqidno:9-11、39-43、45、47-53和67的序列具有至少95%同一性,其中所述cpf1多肽是非天然存在的cpf1多肽,其包含相对于野生型cpf1多肽的至少一个突变,其中所述真核或原核细胞的基因组包含核的、质体的、线粒体的、染色体的、质粒的或其他胞内的dna序列,其中所述靶向的序列紧邻基因组中pam位点的3’,其中所述cpf1多肽识别tttcpam位点且具有cpf1核酸酶活性。13.在上述方面的一些实施方式中,该方法还包括在表达所述cpf1多肽并在所述靶位点处切割核苷酸序列以生成经修饰的核苷酸序列的条件下培养所述真核或原核细胞;和选择包含修饰的核苷酸序列的真核或原核细胞。14.在上述方面的一些实施方式中,其中所述方法在低于32℃的温度下进行。15.在前述方面的一些实施方式中,修饰的核苷酸序列包含所述细胞基因组中异源性dna的插入,所述细胞基因组中核苷酸序列的缺失,或所述真核或原核细胞基因组中至少一个核苷酸的突变。16.在前述方面的一些实施方式中,修饰的核苷酸序列包含多核苷酸的插入,其编码能够向转化的细胞赋予抗生素或除草剂耐受性的蛋白质。17.在另一方面,本发明提供包含编码cpf1多肽的多核苷酸序列的组合物,其中所述多核苷酸序列与选自seqidno:25和27的序列具有至少95%同一性,或其中所述多核苷酸序列编码与选自seqidno:9-11、39-43、45和47-53的序列具有至少95%同一性的cpf1多肽,其中所述cpf1多肽是非天然存在的cpf1多肽,其包含相对于野生型cpf1多肽的至少一个突变,且其中所述编码cpf1多肽的多核苷酸序列可操作地连接至与所述编码cpf1多肽的多核苷酸序列异源的启动子。18.在以上方面的一些实施方式中,cpf1多肽包含一个或多个突变,当经对比以实现最大同一性时,所述突变在对应于seqidno:3的877或971位置的一个或多个位置。19.在另一个方面,本发明提供包含本文上述核酸分子的真核或原核细胞。20.在又一个方面,本发明提供包含本文上述核酸分子的植物细胞。本文还提供了从这种植物细胞再生的植物。本文进一步提供了这种植物的种子,其中该种子包含编码cpf1多肽的多核苷酸序列。21.在另一方面,本发明提供通过本文上述方法产生的植物,其中该植物包含编码cpf1多肽的多核苷酸序列。22.在本文上述组合物的一些实施方式中,编码cpf1多肽的所述多核苷酸序列经密码子优化以在植物细胞中表达。23.在本文上述方法的一些实施方式中,cpf1多肽包含选自下组的序列:seqidno:9-11、39-43、45和47-53。24.在本文上述组合物的一些实施方式中,cpf1多肽包含选自下组的序列:seqidno:9-11、39-43、45和47-53。25.如本文所述方法的一些实施方式中,非天然存在的cpf1多肽包含相对于野生型cpf1多肽的至少两个突变。在某些实施方式中,非天然存在的cpf1多肽选自下组:seqidno:9-11、39-43、45、47-53和67。26.如本文所述组合物的一些实施方式中,非天然存在的cpf1多肽包含相对于野生型cpf1多肽的至少两个突变。在某些实施方式中,非天然存在的cpf1多肽选自下组:seqidno:9-11、39-43、45、47-53和67。附图说明27.图1描述了mccpf1(seqidno:3)、pb2cpf1(seqidno:5)和coe1cpf1(seqidno:7)的muscle比对。箭头表示该残基被突变为精氨酸(mccpf1d172、pb2cpf1e173和coe1cpf1q161)。具体实施方式28.提供了用于控制基因表达的方法和组合物,涉及与crispr-cpf系统及其组件有关的序列靶向(例如基因组干扰或基因编辑)。在某些实施方式中,crispr酶是cpf酶,例如cpf1直向同源物(ortholog)或天然存在的cpf1酶的突变形式。该方法和组合物包括核酸以结合靶dna序列。这是有利的,因为生产核酸相比生产(例如)肽要容易且成本低得多,并且特异性可根据所需同源性的延伸段(stretch)的长度而不同。例如,不要求具有复杂的多指3d定位。29.还提供编码cpf1多肽的核酸,以及使用cpf1多肽来修饰宿主细胞染色体(即,基因组)或细胞器dna序列的方法。cpf1多肽与特定的引导rna(grna)相互作用,其将cpf1内切核酸酶引导至靶位点,cpf1内切核酸酶在此处引入双链断裂,该双链断裂可通过dna修复过程修复,从而修饰dna序列。因为特异性由引导rna提供,所以cpf1多肽是通用的,并且可与不同引导rna联用以靶向不同的基因组序列。相较于crispr阵列常规使用的cas核酸酶(例如,cas9)而言,cpf1内切核酸酶具有某些优势。例如,cpf1相关的crispr阵列能被加工为成熟的crrna而无需其它反式激活crrna(tracrrna)。此外,对于迄今为止表征的那些系统,cpf1-crrna复合物能够切割前方具有通常富含t的短原型间隔子(protospacer)-邻近基序(pam)的靶dna,这与许多cas9系统中在靶dna之后具有富含g的pam形成对比。进一步地,cpf1可以引入具有4或5-核苷酸(nt)5′突出端的交错的dna双链断裂。30.本文公开的方法可以用于靶向和修饰特定染色体序列和/或在真核和原核细胞基因组中的靶向的位置处引入外源序列。所述方法还可用于引入序列或修饰细胞器(例如,叶绿体和/或线粒体)中的区域。此外,靶向是特异性的,脱靶效应有限。31.i.cpf1内切核酸酶32.本文提供了用于修饰基因组的cpf1内切核酸酶及其片段和变体。如本文所用术语cpf1(与“cas12a”互换使用)内切核酸酶或cpf1多肽指seqidno:3、5、7、9-11、36-38、28和29中所示的cpf1多肽的同源物、直向同源物和变体。在某些实施方式中,本发明的cpf1多肽包含相对于野生型序列的突变。在一些优选的实施方式中,野生型cpf1多肽与选自seqidno:3、5和7的序列具有至少80%同一性,突变的cpf1多肽与选自seqidno:9-11和36-38的序列具有至少80%同一性,且对应于seqidno:3的d172位置的氨基酸处包含精氨酸残基。通常,cpfi内切核酸酶可在不使用tracrrna的情况下起作用,并且可引入交错的dna双链断裂。通常,cpf1多肽包含至少一个rna识别和/或rna结合结构域。rna识别和/或rna结合结构域与引导rna相互作用。通常,引导rna包含具有与cpf1多肽相互作用的茎环结构的区域。该茎环通常包含序列ucuacn3-5guagau(seqidno:15-17,由seqidno:12-14编码),带有“ucuac”和“guaga”碱基配对以形成茎-环的茎。n3-5表示在该位置可存在任何碱基,并且在该位置可包含3、4或5个核苷酸。cpf1多肽还可包括核酸酶结构域(即,dna酶或rna酶结构域),dna结合结构域,解旋酶结构域,rna酶结构域,蛋白质-蛋白质相互作用结构域,二聚化结构域,以及其它结构域。在特定的实施方式中,cpf1多肽或编码cpf1多肽的多核苷酸包含:与靶向dna的rna相互作用的rna结合部分,和显示定点酶促活性的活性部分,例如ruvc内切核酸酶结构域。如本文所用,定点酶促活性或定点酶活性是指酶被导向核酸靶位点并制造核酸的单链或双链切割的能力。在具体的实施方式中,核酸酶通过靶向dna的rna被引导至靶位点。33.cpf1多肽可以是野生型cpf1多肽,修饰的cpf1多肽或野生型或修饰的cpf1多肽的片段。cpf1多肽可经修饰以增加核酸结合亲和性和/或特异性,改变酶活性,和/或改变该蛋白质的另一性质。例如,可对cpf1多肽的核酸酶(即,dna酶,rna酶)结构域进行修饰、使之缺失或失活。或者,可将cpf1多肽截短以去除对蛋白质功能非必需的结构域。34.在一些实施方式中,cpf1多肽可衍生自野生型cpf1多肽或其片段。在其它实施方式中,cpf1多肽可衍生自经修饰的cpf1多肽。例如,cpf1多肽的氨基酸序列可经修饰以改变该蛋白质的一种或多种特性(例如,活性的最佳温度范围、pam偏好、核酸酶活性、亲和性、稳定性等)。或者,可消除该蛋白质中不参与rna引导的切割的cpf1多肽的结构域,从而使经修饰的cpf1多肽小于野生型cpf1多肽。35.通常,cpf1多肽包含至少一个核酸酶(即dna酶)结构域,但不包含hnh结构域,例如cas9蛋白中存在的一个。例如,cpf1多肽可包含ruvc-样核酸酶结构域。在一些实施方式中,cpf1多肽可经修饰以使核酸酶结构域失活,从而使其不再起作用。在其中核酸酶结构域之一是失活的一些实施方式中,cpf1多肽不切割双链dna。在特定实施方式中,在以降低或消除核酸酶活性的最大同一性比对时,突变的cpf1多肽在对应于seqidno:3的877或971位置的位置包含突变。例如,在ruvc-样结构域中天冬氨酸至丙氨酸(d917a)转化和谷氨酸至丙氨酸(e1006a)完全失活fncpf1(来自新凶手弗朗西斯菌(francisellanovicida)的变体cpf1,seqidno:29)的dna切割活性,而天冬氨酸至丙氨酸(d1255a)显著降低切割活性(zetsche等(2015)cell163:759-771)。可以使用众所周知的方法,例如定点诱变,pcr介导的诱变和总基因合成,以及本领域已知的其它方法来修饰核酸酶结构域。具有失活的核酸酶结构域的cpf1蛋白(dcpf1蛋白)可用于调节基因表达而无需修饰dna序列。在某些实施方式中,可以通过使用合适的grna将dcpf1蛋白靶向基因组的特定区域,例如感兴趣的一个或多个基因的启动子。dcpf1蛋白可结合至所需dna区域,并可干扰rna聚合酶与dna的该区域结合和/或干扰转录因子与dna该区域结合。该技术可用于上调或下调一个或多个感兴趣的基因的表达。在某些其它实施方式中,dcpf1蛋白可与阻遏物结构域融合,以进一步下调一种或多种基因的表达,所述一种或多种基因的表达被rna聚合酶、转录因子或其它转录调节物与grna靶向的染色体dna区域间的相互作用所调节。在某些其它实施方式中,dcpf1蛋白可与激活结构域融合以上调一种或多种基因的表达,所述一种或多种基因的表达被rna聚合酶、转录因子或其它转录调节物与grna靶向的染色体dna区域间的相互作用所调节。36.本文所公开的cpf1多肽还可包含至少一个核定位信号(nls)。nls通常包含一段碱性氨基酸。本领域已知核定位信号(参见,例如,lange等,j.biol.chem.(2007)282:5101-5105)。nls可以定位于cpf1多肽的n末端,c末端,或内部位置。在一些实施方式中,cpf1多肽还可包含至少一个细胞穿透性结构域。细胞穿透性结构域可定位于该蛋白质的n末端,c末端,或内部位置。37.本文所公开的cpf1多肽还可包含至少一种质体靶向信号肽,至少一种线粒体靶向信号肽,或使cpf1多肽靶向质体和线粒体两者的信号肽。本领域已知质体、线粒体和双靶向信号肽定位信号(参见,例如,nassoury和morse(2005)biochimbiophysacta1743:5-19;kunze和berger(2015)frontphysioldx.doi.org/10.3389/fphys.2015.00259;herrmann和neupert(2003)iubmblife55:219-225;soll(2002)curropinplantbiol5:529-535;carrie和small(2013)biochimbiophysacta1833:253-259;carrie等(2009)febsj276:1187-1195;silva-filho(2003)curropinplantbiol6:589-595;peeters和small(2001)biochimbiophysacta1541:54-63;murcha等(2014)jexpbot65:6301-6335;mackenzie(2005)trendscellbiol15:548-554;glaser等(1998)plantmolbiol38:311-338)。质体、线粒体或双靶向信号肽可以定位于cpf1多肽的n末端,c末端,或内部位置。38.在其他实施方式中,cpf1多肽还可以还包括至少一个标志物结构域。标志物结构域的非限制性示例包括荧光蛋白,纯化标签和表位标签。在某些实施方式中,标志物结构域可以是荧光蛋白。合适的荧光蛋白的非限制性示例包括绿色荧光蛋白(例如gfp,gfp-2,taggfp,turbogfp,egfp,emerald,azamigreen,单体型azamigreen,copgfp,acegfp,zsgreen1),黄色荧光蛋白(例如yfp,eyfp,citrine,venus,ypet,phiyfp,zsyellow1),蓝色荧光蛋白(例如ebfp,ebfp2,azurite,mkalama1,gfpuv,sapphire,t-sapphire),青色荧光蛋白(例如ecfp,cerulean,cypet,amcyan1,midoriishi-cyan),红色荧光蛋白(mkate,mkate2,mplum,dsred单体,mcherry,mrfp1,dsred-express,dsred2,dsred-单体,hcred-tandem,hcred1,asred2,eqfp611,mrasberry,mstrawberry,jred),和橙色荧光蛋白(morange,mko,kusabira-orange,monomerickusabira-orange,mtangerine,tdtomato),或任何其它合适的荧光蛋白。在其他实施方式中,标志物结构域可以是纯化标签和/或表位标签。示例性的标签包括但不限于,谷胱甘肽s-转移酶(gst)、甲壳素结合蛋白(cbp)、麦芽糖结合蛋白质、硫氧还蛋白(trx)、多聚(nanp)、串联亲和纯化(tap)标签、myc、acv5、au1、au5、e、ecs、e2、flag、ha、nus、softag1、softag3、strep、sbp、glu-glu、hsv、kt3、s、s1、t7、v5、vsv-g、6xhis、生物素羧基载体蛋白(bccp)和钙调蛋白。39.在某些实施方式中,cpf1多肽可以是含有引导rna的蛋白质-rna复合物的一部分。引导rna与cpf1多肽相互作用将cpf1多肽引导至特定靶位点,其中引导rna的5′端可与植物基因组中感兴趣的核苷酸序列的特定原型间隔子序列碱基配对,可以是核、质体和/或线粒体基因组的任何部分。本文所用术语“靶向dna的rna”表示这样的引导rna,其与植物细胞基因组中感兴趣的核苷酸序列靶位点以及cpf1多肽相互作用。靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,可包括:包含与靶dna中序列互补的核苷酸序列的第一区段,以及与cpf1多肽相互作用的第二区段。40.本文公开的编码cpf1多肽的多核苷酸可用于从其它原核或真核生物分离相应的序列。由此,pcr、杂交等方法可用于根据此类序列与本文所示序列的序列同源性或同一性来鉴定该此类序列。本发明涵盖基于与本文所述的整个cpf1序列或其变体和片段的序列同一性而分离的序列。此类序列包括公开cpf1序列的直向同源物序列。“直向同源物”是指源白共同祖先基因且由于物种形成而在不同物种中发现的基因。当在不同物种中发现的基因的核苷酸序列和/或它们的编码蛋白质序列具有至少约75%、约80%、约85%、约90%、约91%、约92%、约93%、约94%、约95%、约96%、约97%、约98%、约99%或更大的序列同一性时,它们被认为是直向同源物。直向同源物的功能通常在物种之间高度保守。因此,本发明涵盖分离的多核苷酸,其编码具有cpf1内切核酸酶活性的多肽,并且与本文公开的序列具有至少约75%或更大的序列同一性。如本文所用,cpf1内切核酸酶活性指crispr内切核酸酶活性,其中,与cpf1多肽关联的引导rna(grna)引起cpf1-grna复合物结合至预定的核苷酸序列,该核苷酸序列与grna互补;并且其中,cpf1活性可在grna靶向的位点处或附近引入双链断裂。在某些实施方式中,该双链断裂可以是交错的dna双链断裂。本文所用“交错的dna双链断裂”可以使双链断裂在切割后在3′或5′端上具有约1个、约2个、约3个、约4个、约5个、约6个、约7个、约8个、约9个或约10个核苷酸的突出端。在特定的实施方式中,cpf1多肽引入具有4或5-nt5′突出端的交错的dna双链断裂。该双链断裂可以发生在靶向dna靶向的rna(例如,引导rna)序列所靶向的序列处或其附近。41.本文涵盖cpf1多核苷酸和由此编码的cpf1氨基酸序列(其保留cpf1核酸酶活性)的片段和变体。“cpf1核酸酶活性”意指通过引导rna介导的预定dna序列的结合或杂交(即,当靶向的dna序列位于被cpf1核酸酶识别的pam序列下游时,通过引导rna与靶向的dna序列的碱基配对)。在其中cpf1核酸酶包含功能性ruvc结构域的实施方式中,cpf1核酸酶活性还可包括双链断裂诱导。“片段”是指多核苷酸的部分或氨基酸序列的部分。“变体”是指基本相似的序列。对于多核苷酸,变体包括具有以下的多核苷酸:在5′和/或3′端处的缺失(即,2.0中)。或者,可利用psi-blast(在blast2.0中)进行迭代搜索,其用来检测分子之间的远近关系。参见altschul等,(1997)同上。利用blast、缺口blast和psi-blast程序时,可使用各程序(例如针对蛋白质的blastx,针对核苷酸序列的blastn)的默认参数。参见网站www.ncbi.nlm.nih.gov。也可通过检查来人工进行比对。46.编码cpf1多肽或其片段或变体的核酸分子可以经密码子优化,用于在感兴趣的植物或感兴趣的其它细胞或生物体中表达。″密码子优化的基因″是这样的基因,其密码子使用频率经设计以模拟宿主细胞的偏好密码子使用频率。核酸分子可以是完全或部分优化的密码子。因为任一氨基酸(除了甲硫氨酸和色氨酸)均由多种密码子编码,所述核酸分子的序列可变化但不改变编码的氨基酸。密码子优化是在核酸水平上改变一种或多种密码子时,致使氨基酸不变,但在具体的宿主生物体中的表达增加。本领域普通技术人员将知晓密码子表格,并且,提供关于广泛生物体的偏好信息的其它参考文献是本领域中可得的(参见例如,zhang等.(1991)gene105:61-72;murray等.(1989)nucl.acidsres.17:477-508)。就植物中表达优化核苷酸序列的方法提供于例如美国专利号6,015,891和其中引用的参考文献。用于在植物中表达的密码子优化的多核苷酸的示例示于:seqidno:24-27。47.ii.融合蛋白48.本文提供了融合蛋白,其包括cpf1多肽或其片段或变体以及效应物结构域。通过引导rna可以将cpf1多肽引导至靶位点,在该位点效应物结构域可以修饰或影响靶向的核酸序列。效应物结构域可以是切割结构域,表观遗传修饰结构域,转录激活结构域或转录阻遏结构域。融合蛋白还可包含选自以下的至少一个其它结构域:核定位信号、质体信号肽、线粒体信号肽、能够运输蛋白质至多个亚细胞位置的信号肽、细胞穿透结构域或标志物结构域,这些中的任何一种都可以定位于融合蛋白的n末端、c末端或内部位置。cpf1多肽可以定位于融合蛋白的n末端,c末端,或内部位置。cpf1多肽可直接融合至效应物结构域,或可通过接头融合。在特定实施方式中,将cpf1多肽与效应物结构域融合的接头序列长度可以是至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40或50个氨基酸。例如,接头的长度可以在1-5、1-10、1-20、1-50、2-3、3-10、3-20、5-20或10-50个氨基酸之间。49.在一些实施方式中,融合蛋白的cpf1多肽可源自野生型cpf1蛋白。cpf1衍生的蛋白质可以是经修饰的变体或片段。在一些实施方式中,cpf1多肽可以经修饰以含有核酸酶活性减弱或消除的核酸酶结构域(例如,ruvc结构域)。例如,cpf1衍生的多肽可以经修饰,从而使得核酸酶结构域缺失或突变,进而使其不再具有功能性(即,不存在核酸酶活性)。特别地,当以最大同一性比对时,cpf1多肽可以在对应于seqidno:3的877和/或971位置的位置处具有突变。例如,在ruvc-样结构域中天冬氨酸至丙氨酸(d917a)转化和谷氨酸至丙氨酸(e1006a)完全失活fncpf1(seqidno:29)的dna切割活性,而天冬氨酸至丙氨酸(d1255a)显著降低切割活性(zetsche等(2015)cell163:759-771)。可以使用已知的方法通过一个或多个缺失突变、插入突变和/或取代突变使核酸酶结构域失活,如定点诱变,pcr介导的诱变,和全基因合成,以及本领域已知的任何其它方法。在示例性的实施方式中,融合蛋白的cpf1多肽通过使ruvc样结构域突变来修饰,从而使得cpf1多肽不具有核酸酶活性。50.融合蛋白还包括效应物结构域,其定位于该融合蛋白的n末端,c末端,或内部位置。在一些实施方式中,效应物结构域是切割结构域。本文所用“切割结构域”表示切割dna的结构域。切割结构域可获自任何内切核酸酶或外切核酸酶。可衍生出切割结构域的内切核酸酶的非限制性示例包括但不限于限制性内切核酸酶和寻靶内切核酸酶。参见例如,新英格兰生物实验室公司(newenglandbiolabs)产品目录或belfort等(1997)nucleicacidsres.25:3379-3388。切割dna的其它酶是已知的(例如,s1核酸酶;绿豆核酸酶;胰dna酶i;微球菌核酸酶;酵母ho内切核酸酶)。也参见linn等.(编)《核酸酶》(nucleases),冷泉港实验室出版社(coldspringharborlaboratorypress),1993。可将一种或多种这些酶(或其功能性片段)用作切割结构域的来源。51.在一些实施方式中,切割结构域可以源自ii-s型内切核酸酶。ii-s型内切核酸酶在通常距识别位点数个碱基对的位点切割dna,因此具有可分离的识别和切割结构域。这些酶通常是这样的单体,其瞬时地组合在一起形成二聚体以在交错位置切割dna的各链。合适的ii-s内切核酸酶的非限制性示例包括bfii、bpmi、bsai、bsgi、bsmbi、bsmi、bspmi、foki、mboli和sapi。52.在某些实施方式中,ii-s型切割可经修饰以促进两个不同的切割结构域的二聚化(其各自连接cpf1多肽或其片段)。在其中效应物结构域是切割结构域的实施方式中,可以如本文讨论的那样修饰cpf1多肽,从而消除其内切核酸酶活性。例如,cpf1多肽可以通过使ruvc样结构域突变来修饰,从而使得多肽不再展现出内切核酸酶活性。53.在其他实施方式中,融合蛋白的效应物结构域可以是表观遗传修饰结构域。通常,表观遗传修饰结构域在不改变dna序列的情况下改变组蛋白结构和/或染色体结构。组蛋白和/或染色质结构的改变可以导致基因表达的改变。表观遗传修饰的示例包括但不限于,组蛋白中赖氨酸残基的乙酰化作用或甲基化作用,和dna中胞嘧啶残基的甲基化。合适的表观遗传修饰结构域的非限制性示例包括,组蛋白乙酰基转移酶(acetyltansferase)结构域,组蛋白脱乙酰酶结构域,组蛋白甲基转移酶结构,组蛋白脱甲基酶结构,dna甲基转移酶结构域和dna脱甲基酶结构域。54.在效应物结构域是组蛋白乙酰基转移酶(hat)结构域的实施方式中,hat结构域可以源自ep300(即e1a结合蛋白p300)、crebbp(即creb结合蛋白)、cdy1、cdy2、cdyl1、clock、elp3、esa1、gcn5(kat2a)、hat1、kat2b、kat5、myst1、myst2、myst3、myst4、ncoa1、ncoa2、ncoa3、ncoat、p/caf、tip60、tafii250或tf3c4。在其中效应物结构域是表观遗传修饰结构域的实施方式中,可以如本文讨论的那样修饰cpf1多肽,从而消除其内切核酸酶活性。例如,cpfl多肽可以通过使ruvc样结构域突变来修饰,从而使得多肽不再具有核酸酶活性。55.在一些实施方式中,融合蛋白的效应物结构域可以是转录激活结构域。通常,转录激活结构域与转录控制元件和/或转录调节蛋白(即,转录因子,rna聚合酶等)相互作用以增强和/或激活一种或多种基因的转录。在一些实施方式中,转录激活结构域可以是,但不限于,单纯疱疹病毒vp16激活结构域、vp64(其为vp16的四聚体衍生物)、nfκbp65激活结构域、p53激活结构域1和2、creb(camp反应元件结合蛋白)激活结构域,e2a激活结构域和nfat(激活的t-细胞的核因子)激活结构域。在其他实施方式中,转录激活结构域可以是gal4、gcn4、mll、rtg3、gln3、oaf1、pip2、pdr1、pdr3、pho4和leu3。转录激活结构域可以是野生型,也可以是原始转录激活结构域的修饰形式。在一些实施方式中,融合蛋白的效应物结构域是vp16或vp64转录激活结构域。在其中效应物结构域是转录激活结构域的实施方式中,可以如本文讨论的那样修饰cpfi多肽,从而消除其内切核酸酶活性。例如,cpf1多肽可以通过突变ruvc样结构域来修饰,从而使得多肽不再具有核酸酶活性。56.在其他实施方式中,融合蛋白的效应物结构域可以是转录阻遏结构域。通常,转录阻遏结构域与转录控制元件和/或转录调节蛋白(即,转录因子,rna聚合酶等)相互作用以降低和/或终止一种或多种基因的转录。合适的转录阻遏结构域的非限制性示例包括诱导性camp早期阻遏物(icer)结构域,kruppel-相关盒a(krab-a)阻遏物结构域,yy1富甘氨酸阻遏物结构域,sp1样阻遏物,e(spl)阻遏物,i.κ.b阻遏物和mecp2。在其中效应物结构域是转录阻遏结构域的实施方式中,可以如本文讨论的那样修饰cpf1多肽,从而消除其内切核酸酶活性。例如,cpf1多肽可以通过突变ruvc样结构域来修饰,从而使得多肽不再具有核酸酶活性。57.在一些实施方式中,融合蛋白还包括至少一个其它结构域。合适的其它结构域的非限制性示例包括核定位信号、细胞穿透性结构域或易位结构域,和标志物结构域。58.当融合蛋白的效应物结构域是切割结构域时,可以形成包括至少一个融合蛋白的二聚体。二聚体可以是同二聚体或异二聚体。在一些实施方式中,异二聚体包含两种不同的融合蛋白。在其他实施方式中,异二聚体包括一种融合蛋白和一种其它蛋白。59.二聚体可以是同二聚体,其中两个融合蛋白单体的一级氨基酸序列是相同的。在二聚体是同二聚体的一个实施方式中,cpf1多肽可经修饰,从而消除内切核酸酶活性。在某些实施方式中,cpf1多肽经修饰,从而使得内切酶活性被消除,各融合蛋白单体可包括相同的cpf1多肽以及相同的切割结构域。切割结构域可以是任何结构域,如本文所提供的各种示例性切割结构域中的任一种。在这样的实施方式中,特定的引导rna会将融合蛋白单体引导至不同但非常邻近的位点,从而在二聚体形成后使两个单体的核酸酶结构域在靶dna中产生双链断裂。60.二聚体也可以是两种不同融合蛋白的异二聚体。例如,每个融合蛋白的cpf1多肽可衍生自不同的cpf1多肽或来自不同细菌物种的直向同源cpf1多肽。例如,各融合蛋白可包含衍生自不同细菌物种的cpf1多肽。在这些实施方式中,各融合蛋白将识别不同的靶位点(即,由原型间隔子和/或pam序列确定)。例如,引导rna可以将异二聚体定位于不同但非常邻近的位点,从而使其核酸酶结构域在靶dna中产生有效的双链断裂。61.或者,异二聚体的两个融合蛋白可以具有不同的效应物结构域。在效应物结构域是切割结构域的实施方式中,各融合蛋白可包含不同的经修饰的切割结构域。在这些实施方式中,cpf1多肽可经修饰,从而使它们的内切核酸酶活性被消除。形成异二聚体的两个融合蛋白的cpf1多肽结构域和效应物结构域可以不同。62.在上述任一所述实施方式中,同二聚体或异二聚体可以包括选自下述的至少一个其它结构域:核定位信号(nls),质体信号肽,线粒体信号肽,能够运输蛋白质至多个亚细胞位置的信号肽,细胞穿透,易位结构域和标志物结构域(如上所述)。在上述任一所述实施方式中,可以修饰其中cpf1多肽之一或两个,从而消除或修饰多肽的内切核酸酶活性。63.异二聚体还可包含一种融合蛋白和其它蛋白。例如,其它蛋白可以是核酸酶。在一个实施方式中,核酸酶是锌指核酸酶。锌指核酸酶包含锌指dna结合结构域和切割结构域。锌指识别并结合三个(3)核苷酸。锌指dna结合结构域可包含约三个锌指至约七个锌指。锌指dna结合结构域可以源自天然存在的蛋白质或者其可以经工程改造。参见例如,beerli等(2002)nat.biotechnol.20:135-141;pabo等(2001)ann.rev.biochem.70:313-340;isalan等(2001)nat.biotechnol.19:656-660;segal等(2001)curr.opin.biotechnol.12:632-637;choo等(2000)curr.opin.struct.biol.10:411-416;zhang等(2000)j.biol.chem.275(43):33850-33860;doyon等(2008)nat.biotechnol.26:702-708;和santiago等(2008)proc.natl.acad.sci.usa105:5809-5814。锌指核酸酶的切割结构域可以是本文所详述任何切割结构域。在一些实施方式中,锌指核酸酶可以包括选自下述的至少一个其它结构域:核定位信号(nls),质体信号肽,线粒体信号肽,能够运输蛋白质至多个亚细胞位置的信号肽,细胞穿透或易位结构域(本文对其进行详述)。64.在某些实施方式中,以上详述的任一融合蛋白或包括至少一种融合蛋白的二聚体可以是包括至少一个引导rna的蛋白质-rna复合物的部分。引导rna与融合蛋白的cpf1多肽相互作用以将融合蛋白引导至特定靶位点,其中引导rna的5′端与特定原型间隔子序列碱基配对。65.iii.编码cpf1多肽或融合蛋白的核酸66.提供了编码本文所述任一cpf1多肽或融合蛋白的核酸。核酸可以是rna或dna。编码cpf1多肽的多核苷酸的示例示于seqidno:4、6、8和24-27。在一个实施方式中,编码cpf1多肽或融合蛋白的核酸是mrna。该mrna可以是5′‑加帽和/或3′‑多腺苷酸化。在另一个实施方式中,编码cpf1多肽或融合蛋白的核酸是dna。dna可以存在于载体中。67.编码cpf1多肽或融合蛋白的核酸可以经密码子优化,用于在感兴趣的植物细胞中高效翻译成蛋白质。本领域已知用于密码子优化的程序(例如,位于genomes.urv.es/optimizer的optimizer;optimumgene.tm.来自genscript,网址:www.genscript.com/codon_opt.html)。68.在某些实施方式中,编码cpf1多肽或融合蛋白的dna可以可操作地连接至少一个启动子序列。该dna编码序列可被可操作地连接至启动子控制序列以在感兴趣的宿主细胞中表达。在一些实施方式中,宿主细胞是植物细胞。“可操作地连接”是指2个或更多个元件之间的功能性连接。例如,启动子和感兴趣的编码区域(例如,编码cpfl多肽或引导rna的区域)之间的可操作连接是能够表达感兴趣的编码区域的功能性连接。可操作连接的元件可以是邻近的或非邻近的。当用于指代两个蛋白编码区域之间的接合时,述及可操作连接意在表示这些编码区域处于同一阅读框中。69.启动子序列可以是组成型,调控型,生长期特异性或组织特异性的。认识到通过在核酸分子中使用不同的启动子来调节cpf1多肽和/或引导rna表达时间、位置和/或水平可以增强不同应用。这样的核酸分子还可以含有(如果需要)启动子调节区(例如,产生诱导型、组成型,环境或发育调节的,或细胞或组织特异性/选择性表达),转录起始起始位点,核糖体结合位点,rna处理信号,转录终止位点,和/或多聚腺苷酸化信号。70.在一些实施方式中,本文所提供的核酸分子可与组成型、组织优先型(tissue-preferred)、发育优先型或其它启动子组合用于在植物中表达。植物细胞中组成型启动子的示例包括花椰菜花叶病病毒(camv)35s转录起始区域,源自根癌农杆菌(agrobacteriumtuma向ciens)t-dna的1′‑或2′‑启动子,泛素1启动子,smas启动子,肉桂醇脱氢酶启动子(美国专利号5,683,439),nos启动子,pemu启动子,rubisco启动子,grp1-8启动子和来自本领域技术人员已知的多种植物基因的其它转录起始区域。如果需要低水平的表达,可以使用一个或多个弱启动子。弱组成型启动子包括例如rsyn7启动子的核心启动子(wo99/43838和美国专利号6,072,050),核心35scamv启动子等。其它组成型启动子包括,例如,美国专利号5,608,149;5,608,144;5,604,121;5,569,597;5,466,785;5,399,680;5,268,463和5,608,142。参见美国专利号6,177,611,其通过引用纳入本文。71.诱导型启动子的示例是可通过缺氧或冷应激诱导的adh1启动子,可通过热应激诱导的hsp70启动子,可通过光诱导的ppdk启动子和pep羧化酶(pepcarboxylase)启动子。同样可用的是化学诱导的启动子,如安全剂诱导的in2-2启动子(美国专利号5,364,780),雄性激素诱导的ere启动子,和axig1启动子,其经植物生长素诱导并且是绒毡层特异性,但是同样在愈伤组织具有活性(pctus01/22169)。72.植物中受发育控制的启动子的示例包括在某些组织诸如叶、根、果实、种子或花中优先启动转录的启动子。“组织特异性”启动子是仅在某些组织中起始转录的启动子。与基因的组成型表达不同,组织特异性表达是基因调控的几个相互作用水平的结果。因此,来自同源性或密切相关的植物品种的启动子可以优先用于实现特定组织中高效和可靠的转基因表达。在一些实施方式中,表达包括组织优选启动子。“组织优先型”启动子是这样的启动子,其在某些组织中优先启动转录,但并不必需完全或仅在某些组织中启动。73.在一些实施方式中,编码cpf1多肽和/或引导rna的核酸分子包括细胞类型特异性启动子。“细胞类型特异性”启动子是主要驱动一个或多个器官中某些细胞类型表达的启动子。细胞类型特异性启动子在植物中的功能性可以被首先激活的植物细胞的一些示例包括例如,betl细胞,根、叶、茎细胞中的维管细胞,和干细胞。核酸分子还可以包括细胞类型优先型启动子。“细胞类型优先型”启动子是这样一种启动子,在一种或多种器官中的某些细胞类型中主要驱动表达,但并不必需完全或仅在某些细胞类型中。细胞类型优先型启动子在植物中的功能性可以被优先激活的植物细胞的一些示例包括例如,betl细胞,根、叶、茎细胞中的维管细胞,和干细胞。本文所述核酸分子还可以包括种子优先型启动子。在一些实施方式中,种子优先型启动子在胚囊、早期胚胎、早期胚乳、糊粉和/或基底胚乳转移细胞层(betl)中表达。74.种子优先型启动子的示例包括但不限于,27kdγ玉米蛋白启动子和糯性基因启动子(waxypromoter),boronat,a.等(1986)plantsci.47:95-102;reina,m.等nucl.acidsres.18(21):6426;和kloesgen,r.b.等(1986)mol.gen.genet.203:237-244。胚、果皮和胚乳中表达的启动子公开于美国专利号6,225,529和pct公开wo00/12733中。这些引用文献各自的公开内容通过引用其全文的方式纳入本文。75.可以以植物种子优先方式驱动基因表达的、在胚囊、早期胚胎、早期胚乳、糊粉和/或基底胚乳转移细胞层(betl)中表达的启动子可以用于本文所公开的组合物和方法。这样的启动子包括但不限于天然地连接至如下物质的启动子:玉米(zeamays)早期胚乳5基因、玉米早期胚乳1基因、玉米早期胚乳2基因、grmzm2g124663、grmzm2g006585、grmzm2g120008、grmzm2g157806、grmzm2g176390、grmzm2g472234、grmzm2g138727、玉米clavata1、玉米mrp1、水稻(oryzasativa)pr602、水稻pr9a、玉米bet1、玉米betl-2、玉米betl-3、玉米betl-4、玉米betl-9、玉米betl-10、玉米meg1、玉米tccr1、玉米asp1、水稻asp1、硬粒小麦(triticumdurum)pr60、硬粒小麦pr91、硬粒小麦gl7、at3g10590、at4g18870、at4g21080、at5g23650、at3g05860、at5g42910、at2g26320、at3g03260、at5g26630、atipt4、atipt8、atlec2、lfah12。其它这类启动子述于美国专利号7803990、8049000、7745697、7119251、7964770、7847160、7700836、美国专利申请公开号20100313301、20090049571、20090089897、20100281569、20100281570、20120066795、20040003427;pct公开号wo/1999/050427、wo/2010/129999、wo/2009/094704、wo/2010/019996和wo/2010/147825,其各自通过引用纳入其全部内容用于所用目的。本文所述启动子的功能变体或功能片段也可与本文公开的核酸可操作地连接。76.在某些应用中,可能需要在分生细胞中表现出优先表达的启动子。分生组织优先的启动子在美国专利申请16/370,561和13/009,039中公开,二者通过引用纳入本文。77.化学调节启动子通过应用外源性化学调节物可以用于调整基因的表达。取决于目标,启动子可以是应用化学物时诱导基因表达的化学诱导型启动子,或是应用化学物时抑制基因表达的化学阻遏型启动子。本领域已知化学诱导型启动子并且包括但不限于:由苯磺酰胺除草安全剂激活的玉米in2-2启动子,由用作芽前除草剂的疏水亲电子化合物激活的玉米gst启动子,以及由水杨酸激活的烟草pr-1a启动子。其它感兴趣的化学调节启动子包括类固醇响应性启动子(参见例如,schena等.(1991)proc.natl.acad.sci.usa88:10421-10425和mcnellis等人(1998)plantj.14(2):247-257)中的糖皮质激素诱导型启动子,以及四环素诱导型和四环素阻遏型启动子(参见例如,gatz等(1991)mol.gen.genet.227:229-237以及美国专利号5,814,618和5,789,156),通过引用纳入本文。78.组织优先型启动子可以被用于靶向特定组织内表达构建体增强的表达。在某些实施方式中,组织优先型启动子可在植物组织中具有活性。组织优先型启动子是本领域已知的。参见,例如,yamamoto等,(1997)plantj.12(2):255-265;kawamata等,(1997)plantcellphysiol.38(7):792-803;hansen等,(1997)mol.gengenet.254(3):337-343;russell等,(1997)transgenicres.6(2):157-168;rinehart等,(1996)plantphysiol.112(3):1331-1341;vancamp等,(1996)plantphysiol.112(2):525-535;canevascini等,(1996)plantphysiol.112(2):513-524;yamamoto等,(1994)plantcellphysiol.35(5):773-778;lam(1994)resultsprobl.celldiffer.20:181-196;orozco等,(1993)plantmolbiol.23(6):1129-1138;mgsuoka等,(1993)procnatl.acad.sci.usa90(20):9586-9590;和guevara-garcia等,(1993)plantj.4(3):495-505。必要时,此类启动子可经修饰以用于弱表达。79.叶优先型启动子是本领域已知的。参见,例如,yamamoto等,(1997)plantj.12(2):255-265;kwon等,(1994)plantphysiol.105:357-67;yamamoto等,(1994)plantcellphysiol.35(5):773-778;gotor等,(1993)plantj.3:509-18;orozco等,(1993)plantmol.biol.23(6):1129-1138;和matsuoka等,(1993)proc.natl.acad.sci.usa90(20):9586-9590。此外,也可以使用cab和rubisco启动子。参见例如,simpson等(1958)emboj4:2723-2729和timko等(1988)nature318:57-58。80.根优先型启动子是已知的并且可以选自文献中可得的许多或由各种相容物种从头分离。参见例如,hire等(1992)plantmol.biol.20(2):207-218(大豆根特异性谷氨酰胺合成酶基因);keller和baumgartner(1991)plantcell3(10):1051-1061(法国豆grp1.8基因的根特异性控制元件);sanger等(1990)plantmol.biol.14(3):433-443(根癌农杆菌(agrobacteriumtumefaciens)甘露碱合酶(mas)基因的根特异性启动子);和miao等press),纽约州冷泉港,第三版,2001。84.在一些实施方式中,包括编码cpf1多肽或融合蛋白的序列的表达载体可以还包括编码引导rna的序列。编码引导rna的序列可以可操作地连接至少一个转录控制序列,用于在植物中或感兴趣的植物细胞中表达引导rna。例如,编码引导rna的dna可以可操作地连接由rna聚合酶iii(poliii)识别的启动子序列。合适的poliii启动子的实例包括但不限于,哺乳动物u6,u3,h1,和7slrna启动子和水稻u6和u3启动子。85.iv.修饰基因组中核苷酸序列的方法86.本文提供了用于修饰基因组的核苷酸序列的方法。基因组的非限制性示例包括细胞,核,细胞器,质粒和病毒基因组。所述方法包括将一种或多种靶向dna的多核苷酸引入基因组宿主(例如,细胞或细胞器),所述靶向dna的多核苷酸例如靶向dna的rna(“引导rna”,“grna”,“crisprrna”或“crrna”)或编码靶向dna的rna的dna多核苷酸,其中,所述靶向dna的多核苷酸包含:(a)第一区段,其包含与靶dna中的序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用并且还将cpf1多肽或编码cpf1多肽的多核苷酸引入基因组宿主,其中cpf1多肽包含:(a)多核苷酸结合部分,其与grna或其它靶向dna的多核苷酸相互作用;和(b)活性部分,其显示定点酶促活性。然后,可在表达cpf1多肽并切割被grna靶向的核苷酸序列的条件下培养基因组宿主。需指出的是,本文所述系统不需要添加外源性mg2 或任何其他离子。最后,可以选择包含修饰的核苷酸序列的基因组宿主。87.本文公开的方法包括将至少一种cpf1多肽或编码至少一种cpf1多肽的核酸引入基因组宿主,如本文所述。在一些实施方式中,cpf1多肽可以分离的蛋白质形式引入基因组宿主。在这样的实施方式中,cpf1多肽可以还包括至少一个细胞穿透结构域,其促进蛋白质的细胞摄取。在一些实施方式中,cpf1多肽可以与引导多核苷酸复合的核蛋白形式(例如,以与引导rna复合的核糖核蛋白形式)引入基因组宿主。在其它实施方式中,cpf1多肽可以编码cpf1多肽的mrna分子形式引入基因组宿主。在其它实施方式中,cpf1多肽可以dna分子形式引入基因组宿主中,该dna分子包含编码cpf1多肽的开放阅读框。编码本文所述的cpf1多肽或融合蛋白的dna序列一般可操作地连接至将在基因组宿主中起作用的启动子序列。dna序列可以是线性的,或dna序列可以是载体的一部分。在其它实施方式中,cpf1多肽或融合蛋白可以包含引导rna或融合蛋白和引导rna的rna-蛋白质复合物形式引入基因组宿主。88.在某些实施方式中,编码cpf1多肽的mrna可以靶向细胞器(例如,质体或线粒体)。在某些实施方式中,编码一种或多种引导rna的mrna可以靶向细胞器(例如,质体或线粒体)。在某些实施方式中,编码cpf1多肽和一种或多种引导rna的mrna可以靶向细胞器(例如,质体或线粒体)。靶向mrna至细胞器的方法为本领域已知(参见例如,美国专利申请号2011/0296551;美国专利申请号2011/0321187;gómez和pallás(2010)plosone5:e12269),并且通过引用纳入本文。89.在某些实施方式中,编码cpf1多肽的dna可以还包括编码引导rna的序列。通常,将编码cpf1多肽和引导rna的各序列可操作地连接至一个或多个合适的启动子控制序列,所述启动子控制序列允许cpf1多肽和引导rna在基因组宿主中分别表达。编码cpf1多肽和引导rna的dna序列进一步包括其它表达对照、调控、和/或处理一个或多个序列。编码cpf1多肽和引导rna的dna序列可以是线性的或是载体的部分。90.本文所述的方法还可包括将至少一种引导多核苷酸(例如编码至少一种引导rna的引导rna或dna)引入基因组宿主。引导rna与cpf1多肽相互作用,以将cpf1多肽引导至特定的靶位点,在该位点,引导rna碱基的5′端与靶向的核苷酸序列中的特定原型间隔子(protospacer)序列配对。引导rna可以包括三个区域:与靶dna序列中靶位点互补的第一区域,形成茎环结构的第二区域,和基本保持单链的第三区域。各引导rna的第一区域是不同的,因此各引导rna将cpf1多肽导向特定靶位点。各引导rna的第二和第三区域在所有引导rna中可以相同。91.引导rna的一个区域与靶向的dna中靶位点的序列(即原型间隔子序列)互补,从而引导rna的第一区域可与靶向的位点碱基配对。在各种实施方式中,引导rna的第一区域可以包括约8个核苷酸至超过约30个核苷酸。例如,引导rna的第一区域与核苷酸序列中靶位点之间碱基配对区域的长度可以是约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约22、约23、约24、约25、约27、约30或超过30个核苷酸。在一个示例性实施方式中,引导rna的第一区域的长度是约23、24或25个核苷酸。引导rna还可以包括形成二级结构的第二区域。在一些实施方式中,二级结构包括茎或发夹。茎的长度可变。例如,茎的长度可以是约6,至约10,至约15,至约20,至约25个碱基对。茎可以包括1至约10个核苷酸的一个或多个凸起(bulge)。在一些优选的实施方式中,发夹结构包含序列ucuacn3-5guagau(seqidno:15-17,由seqidno:12-14编码),其用“ucuac”和“guaga”碱基配对以形成茎。“n3-5”表示3、4或5个核苷酸。因此,第二区域的总长度可以在约14至约25个核苷酸的范围内。在某些实施方式中,环的长度为约3、4或5个核苷酸,而茎包含约5、6、7、8、9或10个碱基对。92.引导rna还可以包括基本上保持单链的第三区域。因此,第三区域与感兴趣的细胞中的任何核苷酸序列都不互补,并且与其余引导rna没有互补性。第三区域的长度可变。第三区域的长度通常大于约4个核苷酸。例如,第三区域的长度可以在约5至约60个核苷酸。引导rna的第二和第三区域(也称为通用或支架区域)的合并长度可以在约30至约120个核苷酸的范围内。在一方面,引导rna的第二和第三区域组合的长度可以在约40至约45个核苷酸。93.在一些实施方式中,引导rna包括含有所有三个区域的单个分子。在其他实施方式中,引导rna可以包括两个不同的分子。第一rna分子可以包括引导rna的第一区域以及引导rna第二区域“茎”的一半。第二rna分子可以包括引导rna第二区域“茎”的另一半以及引导rna的第三区域。因此,在该实施方式中,第一和第二rna分子各自含有彼此之间相互互补的核苷酸序列。例如,在一实施方式中,第一和第二rna分子各自包括与其它序列碱基配对的序列(约6至约25个核苷酸)以形成功能性引导rna。在具体实施方式中,引导rna是单个分子(即crrna),其在不需要第二引导rna(即tracrrna)的情况下与染色体中的靶位点和cpf1多肽相互作用。94.在某些实施方式中,引导rna可以rna分子形式引入基因组宿主。rna分子可以体外转录。或者,rna分子可以化学合成。在其它实施方式中,引导rna可以dna分子形式引入基因组宿主。在这种情况下,可将编码引导rna的dna可操作地连接至一个或多个启动子控制序列,以在基因组宿主中表达引导rna。例如,rna编码序列可以与rna聚合酶iii(poliii)识别的启动子序列可操作地连接或与rna聚合酶ii(polii)识别的启动子序列可操作地连接。95.编码引导rna的dna分子可以是线性或环状的。在一些实施方式中,编码引导rna的dna序列可以是载体的部分。合适的载体包括质粒载体,噬菌粒,粘粒,人工/微型染色体,转座子和病毒载体。在一个示例性的实施方式中,编码引导rna的dna存在于质粒载体中。合适的质粒载体的非限制性实例包括puc、pbr322、pet、pbluescript、pcambia以及其变体。载体可以包括其它表达控制序列(例如,增强子序列,kozak序列,聚腺苷酸化序列,转录终止序列等),可选择标志物序列(例如,抗生素抗性基因),复制的起点等。96.在cpf1多肽和引导rna两者以dna分子形式被引入基因组宿主的实施方式中,其各自可以是分开的分子的部分(例如,一个载体含有cpf1多肽或融合蛋白编码序列,第二载体含有引导rna编码序列),或者其可以是同一分子的部分(例如,一个载体含有cpf1多肽或融合蛋白和引导rna两者的编码(和调节)序列)。97.与引导rna联合的cpf1多肽被引导至基因组宿主中的靶位点,其中所述cpf1多肽在靶向的dna中引入双链断裂。靶位点没有序列限制,除了该序列紧接共有序列之前(上游)之外。该共有序列也称为原型间隔子邻近基序(protospaceradjacentmotif)。pam序列的例子包括但不限于tttn、ttcn、gttn、gtcn、ggcv、ggtv、tgtv、cttv、tgcc、gctc、gatc、ttgs、atts、ctcc、taack和agtgs(其中n定义为任何核苷酸,v定义为a、g或c,s定义为g或c,k定义为g或t)。本领域中众所周知,合适的pam序列必须位于相对于靶向的dna序列的正确位置,以允许cpf1核酸酶产生所需的双链断裂。对于迄今已表征的所有cpf1核酸酶,pam序列都位于靶向的dna序列的5′附近。目前无法通过计算预测给定cpf1核酸酶的pam位点要求,而必须使用本领域可用的方法通过实验确定(zetsche等.(2015)cell163:759-771;marshall等.(2018)molcell69:146-157)。本领域已知对给定核酸酶具有特异性的pam序列受到酶浓度的影响(karvelis等(2015)genomebiol16:253)。因此,调节递送至感兴趣的细胞或体外系统的cpf1蛋白的浓度体现了改变与该cpf1酶相关的一个或多个pam位点的一种方式。例如通过改变用于表达cpf1编码基因的启动子,通过改变递送至细胞或体外系统的核糖核蛋白浓度,或通过添加或去除在调节基因表达水平中可能起作用的内含子,可以实现调整感兴趣的系统中的cpf1蛋白浓度。如本文所详述,引导rna的第一区域与靶序列的原型间隔子互补。通常,引导rna的第一区域的长度是19-21个核苷酸。在一些实施方式中,引导rna的第一区域的长度是17-24个核苷酸。98.靶位点可以在基因的编码区域中,基因的内含子中,基因的控制区域中,基因间的非编码区域等。基因可以是蛋白质编码基因或rna编码基因。该基因可以是本文所述的任何感兴趣的基因。99.在一些实施方式中,本文公开的方法还包括将至少一种供体多核苷酸引入基因组宿主。供体多核苷酸包括至少一种供体序列。在一些方面,供体多核苷酸的供体序列对应于靶向的dna中存在的内源或原生序列。例如,供体序列可以与靶向的位点处或附近的dna序列的部分基本相同,但是包含至少一个核苷酸变化。因此,供体序列可在靶向的位点处包含野生型序列的修饰形式,从而在与原生序列整合或交换后,靶向的位置处的序列包含至少一个核苷酸变化。例如,改变可以是一个或多个核苷酸的插入,一个或多个核苷酸的缺失,一个或多个核苷酸的取代或其组合。由于经修饰序列的整合,基因组宿主可从靶向的染色体序列产生经修饰的基因产物。100.供体多核苷酸的供体序列可替代地对应于外源序列。如本文所用,“外源”序列是指不原生于基因组宿主的序列,或者其在基因组宿主中的原生位置处于不同位置的序列。例如,外源性序列可以包括蛋白质编码序列,其可以可操作地连接外源性启动子控制序列,因此在整合到基因组后,基因组宿主能够表达该整合序列所编码的蛋白质。例如,供体序列可以是任何感兴趣的基因,例如编码如本文他处所述的农艺学上重要的植物性状的那些。或者,可将外源序列整合进入靶向的dna序列,从而使其表达受内源性启动子控制序列调节。在其他的重复形式中,外源性序列可以是转录控制序列,其它的表达控制序列或rna编码序列。将外源性序列整合到靶向的dna序列被称为“敲入”。供体序列可以具有各种长度,从几个核苷酸到数百个核苷酸到数千个核苷酸。101.在一些实施方式中,供体多核苷酸中的供体序列侧接上游序列和下游序列,其与分别位于靶向的位点上游和下游的序列具有实质上的序列同一性。因为这些序列相似性,供体多核苷酸的上游和下游序列允许供体多核苷酸和靶向的序列之间的同源重组,从而使得供体序列被整合到靶向的dna序列(或与之交换)。102.本文所用上游序列指这样的核酸序列,其与靶向的位点上游的dna序列具有实质上的序列同一性。类似地,下游序列指与靶向的位点下游的dna序列具有实质上的序列同一性的核酸序列。本文所用短语“实质上的序列同一性”指序列具有至少约75%的序列同一性。因此,供体多核苷酸中的上游和下游序列与靶向的位点上游或下游序列可以具有约75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性。在示例性的实施方式中,供体多核苷酸中的上游和下游序列与靶向的位点上游或下游的核苷酸序列可以具有约95%或100%的序列同一性。在一实施方式中,上游序列与位于靶向的位点上游紧邻的(即邻近靶向的位点)核苷酸序列具有实质上的序列同一性。在其它实施方式中,上游序列与位于靶向的位点上游约一百个(100)核苷酸内的核苷酸序列具有实质上的序列同一性。因此例如,上游序列与位于靶向的位点上游约1-约20,约21-约40,约41-约60,约61-约80,或约81-约100核苷酸内的核苷酸序列具有实质上的序列同一性。在一实施方式中,下游序列与位于靶向的位点下游紧邻的(即邻近靶向的位点)核苷酸序列具有实质上的序列同一性。在其它实施方式中,下游序列与位于靶向的位点下游约一百个(100)核苷酸内的核苷酸序列具有实质上的序列同一性。因此例如,下游序列与位于靶向的位点下游约1-约20,约21-约40,约41-约60,约61-约80,或约81-约100核苷酸内的核苷酸序列具有实质上的序列同一性。103.各上游或下游序列的长度可以在约20个核苷酸至约5000个核苷酸。在一些实施方式中,上游和下游序列可包含约50、100、200、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2800、3000、3200、3400、3600、3800、4000、4200、4400、4600、4800或5000个核苷酸。在示例性的实施方式中,上游或下游序列的长度可以在约50个核苷酸至约1500个核苷酸。104.包含与靶向的核苷酸序列具有序列相似性的上游和下游序列的供体多核苷酸可以是线性或环状的。在供体多核苷酸是环状的实施方式中,其可以是载体的一部分。例如,载体可以是质粒载体。105.在某些实施方式中,供体多核苷酸还可以包括由cpf1多肽识别的至少一个靶向的切割位点。可将添加到供体多核苷酸中的靶向的切割位点置于供体序列的上游或下游或上游和下游。例如,供体序列可以由靶向的切割位点侧接,因此在通过cpf1多肽切割后,供体序列由突出端侧接,所述突出端与通过cpf1多肽切割后生成的核苷酸序列中的那些相容。因此,可以用切割的核苷酸序列在通过非同源性修复过程修复双链断裂期间连接供体序列。通常,包含一个或多个靶向的切割位点的供体多核苷酸是环状的(例如,可以是质粒载体的部分)。106.供体多核苷酸可以是包括具有任选的短突出端的短供体序列的线性分子,所述任选的短突出端与cpf1多肽生成的突出端相容。在这样的实施方式中,供体序列可在双链断裂的修复过程中与切割的染色体序列直接连接。在一些情况中,供体序列可以少于约1,000,少于约500,少于约250,或少于约100个核苷酸。在某些情况下,供体多核苷酸可以是包含具有钝末端的短供体序列的线性分子。在其它重复情况中,供体多核苷酸可以是线性分子,其包含具有5′和/或3′突出端的短供体序列。该突出端可以包括1、2、3、4或5个核苷酸。107.在一些实施方式中,供体多核苷酸将是dna。dna可以是单链或双链和/或线性或环状。供体多核苷酸可以是dna质粒、细菌人工染色体(bac)、酵母人工染色体(yac)、病毒载体、dna的线性部分、pcr片段、裸核酸或与递送载剂如脂质体或泊咯沙姆复合的核酸。在具体实施方式中,包括供体序列的供体多核苷酸可以是质粒载体的部分。在任何这些情况下,包含供体序列的供体多核苷酸还可包含至少一个其它序列。108.在一些实施方式中,该方法可包括将一种cpf1多肽(或编码核酸)和一种引导rna(或编码dna)引入基因组宿主,其中所述cpf1多肽在靶向的dna中引入一个双链断裂。在不存在任选供体多核苷酸实施方式中,核苷酸序列中的双链断裂可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶向的核苷酸序列可以经修饰或灭活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或“敲除”序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶向的位点的核苷酸序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与核苷酸序列中靶向的位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶向的位点的核苷酸序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cpf1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的核苷酸序列。将供体序列交换或整合至核苷酸序列修饰靶向的核苷酸序列,或者将外源性序列引入靶向的核苷酸序列。109.本文公开的方法还可包括,将一种或多种cpf1多肽(或编码核酸)和两个引导多核苷酸(或编码dna)引入基因组宿主,其中cpf1多肽在靶向的核苷酸序列中引入两个双链断裂。这两个断裂可以在几个碱基对之内,在几十个碱基对之内,或者可以相隔成千上万个碱基对。在不存在任选供体多核苷酸的实施方式中,得到的双链断裂可以通过非同源性修复过程修复,这样的话两个切割位点之间的序列丢失和/或在修复一处或多处断裂期间可能会出现缺失至少一个核苷酸,插入至少一个核苷酸,取代至少一个核苷酸或其组合。在存在任选的供体多核苷酸的实施方式中,在通过基于同源性的修复过程(例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与核苷酸序列中靶向的位点的上游和下游序列实质上的序列同一性中)或非同源性的修复过程(例如,在供体序列侧接相容突出端的实施方式中)的双链断裂修复期间,供体多核苷酸中的供体序列可以与靶核苷酸序列交换或整合至靶向的核苷酸序列中。110.a.修饰植物基因组中的核苷酸序列的方法111.植物细胞具有核、质体和线粒体基因组。本发明的组合物和方法可以用于修饰核、质体和/或线粒体基因组的序列,或者可以用于调节由核、质体和/或线粒体基因组编码的一种或多种基因的表达。因此,“染色体”或“染色体的”指核、质体或线粒体基因组dna。当“基因组”适用于植物细胞时,其不但包括存在于细胞核的染色体dna,也包括存在于细胞亚细胞组分(例如,线粒体或质体)中的细胞器dna。可以使用本文所述的方法修饰植物细胞,细胞器或胚胎中的任何感兴趣的核苷酸序列。在具体实施方式中,本文所公开的方法被用于修饰编码农艺学重要性状的核苷酸序列,如植物激素,植物防御蛋白,营养转运蛋白,生物结合蛋白,所需输入性状,所需输出性状,应激抗性基因,疾病/病原体抗性基因,雄性不育,发育基因,调节基因,参与光合作用的基因,dna修复基因,转录调节基因或任何其他感兴趣的多核苷酸和/或多肽。也可以修饰农艺学重要性状如油脂、淀粉和蛋白质含量。修饰包括增加油酸、饱和和不饱和油脂的含量,增加赖氨酸和硫的水平,提供必需氨基酸,以及淀粉的改性。硫堇蛋白(hordothionin)蛋白质修饰描述于美国专利号5,703,049、5,885,801、5,885,802和5,990,389中,其通过引用纳入本文。另一实例是富赖氨酸和/或硫种子蛋白,其由美国专利号5,,850,016中所述大豆2s白蛋白所编码,以及来自大麦的糜蛋白酶阻遏物,述于williamson等(1987)eur.j.biochem.165:99-106,其公开通过引用纳入本文。112.cpf1多肽(或编码核酸)、引导rna(或编码dna)和任选的供体多核苷酸可以通过包括转化的各种方法引入植物细胞、细胞器或植物胚胎。转化方案以及向植物中导入多肽或多核苷酸序列的方案可根据转化靶向的植物或植物细胞的类型(即,单子叶或双子叶)而变化。向植物细胞中导入多肽和多核苷酸的合适方法包括微注射(crossway等,(1986)biotechniques4:320-334)、电穿孔(riggs等,(1986)proc.natl.acad.sci.usa83:5602-5606),农杆菌-介导的转化(美国专利号5,563,055和美国专利号5,981,840),直接基因转化(paszkowski等,(1984)emboj.3:2717-2722),和弹道颗粒加速(参见例如,美国专利号4,945,050;美国专利号5,879,918;美国专利号5,886,244;和5,932,782;tomes等,(1995)《植物细胞、组织和器官培养中的基础方法》(plantcell,tissue,andorganculture:fundamentalmethods),gamborg和phillips编(springer-verlag,berlin);mccabe等,(1988)biotechnology6:923-926);和lec1转化(wo00/28058)。还参见weissinger等,(1988)ann.rev.genet.22:421-477;sanford等,(1987)particulatescienceandtechnology5:27-37(洋葱);christou等,(1988)plantphysiol.87:671-674(大豆);mccabe等,(1988)bio/technology6:923-926(大豆);finer和mcmullen(1991)invitrocelldev.biol.27p:175-182(大豆);singh等,(1998)theor.appl.genet.96:319-324(大豆);datta等,(1990)biotechnology8:736(水稻);klein等,(1988)proc.natl.acad.sci.usa85:4305-4309(玉米);klein等,(1988)biotechnology6:559-563(玉米);美国专利号5,240,855;5,322,783;和5,324,646;klein等,(1988)plantphysiol.91:440-444(玉米);fromm等,(1990)biotechnology8:833-839(玉米);hooykaas-vanslogteren等,(1984)nature(伦劲311:763-764;美国专利号5,736,369(谷vulgaris)、甘蔗(saccharumspp.)、油棕榈(elaeisguineensis)、白杨(杨树属(populusspp.))、豌豆(pisumsativum)、桉树(eucalyptusspp.)、燕麦(avenasativa)、大麦(hordeumvulgare)、蔬菜、观赏植物和针叶树。116.cpfl多肽(或编码核酸)、一个或多个引导rna(或编码引导rna的dna)和任选的供体多核苷酸可以同时或依次引入植物细胞、细胞器或植物胚胎。cpf1多肽(或编码核酸)与一个或多个引导rna(或编码dna)的比例通常约为化学计量的,从而这两个组分可与靶dna形成rna-蛋白质复合物。在一个实施方式中,编码cpf1多肽的dna以及编码引导rna的dna在质粒载体中一起递送。117.本发明的组合物和方法可以用于改变植物中感兴趣基因的表达,如参与光合作用的基因的表达。因此,可与对照植物相比调节编码光合作用中涉及的蛋白质的基因的表达。“对象植物或植物细胞”是其中已经实现感兴趣基因的遗传改变如突变,或者是源自如此改变的植物或细胞并包含改变的植物或植物细胞。“对照”或“对照植物”或“对照植物细胞”提供了测量对象植物或植物细胞的表型变化的参照点。因此,根据本发明的方法,表达水平高于或低于对照植物中的表达水平。118.一种对照植物或植物细胞可包含,例如:(a)野生型植物或细胞,即具有与用于产生对象植物或细胞的遗传改变的起始材料相同的基因型;(b)与起始材料有相同基因型但已经用无效构建体(即,用对感兴趣性状没有已知影响的构建体,如包含标记基因的构建体)转化的植物或植物细胞;(c)植物或植物细胞,其是对象植物或植物细胞的后代中的非转化分离体;(d)与对象植物或植物细胞在遗传上相同但没有接触会诱导感兴趣基因表达的条件或刺激的植物或植物细胞;或(e)在不表达感兴趣基因的条件下的对象植物或植物细胞本身。119.虽然本发明以转化的植物描述,应认识到本发明的转化的生物体可包括植物细胞、植物原生质体、可再生出植物的植物组织培养物、植物愈伤组织、植物块和在植物或植物部分中完整的植物细胞如胚胎、花粉、胚珠、种子、叶、花、枝条、果实、仁、穗、穗轴、外壳、柄、根、根尖、花粉囊等。谷物是指由商业种植者出于生长或繁殖物种以外的目的产生的成熟种子。再生植物的后代、变体和突变体也包括在本发明的范围内,只要这些部分包含引入的多核苷酸。120.可以使用本文所公开的方法制备编码序列的衍生物,从而在编码的多肽中增加预选氨基酸的水平。例如,编码大麦高赖氨酸多肽(bhl)的基因源自1996年11月1日提交的美国专利申请序列号08/740,682和wo98/20133的大麦糜蛋白酶阻遏物,其公开通过引用纳入本文。其它蛋白质包括富蛋氨酸植物蛋白,如来自向日葵籽(lilley等(1989)关于人类食品和动物饲料中植物蛋白利用的世界大会报告(proceedingsoftheworldcongressonvegetableproteinutilizationinhumanfoodsandanimalfeedstuffs),applewhite编著(伊利诺伊州香槟市美国油脂化学会(americanoilchemistssociety)),第497-502页;通过引用纳入本文);玉米(pedersen等(1986)j.biol.chem.261:6279;kirihara等(1988)gene71:359;两者通过引用纳入本文);和水稻(musumura等(1989)plantmol.biol.12:123通过引用纳入本文)。其它农艺学重要的基因编码乳胶、floury2、生长因子、种子储存因子和转录因子。121.本文所公开的方法可以用于修饰除草剂抗性性状,包括编码除草剂抗性的基因,其能够抑制乙酰乳酸合酶(als)的作用,尤其是磺酰脲类除草剂(例如,含有导致这类抗性的突变的乙酰乳酸合酶(als)基因,尤其是s4和/或hra突变),编码除草剂抗性的基因,其能够抑制谷氨酰胺合成酶的作用,如草丁膦或巴斯达(basta)(例如,bar基因);草甘膦(例如,epsps基因和gat基因;参见例如美国公开号20040082770和wo03/092360);或其它本领域已知的这类基因。bar基因编码对除草剂basta的抗性,nptii基因编码对卡那霉素和遗传霉素的抗性,而als基因突变体编码对除草剂氯磺隆的抗性。例如,美国专利申请2016/0208243中描述了其它除草剂抗性性状,其通过引用纳入本文。122.还可以修饰不育基因,并为物理去雄提供替代方法。以这样方式使用的基因的实例包括雄性组织优选基因以及具有雄性不育表型的基因如qm,述于美国专利号5,583,210中。其它基因包括激酶和编码对雄或雌配子体发育有毒的化合物的那些。其它不育性状述于例如美国专利申请2016/0208243中,其通过引用纳入本文。123.谷物的质量可以通过修饰编码性状的基因来改变,如油脂的类型和水平,饱和和未饱和,必需氨基酸的数量和质量,以及纤维素的水平。在玉米中,经修饰的大麦硫堇蛋白述于美国专利号5,703,049、5,885,801、5,885,802和5,990,389。124.商业性状也可以通过修饰基因来改变,或者其将可以例如增加用于乙醇生产的淀粉,或提供蛋白质的表达。经修饰植物的另一重要的商业用途是聚合物和生物塑料的生产,见述于例如美国专利号5,602,321。基因,例如β-酮硫解酶、phb酶(聚羟基丁酸酯(polyhydroxyburyrate)合成酶)和乙酰乙酰-coa还原酶(见schubert等人(1988)j.bacteriol.170:5837-5847)促进了聚羟基链烷酸酯(polyhyroxyalkanoates)(pha)的表达。125.外源性产物包括植物酶和产物,以及来自包括原核生物或其它真核生物的那些。这样的产物包括酶,辅因子,激素等。可以增加蛋白质的水平,特别是具有改善的氨基酸分布的经修饰的蛋白质以改善植物的营养价值。这通过表达具有增强的氨基酸含量的蛋白质来实现。126.本文所公开的方法还可以用于插入异源性基因和/或修饰原生植物基因表达以实现所需的植物性状。这些性状包括例如抗病性,除草剂耐受性,抗旱性,耐盐性,昆虫抗性,对寄生杂草的抗性,改善的植物营养价值,改善的草料消化率,增加的谷物产量,胞质雄性不育,改变的果实成熟度,增加的植物或植物部分的储存寿命,减少的变应原产生,和,增加或减少的木质素含量。美国专利申请2016/0208243中公开了能够赋予这些所需性状的基因,其通过引用纳入本文。127.b.修饰非植物真核基因组中的核苷酸序列的方法128.本文提供了用于修饰非植物真核细胞或非植物真核细胞器的核苷酸序列的方法。在一些实施方式中,非植物真核细胞是哺乳动物细胞。在具体实施方式中,非植物真核细胞是非人哺乳动物细胞。该方法包括向靶细胞或细胞器引入靶向dna的rna或编码靶向dna的rna的dna多核苷酸,其中靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用;和,向靶细胞或细胞器引入cpf1多肽或编码cpf1多肽的多核苷酸,其中cpf1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。然后可以在嵌合的核酸酶多肽表达并且切割核苷酸序列的条件下培养靶细胞或细胞器。需指出的是,本文所述系统不需要添加外源性mg2 或任何其他离子。最后,可选择包含经修饰的核苷酸序列的非植物真核细胞或细胞器。129.在一些实施方式中,该方法可以包括向非植物真核细胞或细胞器中引入一个cpf1多肽(或编码核酸)和一个引导rna(或编码dna),其中cpf1多肽在核或细胞器染色体dna的靶核苷酸序列中引入一个双链断裂。在一些实施方式中,该方法可以包括向非植物真核细胞或细胞器中引入一个cpf1多肽(或编码核酸)和至少一个引导rna(或编码dna),其中cpf1多肽在核或细胞器染色体dna的靶核苷酸序列中引入超过一个(即2、3或超过3个双链断裂)双链断裂。在不存在任选供体多核苷酸实施方式中,核苷酸序列中的双链断裂可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶向的核苷酸序列可以经修饰或灭活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或“敲除”序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶向的位点的核苷酸序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与非植物真核细胞或细胞器核苷酸序列中靶向的位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶向的位点的核苷酸序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cpf1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的核苷酸序列。将供体序列交换或整合至核苷酸序列修饰靶向的核苷酸序列,或者将外源性序列引入非植物真核细胞或细胞器靶向的核苷酸序列。130.在一些实施方式中,由一种或多种cpf1核酸酶作用所导致的双链断裂以这样的方式修复,所述方式使dna从非植物真核细胞或细胞器染色体中缺失。在一些实施方式中,一个碱基、数个碱基(即2、3、4、5、6、7、8、9或10个碱基)或大部分的dna(即,超过10、超过50、超过100、或超过500个碱基)从非植物真核细胞或细胞器中缺失。131.在一些实施方式中,作为由一种或多种cpf1核酸酶所导致的双链断裂的结果,非植物真核基因的表达可能会被调节。在一些实施方式中,非植物真核基因的表达可能会被变体cpf1酶所调节,所述变体cpf1酶包括使cpfl核酸酶无法生成双链断裂的突变。在一些优选实施方式中,包括使cpf1核酸酶不可以生成双链断裂的突变的变体cpf1核酸酶可以融合转录激活或转录阻遏结构域。132.在一些实施方式中,培养这样的真核细胞以生成真核生物,所述真核细胞在其核和/或细胞器染色体dna包括由一种或多种cpf1核酸酶作用所导致的突变。在一些实施方式中,培养这样的真核细胞以生成真核生物,所述真核细胞中的基因表达因为一种或多种cpf1核酸酶或一种或多种变体cpf1核酸酶而被调节。培养非植物真核细胞以生成真核生物的方法为本领域已知,例如美国专利申请号2016/0208243和2016/0138008,通过引用纳入本文。133.本发明可用于任何真核物种的转化,包括但不限于动物(包括但不限于哺乳动物、昆虫、鱼类、鸟类和爬行动物)、真菌、变形虫和酵母。134.向非植物真核细胞或细胞器引入核酸酶蛋白质、编码核酸酶蛋白质的dna或rna分子、引导rna或编码引导rna的dna分子、和任选的供体序列dna分子的方法为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。对工业应用特别具有价值的非植物真核细胞或细胞器的示例性遗传修饰也为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。135.c.修饰原核基因组中核苷酸序列的方法136.本文提供了用于修饰原核(例如,细菌或古细菌)细胞核苷酸序列的方法。该方法包括向靶细胞引入靶向dna的rna或编码靶向dna的rna的dna多核苷酸,其中靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cpfl多肽相互作用;和,向靶细胞引入cpfl多肽或编码cpfl多肽的多核苷酸,其中cpf1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。然后可以在cpf1多肽表达并且切割核苷酸序列的条件下培养靶细胞。需指出的是,本文所述系统不需要添加外源性mg2 或任何其他离子。最后,可选择包含经修饰核苷酸序列的原核细胞。还应注意,包含经修饰的一个或多个核苷酸序列的原核细胞不是编码感兴趣的cpfl多肽的多核苷酸的原生宿主细胞,并且,利用非天然产生的引导rna来实现一个或多个原核核苷酸序列中的所需变化。需要进一步指出的是靶向的dna可能作为一个或多个原核染色体的部分存在或者存在于原核细胞中的一个或多个质粒或其它非染色体dna分子。137.在一些实施方式中,该方法可以包括向原核细胞中引入一个cpf1多肽(,或编码核酸)和一个引导rna(或编码dna),其中cpf1多肽在原核细胞dna的靶核苷酸序列中引入一个双链断裂。在一些实施方式中,该方法可以包括向原核细胞中引入一个cpf1多肽(或编码核酸)和至少一个引导rna(或编码dna),其中cpfl多肽在原核细胞dna的靶核苷酸序列中引入超过一个双链断裂(即2、3或超过3个双链断裂)。在不存在任选供体多核苷酸实施方式中,核苷酸序列中的双链断裂可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶向的核苷酸序列可以经修饰或灭活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或“敲除”序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶向的位点的核苷酸序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与原核细胞核苷酸序列中靶向的位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶向的位点的核苷酸序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cpf1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的核苷酸序列。将供体序列交换或整合至核苷酸序列修饰靶向的核苷酸序列,或者将外源性序列引入原核细胞dna的靶向的核苷酸序列。138.在一些实施方式中,由一种或多种cpf1核酸酶作用所导致的双链断裂以这样的方式修复,所述方式使dna从原核细胞dna中缺失。在一些实施方式中,一个碱基、数个碱基(即2、3、4、5、6、7、8、9或10个碱基)或大部分的dna(即,超过10、超过50、超过100、或超过500个碱基)从原核细胞dna中缺失。139.在一些实施方式中,由一种或多种cpf1核酸酶作用所导致的双链断裂未被有效修复,在cpf1产生双链断裂的细胞中导致细胞死亡。在这种实施方式中,包含由一种或多种cpf1核酸酶靶向的一个或多个序列的细胞将被针对选择。140.在一些实施方式中,作为一种或多种cpf1核酸酶所导致的双链断裂的结果,原核基因的表达可能会被调节。在一些实施方式中,原核基因的表达可能会被变体cpf1核酸酶所调节,所述变体cpf1核酸酶包括使cpf1核酸酶无法生成双链断裂的突变,或被包含cpf1核酸酶或变体cpf1核酸酶的融合蛋白所调节。在一些优选实施方式中,包括使cpf1核酸酶不可以生成双链断裂的突变的变体cpf1核酸酶可以融合转录激活或转录阻遏结构域。141.本发明可以用于转化任何原核生物,包括但不限于蓝藻细菌,棒状杆菌(corynebacteriumsp.),双歧杆菌(bifidobacteriumsp.),分枝杆菌(mycobacteriumsp.),链霉菌(streptomycessp.),温双岐菌(thermobifidasp.),衣原体(chlamydiasp.),原绿球藻(prochlorococcussp.),聚球藻(synechococcussp.),热聚球藻(thermosynechococcussp.),泉栖热菌(thermussp.),芽孢杆菌(bacillussp.),梭菌(clostridiumsp.),土芽孢杆菌(geobacillussp.),乳杆菌(lactobacillussp.),李斯特菌(listeriasp.),葡萄球菌(staphylococcussp.),链球菌(streptococcussp.),梭菌(fusobacteriumsp.),农杆菌(agrobacteriumsp.),慢生根瘤菌(bradyrhizobiumsp.),埃立克体(ehrlichiasp.),中慢生根瘤菌(mesorhizobiumsp.),硝酸菌(nitrobactersp.),立克次体(rickettsiasp.),沃尔巴克氏体(wolbachiasp.),单胞发酵菌(zymomonassp.),伯克霍尔德菌(burkholderiasp.),奈瑟氏菌(neisseriasp.),罗尔斯通菌(ralstoniasp.),不动杆菌(acinetobactersp.),欧文氏菌(erwiniasp.),埃希氏杆菌(escherichiasp.),嗜血杆菌(haemophilussp.),军团杆菌(legionellasp.),巴斯德菌(pasteurellasp.),假单胞菌(pseudomonassp.),嗜冷杆菌(psychrobactersp.),沙门氏菌(salmonellasp.),希瓦氏菌(shewanellasp.),志贺氏杆菌(shigellasp.),弧菌(vibriosp.),黄单胞菌(xanthomonassp.),木杆菌(xylellasp.),耶尔森菌(yersiniasp.),弯曲杆菌(campylobactersp.),脱硫弧菌(desulfovibriosp.),螺杆菌(helicobactersp.),地杆菌(geobactersp.),细螺旋体(leptospirasp.),密螺旋体(treponemasp.),支原菌(mycoplasmasp.)和热袍菌(thermotogasp.)。142.向原核细胞或细胞器引入核酸酶蛋白质、编码核酸酶蛋白质的dna或rna分子、引导rna或编码引导rna的dna分子、和任选的供体序列dna分子的方法为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。对工业应用特别具有价值的原核细胞或细胞器的示例性遗传修饰也为本领域已知,例如美国专利申请号2016/0208243,通过引用纳入本文。143.d.修饰病毒基因组中核苷酸序列的方法144.本文提供了用于修饰病毒基因组的核苷酸序列的方法。该方法包括向包含感兴趣的病毒的细胞引入靶向dna的rna或编码靶向dna的rna的dna多核苷酸,其中靶向dna的rna包括:(a)第一区段,其包含与靶dna中序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用;和,向靶细胞引入cpf1多肽或编码cpf1多肽的多核苷酸,其中cpf1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性。然后可在表达cpf1多肽并切割病毒核苷酸序列的条件下培养包含感兴趣的病毒的靶细胞。或者,可以在体外操作病毒基因组,其中将引导多核苷酸,cpf1多肽和任选的供体多核苷酸与感兴趣的病毒dna序列在细胞宿主外部一起孵育。145.v.调节基因表达的方法146.本文公开的方法还包括基因组宿主中核苷酸序列的修饰或核苷酸序列的表达的调节。该方法可包括向基因组宿主中引入编码至少一种融合蛋白或编码至少一种融合蛋白的核酸,其中融合蛋白包括cpf1多肽或其片段或变体和效应物结构域,和(b)至少一种引导rna或编码引导rna的dna,其中引导rna将融合蛋白的cpf1多肽引导至靶向的dna中的靶位点,并且融合蛋白的效应物结构域修饰染色体序列或调节靶向的dna序列处或附近的一种或多种基因的表达。147.本文描述了融合蛋白,其包括cpf1多肽或其片段或变体以及效应物结构域。通常,本文所公开的融合蛋白可以还包括至少一种核定位信号、质体信号肽、线粒体信号肽或能够运输蛋白质至多个亚细胞位置的信号肽。本文描述了编码融合蛋白的核酸。在一些实施方式中,融合蛋白可以分离的蛋白质(其还可包含细胞穿透域)的形式引入基因组宿主。此外,分离的融合蛋白可以是包括引导rna的蛋白质-rna复合物的部分。在其它实施方式中,融合蛋白可以rna分子(可以被加帽和/或聚腺苷酸化)形式引入基因组宿主中。在其它实施方式中,融合蛋白可以dna分子形式引入基因组宿主。例如,融合蛋白和引导rna可以离散的dna分子形式或以同一dna分子的部分形式引入基因组宿主。这类dna分子可以是质粒载体。148.在一些实施方式中,该方法还包括向基因组宿主引入本文他处所述的至少一种供体多核苷酸。本文描述了将分子引入基因组宿主(例如细胞)中的手段,以及用于培养细胞(包括含细胞器的细胞)的手段。149.在其中融合蛋白效应物结构域是切割结构域的具体实施方式中,该方法可以包括向基因组宿主引入一种融合蛋白(或编码一种融合蛋白的核酸)和两种引导rna(或编码两种引导rna的dna)。两种引导rna将融合蛋白引导至染色体序列中的两个不同靶位点,其中融合蛋白二聚化(例如,形成同二聚体),因此两个切割结构域可以将双链断裂引入靶向的dna序列。在不存在任选供体多核苷酸的实施方式中,靶向的dna序列中的双链断裂可以通过非同源末端连接(nhej)修复过程进行修复。因为nhej是易错的,缺失至少一个核苷酸、插入至少一个核苷酸、取代至少一个核苷酸或其组合可能会出现在修复断裂期间。因此,靶向的染色体序列可经修饰或灭活。例如,单核苷酸改变(snp)可以产生改变的蛋白质产物,或者编码序列阅读框的移动可以灭活或“敲除”序列,从而不再产生蛋白质产物。在存在任选供体多核苷酸的实施方式中,供体多核苷酸中的供体序列在修复双链断裂期间可与靶向的位点的靶向的dna序列交换或整合至其中。例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与靶向的dna序列中靶向的位点的上游和下游序列实质上的序列同一性,供体序列在通过同源性导向的修复过程介导的修复期间可以与靶向的位点的靶向的dna序列交换或整合至其中。或者,在供体序列侧接相容突出端(或者该相容突出端由cpf1多肽原位生成)的实施方式中,供体序列在双链断裂修复期间通过非同源性修复过程可以直接连接切割的靶向的dna序列。将供体序列交换或整合至靶向的dna序列修饰靶向的dna序列,或者将外源性序列引入靶向的dna序列。150.在其中融合蛋白效应物结构域是切割结构域的其它实施方式中,该方法可包括向基因组宿主引入两种不同的融合蛋白(或编码两种不同的融合蛋白的核酸)和两种引导rna(或编码两种引导rna的dna)。融合蛋白可以不同,如本文他处详述。各引导rna将融合蛋白引导至靶向的dna序列中的特定靶位点,其中融合蛋白可以二聚化(例如,形成异二聚体),从而两个切割结构域可以将双链断裂引入靶向的dna序列。在不存在任选供体多核苷酸的实施方式中,得到的双链断裂可以通过非同源性修复过程修复,这样的话在断裂修复期间可能会出现缺失至少一个核苷酸,插入至少一个核苷酸,取代至少一个核苷酸或其组合。在任选供体多核苷酸存在的实施方式中,在通过基于同源性的修复过程(例如,在供体序列侧接这样上游和下游序列的实施方式中,所述上游和下游序列具有分别与染色体序列中靶向的位点的上游和下游序列实质上的序列同一性中)或非同源性的修复过程(例如,在供体序列侧接相容突出端的实施方式中)的双链断裂修复期间,供体多核苷酸中的供体序列可以与染色体序列交换或整合至其中。151.在其中融合蛋白效应物结构域是转录激活结构域或转录阻遏结构域的某些实施方式中,该方法可以包括向基因组宿主引入一种融合蛋白(或编码一种融合蛋白的核酸)和一种引导rna(或编码一种引导rna的dna)。引导rna将融合蛋白导向特定靶向的dna序列,其中转录激活结构域或转录阻遏结构域分别激活或抑制位于靶向的dna序列附近的一个或多个基因的表达。即,转录可能会受到与靶向的dna序列非常接近的基因的影响,或者可能受到与靶向的dna序列相距更远的基因的影响。本领域已知可以通过远距离序列(distantlylocatedsequence)调控基因转录,所述远距离序列可能离转录起始位点数千碱基远的位置或者甚至在不同的染色体上(harmston和lenhard(2013)nucleicacidsres41:7185-7199)。152.在其中融合蛋白效应物结构域是表观遗传修饰结构域的其它实施方式中,该方法可以包括向基因组宿主引入一种融合蛋白(或编码一种融合蛋白的核酸)和一种引导rna(或编码一种引导rna的dna)。该引导rna将融合蛋白导向至特定靶向的dna序列,其中表观遗传修饰结构域修饰靶向的dna序列的结构。表观遗传修饰包括乙酰化,组蛋白的甲基化和/或核苷酸甲基化。在一些情况下,染色体序列的结构修饰导致染色体序列表达的变化。153.vi.包含遗传修饰的生物体154.a.真核生物155.本文提供了真核生物、真核细胞、细胞器和植物胚胎,其包括已经使用本文所述的cpfl多肽介导的或融合蛋白介导的方法修饰的至少一种核苷酸序列。还提供了真核生物、真核细胞、细胞器和植物胚胎,其包括至少一种dna或rna分子,其编码cpfl多肽或融合蛋白,其靶向感兴趣的染色体序列或融合蛋白,至少一种引导rna,以及任选的一种或多种供体多核苷酸。本文公开的经遗传修饰的真核生物对于修饰的核苷酸序列可以是杂合的,或对于修饰的核苷酸序列可以是纯合的。在细胞器dna中包括一种或多种基因修饰的真核细胞可以是异质的或同质的。156.可以对真核生物、真核细胞、细胞器和植物胚胎的经修饰的染色体序列进行修饰从而使其灭活,具有上调的或下调的表达,或生成改变的蛋白产物,或包括整合的序列。可以将修饰的染色体序列灭活,从而使序列不再转录和/或功能性蛋白质产物不再生成。因此,包括灭活的染色体序列的经遗传修饰的真核生物可以被称为“敲除”或“条件性敲除”。失活的染色体序列可包括缺失突变(即,一个或多个核苷酸的缺失),插入突变(即,一个或多个核苷酸的插入)或无义突变(即,用单核苷酸取代另一核苷酸从而引入终止密码子)。突变的结果是,靶向的染色体序列失活,从而不产生功能蛋白。失活的染色体序列不包含外源引入的序列。本文还包括遗传修饰的真核生物,其中2、3、4、5、6、7、8、9或10个或更多个染色体序列被灭活。157.修饰的染色体序列还可以被改变,从而使其编码变体蛋白产物。例如,包含修饰的染色体序列的经遗传修饰的真核生物可包含一个或多个靶向的点突变或其它修饰,从而产生改变的蛋白质产物。在一个实施方式中,可以修饰染色体序列,从而改变至少一个核苷酸,并且表达的蛋白质包含一个改变的氨基酸残基(错义突变)。在另一个实施方式中,可以修饰染色体序列以包含多于一个的错义突变,从而改变多于一个的氨基酸。另外,可以修饰染色体序列以具有三个核苷酸的缺失或插入,从而表达的蛋白质包括单个氨基酸的缺失或插入。或者,染色体序列可以被修饰为具有3的倍数(例如3、6、9、12、15等)个碱基对数的缺失或插入,使得表达的蛋白质包含2个、3个、4个、5个或更多个氨基酸的插入或缺失。与野生型蛋白质相比,改变或变异的蛋白质可具有改变的特性或活性,例如改变的底物特异性,改变的酶活性,改变的动力学速率等。158.在一些实施方式中,遗传修饰的真核生物可以包括至少一个染色体整合的核苷酸序列。包括整合序列的遗传修饰的真核生物可以被称为“敲入”或“条件性敲入”。作为整合序列的核苷酸序列可以例如编码直向同源蛋白质,内源性蛋白质或两者的组合。在一个实施方式中,可将编码直向同源蛋白质或内源性蛋白质的序列整合到编码蛋白质的核或细胞染色体序列中,从而使染色体序列失活,但是表达外源序列。在这样的情况中,编码直向同源蛋白或内源性蛋白的序列可以可操作地连接启动子控制序列。或者,可将编码直向同源蛋白质或内源性蛋白质的序列整合到核或细胞染色体序列中而不影响染色体序列的表达。例如,编码蛋白质的序列可以被整合到“安全港”基因座中。本公开还包括遗传修饰的真核生物,其中2、3、4、5、6、7、8、9或10个或更多个序列(包括编码一种或多种蛋白质的序列)被整合到基因组中。本文公开的任何感兴趣的基因均可被引入整合进入真核核或细胞器的染色体序列。在特定实施方式中,将增加植物生长或产量的基因整合到染色体中。159.编码蛋白质的染色体整合的序列可以编码感兴趣的蛋白质的野生型或者可以编码包括至少一种修饰的蛋白质,从而生成蛋白质的改变形式。例如,编码疾病或病症相关蛋白质的染色体整合序列可包含至少一种修饰,从而产生的蛋白质的变化形式能引起或增强相关的病症。或者,编码疾病或病症相关蛋白质的染色体整合序列可包含至少一种修饰,从而该蛋白质的改变形式保护真核生物或真核细胞免受相关疾病或病症的发展。160.在某些实施方式中,遗传修饰的真核生物可以包括编码蛋白质的至少一种修饰的染色体序列,从而改变蛋白质的表达模式。例如,控制蛋白质表达的调控区域如启动子或转录因子结合位点可以经改变,从而使蛋白质过表达,或者改变蛋白质的组织特异性或时序性表达或其组合。或者,可以使用条件敲除系统改变蛋白质的表达模式。条件性敲除系统的非限制示例包括cre-lox重组系统。cre-lox重组系统包含cre重组酶,这是一种位点特异性dna重组酶,其可以催化核酸分子中特定位点(lox位点)之间的核酸序列重组。使用该系统产生时间和组织特异性表达的方法是本领域已知的。161.b.原核生物162.本文提供了原核生物和原核细胞,其包括已经使用本文所述的cpf1多肽介导的或融合蛋白介导的方法修饰的至少一种核苷酸序列。还提供了原核生物和原核细胞,其包括至少一种dna或rna分子,其编码cpf1多肽或融合蛋白,其靶向感兴趣的dna序列或融合蛋白,至少一种引导rna,以及任选的一种或多种供体多核苷酸。163.可以对原核生物和原核细胞的经修饰的dna序列进行修饰从而使其灭活,具有上调的或下调的表达,或生成改变的蛋白产物,或包括整合的序列。可以将修饰的dna序列灭活,从而使序列不再转录和/或功能性蛋白质产物不再生成。因此,包括灭活的染色体序列的经遗传修饰的原核生物可以被称为“敲除”或“条件性敲除”。失活的dna序列可包括缺失突变(即,一个或多个核苷酸的缺失),插入突变(即,一个或多个核苷酸的插入)或无义突变(即,用单核苷酸取代另一核苷酸从而引入终止密码子)。突变的结果是,靶向的dna序列失活,从而不产生功能蛋白。失活的dna序列不包含外源引入的序列。本文还包括遗传修饰的原核生物,其中2、3、4、5、6、7、8、9或10个或更多个dna序列被灭活。164.经修饰的dna序列还可以被改变,从而使其编码变体蛋白产物。例如,包含经修饰的dna序列的经遗传修饰的原核生物可包含一个或多个靶向的点突变或其它修饰,从而产生改变的蛋白质产物。在一个实施方式中,可以修饰dna序列,从而改变至少一个核苷酸,并且表达的蛋白质包含一个改变的氨基酸残基(错义突变)。在另一个实施方式中,可以修饰dna序列以包含多于一个的错义突变,从而改变多于一个的氨基酸。另外,可以修饰dna序列以具有三个核苷酸的缺失或插入,从而表达的蛋白质包括单个氨基酸的缺失或插入。或者,dna序列可以被修饰为具有3的倍数(例如3、6、9、12、15等)个碱基对数的插入或缺失,使得表达的蛋白质包含1个、2个、3个、4个、5个或更多个氨基酸的缺失或插入。与野生型蛋白质相比,改变或变异的蛋白质可具有改变的特性或活性,例如改变的底物特异性,改变的酶活性,改变的动力学速率等。165.在一些实施方式中,经遗传修饰的原核生物可以包括至少一个整合的核苷酸序列。包括整合序列的遗传修饰的原核生物可以被称为“敲入”或“条件性敲入”。作为整合序列的核苷酸序列可以例如编码直向同源蛋白质,内源性蛋白质或两者的组合。在一个实施方式中,可将编码直向同源蛋白质或内源性蛋白质的序列整合到编码蛋白质的原核dna序列中,从而使该原核序列失活,但是表达外源序列。在这样的情况中,编码直向同源蛋白或内源性蛋白的序列可以可操作地连接启动子控制序列。或者,可将编码直向同源蛋白质或内源性蛋白质的序列整合进入原核dna序列,而不影响原生原核序列的表达。例如,编码蛋白质的序列可以被整合到“安全港”基因座中。本公开还包括经遗传修饰的原核生物,其中2、3、4、5、6、7、8、9或10个或更多个序列(包括编码一种或多种蛋白质的序列)被整合进入原核基因组或原核生物所含质粒中。如本文所公开的任何感兴趣的基因都可被整合进入原核染色体、质粒或其它染色体外dna的dna序列中。166.编码蛋白质的整合的序列可以编码感兴趣的蛋白质的野生型或者可以编码包括至少一种修饰的蛋白质,从而生成蛋白质的改变形式。例如,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而产生的蛋白质的变化形式能引起或增强相关的病症。或者,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而蛋白质的改变形式能降低原核生物的感染性。167.在某些实施方式中,经遗传修饰的原核生物可以包括编码蛋白质的至少一种修饰的dna序列,从而改变蛋白质的表达模式。例如,控制蛋白质表达的调控区域如启动子或转录因子结合位点可以经改变,从而使蛋白质过表达,或者改变蛋白质的时序性表达或其组合。或者,可以使用条件敲除系统改变蛋白质的表达模式。条件性敲除系统的非限制示例包括cre-lox重组系统。cre-lox重组系统包含cre重组酶,这是一种位点特异性dna重组酶,其可以催化核酸分子中特定位点(lox位点)之间的核酸序列重组。使用该系统产生时序表达的方法是本领域已知的。168.c.病毒169.本文提供了病毒和病毒基因组,其包括已经使用本文所述的cpf1多肽介导的或融合蛋白介导的方法修饰的至少一种核苷酸序列。还提供了病毒和病毒基因组,其包括至少一种dna或rna分子,其编码cpf1多肽或融合蛋白,其靶向感兴趣的dna序列或融合蛋白,至少一种引导rna,以及任选的一种或多种供体多核苷酸。170.可以对病毒和病毒基因组的经修饰的dna序列进行修饰从而使其灭活,具有上调的或下调的表达,或生成改变的蛋白产物,或包括整合的序列。可以将修饰的dna序列灭活,从而使序列不再转录和/或功能性蛋白质产物不再生成。因此,包括灭活的染色体序列的经遗传修饰的病毒可以被称为“敲除”或“条件性敲除”。失活的dna序列可包括缺失突变(即,一个或多个核苷酸的缺失),插入突变(即,一个或多个核苷酸的插入)或无义突变(即,用单核苷酸取代另一核苷酸从而引入终止密码子)。突变的结果是,靶向的dna序列失活,从而不产生功能蛋白。失活的dna序列不包含外源引入的序列。本文还包括遗传修饰的病毒,其中2、3、4、5、6、7、8、9或10个或更多个病毒序列被灭活。171.经修饰的dna序列还可以被改变,从而使其编码变体蛋白产物。例如,包含经修饰的dna序列的经遗传修饰的病毒可包含一个或多个靶向的点突变或其它修饰,从而产生改变的蛋白质产物。在一个实施方式中,可以修饰dna序列,从而改变至少一个核苷酸,并且表达的蛋白质包含一个改变的氨基酸残基(错义突变)。在另一个实施方式中,可以修饰dna序列以包含多于一个的错义突变,从而改变多于一个的氨基酸。另外,可以修饰dna序列以具有三个核苷酸的缺失或插入,从而表达的蛋白质包括单个氨基酸的缺失或插入。与野生型蛋白质相比,改变或变异的蛋白质可具有改变的特性或活性,例如改变的底物特异性,改变的酶活性,改变的动力学速率等。172.在一些实施方式中,经遗传修饰的病毒可以包括至少一个整合的核苷酸序列。包含整合序列的遗传修饰的病毒可以被称为“敲入”或“条件性敲入”。作为整合序列的核苷酸序列可以例如编码直向同源蛋白质,内源性蛋白质或两者的组合。在一个实施方式中,可将编码直向同源蛋白质或内源性蛋白质的序列整合到编码蛋白质的病毒dna序列中,从而使该病毒序列失活,但是表达外源序列。在这样的情况中,编码直向同源蛋白或内源性蛋白的序列可以可操作地连接启动子控制序列。或者,可将编码直向同源蛋白质或内源性蛋白质的序列整合进入病毒dna序列,而不影响原生病毒序列的表达。例如,编码蛋白质的序列可以被整合到“安全港”基因座中。本公开还包括遗传修饰的病毒,其中2、3、4、5、6、7、8、9或10个或更多个序列(包括编码一个或多个蛋白质的序列)被整合到病毒基因组中。本文公开的任何感兴趣的基因都可以被整合到病毒基因组的dna序列中。173.编码蛋白质的整合的序列可以编码感兴趣的蛋白质的野生型或者可以编码包括至少一种修饰的蛋白质,从而生成蛋白质的改变形式。例如,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而产生的蛋白质的变化形式能引起或增强相关的病症。或者,编码疾病或病症相关蛋白质的整合序列可包含至少一种修饰,从而蛋白质的改变形式能降低病毒的感染性。174.在某些实施方式中,经遗传修饰的病毒可以包括编码蛋白质的至少一种修饰的dna序列,从而改变蛋白质的表达模式。例如,控制蛋白质表达的调控区域如启动子或转录因子结合位点可以经改变,从而使蛋白质过表达,或者改变蛋白质的时序性表达或其组合。或者,可以使用条件敲除系统改变蛋白质的表达模式。条件性敲除系统的非限制示例包括cre-lox重组系统。cre-lox重组系统包含crc重组酶,这是一种位点特异性dna重组酶,其可以催化核酸分子中特定位点(lox位点)之间的核酸序列重组。使用该系统产生时序表达的方法是本领域已知的。175.本说明书中涉及的所有专利申请和出版物指示本发明涉及领域技术人员的水平。所有发表物和专利申请通过引用纳入本文,就好像将各篇单独的发表物或专利申请具体和单独地通过引用纳入本文那样。176.虽然出于方便理解的目的,通过阐述和举例的方式详细描述了上述发明,但可明显看出,某些改变和修改应属于所附权利要求书的范围。177.本发明的实施方式包括:178.1.一种修饰真核细胞基因组中靶位点的核苷酸序列的方法,其包括:179.向所述真核细胞中引入180.(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与所述真核细胞基因组中靶向的序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用;和181.(ii)cpf1多肽与选自下组的一个或多个多肽序列具有至少80%同一性:seqidno:9-11和36-38;或编码cpf1多肽的多核苷酸,其中所述编码cpf1多肽的多核苷酸与选自下组的一个或多个核酸序列具有至少70%同一性:seqidno:25和27;其中cpf1多肽包括:(a)结合rna部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性;其中cpf1多肽对应于seqidno:3中d172位置包含精氨酸,其中所述靶向的序列紧邻所述真核细胞基因组中pam位点的3’,其中所述cpf1多肽识别tttcpam位点,且其中所述真核细胞的基因组是核的、质体的或线粒体的基因组。182.2.一种修饰原核细胞基因组中靶位点的核苷酸序列的方法,其包括:183.向所述原核细胞中引入184.(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与所述原核细胞基因组中靶向的序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用;和185.(ii)cpf1多肽,其与选自下组的一个或多个多肽序列具有至少80%同一性:seqidno:9-11和36-38;或编码cpfl多肽的多核苷酸,其中所述编码cpfl多肽的多核苷酸与选自下组的一个或多个核酸序列具有至少70%的同一性:seqidno:25和27;其中cpf1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其表现出定点酶促活性,186.其中cpf1多肽在对应于seqidno:3中d172的位置处包含精氨酸,其中所述原核细胞的基因组为染色体、质粒或其他胞内dna序列,其中所述靶向的序列紧邻所述原核细胞基因组中pam位点的3’,其中所述cpf1多肽识别tttcpam位点,且其中所述原核细胞不是编码所述cpf1多肽的基因的天然宿主。187.3.一种修饰植物细胞基因组中靶位点的核苷酸序列的方法,其包括:188.向所述植物细胞中引入189.(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与所述植物细胞基因组中靶向的序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用;和190.(ii)cpf1多肽,其与选自下组的一个或多个多肽序列具有至少80%同一性:seqidno:9-11和36-38;或编码cpf1多肽的多核苷酸,其中所述编码cpf1多肽的多核苷酸与选自下组的一个或多个核酸序列具有至少70%的同一性:seqidno:25和27;其中cpf1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其表现出定点酶促活性,191.其中cpf1多肽在对应于seqidno:3中d172的位置包含精氨酸,其中所述靶向的序列紧邻所述植物细胞基因组中pam位点的3′,其中所述cpf1多肽识别tttcpam位点,其中所述植物细胞的基因组是核、质体或线粒体基因组。192.4.一种修饰病毒基因组中靶位点的核苷酸序列的方法,其包括:193.引入所述病毒的宿主原核细胞194.(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与所述病毒基因组中靶向的序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用;和195.(ii)cpf1多肽,其与选自下组的一个或多个多肽序列具有至少80%同一性:seqidno:9-11和36-38;或编码cpf1多肽的多核苷酸,其中所述编码cpf1多肽的多核苷酸与选自下组的一个或多个核酸序列具有至少70%的同一性:seqidno:25和27;其中cpf1多肽包括:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其表现出定点酶促活性,196.其中cpf1多肽在对应于seqidno:3中d172的位置包含精氨酸,其中所述靶向的序列紧邻所述原核细胞基因组中pam位点的3′,其中所述cpf1多肽识别tttcpam位点,其中所述原核细胞不是编码所述cpf1多肽基因的天然宿主。197.5.如实施方式1和3中任一个所述的方法,其还包括:198.在表达所述cpf1多肽并在所述靶位点处切割核苷酸序列以生成经修饰的核苷酸序列的条件下培养所述植物;和199.选择包含所述经修饰的核苷酸序列的植物。200.6.如实施方式1-5中任一项所述的方法,其中切割靶位点的核苷酸序列包括双链断裂,所述双链断裂位于或邻近靶向dna的rna序列所靶向的序列。201.7.如实施方式6所述的方法,其中所述双链断裂是交错的双链断裂。202.8.如实施方式7所述的方法,其中所述交错的双链断裂产生3-6个核苷酸的5′突出端。203.9.如实施方式1-8中任一项所述的方法,其中所述靶向dna的rna是引导rna(grna),且其中所述引导rna包括序列ucuacn3-5guagau(seqidno:15-17,由seqidno:12-14编码)。204.10.如实施方式1-9中任一项所述的方法,其中所述经修饰的核苷酸序列包括细胞基因组中异源性dna的插入,细胞基因组中核苷酸序列的缺失,或细胞基因组中至少一个核苷酸的突变。205.11.如实施方式1-10中任一项所述的方法,其中所述cpf1多肽包含选自下组的序列:seqidno:9-11和36-38。206.12.如实施方式1-11中任一项所述的方法,其中所述编码cpf1多肽的多核苷酸选自下组:seqidno:25和27。207.13.如实施方式1所述的方法,其中所述真核细胞是哺乳动物细胞。208.14.如实施方式1所述的方法,其中所述真核细胞是酵母细胞。209.15.如实施方式1所述的方法,其中所述真核细胞是真菌细胞。210.16.如实施方式1所述的方法,其中所述真核细胞是昆虫细胞。211.17.如实施方式1所述的方法,其中所述真核细胞是藻类细胞。212.18.如实施方式2所述的方法,其中所述原核细胞是细菌细胞。213.19.如实施方式2所述的方法,其中所述原核细胞是古菌细胞。214.20.如实施方式3和5中任一项所述的方法,其中,所述植物细胞来自单子叶植物。215.21.如实施方式3和5中任一项所述的方法,其中,所述植物细胞来自双子叶植物。216.22.如实施方式1-22中任一项所述的方法,其中cpf1多肽的表达在诱导型或组成型启动子的控制下。217.23.如实施方式1-23中任一项所述的方法,其中cpf1多肽的表达在细胞类型特异性或发育优先型启动子的控制下。218.24.如实施方式1-24中任一项所述的方法,其中,pam序列包含选自下组的序列:tttn、tttv、yttn和yttv。219.25.如实施方式3和5中任一项所述的方法,其中位于细胞基因组靶位点的所述核苷酸序列编码sbp酶,fbp酶,fbp醛缩酶,agp酶大亚基,agp酶小亚基,蔗糖磷酸合成酶,淀粉合成酶,pep羧化酶,丙酮酸磷酸二激酶,转酮醇酶,rubisco小亚基,或rubisco激活酶蛋白,或编码调节一个或多个基因表达的转录因子,所述基因编码sbp酶,fbp酶,fbp醛缩酶,agp酶大亚基,agp酶小亚基,蔗糖磷酸合成酶,淀粉合成酶,pep羧化酶,丙酮酸磷酸二激酶,转酮醇酶,rubisco小亚基或rubisco激活酶蛋白。220.26.如实施方式1-25中任一项所述的方法,所述方法还包括将靶位点与供体多核苷酸接触,其中供体多核苷酸、供体多核苷酸的部分、供体多核苷酸的拷贝或供体多核苷酸拷贝的部分整合至靶dna中。221.27.如实施方式1-26中任一项所述的方法,其中所述靶dna经修饰,从而使靶dna内的核苷酸缺失。222.28.如实施方式1-27中任一项所述的方法,其中编码cpf1多肽的所述多核苷酸经密码子优化以在植物细胞中表达。223.29.如实施方式1-28中任一项所述的方法,其中,所述核苷酸序列的表达增加或降低。224.30.如实施方式1-29中任一项所述的方法,其中,编码cpf1多肽的多核苷酸可操作地连接至启动子,所述启动子是组成型、细胞特异型、诱导型或被自杀外显子的可变剪接激活的启动子。225.31.如实施方式1-30中任一项所述的方法,其中,所述cpf1多肽包括一个或多个突变,所述突变减弱或消除所述cpf1多肽的核酸酶活性。226.32.如实施方式31所述的方法,其中突变的cpf1多肽包含突变,当以最大同一性对比时,所述突变在对应于seqidno:3的877或971位置的位置。227.33.如实施方式32所述的方法,其中所述位于对应于seqidno:3的877或971位置的突变分别是d877a和e971a。228.34.如实施方式31-33中任一项所述的方法,其中所述突变的cpfl多肽包含氨基酸序列,其与选自seqidno:9-11和36-38的氨基酸序列具有至少95%同一性,其中所述突变的cpf1多肽保留对应于seqidno:3的877或971位置的突变。229.35.如实施方式31-34中任一项所述的方法,其中,突变的cpf1多肽与转录激活结构域融合。230.36.如实施方式35所述的方法,其中,突变的cpf1多肽直接融合至转录激活结构域或通过接头融合至转录激活结构域。231.37.如实施方式31-34中任一项所述的方法,其中,突变的cpf1多肽与转录阻遏结构域融合。232.38.如实施方式37所述的方法,其中,突变的cpfl多肽通过接头与转录阻遏结构域融合。233.39.如实施方式1-38中任一项所述的方法,其中,所述cpf1多肽还包括核定位信号。234.40.如实施方式39所述的方法,其中所述核定位信号包括seqidno:1,或其由seqidno:2编码。235.41.如实施方式1-38中任一项所述的方法,其中,所述cpf1多肽还包含叶绿体信号肽。236.42.如实施方式1-38中任一项所述的方法,其中,所述cpf1多肽还包含线粒体信号肽。237.43.如实施方式1-38中任一项所述的方法,其中,所述cpf1多肽还包含将所述cpf1多肽靶向至多个亚细胞位置的信号肽。238.44.一种组合物,其包含编码cpf1多肽的多核苷酸序列,其中所述多核苷酸序列与选自下组的多核苷酸序列具有至少70%序列同一性:seqidno:4、6、8和24-27,或其中所述多核苷酸序列编码与选自下组的多肽具有至少80%序列同一性的cpf1多肽:seqidno:25和27,其中cpf1多肽在对应于seqidno:3中d172位置包含精氨酸,且其中所述多核苷酸序列已经密码子优化以在植物细胞中表达。239.45.一种组合物,其包含编码cpf1多肽的多核苷酸序列,其中所述多核苷酸序列与选自下组的多核苷酸序列具有至少70%序列同一性:seqidno:25和27,或其中所述多核苷酸序列编码与选自下组的多肽具有至少80%序列同一性的cpf1多肽:seqidno:9-11和36-38,其中所述多核苷酸序列已经密码子优化以在真核细胞中表达。240.46.一种组合物,其包含编码cpf1多肽的多核苷酸序列,其中所述多核苷酸序列与选自下组的多核苷酸序列具有至少70%序列同一性:seqidno:25和27,或其中所述多核苷酸序列编码与选自下组的多肽具有至少80%序列同一性的cpf1多肽:seqidno:9-11和36-38,其中cpf1多肽在对应于seqidno:3中d172位置包含精氨酸,且其中所述多核苷酸序列已经密码子优化以在原核细胞中表达。241.47.如实施方式44-46中任一项所述的核酸分子,其中所述多核苷酸序列选自下组:seqidno:25和27,或其中所述多核苷酸序列编码选自下组的cpf1多肽:seqidno:9-11和36-38,其中cpfl多肽在对应于seqidno:3中d172位置包含精氨酸。242.48.如实施方式44-46中任一项所述的核酸分子,其中编码cpf1多肽的所述多核苷酸序列可操作地连接至启动子,所述启动子对于编码cpf1多肽的多核苷酸序列是异源的。243.49.如实施方式44-46中任一项所述的核酸分子,其中,所述cpf1多肽包含选自下组的氨基酸序列:seqidno:9-11和36-38或其片段或变体。244.50.如实施方式44-49中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列可操作地连接至哺乳动物细胞中有活性的启动子。245.51.如实施方式44-49中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列可操作地连接至植物细胞中有活性的启动子。246.52.如实施方式44-49中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列可操作地连接至真核细胞中有活性的启动子。247.53.如实施方式44-49中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列可操作地连接至原核细胞中有活性的启动子。248.54.如实施方式44-49中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列可操作地连接至组成型启动子、诱导型启动子、细胞类型特异性启动子或发育优先型启动子。249.55.如实施方式44-49中任一项所述的核酸分子,其中,所述核酸分子编码包含所述cpf1多肽和效应物结构域的融合蛋白。250.56.如实施方式55所述的核酸分子,其中,所述效应物结构域选自下组:转录激活因子、转录阻遏物、核定位信号和细胞穿透信号。251.57.如实施方式56所述的核酸分子,其中,所述cpf1多肽经突变以使核酸酶活性降低或消除。252.58.如实施方式57所述的核酸分子,其中所述突变的cpf1多肽包含突变,当以最大同一性对比时,所述突变在对应于seqidno:3的877或971位置的位置。253.59.如实施方式55-58中任一项所述的核酸分子,其中,所述cpf1多肽通过接头融合至所述效应物结构域。254.60.如实施方式44-59中任一项所述的核酸分子,其中,所述cpf1多肽形成二聚体。255.61.由实施方式55-60中任一项所述的核酸分子编码的融合蛋白。256.62.由实施方式44-50中任一项所述的核酸分子编码的cpf1多肽。257.63.cpf1多肽,其与选自下组的一个或多个多肽序列具有至少80%同一性:seqidno:9-11和36-38,其中所述多肽被突变以减少或消除核酸酶活性。258.64.如实施方式63所述的cpf1多肽,其中所述突变的cpf1多肽包含突变,当以最大同一性对比时,所述突变在对应于seqidno:3的877或971位置的位置。259.65.包括实施方式44-60中任一项所述的核酸分子的真核细胞或原核细胞。260.66.包括实施方式61-64中任一项所述的融合蛋白或多肽的真核细胞或原核细胞。261.67.通过实施方式1、3和5-36中任一项所述方法产生的植物细胞。262.68.包括实施方式44-60中任一项所述的核酸分子的植物。263.69.包括实施方式61-64中任一项所述的融合蛋白或多肽的植物。264.70.通过实施方式1、3和5-36中任一项所述方法产生的植物。265.71.如实施方式68-70中任一项所述的植物的种子。266.72.如实施方式1、3和5-36中任一项所述的方法,其中,所述经修饰的核苷酸序列包含多核苷酸的插入,所述多核苷酸编码向转化的细胞赋予抗生素或除草剂耐受性的蛋白质。267.73.如实施方式45-60中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列还包含编码核定位信号的多核苷酸序列。268.74.如实施方式73所述的核酸分子,其中,所述核定位信号包含seqidno:1,或由seqidno:2编码。269.75.如实施方式45-60中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列还包含编码叶绿体信号肽的多核苷酸序列。270.76.如实施方式45-60中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列还包含编码线粒体信号肽的多核苷酸序列。271.77.如实施方式45-60中任一项所述的核酸分子,其中,编码cpf1多肽的所述多核苷酸序列还包含编码信号肽的多核苷酸序列,所述信号肽将所述cpf1多肽靶向至多个亚细胞位置。272.78.如实施方式61所述的融合蛋白,其中,所述融合蛋白还包含核定位信号,叶绿体信号肽,线粒体信号肽,或将所述cpf1多肽靶向至多个亚细胞位置的信号肽。273.79.如实施方式62-64中任一项所述的cpf1多肽,其中,所述cpf1多肽还包含核定位信号,叶绿体信号肽,线粒体信号肽,或将所述cpf1多肽靶向至多个亚细胞位置的信号肽。274.80.一种体外修饰靶位点的核苷酸序列的方法,其包括:275.使靶dna在体外接触:276.(i)靶向dna的rna,或编码靶向dna的rna的dna多核苷酸,其中所述靶向dna的rna包括:(a)第一区段,其包含与靶向的序列互补的核苷酸序列;和(b)第二区段,其与cpf1多肽相互作用;和277.(ii)cpf1多肽或编码cpf1多肽的多核苷酸,其中所述cpf1多肽包含:(a)结合rna的部分,其与靶向dna的rna相互作用;和(b)活性部分,其显示定点酶促活性,278.其中所述cpf1多肽在对应于seqidno:3中d172的位置包含精氨酸,其中所述靶向的序列紧邻pam位点的3′,其中所述cpf1多肽识别tttcpam位点。279.81.如实施方式80中所述的方法,其中所述cpf1多肽与选自下组的序列具有至少95%同一性:seqidno:9-11和36-38。280.82.如实施方式80中所述的方法,其中所述cpf1多肽包含选自下组的序列:seqidno:9-11和36-38。281.83.如实施方式46和47中任一项所述的组合物,其中所述原核细胞不是编码cpf1多肽的所述多核苷酸序列的天然宿主。282.通过说明的方式,而非限制性方式提供以下实施例。283.实验部分284.实施例1-cpf1核酸酶活性的体外测试285.野生型cpf1核酸酶和其选择变体在不同温度范围下进行体外试验测试,以确定它们在各个温度的相对活性。使用muscle(图1)比对野生型mccpf1、pb2cpf1和coe1cpf1核酸酶蛋白序列(表1)以鉴定这三个序列中对应的残基。seqidno:3中的d172残基、seqidno:5中的e173残基,和seqidno:7中的q161残基被鉴定为突变候选物。因此,这些残基各自被改变成精氨酸残基,产生seqidno:9-11。286.表1:核心cpf1核酸酶[0287][0288][0289]seqidno:3、5、7和9-11被修饰,n-末端核定位信号(sv40nls,seqidno:1)侧接丙氨酸和甲硫氨酸残基,以及c-末端10xhis标签(seqidno:74)用于纯化和检测目的。在mccpf1的情况下,接头(接头1,seqidno:2)被插入核酸酶序列和10xhis标签之间。这些修饰产生了seqidno:35-38和140-141(表2)。在20-50℃的温度范围下,用表2中列出的每种蛋白质进行体外核酸酶试验,固定时间10分钟。[0290]表2:用n-末端sv40nls和c-末端10xhis标签修饰的cpf1核酸酶[0291]cpf1核酸酶seqidnomccpf138pb2cpf1140coe1cpf1141mccpf1d172r35pb2cpf1e173r36coe1cpf1q161r37[0292]在试验中利用热循环仪来设定温度。试验一式两份或一式三份进行,开始加入核酸酶,如果是对照样品加入缓冲液。试验体积为10μl,包含100mmnaclph7.9、50mmtris-hcl、10mmmgcl2、100μg/mlbsa、16ng/μl靶dna(seqidno:18)、25ng/μlgrna(seqidno:19)和25ng/μl核酸酶。加入500mmedta淬灭反应,终浓度为83mm。淬灭的样品在1%琼脂糖凝胶上上样并跑样以进行分析。[0293]所得凝胶的图像被用于密度分析。每个凝胶包含两个或更多阴性对照,其包含未暴露于任何核酸酶的亲本靶dna。使用图像处理软件测量未被切割的靶dna条带的密度。表3显示了用mccpf1、mccpf1d172r、coe1cpf1和coe1cpf1q161r核酸酶的这些试验的结果。[0294]表3:在每个温度下切割的靶dna的百分比[0295][0296]表3显示了与天然mc核酸酶相比,mccpf1d172r核酸酶在低温下在体外更好地切割靶dna,特别是在20℃和25℃温度下。与天然coe1核酸酶相比,coe1q161r核酸酶也在体外更好地切割靶dna。[0297]实施例2-克隆植物转化构建体[0298]部分基于有希望的体外结果,编码mccpf1d172r核酸酶和pb2e173r核酸酶的基因也被克隆到适合植物转化的构建体中。编码野生型mc和pb2核酸酶的基因也被克隆到适合植物转化的构建体中。所有的核酸酶都用n-末端sv40nls(seqidno:1)修饰。表4总结了这些构建体。[0299]表4:编码核酸酶的植物转化构建体[0300][0301][0302]这些构建体中编码每个核酸酶的基因都经密码子优化以在植物中表达,且被克隆到atubi11启动子序列的下游(例如,seqidno:20-23)。[0303]实施例3-豌豆原生质体中的基因编辑[0304]表4中列出的每种植物转化构建体用于转染豌豆(pisumsativum)原生质体,连同质粒133806(seqidno:30),该质粒包含设计用于靶向豌豆lox2(pslox2)基因的引导rna,该引导rna从mtu6启动子(例如在seqidno:30中)下游克隆。用表4中列出的每个构建体进行转染,一式三份。转染后,收获豌豆原生质体细胞并提取dna,然后通过下一代测序(ngs)进行分析。表5总结了这些ngs分析的结果,显示了平均编辑±标准偏差。[0305]表5:ngs衍生的pslox2编辑确认[0306][0307]表5中的数据显示mccpf1d172r核酸酶介导的编辑效率比mccpf1核酸酶高约三倍,pb2cpf1e173r核酸酶介导的编辑效率比p2cpf1核酸酶高约三倍。不希望囿于理论,这些结果可以部分解释为这些突变体在较低温度下的活性改进,因为豌豆转染和培养是在大约25℃的温度下进行的,在该温度下,突变体核酸酶体外表现优于野生型核酸酶。[0308]实施例4-番茄原生质体中的基因编辑[0309]mccpf1d172r核酸酶(seqidno145)用于介导番茄原生质体中的基因编辑。构建体133918(seqidno:23)连同合适的用于表达设计为靶向番茄pg基因的引导rna的构建体(slpg;seqidno:34)转染到番茄原生质体中。构建体133911(seqidno:31)、133912(seqidno:32)和133914(seqidno:33)用于这些实验。每次转染一式三份进行。转染后,收获番茄原生质体细胞并提取dna,然后通过下一代测序(ngs)进行分析。表6总结了这些ngs分析的结果,显示了平均编辑±标准偏差。[0310]表6:ngs衍生的slpg编辑确认[0311]引导构建体编辑效率1339114.149±0.716%1339127.625±0.806%1339143.946±1.192%[0312]表6中的数据显示mccpf1d172r核酸酶在三个位点介导了s1pg基因的高效基因组编辑。[0313]实施例5-斑马鱼中的基因编辑[0314]温度已被证明是cpf1介导的斑马鱼和爪蟾(xenopus)基因组编辑的重要决定因素(moreno-mateos2017natcommun8:2024)。mccpf1d172r核酸酶、pb2cpf1e173r核酸酶和/或coe1cpf1q161r核酸酶用于介导斑马鱼的基因组编辑。如前所述,将包含核酸酶的一种或多种纯化的核糖核蛋白(rnp)复合物与合适的引导rna或设计用于与核酸酶复合并靶向斑马鱼基因组中一个或多个感兴趣基因的引导rna注射到斑马鱼胚胎中(moreno-mateos2017natcommun8:2024)。或者,如前所述,将编码核酸酶的dna或mrna分子与一种或多种引导rna一起注射到斑马鱼胚胎中,该引导rna设计为靶向斑马鱼基因组中的一个或多个感兴趣的基因(moreno-mateos2017natcommun8:2024)。在这些注射之后,提取dna以对斑马鱼基因组的靶向的部分进行序列分析。还可以观察斑马鱼的与预期基因组修饰相关的表型修饰。[0315]实施例6-玉米中的基因编辑[0316]温度已被证明是cpf1介导的玉米基因组编辑的重要决定因素(wo2017/218185;malzahn等2019bmcbiol17:9)。mccpf1d172r核酸酶、pb2cpf1e173r核酸酶和/或coelcpf1q161r核酸酶用于介导玉米的基因组编辑。通过转染、基因枪轰击(biolisticbombardment)、农杆菌(agrobacterium)、苍白杆菌(ochrobactrum)、剑菌(ensifer)或本领域已知的用于将dna引入植物细胞的其他方法,将编码感兴趣的核酸酶的一个或多个dna或rna分子,连同一个或多个引导rna分子或编码一个或多个引导rna分子的dna引入玉米细胞。编码核酸酶的dna或rna分子和编码一个或多个引导rna的dna或rna分子可以连接,或者可以作为两个单独的分子引入。或者,将包含核酸酶的一种或多种纯化的核糖核蛋白(rnp)复合物与设计用于与核酸酶复合并靶向玉米基因组中的一种或多种感兴趣的基因的一个或多个合适的引导rna引入玉米细胞中,通过先前在本领域中描述的用于将rnp引入植物细胞的方法(svitashev等2016natcommun7:13274)。在引入编码核酸酶的dna或rna和一个或多个引导rna或引入一个或多个rnp后,从玉米细胞或从其再生的植物中提取dna,用于玉米基因组靶向的部分的序列分析。还可以观察玉米植物或细胞的与预期基因组修饰相关的表型修饰。[0317]实施例7-拟南芥中的基因编辑[0318]温度已被证明是cpf1介导的拟南芥基因组编辑的重要决定因素(wo2017/218185;malzahn等2019bmcbiol17:9)。mccpf1d172r核酸酶、pb2cpf1e173r核酸酶和/或coe1cpf1q161r核酸酶用于介导拟南芥的基因组编辑。通过转染、基因枪轰击(biolisticbombardment)、农杆菌(agrobacterium)、苍白杆菌(ochrobactrum)、剑菌(ensifer)或本领域已知的用于将dna引入植物细胞的其他方法,将编码感兴趣的核酸酶的一个或多个dna或rna分子,连同一个或多个引导rna分子或编码一个或多个引导rna分子的dna分子引入拟南芥细胞。编码核酸酶的dna或rna分子和编码一个或多个引导rna的dna或rna分子可以连接,或者可以作为两个单独的分子引入。或者,将包含核酸酶的一种或多种纯化的核糖核蛋白(rnp)复合物与合适的引导rna或设计用于与核酸酶复合并靶向拟南芥基因组中的一种或多种感兴趣的基因的引导rna引入拟南芥细胞中,通过先前在本领域中描述的用于将rnp引入植物细胞的方法(svitashev等2016natcommun7:13274)。在引入编码核酸酶的dna或rna和一个或多个引导rna或引入一个或多个rnp后,从拟南芥细胞或从其再生的植物中提取dna,用于拟南芥基因组靶向的部分的序列分析。还可以观察拟南芥植物或细胞的与预期基因组修饰相关的表型修饰。[0319]实施例8-使用荧光底物的cpf1切割效率测试[0320]设计了另外一组mccpf1突变体(seqidno:39-68),并使用荧光底物在酶标仪试验中进行了体外测试。mccpf1、mcpf1d172r和mc.41-61cpf1被修饰,用n-末端丙氨酸修饰以促进克隆,c-末端核质蛋白核定位信号(seqidno:69),然后是接头(接头2,seqidno:71)、促进免疫印迹的3x血球凝集素标签(sedidno:75)、另一个接头(接头2,seqidno:71)、sv40核定位信号(seqidno:1)、另一个接头(接头3,seqidno:72)、促进蛋白纯化的10xhis标签(seqidno:74)、另一个接头(接头4,seqidno:73)和hibit标签(使用可商购的普洛麦格公司nano-glohibit切割检测系统(promegacorporationnano-glohibitlyticdetectionsystem)#n3030;例如,在schwinn等,acschembiol201813:467-474中所述)以促进蛋白定量(seqidno:76)。mc.3cpf1、mc.4cpf1、mc.5cpf1和mc.7cpf1被修饰,用n-末端sv40nls(seqidno:1),侧接丙氨酸和甲硫氨酸,以及c-末端接头(接头1,seqidno:70)附接至10xhis标签以促进纯化(seqidno:74)。表7中提供了用于这些实验纯化的完整融合蛋白的seqidno。[0321]该酶标仪试验中使用的底物是通过使两个互补的化学修饰寡核苷酸退火来制备的。一个寡核苷酸(正向寡核苷酸)编码tttnpam并具有3′淬灭剂修饰,而另一个(反向寡核苷酸)在5′末端用荧光团修饰。正向寡核苷酸编码12个任意碱基,后接tttnpam和对应于感兴趣的引导rna的间隔子序列的24个碱基。cpf1-grna复合物对该底物的切割导致荧光团-淬灭剂对的解离,产生与催化事件数量成比例的荧光信号。[0322]每个反应一式三份进行,在25℃下在100μl体积中的100nmnacl、50mmtris-hclph7.9、10mmmgcl2和含1.5μg纯化的cpf1蛋白的100μg/ml牛血清白蛋白、200nm引导rna和50nm荧光底物。通过在酶标仪中每分钟测量648/668nm激发/发射的荧光持续一小时来监测反应时间进程。对来自相同反应的数据取平均(n=3),并通过在每个时间进程中将一条线拟合到前五个值来确定初始反应速率。然后将这些速率标准化为mc.2cpf1。结果如表11所示。[0323]表7:使用荧光底物的cpf1编辑效率测试结果。[0324][0325][0326][0327]mccpf1的催化失活突变体(d172rd877ae971a,mc.61cpf1seqidno:103)在该试验中显示出最小的活性,这种残留活性可能是由于cpf1结合和rna-dna双链体形成引起的荧光团-淬灭剂对的物理分离。与这一观察结果一致,尽管装载等价的蛋白,在mc.61cpf1反应中获得的最终荧光信号约为测试的其他mccpf1变体的五分之一。在没有引导rna的情况下,纯化的mccpf1蛋白不会增加荧光信号。[0328]实施例9-不同温度下的cpf1编辑效率测试[0329]筛选cpf1序列变体以在一定温度范围内改进体外性能。将侧接丙氨酸和甲硫氨酸的sv40nls标签(seqidno:1)添加到n末端,后接10xhis标签(seqidno:74)的接头(接头1,seqidno:70)被添加到c末端。纯化的蛋白用于体外测试。[0330]在热循环仪中以2.5、5、10、15和20分钟(21和24℃)或0.25、0.5和1分钟(30和37℃)的时间进程进行固定温度试验。试验一式两份进行,开始加入核酸酶,如果是对照样品加入缓冲液。试验体积为60μl(21和24℃)或40μl(30和37℃),含有100mmnaclph7.9、50mmtris-hcl、10mmmgcl2、100μg/mlbsa、15ng/μl(14.8nm)靶dna(seqidno:18)、2.5ng/μl(181nm)对应的grna(seqidno:19)和20ng/μl(137nm)核酸酶。针对测量纯度的任何变化校正核酸酶浓度。在该时间点,取出10μl试样,加入500mmedta淬灭,最终浓度为83mm。淬灭的样品在1%琼脂糖凝胶上上样并跑样。每个实验重复两次,两次重复的结果取平均值并显示在表7中,误差作为标准偏差给出。[0331]通过密度测定法(densitometry)测量残留在染色琼脂糖凝胶上的亲本靶dna(seqidno:18)的量来量化核酸酶活性。剩余的dna量除以阴性对照(不含核酸酶的cao1)的密度以产生剩余百分比。使用反应中cao1dna的起始量将剩余的%转化为消耗的cao1的pmol。根据以下等式,使用在时间进程的线性响应范围内的时间点消耗的cao1的pmol计算比活度(specificactivity):[0332][0333]表8:平均核酸酶活性测量值±标准偏差[0334][0335][0336]实施例10-豌豆(pisumsativum)中的cpf1编辑效率测试[0337]编码mccpf1变体的载体,所述变体用以下修饰:n-末端丙氨酸残基以促进克隆、和附接至接头(接头2,seqidno:71)的c-末端核质蛋白nls(seqidno:69)、3xha标签(seqidno:75)、另一个接头(接头2,seqidno:71)和sv40nls(seqidno:1),被放入构建体中,用于在豌豆原生质体中进行转化和测试(有关seqidno,参见下表9)。相同的植物密码子优化编码序列用于所有变体并置于atubi11启动子序列下游(例如,如seqidno:20-23中)。使用本文所述的方法将以下列出的载体与引导rna载体133470(seqidno:121)共转染。在转染后48小时采集样品,并根据本领域的标准方法通过数字微滴pcr(ddpcr)确定生物学三次重复的编辑效率,例如findlay等(2016plosone0153901)和biorad网站(bio-rad.com/webroot/web/pdf/lsr/literature/bulletin_6872.pdf)所述。[0338]表9:使用引导rna载体133470(seqidno:121)在豌豆中进行cpf1编辑效率测试的结果[0339][0340][0341]还使用引导rna载体134147(seqidno:122)代替引导rna载体133470(atu6_lox2-8)测试了变体的编辑效率。[0342]表10:使用引导rna载体134147(atu11_lox2-8)在豌豆中进行cpf1编辑效率测试的结果[0343][0344]实施例11-在番茄中cpf1编辑效率测试[0345]用下列载体和引导rna载体133912(atu6_pg2-4,seqidno:32)共转染番茄原生质体。在转染后24小时分析样品,并使用本文所述的方法通过ddpcr确定生物学三次重复的编辑效率。重复相同的实验总共进行了两次试验。[0346]表11:在番茄中cpf1编辑效率测试的结果[0347]当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献