一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

CRISPR-CAS效应多肽及其使用方法

2023-02-06 22:43:00 来源:中国专利 TAG:

crispr-cas效应多肽及其使用方法
1.交叉引用
2.本技术要求2019年12月23日提交的美国临时专利申请号62/952,909的权益,所述申请以引用方式整体并入本文。
3.引言
4.crispr-cas系统包括cas蛋白和一种或多种引导rna,所述cas蛋白参与外源dna或rna的获取、靶向和切割,所述引导rna包括结合cas蛋白的片段和结合至靶核酸的片段。例如,2类crispr-cas系统包含与引导rna结合的单一cas蛋白,其中cas蛋白结合至靶向的核酸并切割靶向的核酸。这些系统的可编程性质促进了它们作为用于修饰靶核酸的通用技术的用途。


技术实现要素:

5.本公开提供了rna引导的crispr-cas效应蛋白、编码所述蛋白的核酸以及包含所述蛋白的组合物。本公开提供了核糖核蛋白复合物,其包含:本公开的rna引导的crispr-cas效应蛋白;和引导rna。本公开提供了使用本公开的rna引导的crispr-cas效应蛋白和引导rna修饰靶核酸的方法。
附图说明
6.图1呈现了cas12超家族的最大似然种系发生树,其由具有1000次迭代的多序列比对产生。cas12l形成与其他cas12蛋白分离的独特分化枝。
7.图2a-2z、2aa-2zz和2aaa-2fff提供了cas12l多肽的氨基酸序列。
8.图3a-3b提供了cas12l多肽的ruvc-i、ruvc-ii和ruvc-iii结构域的活性位点残基的位置。
9.图4描绘了crispr基因座结构,其中活性位点被注释。
10.图5a-5p提供了图2a-2z、2aa-2zz和2aaa-2fff(从顶部到底部seq id no:102-112、112、113-126、102、127-137、157、138-156)中描绘的cas12l多肽的氨基酸序列的比对。
11.图6a-6c提供了图2a-2z、2aa-2zz和2aaa-2fff(从顶部到底部seq id no:158-161、142-144)中描绘的所选cas12l多肽的氨基酸序列的比对。
12.图7提供了cas-λ(cas12l)引导rna(从顶部到底部seq id no:63、70、64、163、59、65、60、68、66、61、164、67、69)的重复区的核苷酸序列比对。提供了共有序列(seq id no:162)。
13.图8a-8m描绘了各种cas-λ引导rna重复序列的二级结构。
14.图9描绘了pam分析的结果。
15.图10提供了质粒pbas12-l1-nt阵列的示意图。
16.图11提供了质粒pbas18的示意图。
17.图12a-12c描绘的数据显示,与具有非靶向引导物(pbas12)的casλ阴性对照相比,具有gfp靶向引导物的casλ(pbas44)显示出多个数量级的集落形成单位(作为细胞活力的
代表)减少。使用来自另一个直向同源物的重复单位的具有gfp靶向导向的casλ也显示出生长抑制和gfp消融。
18.定义
19.在本文中可互换使用的术语“多核苷酸”和“核酸”是指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此,该术语包括但不限于单链、双链或多链dna或rna、基因组dna、cdna、dna-rna杂交体、或包含嘌呤和嘧啶碱基或其他天然的、经化学或生物化学修饰的、非天然或衍生的核苷酸碱基的聚合物。
[0020]“可杂交的”或“互补的”或“大致上互补的”意指核酸(例如rna、dna)包含能使其在适当的温度和溶液离子强度的体外和/或体内条件下以序列特异性、反平行的方式(即,核酸特异性结合互补核酸)非共价结合(即形成沃森-克里克碱基对和/或g/u碱基对)、“退火”或“杂交”另一个核酸的核苷酸序列。标准沃森-克里克碱基配对包括:腺嘌呤(a)与胸腺嘧啶(t)配对、腺嘌呤(a)与尿嘧啶(u)配对以及鸟嘌呤(g)与胞嘧啶(c)配对[dna、rna]。此外,对于两个rna分子(例如,dsrna)之间的杂交,以及对于dna分子与rna分子的杂交(例如,当dna靶核酸碱基与引导rna配对时,等):鸟嘌呤(g)也可以与尿嘧啶(u)碱基配对。例如,g/u碱基配对为trna抗密码子碱基配对mrna中的密码子的背景下的遗传密码简并(即,冗余)的至少部分原因。因此,在本公开的上下文中,鸟嘌呤(g)(例如,引导rna分子的dsrna双链体;与靶核酸配对的引导rna碱基等)被认为与尿嘧啶(u)和腺嘌呤(a)互补。例如,当g/u碱基对可以在引导rna分子的dsrna双链体的给定核苷酸位置产生时,所述位置不被认为是非互补的,而是被认为是互补的。
[0021]
杂交和洗涤条件是熟知的,并且在下文中举例说明:sambrook,j.,fritsch,e.f.和maniatis,t.molecular cloning:a laboratory manual,第二版,cold spring harbor laboratory press,cold spring harbor(1989),具体为其中的第11章和表11.1;以及sambrook,j.和russell,w.,molecular cloning:a laboratory manual,第三版,cold spring harbor laboratory press,cold spring harbor(2001)。温度和离子强度的条件决定杂交的“严格性”。
[0022]
杂交要求两个核酸含有互补序列,虽然碱基之间有可能存在错配。适用于两个核酸之间的杂交的条件取决于核酸的长度和互补的程度、本领域中熟知的变量。两个核苷酸序列之间的互补程度越大,对于具有那些序列的核酸的杂交体的解链温度(tm)的值越大。对于具有短序列段互补性(例如,在35或更少、30或更少、25或更少、22或更少、20或更少或18或更少个核苷酸上的互补性)的核酸之间的杂交,错配的位置可变得重要(参见sambrook等,同上,11.7-11.8)。通常,可杂交核酸的长度为8个核苷酸或更多(例如,10个核苷酸或更多、12个核苷酸或更多、15个核苷酸或更多、20个核苷酸或更多、22个核苷酸或更多、25个核苷酸或更多、或30个核苷酸或更多)。根据诸如互补区域的长度和互补程度的因素,可以根据需要调节温度、洗涤溶液盐浓度和其它条件。
[0023]
应当理解,多核苷酸的序列不需要与其靶核酸的序列100%互补才能特异性杂交或可杂交。此外,多核苷酸可在一个或多个区段上杂交以使得中间区段或相邻区段不涉及杂交事件(例如,凸起、环结构或发夹结构等)。多核苷酸可以与同它杂交的靶核酸序列内的靶区域具有60%或更多、65%或更多、70%或更多、75%或更多、80%或更多、85%或更多、90%或更多、95%或更多、98%或更多、99%或更多、99.5%或更多或100%序列互补性。例
如,其中反义化合物的20个核苷酸中的18个与靶区域互补并且因此将特异性杂交的反义核酸将表示90%互补性。在此实例中,剩下的非互补核苷酸可与互补核苷酸集群或穿插在互补核苷酸中并且不需要彼此邻接或与互补核苷酸邻接。可以使用任何方便的方法来确定核酸内特定核酸序列片段之间的互补百分比。示例方法包括blast程序(基本局部比对搜索工具)和powerblast程序(altschul等人,j.mol.biol.,1990,215,403-410;zhang和madden,genome res.,1997,7,649-656)、gap程序(wisconsin序列分析包,unix第8版,genetics computer group,university research park,madison wis.)、例如使用默认设置(其使用smith和waterman)(adv appl.math.,1981,2,482-489)等等。
[0024]
术语“肽”、“多肽”和“蛋白质”在本文中可互换使用,并且是指任何长度的氨基酸(其可包括编码和非编码的氨基酸、经化学或生物化学修饰或衍生的氨基酸)的聚合形式,以及具有经修饰的肽骨架的多肽。
[0025]
如本文所用,“结合”(例如,关于多肽的rna结合结构域,与靶核酸的结合等)是指大分子之间(例如,蛋白质和核酸之间;在cas12l多肽/引导rna复合物与靶核酸之间;等等)的非共价相互作用。当在非共价相互作用的状态下,大分子被称作“缔合”或“相互作用”或“结合”(例如,当分子x被称作与分子y相互作用时,意指分子x以非共价方式结合分子y)。不是所有的结合相互作用组分都需要为序列特异性的(例如,与dna骨架中的磷酸酯残基接触),但结合相互作用的一些部分可为序列特异性的。结合相互作用的特征通常在于解离常数(kd)小于10-6
m、小于10-7
m、小于10-8
m、小于10-9
m、小于10-10
m、小于10-11
m、小于10-12
m、小于10-13
m、小于10-14
m或小于10-15
m。“亲和力”是指结合的强度,增加的结合亲和力与较低的kd相关。
[0026]“结合结构域”意指能够非共价结合另一分子的蛋白质结构域。结合结构域可结合例如dna分子(dna结合结构域)、rna分子(rna结合结构域)和/或蛋白质分子(蛋白质结合结构域)。就具有蛋白质结合结构域的蛋白质来说,在一些情况下,它可结合其自身(以形成同源二聚体、同源三聚体等)和/或它可结合不同蛋白质的一个或多个区。
[0027]
术语“保守氨基酸取代”是指具有类似侧链的氨基酸残基的蛋白质中的可互换性。例如,具有脂肪族侧链的一组氨基酸由甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸组成;具有脂肪族-羟基侧链的一组氨基酸由丝氨酸和苏氨酸组成;具有含酰胺侧链的一组氨基酸由天冬酰胺和谷氨酰胺组成;具有芳香族侧链的一组氨基酸由苯丙氨酸、酪氨酸和色氨酸组成;具有碱性侧链的一组氨基酸由赖氨酸、精氨酸和组氨酸组成;具有酸性侧链的一组氨基酸由谷氨酸酯和天冬氨酸酯组成;并且具有含硫侧链的一组氨基酸由半胱氨酸和甲硫氨酸组成。示例性保守氨基酸取代基团为:缬氨酸-亮氨酸-异亮氨酸、苯丙氨酸-酪氨酸、赖氨酸-精氨酸、丙氨酸-缬氨酸-甘氨酸以及天冬酰胺-谷氨酰胺。
[0028]
多核苷酸或多肽与另一多核苷酸或多肽具有一定的“序列同一性”百分比,这意味着当比对时碱基或氨基酸的百分数为相同的,并且当比较两个序列时在相同的相对位置上。可以许多不同方式确定序列同一性。为了确定序列同一性,可使用在包括ncbi.nlm.nili.gov/bl ast、ebi.ac.uk/tools/msa/tcoffee/、ebi.ac.uk/tools/msa/muscle/、maff t.cbrc.jp/alignment/software/的万维网网址上可获得的各种方便的方法和计算机程序(例如,blast、t-coffee、muscle、mafft等)来比对序列。参见例如altschul等人(1990),j.mol.bioi.215:403-10.
[0029]“编码”具体rna的dna序列为转录成rna的dna核苷酸序列。dna多核苷酸可以编码翻译成蛋白质的rna(mrna)(因此dna和mrna都编码蛋白质),或者dna多核苷酸可以编码不翻译成蛋白质的rna(例如trna、rrna、微小rna(mirna)、“非编码”rna(ncrna)、引导rna等)。
[0030]“蛋白质编码序列”或编码具体蛋白质或多肽的序列为当置于适当调节序列的控制下时转录成mrna(在dna的情况下)并且在体外或体内翻译(在mrna的情况下)成多肽的核苷酸序列。
[0031]
本文可互换使用的术语“dna调节序列”、“控制元件”和“调节元件”是指提供和/或调节非编码序列(例如,引导rna)或编码序列(例如,rna引导的核酸内切酶、geocas9多肽、geocas9融合多肽等)的转录和/或调节编码多肽的翻译的转录和翻译控制序列,例如启动子、增强子、聚腺苷酸化信号、终止子、蛋白质降解信号等。
[0032]
如本文所使用,“启动子”或“启动子序列”为能够结合rna聚合酶并且启动下游(3'方向)编码或非编码序列的转录的dna调节区。出于本公开的目的,启动子序列在其3'末端上通过转录起始位点结合并且向上游(5'方向)序列段以包括启动高于背景的可检测水平转录所需要的最小数目的碱基或元件。在启动子序列内将发现转录起始位点以及蛋白质结合结构域为造成rna聚合酶结合的原因。真核生物启动子将经常但不总是含有“tata”盒和“cat”盒。包括诱导型启动子的各种启动子可用来驱动本公开的各种载体表达。
[0033]
如本文所使用适用于核酸、多肽、细胞或生物的术语“天然存在的”或“未修饰的”或“野生型”是指存在于自然中的核酸、多肽、细胞或生物。例如,可从自然中的来源分离的存在于生物中的多肽或多核苷酸序列为天然存在的。
[0034]
如本文所使用适用于核酸或多肽的术语“融合”是指通过源自不同来源的结构定义的两种组分。例如,当在融合多肽(例如,融合cas12l蛋白)的上下文中使用“融合”时,融合多肽包括源自不同多肽的氨基酸序列。融合多肽可包含修饰的或天然存在的多肽序列(例如,来自修饰或未修饰的cas12l蛋白的第一氨基酸序列;和来自除cas12l蛋白之外的修饰或未修饰蛋白的第二氨基酸序列等)。类似地,在编码融合多肽的多核苷酸的背景下的“融合”包括源自不同编码区的核苷酸序列(例如,编码修饰的或未修饰的cas12l蛋白的第一核苷酸序列;和编码除了cas12l蛋白以外的多肽的第二核苷酸序列)。
[0035]
术语“融合多肽”是指通常通过人干预,通过组合(即,“融合”)氨基酸序列的两个另外分开的区段而制得的多肽。
[0036]
如本文所用,“异源的”意指分别不存在于天然核酸或蛋白质中的核苷酸或多肽序列。例如,在一些情况下,在本公开的变体cas12l蛋白中,天然存在的cas12l多肽(或其变体)的一部分可以融合到异源多肽(即,来自除cas12l多肽之外的蛋白质的氨基酸序列;或来自另一种生物体的氨基酸序列)。作为另一个实例,融合cas12l多肽可包含与异源多肽融合的天然存在的cas12l多肽(或其变体)的全部或部分,所述异源多肽即来自除cas12l多肽之外的蛋白质的多肽或来自另一种生物体的多肽。异源多肽可表现出变体cas12l蛋白或融合cas12l蛋白也会表现出的活性(例如,酶促活性)(例如,生物素连接酶活性;核定位;等)。异源核酸序列可连接至天然存在的核酸序列(或其变体)(例如,通过基因工程化)以产生编码融合多肽(融合蛋白)的核苷酸序列。
[0037]
如本文所使用的“重组”意指具体核酸(dna或rna)为克隆、限制、聚合酶链反应(pcr)和/或连接步骤的各种组合的产物,所述步骤产生具有可与天然系统中发现的内源核
酸区别开的结构编码或非编码序列的构建体。编码多肽的dna序列可由cdna片段或由一系列合成寡核苷酸组装以提供能够由包含在细胞中或无细胞转录和翻译系统中的重组转录单元表达的合成核酸。包含相关序列的基因组dna还可用于形成重组基因或转录单元。非翻译dna的序列可存在于开放读码框的5'端或3'端,其中此类序列不干扰编码区的操纵或表达,并且实际上可通过各种机制起到调节希望的产物产生的作用(参见“dna调节序列”)。或者,未翻译的编码rna的dna序列(例如,引导rna)也可被认为是重组的。因此,例如术语“重组”核酸是指非天然存在的,例如通过人干预通过人工组合序列的两个另外分开的区段而制得的核酸。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如,通过遗传工程化技术)来完成。这通常是用编码相同氨基酸、保守氨基酸或非保守氨基酸的密码子来替代一个密码子。可替代地,执行这种操作以将具有所需功能的核酸区段连接在一起以产生所需的功能组合。这种人工组合常常通过化学合成手段或通过人工操纵核酸的分离区段(例如,通过遗传工程化技术)来完成。当重组多核苷酸编码多肽时,编码多肽的序列可为天然存在的(“野生型”)或可为天然存在的序列的变体(例如,突变体)。这种情况的实例是编码野生型蛋白质的dna(重组体),其中该dna序列被密码子优化用于在不天然存在所述蛋白质的细胞(例如,真核细胞)中表达所述蛋白质(例如,在真核细胞中表达crispr/cas rna引导的多肽,诸如cas12l(例如,野生型cas 12l;变体cas12l;融合cas12l等等))。因此,密码子优化的dna可以是重组的和非天然存在的,而由所述dna编码的蛋白质可以具有野生型氨基酸序列。
[0038]
因此,术语“重组”多肽未必是指其氨基酸序列不是天然存在的多肽。相反,“重组”多肽通过重组非天然存在的dna序列来编码,但多肽的氨基酸序列可为天然存在的(“野生型”)或非天然存在的(例如,变体、突变体等)。因此,“重组”多肽为人干预的结果,但可具有天然存在的氨基酸序列。
[0039]“载体”或“表达载体”为复制子,如质粒、噬菌体、病毒、人工染色体或粘粒,另一个dna区段(即“插入物”)可附着至所述复制子以便在细胞中引起所附着的区段的复制。
[0040]“表达盒”包含可操作地连接至启动子的dna编码序列。“可操作地连接”是指并置,其中所述组分处于容许其以预期的方式起作用的关系中。例如,如果启动子影响其转录或表达,则启动子可操作地连接到编码序列(或者编码序列也可以被认为可操作地连接到启动子)。
[0041]
术语“重组表达载体”或“dna构建体”在本文中可互换使用,是指包含载体和插入物的dna分子。通常出于表达和/或繁殖插入物的目的或出于构建其它重组核苷酸序列而产生重组表达载体。插入物可以或可以不可操作地连接至启动子序列并且可以或可以不可操作地连接至dna调节序列。
[0042]
当此类dna引入到细胞内部时,细胞被外源dna或外源rna例如重组表达载体“遗传修饰”或“转化”或“转染”。外源dna的存在导致永久或瞬时的遗传变化。转化dna可以或可以不整合(共价连接)到细胞基因组中。在例如原核生物、酵母和哺乳动物细胞中,转化dna可维持在游离元件如质粒上。相对于真核细胞,稳定转化的细胞为其中转化dna逐渐整合到染色体中以使得通过染色体复制遗传给子细胞的一种细胞。此稳定性通过真核细胞建立包含含有转化dna的子细胞群的细胞系或克隆的能力来展示。“克隆”为通过有丝分裂源自单个细胞或共同祖先的一群细胞。“细胞系”为能够在体外稳定生长许多代的原代细胞的克隆。
[0043]
遗传修饰(也称为“转化”)的合适的方法包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(pei)介导的转染、deae-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,panyam等人adv drug deliv rev.2012年9月13日.pii:s0169-409x(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。
[0044]
遗传修饰的方法的选择通常取决于待转化的细胞类型和在其下发生转化的环境(例如,体外、离体或体内)。这些方法的一般讨论可见于ausubel等,short protocols in molecular biology,第3版,wiley&sons,1995中。
[0045]
如本文所用,“靶核酸”是多核苷酸(例如dna,诸如基因组dna),其包括被rna引导的核酸内切酶多肽(例如,野生型cas12l;变体cas12l;融合cas12l等)靶向的位点(“靶位点”或“靶序列”)。靶序列是主题cas12l引导rna(例如双cas12l引导rna或单分子cas12l引导rna)的引导序列将与之杂交的序列。例如,靶核酸内的靶位点(或靶序列)5'-gagcauauc-3'被序列5
’‑
gauaugcuc-3’靶向(或与之结合,或与之杂交,或与之互补)。合适的杂交条件包括细胞中正常存在的生理条件。对于双链靶核酸,与引导rna互补并杂交的靶核酸链被称为“互补链”或“靶链”;而与“靶链”互补的靶核酸链(并因此不与引导rna互补)被称为“非靶链”或“非互补链”。
[0046]“切割”意指靶核酸分子(例如rna、dna)共价主链的断裂。可通过各种各样的方法来开始裂解,所述方法包括但不限于磷酸二酯键的酶水解或化学水解。单链裂解和双链裂解均是可能的,并且双链裂解可由于两个相异单链裂解事件而发生。
[0047]“核酸酶”和“核酸内切酶”在本文中可互换使用,意指对核酸切割具有催化活性的酶(例如,核糖核酸酶活性(核糖核酸切割)、脱氧核糖核酸酶活性(脱氧核糖核酸切割)等)。
[0048]
核酸酶的“裂解结构域”或“活性结构域”或“核酸酶结构域”意指具有用于核酸裂解的催化活性的核酸酶内的多肽序列或结构域。裂解结构域可包含在单个多肽链中或裂解活性可由两个(或更多个)多肽的缔合引起。单个核酸酶结构域可由给定多肽内的多于一个分离的氨基酸序列段组成。
[0049]
本文使用术语“干细胞”是指具有自我更新和产生分化的细胞类型的能力的细胞(例如,植物干细胞、脊椎动物干细胞)(参见morrison等(1997)cell 88:287-298)。在细胞个体发育的背景下,形容词“被分化的”或“分化的”为相对术语。“分化的细胞”为比与其比较的细胞在发育途径上更进一步向下发展的细胞。因此,多能干细胞(以下所述)可分化成谱系限制的祖细胞(例如,中胚层干细胞),所述祖细胞反过来可分化成进一步限制的细胞(例如,神经元祖细胞),所述祖细胞可分化成末期细胞(即,终止分化的细胞,例如神经元、心肌细胞等),所述祖细胞在某些组织类型中起特征性作用,并且可以或可以不保持进一步增殖的能力。干细胞可特征在于存在特异性标志物(例如,蛋白质、rna等)和不存在特异性标志物。干细胞还可通过体外和体内的功能测定,具体地与干细胞产生多个分化子代的能力相关的测定来鉴定。
[0050]
感兴趣的干细胞包括多能干细胞(psc)。本文使用术语“多能干细胞”或“psc”意指能够产生生物的所有细胞类型的干细胞。因此,psc可产生生物的所有生殖层(例如,脊椎动物的内胚层、中胚层和外胚层)的细胞。多能细胞能够形成畸胎瘤并且对活生物中的外胚层、中胚层或内胚层组织有影响。植物的多能干细胞能够产生植物的所有细胞类型(例如,
根、茎、叶等的细胞)。
[0051]
可以许多不同方式得到动物的psc。例如,胚胎干细胞(esc)来源于胚胎的内细胞团(thomson等人,science.1998年11月6日;282(5391):1145-7),而诱导多能干细胞(ipsc)来源于体细胞(takahashi等人,cell.2007年11月30日;131(5):861-72;takahashi等人,nat protoc.2007;2(12):3081-9;yu等人,science.2007年12月21日;318(5858):1917-20.epub 2007nov 20)。因为术语psc是指无论其来源的多能干细胞,所以术语psc涵盖术语esc和ipsc以及术语胚胎生殖干细胞(egsc),所述胚胎生殖干细胞为psc的另一个实例。psc可以建立的细胞系形式存在,它们可直接从原代胚胎组织获得或它们可源自体细胞。psc可为本文所述方法的靶细胞。
[0052]“胚胎干细胞(esc)”意指从胚胎,通常从胚泡的内细胞群中分离的psc。esc系列出在nih人类胚胎干细胞登记处,例如hesbgn-01、hesbgn-02、hesbgn-03、hesbgn-04(bresagen,inc.);hes-1、hes-2、hes-3、hes-4、hes-5、hes-6(es cell international);miz-hes1(首尔国立大学米兹梅迪医院(mizmedi hospital-seoul national university));hsf-1、hsf-6(加州大学旧金山分校(university of california at san francisco));以及h1、h7、h9、h13、h14(威斯康辛校友研究基金会(威赛尔研究所)(wisconsin alumni research foundation(wicell research institute)))。感兴趣的干细胞还包括来自其它灵长类动物的胚胎干细胞,如恒河猴干细胞和狨猴干细胞。干细胞可获自任何哺乳动物种类,例如人、马、牛、猪、犬、猫、啮齿动物(例如,小鼠、大鼠、仓鼠)、灵长类动物等。(thomson等(1998)science282:1145;thomson等(1995)proc.natl.acad.sci usa 92:7844;thomson等人(1996)biol.reprod.55:254;shamblott等人,proc.natl.acad.sci.usa 95:13726,1998)。在培养中,esc通常呈具有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长。另外,esc表达ssea-3、ssea-4、tra-1-60、tra-1-81和碱性磷酸酶,但不表达ssea-1。产生和表征esc的方法的实例可见于例如美国专利号7,029,913、美国专利号5,843,780和美国专利号6,200,806中,所述专利的公开内容以引用的方式并入本文。用于以未分化的形式增殖hesc的方法描述于wo 99/20741、wo 01/51616和wo 03/020920中。
[0053]“胚胎生殖干细胞(egsc)”或“胚胎生殖细胞”或“eg细胞”意指源自生殖细胞和/或生殖细胞祖细胞(例如原生殖细胞,即将变为精子和卵子的原生殖细胞)的psc。认为胚胎生殖细胞(eg细胞)具有类似于如上所述的胚胎干细胞的性质。产生和表征eg细胞的方法的实例可见于例如美国专利号7,153,684;matsui,y.等,(1992)cell70:841;shamblott,m.等(2001)proc.natl.acad.sci.usa 98:113;shamblott,m.等(1998)proc.natl.acad.sci.usa,95:13726;以及koshimizu,u.等(1996)development,122:1235中,所述参考文献的公开内容以引用的方式并入本文。
[0054]“诱导多能干细胞”或“ipsc”意指源自不是psc的细胞的psc(即,来自相对于psc分化的细胞)。ipsc可源自多种不同细胞类型,包括终止分化的细胞。ipsc具有呈有高核-细胞质比、清晰边界和突出核仁的扁平集落形式生长的es细胞样形态。另外,ipsc表达本领域普通技术人员已知的一种或多种主要多能标志物,包括但不限于碱性磷酸酶、ssea3、ssea4、sox2、oct3/4、nanog、tra160、tra181、tdgf 1、dnmt3b、foxd3、gdf3、cyp26a1、tert和zfp42。产生和表征ipsc的方法的实例可以在例如美国专利公开号us20090047263、
us20090068742、us20090191159、us20090227032、us20090246875和us20090304646中找到,所述专利的公开内容以引用的方式并入本文。通常,为了产生ipsc,提供具有本领域中已知的重新编程因子(例如oct4、sox2、klf4、myc、nanog、lin28等)以将体细胞重新编程变为多能干细胞的体细胞。
[0055]“体细胞”意指生物中的任何细胞,所述细胞在不存在实验操纵的情况下通常不产生生物中的所有类型的细胞。换言之,体细胞为具有足够分化的细胞,它们将不天然产生身体的所有三个生殖层(即外胚层、中胚层和内胚层)的细胞。例如,体细胞将包括神经元和神经祖细胞,后者的神经祖细胞可能够天然产生中枢神经系统的所有或一些细胞类型但不能产生中胚层或内胚层谱系的细胞。
[0056]“有丝分裂细胞”意指经历有丝分裂的细胞。有丝分裂为真核细胞将其细胞核中的染色体分到两个分开细胞核中的两个相同集合中的过程。通常紧接着是胞质分裂,所述胞质分裂将细胞核、细胞质、细胞器官和细胞膜分到含有粗略地相等共有这些细胞组分的两个细胞中。
[0057]“有丝分裂后细胞”意指退出有丝分裂的细胞,即其为“静止的”,即它不再经历分裂。这种静止状态可为瞬时的,即可逆的,或其可为永久的。
[0058]“减数分裂细胞”意指经历减数分裂的细胞。减数分裂为细胞出于产生配子或孢子的目的分配其核物质的过程。不像有丝分裂,在减数分裂中,染色体经历在染色体之间混乱遗传物质的重组步骤。另外,与由有丝分裂产生的两个(遗传相同的)二倍体细胞相比,减数分裂的结果为四个(遗传独特的)单倍体细胞。
[0059]
在一些情况下,组分(例如,核酸组分(例如,cas12l引导rna);蛋白质组分(例如,野生型cas12l多肽;变体cas12l多肽;融合cas12l多肽;等);等)包括标记部分。如本文所用,术语“标记”、“可检测标记”或“标记部分”是指提供信号检测的任何部分,并且可以根据测定的特定性质而广泛变化。感兴趣的标记部分包括可直接检测的标记(直接标记;例如荧光标记)和间接可检测标记(间接标记;例如,结合对成员)。荧光标记可以是任何荧光标记(例如,荧光染料(例如,荧光素、德克萨斯红、罗丹明、标记等)、荧光蛋白(例如,绿色荧光蛋白(gfp)、增强型gfp(egfp)、黄色荧光蛋白(yfp)、红色荧光蛋白(rfp)、青色荧光蛋白(cfp)、樱桃色、番茄红、橘红色及其任何荧光衍生物)等)。用于所述方法的合适的可检测(直接或间接)标记部分包括可通过光谱、光化学、生物化学、免疫化学、电学、光学、化学或其他手段检测的任何部分。例如,合适的间接标记包括生物素(结合对成员),其可以被链霉亲和素结合(其本身可以被直接或间接标记)。标记还可以包括:放射性标记(直接标记)(例如3h、
125i

35
s、
14
c或
32
p);酶(间接标记)(例如,过氧化物酶、碱性磷酸酶、半乳糖苷酶、荧光素酶、葡萄糖氧化酶等);荧光蛋白(直接标记)(例如,绿色荧光蛋白、红色荧光蛋白、黄色荧光蛋白及其任何方便的衍生物);金属标签(直接标签);比色标签;结合对成员;等。“结合对的配偶体”或“结合对成员”是指第一部分和第二部分之一,其中第一部分和第二部分彼此具有特异性结合亲和力。合适的结合对包括但不限于:抗原/抗体(例如,地高辛配基/抗地高辛配基、二硝基苯(dnp)/抗dnp、丹磺酰-x-抗丹磺酰、荧光素/抗荧光素、路西法黄/抗路西法黄和罗丹明抗罗丹明)、生物素/抗生物素蛋白(或生物素/链霉抗生物素蛋白)和钙调素结合蛋白(cbp)/钙调素。任何结合对成员都适合用作间接可检测的标记部分。
[0060]
任何给定的组分或组分的组合可以是未标记的,或者可以用标记部分可检测地标
记。在一些情况下,当两种或多种组分被标记时,它们可以用彼此可区分的标记部分来标记。
[0061]
分子和细胞生物化学的一般方法可以在标准教科书中找到,诸如molecular cloning:a laboratory manual,第3版(sambrook等人,harbor laboratory press 2001);short protocols in molecular biology,第4版(ausubel等人编,john wiley&sons 1999);protein methods(bollag等人,john wiley&sons 1996);nonviral vectors for gene therapy(wagner等人编,academic press 1999);viral vectors(kaplift和loewy编,academic press 1995);immunology methods manual(i.lefkovits编,academic press 1997);以及cell and tissue culture:laboratory procedures in biotechnology(doyle&griffiths,john wiley&sons 1998),其公开内容以引用的方式并入本文。
[0062]
如本文所用,术语“治疗(treatment)、治疗(treating)”等是指获得所需的药理学和/或生理学效果。就完全或部分预防疾病或其症状而言,所述效果可以是预防性的,并且/或者就部分或完全治愈疾病和/或可归因于所述疾病的副作用而言,所述效果可以是治疗性的。如本文所用,“治疗”涵盖对哺乳动物(例如,人)的疾病的任何治疗,并且包括:(a)在可能易患疾病但还未诊断患有所述疾病的受试者中预防疾病发生;(b)抑制疾病,即阻止其发展;以及(c)缓解疾病,即引起疾病消退。
[0063]
在本文中可互换使用的术语“个体”、“受试者”、“宿主”和“患者”是指个体生物体,例如哺乳动物,包括但不限于鼠类、猿、人类、非人灵长类动物、有蹄类动物、猫科动物、犬科动物、牛科动物、绵羊、哺乳类农场动物、哺乳类运动动物和哺乳动物宠物。
[0064]
在进一步描述本发明之前,应当理解,本发明不限于所述的特定实施方案,因而当然可以改变。还应当理解,本文所用的术语仅用于描述特定实施方案的目的,而不是旨在进行限制,因为本发明的范围将仅由所附权利要求书限制。
[0065]
在提供数值范围时,应该理解在所述范围的上下限之间的每个中间值(除非上下文另外清楚地指出,否则所述中间值达到下限单位的十分之一)和任何其他说明的或在所述说明范围中的中间值涵盖在本发明内。这些较小范围的上限和下限可独立地包括在较小范围内并且也涵盖在本发明内,以规定范围内任何明确排除的限值为条件。当规定范围包括一个或两个限值时,排除了那些所包括的限值中的任一个或两个的范围也包括在本发明中。
[0066]
除非另外定义,否则本文所用的所有技术和科学术语均具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管与本文所述的那些类似或等同的任何方法和材料也可用于本发明的实践或测试,但现在描述优选的方法和材料。本文提及的所有出版物以引用方式并入本文,以结合所引用的出版物公开并描述方法和/或材料。
[0067]
必须注意,如本文和所附权利要求书中所用,除非上下文另外明确指出,否则单数形式“一(a/an)”和“所述(the)”包括复数指代物。因此,例如,提及“cas12l crispr-cas效应多肽”包括多个此类多肽,并且提及“引导rna”包括提及本领域的技术人员已知的一种或多种引导rna及其等效物,等。还应当注意,权利要求书可被起草以排除任何任选元素。因而,这种陈述意图充当结合权利要求要素的叙述来使用诸如“仅仅”、“仅”等排他性术语或使用“否定”限制的前提基础。
[0068]
应当理解,为了清楚起见在单独的实施方案的上下文中描述的本发明的某些特征也可在单个实施方案中组合提供。相反,为了简洁起见,在单个实施方案的上下文中描述的本发明的各种特征也可单独地或以任何合适的子组合提供。本发明特别地涵盖与本发明有关的实施方案的所有组合,并且在此公开,就如同单独地和明确地公开了每个组合一样。另外,本发明也特别地涵盖各种实施方案和其元素的所有子组合,并且在此公开,就如同每个此类子组合单独地和明确地在此公开一样。
[0069]
本文所讨论的出版物仅提供其在本技术的提交日期之前的公开内容。本文的任何内容均不应解释为承认本发明无权凭借在先发明而先于此类出版物。此外,所提供的出版日期可能与实际出版日期不同,这可能需要独立地确认。
具体实施方式
[0070]
本公开提供了rna引导的crispr-cas效应蛋白(本文称为“cas12l”多肽或“caslambda”多肽或“casλ”多肽)、编码所述蛋白质的核酸和包含所述蛋白质的组合物。本公开提供了核糖核蛋白复合物,其包含:本公开的cas12l多肽;和引导rna。本公开提供了使用本公开的cas12l多肽和引导rna修饰靶核酸的方法。
[0071]
本发明提供了结合cas12l蛋白并为其提供序列特异性的引导rna(本文称为“cas12l引导rna”或“caslambda引导rna”或“casλ引导rna”);编码cas12l引导rna的核酸;和包含cas12l引导rna和/或编码所述引导rna的核酸的修饰的宿主细胞。所提供的cas12l引导rna可用于所提供的多种应用中。
[0072]
组合物
[0073]
crispr/c
as
12l蛋白质和引导rna
[0074]
cas12l crispr/cas效应多肽(例如,cas12l蛋白)与相应的引导rna(例如,cas12l引导rna)相互作用(结合)以形成核糖核蛋白(rnp)复合物,所述复合物通过引导rna与靶核酸分子内的靶序列之间的碱基配对被靶向至靶核酸(例如,靶dna)中的特定位点。引导rna包括与靶核酸的序列(靶位点)互补的核苷酸序列(引导序列)。因此,cas12l蛋白与cas12l引导rna形成复合物,并且引导rna通过引导序列为rnp复合物提供序列特异性。复合物的cas12l蛋白提供位点特异性活性。换言之,cas12l蛋白借助于其与引导rna缔合而被引导至靶核酸序列(例如染色体序列或染色体外序列,例如游离型序列、微环序列、线粒体序列、叶绿体序列等)内的靶位点(例如在靶位点处稳定)。
[0075]
本公开提供了包含cas12l多肽(和/或包含编码cas12l多肽的核苷酸序列的核酸)的组合物(例如,其中cas12l多肽可以是天然存在的蛋白质、切口酶cas12l蛋白质、无催化活性的(“死的”cas12l;本文也称为“dcas12l蛋白”)、融合cas12l蛋白等)。本公开提供了包含cas12l引导rna(和/或包含编码cas12l引导rna的核苷酸序列的核酸)的组合物。本公开提供了组合物,其包含(a)cas12l多肽(和/或编码cas12l多肽的核酸)(例如,其中cas12l多肽可以是天然存在的蛋白质、切口酶cas12l蛋白质、dcas12l蛋白质、融合cas12l蛋白质等)和(b)cas12l引导rna(和/或编码cas12l引导rna的核酸)。本公开提供了核酸/蛋白质复合物(rnp复合物),其包含:(a)本公开的cas12l多肽(例如,其中cas12l多肽可以是天然存在的蛋白质、切口酶cas12l蛋白质、死的cas12l蛋白质、融合cas12l蛋白质等);和(b)cas12l引导rna。
[0076]
cas12l蛋白
[0077]
cas12l多肽(此术语与术语“cas12l蛋白”可互换使用)可结合和/或修饰(例如,切割、切口、甲基化、脱甲基化等)靶核酸和/或与靶核酸相关联的多肽(例如,组蛋白尾的甲基化或乙酰化)(例如,在一些情况下,cas12l蛋白包括具有活性的融合配偶体,并且在一些情况下,cas12l蛋白提供核酸酶活性)。在一些情况下,cas12l蛋白是天然存在的蛋白(例如,天然存在于噬菌体中)。在其他情况下,cas12l蛋白不是天然存在的多肽(例如,cas12l蛋白是变体cas12l蛋白、融合cas12l蛋白等)。
[0078]
用于确定给定蛋白质是否与cas12l引导rna相互作用的测定可以是测试蛋白质和核酸之间结合的任何方便的结合测定。合适的结合测定(例如,凝胶位移测定)将是本领域普通技术人员已知的(例如,包括向靶核酸中添加cas12l引导rna和蛋白质的测定)。用于确定蛋白质是否具有活性(例如,用于确定蛋白质是否具有切割靶核酸的核酸酶活性和/或一些异源活性)的测定可以是任何方便的测定(例如,测试核酸切割的任何方便的核酸切割测定)。合适的测定(例如切割测定)将是本领域普通技术人员已知的。
[0079]
天然存在的cas12l蛋白起着核酸内切酶的作用,催化靶向双链dna(dsdna)中特定序列的双链断裂。序列特异性由相关联的引导rna提供,所述引导rna与靶dna内的靶序列杂交。天然存在的cas12l引导rna是crrna,其中crrna包括(i)与靶dna中的靶序列杂交的引导序列,和(ii)包含与cas12l蛋白结合的茎环(发夹dsrna双链体)的蛋白结合片段。
[0080]
在一些实施方案中,主题方法和/或组合物的cas12l蛋白是(或衍生自)天然存在的(野生型)蛋白。图2a-2z、图2aa-2zz和图2aaa-2fff中描绘了天然存在的cas12l蛋白的实例。在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,(主题组合物和/或方法的)图2a-2z、图2aa-2zz和图2aaa-2fff蛋白质包含图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的氨基酸序列。
[0081]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中所示的氨基酸序列具有的序列同一性大于与以下任一者的序列同一性:cas12a蛋白、cas12b蛋白、cas12c蛋白、cas12d蛋白、cas12e蛋白、cas12g蛋白、cas12h蛋白和cas12i蛋白。在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含具有ruvc结构域(其包括ruvc-i、ruvc-ii和ruvc-iii结构域)的氨基酸序列,其与图2中描绘的氨基酸序列的ruvc结构域(例如,图2中描绘的任何cas12l氨基酸序列的ruvc结构域)的序列同一性高于与以下任一者的ruvc结构域的序列同一性:cas12a蛋白、cas12b蛋白、cas12c蛋白、cas12d蛋白、cas12e蛋白、cas12 g蛋白、cas12h蛋白和cas12i蛋白。
[0082]
图3a-3b提供了存在于图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的各种cas12l多肽的ruvc结构域中的活性位点残基的位置。例如,cas12l_1_257905508(图2a)的活性位点残基是氨基酸残基336、530和682。
[0083]
图5a-5p提供了图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的58种cas12l多肽的氨基酸序列比对。如图5a-5p所示,许多氨基酸在58种cas12l多肽中是保守的。例如,基于
cas12l_1_257905508(图2a)的氨基编号,k14、t15、e37、y41、y42、n43、s46、i49、i57、y73、y88、f91、n119、l121、n140、y141、q169、i171、e173、w185、y191、y205、l209、f212、y213、f235、g236、g237、c238、r240、g281、n309、k324、i335、t346、y357、n359、i360、y361、v364、f370、f391、p393、l394、e395、l399、s401、r402、q406、e417、v423、l424、y442、k448、l449、r450、k454、a455、v459、k460、y470、d471、e476、e477和g594是保守的。因此,例如,cas12l多肽可包含以下一种或多种:基于cas12l_1_257905508(图2a)的氨基酸编号k14、t15、e37、y41、y42、n43、s46、i49、i57、y73、y88、f91、n119、l121、n140、y141、q169、i171、e173、w185、y191、y205、l209、f212、y213、f235、g236、g237、c238、r240、g281、n309、k324、i335、t346、y357、n359、i360、y361、v364、f370、f391、p393、l394、e395、l399、s401、r402、q406、e417、v423、l424、y442、k448、l449、r450、k454、a455、v459、k460、y470、d471、e476、e477和g594,或另一仲cas12l多肽(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的cas12l多肽)中相应位置的相同氨基酸,其中基于图5a-5p中提供的比对,本领域技术人员将理解“相应位置”将是哪些。cas12l多肽可包含在基于cas12l_1_257905508(图2a)的氨基酸编号k14、t15、e37、y41、y42、n43、s46、i49、i57、y73、y88、f91、n119、l121、n140、y141、q169、i171、e173、w185、y191、y205、l209、f212、y213、f235、g236、g237、c238、r240、g281、n309、k324、i335、t346、y357、n359、i360、y361、v364、f370、f391、p393、l394、e395、l399、s401、r402、q406、e417、v423、l424、y442、k448、l449、r450、k454、a455、v459、k460、y470、d471、e476、e477和g594中一个或多个处或在另一种cas12l多肽(例如图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的cas12l多肽)中的相应位置处的保守性氨基酸取代。
[0084]
图6a-6c提供了cas12l_2_196848753(图2b)、cas12l_29_255238293(图2bb;在图2bb中称为cas12l_28_255238293)、cas12l_38_73472625(图2kk;在图2kk中称为cas12l_37_73472625)、cas12l_42_74408273_部分(图2nn;在图2nn中简称为cas12l_41_74408273_部分)、cas12l_54_75257103_部分(图2pp;在图2pp中称为cas12l_43_75257103_部分)、cas12l_52_82983331(图2xx;在图2xx中称为cas12l_51_82983331)以及cas12l_56_77738117(图2bbb;在图2bbb中称为cas12l_55_77738117。方框中的氨基酸在图6a-6c中的cas12l多肽中是保守的。cas12l多肽可包含图6a-6c的方框中列出的氨基酸或这些氨基酸在图6a-6c所示位置处的保守氨基酸取代。
[0085]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种cas12l氨基酸序列的ruvc结构域(其包括ruvc-i、ruvc-ii和ruvc-iii结构域)具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种cas12l氨基酸序列的ruvc结构域(其包括ruvc-i、ruvc-ii和ruvc-iii结构域)具有70%或更多序列同一性(例如,75%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种cas12l氨基酸序列的ruvc结构域(其包括ruvc-i、ruvc-ii和ruvc-iii结构域)。
[0086]
在一些情况下,结合cas12l多肽的引导rna包含图2所示的核苷酸序列(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者;其中“t”被替换为“u”)(或者在某些情况下是其反义互补序列)。在一些情况下,引导rna包含核苷酸序列(n)nx或其反向互补序列,其中n是任何核苷酸,n是15至30的整数(例如,15至20、17至25、17至22、18至22、18至20、20至25或25至30),并且x是图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种核苷酸序列(或者在某些情况下是其反义互补序列)。
[0087]
各种caslambda(casλ;cas12l)引导rna的重复区的核苷酸序列的比对提供于图7中。如图7所示,crispr重复序列包含跨同源物的保守序列基序。在一些情况下,结合cas12l多肽的引导rna包含以下保守序列的核苷酸序列(重复序列;或蛋白质结合序列):wauuguuguarmwnyywuuuuruawggwkuraacaac(seq id no:162),其中w是a或u;r是g或a;m是a或c;n是a、g、c或u;y是u或c;并且k是g或u。例如,结合caslambda多肽的引导rna(cas12l 28;图2bb)可包含有包含以下核苷酸序列的蛋白质结合区段:auuguugaaauaguacuuuuauagucuauauacaac(seq id no:63)。作为另一个实例,结合caslambda37多肽(cas12l 37;图2kk)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:auuguuguaacaucuauuuuguaagguguaaacaac(seq id no:70)。作为另一个实例,结合caslambda29多肽(cas12l 29;图2cc)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:uauuguuguaacucuuauuuuguauggaguaaacaac(seq id no:64)。作为另一个实例,结合caslambda42多肽(cas12l 42;图oo)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:aauuguuguaacucuuauuuuguauggaguaaacaac(seq id no:163)。作为另一个实例,结合casλ多肽1、3、4、5、7-15、18、19、21-27、29-35、38、40-46、48、49、53和54中任一者(cas12l 1、3、4、5、7-15、18、19、21-27、29-35、38、40-46、48、49、53和54中任一者;分别为图2a、2c、2d、2e、2g-2o、2r、2s、2u-2aa、2cc-2ii、2ll、2mm-2ss、2uu、2vv、2zz和2aaa)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:auuguuguaacucuuauuuuguauggaguaaacaac(seq id no:59)。作为另一个实例,结合caslambda47多肽(cas12l 47;图2tt)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:auuguuguaacuuuuauuuuguauggaguaaacaac(seq id no:65)。作为另一个实例,结合caslambda2多肽(cas12l 2;图2b)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:auuguuguagaccucuuuuuauaaggauugaacaac(seq id no:60)。本公开的cas12l多肽可以与包含图7中描绘的蛋白质结合区段的引导rna形成复合物(核糖核蛋白(rnp)复合物)。在一些情况下,本公开的cas12l多肽可以与包含图7中描绘的不同序列的蛋白质结合区段的不同引导rna形成rnp复合物。
[0088]
作为另一个实例,结合caslambda20多肽或caslambda52多肽(cas12l 20或cas12l 52;分别为图2t和2yy)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:aauguuguagaugccuuuuuauaaggauuaaacaac(seq id no:68)。作为另一个实例,结合caslambda50多肽(cas12l 50;图2ww)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:aauguuguagauaccuuuuuguaaggauugaacaac(seq id no:66)。作为另一个实例,结合caslambda16多肽(cas12l 16;图2p)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:uauuguuguagauaccuuuuuguaaggauuaaacaac(seq id no:61)。作为另一个实例,结合caslambda6多肽(cas12l 6;图2f)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:auuguuguagauaccuuuuuguaaggauugaacaac(seq id no:164)。作为另一个实例,结
合caslambda51多肽(cas12l 51;图2xx)的引导rna可包含有保安以下核苷酸序列的蛋白质结合区段:auuguuguaauacuauuuuuguaaaguauaaacaac(seq id no:67)。作为另一个实例,结合caslambda55多肽(cas12l 55;图2bbb)的引导rna可包含有包含以下核苷酸序列的蛋白质结合区段:auuguuguaauacacuuuuuauaagguaugaacaac(seq id no:69)。
[0089]
除了在重复(蛋白结合)区中包含保守序列基序以外,caslambda引导rna的重复区在同源物间共享保守的二级结构。图8a-8m描绘了各种caslambda引导rna的重复区的二级结构。例如,重复区可以包括可以形成茎和茎环结构的回文区。
[0090]
在一些情况下,结合cas12l多肽的引导rna包含与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列(或者在某些情况下是其反义互补序列)。在一些情况下,引导rna包含核苷酸序列(n)nx或其反向互补序列,其中n是任何核苷酸,n是15至30的整数(例如,15至20、17至25、17至22、18至22、18至20、20至25或25至30),并且x是与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有20%或更多序列同一性的核苷酸序列(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的核苷酸序列。
[0091]
在一些情况下,结合cas12l多肽的引导rna包含与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有85%或更多序列同一性(例如,90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列(或者在某些情况下是它的反义互补序列)。在一些情况下,引导rna包含核苷酸序列(n)nx或其反向互补序列,其中n是任何核苷酸,n是15至30的整数(例如,15至20、17至25、17至22、18至22、18至20、20至25或25至30),并且x是与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有85%或更多序列同一性的核苷酸序列(例如,90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的核苷酸序列。
[0092]
在一些情况下,结合cas12l多肽的引导rna包含图2所示的核苷酸序列(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)(或者在某些情况下是其反义互补序列)。在一些情况下,引导rna包含核苷酸序列x(n)n,其中n是任何核苷酸,n是15至30的整数(例如,15至20、17至25、17至22、18至22、18至20、20至25或25至30),并且x是图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种核苷酸序列(或者在某些情况下是其反义互补序列)。
[0093]
在一些情况下,结合cas12l多肽的引导rna包含与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列(或者在某些情况下是其反义互补序列)。在一些情况下,引导rna包含核苷酸序列x(n)n,其中n是任何核苷酸,n是15至30的整数(例如,15至20、17至25、17至22、18至22、18至20、20
至25或25至30),并且x是与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有20%或更多序列同一性的核苷酸序列(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的核苷酸序列。
[0094]
在一些情况下,结合cas12l多肽的引导rna包含与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有85%或更多序列同一性(例如,90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列(或者在某些情况下是它的反义互补序列)。在一些情况下,引导rna包含核苷酸序列x(n)n,其中n是任何核苷酸,n是15至30的整数(例如,15至20、17至25、17至22、18至22、18至20、20至25或25至30),并且x是与图2(例如,图2a-2z、图2aa-2zz和图2aaa-2fff中任一者)中描绘的任一种序列具有85%或更多序列同一性的核苷酸序列(例如,90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的核苷酸序列。
[0095]
图2a
[0096]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2a中描绘并表示为“cas12l_1_257905508”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2a中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2a中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2a中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2a中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2a中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2a中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0097]
图2b
[0098]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2b中描绘并表示
为“cas12l_2_196848753”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2b中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2b中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2b中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2b中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2b中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有675个氨基酸(aa)至800aa的长度,例如,675aa至700aa、700aa至725aa、725aa至735aa、735aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有735个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2b中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtagacctctttttataaggattgaacaac(seq id no:3)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtagacctctttttataaggattgaacaac(seq id no:4)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0099]
图2c
[0100]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2c中描绘并表示为“cas12l_3_66741167”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2c中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2c中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2c中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2c中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2c中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性
的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有725个氨基酸(aa)至875aa的长度,例如,725aa至750aa、750aa至778aa、778aa至800aa、800aa至825aa、825aa至850aa或850aa至875aa)。在一些情况下,cas12l多肽具有778个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2c中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0101]
图2d
[0102]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2d中描绘并表示为“cas12l_4_67031163”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2d中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2d中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2d中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2d中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2d中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有725个氨基酸(aa)至875aa的长度,例如,725aa至750aa、750aa至778aa、778aa至800aa、800aa至825aa、825aa至850aa或850aa至875aa)。在一些情况下,cas12l多肽具有778个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2d中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0103]
图2e
[0104]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2e中描绘并表示
为“cas12l_5_67793351”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2e中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2e中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2e中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2e中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2e中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有725个氨基酸(aa)至875aa的长度,例如,725aa至750aa、750aa至778aa、778aa至800aa、800aa至825aa、825aa至850aa或850aa至875aa)。在一些情况下,cas12l多肽具有778个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2e中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0105]
图2f
[0106]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2f中描绘并表示为“cas12l_6_67912869_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约350个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2f中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约350个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2f中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约350个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2f中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约350个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2f中描绘的cas12l氨基酸序列的约350个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2f中描绘的cas12l蛋白序
列的约350个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa或750aa至800aa)。在一些情况下,cas12l多肽具有约725个氨基酸至约775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2f中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtagatacctttttgtaaggattgaacaac(seq id no:5)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtagatacctttttgtaaggattgaacaac(seq id no:6)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0107]
图2g
[0108]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2g中描绘并表示为“cas12l_7_68090316_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2g中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2g中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2g中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2g中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2g中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有650个氨基酸(aa)至800aa的长度,例如,650aa至700aa、700aa至717aa、717aa至725aa、725aa至750aa或750aa至800aa)。在一些情况下,cas12l多肽具有约717个氨基酸至约775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2g中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0109]
图2h
[0110]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2h中描绘并表示
为“cas12l_8_68328292_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2h中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2h中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2h中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2h中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2h中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至742aa、742aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有约742个氨基酸至约775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2h中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0111]
图2i
[0112]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2i中描绘并表示为“cas12l_9_68454124”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2i中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2i中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2i中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2i中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2i中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性
的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2i中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0113]
图2j
[0114]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2j中描绘并表示为“cas12l_10_68605313”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2j中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2j中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2j中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2j中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2j中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有725个氨基酸(aa)至825aa的长度,例如,725aa至750aa、750aa至775aa、775aa至782aa、782aa至800aa或800aa至825aa)。在一些情况下,cas12l多肽具有782个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2j中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0115]
图2k
[0116]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2k中描绘并表示
为“cas12l_11_69266821_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2k中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2k中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2k中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2k中描绘的cas12l氨基酸序列的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2k中描绘的cas12l蛋白序列的约92个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2k中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0117]
图2l
[0118]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2l中描绘并表示为“cas12l_12_69417229_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2l中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2l中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2l中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2l中描绘的cas12l氨基酸序列的约92个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2l中描绘的cas12l蛋白序列的
约92个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2l中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0119]
图2m
[0120]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2m中描绘并表示为“cas12l_13_69733214”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2m中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2m中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2m中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2m中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2m中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2m中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0121]
图2n
[0122]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2n中描绘并表示为“cas12l_14_70235246_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,
30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约427个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2n中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约427个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2n中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约427个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2n中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约427个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2n中描绘的cas12l氨基酸序列的约427个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2n中描绘的cas12l蛋白序列的约427个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有425个氨基酸(aa)至800aa的长度,例如,425aa至500aa、500aa至600aa、600aa至700aa、700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2n中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0123]
图2o
[0124]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2o中描绘并表示为“cas12l_15_70724743”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2o中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2o中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2o中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2o中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2o中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性
的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2o中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0125]
图2p
[0126]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2p中描绘并表示为“cas12l_16_70731038”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2p中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2p中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2p中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2p中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2p中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有675个氨基酸(aa)至800aa的长度,例如,675aa至700aa、700aa至725aa、725aa至735aa、735aa至750aa、750aa至775aa或775aa至800aa。在一些情况下,cas12l多肽具有735个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2p中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:tattgttgtagatacctttttgtaaggattaaacaac(seq id no:7)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)ntattgttgtagatacctttttgtaaggattaaacaac(seq id no:8)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0127]
图2q
[0128]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2q中描绘并表示为“cas12l_17_70959391”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或
更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2q中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2q中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2q中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2q中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2q中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。
[0129]
图2r
[0130]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2r中描绘并表示为“cas12l_18_71078086”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2r中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2r中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2r中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2r中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2r中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2r中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15
至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0131]
图2s
[0132]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2s中描绘并表示为“cas12l_19_71193509_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约680个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2s中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约680个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2s中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约680个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2s中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约680个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2s中描绘的cas12l氨基酸序列的约680个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2s中描绘的cas12l蛋白序列的约680个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa或750aa至800aa)。在一些情况下,cas12l多肽具有约725个氨基酸至约775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2s中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0133]
图2t
[0134]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2t中描绘并表示为“cas12l_20_71210958_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约516个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2t中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约516个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2t中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约516个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2t中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例
如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约516个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2t中描绘的cas12l氨基酸序列的约516个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2t中描绘的cas12l蛋白序列的约516个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa或750aa至800aa)。在一些情况下,cas12l多肽具有约725个氨基酸至约775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2t中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:aatgttgtagatgcctttttataaggattaaacaacttg(seq id no:9)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)naatgttgtagatgcctttttataaggattaaacaacttg(seq id no:10)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0135]
图2u
[0136]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2u中描绘并表示为“cas12l_21_71317321_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约585个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2u中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约585个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2u中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约585个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2u中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约585个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2u中描绘的cas12l氨基酸序列的约585个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2u中描绘的cas12l蛋白序列的约585个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa或750aa至800aa)。在一些情况下,cas12l多肽具有约725个氨基酸至约775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2u中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgt
aactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0137]
图2v
[0138]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2v中描绘并表示为“cas12l_22_71456687”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2v中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2v中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2v中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2v中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2v中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2v中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0139]
图2w
[0140]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2w中描绘并表示为“cas12l_23_71708971”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2w中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2w中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2w中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%
或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2w中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2w中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有500个氨基酸(aa)至800aa的长度,例如,500aa至550aa、550aa至585aa、585aa至600aa、600aa至650aa、650aa至700aa、700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有585个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2w中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0141]
图2x
[0142]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2x中描绘并表示为“cas12l_24_46035167_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2x中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2x中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2x中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2x中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2x中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至758aa、758aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有758个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2x中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0143]
图2y
[0144]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2y中描绘并表示为“cas12l_25_46784254_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约596个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2y中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约596个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2y中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约596个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2y中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约596个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2y中描绘的cas12l氨基酸序列的约596个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2y中描绘的cas12l蛋白序列的约596个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa或750aa至800aa)。在一些情况下,cas12l多肽具有约725个氨基酸至约775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2y中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0145]
图2z
[0146]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2z中描绘并表示为“cas12l_26_46464451”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2z中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2z中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2z中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2z中描
绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2z中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有625个氨基酸(aa)至800aa的长度,例如,625aa至640aa、640aa至650aa、650aa至700aa、700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有640个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2z中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0147]
图2aa
[0148]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2aa中描绘并表示为“cas12l_27_254489164”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2aa中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2aa中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2aa中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2aa中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2aa中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2aa中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0149]
图2bb
[0150]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2bb中描绘并表示为“cas12l_28_255238293”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2bb中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2bb中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2bb中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2bb中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2bb中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至759aa、759aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有759个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2bb中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgaaatagtacttttatagtctatatacaac(seq id no:11)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgaaatagtacttttatagtctatatacaac(seq id no:12)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0151]
图2cc
[0152]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2cc中描绘并表示为“cas12l_29_72167294”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2cc中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2cc中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2cc中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2cc中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2cc中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性
的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2cc中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:tattgttgtaactcttattttgtatggagtaaacaac(seq id no:13)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)ntattgttgtaactcttattttgtatggagtaaacaac(seq id no:14)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0153]
图2dd
[0154]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2dd中描绘并表示为“cas12l_30_72369269”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2dd中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2dd中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2dd中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2dd中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2dd中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2dd中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0155]
图2ee
[0156]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ee中描绘并表示为“cas12l_31_72503976”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或
更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2ee中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2ee中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2ee中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2ee中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2ee中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ee中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0157]
图2ff
[0158]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ff中描绘并表示为“cas12l_32_72547654_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约47个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2ff中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约47个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2ff中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约47个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2ff中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约47个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2ff中描绘的cas12l氨基酸序列的约47个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2ff中描绘的cas12l蛋白序列的约47个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。
在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ff中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0159]
图2gg
[0160]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2gg中描绘并表示为“cas12l_33_72907394”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2gg中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2gg中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2gg中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2gg中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2gg中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2gg中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0161]
图2hh
[0162]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2hh中描绘并表示为“cas12l_34_73124743_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约
245个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2hh中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约245个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2hh中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约245个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2hh中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约245个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2hh中描绘的cas12l氨基酸序列的约245个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2hh中描绘的cas12l蛋白序列的约245个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2hh中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0163]
图2ii
[0164]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ii中描绘并表示为“cas12l_35_73503649_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约178个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2ii中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约178个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2ii中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约178个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2ii中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约178个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2ii中描绘的cas12l氨基酸序列的约178个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2ii中描绘的cas12l蛋白序列的约178个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700
个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ii中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0165]
图2jj
[0166]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2jj中描绘并表示为“cas12l_36_73503649_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约85个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2jj中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约85个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2jj中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约85个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2jj中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约85个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2jj中描绘的cas12l氨基酸序列的约85个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2jj中描绘的cas12l蛋白序列的约85个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。
[0167]
图2kk
[0168]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2kk中描绘并表示为“cas12l_37_73472625”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2kk中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2kk中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或
100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2kk中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2kk中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2kk中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如700aa至725aa、725aa至750aa、750aa至767aa、767aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有767个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2kk中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaacatctattttgtaaggtgtaaacaac(seq id no:15)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaacatctattttgtaaggtgtaaacaac(seq id no:16)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0169]
图2ll
[0170]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ll中描绘并表示为“cas12l_38_73764039_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约652个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2ll中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约652个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2ll中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约652个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2ll中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约652个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2ll中描绘的cas12l氨基酸序列的约652个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2ll中描绘的cas12l蛋白序列的约652个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ll中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatgga
gtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0171]
图2mm
[0172]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2mm中描绘并表示为“cas12l_40_74037305”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2mm中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2mm中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2mm中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2mm中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2mm中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至782aa或782aa至800aa)。在一些情况下,cas12l多肽具有782个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2mm中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0173]
图2nn
[0174]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2nn中描绘并表示为“cas12l_41_74408273_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2nn中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2nn中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更
多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2nn中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2nn中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2nn中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有850个氨基酸(aa)至950aa的长度,例如,850aa至875aa、875aa至889aa、889aa至900aa或900aa至950aa)。在一些情况下,cas12l多肽具有889个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2nn中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0175]
图2oo
[0176]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2oo中描绘并表示为“cas12l_42_75186079_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约223个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2oo中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约223个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2oo中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约223个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2oo中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约223个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2oo中描绘的cas12l氨基酸序列的约223个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2oo中描绘的cas12l蛋白序列的约223个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2oo中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:aattgttgtaactcttattttgtatggagtaaacaac(seq id no:17)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列
(n)naattgttgtaactcttattttgtatggagtaaacaac(seq id no:18)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0177]
图2pp
[0178]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2pp中描绘并表示为“cas12l_43_75257103_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约439个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2pp中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约439个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2pp中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约439个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2pp中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约439个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2pp中描绘的cas12l氨基酸序列的约439个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2pp中描绘的cas12l蛋白序列的约439个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2pp中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0179]
图2qq
[0180]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2qq中描绘并表示为“cas12l_44_75257103_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约196个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2qq中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约196个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2qq中描绘的cas12l氨
基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约196个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2qq中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约196个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2qq中描绘的cas12l氨基酸序列的约196个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2qq中描绘的cas12l蛋白序列的约196个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2qq中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0181]
图2rr
[0182]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2rr中描绘并表示为“cas12l_45_75616607_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2rr中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2rr中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2rr中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2rr中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2rr中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至748aa、748aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有748个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2rr中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的
cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0183]
图2ss
[0184]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ss中描绘并表示为“cas12l_46_75784289_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约481个氨基酸的连续片段。例如,在一些情况下,cas12l)包含与图2ss中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约481个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含与图2ss中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约481个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含与图2ss中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约481个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含具有图2ss中描绘的cas12l氨基酸序列的约481个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含具有图2ss中描绘的cas12l蛋白序列的约481个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ss中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0185]
图2tt
[0186]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2tt中描绘并表示为“cas12l_47_76512228”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2tt中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在
no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0189]
图2vv
[0190]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2vv中描绘并表示为“cas12l_49_44880081”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2vv中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2vv中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2vv中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2vv中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2vv中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2vv中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0191]
图2ww
[0192]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ww中描绘并表示为“cas12l_50_83012613”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2ww中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2ww中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2ww中描绘的cas12l
氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2ww中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2ww中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至735aa、735aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有735个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ww中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:aatgttgtagatacctttttgtaaggattgaacaac(seq id no:21)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)naatgttgtagatacctttttgtaaggattgaacaac(seq id no:22)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0193]
图2xx
[0194]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2xx中描绘并表示为“cas12l_51_82983331”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2xx中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2xx中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2xx中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2xx中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2xx中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有750个氨基酸(aa)至850aa的长度,例如,750aa至779aa、779aa至800aa或800aa至850aa)。在一些情况下,cas12l多肽具有779个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2xx中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaatactatttttgtaaagtataaacaac(seq id no:23)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaatactatttttgtaaagtataaacaac(seq id no:24)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0195]
图2yy
[0196]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2yy中描绘并表示为“cas12l_52_76767885”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2yy中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2yy中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2yy中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2yy中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2yy中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有550个氨基酸(aa)至700aa的长度,例如,550aa至592aa、592aa至625aa、625aa至650aa或650aa至700aa)。在一些情况下,cas12l多肽具有592个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2yy中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:aatgttgtagatgcctttttataaggattaaacaac(seq id no:25)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)naatgttgtagatgcctttttataaggattaaacaac(seq id no:26)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0197]
图2zz
[0198]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2zz中描绘并表示为“cas12l_53_77216451”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2zz中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2zz中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2zz中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2zz中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2zz中描绘的
cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2zz中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0199]
图2aaa
[0200]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2aaa中描绘并表示为“cas12l_54_77468912_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约29个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2aaa中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约29个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2aaa中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约29个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2aaa中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约29个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2aaa中描绘的cas12l氨基酸序列的约29个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2aaa中描绘的cas12l蛋白序列的约29个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2aaa中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0201]
图2bbb
[0202]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2bbb中描绘并表示为“cas12l_55_77738117”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2bbb中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2bbb中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2bbb中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2bbb中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2bbb中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2bbb中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaatacactttttataaggtatgaacaac(seq id no:27)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaatacactttttataaggtatgaacaac(seq id no:28)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0203]
图2ccc
[0204]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ccc中描绘并表示为“cas12l_56_65286425”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2ccc中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2ccc中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2ccc中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2ccc中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图
2ccc中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有650个氨基酸(aa)至750aa的长度,例如,650aa至692aa、692aa至725aa或725aa至750aa)。在一些情况下,cas12l多肽具有692个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ccc中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0205]
图2ddd
[0206]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2ddd中描绘并表示为“cas12l_57_65567118_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约441个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白)包含与图2ddd中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约441个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含与图2ddd中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约441个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含与图2ddd中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约441个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含具有图2ddd中描绘的cas12l氨基酸序列的约441个氨基酸的连续片段。在一些情况下,cas12l蛋白)包含具有图2ddd中描绘的cas12l蛋白序列的约441个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2ddd中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0207]
图2eee
[0208]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2eee中描绘并表示为“cas12l_58_66287853_部分”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约397个氨基酸的连续片段。例如,在一些情况下,cas12l蛋白包含与图2eee中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约397个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2eee中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约397个氨基酸的连续片段。在一些情况下,cas12l蛋白包含与图2eee中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的约397个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2eee中描绘的cas12l氨基酸序列的约397个氨基酸的连续片段。在一些情况下,cas12l蛋白包含具有图2eee中描绘的cas12l蛋白序列的约397个氨基酸的连续片段,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至750aa、750aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有725个氨基酸至775个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2eee中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0209]
图2fff
[0210]
在一些情况下,(主题组合物和/或方法的)cas12l蛋白包含与图2fff中描绘并表示为“cas12l_39_73877227”的cas12l氨基酸序列具有20%或更多序列同一性(例如,30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。例如,在一些情况下,cas12l蛋白包含与图2fff中描绘的cas12l氨基酸序列具有50%或更多序列同一性(例如,60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2fff中描绘的cas12l氨基酸序列具有80%或更多序列同一性(例如,85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含与图2fff中描绘的cas12l氨基酸序列具有90%或更多序列同一性(例如,95%或更多、97%或更多、98%或更多、99%或更多或100%序列同一性)的氨基酸序列。在一些情况下,cas12l蛋白包含具有图
2fff中描绘的cas12l氨基酸序列的氨基酸序列。在一些情况下,cas12l蛋白包含具有图2fff中描绘的cas12l蛋白序列的氨基酸序列,除了所述序列包含降低所述蛋白质的天然存在的催化活性的氨基酸取代(例如,1、2或3个氨基酸取代)。在一些情况下,cas12l多肽具有700个氨基酸(aa)至800aa的长度,例如,700aa至725aa、725aa至746aa、746aa至775aa或775aa至800aa)。在一些情况下,cas12l多肽具有746个氨基酸的长度。在一些情况下,结合cas12l多肽(例如,包含与图2fff中描绘的cas12l氨基酸序列具有20%或更多、30%或更多、40%或更多、50%或更多、60%或更多、70%或更多、80%或更多、85%或更多、90%或更多、95%或更多、97%或更多、98%或更多、99%或更多或100%氨基酸序列同一性的氨基酸序列的cas12l多肽)的引导rna包含以下核苷酸序列:attgttgtaactcttattttgtatggagtaaacaac(seq id no:1)或其反向互补序列。在一些情况下,引导rna包含核苷酸序列(n)nattgttgtaactcttattttgtatggagtaaacaac(seq id no:2)或其反向互补序列,其中n是任何核苷酸,并且n是15至30的整数,例如15至20、17至25、17至22、18至22、18至20、20至25或25至30)。
[0211]
cas12l变体
[0212]
当与相应野生型cas12l蛋白的氨基酸序列相比时,例如当与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的cas12l氨基酸序列相比时,变体cas12l蛋白具有相差至少一个氨基酸(例如,具有缺失、插入、取代、融合)的氨基酸序列。在一些情况下,与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的cas12l氨基酸序列相比,cas12l变体包含1个氨基酸取代至10个氨基酸取代。在一些情况下,与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的cas12l氨基酸序列相比,cas12l变体包含ruvc结构域中的1个氨基酸取代至10个氨基酸取代。
[0213]
变体

催化活性
[0214]
在一些情况下,cas12l蛋白是变体cas12l蛋白,例如相对于天然存在的催化活性序列突变的蛋白,并且在与对应的天然存在的序列相比时,表现出降低的切割活性(例如,表现出90%或更低、80%或更低、70%或更低、60%或更低、50%或更低、40%或更低,或30%或更低的切割活性)。在一些情况下,这种变体cas12l蛋白是催化“死”蛋白(基本上没有切割活性)并且可被称为

dcas12l’。在一些情况下,变体cas12l蛋白是切口酶(仅切割双链靶核酸(例如,双链靶dna)的一条链)。如本文更详细描述的,在一些情况下,cas12l蛋白(在一些情况下,是具有野生型切割活性的cas12l蛋白并且在一些情况下,是具有降低的切割活性的变体cas12l,例如dcas12l或切口酶cas12l)与具有目标活性(例如,目标催化活性)的异源多肽融合(缀合)以形成融合蛋白(融合cas12l蛋白)。
[0215]
在一些情况下,变体cas12l多肽包含对图3a-3b中所示活性位点残基的一个、两个或三个氨基酸的取代,其中与不包含一个、两个或三个取代的对照cas12l多肽相比,变体cas12l多肽表现出降低的催化活性。
[0216]
变体-融合cas12l多肽
[0217]
如上所示,在一些情况下,cas12l蛋白(在一些情况下,是具有野生型切割活性的cas12l蛋白并且在一些情况下,是具有降低的切割活性的变体cas12l,例如dcas12l或切口酶cas12l)与具有目标活性(例如,目标催化活性)的异源多肽融合(缀合)以形成融合蛋白。cas12l蛋白可与之融合的异源多肽在本文中被称为“融合配偶体”。
m5c-甲基转移酶(m.hhai)、dna甲基转移酶1(dnmt1)、dna甲基转移酶3a(dnmt3a)、dna甲基转移酶3b(dnmt3b)、meti、drm3(植物)、zmet2、cmt1、cmt2(植物)等)提供的活性;脱甲基酶活性,诸如由脱甲基酶(例如;10-11易位(tet)双加氧酶1(tet1cd)、tet1、dme、dml1、dml2、ros1等)提供的活性;dna修复活性;dna损伤活性;脱氨基活性,诸如由脱氨酶(例如,胞嘧啶脱氨酶,诸如大鼠apobec1)提供的活性;歧化酶活性;烷基化活性;脱嘌呤活性;氧化活性;嘧啶二聚体形成活性;整合酶活性,诸如由整合酶和/或解离酶(例如,gin转化酶诸如gin转化酶的过度活跃突变体ginh106y、人免疫缺陷病毒1型整合酶(in)、tn3解离酶等)提供的活性;转座酶活性;重组酶活性,诸如由重组酶(例如,gin重组酶的催化结构域)提供的活性;聚合酶活性;连接酶活性;解旋酶活性;光裂合酶活性和糖基化酶活性)。
[0225]
在一些情况下,融合配偶体具有修饰与靶核酸(例如,ssrna、dsrna、ssdna、dsdna)相关联的蛋白质(例如,组蛋白、rna结合蛋白、dna结合蛋白等)的酶活性。可由融合配偶体提供的酶活性(修饰与靶核酸相关联的蛋白质)的实例包括但不限于:甲基转移酶活性,诸如由组蛋白甲基转移酶(hmt)(例如,花斑抑制因子3-9同源物1(suv39h1,也称为kmt1a)、常染色体组蛋白赖氨酸甲基转移酶2(g9a,也称为kmt1c和ehmt2)、suv39h2、eset/setdb1等、set1a、set1b、mll1至5、ash1、symd2、nsd1、dot1l、pr-set7/8、suv4-20h1、ezh2、riz1)提供的活性;脱甲基酶活性,诸如由组蛋白脱甲基酶(例如,赖氨酸脱甲基酶1a(kdm1a,也称为lsd1)、jhdm2a/b、jmjd2a/jhdm3a、jmjd2b、jmjd2c/gasc1、jmjd2d、jarid1a/rbp2、jarid1b/plu-1、jarid1c/smcx、jarid1d/smcy、utx、jmjd3等)提供的活性;乙酰转移酶活性,诸如由组蛋白乙酰转移酶(例如,人乙酰转移酶p300、gcn5、pcaf、cbp、taf1、tip60/plip、moz/myst3、morf/myst4、hbo1/myst2、hmof/myst1、src1、actr、p160、clock等的催化核心/片段)提供的活性;脱乙酰酶活性,诸如由组蛋白脱乙酰酶(例如,hdac1、hdac2、hdac3、hdac8、hdac4、hdac5、hdac7、hdac9、sirt1、sirt2、hdac11等)提供的活性;激酶活性;磷酸酶活性;泛素连接酶活性;去泛素化活性;腺苷酸化活性;脱腺苷酸化活性;sumo化活性;脱sumo化活性;核糖基化活性;脱核糖基化活性;豆蔻酰化活性和脱豆蔻酰化活性。
[0226]
合适的融合配偶体的另外的实例是二氢叶酸还原酶(dhfr)去稳定化结构域(例如,以产生化学可控的融合cas12l蛋白)和叶绿体转运肽。合适的叶绿体转运肽包括但不限于:
[0227]
masmisssavttvsrasrgqsaamapfgglksmtgfpvrkvntditsitsnggrvkcmqvwppigkkkfetlsylppltrdsra(seq id no:29);
[0228]
masmisssavttvsrasrgqsaamapfgglksmtgfpvrkvntditsitsnggrvks(seq id no:30);
[0229]
massmlssatmvaspaqatmvapfnglkssaafpatrkannditsitsnggrvncmqvwppiekkkfetlsylpdltdsggrvnc(seq id no:31);
[0230]
maqvsricngvqnpslisnlskssqrksplsvslktqqhpraypissswglkksgmtligselrplkvmssvstac(seq id no:32);
[0231]
maqvsricngvwnpslisnlskssqrksplsvslktqqhpraypissswglkksgmtligselrplkvmssvstac(seq id no:33);
[0232]
maqinnmaqgiqtlnpnsnfhkpqvpksssflvfgskklknsansmlvlkkdsifmqlfcsfrisasvatac(seq id no:34);
[0233]
maalvtsqlatsgtvlsvtdrfrrpgfqglrprnpadaalgmrtvgasaapkqsrkphrfdrrclsmvv(seq id no:35);
[0234]
maalttsqlatsatgfgiadrsapssllrhgfqglkprspaggdatslsvttsaratpkqqrsvqrgsrrfpsvvvc(seq id no:36);
[0235]
massvlssaavatrsnvaqanmvapftglksaasfpvsrkqnlditsiasnggrvqc(seq id no:37);
[0236]
meslaatsvfapsrvavpaaralvragtvvptrrtsstsgtsgvkcsaavtpqaspvisrsaaaa(seq id no:38);以及
[0237]
mgaaatsmqslkfsnrlvppsrrlspvpnnvtcnnlpksaapvrtvkccasswnstingaaattngasaass(seq id no:39)。
[0238]
在一些情况下,本公开的cas12l融合多肽包含:a)本公开的cas12l多肽;和b)叶绿体转运肽。因此,例如,cas12l多肽/引导rna复合物可以靶向叶绿体。在一些情况下,这种靶向可通过n末端延伸的存在来实现,所述n末端延伸称为叶绿体转运肽(ctp)或质体转运肽。如果表达的多肽要在植物质体(例如,叶绿体)中区室化,则来自细菌来源的染色体转基因必须具有编码ctp序列的序列,所述ctp序列与编码表达的多肽的序列融合。因此,外源多肽到叶绿体的定位通常1通过将编码ctp序列的多核苷酸序列与编码外源多肽的多核苷酸的5'区可操作地连接来实现。在易位到质体的过程中,在加工步骤中去除ctp。然而,加工效率可能受到ctp的氨基酸序列和肽的氨基末端(nh2末端)附近的序列的影响。已经描述的用于靶向叶绿体的其他选择是玉米cab-m7信号序列(美国专利号7,022,896、wo 97/41228)、豌豆谷胱甘肽还原酶信号序列(wo 97/41228)和us2009029861中描述的ctp。
[0239]
在一些情况下,本公开的cas12l融合多肽可包含:a)本公开的cas12l多肽;和b)内体逃逸肽。在一些情况下,内体逃逸多肽包含氨基酸序列glfxallxllxslwxlllxa(seq id no:72),其中每个x独立地选自赖氨酸、组氨酸和精氨酸。在一些情况下,内体逃逸多肽包含氨基酸序列glfhallhllhslwhlllha(seq id no:73)。
[0240]
对于在与cas9蛋白、锌指蛋白和/或tale蛋白融合的情况(用于位点特异性靶核酸修饰、转录调节和/或靶蛋白修饰,例如组蛋白修饰)中使用的一些上述融合配偶体(和更多)的实例,参见例如:nomura等人,j am chem soc.2007年7月18日;129(28):8676-7;rivenbark等人,epigenetics.2012年4月;7(4):350-60;nucleic acids res.2016年7月8日;44(12):5615-28;gilbert等人,cell.2013年7月18日;154(2):442-51;kearns等人,nat methods.2015年5月;12(5):401-3;mendenhall等人,nat biotechnol.2013年12月;31(12):1133-6;hilton等人,nat biotechnol.2015年5月;33(5):510-7;gordley等人,proc natl acad sci u s a.2009年3月31日;106(13):5053-8;akopian等人,proc natl acad sci u s a.2003年7月22日;100(15):8688-91;tan等人,j virol.2006年2月;80(4):1939-48;tan等人,proc natl acad sci u s a.2003年10月14日;100(21):11997-2002;papworth等人,proc natl acad sci u s a.2003年2月18日;100(4):1621-6;sanjana等人,nat protoc.2012年1月5日;7(1):171-92;beerli等人,proc natl acad sci u s a.1998年12月8日;95(25):14628-33;snowden等人,curr biol.2002年12月23日;12(24):2159-66;xu等人,xu等人,cell discov.2016年5月3日;2:16009;komor等人,nature.2016年4月20日;533(7603):420-4;chaikind等人,nucleic acids res.2016年8月11日;
choudhury等人,oncotarget.2016年6月23日;du等人,cold spring harb protoc.2016年1月4日;pham等人,methods mol biol.2016;1358:43-57;balboa等人,stem cell reports.2015年9月8日;5(3):448-59;hara等人,sci rep.2015年6月9日;5:11221;piatek等人,plant biotechnol j.2015年5月;13(4):578-89;hu等人,nucleic acids res.2014年4月;42(7):4375-90;cheng等人,cell res.2013年10月;23(10):1163-71;以及maeder等人,nat methods.2013年10月;10(10):977-9。
[0241]
另外适合的异源多肽包括但不限于直接和/或间接提供靶核酸的增加的转录和/或翻译的多肽(例如,转录激活因子或其片段、募集转录激活因子的蛋白质或其片段、小分子/药物响应性转录和/或翻译调控因子、翻译调控蛋白等)。实现增加或降低的转录的异源多肽的非限制性实例包括转录激活因子结构域和转录阻遏子结构域。在一些此类情况下,融合cas12l多肽通过引导核酸(引导rna)被靶向靶核酸中的特定位置(即,序列)并且发挥基因座特异性调控的作用,诸如阻断rna聚合酶与启动子(所述启动子选择性抑制转录激活因子功能)的结合和/或修饰局部染色质状态(例如,在使用融合序列时,修饰靶核酸或修饰与靶核酸相关联的多肽)。在一些情况下,变化是瞬时的(例如,转录阻遏或激活)。在一些情况下,变化是可遗传的(例如,在对靶核酸或与靶核酸相关联的蛋白质(例如,核小体组蛋白)进行表观遗传修饰时)。
[0242]
当靶向ssrna靶核酸时,使用的异源多肽的非限制性实例包括(但不限于):剪接因子(例如,rs结构域);蛋白质翻译组分(例如,翻译起始因子、延伸因子和/或释放因子;例如,eif4g);rna甲基化酶;rna编辑酶(例如,rna脱氨酶,例如作用于rna的腺苷脱氨酶(adar),包括a至i和/或c至u编辑酶);解旋酶;rna结合蛋白等。应理解,异源多肽可包括整个蛋白质,或者在一些情况下,可包括蛋白质的片段(例如,功能结构域)。
[0243]
主题融合cas12l多肽的异源多肽可以是能够与ssrna(出于本公开的目的,其包括分子内和/或分子间二级结构,例如双链rna双链体,诸如发夹、茎环等)相互作用的任何结构域,无论是瞬时的还是不可逆的,直接的还是间接的,所述结构域包括但不限于选自由以下组成的组的效应结构域;内切核酸酶(例如rna酶iii、crr22 dyw结构域、来自诸如smg5和smg6的蛋白质的dicer和pin(pilt n末端)结构域);负责刺激rna切割的蛋白质和蛋白质结构域(例如cpsf、cstf、cfim和cfiim);外切核酸酶(例如xrn-1或外切核酸酶t);脱腺苷酶(例如hnt3);负责无义介导的rna衰变的蛋白质和蛋白质结构域(例如upf1、upf2、upf3、upf3b、rnp s1、y14、dek、ref2和srm160);负责稳定rna的蛋白质和蛋白质结构域(例如pabp);负责阻遏翻译的蛋白质和蛋白质结构域(例如ago2和ago4);负责刺激翻译的蛋白质和蛋白质结构域(例如staufen);负责(例如能够)调节翻译的蛋白质和蛋白质结构域(例如翻译因子,诸如起始因子、延伸因子、释放因子等,例如eif4g);负责rna的聚腺苷酸化的蛋白质和蛋白质结构域(例如pap1、gld-2和star-pap);负责rna的聚尿苷酸化的蛋白质和蛋白质结构域(例如ci d1和末端尿苷酸转移酶);负责rna定位的蛋白质和蛋白质结构域(例如来自imp1、zbp1、she2p、she3p和bicaudal-d);负责rna的核保留的蛋白质和蛋白质结构域(例如rrp6);负责rna的核输出的蛋白质和蛋白质结构域(例如tap、nxf1、tho、trex、ref和aly);负责阻遏rna剪接的蛋白质和蛋白质结构域(例如ptb、sam68和hnrnp a1);负责刺激rna剪接的蛋白质和蛋白质结构域(例如富含丝氨酸/精氨酸(sr)结构域);负责降低转录效率的蛋白质和蛋白质结构域(例如fus(tls));以及负责刺激转录的蛋白质和蛋白质结构
域(例如cdk7和hiv tat)。可替代地,效应结构域可选自包括以下的组:内切核酸酶;能够刺激rna切割的蛋白质和蛋白质结构域;外切核酸酶;脱腺苷酶;具有无义介导的rna衰变活性的蛋白质和蛋白质结构域;能够稳定rna的蛋白质和蛋白质结构域;能够阻遏翻译的蛋白质和蛋白质结构域;能够刺激翻译的蛋白质和蛋白质结构域;能够调节翻译的蛋白质和蛋白质结构域(例如,翻译因子,诸如起始因子、延伸因子、释放因子等,例如eif4g);能够进行rna的聚腺苷酸化的蛋白质和蛋白质结构域;能够进行rna的聚尿苷酸化的蛋白质和蛋白质结构域;具有rna定位活性的蛋白质和蛋白质结构域;能够进行rna的核保留的蛋白质和蛋白质结构域;具有rna核输出活性的蛋白质和蛋白质结构域;能够阻遏rna剪接的蛋白质和蛋白质结构域;能够刺激rna剪接的蛋白质和蛋白质结构域;能够降低转录效率的蛋白质和蛋白质结构域;以及能够刺激转录的蛋白质和蛋白质结构域。另一种合适的异源多肽是puf rna结合结构域,其在wo2012068627中更详细地描述,所述文献以引用方式整体并入本文。
[0244]
可作为融合cas12l多肽的异源多肽(整体或作为其片段)使用的一些rna剪接因子具有模块化结构,具有分开的序列特异性rna结合模块和剪接效应结构域。例如,富含丝氨酸/精氨酸(sr)的蛋白质家族的成员含有n末端rna识别基序(rrm),其结合前mrna和c末端rs结构域中的外显子剪接增强子(ese),所述外显子剪接增强子促进外显子包含。作为另一个实例,hnrnp蛋白hnrnp al通过其rrm结构域与外显子剪接沉默子(ess)结合,并通过c末端富含甘氨酸的结构域抑制外显子包含。一些剪接因子可通过结合两个替代位点之间的调控序列来调控剪接位点(ss)的替代使用。例如,asf/sf2可识别ese并有助于使用内含子近侧位点,而hnrnp al可结合ess并将剪接转到使用内含子远侧位点。此类因子的一个应用是生成调节内源基因(特别是疾病相关基因)的替代剪接的esf。例如,bcl-x前mrna产生两种剪接同种型,这两种剪接同种型具有两个替代的5'剪接位点以编码具有相反功能的蛋白质。长剪接同种型bcl-xl是在长寿命的有丝分裂后细胞中表达的有效凋亡抑制因子,并且在许多癌细胞中上调,从而保护细胞免于凋亡信号。短同种型bcl-xs是促凋亡同种型,并且在具有高周转率的细胞(例如,发育中的淋巴细胞)中以高水平表达。两种bcl-x剪接同种型之比由位于核心外显子区或外显子延伸区(即,两个替代5'剪接位点之间)中的多个元件调控。对于更多实例,参见wo2010075303,其特此以引用方式整体并入。
[0245]
另外的合适的融合配偶体包括但不限于作为边界元件(例如,ctcf)的蛋白质(或其片段)、提供外周募集的蛋白质及其片段(例如,核纤层蛋白a、核纤层蛋白b等)、蛋白质对接元件(例如,fkbp/frb、pil1/aby1等)。
[0246]
核酸酶
[0247]
在一些情况下,主题融合cas12l多肽包含:i)本公开的cas12l多肽;和ii)异源多肽(“融合配偶体”),其中异源多肽是核酸酶。合适的核酸酶包括但不限于归巢核酸酶多肽;foki多肽;转录激活因子样效应核酸酶(talen)多肽;megatal多肽;大范围核酸酶多肽;锌指核酸酶(zfn);arcus核酸酶;等等。大范围核酸酶可以由ladlidadg归巢核酸内切酶(lhe)改造而来。megatal多肽可以包含tale dna结合结构域和工程化大范围核酸酶。参见例如wo2004/067736(归巢核酸内切酶);urnov等人(2005年)nature 435:646(zfn);mussolino等人(2011年)nucle.acids res.39:9283(tale核酸酶);boissel等人(2013年)nucl.acids res.42:2591(megatal)。
[0248]
逆转录酶
[0249]
在一些情况下,主题融合cas12l多肽包含:i)本公开的cas12l多肽;和ii)异源多肽(“融合配偶体”),其中异源多肽是逆转录酶多肽。在某些情况下,cas12l多肽没有催化活性。合适的逆转录酶包括例如鼠白血病病毒逆转录酶;劳斯肉瘤病毒逆转录酶;人免疫缺陷病毒i型逆转录酶;莫洛尼鼠白血病病毒逆转录酶;等等。
[0250]
碱基编辑器
[0251]
在一些情况下,本公开的cas12l融合多肽包含:i)本公开的cas12l多肽;和ii)异源多肽(“融合配偶体”),其中异源多肽是碱基编辑器。合适的碱基编辑包括例如腺苷脱氨酶;胞苷脱氨酶(例如,激活诱导的胞苷脱氨酶(aid));apobec3g等);等等。
[0252]
合适的腺苷脱氨酶是能够使dna中的腺苷脱氨基的任何酶。在一些情况下,脱氨酶是tada脱氨酶。
[0253]
在一些情况下,合适的腺苷脱氨酶包含与以下氨基酸序列具有至少80%、至少85%、至少90%、至少95%、至少98%、至少99%或100%氨基酸序列同一性的氨基酸序列:msevefsheywmrhaltlakrawderevpvgavlvhnnrvigegwnrpigrhdptahaeimalrqgglvmqnyrlidatlyvtlepcvmcagamihsrigrvvfgardaktgaagslmdvlhhpgmnhrveitegiladecaallsdffrmrrqeikaqkkaqsstd(seq id no:74)
[0254]
在一些情况下,合适的腺苷脱氨酶包含与以下氨基酸序列具有至少80%、至少85%、至少90%、至少95%、至少98%、至少99%或100%氨基酸序列同一性的氨基酸序列:mrrafitgvfflsevefsheywmrhaltlakrawderevpvgavlvhnnrvigegwnrpigrhdptahaeimalrqgglvmqnyrlidatlyvtlepcvmcagamihsrigrvvfgardaktgaagslmdvlhhpgmnhrveitegiladecaallsdffrmrrqeikaqkkaqsstd(seq id no:75)。
[0255]
在一些情况下,合适的腺苷脱氨酶包含与以下金黄色葡萄球菌tada氨基酸序列具有至少80%、至少85%、至少90%、至少95%、至少98%、至少99%或100%氨基酸序列同一性的氨基酸序列:mgshmtndiyfmtlaieeakkaaqlgevpigaiitkddeviarahnlretlqqptahaehiaieraakvlgswrlegctlyvtlepcvmcagtivmsriprvvygaddpkggcsgslmnllqqsnfnhraivdkgvlkeacstllttffk nlrankkstn:(seq id no:76)
[0256]
在一些情况下,合适的腺苷脱氨酶包含与以下枯草杆菌tada氨基酸序列具有至少80%、至少85%、至少90%、至少95%、至少98%、至少99%或100%氨基酸序列同一性的氨基酸序列:mtqdelymkeaikeakkaeekgevpigavlvingeiiarahnlreteqrsiahaemlvideackalgtwrlegatlyvtlepcpmcagavvlsrvekvvfgafdpkggcsgtlmnllqeerfnhqaevvsgvleeecggmlsaffrelrkkkkaarknlse(seq id no:77)
[0257]
在一些情况下,合适的腺苷脱氨酶包含与以下鼠伤寒沙门菌(sal monella typhimurium)tada具有至少80%、至少85%、至少90%、至少95%、至少98%、至少99%或100%氨基酸序列同一性的氨基酸序列:mppafitgvtslsdveldheywmrhaltlakrawderevpvgavlvhnhrvigegwnrpigrhdptahaeimalrqgglvlqnyrlldttlyvtlepcvmcagamvhsrigrvvfgardaktgaagslidvlhhpgmnhrveiiegvlrdecatllsdffrmrrqeikalkkadraegagpav(seq id no:78)
[0258]
在一些情况下,合适的腺苷脱氨酶包含与以下腐败希瓦菌tada氨基酸序列具有至少80%、至少85%、至少90%、至少95%、至少98%、至少99%或100%氨基酸序列同一性的氨基酸序列:mdeywmqvamqmaekaeaagevpvgavlvkdgqqiatgynlsisqhdptahaeilclrsagkkle
flryisdwdl dpgrcyrvtw ftswspcydc arhvadflrg npnlslrift arlyfcedrk aepeglrrlh ragvqiaimt fkdyfycwnt fvenhertfk aweglhensv rlsrqlrril lplyevddlr dafrtlgl(seq id no:85)。
[0268]
转录因子
[0269]
在一些情况下,本公开的cas12l融合多肽包含:i)本公开的cas12l多肽;和ii)异源多肽(“融合配偶体”),其中异源多肽是转录因子。转录因子可以包括:i)dna结合结构域;和ii)转录激活因子。转录因子可以包括:i)dna结合结构域;和ii)转录阻遏子。合适的转录因子包括包含转录激活因子或转录抑制子结构域的多肽(例如,kruppel相关框(krab或skd));mad msin3相互作用结构域(sid);erf阻遏结构域(erd)等);基于锌指的人工转录因子(参见例如sera(2009)adv.drug deliv.61:513);基于tale的人工转录因子(参见例如liu等人(2013)nat.rev.genetics 14:781);等等。在一些情况下,转录因子包括vp64多肽(转录激活)。在某些情况下,转录因子包含kr
ü
ppel相关盒(krab)多肽(转录抑制)。在一些情况下,转录因子包括mad msin3相互作用结构域(sid)多肽(转录阻遏)。在一些情况下,转录因子包括erf阻遏子结构域(erd)多肽(转录阻遏)。例如,在一些情况下,转录因子是转录激活因子,其中转录激活因子是gal4-vp16。
[0270]
重组酶
[0271]
在一些情况下,本公开的cas12l融合多肽包含:i)本公开的cas12l多肽;和ii)异源多肽(“融合配偶体”),其中异源多肽是重组酶。合适的重组酶包括例如cre重组酶;hin重组酶;tre重组酶;flp重组酶;等等。
[0272]
用于主题融合cas12l多肽的各种另外的合适的异源多肽(或其片段)的实例包括但不限于在以下申请中描述的那些(所述公布涉及其他crispr内切核酸酶(诸如cas9),但是描述的融合配偶体也可与cas12l一起使用):pct专利申请:wo2010075303、wo2012068627和wo2013155555,并且可见于例如以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述专利全部特此以引用方式整体并入。
[0273]
在一些情况下,异源多肽(融合配偶体)提供亚细胞定位,即异源多肽含有亚细胞定位序列(例如,用于靶向细胞核的核定位信号(nls)、用于将融合蛋白保持在细胞核外的序列(例如核输出序列(nes))、用于将融合蛋白保留在细胞质中的序列、用于靶向线粒体的线粒体定位信号、用于靶向叶绿体的叶绿体定位信号、er保留信号等)。在一些实施方案中,cas12l融合多肽不包括nls,使得蛋白质不靶向细胞核(这可能是有利的,例如,当靶核酸是存在于胞质溶胶中的rna时)。在一些实施方案中,异源多肽可提供便于追踪和/或纯化的标
签(即,异源多肽是可检测标记)(例如,荧光蛋白,例如绿色荧光蛋白(gfp)、yfp、rfp、cfp、mcherry、tdtomato等;组氨酸标签,例如6xhis标签;血凝素(ha)标签;flag标签;myc标签等)。
[0274]
在一些情况下,cas12l蛋白(例如,野生型cas12l蛋白、变体cas12l蛋白、融合cas12l蛋白、dcas12l蛋白等)包含(融合到)核定位信号(nls)(例如,在一些情况下,2个或更多、3个或更多、4个或更多、或5个或更多个nls)。因此,在一些情况下,cas12l多肽包括一个或多个nls(例如,2个或更多个、3个或更多个、4个或更多个或5个或更多个nls)。在一些情况下,一个或多个nls(2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)定位在n末端和/或c末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个nls(2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)定位在n末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个nls(2个或更多个、3个或更多个、4个或更多个或者5个或更多个nls)定位在c末端处或附近(例如,在50个氨基酸内)。在一些情况下,一个或多个nls(3个或更多个、4个或更多个或者5个或更多个nls)定位在n末端和c末端二者处或附近(例如,在50个氨基酸内)。在一些情况下,nls定位在n末端,并且nls定位在c末端。
[0275]
在一些情况下,cas12l蛋白(例如,野生型cas12l蛋白、变体cas12l蛋白、融合cas12l蛋白、dcas12l蛋白等)包含(融合到)1至10个nls(例如,1-9、1-8、1-7、1-6、1-5、2-10、2-9、2-8、2-7、2-6或2-5个nls)。在一些情况下,cas12l蛋白(例如,野生型cas12l蛋白、变体cas12l蛋白、融合cas12l蛋白、dcas12l蛋白等)包含(融合到)2至5个nls(例如,2-4个或2-3个nls)。
[0276]
nls的非限制性实例包括衍生自以下的nls序列:sv40病毒大t抗原的nls,具有氨基酸序列pkkkrkv(seq id no:86);来自核质蛋白的nls(例如,具有序列krpaatkkagqakkkk(seq id no:87)的核质蛋白二分nls);c-myc nls,具有氨基酸序列paakrvkld(seq id no:88)或rqrrnelkrsp(seq id no:89);hrnpa1 m9 nls,具有序列nqssnfgpmkggnfggrssgpyggggqyfakprnqggy(seq id no:90);来自输入蛋白-α的ibb结构域的序列rmrizfknkgkdtaelrrrrvevsvelrkakkdeqilkrrnv(seq id no:91);肌瘤t蛋白的序列vsrkrprp(seq id no:92)和ppkkared(seq id no:93);人p53的序列pqpkkkpl(seq id no:94);小鼠c-abl iv的序列salikkkkkmap(seq id no:95);流感病毒ns1的序列drlrr(seq id no:96)和pkqkkrk(seq id no:97);肝炎病毒δ抗原的序列rklkkkikkl(seq id no:98);小鼠mx1蛋白的序列rekkkflkrr(seq id no:99);人聚(adp-核糖)聚合酶的序列krkgdevdgvdevakkkskk(seq id no:100);以及类固醇激素受体(人)糖皮质激素的序列rkclqagmnlearktkk(seq id no:101)。一般来讲,nls(或多个nls)具有足够的强度来驱动cas12l蛋白在真核细胞的细胞核中以可检测的量积累。可通过任何合适的技术执行细胞核中的积累的检测。例如,可检测标记物可与cas12l蛋白融合,使得细胞内的位置可被可视化。也可从细胞中分离细胞核,然后可通过任何合适的检测蛋白质的方法(诸如免疫组织化学、蛋白质印迹或酶活性测定)分析细胞核的内容物。也可间接确定细胞核中的积累。
[0277]
在一些情况下,cas12l融合多肽包含“蛋白转导结构域”或ptd(又称为cpp

细胞穿透肽),其是指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的
高分子和/或纳米颗粒的范围内)的ptd促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器内。在一些实施方案中,ptd与多肽氨基末端共价连接(例如,与野生型cas12l多肽连接以生成融合蛋白,或与变体cas12l蛋白(诸如dcas12l、切口酶cas12l或融合cas12l蛋白)连接以生成融合蛋白)。在一些实施方案中,ptd与多肽的羧基末端共价连接(例如,与野生型cas12l连接以生成融合蛋白,或与变体cas12l蛋白(诸如dcas12l、切口酶cas12l或融合cas12l蛋白)连接以生成融合蛋白)。在一些情况下,ptd在合适的插入位点处内插在cas12l融合多肽中(即,不在cas12l融合多肽的n端或c端)。在一些情况下,主题cas12l融合多肽包含(缀合至、融合至)一个或多个ptd(例如,两个或更多个、三个或更多个、四个或更多个ptd)。在一些情况下,ptd包括核定位信号(nls)(例如,在一些情况下,2个或更多个、3个或更多个、4个或更多个或5个或更多个nls)。因此,在一些情况下,cas12l融合多肽包括一个或多个nls(例如,2个或更多个、3个或更多个、4个或更多个或5个或更多个nls)。在一些实施方案中,ptd共价连接至核酸(例如,cas12l引导核酸、编码cas12l引导核酸的多核苷酸、编码cas12l融合多肽的多核苷酸、供体多核苷酸等)。ptd的实例包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含ygrkkrrqrrr;seq id no:40的hiv-1tat的残基47-57);包含足以直接进入细胞中的多个精氨酸(例如,3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸)的聚精氨酸序列;vp22结构域(zender等人(2002)cancer gene ther.9(6):489-96);果蝇触角足基因(antennapedia)蛋白转导结构域(noguchi等人(2003)diabetes 52(7):1732-1737);截短的人降钙素肽(trehin等人(2004)pharm.research 21:1248-1256);聚赖氨酸(wender等人(2000)proc.natl.acad.sci.usa 97:13003-13008);rrqrrtsklmkr(seq id no:41);运输蛋白(transportan)gwtlnsagyllgkinlkalaalakkil(seq id no:42);kalaweaklakalakalakhlakalakalkcea(seq id no:43);和rqikiwfqnrrmkwkk(seq id no:44)。示例性ptd包括但不限于:ygrkkrrqrrr(seq id no:40);rkkrrqrrr(seq id no:45);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性ptd结构域氨基酸序列包括但不限于以下序列中的任一个:ygrkkrrqrrr(seq id no:40);rkkrrqrr(seq id no:46);yaraaarqara(seq id no:47);thrlprrrrrr(seq id no:48);以及ggrrarrrrrr(seq id no:49)。在一些实施方案中,ptd是可激活的cpp(acpp)(aguilera等人(2009)integr biol(camb)6月;1(5-6):371-381)。acpp包括经由可切割接头连接至匹配聚阴离子(例如,glu9或“e9”)的聚阳离子cpp(例如,arg9或“r9”),这使净电荷减小至接近零并由此抑制粘附和吸收到细胞中。当切割接头时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”acpp以横穿膜。
[0278]
接头(例如,用于融合配偶体)
[0279]
在一些实施方案中,主题cas12l蛋白可经由接头多肽(例如,一个或多个接头多肽)与融合配偶体融合。接头多肽可具有多种氨基酸序列中的任一种。蛋白质可通过间隔肽连接,间隔肽通常具有柔性性质,但不排除其他化学键。合适的接头包括长度在4个氨基酸与40个氨基酸之间或者长度在4个氨基酸与25个氨基酸之间的多肽。这些接头可通过使用合成的编码接头的寡核苷酸来产生以偶联蛋白质,或者可由编码融合蛋白的核酸序列编码。可使用具有一定程度柔性的肽接头。连接肽实际上可具有任何氨基酸序列,应记住优选的接头将具有产生总体上柔性的肽的序列。小氨基酸(诸如甘氨酸和丙氨酸)的用途用于产生柔性肽。对于本领域技术人员来说,产生此类序列是常规的。多种不同的接头是可商购获
得的并且被认为是适合使用的。
[0280]
接头多肽的实例包括甘氨酸聚合物(g)n、甘氨酸-丝氨酸聚合物(包括例如(gs)n、gsggsn(seq id no:50)、ggsggsn(seq id no:51)和gggsn(seq id no:52),其中n是至少为1的整数)、甘氨酸-丙氨酸聚合物、丙氨酸-丝氨酸聚合物。示例性接头可包含氨基酸序列,所述氨基酸序列包括但不限于ggsg(seq id no:53)、ggsgg(seq id no:54)、gsgsg(seq id no:55)、gsggg(seq id no:56)、gggsg(seq id no:57)、gsssg(seq id no:58)等。普通技术人员将认识到,与任何所需元件缀合的肽的设计可包括全部或部分柔性的接头,使得接头可包括柔性接头以及赋予较少柔性结构的一个或多个部分。
[0281]
可检测标记
[0282]
在一些情况下,本公开的cas12l多肽包含可检测标记。可提供可检测信号的合适的可检测标记和/或部分可包括但不限于酶、放射性同位素、特异性结合对的成员、荧光团、荧光蛋白、量子点等。
[0283]
合适的荧光蛋白包括但不限于绿色荧光蛋白(gfp)或其变体、gfp的蓝色荧光变体(bfp)、gfp的青色荧光变体(cfp)、gfp的黄色荧光变体(yfp)、增强型gfp(egfp)、增强型cfp(ecfp)、增强型yfp(eyfp)、gfps65t、emerald、topaz(tyfp)、venus、citrine、mcitrine、gfpuv、去稳定化egfp(degfp)、去稳定化ecfp(decfp)、去稳定化eyfp(deyfp)、mcfpm、cerulean、t-sapphire、cypet、ypet、mko、hcred、t-hcred、dsred、dsred2、dsred-单体、j-red、二聚体2、t-二聚体2(12)、mrfp1、普奇洛孔蛋白(pocilloporin)、海肾gfp(renilla gfp)、monster gfp、pagfp、kaede蛋白和点燃蛋白(kindling protein)、藻胆蛋白和藻胆蛋白缀合物(包括b-藻红蛋白、r-藻红蛋白和别藻蓝蛋白)。荧光蛋白的其他实例包括mhoneydew、mbanana、morange、dtomato、tdtomato、mtangerine、mstrawberry、mcherry、mgrape1、mraspberry、mgrape2、mplum(shaner等人(2005)nat.methods 2:905-909)等。如在例如matz等人(1999)nature biotechnol.17:969-973中所述的来自珊瑚虫物种的多种荧光蛋白和有色蛋白中的任一种是适合使用的。
[0284]
合适的酶包括但不限于辣根过氧化物酶(hrp)、碱性磷酸酶(ap)、β-半乳糖苷酶(gal)、葡萄糖-6-磷酸脱氢酶、β-n-乙酰氨基葡糖苷酶、β-葡糖醛酸糖苷酶、转化酶、黄嘌呤氧化酶、萤火虫荧光素酶、葡萄糖氧化酶(go)等。
[0285]
原间隔序列相邻基序(pam)
[0286]
cas12l蛋白在由靶向dna的rna与靶dna之间的互补性区域限定的靶序列处与靶dna结合。与许多crispr内切核酸酶的情况一样,双链靶dna的位点特异性结合(和/或切割)发生在由以下二者确定的位置处:(i)引导rna与靶dna之间的碱基配对互补性;和(ii)靶dna中的短基序[称为原间隔序列相邻基序(pam)]。
[0287]
在一些情况下,cas12l蛋白的pam紧接靶dna的非互补链的靶序列的5’(互补链:(i)与引导rna的引导序列杂交,而非互补链不与引导rna直接杂交;并且(ii)是非互补链的反向互补链)。
[0288]
在一些情况下,不同的cas12l蛋白(即,来自各种物种的cas12l蛋白)可有利地用于各种所提供的方法中以便利用不同的cas12l蛋白的各种酶特征(例如,用于不同pam序列偏好;用于增加的或降低的酶促活性;用于增加的或降低的细胞毒性水平;用于改变nhej、同源定向修复、单链断裂、双链断裂等之间的平衡;利用短的总序列等)。来自不同物种的
cas12l蛋白可能需要靶dna中的不同的pam序列。用于鉴定适当的pam序列的各种方法(包括计算机模拟方法和/或湿实验室方法(wet lab methods))是本领域已知且常规的,并且可使用任何便利的方法。
[0289]
如实施例1中所示,本公开的cal12l多肽可被重新编程(通过与引导rna复合)以切割与引导rna的靶向片段互补的靶核酸(例如靶dna)的任何序列,其中pam存在于靶的5’端(例如casλ1的富含t的pam);体内功能效应物的形成不需要额外的rna组分。在一些情况下,pam序列是富含t的序列(例如,ttr,其中r是嘌呤)。在某些情况下,pam序列是tta。在某些情况下,pam序列是ttg。
[0290]
cas12l引导rna
[0291]
与cas12l蛋白结合形成核糖核蛋白复合物(rnp)并将复合物靶向靶核酸(例如,靶dna)内的特定位置的核酸在本文中称为“cas12l引导rna”或者简称为“引导rna”。应理解,在一些情况下,可制备杂交体dna/rna,使得cas12l引导rna除rna碱基外还包含dna碱基,但术语“cas12l引导rna”仍然用于涵盖本文的这种分子。
[0292]
可以说cas12l引导rna包含两个区段,即靶向区段和蛋白质结合区段。蛋白质结合区段在本文中也称为引导rna的“恒定区”。cas12l引导rna的靶向区段包含与靶核酸(例如,靶dsdna、靶ssrna、靶ssdna、双链靶dna的互补链等)内的特定序列(靶位点)互补(并因此杂交)的核苷酸序列(引导序列)。蛋白质结合区段(或“蛋白质结合序列”)与cas12l多肽相互作用(结合)。主题cas12l引导rna的蛋白质结合区段可包含彼此杂交以形成双链rna双链体(dsrna双链体)的两段互补核苷酸。靶核酸(例如,基因组dna、dsdna、rna等)的位点特异性结合和/或切割可发生在由cas12l引导rna(cas12l引导rna的引导序列)与靶核酸之间的碱基配对互补性确定的位置(例如,靶基因座的靶序列)处。
[0293]
cas12l引导rna和cas12l蛋白(例如,野生型cas12l蛋白;变体cas12l蛋白;融合cas12l多肽;等)形成复合物(例如,通过非共价相互作用结合)。cas12l引导rna通过包含靶向区段为复合物提供靶特异性,所述靶向区段包含引导序列(与靶核酸序列互补的核苷酸序列)。复合物的cas12l蛋白提供位点特异性活性(例如,由cas12l蛋白提供的切割活性和/或在融合cas12l蛋白的情况下由融合配偶体提供的活性)。换句话讲,cas12l蛋白由于其与cas12l引导rna的缔合而被导向至靶核酸序列(例如,靶序列)。
[0294]
可修饰“引导序列”,也称为cas12l引导rna的“靶向序列”,使得cas12l引导rna可将cas12l蛋白(例如,天然存在的cas12l蛋白、融合cas12l多肽等)靶向任何所需的靶核酸的任何所需序列,除了(例如,如本文所述)可考虑pam序列之外。因此,例如,cas12l引导rna可具有与真核细胞中的核酸中的序列互补(例如,可与其杂交)的引导序列,所述核酸例如是病毒核酸、真核核酸(例如,真核染色体、染色体序列、真核rna等)等。
[0295]
cas12l引导rna的引导序列
[0296]
主题cas12l引导rna包含引导序列(即,靶向序列),其是与靶核酸中的序列(靶位点)互补的核苷酸序列。换句话讲,cas12l引导rna的引导序列可通过杂交(即,碱基配对)以序列特异性方式与靶核酸(例如,双链dna(dsdna)、单链dna(ssdna)、单链rna(ssrna)或双链rna(dsrna))相互作用。cas12l引导rna的引导序列可被修饰(例如,通过遗传工程)/设计成与靶核酸(例如,真核靶核酸,诸如基因组dna)内的任何所需靶序列杂交(例如,当考虑pam时,例如,当靶向dsdna靶时)。
[0297]
在一些情况下,引导序列与靶核酸的靶位点之间的互补性百分比为60%或更高(例如,65%或更高、70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比为100%。
[0298]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在靶核酸的靶位点最3'端的七个连续核苷酸上为100%。
[0299]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17个或更多个(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
[0300]
在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19个或更多个(例如,20个或更多个、21个或更多个、22个或更多个)连续核苷酸上为100%。
[0301]
在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核
苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在17-25个连续核苷酸上为100%。
[0302]
在一些实施方案中,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为60%或更高(例如,70%或更高、75%或更高、80%或更高、85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为80%或更高(例如,85%或更高、90%或更高、95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为90%或更高(例如,95%或更高、97%或更高、98%或更高、99%或更高或者100%)。在一些情况下,指导序列与靶核酸的靶位点之间的互补性百分比在19-25个连续核苷酸上为100%。
[0303]
在一些情况下,指导序列具有在17-30个核苷酸(nt)(例如,17-25个、17-22个、17-20个、19-30个、19-25个、19-22个、19-20个、20-30个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有在17-25个核苷酸(nt)(例如,17-22个、17-20个、19-25个、19-22个、19-20个、20-25个或20-22个nt)的范围内的长度。在一些情况下,指导序列具有17或更多个nt(例如,18个或更多个、19个或更多个、20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有19个或更多个nt(例如,20个或更多个、21个或更多个或者22个或更多个nt;19个nt、20个nt、21个nt、22个nt、23个nt、24个nt、25个nt等)的长度。在一些情况下,指导序列具有17个nt的长度。在一些情况下,指导序列具有18个nt的长度。在一些情况下,引导序列具有19个nt的长度。在一些情况下,引导序列具有20个nt的长度。在一些情况下,引导序列具有21个nt的长度。在一些情况下,引导序列具有22个nt的长度。在一些情况下,引导序列具有23个nt的长度。
[0304]
在一些情况下,引导序列(也称为“间隔序列”)具有15至50个核苷酸的长度(例如,15个核苷酸(nt)至20nt、20nt至25nt、25nt至30nt、30nt至35nt、35nt至40nt、40nt至45nt或45nt至50nt)。
[0305]
cas12l引导rna的蛋白质结合区段
[0306]
主题cas12l引导rna的蛋白结合片段(“恒定区”)与cas12l蛋白相互作用。cas12l引导rna通过上文提及的引导序列将结合的cas12l蛋白导向至靶核酸内的特定核苷酸序列。cas12l引导rna的蛋白质结合区段可包含两段核苷酸,它们彼此互补并杂交形成双链rna双链体(dsrna双链体)。因此,在一些情况下,蛋白质结合区段包括dsrna双链体。
[0307]
在一些情况下,dsrna双链体区包含5-25个碱基对(bp)的范围(例如,5-22个、5-20个、5-18个、5-15个、5-12个、5-10个、5-8个、8-25个、8-22个、8-18个、8-15个、8-12个、12-25个、12-22个、12-18个、12-15个、13-25个、13-22个、13-18个、13-15个、14-25个、14-22个、14-18个、14-15个、15-25个、15-22个、15-18个、17-25个、17-22个或17-18个bp,例如5个bp、6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,dsrna双链体区包含6-15个碱基对(bp)的范围(例如,6-12个、6-10个或6-8个bp,例如6个bp、7个bp、8个bp、9个bp、10个bp等)。在一些情况下,双链体区包含5个或更多个bp(例如,6个或更多个、7个或更多个或者8个或
更多个bp)。在一些情况下,双链体区包含6个或更多个bp(例如,7个或更多个或者8个或更多个bp)。在一些情况下,并非双链体区的所有核苷酸都是配对的,并且因此双链体形成区域可包含凸起。本文中的术语“凸起”用于意指一段核苷酸(其可以是一个核苷酸),这段核苷酸对双链双链体没有贡献,但是在5'端和3'端被有贡献的核苷酸围绕,并且因此凸起被认为是双链体区的一部分。在一些情况下,dsrna包含1个或更多个凸起(例如,2个或更多个、3个或更多个、4个或更多个凸起)。在一些情况下,dsrna双链体包含2个或更多个凸起(例如,3个或更多个、4个或更多个凸起)。在一些情况下,dsrna双链体包含1-5个凸起(例如,1-4个、1-3个、2-5个、2-4个或2-3个凸起)。
[0308]
因此,在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)。在一些情况下,彼此杂交形成dsrna双链体的核苷酸段彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)。
[0309]
换句话讲,在一些实施方案中,dsrna双链体包含彼此具有70%-100%的互补性(例如,75%-100%、80%-10%、85%-100%、90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsrna双链体包含彼此具有85%-100%的互补性(例如,90%-100%、95%-100%的互补性)的两段核苷酸。在一些情况下,dsrna双链体包含彼此具有70%-95%的互补性(例如,75%-95%、80%-95%、85%-95%、90%-95%的互补性)的两段核苷酸。
[0310]
相对于天然存在的双链体区,主题cas12l引导rna的双链体区可包含一个或多个(1个、2个、3个、4个、5个等)突变。例如,在一些情况下,可维持碱基对,同时对每个区段的碱基对有贡献的核苷酸可以是不同的。在一些情况下,与(天然存在的cas12l引导rna的)天然存在的双链体区相比,主题cas12l引导rna的双链体区包含更多配对的碱基、更少配对的碱基、更小的凸起、更大的凸起、更少的凸起、更多的凸起或它们的任何方便的组合。
[0311]
各种cas9引导rna的实例可在本领域中找到,并且在一些情况下,与引入cas9引导rna中的那些相似的变型也可引入本公开的cas12l引导rna中(例如,dsrna双链体区的突变、5'或3'末端的延伸以用于增加稳定性以提供与另一种蛋白质的相互作用,等)。例如,参见jinek等人,science.2012年8月17日;337(6096):816-21;chylinski等人,rna biol.2013年5月;10(5):726-37;ma等人,biomed res int.2013;2013:270805;hou等人,proc natl acad sci u s a.2013年9月24日;110(39):15644-9;jinek等人,elife.2013;2:e00471;pattanayak等人,nat biotechnol.2013年9月;31(9):839-43;qi等人,cell.2013年2月28日;152(5):1173-83;wang等人,cell.2013年5月9日;153(4):910-8;auer等人,genome res.2013年10月31日;chen等人,nucleic acids res.2013年11月1日;41(20):e19;cheng等人,cell res.2013年10月;23(10):1163-71;cho等人,genetics.2013年11月;195(3):1177-80;dicarlo等人,nucleic acids res.2013年4月;41(7):4336-43;dickinson等人,nat methods.2013年10月;10(10):1028-34;ebina等人,sci rep.2013;3:2510;fujii等人,nucleic acids res.2013年11月1日;41(20):e187;hu等人,cell res.2013年11月;23(11):1322-5;jiang等人,nucleic acids res.2013年11月1日;41
(20):e188;larson等人,nat protoc.2013年11月;8(11):2180-96;mali等人,nat methods.2013年10月;10(10):957-63;nakayama等人,genesis.2013年12月;51(12):835-43;ran等人,nat protoc.2013年11月;8(11):2281-308;ran等人,cell.2013年9月12日;154(6):1380-9;upadhyay等人,g3(bethesda).2013年12月9日;3(12):2233-8;walsh等人,proc natl acad sci u s a.2013年9月24日;110(39):15514-5;xie等人,mol plant.2013年10月9日;yang等人,cell.2013年9月12日;154(6):1370-9;briner等人,mol cell.2014年10月23日;56(2):333-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述文献全部特此以引用方式整体并入。
[0312]
图2a-2z、图2aa-2zz和图2aaa-2fff中提供了适于包含在cas12l引导rna中的恒定区的实例(例如,其中t被u取代)。与图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的核苷酸序列中任一者相比,cas12l引导rna可以包含具有1至5个核苷酸取代的恒定区。
[0313]
核苷酸序列(其中t被u取代)可以与选择的间隔序列(其中间隔序列包含靶核酸结合序列(“引导序列”))组合,所述间隔序列为15至50个核苷酸(例如,长度为15个核苷酸(nt)至20nt、20nt至25nt、25nt至30nt、30nt至35nt、35nt至40nt、40nt至45nt或45nt至50nt)。在某些情况下,间隔序列的长度为35-38个核苷酸。例如,图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的核苷酸序列(其中t被u取代)中任一者可以被包含在包含(n)n恒定区的引导rna中,其中n是任何核苷酸,n是15至50的整数(例如,15至20、20至25、25至30、30至35、35至38、35至40、40至45或45至50)。
[0314]
作为一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:auuguuguaacucuuauuuuguauggaguaaacaac(seq id no:59)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:auuguuguagaccucuuuuuauaaggauugaacaac(seq id no:60;参见图2b)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:uauuguuguagauaccuuuuuguaaggauuaaacaac(seq id no:61;参见图2p)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:aauguuguagaugccuuuuuauaaggauuaaacaacuug(seq id no:62;参见图2t)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:auuguugaaauaguacuuuuauagucuauauacaac(seq id no:63;参见图2bb)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:uauuguuguaacucuuauuuuguauggaguaaacaac(seq id no:64;参见图2cc)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:auuguuguaacuuuuauuuuguauggaguaaacaac(seq id no:65;参见图2tt)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:aauguuguagauaccuuuuuguaaggauugaacaac(seq id no:66;
参见图2ww)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:auuguuguaauacuauuuuuguaaaguauaaacaac(seq id no:67;参见图2xx)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:aauguuguagaugccuuuuuauaaggauuaaacaac(seq id no:68;参见图2yy)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:auuguuguaauacacuuuuuauaagguaugaacaac(seq id no:69;参见图2bbb)。作为另一个实例,cas12l引导rna的恒定区可以包含核苷酸序列:auuguuguaacaucuauuuuguaagguguaaacaac(seq id no:70;参见图2kk)。
[0315]
图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的核苷酸序列(但其中t被u取代)中任一者的反向互补序列可以被包含在包含恒定区-(n)n的引导rna中,其中n是任何核苷酸,n是15-50的整数(例如,15至20、20至25、25至30、30至35、35至38、35至40、40至45或45至50)。作为一个实例,引导rna可以具有以下核苷酸序列:nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnauuguuguaacucuuauuuuguauggaguaaacaac(seq id no:71),或者在一些情况下为反向互补序列,其中n是任何核苷酸,例如,其中n的片段包括靶核酸结合序列。
[0316]
cas12l引导多核苷酸
[0317]
在一些情况下,与cas12l蛋白结合形成核酸/cas12l多肽复合物并将所述复合物靶向靶核酸(例如靶dna)内特定位置的核酸包含仅核糖核苷酸、仅脱氧核糖核苷酸或核糖核苷酸和脱氧核糖核苷酸的混合物。在某些情况下,引导多核苷酸仅包含核糖核苷酸,并且在本文中称为“引导rna”在一些情况下,引导多核苷酸仅包含脱氧核糖核苷酸,并且在本文中称为“引导dna”在一些情况下,引导多核苷酸包含核糖核苷酸和脱氧核糖核苷酸二者。引导多核苷酸可以包含核糖核苷酸碱基、脱氧核糖核苷酸碱基、核苷酸类似物、修饰的核苷酸等的组合;并且可以还包含天然存在的骨架残基和/或键联和/或非天然存在的骨架残基和/或键联。
[0318]cas
12l系统
[0319]
本公开提供一种cas12l系统。本公开的cas12l系统可以包含:a)本公开的cas12l多肽和cas12l引导rna;b)本公开的cas12l多肽、cas12l引导rna和供体模板核酸;c)本公开的cas12l融合多肽和cas12l引导rna;d)本公开的cas12l融合多肽、cas12l引导rna和供体模板核酸;e)编码本公开的cas12l多肽的mrna和cas12l引导rna;f)编码本公开的cas12l多肽的mrna、cas12l引导rna和供体模板核酸;g)编码本公开的cas12l融合多肽的mrna和cas12l引导rna;h)编码本公开的cas12l融合多肽的mrna、cas12l引导rna和供体模板核酸;i)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;j)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;l)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;n)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;o)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表
达载体;p)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;q)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或者r)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或者(a)至(r)之一的某种变体。
[0320]
核酸
[0321]
本发明提供了一种或多种核酸,其包含以下一种或多种:供体多核苷酸序列、编码cas12l多肽(例如,野生型cas12l蛋白、切口酶cas12l蛋白、dcas12l蛋白、融合cas12l蛋白等)的核苷酸序列、cas12l引导rna和编码cas12l引导rna的核苷酸序列。本公开提供了一种核酸,其包含编码cas12l融合多肽的核苷酸序列。本公开提供了一种重组表达载体,其包含编码cas12l多肽的核苷酸序列。本公开提供了一种重组表达载体,其包含编码cas12l融合多肽的核苷酸序列。本公开提供了一种重组表达载体,其包含:a)编码cas12l多肽的核苷酸序列;和b)编码cas12l引导rna的核苷酸序列。本公开提供了一种重组表达载体,其包含:a)编码cas12l融合多肽的核苷酸序列;和b)编码cas12l引导rna的核苷酸序列。在一些情况下,编码cas12l蛋白的核苷酸序列和/或编码cas12l引导rna的核苷酸序列可操作地连接到启动子,所述启动子在选择的细胞类型(例如,原核细胞、真核细胞、植物细胞、动物细胞、哺乳动物细胞、灵长类动物细胞、啮齿类动物细胞、人类细胞等)中是可操作的。
[0322]
在一些情况下,编码本公开的cas12l多肽的核苷酸序列是密码子优化的。这种类型的优化可能需要编码cas12l的核苷酸序列的突变以模拟预期的宿主生物体或细胞同时编码相同蛋白质时的密码子偏好。因此,密码子可改变,但编码的蛋白质保持不变。例如,如果预期的靶细胞是人细胞,可使用人密码子优化的编码cas12l的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是小鼠细胞,则可生成小鼠密码子优化的编码cas12l的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是植物细胞,则可生成植物密码子优化的编码cas12l的核苷酸序列。作为另一个非限制性实例,如果预期的宿主细胞是昆虫细胞,则可生成昆虫密码子优化的编码cas12l的核苷酸序列。
[0323]
密码子选用框很容易获得,例如,在www[dot]kazusa[dot]or[dot]jp[forwardslash]codon上可获得的“密码子用法数据库”。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在真核细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在动物细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在真菌细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在植物细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在单子叶植物物种中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在双子叶植物物种中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在裸子植物物种中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在被子植物物种中表达。在一些情况下,本公开的核酸包含编码cas12l多
肽的核苷酸序列,所述核苷酸序列被密码子优化以在玉米细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在大豆细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在水稻细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在小麦细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化棉花在棉花细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在高粱细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在苜蓿细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化棉花在甘蔗细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在拟南芥细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在番茄细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在黄瓜细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在马铃薯细胞中表达。在一些情况下,本公开的核酸包含编码cas12l多肽的核苷酸序列,所述核苷酸序列被密码子优化以在藻类细胞中表达。
[0324]
本公开提供了一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,以及在一些情况下在相同的重组表达载体中):(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如靶基因组)的靶序列具有同源性的核苷酸序列);(ii)编码cas12l引导rna的核苷酸序列,所述引导rna与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到在靶细胞诸如真核细胞中可操作的启动子);和(iii)编码cas12l蛋白的核苷酸序列(例如,可操作地连接到在靶细胞诸如真核细胞中可操作的启动子)。本公开提供了一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,以及在一些情况下在相同的重组表达载体中):(i)供体模板核酸的核苷酸序列(其中供体模板包含与靶核酸(例如靶基因组)的靶序列具有同源性的核苷酸序列);和(ii)编码cas12l引导rna的核苷酸序列,所述引导rna与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到在靶细胞诸如真核细胞中可操作的启动子)。本公开提供了一种或多种重组表达载体,其包含(在一些情况下在不同的重组表达载体中,以及在一些情况下在相同的重组表达载体中):(i)编码cas12l引导rna的核苷酸序列,所述引导rna与靶向基因组的靶基因座的靶序列杂交(例如,可操作地连接到在靶细胞诸如真核细胞中可操作的启动子);和(ii)编码cas12l蛋白的核苷酸序列(例如,可操作地连接到在靶细胞诸如真核细胞中可操作的启动子)。
[0325]
合适的表达载体包括病毒表达载体(例如,基于以下病毒的病毒载体:牛痘病毒;脊髓灰质炎病毒;腺病毒(参见例如li等人,invest opthalmol vis sci 35:2543 2549,1994;borras等人,gene ther 6:515524,1999;li和davidson,pnas 92:7700 7704,1995;sakamoto等人,h gene ther 5:1088 1097,1999;wo 94/12649、wo 93/03769;wo 93/19191;wo 94/28938;wo 95/11984和wo 95/00655);腺相关病毒(aav)(参见例如ali等人,hum gene ther 9:81 86,1998;flannery等人,pnas 94:6916 6921,1997;bennett等人,
invest opthalmol vis sci 38:2857 2863,1997;jomary等人,gene ther 4:683 690,1997;rolling等人,hum gene ther 10:641 648,1999;ali等人,hum mol genet 5:591 594,1996;srivastava的wo 93/09239;samulski等人,j.vir.(1989)63:3822-3828;mendelson等人,virol.(1988)166:154-165;以及flotte等人,pnas(1993)90:10613-10617);sv40;单纯疱疹病毒;人免疫缺陷病毒(参见例如,miyoshi等人,pnas 94:10319 23,1997;takahashi等人,j virol 73:7812 7816,1999);逆转录病毒载体(例如,鼠白血病病毒、脾坏死病毒和源自诸如劳斯肉瘤病毒、哈维肉瘤病毒、禽白血病病毒、慢病毒、人免疫缺陷病毒、骨髓增生肉瘤病毒以及乳腺肿瘤病毒的逆转录病毒的载体)等。在一些情况下,本公开的重组表达载体是重组腺相关病毒(aav)载体。在一些情况下,本公开的重组表达载体是重组慢病毒载体。在一些情况下,本公开的重组表达载体是重组逆转录病毒载体。
[0326]
对于植物应用,可以使用基于烟草花叶病毒组、马铃薯x病毒组、马铃薯y病毒组、烟草脆裂病毒组、番茄丛矮病毒组、双生病毒组、雀麦花叶病毒组、香石竹斑驳病毒组、苜蓿花叶病毒组或南瓜花叶病毒组的病毒载体。参见例如peyret和lomonossoff(2015)plant biotechnol.j.13:1121。合适的烟草花叶病毒组载体包括例如番茄花叶病毒(tomv)载体、烟草花叶病毒(tmv)载体、烟草淡绿花叶病毒(tmgmv)载体、辣椒轻型斑驳病毒(pmmov)载体、红辣椒轻型斑驳病毒(pammv)载体、黄瓜绿斑驳花叶病毒(cgmmv)载体、九州绿斑驳花叶病毒(kgmmv)载体、木槿潜隐皮尔斯堡病毒(hlfpv)载体、齿舌兰环斑病毒(orsv)载体、地黄花叶病毒(remv)载体、桑蒙仙人掌病毒(sov)载体、山榆菜斑驳病毒(wmov)载体、油菜花叶病毒(yomv)载体、菽麻花叶病毒(shmv)载体等。合适的马铃薯x病毒组载体包括例如马铃薯病毒x(pvx)载体、马铃薯奥古巴花叶病毒(pamv)载体、六出花花叶病毒x(alsvx)载体、仙人掌病毒x(cvx)载体、兰花花叶病毒(cymmv)载体、玉簪病毒x(hvx)载体、百合病毒x(lvx)载体、水仙花叶病毒(nmv)载体、石蒜病毒x(nvx)载体、车前草花叶病毒(plamv)载体、草莓轻型黄边病毒(smyev)载体、郁金香病毒x(tvx)载体、白三叶草花叶病毒(wclmv)载体、竹嵌纹病毒(bamv)载体等。合适的马铃薯y病毒载体包括例如马铃薯病毒y(pvy)载体、菜豆普通花叶病毒(bcmv)载体、三叶草黄脉病毒(clyvv)载体、东亚西番莲病毒(eapv)载体、香雪兰花叶病毒(fremv)载体、日本山药花叶病毒(jymv)载体、莴苣花叶病毒(lmv)载体、玉米矮小花叶病毒(mdmv)载体、洋葱黄矮病毒(oydv)载体、番木瓜环斑病毒(prsv)载体、辣椒斑驳病毒(pepmov)载体、紫苏属斑驳病毒(permov)载体、李痘病毒(ppv)载体、马铃薯病毒a(pva)载体、高粱花叶病毒(srmv)载体、大豆花叶病毒(smv)载体、甘蔗花叶病毒(scmv)载体、郁金香花叶病毒(tulmv)载体、芜菁花叶病毒(tumv)载体、西瓜花叶病毒(wmv)载体、西葫芦黄色花叶病毒(zymv)载体、烟草蚀纹病毒(tev)载体等。合适的烟草病毒载体包括例如烟草脆裂病毒(trv)载体等。合适的番茄丛矮病毒组载体包括例如番茄丛矮病毒(tbsv)载体、茄斑驳皱缩病毒(emcv)载体、葡萄藤阿尔及利亚潜伏病毒(galv)载体等。合适的黄瓜花叶病毒载体包括例如黄瓜花叶病毒(cmv)载体、花生矮化病毒(psv)载体、番茄不孕病毒(tav)载体等。合适的雀麦草花叶病毒组载体包括例如雀麦花叶病毒(bmv)载体、豇豆褪绿斑点病毒(ccmv)载体等。合适的香石竹斑驳病毒组载体包括例如康乃馨斑驳病毒(carmv)载体、甜瓜坏死斑点病毒(mnsv)载体、豌豆茎坏死病毒(psnv)载体、芜菁皱缩病毒(tcv)载体等。合适的苜蓿花叶病毒载体包括例如苜蓿花叶病毒(amv)载体等。
[0327]
根据所用的宿主/载体系统,可在表达载体中使用多种合适的转录和翻译控制元
件中的任一种,包括组成型启动子和诱导型启动子、转录增强子元件、转录终止子等。
[0328]
在一些实施方案中,编码cas12l引导rna的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。在一些实施方案中,编码cas12l蛋白或cas12l融合多肽的核苷酸序列可操作地连接至控制元件,例如转录控制元件,诸如启动子。
[0329]
转录控制元件可以是启动子。在一些情况下,启动子是组成型活性启动子。在一些情况下,启动子是可调控启动子。在一些情况下,启动子是诱导型启动子。在一些情况下,启动子是组织特异性启动子。在一些情况下,启动子是细胞类型特异性启动子。在一些情况下,转录控制元件(例如,启动子)在所靶向细胞类型或所靶向细胞群中是功能性的。例如,在一些情况下,转录控制元件在真核细胞(例如,造血干细胞(例如,动员的外周血(mpb)cd34( )细胞、骨髓(bm)cd34( )细胞等))中可以是功能性的。
[0330]
真核启动子(在真核细胞中是功能性的启动子)的非限制性实例包括ef1α,来自巨细胞病毒(cmv)立即早期、单纯疱疹病毒(hsv)胸苷激酶、早期和晚期sv40、逆转录病毒的长末端重复序列(ltr)以及小鼠金属硫蛋白-i的那些启动子。选择适当的载体和启动子完全在本领域普通技术人员的水平之内。表达载体还可含有用于翻译起始的核糖体结合位点和转录终止子。表达载体还可包含用于扩增表达的适当序列。表达载体还可包含编码蛋白质标签(例如,6xhis标签、血凝素标签、荧光蛋白等)的核苷酸序列,所述蛋白质标签可融合至cas12l蛋白,从而产生融合cas12l多肽。
[0331]
在一些实施方案中,编码cas12l引导rna和/或cas12l融合多肽的核苷酸序列可操作地连接至诱导型启动子。在一些实施方案中,编码cas12l引导rna和/或cas12l融合蛋白的核苷酸序列可操作地连接至组成型启动子。
[0332]
启动子可以是组成型活性启动子(即,组成性地处于活性/“on”状态的启动子),它可以是诱导型启动子(即,通过外界刺激例如特定温度、化合物或蛋白质的存在控制其状态(活性/“on”或非活性/“off”)的启动子),它可以是空间限制的启动子(即,转录控制元件、增强子等)(例如,组织特异性启动子、细胞类型特异性启动子等),并且它可以是时间限制的启动子(即,启动子在胚胎发育的特定阶段过程中或在生物过程的特定阶段(例如,小鼠体内的毛囊周期)过程中处于“on”状态或“off”状态)。
[0333]
合适的启动子可衍生自病毒并且可因此称为病毒启动子,或者它们可衍生自任何生物,包括原核生物或真核生物。合适的启动子可用来通过任何rna聚合酶(例如,pol i、pol ii、pol iii)驱动表达。示例性启动子包括但不限于sv40早期启动子、小鼠乳腺肿瘤病毒长末端重复序列(ltr)启动子;腺病毒主要晚期启动子(ad mlp);单纯疱疹病毒(hsv)启动子、巨细胞病毒(cmv)启动子诸如cmv立即早期启动子区(cmvie)、劳斯肉瘤病毒(rsv)启动子、人u6小核启动子(u6)(miyagishi等人,nature biotechnology 20,497-500(2002))、增强的u6启动子(例如,xia等人,nucleic acids res.2003年9月1日;31(17))、人h1启动子(h1)等。
[0334]
在一些情况下,编码cas12l引导rna的核苷酸序列可操作地连接至(受控制于)在真核细胞中可操作的启动子(例如,u6启动子、增强的u6启动子、h1启动子等)。如本领域的普通技术人员所理解的,当使用u6启动子(例如,在真核细胞中)或另一种poliii启动子由核酸(例如,表达载体)表达rna(例如,引导rna)时,如果连续存在若干个t(在rna中编码u),则可能需要对rna进行突变。这是因为dna中的一串t(例如,5个t)可充当聚合酶iii
(poliii)的终止子。因此,为了确保引导rna在真核细胞中的转录,有时可能需要修饰编码引导rna的序列以消除t的作用。在一些情况下,编码cas12l蛋白(例如,野生型cas12l蛋白、切口酶cas12l蛋白、dcas12l蛋白、融合cas12l蛋白等)的核苷酸序列可操作地连接至在真核细胞中可操作的启动子(例如,cmv启动子、ef1α启动子、雌激素受体调控的启动子等)。
[0335]
诱导型启动子的实例包括但不限于t7 rna聚合酶启动子、t3rna聚合酶启动子、异丙基-β-d-硫代半乳糖苷(iptg)调控的启动子、乳糖诱导的启动子、热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等。因此,诱导型启动子可通过分子调控,所述分子包括但不限于强力霉素;雌激素和/或雌激素类似物;iptg等。
[0336]
适合使用的诱导型启动子包括本文描述的或本领域普通技术人员已知的任何诱导型启动子。诱导型启动子的实例包括但不限于化学/生物化学调节的和物理调节的启动子,例如醇调节的启动子、四环素调节的启动子(例如脱水四环素(atc)应答启动子和其它四环素应答启动子系统,包括四环素阻遏蛋白(tetr)、四环素操纵子序列(teto)和四环素反式激活因子融合蛋白(tta))、类固醇调节的启动子(例如基于大鼠糖皮质激素受体、人雌激素受体、蛾蜕皮激素受体和来自类固醇/类视黄醇/甲状腺受体超家族的启动子)、金属调节的启动子(例如,来源于酵母、小鼠和人的金属硫蛋白(结合和螯合金属离子的蛋白质)基因的启动子)、发病机理调节的启动子(例如,由水杨酸、乙烯或苯并噻二唑(bth)诱导的)、温度/热诱导型启动子(例如,热休克启动子)和光调节的启动子(例如,来自植物细胞的光响应性启动子)。
[0337]
在一些情况下,启动子是空间限制的启动子(即,细胞类型特异性启动子、组织特异性启动子等),使得在多细胞生物体中,启动子在特定细胞子组中是活性的(即,“on”)。空间限制的启动子也可称为增强子、转录控制元件、控制序列等。可使用任何方便的空间限制的启动子,只要启动子在靶向宿主细胞(例如,真核细胞;原核细胞)中是功能性的即可。
[0338]
在一些情况下,启动子是可逆启动子。合适的可逆启动子,包括可逆诱导型启动子,在本领域中是已知的。此类可逆启动子可分离自并衍生自许多生物体,例如真核生物和原核生物。用于第二生物体的衍生自第一生物体(例如,第一原核生物和第二真核生物、第一真核生物和第二原核生物等)的可逆启动子的修饰在本领域中是众所周知的。此类可逆启动子和基于此类可逆启动子但还包含另外的控制蛋白的系统包括但不限于醇调控的启动子(例如,醇脱氢酶i(alca)基因启动子、响应于醇反式激活因子蛋白(alcr)的启动子等)、四环素调控的启动子(例如,包括tet激活因子、teton、tetoff等的启动子系统)、类固醇调控的启动子(例如,大鼠糖皮质激素受体启动子系统、人雌激素受体启动子系统、类视黄醇启动子系统、甲状腺启动子系统、蜕皮激素启动子系统、米非司酮启动子系统等)、金属调控的启动子(例如,金属硫蛋白启动子系统等)、发病原相关的调控启动子(例如,水杨酸调控的启动子、乙烯调控的启动子、苯并噻二唑调控的启动子等)、温度调控的启动子(例如,热休克诱导型启动子(例如,hsp-70、hsp-90、大豆热休克启动子等))、光调控的启动子、合成诱导型启动子等。
[0339]
rna聚合酶iii(pol iii)启动子可用于驱动非蛋白质编码rna分子(例如,引导rna)表达。在一些情况下,合适的启动子是pol iii启动子。在一些情况下,pol iii启动子可操作地连接到编码引导rna(grna)的核苷酸序列。在一些情况下,pol iii启动子可操作
地连接到编码单引导rna(sgrna)的核苷酸序列。在一些情况下,pol iii启动子可操作地连接到编码crispr rna(crrna)的核苷酸序列。在一些情况下,pol iii启动子可操作地连接到编码tracrrna的核苷酸序列。
[0340]
pol iii启动子的非限制性实例包括u6启动子、hl启动子、5s启动子、腺病毒2(ad2)vai启动子、trna启动子和7sk启动子。参见例如schramm和hernandez(2002)genes&development16:2593-2620。在一些情况下,pol iii启动子选自由以下组成的组:u6启动子、hl启动子、5s启动子、腺病毒2(ad2)vai启动子、trna启动子和7sk启动子。在一些情况下,引导rna编码核苷酸序列可操作地连接到选自由u6启动子、hl启动子、5s启动子、腺病毒2(ad2)vai启动子、trna启动子和7sk启动子组成的组的启动子。在一些情况下,编码单引导rna的核苷酸序列可操作地连接到选自由u6启动子、hl启动子、5s启动子、腺病毒2(ad2)vai启动子、trna启动子和7sk启动子组成的组的启动子。
[0341]
描述可在本文中用于在植物、植物组织和植物细胞中表达的启动子的实例包括但不限于以下中描述的启动子:美国专利号6,437,217(玉米rs81启动子)、美国专利号5,641,876(水稻肌动蛋白启动子)、美国专利号6,426,446(玉米rs324启动子)、美国专利号6,429,362(玉米pr-1启动子)、美国专利号6,232,526(玉米a3启动子)、美国专利号6,177,611(组成型玉米启动子)、美国专利号5,322,938、5,352,605、5,359,142和5,530,196(35s启动子)、美国专利号6,433,252(玉米l3油质蛋白启动子)、美国专利号6,429,357(水稻肌动蛋白2启动子以及水稻肌动蛋白2内含子)、美国专利号5,837,848(根特异性启动子)、美国专利号6,294,714(光诱导型启动子)、美国专利号6,140,078(盐诱导型启动子)、美国专利号6,252,138(病原体诱导型启动子)、美国专利号6,175,060(磷缺乏诱导型启动子)、美国专利号6,635,806(γ-胶原蛋白启动子)和美国专利申请序列号09/757,089(玉米叶绿体醛缩酶启动子)。可以使用的其它启动子包括胭脂氨酸合酶(nos)启动子(ebert等人,1987)、章鱼碱合酶(ocs)启动子(其携带在根癌土壤杆菌的肿瘤诱导质粒上)、花椰菜病毒启动子诸如花椰菜花叶病毒(camv)19s启动子(lawton等人plant molecular biology(1987)9:315-324)、camv 35s启动子(odell等人,nature(1985)313:810-812)、玄参花叶病毒35s-启动子(美国专利号6,051,753;5,378,619)、蔗糖合酶启动子(yang和russell,proceedings of the national academy of sciences,usa(1990)87:4144-4148)、r基因复合物启动子(chandler等人,plant cell(1989)1:1175-1183)和叶绿素a/b结合蛋白基因启动子pc1sv(美国专利号5,850,019)和agrtu.nos(genbank登录号v00087;depicker等人,journal of molecular and applied genetics(1982)1:561-573;bevan等人,1983)启动子。
[0342]
将核酸(例如,包含供体多核苷酸序列的核酸、一种或多种编码cas12l蛋白和/或cas12l引导rna的核酸等)引入宿主细胞中的方法在本领域中是已知的,并且可使用任何方便的方法来将核酸(例如,表达构建体)引入细胞中。合适的方法包括例如病毒感染、转染、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(pei)介导的转染、deae-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送等。
[0343]
将重组表达载体引入细胞中可在促进细胞存活的任何培养基中和任何培养条件下发生。将重组表达载体引入靶细胞中可在体内或离体进行。将重组表达载体引入靶细胞中可在体外进行。
[0344]
在一些实施方案中,cas12l蛋白可以作为rna提供。rna可通过直接化学合成提供,
或者可在体外从dna(例如,编码cas12l蛋白的dna)转录。一旦合成,可通过用于将核酸引入细胞中的任何众所周知的技术(例如,微注射、电穿孔、转染等)将rna引入细胞中。
[0345]
可使用开发良好的转染技术(参见例如angel和yanik(2010)plos one 5(7):e11756);以及可从qiagen商购获得的试剂、可从stemgent商购获得的stemfect
tm
rna转染试剂盒和可从mirus bio llc商购获得的-mrna转染试剂盒向细胞提供核酸。还参见beumer等人(2008)pnas105(50):19821-19826。
[0346]
可直接向靶宿主细胞提供载体。换句话讲,使细胞与包含主题核酸的载体(例如,具有供体模板序列并编码cas12l引导rna的重组表达载体;编码cas12l蛋白的重组表达载体等)接触,使得载体被细胞吸收。用于使细胞与作为质粒的核酸载体接触的方法(包括电穿孔、氯化钙转染、微注射和脂质体转染)在本领域中是众所周知的。对于病毒载体递送,可使细胞与包含主题病毒表达载体的病毒颗粒接触。
[0347]
逆转录病毒,例如慢病毒,适用于本公开的方法。通常使用的逆转录病毒载体是“缺陷型的”,即不能产生生产性感染所需要的病毒蛋白质。而且载体的复制需要在包装细胞系中生长。为了生成包含目标核酸的病毒颗粒,通过包装细胞系将包含核酸的逆转录病毒核酸包装到病毒衣壳中。不同的包装细胞系提供待并入衣壳中的不同包膜蛋白(嗜亲性、双嗜性或嗜异性),此包膜蛋白决定病毒颗粒对细胞的特异性(对鼠和大鼠的嗜亲性;对包括人、狗和小鼠的大多数哺乳动物细胞类型的双嗜性;以及对除了鼠细胞之外的大多数哺乳动物细胞类型的嗜异性)。适当的包装细胞系可用来确保细胞被包装的病毒颗粒靶向。将主题载体表达载体引入包装细胞系中以及采集由包装细胞系生成的病毒颗粒的方法在本领域中是众所周知的。还可通过直接微注射引入核酸(例如,rna的注射)。
[0348]
用于向靶宿主细胞提供编码cas12l引导rna和/或cas12l多肽的核酸的载体可包括用于驱动目标核酸的表达(即,转录激活)的合适的启动子。换句话讲,在一些情况下,目标核酸将可操作地连接至启动子。所述启动子可包括遍在活化型启动子,例如cmv-β-肌动蛋白启动子;或诱导型启动子,诸如在特定细胞群中有活性或对药物(诸如四环素的)存在有响应的启动子。通过转录激活,预期转录将在靶细胞中与基础水平相比增加10倍、100倍、更通常地1000倍。另外,用于向细胞提供编码cas12l引导rna和/或cas12l蛋白的核酸的载体可包含如下核酸序列,其在靶细胞中编码可选择标记以便鉴定已经吸收cas12l引导rna和/或cas12l蛋白的细胞。
[0349]
包含编码cas12l多肽或cas12l融合多肽的核苷酸序列的核酸在一些情况下是rna。因此,可将cas12l融合蛋白以rna的形式引入细胞中。将rna引入细胞中的方法在本领域中是已知的并且可包括例如直接注射、转染或用于引入dna的任何其他方法。cas12l蛋白可替代地以多肽的形式向细胞提供。这种多肽可任选地融合至增加产物溶解度的多肽结构域。所述结构域可通过限定的蛋白酶切割位点(例如,通过tev蛋白酶切割的tev序列)连接至多肽。接头还可包括一个或多个柔性序列,例如1至10个甘氨酸残基。在一些实施方案中,融合蛋白的切割在维持产物溶解度的缓冲液中进行,例如在0.5至2m尿素存在下、在增加溶解度的多肽和/或多核苷酸的存在下等进行。目标结构域包括核内体溶解结构域,例如流感ha结构域;和有助于产生的其他多肽,例如if2结构域、gst结构域、grpe结构域等。多肽可配制用于改进的稳定性。例如,肽可以是peg化的,其中聚乙烯氧基提供在血流中的增加的寿命。
[0350]
另外或可替代地,本公开的cas12l多肽可融合至多肽穿透结构域以促进被细胞吸收。许多穿透结构域在本领域中是已知的并且可用于本公开的非整合多肽,包括肽、肽模拟物和非肽运载体。例如,穿透肽可衍生自黑腹果蝇转录因子触角足基因(称为穿透蛋白)的第三α螺旋,所述第三α螺旋包含氨基酸序列rqikiwfqnrrmkwkk(seq id no:44)。作为另一个实例,穿透肽包含hiv-1tat碱性区氨基酸序列,所述氨基酸序列可包括例如天然存在的tat蛋白的氨基酸49-57。其他穿透结构域包括聚精氨酸基序,例如hiv-1rev蛋白的氨基酸34-56的区域、九精氨酸、八精氨酸等。(参见例如futaki等人(2003)curr protein pept sci.2003年4月;4(2):87-9和446;以及wender等人(2000)proc.natl.acad.sci.u.s.a 2000年11月21日;97(24):13003-8;公布的美国专利申请20030220334;20030083256;20030032593;和20030022831,在此以引用方式明确地并入易位肽和类肽的教导内容中)。九精氨酸(r9)序列是已表征的更有效的ptd之一(wender等人2000;uemura等人2002)。可选择进行融合的位点以便优化多肽的生物活性、分泌或结合特征。将通过常规实验确定最佳位点。
[0351]
如上所述,在一些情况下,靶细胞是植物细胞。用重组核酸转化植物细胞中的染色体或质体的许多方法是本领域已知的,根据本技术的方法,这些方法可用于产生转基因植物细胞和/或转基因植物。可以使用本领域已知的任何合适的转化植物细胞的方法或技术。用于转化植物的有效方法包括细菌介导的转化,诸如土壤杆菌介导的或根瘤菌介导的转化和微粒轰击介导的转化。通过细菌介导的转化或微粒轰击以及随后的培养等,用转化载体转化外植体的多种方法是本领域已知的,这些外植体再生或发展转基因植物。用于植物转化的其它方法,诸如显微注射、电穿孔、真空渗透、压力、超声、碳化硅纤维搅动、peg介导的转化等,也是本领域已知的。根据所用的方法和外植体,通过这些转化方法产生的转基因植物对于转化事件而言可以是嵌合的或非嵌合的。
[0352]
转化植物细胞的方法是本领域普通技术人员熟知的。例如,通过使用用重组dna包被的颗粒进行微粒轰击来转化植物细胞(例如,基因枪转化)的具体说明可见于美国专利号5,550,318;5,538,8806,160,208;6,399,861;和6,153,812中,并且土壤杆菌介导的转化描述于美国专利号5,159,135;5,824,877;5,591,616;6,384,301;5,750,871;5,463,174;和5,188,958中。用于转化植物的其他方法可以在例如compendium of transgenic crop plants(2009)blackwell publishing中找到。本领域技术人员已知的任何合适的方法可用于用本文提供的任何核酸转化植物细胞。
[0353]
本公开的cas12l多肽可在体外或通过真核细胞或通过原核细胞产生,并且它可通过解折叠(例如热变性、二硫苏糖醇还原等)进一步加工,并且可使用本领域已知的方法进一步再折叠。
[0354]
不改变一级序列的目标修饰包括多肽的化学衍生化,例如酰化、乙酰化、羧化、酰胺化等。还包括糖基化的修饰,例如通过在多肽的合成和加工过程中或在进一步加工步骤中修饰多肽的糖基化形式而进行的那些修饰;例如通过将多肽暴露于影响糖基化的酶(诸如哺乳动物糖基化酶或脱糖基化酶)而进行的那些修饰。还涵盖具有磷酸化氨基酸残基例如磷酸酪氨酸、磷酸丝氨酸或磷酸苏氨酸的序列。
[0355]
还适合包括在本公开的实施方案中的是核酸(例如,编码cas12l引导rna、编码cas12l融合蛋白等的核酸)和蛋白质(例如,衍生自野生型蛋白质或变体蛋白质的cas12l融
合蛋白),所述核酸和蛋白质已使用普通分子生物学技术和合成化学进行修饰,以便改进它们对蛋白水解降解的抗性,改变靶序列特异性,优化溶解特性,改变蛋白质活性(例如,转录调节活性、酶促活性等)或使它们更合适。此类多肽的类似物包括含有除了天然存在的l-氨基酸之外的残基(例如,d-氨基酸或非天然存在的合成氨基酸)的那些多肽。d-氨基酸可取代一些或所有氨基酸残基。
[0356]
可使用如本领域已知的常规方法,通过体外合成制备本公开的cas12l多肽。可使用各种商业合成装置,例如applied biosystems,inc.、beckman等的自动合成仪。通过使用合成仪,天然存在的氨基酸可被非天然氨基酸取代。制备的具体顺序和方式将通过方便性、经济性、所需纯度等来确定。
[0357]
如果需要,可在合成过程中或在表达过程中将各种基团引入肽中,这允许连接至其他分子或表面。因此半胱氨酸可用来制备硫醚、组氨酸用于连接至金属离子络合物,羧基用于形成酰胺或酯,氨基用于形成酰胺等。
[0358]
还可根据常规重组合成方法分离和纯化本公开的cas12l多肽。可由表达宿主制备裂解液,并且使用高效液相色谱法(hplc)、排阻色谱法、凝胶电泳、亲和色谱法或其他纯化技术来纯化裂解液。大多数情况下,相对于与产物制备及其纯化的方法相关的污染物,所使用的组合物将占所需产物的20重量%或更多、更通常地75重量%或更多、优选地95重量%或更多,并且出于治疗目的通常为99.5重量%或更多。通常,百分数将基于总蛋白。因此,在一些情况下,本公开的cas12l多肽或cas12l融合多肽具有至少80%纯度、至少85%纯度、至少90%纯度、至少95%纯度、至少98%纯度或至少99%纯度(例如,不含污染物、非cas12l蛋白质或其他大分子等)。
[0359]
为了诱导对靶核酸(例如,基因组dna)的切割或任何所需的修饰,或对与靶核酸相关联的多肽的任何所需的修饰,向细胞提供本公开的cas12l引导rna和/或cas12l多肽和/或供体模板序列(无论它们作为核酸还是多肽引入)持续约30分钟至约24小时,例如1小时、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、5小时、6小时、7小时、8小时、12小时、16小时、18小时、20小时或约30分钟至约24小时的任何其他时间段,这可以约每天至约每4天的频率来重复,例如以每1.5天、每2天、每3天或约每天至约每四天的任何其他频率来重复。可一次或多次(例如一次、两次、三次或多于三次)向主题细胞提供一种或多种剂,并且在每次接触事件之后允许将细胞与所述一种或多种剂孵育持续一定时间量,例如16-24小时,在所述时间之后用新鲜培养基替代培养基并且进一步培养细胞。
[0360]
在其中向细胞提供两种或更多种不同靶向复合物(例如,与相同或不同靶核酸内的不同序列互补的两种不同cas12l引导rna)的情况下,可同时提供(例如,作为两种多肽和/或核酸)或同时递送所述复合物。可替代地,可连续提供复合物,例如首先提供靶向复合物,接着提供第二靶向复合物等,或反之亦然。
[0361]
为了改进dna载体向靶细胞的递送,可例如通过使用脂质复合物(lipoplex)和聚合复合物(polyplex)保护dna免受损伤,并且促进dna进入细胞中。因此,在一些情况下,本公开的核酸(例如,本公开的重组表达载体)可用有组织的结构(像胶束或脂质体)中的脂质覆盖。当有组织的结构与dna复合时,它被称为脂质复合物。存在三种类型的脂质,阴离子脂质(带负电)、中性脂质或阳离子脂质(带正电)。利用阳离子脂质的脂质复合物已被证明可用于基因转移。阳离子脂质由于其正电荷,与带负电的dna天然复合。同样由于它们的电荷,
它们与细胞膜相互作用。然后发生脂质复合物的内吞作用,并且将dna释放到细胞质中。阳离子脂质还可防止细胞对dna的降解。
[0362]
聚合物与dna的复合物称为聚合复合物。大多数聚合复合物由阳离子聚合物组成,并且它们的产生由离子相互作用调控。聚合复合物与脂质复合物的作用方法之间的一个巨大差异是聚合复合物不能将其dna负载释放到细胞质中,为此,必须发生与内体溶解剂(溶解内吞作用期间产生的内体)诸如灭活的腺病毒共转染。然而,并非总是如此;诸如聚乙烯亚胺的聚合物与壳聚糖和三甲基壳聚糖一样,都有自己的内体破坏方法。
[0363]
树枝状聚合物,一种球形的高度支化的大分子,也可用于遗传修饰干细胞。树枝状聚合物颗粒的表面可被官能化以改变其特性。具体地,可能构建阳离子树枝状聚合物(即,具有正表面电荷的树枝状聚合物)。当存在遗传物质(诸如dna质粒)时,电荷互补性导致核酸与阳离子树枝状聚合物的暂时缔合。树枝状聚合物-核酸复合物在到达其目的地时,可通过内吞作用被吸收到细胞中。
[0364]
在一些情况下,本公开的核酸(例如,表达载体)包含目标引导序列的插入位点。例如,核酸可包含目标引导序列的插入位点,其中所述插入位点紧邻编码cas12l引导rna的部分的核苷酸序列,当引导序列被改变而与所需靶序列(例如,有助于引导rna的cas12l结合方面的序列,例如,有助于cas12l引导rna的一个或多个dsrna双链体的序列-引导rna的这个部分也可称为引导rna的“支架”或“恒定区”)杂交时,cas12l引导rna的所述部分不会改变。因此,在一些情况下,主题核酸(例如,表达载体)包含编码cas12l引导rna的核苷酸序列,不同的是编码引导rna的引导序列部分的部分是插入序列(插入位点)。插入位点是用于插入所需序列的任何核苷酸序列。用于各种技术的“插入位点”是本领域的普通技术人员已知的,并且可使用任何方便的插入位点。插入位点可用于操纵核酸序列的任何方法。例如,在一些情况下,插入位点是多克隆位点(mcs)(例如,包含一个或多个限制性酶识别序列的位点),用于不依赖于连接的克隆的位点,用于基于重组的克隆(例如,基于att位点的重组)的位点,由基于crispr/cas(例如cas9)的技术识别的核苷酸序列等。
[0365]
插入位点可以是任何期望的长度,并且可取决于插入位点的类型(例如,可取决于位点是否包含一个或多个限制性酶识别序列(以及包含多少限制性酶识别序列),位点是否包括crispr/cas蛋白的靶位点等)。在一些情况下,主题核酸的插入位点的长度为3个或更多个核苷酸(nt)(例如,长度为5个或更多个、8个或更多个、10个或更多个、15个或更多个、17个或更多个、18个或更多个、19个或更多个、20个或更多个、或者25个或更多个、或者30个或更多个nt)。在一些情况下,主题核酸的插入位点的长度具有在2至50个核苷酸(nt)的范围内(例如,2至40个nt、2至30个nt、2至25个nt、2至20个nt、5至50个nt、5至40个nt、5至30个nt、5至25个nt、5至20个nt、10至50个nt、10至40个nt、10至30个nt、10至25个nt、10至20个nt、17至50个nt、17至40个nt、17至30个nt、17至25个nt)的长度。在一些情况下,主题核酸的插入位点的长度具有在5至40个nt的范围内的长度。
[0366]
核酸修饰
[0367]
在一些实施方案中,主题核酸(例如,cas12l引导rna)具有一个或多个修饰(例如,碱基修饰、骨架修饰等)以对核酸提供新的或增强的特征(例如,改进的稳定性)。核苷是碱基-糖组合。核苷的碱基部分通常是杂环碱基。此类杂环碱基的两个最常见类别是嘌呤和嘧啶。核苷酸是还包含共价连接至核苷的糖部分的磷酸酯基团的核苷。对于包含戊呋喃糖的
那些核苷,磷酸酯基团可连接至糖的2'、3'或5'羟基部分。在形成寡核苷酸中,磷酸酯基团共价连接彼此相邻的核苷以形成线性聚合化合物。继而,此线性聚合化合物的各端可进一步连接以形成环状化合物,然而,线性化合物是合适的。另外,线性化合物可具有内部核苷酸碱基互补性并且因此可以为了产生完全或部分双链化合物的方式折叠。在寡核苷酸内,磷酸酯基团通常被称为形成寡核苷酸的核苷间骨架。rna和dna的正常键或骨架是3'到5'的磷酸二酯键。
[0368]
合适的核酸修饰包括但不限于:2'o甲基修饰的核苷酸、2'氟修饰的核苷酸、锁核酸(lna)修饰的核苷酸、肽核酸(pna)修饰的核苷酸、具有硫代磷酸酯键的核苷酸和5'帽(例如,7-甲基鸟苷酸帽(m7g))。下文描述另外的细节和另外的修饰。
[0369]
2'-o-甲基修饰的核苷酸(也称为2'-o-甲基rna)是在trna和其他小rna中发现的天然存在的rna修饰,其作为转录后修饰而出现。可直接合成含有2'-o-甲基rna的寡核苷酸。这种修饰增加rna:rna双链体的tm,但仅导致rna:dna稳定性的微小变化。它对于单链核糖核酸酶的攻击是稳定的,并且对dna酶的易感性通常是dna的5至10倍低。它通常用于反义寡核苷酸中,作为增加稳定性和对于靶信使的结合亲和力的手段。
[0370]
2'氟修饰的核苷酸(例如,2'氟碱基)具有氟修饰的核糖,其增加结合亲和力(tm)并且与天然rna相比还赋予一定程度的相对核酸酶抗性。这些修饰通常用于核酶和sirna中以改进在血清或其他生物体液中的稳定性。
[0371]
lna碱基具有对核糖骨架的修饰,其将碱基锁定在c3'-内部位置,这有利于rna a型螺旋双链体几何结构。这种修饰显著增加tm并且还具有非常强的核酸酶抗性。可将多个lna插入置于寡核苷酸中的除了3'末端之外的任何位置。已经描述了从反义寡核苷酸到杂交探针到snp检测和等位基因特异性pcr的应用。由于lna赋予tm的大量增加,它们还可引起引物二聚体形成以及自发夹的形成的增加。在一些情况下,并入单个寡核苷酸中的lna的数量是10个碱基或更少。
[0372]
硫代磷酸酯(ps)键(即,硫代磷酸酯键联)用硫原子取代核酸(例如,寡核苷酸)的磷酸酯骨架中的非桥接氧。这种修饰使得核苷酸间键对核酸酶降解具有抗性。可在寡核苷酸的5'或3'末端的最后3-5个核苷酸之间引入硫代磷酸酯键以抑制外切核酸酶降解。在寡核苷酸内(例如,在整个寡核苷酸中)包含硫代磷酸酯键也可帮助减少内切核酸酶的攻击。
[0373]
在一些实施方案中,主题核酸具有一个或多个核苷酸,所述一个或多个核苷酸是2'-o-甲基修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有一个或多个2’氟修饰的核苷酸。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有一个或多个lna碱基。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有通过硫代磷酸酯键连接的一个或多个核苷酸(即,主题核酸具有一个或多个硫代磷酸酯键联)。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有5'帽(例如,7-甲基鸟苷酸帽(m7g))。在一些实施方案中,主题核酸(例如,dsrna、sina等)具有修饰的核苷酸的组合。例如,除具有一个或多个具有其他修饰的核苷酸(例如,2'-o-甲基核苷酸和/或2'氟修饰的核苷酸和/或lna碱基和/或硫代磷酸酯键联)之外,主题核酸(例如,dsrna、sina等)可具有5'帽(例如,7-甲基鸟苷酸帽(m7g))。
[0374]
修饰的骨架和修饰的核苷间键联
[0375]
含有修饰的合适的核酸(例如,cas12l引导rna)的实例包括含有修饰的骨架或非
天然的核苷间键联的核酸。具有修饰的骨架的核酸包括在骨架中保留磷原子的那些核酸和在骨架中不具有磷原子的那些核酸。
[0376]
其中含有磷原子的合适的修饰的寡核苷酸骨架包括例如,硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其他烷基磷酸酯(包括3'-亚烷基磷酸酯、5'-亚烷基磷酸酯和手性磷酸酯)、次膦酸酯、氨基磷酸酯(包括3'-氨基氨基磷酸酯和氨基烷基氨基磷酸酯)、二氨基磷酸酯、硫羰氨基磷酸酯、硫羰烷基磷酸酯、硫羰烷基磷酸三酯,具有正常3'-5'键联的硒代磷酸酯和硼代磷酸酯、这些物质的2'-5'连接类似物以及具有反极性的那些寡核苷酸骨架,其中一个或多个核苷酸间键联为3'至3'、5'至5'或2'至2'键联。具有反极性的合适的寡核苷酸在最3'核苷酸间键处包含单个3'至3'键联,即可为碱性(核碱基丢失或其被羟基替代)的单个反核苷残基。还包括各种盐(例如像钾或钠)、混合盐和游离酸形式。
[0377]
在一些实施方案中,主题核酸包含一个或多个硫代磷酸酯和/或杂原子核苷间键联,具体地是-ch
2-nh-o-ch
2-、-ch
2-n(ch3)-o-ch
2-(称为亚甲基(甲基亚氨基)或mmi骨架)、-ch
2-o-n(ch3)-ch
2-、-ch
2-n(ch3)-n(ch3)-ch
2-和-o-n(ch3)-ch
2-ch
2-(其中天然磷酸二酯核苷酸间键联表示为-o-p(=o)(oh)-o-ch
2-)。mmi型核苷间键联公开于上文提及的美国专利号5,489,677中,所述专利的公开内容以引用方式整体并入本文。合适的酰胺核苷间键联公开于美国专利号5,602,240中,所述专利的公开内容以引用方式整体并入本文。
[0378]
还合适的是具有吗啉代骨架结构的核酸,如例如美国专利号5,034,506中所述。例如,在一些实施方案中,主题核酸包含替代核糖环的6元吗啉代环。在这些实施方案的一些实施方案中,二氨基磷酸酯或其他非磷酸二酯核苷间键联替代磷酸二酯键联。
[0379]
其中不包含磷原子的合适的修饰的多核苷酸骨架具有通过短链烷基或环烷基核苷间键联、混合杂原子和烷基或环烷基核苷间键联或一个或多个短链杂原子或杂环核苷间键联形成的骨架。这些包括:具有吗啉代键联(部分地由核苷的糖部分形成)的那些骨架;硅氧烷骨架;硫化物、亚砜和砜骨架;甲酰乙酰基和硫代甲酰乙酰基骨架;亚甲基甲酰乙酰基和硫代甲酰乙酰基骨架;核糖乙酰基(riboacetyl)骨架;含烯烃的骨架;氨基磺酸酯骨架;亚甲基亚胺基和亚甲基肼基骨架;磺酸酯和磺酰胺骨架;酰氨骨架;以及具有混合的n、o、s和ch2组成部分的其他骨架。
[0380]
模拟物
[0381]
主题核酸可以是核酸模拟物。当对多核苷酸应用术语“模拟物”时意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间键联两者被非呋喃糖基团替代的多核苷酸,仅呋喃糖环替代在本领域中也称为糖替代。维持杂环碱基部分或修饰的杂环碱基部分用于与适当的靶核酸的杂交。一种这样的核酸(已显示出具有优良杂交特性的多核苷酸模拟物)称为肽核酸(pna)。在pna中,多核苷酸的糖骨架被含酰胺的骨架替代,具体地被氨基乙基甘氨酸骨架替代。核苷酸被保留下来并且直接或间接键合至骨架的酰胺部分的氮杂氮原子。
[0382]
已报道具有优良杂交特性的一种多核苷酸模拟物是肽核酸(pna)。pna化合物中的骨架是给予pna含酰胺骨架的两个或更多个连接的氨基乙基甘氨酸单元。杂环碱基部分直接或间接键合至骨架的酰胺部分的氮杂氮原子。描述pna化合物制备的代表性美国专利包括但不限于:美国专利号5,539,082;5,714,331;和5,719,262,所述专利的公开内容以引用方式整体并入本文。
[0383]
已被研究的另一类多核苷酸模拟物基于具有附着至吗啉代环的杂环碱基的连接吗啉代单元(吗啉代核酸)。已报道连接吗啉代核酸中的吗啉代单体单元的许多连接基团。已选择一类连接基团来得到非离子型低聚化合物。基于非离子型吗啉代的低聚化合物不太可能与细胞蛋白质有不期望的相互作用。基于吗啉代的多核苷酸是不太可能与细胞蛋白质形成不期望的相互作用的寡核苷酸的非离子型模拟物(dwaine a.braasch和david r.corey,biochemistry,2002,41(14),4503-4510)。基于吗啉代的多核苷酸公开于美国专利号5,034,506中,所述专利的公开内容以引用方式整体并入本文。已制备了吗啉代类多核苷酸内的多种化合物,所述化合物具有连接单体亚单元的多种不同的连接基团。
[0384]
另一类多核苷酸模拟物称为环己烯基核酸(cena)。通常存在于dna/rna分子中的呋喃糖环被环己烯基环替代。已制备了cena dmt保护的亚磷酰胺单体并且用于根据经典亚磷酰胺化学性质的低聚化合物合成。已制备并且研究了完全修饰的cena低聚化合物和具有用cena修饰的特异性位置的寡核苷酸(参见wang等人,j.am.chem.soc.,2000,122,8595-8602,其公开内容以引用方式整体并入本文)。通常,cena单体并入到dna链中增加了dna/rna杂交体的稳定性。cena寡腺苷酸与rna和dna互补序列形成具有与天然复合物相似的稳定性的复合物。通过nmr和圆二色性示出将cena结构并入天然核酸结构中的研究以继续进行简单的构象调整。
[0385]
另一种修饰包括锁核酸(lna),其中2'-羟基连接至糖环的4'碳原子从而形成2'-c、4'-c-氧基亚甲基键联,从而形成双环糖部分。所述键可以是亚甲基(-ch
2-),即桥接2’氧原子和4'碳原子的基团,其中n为1或2(singh等人,chem.commun.,1998,4,455-456,其公开内容以引用方式整体并入本文)。lna和lna类似物显现出与互补dna和rna具有非常高的双链体热稳定性(tm= 3℃至 10℃)、朝向3'-核酸外切降解的稳定性和良好的溶解特性。已经描述了含有lna的有效且无毒的反义寡核苷酸(例如wahlestedt等人,proc.natl.acad.sci.u.s.a.,2000,97,5633-5638,其公开内容以引用方式整体并入本文)。
[0386]
已描述了lna单体腺嘌呤、胞嘧啶、鸟嘌呤、5-甲基-胞嘧啶、胸腺嘧啶和尿嘧啶的合成和制备连同其低聚化以及核酸识别特性(例如,koshkin等人,tetrahedron,1998,54,3607-3630,其公开内容以引用方式整体并入本文)。lna及其制备也描述于wo 98/39352和wo99/14226以及美国申请20120165514、20100216983、20090041809、20060117410、20040014959、20020094555和20020086998中,所述专利的公开内容以引用方式整体并入本文。
[0387]
修饰的糖部分
[0388]
主题核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包含选自以下的糖取代基团:oh;f;o-、s-或n-烷基;o-、s-或n-烯基;o-、s-或n-炔基;或o-烷基-o-烷基,其中烷基、烯基和炔基可以是取代或未取代的c1至c
10
烷基或c2至c
10
烯基和炔基。特别合适的是:o((ch2)no)mch3、o(ch2)noch3、o(ch2)nnh2、o(ch2)nch3、o(ch2)nonh2和o(ch2)non((ch2)nch3)2,其中n和m为1至约10。其他合适的多核苷酸包含选自以下的糖取代基团:c1至c
10
低级烷基、取代的低级烷基、烯基、炔基、烷芳基、芳烷基、o-烷芳基或o-芳烷基、sh、sch3、ocn、cl、br、cn、cf3、ocf3、soch3、so2ch3、ono2、no2、n3、nh2、杂环烷基、杂环烷芳基、氨基烷氨基、聚烷氨基、取代的硅烷基、rna切割基团、报告基团、嵌入剂、具有改进寡核苷酸的药物代谢动力学
1.2℃(sanghvi等人编antisense research and applications,crc press,boca raton,1993,第276-278页;其公开内容以引用方式整体并入本文)并且例如当与2'-o-甲氧基乙基糖修饰组合时是适合的碱基取代。
[0393]
缀合物
[0394]
主题核酸的另一种可能的修饰涉及将增强寡核苷酸的活性、细胞分布或细胞吸收的一个或多个部分或缀合物化学连接至多核苷酸。这些部分或缀合物可包括共价键合至诸如伯羟基或仲羟基的官能团的缀合物基团。缀合物基团包括但不限于嵌入剂、报告分子、多胺、聚酰胺、聚乙二醇、聚醚、增强低聚物的药效动力学特性的基团以及增强低聚物的药物代谢动力学特性的基团。合适的缀合物基团包括但不限于胆固醇、脂质、磷脂、生物素、吩嗪、叶酸酯、菲啶、蒽醌、吖啶、荧光素、罗丹明、香豆素以及染料。增强药效动力学特性的基团包括改进吸收、增强对降解的抗性和/或加强与靶核酸的序列特异性杂交的基团。增强药物代谢动力学特性的基团包括改进主题核酸的吸收、分布、代谢或排泄的基团。
[0395]
缀合物部分包括但不限于脂质部分,诸如胆固醇部分(letsinger等人,proc.natl.acad.sci.usa,1989,86,6553-6556)、胆酸(manoharan等人,bioorg.med.chem.let.,1994,4,1053-1060)、硫醚例如己基-s-三苯甲基硫醇(manoharan等人,ann.n.y.acad.sci.,1992,660,306-309;manoharan等人,bioorg.med.chem.let.,1993,3,2765-2770)、巯基胆固醇(oberhauser等人,nucl.acids res.,1992,20,533-538)、脂族链例如十二烷二醇或十一烷基残基(saison-behmoaras等人,embo j.,1991,10,1111-1118;kabanov等人,febs lett.,1990,259,327-330;svinarchuk等人,biochimie,1993,75,49-54)、磷脂例如二-十六烷基-外消旋-甘油或三乙铵1,2-二-o-十六烷基-外消旋-甘油-3-h-磷酸酯(manoharan等人,tetrahedron lett.,1995,36,3651-3654;shea等人,nucl.acids res.,1990,18,3777-3783)、多胺或聚乙二醇链(manoharan等人,nucleosides&nucleotides,1995,14,969-973),或金刚烷乙酸(manoharan等人,tetrahedron lett.,1995,36,3651-3654)、棕榈基部分(mishra等人,biochim.biophys.acta,1995,1264,229-237),或十八烷基胺或己基氨基-羰基-氧基胆固醇部分(crooke等人,j.pharmacol.exp.ther.,1996,277,923-937)。
[0396]
缀合物可包括“蛋白转导结构域”或ptd(又称为cpp

细胞穿透肽),其可指促进横穿脂质双层、胶束、细胞膜、细胞器膜或囊泡膜的多肽、多核苷酸、碳水化合物或有机化合物或无机化合物。连接至另一个分子(所述分子可在小极性分子至大的高分子和/或纳米颗粒的范围内)的ptd促进分子横穿膜,例如从细胞外空间进入细胞内空间或从胞质溶胶进入细胞器(例如,细胞核)内。在一些实施方案中,ptd与外源多核苷酸的3'末端共价连接。在一些实施方案中,ptd与外源多核苷酸的5'末端共价连接。示例性ptd包括但不限于最小十一氨基酸多肽蛋白转导结构域(对应于包含ygrkkrrqrrr;seq id no:40的hiv-1tat的残基47-57);包含足以直接进入细胞中的多个精氨酸(例如,3个、4个、5个、6个、7个、8个、9个、10个或10-50个精氨酸)的聚精氨酸序列;vp22结构域(zender等人(2002)cancer gene ther.9(6):489-96);果蝇触角足基因(antennapedia)蛋白转导结构域(noguchi等人(2003)diabetes 52(7):1732-1737);截短的人降钙素肽(trehin等人(2004)pharm.research 21:1248-1256);聚赖氨酸(wender等人(2000)proc.natl.acad.sci.usa 97:13003-13008);rrqrrtsklmkr(seq id no:41);运输蛋白(transportan)gwtlnsagyllgkinlkalaalakkil
(seq id no:42);kalaweaklakalakalakhlakalakalkcea(seq id no:43);和rqikiwfqnrrmkwkk(seq id no:44)。示例性ptd包括但不限于ygrkkrrqrrr(seq id no:40)、rkkrrqrrr(seq id no:45);具有3个精氨酸残基至50个精氨酸残基的精氨酸均聚物;示例性ptd结构域氨基酸序列包括但不限于以下的任何序列:ygrkkrrqrrr seq id no:40);rkkrrqrr(seq id no:46);yaraaarqara seq id no:47);thrlprrrrrr(seq id no:48);以及ggrrarrrrrr(seq id no:49)。在一些实施方案中,ptd是可激活的cpp(acpp)(aguilera等人(2009)integr biol(camb)6月;1(5-6):371-381)。acpp包括经由可切割接头连接至匹配聚阴离子(例如,glu9或“e9”)的聚阳离子cpp(例如,arg9或“r9”),这使净电荷减小至接近零并由此抑制粘附和吸收到细胞中。当切割接头时,释放聚阴离子,局部暴露聚精氨酸和其固有的粘附性,从而“激活”acpp以横穿膜。
[0397]
将组分引入靶细胞中
[0398]
可通过多种熟知的方法中的任一种将cas12l引导rna(或包含编码所述引导rna的核苷酸序列的核酸)和/或本公开的cas12l多肽(或包含编码所述多肽的核苷酸序列的核酸)和/或本公开的cas12l融合多肽(或包含编码本公开的cas12l融合多肽的核苷酸序列的核酸)和/或供体多核苷酸(供体模板)引入到宿主细胞中。
[0399]
多种化合物和方法中的任一种可用于将本公开的cas12l系统递送至靶细胞(例如,其中cas12l系统包含:a)本公开的cas12l多肽和cas12l引导rna;b)本公开的cas12l多肽、cas12l引导rna和供体模板核酸;c)本公开的cas12l融合多肽和cas12l引导rna;d)本公开的cas12l融合多肽、cas12l引导rna和供体模板核酸;e)编码本公开的cas12l多肽的mrna;和cas12l引导rna;f)编码本公开的cas12l多肽的mrna、cas12l引导rna和供体模板核酸;g)编码本公开的cas12l融合多肽的mrna和cas12l引导rna;h)编码本公开的cas12l融合多肽的mrna、cas12l引导rna和供体模板核酸;i)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;j)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;l)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;n)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;o)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;p)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;q)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或r)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或者是(a)到(r)之一的某种变体。作为非限制性实例,本公开的cas12l系统可与脂质组合。作为另一个非限制性实例,本公开的cas12l系统可与颗粒组合或配制成颗粒。
100、dmpc 0、peg 0、胆固醇0;制剂编号2=dotap 90、dmpc 0、peg 10、胆固醇0;制剂编号3=dotap 90、dmpc 0、peg 5、胆固醇5)。例如,可使用多步骤方法形成颗粒,其中将cas12l多肽和cas12l引导rna例如以1:1的摩尔比、例如在室温下、例如持续30分钟、例如在无菌无核酸酶的1x磷酸盐缓冲盐水(pbs)中混合在一起;并且将适用于制剂的dotap、dmpc、peg和胆固醇单独地溶于醇(例如,100%乙醇),并且将两种溶液混合在一起以形成含有复合物的颗粒)。
[0404]
本公开的cas12l多肽(或包含编码本公开的cas12l多肽的核苷酸序列的mrna;或包含编码本公开的cas12l多肽的核苷酸序列的重组表达载体)和/或cas12l引导rna(或核酸,诸如一种或多种编码cas12l引导rna的表达载体)可使用颗粒或脂质包膜同时递送。例如,可使用具有由磷脂双层壳包封的聚(β-氨基酯)(pbae)核的可生物降解的核壳结构的纳米颗粒。在一些情况下,使用基于自组装生物粘附聚合物的颗粒/纳米颗粒;此类颗粒/纳米颗粒可应用于肽的口服递送、肽的静脉内递送和肽的鼻内递送,例如递送至脑。还考虑了其他实施方案,诸如疏水性药物的口服吸收和眼部递送。可使用分子包膜技术,其涉及受保护并递送至疾病部位的工程化聚合物包膜。可以单剂量或多剂量使用约5mg/kg的剂量,这取决于各种因素,例如靶组织。
[0405]
脂质类化合物(例如,如美国专利申请20110293703中所述)也可用于施用多核苷酸,并可用于递送本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统(例如,其中cas12l系统包含:a)本公开的cas12l多肽和cas12l引导rna;b)本公开的cas12l多肽、cas12l引导rna和供体模板核酸;c)本公开的cas12l融合多肽和cas12l引导rna;d)本公开的cas12l融合多肽、cas12l引导rna和供体模板核酸;e)编码本公开的cas12l多肽的mrna;和cas12l引导rna;f)编码本公开的cas12l多肽的mrna、cas12l引导rna和供体模板核酸;g)编码本公开的cas12l融合多肽的mrna和cas12l引导rna;h)编码本公开的cas12l融合多肽的mrna、cas12l引导rna和供体模板核酸;i)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;j)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;l)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;n)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;o)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;p)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;q)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或r)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或者是(a)到(r)之一的某种变体。在一方面,将氨基醇类脂质化合物与待递送至
细胞或受试者的剂组合以形成微颗粒、纳米颗粒、脂质体或胶束。氨基醇类脂质化合物可以与其他氨基醇类脂质化合物、聚合物(合成的或天然的)、表面活性剂、胆固醇、碳水化合物、蛋白质、脂质等组合以形成颗粒。然后可任选地将这些颗粒与药物赋形剂组合以形成药物组合物。
[0406]
聚(β-氨基醇)(pbaa)可用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。美国专利公开号20130302401涉及使用组合聚合制备的一类聚(β-氨基醇)(pbaa)。
[0407]
可使用基于糖的颗粒,例如,如参考wo2014118272(以引用方式并入本文)和nair,j k等人,2014,journal of the american chemical society 136(49),16958-16961)所述的galnac可用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。
[0408]
在一些情况下,脂质纳米颗粒(lnp)用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。带负电的聚合物(诸如rna)可在低ph值(例如,ph 4)下装载到lnp中,其中可电离的脂质显示正电荷。然而,在生理ph值下,lnp表现出与较长的循环时间相容的低表面电荷。已经关注了四种可电离的阳离子脂质,即1,2-二亚油酰基-3-二甲基铵-丙烷(dlindap)、1,2-二亚油基氧基-3-n,n-二甲基氨基丙烷(dlindma)、1,2-二亚油基氧基-酮基-n,n-二甲基-3-氨基丙烷(dlinkdma)和1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(dlinkc2-dma)。lnp的制备描述于例如rosin等人(2011)molecular therapy 19:1286-2200)中。可使用阳离子脂质1,2-二亚油酰基-3-二甲基铵-丙烷(dlindap)、1,2-二亚油基氧基-3-n,n-二甲基氨基丙烷(dlindma)、1,2-二亚油基氧基酮基-n,n-二甲基-3-氨基丙烷(dlink-dma)、1,2-二亚油基-4-(2-二甲基氨基乙基)-[1,3]-二氧戊环(dlinkc2-dma)、(3-o-[2'
’‑
(甲氧基聚乙二醇2000)琥珀酰基]-1,2-二肉豆蔻酰基-sn-乙二醇(peg-s-dmg),以及r-3-[(ω-甲氧基-聚(乙二醇)2000)氨甲酰基]-1,2-二肉豆蔻酰氧基丙基-3-胺(peg-c-domg)。核酸(例如,cas12l引导rna;本公开的核酸等)可包封在含有dlindap、dlindma、dlink-dma和dlinkc2-dma(阳离子脂质:dspc:chol:pegs-dmg或peg-c-domg的摩尔比为40:10:40:10)的lnp中。在一些情况下,并入0.2%sp-dioc18。
[0409]
球形核酸(sna
tm
)构建体和其它纳米颗粒(特别是金纳米颗粒)可用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。参见例如cutler等人,j.am.chem.soc.2011 133:9254-9257;hao等人,small.2011 7:3158-3162;zhang等人,acs nano.2011 5:6962-6970;cutler等人,j.am.chem.soc.2012 134:1376-1391;young等人,nano lett.2012 12:3867-71;zheng等人,proc.natl.acad.sci.usa.2012109:11975-80;mirkin,nanomedicine 2012 7:635-638;zhang等人,j.am.chem.soc.2012 134:16488-1691;weintraub,nature 2013495:s14-s16;choi等人,proc.natl.acad.sci.usa.2013 110(19):7625-7630;jensen等人,sci.transl.med.5,209ra152(2013)以及mirkin等人,small,10:186-192。
[0410]
具有rna的自组装纳米颗粒可以用聚乙烯亚胺(pei)来构建,所述聚乙烯亚胺用连接在聚乙二醇(peg)远端的arg-gly-asp(rgd)肽配体聚乙二醇化。
[0411]
一般来讲,“纳米颗粒”是指具有小于1000nm的直径的任何颗粒。在一些情况下,适
用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞的纳米颗粒具有500nm或更小,例如,25nm至35nm、35nm至50nm、50nm至75nm、75nm至100nm、100nm至150nm、150nm至200nm、200nm至300nm、300nm至400nm或400nm至500nm的直径。在一些情况下,适用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞的纳米颗粒具有25nm至200nm的直径。在一些情况下,适用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞的纳米颗粒具有100nm或更小的直径。在一些情况下,适用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞的纳米颗粒具有35nm至60nm的直径。
[0412]
适用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞的纳米颗粒可以不同的形式提供,例如,作为固体纳米颗粒(例如,金属(诸如银、金、铁、钛)、非金属、基于脂质的固体、聚合物)、纳米颗粒的悬浮液或它们的组合提供。可制备金属、介电和半导体纳米颗粒,以及混合结构(例如,核壳纳米颗粒)。如果由半导体材料制成的纳米颗粒足够小(通常低于10nm)以致发生电子能级的量子化,则也可将它们标记量子点。此类纳米级颗粒在生物医学应用中用作药物运载体或成像剂,并且可适用于本公开中的相似目的。
[0413]
半固体和软纳米颗粒也适用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。具有半固体性质的原型纳米颗粒是脂质体。
[0414]
在一些情况下,外来体用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。外泌体是内源性纳米囊泡,其运输rna和蛋白质,并且可将rna递送至脑和其他靶器官。
[0415]
在一些情况下,脂质体用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。脂质体是球形囊泡结构,其由围绕内部水性隔室的单层或多层脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可由若干种不同类型的脂质制成;然而,磷脂最常用于生成脂质体。尽管当脂质膜与水性溶液混合时,脂质体形成是自发的,但是也可通过使用匀化器、超声波破碎仪或挤出装置以摇动的形式施加力来加速脂质体的形成。可将若干种其他添加剂添加到脂质体中以便改变它们的结构和特性。例如,可将胆固醇或鞘磷脂添加到脂质体混合物中,以便帮助稳定脂质体结构并防止脂质体内容物(inner cargo)的泄漏。脂质体制剂可主要由以下组成:天然磷脂和脂质,诸如1,2-二硬脂酰基-sn-甘油基-3-磷脂酰胆碱(dspc)、鞘磷脂、卵磷脂酰胆碱和单唾液酸神经节苷脂。
[0416]
稳定的核酸-脂质颗粒(snalp)可用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。snalp制剂可含有2:40:10:48摩尔百分比的脂质3-n-[(甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基-丙胺(peg-c-dma)、1,2-二亚油基氧基-n,n-二甲基-3-氨基丙烷(dlindma)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(dspc)和胆固醇。可通过使用25:1的脂质/sirna比和48/40/10/2摩尔比的胆固醇/d-lin-dma/dspc/peg-c-dma来配制d-lin-dma和peg-c-dma以
及二硬脂酰基磷脂酰胆碱(dspc)、胆固醇和sirna来制备snalp脂质体。所得的snalp脂质体的尺寸可以是约80-100nm。snalp可包含合成胆固醇(sigma-aldrich,st louis,mo.,usa)、二棕榈酰磷脂酰胆碱(avanti polar lipids,alabaster,ala.,usa)、3-n-[(w-甲氧基聚(乙二醇)2000)氨基甲酰基]-1,2-二肉豆蔻酰氧基丙胺和阳离子1,2-二亚油基氧基-3-n,n二甲基氨基丙烷。snalp可以包含合成胆固醇(sigma-aldrich)、1,2-二硬脂酰基-sn-甘油基-3-磷酸胆碱(dspc;avanti polar lipids inc.)、peg-cdma和1,2-二亚油基氧基-3-(n;n-二甲基)氨基丙烷(dlindma)。
[0417]
其它阳离子脂质,例如氨基脂质2,2-二油烯基-4-二甲氨基乙基-[1,3]-二氧戊环(dlin-kc2-dma)可用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。可考虑具有以下脂质组成的预成形的囊泡:摩尔比分别为40/10/40/10的并且fvii sirna/总脂质比为大约0.05(w/w)的氨基脂质、二硬脂酰磷脂酰胆碱(dspc)、胆固醇和(r)-2,3-双(十八烷氧基)丙基-1-(甲氧基聚(乙二醇)2000)丙基氨基甲酸酯(peg-脂质)。为了确保在70-90nm范围内的窄粒径分布和0.11. -.0.04(n=56)的低多分散指数,可在添加指导rna之前将颗粒通过80nm膜挤出最高达三次。可使用含有高效氨基脂质16的颗粒,其中四种脂质组分16、dspc、胆固醇和peg-脂质的摩尔比(50/10/38.5/1.5)可进一步优化以增强体内活性。
[0418]
脂质可用本公开的cas12l系统或其一种或多种组分或编码其的核酸配制以形成脂质纳米颗粒(lnp)。合适的脂质包括但不限于dlin-kc2-dma4、c12-200和辅脂质(colipid)二硬脂酰磷脂酰胆碱、胆固醇和peg-dmg可用本公开的cas12l系统或其组分使用自发的囊泡形成程序配制。组分摩尔比可以是约50/10/38.5/1.5(dlin-kc2-dma或c12-200/二硬脂酰磷脂酰胆碱/胆固醇/peg-dmg)。
[0419]
本公开的cas12l系统或其组分可包封在plga微球中递送,所述微球诸如在美国公布申请20130252281和20130245107和20130244279中进一步描述的微球。
[0420]
增压蛋白可用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。超电荷蛋白是一类工程化或天然存在的蛋白质,其具有异常高的正或负净理论电荷。超负电荷蛋白和超正电荷蛋白均表现出耐受热或化学诱导的聚集的能力。超正电荷蛋白也能够穿透哺乳动物细胞。使货物与这些蛋白质(诸如质粒dna、rna或其他蛋白质)缔合可实现这些大分子在体外和体内向哺乳动物细胞的功能性递送。
[0421]
细胞穿透肽(cpps)可用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞。cpp通常具有以下氨基酸组成,其含有高相对丰度的带正电荷的氨基酸(诸如赖氨酸或精氨酸),或者具有含有极性/带电荷氨基酸和非极性疏水氨基酸的交替模式的序列。
[0422]
可使用可植入装置将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸(例如,cas12l引导rna、编码cas12l引导rna的核酸、编码cas12l多肽的核酸、供体模板等)或本公开的cas12l系统递送至靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)。适用于将本公开的cas12l多肽、本公开的cas12l融合多肽、本公开的rnp、本公开的核酸或本公开的cas12l系统递送至靶细胞(例如,体内靶细胞,其中靶细胞是循环中的靶细胞、组织中的靶细胞、器官中的靶细胞等)
的可植入装置可包括容器(例如,储库、基质等),所述容器包含cas12l多肽、cas12l融合多肽、rnp或cas12l系统(或其组分,例如本公开的核酸)。
[0423]
合适的可植入装置可包括例如用作装置主体的聚合物基底(诸如基质),并且在一些情况下包括另外的支架材料(诸如金属或另外的聚合物),以及增强可见性和成像的材料。可植入递送装置可以有利地提供局部和长时间的释放,其中待递送的多肽和/或核酸被直接释放到靶位点,例如细胞外基质(ecm)、肿瘤周围的血管系统、患病组织等。合适的可植入递送装置包括适用于递送至诸如腹腔的腔和/或其中药物递送系统未被锚定或附着的任何其他类型的施用的装置,包括生物稳定和/或可降解和/或可生物吸收的聚合物基质,其可以例如任选地为基质。在一些情况下,合适的可植入药物递送装置包含可降解聚合物,其中主要释放机制是整体侵蚀(bulk erosion)。在一些情况下,合适的可植入药物递送装置包含不可降解或缓慢降解的聚合物,其中主要释放机制是扩散而不是整体侵蚀,使得外部部分用作膜并且其内部部分用作药物储库,实际上,所述药物储库长时间内(例如约一周至约几个月)不会受到周围环境的影响。也可任选地使用具有不同释放机制的不同聚合物的组合。在总释放期的有效期内,浓度梯度可保持有效恒定,并且因此扩散速率是有效恒定的(称为“零模式”扩散)。术语“恒定”意指扩散速率维持高于治疗有效性的下阈值,但其仍然任选地以初始突发为特征并且/或者可波动,例如增加和降低到某一程度。扩散速率可长时间这样维持,并且可认为扩散速率恒定到某一水平以优化治疗有效期,例如有效的沉默期。
[0424]
在一些情况下,可植入递送系统被设计成保护基于核苷酸的治疗剂免于降解,无论是化学性质还是由于受试者体内酶和其他因素的攻击而引起的降解。
[0425]
可选择装置的植入位点或靶位点,用于获得最大的治疗功效。例如,递送装置可植入在肿瘤环境内或附近,或者与肿瘤相关联的血液供给内或附近。靶位置可以是,例如:1)大脑退化位点,如在帕金森病或阿尔茨海默病中在基底神经节、白质和灰质处;2)脊柱,如就肌萎缩侧索硬化症(als)而言;3)子宫颈;4)活动性和慢性炎症关节;5)真皮,如就牛皮癣而言;7)交感神经和感觉神经位点,用于镇痛作用;7)骨;8)急性或慢性感染位点;9)阴道内;10)内耳-听觉系统、内耳迷路、前庭系统;11)气管内;12)心内;冠状动脉、心外膜;13)泌尿道或膀胱;14)胆系统;15)实质组织,包括但不限于肾、肝、脾;16)淋巴结;17)唾液腺;18)牙龈;19)关节内(到关节中);20)眼内;21)脑组织;22)脑室;23)腔,包括腹腔(例如但不限于卵巢癌);24)食管内;和25)直肠内;和26)到脉管系统中。
[0426]
插入方法(诸如植入)可任选地已经用于其他类型的组织植入和/或用于插入和/或用于组织取样,任选地无需修改,或者可替代地仅在此类方法中任选地进行非主要修改。此类方法任选地包括但不限于近距离放射治疗方法、活组织检查、使用和/或不使用超声的内窥镜检查(诸如进入脑组织的立体定位方法)、腹腔镜检查(包括用腹腔镜植入关节、腹部器官、膀胱壁和体腔中)。
[0427]
修饰的宿主细胞
[0428]
本公开提供一种修饰的细胞,所述修饰的细胞包含本公开的cas12l多肽和/或包含编码本公开的cas12l多肽的核苷酸序列的核酸。本公开提供一种修饰的细胞,所述修饰的细胞包含本公开的cas12l多肽,其中所述修饰的细胞是通常不包含本公开的cas12l多肽的细胞。本公开提供一种修饰的细胞(例如,遗传修饰的细胞),所述修饰的细胞包含核酸,所述核酸包含编码本公开的cas12l多肽的核苷酸序列。本公开提供一种用mrna遗传修饰的
遗传修饰的细胞,所述mrna包含编码本公开的cas12l多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰的细胞,所述重组表达载体包含编码本公开的cas12l多肽的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰细胞,所述重组表达载体包含:a)编码本公开的cas12l多肽的核苷酸序列;和b)编码本公开的cas12l引导rna的核苷酸序列。本公开提供一种用重组表达载体遗传修饰的遗传修饰的细胞,所述重组表达载体包含:a)编码本公开的cas12l多肽的核苷酸序列;b)编码本公开的cas12l引导rna的核苷酸序列;和c)编码供体模板的核苷酸序列。
[0429]
用作本公开的cas12l多肽和/或包含编码本公开的cas12l多肽和/或本公开的cas12l引导rna的核苷酸序列的核酸的受体的细胞可以是多种细胞中的任一种,这些细胞包括例如体外细胞;体内细胞;离体细胞;原代细胞;癌细胞;动物细胞;植物细胞;藻类细胞;真菌细胞等。用作本公开的cas12l多肽和/或包含编码本公开的cas12l多肽和/或本公开的cas12l引导rna的核苷酸序列的核酸的受体的细胞被称为“宿主细胞”或“靶细胞”。宿主细胞或靶细胞可以是本公开的cas12l系统的受体。宿主细胞或靶细胞可以是本公开的cas12l rnp的受体。宿主细胞或靶细胞可以是本公开的cas12l系统的单一组分的受体。
[0430]
细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻(botryococcus braunii)、莱茵衣藻(chlamydomonas reinhardtii)、海洋富油微拟球藻(nannochloropsis gaditana)、蛋白核小球藻(chlorella pyrenoidosa)、展枝马尾藻(sargassum patens)、羽藻(c.agardh)等)、海藻(例如巨藻(kelp))、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不源自天然生物体的细胞(例如,细胞可以是合成制得的细胞;也称为人造细胞)。
[0431]
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
[0432]
合适的细胞包括干细胞(例如胚胎干(es)细胞、诱导多能干(ips)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
[0433]
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
[0434]
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是t细胞、b细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性t细胞。在一些情况下,免疫细胞是辅助性t细胞。在一些情况下,免疫细胞是调节性t细胞(treg)。
[0435]
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
[0436]
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。体细胞干细胞的许多实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
[0437]
目标干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
[0438]
干细胞可以表达一种或多种干细胞标记物,例如sox9、krt19、krt7、lgr5、ca9、fxyd2、cdh6、cldn18、tspan8、bpifb1、olfm4、cdh17和ppargc1a。
[0439]
在一些实施方案中,干细胞是造血干细胞(hsc)。hsc是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。hsc的特征在于cd34

和cd3-。hsc可在体内重新生成红系细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导hsc经历至少一些自我更新的细胞分裂,并且可诱导hsc分化成与体内所见相同的谱系。因此,可诱导hsc分化成红系细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多种。
[0440]
在其他实施方案中,干细胞是神经干细胞(nsc)。神经干细胞(nsc)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或可作为成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得nsc的方法在本领域中是已知的。
[0441]
在其他实施方案中,干细胞是间充质干细胞(msc)。msc最初衍生自胚胎中胚层并
从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离msc的方法在本领域中是已知的;并且可使用任何已知的方法来获得msc。参见例如美国专利号5,736,396,其描述了人msc的分离。
[0442]
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
[0443]
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根、慈菇、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿)、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜、蒲公英嫩叶、芋头、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡、嫩叶、汉诺威沙拉用绿叶、huauzontle、洋姜、豆薯、羽衣甘蓝嫩叶、大头菜、羊腿藜、生菜(贝比生菜)、生菜(波士顿生菜)、生菜(波士顿红生菜)、生菜(绿叶)、生菜(冰山生菜)、生菜(红毛菜)、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜)、生菜(红罗马生菜)、生菜(俄罗斯红芥末)、linkok、白萝卜、长豆、莲藕、野苣、龙舌兰(龙舌兰)叶、黄肉芋、混和生菜、京水菜、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜、菊苣、萝卜芽、萝卜、青芸苔、青芸苔、大黄、罗马生菜、芜菁甘蓝、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦)、红瓜、粘果酸浆、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁、荸荠、薯蓣、山药(名称)、油菜、木薯(木薯)等。
[0444]
在一些情况下,植物细胞是植物组分的细胞,例如叶、茎、根、种子、花、花粉、花药、胚珠、花梗、果实、分生组织、子叶、下胚轴、荚果、胚、胚乳、外植体、愈伤组织或芽。
[0445]
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家族、群体、亚群或物种的细胞:例如,有螯肢亚门(chelicerata)、多足亚门(myriapodia)、hexipodia、蛛形纲(arachnida)、昆虫纲(insecta)、石蛃目(archaeognatha)、缨尾目(thysanura)、古翅下纲(palaeoptera)、蜉蝣目(ephemeroptera)、蜻蜓目(odonata)、差翅亚目(anisoptera)、束翅亚目(zygoptera)、新翅亚纲(neoptera)、外翅总目(exopterygota)、襀翅目(plecoptera)、纺足目(embioptera)、直翅目(orthoptera)、缺翅目(zoraptera)、革翅目(dermaptera)、网翅目(dictyoptera)、蛩蠊目(notoptera)、蛩蠊科(grylloblattidae)、螳科(mantophasmatidae)、竹节虫目(phasmatodea)、蜚蠊目(blattaria)、等翅目(isoptera)、螳螂目(mantodea)、parapneuroptera、啮虫目(psocoptera)、缨翅目(thysanoptera)、虱毛目(phthiraptera)、半翅目(hemiptera)、内翅类(endopterygota)或全变态类(holometabola)、膜翅目(hymenoptera)、鞘翅目
(coleoptera)、捻翅目(strepsiptera)、蛇蛉目(raphidioptera)、广翅目(megaloptera)、脉翅目(neuroptera)、长翅目(mecoptera)、蚤目(siphonaptera)、双翅目(diptera)、毛翅目(trichoptera)或鳞翅目(lepidoptera)。
[0446]
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
[0447]
试剂盒
[0448]
本公开提供一种试剂盒,所述试剂盒包括本公开的cas12l系统或本公开的cas12l系统的组分。
[0449]
本公开的试剂盒可包括:a)本公开的cas12l多肽和cas12l引导rna;b)本公开的cas12l多肽、cas12l引导rna和供体模板核酸;c)本公开的cas12l融合多肽和cas12l引导rna;d)本公开的cas12l融合多肽、cas12l引导rna和供体模板核酸;e)编码本公开的cas12l多肽的mrna;和cas12l引导rna;f)编码本公开的cas12l多肽的mrna、cas12l引导rna和供体模板核酸;g)编码本公开的cas12l融合多肽的mrna和cas12l引导rna;h)编码本公开的cas12l融合多肽的mrna、cas12l引导rna和供体模板核酸;i)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;j)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;k)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列和编码cas12l引导rna的核苷酸序列;l)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码cas12l引导rna的核苷酸序列和编码供体模板核酸的核苷酸序列;m)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;n)包含编码本公开的cas12l多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;o)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;p)包含编码本公开的cas12l融合多肽的核苷酸序列的第一重组表达载体,和包含编码cas12l引导rna的核苷酸序列的第二重组表达载体;和供体模板核酸;q)重组表达载体,其包含编码本公开的cas12l多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或r)重组表达载体,其包含编码本公开的cas12l融合多肽的核苷酸序列、编码第一cas12l引导rna的核苷酸序列和编码第二cas12l引导rna的核苷酸序列;或者是(a)到(r)之一的某种变体。
[0450]
本公开的试剂盒可包括:a)如上所述的本公开的cas12l系统的组分,或者可包含本公开的cas12l系统;和b)一种或多种另外的试剂,例如,i)缓冲剂;ii)蛋白酶抑制剂;iii)核酸酶抑制剂;iv)显影或可视化可检测标记所需的试剂;v)阳性和/或阴性对照靶dna;vi)阳性和/或阴性对照cas12l引导rna等。本公开的试剂盒可包括:a)如上所述的本公开的cas12l系统的组分,或者可包含本公开的cas12l系统;和b)治疗剂。
[0451]
本公开的试剂盒可包括重组表达载体,所述重组表达载体包含:a)用于插入核酸的插入位点,所述核酸包含编码cas12l引导rna的一部分的核苷酸序列,所述cas12l引导rna的一部分与靶核酸中的靶核苷酸序列杂交;和b)编码cas12l引导rna的cas12l结合部分的核苷酸序列。本公开的试剂盒可包括重组表达载体,所述重组表达载体包含:a)用于插入
核酸的插入位点,所述核酸包含编码cas12l引导rna的一部分的核苷酸序列,所述cas12l引导rna的一部分与靶核酸中的靶核苷酸序列杂交;b)编码cas12l引导rna的cas12l结合部分的核苷酸序列;和c)编码本公开的cas12l多肽的核苷酸序列。
[0452]
实用性
[0453]
本公开的cas12l多肽或本公开的cas12l融合多肽可用于多种方法中(例如,与cas12l引导rna组合,并且在一些情况下进一步与供体模板组合)。例如,本公开的cas12l多肽可用于(i)修饰(例如切割,例如切口;甲基化等)靶核酸(dna或rna;单链或双链);(ii)调节靶核酸的转录;(iii)标记靶核酸;(iv)结合靶核酸(例如,用于分离、标记、成像、追踪等的目的);(v)修饰与靶核酸相关联的多肽(例如,组蛋白)等。因此,本公开提供一种修饰靶核酸的方法。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的cas12l多肽;和b)一种或多种(例如,两种)cas12l引导rna。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与以下物质接触:a)本公开的cas12l多肽;b)cas12l引导rna;和c)供体核酸(例如,供体模板)。在一些情况下,接触步骤在体外细胞中进行。在一些情况下,接触步骤在体内细胞中进行。在一些情况下,接触步骤在离体细胞中进行。
[0454]
因为使用cas12l多肽的方法包括将cas12l多肽与靶核酸中的特定区域结合(通过相关联的cas12l引导rna靶向靶核酸中的特定区域),所述方法在本文中一般称为结合方法(例如,结合靶核酸的方法)。然而,应理解在一些情况下,虽然结合方法可能无非是导致靶核酸的结合,但在其他情况下,所述方法可具有不同的最终结果(例如,所述方法可导致靶核酸的修饰(例如,切割/甲基化等);从靶核酸转录的调节;靶核酸翻译的调节;基因组编辑;与靶核酸相关联的蛋白质的调节;靶核酸的分离等)。
[0455]
对于合适方法的实例,参见例如jinek等人,science.2012年8月17日;337(6096):816-21;chylinski等人,rna biol.2013年5月;10(5):726-37;ma等人,biomed res int.2013;2013:270805;hou等人,proc natl acad sci u s a.2013年9月24日;110(39):15644-9;jinek等人,elife.2013;2:e00471;pattanayak等人,nat biotechnol.2013年9月;31(9):839-43;qi等人,cell.2013年2月28日;152(5):1173-83;wang等人,cell.2013年5月9日;153(4):910-8;auer等人,genome res.2013年10月31日;chen等人,nucleic acids res.2013年11月1日;41(20):e19;cheng等人,cell res.2013年10月;23(10):1163-71;cho等人,genetics.2013年11月;195(3):1177-80;dicarlo等人,nucleic acids res.2013年4月;41(7):4336-43;dickinson等人,nat methods.2013年10月;10(10):1028-34;ebina等人,sci rep.2013;3:2510;fujii等人,nucleic acids res.2013年11月1日;41(20):e187;hu等人,cell res.2013年11月;23(11):1322-5;jiang等人,nucleic acids res.2013年11月1日;41(20):e188;larson等人,nat protoc.2013年11月;8(11):2180-96;mali等人,nat methods.2013年10月;10(10):957-63;nakayama等人,genesis.2013年12月;51(12):835-43;ran等人,nat protoc.2013年11月;8(11):2281-308;ran等人,cell.2013年9月12日;154(6):1380-9;upadhyay等人,g3(bethesda).2013年12月9日;3(12):2233-8;walsh等人,proc natl acad sci u s a.2013年9月24日;110(39):15514-5;xie等人,mol plant.2013年10月9日;yang等人,cell.2013年9月12日;154(6):1370-9;以及以下美国专利和专利申请:8,906,616;8,895,308;8,889,418;8,889,356;8,871,445;8,865,406;8,795,965;8,
771,945;8,697,359;20140068797;20140170753;20140179006;20140179770;20140186843;20140186919;20140186958;20140189896;20140227787;20140234972;20140242664;20140242699;20140242700;20140242702;20140248702;20140256046;20140273037;20140273226;20140273230;20140273231;20140273232;20140273233;20140273234;20140273235;20140287938;20140295556;20140295557;20140298547;20140304853;20140309487;20140310828;20140310830;20140315985;20140335063;20140335620;20140342456;20140342457;20140342458;20140349400;20140349405;20140356867;20140356956;20140356958;20140356959;20140357523;20140357530;20140364333;和20140377868;所述文献各自特此以引用方式整体并入。
[0456]
例如,本公开提供(但不限于)切割靶核酸的方法;编辑靶核酸的方法;调节靶从核酸转录的方法;分离靶核酸的方法、结合靶核酸的方法、对靶核酸成像的方法、修饰靶核酸的方法等。
[0457]
如本文所用,术语/短语“使靶核酸,例如,与cas12l多肽或与cas12l融合多肽等接触”,涵盖用于接触靶核酸的所有方法。例如,cas12l多肽可以作为蛋白质、rna(编码cas12l多肽)或dna(编码cas12l多肽)提供给细胞;而cas12l引导rna可以作为引导rna或编码引导rna的核酸提供。因此,当例如在细胞中(例如,在体外细胞内部、在体内细胞内部、在离体细胞内部)执行方法时,包括接触靶核酸的方法涵盖将处于活性/最终状态的任何或所有组分(例如,呈cas12l多肽的一种或多种蛋白质形式;呈cas12l融合多肽的蛋白质形式;在一些情况下呈引导rna的rna形式)引入细胞中,并且还涵盖将编码一种或多种组分的一种或多种核酸(例如,一种或多种包含编码cas12l多肽或cas12l融合多肽的一种或多种核苷酸序列的核酸、一种或多种包含编码一种或多种引导rna的一种或多种核苷酸序列的核酸、包含编码供体模板的核苷酸序列的核酸等)引入细胞中。因为所述方法也可在体外在细胞外部执行,所以包括接触靶核酸的方法(除非另外指明)涵盖在体外在细胞外部、在体外在细胞内部、在体内在细胞内部、离体在细胞内部接触等。
[0458]
在一些情况下,本公开的用于修饰靶核酸的方法包括向靶细胞中引入cas12l基因座,例如来自包含cas12l基因座的细胞(例如,在一些情况下,处于天然状态(天然存在的状态)包含cas12l基因座的细胞)的核酸,所述核酸包含编码cas12l多肽的核苷酸序列以及长度为约1千碱基(kb)至5kb的在编码cas12l的核苷酸序列周围的核苷酸序列,其中靶细胞通常(在天然状态下)不包含cas12l基因座。然而,可以修饰一个或多个间隔序列,一个或多个编码crrna的编码引导序列,使得靶向一个或多个目标靶序列。因此,例如,在一些情况下,本公开的用于修饰靶核酸的方法包括向靶细胞中引入cas12l基因座,例如,从源细胞(例如,在一些情况下,处于天然状态(天然存在的状态)包含cas12l基因座的细胞)获得的核酸,其中核酸具有100个核苷酸(nt)至5kb(例如,100nt至500nt、500nt至1kb、1kb至1.5kb、1.5kb至2kb、2kb至2.5kb、2.5kb至3kb、3kb至3.5kb、3.5kb至4kb、或4kb至5kb)的长度并且包含编码cas12l多肽的核苷酸序列。如上所述,在一些此类情况下,可以修饰一个或多个间隔序列,一个或多个编码crrna的编码引导序列,使得靶向一个或多个目标靶序列。在一些情况下,所述方法包括向靶细胞中引入:i)cas12l基因座;和ii)供体dna模板。在一些情况下,靶核酸在体外无细胞组合物中。在一些情况下,靶核酸存在于靶细胞中。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是原核细胞。在一些情况下,靶核酸存在于靶细胞中,
其中靶细胞是真核细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是哺乳动物细胞。在一些情况下,靶核酸存在于靶细胞中,其中靶细胞是植物细胞。
[0459]
在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与本公开的cas12l多肽或本公开的cas12l融合多肽接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与cas12l多肽和cas12l引导rna接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与cas12l多肽、第一cas12l引导rna和第二cas12l引导rna接触。在一些情况下,本公开的用于修饰靶核酸的方法包括使靶核酸与cas12l多肽和cas12l引导rna和供体dna模板接触。
[0460]
目标靶核酸和靶细胞
[0461]
当与cas12l引导rna结合时,本公开的cas12l多肽或本公开的cas12l融合多肽可结合靶核酸,并且在一些情况下,可结合并修饰靶核酸。靶核酸可以是任何核酸(例如,dna、rna),可以是双链或单链的,可以是任何类型的核酸(例如,染色体(基因组dna)、衍生自染色体、染色体dna、质粒、病毒、细胞外、细胞内、线粒体、叶绿体、线性、环状等)并且可来自任何生物体(例如,只要cas12l引导rna包含与靶核酸中的靶序列杂交的核苷酸序列,使得靶核酸可被靶向即可)。
[0462]
靶核酸可以是dna或rna。靶核酸可以是双链的(例如,dsdna、dsrna)或单链的(例如,ssrna、ssdna)。在一些情况下,靶核酸是单链的。在一些情况下,靶核酸是单链rna(ssrna)。在一些情况下,靶ssrna(例如,靶细胞ssrna、病毒ssrna等)选自:mrna、rrna、trna、非编码rna(ncrna)、长非编码rna(lncrna)和微小rna(mirna)。在一些情况下,靶核酸是单链dna(ssdna)(例如,病毒dna)。如上所指出,在一些情况下,靶核酸是单链的。
[0463]
靶核酸可位于任何地方,例如,体外细胞外部、体外细胞内部、体内细胞内部、离体细胞内部。合适的靶细胞(其可包含靶核酸,诸如基因组dna)包括但不限于:细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;昆虫(例如,蚊子;蜜蜂;农业害虫等)的细胞;蛛形纲动物(例如,蜘蛛;蜱等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞(例如,来自啮齿动物的细胞;来自人类的细胞;非人哺乳动物的细胞;啮齿动物(例如,小鼠、大鼠)的细胞;兔形目动物(例如,兔)的细胞;有蹄类动物(例如,牛、马、骆驼、美洲驼、骆马、绵羊、山羊等)的细胞;海洋哺乳动物(例如,鲸鱼、海豹、象海豹、海豚、海狮等)的细胞等。任何类型的细胞都可以是感兴趣的(例如干细胞,例如胚胎干(es)细胞、诱导多能干(ips)细胞、生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等)、成体干细胞、体细胞(例如,成纤维细胞)、造血细胞、神经元、肌肉细胞、骨细胞、肝细胞、胰腺细胞;在任何阶段下胚胎的体外或体内胚胎细胞(例如,1个细胞、2个细胞、4个细胞、8个细胞等阶段斑马鱼胚胎)等)。
[0464]
细胞可来自已建立的细胞系或者它们可以是原代细胞,其中“原代细胞”、“原代细胞系”和“原代培养物”在本文中可互换使用,是指衍生自受试者并且允许培养物在体外生长有限次数的传代(即,分裂)的细胞和细胞培养物。例如,原代培养物是可能已传代0次、1次、2次、4次、5次、10次或15次但不足以通过转折期的次数的培养物。通常,原代细胞系在体外维持少于10代。靶细胞可以是单细胞生物体并且/或者可在培养物中生长。如果细胞是原
代细胞,它们可通过任何方便的方法从个体收获。例如,白细胞可通过血浆分离置换法、白细胞血浆分离置换法、密度梯度分离等方便地收获,而来自组织(诸如皮肤、肌肉、骨髓、脾、肝、胰腺、肺、肠、胃等)的细胞可通过活组织检查方便地收获。
[0465]
在上述申请的一些申请中,主题方法可用于在体内和/或离体和/或体外的有丝分裂细胞或有丝分裂后细胞中诱导靶核酸切割、靶核酸修饰和/或结合靶核酸(例如,用于可视化,用于采集和/或分析等)(例如,以破坏由靶向mrna编码的蛋白质的产生,以切割或以其他方式修饰靶dna,以遗传修饰靶细胞等)。因为引导rna通过与靶核酸杂交来提供特异性,所以在公开的方法中目标有丝分裂细胞和/或有丝分裂后细胞可包括来自任何生物体的细胞(例如,细菌细胞;古细菌细胞;单细胞真核生物体的细胞;植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等;真菌细胞(例如,酵母细胞);动物细胞;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞;来自哺乳动物的细胞;来自啮齿动物的细胞;来自人的细胞等)。在一些情况下,可将主题cas12l蛋白(和/或编码蛋白质的核酸,诸如dna和/或rna)和/或cas12l引导rna(和/或编码引导rna的dna)和/或供体模板和/或rnp引入个体(即,靶细胞可在体内)(例如,哺乳动物、大鼠、小鼠、猪、灵长类动物、非人灵长类动物、人等)中。在一些情况下,这种施用可例如通过编辑靶向细胞的基因组用于治疗和/或预防疾病的目的。
[0466]
植物细胞包括单子叶植物细胞和双子叶植物细胞。细胞可以是根细胞、叶细胞、木质部细胞、韧皮部细胞、形成层细胞、顶端分生组织细胞、实质细胞、厚角组织细胞、厚壁组织细胞等。植物细胞包括农作物的细胞,诸如小麦、玉米、大米、高粱、小米、大豆等的细胞。植物细胞包括农业水果和坚果植物的细胞,例如生产杏、橙子、柠檬、苹果、李子、梨、杏仁等的植物的细胞。
[0467]
靶细胞的其他实例在上文标题为“修饰的细胞”的部分中列出。细胞(靶细胞)的非限制性实例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米(corn)、玉米(maize)、小麦、种子、番茄、大米、木薯、甘蔗、南瓜、干草、马铃薯、棉花、大麻、烟草、开花植物、针叶树、裸子植物、被子植物、蕨类植物、石松类、角苔类、苔类、苔藓、双子叶植物、单子叶植物等的细胞)、藻类细胞(例如,布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等)、海藻(例如巨藻)、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,有蹄类动物(例如,猪、牛、山羊、绵羊);啮齿动物(例如,大鼠、小鼠);非人灵长类动物;人;猫科动物(例如,猫);犬(例如,狗)等)的细胞等。在一些情况下,细胞是不源自天然生物体的细胞(例如,细胞可以是合成制得的细胞;也称为人造细胞)。
[0468]
细胞可以是体外细胞(例如,建立的培养细胞系)。细胞可以是离体细胞(来自个体的培养细胞)。细胞可以是体内细胞(例如,个体中的细胞)。细胞可以是分离的细胞。细胞可以是生物体内部的细胞。细胞可以是生物体。细胞可以是细胞培养物(例如,体外细胞培养物)中的细胞。细胞可以是细胞集合中的一者。细胞可以是原核细胞或衍生自原核细胞。细胞可以是细菌细胞或可衍生自细菌细胞。细胞可以是古细菌细胞或衍生自古细菌细胞。细
胞可以是真核细胞或衍生自真核细胞。细胞可以是植物细胞或衍生自植物细胞。细胞可以是动物细胞或衍生自动物细胞。细胞可以是无脊椎动物细胞或衍生自无脊椎动物细胞。细胞可以是脊椎动物细胞或衍生自脊椎动物细胞。细胞可以是哺乳动物细胞或衍生自哺乳动物细胞。细胞可以是啮齿动物细胞或衍生自啮齿动物细胞。细胞可以是人细胞或衍生自人细胞。细胞可以是微生物细胞或衍生自微生物细胞。细胞可以是真菌细胞或衍生自真菌细胞。细胞可以是昆虫细胞。细胞可以是节肢动物细胞。细胞可以是原生动物细胞。细胞可以是蠕虫细胞。
[0469]
合适的细胞包括干细胞(例如胚胎干(es)细胞、诱导多能干(ips)细胞;生殖细胞(例如,卵母细胞、精子、卵原细胞、精原细胞等);体细胞,例如成纤维细胞、少突胶质细胞、神经胶质细胞、造血细胞、神经元、肌细胞、骨细胞、肝细胞、胰腺细胞等。
[0470]
合适的细胞包括人胚胎干细胞、胚胎心肌细胞、肌成纤维细胞、间充质干细胞、自体移植的扩增的心肌细胞、脂肪细胞、全能细胞、多能细胞、血液干细胞、成肌细胞、成体干细胞、骨髓细胞、间充质细胞、胚胎干细胞、实质细胞、上皮细胞、内皮细胞、间皮细胞、成纤维细胞、成骨细胞、软骨细胞、外源细胞、内源细胞、干细胞、造血干细胞、骨髓衍生祖细胞、心肌细胞、骨骼细胞、胎儿细胞、未分化细胞、多能祖细胞、单能祖细胞、单核细胞、心脏成肌细胞、骨骼成肌细胞、巨噬细胞、毛细血管内皮细胞、异种细胞、同种异体细胞和产后干细胞。
[0471]
在一些情况下,细胞是免疫细胞、神经元、上皮细胞和内皮细胞或干细胞。在一些情况下,免疫细胞是t细胞、b细胞、单核细胞、天然杀伤细胞、树突状细胞或巨噬细胞。在一些情况下,免疫细胞是细胞毒性t细胞。在一些情况下,免疫细胞是辅助性t细胞。在一些情况下,免疫细胞是调节性t细胞(treg)。
[0472]
在一些情况下,细胞是干细胞。干细胞包括成体干细胞。成体干细胞也称为体细胞干细胞。
[0473]
成体干细胞驻留在分化组织中,但保留自我更新的特性和产生多种细胞类型的能力,通常是干细胞所存在于的组织中的典型细胞类型。体细胞干细胞的许多实例是本领域的技术人员已知的,包括肌肉干细胞;造血干细胞;上皮干细胞;神经干细胞;间充质干细胞;乳腺干细胞;肠干细胞;中胚层干细胞;内皮干细胞;嗅干细胞;神经嵴干细胞等。
[0474]
目标干细胞包括哺乳动物干细胞,其中术语“哺乳动物”是指被分类为哺乳动物的任何动物,包括人;非人灵长类动物;家畜和农场动物;以及动物园、实验室、运动或宠物动物,诸如狗、马、猫、牛、小鼠、大鼠、兔等。在一些情况下,干细胞是人干细胞。在一些情况下,干细胞是啮齿动物(例如,小鼠;大鼠)干细胞。在一些情况下,干细胞是非人灵长类动物干细胞。
[0475]
干细胞可以表达一种或多种干细胞标记物,例如sox9、krt19、krt7、lgr5、ca9、fxyd2、cdh6、cldn18、tspan8、bpifb1、olfm4、cdh17和ppargc1a。
[0476]
在一些实施方案中,干细胞是造血干细胞(hsc)。hsc是中胚层衍生的细胞,其可从骨髓、血液、脐带血、胎儿肝脏和卵黄囊中分离。hsc的特征在于cd34

和cd3-。hsc可在体内重新生成红系细胞、中性粒细胞-巨噬细胞、巨核细胞和淋巴样造血细胞谱系。在体外,可诱导hsc经历至少一些自我更新的细胞分裂,并且可诱导hsc分化成与体内所见相同的谱系。因此,可诱导hsc分化成红系细胞、巨核细胞、中性粒细胞、巨噬细胞和淋巴细胞中的一种或多
种。
[0477]
在其他实施方案中,干细胞是神经干细胞(nsc)。神经干细胞(nsc)能够分化成神经元和神经胶质细胞(包括少突胶质细胞和星形胶质细胞)。神经干细胞是能够进行多次分裂的多能干细胞,并且在特定条件下可产生作为神经干细胞的子细胞,或可作为成神经细胞或成胶质细胞的神经祖细胞,例如,分别致力于成为一种或多种类型的神经元和神经胶质细胞的细胞。获得nsc的方法在本领域中是已知的。
[0478]
在其他实施方案中,干细胞是间充质干细胞(msc)。msc最初衍生自胚胎中胚层并从成人骨髓中分离,可分化形成肌肉、骨、软骨、脂肪、骨髓基质和肌腱。分离msc的方法在本领域中是已知的;并且可使用任何已知的方法来获得msc。参见例如美国专利号5,736,396,其描述了人msc的分离。
[0479]
在一些情况下,细胞是植物细胞。植物细胞可以是单子叶植物的细胞。细胞可以是双子叶植物的细胞。
[0480]
在一些情况下,细胞是植物细胞。例如,细胞可以是主要农业植物的细胞,例如大麦、豆类(干食用)、油菜、玉米、棉花(皮玛棉)、棉花(陆地棉)、亚麻籽、干草(苜蓿)、干草(非苜蓿)、燕麦、花生、大米、高粱、大豆、甜菜、甘蔗、向日葵(油)、向日葵(非油)、甘薯、烟草(白肋烟)、烟草(烤烟)、番茄、小麦(硬质小麦)、小麦(春小麦)、小麦(冬小麦)等。作为另一个实例,细胞是蔬菜作物的细胞,所述蔬菜作物包括但不限于例如,苜蓿芽、芦荟叶、葛根(arrow root)、慈菇(arrowhead)、朝鲜蓟、芦笋、竹笋、香蕉花、豆芽、豆类、甜菜叶、甜菜、苦瓜、白菜、西兰花、球花甘蓝(芜菁)、球芽甘蓝、卷心菜、卷心菜芽、仙人掌叶(仙人掌果)、笋瓜、刺棘蓟、胡萝卜、花椰菜、芹菜、佛手瓜、中国洋蓟(crosne)、大白菜、中国芹菜、中国韭菜、菜心、菊花叶(茼蒿(tung ho))、羽衣甘蓝、玉米秸秆、甜玉米、黄瓜、白萝卜(daikon)、蒲公英嫩叶、芋头(dasheen)、dau mue(豌豆尖)、donqua(冬瓜)、茄子、菊苣(endive)、莴苣、琴头蕨、田地水芹、苦苣、盖菜(芥菜)、gailon、良姜(暹罗、泰国姜)、大蒜、姜根、牛蒡(gobo)、嫩叶、汉诺威沙拉用绿叶(hanover salad green)、huauzontle、洋姜(jerusalem artichoke)、豆薯、羽衣甘蓝(kale)嫩叶、大头菜(kohlrabi)、羊腿藜(quilete)、生菜(贝比生菜(bibb))、生菜(波士顿生菜(boston))、生菜(波士顿红生菜(boston red))、生菜(绿叶)、生菜(冰山生菜(iceberg))、生菜(红毛菜(lolla rossa))、生菜(绿橡树叶)、生菜(红橡树叶)、生菜(加工生菜)、生菜(红叶)、生菜(罗马生菜(romaine))、生菜(红罗马生菜(ruby romaine))、生菜(俄罗斯红芥末)、linkok、白萝卜(lobok)、长豆、莲藕、野苣(mache)、龙舌兰(龙舌兰(agave))叶、黄肉芋(malanga)、混和生菜(mesculin mix)、京水菜(mizuna)、moap(光滑丝瓜)、moo、moqua(有绒毛的南瓜)、蘑菇、芥末、山药(nagaimo)、秋葵、通菜、洋葱嫩叶、opo(长南瓜)、观赏玉米、观赏葫芦、欧芹、欧洲防风草、豌豆、辣椒(铃铛型)、辣椒、南瓜(pumpkin)、菊苣(radicchio)、萝卜芽、萝卜(radish)、青芸苔、青芸苔、大黄、罗马生菜(baby red)、芜菁甘蓝(rutabaga)、盐角草(海豆)、丝瓜(角形/脊状丝瓜)、菠菜、南瓜(squash)、稻草捆、甘蔗、甘薯、唐莴苣、罗望子、芋艿(taro)、芋艿叶、芋艿芽、塌棵菜、tepeguaje(葫芦(guaje))、红瓜(tindora)、粘果酸浆(tomatillo)、番茄、番茄(樱桃型)、番茄(葡萄型)、番茄(李子型)、姜黄、芜菁茎嫩叶、芜菁(turnip)、荸荠、薯蓣(yampi)、山药、油菜(yu choy)、木薯(yuca)(木薯)等。
[0481]
在一些情况下,细胞是节肢动物细胞。例如,细胞可以是以下的亚目、家族、亚家
族、群体、亚群或物种的细胞:例如,有螯肢亚门(chelicerata)、多足亚门(myriapodia)、hexipodia、蛛形纲(arachnida)、昆虫纲(insecta)、石蛃目(archaeognatha)、缨尾目(thysanura)、古翅下纲(palaeoptera)、蜉蝣目(ephemeroptera)、蜻蜓目(odonata)、差翅亚目(anisoptera)、束翅亚目(zygoptera)、新翅亚纲(neoptera)、外翅总目(exopterygota)、襀翅目(plecoptera)、纺足目(embioptera)、直翅目(orthoptera)、缺翅目(zoraptera)、革翅目(dermaptera)、网翅目(dictyoptera)、蛩蠊目(notoptera)、蛩蠊科(grylloblattidae)、螳科(mantophasmatidae)、竹节虫目(phasmatodea)、蜚蠊目(blattaria)、等翅目(isoptera)、螳螂目(mantodea)、parapneuroptera、啮虫目(psocoptera)、缨翅目(thysanoptera)、虱毛目(phthiraptera)、半翅目(hemiptera)、内翅类(endopterygota)或全变态类(holometabola)、膜翅目(hymenoptera)、鞘翅目(coleoptera)、捻翅目(strepsiptera)、蛇蛉目(raphidioptera)、广翅目(megaloptera)、脉翅目(neuroptera)、长翅目(mecoptera)、蚤目(siphonaptera)、双翅目(diptera)、毛翅目(trichoptera)或鳞翅目(lepidoptera)。
[0482]
在一些情况下,细胞是昆虫细胞。例如,在一些情况下,细胞是蚊子、蚱蜢、半翅目昆虫、苍蝇、跳蚤、蜜蜂、黄蜂、蚂蚁、虱子、蛾或甲虫的细胞。
[0483]
将组分引入靶细胞中
[0484]
可通过多种众所周知的方法将cas12l引导rna(或包含编码所述引导rna的核苷酸序列的核酸)和/或cas12l融合多肽(或包含编码所述融合多肽的核苷酸序列的核酸)和/或供体多核苷酸引入到宿主细胞中。
[0485]
将核酸引入到细胞中的方法是本领域已知的,并且可以使用任何方便的方法将核酸(例如,表达构建体)引入到靶细胞(例如,真核细胞、人细胞、干细胞、祖细胞等)中。合适的方法更详细地描述于本文其他地方并且包括例如病毒或噬菌体感染、转染、缀合、原生质体融合、脂质体转染、电穿孔、磷酸钙沉淀、聚乙烯亚胺(pei)介导的转染、deae-葡聚糖介导的转染、脂质体介导的转染、粒子枪技术、磷酸钙沉淀、直接微注射、纳米颗粒介导的核酸递送(参见例如,panyam等人adv drug deliv rev.2012年9月13日.pii:s0169-409x(12)00283-9.doi:10.1016/j.addr.2012.09.023)等。可以使用已知的方法,例如诸如核转染,将任何或所有组分作为组合物(例如,包括下列的任何方便的组合:cas12l多肽、cas12l引导rna、供体多核苷酸等)引入到细胞中。
[0486]
供体多核苷酸(供体模板)
[0487]
在cas12l引导rna的引导下,cas12l蛋白在一些情况下在双链dna(dsdna)靶核酸内生成位点特异性双链断裂(dsb)或单链断裂(ssb)(例如,当cas12l蛋白是切口酶变体时),这些断裂通过非同源末端连接(nhej)或同源定向重组(hdr)修复。
[0488]
在一些情况下,使靶dna(与cas12l蛋白和cas12l引导rna)接触在允许非同源末端连接或同源定向修复的条件下发生。因此,在一些情况下,主题方法包括使靶dna与供体多核苷酸接触(例如,通过将供体多核苷酸引入细胞中),其中将供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分整合到靶dna中。在一些情况下,所述方法不包括使细胞与供体多核苷酸接触,并且修饰靶dna使得靶dna内的核苷酸缺失。
[0489]
在一些情况下,cas12l引导rna(或编码cas12l引导rna的dna)和cas12l蛋白(或编
码cas12l蛋白的核酸,诸如rna或dna,例如一种或多种表达载体)与供体多核苷酸序列共同施用(例如,与靶核酸接触、向细胞施用等),所述供体多核苷酸序列包括与靶dna序列同源的至少一个区段,主题方法可用于将核酸物质添加(即插入或替代)到靶dna序列(例如以“敲入”核酸,例如编码蛋白质、sirna、mirna的核酸等),添加标签(例如,6xhis、荧光蛋白(例如,绿色荧光蛋白;黄色荧光蛋白等)、血凝素(ha)、flag等),将调控序列添加到基因(例如启动子、聚腺苷酸化信号、内部核糖体进入序列(ires)、2a肽、起始密码子、终止密码子、剪接信号、定位信号等),修饰核酸序列(例如,引入突变、通过引入正确的序列去除致病突变)等。因此,包含cas12l引导rna和cas12l蛋白质的复合物可用于任何体外或体内应用中,在所述应用中希望以位点特异性(即“靶向的”)方式修饰dna,例如基因敲除、基因敲入、基因编辑、基因标签等,例如在例如治疗疾病或作为抗病毒、抗病原体或抗癌治疗剂的基因疗法、出于治疗、诊断或研究目的通过细胞进行的大规模蛋白质生产、ips细胞诱导、生物研究、用于缺失或替代的病原体基因的靶向等中所使用。
[0490]
在其中希望将多核苷酸序列插入靶序列被切割的基因组中的应用中,还可向细胞提供供体多核苷酸(包含供体序列的核酸)。“供体序列”或“供体多核苷酸”或“供体模板”意指待在cas12l蛋白切割的位点处插入的核酸序列(例如,在dsdna切割之后、对靶dna进行切口之后、对靶dna进行双切口之后等)。供体多核苷酸可含有与靶位点处的基因组序列足够的同源性(例如与侧接靶位点,例如在靶位点的约50个或更少的碱基内(例如约30个碱基内、约15个碱基内、约10个碱基内、约5个碱基内)的核苷酸序列或直接侧接靶位点的核苷酸序列,具有70%、80%、85%、90%、95%或100%的同源性),以支持所述供体多核苷酸与和其具有同源性的基因组序列之间的同源定向修复。在供体与基因组序列之间具有序列同源性的大约25个、50个、100个或200个核苷酸或多于200个核苷酸(或10与200之间任何整数值的核苷酸或更多)可支持同源定向修复。供体多核苷酸可具有任何长度,例如10个核苷酸或更多、50个核苷酸或更多、100个核苷酸或更多、250个核苷酸或更多、500个核苷酸或更多、1000个核苷酸或更多、5000个核苷酸或更多等。
[0491]
供体序列通常不与它替代的基因组序列相同。而且,供体序列相对于基因组序列可含有至少一个或多个单个碱基变化、插入、缺失、反转或重排,只要存在足够同源性以支持同源定向修复即可(例如,用于基因校正,例如,以转化致病碱基对或非致病碱基对)。在一些实施方案中,供体序列包含侧接两个同源区的非同源序列,以使得靶dna区域与两个侧接序列之间的同源定向修复导致在靶区域处插入非同源序列。供体序列还可包含载体骨架,所述载体骨架含有不与目标dna区域同源并且不意图插入到目标dna区域中的序列。通常,供体序列的一个或多个同源区将与希望与其重组的基因组序列具有至少50%的序列同一性。在某些实施方案中,存在60%、70%、80%、90%、95%、98%、99%或99.9%的序列同一性。根据供体多核苷酸的长度,可存在1%与100%之间的任何值的序列同一性。
[0492]
供体序列与基因组序列相比可包含某些序列差异,例如限制位点、核苷酸多态性、可选择标记(例如,抗药基因、荧光蛋白、酶等)等,所述序列差异可用来评估供体序列在切割位点处的成功插入或在一些情况下可用于其他目的(例如,表示靶向基因组基因座处的表达)。在一些情况下,如果位于编码区中,此类核苷酸序列差异将不会改变氨基酸序列,或将产生沉默氨基酸变化(即,不影响蛋白质结构或功能的变化)。可替代地,这些序列差异可包括侧接重组序列,诸如flp、loxp序列等,所述侧接重组序列可在去除标记序列之后的时
间里激活。
[0493]
在一些情况下,供体序列作为单链dna提供给细胞。在一些情况下,供体序列作为双链dna提供给细胞。它可以线性或环状形式引入细胞中。如果以线性形式引入,供体序列的末端可通过任何方便的方法来保护(例如,免受核酸外切降解),并且此类方法是本领域的技术人员已知的。例如,可将一个或多个双脱氧核苷酸残基添加到线性分子的3’末端,并且/或者可将自身互补寡核苷酸连接至一个或两个末端。参见例如chang等人(1987)proc.natl.acad sci usa84:4959-4963;nehls等人(1996)science 272:886-889。用于保护外源多核苷酸免受降解的另外方法包括但不限于添加一个或多个末端氨基以及使用修饰的核苷酸间键联,例如像硫代磷酸酯、氨基磷酸酯和o-甲基核糖或脱氧核糖残基。作为保护线性供体序列的末端的替代方案,可在同源区外部包括额外长度的序列,所述序列可在不影响重组的情况下降解。可将供体序列作为载体分子的一部分引入细胞中,所述载体分子具有另外的序列,例如像复制起点、启动子和编码抗生素耐药性的基因。此外,供体序列可作为裸核酸、作为与剂(诸如脂质体或泊洛沙姆)复合的核酸引入,或者可通过病毒(例如,腺病毒aav)来递送,如本文其他地方对于编码cas12l引导rna和/或cas12l融合多肽和/或供体多核苷酸的核酸所述。
[0494]
检测方法
[0495]
一旦通过检测靶dna(双链或单链)而被激活,本公开的cas12l多肽可混杂地切割非靶向核酸(例如,单链dna(ssdna)或rna)。在一些情况下,一旦本公开的cas12l多肽被引导rna激活,这在引导rna与靶dna的靶序列杂交(即,样品包含靶dna)时发生,cas12l多肽变成混杂切割ssdna的核酸酶(即,核酸酶切割非靶ssdna,即不与引导rna的引导序列杂交的ssdna)。在一些情况下,一旦本公开的cas12l多肽被引导rna激活,这在引导rna与靶dna的靶序列杂交(即,样品包含靶dna)时发生,cas12l多肽变成混杂切割rna的核酸酶(即,核酸酶切割非靶rna,即不与引导rna的引导序列杂交的rna)。因此,当样品中存在靶dna时(例如,在一些情况下超过阈值量),引起样品中ssdna或rna的切割,这可使用任何方便的检测方法(例如,使用标记的单链检测剂dna或检测剂rna)加以检测。
[0496]
用于检测靶dna的组合物和方法
[0497]
提供了用于检测样品中的靶dna(双链或单链)的组合物和方法。在一些情况下,使用为单链(ssdna)并且不与引导rna的引导序列杂交的检测剂dna(即,检测剂ssdna是非靶ssdna)。此类方法可包括(a)使样品与以下物质接触:(i)本公开的cas12l多肽;(ii)引导rna,所述引导rna包含与cas12l多肽结合的区域和与靶dna杂交的引导序列;和(iii)为单链的且不与引导rna的引导序列杂交的检测剂dna;以及(b)测量由cas12l多肽切割单链检测剂dna而产生的可检测信号,从而检测靶dna。如上所指出,一旦本公开的cas12l多肽被引导rna激活(在样品中包含与引导rna杂交的靶dna(即,样品中包含靶向靶dna)时发生),cas12l多肽就会被激活并且充当内切核糖核酸酶来非特异性地切割样品中存在的ssdna(包括非靶ssdna)。因此,当样品中存在所靶向的靶dna时(例如,在一些情况下超过阈值量),引起样品中ssdna(包括非靶ssdna)的切割,这可使用任何方便的检测方法(例如,使用标记的检测剂ssdna)加以检测。
[0498]
还提供了用于切割单链dna(ssdna)(例如,非靶ssdna)的组合物和方法。此类方法可包括使核酸群体与以下物质接触,其中所述群体包含靶dna和多个非靶ssdna:(i)本公开
的cas12l多肽;和(ii)引导rna,所述引导rna包含与cas12l多肽结合的区域和与靶dna杂交的引导序列,其中cas12l多肽切割所述多个非靶ssdna。可使用这种方法,例如,在细胞中切割外源ssdna(例如,病毒dna)。
[0499]
主题方法的接触步骤可在包含二价金属离子的组合物中进行。接触步骤可在无细胞环境中,例如在细胞外部进行。接触步骤可在细胞内部进行。接触步骤可在体外细胞中进行。接触步骤可在离体细胞中进行。接触步骤可在体内细胞中进行。
[0500]
引导rna可以rna的形式或以编码引导rna的核酸(例如,dna,诸如重组表达载体)的形式提供。cas12l多肽可以蛋白质或以编码蛋白质的核酸(例如,mrna、dna诸如重组表达载体)的形式提供。在一些情况下,可通过(例如,使用前体引导rna阵列,其可被cas12l效应蛋白切割成单个(“成熟”)引导rna)来提供两个或更多个(例如,3个或更多个、4个或更多个、5个或更多个、或6个或更多个)引导rna。
[0501]
在一些情况下(例如,当与本公开的引导rna和cas12l多肽接触时),在测量步骤之前,样品接触2小时或更少时间(例如,1.5小时或更少、1小时或更少、40分钟或更少、30分钟或更少、20分钟或更少、10分钟或更少、或5分钟或更少、或1分钟或更少)。例如,在一些情况下,在测量步骤之前使样品接触40分钟或更短时间。在一些情况下,在测量步骤之前使样品接触20分钟或更短时间。在一些情况下,在测量步骤之前使样品接触10分钟或更短时间。在一些情况下,在测量步骤之前使样品接触5分钟或更短时间。在一些情况下,在测量步骤之前使样品接触1分钟或更短时间。在一些情况下,在测量步骤之前使样品接触50秒至60秒。在一些情况下,在测量步骤之前使样品接触40秒至50秒。在一些情况下,在测量步骤之前使样品接触30秒至40秒。在一些情况下,在测量步骤之前使样品接触20秒至30秒。在一些情况下,在测量步骤之前使样品接触10秒至20秒。
[0502]
本公开的用于检测样品中的靶dna(单链或双链)的方法可以高灵敏度检测靶dna。在一些情况下,可使用本公开的方法检测包含多个dna(包括靶dna和多个非靶dna)的样品中存在的靶dna,其中靶dna以每107个非靶dna一个或多个拷贝(例如,每106个非靶dna一个或多个拷贝、每105个非靶dna一个或多个拷贝、每104个非靶dna一个或多个拷贝、每103个非靶dna一个或多个拷贝、每102个非靶dna一个或多个拷贝、每50个非靶dna一个或多个拷贝、每20个非靶dna一个或多个拷贝、每10个非靶dna一个或多个拷贝、或每5个非靶dna一个或多个拷贝)存在。在一些情况下,可使用本公开的方法检测包含多个dna(包括靶dna和多个非靶dna)的样品中存在的靶dna,其中靶dna以每10
18
个非靶dna一个或多个拷贝(例如,每10
15
个非靶dna一个或多个拷贝、每10
12
个非靶dna一个或多个拷贝、每109个非靶dna一个或多个拷贝、每106个非靶dna一个或多个拷贝、每105个非靶dna一个或多个拷贝、每104个非靶dna一个或多个拷贝、每103个非靶dna一个或多个拷贝、每102个非靶dna一个或多个拷贝、每50个非靶dna一个或多个拷贝、每20个非靶dna一个或多个拷贝、每10个非靶dna一个或多个拷贝、或每5个非靶dna一个或多个拷贝)存在。
[0503]
在一些情况下,本公开的方法可检测样品中存在的靶dna,其中靶dna以每107个非靶dna一个拷贝至每10个非靶dna一个拷贝(例如,每107个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每104个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每105个非靶dna 1个拷贝、每107个非靶dna1个拷贝至每106个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每10个非靶
dna 1个拷贝、每106个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每104个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每105个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每10个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每105个非靶dna1个拷贝至每103个非靶dna 1个拷贝、或每105个非靶dna 1个拷贝至每104个非靶dna 1个拷贝)存在。
[0504]
在一些情况下,本公开的方法可检测样品中存在的靶dna,其中靶dna以每10
18
个非靶dna一个拷贝至每10个非靶dna一个拷贝(例如,每10
18
个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每10
15
个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每10
12
个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每109个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每107个非靶dna1个拷贝至每102个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每104个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每105个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每106个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每10个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每104个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每105个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每10个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、或每105个非靶dna 1个拷贝至每104个非靶dna 1个拷贝)存在。
[0505]
在一些情况下,本公开的方法可检测样品中存在的靶dna,其中靶dna以每107个非靶dna一个拷贝至每100个非靶dna一个拷贝(例如,每107个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每104个非靶dna 1个拷贝、每107个非靶dna 1个拷贝至每105个非靶dna 1个拷贝、每107个非靶dna1个拷贝至每106个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每100个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每104个非靶dna 1个拷贝、每106个非靶dna 1个拷贝至每105个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每100个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每102个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、或每105个非靶dna 1个拷贝至每104个非靶dna 1个拷贝)存在。
[0506]
在一些情况下,对于检测样品中的靶dna的主题方法,检测阈值为10nm或更小。术语“检测阈值”在本文用于描述要发生检测样品中必须存在的最小靶dna量。因此,作为说明性实例,当检测阈值为10nm时,则当样品中存在浓度为10nm或更高的靶dna时,可以检测到信号。在一些情况下,本公开的方法的检测阈值为5nm或更小。在一些情况下,本公开的方法的检测阈值为1nm或更小。在一些情况下,本公开的方法的检测阈值为0.5nm或更小。在一些情况下,本公开的方法的检测阈值为0.1nm或更小。在一些情况下,本公开的方法的检测阈值为0.05nm或更小。在一些情况下,本公开的方法的检测阈值为0.01nm或更小。在一些情况下,本公开的方法的检测阈值为0.005nm或更小。在一些情况下,本公开的方法的检测阈值为0.001nm或更小。在一些情况下,本公开的方法的检测阈值为0.0005nm或更小。在一些情
况下,本公开的方法的检测阈值为0.0001nm或更小。在一些情况下,本公开的方法的检测阈值为0.00005nm或更小。在一些情况下,本公开的方法的检测阈值为0.00001nm或更小。在一些情况下,本公开的方法的检测阈值为10pm或更小。在一些情况下,本公开的方法的检测阈值为1pm或更小。在一些情况下,本公开的方法的检测阈值为500fm或更小。在一些情况下,本公开的方法的检测阈值为250fm或更小。在一些情况下,本公开的方法的检测阈值为100fm或更小。在一些情况下,本公开的方法的检测阈值为50fm或更小。在一些情况下,本公开的方法的检测阈值为500am(渺摩尔)或更小。在一些情况下,本公开的方法的检测阈值为250am或更小。在一些情况下,本公开的方法的检测阈值为100am或更小。在一些情况下,本公开的方法的检测阈值为50am或更小。在一些情况下,本公开的方法的检测阈值为10am或更小。在一些情况下,本公开的方法的检测阈值为1am或更小。
[0507]
在一些情况下,检测阈值(用于在主题方法中检测靶dna)的范围为500fm到1nm(例如,500fm到500pm、500fm到200pm、500fm到100pm、500fm到10pm、500fm到1pm、800fm到1nm、800fm到500pm、800fm到200pm、800fm到100pm、800fm到10pm、800fm到1pm、1pm到1nm、1pm到500pm、1pm到200pm、1pm到100pm或1pm到10pm)(其中浓度是指可以检测到靶dna的靶dna阈值浓度)。在一些情况下,本公开的方法的检测阈值在800fm至100pm的范围内。在一些情况下,本公开的方法的检测阈值在1pm至10pm的范围内。在一些情况下,本公开的方法的检测阈值在10fm至500fm,例如10fm至50fm、50fm至100fm、100fm至250fm、或250fm至500fm的范围内。
[0508]
在一些情况下,可以在样品中检测到靶dna的最小浓度的范围为500fm到1nm(例如,500fm至500pm、500fm至200pm、500fm至100pm、500fm至10pm、500fm至1pm、800fm至1nm、800fm至500pm、800fm至200pm、800fm至100pm、800fm至10pm、800fm至1pm、1pm至1nm、1pm至500pm、1pm至200pm、1pm至100pm或1pm至10pm)。在一些情况下,可在样品中检测到靶dna的最小浓度在800fm至100pm的范围内。在一些情况下,可在样品中检测到靶dna的最小浓度在1pm至10pm的范围内。
[0509]
在一些情况下,检测阈值(在主题方法中用于检测样品中的靶dna)的范围为1am至1nm(例如,1am至500pm、1am至200pm、1am至100pm、1am至10pm、1am至1pm、100am至1nm、100am至500pm、100am至200pm、100am至100pm、100am至10pm、100am至1pm、250am至1nm、250am至500pm、250am至200pm、250am至100pm、250am至10pm、250am至1pm、500am至1nm、500am至500pm、500am至200pm、500am至100pm、500am至10pm、500am至1pm、750am至1nm、750am至500pm、750am至200pm、750am至100pm、750am至10pm、750am至1pm、1fm至1nm、1fm至500pm、1fm至200pm、1fm至100pm、1fm至10pm、1fm至1pm、500fm至500pm、500fm至200pm、500fm至100pm、500fm至10pm、500fm至1pm、800fm至1nm、800fm至500pm、800fm至200pm、800fm至100pm、800fm至10pm、800fm至1pm、1pm至1nm、1pm至500pm、1pm至200pm、1pm至100pm、或1pm至10pm)(其中浓度是指可以检测到靶dna的靶dna阈值浓度)。在一些情况下,本公开的方法的检测阈值在1am至800am的范围内。在一些情况下,本公开的方法的检测阈值在50am至1pm的范围内。在一些情况下,本公开的方法的检测阈值在50am至500fm的范围内。
[0510]
在一些情况下,可在样品中检测到靶dna的最小浓度在1am至1nm(例如,1am至500pm、1am至200pm、1am至100pm、1am至10pm、1am至1pm、100am至1nm、100am至500pm、100am至200pm、100am至100pm、100am至10pm、100am至1pm、250am至1nm、250am至500pm、250am至
200pm、250am至100pm、250am至10pm、250am至1pm、500am至1nm、500am至500pm、500am至200pm、500am至100pm、500am至10pm、500am至1pm、750am至1nm、750am至500pm、750am至200pm、750am至100pm、750am至10pm、750am至1pm、1fm至1nm、1fm至500pm、1fm至200pm、1fm至100pm、1fm至10pm、1fm至1pm、500fm至500pm、500fm至200pm、500fm至100pm、500fm至10pm、500fm至1pm、800fm至1nm、800fm至500pm、800fm至200pm、800fm至100pm、800fm至10pm、800fm至1pm、1pm至1nm、1pm至500pm、1pm至200pm、1pm至100pm、或1pm至10pm)的范围内。在一些情况下,可在样品中检测到靶dna的最小浓度在1am至500pm的范围内。在一些情况下,可在样品中检测到靶dna的最小浓度在100am至500pm的范围内。
[0511]
在一些情况下,主题组合物或方法表现出渺摩尔级(am)的检测灵敏度。在一些情况下,主题组合物或方法表现出飞摩尔级(fm)的检测灵敏度。在一些情况下,主题组合物或方法表现出皮摩尔级(pm)的检测灵敏度。在一些情况下,主题组合物或方法表现出纳米摩尔级(nm)的检测灵敏度。
[0512]
靶dna
[0513]
靶dna可以是单链的(ssdna)或双链的(dsdna)。当靶dna是单链的时,对靶dna中的pam序列没有偏好或要求。但是,当靶dna是dsdna时,pam通常邻近靶dna的靶序列存在(例如,参见本文其他地方对pam的论述)。靶dna的来源可与样品的来源相同,例如,如下文所述。
[0514]
靶dna的来源可以是任何来源。在一些情况下,靶dna是病毒dna(例如,dna病毒的基因组dna)。因而,主题方法可用于检测核酸群体中(例如,样品中)病毒dna的存在。主题方法还可用于在靶dna存在下切割非靶ssdna。例如,如果方法发生在细胞中,则当细胞中存在特定靶dna时,主题方法可用于混杂地切割细胞中的非靶ssdna(不与引导rna的引导序列杂交的ssdna)(例如,当细胞被病毒感染并检测到病毒靶dna时)。
[0515]
可能的靶dna的实例包括但不限于病毒dna,诸如:乳多空病毒(例如,人乳头瘤病毒(hpv)、多瘤病毒属);嗜肝dna病毒(例如,乙型肝炎病毒(hbv));疱疹病毒(例如,单纯疱疹病毒(hsv)、水痘带状疱疹病毒(vzv)、爱泼斯坦-巴尔病毒(epstein-barr virus,ebv)、巨细胞病毒(cmv)、疱疹淋巴病毒、玫瑰糠疹、卡波西氏肉瘤相关疱疹病毒);腺病毒(例如,鸟腺病毒、禽腺病毒、鱼腺病毒(ichtadenovirus)、美洲白鲟腺病毒(mastadenovirus)、唾液酸酶腺病毒);痘病毒(例如,天花、痘苗病毒、牛痘病毒、猴痘病毒、口疮病毒、假牛痘病毒、牛丘疹性口炎病毒;特纳河痘病毒、亚巴猴肿瘤病毒;传染性软疣病毒(mcv));细小病毒(例如,腺相关病毒(aav)、细小病毒b19、人博卡病毒、bufavirus、人parv4 g1);双生病毒科;矮化病毒科;藻类dna病毒科(phycodnaviridae)等。在一些情况下,靶dna是寄生虫dna。在一些情况下,靶dna是细菌dna,例如病原性细菌的dna。
[0516]
样品
[0517]
主题样品包括核酸(例如,多个核酸)。术语“多个”在本文中用于意指两个或更多个。因此,在一些情况下,样品包含两个或更多个(例如,3个或更多个、5个或更多个、10个或更多个、20个或更多个、50个或更多个、100个或更多个、500个或更多个、1,000个或更多个、或者5,000个或更多个)核酸(例如,dna)。主题方法可用作检测样品中(例如,诸如dna的核酸的复杂混合物中)存在的靶dna的非常灵敏的方法。在一些情况下,样品包含序列彼此不同的5个或更多个dna(例如,10个或更多个、20个或更多个、50个或更多个、100个或更多个、
500个或更多个、1,000个或更多个、或者5,000个或更多个dna)。在一些情况下,样品包含10个或更多个、20个或更多个、50个或更多个、100个或更多个、500个或更多个、103个或更多个、5x103个或更多个、104个或更多个、5x104个或更多个、105个或更多个、5x105个或更多个、106个或更多个、5x106个或更多个、或者107个或更多个dna。在一些情况下,样品包含10至20个、20至50个、50至100个、100至500个、500至103个、103至5x103个、5x103至104个、104至5x104个、5x104至105个、105至5x105个、5x105至106个、106至5x106个、或5x106至107个、或超过107个dna。在一些情况下,样品包含5至107个dna(例如,序列彼此不同)(例如,5至106个、5至105个、5至50,000个、5至30,000个、10至106个、10至105个、10至50,000个、10至30,000个、20至106个、20至105个、20至50,000个、或20至30,000个dna)。在一些情况下,样品包含20个或更多个序列彼此不同的dna。在一些情况下,样品包含来自细胞裂解液(例如,真核细胞裂解液、哺乳动物细胞裂解液、人细胞裂解液、原核细胞裂解液、植物细胞裂解液等)的dna。例如,在一些情况下,样品包含来自细胞诸如真核细胞,例如哺乳动物细胞诸如人细胞的dna。
[0518]
术语“样品”在本文中用于意指包含dna的任何样品(例如,以便确定在dna群体中是否存在靶dna)。样品可衍生自任何来源,例如,样品可以是纯化dna的合成组合;样品可以是细胞裂解液、富含dna的细胞裂解液,或从细胞裂解液中分离和/或纯化的dna。样品可来自患者(例如,出于诊断目的)。样品可来自透化细胞。样品可来自交联细胞。样品可在组织切片中。样品可来自通过交联,之后进行脱脂和调整以形成均匀折射率而制备的组织。通过交联,之后进行脱脂和调整以形成均匀折射率的组织制备的实例描述于例如shah等人,development(2016)143,2862-2867doi:10.1242/dev.138560中。
[0519]“样品”可包含靶dna和多个非靶dna。在一些情况下,靶dna在样品中以每10个非靶dna一个拷贝、每20个非靶dna一个拷贝、每25个非靶dna一个拷贝、每50个非靶dna一个拷贝、每100个非靶dna一个拷贝、每500个非靶dna一个拷贝、每103个非靶dna一个拷贝、每5x103个非靶dna一个拷贝、每104个非靶dna一个拷贝、每5x104个非靶dna一个拷贝、每105个非靶dna一个拷贝、每5x105个非靶dna一个拷贝、每106个非靶dna一个拷贝、或小于每106个非靶dna一个拷贝存在。在一些情况下,靶dna在样品中以每10个非靶dna一个拷贝至每20个非靶dna 1个拷贝、每20个非靶dna 1个拷贝至每50个非靶dna 1个拷贝、每50个非靶dna 1个拷贝至每100个非靶dna 1个拷贝、每100个非靶dna 1个拷贝至每500个非靶dna 1个拷贝、每500个非靶dna 1个拷贝至每103个非靶dna 1个拷贝、每103个非靶dna 1个拷贝至每5x103个非靶dna 1个拷贝、每5x103个非靶dna 1个拷贝至每104个非靶dna 1个拷贝、每104个非靶dna 1个拷贝至每105个非靶dna 1个拷贝、每105个非靶dna 1个拷贝至每106个非靶dna 1个拷贝、或每106个非靶dna 1个拷贝至每107个非靶dna 1个拷贝存在。
[0520]
合适的样品包括但不限于唾液、血液、血清、血浆、尿液、抽吸物和活检样品。因此,关于患者的术语“样品”涵盖生物来源的血液和其他液体样品、实体组织样品诸如活检样本或组织培养物或来源于其的细胞及其后代。该定义还包括在获得后采用以下任何方式操作过的样品:诸如用试剂处理;洗涤;或针对某些细胞群体诸如癌细胞进行富集。该定义还包括已经富集了特定类型的分子(例如,dna)的样品。术语“样品”涵盖生物样品,诸如临床样品,诸如血液、血浆、血清、抽吸物、脑脊髓液(csf),并且还包括通过手术切除获得的组织、通过活检获得的组织、培养物中的细胞、细胞上清液、细胞裂解液、组织样品、器官、骨髓等。“生物样品”包括由其来源的生物流体(例如癌细胞、感染细胞等),例如从此类细胞获得的
包含dna的样品(例如包含dna的细胞裂解物或其他细胞提取物)。
[0521]
样品可包含或可从多种细胞、组织、器官或无细胞流体中的任一种获得。合适的样品来源包括真核细胞、细菌细胞和古细菌细胞。合适的样品来源包括单细胞生物体和多细胞生物体。合适的样品来源包括单细胞真核生物体;植物或植物细胞;藻类细胞,例如布朗葡萄藻、莱茵衣藻、海洋富油微拟球藻、蛋白核小球藻、展枝马尾藻、羽藻等;真菌细胞(例如,酵母细胞);动物细胞、组织或器官;来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫、昆虫、蛛形纲动物等)的细胞、组织或器官;来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、组织、体液或器官;来自哺乳动物(例如,人;非人灵长类动物;有蹄类动物;猫科动物;牛;绵羊;山羊等)的细胞、组织、体液或器官。合适的样品来源包括线虫、原生动物等。合适的样品来源包括寄生虫,诸如蠕虫、疟疾寄生虫等。
[0522]
合适的样品来源包括例如以下六个界中任何一个界的细胞、组织或生物体:细菌界(例如,真细菌界);古细菌界;原生生物界;真菌界;植物界;和动物界。合适的样品来源包括原生生物界的植物样成员,包括但不限于藻类(例如,绿藻、红藻、灰胞藻、蓝细菌);原生生物界的真菌样成员,例如粘液菌、水霉菌等;原生生物界的动物样成员,例如鞭毛虫类(例如,眼虫藻)、变形虫类(amoeboids)(例如,变形虫)、孢子虫类(例如,顶复门(apicomplexa)、粘体动物门(myxozoa)、微孢子虫纲(microsporidia))和纤毛虫类(例如,草履虫)。合适的样品来源包括包括真菌界的成员,包括但不限于以下门中的任何门的成员:担子菌门(担子菌类;例如,伞菌属、鹅膏菌属、牛肝菌属、鸡油菌属等成员);子囊菌门(子囊菌类,包括例如酵母菌);菌藻门(地衣);接合菌门(接合真菌);以及不完全菌门。合适的样品来源包括包括植物界的成员,包括但不限于以下分类中的任何分类的成员:苔藓植物门(例如,藓类)、角苔植物门(例如,角苔类)、苔类植物门(hepaticophyta)(例如,苔类)、石松植物门(例如,石松类)、楔叶植物门(例如,木贼类)、裸蕨植物门(例如,松叶蕨类)、瓶尔小草门、蕨门(例如,蕨类)、苏铁门、银杏门、松柏门、买麻藤门和木兰门(例如,开花植物)。合适的样品来源包括包括动物界的成员,包括但不限于以下门中的任何门的成员:多孔动物门(海绵动物);扁盘动物门;直泳虫门(海洋无脊椎动物的寄生物);菱形虫门;刺胞动物门(珊瑚、海葵、海蜇、海笔、海肾、立方水母);栉水母门(栉水母类);扁虫动物门(扁虫类);纽形动物门(纽虫类);颚胃动物门(ngathostomulida)(有颚蠕虫)p腹毛动物门;轮虫动物门;曳鳃动物门;动吻动物门;铠甲动物门;棘头动物门;内肛动物门;线虫动物门;线形动物门;环口动物门;软体动物门(软体动物);星虫动物门(方格星虫(peanut worms));环节动物门(环节蠕虫);缓步动物门(缓步动物);有爪动物门(栉蚕);节肢动物门(包括以下亚门:有螯肢亚门、多足亚门、六足亚门和甲壳亚门,其中有螯肢亚门包括例如蛛形纲、肢口纲和海蜘蛛纲,其中多足亚门包括例如唇足纲(唇足类)、倍足纲(多足类)、少足纲(paropoda)和综合纲,其中六足亚门包括昆虫纲,并且其中甲壳亚门包括虾、磷虾、藤壶等;帚虫动物门;外肛动物门(苔藓动物);腕足动物门;棘皮动物门(例如,海星、海雏菊、毛头星、海胆、海参、海蛇尾、脆篮(brittle baskets)等);毛颚动物门(箭虫);半索动物门(玉钩虫);和脊索动物门。合适的脊索动物门成员包括以下亚门的任何成员:尾索动物亚门(海鞘纲;包括海鞘目、樽海鞘目和幼形目);头索亚门(文昌鱼);盲鳗纲(盲鳗);和脊椎动物亚门,其中脊椎动物亚门成员包括例如以下纲的成员:鳃鳗纲(七鳃类)、软骨鱼纲(软骨鱼)、辐鳍鱼纲(辐鳍鱼)、腔棘焦纲(腔棘鱼)、肺鱼纲(肺鱼)、爬行纲(爬行动物,例如蛇、短吻鳄、鳄
鱼、蜥蜴等)、鸟纲(鸟类);和哺乳纲(哺乳动物)。合适的植物包括任何单子叶植物和任何双子叶植物。
[0523]
合适的样品来源包括取自生物体;从生物体分离的特定细胞或细胞群的细胞、流体、组织或器官等。例如,在生物体是植物的情况下,合适的来源包括木质部、韧皮部、形成层、叶、根等。在生物体是动物的情况下,合适的来源包括特定组织(例如,肺、肝、心脏、肾、脑、脾、皮肤、胎儿组织等)、或特定细胞类型(例如,神经元细胞、上皮细胞、内皮细胞、星形胶质细胞、巨噬细胞、神经胶质细胞、胰岛细胞、t淋巴细胞、b淋巴细胞等)。
[0524]
在一些情况下,样品来源是病变的(或疑似病变的细胞、流体、组织或器官。在一些情况下,样品来源是正常(非病变的)细胞、流体、组织或器官。在一些情况下,样品来源是(或疑似是病原体感染的细胞、组织或器官。例如,样品来源可以是可能被感染或可能未被感染的个体-并且样品可以是从个体收集的任何生物样品(例如血液、唾液、活检物、血浆、血清、支气管肺泡灌洗液、痰液、粪便样品、脑脊液、细针抽吸物、拭子样品(例如,颊拭子、宫颈拭子、鼻拭子)、间质液、滑液、鼻分泌物、眼泪、血沉棕黄层、粘膜样品、上皮细胞样品(例如,上皮细胞刮擦物)等)。在一些情况下,样品是无细胞液体样品。在一些情况下,样品是可包含细胞的液体样品。病原体包括病毒、真菌、蠕虫、原生动物、疟疾寄生虫、疟原虫寄生虫、弓形虫寄生虫、血吸虫寄生虫等。“蠕虫”包括蛔虫、犬恶丝虫和植食性线虫(线虫纲)、吸虫(吸虫纲)、棘头虫纲和绦虫(绦虫纲)。原生动物感染包括来自贾第虫属种、毛滴虫属种、非洲锥虫病、阿米巴痢疾、巴贝虫病、小袋虫性痢疾、查加斯病(chaga's disease)、球虫病、疟疾和弓形体病的感染。病原体(诸如寄生/原生动物病原体)的实例包括但不限于:恶性疟原虫(plasmodium falciparum)、间日疟原虫(plasmodium vivax)、克氏锥虫(trypanosoma cruzi)和刚地弓形虫(toxoplasma gondii)。真菌病原体包括但不限于:新型隐球菌(cryptococcus neoformans)、荚膜组织胞浆菌(histoplasma capsulatum)、粗球孢菌(coccidioides immitis)、皮炎芽生菌(blastomyces dermatitidis)、沙眼衣原体(chlamydia trachomatis)和白色念珠菌(candida albicans)。病原性病毒包括例如免疫缺陷病毒(例如,hiv);流感病毒;登革热病毒;西尼罗河病毒;疱疹病毒;黄热病毒;丙型肝炎病毒;甲型肝炎病毒;乙型肝炎病毒;乳头瘤病毒等。病原性病毒可包括dna病毒,诸如:乳多空病毒(例如,人乳头瘤病毒(hpv)、多瘤病毒属);嗜肝dna病毒(例如,乙型肝炎病毒(hbv));疱疹病毒(例如,单纯疱疹病毒(hsv)、水痘带状疱疹病毒(vzv)、爱泼斯坦-巴尔病毒(ebv)、巨细胞病毒(cmv)、疱疹淋巴病毒、玫瑰糠疹、卡波西氏肉瘤相关疱疹病毒);腺病毒(例如,鸟腺病毒、禽腺病毒、鱼腺病毒、美洲白鲟腺病毒、唾液酸酶腺病毒);痘病毒(例如,天花、痘苗病毒、牛痘病毒、猴痘病毒、口疮病毒、假牛痘病毒、牛丘疹性口炎病毒;特纳河痘病毒、亚巴猴肿瘤病毒;传染性软疣病毒(mcv));细小病毒(例如,腺相关病毒(aav)、细小病毒b19、人博卡病毒、bufavirus、人parv4 g1);双生病毒科;矮化病毒科;藻科等。病原体可包括,例如dna病毒[例如:乳多空病毒(例如,人乳头瘤病毒(hpv)、多瘤病毒属);嗜肝dna病毒(例如,乙型肝炎病毒(hbv));疱疹病毒(例如,单纯疱疹病毒(hsv)、水痘带状疱疹病毒(vzv)、爱泼斯坦-巴尔病毒(ebv)、巨细胞病毒(cmv)、疱疹淋巴病毒、玫瑰糠疹、卡波西氏肉瘤相关疱疹病毒);腺病毒(例如,鸟腺病毒、禽腺病毒、鱼腺病毒、美洲白鲟腺病毒、唾液酸酶腺病毒);痘病毒(例如,天花、痘苗病毒、牛痘病毒、猴痘病毒、口疮病毒、假牛痘病毒、牛丘疹性口炎病毒;特纳河痘病毒、亚巴猴肿瘤病毒;传染性软疣病毒(mcv));细小病毒
(例如,腺相关病毒(aav)、细小病毒b19、人博卡病毒、bufavirus、人parv4 g1);双生病毒科;矮化病毒科;藻科等]、结核分枝杆菌(mycobacterium tuberculosis)、无乳链球菌(streptococcus agalactiae)、耐甲氧西林金黄色葡萄球菌(methicillin-resistant staphylococcus aureus)、嗜肺军团菌(legionella pneumophila)、酿脓链球菌(streptococcus pyogenes)、大肠杆菌(escherichia coli)、淋病奈瑟氏菌(neisseria gonorrhoeae)、脑膜炎奈瑟氏菌(neisseria meningitidis)、肺炎球菌(pneumococcus)、新型隐球菌(cryptococcus neoformans)、荚膜组织胞浆菌(histoplasma capsulatum)、流感嗜血杆菌b(hemophilus influenzae b)、梅毒密螺旋体(treponema pallidum)、莱姆病螺旋体(lyme disease spirochetes)、铜绿假单胞菌(pseudomonas aeruginosa)、麻风分枝杆菌(mycobacterium leprae)、流产布鲁氏菌(brucella abortus)、狂犬病病毒、流感病毒、巨细胞病毒、单纯疱疹病毒i、单纯疱疹病毒ii、人血清细小样病毒(human serum parvo-like virus)、呼吸道合胞体病毒、水痘-带状疱疹病毒、乙型肝炎病毒、丙型肝炎病毒、麻疹病毒、腺病毒、人t细胞白血病病毒、爱泼斯坦-巴尔病毒、鼠白血病病毒、腮腺炎病毒、水疱性口炎病毒、辛德毕斯病毒(sindbis virus)、淋巴细胞性脉络丛脑膜炎病毒、疣病毒、蓝舌病毒、仙台病毒(sendai virus)、猫白血病病毒、呼肠孤病毒、脊髓灰质炎病毒、猿猴病毒40、小鼠乳腺肿瘤病毒、登革热病毒、风疹病毒、西尼罗河病毒、恶性疟原虫、间日疟原虫、刚地弓形虫、蓝氏锥虫(trypanosoma rangeli)、克氏锥虫、罗氏锥虫(trypanosoma rhodesiense)、布氏锥虫(trypanosoma brucei)、曼氏血吸虫(schistosoma mansoni)、日本血吸虫(schistosoma japonicum)、巴贝斯虫(babesia bovis)、柔嫩艾美球虫(eimeria tenella)、盘尾丝虫(onchocerca volvulus)、利什曼原虫(leishmania tropica)、结核分枝杆菌、旋毛虫(trichinella spiralis)、泰勒原虫(theileria parva)、胞状绦虫(taenia hydatigena)、羊绦虫(taenia ovis)、牛肉绦虫(taenia saginata)、细粒棘球绦虫(echinococcus granulosus)、柯氏中殖孔绦虫(mesocestoides corti)、关节炎支原体(mycoplasma arthritidis)、猪鼻支原体(m.hyorhinis)、口腔支原体(m.orale)、精氨酸支原体(m.arginini)、莱氏无胆甾原体(acholeplasma laidlawii)、唾窦支原体(m.salivarium)和肺炎支原体(m.pneumoniae)。
[0525]
测量可检测信号
[0526]
在一些情况下,主题方法包括测量步骤(例如,测量由cas12l介导的ssdna切割产生的可检测信号)。因为本公开的cas12l多肽一旦被激活就切割非靶向ssdna,这发生于当引导rna与靶dna在cas12l效应蛋白存在下杂交时,可检测的信号可以是切割ssdna时产生的任何信号。例如,在一些情况下,测量步骤可包括以下一项或多项:基于金纳米颗粒的检测(例如,参见xu等人,angew chem int ed engl.2007;46(19):3468-70;和xia等人,proc natl acad sci u s a.2010年6月15日;107(24):10837-41)、荧光偏振、胶体相变/分散(例如,baksh等人,nature.2004年1月8日;427(6970):139-41)、电化学检测、基于半导体的感测(例如,rothberg等人,nature.2011年7月20日;475(7356):348-52;例如,可以在ssrna切割反应后使用磷酸酶以通过打开2'-3'环状磷酸酯并通过将无机磷酸盐释放到溶液中而产生ph变化),以及检测经标记的检测剂ssrna(更多细节参见本文其他地方)。此类检测方法的读出可以是任何方便的读出。可能的读出的实例包括但不限于:所测量的可检测荧光信号的量;对凝胶上条带(例如,表示切割产物对比未切割底物的条带)的视觉分析、基于视觉
或传感器的对颜色存在或不存在的检测(即,颜色检测方法),以及电信号的存在或不存在(或电信号的特定量)。
[0527]
在一些情况下,例如在检测到的信号量可用于确定样品中存在的靶dna的量的意义上,测量可以是定量的。在一些情况下,例如在可检测信号的存在或不存在可以指示靶dna(例如,病毒、snp等)的存在或不存在的意义上,测量可以是定性的。在一些情况下,除非靶dna(例如,病毒、snp等)以高于特定阈值浓度存在,否则可检测信号将不存在(例如,高于给定阈值水平)。在一些情况下,可通过修改cas12l效应子、引导rna、样品体积和/或检测剂ssdna(如果使用的话)的量来滴定检测阈值。因此,例如,如本领域的普通技术人员应当理解的,如果需要的话,可使用许多对照以建立一个或多个反应,每个反应设置用于检测靶dna的不同阈值水平,并且因此可使用这样的一系列反应来确定样品中存在的靶dna的量(例如,可使用这样的一系列反应来确定靶dna

以至少x的浓度’存在于样品中)。
[0528]
本公开的检测方法的使用实例包括例如单核苷酸多态性(snp)检测、癌症筛查、细菌感染检测、抗生素抗性检测、病毒感染检测等。本公开的组合物和方法可用于检测任何dna靶标。例如,可检测将核酸物质整合到基因组中的任何病毒,因为受试样品可包含细胞基因组dna

并且引导rna可被设计成检测整合的核苷酸序列。
[0529]
在一些情况下,可使用本公开方法确定样品(例如,包含靶dna和多个非靶dna的样品)中靶dna的量。确定样品中靶dna的量可包括将由测试样品产生的可检测信号的量与由参考样品产生的可检测信号的量进行比较。确定样品中靶dna的量可包括:测量可检测信号以生成测试测量值;测量由参考样品产生的可检测信号以生成参考测量值;以及将测试测量值与参考测量值进行比较,以确定样品中存在的靶dna的量。
[0530]
例如,在一些情况下,本公开的用于确定样品中靶dna量的方法包括:a)使样品(例如,包含靶dna和多个非靶dna的样品)与以下物质接触:(i)与靶dna杂交的引导rna;(ii)切割样品中存在的rna的本公开的cas12l多肽;和(iii)检测剂ssdna;b)测量由cas12l介导的ssdna切割(例如,检测剂ssdna的切割)产生的可检测信号,生成测试测量值;c)测量由参考样品产生的可检测信号以生成参考测量值;以及d)将测试测量值与参考测量值进行比较,以确定样品中存在的靶dna的量。
[0531]
作为另一个实例,在一些情况下,本公开的用于测定样品中靶dna的量的方法包括:a)将样品(例如,包含靶dna和多个非靶dna的样品)与以下项接触:i)包含两个或更多个引导rna的前体引导rna阵列,每个引导rna具有不同的引导序列;(ii)本公开的cas12l多肽,其将前体引导rna阵列切割成单个引导rna,并且还切割样品的rna;和(iii)检测剂ssdna;b)测量由cas12l介导的ssdna切割(例如,检测剂ssdna的切割)产生的可检测信号,产生测试测量值;c)测量由两个或更多个参考样品中的每一个产生的可检测信号,以产生两个或更多个参考测量值;以及d)将测试测量值与参考测量值进行比较,以确定样品中存在的靶dna的量。
[0532]
样品中核酸的扩增
[0533]
在一些实施方案中,可通过将检测与核酸扩增结合来提高主题组合物和/或方法(例如,用于检测细胞基因组dna中靶dna(诸如病毒dna或snp)的存在)的灵敏度。在一些情况下,样品中的核酸在与本公开的切割ssdna的cas12l多肽接触之前被扩增(例如,样品中核酸的扩增可以在与本公开的cas12l多肽接触之前开始)。在一些情况下,样品中的核酸在
与本公开的cas12l多肽接触的同时被扩增。例如,在一些情况下,主题方法包括扩增样品的核酸(例如,通过使样品与扩增组分接触),之后使扩增的样品与本公开的cas12l多肽接触。在一些情况下,主题方法包括在使样品与本公开的cas12l多肽接触的同一时间(同时)使样品与扩增组分接触。如果同时添加所有组分(扩增组分和检测组分,诸如本公开的cas12l多肽、引导rna和检测剂dna),则cas12l的反式切割活性可能会在样品的核酸经历扩增的同时开始降解核酸。但是,即使是这种情况,与不进行扩增的方法相比,同时进行扩增和检测仍然可提高灵敏度。
[0534]
在一些情况下,例如使用引物从样品中扩增特定序列(例如,病毒的序列,包括目标snp的序列)。因此,可扩增将与指导rna杂交的序列以提高主题检测方法的灵敏度

这可实现所需序列的有偏扩增,从而增加样品中存在的目标序列相对于样品中存在的其他序列的拷贝数。作为一个说明性实例,如果使用主题方法来确定给定样品是否包含特定病毒(或特定snp),则可扩增病毒序列(或非病毒基因组序列)的所需区域,并且如果实际上样品中存在病毒序列(或snp),则扩增的区域将包括与引导rna杂交的序列。
[0535]
如上所述,在一些情况下,将核酸扩增(例如,通过与扩增组分接触),之后将扩增的核酸与本公开的cas12l多肽接触。在一些情况下,在与本公开的cas12l多肽接触之前,扩增持续10秒或更长时间(例如,30秒或更长时间、45秒或更长时间、1分钟或更长时间、2分钟或更长时间、3分钟或更长时间、4分钟或更长时间、5分钟或更长时间、7.5分钟或更长时间、10分钟或更长时间等)。在一些情况下,在与本公开的cas12l多肽接触之前,扩增持续2分钟或更长时间(例如,3分钟或更长时间、4分钟或更长时间、5分钟或更长时间、7.5分钟或更长时间、10分钟或更长时间等)。在一些情况下,扩增持续时间段范围为10秒至60分钟(例如,10秒至40分钟、10秒至30分钟、10秒至20分钟、10秒至15分钟、10秒至10分钟、10秒至5分钟、30秒至40分钟、30秒至30分钟、30秒至20分钟、30秒至15分钟、30秒至10分钟、30秒至5分钟、1分钟至40分钟、1分钟至30分钟、1分钟至20分钟、1分钟至15分钟、1分钟至10分钟、1分钟至5分钟、2分钟至40分钟、2分钟至30分钟、2分钟至20分钟、2分钟至15分钟、2分钟至10分钟、2分钟至5分钟、5分钟至40分钟、5分钟至30分钟、5分钟至20分钟、5分钟至15分钟、或5分钟至10分钟)。在一些情况下,扩增持续时间段范围为5分钟至15分钟。在一些情况下,扩增持续时间段范围为7分钟至12分钟。
[0536]
在一些情况下,样品在与本公开的cas12l多肽接触的同时与扩增组分接触。在一些此类情况下,cas12l蛋白在接触时是无活性的,并且一旦样品中的核酸被扩增就被激活。
[0537]
各种扩增方法和组分将是本领域的普通技术人员已知的,并且可使用任何方便的方法(参见例如zanoli和spoto,biosensors(basel).2013年3月;3(1):18

43;gill和ghaemi,nucleosides,nucleotides,and nucleic acids,2008,27:224-243;craw和balachandrana,lab chip,2012,12,2469-2486;所述文献以引用方式整体并入本文)。核酸扩增可包括聚合酶链式反应(pcr)、逆转录pcr(rt-pcr)、定量pcr(qpcr)、逆转录qpcr(rt-qpcr)、巢式pcr、多重pcr、不对称pcr、降落式pcr、随机引物pcr、半巢式pcr、聚合酶循环组装(pca)、菌落pcr、连接酶链式反应(lcr)、数字pcr、甲基化特异性pcr(msp)、较低变性温度下的共扩增-pcr(cold-pcr)、等位基因特异性pcr、序列间特异性pcr(iss-pcr)、全基因组扩增(wga)、反向pcr和热不对称交错pcr(tail-pcr)。
[0538]
在一些情况下,扩增是等温扩增。术语“等温扩增”指示核酸(例如,dna)扩增的一
种方法(例如,使用酶链式反应),该方法可使用单一温度孵育,由此不需要热循环仪。等温扩增是核酸扩增的一种形式,其在扩增反应期间不依赖于靶核酸的热变性,因此可能不需要温度的多次快速变化。因此,等温核酸扩增方法可在实验室环境内部或外部进行。通过与逆转录步骤结合,这些扩增方法可用于等温扩增rna。
[0539]
等温扩增方法的实例包括但不限于:环介导等温扩增(lamp)、解旋酶依赖性扩增(hda)、重组酶聚合酶扩增(rpa)、链置换扩增(sda)、基于核酸序列的扩增(nasba)、转录介导扩增(tma)、切口酶扩增反应(near)、滚环扩增(rca)、多置换扩增(mda)、分枝(ram)、环状解旋酶依赖性扩增(chda)、单引物等温扩增(spia)、信号介导rna扩增技术(smart)、自我持续序列复制(3sr)、基因组指数扩增反应(gear)和等温多置换扩增(imda)。
[0540]
在一些情况下,扩增是重组酶聚合酶扩增(rpa)(参见例如美国专利号8,030,000;8,426,134;8,945,845;9,309,502;和9,663,820,所述专利特此以引用方式整体并入)。重组酶聚合酶扩增(rpa)使用两个相对的引物(非常类似于pcr),并且采用三种酶-重组酶、单链dna结合蛋白(ssb)和链置换聚合酶。重组酶将双链体dna中具有同源序列的寡核苷酸引物配对,ssb结合dna的置换链以防止引物被置换,并且链置换聚合酶开始dna合成,其中引物已与靶dna结合。在rpa反应中添加逆转录酶可促进rna以及dna的检测,而无需单独的步骤来生产cdna。rpa反应的组分的一个实例如下(参见例如美国专利号8,030,000;8,426,134;8,945,845;9,309,502;9,663,820):50mm tris ph 8.4、80mm乙酸钾、10mm乙酸镁、2mm dtt、5%peg化合物(carbowax-20m)、3mm atp、30mm磷酸肌酸、100ng/μl肌酸激酶、420ng/μl gp32、140ng/μl uvsx、35ng/μl uvsy、2000m dntp、300nm各寡核苷酸、35ng/μl bsu聚合酶和含核酸样品)。
[0541]
在转录介导扩增(tma)中,使用rna聚合酶从引物区中工程化的启动子制备rna,然后逆转录酶从引物合成cdna。然后可使用第三种酶,例如rna酶h,从cdna降解rna靶标,而无需进行热变性步骤。这种扩增技术类似于自我持续序列复制(3sr)和基于核酸序列的扩增(nasba),但所用的酶有所不同。再例如,解旋酶依赖性扩增(hda)利用热稳定解旋酶(tte-uvrd)而非热量来解链dsdna而产生单链,然后将单链用于通过聚合酶进行杂交和引物延伸。又例如,环介导扩增(lamp)采用具有链置换能力的热稳定聚合酶和一组四个或更多个特异性设计的引物。每个引物均被设计成具有发夹末端,一旦移位,这些发夹末端便会卡入发夹中,以促进自动引发和进一步的聚合酶延伸。在lamp反应中,尽管反应在等温条件下进行,但是对于双链靶标来说,需要初始的热变性步骤。另外,扩增产生各种长度产物的梯形图。又例如,链置换扩增(sda)结合了限制性内切核酸酶对其靶dna的未修饰链进行切口的能力和外切核酸酶缺陷型dna聚合酶延伸切口处的3’末端并置换下游dna链的能力。
[0542]
检测剂dna
[0543]
在一些情况下,主题方法包括使样品(例如,包含靶dna和多个非靶ssdna的样品)与以下项接触:i)本公开的cas12l多肽;ii)引导rna(或前体引导rna阵列);和iii)检测剂dna,其是单链的并且不与引导rna的引导序列杂交。例如,在一些情况下,主题方法包括使样品与标记的单链检测剂dna(检测剂ssdna)接触,所述检测剂dna包含荧光发射染料对;cas12l多肽在被激活后切割标记的检测剂ssdna(在引导rna与靶dna杂交的情况下,通过与引导rna结合);并且被测量的可检测信号由荧光发射染料对产生。例如,在一些情况下,主题方法包括使样品与经标记的检测剂ssdna接触,所述经标记的检测剂ssdna包含荧光共振
能量转移(fret)对或猝灭剂/荧光剂对,或两者。在一些情况下,主题方法包括使样品与包含fret对的经标记的检测剂ssdna接触。在一些情况下,主题方法包括使样品与包含荧光剂/猝灭剂对的经标记的检测剂ssdna接触。
[0544]
荧光发射染料对包括fret对或猝灭剂/荧光剂对。在fret对和猝灭剂/荧光对的两种情况下,染料之一的发射光谱与所述对中另一种染料的吸收光谱区域重叠。如本文所用,术语“荧光发射染料对”是用于包括“荧光共振能量转移(fret)对”和“猝灭剂/荧光剂对”的通用术语,这两个术语将在下文中更详细地讨论。术语“荧光发射染料对”可与短语“fret对和/或猝灭剂/荧光对”互换使用
[0545]
在一些情况下(例如,当检测剂ssdna包括fret对时),经标记的检测剂ssdna在被切割之前产生一定量的可检测信号,并且当经标记的检测剂ssdna被切割时所测量到的可检测信号的量减少。在一些情况下,经标记的检测剂ssdna在被切割之前产生第一可检测信号(例如,来自fret对),当经标记的检测剂ssdna被切割时产生第二可检测信号(例如,来自猝灭剂/荧光剂对)。因此,在一些情况下,经标记的检测剂ssdna包括fret对和猝灭剂/荧光对。
[0546]
在一些情况下,经标记的检测剂ssdna包含fret对。fret是这样的过程,通过所述过程,能量的无辐射转移发生为从激发态荧光团到紧邻的第二发色团。能量转移可以发生的范围限制在大约10纳米(100埃),并且转移效率对荧光团之间的分开距离非常敏感。因此,如本文所使用,术语“fret”(“荧光共振能量转移”;也称为“萤光共振能量转移(resonance energy transfer)”)是指这样的物理现象,所述物理现象涉及供体荧光团和匹配的受体荧光团被选择为使得供体的发射光谱与受体的激发光谱重叠,并且被进一步选择为使得当供体和受体彼此非常接近(通常为10nm或更短距离)时,供体的激发将引起来自受体的激发和发射,这是因为一些能量经由量子耦合效应从供体传递到受体。因此,fret信号用作供体和受体的接近度尺度;只有当它们彼此非常接近时才会产生信号。fret供体部分(例如,供体荧光团)和fret受体部分(例如,受体荧光团)在本文中统称为“fret对”。
[0547]
供体-受体对(fret供体部分和fret受体部分)在本文中被称为“fret对”或“信号fret对”。因此,在一些情况下,主题经标记的检测剂ssdna包含两个信号配偶体(信号对),当一个信号配偶体是fret供体部分时,另一个信号配偶体是fret受体部分。因此,当信号配偶体非常接近时(例如,在相同的rna分子上时),包含这种fret对(fret供体部分和fret受体部分)的主题经标记的检测剂ssdna将显示可检测信号(fret信号),但是当所述配偶体分开时(例如,在本公开的cas12l多肽切割rna分子后),信号将减少(或不存在)。
[0548]
fret供体和受体部分(fret对)将是本领域的普通技术人员已知的,并且可以使用任何方便的fret对(例如,任何方便的供体和受体部分对)。合适的fret对的实例包括但不限于表1中所示的那些。还参见:bajar等人sensors(basel).2016年9月14日;16(9);和abraham等人plos one.2015年8月3日;10(8):e0134436。
[0549]
表1.fret对的实例(供体和受体fret部分)
[0550]
[0551][0552]
(1)5-(2-碘乙酰基氨基乙基)氨基萘-1-磺酸
[0553]
(2)n-(4-二甲基氨基-3,5-二硝基苯基)马来酰亚胺
[0554]
(3)羧基荧光素琥珀酰亚胺酯
[0555]
(4)4,4-二氟-4-硼杂-3a,4a-二氮杂-s-吲哒省
[0556]
在一些情况下,当经标记的检测剂ssdna被切割时产生可检测信号(例如,在一些情况下,经标记的检测剂ssdna包含猝灭剂/荧光剂对)。信号猝灭对的一个信号配偶体产生可检测的信号,并且另一个信号配偶体是猝灭第一信号配偶体的可检测信号的猝灭剂部分(即猝灭剂部分猝灭信号部分的信号,使得当信号配偶体彼此接近时,例如当信号对的信号配偶体非常接近时,来自信号部分的信号减少(猝灭))。
[0557]
例如,在一些情况下,当经标记的检测剂ssdna被切割时,可检测信号的量增加。例如,在一些情况下,由一个信号配偶体(信号部分)显示的信号被另一个信号配偶体(猝灭剂信号部分)猝灭,例如当在由本公开的cas12l多肽进行切割之前两者存在于相同的ssdna分子上时。这种信号对在本文中称为“猝灭剂/荧光剂对”、“猝灭对”或“信号猝灭对”。例如,在一些情况下,一个信号配偶体(例如,第一信号配偶体)是产生可检测信号的信号部分,所述可检测信号由第二信号配偶体(例如,猝灭剂部分)猝灭。因此,当配偶体被分开时(例如,在由本公开的cas12l多肽切割检测剂ssdna之后),这种猝灭剂/荧光剂对的信号配偶体将产生可检测信号,但是当配偶体非常接近(例如,在由本公开的cas12l多肽切割检测剂ssdna之前)时,所述信号将被猝灭。
[0558]
猝灭剂部分可以在不同程度上猝灭来自信号部分的信号(例如,在本公开的
cas12l多肽切割检测剂ssdna之前)。在一些情况下,猝灭剂部分猝灭来自信号部分的信号,其中在存在猝灭剂部分的情况下(当信号配偶体彼此接近时)检测到的信号是在不存在猝灭剂部分的情况下(当信号配偶体分开时)检测到的信号的95%或更少。例如,在一些情况下,在猝灭剂部分存在下检测到的信号可以是猝灭剂部分不存在下检测到的信号的90%或更少、80%或更少、70%或更少、60%或更少、50%或更少、40%或更少、30%或更少、20%或更少、15%或更少、10%或更少或5%或更少。在一些情况下,在猝灭剂部分存在下,没有检测到信号(例如,高于背景)。
[0559]
在一些情况下,在猝灭剂部分不存在下(当信号配偶体被分离时)检测到的信号比在猝灭剂存在下检测到的信号大至少1.2倍(例如,大至少1.3倍、至少1.5倍、至少1.7倍、至少2倍、至少2.5倍、至少3倍、至少3.5倍、至少4倍、至少5倍、至少7倍、至少10倍、至少20倍或至少50倍)。
[0560]
在一些情况下,信号部分是荧光标记。在一些此类情况下,猝灭剂部分猝灭来自荧光标记的信号(光信号)(例如,通过吸收标记的发射光谱中的能量)。因此,当猝灭剂部分不靠近信号部分时,来自荧光标记的发射(信号)是可检测的,因为信号未被猝灭剂部分吸收。可以使用任何方便的供体受体对(信号部分/猝灭部分对),并且许多合适的对是本领域已知的。
[0561]
在一些情况下,猝灭剂部分从信号部分(本文也称为“可检测标记”)吸收能量,然后发射信号(例如,不同波长的光)。因此,在一些情况下,猝灭剂部分本身是信号部分(例如,信号部分可以是6-羧基荧光素,而猝灭剂部分可以是6-羧基四甲基罗丹明),并且在一些此类情况下,所述对也可以是fret对。在一些情况下,猝灭剂部分是暗猝灭剂。暗猝灭剂可以吸收激发能量,并以不同的方式(例如,作为热量)耗散能量。因此,暗猝灭剂自身的荧光很少甚至没有(不发射荧光)。暗猝灭剂的实例进一步描述于美国专利号8,822,673和8,586,718;美国专利公开20140378330、20140349295和20140194611;以及国际专利申请wo200142505和wo200186001,所有这些专利以引用方式整体并入本文。
[0562]
荧光标记的实例包括但不限于:alexa染料、atto染料(例如,atto 390、atto 425、atto 465、atto 488、atto 495、atto 514、atto 520、atto 532、atto rho6g、atto 542、atto550、atto 565、atto rho3b、atto rho11、atto rho12、atto thio12、atto rho101、atto 590、atto 594、atto rho13、atto610、atto 620、atto rho14、atto 633、atto 647、atto 647n、atto 655、atto oxa12、atto 665、atto 680、atto 700、atto725、atto 740)、dylight染料、花青染料(例如,cy2、cy3、cy3.5、cy3b、cy5、cy5.5、cy7、cy7.5)、fluoprobes染料、sulfo cy染料、seta染料、iris染料、setau染料、srfluor染料、square染料、异硫氰酸荧光素(fitc)、四甲基罗丹明(tritc)、德克萨斯红、俄勒冈绿、太平洋蓝、太平洋绿、太平洋橙、量子点和束缚荧光蛋白(tethered fluorescent protein)。
[0563]
在一些情况下,可检测标记是选自以下的荧光标记:alexa染料、atto染料(例如,atto 390、atto 425、atto 465、atto488、atto 495、atto 514、atto 520、atto 532、atto rho6g、atto 542、atto 550、atto 565、atto rho3b、atto rho11、atto rho12、atto thio12、atto rho101、atto 590、atto 594、atto rho13、atto 610、atto 620、atto rho14、atto 633、atto 647、atto 647n、atto 655、atto oxa12、atto 665、atto 680、atto 700、atto 725、atto 740)、dylight染料、花青染料(例如,cy2、cy3、cy3.5、cy3b、cy5、cy5.5、
cy7、cy7.5)、fluoprobes染料、sulfo cy染料、seta染料、iris染料、setau染料、srfluor染料、square染料、荧光素(fitc)、四甲基罗丹明(tritc)、德克萨斯红、俄勒冈绿、太平洋蓝、太平洋绿和太平洋橙。
[0564]
在一些情况下,可检测标记是选自以下的荧光标记:alexa染料、atto染料(例如,atto 390、atto 425、atto 465、atto488、atto 495、atto 514、atto 520、atto 532、atto rho6g、atto 542、atto 550、atto 565、atto rho3b、atto rho11、atto rho12、atto thio12、atto rho101、atto 590、atto 594、atto rho13、atto 610、atto 620、atto rho14、atto 633、atto 647、atto 647n、atto 655、atto oxa12、atto 665、atto 680、atto 700、atto 725、atto 740)、dylight染料、花青染料(例如,cy2、cy3、cy3.5、cy3b、cy5、cy5.5、cy7、cy7.5)、fluoprobes染料、sulfo cy染料、seta染料、iris染料、setau染料、srfluor染料、square染料、荧光素(fitc)、四甲基罗丹明(tritc)、德克萨斯红、俄勒冈绿、太平洋蓝、太平洋绿、太平洋橙、量子点和束缚荧光蛋白。
[0565]
atto染料的实例包括但不限于:atto 390、atto 425、atto465、atto 488、atto 495、atto 514、atto 520、atto 532、atto rho6g、atto 542、atto 550、atto 565、atto rho3b、atto rho11、atto rho12、atto thio12、atto rho101、atto590、atto 594、atto rho13、atto 610、atto 620、atto rho14、atto 633、atto 647、atto 647n、atto 655、atto oxa12、atto 665、atto 680、atto 700、atto 725和atto 740。
[0566]
alexafluor染料的实例包括但不限于:alexa350、alexa405、alexa430、alexa488、alexa500、alexa514、alexa532、alexa546、alexa555、alexa568、alexa594、alexa610、alexa633、alexa635、alexa647、alexa660、alexa680、alexa700、alexa750、alexa790等。
[0567]
猝灭剂部分的实例包括但不限于:暗猝灭剂、black hole(例如,bhq-0、bhq-1、bhq-2、bhq-3)、qxl猝灭剂、atto猝灭剂(例如,atto 540q、atto 580q和atto612q)、二甲氨基偶氮苯磺酸(dabsyl)、iowa black rq、iowa black fq、irdye qc-1、qsy染料(例如,qsy 7、qsy 9、qsy 21)、absolutequencher、eclipse和金属簇诸如金纳米颗粒等。
[0568]
在一些情况下,猝灭剂部分选自:暗猝灭剂、black hole(例如,bhq-0、bhq-1、bhq-2、bhq-3)、qxl猝灭剂、atto猝灭剂(例如,atto 540q、atto 580q和atto612q)、二甲氨基偶氮苯磺酸(dabsyl)、iowa black rq、iowa black fq、irdye qc-1、qsy染料(例如,qsy 7、qsy 9、qsy 21)、absolutequencher、eclipse和金属簇。
[0569]
atto猝灭剂的实例包括但不限于:atto 540q、atto 580q和atto 612q。black hole的实例包括但不限于:bhq-0(493nm)、bhq-1(534nm)、bhq-2(579nm)和bhq-3(672nm)。
[0570]
对于一些可检测标记(例如荧光染料)和/或猝灭剂部分的实例,参见例如bao等人,annu rev biomed eng.2009;11:25-47;以及美国专利号8,822,673和8,586,718;美国专利公开20140378330、20140349295、20140194611、20130323851、20130224871、20110223677、20110190486、20110172420、20060179585和20030003486;以及国际专利申请
wo200142505和wo200186001,所有这些文献以引用方式整体并入本文中。
[0571]
在一些情况下,可以通过测量比色读出来检测对经标记的检测剂ssdna的切割。例如,荧光团的释放(例如,从fret对中释放、从猝灭剂/荧光剂对中释放等)可以导致可检测信号的波长偏移(并因此发生颜色偏移)。因此,在某些情况下,主题标记的检测剂ssdna的切割可以通过颜色偏移来检测。这种偏移可以表示为一种颜色(波长)信号的量的损失、另一种颜色的量的增益、一种颜色与另一种颜色的比率的变化等。
[0572]
在一些情况下,本公开的casl多肽可以反式切割rna。因此,在一些情况下,经标记的检测核酸是经标记的rna。因此,上述涉及经标记的检测剂dna的公开内容同样适用于经标记的检测剂rna。在一些情况下,经标记的检测剂rna包含一个或多个修饰的糖、修饰的碱基和修饰的骨架。例如,经标记的检测剂rna可以包含非天然核苷间键联、核酸模拟物、修饰的糖部分、修饰的核碱基、锁定核酸(lna)、肽核酸(pna)、吗啉代核酸和环己烯基核酸(cena)中的一种或多种。在某些情况下,使用两种或多种经标记的检测剂rna。
[0573]
转基因非人生物体
[0574]
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的cas12l多肽的核苷酸序列的核酸;包含编码本公开的cas12l融合多肽的核苷酸序列的核酸等)用作转基因以生成转基因非人生物体,所述转基因非人生物体产生本公开的cas12l多肽或cas12l融合多肽。本公开提供一种转基因非人生物体,所述转基因非人生物体包含编码本公开的cas12l多肽或cas12l融合多肽的核苷酸序列。
[0575]
转基因非人动物
[0576]
本公开提供一种转基因非人动物,所述动物包含转基因,所述转基因包含含有编码cas12l多肽或cas12l融合多肽的核苷酸序列的核酸。在一些实施方案中,转基因非人动物的基因组包含编码本公开的cas12l多肽或cas12l融合多肽的核苷酸序列。在一些情况下,转基因非人动物对于遗传修饰是纯合的。在一些情况下,转基因非人动物对于遗传修饰是杂合的。在一些实施方案中,转基因非人动物是脊椎动物,例如鱼类(例如,鲑鱼、鳟鱼、斑马鱼、金鱼、河豚、洞穴鱼等)、两栖动物(青蛙、蝾螈、火蜥蜴等)、鸟类(例如,鸡、火鸡等)、爬行动物(例如,蛇、蜥蜴等)、非人哺乳动物(例如,有蹄类动物,例如猪、牛、山羊、绵羊等;兔形目动物(例如,兔);啮齿动物(例如,大鼠、小鼠);非人灵长类动物等)等。在一些情况下,转基因非人动物是无脊椎动物。在一些情况下,转基因非人动物是昆虫(例如,蚊子;农业害虫等)。在一些情况下,转基因非人动物是蛛形纲动物。
[0577]
编码本公开的cas12l多肽或cas12l融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接至未知启动子)或可在已知启动子的控制之下(即,可操作地连接至已知启动子)。合适的已知启动子可以是任何已知启动子并且包括组成型活性启动子(例如,cmv启动子)、诱导型启动子(例如,热休克启动子、四环素调控的启动子、类固醇调控的启动子、金属调控的启动子、雌激素受体调控的启动子等)、空间限制的和/或时间限制的启动子(例如,组织特异性启动子、细胞类型特异性启动子等)等。
[0578]
转基因植物
[0579]
如上所述,在一些情况下,本公开的核酸(例如,重组表达载体)(例如,包含编码本公开的cas12l多肽的核苷酸序列的核酸;包含编码本公开的cas12l融合多肽的核苷酸序列
的核酸等)用作转基因以生成转基因植物,所述转基因植物产生本公开的cas12l多肽或cas12l融合多肽。本公开提供了一种转基因植物,其包含编码本公开的cas12l多肽或cas12l融合多肽的核苷酸序列。在一些情况下,转基因植物的基因组包含主题核酸。在一些情况下,转基因植物对于遗传修饰为纯合的。在一些情况下,转基因植物对于遗传修饰为杂合的。
[0580]
将外源核酸引入植物细胞中的方法在本领域中是众所周知的。如上所定义,此类植物细胞被认为是“转化的”。合适的方法包括病毒感染(诸如双链dna病毒)、转染、缀合、原生质体融合、电穿孔、粒子枪技术、磷酸钙沉淀、直接微注射、碳化硅晶须技术、土壤杆菌属介导的转化等。方法的选择一般取决于待转化的细胞类型和发生转化所在的环境(即体外、离体或体内)。
[0581]
基于土壤细菌根瘤土壤杆菌(agrobacterium tumefaciens)的转化方法特别可用于将外源核酸分子引入维管植物中。土壤杆菌属(agrobacterium)的野生型形式含有ti(肿瘤诱导)质粒,该质粒引导在宿主植物上生长的致瘤冠瘿的产生。ti质粒的肿瘤诱导t-dna区向植物基因组的转移需要ti质粒编码的毒力基因以及t-dna边缘序列,所述t-dna边缘序列是描绘待转移区域的一组正向dna重复序列。基于土壤杆菌属的载体是ti质粒的修饰形式,其中肿瘤诱导功能被待引入植物宿主中的目标核酸序列替代。
[0582]
土壤杆菌属介导的转化通常采用共合体载体或二元载体系统,其中ti质粒的组分在辅助载体(所述辅助载体永久存在于土壤杆菌属宿主中并且携带毒力基因)与穿梭载体(所述穿梭载体含有被t-dna序列限定的感兴趣的基因)之间分配。多种二元载体在本领域中是众所周知的并且可例如从clontech(palo alto,calif.)商购获得。例如用培养的植物细胞或创伤组织诸如叶组织、根外植体、下胚轴体、茎块或块茎共同培养土壤杆菌属的方法在本领域中也是众所周知的。参见例如glick和thompson(编),methods in plant molecular biology and biotechnology,boca raton,fla.:crc press(1993)。
[0583]
微粒介导的转化还可用来产生主题转基因植物。首先由klein等人(nature 327:70-73(1987))描述的这种方法依赖于微粒(诸如金或钨),所述微粒通过用氯化钙、亚精胺或聚乙二醇沉淀包被有所需的核酸分子。微粒颗粒使用诸如biolistic pd-1000(biorad;hercules calif.)的装置在高速下被加速到被子植物组织中。
[0584]
可将本公开的核酸(例如,包含编码本公开的cas12l多肽或cas12l融合多肽的核苷酸序列的核酸(例如,重组表达载体))以使得核酸能够例如通过体内或离体方案进入一种或多种植物细胞的方式引入植物中。“体内”意指向植物的活体施用核酸,例如渗透。“离体”意指在植物外部修饰细胞或外植体,然后使此类细胞或器官再生为植物。已描述了适用于稳定转化植物细胞或建立转基因植物的多种载体,包括描述于weissbach和weissbach,(1989)methods for plant molecular biology academic press以及gelvin等人,(1990)plant molecular biology manual,kluwer academic publishers中的那些载体。具体实例包括衍生自根瘤土壤杆菌的ti质粒的那些,以及由herrera-estrella等人(1983)nature 303:209,bevan(1984)nucl acid res.12:8711-8721,klee(1985)bio/technolo 3:637-642公开的那些。可替代地,非ti载体可用来通过使用游离dna递送技术将dna转移到植物和细胞中。通过使用这些方法,可产生转基因植物,诸如小麦、大米(christou(1991)bio/technology 9:957-9and 4462)和玉米(gordon-kamm(1990)plant cell 2:603-618)。未成
熟胚也可以是通过使用粒子枪的直接dna递送技术(weeks等人(1993)plant physiol102:1077-1084;vasil(1993)bio/technolo 10:667-674;wan和lemeaux(1994)plant physiol 104:37-48)和土壤杆菌属介导的dna转移(ishida等人(1996)nature biotech 14:745-750)的单子叶植物的良好靶组织。用于将dna引入叶绿体中的示例性方法是生物弹轰击、原生质体的聚乙二醇转化和微注射(danieli等人nat.biotechnol16:345-348,1998;staub等人nat.biotechnol 18:333-338,2000;o’neill等人plant j.3:729-738,1993;knoblauch等人nat.biotechnol 17:906-909;美国专利号5,451,513、5,545,817、5,545,818和5,576,198;国际申请号wo 95/16783;以及boynton等人,methods in enzymology217:510-536(1993);svab等人,proc.natl.acad.sci.usa 90:913-917(1993);和mcbride等人,proc.natl.acad.sci.usa 91:7301-7305(1994))。适用于生物弹轰击、原生质体的聚乙二醇转化以及微注射的方法的任何载体将适用作用于叶绿体转化的靶向载体。任何双链dna载体可用作转化载体,尤其当引入方法没有使用土壤杆菌属时。
[0585]
可遗传修饰的植物包括谷物、饲料作物、水果、蔬菜、油籽作物、棕榈植物、林业植物和藤本植物。可修饰的植物的具体实例如下:玉米、香蕉、花生、红豌豆、向日葵、番茄、芸苔、烟草、小麦、大麦、燕麦、土豆、大豆、棉花、康乃馨、高粱、羽扇豆和大米。
[0586]
本公开提供转化的植物细胞,含有转化的植物细胞的组织、植物和产品。主题转化细胞以及包含所述转化细胞的组织和产品的特征是存在整合到基因组中的主题核酸,和通过本公开的cas12l多肽或cas12l融合多肽的植物细胞来产生。本发明的重组植物细胞可作为重组细胞群或作为组织、种子、全株植物、茎、果实、叶、根、花、茎、块茎、谷物、动物饲料、植田等使用。
[0587]
编码本公开的cas12l多肽或cas12l融合多肽的核苷酸序列可在未知启动子(例如,当核酸随机整合到宿主细胞基因组中时)的控制之下(即,可操作地连接至未知启动子)或可在已知启动子的控制之下(即,可操作地连接至已知启动子)。合适的已知启动子可以是任何已知的启动子并且包括组成型活性启动子、诱导型启动子、空间限制的和/或时间限制的启动子等。
[0588]
本公开的非限制性方面的实例
[0589]
上述本发明主题的包括各实施方案的各方面可在单独或与一个或多个其他方面或实施方案组合的情况下是有益的。在不限制前述描述的情况下,下文提供了本公开的某些非限制性方面。如本领域的技术人员在阅读本公开后将显而易见的,单独编号方面中的每一者可与先前或随后单独编号方面中的任一者一起使用或组合。这旨在为各方面的所有此类组合提供支持,并且不限于以下明确提供的各方面的组合:
[0590]
方面1.一种组合物,其包含:a)cas12l多肽或编码所述cas12l多肽的核酸分子;和b)cas12l引导rna或一种或多种编码cas12l引导rna的dna分子。
[0591]
方面2.根据方面1所述的组合物,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸序列具有50%或更多氨基酸序列同一性的氨基酸序列。
[0592]
方面3.根据方面1或方面2所述的组合物,其中所述cas12l引导rna包含与图7、图2a-2z、图2aa-2zz和图2aaa-2fff中描绘的crrna序列中的任一者具有80%、90%、95%、98%、99%或100%核苷酸序列同一性的核苷酸序列。
[0593]
方面4.根据方面1或方面2所述的组合物,其中所述cas12l多肽与一个或多个核定位信号(nls)融合。
[0594]
方面5.根据方面1-4中任一项所述的组合物,其中所述组合物包含脂质。
[0595]
方面6.根据方面1-4中任一项所述的组合物,其中a)和b)均在脂质体内。
[0596]
方面7.根据方面1-4中任一项所述的组合物,其中a)和b)均在颗粒内。
[0597]
方面8.根据方面1-7中任一项所述的组合物,其包含以下中的一种或多种:缓冲剂、核酸酶抑制剂和蛋白酶抑制剂。
[0598]
方面9.根据方面1-8中任一项所述的组合物,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸序列具有85%或更多同一性的氨基酸序列。
[0599]
方面10.根据方面1-9中任一项所述的组合物,其中所述cas12l多肽是仅切割双链靶核酸分子的一条链的切口酶。
[0600]
方面11.根据方面1-9中任一项所述的组合物,其中所述cas12l多肽是无催化活性的cas12l多肽(dcas12l)。
[0601]
方面12.根据方面1-11中任一项所述的组合物,其中所述cas12l多肽具有700个氨基酸至800个氨基酸的长度。
[0602]
方面13.根据方面1-12中任一项所述的组合物,其还包含dna供体模板。
[0603]
方面14.一种cas12l融合多肽,其包含:与异源多肽融合的cas12l多肽。
[0604]
方面15.根据方面14所述的cas12l融合多肽,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸序列具有50%或更多同一性的氨基酸序列。
[0605]
方面16.根据方面14所述的cas12l融合多肽,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸序列具有85%或更多同一性的氨基酸序列。
[0606]
方面17.根据方面14-16中任一项所述的cas12l融合多肽,其中所述cas12l多肽是仅切割双链靶核酸分子的一条链的切口酶。
[0607]
方面18.根据方面14-17中任一项所述的cas12l融合多肽,其中所述cas12l多肽是无催化活性的cas12l多肽(dcas12l)。
[0608]
方面19.根据方面14-18中任一项所述的cas12l融合多肽,其中所述cas12l多肽具有700个氨基酸至800个氨基酸的长度。
[0609]
方面20.根据方面14-19中任一项所述的cas12l融合多肽,其中所述异源多肽融合到所述cas12l多肽的n-末端和/或c-末端。
[0610]
方面21.根据方面14-20中任一项所述的cas12l融合多肽,其包含核定位信号(nls)。
[0611]
方面22.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽是提供与靶细胞或靶细胞类型上的细胞表面部分结合的靶向多肽。
[0612]
方面23.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽表现出酶促活性。
[0613]
方面24.根据方面23所述的cas12l融合多肽,其中所述异源多肽表现出选自以下
的一种或多种酶促活性:核酸酶活性、甲基转移酶活性、脱甲基化酶活性、dna修复活性、dna损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
[0614]
方面25.根据方面23所述的cas12l融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:逆转录酶活性、核酸酶活性、甲基转移酶活性、去甲基化酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
[0615]
方面26.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽表现出修饰与靶核酸相关的靶多肽的酶促活性。
[0616]
方面27.根据方面26所述的cas12l融合多肽,其中所述异源多肽表现出组蛋白修饰活性。
[0617]
方面28.根据方面26或方面27所述的cas12l融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、脱泛素化活性、腺苷酸化活性、脱腺苷酸化活性、sumo化活性、脱sumo化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如来自o-glcnac转移酶)和脱糖基化活性。
[0618]
方面29.根据方面28所述的cas12l融合多肽,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
[0619]
方面30.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽是核内体逃逸多肽。
[0620]
方面31.根据方面30所述的cas12l融合多肽,其中所述核内体逃逸多肽包含选自glfxallxllxslwxlllxa(seq id no:72)和glfhallhllhslwhlllha(seq id no:73)的氨基酸序列,其中每个x独立地选自赖氨酸、组氨酸和精氨酸。
[0621]
方面32.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽是叶绿体转运肽。
[0622]
方面33.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽包含蛋白质转导结构域。
[0623]
方面34.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽是增加或减少转录的蛋白质。
[0624]
方面35.根据方面34所述的cas12l融合多肽,其中所述异源多肽是转录阻遏子结构域。
[0625]
方面36.根据方面34所述的cas12l融合多肽,其中所述异源多肽是转录激活结构域。
[0626]
方面37.根据方面14-21中任一项所述的cas12l融合多肽,其中所述异源多肽是蛋白质结合结构域。
[0627]
方面38.一种核酸,其包含编码根据方面14-37中任一项所述的cas12l融合多肽的核苷酸序列。
[0628]
方面39.根据方面38所述的核酸,其中编码所述cas12l融合多肽的所述核苷酸序列可操作地连接至启动子。
[0629]
方面40.根据方面39所述的核酸,其中所述启动子在真核细胞中有功能。
[0630]
方面41.根据方面40所述的核酸,其中所述启动子在以下一种或多种细胞中有功能:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0631]
方面42.根据方面39-41中任一项所述的核酸,其中所述启动子是以下一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
[0632]
方面43.根据方面38-42中任一项所述的核酸,其中所述核酸是重组表达载体。
[0633]
方面44.根据方面43所述的核酸,其中所述重组表达载体是重组腺相关病毒载体、重组逆转录病毒载体或重组慢病毒载体。
[0634]
方面45.根据方面39所述的核酸,其中所述启动子在原核细胞中有功能。
[0635]
方面46.根据方面38所述的核酸,其中所述核酸分子是mrna。
[0636]
方面47.一种或多种核酸,其包含:(a)编码cas12l引导rna的核苷酸序列;和(b)编码cas12l多肽的核苷酸序列。
[0637]
方面48.根据方面47所述的一种或多种核酸,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸序列具有50%或更多同一性的氨基酸序列。
[0638]
方面49.根据方面47所述的一种或多种核酸,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸具有85%或更多同一性的氨基酸序列。
[0639]
方面50.根据方面47-49中任一项所述的一种或多种核酸,其中所述cas12l引导rna包含与图7、图2a-2z、图2aa-2zz和图2aaa-2fff中列出的crrna序列中的任一者具有80%或更多核苷酸序列同一性的核苷酸序列。
[0640]
方面51.根据方面47-50中任一项所述的一种或多种核酸,其中所述cas12l多肽融合至一种或多种核定位信号(nls)。
[0641]
方面52.根据方面47-51中任一项所述的一种或多种核酸,其中编码所述cas12l引导rna的所述核苷酸序列可操作地连接至启动子。
[0642]
方面53.根据方面47-52中任一项所述的一种或多种核酸,其中编码所述cas12l多肽的所述核苷酸序列可操作地连接至启动子。
[0643]
方面54.根据方面52或方面53所述的一种或多种核酸,其中可操作地连接至编码所述cas12l引导rna的所述核苷酸序列的所述启动子和/或可操作地连接至编码所述cas12l多肽的所述核苷酸序列的所述启动子,在真核细胞中有功能。
[0644]
方面55.根据方面54所述的一种或多种核酸,其中所述启动子在以下一种或多种细胞中有功能:植物细胞、真菌细胞、动物细胞、无脊椎动物细胞、蝇细胞、脊椎动物细胞、哺乳动物细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0645]
方面56.根据方面53-55中任一项所述的一种或多种核酸,其中所述启动子是以下一种或多种:组成型启动子、诱导型启动子、细胞类型特异性启动子和组织特异性启动子。
[0646]
方面57.根据方面47-56中任一项所述的一种或多种核酸,其中所述一种或多种核酸是一种或多种重组表达载体。
[0647]
方面58.根据方面57所述的一种或多种核酸,其中所述一种或多种重组表达载体
选自:一种或多种腺相关病毒载体、一种或多种重组逆转录病毒载体或一种或多种重组慢病毒载体。
[0648]
方面59.根据方面53所述的一种或多种核酸,其中所述启动子在原核细胞中有功能。
[0649]
方面60.一种真核细胞,其包含以下一种或多种:
[0650]
a)cas12l多肽或包含编码所述cas12l多肽的核苷酸序列的核酸,
[0651]
b)cas12l融合多肽或包含编码所述cas12l融合多肽的核苷酸序列的核酸,和
[0652]
c)cas12l引导rna或包含编码所述cas12l引导rna的核苷酸序列的核酸。
[0653]
方面61.根据方面60所述的真核细胞,其包含编码所述cas12l多肽的所述核酸,其中所述核酸整合到所述细胞的基因组dna中。
[0654]
方面62.根据方面60或方面61所述的真核细胞,其中所述真核细胞是植物细胞、哺乳动物细胞、昆虫细胞、蜘蛛细胞、真菌细胞、鸟类细胞、爬行动物细胞、两栖动物细胞、无脊椎动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞或人细胞。
[0655]
方面63.一种细胞,其包含包含cas12l融合多肽或包含编码所述cas12l融合多肽的核苷酸序列的核酸。
[0656]
方面64.根据方面63所述的细胞,其中所述细胞是原核细胞或真核细胞。
[0657]
方面65.根据方面63或方面64所述的细胞,其包含有包含编码所述cas12l融合多肽的核苷酸序列的核酸,其中所述核酸分子整合到所述细胞的基因组dna中。
[0658]
方面66.一种修饰靶核酸的方法,所述方法包括使靶核酸与以下项接触:a)cas12l多肽;和b)包含与所述靶核酸的靶序列杂交的引导序列的cas12l引导rna,其中所述接触导致所述靶核酸被所述cas12l多肽修饰。
[0659]
方面67.根据方面66所述的方法,其中所述修饰是所述靶核酸的切割。
[0660]
方面68.根据方面66或方面67所述的方法,其中所述靶核酸选自:双链dna、单链dna、rna、基因组dna和染色体外dna。
[0661]
方面69.根据方面66-68中任一项所述的方法,其中所述接触在体外在细胞外部发生。
[0662]
方面70.根据方面66-68中任一项所述的方法,其中所述接触在培养的细胞内部发生。
[0663]
方面71.根据方面66-68中任一项所述的方法,其中所述接触在体内细胞内部发生。
[0664]
方面72.根据方面70或方面71所述的方法,其中所述细胞是真核细胞。
[0665]
方面73.根据方面72所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、蛛形纲动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0666]
方面74.根据方面70或方面71所述的方法,其中所述细胞是原核细胞。
[0667]
方面75.根据方面66-74中任一项所述的方法,其中所述接触导致基因组编辑。
[0668]
方面76.根据方面66-75中任一项所述的方法,其中所述接触包括:向细胞中引入:(a)所述cas12l多肽或包含编码所述cas12l多肽的核苷酸序列的核酸,和(b)所述cas12l引
导rna或包含编码所述cas12l引导rna的核苷酸序列的核酸。
[0669]
方面77.根据方面76所述的方法,其中所述接触还包括:将dna供体模板引入到所述细胞中。
[0670]
方面78.根据方面66-77中任一项所述的方法,其中所述cas12l引导rna包含与图7、图2a-2z、图2aa-2zz和图2aaa-2fff中列出的crrna序列中的任一者具有80%或更多核苷酸序列同一性的核苷酸序列。
[0671]
方面79.根据方面66-78中任一项所述的方法,其中所述cas12l多肽融合至核定位信号。
[0672]
方面80.一种调节靶dna转录、修饰靶核酸或修饰与靶核酸相关的蛋白质的方法,所述方法包括将靶核酸与以下项接触:a)包含与异源多肽融合的cas12l多肽的cas12l融合多肽;和b)包含与靶核酸的靶序列杂交的引导序列的cas12l引导rna。
[0673]
方面81.根据方面80所述的方法,其中所述cas12l引导rna包含与图7、图2a-2z、图2aa-2zz和图2aaa-2fff中列出的crrna序列中的任一者具有80%或更多核苷酸序列同一性的核苷酸序列。
[0674]
方面82.根据方面80或方面81所述的方法,其中所述cas12l融合多肽包含核定位信号。
[0675]
方面83.根据方面80-82中任一项所述的方法,其中所述修饰不是所述靶核酸的切割。
[0676]
方面84.根据方面80-83中任一项所述的方法,其中所述靶核酸选自:双链dna、单链dna、rna、基因组dna和染色体外dna。
[0677]
方面85.根据方面80-84中任一项所述的方法,其中所述接触在体外在细胞外部发生。
[0678]
方面86.根据方面80-84中任一项所述的方法,其中所述接触发生在培养的细胞内部。
[0679]
方面87.根据方面80-84中任一项所述的方法,其中所述接触发生在体内细胞内部。
[0680]
方面88.根据方面86或方面87所述的方法,其中所述细胞是真核细胞。
[0681]
方面89.根据方面88所述的方法,其中所述细胞选自:植物细胞、真菌细胞、哺乳动物细胞、爬行动物细胞、昆虫细胞、禽细胞、鱼细胞、寄生虫细胞、节肢动物细胞、蛛形纲动物细胞、无脊椎动物细胞、脊椎动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、灵长类动物细胞、非人灵长类动物细胞和人细胞。
[0682]
方面90.根据方面86或方面87所述的方法,其中所述细胞是原核细胞。
[0683]
方面91.根据方面80-90中任一项所述的方法,其中所述接触包括:向细胞中引入:(a)所述cas12l融合多肽或包含编码所述cas12l融合多肽的核苷酸序列的核酸,和(b)所述cas12l引导rna或包含编码所述cas12l引导rna的核苷酸序列的核酸。
[0684]
方面92.根据方面80-91中任一项所述的方法,其中所述cas12l多肽是无催化活性的cas12l多肽(dcas12l)。
[0685]
方面93.根据方面80-92中任一项所述的方法,其中所述cas12l多肽具有700个氨基酸至800个氨基酸的长度。
[0686]
方面94.根据方面80-93中任一项所述的方法,其中所述异源多肽表现出酶促活性。
[0687]
方面95.根据方面94所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:核酸酶活性、甲基转移酶活性、脱甲基化酶活性、dna修复活性、dna损伤活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性和糖基化酶活性。
[0688]
方面96.根据方面94所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:逆转录酶活性、核酸酶活性、甲基转移酶活性、去甲基化酶活性、脱氨基活性、脱嘌呤活性、整合酶活性、转座酶活性和重组酶活性。
[0689]
方面97.根据方面80-93中任一项所述的方法,其中所述异源多肽表现出修饰与靶核酸相关的靶多肽的酶促活性。
[0690]
方面98.根据方面97所述的方法,其中所述异源多肽表现出组蛋白修饰活性。
[0691]
方面99.根据方面97或方面98所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、脱泛素化活性、腺苷酸化活性、脱腺苷酸化活性、sumo化活性、脱sumo化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、脱豆蔻酰化活性、糖基化活性(例如来自o-glcnac转移酶)和脱糖基化活性。
[0692]
方面100.根据方面99所述的方法,其中所述异源多肽表现出选自以下的一种或多种酶活性:甲基转移酶活性、脱甲基酶活性、乙酰转移酶活性和脱乙酰酶活性。
[0693]
方面101.根据方面80-93中任一项所述的方法,其中所述异源多肽是增加或减少转录的蛋白质。
[0694]
方面102.根据方面101所述的方法,其中所述异源多肽是转录阻遏子结构域。
[0695]
方面103.根据方面101所述的方法,其中所述异源多肽是转录激活结构域。
[0696]
方面104.根据方面80-93中任一项所述的方法,其中所述异源多肽是蛋白质结合结构域。
[0697]
方面105.一种转基因多细胞非人生物体,其基因组包含有包含编码以下一种或多种的核苷酸序列的转基因:
[0698]
a)cas12l多肽,
[0699]
b)cas12l融合多肽,和
[0700]
c)cas12l引导rna。
[0701]
方面106.根据方面105所述的转基因多细胞非人生物体,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中列出的氨基酸序列具有50%或更多氨基酸序列同一性的氨基酸序列。
[0702]
方面107.根据方面105所述的转基因多细胞非人生物体,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中列出的氨基酸序列具有85%或更多氨基酸序列同一性的氨基酸序列。
[0703]
方面108.根据方面105-107中任一项所述的转基因多细胞非人生物体,其中所述生物体是植物、单子叶植物、双子叶植物、无脊椎动物、昆虫、节肢动物、蛛形纲动物、寄生
虫、蠕虫、刺胞动物、脊椎动物、鱼、爬行动物、两栖动物、有蹄动物、鸟、猪、马、羊、啮齿动物、小鼠、大鼠或非人类灵长类动物。
[0704]
方面109.一种系统,其包括:
[0705]
a)cas12l多肽和cas12l引导rna;
[0706]
b)cas12l多肽、cas12l引导rna和dna供体模板;
[0707]
c)cas12l融合多肽和cas12l引导rna;
[0708]
d)cas12l融合多肽、cas12l引导rna和dna供体模板;
[0709]
e)编码cas12l多肽的mrna和cas12l引导rna;
[0710]
f)编码cas12l多肽的mrna;cas12l引导rna和dna供体模板;
[0711]
g)编码cas12l融合多肽的mrna和cas12l引导rna;
[0712]
h)编码cas12l融合多肽的mrna、cas12l引导rna和dna供体模板;
[0713]
i)一种或多种重组表达载体,其包含:i)编码cas12l多肽的核苷酸序列;和ii)编码cas12l引导rna的核苷酸序列;
[0714]
j)一种或多种重组表达载体,其包含:i)编码cas12l多肽的核苷酸序列;ii)编码cas12l引导rna的核苷酸序列;和iii)dna供体模板;
[0715]
k)一种或多种重组表达载体,其包含:i)编码cas12l融合多肽的核苷酸序列;和ii)编码cas12l引导rna的核苷酸序列;和
[0716]
l)一种或多种重组表达载体,其包含:i)编码cas12l融合多肽的核苷酸序列;ii)编码cas12l引导rna的核苷酸序列;和dna供体模板。
[0717]
方面110.根据方面109所述的cas12l系统,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸序列具有50%或更多氨基酸序列同一性的氨基酸序列。
[0718]
方面111.根据方面109所述的cas12l系统,其中所述cas12l多肽包含与图2a-2z、图2aa-2zz和图2aaa-2fff中任一者中描绘的氨基酸序列具有85%或更多氨基酸序列同一性的氨基酸序列。
[0719]
方面112.根据方面109-111中任一项所述的cas12l系统,其中所述供体模板核酸具有8个核苷酸至1000个核苷酸的长度。
[0720]
方面113.根据方面109-111中任一项所述的cas12l系统,其中所述供体模板核酸具有25个核苷酸至500个核苷酸的长度。
[0721]
方面114.一种试剂盒,其包括根据方面109-113中任一项所述的cas12l系统。
[0722]
方面115.根据方面114所述的试剂盒,其中所述试剂盒的组分在同一容器中。
[0723]
方面116.根据方面114所述的试剂盒,其中所述试剂盒的组分在单独的容器中。
[0724]
方面117.一种无菌容器,其包括根据方面109-116中任一项所述的cas12l系统。
[0725]
方面118.根据方面117所述的无菌容器,其中所述容器是注射器。
[0726]
方面119.一种可植入装置,其包括根据方面109-116中任一项所述的cas12l系统。
[0727]
方面120.根据方面119所述的可植入装置,其中所述cas12l系统在基质内。
[0728]
方面121.根据方面119所述的可植入装置,其中所述cas12l系统位于储器中。
[0729]
方面122.一种检测样品中的靶dna的方法,所述方法包括:(a)使所述样品与以下物质接触:(i)cas12l多肽;(ii)引导rna,所述引导rna包含与所述cas12l多肽结合的区域
和与所述靶dna杂交的引导序列;和(iii)为单链的且不与所述引导rna的所述引导序列杂交的检测剂核酸;以及(b)测量由所述cas12l多肽切割所述单链检测剂核酸而产生的可检测信号,从而检测所述靶dna。
[0730]
方面123.根据方面122所述的方法,其中所述靶dna是细菌dna。
[0731]
方面124.根据方面122所述的方法,其中所述靶dna是病毒dna。
[0732]
方面125.根据方面124所述的方法,其中所述靶dna是乳多空病毒、人乳头瘤病毒(hpv)、嗜肝dna病毒、乙型肝炎病毒(hbv)、疱疹病毒、水痘带状疱疹病毒(vzv)、爱泼斯坦-巴尔病毒(epstein-barr virus,ebv)、卡波济氏肉瘤相关疱疹病毒、腺病毒、痘病毒或细小病毒dna。
[0733]
方面126.根据方面122所述的方法,其中所述靶dna来自人细胞。
[0734]
方面127.根据方面122所述的方法,其中所述靶dna是人胎儿细胞或癌细胞dna。
[0735]
方面128.根据方面122所述的方法,其中所述样品包括细胞裂解物。
[0736]
方面129.根据方面122所述的方法,其中所述样品包括细胞。
[0737]
方面130.根据方面122所述的方法,其中所述样品是血液、血清、血浆、尿液、吸出物或活检样品。
[0738]
方面131.根据方面122-130中任一项所述的方法,所述方法还包括确定所述样品中存在的所述靶dna的量。
[0739]
方面132.根据方面131所述的方法,其中所述测量可检测信号包括以下一种或多种:基于视觉的检测、基于传感器的检测、颜色检测、基于金纳米颗粒的检测、荧光偏振、胶体相变/分散、电化学检测和基于半导体的感测。
[0740]
方面133.根据方面122-132中任一项所述的方法,其中所述经标记的检测剂核酸是dna。
[0741]
方面134.根据方面122-132中任一项所述的方法,其中所述经标记的检测剂核酸是rna。
[0742]
方面135.根据方面122-134中任一项所述的方法,其中所述经标记的检测剂核酸包含修饰的核碱基、修饰的糖部分和/或修饰的核酸键。
[0743]
方面136.根据方面122-135中任一项所述的方法,其中所述可检测信号在少于45分钟内是可检测的。
[0744]
方面137.根据方面122-135中任一项所述的方法,其中所述可检测信号在少于30分钟内是可检测的。
[0745]
方面138.根据方面122-137中任一项所述的方法,其还包括通过环介导等温扩增(lamp)、解旋酶依赖性扩增(hda)、重组酶聚合酶扩增(rpa)、链置换扩增(sda)、基于核酸序列的扩增(nasba)、转录介导扩增(tma)、切口酶扩增反应(near)、滚环扩增(rca)、多置换扩增(mda)、分枝(ram)、环状解旋酶依赖性扩增(chda)、单引物等温扩增(spia)、信号介导rna扩增技术(smart)、自我持续序列复制(3sr)、基因组指数扩增反应(gear)或等温多置换扩增(imda)来扩增所述样品中的所述靶dna。
[0746]
方面139.根据方面122-138中任一项所述的方法,其中所述样品中的靶dna以小于10am的浓度存在。
[0747]
方面140.根据方面122-139中任一项所述的方法,其中所述经标记的检测剂核酸
的标记包括荧光发射染料对。
[0748]
方面141.根据方面140所述的方法,其中所述荧光发射染料对是荧光共振能量转移(fret)对。
[0749]
方面142.根据方面140所述的方法,其中所述荧光发射染料对是猝灭剂/荧光剂对。
[0750]
方面143.根据方面142-147中任一项所述的方法,其中所述经标记的检测剂核酸包含两个或更多个荧光发射染料对。
[0751]
方面144.根据方面143所述的方法,其中所述两个或更多个荧光发射染料对包括荧光共振能量转移(fret)对和猝灭剂/荧光剂对。
[0752]
实施例
[0753]
给出以下实施例以便向本领域普通技术人员提供对如何制备和使用本发明的完整公开和描述,并且不旨在限制发明者所视为的他们的发明的范围,它们也不旨在表示以下实验是所进行的所有或仅有实验。已努力确保关于所用数值(例如数量、温度等)的准确性,但应考虑一些实验误差和偏差。除非另有说明,否则份数是重量份,分子量是重量平均分子量,温度是摄氏度,并且压力是大气压或接近大气压。可使用标准缩写,例如,bp,碱基对;kb,千碱基;pl,皮升;s或sec,秒;min,分钟;h或hr,小时;aa,氨基酸;kb,千碱基;bp,碱基对;nt,核苷酸;i.m.,肌内;i.p.,腹膜内;s.c.,皮下;等。
[0754]
实施例1:casλ1用ttr pam切割双链dna
[0755]
crispr-cas效应子复合物识别短的原间隔子相邻基序(pam),所述基序在dna干扰之前仅存在于外源dna上,从而防止宿主dna的crispr阵列的自我靶向。为了在实验上测试casλ是否是rna引导的dna靶向核酸内切酶并测试pam是否是dna鉴定所必需的,在大肠杆菌中用casλ家族的casλ1蛋白同源物建立了pam耗竭测定。在pam耗竭测定中,casλ靶向质粒文库中随机序列附近的dna序列,所述序列不同于任何天然casλcrispr阵列中发现的任何序列。ngs测序显示casλ和crrna(如从pbas18表达的;图11)在细菌中足以耗竭具有与crrna引导互补的dna位点的质粒,当显示的pam序列与原间隔子相邻时(图9),相比之下,casλ与非靶向对照引导rna配对(如从pbas12表达;图10),其与靶质粒没有互补性。结果表明,casλ可以被重新编程以切割与引导rna互补的任何dna序列,其中pam存在于靶标的5’末端(casλ1的富含t的pam),并且不需要额外的rna组分来形成体内功能效应子。
[0756]
实施例2:可编程的dna靶向
[0757]
在大肠杆菌中进行flp重组测定,以从含有整合到基因组中的gfp和rfp表达盒的大肠杆菌菌株中消除卡那霉素抗性盒。挑取大肠杆菌δkan的单个菌落接种三个5ml(lb)起始培养物,以在第二天制备电感受态细胞。从起始培养物中接种100ml(lb)主培养物,并在37℃、剧烈振荡下生长至od600为0.6-0.7,然后通过重复冰冷的h20和10%甘油洗涤来制备电感受态细胞。将细胞重悬于10%甘油中,将50μl等分试样在液氮中快速冷冻,并储存于-80℃下。
[0758]
产生的casλ载体含有密码子优化的casλ1基因并且从pbas12亚克隆包含其同源重复元件的引导序列和靶向所得大肠杆菌δkan菌株(pbas41、pbas42、pbas43、pbas44)中的gfp dna的间隔子选择。也将含有casλ1和由来自casλ2的非同源重复单元和gfp靶向间隔子(tagcatcaccttcaccctctccacggacag;seq id no:165)引导组成的casλ载体亚克隆以形成
pbas40。在微脉冲电穿孔仪(bio-rad)上的0.1mm电穿孔比色皿(bio-rad)中,通过电穿孔将casλ载体和具有非靶向引导对照质粒的casλ载体转化到具有100ng质粒的25μl电感受态细胞中,在1ml恢复培养基(lucigen)中在37℃振荡一小时来回收细胞。然后制备10倍稀释系列,并将3.5μl各自的稀释液点涂在含有适当抗生素和iptg诱导剂的lb-琼脂上。将平板在37℃下孵育过夜,并且第二天计数菌落以确定转化效率。
[0759]
为了评估转化效率,由每ng转化质粒的细胞形成单位计算平均值和标准偏差,以一式三份进行电穿孔。
[0760]
数据如图12a-12c中所示。所述实验显示,与非靶向对照相比,使用具有其同源引导的casλ载体(pbas44)的gfp大肠杆菌显著减少,这表明双链dna在靶区域断裂。主要为rfp阳性/gfp阴性的菌落在蓝光下的生长进一步支持了赋予靶向可编程基因组编辑以产生缺乏gfp产生的菌株的能力。使用具有来自单独的casλ直向同源物(pbas40)的引导的casλ载体的生长抑制,观察到的菌落主要表达rfp而不表达gfp,也表明casλ直向同源物可以使用来自相关crispr-cas系统的引导物在细胞中起到赋予编辑的功能,其中精确消除了gfp产生。这可以进一步扩展到具有整合gfp的hek293t哺乳动物细胞,这表明在哺乳动物细胞中的活性。即使在未稀释的样品中,在两种情况下生长的大肠杆菌菌落的病态表型也表明核酸(rna或dna)的可能的反式切割,这可用于诊断目的,通过提供含有具有casλrnp的靶核酸和单链dna荧光团-猝灭剂(ssdna-fq)报告分子或rna荧光团-猝灭剂(ssrna-fq)报告分子的样品,在靶核酸存在下产生强的荧光信号,而在靶核酸不存在下产生明显较低的荧光信号。
[0761]
pbas44和pbas40间隔子:tagcatcaccttcaccctctcca cggacag(seq id no:165)。
[0762]
图12a-12c。与具有非靶向引导物的casλ阴性对照(pbas12)相比,具有gfp靶向引导物的casλ(pbas44)显示出多个数量级的集落形成单位(作为细胞活力的代表)减少。使用来自另一个直向同源物的重复单位的具有gfp靶向引导物的casλ也显示出生长抑制和gfp消融。
[0763]
实施例3:casλ纯化
[0764]
casλ的纯化显示蛋白质大小与约70-85kda的计算预测值一致。将含有his标签的casλ过表达载体转化到化学感受态大肠杆菌bl21(de3)-star(qb3-macrolab,uc berkeley)中,并在lb-kan琼脂平板(50μg/ml卡那霉素)上在37℃下孵育过夜。挑取单菌落以接种50ml(lb,卡那霉素50μg/ml)起始培养物,将其在37℃、剧烈摇动下孵育过夜。第二天,用40ml起始培养物接种2 750ml tb-kan培养基(50μg/ml卡那霉素),并在37℃下生长至od600为0.6,在冰上冷却,随后用0.5mm iptg诱导基因表达,随后在16℃下孵育过夜。
[0765]
通过离心收获细胞,并将其重悬于低盐缓冲液中,并且然后随后通过超声处理来裂解。将可溶级分上样到在洗涤缓冲液中预平衡的5ml ni-nta superflow cartridge(qiagen)上。用20倍柱体积(cv)的洗涤缓冲液洗涤结合的蛋白质,随后在5cv洗脱缓冲液(50mm hepes-na ph 7.5rt、500mm nacl、500mm咪唑、5%甘油和0.5mm tcep)中洗脱。将洗脱的蛋白质浓缩至1ml,然后注射到在尺寸排阻色谱缓冲液(20mm hepes-na ph 7.5rt、500mm nacl、5%甘油和0.5mm tcep)中预平衡的hiload 16/600 superdex 200pg柱(ge healthcare)中。将峰级分浓缩至1ml,并使用nanodrop 8000分光光度计(thermo scientific)测定浓度。在4℃恒温下纯化蛋白质,并将浓缩的蛋白质保存在冰上以防止聚
集,在液氮中速冻,并储存在-80℃下。
[0766]
在蛋白质纯化的不同阶段,casλ的十二烷基硫酸钠-聚丙烯酰胺凝胶电泳(sds-page)显示蛋白质大小与约70kda的计算预测值一致。
[0767]
尽管已经参考本发明的特定实施方案描述了本发明,但本领域技术人员应当理解,在不脱离本发明的真实精神和范围的情况下,可进行各种改变并且可用等同物进行替换。此外,可进行许多修改以使特定的情况、材料、物质的组成、过程、一个或多个过程步骤适应本发明的目的、精神和范围。所有这些修改旨在落入所附权利要求的范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献