一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

新颖的MAD核酸酶的制作方法

2022-07-24 03:15:45 来源:中国专利 TAG:
no.121;seqidno.122和seqidno.123;seqidno.124和seqidno.125;以及seqidno.126和seqidno.127。此外,提供了用于mad2001的间隔区序列和pam序列对,包括seqidno.128和seqidno.129;seqidno.130和seqidno.131;seqidno.132和seqidno.133;seqidno.134和seqidno.135;seqidno.136和seqidno.137;以及seqidno.138和seqidno.139。14.在又另一实施方案中,提供了来自阿扎夏普氏菌(sharpeaazabuensis)的另外的mad2007序列,包括seqidno.142;seqidno.143;和seqidno.144。15.下面更详细地描述本发明的这些方面和其他特征和优势。16.附图简述17.图1是用于创建和筛选挖掘的mad系列核酸酶或rgn的示例性工作流程。18.图2是发现的新颖的核酸酶的蛋白质大小对比搜索评分的图。19.图3是新的mad核酸酶的grna设计的示意图。20.图4以序列标志(sequencelogo)的形式显示了被挖掘的mad系列核酸酶裂解的靶的富集。21.图5是显示mad2001、mad2007、mad2008、mad2009和mad2011在hek293t细胞中的活性的一系列柱状图。22.图6显示了mad2001、mad2007、mad2008、mad2009和mad2011的人类基因组覆盖。23.图7显示了gfp-hek293t细胞相对于阴性对照的百分比。24.图8是hek293t细胞中mad2007的pam的序列标志。25.图9显示了gfp-hek293t细胞相对于阴性对照的百分比。26.图10显示了两种不同的人类密码子优化的mad2007核酸酶在hek293t细胞中功能丧失的百分比。27.详细描述28.下文结合附图阐述的描述意图描述所公开主题的多种说明性实施方案。结合每种说明性实施方案描述了特定特征和功能;然而,对本领域技术人员将明显的是,所公开的实施方案可以在没有这些特定特征和功能的每一种的情况下实践。此外,除非明确声明或者特征或功能与另外的实施方案不兼容,否则结合一种实施方案描述的所有功能意图适用于本文描述的另外的实施方案。例如,除非特征或功能与替代实施方案不兼容,否则在结合一种实施方案明确描述给定特征或功能但没有结合替代实施方案明确提及的情况下,应当理解,该特征或功能可以结合替代实施方案来部署、利用或实现。29.除非另外指出,否则本文描述的技术的实践可以采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学、生物乳液产生和测序技术的常规技术和描述,这些都在本领域从业的人员的技术内。这样的常规的技术包括聚合物阵列合成、多核苷酸的杂交和连接以及使用标记物的杂交检测。合适的技术的具体的说明可以通过参考本文的实例获得。然而,当然,也可以使用其他等同的常规程序。这样的常规技术和描述可以见于标准实验室手册,诸如green等人编著(1999),genomeanalysis:alaboratorymanualseries(卷i-iv);weiner,gabriel,stephens,编著(2007),geneticvariation:alaboratorymanual;dieffenbach,dveksler,编著(2003),pcrprimer:alaboratorymanual;bowtell和sambrook(2003),dnamicroarrays:amolecularcloningmanual;mount(2004),bioinformatics:sequenceandgenomeanalysis;sambrook和russell(2006),condensedprotocolsfrommolecularcloning:alaboratorymanual;以及sambrook和russell(2002),molecularcloning:alaboratorymanual(全部来自coldspringharborlaboratorypress);stryer,l.(1995)biochemistry(第4版)w.h.freeman,newyorkn.y.;gait,“oligonucleotidesynthesis:apracticalapproach”1984,irlpress,london;nelson和cox(2000),lehninger,principlesofbiochemistry第3版,w.h.freemanpub.,newyork,n.y.;berg等人(2002)biochemistry,第5版,w.h.freemanpub.,newyork,n.y.;cellandtissueculture:laboratoryproceduresinbiotechnology(doyle&griffiths,编著,johnwiley&sons1998);mammalianchromosomeengineering–methodsandprotocols(g.hadlaczky,编著,humanapress2011);essentialstemcellmethods,(lanza和klimanskaya,编著,academicpress2011),所有文献出于所有目的通过引用以其整体并入本文。核酸酶特异性技术可以见于,例如,genomeeditingandengineeringfromtalensandcrisprstomolecularsurgery,appasani和church,2018;以及crispr:methodsandprotocols,lindgren和charpentier,2015;这两篇文献出于所有目的通过引用以其整体并入本文。酶工程化的基本方法可以见于,enzymeengineeringmethodsandprotocols,samuelson,编著,2013;proteinengineering,kaumaya,编著,(2012);以及kaur和sharma,“directedevolution:anapproachtoengineerenzymes”,crit.rev.biotechnology,26:165-69(2006)。30.注意,除非上下文另外清楚指示,如本文和所附的权利要求书中使用的,单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物。因此,例如,提及“寡核苷酸”是指一种或更多种寡核苷酸。术语诸如“第一”、“第二”、“第三”等,仅标识如本文公开的许多部分、组件、步骤、操作、功能和/或参考点中的一个,并且同样不必然将本公开内容的实施方案限制为任何特定的配置或方向。31.除非另外定义,否则本文使用的所有技术和科学术语具有与本发明所属领域内的普通技术人员通常理解的相同含义。本文提及的所有的出版物为了描述和公开可以与本文描述的发明结合使用的设备、方法和细胞群体的目的,以引用方式并入。32.在提供值的范围情况下,应理解,在该范围的上限值和下限值之间的每一个中间值和该规定的范围内的任何其他规定的值或中间值被涵盖在本发明内。这些较小的范围的上限值和下限值可以独立地被包括在较小的范围内,并且也被涵盖在本发明内,受限于规定的范围内的任何特定地排除的限值。在规定的范围包括限值中的一个或两个的情况下,将那些所包括的限值中的任一个或两个排除的范围也被包括在本发明中。33.在以下的描述中,阐述了许多具体细节,以提供对本发明的更充分理解。然而,对本领域普通技术人员将明显的是,可以在没有一个或更多个这些具体细节的情况下,实践本发明。在其他情况下,为了避免使本发明含混不清,尚未描述本领域技术人员熟知的特征和熟知的程序。34.如本文使用的术语“互补”是指核苷酸之间的watson-crick碱基配对,并且特别地是指彼此形成氢键的核苷酸,其中胸腺嘧啶或尿嘧啶残基通过两个氢键与腺嘌呤残基连接,并且胞嘧啶和鸟嘌呤残基通过三个氢键连接。通常,核酸包含被描述为与指定的第二核苷酸序列具有“互补性百分比”或“同源性百分比”的核苷酸序列。例如,核苷酸序列可以与指定的第二核苷酸序列具有80%、90%或100%的互补性,指示序列的10个核苷酸中的8个、10个核苷酸中的9个或10个核苷酸中的10个与指定的第二核苷酸序列互补。例如,核苷酸序列3’‑tcga-5’与核苷酸序列5’‑agct-3’是100%互补的;并且核苷酸序列3’‑tcga-5’与核苷酸序列5’‑tagctg-3’的区域是100%互补的。35.术语dna“控制序列”统指启动子序列、多腺苷酸化信号、转录终止序列、上游调控结构域、复制起点、内部核糖体进入位点、核定位序列、增强子等,它们共同地提供编码序列在接受者细胞中的复制、转录和翻译。只要选择的编码序列能够在适当的宿主细胞中被复制、转录和(对于一些组分)翻译,则并非所有这些类型的控制序列都需要存在。36.如本文使用的,术语“供体dna”或“供体核酸”是指被设计成通过使用核酸引导的核酸酶的同源重组将dna序列修饰(插入、缺失、取代)引入基因座的核酸。对于同源指导的修复,供体dna必须与基因组靶序列中的“切割位点”或待编辑位点侧翼的区具有足够的同源性。一条或更多条同源臂的长度将取决于,例如,所做修饰的类型和大小。在许多情况下,并且优选地,供体dna将与基因组靶基因座具有两个序列同源性区(例如,两个同源臂)。优选地,“插入物(insert)”区或“dna序列修饰”区(期望引入细胞中的基因组靶基因座的核酸修饰)将位于两个同源区之间。dna序列修饰可以改变一个特定位点或多于一个特定位点处的靶基因组dna序列的一个或更多个碱基。改变可以包括改变靶序列的1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、50个、75个、100个、150个、200个、300个、400个或500个或更多个碱基对。缺失或插入可以是靶序列的1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、40个、50个、75个、100个、150个、200个、300个、400个或500个或更多个碱基对的缺失或插入。37.术语“引导核酸”或“引导rna”或“grna”是指包含以下的多核苷酸:1)能够与基因组靶基因座杂交的引导序列和2)能够与核酸引导的核酸酶相互作用或复合的支架序列(参见例如,图1)。[0038]“同源性”或“同一性”或“相似性”是指两个肽之间的序列相似性,或者在本公开内容的上下文中,更常见地是指两个核酸分子之间的序列相似性。术语“同源区”或“同源臂”是指供体dna上与靶基因组dna序列具有一定程度同源性的区域。同源性可以通过比较每个序列中的位置来确定,所述每个序列可以出于比较的目的而被对齐。当比较的序列中的一个位置被相同的碱基或氨基酸占据时,那么分子在该位置处是同源的。序列之间的同源性程度随着序列共有的匹配或同源位置数而变化。[0039]“可操作地连接”指其中如此描述的组分被配置以执行它们的通常功能的元件布置。因此,可操作地连接至编码序列的控制序列能够影响编码序列的转录,并且在一些情况下,能够影响编码序列的翻译。只要控制序列起作用以指导编码序列的表达,控制序列不必与编码序列邻接。因此,例如,不翻译但转录的间插序列可以存在于启动子序列和编码序列之间,且启动子序列仍可以被认为是“可操作地连接”至编码序列。事实上,这样的序列不必驻留于同一连续dna分子(即染色体)上,并且仍可以具有引起调控改变的相互作用。[0040]“启动子”或“启动子序列”是能够与rna聚合酶结合并启动多核苷酸或多肽编码序列(诸如信使rna、核糖体rna、小核rna(smallnuclearrna)或核仁小rna(smallnucleolarrna)、引导rna或由任何类别的任何rna聚合酶i、ii或iii转录的任何种类的rna)的转录的dna调控区。启动子可以是组成型或诱导型,并且在一些实施方案中,特别地在许多采用选择的实施方案中,核酸引导的核酸酶编辑系统的至少一种组分的转录处于诱导型启动子的控制下。[0041]如本文使用的术语“选择标记(selectablemarker)”是指引入细胞中的、赋予适于人工选择的性状的基因。一般使用的选择标记是本领域普通技术人员熟知的。可以采用药物选择标记,诸如氨苄青霉素/羧苄青霉素、卡那霉素、氯霉素、红霉素、四环素、庆大霉素、博莱霉素、链霉素、鼠李糖、嘌呤霉素、潮霉素、杀稻瘟素和g418。在其他实施方案中,选择标记包括但不限于人类神经生长因子受体(用mab检测,诸如美国专利第6,365,373号中描述的);截短的人类生长因子受体(用mab检测);突变体人类二氢叶酸还原酶(dhfr;可用荧光mtx底物);分泌型碱性磷酸酶(seap;可用荧光底物);人类胸苷酸合酶(ts;赋予对抗癌剂氟脱氧尿苷的抗性);人类谷胱甘肽s-转移酶α(gsta1;将谷胱甘肽与干细胞选择性烷化剂白消安缀合;cd34 细胞中的化学保护性选择标记);造血干细胞中的cd24细胞表面抗原;赋予对n-膦酰乙酰基-l-天冬氨酸(pala)的抗性的人类cad基因;人类多耐药性-1(mdr-1;可通过增加的耐药性选择或通过facs富集p-糖蛋白表面蛋白);人类cd25(il-2α;可通过mab-fitc检测);甲基鸟嘌呤-dna甲基转移酶(mgmt;可通过卡莫司汀(carmustine)选择);和胞苷脱氨酶(cd;可通过ara-c选择)。如本文使用的“选择性培养基”是指向其中添加了选择选择标记或针对选择标记进行选择的化学化合物或生物部分的细胞生长培养基。[0042]术语“靶基因组dna序列”、“靶序列”或“基因组靶基因座”是指体外或体内,或者细胞或细胞群体的核酸(例如基因组)中的期望使用核酸引导的核酸酶编辑系统对至少一个核苷酸进行改变的任何基因座。靶序列可以是基因组基因座或染色体外基因座。[0043]“载体”是包含待递送至细胞和/或在细胞中表达的期望的一种序列或更多种序列的多种核酸中的任一种。载体通常由dna构成,但是rna载体也是可用的。载体包括但不限于质粒、f粘粒(fosmid)、噬菌粒、病毒基因组、合成染色体等。如本文使用的,短语“引擎载体”包含用于本公开内容的核酸引导的核酸酶系统和方法中的核酸酶的编码序列。在细菌系统中,引擎载体还可以包含λred重组工程系统或其等同物。引擎载体通常还包含选择标记。如本文使用的,短语“编辑载体”包含供体核酸和grna编码序列,所述供体核酸任选地包括对靶序列的改变,所述改变在编辑发生后阻止核酸酶在靶序列中的pam或间隔区(spacer)处结合。编辑载体还可以包括选择标记和/或条形码。在一些实施方案中,可以将引擎载体和编辑载体组合;即,引擎载体的内容物可以在编辑载体上找到。此外,引擎载体和编辑载体包含可操作地连接至例如核酸酶编码序列、重组工程系统编码序列(如果存在)、供体核酸、引导核酸和一种或更多种选择标记的控制序列。[0044]核酸引导的核酸酶在基因组系统中的编辑[0045]rna引导的核酸酶(rgn)已迅速成为用于原核生物和真核生物基因组工程化的基础工具。成簇的快速间隔短回文重复序列(crispr)系统是保护原核生物抵抗可移动遗传元件(mge)的适应性免疫系统。rgn是这一防御系统的主要部分,因为它们鉴定并摧毁mge。rgn可以通过使将rgn引导到特定的靶dna的crisprrna(crrna)重编程来重新用于各种生物体的基因组编辑。到目前为止,已经为各种应用鉴定了许多不同的rgn;然而,有对于特定的应用使得一些rgn比其他rgn更受期望的各种特性。rgn可以用于创建特定的双链断裂(dsb)、一条dna链的特定切口或引导另一个部分到特定的dna序列。[0046]rgn特异性靶向任何基因组序列的能力可能是rgn最受期望的特征;然而,只有在靶dna还含有称为pam(前间区邻近基序)的短基序时,rgn才能接近它们期望的靶,pam对于每个rgn是特异的。v型rgn诸如mad7、ascas12a和lbcas12a倾向于接近在5’末端含有yttn/tttn的dna靶,而ii型rgn靶向在3’末端含有特定短基序的dna序列。本领域中ii型rgn的一个熟知的实例是spcas9,它需要靶dna的3’末端的ngg。ii型rgn具有相对于v型rgn明显不同的结构域结构。此外,ii型rgn除了crrna外,还需要反式激活rna(tracrrna)以获得最佳功能。与v型rgn相比,ii型rgn创建更接近pam序列的双链断裂,这对于精确的基因组编辑应用是高度期望的。[0047]迄今已发现许多ii型rgn;然而,它们在广泛应用中的使用受到限制性pam的限制。例如,spcas9的pam在基因组中at丰富的区域出现的频率较低。具有新的和较少限制性的pam的新的rgn对该领域是有益的。此外,并不是所有的ii型核酸酶在多种生物体中都是有活性的。例如,科学文献中已经讨论了许多rgn,但只有少数被证明在体外是有活性的,并且在细胞中,特别是在哺乳动物细胞中有活性的rgn更少。本公开内容鉴定了具有新颖的pam并且在哺乳动物细胞中是有活性的多于一种rgn。[0048]在进行核酸引导的核酸酶编辑时,可以将挖掘的mad系列核酸酶或rgn作为多肽递送到待编辑的细胞;可选地,将编码挖掘的mad系列核酸酶的多核苷酸序列转化或转染到待编辑的细胞中。编码挖掘的mad系列核酸酶的多核苷酸序列可以针对特定细胞诸如古核生物、原核细胞或真核细胞中的表达被密码子优化。真核细胞可以是酵母、真菌、藻类、植物、动物或人类的细胞。真核细胞可以是特定生物体的细胞或来源于特定生物体的细胞,所述特定生物体诸如哺乳动物,包括但不限于人类、小鼠、大鼠、兔、犬或非人类哺乳动物,包括非人类灵长类动物。待采用的挖掘的mad系列核酸酶的选择取决于许多因素,诸如在靶序列中待进行何种类型的编辑,以及适当的pam是否位于期望的靶序列附近。挖掘的mad系列核酸酶可以由载体(例如,引擎载体)上的dna序列编码,并且处于组成型或诱导型启动子的控制下。在一些实施方案中,编码核酸酶的序列处于诱导型启动子的控制下,并且该诱导型启动子可以与控制引导核酸转录的诱导型启动子分开但相同;即,分开的诱导型启动子可驱动核酸酶和引导核酸序列的转录,但是这两个诱导型启动子可以是相同类型的诱导型启动子(例如,二者都是pl启动子)。可选地,控制核酸酶表达的诱导型启动子可以与控制引导核酸转录的诱导型启动子不同;即,例如,核酸酶可以处于pbad诱导型启动子的控制下,并且引导核酸可以处于pl诱导型启动子的控制下。[0049]通常,引导核酸(例如,grna)可以与相容的核酸引导的核酸酶复合,并且然后可以与靶序列杂交,从而将核酸酶指导至靶序列。对于本文描述的mad系列酶,核酸引导的核酸酶编辑系统使用组合并起引导核酸的作用的两个单独的引导核酸组分;即crisprrna(crrna)和反式激活crisprrna(tracrrna)。grna可以由多核苷酸分子诸如质粒、线性构建体上的dna序列编码,或者编码序列可以驻留于编辑盒内,并且处于组成型启动子的控制下,或者在一些实施方案中,在如下文描述的诱导型启动子的控制下。[0050]引导核酸包含与靶序列具有足够互补性以与靶序列杂交并且指导复合的核酸引导的核酸酶与靶序列的序列特异性结合的引导多核苷酸序列。引导序列和对应的靶序列之间的互补性程度在使用合适的比对算法进行最佳比对时是约或多于约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或更多。最佳比对可以通过使用用于比对序列的任何合适的算法来确定。在一些实施方案中,引导序列的长度是约或多于约10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、35个、40个、45个、50个、75个或更多个核苷酸。在一些实施方案中,引导序列的长度为少于约75个、50个、45个、40个、35个、30个、25个、20个核苷酸。优选地,引导序列是10-30个或15-20个核苷酸长,或者长度是15个、16个、17个、18个、19个或20个核苷酸。[0051]在本发明的方法和组合物中,引导核酸的组分作为待由质粒或载体表达的序列提供,并且包含引导序列和支架序列二者作为启动子控制下的,并且在一些实施方案中,诱导型启动子控制下的单一转录物。通常,为了在靶序列中产生编辑,grna/核酸酶复合体与如由引导rna确定的靶序列结合,并且核酸酶识别与靶序列邻近的前间区邻近基序(pam)序列。靶序列可以是对原核细胞或真核细胞而言为内源或外源的任何多核苷酸,或体外的任何多核苷酸。例如,靶序列可以是驻留于真核细胞的细胞核中的多核苷酸。靶序列可以是编码基因产物(例如,蛋白)的序列或非编码序列(例如,调控多核苷酸、内含子、pam或“垃圾”dna(“junk”dna))。[0052]引导核酸可以是编码供体核酸的编辑盒的一部分。可选地,引导核酸可以不是编辑盒的一部分,而是可以被编码在引擎载体或编辑载体骨架上。例如,可以首先将编码引导核酸的序列组装或插入载体骨架中,随后将供体核酸插入例如编辑盒中。在其他情况下,可以首先将例如编辑盒中的供体核酸插入或组装到载体骨架中,随后插入编码引导核酸的序列。在又其他情况下,编码引导核酸和供体核酸(例如,插入编辑盒中)的序列同时但分开插入或组装到载体中。在又其他实施方案中,编码引导核酸的序列和编码供体核酸的序列二者均包含在编辑盒中。[0053]靶序列与pam相关,pam是由grna/核酸酶复合体识别的短核苷酸序列。用于不同的核酸引导的核酸酶的精确的pam序列和长度要求不同;然而,pam通常是与靶序列邻近或接近的2-7个碱基对序列,并且取决于核酸酶,可以在靶序列的5’或3’。核酸引导的核酸酶的pam相互作用结构域的工程化可以允许改变pam特异性、改进保真度或降低保真度。在某些实施方案中,靶序列的基因组编辑既将期望的dna改变引入靶序列,例如细胞的基因组dna,又去除靶序列中的前间区突变(pam)区,使靶序列中的前间区突变(pam)区突变或失活。使靶序列处的pam失活排除了对该靶序列处细胞基因组的另外的编辑,例如,在后续的编辑轮中随后暴露于与合成的引导核酸复合的核酸引导的核酸酶时。因此,具有期望的靶序列编辑和改变的pam的细胞可以使用与合成的引导核酸复合的核酸引导的核酸酶来选择,所述合成的引导核酸与靶序列互补。没有经历第一编辑事件的细胞会被切割,引起双链dna断裂,并且因此会无法继续存活。包含期望的靶序列编辑和pam改变的细胞不会被切割,因为这些编辑的细胞不再包含必需的pam位点,并且会继续生长和繁殖。[0054]如以上提及的,核酸引导的核酸酶可以识别的靶序列的范围受将特定pam定位于期望的靶序列附近的需要限制。因此,以基因组编辑必需的精度靶向编辑通常可能是困难的。已经发现,核酸酶可以非常好地识别一些pam(例如,典型pam(canonicalpam)),而不太好或较差地识别其他pam(例如,非典型pam)。因为本文公开的挖掘的mad系列核酸酶可以识别不同的pam,所以挖掘的mad系列核酸酶增加了可以被靶向用于编辑的靶序列的数量;即,挖掘的mad系列核酸酶减少了基因组中“pam沙漠(pamdeserts)”区域。因此,挖掘的mad系列核酸酶通过增加被识别的pam序列的数量(多样化(variety))扩大了可以被编辑的靶序列的范围。此外,可以将挖掘的mad系列核酸酶的混合物(cocktail)递送至细胞,使得可以在单次编辑运行中编辑与若干不同pam邻近的靶序列。[0055]核酸引导的核酸酶系统的另一组分是供体核酸。在一些实施方案中,供体核酸与引导核酸在同一多核苷酸(例如,编辑载体或编辑盒)上,并且可以(但不必然)处于与引导核酸相同的启动子的控制下(例如,驱动引导核酸和供体核酸二者转录的单一启动子)。关于这种类型的盒,参见uspn10,240,167;uspn10,266,849;uspn9,982,278;uspn10,351,877;uspn10,364,442;uspn10,435,715;和uspn10,465,207。供体核酸被设计成用作用于与靶序列同源重组的模板,该靶序列被作为grna/核酸酶复合体的一部分的核酸引导的核酸酶切口或裂解。供体核酸多核苷酸可以具有任何合适的长度,诸如约或多于约20个、25个、50个、75个、100个、150个、200个、500个或1000个核苷酸的长度。在某些优选的方面,供体核酸可以以20-300个核苷酸之间,更优选地50-250个核苷酸之间的寡核苷酸提供。供体核酸包含与靶序列的一部分互补的区域(例如同源臂)。当最佳比对时,供体核酸与靶序列重叠(互补)例如约20个、25个、30个、35个、40个、50个、60个、70个、80个、90个或更多个核苷酸。在许多实施方案中,供体核酸包含位于供体核酸和靶模板之间的突变或差异的侧翼的两个同源臂(与靶序列互补的区域)。供体核酸包含与靶序列相比的至少一个突变或改变,诸如与靶序列相比的插入、缺失、修饰或其任何组合。[0056]通常,供体核酸以编辑盒提供,其被插入到载体骨架中,其中载体骨架可以包含驱动grna转录的启动子和grna编码序列,或者载体骨架可以包含驱动grna转录的启动子,但不包含grna本身。此外,可以有多于一个,例如两个、三个、四个或更多个引导核酸/供体核酸盒插入到引擎载体中,其中每个引导核酸处于分开的不同启动子、分开的相似启动子的控制下,或者其中所有引导核酸/供体核酸对处于单个启动子的控制下。在一些实施方案中,驱动grna和供体核酸(或驱动多于一个grna/供体核酸对)转录的启动子是诱导型启动子。诱导型编辑的优点在于,分离的细胞可以生长几倍至许多倍的细胞倍增以在启动编辑前建立集落,这增加具有编辑的细胞将存活的可能性,因为由有效编辑(activeediting)引起的双链切割对细胞有很大毒性。这种毒性既导致编辑的集落中的细胞死亡,也导致确实存活但必须在编辑后修复和恢复(recover)的编辑的细胞生长延滞。然而,在编辑的细胞具有恢复的机会后,编辑的细胞集落的尺寸最终会赶上未编辑的细胞集落的尺寸。例如参见uspn10,533,152;uspn10,550,363;uspn10,532,324;和2019年10月9日提交的ussn16/597,826;2019年10月9日提交的ussn16/597,831;2019年11月25日提交的ussn16/693,630;2019年11月18日提交的ussn16/687,640;和2019年11月15日提交的ussn16/686,066。此外,引导核酸可以有效指导编辑盒中多于一个供体核酸的编辑;例如,如果期望的编辑在靶序列中彼此接近。[0057]除了供体核酸之外,编辑盒可以包含一个或更多个引物位点。引物位点可以用于通过使用寡核苷酸引物扩增编辑盒;例如,如果引物位点位于编辑盒的一个或更多个其他组分的侧翼。[0058]此外,编辑盒可以包含条形码。条形码是对应于供体dna序列的独特dna序列,使得条形码可以鉴定对对应靶序列进行的编辑。条形码通常包含四个或更多个核苷酸。在一些实施方案中,编辑盒包含代表例如供体核酸的全基因或全基因组文库的供体核酸的集合。编辑盒的文库被克隆到载体骨架中,其中,例如,每个不同的供体核酸与不同的条形码相关。[0059]此外,在一些实施方案中,编码核酸引导的核酸酶系统的组分的表达载体或盒还编码一个或更多个细胞核定位序列(nls),诸如约或多于约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个nls。在一些实施方案中,核酸酶包含在挖掘的mad系列rgn的氨基末端处或附近的nls,在挖掘的mad系列rgn的羧基末端处或附近的nls,或组合。[0060]引擎载体和编辑载体包含可操作地连接至待转录的组分序列的控制序列。如以上陈述的,驱动挖掘的mad系列核酸酶编辑系统的一种或更多种组分转录的启动子可以是诱导型的,并且如果要进行选择,可能采用诱导型系统。已经开发了用于在植物、微生物和动物细胞(包括哺乳动物细胞)中控制基因表达的许多基因调控控制系统,包括pl启动子(通过ci857阻遏物的热失活诱导)、pbad启动子(通过将阿拉伯糖添加至细胞生长培养基中诱导)和鼠李糖诱导型启动子(通过将鼠李糖添加至细胞生长培养基中诱导)。其他系统包括四环素控制的转录激活系统(tet-on/tet-off,clontech,inc.(paloalto,ca);bujard和gossen,pnas,89(12):5547-5551(1992))、lac开关诱导型系统(wyborski等人,environmolmutagen,28(4):447-58(1996);ducoeur等人,strategies5(3):70-72(1992);美国专利第4,833,080号)、蜕皮素诱导型基因表达系统(no等人,pnas,93(8):3346-3351(1996))、cumate基因开关系统(mullick等人,bmcbiotechnology,6:43(2006))、以及他莫昔芬诱导型基因表达(zhang等人,nucleicacidsresearch,24:543-548(1996))以及其他。[0061]通常,在活细胞中进行基因组编辑要求用进行核酸引导的核酸酶编辑所必需的组分转化细胞。例如,细胞可以用分开的引擎载体和编辑载体同时转化;细胞可能已经表达挖掘的mad系列核酸酶(例如,细胞可能已经用引擎载体转化,或者挖掘的mad系列核酸酶的编码序列可以稳定地整合到细胞基因组中),使得仅需要将编辑载体转化到细胞中;或者细胞可以用包含进行核酸引导的核酸酶基因组编辑所需的所有组分的单个载体转化。[0062]可以使用各种递送系统将核酸引导的核酸酶编辑系统组分引入(例如,转化或转染)宿主细胞。这些递送系统包括酵母系统、脂质体转染系统、显微注射系统、基因枪系统、病毒微体(virosome)、脂质体、免疫脂质体、聚阳离子、脂质:核酸缀合物、病毒粒子(virion)、人工病毒粒子、病毒载体、电穿孔、细胞可渗透肽、纳米粒子、纳米线、外泌体(exosome)的使用。可选地,可以使用分子特洛伊木马(trojanhorse)脂质体跨越血脑屏障递送核酸引导的核酸酶组分。特别感兴趣的是电穿孔的使用,特别是流通式电穿孔(作为独立的仪器或作为自动化多模块系统中的模块)的使用,如以下中描述的:uspn10,435,713;10,443,074;10,323,258;和10,415,058。[0063]在将细胞用进行核酸引导的核酸酶编辑所必需的组分转化后,使细胞在促进编辑的条件下培养。例如,使用如果组成型启动子驱动挖掘的mad系列核酸酶和/或grna的转录,转化的细胞仅需要在典型条件下(例如,温度、co2气氛等)在典型培养基中培养。可选地,如果编辑是诱导型的——例如通过激活诱导型启动子,该诱导型启动子控制核酸引导的核酸酶编辑所需的一种或更多种组分的转录,诸如,例如grna、供体dna、核酸酶的转录,或者,在细菌的情况下,编辑是重组工程系统诱导型的——则细胞经历诱导条件。实施例[0064]提出以下实施例,以便为本领域技术人员提供如何制备和使用本发明的完整公开和描述,且以下实施例并不意图限制发明人视作其发明的范围,它们也不意图代表或暗示下文的实验是进行的所有实验或仅有的实验。本领域的技术人员应该明白,可以在对具体方面中所示的发明作出许多变化和/或修饰而不脱离本发明所广泛描述的精神或范畴。因此,本文的方面在各个方面中被认为是说明性的而非限制性的。[0065]实施例1:示例性工作流程概述[0066]图1示出了用于创建和用于体外筛选挖掘的mad系列酶的示例性工作流程100。在第一步骤101,制备并克隆载体以制备向其中插入挖掘的mad系列rgn的编码序列的模板载体。在另一步骤103,执行宏基因组挖掘以基于例如序列、潜在pam和活性的可能性来鉴定推定的感兴趣rgn。在计算机模拟鉴定推定的感兴趣rgn后,构建盒105并克隆到载体骨架中,并且然后转化到细胞中,从而产生挖掘的mad系列rgn的文库。用挖掘的mad系列rgn转化的细胞排列在96孔板中107,用于储存。[0067]在步骤109,取来自每个孔的细胞的等分试样,并从每个等分试样扩增挖掘的mad系列rgn。平行地,对于每个挖掘的mad系列rgn,扩增grna文库110。在步骤111,将表达grna文库的扩增的pcr片段与扩增的挖掘的mad序列rgn组合,以进行体外转录和翻译来制备活性核糖核酸酶蛋白复合体113。构建合成的靶文库115,其中测试每一个挖掘的mad系列rgn的靶耗尽117。在靶耗尽之后,使用下一代测序产生扩增子用于分析119,并执行测序数据分析121以确定靶耗尽。[0068]实施例2:宏基因组挖掘[0069]使用来自不同来源的宏基因组组装基因组(mag),包括genbankbioproject登录号prjna348753、prjna385857、prjna432584和prjna434545以使用hmmer隐马尔可夫模型搜索寻找新的、推定的crispr核酸酶。鉴定了数百种潜在的核酸酶。图2显示了发现的新颖的rgn,将蛋白质大小对比hmmer搜索评分绘图。对于每一个存在核酸酶的mag,鉴定推定的crispr阵列并提取间隔区序列。然后使用这些间隔区作为查询来搜索jgiimg/vr病毒宏基因组数据库(paez-espino等人,nucleicacidsres.2017jan4;45(d1):d457-d465)并根据邻近间隔区命中的病毒序列预测推定的pam序列。根据序列、潜在pam和核酸酶可能有活性的置信度,鉴定出13种核酸酶(表1)用于体外验证。13种核酸酶中每一种的序列示于表2。[0070]表1[0071][0072]表2[0073][0074][0075][0076][0077][0078][0079][0080][0081][0082]实施例3:载体克隆、mad系列rgn文库构建及pcr[0083]将挖掘的mad系列rgn编码序列克隆到puc57载体中,其中t7启动子序列附接到编码序列的5’末端,并且t7终止子序列附接到编码序列的3’末端。将100ng质粒混合物转化到e.supreme电感受态solo细胞(lucigen,middleton,wi)中。将细胞在振荡培养箱中在37℃在5ml恢复培养基中恢复1小时后,添加1ml50%甘油,并且将细胞以100μl等分试样储存在-80℃。[0084]将储存的细胞在磷酸盐缓冲盐水中稀释,并且铺展在具有100μg/ml羧苄青霉素的lb琼脂板上。然后将细胞在培养箱中在37℃生长过夜。挑取菌落并接种到96孔培养块中的1mllb培养基(100μg/ml羧苄青霉素)中。将培养物在振荡培养箱中在37℃生长过夜。接下来,将1μl细胞稀释到500μlpcr级水中,并且将稀释培养物的25μl等分试样使用热循环仪在95℃煮沸5min。使用细胞来pcr扩增不同的挖掘的mad系列rgn编码序列。将剩余的培养物添加浓度为10%v/v的甘油、储存在-80℃。[0085]首先,使用煮沸的细胞作为挖掘的mad系列rgn模板的来源,使用q5热启动2x主混合物(mastermix)试剂(neb,ipswich,ma)扩增挖掘的mad系列rgn序列。正向引物5’‑ttgggtaacgccagggtttt[seqidno.49]和反向引物5’‑tgtgtggaattgtgagcgga[seqidno.50]扩增了puc57载体中挖掘的mad系列rgn侧翼的序列,包括分别在挖掘的mad系列rgn的5’‑末端和3’‑末端的t7-启动子和t7-终止子组分。在96孔pcr板中的使用3.3μl煮沸的细胞样品作为模板的10μlpcr反应中,使用1μm引物。使用表3所示的pcr条件:[0086]表3:[0087]步骤温度时间变性98℃30sec30个循环98℃10sec66℃30sec72℃2.5min最终延伸72℃2min保持12℃[0088]实施例4:grna文库构建[0089]与每个rgn相关的功能性grna可能很难预测,因为rgn可能需要多于一个rna才能发挥作用,并且转录的rna的长度也可能高度可变。因此,为每个rgn创建了384个成员的grna文库。grna由可变间隔区序列、crispr重复序列、接头序列和tracrrna序列组成。图3是挖掘的mad系列rgn的grna设计的示意图。通过鉴定反义重复(anti-repeat)序列,发现了tracrrna。crrna与tracrrna用gaaa接头共价连接。通过截短5’区、3’区和重复/反义重复双链体来创建grna文库,优化了初始的grna设计。为了发现最佳grna长度,包括了不同长度的间隔区、重复:反义重复双链体和tracrrna的3’末端。根据grna的总长度,文库还被细分为六个池。这使得能够鉴定核酸酶活性最佳的最短grna。然后将这些grna克隆到t7启动子下游。[0090]靶文库的设计是基于这些核酸酶的pam将位于3’末端的假设。选择了两种gc含量不同的人工前间区。由于pam序列的长度可以是3-7个或3-10个核苷酸的范围,因此为每个前间区制备了三个不同的pam靶文库。文库1包含pamnnnnatgc;文库2由pamatnnnngc组成;并且文库3包含pamatgcnnnn。滑动pam文库确保捕获范围从4nt到8nt的pam。将靶文库克隆到包含对未切割靶进行下一代测序必需的序列的靶质粒中。[0091]实施例5:用于产生mad系列核酸酶和grna的体外转录和翻译[0092]通过体外转录和翻译(txtl)测试mad系列rgn的活性。grna质粒和核酸酶质粒二者都被包含在每个txtl反应中。使用体外蛋白合成试剂盒(neb,ipswich,ma)从pcr扩增的mad系列rgn文库产生挖掘的mad系列rgn,并且还产生grna文库。在96孔板的每个孔中,混合表4中列出的试剂以开始产生挖掘的mad7系列rgn和grna:[0093]表4:[0094]试剂体积(μl)1sola(neb试剂盒)3.32solb(neb试剂盒)2.53pcr扩增的grna子池14鼠rna酶抑制剂(neb)0.25水0.36pcr扩增的t7mad系列rgn1.0[0095]将具有除了pcr扩增的t7-mad系列rgn之外的所有试剂的主混合物在冰上混合,以覆盖足够的96孔板用于测定。在96孔板的每个孔中分配7.3μl的主混合物后,添加1μl在t7启动子控制下的pcr扩增的mad系列rgn。将96孔板密封,并且在热循环仪中在37℃孵育4小时。将板保持在室温,直至添加靶池以进行靶耗尽反应。[0096]孵育4小时允许产生挖掘的mad系列rgn和grna后,将4μl的靶文库池(10ng/μl)添加至体外转录/翻译反应混合物中并允许在37℃耗尽30分钟、3小时或过夜。将靶耗尽反应混合物稀释到包含rna酶a的pcr级水中,并且然后在95℃煮沸5min。然后扩增混合物并测序。pcr条件示于表5:[0097]表5[0098]步骤温度时间变性98℃30sec6个循环98℃10sec61℃30sec72℃10sec22个循环98℃10sec72℃10sec最终延伸72℃2分钟保持12℃[0099]实施例5:结果[0100]对含有nnnnatgcpam、atnnngcpam和atgcnnnnpam的三个靶池进行筛选。图4显示了如体外测量的,mad2001在含有nnnnatgc3’pam的靶上的耗尽图;图5显示了如体外测量的,mad2007在含有nnnnatgc3’pam(上)和atnnnngc3’pam(下)的靶上的耗尽图;图6显示了如体外测量的,mad2008在含有nnnnatgc3’pam的靶上的耗尽图;图7显示了如体外测量的,mad2008在含有nnnnatgc3’pam的靶上的耗尽图;图8显示了如体外测量的,mad2011在含有nnnnatgc3’pam的靶上的耗尽图;并且图9显示了由以序列标志的形式显示的mad裂解的靶的富集,总结了在体外筛选中有活性的挖掘的mad系列rgn的pam。因此,如在图4-图9观察到的,mad2001、mad2007、mad2008、mad2009和mad2011核酸酶是有活性的。mad2001切割包含nnrcpam的靶,mad2007偏好nnnsrpam,mad2008和mad2009耗尽了具有nnaapam的靶。对于人类基因组编辑,pamnnnnatgc、pamatnnngc和pamatgcnnnn的限制性明显小于ngg或tttvpam(参见图11)。最后,类似于spcas9,mad2011具有nggpam。鉴定出最具活性的grna子池。由于每个grna子池包含64种不同的grna组合,我们在最具活性或最短的子池中测试每个grna以鉴定最佳的grna序列。鉴定了在体外测定中显示出最高的耗尽的三个grna。这些序列列在表6中。[0101]表6[0102][0103][0104]使用pam信息和前三个grna设计,在hek293t细胞中测试了mad2001、mad2007、mad2008、mad2009和mad2011的活性。用核酸酶质粒和grna质粒共转染细胞。核酸酶由强cag启动子表达,而grna由u6启动子表达。通过t7e1测定分析了细胞的插入缺失(indel)。如图10所示,五个mad中有四个表现出活性。mad2001对多于一个内源性靶具有活性,在含有gagcpam的靶上显示高达20%的插入缺失。这是第一次展示在哺乳动物细胞中有活性的古细菌crispr核酸酶。mad2007、mad2008和mad2011对测试的靶显示出较低和可变的插入缺失水平。图11展示了新发现的精确编辑核酸酶的人类基因组覆盖范围,提供了人类细胞中精确编辑的覆盖范围。[0105]此外,还鉴定了mad系列核酸酶的切口酶和核酸酶失活变体,即mad2001、mad2007、mad2008、mad2009和mad2011,其中这些切口酶和失活变体用于各种基于切口酶的精确编辑应用。下表7列出了切口酶和核酸酶失活变体的序列,其中与野生型mad2001[seqidno.1]核酸酶氨基酸序列(对于seqidno.14-16)和mad2007[seqidno.7]核酸酶氨基酸序列(对于seqidno.17-19)不同的氨基酸残基被突出显示和加粗。[0106]表7[0107][0108][0109][0110][0111][0112][0113][0114][0115][0116][0117][0118]实施例6:通过测量gfp功能损失筛选在hek293t-gfp细胞中有活性的mad2001和mad2007间隔区:[0119]为了测试mad2007和mad2001在哺乳动物细胞中是否有活性,设计了靶向hek293t-gfp细胞中gfp基因座的间隔区文库。对于mad2001,在两种grna支架(g1和g3)中设计了23个靶向nnrcpam的间隔区。对于mad2007,在3种grna支架(g1、g2和g3)中设计了43个靶向nnnsrpam的间隔区。将grna克隆到pcomplete质粒(cmv-mad200x-u6-grna)并转化到大肠杆菌(neb5α株)中。将所得的菌落挑入96孔的中孔板中并培养过夜。将大肠杆菌培养物用作pcr模板,扩增7kb的含有cmv启动子驱动的mad2007/mad2001和u6驱动的grna的片段。用150ng的未纯化pcr反应物和1μl的polyfect转染试剂在96孔中转染20,000个hek293t-gfp细胞。然后将细胞在37℃孵育96小时,然后进行流式细胞术。用流式细胞术测量各孔中的gfp-细胞和gfp 细胞。将每个孔中gfp-细胞的百分比绘图(参见图7)。相对于阴性对照,发现mad2001和mad2007的很多grna间隔区是有功能的。总体而言,在为mad2001设计的23个间隔区中,有6个是有功能的。而为mad2007设计的34/43间隔区是有功能的。使用这一gfp筛选鉴定的间隔区和pam序列在表8示出。[0120]表8[0121][0122][0123]此外,在hek293t细胞中有功能的34个mad2007间隔区的pam区域被用来生成序列标志,如图8所示。结果表明,在hek293t细胞中mad2007的pam为nnnsr。[0124]接下来,用质粒转染在hek293t-gfp细胞中测试筛选中鉴定的一些mad2007间隔区命中来验证。结果在图9中示出。相对于无grna对照,发现命中是有活性的。然而,取决于间隔区序列,有不同的活性水平。mad2007的活性与mad7相当,但低于spcas9。[0125]实施例7:mad2007的密码子优化[0126]到目前为止讨论的所有数据都是使用大肠杆菌密码子优化的mad2007产生。对mad2007进行优化以用于人类细胞优化,并且设计了两个密码子优化版本(hsmad2007v1[seqidno.140]和hsmad2007v2[seqidno.141])。然后将设计物克隆到含有cmv驱动的mad2007-t2a-dsred和u6驱动的grna(g11,具有上文的支架1)的pcomplete载体。对于每一个设计,挑取4个单独的克隆(c1、c2、c3和c4),并在hek293t-gfp细胞中测试gfp功能丧失。结果在图9中示出。基于dsred表达,hsmad2007v2相对于ecmad2007显示更高的表达。此外,基于gfp-的百分比,hsmad2007v2相对于ecmad2007显示更高的活性。[0127]实施例8:mad2007同源物[0128]在公共数据库中进行了mad2007样蛋白序列的生物信息学搜索,并且鉴定出与mad2007≥98%相同的来自阿扎夏普氏菌的三种序列。这些序列在表9中示出。[0129]表9[0130][0131][0132][0133]虽然本发明通过许多不同形式的实施方案来满足,但是如结合本发明的优选的实施方案详细描述的,应理解本公开内容应被认为是对本发明的原理的示例而不意在将本发明局限于本文说明和描述的具体实施方案。本领域的技术人员可以作出许多变化而不脱离本发明的精神。本发明的范围将通过附加的权利要求和它们的等同物判断。摘要和标题不应被解释为限制本发明的范围,因为它们的目的是使适当的机构以及一般公众能够迅速确定本发明的一般性质。在以下的权利要求书中,除非使用术语“手段(means)”,否则其中列举的特征或要素都不应该被解释为根据35u.s.c.§112,的手段加功能的限定。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献