一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

核碱基编辑器的制作方法

2022-07-30 11:26:57 来源:中国专利 TAG:

核碱基编辑器
1.相关申请的交叉引用
2.本技术要求2019年12月26日提交的新加坡临时申请号10201913340q的优先权,出于所有目的,其全部内容被通过引用并入本文。
技术领域
3.本发明涉及分子生物学生物技术领域,特别是基因编辑领域,且更特别是核碱基编辑。
4.发明背景
5.许多人类遗传病是由单核苷酸多态性(snp)引起的,其中疾病和健康等位基因因单个dna碱基而异。crispr-cas9核酸酶通常用于以可靶向的方式编辑基因组dna。dna切割后,有三种主要修复机制可参与修复断裂-同源定向修复(hdr)、微同源介导的末端连接(mmej)和非同源末端连接(nhej)。当存在供体dna/rna时,可进行hdr。然而,先前的研究只能实现低水平的精确基因编辑(0.1-5%)。mmej要求在具有微同源性的区域形成双链断裂,从而限制了crispr-cas9的靶向范围。nhej是修复cas9诱导的双链断裂的主要途径。不幸的是,它引入了各种随机的插入缺失(indel)。对于需要精确点突变的治疗应用,nhej不能恢复缺陷基因,且因此是不够的。
6.碱基编辑器可以通过以可控和有效的方式将靶向的dna碱基转换为另一个碱基来纠正这些snp。目前的技术能够使用胞嘧啶碱基编辑器(cbe)将c
·
g碱基对转换为t
·
a碱基对(a.c.komor,et al.,nature 533,420-424(2016);k.nishida et al.,science 353,aaf8729(2016);a.c.komor,et al.,sci.adv.3,eaao4774(2017))和使用腺嘌呤碱基编辑器(abe)将a
·
t碱基对转换为g
·
c碱基对(n.m.gaudelli,et al.,nature 551,464-471(2017)),其一起代表了所有已知疾病相关snp的一半。还已知cbe和abe作为副产物实现了一些c
·
g到g
·
c的编辑,但它们不能以治疗用途所需的效率或纯度实现这些转换,并且因此当前的碱基编辑器无法处理这些snp的剩余一半。
7.因此,需要提供新型核碱基编辑器,其以高的效率、特异性和纯度促进c:g到g:c编辑(cgbe)。
8.发明概述
9.在一方面,本公开涉及融合蛋白或蛋白复合物,其包含dna结合蛋白(dnabp)、核碱基修饰蛋白(nmp)和碱基切除修复相关蛋白(berap);其中所述融合蛋白或蛋白复合物不包含尿嘧啶结合蛋白或具有催化活性的dna聚合酶。
10.在另一方面,本公开涉及融合蛋白,其包含:
[0011]-第一氨基酸序列,其与seq id no:1-2中任一个的氨基酸序列至少80%相同,
[0012]-第二氨基酸序列,其与seq id no:3的氨基酸序列至少80%相同,
[0013]-第三氨基酸序列,其与seq id no:4-10的氨基酸序列至少80%相同。
[0014]
在另一方面,本公开涉及融合蛋白,其包含seq id no:42-72中任一个的序列。
[0015]
在又一方面,本公开涉及蛋白复合物,其包含:
[0016]-第一蛋白质,其包含与seq id no:1-2中任一个的氨基酸序列至少80%相同的氨基酸序列,
[0017]-第二蛋白质,其包含与seq id no:3的氨基酸序列至少80%相同的氨基酸序列,
[0018]-第三蛋白质,其包含与seq id no:4-11的氨基酸序列至少80%相同的氨基酸序列。
[0019]
在又一方面,本公开涉及蛋白质-核酸复合物,其包含核酸分子和以下任一个:
[0020]
本文所公开的融合蛋白或蛋白复合物,
[0021]
本文所公开的融合蛋白;和
[0022]
权利要求20所述的蛋白复合物。
[0023]
在又一方面,本公开涉及药物组合物,其包含本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物。
[0024]
在又一方面,本公开涉及在细胞中用鸟嘌呤取代dna链上的胞嘧啶的方法,所述方法包括将本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物引入细胞。
[0025]
在又一方面,本公开涉及多核苷酸,其编码本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物。
[0026]
在又一方面,本公开涉及包含本文所公开的多核苷酸的载体。
[0027]
在又一方面,本公开涉及包含本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物的细胞。
[0028]
在又一方面,本公开涉及治疗患有或疑似患有疾病或病症的受试者的方法,其包括向受试者施用本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物、本文所公开的蛋白-核酸复合物、本文所公开的药物组合物、本文所公开的多核苷酸或本文所公开的载体。
[0029]
在又一方面,本公开涉及用于编辑双链dna序列的靶核碱基对的方法,该方法包括:
[0030]
a.将双链dna序列的靶区域与包含核碱基编辑器和向导核酸的复合物接触,其中所述靶区域包含靶核碱基对;
[0031]
b.诱导所述靶区域的链分离;
[0032]
c.将所述靶核碱基对在靶区域的单链中的第一核碱基转换为第二核碱基;
[0033]
d.从双链dna序列中切除所述第二核碱基以产生脱碱基位点;和
[0034]
e.促进碱基切除修复(ber)通路以修复脱碱基位点,在脱碱基位点产生第三核碱基,其中所述第三核碱基不同于第一核碱基。
[0035]
附图简要说明
[0036]
当结合非限制性实例和附图考虑时,参考详细说明将更好地理解本发明,其中:
[0037]
图1显示两幅插图:一幅显示c:g到g:c碱基编辑器(cgbe)和(胞嘧啶碱基编辑器)cbe之间的差异;另一幅显示cgbe候选物;和1个柱状图。(a)如be3和be4等cbe主要将c:g转换为t:a,而cgbe旨在主要将c:g转换为g:c。(b)cgbe候选物按三个方向设计-acx、axc和xac,其中x表示融合的ber蛋白(或碱基切除修复相关蛋白(berap))。(c)七个候选物因其对
hek2和hek3的高c:g到g:c编辑而被选中。被靶向的c用方框表示。pam带下划线。对hek3的较低编辑可能是由于不喜好的基序(参见图2a中的数据)。*p<0.05;**p<0.01;***p<0.001(对“未处理”的单因素anova,n=3,平均值
±
标准差)。图1描述了用于c:g到g:c编辑的cgbe候选物的初始筛选。
[0038]
图2显示2个柱状图和1个图像,其显示了c:g到g:c编辑的定量表示。(a)评价每个ncn dna基序的c:g到g:c编辑。设计了靶向hek2位点周围的基因组区域的16个不同的grna(扩展数据表2中的hek2-1至hek2-16),选择这些grna使得grna-靶组合一起覆盖所有ncn基序背景,且使grna之间的基因组距离最小化(16个grna中的14个(包括初始的hek2-1 grna:靶)位于1.8kb的区域内,而其他2个grna靶在10kb内)。(n=2,平均值
±
标准差)。(b)用靶基序创建dna weblogo,其中将位置6的c:g编辑成g:c(n=2;误差线为贝叶斯95%置信区间)。(c)使用具有交替5'-w-c-3'基序的grna编辑cgbe窗口。被靶向的c用更大的字体。pam带下划线。*p<0.05;**p<0.001(对“be3”的单因素anova,n=3,平均值
±
标准差)。图2描述了两个选定cgbe的序列背景和编辑窗口。
[0039]
图3显示2个散点图。(a)从be3中去除ugi增加c:g到g:c的编辑(三角形);与rxrcc1的融合进一步增加c:g到g:c的编辑。主要的副产物是c:g到t:a的编辑(圆形)。(b)平均c:g到g:c编辑/c:g到t:a编辑比值。数据包括位于wcw、acc或gct基序内的16个基因组位点的所有生物学重复。*p<0.05;***p<0.001(双尾学生t检验;n=28-45个生物学重复)。图3说明cgbe如何诱导有效的作为主要产物的c:g到g:c编辑。
[0040]
图4显示2个柱形图。(a)对于一些cgbe候选物,c:g到g:c编辑是位置6的主要编辑。(b)c:g到t:a编辑是位置4的主要编辑。所选的七个用于进一步研究的候选物标有被靶向的c用更大的字体。pam带下划线。*p<0.05;**p<0.01;***p<0.001(对“未处理”的单因素anova,n=3,平均值
±
标准差)。图4显示在hek2-1上对cgbe候选物的cgbe初始筛选。
[0041]
图5显示3个柱形图,其呈现了在hek3上(a)位置5、(b)位置4和(c)位置3对cgbe候选物的初始筛选。所选的七个用于进一步研究的候选物标有被靶向的c用更大的字体。pam带下划线。*p<0.05;**p<0.01;***p<0.001(对“未处理”的单因素anova,n=3,平均值
±
标准差)。图5图示了在hek3上对cgbe候选物的初始筛选结果。
[0042]
图6显示3个柱形图。(a)cgbe候选物对emx1、hek4、rnf2和fancf实现了c:g到g:c突变。c:g到g:c编辑是对hek4和rnf2的主要编辑;c:g到t:a编辑是对fancf和emx1的主要编辑。(对“be3”的单因素anova,n=3,平均值
±
标准差)(b)对疾病相关基因adrb2、gjb2、mybpc3和gal 292的cgbe编辑。注意,在hek293aav细胞中adrb2包含天然存在的多态性,因此该数据不包括在图3中。(对“未处理”的单因素anova,对于adrb2和mybpc3,n=5;对于gjb2,n=4;对于gal 292,n=1,平均值
±
标准差)(c)平均c:g到g:c编辑以占16个ncn位点上所有读数的百分比表示。在所有可能的ncn序列中,与be3相比,cgbe将c:g到g:c编辑增加了3至4倍。扩展数据表2中包括了grna序列。*p<0.05;**p<
0.01;***p<0.001(对“be3”的单因素anova,n=32,平均值
±
标准差)。图6图示了入围的cgbe候选物的进一步特征。
[0043]
图7显示2个柱形图。(a)cgbe候选物产生比be3更高的插入缺失率。在cgbe候选物中,acx,rxrcc1具有最低插入缺失率。(n=3,平均值
±
标准差)。(b)从be3中去除ugi增加插入缺失率;融合ber蛋白rpb(8kd)或rxrcc1适度降低插入缺失率。(n=3,平均值
±
标准差)。这里使用的另一组grna:靶标验证了(a)的结论。虽然需要进一步的机理研究,一个可能的假设是,ber复合物的募集修复了脱碱基位点,并且这些脱碱基位点的持续存在时间缩短可能会导致较低的插入缺失倾向。图7图示了入围的cgbe候选物在多个基因组位点的插入缺失率。
[0044]
图8显示两个图像,其显示针对(a)adrb2和(b)mybpc3cgbe编辑的代表性数据。wt表示野生型的未处理细胞;xrcc表示acx,xrcc1;rpb表示acx,rpb(8kd)。应注意,在hek293aav细胞中adrb2包含天然存在的多态性。
[0045]
图9显示2个散点图。(a)c:g到g:c编辑(蓝色三角形)与c:g到t:a编辑(橙色圆形)以占本研究中使用的grna的所有读数的百分比表示。除靶向10个次优c:g到g:c碱基编辑基序(图2a和图2b)和adrb2(由于天然存在的多态性)的生物学重复外,所有生物学重复均被纳入(扩展数据图3b)。(b)遍布本研究中使用的grna,c:g到g:c编辑与c:g到t:a编辑的比值。只有be3(无ugi)和acx,rxrcc1给出明显更高的c:g到g:c编辑/c:g到t:a编辑比值。*p<0.05;**p<0.01;***p<0.001(对“be3”的单因素anova,n=20-45个生物学重复)。图9说明acx,rxrcc1是入围cgbe候选物中表现最好的之一。
[0046]
图10显示5个柱形图,其示出在用(a)hek2-1 grna;(b)hek3 grna;(c)hek4 grna;(d)emx1;和(e)fancf鉴定的脱靶位点上cgbe和be3的脱靶活性。检测了使用5个grna采用68个可编辑c鉴定的总共29个脱靶位点。hek3和emx1脱靶位点是通过guide-seq19鉴定的cas9脱靶位点;hek2、hek4和fancf脱靶位点是通过digenome-seq14鉴定的be3(无ugi)脱靶位点。cgbe和be3在相同的15个脱靶位点诱导>0.1%的c:g到d:h编辑。在这15个位置中的2个位置,cgbe诱导的脱靶编辑频率高于be3;在其余13个位点,cgbe诱导的脱靶编辑频率较低。“ot5”表示脱靶5;“c4”表示位置4的“c”。(n=2,平均值
±
标准差)。
[0047]
图11显示4个柱形图,其示出针对(b)hek2、(c)fancf和(d)rnf2,本公开的cgbe与(a)anzalone等人描述的pe3以及liu和koblan描述的cgbe的比较。(a)作为初级编辑(prime editting)的阳性对照,我们使用先前发表的靶向hek3的pegrna(addgene#132778),并观察到有效的初级编辑(数据未显示)。对于c:g到g:c编辑,pe3与cgbe(acx,rxrcc1)一样有效,并且对hek4-1诱导的不希望的编辑水平较低。对于hek2-1和rnf2-1,pe3的效率显著低于cgbe对hek2和rnf2的效率。结果表明,虽然pe3可能能够在某些位点执行c:g到g:c的转换,但cgbe是扩展当前技术的编辑能力的有价值的工具(n=2,平均值
±
标准差)。对于b、c和d部分,由于数据集是独立且在不同的细胞类型中生成的,因此只能与两项研究共有的be3进行比较。在3个位点中的2个位点,与碱基切除酶例如udg和udgx的融合降低了be3的c:g到g:c编辑(n=1;liu和koblan,2018)。与碱基切除修复酶例如rxrcc1的融合增加了be3的c:g到g:c编辑。*p<0.05;**p<0.01;***p<0.001(对“be3”的单因素方差分析,n=3,平均值
±
标准误差;本研究)。
[0048]
图12是用于cgbe设计的不同策略的示意图表示。本研究采用cgbe设计策略(左),其中cas9与参与修复含尿嘧啶或脱碱基位点(ap)的蛋白质融合。预期这些ber蛋白的活性在相反链上的核苷酸从g转化为c之前将ap转化为g。相比之下,liu和koblan(右)采用的聚合酶策略旨在设想发生在相反链上的跨损伤合成过程中维持脱碱基位点。在相反链上的核苷酸从g转化为c后,ap得到修复。kurt等人、zhao等人以及liu和koblan采用的基于ung的cgbe策略旨在促进ap位点的生成(中间)。换句话说,本研究使用修复但不维持/产生脱碱基位点的蛋白质,而其他研究使用产生/维持但不修复脱碱基位点的蛋白质。cgbe是基于来源于已知的cas9和ber化学特点的工作机制假设而设计的。
[0049]
图13显示1个柱形图,其示出在a549细胞中使用各种grna:靶位点对的c:g编辑。(n=2,误差线表示标准差)。这些细胞通过脂质转染法转染。
[0050]
图14显示1个柱形图,其示出在htb-9细胞中使用各种grna:靶位点对的c:g编辑。(n=2,误差线表示标准差)。cgbe能够有效地对hek2-1、hek4、rnf2-1和vegfa诱导c:g到g:c编辑。此外,c6编辑(rnf2-3)似乎高于c5编辑(rnf2-2)。总的来说,该数据表明,cgbe在hek细胞中的编辑偏好延续到htb9细胞。然而,htb9细胞中更有效的cgbe是acx,rpb(8kd)。*p<0.05;**p<0.01(对“未处理”的双尾学生t检验,n=2,平均值
±
标准差)。图14图示了在htb9细胞中acx,rxrcc1;acx,rpb(8kd);和be3的编辑。
[0051]
图15显示1个柱形图,其图示了在crl5868细胞中使用各种grna:靶位点对的c:g编辑。这些细胞通过核转染进行转染。
[0052]
图16显示1个柱形图,其图示了在cama-1细胞中使用各种grna:靶位点对的c:g编辑。这些细胞通过核转染进行转染。
[0053]
图17显示1个柱形图,其图示了在ehap细胞中使用各种grna:靶位点对的c:g编辑。虽然be3编辑低,但我们观察到两种cgbe的中等编辑水平。这些结果表明,cgbe可能能够在特定情况下诱导一些c:g到g:c编辑,而在这些特定情况下,类似的基础编辑技术(如be3)可能没有那么有效(c:g到t:a编辑;浅蓝色)。*p<0.05;**p<0.01;***p<0.001(对“未处理”的双尾学生t检验,n=3,平均值
±
标准差)。图17图示了ehap细胞中acx,rxrcc1;acx,rpb(8kd);和be3的编辑。
[0054]
图18显示1个柱形图,其图示了在hepg2细胞中使用各种grna:靶位点对的c:g编辑(n=1)。这些细胞通过核转染进行转染。
[0055]
图19显示1个柱形图,其图示了在jurkat细胞中使用各种grna:靶位点对的c:g编辑(n=1)。这些细胞通过核转染进行转染。
[0056]
图20显示1个柱形图,其图示了在h9干细胞中使用各种grna:靶位点对的c:g编辑(n=3,误差线表示标准差)。在没有进一步工程化(通过密码子优化、apobec突变等)的情况下,be3在h9干细胞中诱导c:g到t:a编辑是低效的。用be3观察到的最高c:g到t:a编辑是针对hek4(1.2%)。同样,两种cgbe均未有效诱导c:g到g:c编辑,最高的编辑也是针对hek4。最近表明,工程化的人apobec3a22可增加干细胞23中的be3编辑,这表明类似的方法也可能诱导更高的cgbe干细胞编辑。*p<0.05;**p<0.01;***p<0.001(对“未处理”的双尾学生t检验,n=3,平均值
±
标准差)。图20图示了acx,rxrcc1;acx,rpb(8kd);和be3在h9干细胞中的低编辑效率。
[0057]
一般定义
[0058]
在整个说明书中使用的若干术语在以下段落中一般性地定义。其他定义也可在本说明书正文中找到。
[0059]
如本文使用的,涉及数字的术语“约(about)”和“大约(approximately)”,在本文中用于包括落入数字的任一方向(大于或小于)的20%、10%、5%、2.5%、2%、1.5%或1%范围内的数字,另有说明或根据上下文明显时除外(该数字会超过可能值的100%时除外)。
[0060]
术语“多核苷酸”、“核酸”和“寡核苷酸”可互换使用,是指任意长度的核苷酸,脱氧核糖核苷酸或核糖核苷酸或其类似物的聚合形式。多核苷酸可以有任意三维结构,可以执行任何已知或未知的功能。以下是多核苷酸的非限制性实例:基因或基因片段(例如探针、引物、est或sage标签)、外显子、内含子、信使rna(mrna)、转运rna、核糖体rna、核酶、cdna、重组多核苷酸、分支多核苷酸、质粒、载体、具有任何序列的分离的dna、具有任何序列的分离的rna、核酸探针和引物。多核苷酸可包含修饰的核苷酸,例如甲基化核苷酸和核苷酸类似物。如果存在,可以在多核苷酸组装之前或之后对核苷酸结构进行修饰。核苷酸序列可以被非核苷酸组分中断。多核苷酸可以在聚合后进一步修饰,例如通过与标记组分缀合。该术语也指双链和单链分子。除非另有规定或要求,否则多核苷酸包括双链形式和已知或预测构成双链形式的两个互补单链形式中的每一个。如本文所用,术语“多肽”通常具有本领域公认的氨基酸聚合物的含义。该术语还用于指多肽的特定功能类别,诸如,例如核酸酶、抗体等。
[0061]
如本文所用,术语“变体”是指这样的实体,其与参照实体表现出极大的结构同一性,但是与参照实体相比,因一个或更多个化学部分的存在或水平而结构上不同于所述参照实体。在许多实施方案中,变体在功能上也不同于其参照实体。一般来说,特定实体是否被适当地认为是参照实体的“变体”是基于其与参照实体的结构相同性程度。如本领域技术人员所理解的,任一生物或化学参照实体都具有某些特征结构元件。按定义,变体是共有一个或更多个此类特征结构元件的独特化学实体。仅举几个实例,多肽可具有特征序列元件,该特征序列元件包含在线性或三维空间中相对于彼此具有指定位置和/或有助于特定生物功能的多个氨基酸;核酸可以具有由多个核苷酸残基组成的特征性序列元件,这些核苷酸残基在线性或三维空间中相对于彼此具有指定位置。例如,由于氨基酸序列中的一个或更多个差异和/或共价结合到多肽主链的化学部分(例如,碳水化合物、脂质等)中的一个或更多个差异,变体多肽可能不同于参照多肽。在一些实施方案中,变体多肽显示与参照多肽(例如,本文所述的核酸修饰酶)至少60%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%或99%的总体序列同一性。或者或另外,在一些实施方案中,变体多肽不与参照多肽共有至少一个特征序列元件。在一些实施方案中,参照多肽具有一种或更多种生物活性。在一些实施方案中,变体多肽共有参照多肽的一种或更多种生物活性,例如酶活性。在一些实施方案中,变体多肽缺乏参照多肽的一种或更多种生物活性。在一些实施方案中,与参照多肽相比,变体多肽显示一种或更多种生物活性(例如酶活性)水平降低。在一些实施方案中,如果目的多肽具有与亲本相同但在特定位置有少量序列变异的氨基酸序列,则目的多肽被认为是亲本或参考多肽的“变体”。典型地,与亲本相比,变体中少于20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%的残基被取代。在一些实施方案中,与亲本相比,变体具有10、9、8、7、6、5、4、3、2或1个被置换的残基。通常,变体具有非常少(例如,少于5、4、3、2或1个)数量的被置换的功能性残基(即,参与特定
生物活性的残基)。此外,与亲本相比,变体通常具有不超过5、4、3、2或1个添加或缺失,并且通常没有添加或缺失。此外,任何添加或缺失通常少于约25、约20、约19、约18、约17、约16、约15、约14、约13、约10、约9、约8、约7、约6,并且通常少于约5、约4、约3或约2个残基。在一些实施方案中,亲本多肽或参照多肽是自然界中发现的多肽。
[0062]
如本文所用,术语核酸序列的“表达”是指从核酸序列产生任何基因产物。在一些实例中,基因产物可以是rna转录物。在一些实施方案中,基因产物可以是多肽。在一些实施方案中,核酸序列的表达涉及以下的一步或更多步:(1)由dna序列产生rna模板(例如,通过转录);(2)加工rna转录物(例如,通过剪接、编辑、5'帽形成和/或3'端形成);(3)rna翻译成多肽或蛋白质;和/或(4)多肽或蛋白质的翻译后修饰。
[0063]
除非另有说明,所有氨基酸序列均以nh2末端在左侧和cooh末端在右侧显示,所有dna/rna核酸序列以5'末端在左侧和3'末端在右侧显示。
[0064]
详细描述
[0065]
本文公开了编辑核碱基的组合物和方法,例如,在多核苷酸中产生胞嘧啶到鸟嘌呤突变(或转化)。本发明人已经开发了一类新的c:g到g:c碱基编辑器(cgbe),其利用或操纵脱碱基位点创建的下游碱基切除修复(ber)通路。当双链dna多核苷酸的一条链上发生胞嘧啶到鸟嘌呤的转化时,相反链上的相对鸟嘌呤也可通过内在dna修复机制转化为胞嘧啶。因此,这类新的cgbe将c:g编辑为g:c(图1a),其开辟了对11%(单一cgbe)到40%(cgbe与胞嘧啶碱基编辑器/腺嘌呤碱基编辑器(cbe/abe)一起)的疾病相关单核苷酸多态性(snp)的治疗途径(表1)。
[0066]
表1.cgbe为先前可定位的与人类疾病相关的snp提供潜在的治疗途径。cbe能够治疗所有已知疾病相关snp的48%,而腺嘌呤碱基编辑器(abe)能够治疗6%。cgbe主要实现c:g到g:c和g:c到c:g的变化(表1第6行),这可以纠正11%的疾病相关snp。cgbe与胞嘧啶碱基编辑器(cbe)或abe结合使用时,附加地实现g到t、c到a、a到c和t到g编辑(表1中的第3行和第5行)。使用cbe、abe和cgbe,还可以纠正剩余7%的snp(a到t和t到a)(表1中的第1行)。
[0067][0068][0069]
在一方面,本公开涉及融合蛋白或蛋白复合物,其包含dna结合蛋白(dnabp)、核碱基修饰蛋白(nmp)和碱基切除修复相关蛋白(berap);其中所述融合蛋白或蛋白复合物不包含尿嘧啶结合蛋白或具有催化活性的dna聚合酶。
[0070]
在这方面,核碱基编辑器包含至少三种组分:dna结合蛋白(dnabp)、核碱基修饰蛋白(nmp)和碱基切除修复相关蛋白(berap)。核碱基编辑器可以是融合蛋白(从融合基因翻译的单个多肽)或蛋白质复合物。如本文所用,术语“蛋白质复合物”是指由蛋白质之间相互作用形成的两个或更多个蛋白质的组合的复合单元。通常但不一定,通过特定的非共价结
合亲和力将两个或更多个蛋白质结合在一起形成“蛋白质复合物”。然而,相互作用的伴侣之间也可能存在共价键。例如,两个相互作用的伴侣可以共价交联,使得蛋白质复合物变得更加稳定。
[0071]
dna结合蛋白(dnabp)
[0072]
术语“dna结合蛋白(dnabp)”指能够与dna结合的蛋白质。在一些实例中,dna结合蛋白是可编程的dna结合蛋白,其可以被设计或编程为与特定dna序列结合。在一些实例中,可编程的dna结合蛋白是rna引导的dna结合蛋白。如本文所用,rna引导的dna结合蛋白与向导rna相互作用或形成复合物,且可特异性靶向或结合具有特定序列的多核苷酸,该序列通常包含与grna靶向结构域互补的序列。在与靶多核苷酸结合后,dna结合蛋白可保持与靶多核苷酸结合,或其可修饰靶多核苷酸。在一个实例中,dna结合蛋白是crispr相关蛋白(cas)。许多cas蛋白具有内切酶活性,并且也被称为cas核酸酶。在一个具体实例中,dna结合蛋白是cas蛋白。在一些实例中,cas蛋白选自包括但不限于以下的组:cas3、cas9、xcas9、spry cas9、hf-cas9、cas9 ng、循环序列重组的(circularly permutated)cas9、密码子优化的cas9、结构域融合的cas9、cas10和cas12(也称为cpf1)、cas14、casx、casφ及其变体。在一些实例中,dnabp是上述任一cas蛋白的切口酶变体。因此,在一些实例中,cas结构域是cas切口酶(ncas)。在一些实例中,dnabp是cas9切口酶(或ncas9)。如本文所用,术语“cas9切口酶”是指能够仅切割双链核酸分子(例如,双链dna分子)的一条链的cas9蛋白。在一些实例中,cas结构域是核酸酶活性缺失的cas(dcas)。
[0073]
术语“向导rna”和“grna”是指在细胞环境或无细胞环境中促进dna结合蛋白与靶序列特异性结合(或“靶向”)的任何核酸。grna可以是单分子的(包含单个rna分子,或者称为嵌合的),也可以是模块化的(包含一个以上,典型地两个独立的rna分子(例如crrna和tracrrna),它们通常彼此关联,例如通过双链化(duplexing))。
[0074]
碱基切除修复相关蛋白(berap)
[0075]
如本文所用,术语“碱基切除修复相关蛋白(berap)”是指参与碱基切除修复通路的任何蛋白质。berap也可称为“ber蛋白”。在一些实例中,berap是在ber通路的一个或更多个步骤中起作用的酶;在其他实例中,berap是在ber通路中起作用的酶的辅因子或支架蛋白。将支架蛋白理解为通过与通路的一个或更多个成员相互作用或结合来调节其他蛋白质或通路的功能或活性的蛋白质。在某些情况下,支架蛋白可能会将通路的多个成员拴系到复合物中。berap可通过参考kegg(京都基因和基因组百科全书)ber通路(https://www.genome.jp/kegg-bin/show_pathway?map=ko03410)中列出的蛋白质或在例如uniprot(www.uniprot.org)等蛋白质数据库中搜索术语“碱基切除修复(base excision repair)”找到。
[0076]
在本文所公开的融合蛋白或蛋白复合物的一些实例中,berap选自包括但不限于以下的组:ap核酸内切酶、末端加工酶、无催化活性的dna聚合酶、裂解酶结构域、瓣状核酸内切酶、dna连接酶和参与ber通路的支架蛋白。在一些实例中,berap选自包括但不限于以下的组:dna连接酶ⅲ(lig3)、xrcc1、dna聚合酶β(pb)的dna结合或裂解酶结构域、dna聚合酶δ的dna结合或裂解酶结构域、dna聚合酶ε的dna结合或裂解酶结构域、ap核酸内切酶(ape1)、增殖细胞核抗原(pcna)、dna-(无嘌呤或无嘧啶位点)裂解酶(apex)、多聚(adp核糖)聚合酶(parp)、瓣状核酸内切酶1(fen1)和dna连接酶i(lig1)。在一个实例中,berap是
xrcc1。在一些实例中,berap是大鼠xrcc1(rxrcc1)或其变体。在一些实例中,berap是人xrcc1(hxrcc1)或其变体。在一个实例中,berap是具有seq id no:4的氨基酸序列的rxrcc1。在一个实例中,berap是具有seq id no:5的氨基酸序列的hxrcc1。
[0077]
在本文所公开的融合蛋白或蛋白复合物的一些实例中,berap是dna聚合酶β(polb或pb)的dna结合或裂解酶结构域。在一些具体实例中,dna聚合酶β的dna结合或裂解酶结构域对应于包含在完整dna聚合酶β序列的氨基酸1至140、1至120、1至100或1至87内的区域。在一个实例中,dna聚合酶β的dna结合或裂解酶结构域对应于包含在完整人dna聚合酶β序列(seq id no:12)的氨基酸1至140、1至120、1至100或1至87内的区域。在另一个实例中,dna聚合酶β的dna结合或裂解酶结构域对应于包含在完整大鼠dna聚合酶β序列(seq id no:13)的氨基酸1至140、1至120、1至100或1至87内的区域。在一些实例中,berap是dna聚合酶β(pb)或其变体的人dna结合或裂解酶结构域。在一些实例中,berap是dna聚合酶β(pb)或其变体的大鼠dna结合或裂解酶结构域。在一个实例中,berap是大鼠聚合酶β(rpb)的dna结合或裂解酶结构域,具有seq id no:6的氨基酸序列。在一个实例中,berap是大鼠聚合酶β(rpb)的dna结合或裂解酶结构域,具有seq id no:7的氨基酸序列。在另一个实例中,berap是人聚合酶β(hpb)的dna结合或裂解酶结构域,具有seq id no:8的氨基酸序列。在另一个实例中,berap是人聚合酶β(hpb)的dna结合或裂解酶结构域,具有seq id no:9的氨基酸序列。
[0078]
在本文所公开的融合蛋白或蛋白复合物的一些实例中,berap是dna连接酶ⅲ(lig3)。在一个实例中,berap是大鼠dna连接酶ⅲ(lig3),具有seq id no:10的氨基酸序列。在另一个实例中,berap是人dna连接酶ⅲ(lig3),具有seq id no:11的氨基酸序列。
[0079]
核碱基修饰蛋白(nmp)
[0080]
术语“核碱基修饰蛋白(nmp)”是指能够修饰核碱基(例如腺嘌呤(a)、胞嘧啶(c)、鸟嘌呤(g)、胸腺嘧啶(t)和尿嘧啶(u))的任何蛋白质结构域。修饰可以是核碱基的任何化学或物理变化,并且nmp包括但不限于脱氨酶、核酸酶、切口酶、重组酶、甲基转移酶、甲基化酶、乙酰化酶和乙酰转移酶。
[0081]
在本文所公开的融合蛋白或蛋白复合物的一些实例中,核碱基修饰蛋白(nmp)是胞嘧啶脱氨酶结构域。胞嘧啶脱氨酶结构域是具有脱氨酶活性的胞嘧啶脱氨酶的功能结构域。由于脱氨基发生在胞苷或脱氧胞苷中包含的胞嘧啶核碱基上,因此胞苷脱氨酶也可称为胞嘧啶脱氨酶。在本公开中,术语“胞苷脱氨酶”与“胞嘧啶脱氨酶”可互换使用。例如,将载脂蛋白bmrna编辑复合物(apobec)家族的脱氨酶通常称为胞苷脱氨酶,但它们能够使胞苷或脱氧胞苷中的胞嘧啶脱氨基。因此,apobec胞嘧啶脱氨酶蛋白的脱氨酶结构域也可称为胞嘧啶脱氨酶结构域。因此,在一些实例中,胞苷脱氨酶结构域是载脂蛋白b mrna编辑复合物(apobec)家族脱氨酶的脱氨酶结构域。在一些实例中,apobec家族脱氨酶选自由以下组成的组:apobec1脱氨酶、apobec2脱氨酶、apobec3a脱氨酶、apobec3b脱氨酶、apobec3c脱氨酶、apobec3d脱氨酶、apobec3f脱氨酶、apobec3g脱氨酶、apobec3h脱氨酶及其任何衍生物。在一些实例中,胞苷脱氨酶结构域是活化诱导的胞嘧啶脱氨酶(aid)。在一些实例中,胞苷脱氨酶结构域是海七鳃鳗(petromyzon marinus)的胞苷脱氨酶1(pmcda1)。在一些实例中,胞苷脱氨酶结构域对甲基化c具有更高的活性。在一些实例中,胞苷脱氨酶结构域具有较窄的靶向窗口。
[0082]
尿嘧啶结合蛋白的排除
[0083]
本文所公开的融合蛋白或蛋白复合物不包含尿嘧啶结合蛋白。如本文所用,术语“尿嘧啶结合蛋白”或“ubp”是指能够与尿嘧啶结合的蛋白质。在一些实例中,ubp是尿嘧啶修饰酶、尿嘧啶碱基切除酶或尿嘧啶dna糖基化酶(udg或ung)。因此,虽然尿嘧啶dna糖基化酶被认为参与ber通路,并负责去除脱碱基位点的产生,它不被包括在权利要求1所述的融合蛋白或蛋白复合物(cgbe)中。在不受理论约束的情况下,尿嘧啶结合蛋白(如udg)作为cgbe组分的存在可维持脱碱基位点(通过去除尿嘧啶碱基产生)并阻碍修复脱碱基位点的下游ber通路。本公开的cgbe被设计为促进碱基切除修复(ber)通路,它不包含尿嘧啶结合蛋白。
[0084]
cgbe的结构
[0085]
在本文所公开的融合蛋白或蛋白复合物的一些实例中,dna结合蛋白(dnabp)是切口酶cas蛋白,例如ncas9;碱基切除修复相关蛋白(berap)选自由以下组成的组:xrcc1、dna连接酶ⅲ(lig3)和dna聚合酶β的dna结合或裂解酶结构域;并且核碱基修饰蛋白(nmp)是载脂蛋白bmrna编辑复合物(apobec)家族脱氨酶的脱氨酶结构域。在一些实例中,dna结合蛋白(dnabp)是切口酶cas9(ncas9);碱基切除修复相关蛋白(berap)是xrcc1;且核碱基修饰蛋白(nmp)是载脂蛋白b-mrna编辑复合物(apobec)家族脱氨酶的脱氨酶结构域。在一些实例中,dna结合蛋白(dnabp)是切口酶cas9(ncas9);碱基切除修复相关蛋白(berap)是dna聚合酶β的dna结合或裂解酶结构域;其中所述核碱基修饰蛋白(nmp)是载脂蛋白b mrna编辑复合物(apobec)家族脱氨酶的脱氨酶结构域。在一些实例中,dna结合蛋白(dnabp)是切口酶cas9(ncas9);碱基切除修复相关蛋白(berap)是dna连接酶ⅲ(lig3);并且核碱基修饰蛋白(nmp)是载脂蛋白b mrna编辑复合物(apobec)家族脱氨酶的脱氨酶结构域。
[0086]
本文所公开的融合蛋白的不同结构或方向是可能的。在本文所公开的融合蛋白的一些实例中,融合蛋白内dnabp、nmp和berap的方向选自由以下组成的组:[nmp]-[dnabp]-[berap]、[nmp]-[berap]-[dnabp]和[berap]-[nmp]-[dnabp];其中“]-[”的每个实例包含可选的接头。在一个实例中,融合蛋白内dnabp、nmp和berap的方向是[nmp]-[dnabp]-[berap]。在一个实例中,融合蛋白内dnabp、nmp和berap的方向是[nmp]-[dnabp]-[berap]。
[0087]
如本文所用,术语“接头”是指连接两个分子或部分的键(例如共价键)、化学基团或分子,例如融合蛋白的两个结构域,例如,例如核酸酶活性缺失的cas9结构域和核酸编辑结构域(例如,腺苷脱氨酶)。在一些实施方案中,接头连接rna可编程核酸酶的grna结合结构域(包括cas9核酸酶结构域)和核酸编辑蛋白的催化结构域。在一些实施方案中,接头连接dcas9和核酸编辑蛋白。典型地,接头位于两个基团、分子或其他部分之间,或位于其两侧,并通过共价键相互连接,从而连接两者。在一些实施方案中,接头是氨基酸或多个氨基酸(例如肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。在一些实施方案中,接头的长度为5至100个氨基酸,例如,长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至150或150至200个氨基酸。也考虑了更长或更短的接头。在一些实施方案中,接头包含氨基酸序列sgsetpgtsesatpes(seq id no:101),其也可称为xten接头。在一些实施方案中,接头包含氨基酸序列sggs(seq id no:102)。在一些实施方案中,接头包含sggsgggs(seq id no:103)、ggggs(seq id no:104)、g、eaaak(seq id no:105)、ggs、
no:59、seq id no:60、seq id no:61、seq id no:62、seq id no:63、seq id no:64、seq id no:65、seq id no:66、seq id no:67、seq id no:68、seq id no:69、seq id no:70、seq id no:71和seq id no:72。在一个实例中,本文所公开的融合蛋白具有seq id no:44的氨基酸序列。在另一个实例中,本文所公开的融合蛋白具有seq id no:48的氨基酸序列。在另一个实例中,本文所公开的融合蛋白具有seq id no:69的氨基酸序列。在另一个实例中,本文所公开的融合蛋白具有seq id no:70的氨基酸序列。
[0107]
在另一方面,本公开提供蛋白质-核酸复合物,其包含核酸分子和以下任一个:
[0108]
本文所公开的融合蛋白或蛋白复合物,
[0109]
本文所公开的融合蛋白;和
[0110]
本文所公开的蛋白复合物。
[0111]
在本文所公开的蛋白质-核酸复合物的一个实例中,核酸分子是rna。在一些实例中,rna是向导rna(grna),或更具体地是单一向导rna(sgrna)。在一些实例中,本文所公开的单向导rna(sgrna)包括选自由以下组成的组的序列:seq id no:14、seq id no:15、seq id no:16、seq id no:17、seq id no:18、seq id no:19、seq id no:20、seq id no:21、seq id no:22、seq id no:23、seq id no:24、seq id no:25、seq id no:26、seq id no:27、seq id no:28、seq id no:29、seq id no:30、seq id no:31、seq id no:32、seq id no:33、seq id no:34、seq id no:35、seq id no:36、seq id no:37、seq id no:38、seq id no:39、seq id no:40和seq id no:41。
[0112]
如本文所用,术语“蛋白质-核酸复合物”是指复合物单元,其是通过相互作用(包括蛋白质和核酸之间的相互作用)形成的至少一种蛋白质和至少一种核酸的组合。典型地,“蛋白质-核酸复合物”是通过(但不一定)蛋白质和核酸通过非共价亲和力结合形成的。在一些实例中,基因编辑复合物是蛋白质-核酸复合物,例如核糖核蛋白(rnp)。rnp的非限制性实例是包括cas蛋白和grna的crispr-cas rnp。
[0113]
在本文所公开的蛋白质-核酸复合物的一个实例中,核酸分子包括与表2中列出的靶序列的任何一个约80%、90%或95%相同或反向互补的序列。在一些实例中,核酸分子包括与表2中列出的靶序列的任何一个相同或反向互补的序列。
[0114]
表2.用于实现疾病相关基因中c到g转化的示例性向导rna的靶原间隔序列。靶向c带下划线。pam以粗体显示。
[0115]
[0116][0117]
在另一方面,本公开提供在细胞中用鸟嘌呤取代dna链上的胞嘧啶的方法,所述方法包括将本文所公开的融合蛋白或蛋白复合物、本文所公开的融合体、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物导入细胞。
[0118]
在一些实例中,细胞是真核细胞。在一些实例中,细胞是动物细胞。在一些具体实例中,细胞是人类细胞。在一些实例中,该方法在体内或体外进行。
[0119]
在一些实例中,berap和nmp与靶dna分子的同一条链相互作用。
[0120]
在又一方面,本公开提供包含本文所公开的多核苷酸的载体。
[0121]
在另一方面,本公开提供包含本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物的试剂盒。
[0122]
在另一方面,本公开提供包含本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物的细胞。
[0123]
在另一方面,本公开提供了包含一个或更多个编码本文所公开的融合蛋白或蛋白
复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白质-核酸复合物的核酸分子的细胞。
[0124]
在另一方面,本公开提供了治疗患有或疑似患有疾病或病症的受试者的方法,其包括向受试者施用本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白-核酸复合物、本文所公开的药物组合物、本文所公开的多核苷酸或本文所公开的载体。在一个实例中,疾病或病症包含一个或更多个c到g(c》g)突变。在另一个实例中,疾病或病症包含一个或更多个g到c(g》c)突变。在另一个实例中,疾病或病症包含一个或更多个c》g和g》c突变。在一个实例中,疾病或病症包括但不限于https://www.ncbi.nlm.nih.gov/clinvar/?term=c%3eg或https://www.ncbi.nlm.nih.gov/clinvar/?term=g%3ec中列出的疾病的任何一个,并基于对以下临床意义的选择进行筛选:致病性、风险因素或可能的致病性。在一个实例中,疾病或病症选自由以下组成的组:皮肤纤维化、膀胱癌、肝癌、肌无力综合征、脊椎骨骺发育不良、帕金森病、耳聋、血液病症和施奈德结晶状角膜营养不良病。
[0125]
在另一方面,本公开提供了本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白-核酸复合物、本文所公开的药物组合物、本文所公开的多核苷酸或本文所公开的载体,用于治疗患有或疑似患有疾病或病症的受试者。在一个实例中,疾病或病症包含一个或更多个c到g(c》g)突变。在另一个实例中,疾病或病症包含一个或更多个g到c(g》c)突变。在另一个实例中,疾病或病症包含一个或更多个c》g和g》c突变。在一个实例中,疾病或病症包括但不限于https://www.ncbi.nlm.nih.gov/clinvar/?term=c%3eg或https://www.ncbi.nlm.nih.gov/clinvar/?term=g%3ec中列出的疾病的任一个,并基于对以下临床意义的选择进行筛选:致病性、风险因素或可能的致病性。在一个实例中,疾病或病症选自由以下组成的组:皮肤纤维化、膀胱癌、肝癌、肌无力综合征、脊椎骨骺发育不良、帕金森病、耳聋、血液病症和施奈德结晶状角膜营养不良病。
[0126]
在另一方面,本公开提供制备用于治疗患有或疑似患有疾病或病症的受试者的药物的本文所公开的融合蛋白或蛋白复合物、本文所公开的融合蛋白、本文所公开的蛋白复合物或本文所公开的蛋白-核酸复合物、本文所公开的药物组合物、本文所公开的多核苷酸或本文所公开的载体。在一个实例中,疾病或病症包含一个或更多个c到g(c》g)突变。在另一个实例中,疾病或病症包含一个或更多个g到c(g》c)突变。在另一个实例中,疾病或病症包含一个或更多个c》g和g》c突变。在一个实例中,疾病或病症包括但不限于https://www.ncbi.nlm.nih.gov/clinvar/?term=c%3eg或https://www.ncbi.nlm.nih.gov/clinvar/?term=g%3ec中列出的疾病的任何一个,并基于对以下临床意义的选择进行筛选:致病性、风险因素或可能的致病性。在一个实例中,疾病或病症选自由以下组成的组:皮肤纤维化、膀胱癌、肝癌、肌无力综合征、脊椎骨骺发育不良、帕金森病、耳聋、血液病症和施奈德结晶状角膜营养不良病。
[0127]
在另一方面,本公开提供了用于编辑双链dna序列的靶核碱基对的方法,该方法包括:
[0128]
a.将双链dna序列的靶区域与包含核碱基编辑器和向导核酸的复合物接触,其中所述靶区域包含靶核碱基对;
[0129]
b.诱导所述靶区域的链分离;
[0130]
c.将所述靶核碱基对在靶区域的单链中的第一核碱基转换为第二核碱基;
[0131]
d.从双链dna序列中切除所述第二个核碱基以产生脱碱基位点;和
[0132]
e.促进碱基切除修复(ber)通路以修复脱碱基位点,在脱碱基位点产生第三核碱基,其中所述第三个核碱基不同于所述第一核碱基。
[0133]
在一个实例中,本文所公开的方法进一步包括转化与第三核碱基互补的第四核碱基,从而产生预期的编辑碱基对。
[0134]
在本文所公开方法的一个实例中,产生预期的编辑碱基对的效率为至少5%、至少10%、至少15%、至少20%、至少25%、至少35%、至少40%、至少45%或至少50%。
[0135]
在本文所公开方法的一个实例中,预期的编辑碱基对与非预期的编辑碱基对的比例为至少2:1、至少4:1、至少5:1、至少6:1、至少7:1、至少8:1、至少9:1或至少10:1。
[0136]
在本文所公开方法的一个实例中,第一核碱基是胞嘧啶。在本文所公开方法的一个实例中,第二核碱基是尿嘧啶。在本文所公开方法的一个实例中,第三核碱基是鸟嘌呤。在本文所公开方法的一个实例中,第四核碱基是胞嘧啶。
[0137]
在本文所公开方法的一些实例中,核碱基编辑器包含切口酶活性。
[0138]
在本文所公开方法的一些实例中,靶区域是5至40个、5至30个、5至20个或20个氨基酸的长度。
[0139]
在本文所公开方法的一些实例中,预期的编辑碱基对位于cgbe结合位点(原间隔序列)内或其附近。在一些实例中,预期的编辑碱基对位于cbge结合位点上游、之内或下游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。在一些实例中,预期的编辑碱基对位于原间隔序列临近基序(pam)位点的上游。在一些实例中,预期的编辑碱基对位于pam位点上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。如本文所用,原间隔序列临近基序(或简称pam)是短dna序列(通常长度为2至6个碱基对),其在被crispr系统如crispr-cas9(其具有ngg的pam位点序列)靶向切割的dna区域之后。在一些实例中,预期的编辑碱基对位于pam位点上游的14、15、或16或17个核苷酸处。除非另有明确说明,否则术语“pam位点上游”描述非互补链(未被向导rna结合的链)上pam位点5’方向的核苷酸/碱基对。
[0140]
在本文所公开方法的一些实例中,预期的编辑碱基对位于原间隔序列临近基序(pam)位点的下游。在一些实例中,预期的编辑碱基对位于pam位点下游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。如本文所用,原间隔序列临近基序(或简称pam)是短dna序列(通常长度为2至6个碱基对),其在被crispr系统如crispr-cas9(其具有ngg的pam位点序列)靶向切割的dna区域之后。在一些实例中,预期的编辑碱基对位于pam位点下游的14、15、16、17、18、19或20个核苷酸处。除非另有明确说明,否则术语“pam位点下游”描述非互补链(未被向导rna结合的链)上pam位点3’方向的核苷酸/碱基对。
[0141]
在本文所公开方法的一些实例中,核碱基编辑器包含接头。在一些实例中,接头是1至25个、5至20个、10至15个氨基酸的长度。
[0142]
在本文所公开方法的一些实例中,靶区域包括靶窗口,其中所述靶窗口包含靶核碱基对。如本文所用,靶区域是双链dna序列上融合蛋白或蛋白复合物(cgbe)被设计用来识别或结合的区域。在实例中,其中所述dna结合蛋白由向导rna引导(对于cas家族蛋白是这
种情况),靶区域可以是被向导rna结合的区域。如本文所用,靶窗口是指靶区域内的序列窗口,该窗口经受cbge的有效c到g编辑。对于最佳的c到g编辑,靶“c”理想地位于靶窗口内。在一些实例中,靶窗口是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的长度。在一些实例中,靶窗口是3、4、5、6或7个核苷酸的长度。在一些实例中,靶窗口包含pam位点上游的第14、15、16和17个核苷酸。在一些实例中,靶窗口是pam位点上游的第15个核苷酸。
[0143]
在本文所公开方法的一些实例中,核碱基编辑器包括本文公开的融合蛋白或蛋白复合物、本文公开的融合蛋白或本文公开的蛋白复合物。
[0144]
在本文所公开方法的一些实例中,靶核碱基对的第一核碱基是胞嘧啶,并且其中所述胞嘧啶位于由wcw、acc和gct组成的组中的任一个表征的dna基序中;其中“c”是所述胞嘧啶,w表示腺嘌呤(a)或胸腺嘧啶(t)。
[0145]
在一些实例中,本文所公开的方法在体内或体外进行。
[0146]
表3.序列列表
[0147]
[0148]
[0149]
[0150]
[0151]
[0152]
[0153][0154]
除了上表之外,本文公开的特异性融合蛋白(cgbe)的完整氨基酸序列在下表4中提供:
[0155]
[0156]
[0157]
[0158]
[0159]
[0160]
[0161]
[0162]
[0163]
[0164]
[0165]
[0166]
[0167]
[0168]
[0169]
[0170]
[0171]
[0172]
[0173]
[0174]
[0175]
[0176]
[0177]
[0178]
[0179]
[0180]
[0181]
[0182]
[0183][0184]
本文示例性描述的发明可以适当地在没有本文未具体公开的任一要素或多个要素、任一限制条件或多个限制条件的情况下实施。因此,例如,术语“包括/含(comprising)”、“包括(including)”、“包含(containing)”等应扩展而无限制地解读。此外,本文中使用的术语和表达用作描述性而非限制性的术语,并且在使用这些术语和表达时并不意图排除所示出和描述的特征或其部分的任何等同物,但是应当认识到,在本发明要求保护的范围内,各种修改是可能的。因此,应当理解,尽管已经通过优选实例和可选特征具体公开了本发明,但是本领域技术人员可以对本文在文中公开和体现的发明进行修改和改变,并且这些修改和改变被认为在本发明的范围内。
[0185]
如本技术中所使用的,单数形式“一个/种(a,an)”和“所述/该(the)”包括复数指代对象,除非上下文另有明确规定。例如,术语“遗传标志物”包括多个遗传标志物,包括其混合物和组合。
[0186]
如本文使用的,术语“约”在制剂成分浓度的上下文中通常是指规定值的
±
5%,更典型地是规定值的
±
4%,更典型地是规定值的
±
3%,更典型地是规定值的
±
2%,甚至更典型地是规定值的
±
1%,和甚至更典型地是规定值的
±
0.5%。
[0187]
遍布整个本公开,某些实例可以以范围形式公开。应当理解,范围形式的描述仅仅是为了方便和简洁,且不应当被解释为对所公开范围的僵化限制。因此,应该认为对范围的描述已经具体公开了所有可能的子范围以及该范围内的各个数值。例如,应认为对范围例如从1至6的描述已具体公开了子范围,例如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等,以及该范围内的单个数字,例如1、2、3、4、5和6。无论范围有多广,这都适用。
[0188]
本文还可以广泛和一般地描述某些实例。属于一般公开的每个较窄的物种和亚属分组也形成本公开的一部分。这包括对实例的一般性描述,伴随将任何主题从该类中移除的附带条件或否定性限制条件,而不管所去除的材料是否在本文中具体叙述。
[0189]
其他实例在以下权利要求书和非限制性实例内。另外,在根据马库什组描述本发明的特征或方面的情况下,本领域技术人员将认识到,本发明也因此在马库什组的任何单个成员或成员的亚组的角度来描述。
[0190]
实例
[0191]
本技术中公开的c
·
g到g
·
c碱基编辑器(cgbe)利用了细胞的固有碱基切除修复(ber)途径。在参与ber途径的蛋白质中,本发明的发明人深入地表征了三个主要参与者,它们是dna聚合酶β、dna连接酶iii和xrcc1。
[0192]
因为cas9融合体的相对方向可能影响融合体的活性,所以测试了几种形式的cgbe
c-3’序列的基因组位点,使得可将grna设计为c位于每个奇数位置或每个偶数位置(图2c)。在位置1和位置9之间评估be3的c:g到t:a的编辑率,其中在位置4和位置8之间发现了更高的编辑效率。对于acx,rpb(8kd)和acx,rxrcc1,在从位置2到位置10的9核苷酸窗口中观察到c:g到g:c编辑。然而,只有在位置5和位置6是主要且可观察的结果,即c:g到g:c编辑。
[0198]
认识到简单去除ugi可能以c:g到t:a编辑为代价增加c:g到g:c编辑,因此量化了将rxrcc1或rpb(8kd)融合到rapobec-ncas9的效果。在使用各种grna的28次独立处理中(图3和图9),be3实现了平均4.4%的c:g到g:c编辑。从be3中去除ugi将平均c:g到g:c编辑提高到11.5%,但使不希望的插入缺失副产物增加到5.0%(图7b)。融合rpb(8kd)未提供附加的显著效果(p》0.05)。然而,融合rxrcc1进一步将平均c:g到g:c编辑水平提高到15.4%(p=0.01),并降低了不希望的插入缺失率(3.4%),这可能由于从无碱基位点到修复碱基的平衡转移。同时,主要副产物c:g到t:a编辑保持在6%到9%之间。结果表明,从be3中去除ugi促进了c:g到g:c编辑,但增加了副产物;rxrcc1融合进一步增加了c:g到g:c编辑并减少了副产物。因此,将rapobec-ncas9-rxrcc1鉴定为优选的cgbe实施方案,其在人类细胞中以15.4
±
7%的效率、68
±
14%的纯度、在三核苷酸靶窗口和wcw、acc和gct靶序列背景内实现c:g到g:c编辑。
[0199]
与crispr-cas系统一样,据报道碱基编辑器显示出潜在的dna和rna脱靶效应。由于cgbe与be3具有相同的apobec-ncas9组分,因此使用5种grna在29个脱靶位点同时评估了cgbe和be3的活性。cgbe和be3在相同的15个位置诱导》0.1%的c:g到d:h编辑(d是a、g或t;h是a、c或t)。仅在这15个位置中的2个位置,cgbe诱导的脱靶编辑高于be3;在其余13个位点,cgbe显示较低的脱靶活性。虽然脱靶活性的减少可归因于脱靶位点处较低的c:g到t:a编辑,但在相同的脱靶位点c:g到g:c编辑增加(图10)。未发现cgbe诱导脱靶编辑但be3不诱导的位点。这些结果表明,在针对cas9和be3结构鉴定的脱靶位点,cgbe表现出较低的脱靶活性。然而,在cgbe的直接转变(direct translation)之前,存在潜在的巨大的与序列无关的dna和rna脱靶效应,这需要在进一步的工作中进行详细分析。
[0200]
be3的一个局限性是在某些细胞类型中效率低。使用be3,在h9干细胞中在五个基因组位点观察到低c:g到t:a编辑(最大1.2%c:g到t:a编辑在hek4处;图20b)。当并行评价时,cgbe在h9干细胞中表现出相似的低c:g到g:c编辑效率。低编辑可能是由于干细胞中的染色体异常和不同的甲基化谱。已知,在未分化的干细胞中,基因组dna倾向于高度甲基化。虽然甲基化不导致序列改变,但这种表观遗传修饰可能通过抑制脱氨酶活性降低编辑效率。因此,apobec对甲基化的c失去活性。在未进行c脱氨基的情况下,则无法使用该apobec启动碱基编辑。由于apobec在对甲基化的胞苷脱氨基方面效率低下,可能需要进一步的apobec工程化和密码子优化来提高cgbe在干细胞中的效率。相反,在ehap细胞系中,使用cgbe(acx,rxrcc1)观察到中等水平的编辑,其在rnf2和vegfa位点诱导高达8.5%的c:g到g:c编辑,而be3诱导0.9%的c:g到t:a编辑(图17b)。ehap的数据表明,cgbe在某些细胞类型中可能是适度有效的,即使不同的碱基编辑技术不是这样。在htb9细胞(一种膀胱癌细胞系)中,be3和cgbe都可以在许多位点有效地诱导所需的突变(使用cgbe的c:g到g:c编辑高达17%,使用be3的c:g到t:a编辑高达18%;图14b)。acx,rpb(8kd)在htb9细胞中的表现始终优于acx,rxrcc1,表明根据细胞类型可以采用不同的cgbe结构以获得最佳性能。已经证明,cgbe在多种细胞类型中起作用,并且绝对效率部分取决于细胞类型和状态、与以前的碱
基编辑器共有的特征。
[0201]
然后开发了靶向特定窗口内的胞嘧啶并把将其转化为鸟嘌呤作为主要编辑产物的cgbe。在分开的工作中,liu和koblan通过将udg(ung)、udgx和聚合酶与rapobec-ncas9融合设计了cgbe候选物(图11)。liu和koblan描述的cgbe和本文公开的cgbe都通过rapobec诱导c到u的变化,并设想将该u进一步转化为脱碱基位点;但是所涉及的策略和该脱碱基位点的下游分辨率明显不同。在liu和koblan的工作中,将ung融合到rapobec-ncas9通过进一步增加脱碱基位点的产生来增加c:g到g:c编辑量(图12)。相比之下,本公开集中于操纵脱碱基位点创建下游的dna修复,推理认为apobec-ncas9已经能够产生大量的c:g到g:c编辑(图3a,be3(无ugi))。
[0202]
koblan和liu的工作旨在诱导碱基切除,并在靶向的脱碱基位点进行跨损伤聚合(图12)。这种被提出的机制不太可能是本公开的cgbe的情况。相反,本公开的cgbe的机制是在cas9诱导的r-环中创建脱碱基位点后,细胞ung被ape1取代,之后xrcc1募集各种ber成分独立于未编辑的相反链来修复脱碱基位点,产生鸟嘌呤作为主要产物。随后的dna修复将g:g错配转换为g:c。这种假设与以下一致:a)cas9在其靶链上的紧密结合,这使得其他酶不易接近该链;b)脱氨基链作为单链r-环的可及性;c)udg和udgx对c:g到g:c编辑的不利影响(图11),这表明udg结合位点或脱碱基位点的持续存在可能阻碍c:g到g:c的反应;和d)由本公开所述的cgbe实现的c:g到g:c编辑,cgbe具有无内在聚合酶活性但却是脱碱基位点修复的关键驱动因子的结构域。随着进一步机制研究和开发的继续,cgbe扩展了精确基因组编辑工具套件的增加,包括cbe、abe、cgbe和初级编辑器(图11),共同实现了用于研究、生物询问和疾病纠正的精确高效的dna工程化。
[0203]
实验部分
[0204]
构建体和分子克隆
[0205]
be3(addgene质粒#73021)、初级编辑器2(addgene质粒#132775)、pegrna-hek3_ctt_ins(addgene质粒#132778)质粒被用于本公开。be3质粒是哺乳动物表达质粒,be3由cmv启动子驱动。还使用了hxrcc1(ptxg-hxrcc1)和hlig3(pgex4t-hlig3)(分别为addgene质粒#52283和#81055)。通过钝端连接将突变r400q引入hxrcc1,将n628k引入hlig3。简而言之,使用q5热启动高保真2x master mix(neb,m0494)通过pcr扩增含有hxrcc1或hlig3的质粒。然后在37℃用dpni(neb,r0176)和t4多核苷酸激酶(neb,m0201)处理pcr产物30分钟,在65℃灭活20分钟,然后用t4 dna连接酶(neb,m0202;室温2小时)连接。然后将连接的产物转化到化学感受态5-α大肠杆菌(neb,c2987)中。获得rxrcc1、rlig3、hpb和rpb作为人类密码子优化的从头合成的基因片段(twist biosciences)。本研究中使用的所有其他寡核苷酸均为从头合成(idt dna)。为了将ber蛋白与rapobec-ncas9融合,使用q5热启动高保真2x master mix产生ber蛋白的gibson片段作为gibson插入片段。在凝胶上检查pcr产物后,将gibson插入片段和载体与nebuilder hifi dna assembly master mix(neb,e2621)在50℃孵育1小时。然后将gibson反应物转化到化学感受态大肠杆菌中。
[0206]
对所有组装的质粒进行sanger测序以进行序列验证,并使用pureyield质粒小提系统(promega,a1223)或plasmid plus maxi kit(qiagen,12965)制备。
[0207]
细胞培养、转染和基因组dna收获
[0208]
在37℃和5%co2下,将hek293aav细胞(agilent,240073)维持在具有glutamax和
丙酮酸钠(thermo fisher,10569-010)并补充有10%hi fbs(thermo fisher)的dmem中。在37℃和5%co2下,将htb-9细胞(atcc,5637)维持在具有l-谷氨酰胺和碳酸氢钠(sigma,r8758)并补充有10%hi fbs(thermo fisher)和1%mem非必需氨基酸溶液(thermo fisher,11140050)的rpmi-1640中。htb9和hek细胞都通过脂质转染法转染。在细胞达到约80%汇合后,在用tryple express(thermo fisher,12604)处理之前,用ph 7.2的pbs(thermo fisher,20012-027)洗涤细胞。转染前一天,将30,000个细胞加入48孔板的每个孔中。对于每个孔,根据制造商的方案,使用lipofectamine 3000(invitrogen,l3000015)将750ng碱基编辑器质粒、250ng grna质粒和20ng gfp质粒转染到这些细胞中。转染后24小时,用新鲜培养基替换培养基。对于初级编辑,使用750ng pe质粒、250ng pegrna和83ng sgrna进行转染。转染后72小时,去除培养基;用50μl ph 7.2的pbs洗涤细胞,并根据制造商的方案使用每孔50μl的quick extract dna提取液(lucigen,qe09050)提取基因组dna。所有样本量均表示生物重复。
[0209]
在37℃和5%co2下,将jurkat细胞(atcc,tib-152,克隆e6-1)维持在具有l-谷氨酰胺和碳酸氢钠(sigma,r8758)并补充有10%hi fbs(thermo fisher)和1%mem非必需氨基酸溶液(thermo fisher,11140050)的rpmi-1640中。使用se细胞系4d核转染x试剂盒s(lonza)和4d x单元上的程序cl-120,用750ng碱基编辑器和250ng grna表达质粒核转染200,000个细胞。
[0210]
在37℃和5%co2下,将hepg2细胞维持在补充有10%fbs(thermo fisher)和1%neaa(thermo fisher,11140050)的imdm(thermo fisher,31980-030)中。使用sf细胞系4d核转染x试剂盒s(lonza)和4d x单元上的程序eh-100,用750ng碱基编辑器和250ng grna表达质粒核转染200,000个细胞。
[0211]
在37℃和5%co2下,将ehap细胞(horizon discovery,c669)维持在补充有10%fbs的imdm(thermo fisher,31980-030)中。使用se细胞系4d核转染x试剂盒s(lonza)和4d x单元上的程序ds-138,用750ng碱基编辑器和250ng grna表达质粒核转染200,000个细胞。
[0212]
将h9干细胞(wicell,wa09)维持在mtesr1中(stemcell technology,85850)。使用p3 primary cell kit(lonza,v4xp-3024)和4d x单元上的程序hes h9程序,用1500ng碱基编辑器和500ng grna表达质粒核转染200,000个细胞。
[0213]
基因组dna测序
[0214]
通过两次pcr扩增——第一次pcr扩增目的区域,而第二次pcr添加适当的测序条形码,制备感兴趣的位点以便高通量测序。第一次pcr以常用方法进行。用于第二次pcr的引物基于illumina衔接子。然后将第二次pcr的扩增子汇集起来并凝胶提取(promega,a9282)以制备最终文库,通过qubit荧光计(thermo fisher)对其定量,并根据制造商的方案在illuminaiseq 100上测序。使用crispresso2分析生成的fastq文件。所有样本量均表示生物重复。
[0215]
在matlab上进行统计分析。weblogo是使用weblogo 3创建的。
[0216]
参考文献
[0217]
1.komor,a.c.,kim,y.b.,packer,m.s.,zuris,j.a.,liu,d.r.programmable editing of a target base in genomic dna without double-stranded dna cleavage.nature 533,420-424(2016).
[0218]
2.nishida,k.et al.targeted nucleotide editing using hybrid prokaryotic and vertebrate adaptive immune systems.science 353,aaf8729(2016).
[0219]
3.gaudelli,n.m.et al.programmable base editing of a*t to g*c in genomic dna without dna cleavage.nature 551,464-471(2017).
[0220]
4.komor,a.c.et al.improved base excision repair inhibition and bacteriophage mu gam protein yields c:g-to-t:a base editors with higher efficiency and product purity.sci.adv.3,eaao4774(2017).
[0221]
5.anzalone,a.v.et al.search-and-replace genome editing without double-strand breaks or donor dna.nature 576,149-157(2019).
[0222]
6.kurt,i.c.et al.crispr c-to-g base editors for inducing targeted dna transversions in human cells.nat.biotechnol.(2020).https://doi.org/10.1038/s41587-020-0609-x
[0223]
7.zhao,d.et al.new base editors change c to a in bacteria and c to g in mammalian cells.nat.biotechnol.(2020).https://doi.org/10.1038/s41587-020-0592-2
[0224]
8.liu,d.r.,koblan,l.w.cytosine to guanine base editor.world intellectual property organization(2018).
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献