用于高效且特异性基因组编辑的位点-特异性重组酶的融合物

2022-12-02 19:08:03 来源：中国专利 TAG：

1.本发明总体上涉及基因组编辑领域，并提供了dna重组酶，其通过重组酶单体的融合高效且特异性地重组基因组靶序列。更具体地说，本发明提供了一种产生用于高效且特异性基因组编辑的融合蛋白的方法，所述融合蛋白包含重组酶的复合物，该复合物包含至少第一重组酶、第二重组酶和至少一个接头，其中所述第一重组酶和所述第二重组酶特异性识别重组酶的上游靶位点和/或下游靶位点的第一半位点和第二半位点；其中所述第一重组酶和所述第二重组酶通过接头相互连接；并且其中所述接头包含或由寡肽组成。本发明还涉及用该方法产生的融合蛋白。本发明还公开了设计-重组酶(designer-recombinases)，其催化在人x染色体上int1h区域中存在的dna序列的倒位。本发明还涉及编码所述dna重组酶和融合蛋白的核酸分子，以及所述融合蛋白、dna重组酶和核酸分子在药物组合物中的用途。
2.发明背景
3.基因组工程正成为生物医学研究中日益重要的技术。目前在基因编辑领域的主要方法是核酸酶介导的在感兴趣位点引入双链断裂(dsb)，其随后通过细胞修复途径进行校正。可编程核酸酶有四种类型，根据它们的靶dna序列的识别方式可分为两组。大范围核酸酶、锌指核酸酶(zfn)和转录激活因子样效应物核酸酶(talen)使用蛋白质-dna相互作用将核酸酶引导至特定位点，而成簇的、规律间隔的、短回文的重复相关(crispr)内切酶直接使用rna-dna相互作用将核酸酶引导至特定位点(caroll，2014年；wang等人，2017年)。可编程核酸酶是用于治疗应用的候选物，它们中的数种已经处于临床试验中(tebas等人，2014年；qasim等人，2015年；cyranoski，2016年)。
4.然而，可编程核酸酶的主要挑战之一是不可预测的序列重组风险。引入的dsbs主要使用非同源末端接合(nhej)或同源定向修复(hdr)由细胞修复。hdr的修复是精确的并保持基因组的稳定性，因为序列是从第二个等位基因或与靶点匹配的供体序列复制的。然而，hdr主要在dna复制过程中有活性，并且在大多数细胞中nhej事件多于hdr事件。nhej是一种容易出错的修复机制，其导致修复的dna片段插入和缺失(indels)。这可能由于基因序列的改变而导致不良事件(caroll，2014年；cox等人，2015年；kosicki等人，2018年)。
5.广泛用于基因组工程的替代工具包括来自酪氨酸重组酶家族中的位点特异性重组酶(ssr)。与可编程核酸酶相比，酪氨酸ssr具有相当大的优势，因为它们不依赖于细胞dna修复途径，因为它们在没有任何辅助因子的情况下进行完整的重组反应(meinke等人，2016年)。这导致了高度特异性的、可预测的和精确的基因组编辑事件，这使得它们对治疗应用具有吸引力。
6.最常用的ssr之一是来自大肠杆菌噬菌体p1的酪氨酸重组酶cre，其识别34bp对称的loxp位点，其由两个13bp的回文序列组成，其侧翼为8bp的间隔区(图1)。
7.ssr进行的重组反应是一个多步骤的过程。首先，四个单一重组酶分子与loxp的每个回文半位点结合，形成一个有活性的重组突触(图2a)。在这个阶段，每个二聚体的一个重
组酶被激活，并执行dna的切割。所述切割是由于cre的324位的酪氨酸对loxp位点间隔区的易切割磷酸的亲核攻击而发生的。这导致3
’‑
磷酸酪氨酸中间体的形成以及5
’‑
羟基的释放。这一步之后是由释放的5
’‑
羟基攻击另一个3
’‑
磷酸-酪氨酸键引起的链交换，并形成霍利迪连接体(holiday junction)中间体。接下来，霍利迪连接体被异构化，并且分子的结构发生变化，活性的cre分子对变得无活性，并且先前无活性的cre分子变得激活。同样的切割和交换过程随后与第二组链重复(meinke等人，2016年)。
8.重组的结果取决于间隔区的取向。如果两个loxp位点的间隔(spacer)序列取向相同，则重组导致dna片段的切除或整合(图2b)。如果间隔区是反向的，重组会导致侧翼dna序列的倒位(meinke等人，2016年)。
9.为了使用cre重组酶系统，通常通过基因组工程在所需的基因组位点处引入loxp位点。虽然这种方法已经成功地用于动物模型中的条件诱变，以研究基因功能和建立人类疾病基础上的遗传事件模型(albanese等人，2002年；justice等人，2011年)，但它极大地限制了其在人类中的应用。为了克服这一限制，已经开发了改变重组酶使其重组人工dna序列的技术，例如，从受感染的细胞中切除hiv前病毒(buchholz和stewart，2001年；santoro和schultz，2002年；sarkar等人，2007年；karpinski等人，2016年)。靶位点的回文性质在很大程度上限制了基因组中可以重组的可能靶位点的数量。然而，先前的工作已经表明，可以产生单个ssrs，这些ssrs特异性地重组非对称靶位点(sarkar等人，2007年；karpinski等人，2016年)。重组非对称靶位点的另一种可能性是构建异种特异性重组酶系统，其中两个不同的重组酶单体结合到各自的半位点，并且两种酶协同重组最终的非对称靶位点(图3)(saraf-levy等人，2006年)。最近已经证明，这种系统确实可以用于人类细胞中的高级基因组编辑(lansing等人，2020年)。因此，这些系统可以大大扩展ssr系统的效用。
10.然而，异二聚体的单个重组酶也可以在对称位点上形成具有活性的同源二聚体。因此，使用两个重组酶而不是一个重组酶具有产生更多脱靶事件的潜在风险，因为除了假定的非对称异二聚体脱靶之外，异二聚体的每个重组酶都有其自己的对称脱靶位点。为了将异二聚体用于治疗应用，应确保该系统的高效性和特异性。其中一个选择是对异二聚体进行修饰，以防止单个重组酶作为同源二聚体进行重组。在这种情况下，对称位点上的活性可能被消除或限制。因此，产生使重组酶异二聚体专一性的系统是非常有意义的。
11.因此，发展了数种方法来提高cre的特异性，包括产生具有“疏水性大小开关”的专一性异二聚体(gelato等人，2008年)、具有选择性不稳定性(zhang等人，2015年)或具有不稳定结合协同性(eroshenko和church，2013年)的专一性异源四聚体复合物。然而，这些改变都导致重组活性的显著降低，这可能与治疗应用的高效基因组改变不相容。
12.ssr可能校正的人类疾病之一是血友病a(ha)。ha是一种由编码凝血因子viii(fviii)的f8基因缺陷引起的x连锁单遗传病。该f8基因位于x染色体的长臂(xq28)上。该基因全长186kb，并且由27个外显子组成。
13.fviii主要在肝窦内皮细胞(lsecs)和其他人类内皮细胞中合成(shahani等人，2014年；turner和moake，2015年)。fviii是血液凝固级联的重要组成部分。fviii在血液中与血管性血友病因子结合，并且被凝血酶激活后与血管性血友病因子分离。活化的fviii(fviiia)结合fixa，并且该复合物随后激活fx，导致形成血凝块的连锁反应(dahlback，2000年)。
14.大约5,000名男性中有1人感染ha(graw等人，2005年)。ha的临床严重程度取决于血液中viii因子的残留活性水平，并且其分为三组：轻度(正常水平的5-40％)、中度(1-5％)、重度(《1％)(white等人，2001年)。轻度ha患者只有在严重创伤或手术的情况下才会出现出血。中度感染的个体在轻微创伤后会自发性出血。重度ha的特点是经常自发性出血进入内脏器官、肌肉和关节。反复的血肿常导致被称为血友病性关节病的残疾状态。这种并发症的特点是慢性疼痛、关节损伤和患者生活质量的急剧下降(pandey和mittal，2001年；fischer等人，2005年；melchiorre等人，2017年)。
15.一半以上的ha患者有严重的疾病形式，并且在大多数病例中，它是由于染色体内与f8基因外的同源区域重组引起的基因组倒位(graw等人，2005年)。
16.在重度ha患者(～1-5％)中，第二个最常见的遗传改变是外显子1的倒位。这是由于内含子1和位于f8基因端粒的区域的两个1kb序列(int1h)之间的同源重组引起的(图4)。这些序列位于相反的方向上，距离约为140kb。同源重组导致外显子1的倒位和易位，从而导致f8基因的中断和功能障碍(castaldo等人，2007年；tizzano等人，2003年)。
17.重度ha的标准治疗是替代治疗-给予源自血浆的或重组凝血因子viii浓缩物。然而，由于它们的半衰期很短(8-12小时)，非常频繁的给药(每周2至3次或者甚至每隔一天)是必要的。该程序对患者的生活质量有很大影响(peyvandi等人，2016年)。为了增加重组fviii的半衰期，已经开发了对该蛋白质的数种修饰，例如聚乙二醇化和与igg片段融合，这使得能够获得具有相当疗效的治疗，但半衰期比标准fviii输液长1.5倍(mahlangu等人，2014年；konkle等人，2015年；peyvandi等人，2016年)。半衰期的延长导致给药频率从每周两次减少到每5天一次(carcao，2014年)。
18.除了频繁的静脉注射外，目前治疗的一个巨大挑战是，一些患者(约30％)产生了针对所给药的fviii的抑制性抗体，从而损害了治疗(gouw等人，2013年)。此外，ha的经济负担亦应予以考虑。在欧洲，标准治疗的平均每年直接成本约为20万欧元，而在德国，每个患者的直接成本超过30万欧元(o’hara等人，2017)。因此，只有对没有并发症的ha患者进行预防才是非常昂贵的。因此，开发其他治疗方案甚至是治愈疗法是很重要的。
19.通过抑制抗凝血途径达到止血目的的替代疗法已经被开发出来，并且其中一些如降解抗凝血酶iii mrna的sirna和抑制组织因子通路抑制剂或蛋白c的单克隆抗体目前正处于临床试验的i-iii阶段。这些方法的优点是所有患者都可以使用，无论是否使用fviii抑制剂，以及较低的治疗频率(每周一次)和皮下给药方式。然而，临床研究表明，治疗的剂量必须仔细调整，因为过量用药会增加血栓效应的风险。(peters和harris，2018年)
20.另一种方法是使用fviiia模拟双特异性抗体艾米珠单抗(emicizumab)。这种抗体连接fixa和fx。因此，它基本上模拟了fviii的功能。然而，这种方法缺乏凝血酶切割的调节。因此，它不能被灭活，并且其依赖于凝血级联的其他步骤，也具有血栓效应的高风险(lenting等人，2017年)。
21.ha的单基因特性使该病成为基因治疗的诱人靶点。四种基于腺相关病毒(aav)血清型的转导肝细胞的载体目前正在临床试验中。这种治疗已经显示出对一些病人的改善。然而，该方法的安全性仍有待研究，因为主要副作用之一是肝酶升高(pasi等人，2017年；george等人，2017年；peters和harris，2018年)。此外，由于器官生长过程中细胞增殖导致载体表达的稀释和丢失，aav的非整合性限制了该疗法在儿童中的应用(vandamme等人，
2017年)。
22.上述疗法补偿了缺陷的fviii基因功能，但不能校正致病的突变。使该基因倒位回正常定向将允许fviii在生理条件下稳定表达。重要的是，将fviii水平提高至正常水平的1-5％将大大改善重度ha患者的生活，因为这将大大降低内部自发性出血的风险，而且只有在创伤和手术时才需要给予fviii。
23.jin-soo kim小组使用可编程核酸酶校正了两个导致重度ha的倒位。他们在hek293细胞(lee等人，2012年)中使用zfn成功地将外显子1倒位0.2-0.4％，并且在人类ipsc中使用talen(park等人，2014年)成功地倒位1.4％。使用crispr-cas9技术，在ha患者来源的ipsc中，f8基因外显子1的最有效校正(倒位)6.7％，第1-22外显子的最有效校正(倒位)为3.7％(park等人，2015年)。虽然令人印象深刻，但核酸酶的研究结果限制了治疗效用。可编程核酸酶通过在同源区引入两条双链断裂来进行校正，导致由细胞修复途径制造的侧翼dna片段倒位或缺失。此外，在切割地点也可能发生缺失(indels)。因此，由zfn、talen或crispr-cas9执行的倒位更多的是一个随机事件，而不是一个受控事件。
24.为了解决这一缺点，ssr可以用来校正导致疾病的基因倒位。ssrs是高度特异性的，并且当重组酶的靶位点位于适当的方向时，可以在基因组背景下进行dna序列的倒位，而不依赖于任何辅助因子(yu和bradley，2002年)。因此，本发明的目的是开发一种ssr系统来校正人体细胞中int1h的倒位，并具有较高的有效性和特异性。
25.发明简述
26.因此，本发明的问题是提供dna重组酶，其高效且特异性地重组基因组靶序列。特别是，每个单独的重组酶单体必须高效且特异性地找到和识别其结合位点，这是一个亟待解决的问题。
27.本发明的问题通过提供产生融合蛋白或dna重组酶的方法来解决，所述融合蛋白或dna重组酶用于高效且特异性基因组编辑，特别是用于在细胞中基因组水平上dna序列的重组，最优选用于在细胞中基因组水平上dna序列的倒位，所述融合蛋白或dna重组酶包括重组酶的复合物，所述复合物包括至少第一重组酶、第二重组酶和至少一个接头，其中所述第一重组酶和所述第二重组酶特异性识别重组酶的上游靶位点和/或下游靶位点的第一半位点和第二半位点；其中所述第一重组酶和所述第二重组酶通过接头相互连接；并且其中所述接头包括或由寡肽组成。
28.本发明还涉及没有接头肽的非融合异二聚体dna重组酶，特别是用于重组，最优选用于细胞中基因组水平上的dna序列的倒位。
29.利用本发明，如图19、20和23所示，重组酶单体可以连接成单个多肽，而不会失去重组相应靶位点的能力。鉴于重组反应的已知分子细节(逐步切割、holiday结构形成和异构化)，这是意料不到的。目前的教条是，进行重组反应所必需的4个重组酶分子必须是柔性单体，才能发挥酶复合体的功能。本文表明，通过特异性接头的ssr的融合可以应用于设计-重组酶，这些设计-重组酶进化为重组存在于反向重复序列中的序列，这些序列与导致人类ha的fviii基因的遗传改变有关。出人意料的是，两个异种特异性重组酶与特异性接头的融合阻止了分子重组对称的靶位点，使系统具有专一性。此外，与非连接酶相比，融合蛋白具有较高的活性，并显示出显著提高的特异性。定向分子进化导致了具有所需特征的改进接头序列。
30.本发明还公开了int1h序列(loxf8)中涉及fviii倒位的靶序列，其用于产生设计-重组酶。
31.本发明的问题特别是通过提供一种用于高效且特异性基因组编辑的融合蛋白来解决，该融合蛋白包括重组酶的复合物，该复合物包括至少第一重组酶、第二重组酶和至少一个接头，其中所述第一重组酶和所述第二重组酶特异性识别重组酶的上游靶位点和/或下游靶位点的第一半位点和第二半位点；其中所述第一重组酶和所述第二重组酶通过接头相互连接；并且其中所述接头包含或由包含4-50个氨基酸的寡肽组成。
32.本发明还涉及dna重组酶，其特异性识别loxf8重组酶靶位点的上游和下游靶序列，并且其催化loxf8重组酶靶位点的这些上游和下游靶序列之间的基因序列倒位。
33.本发明还涉及编码根据本发明的融合蛋白或dna重组酶的核酸分子。
34.在另一个实施方案中，本发明提供了一种哺乳动物、昆虫、植物或细菌宿主细胞，其包含编码根据本发明的融合蛋白或dna重组酶的所述核酸分子。
35.根据本发明的融合蛋白或dna重组酶或核酸分子可以用作药物，并且因此可以包括在药物组合物中，任选地与一种或多种治疗上可接受的稀释剂或载体组合。
36.本发明的融合蛋白或dna重组酶或药物组合物适于可通过基因组编辑治愈的疾病的治疗，特别是血友病a的治疗。
37.在另一个实施方案中，提供了一种用于确定宿主细胞培养物或患者中基因组水平上的重组的方法，该方法包括根据本发明的用于高效且特异性基因组编辑的融合蛋白或dna重组酶。
38.附图简述
39.图1是cre分子结合其靶loxp位点的示意图。所述loxp位点由两个反向重复序列(13bp)和侧翼的非回文间隔区(8bp)组成。两个cre分子结合在loxp位点上，每一个结合在半位点上。
40.图2示出了酪氨酸ssr重组反应的方案。(a)逐步重组机理示意图。四个重组酶分子结合两个dna底物，形成四聚复合物(1)。“可切割(cleaving competent)”构象中的重组酶以浅灰色表示，“不可切割”构象中的一次重组酶以深灰色表示。该亲核酪氨酸用浅灰色圆圈表示为y，并且只表示活性单体。活化的亲核酪氨酸攻击易切割磷酸(以p表示)，形成3
’‑
磷酸酪氨酸键并导致游离5’oh(2)的释放。释放出的5’oh攻击邻近的磷酸酪氨酸，形成霍利迪连接体(holiday junction)中间体并导致链交换(3)。复合物被异构化并且活性单体改变构象为非活性，反之亦然(4)。重复切割和链交换步骤(5、6)。(b)重组反应的可能结果。重组反应可以导致dna片段的切除/整合或倒位，这取决于靶位点(间隔序列)的方向。靶位点指示为黑色三角形，并且其方向性指示靶位点的方向。(meinke等人，2016年)。
41.图3：显示了异四聚cre复合物重组的示意图模型。黑色阴影的椭圆代表野生型cre单体，灰色形状的椭圆代表突变的cre单体，每一个都结合到loxp位点的不同半位点(黑色阴影的链代表原始loxp位点并且灰色阴影的链代表突变cre识别的半位点)(saraf-levy等人，2006年)。
42.图4：显示了导致重度ha的f8基因倒位的示意图。f8基因或其部分如图所示，外显子如箭头所示，内含子如白框所示，线表示f8基因外的dna。a.外显子1的倒位是由内含子1(int1h1)与f8基因外端粒(int1h2)的同源区之间的重组引起的。交叉通过拆分int1h1和
序列的部分或全部氨基酸序列改变为简并密码子rvm。在适当的地方指出核苷酸和氨基酸序列。
52.图14：显示了非对称loxf8位点上的接头选择。(a)在loxf8位点上与三个不同接头文库(lib1-3)融合的异二聚体的初始重组活性。200μg/ml l-阿拉伯糖用于诱导。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。(b)loxf8位点接头选择方案。ndei和avrii限制性内切酶只能在未重组质粒上进行酶切，因此不能从这些质粒上获得带有指示引物(f和r)的pcr产物。pcr只扩增重组loxf8位点的连锁异二聚体，从而只选择活性融合蛋白。
53.图15：显示了对称靶位点上的接头相反选择。(a)在sym1和sym2位点上与指示的接头文库(lib1-3)融合的异二聚体的重组活性。200μg/ml l-阿拉伯糖用于诱导。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。(b)在对称靶位点上的接头相反选择方案，如sym1的实施例所示。反向引物(r)在两个对称位点之间退火，因此不能从重组质粒中获得pcr产物，因为该dna片段在重组过程中被切除。pcr只扩增没有重组对称位点的连锁异二聚体，从而只选择在对称位点上没有活性的融合蛋白。
54.图16：显示了loxf8、sym1和sym2位点上进化的文库的最终重组活动。1μg/ml和200μg/ml的l-阿拉伯糖用于分别诱导非对称的loxf8位点和对称的sym1位点和sym2位点。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。
55.图17显示了在loxf8、sym1和sym2位点上融合的d7异二聚体的克隆分析。对每个文库中的4个克隆(s2接头文库1-s1的l1、l2、l3、l4，s2接头文库2-s1的l5、l6、l7、l8，s2接头文库3-s1的l9、l10、l11、l12)在loxf8(a)、sym1(b)、sym2(c)靶位点上的重组活性进行了分析。10μg/ml和200μg/ml l-阿拉伯糖分别诱导非对称loxf8位点和对称sym1位点和sym2位点。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。克隆l8在loxf8上具有较高的重组活性，而在sym1和sym2上没有重组。
56.图18：显示了d7异二聚体在loxf8靶位点上与(g2s)8和l8接头融合的重组效力的比较。与(g2s)8或loxf8位点上的l8接头融合的重组酶异二聚体的重组活性。浓度为0至250μg/ml的l-阿拉伯糖用于重组酶诱导。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。注意的是l8连接重组酶的活性增加。
57.图19：显示了非连接的d7异二聚体和s2连接的l8-s1重组酶在非对称loxf8靶位点上的重组活性。重组酶在pevo-sdo载体上进行试验。浓度为0至50μg/ml的l-阿拉伯糖用于重组酶诱导。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。注意的是l8连接重组酶的活性增加。sdo；shine dalgano优化。
58.图20：显示了两个重组酶异二聚体(d7和a4)在预测的人类基因组脱靶位点上作为非融合和融合版本的重组活性。重组酶的融合以s2-接头l8-s1方式进行(图20a)。在非对称
(1lr、2lr、3lr、4lr、5lr)和对称(1l、2l、1r、2r)脱靶位点上，显示了未连接的d7异二聚体和与l8接头(包括seq id nos.32和33的重组酶单体)融合的d7异二聚体的重组活性。用50μg/ml和250μg/ml l-阿拉伯糖分别诱导非连接异二聚体和s2-接头l8-s1。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。注意的是，l8-融合的d7异二聚体没有显示出明显的脱靶重组，而在靶位点2lr和2l上可以观察到非融合版本的脱靶重组。图20b示出了非连接a4异二聚体和s2-连接l8-s1(融合a4)重组酶在预测的人类基因组脱靶位点上的重组活性。在非对称(1lr、2lr、3lr、4lr、5lr)和对称(1l、2l、1r、2r)脱靶位点上，显示了未连接的a4异二聚体和与l8接头融合的a4异二聚体(包括seq id nos.93和94)的重组酶单体的重组活性。用100μg/ml分别诱导非连接异二聚体和s2-接头l8-s1。用限制性内切酶(saci-hf sbfi-hf)对质粒dna进行重组，从而导致重组质粒的dna片段较小(一个三角形)，未重组质粒的dna片段较大(两个三角形)。与d7克隆(未融合)相比，l8-融合的a4异二聚体以及未融合的版本在测试的任何靶位点都没有显示出明显的脱靶重组。
59.图21：显示了在人体细胞中使用的重组酶表达质粒的图。(a)示出了用于表达单个重组酶(s1-或s2-特异性)的质粒。(b)示出了融合的d7异二聚体(s2-接头l8-s1)的表达质粒。对于所有表达质粒，egfp的表达都是通过猪睾丸病毒-1多聚蛋白(p2a)中的一个自切割2a肽与重组酶的表达偶联。箭头标记ef-1a启动子的转录起始位点。
60.图22：显示了基于mcherry基因的报告基因试验的方案。报告质粒在两个loxf8靶位点之间含有阻止mcherry表达的终止密码子。在重组时，终止密码子被移除，从而导致mcherry的组成性表达赋予细胞红色。箭头标记鸡β-肌动蛋白(cag)启动子的转录起始位点。
61.图23：显示了对人体细胞的报告基因试验的流式细胞术分析。示出了用未融合和融合的d7异二聚体(l8)(包括seq id nos.32和33的重组酶单体)表达质粒和mcherry报告质粒转染hek 293t细胞的流式细胞术分析图。通过绿色荧光蛋白(gfp )的表达来鉴定表达d7异二聚体的细胞。重组报告质粒的细胞通过红色荧光蛋白(mch )的表达进行鉴定。
62.图24：显示了异二聚体在哺乳动物细胞中的倒位效力。该折线图示出了用d7重组酶异二聚体表达载体转染48小时后提取的基因组dna进行qpcr的结果。这条线给出了标准曲线的线性回归模型，r2＝0,9918。示出了未融合和融合(l8)重组酶异二聚体的相对倒位。注意的是融合的l8异二聚体的倒位频率增加。
63.图25：显示了在哺乳动物细胞中整合的loxf8基因组报告基因上重组酶的活性。
64.a)描述了稳定整合在hek293t细胞基因组中的基因组报告基因构建体。步骤1：组成型活性启动子驱动loxf8靶位点两侧的嘌呤霉素(puro)基因表达，随后的荧光mcherry基因不表达。步骤2：成功重组loxf8靶位点后，将嘌呤霉素基因切除，并且荧光mcherry基因表达。
65.b)综述了编码重组酶单体、重组酶融合蛋白或转染报告基因(tagbfp)的合成的mrna。这些mrnas用于转染loxf8报告细胞系。
66.c)流式细胞术分析了在传递重组酶mrna(非融合d7、融合d7、非融合a4和融合a4)和转染对照mrna(tagbfp)48h后的loxf8基因组报告细胞系。转染细胞通过蓝色荧光蛋白(tagbfp )的表达来鉴定。重组loxf8基因组报告的细胞通过红色荧光蛋白(mcherry )的表
达来鉴定。
67.图26：显示了在哺乳动物细胞中重组酶表达后，天然loxf8位点的重组事件(倒位)的分析。
68.a)图中示出了因子viii基因和周围反向同源区(int1h-1和int1h-2)的正常定向和反向方向(引起血友病a)。loxf8靶位点在int1h-1和int1h-2区域用垂直箭头表示。因子viii基因的启动子在外显子1的前面。检测loxf8靶位点之间140kb片段方向的引物结合位点用水平箭头(p1、p2和p3)表示。
69.b)用重组酶编码的mrna(非融合d7、融合d7、非融合a4、融合a4和非融合d11)转染人体细胞48h后的基因组dna进行pcr。用引物对p2和p3产生的pcr产物将检测loxf8基因倒位位点(正常定向)的正常定向。用引物对p1和p3产生的pcr产物将检测到loxf8基因倒位位点(反向)的反向。只有转染未融合d7、融合d7、非融合a4、融合a4和未融合d11的细胞才显示反向pcr产物。作为倒位对照，使用来自携带因子viii基因倒位的血友病供体的基因组dna。作为野生型(wt)对照，使用来自健康供体的基因组dna。示出了没有模板的对照(水对照)。
70.图27：显示了所讨论的重组酶的序列比对，其中：
71.f8_d7-l是seq id no：32的多肽；
72.f8_d11-l是seq id no：99的多肽；
73.f8_a4-l是seq id no：93的多肽；
74.f8_28-l是seq id no：30的多肽；
75.brec1是seq id no：70的多肽；
76.hex d12-r是seq id no：106的多肽；
77.hex d12-l是seq id no：105的多肽；
78.tre是seq id no：69的多肽；
79.cre是seq id no：68的多肽；
80.f8_h7是seq id no：66的多肽；
81.f8_28-r是seq id no：31的多肽；
82.f8_d7-r是seq id no：33的多肽；
83.f8_d11-r是seq id no：100的多肽；以及
84.f8_a4-r是seq id no：94的多肽。
85.黑底/白粗体字母：在已公开的cre-衍生的重组酶中尚未报道的氨基酸变化。
86.灰色：在已公开的cre-衍生的重组酶中已报道的氨基酸变化。
87.#：基于深度测序的靶位点识别的预测关键残基。
88.相关pmids：17600219、26900663、31745551
89.一般定义
90.如本文所用，表述“细胞”、“细胞系”和“细胞培养物”可互换使用且所有这些名称包括子代。因此，“转化子”和“转化细胞”包括原始主体细胞和从其衍生的培养物，而不考虑转移的数量。还可以理解，由于有意或无意的突变，所有后代的dna含量可能不完全相同。与在最初转化的细胞中筛选的具有相同功能或生物活性的突变体后代也包括在本文中。如果打算进行不同的命名的情况下，从上下文中将是清楚的。
91.本文中使用的术语“多肽”、“肽”和“蛋白质”是可互换使用并定义为指由通过肽键
连接的氨基酸组成的生物分子。
92.如果本文提及肽或氨基酸序列，则每个氨基酸残基由一个字母或三个字母命名表示，对应于氨基酸的惯用名称，按照以下常规列表：
[0093][0094][0095]
本文所用术语“一(a)”、“一个(an)”和“该(the)”被定义为表示“一个或多个”，并且包括复数，除非上下文不合适。
[0096]
本文所用术语“受试者”是指已经作为治疗、观察或实验对象的动物，优选哺乳动物，最优选人。
[0097]
本文所用术语“治疗有效量”是指在研究人员、兽医、医生或其他临床医师所寻求的组织系统、动物或人类中引起生物或医学反应的活性化合物或药物的量，其包括减轻正在治疗的疾病或紊乱的症状。
[0098]
本文所用术语“药学上可接受的”包含人类和兽医用途：例如，术语“药学上可接受的”包含兽医可接受的化合物或在人类医学和卫生保健中可接受的化合物。
[0099]
天然存在的dna重组酶，特别是位点特异性重组酶(ssr)系统(如酪氨酸型ssrs)，通常由四个相同的单体组成。一般来说，他们识别两个相同的对称的回文靶位点，每个靶位点由两个大约13个核苷酸长的半位点组成，每个半位点由一个非对称的通常为8个核苷酸
长的间隔区分开(图1)。根据靶位点及其间隔区的数量和相对方向，dna重组酶可以进行切除、整合、倒位或替换基因含量(图2；综述于meinke等人，2016年)。
[0100]
本文所用“上游”是指dna中重组酶的5’靶位点，包括第一半位点(如左半位点)和第二半位点(如右半位点)，其中所述第一半位点和所述第二半位点由间隔序列分开。
[0101]
本文所用“下游”是指dna中重组酶的3’靶位点，第一半位点(如左半位点)和第二半位点(如右半位点)，其中所述第一半位点和所述第二半位点由间隔序列分开。
[0102]
发明详述
[0103]
本发明提供了一种产生dna重组酶的方法，其用于在细胞中基因组水平上dna序列的高效和特异的基因组编辑，特别是用于在细胞中基因组水平上dna序列的重组，最优选用于在细胞中基因组水平上dna序列的倒位，其中所述方法包括以下步骤：
[0104]
i.鉴定核酸序列，所述核酸序列是dna重组酶的潜在靶位点，所述dna重组酶能够诱导基因组中目的序列的位点特异性dna重组，其中所述潜在靶位点包括两个非对称重组酶靶位点；
[0105]
ii.提供编码第一重组酶的核酸分子，其中所述第一重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第一半位点；
[0106]
iii.提供编码第二重组酶的核酸分子，其中所述第二重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第二半位点；
[0107]
iv.通过将编码第一重组酶的核酸分子和编码第二重组酶的核酸分子克隆到表达载体中来构建表达载体；
[0108]
v.用步骤iv的表达载体转染包含待倒位的dna序列的细胞；
[0109]
vi表达包含第一重组酶和第二重组酶的dna重组酶；
[0110]
vii分析在步骤vi.中表达的融合蛋白是否能够倒位在所述细胞中人类染色体上的dna序列；和
[0111]
viii根据步骤vii选择能够倒位所述细胞中人类染色体上的dna序列的dna重组酶。
[0112]
令人惊讶地发现，通过这种方法获得的dna重组酶的特异性可以通过将重组酶单体与寡肽连接来显著提高，从而产生融合蛋白。
[0113]
因此，在优选实施方案中，本发明提供了一种用于产生用于在细胞中基因组水平上dna序列的高效且特异性基因组编辑的融合蛋白的方法，特别是用于在细胞中基因组水平上dna序列的重组，最优选用于在细胞中基因组水平上dna序列的倒位，其中所述方法包括步骤：
[0114]
i.鉴定核酸序列，所述核酸序列是dna重组酶的潜在靶位点，所述dna重组酶能够诱导基因组中目的序列的位点特异性dna重组，其中所述潜在靶位点包括两个非对称重组酶靶位点；
[0115]
ii.提供编码第一重组酶的核酸分子，其中所述第一重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第一半位点；
[0116]
iii.提供编码第二重组酶的核酸分子，其中所述第二重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第二半位点；
[0117]
iv.提供编码接头肽的核酸分子，其中所述核酸编码包含6至30个氨基酸的接头寡
肽；
[0118]
v.通过将编码第一重组酶的核酸分子、编码第二重组酶的核酸分子和编码接头肽的核酸分子克隆到表达载体中来构建表达载体；
[0119]
vi.转染包含dna序列的细胞，所述dna序列待用步骤v)的表达载体重组，优选倒位；
[0120]
vii.表达包含第一重组酶、第二重组酶和接头肽的融合蛋白；
[0121]
viii.分析在步骤vii.中表达的融合蛋白是否能够倒位在所述细胞中人类染色体上的dna序列；和
[0122]
ix.根据步骤viii选择能够倒位所述细胞中人类染色体上的dna序列的融合蛋白。
[0123]
根据步骤i.的核酸序列，也就是说，可以根据wo 2018/229226 a1中描述的方法来识别能够诱导基因组中目的序列的位点特异性dna重组的dna重组酶的潜在靶位点，该方法包括例如以下子步骤：
[0124]
a)筛选包含目的序列的所述基因组或其部分的两个序列，所述两个序列是潜在的间隔序列，其长度至少为5bp且至多12bp，其中所述潜在间隔序列中的一个位于所述目的序列的上游，且另一个潜在间隔序列位于所述目的序列的下游，并且其中所述两个序列的最大距离为2兆碱基或更小，优选为1.5兆碱基或更小或1兆碱基或更小，更优选为900kb、800kb、700kb、600kb或500kb，最优选400kb或300kb，最小距离为150bp，
[0125]
b)通过测定每个潜在间隔序列来鉴定潜在靶位点，对于每个潜在间隔序列，其一侧上的相邻核苷酸，优选10至20个核苷酸，更优选12至15个核苷酸，最优选13个核苷酸形成潜在第一半位点，并且其另一侧上的相邻核苷酸，优选10至20个核苷酸，更优选12至15个核苷酸，最优选13个核苷酸形成潜在第二半位点，而两个潜在半位点和其间的间隔序列形成潜在靶位点，
[0126]
c)进一步筛选步骤b)中确定的潜在靶位点，以选择在宿主基因组中(其他地方)没有出现的潜在靶序列，以确保序列特异性重组，优选倒位。
[0127]
优选地，所确定的dna重组酶的潜在靶位点的序列是天然存在于基因组中的。
[0128]
根据步骤ii.和iii.的第一重组酶和第二重组酶可以通过定向进化或合理设计进行进化，优选地例如通过如wo 2018/229226 a1中所描述的底物连接的定向进化(slide)，其中所述定向进化包括以下步骤：
[0129]
a)选择待改变的核苷酸序列上游的核苷酸序列作为第一靶位点，并且选择待改变的核苷酸序列下游的核苷酸序列作为第二靶位点，而所述靶位点的序列优选不相同，其中每个靶位点包括每10-20个核苷酸由具有5-12个核苷酸的间隔序列分开的第一半位点和第二半位点，
[0130]
b)使用包含在a)中选择的第一靶位点和第二靶位点的载体作为底物，在至少一个dna重组酶文库上应用分子定向进化，
[0131]
直到获得在第一靶位点上活性的至少一个第一设计dna-重组酶和获得在第二靶位点上活性的至少一个第二设计dna-重组酶，如在a)中选择的。
[0132]
选择非对称的靶位点提供了比较两种不同进化策略的机会。可以进化单个重组酶来识别10至20bp，更优选12至15bp，最优选13bp的半位点，或者对于每个半位点可以并行进化两个重组酶。结合这两种重组酶允许形成能够重组非对称位点的功能性异二聚体。
[0133]
在本发明的一个实施方案中，优选进化单个重组酶以识别10至20bp，更优选12至15bp，最优选13bp的半位点。
[0134]
在本发明的另一个实施方案中，每个半位点并行进化两个重组酶是优选的，从而产生异二聚体。由于异二聚体由两个重组酶组成，其可以形成一个异二聚体或两个不同的同源二聚体，因此潜在识别序列的数量增加。这种方法可能不利地导致在脱靶位点意外重组的机会增加。为了减少在脱靶位点重组的机会，本发明的另一个目的是限制单体的同源二聚化。为了达到这一目的，使用接头肽将重组酶单体被物理融合以加强所需的异二聚体组装。根据本发明的方法的步骤iv，所述接头肽是通过提供编码接头肽的核酸分子来产生的，其中所述核酸编码包含6至30个氨基酸的接头寡肽。为了提高融合的重组酶单体的活性，设计接头文库是优选的。所述接头库被适当地进化为若干，例如10个slide周期以找到最有活性的接头变体。因此，产生了最终文库并根据本发明方法的步骤viii.和ix.选择融合蛋白，其中在所需重组酶靶位点上显示出稳健的活性，表明已产生具有改进活性的变体。
[0135]
为了选择对所需重组酶靶位点高度特异性的融合蛋白，即表现出减少的脱靶重组的融合蛋白，本发明的方法在另一个实施方案中可包括以下步骤
[0136]
x.鉴定所需融合蛋白的潜在脱靶位点；
[0137]
xi.分析在步骤x.中鉴定的脱靶位点上所需融合蛋白的重组酶活性；和
[0138]
xii.选择在至少一个脱靶位点上不显示重组酶活性的融合蛋白。
[0139]
在本发明的优选实施方案中，所述第二重组酶的c-末端通过接头肽连接到所述第一重组酶的n-末端。
[0140]
在本发明的最优选实施方案中，在步骤vii.中表达的融合蛋白中，所述第一重组酶的c-末端通过接头肽连接到所述第二重组酶的n-末端。
[0141]
例如，可以使用本领域技术人员已知的生物信息学方法来识别重组酶脱靶位点。其他方法包括基于chip-seq分析，以识别人类中假定的脱靶点，然后通过qpcr进行验证和dna富集。这些方法也为本领域技术人员所公知的。
[0142]
例如，通过将基因组序列作为切除底物克隆到细菌报告载体中，如下面所述，可以通过实验测定这些潜在脱靶位点上融合蛋白的重组酶活性。然后可以通过监测报告基因的表达，例如使用基于pcr的分析，来检测脱靶位点的重组。这种测定也可以在人体组织培养物中进行，以研究体内融合蛋白是否改变了脱靶位点。
[0143]
本发明的方法的特别的优点是，任何重组酶靶位点都可以用于进化对该重组酶靶位点显示特定活性的重组酶融合蛋白。由于本发明的方法包括提供靶位点特异性重组酶复合物，其中用于互相连接的重组酶异二聚体的单体的接头也特异性地适应于进化的重组酶，本发明的方法还具有这样的优点，即重组酶复合物，即重组酶融合蛋白的不希望的脱靶活性可以急剧降低，优选完全消除。这使得重组酶复合物，即重组酶融合蛋白特别适合用于基因治疗。
[0144]
另一方面，本发明提供了一种用于高效且特异性基因组编辑的融合蛋白，其包括重组酶复合物，其中所述重组酶复合物包括至少第一重组酶、第二重组酶和至少一个接头，其中所述第一重组酶和所述第二重组酶特异性识别重组酶靶位点的第一半位点和第二半位点；其中所述第一重组酶和所述第二重组酶通过接头相互连接；其中所述接头包含或由包含4至50个氨基酸的寡肽组成。
[0145]
所述复合物中包含的重组酶优选为dna重组酶，并且可以是天然存在的重组酶(即，从任何类型的生物材料样品中分离的重组酶)或设计重组酶，例如通过定向分子进化或合理设计进化的重组酶，或其任何组合。构建设计重组酶的方法是本领域中已知的。例如，wo 2018/229226 al教导了通过定向分子进化产生设计dna重组酶的载体和方法。w02008083931a1公开了使用hiv长末端重复序列(ltr)中的序列作为识别位点(loxltr tre 1.0)的剪裁重组酶(tre 1.0)的定向分子进化。在w02011147590a2(tre 3.0)和w02016034553a1(tre 3.1和tre/brec1)以及出版物karpinski j等人2016(brec1)中描述了使用非对称靶位的该方法的进一步改进。本领域也已知通过传统设计对自然发生的或设计重组酶进行工程化的方法(例如abi-ghanem等人，2013年；karimova等人，2016年)。
[0146]
在最优选的实施方案中，复合物中包含的重组酶是用本发明的上述方法产生的。因此，本文随后描述的与重组酶靶位点、融合蛋白、重组酶和接头肽有关的特征和实施方案也适用于本发明的上述方法。
[0147]
在本发明的范围内是重组酶复合物的组合物，其中例如
[0148]
·
四种重组酶单体均不同；
[0149]
·
三个重组酶单体相同，并且一个单体不同；
[0150]
·
两个重组酶单体相同，并且另外两个单体不同；
[0151]
·
该复合物包含两种不同的同源二聚体；
[0152]
·
该复合物包含两种不同的异二聚体；
[0153]
·
该复合物包含两个相同的异二聚体；
[0154]
·
四种重组酶单体均相同；
[0155]
·
该复合物包含两种不同的单体；或
[0156]
·
该复合物包含两个相同的单体。
[0157]
在本文中，“不同”是指单体的一级结构不相同，即在氨基酸序列上表现出差异；和/或对重组酶的上游靶位点和下游靶位点的四个半位点之一显示高特异性，其有利地导致本发明的融合蛋白的特异性令人惊讶地增加。
[0158]
在优选的实施方案中，重组酶复合物是二聚体，更优选地是用于识别dna中上游或下游重组酶靶位点的第一靶序列和第二靶序列的异二聚体，其中所述异二聚体的单体通过接头融合。
[0159]
在另一优选实施方案中，本发明的重组酶复合物是四聚体，更优选地是用于识别dna中重组酶的上游靶位点和下游靶位点的异源四聚体，其中所述异源四聚体的至少两个单体通过接头融合。
[0160]
在更优选的实施方案中，该复合物由两个异二聚体组成，最优选两个相同的异二聚体，其中每个异二聚体的单体通过接头相互连接。
[0161]
进一步优选地，所述异二聚体的单体已经通过定向进化或合理设计进化，以特异性识别重组酶靶位点的第一半位点或第二半位点。因此，所述两个异二聚体复合物中的第一异二聚体特异性识别dna中上游重组酶靶位点的第一半位点和第二半位点，其中第二异二聚体特异性识别下游重组酶靶位点的第一半位点和第二半位点。
[0162]
更优选地，所述异二聚体的单体是酪氨酸位点特异性重组酶。
[0163]
最优选地，所述异二聚体的第一重组酶单体具有特征为以下特定氨基酸的氨基酸
序列：
[0164]-q在位置5、a在位置40、t在位置44、v在位置80号、r在位置90、l在位置94、r在位置219；或
[0165]-q在位置5、a在位置40、t在位置44、v在位置80、r在位置90、l在位置94、r在位置219、g在位置232、s在位置323、l在位置325；或
[0166]-q在位置5、a在位置40、t在位置44、v在位置80、r在位置90、l在位置94、r在位置132、g在位置150、r在位置219、v在位置272、s在位置323以及l在位置325。
[0167]
进一步最优选地，所述异二聚体的第二重组酶单体具有特征为以下特定氨基酸的氨基酸序列：
[0168]-h在位置90、s在位置94、k在位置249、g在位置266、v在位置272和k在位置282；或
[0169]-q在位置5、t在位置80、h在位置90、s在位置94、k在位置249号、g在位置266、v在位置272、k在位置282。
[0170]
这些氨基酸位置是指seqidno：68野生型重组酶cre序列的编号。
[0171]
为了避免疑问，当重组酶复合物由二聚体，特别是同源二聚体或优选异二聚体表示时，在本发明的融合蛋白中存在一个连接二聚体的两个单体的接头。当重组酶复合物由四聚体表示时，用于四聚体的四个单体互相连接的一个、两个、三个或四个接头存在于本发明的融合蛋白中。
[0172]
本发明的融合蛋白中包含的每一个接头适当地为肽，优选为寡肽。在优选实施方案中，接头由4-50个氨基酸，更优选5-40个氨基酸，最优选6-30个氨基酸组成。
[0173]
根据重组酶作用机制的一般知识和重组酶作用机制的空间条件，本领域技术人员会惊讶于重组酶的融合不会抑制重组。令人惊讶的是，本文实验表明，在由异二聚体和接头组成的融合蛋白结合诱导的重组酶靶位点上可以观察到重组事件，这表明重组事件的专一性方式。
[0174]
因此，在一个实施方案中，包含在本发明融合蛋白中的每个接头是包含(g2s)重复的寡肽，所述重复序列选自
[0175]
ggsggs(seqidno：1)；
[0176]
ggsggsggsggs(seqidno：2)；
[0177]
ggsggsggsggsggsggs(seqidno：3)；
[0178]
ggsggsggsggsggsggsggsggs(seqidno：4)；
[0179]
ggsggsggsggsggsggsggsggsggsggs(seqidno：5)；
[0180]
ggsggsggsggsggsggsggsggsggsggsggsggs(seqidno：6)；和
[0181]
ggsggsggsggsggsggsggsggsggsggsggsggsggsggs(seqidno:7)
[0182]
然而，与含有(g2s)重复序列的接头融合的重组酶在某些情况下导致了与未连接的重组酶相比的重组活性下降。进一步的实验表明，接头的长度对重组酶的活性有很大的影响。用包含八个(g2s)重复的接头获得了良好的结果。进一步增加接头长度并不能提高重组效率，但由于获得的融合蛋白在重组酶靶位点的对称位点上显示活性，从而降低了特异性，这是不希望的。因此，在优选实施方案中，包含在本发明融合蛋白中的接头最优选为由24个氨基酸组成的寡肽。
[0183]
进一步研究了接头的氨基酸组成是否影响最终靶位点的重组活性。设计了三个接
头文库。该文库的目的是寻找一个在对称位点(无重组)上具有同样高特异性的接头，并在最终的loxf8重组酶靶位点上具有提高的活性。将包含八个(g2s)重复的部分或全部接头序列改变为编码天然接头中常用的九个氨基酸的简并密码子rvm(chen等人，2013年)，即ala、arg、asn、asp、glu、gly、lys、ser、thr氨基酸。由此，构建了大量的接头变体。
[0184]
在另一优选实施方案中，本发明的融合蛋白因此包含接头，其包含或由具有选自如下式1、式2和式3的氨基酸序列的寡肽组成，其代表上述三种接头文库：
[0185]
x
1-x
2-x
3-x
4-x
5-x
6-(g2s)
4-x
7-x
8-x
9-x
10-x
11-x
12
ꢀꢀꢀ
(式1)；
[0186]
(g2s)
2-x
1-x
2-x
3-x
4-x
5-x
6-x
7-x
8-x
9-x
10-x
11-x
12-(g2s)2ꢀꢀꢀ
(式2)；和
[0187]
x
1-x
2-x
3-x
4-x
5-x
6-x
7-x
8-x
9-x
10-x
11-x
12-x
13-x
14-x
15-x
16-x
17-x
18-x
19-x
20-x
21-x
22-x
23-x
24
ꢀꢀꢀ
(式3)；
[0188]
其中
[0189]
g为甘氨酸；
[0190]
s为丝氨酸；并且
[0191]
x1至x
24
各自独立地选自由丙氨酸、精氨酸、天冬酰胺、天冬氨酸、谷氨酰胺、甘氨酸、赖氨酸、丝氨酸和苏氨酸组成的组。
[0192]
在优选实施方案中，所述式1、式2或式3的寡肽仅不包括甘氨酸和丝氨酸残基。
[0193]
关于重组酶复合物中使用的重组酶，根据本发明的融合蛋白优选包括异二聚体的复合物，其中所述异二聚体的每个重组酶是酪氨酸位点特异性重组酶，其通过定向进化进化或通过其他方法产生，以独立地识别酪氨酸位点特异性重组酶的上游靶位点的半位点和下游靶位点的半位点。
[0194]
合适地，所述酪氨酸位点特异性重组酶选自cre、dre-、vcre-、scre-、vika-、λ-int-、flp-、r-、kw-、kd-、b2-、b3-、nigri-和panto-重组酶。这些细菌和酵母t-ssr系统的识别靶位点已在meinke等人，2016年和karimova等人，2016年中讨论，并且参见下表1：
[0195]
表1.细菌和酵母t-ssr系统识别靶位点的研究
[0196][0197]
实心下划线：左半位点
[0198]
带下划线的虚线：右半位点
[0199]
粗体：间隔序列
[0200]
如上所述，患者中血友病a的大多数严重病例是由与f8基因外同源区的染色体内重组引起的倒位(graw等，2005年)引起的，例如内含子1中和位于f8基因端粒区域中两个1kb序列之间的同源重组引起的外显子1的倒位(图4)。
[0201]
本发明的另一个问题是提供一种融合蛋白，该融合蛋白特异性地校正导致重度ha的dna倒位，优选外显子1的倒位。为了解决这一问题，在内含子1中确定了两个loxf8靶位点，并将其同源区定位于f8基因的端粒。随后，通过定向分子进化，获得了两个识别loxf8不同半位点的ssrs(图5a)。每个这样进化的重组酶识别最终靶位点的一个半位点，并协同进行重组。
[0202]
通过改变天然存在的ssrs的dna结合特性，这些系统可以被重新用于重组具有治疗价值的dna序列。构建设计重组酶的方法是本领域中已知的。例如，wo2018/229226al教导了通过定向分子进化产生设计dna重组酶的载体和方法。w02008083931a1公开了使用hiv长末端重复序列(ltr)中的序列作为识别位点(loxltr tre 1.0)的专门的重组酶(tre 1.0)的定向分子进化。在w02011147590a2(tre 3.0)和w02016034553a1(tre 3.1和tre/brec1)以及出版物karpinski j等人2016年(brec1)中描述了使用非对称靶位的该方法的进一步
改进。本领域也已知通过传统设计对自然发生的或设计-重组酶进行工程化的方法(例如，abi-ghanem等人，2013年；karimova等人，2016年)。
[0203]
作为产生针对非对称靶位点的单个设计-重组酶的替代方案，也可以产生将靶位点重组为异二聚体的双设计-重组酶(lansing等人，2020年)。然而，靶向同一dna靶点的单设计-重组酶和双设计-重组酶系统(异二聚体)的比较研究还没有进行。为了进行这样的比较研究，利用slide技术(buchholz和stewart，2001年；lansing等人，2020年)产生两类重组酶，其靶向重组int1h1和int1h2序列中的保守序列(loxf8，图4、图5)。
[0204]
为了获得将靶序列识别为单体的单个重组酶，在非对称loxf8位点上进行了slide，相当于分别在非对称loxltr和loxbrt序列上定向进化tre和brec1(sarkar等人，2007年；hauber等人；2013年)。在168轮定向进化后，单个重组酶在大肠杆菌中使用不同浓度的l-阿拉伯糖在pevo载体中进行测试。当低浓度l-阿拉伯糖诱导重组酶表达时，所鉴定的最佳克隆(h7)重组了loxf8序列(图6)。
[0205]
为了产生一个将相同靶序列识别为异二聚体的重组酶系统，首先在对称的loxf8半位点上进行slide，相当于hex重组酶的定向进化，重组人类7号染色体上的序列(lansing等人，2020年)。重组酶文库具有对称的loxf8半位点活性(分别经过88轮和89轮定向进化)，然后从含有两个完整的、非对称的loxf8靶位点的pevo-质粒在大肠杆菌中共表达。经过3轮定向进化后，在pevo载体中使用不同浓度的l-阿拉伯糖在大肠杆菌中检测了双重组酶异二聚体。所鉴定的最佳异二聚体克隆(d7)比单个h7克隆更有效地重组loxf8序列(图6)，表明产生双重组酶异二聚体比产生针对非对称位点的单个重组酶更有效。
[0206]
为了研究单体(h7)和异二聚体(d7)f8-重组酶在哺乳动物细胞中的重组活性，用重组报告质粒和重组酶表达质粒共转染hela细胞(图7a)。在大肠杆菌试验中，h7重组酶的效率低于异二聚体d7重组酶(图7b，28％重组效率vs 46％重组效率)。
[0207]
为了比较单个f8重组酶(h7)和异二聚体f8重组酶(d7)在人体细胞中诱导f8倒位的能力，将重组酶表达质粒转染hela细胞。转染48小时后分离基因组dna。pcr反应检测基因组倒位。同样，在本试验中，单体h7重组酶的性能不如异二聚体d7重组酶(图8)。
[0208]
为了比较h7单体和d7异二聚体的特异性，在九个与loxf8序列显示最高相似性的人序列上测试重组酶(seq id nos：21-23和87-92，表2)。将九个脱靶位点和loxf8脱靶位点作为切除底物克隆到含有各自重组酶的pevo载体中，并且质粒在10μg/ml l-阿拉伯糖存在下在大肠杆菌中生长24小时。从这些培养物中提取的dna显示，h7单体除了具有seq id nos：21、22、87和91的脱靶位点外，还重组了loxf8位点(seq id no：17)。相比之下，d7异二聚体重组loxf8序列的效率更高，而且特异性更强且仅轻微重组具有seq id no：22的脱靶位点(图9)。基于这些累积结果，选择异二聚体d7进行进一步的实验。
[0209]
虽然d7异二聚体比所述h7异二聚体表现出更好的特性，但仍表现出一定的脱靶重组。对于治疗应用，希望使用高度特异性的基因组编辑工具，并且不在预期的位置编辑基因组。由于以往的尝试在改善异种重组酶的应用性能方面只取得了有限的成功，因此人们探索了改善双重组酶行为的可能方法。一种可能性是通过将两个d7异二聚体与肽接头融合来物理上连接它们。最新的文献表明，这很可能不起作用，因为在重组反应中，单个酶需要大量移动。然而，如果它有效，这种方法可能提供一种直接的方法来产生高效和特定的专有重组系统。
[0210]
在本发明的另一个实施方案中，所述重组酶异二聚体d11以与d7异二聚体相同的方式进化。
[0211]
在本发明的另一个优选实施方案中，所述重组酶异二聚体a4-l以与d7异二聚体相同的方式进行进化。为了获得具有最佳接头性质的融合异二聚体，选择它们在loxf8位点上的活性，并反选择它们在两个对称位点上的活性(图10)。连接的重组酶理论上可以在对称或非对称的靶位点上形成具有活性的不同蛋白质复合物(图11)。三个初始文库都在对称位点上显示活性，表明接头组成对特异性有重要影响。具有选自seqidnos：8-16的氨基酸序列的接头的融合蛋白，在loxf8位点上显示出令人满意的活性。
[0212]
因此，本发明在另一个实施方案中提供了一种融合蛋白，其中所述接头包括或由选自以下的寡肽组成
[0213]
aeatseggsggsggsggsngarrt(seqidno:8)；
[0214]
agttarggsggsggsggsgrrgak(seqidno:9)；
[0215]
kngrgrggsggsggsggsrtkret(seqidno:10)；
[0216]
ggsggstaakegaassasggsggs(seqidno:11)；
[0217]
ggsggsnsrsntensdkgggsggs(seqidno:12)；
[0218]
ggsggsngeegtergkatggsggs(seqidno:13)；
[0219]
ggsggsttkanrakggrgggsggs(seqidno:14)；
[0220]
ganedtnteaagsegnektgtnsa(seqidno:15)；和
[0221]
gesraedgakgngrgkgeatagaa(seqidno:16)。
[0222]
接头选择的另一个重要标准是低诱导水平下loxf8位点的活性且高诱导水平下loxf8对称位点的无活性(图16、图17)。在这方面，用包含具有ggsggsttkanrakggrgggsggs(seqidno:14)氨基酸序列的接头的融合蛋白获得了最佳结果。
[0223]
因此，在优选实施方案中，本发明提供一种融合蛋白，其中所述接头包括或由寡肽组成，其具有seqidno：14的氨基酸序列。
[0224]
更优选地，本发明的融合蛋白特异性识别loxf8靶位点的上游重组酶靶序列，其具有核酸序列的ataaatctgtggaaacgctgccacacaatcttag(seqidno：17)，或其反向补体序列；
[0225]
并且识别具有loxf8靶位点的下游重组酶靶序列，其具有核酸序列ctaagattgtgtggcagcgtttccacagatttat(seqidno:18)，或其反向补体序列。
[0226]
融合蛋白催化在loxf8重组酶靶位点的seqidno.17的上游重组酶靶序列和seqidno：18的下游重组酶靶序列之间的dna序列的倒位可以通过包括以下步骤的方法进行测试：
[0227]
a)表达包含第一重组酶、第二重组酶和接头肽的融合蛋白；和
[0228]
b)分析步骤a)中表达的融合蛋白是否能够倒位所述细胞中人类染色体上的dna序列。
[0229]
最优选地，本发明的融合蛋白在具有seqidnos：17和18的靶序列的loxf8靶位点上显示出高特异性，并且在高诱导水平下在脱靶位点上不显示活性(图20)。如表2所示，优选不被本发明的融合蛋白识别的脱靶位点选自seqidnos：19-29和87-92。
[0230]
表2：脱靶位点核酸序列粗体：与靶loxf8序列(seqidno：17)不同源的序列
[0231][0232]
下划线：间隔序列
[0233]
所述loxf8靶位点的上游(5’)重组酶靶序列，其核酸序列为seq id no：17；并且loxf8靶位点的下游(3’)重组酶靶序列，其核酸序列为seq id no：18已被鉴定为本发明的一部分。因此，在另一优选实施方案中，本发明涉及包含seq id no：17的5’靶序列和seq id no：17的3’靶序列的loxf8重组酶靶位点。
[0234]
为了产生重组loxf8靶位点上游和下游靶序列的dna重组酶，采用底物的定向进化方法(buchholz和stewart 2001年)。
[0235]
本发明所述dna重组酶是这样一种酶，其通过识别两个靶位点(识别位点，即一个上游和一个下游识别位点或序列)并导致dna序列的缺失、插入、倒位或替换来重组核酸，特别是dna序列。有利地，根据本发明的dna重组酶识别根据seq id no.17(上游)和seq id no：18(下游)的loxf8序列的非对称识别位点。这些识别位点在人类基因组的其他任何地方都不存在并且因此可以用于特定的dna重组。根据本发明的dna重组酶有利地不需要人工引入基因组中的靶位点。进一步有利和最优选地，根据本发明的dna重组酶引起dna序列的倒位。另一个优点是根据本发明的dna重组酶允许精确的基因组编辑而不触发内源性dna修复途径。
[0236]
通过数个进化周期，产生了对seq id no：17和seq id no：18靶序列具有活性的酶。
[0237]
该问题首先由重组酶单体解决，该重组酶单体具有与seq id no：66(重组酶h7)的序列具有至少70％，优选80％，更优选90％的序列同一性的氨基酸序列。因此，在优选实施方案中，本发明提供了一种重组酶单体，其氨基酸序列与seq id no：66的序列具有至少70％，优选80％，更优选90％的序列同一性。
[0238]
在优选实施方案中，与seq id no：68的cre重组酶蛋白质相比，seq id no：66的dna重组酶包含一个或多个突变。示例性突变包括l5q、v7l、p12s、p15l、v16a、v23t、m30v、f31l、r34s、h40q、m44s、s47f、k57e、k62e、y77h、q90n、q94s、s108g、t140a、d143s、q144r、s147a、c155p、i166v、a175s、a231v、k244r、n245g、a249k、r259c、e262q、e266a、t268a、i272l、s305p、p307v、e308q、n317t、n319e和i320s。更优选地，与seq id no：68的cre重组酶
蛋白相比，seq id no：66的重组酶具有一个或多个，优选为两个、三个、四个、五个、六个、八个、九个、十个或更多个突变，所述突变选自包括l5q、v7l、p12s、p15l、v16a、v23t、m30v、f31l、r34s、h40q、m44s、s47f、k57e、k62e、y77h、q90n、q94s、s108g、t140a、d143s、q144r、s147a、c155p、i166v、a175s、a231v、k244r、n245g、a249k、r259c、e262q、e266a、t268a、i272l、s305p、p307v、e308q、n317t、n319e和i320s。在最优选的实施方案中，seq id no：66的重组酶具有上述所有突变。
[0239]
为免生疑问，位置号前一个字母编码所表示的氨基酸代表野生型序列中的氨基酸(例如cre重组酶的seq id no：68)；位置号后面的一个字母代码所表示的氨基酸表示突变的氨基酸，即进化的本发明重组酶。
[0240]
进一步最优选地，与seq id no：66的重组酶具有至少70％，优选80％，更优选90％序列同一性的序列由以下特定氨基酸表征：q在位置5，q在位置40，s在位置44，n在位置90，s在位置94，s在位置143，r在位置144，p在位置155，v在位置231，k在位置249和l在位置272。这些氨基酸残基是根据深度测序预测的靶位点识别的关键残基，并且在seq id no：68的野生型cre-重组酶序列中没有发现。
[0241]
由于这种重组酶单体的重组效率和特异性都不理想，所以dna重组酶异二聚体也是经过数个进化周期而发展起来的。
[0242]
因此，通过dna重组酶进一步解决了本发明的问题，其由异二聚体组成，其中所述异二聚体包括或由第一重组酶和第二重组酶组成，其中所述第一重组酶是多聚体，其氨基酸序列与根据seq id no：30的序列(重组酶28-l)的序列具有至少70％，优选80％，更优选90％的序列同一性，以及其中所述第二重组酶是多肽，其氨基酸序列与根据seq id no：31的序列(重组酶28-r)的序列具有至少70％，优选80％，更优选90％的序列同一性。
[0243]
优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：30的dna重组酶包含一个或多个突变。示例性突变包括n3d、l5q、v7l、p12s、p15l、v23a、m30v、h40a、k43n、m44t、l58s、k62e、y77h、a80v、k86n、q90r、g93a、q94l、s108g、a131v、k132r、e150g、n151s、c155r、q156n、i166v、a175s、v182i、i195v、k219r、d232g、t253s、s257t、r259d、a260v、e262r、e266v、t268a、i272v、y273h、k276r、a285r、p307a、n317t、n319e、i320s、n323s和i325l。更优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：30的重组酶具有一个或多个，优选两个、三个、四个、五个、六个、八个、九个、十个或多个突变，这些突变选自由n3d、l5q、v7l、p12s、p15l、v23a、m30v、h40a、k43n、m44t、l58s、k62e、y77h、a80v、k86n、q90r、g93a、q94l、s108g、a131v、k132r、e150g、n151s、c155r、q156n、i166v、a175s、v182i、i195v、k219r、d232g、t253s、s257t、r259d、a260v、e262r、e266v、t268a、i272v、y273h、k276r、a285r、p307a、n317t、n319e、i320s、n323s和i325l组成的组。在最优选的实施方案中，seq id no：30的重组酶具有上述所有突变。
[0244]
进一步最优选地，seq id no：30的重组酶具有由以下特定氨基酸特征的序列：q在位置5，a在位置40，t在位置44，v在位置80，r在位置90，l在位置94，r在位置155，r在位置219，v在位置266，v在位置272，s在位置323和l在位置325。在另一个优选实施方案中，seq id no：30的重组酶具有以下序列，其另外特征在于以下特定氨基酸：精氨酸在位置132，甘氨酸在位置150，甘氨酸在位置232和精氨酸在位置276。这些氨基酸残基是根据深度测序预测的靶位点识别的关键残基，在seq id no：68的野生型cre-重组酶序列中没有发现。
[0245]
优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：31的dna重组酶包含一个或多个突变。示例性突变包括l5q、t6a、v7l、l11p、p12s、a13t、p15l、v16a、s20c、r34s、m44a、l46q、a53v、n60s、k62r、y77h、a80t、q90h、q94s、r101q、s108g、k122r、t140a、f142l、s147a、i166v、a175g、k183r、n235d、k244r、n245y、a249k、r259y、e262q、e266g、t268a、i272v、r282k、i306l、n317t、i320s和g342d。更优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：31的重组酶具有一个或多个，优选两个、三个、四个、五个、六个、八个、九个、十个或多个突变，这些突变选自由l5q、t6a、v7l、l11p、p12s、a13t、p15l、v16a、s20c、r34s、m44a、l46q、a53v、n60s、k62r、y77h、a80t、q90h、q94s、r101q、s108g、k122r、t140a、f142l、s147a、i166v、a175g、k183r、n235d、k244r、n245y、a249k、r259y、e262q、e266g、t268a、i272v、r282k、i306l、n317t、i320s、g342d组成的组。在最优选的实施方案中，seq id no：31的重组酶具有上述所有突变。
[0246]
进一步最优选地，与seq id no：31的重组酶具有至少70％，优选80％，更优选90％序列同一性的序列的特征在于以下特定氨基酸：q在位置5、a在位置44、t在位置80、h在位置90、s在位置94、k在位置249、g在位置266、v在位置272和k在位置282。在另一优选实施方案中，seq id no：31的重组酶具有以下序列，其另外特征在于氨基酸精氨酸在位置183。这些氨基酸残基是根据深度测序预测的靶位点识别的关键残基，并且在seq id no：68的野生型cre-重组酶序列中没有发现。
[0247]
利用细菌和其他宿主生物进行重组蛋白表达是蛋白质生产的基本技术。密码子优化是重组蛋白表达的一个关键步骤，即通过同义替换来设计感兴趣蛋白的编码序列，以提高其表达水平。在传统的方法中，稀有密码子根据宿主生物基因组密码子的使用情况被频繁使用密码子替换。这种方法的基础在于编码序列由频繁使用密码子组成的内源性基因具有较高的蛋白表达水平，因此也可以通过增加密码子频率来提高重组蛋白的表达。另一种方法是引入计算预测使mrna二级结构不稳定的同义替换。由于稳定的mrna二级结构可能抑制翻译，这种方法被认为可以通过提高翻译效率来改善重组蛋白的表达。这些序列特征与蛋白质表达水平之间的关联已通过内源基因的组学分析表明。在本领域中已经显示了使用相对少量的基因对它们在重组蛋白表达中的影响的直接证据。
[0248]
经过分子定向进化的进一步循环，dna重组酶已经被开发出来，其显示出改进的酶活性。
[0249]
因此，本发明在另一个实施方案中提供了一种dna重组酶，其是异二聚体，其中第一单体是重组酶，其序列与根据seq id no.32(重组酶d7-l)的序列具有至少70％，优选80％，更优选90％的序列同一性，并且其中第二单体是重组酶，其序列与seq id no.33(重组酶d7-r)的序列具有至少70％，优选80％，更优选90％的序列同一性。
[0250]
优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：32的dna重组酶包含一个或多个突变。示例性突变包括l5q、v7l、p12s、p15l、v16a、d17n、v23a、m30v、q35r、h40a、m44t、s51t、y77h、a80v、k86n、q90r、g93a、q94l、s108g、n111s、a131v、k132r、q144k、e150g、i166v、a175s、v182i、k219r、e222g、d232g、r259d、a260v、e262r、i264v、e266a、t268a、i272v、a275t、r282g、a285t、p307a、n317t、n319e、i320s、n323s和i325l。在更优选的实施方案中，与seq id no：68的cre重组酶蛋白相比，seq id no：32的重组酶具有一个或多个，优选两个、三个、四个、五个、六个、八个、九个、十个或更多个突变，这些突变选自由l5q、v7l、
no.68)中没有发现。
[0256]
优选地，seq id no：33的dna重组酶单体具有以下序列，其中氨基酸残基在位置4为异亮氨酸，氨基酸残基在位置5为谷氨酰胺，氨基酸残基在位置7为脯氨酸，氨基酸残基在位置16为苏氨酸，氨基酸残基在位置22为缬氨酸，氨基酸残基在位置23为苏氨酸，氨基酸残基在位置28为丙氨酸，氨基酸残基在位置64为亮氨酸，氨基酸残基在位置66为缬氨酸，氨基酸残基在位置80为苏氨酸，氨基酸残基在位置90为组氨酸，氨基酸残基在位置94为丝氨酸，氨基酸残基在位置102为丙氨酸，氨基酸残基在位置132为谷氨酰胺，氨基酸残基在位置149为缬氨酸，氨基酸残基在位置249为赖氨酸，氨基酸残基在位置266为甘氨酸，氨基酸残基在位置272为缬氨酸，氨基酸残基在位置277为甘氨酸，氨基酸残基在位置282为赖氨酸，氨基酸残基在位置305位为脯氨酸和/或氨基酸残基在位置342为丝氨酸。
[0257]
这些氨基酸残基对于本发明的dna重组酶是特异的，并且在cre重组酶(seq id no.68)中没有发现。
[0258]
在另一优选实施方案中，本发明提供了一种dna重组酶，其是异二聚体，其中第一单体是重组酶，其序列与根据seq id no.93(重组酶a4-l)的序列具有至少70％，优选80％，更优选90％的序列同一性，并且其中第二单体是重组酶，其序列与seq id no.94(重组酶a4-r)的序列具有至少70％，优选80％，更优选90％的序列同一性。
[0259]
优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：93的dna重组酶包含一个或多个突变。示例性突变包括n3s、l5q、v7l、p12s、p15l、v23a、k25e、m28i、d29g、m30g、h40a、m44t、n60s、y77h、a80v、k86n、q90r、g93a、q94l、s108g、a131v、q144r、i166v、i174v、a175s、k211e、k219r、d232g、n257t、r259d、a260v、e262r、e266v、t268a、k276r、p307a、n317t、n319e、i320s、n323s和i325l。在更优选的实施方案中，与seq id no：68的cre重组酶蛋白相比，seq id no：93的重组酶具有一个或多个，优选两个、三个、四个、五个、六个、八个、九个、十个或多个突变，这些突变选自由n3s、l5q、v7l、p12s、p15l、v23a、k25e、m28i、d29g、m30g、h40a、m44t、n60s、y77h、a80v、k86n、q90r、g93a、q94l、s108g、a131v、q144r、i166v、i174v、a175s、k211e、k219r、d232g、n257t、r259d、a260v、e262r、e266v、t268a、k276r、p307a、n317t、n319e、i320s、n323s和i325l组成的组。在最优选的实施方案中，seq id no：93的重组酶具有上述所有突变。
[0260]
进一步最优选地，与seq id no：93的重组酶具有至少70％，优选80％，更优选90％序列同一性的序列的特征在于以下特定氨基酸：q在位置5、a在位置40、t在位置44、v在位置80、r在位置90、l在位置94、r在位置144、r在位置219、g在位置232、v在位置266、r在位置276、s在位置323和l在位置325。这些氨基酸残基是根据深度测序预测的靶位点识别的关键残基，并且在seq id no：68的野生型cre-重组酶序列中没有发现。
[0261]
优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：94的dna重组酶包含一个或多个突变。示例性突变包括n3s、l5p、v7l、n10s、p12s、p15l、t19a、d21g、k25t、d29v、r34s、e39v、k57e、e67d、y77h、q90h、q94s、n96d、s102a、s108g、k122r、e123a、k132g、i166v、a175s、k203r、k244r、n245y、a249k、r259y、e262q、e266g、t268a、i272v、a275v、r282k、v304a、i306l、n317t、i320和g342s。在更优选的实施方案中，与seq id no：68的cre重组酶蛋白相比，seq id no：94的重组酶具有一个或多个，优选两个、三个、四个、五个、六个、八个、九个、十个或更多个突变，这些突变选自由n3s、l5p、v7l、n10s、p12s、p15l、t19a、d21g、
k25t、d29v、r34s、e39v、k57e、e67d、y77h、q90h、q94s、n96d、s102a、s108g、k122r、e123a、k132g、i166v、a175s、k203r、k244r、n245y、a249k、r259y、e262q、e266g、t268a、i272v、a275v、r282k、v304a、i306l、n317t、i320s和g342s组成的组。在最优选的实施方案中，seq id no：94的重组酶具有上述所有突变。
[0262]
进一步最优选地，与seq id no：94的重组酶具有至少70％，优选80％，更优选90％的序列同一性的序列的特征在于以下特定氨基酸：p在位置5、h在位置90、s在位置94、g在位置132、r在位置183、k在位置249、g在位置266、v在位置272和k在位置282。这些氨基酸残基是根据深度测序预测的靶位点识别的关键残基，并且在seq id no：68的野生型cre-重组酶序列中没有发现。
[0263]
优选地，seq id no：93的dna重组酶单体具有以下序列，其中氨基酸残基在位置3为丝氨酸，氨基酸残基在位置5为谷氨酰胺，氨基酸残基在位置25为谷氨酸，氨基酸残基在位置28为异亮氨酸，氨基酸残基在位置29为甘氨酸，在位置30位甘氨酸的氨基酸残基，在位置40位氨基酸残基为丙氨酸，氨基酸残基在位置44为苏氨酸，氨基酸残基在位置60为丝氨酸，氨基酸残基在位置80为缬氨酸，氨基酸残基在位置90为精氨酸，氨基酸残基在位置94为亮氨酸，氨基酸残基在位置144为精氨酸，氨基酸残基在位置211为谷氨酸，氨基酸残基在位置219为精氨酸，氨基酸残基在位置232为甘氨酸，氨基酸残基在位置257为苏氨酸，氨基酸残基在位置266为缬氨酸，氨基酸残基在位置276为精氨酸，氨基酸残基在位置323为丝氨酸和/或氨基酸残基在位置325为亮氨酸。
[0264]
这些氨基酸残基对于本发明的dna重组酶是特异的，并且在cre重组酶(seq id no.68)中没有发现。
[0265]
优选地，seq id no：94的dna重组酶单体具有以下序列，其中氨基酸残基在位置3为丝氨酸，氨基酸残基在位置5为脯氨酸，氨基酸残基在位置21为甘氨酸，氨基酸残基在位置25为苏氨酸，氨基酸残基在位置29为缬氨酸，氨基酸残基在位置39为缬氨酸，氨基酸残基在位置67为天冬氨酸，氨基酸残基在位置90为组氨酸，氨基酸残基在位置94为丝氨酸，氨基酸残基在位置96为天冬氨酸，氨基酸残基在位置102为丙氨酸，氨基酸残基在位置123为丙氨酸，氨基酸残基在位置132为甘氨酸，氨基酸残基在位置183为精氨酸，氨基酸残基在位置249为赖氨酸，氨基酸残基在位置266为甘氨酸，氨基酸残基在位置272为缬氨酸，氨基酸残基在位置275为缬氨酸，氨基酸残基在位置282为赖氨酸，氨基酸残基在位置304为丙氨酸，氨基酸残基在位置306为亮氨酸和/或氨基酸残基在位置342为丝氨酸。
[0266]
这些氨基酸残基对于本发明的dna重组酶是特异的，并且在cre重组酶(seq id no.68)中没有发现。
[0267]
在另一优选实施方案中，本发明提供了一种dna重组酶，其是异二聚体，其中第一单体是重组酶，其序列与根据seq id no.99(重组酶d11-l)的序列具有至少70％，优选80％，更优选90％的序列同一性，并且其中第二单体是重组酶，其序列与根据seq id no.100(重组酶d11-r)的序列具有至少70％，优选80％，更优选90％的序列同一性。
[0268]
优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：99的dna重组酶包含一个或多个突变。示例性突变包括l5q、v7i、p12t、l14s、p15l、v16a、v23a、m30v、f31l、h40a、m44t、s51t、l58s、y77h、a80v、k86n、q90r、g93a、q94l、s108g、a131v、k132r、f142l、e150g、n151d、q156k、l164p、i166v、a175s、v182i、k219r、a249v、r259d、a260v、e262r、e266a、
a267t、t268a、i272v、k276r、d278g、y283f、a285t、p307a、n317t、n319g和i320s。在更优选的实施方案中，与seq id no：68的cre重组酶蛋白相比，seq id no：99的重组酶具有一个或多个，优选两个、三个、四个、五个、六个、八个、九个、十个或更多个突变，这些突变选自由l5q、v7i、p12t、l14s、p15l、v16a、v23a、m30v、f31l、h40a、m44t、s51t、l58s、y77h、a80v、k86n、q90r、g93a、q94l、s108g、a131v、k132r、f142l、e150g、n151d、q156k、l164p、i166v、a175s、v182i、k219r、a249v、r259d、a260v、e262r、e266a、a267t、t268a、i272v、k276r、d278g、y283f、a285t、p307a、n317t、n319g和i320s组成的组。在最优选的实施方案中，seq id no：99的重组酶具有上述所有突变。
[0269]
进一步最优选地，与seq id no：99的重组酶具有至少70％，优选80％，更优选90％序列同一性的序列的特征在于以下特定氨基酸：q在位置5位、a在位置40、t在位置44、v在位置80、r在位置90、在l位置94、r在位置132、g在位置150、r在位置219、v在位置272和r在位置276。这些氨基酸残基是根据深度测序预测的靶位点识别的关键残基，并且在seq id no：68的野生型cre-重组酶序列中没有发现。
[0270]
优选地，与seq id no：68的cre重组酶蛋白相比，seq id no：100的dna重组酶包含一个或多个突变。示例性突变包括n3d、l5q、v7l、n10k、p12s、p15l、v16a、v23a、f31l、r34w、k57e、n60s、q90h、q94s、s108g、s147l、a175s、k183r、k211e、n235d、k244r、n245y、a249k、r259y、e262q、e266g、t268a、i272v、r282k、s305p、n317t、n319g和i320s。在更优选的实施方案中，与seq id no：68的cre重组酶蛋白相比，seq id no：100的重组酶具有一个或多个，优选两个、三个、四个、五个、六个、八个、九个、十个或多个突变，这些突变选自由n3d、l5q、v7l、n10k、p12s、p15l、v16a、v23a、f31l、r34w、k57e、n60s、q90h、q94s、s108g、s147l、a175s、k183r、k211e、n235d、k244r、n245y、a249k、r259y、e262q、e266g、t268a、i272v、r282k、s305p、n317t、n319g和i320s组成的组。在最优选的实施方案中，seq id no：100的重组酶具有上述所有突变。
[0271]
进一步最优选地，与seq id no：100的重组酶具有至少70％，优选80％，更优选90％序列同一性的序列的特征在于以下特定氨基酸：q在位置5、h在位置90、s在位置94、r在位置183、k在位置249、g在位置266、v在位置272和k在位置282。这些氨基酸残基是根据深度测序预测的靶位点识别的关键残基，并且在seq id no：68的野生型cre-重组酶序列中没有发现。
[0272]
优选地，seq id no：99的dna重组酶单体具有以下序列，其中在位置5位氨基酸残基为谷氨酰胺，在位置40位氨基酸残基为丙氨酸，氨基酸残基在位置44为苏氨酸，氨基酸残基在位置58为丝氨酸，氨基酸残基在位置80为缬氨酸，氨基酸残基在位置90为精氨酸，氨基酸残基在位置94为亮氨酸，氨基酸残基在位置132为精氨酸，氨基酸残基在位置142为亮氨酸，氨基酸残基在位置150为甘氨酸，氨基酸残基在位置156为赖氨酸，氨基酸残基在位置164为脯氨酸，氨基酸残基在位置219为精氨酸和/或氨基酸残基在位置319为甘氨酸。
[0273]
这些氨基酸残基对于本发明的dna重组酶是特异的，并且在cre重组酶(seq id no.68)中没有发现。
[0274]
优选地，seq id no：100的dna重组酶单体具有以下序列，其中氨基酸残基在位置3为天冬氨酸，氨基酸残基在位置5为谷氨酰胺，氨基酸残基在位置10为赖氨酸，氨基酸残基在位置34为色氨酸，氨基酸残基在位置60为丝氨酸，氨基酸残基在位置90为组氨酸，氨基酸
no：33的序列具有至少70％，优选80％，更优选90％的序列同一性，以用于识别重组酶靶位点的上游靶序列和下游靶序列。
[0284]
在另一个最优选实施方案中，本发明提供一种融合蛋白，其包括dna重组酶的异二聚体，其中所述异二聚体包括第一重组酶和第二重组酶，所述第一重组酶的氨基酸序列与根据seq id no：93的序列具有至少70％，优选80％，更优选90％的序列同一性，以及所述第二重组酶的氨基酸序列与根据seq id no：94的序列具有至少70％，优选80％，更优选90％的序列同一性，以用于识别重组酶靶位点的上游靶序列和下游靶序列。
[0285]
实验表明，异二聚体融合蛋白的活性进一步受到重组酶单体和接头相互连接的方向的影响。当第一重组酶、第二重组酶和接头相互连接使得如下所述时，在loxf8位点上的异二聚体的活性最好：
[0286]
i.将具有特异识别第二半位点(如重组酶靶位点的右半位点)的seq id no：31氨基酸序列的重组酶的c-末端与接头融合至具有特异识别第一半位点(如重组酶靶位点的左半位点)的氨基酸序列的重组酶的n-末端；并且更优选的是
[0287]
ii.将具有特异识别第二半位点(如重组酶靶位点的右半位点)的seq id no：33氨基酸序列的重组酶的c-末端与接头融合至具有特异识别第一半位点(如重组酶靶位点的左半位点)的seq id no：32氨基酸序列的重组酶的n-末端。
[0288]
当第一重组酶、第二重组酶和接头相互连接使得如下所述时，loxf8位点上的异二聚体甚至显示出最佳的活性：
[0289]
i.将具有特异识别第二半位点(如重组酶靶位点的右半位点)的seq id no：94氨基酸序列的重组酶的c-末端与接头融合至具有特异识别第一半位点(如重组酶靶位点的左半位点)的seq id no：93氨基酸序列的重组酶的n-末端；并且更优选的是
[0290]
ii.将具有特异识别第二半位点(如重组酶靶位点的右半位点)的seq id no：100氨基酸序列的重组酶的c-末端与接头融合至具有特异识别第一半位点(如重组酶靶位点的左半位点)的seq id no：99氨基酸序列的重组酶的n-末端。
[0291]
因此，本发明的完整融合蛋白在优选实施方案中具有与下述序列具有至少70％，优选80％，更优选90％的序列同一性的氨基酸序列
[0292]
i.根据seq id no：71或seq d no.：103；或者最优选地
[0293]
ii.根据seq id no：72或seq id no：97。
[0294]
在另一个实施方案中，本发明提供一种融合蛋白，其中第一重组酶、第二重组酶和接头相互连接，使得
[0295]
i.具有特异识别第一半位点(如重组酶靶位点的左半位点)的seq id no：93氨基酸序列的重组酶的c-末端与接头融合至具有特异识别第二半位点(如重组酶靶位点的右半位点)的seq id no：94氨基酸序列的重组酶的n-末端；更优选的是
[0296]
ii.具有特异识别第一半位点(如重组酶靶位点的左半位点)的seq id no：99氨基酸序列的重组酶的c-末端与接头融合至具有特异识别第二半位点(如重组酶靶位点的右半位点)的seq id no：100氨基酸序列的重组酶的n-末端；并且更优选地。
[0297]
本发明还涉及核酸分子，例如编码根据本发明的dna重组酶或其单体或融合蛋白的多核苷酸或核酸。
[0298]
本发明的“多核苷酸”或“核酸”可以是rna形式或dna形式；dna应理解为包括cdna、
基因组dna、重组dna和合成dna。dna可以是双链或单链，如果是单链，可以是编码链或非编码(反义)链。编码多肽的编码序列可以与seq id nos：30至33，优选seq id nos：32和33所示的多肽的编码序列相同，或者由于遗传密码的冗余或简并或单核苷酸多态性，可以是编码同一多肽的不同编码序列。例如，也可以是rna转录本，其包括seq id nos 30-33、93、94、99和100中任一项的多肽的编码序列的全部长度。在优选实施方案中，根据本发明的“多核苷酸”是seq id no 34-37、67、95、96、101和102中的一种，其中seq id no：34的多核苷酸编码seq id no：30的dna重组酶单体；seq id no：35的多核苷酸编码seq id no：31的dna重组酶单体，seq id no：36的多核苷酸编码seq id no：32的dna重组酶单体，seq id no：37的多核苷酸编码seq id no：33的dna重组酶单体；seq id no：67的多核苷酸编码seq id no：66的dna重组酶单体。seq id no：95的多核苷酸编码seq id no：93的dna重组酶单体，seq id no：96的多核苷酸编码seq id no：94的dna重组酶单体，seq id no：101的多核苷酸编码seq id no：99的dna重组酶单体，seq id no：102的多核苷酸编码seq id no：100的dna重组酶单体。
[0299]
编码seq id no：30-33、66、93、94、99和100，优选seq id no：32和33或seq id no：93和94的多肽的核酸可包括但不限于单独的多肽的编码序列；多肽的编码序列加上另外的编码序列，如前导序列或分泌序列或前蛋白序列；以及多肽的编码序列(和任选地另外的编码序列)加上非编码序列，例如内含子或多肽编码序列5'和/或3'的非编码序列。编码seq id no：30-33、66、93、94、99和100，优选seq id no：32和33或seq id no：93和94多肽的核酸包括已经密码子优化用于在人细胞中表达的核酸。它们还可以含有核定位序列。
[0300]
因此，术语“编码多肽的多核苷酸”或术语“编码多肽的核酸”应理解为包括仅包括本发明的dna重组酶的编码序列的多核苷酸或核酸，例如选自seq id nos：30-33、66、93、94、99和100，优选seq id nos：32和33或seq id nos：93和94的多肽，以及包括另外的编码和/或非编码序列的多肽。术语多核苷酸和核酸可互换使用。
[0301]
本发明还包括多核苷酸，其中多肽的编码序列可以在相同的阅读框中融合到有助于从宿主细胞表达和分泌多肽的多核苷酸序列；例如，作为控制多肽从细胞转运的分泌序列的前导序列可以如此融合。具有这种前导序列的多肽称为前蛋白或前原蛋白，并可使前导序列被宿主细胞切割以形成蛋白质的成熟形式。这些多核苷酸可能具有一个5'延伸的区域，因此它编码一个前蛋白，即成熟蛋白加上n-末端的另外的氨基酸残基。具有这种前序列的表达产物称为前蛋白，其是成熟蛋白的非活性形式；然而，一旦前序列被切割，一个有活性的成熟蛋白就会保留下来。另外的序列也可以连接到蛋白质上，并且是成熟蛋白质的一部分。因此，例如，本发明的多核苷酸可以编码多肽，或具有前序列的蛋白质，或同时具有前序列和前序列(例如前导序列)的蛋白质。
[0302]
本发明的多核苷酸还可以具有在框架中融合到标记序列的编码序列，其允许本发明的多肽的纯化。标记序列可以是亲和标记或表位标记，例如多组氨酸标记、链霉亲和素标记、xpress标记、flag标记、纤维素或甲壳素结合标记、谷胱甘肽-s转移酶标记(gst)、血凝素(ha)标记、c-myc标记或v5标记。
[0303]
ha标记对应于从流感血凝素蛋白获得的表位(wilson等人，1984年)，而c-myc标记可能是从人myc蛋白获得的表位(evans等人，1985年)。
[0304]
如果本发明的核酸是mrna，特别是用作药物，则通过在最大化mrna的翻译和稳定
性、防止其免疫刺激活性和体内递送技术的发展方面取得了重大进展，从而促进了mrna治疗药物的递送。5'端帽和3'poly(a)尾是成熟真核mrnas高效翻译和延长的半衰期的主要因素。在体外转录(ivt)的mrnas中加入抗逆转录帽类似物如arca(抗逆转录帽类似物)和120-150bp的poly(a)尾部，可显著提高编码蛋白的表达和mrna的稳定性。新型的帽类似物，如1,2-二硫代二磷酸修饰的帽具有抗rna包封复合物的能力，其可以进一步提高rna翻译效率。用同义频繁出现的密码子替换mrna蛋白质编码序列中的稀有密码子，即所谓的密码子优化，也有助于提高蛋白质合成的效率，并限制稀有密码子对mrna的破坏，从而防止转录本的加速降解。同样，工程化3'和5'非翻译区(utrs)，其包含负责招募rna结合蛋白(rbps)和mirnas的序列，其可以提高蛋白质产物的水平。有趣的是，utrs可以被有意地修饰以编码调控元件(例如，k-转角模体和mirna结合位点)，从而提供了以细胞特异性方式控制rna表达的手段。一些rna碱基修饰，如n1-甲基-假尿苷不仅有助于掩盖mrna的免疫刺激活性，而且还通过增强翻译起始来增加mrna的翻译。除了观察到的对蛋白质翻译的影响外，碱基修饰和密码子优化还影响mrna的二级结构，进而影响其翻译。本发明还设想了对本发明的核酸分子进行相应的修饰。
[0305]
本发明被认为进一步提供与上述序列杂交的多核苷酸，其中序列之间至少70％，优选至少90％，更优选至少95％的同一性或相似性，并且因此编码具有类似生物活性的蛋白质。此外，如本领域所知，当氨基酸序列中的每个单独残基含有相同或保守的氨基酸替代物时，两个多肽之间存在“相似性”。同一性和相似性可以使用序列分析软件(例如，在pbil(bioinformatique lyonnais)http://npsa-pbil.ibcp.fr的clustalw)进行测量。本发明特别提供这样的多核苷酸，其在严格条件下与上述多核苷酸杂交。
[0306]
适当严格条件可以由例如预杂交和杂交溶液中的盐或甲酰胺的浓度或杂交温度来定义，并且在本领域中是众所周知的。特别地，可以通过降低盐的浓度、通过增加甲酰胺的浓度和/或通过提高杂交温度来提高严格度。
[0307]
例如，在高严格条件下的杂交可能在37℃至42℃下使用约50％的甲酰胺，而在低严格条件下的杂交可能在30℃至35℃下使用约35％至25％的甲酰胺。在高严格条件下，一组特殊的杂交条件使用42℃、50％甲酰胺、5x sspe、0.3％sds和200μg/ml剪切变性鲑鱼精子dna。对于降低严格度的杂交，可以在35％甲酰胺中，在35℃的降低温度使用上述类似的条件。通过计算目的核酸的嘌呤与嘧啶之比并相应地调节温度，可以进一步缩小对应于特定严格水平的温度范围。上述范围和条件的变化在本领域中是众所周知的。优选地，只有在序列之间存在至少95％，更优选地至少97％的同一性时才应该发生杂交。在优选实施方案中，与上述多核苷酸杂交的多核苷酸编码的多肽表现出与seq id nos：30至-33、66、93、94、99和100，优选seq id nos：32和33或seq id nos：93和94的成熟蛋白基本相同的生物学功能或活性。
[0308]
如上所述，合适的多核苷酸探针可以具有至少14个碱基，优选30个碱基，更优选至少50个碱基，并将与如上所述具有同一性的本发明的多核苷酸杂交。例如，这种多核苷酸可以用作探针，用于分别与编码seq id nos：30-33、66、93、94、99和100的多肽的多核苷酸杂交，例如分别与seq id nos：34-37、67、95、96、101和102的多核苷酸杂交，例如用于回收这种多核苷酸，或者用作诊断探针，或者用作pcr引物。因此，本发明包括与编码seq id nos：30-33、66、93、94、99和100的多肽的seq id nos：34-37、67、95、96、101和102的多核苷酸具
有至少70％，优选至少90％，更优选至少95％的同源性的多核苷酸，以及它们的片段，其中这些片段优选具有至少30个碱基，更优选至少50个碱基。
[0309]
这里可互换使用的术语“同源性”或“同一性”是指两个多核苷酸序列之间或两个多肽序列之间的序列相似性，同一性是更严格的比较。“同一性或同源性百分比”和“同一性或同源性”是指在两个或两个以上多核苷酸序列或两个或两个以上多肽序列的比较中发现的序列相似性百分比。“序列相似性”是指两个或多个多核苷酸序列之间碱基对序列的相似性百分比(通过任何合适的方法确定)。两个或多个序列可以是0-100％的相似度，也可以是两者之间的任何整数值。同一性或相似性可以通过比较每个序列中的位置来确定，该位置可以为了比较的目的比对。当比较序列中的一个位置被相同的核苷酸碱基或氨基酸占据时，则该位置上的分子是相同的。多核苷酸序列之间的相似性或同一性程度是多核苷酸序列共享位置上相同或匹配核苷酸数量的函数。
[0310]
多肽序列的同一性程度是多肽序列所共有位置上相同氨基酸数目的函数。多肽序列的同源性或相似性程度是多肽序列共享位置上氨基酸数目的函数。在此使用的术语“基本相同”是指至少70％、75％、至少80％、至少85％、至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更多的同一性或同源性。
[0311]
通过选择一个序列作为查询序列，并使用blastp算法(ncbi)将其与基于网络的工具clustalw和genbank中的同源序列进行比对，确定序列的同一性程度。
[0312]
如本领域所公知的，遗传密码是冗余的，因为某些氨基酸由多于一个的核苷酸三联体(密码子)编码，并且本发明包括那些多核苷酸序列，它们使用与本文所示序列中具体例举的密码子不同的密码子编码相同的氨基酸。这样的多核苷酸序列在本文中称为“等效”多核苷酸序列。本发明还包括上述多核苷酸的变体，其编码seq id nos 30-33、66、93、94、99和100的多肽的片段，例如部分或全部蛋白质、类似物和衍生物。多核苷酸的变体形式可以是多核苷酸的自然发生的等位基因变体或多核苷酸的非自然发生的变体。例如，核酸中的变异可以仅仅是由于遗传密码的退化而导致的氨基酸密码子序列的差异，或者可以存在缺失变异、替换变异和添加或插入变异。如本领域中已知的，等位基因变体是多核苷酸序列的替代形式，其可以具有一个或多个核苷酸的替换、缺失或添加，其基本上不改变编码多肽的生物学功能。
[0313]
在更优选实施方案中，本发明所述的多核苷酸编码本发明的完整融合蛋白，更优选地编码dna重组酶的异二聚体，其中所述异二聚体包括第一重组酶，其氨基酸序列与根据seq id no：30、32、93或99的序列具有至少70％，优选80％，更优选90％的序列同一性；以及第二重组酶，其氨基酸序列与根据seq id no：31、33、94或100的序列具有至少70％，优选80％，更优选90％的序列同一性，以用于识别重组酶靶位点的上游靶序列和下游靶序列；其中所述多核苷酸进一步编码如本文所述的接头。
[0314]
在一个实施方案中，本发明所述的多核苷酸包括seq id no 34的核酸和seq id no 35的核酸，以及编码接头寡肽的核酸。
[0315]
在另一个实施方案中，本发明所述的多核苷酸包含seq id no 36的核酸和seq id no 37的核酸，以及编码接头寡肽的核酸。
[0316]
在另一个实施方案中，本发明所述的多核苷酸包含seq id no 95的核酸和seq id no 96的核酸，以及编码接头寡肽的核酸。
[0317]
在另一个实施方案中，本发明所述的多核苷酸包含seq id no 101的核酸和seq id no 102的核酸，以及编码接头寡肽的核酸。
[0318]
编码接头寡肽的核酸优选选自seq id nos 38至54的核酸(参见实施例2中的表3)
[0319]
更优选地，编码接头寡肽的核酸优选选自seq id nos 55至63的核酸(参见实施例2中的表4)。
[0320]
最优选地，编码本发明的融合蛋白的核酸是包含以下的核酸
[0321]
i.序列为seq id nos 34、35和61的核酸；如seq id no 64的核酸；或
[0322]
ii.序列为seq id nos 36、37、61的核酸；如seq id no 65的核酸；或
[0323]
iii.序列为seq id nos 93、94和61的核酸；如seq id no 98的核酸；或
[0324]
iv.序列为seq id nos 99、100和61的核酸；如seq id no 104的核酸；或
[0325]
v.序列为seq id nos 95和96的核酸；或
[0326]
vi.序列为seq id nos 101和102的核酸；
[0327]
vii.序列为seq id nos 34、35的核酸；或
[0328]
viii.序列为seq id nos 36、37的核酸；或
[0329]
ix.seq id no 67的核酸。
[0330]
最优选地，编码本发明的融合蛋白的核酸是包含或由seq id no 64组成的核酸。
[0331]
甚至最优选地，编码本发明的融合蛋白的核酸是包含或由seq id no 65组成的核酸。
[0332]
甚至最优选地，编码本发明的融合蛋白的核酸是包含或由seq id no 98组成的核酸。
[0333]
甚至最优选地，编码本发明的融合蛋白的核酸是包含或由seq id no 104组成的核酸。
[0334]
本发明还包括载体，其包括所述多核苷酸，用所述载体基因工程化的宿主细胞，以及通过使用前述重组技术生产seq id nos：30至33、66、93、94、99和100，优选seq id nos：32和33或seq id nos：93和94的多肽。宿主细胞用这些载体进行基因工程化(转导、转化、transconjugated或转染)，这些载体可以是，例如，克隆载体或表达载体。载体可以是例如质粒、接合质粒、病毒颗粒、噬菌体等形式。载体或基因可以在特定或未特定的位点整合到染色体中。用于重组dna的基因组整合的方法，例如同源重组或转座酶介导的整合，在本领域是众所周知的。工程化宿主细胞可以在常规营养培养基中培养，所述营养培养基根据激活启动子、选择转化子或扩增本发明的基因而进行适当的修饰。培养条件，例如温度、ph等，是与选择用于表达的宿主细胞共同使用的那些，如普通技术人员所熟知的。宿主细胞可以是哺乳动物、昆虫、植物或细菌宿主细胞，其包括本文描述的核酸或重组多核苷酸分子或表达载体。
[0335]
表达载体中的多核苷酸序列可操作地连接到适当的表达控制序列(启动子)以指导mrna合成。作为这类启动子的代表性实例，可以提到：ltr或sv40启动子，大肠杆菌lac、ara、rha或trp，噬菌体λpl启动子和已知的控制原核细胞或真核细胞或其病毒中基因表达的其他启动子。
[0336]
本领域技术人员可基于所需性质选择载体，例如用于在特定细胞如哺乳动物细胞或细菌细胞中生产载体。
[0337]
各种可诱导的启动子或增强子中的任何一种可包含在表达本发明抗体或可调控的核酸的载体中。这种诱导系统包括，例如，四环素诱导系统；重金属诱导的金属硫蛋白启动子；对蜕皮激素或相关类固醇如米乐甾酮(muristerone)响应的昆虫类固醇激素；糖皮质激素、雌激素等类固醇诱导的小鼠乳腺肿瘤病毒(mmtv)；以及温度变化诱导的热激促进剂；大鼠神经元特异性烯醇化酶基因启动子；人β-肌动蛋白基因启动子；人血小板衍生生长因子b(pdgf-b)链基因启动子；大鼠钠通道基因启动子；人铜锌超氧化物歧化酶基因启动子；和哺乳动物pou结构域调控基因家族成员的启动子。
[0338]
调控因素，包括启动子或增强子，其可以是组成型的，也可以是调控型的，这取决于调控的性质。调控序列或调控元件可操作地连接到本发明的多核苷酸序列之一，使得多核苷酸序列和调控序列之间的物理和功能关系允许多核苷酸序列的转录。用于在真核细胞中表达的载体可以包括，例如，调节元件包括cag启动子、sv40早期启动子、巨细胞病毒(cmv)启动子、小鼠乳腺肿瘤病毒(mmtv)类固醇诱导启动子、pgtf、莫洛尼(moloney)海洋白血病病毒(mmlv)启动子、thy-1启动子等。
[0339]
如果需要，载体可以包含一个可选择的标记。如本文所使用的，“可选择的标记”是指向其中引入了可选择标记的细胞提供可选择表型的遗传元件。可选择的标记通常是其基因产物提供对抑制细胞生长或杀死细胞的试剂的抗性的基因。在本发明的dna构建体中可以使用多种可选择的标记，包括例如neo、hyg、hisd、gpt和ble基因，如ausubel等人，1999年和美国专利第5,981,830号所述。用于选择可选择的标记的药物包括，例如用于neo的g418、用于hyg的潮霉素、用于hisd的组氨醇、用于gpt的黄嘌呤和用于ble的博莱霉素。本发明的dna构建体可以包含阳性可选择的标记、可选择的标记或两者。
[0340]
各种哺乳动物细胞培养系统也可用于表达重组蛋白。哺乳动物表达系统的实例包括猴肾成纤维细胞的cos-7系。其它能够表达相容载体的细胞系包括例如c127、3t3、cho、hela和bhk细胞系。哺乳动物表达载体通常包括复制起点、合适的启动子和增强子，以及任何必要的核糖体结合位点、多聚腺苷酸化位点、剪接供体和受体位点、转录终止序列和5'侧非转录序列。来自sv40剪接的dna序列和多聚腺苷酸化位点可用于提供所需的非转录遗传元件。
[0341]
通过硫酸铵或乙醇沉淀法、酸提取法、阴阳离子交换层析法、磷纤维素层析法、疏水作用层析法、亲和层析法、羟基磷灰石层析法和凝集素层析法等方法从重组细胞培养物中回收和纯化多肽。如果多肽在细胞表面表达，可以促进回收，但这不是先决条件。在表达较长形式的多肽后被切割的切割产物的回收也可能是期望的。如本领域中已知的蛋白质复性步骤可在必要时用于完成成熟蛋白质的构型。高效液相色谱(hplc)可用于最后的纯化步骤。
[0342]
根据本发明的另一个实施方案，提供了基因治疗载体，例如用于系统地或局部地增加本发明融合蛋白在受试者中的表达。所述基因治疗载体被用于预防、减轻、改善、减少、抑制和/或治疗可通过基因组编辑治疗的疾病，特别是血友病a。所述基因治疗载体通常包括包含编码本发明融合蛋白的多核苷酸的表达盒。在一个实施方案中，载体是病毒载体。在优选的实施方案中，病毒载体是从腺病毒、逆转录病毒、慢病毒、疱疹病毒和腺相关病毒(aav)组成的组中选择的病毒。在更优选的实施方案中，所述载体来自腺相关病毒(aav)血清型1-11中的一种或多种，或其任何亚群或任何工程化形式。在另一个实施方案中，病毒载
体被封装在阴离子脂质体中。
[0343]
在另一个实施方案中，所述载体是非病毒载体。在优选实施方案中，非病毒载体选自由裸dna、阳离子脂质体复合物、阳离子聚合物复合物、阳离子脂质体-聚合物复合物和外泌体组成的组。
[0344]
如果所述载体是病毒载体，则所述表达盒适当地包括在5'到3'方向上可操作地连接(从要转录的mrna的角度来看)、第一反向末端重复序列、增强子、启动子、编码本发明融合蛋白的多核苷酸、3'非翻译区、多聚腺苷酸化(polya)信号和第二反向末端重复序列。所述启动子例如选自巨细胞病毒(cmv)启动子和鸡β肌动蛋白(cag)启动子。所述多核苷酸优选包括dna或cdna或rna或mrna。在优选实施方案中，编码本发明融合蛋白的多核苷酸包含seq id no：30、seq id no：31、seq id no：32、seq id no：33、seq id no：66、seq id no：93、seq id no：94、seq id no：99和seq id no：100的一种或多种多肽。在最优选的实施方案中，编码本发明融合蛋白的多核苷酸与seq id no：64、seq id no：65、seq id no：67、seq id no：98和seq id no：104中的一个或多个具有至少约75％、80％、85％或90％的序列同一性，例如至少约91％、92％、93％、94％、95％、96％、97％、98％、99％的序列同一性。
[0345]
本发明还涉及本发明的融合蛋白或用作药物的核酸分子、重组多核苷酸或本发明的表达载体。在更优选的实施方案中，本发明还涉及本发明的融合蛋白或核酸分子、重组多核苷酸或表达载体，用于预防或治疗可通过基因组编辑治疗的疾病，特别是血友病a。
[0346]
在另一个实施方案中，本发明涉及本发明的融合蛋白或核酸分子、重组多核苷酸或本发明的表达载体在制备用于预防或治疗可通过基因组编辑治疗的疾病，特别是血友病a的药物中的用途。
[0347]
在另一个实施方案中，本发明涉及一种预防或治疗可通过基因组编辑治疗的疾病的方法，特别是血友病a，其包括向需要治疗的患者施用治疗有效量的本发明的融合蛋白或核酸分子、重组多核苷酸或本发明的表达载体。
[0348]
本发明的融合蛋白或本发明的核酸分子、重组多核苷酸或表达载体特别适用于重症血友病a的治疗。
[0349]
本发明的融合蛋白或本发明的核酸分子、重组多核苷酸或表达载体可进一步包含在药物组合物中，所述药物组合物可任选地进一步包含一种或多种治疗上可接受的稀释剂或载体。
[0350]
提供了药物组合物，例如用于预防或治疗可通过基因组编辑治疗的疾病，如血友病a，其包括治疗有效量的载体，该载体包括编码根据本发明的一种或多种融合蛋白的多核苷酸核酸序列，或包括编码根据本发明的融合蛋白的治疗活性量的核酸，或包括治疗活性量的本发明的重组融合蛋白(一起称为“治疗活性剂”)。
[0351]
应当理解，本发明的治疗活性剂和组合物的单次剂量或每日总剂量将由主治医师在合理的医学判断范围内决定。对任何特定患者的特定治疗有效剂量水平将取决于各种因素，包括正在治疗的疾病和疾病的严重程度；所用特定化合物的活性；所使用的具体成分、患者的年龄、体重、一般健康状况、性别和饮食；给药时间、给药途径和所用特定化合物的排泄率；治疗的持续时间；与所使用的特定核酸或多肽联合或巧合使用的药物；和医学美术中众所周知的因素一样。例如，在本领域技术人员的范围内，以低于达到所需治疗效果所需的水平开始所述化合物的剂量，并逐渐增加剂量，直到达到所需效果。然而，每个成年人每天
的剂量可能会在很大范围内变化。治疗活性剂的治疗有效量，例如应该给药的本发明的载体，以及用本文所述的病毒或非病毒颗粒和/或药物组合物的数量治疗病理状态的剂量，将取决于许多因素，包括患者的年龄和状态、紊乱或疾病的严重程度、给药的方法和频率以及要使用的特定肽。
[0352]
含有本发明的治疗活性剂的药物组合物可以是适合于所选给药模式的任何形式。
[0353]
在一个实施方案中，本发明的药物组合物经胃肠外给药。
[0354]
这里所用的“胃肠外给药”和“肠外给药”是指除肠内和局部给药之外的给药方式，通常通过注射，包括表皮、静脉、肌肉、动脉、鞘内、囊内、眶内、心内、皮内、腹腔、神经内、经气管、皮下、表皮下、关节内、囊下、蛛网膜下、椎管内、颅内、胸腔内、硬膜外和胸腔内注射和输注。
[0355]
本发明的治疗活性剂可以作为单独的活性剂或与其他活性剂联合以单位给药形式，作为与常规药物载体的混合物施予动物和人。
[0356]
在进一步的实施方案中，药物组合物包含对于能够注射的制剂在药学上可接受的载体。这些可特别是等渗、无菌、盐溶液(磷酸一钠或二钠、氯化钠、钾、钙或镁等或此类盐的混合物)，或干的，特别是冻干的组合物，根据情况，加入消毒水或生理盐水后，可构成可注射溶液。
[0357]
适合注射用的药物形式包括无菌水溶液或分散体；配方包括芝麻油、花生油或水性丙二醇；以及用于即刻制备无菌注射溶液或分散体的无菌粉末。在所有情况下，该形式必须是无菌的且必须是流动的。它必须在制造和储存条件下是稳定的，必须防止微生物，如细菌和真菌的污染作用。
[0358]
含有作为游离碱的治疗活性剂或药理学上可接受的盐的溶液可以在与表面活性剂如羟丙基纤维素适当混合的水中制备。分散体也可以在甘油、液体聚乙二醇及其混合物和油中制备。在普通的储存和使用条件下，这些制剂含有防腐剂，以防止微生物的生长。
[0359]
治疗活性剂可配制成中性或盐形式的组合物。药学上可接受的盐包括酸加成盐(与蛋白质的游离氨基形成)，其与无机酸如盐酸或磷酸或有机酸如乙酸、草酸、酒石酸、扁桃酸等形成。与游离羧基形成的盐也可以衍生自无机碱，如钠、钾、铵、钙或氢氧化铁，以及有机碱，如异丙胺、三甲胺、组氨酸、普鲁卡因等。
[0360]
载体还可以作为溶剂或分散介质，包括例如水、乙醇、多元醇(例如甘油、丙二醇和液体聚乙二醇等)、它们的适当混合物和植物油。适当的流动性可以保持，例如，通过使用涂层，如卵磷脂，通过在分散以及通过使用表面活性剂情况下保持所需的粒径。可以通过各种抗菌和抗真菌剂来防止微生物的作用，例如对羟基苯甲酸、氯丁醇、苯酚、山梨酸、硫柳汞等。在许多情况下，优选包括等渗剂，例如糖或氯化钠。可以通过在组合物中使用延迟吸收的试剂，例如单硬脂酸铝和明胶来实现可注射组合物的长期吸收。
[0361]
无菌可注射溶液是通过将所需量的活性多肽与上述几种其他成分结合在适当的溶剂中，然后过滤灭菌来制备的。通常，分散体是通过将各种消毒活性成分加入无菌载体来制备的，该无菌载体含有基本分散介质和上述所需的其他成分。在用于制备无菌可注射溶液的无菌粉末的情况下，优选的制备方法是真空干燥和冷冻干燥技术，其从其先前无菌过滤的溶液中获得活性成分的粉末加上任何另外的所需成分。
[0362]
在配制时，溶液可以以与剂量配制兼容的方式和治疗有效的量给药。所述制剂容
易以各种剂型给药，例如上述类型的可注射溶液，但也可以使用药物释放胶囊等。也可以给药多剂量。适当时，本文所述的治疗活性剂可配制在任何合适的递送载体中。例如，它们可以放入药学上可接受的悬浮液、溶液或乳剂中。适宜的介质包括生理盐水和脂质体制剂。更具体地说，药学上可接受的载体可包括非水溶液的无菌水、悬浮液和乳液。非水溶剂的例子有丙二醇、聚乙二醇、植物油如橄榄油和可注射的有机酯如油酸乙酯。水性载体包括但不限于水、醇/水溶液、乳液或悬浮液，其包括盐水和缓冲介质。静脉递送介质包括液体和营养补充剂，电解质补充剂(如基于林格氏葡萄糖的那些)，等等。
[0363]
还可以存在防腐剂和其他添加剂，例如，抗菌剂、抗氧化剂、螯合剂和惰性气体等。
[0364]
胶体分散体系也可用于靶向基因递送。胶体分散体系包括高分子复合物、纳米胶囊、微球、微珠和脂质体系，其包括水包油乳液、胶束、混合胶束和脂质体。
[0365]
合适的治疗方案可以由医生决定，并将取决于患者的年龄、性别、体重和疾病的阶段。例如，为了使用病毒表达载体递送编码本发明的融合蛋白的核酸序列，每个单位剂量的融合蛋白表达载体可以包括2.5μl至100μl的组合物，该组合物包括药学上可接受的液体中的病毒表达载体，其浓度范围为每毫升10
11
至10
16
个病毒基因组。
[0366]
用于以重组多肽形式给药本发明融合物的有效剂量和给药方案取决于要治疗的疾病或病情，并可由本领域技术人员确定。本发明融合蛋白的治疗有效量的示例性、非限制性范围约为0.1-10mg/kg/体重，例如约0.1-5mg/kg/体重，例如约0.1-2mg/kg/体重，例如约0.1-1mg/kg/体重，例如约0.15、约0.2、约0.5、约1、约1.5或约2mg/kg/体重。
[0367]
具有本领域普通技术的医生或兽医可以容易地确定和开出所需药物组合物的有效量。例如，医生或兽医可以开始在药物组合物中使用的本发明的治疗活性剂的剂量低于达到期望的治疗效果所需的剂量，并逐渐增加剂量，直到达到期望的效果。一般说来，本发明组合物的适宜日剂量将是产生治疗效果的最低剂量的给药系统的量。这种有效剂量通常取决于上述因素。例如，给药可以是静脉内、肌肉内、腹腔内或皮下，并且例如在靶部位的近端给药。如果需要，药物组合物的有效日剂量可以作为两个、三个、四个、五个、六个或更多的分剂量在一天中以适当的间隔单独给药，任选地以单位剂型给药。虽然本发明的给药系统可以单独给药，但优选的是将该给药系统作为如上所述的药物组合物给药。
[0368]
还提供了包含上述和本文所述的治疗活性剂的试剂盒。在一个实施方案中，所述试剂盒提供以一种或多种单一剂型制备的治疗活性剂，所述单一剂型准备给药给受试者，例如在预载注射器或安瓿中。在另一个实施方案中，治疗活性剂以冻干形式提供。
[0369]
在另一个实施方案中，本发明提供了一种用于确定宿主细胞培养物中基因组水平上的重组的方法，所述方法包括根据本发明的用于高效且特异性基因组编辑的融合蛋白，其中所述方法包括以下步骤：
[0370]
i.提供编码第一重组酶的核酸分子，其中所述第一重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第一半位点；
[0371]
ii.提供编码第二重组酶的核酸分子，其中所述第二重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第二半位点；
[0372]
iii.提供编码接头肽的核酸分子，其中所述核酸编码包含4至60个氨基酸的连接寡肽；
[0373]
iv.通过将编码第一重组酶的核酸分子、编码第二重组酶的核酸分子和编码接头
肽的核酸分子克隆到进一步包含用于表达第一报告蛋白的第一报告基因的表达载体中来构建表达载体；
[0374]
v.用步骤iv)的表达载体转染宿主细胞，并用包含用于表达第二报告蛋白的第二报告基因的报告质粒转染宿主细胞；
[0375]
vi.表达包含第一重组酶、第二重组酶和接头肽的融合蛋白，其中所述融合蛋白与第一报告基因融合；并且表达第二报告蛋白；
[0376]
vii.鉴定细胞，其显示第一报告蛋白和第二报告蛋白的双重表达，其指示成功的重组。
[0377]
根据步骤iv.的合适的第一报告基因是编码egfp的基因。因此，合适的第一报告蛋白是egfp。
[0378]
根据步骤v.的合适的第二报告基因是编码mcherry的基因。因此，合适的第二报告蛋白是mcherry。
[0379]
该系统的优点是可以通过gfp荧光检测表达质粒和报告质粒转染细胞的转染效率。gfp和mcherry双阳性细胞反映了人体细胞中报告基因的重组。为了计算报告质粒在人体细胞中的重组效率，可以将双阳性细胞归一化为转染效率。
[0380]
本文所述的融合蛋白被开发以校正导致血友病a的f8基因中外显子1的大的基因倒位。为了在基因组水平上研究异二聚体的倒位效力，开发了如实施例9所述的体外重组酶分析方法。在重组酶表达细胞中，未融合的异二聚体在基因组水平上的倒位率为20.3％，融合的异二聚体在基因组水平上的倒位率为42.7％。因此，通过本发明的接头融合重组酶异二聚体导致两倍高的转化率。
[0381]
因此，本发明在另一个实施方案中提供了一种用于在细胞中基因组水平上倒位dna序列的方法，该方法包括根据本发明的用于高效且特异性基因组编辑的融合蛋白或dna重组酶，其中所述方法包括以下步骤：
[0382]
i.提供编码第一重组酶的核酸分子，其中所述第一重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第一半位点；
[0383]
ii.提供编码第二重组酶的核酸分子，其中所述第二重组酶已通过定向进化或合理设计来进化以特异性识别重组酶靶位点的第二半位点；
[0384]
iii.提供编码接头肽的核酸分子，其中所述核酸编码包含6至30个氨基酸的接头寡肽；
[0385]
iv.通过将编码第一重组酶的核酸分子、编码第二重组酶的核酸分子和编码接头肽的核酸分子克隆到表达载体中来构建表达载体；
[0386]
v.将步骤iv)的表达载体、编码在此分离的融合蛋白或本文描述的融合蛋白的rna分子递送到细胞，所述细胞包括待倒位的dna序列；
[0387]
vi.在所述细胞中倒位人类染色体上的dna序列。
[0388]
优选地，步骤v.的融合蛋白是如本文所述的本发明的融合蛋白，并且更优选识别重组酶的上游靶位点和下游靶位点的第一半位点和第二半位点，最优选loxf8重组酶的sq id no：17的上游靶位点和seq id no：18的下游靶位点或其反向补体序列。
[0389]
在另一个实施方案中，所述用于在细胞中基因组水平上倒位dna序列的方法还包括以下步骤
[0390]
v.a)表达包含第一重组酶、第二重组酶和接头肽的融合蛋白；
[0391]
当在所述方法的步骤v.时，步骤iv.的表达载体或者编码如本文所述的融合蛋白的rna分子例如通过转染传递到所述细胞中。
[0392]
在一个实施方案中，在基因工程化宿主细胞中进行基因组水平上的dna序列倒位的方法。
[0393]
在一个优选实施方案中，在基因组水平上倒位dna序列的方法是在来自患者、更优选来自患有血友病a的患者的人细胞中体外进行的。
[0394]
在另一优选实施方案中，在基因组水平上倒位dna序列的方法在患者中进行，特别是在体内患有血友病a的患者中进行。
实施例
[0395]
提供以下示例的唯一目的是说明本发明的各种实施例，并不意味着以任何方式限制本发明。
[0396]
实施例1：底物连接的定向进化
[0397]
重组酶是使用前面描述的底物连接的蛋白进化(slide)进化的(buchholz和stewart，2001年；sakara等人，2007年；karpinski等人，2016年；lansing等人，2019年)。通过改变loxf8和对称位点上活性和非活性重组酶的选择，建立了反选择策略。
[0398]
实施例2：f8重组酶单体和f8非融合重组酶异二聚体重组活性的比较
[0399]
为了比较由seq id nos.32和33单体组成的异二聚体重组酶，优于单个f8单体重组酶识别loxf8序列，在非对称loxf8位点上使用单个重组酶进行slide，相当于分别在非对称loxltr和loxbrt序列上定向进化tre和brec1(sarkar等人，2007年；hauber等人，2013年)。在168轮定向进化后，单个重组酶在大肠杆菌中使用不同浓度的阿拉伯糖在pevo载体中进行测试。所鉴定的最佳克隆(h7，seq id no：66)确实重组了loxf8序列，尽管与d7异二聚体重组酶(seq id nos.32和33)相比效率降低(图6)。
[0400]
用重组报告质粒和重组酶表达质粒共转染hela细胞，研究单体(h7)和异二聚体(d7)f8-重组酶在哺乳动物细胞中的重组活性。在大肠杆菌试验中，h7重组酶的效率低于异二聚体d7重组酶(图7；28％重组效率vs 46％重组效率)。
[0401]
为了比较单体f8-重组酶(h7)和异二聚体f8重组酶(d7)诱导人体细胞f8倒位的能力，将重组酶表达质粒转染hek293细胞。转染48小时后分离基因组dna。pcr反应检测基因组倒位。同样，所述单体h7重组酶的性能不如异二聚体d7重组酶(图8)。
[0402]
为了比较h7单体与d7异二聚体的特异性，在与loxf8序列(seq id no：17)显示最高相似性的九个人类序列(seq id no：21至23和87至92)上测试重组酶(表2)。将这九个脱靶位点和loxf8脱靶位点克隆到含有相应重组酶的pevo载体中，并在10μg/ml l-阿拉伯糖存在下在大肠杆菌中生长24小时。从这些培养物中提取的dna显示，h7单体除了脱靶位点hs1、hs2、hs4和hs8外还重组了loxf8位点，其分别具有序列seq id nos：21、22、87和91。相比之下，d7异二聚体的特异性要强得多，并且只轻微重组hs2，同时在loxf8靶位点上显示出强大的活性(图9)。使用相同的实验设置，进一步的高活性异二聚体(a4)被鉴定。根据这些累积结果，选择异二聚体d7重组酶和异二聚体a4重组酶进行进一步的实验。
[0403]
实施例3：融合的异二聚体在对称靶位点上的重组活性
[0404]
设计并测试了用于融合f8重组酶异二聚体的不同接头。设计了序列(gly-gly-ser)n和重复序列数(n)2、4、6和8的柔性接头。通过添加xhoi和bsrgi-hf限制性内切酶产生的“粘性末端”序列，合成了5’和3’寡核苷酸，并对这些序列进行退火处理，得到可直接用于克隆的双链dna片段。
[0405]
首先，在对称位点上测试非融合异二聚体。不出所料，测试酶切在对称位点上显示出较强的重组活性(图10，图12b)，这可以用每个对称位点上重组酶单体的活性来解释。然而，重要的是，单个重组酶本身在最终的loxf8位点上没有显示任何活性(图12a)。另一方面，融合的s
2-(g2s)
8-s1异二聚体在对称位点上没有显示出任何活性，即使在高诱导水平(200μg/ml l-阿拉伯糖)(图12c)。
[0406]
为了比较融合异二聚体与未融合异二聚体的重组活性，在不同的诱导水平上对两者进行了测试。然后，根据谱带强度计算重组效率。试验表明，融合的异二聚体与未融合的异二聚体具有相当的活性。
[0407]
与(g2s)
2-8
个接头融合的结果表明，接头的长度对重组活性有一定的影响。为了研究更长的接头是否能在不显示对称位点活性的情况下提高重组效率，将异二聚体与10、12和14(gly-gly-ser)重复的接头融合。结果表明，增加接头长度对重组效率没有显著影响，但与较长接头融合的异二聚体在对称位点上表现出活性。因此，与30个或更多氨基酸的接头融合的重组酶会导致特异性损失。
[0408]
实施例4：接头设计和接头库的产生
[0409]
利用简并密码子rvm设计了三个接头文库，分别编码ala、arg、asn、asp、glu、gly、lys、ser、thr氨基酸。采用24个氨基酸的接头接长度。将(g2s)8接头的全序列(24个氨基酸)、中间部分(12个氨基酸)或边缘(每侧6个氨基酸)改为rvm密码子。由于目前还不知道接头柔性的改变会影响融合蛋白的活性，因此在设计文库时考虑了不同的选择。将具有已知柔性特性的(g2s)序列保留在离重组酶更远的地方(接头中间)或离重组酶更近的地方(接头边缘)，以研究其对活性的影响。第一文库的设计方法是将接头序列的中间部分(12个氨基酸)与最初使用的柔性接头序列保持不变，包含四个(g2s)重复，将接头序列的左右部分(两侧各6个氨基酸)改为(rvm)6。第二文库的设计则相反：将12个氨基酸的中间部分改为(rvm)
12
个，将6个氨基酸的左右部分保留为两个(g2s)重复序列。另外，由于不知道接头中是否需要(g2s)重复序列，在第三文库中，接头的24个氨基酸序列全部改为(rvm)
24
个(图13)。设计了三个寡核苷酸作为模板进行三次pcr反应。接头序列两侧有两个用于引物退火的连接子，以及允许直接使用接头进行克隆的xhoi和bsrgi-hf限制性位点。将接头文库代替(g2s)8克隆在融合蛋白中，得到3个文库：接头文库1、接头文库2和接头文库3(图13)融合蛋白含有接头文库，但重组酶的序列没有改变。
[0410]
由biomers.net gmbh公司合成了具有简并碱基修饰的寡核苷酸，其含有xhoi和bsrgi-hf限制性位点，每个末端都有一个连接子。寡核苷酸序列如表3所示。以该寡核苷酸为模板进行高保真pcr，所述pcr产物用xhoi和bsrgi-hf限制性内切酶消化，克隆到s2-和s1-特异性重组酶之间的pevo_2rec_link中。用含有异二聚体的质粒转化新鲜制备的活性大肠杆菌xl-1blue。在soc培养基中培养1h后，将2μl(1:500)电穿孔混合物接种在氯霉素琼脂平板上，其余加入100ml含25μg/ml氯霉素和所需浓度l-阿拉伯糖的lb培养基中。固体和液体培养物均在37℃温育12-16h，后者在200rpm的持续摇动下。所述文库的大小至少是
25000个接头变体，这是由平板上的菌落数评估的。
[0411]
表3-用于接头产生的寡核苷酸序列
[0412][0413]
实施例5：接头选择
[0414]
将具有接头文库的融合蛋白亚克隆到pevo_2rec_loxf8质粒上，检测其在loxf8靶位点上的活性。试验结果表明，在200μg/ml l-阿拉伯糖的高诱导水平下，与所有三个接头文库融合的异二聚体在loxf8位点上具有活性(图14a)。
[0415]
为了选择与loxf8位点上具有重组活性的接头融合的异二聚体，首先用ndei和avrii限制性内切酶进行酶切。这些酶的限制性位点位于pevo_2rec_loxf8质粒上的两个loxf8位点之间，因此只有未重组的质粒才线性化。然后，用正向引物(引物4)在融合蛋白上游退火，反向引物(引物19)在第二个loxf8位点下游退火，进行高保真pcr。结果，只有重组质粒的融合蛋白被pcr扩增，因为未重组的质粒被消化，扩增被中断(图14b)。
[0416]
所得到的pcr产物用saci-hf和sbfi-hf限制性内切酶消化，亚克隆到pevo_2rec_sym1质粒上，检测sym1位点的活性。测试酶切显示，在200μg/ml l-阿拉伯糖的高诱导水平下，只有一个文库s2-接头文库3-s1在sym1位点上有活性(图15a)。测试酶切没有检测到与
接头文库1和2融合的异二聚体的活性。为了选择不重组sym1位点的融合异二聚体，用正向引物(引物20)在融合蛋白上游退火，反向引物(引物21)在两个sym1位点之间退火进行高保真pcr(图15b)。因此，pcr只扩增出没有重组质粒的融合蛋白。将pcr产物用saci-hf和sbfi-hf限制性内切酶消化，亚克隆到pevo_2rec_sym2质粒上，检测sym2位点的活性。在200μg/ml l-阿拉伯糖的高诱导水平上，sym2位点的试验酶切没有检测到强烈的活性，选择的方式与sym1位点相同(图15)。
[0417]
为了选择性能最好的接头，重复相同的步骤，进行以下几轮选择：在loxf8上以10μg/ml l-阿拉伯糖，在sym1上以200μg/ml l-阿拉伯糖，在sym2上以200μg/ml l-阿拉伯糖上，在loxf8上1μg/ml l-阿拉伯糖，在sym1上以200μg/ml l-阿拉伯糖，在sym2上以200μg/ml l-阿拉伯糖，在loxf8上以1μg/ml l-阿拉伯糖进行。在选择loxf8位点时，使用较低的诱导水平来选择最终靶位点上具有高活性的融合蛋白。在对称位点的选择过程中，l-阿拉伯糖浓度维持在200μg/ml左右，以选择对称位点上无活性的融合蛋白。经过10轮筛选，三个与接头文库的融合蛋白在1μg/ml l-阿拉伯糖的低诱导水平上均在loxf8位点上显示出活性。然而，在200μg/ml l-阿拉伯糖的高诱导水平上，sym1和sym2位点文库的活性也有所增加(图16)。与三个接头文库融合的异二聚体在sym2位点上具有活性，与接头文库1和3融合的异二聚体在sym1位点上具有活性。对称位点活性的增加可能是由于活性异二聚体在文库中的积累。
[0418]
由于文库在loxf8位点上显示出很低的诱导水平的活性，在这一点上，单个克隆被分析。尽管这些文库在对称位点上有一定的活性，但这些文库中的单链重组酶可能只能重组loxf8，而不能重组sym1或sym2。
[0419]
在1μg/ml l-阿拉伯糖浓度下检测loxf8位点的文库后，用ndei和avrii限制性内切酶进行酶切，未被酶切的质粒进行再转化。这使得在低诱导水平下具有活性的融合蛋白的文库更加丰富。然后将具有接头文库的融合蛋白再次亚克隆到pevo_2rec_loxf8质粒上，在平板上生长。每个文库取32个菌落，用10μg/ml l-阿拉伯糖诱导，用三引物pcr检测重组。90个克隆显示重组活性，其中每个文库的4个克隆分别在靶位(10μg/mll-阿拉伯糖)的loxf8和靶位(200μg/mll-阿拉伯糖)的sym1和sym2上进行了活性分析。所有的克隆(l1-l12)都在loxf8位点上表现出重组活性，但不同克隆的重组效率不同(图17a)。文库1的两个克隆和文库3的三个克隆在高诱导水平上对sym1位点有活性(图17b)。文库2的两个克隆和文库3的所有四个克隆在高诱导水平上都在sym2位点上有可测量的活性(图17c)。值得注意的是的是，文库2中没有一个克隆在对称位点上表现出活性。因此，可以假设文库2的设计更有利于阻止对称靶位的活性。对选择的克隆进行测序，测序结果表明文库策略是有效的(表4)。
[0420]
表4：接头文库中单个克隆的序列
[0421][0422]
根据loxf8位点的重组效率和对称位点的活性，选择克隆l8(s2-接头l8-s1)进行进一步分析。
[0423]
实施例6：与l8-接头融合的重组酶的重组活性
[0424]
在loxf8位点上，用(g2s)8接头和未融合的异二聚体在不同诱导水平上进行了l8-接头的重组酶融合试验。测试消化显示，l8-接头融合重组质粒更有效(图18)。同样，l8-接头融合的异二聚体也显示出比未融合的异二聚体更高的重组效率(图19)。因此，d7单体与l8接头序列的融合增加了重组活性。
[0425]
实施例7：融合的异二聚体的脱靶活性
[0426]
另一个目标是发现重组酶异二聚体的融合是否增加了重组的特异性，从而最大限度地减少了潜在的脱靶效应。基于与loxf8序列的关系相似性，在大肠杆菌切除试验中测试与loxf8序列显示高度相似性的人序列，类似于f8重组酶异二聚体中潜在的非对称和对称脱靶位点(表2，seq id nos：19至29)。
[0427]
在高诱导水平下测试潜在脱靶位点的活性，以便识别即使是微弱的重组活性。为了考虑在loxf8上可能存在的不同的靶向重组效率，对于融合的l8异二聚体，选择高五倍的l-阿拉伯糖浓度。因此，l-阿拉伯糖浓度为50μg/ml(对于未融合的)和250μg/ml(对于l8)，用于测试五个非对称和四个对称脱靶上的异二聚体活性。
[0428]
对于d7异二聚体，试验酶切显示，在高诱导水平下，未融合的异二聚体在五个测试的非对称脱靶点之一(2lr位点，seq id no：22位点)上表现出显著的重组活性。相反，融合的d7重组酶的l8-异二聚体在任何非对称脱靶位点上都没有显示出明显的重组活性(图20a)。
[0429]
在对称的脱靶位点上，未融合的d7异二聚体在其中一个被测位点(2l位点，seq id no：27位点)上表现出明显的活性。相反，融合的d7异二聚体在这个或任何其他测试位点上都没有显示任何活性(图20a)。结果表明，异二聚体的融合显著提高了designer-ssrs的重组特异性。
[0430]
对于a4异二聚体，使用未融合的异二聚体的试验酶切在五个被测的非对称脱靶点上没有显示出明显的重组活性。a4重组酶的融合l8-异二聚体也是如此(图20b)。
[0431]
在对称的脱靶位点上，未融合的a4异二聚体在任何被测位点上都没有显示出活性。融合的a4异二聚体在这个或任何其他测试位点上也没有显示任何活性(图20b)。
[0432]
实施例8：人体细胞中的重组活性
[0433]
融合的l8-重组酶异二聚体在细菌中显示出良好的活性；因此，下一步是研究重组在人体细胞中的有效性，并与未融合的异二聚体进行活性比较。用含有与egfp转录融合的融合或单一重组酶的表达质粒转染hek293t细胞(图21)。分别以表达egfp的空质粒转染的细胞和未转染的细胞作为转染的阳性对照和阴性对照。
[0434]
与重组酶表达质粒一起，还转染了一个报告质粒，该质粒编码mcherry，上游终止密码子位于两个loxf8靶位点之间。重组后，报告质粒将切除终止元件(stop cassette)，从而允许mcherry的表达，这可以通过流式细胞术分析来测量(图22)。
[0435]
用d7重组酶异二聚体(包含seq id nos.32和33的重组酶单体；图23)转染48h后进行流式细胞术分析，发现表达质粒和报告质粒转染的细胞未融合异二聚体的转染效率分别为28％，融合异二聚体的转染效率分别为21％。gfp和mcherry双阳性细胞反映了人体细胞中报告基因的重组。为了计算报告质粒在人体细胞中的重组效率，将双阳性细胞归一化为转染效率(图23)。因此，在76.4％(未融合)和92.8％(融合)的细胞中，报告质粒发生了重组，表明融合的l8重组酶在本实验中具有较高的重组效率。
[0436]
实施例9：人体细胞基因组水平上的倒位效力
[0437]
本文所描述的重组酶用于校正引起血友病a的f8基因外显子1的大基因倒位。为了在基因组水平上研究异二聚体的倒位效率，利用所描述的表达构建物(图21)在hek293t细胞中表达重组酶48h，随后提取gdna。hek293t细胞不携带f8基因的外显子1。然而，重组酶可以独立于基因组dna片段在loxf8位点之间的方向进行倒位反应。因此，反向与非反向外显
study group.(2013).factor viii products and inhibitor development in severe hemophilia a.the new england journal of medicine,368:231-239.
[0460]
graw,j.,brackmann,h.h.,oldenburg,j.,schneppenheim,r.,spannagl,m.,schwaab,r.(2005).haemophilia a:from mutation analysis to new therapies.nature reviews genetics,6:488-501.
[0461]
hauber,i.,hofmann-sieber,h.,chemnitz,j.,dubrau,d.,chusainow,j.,stucka,r.,hartjen,p.,schambach,a.,ziegler,p.,hackmann,k.,e.,schumacher,u.,lindner,c.,grundhoff,a.,baum,c.,manz,m.g.,buchholz,f.,hauber,j.(2013).highly significant antiviral activity of hiv-1 ltr-specific tre-recombinase in humanized mice.plos pathogens,9:e1003587.
[0462]
justice,m.j.,siracusa,l.d.,stewart,a.f.(2011).technical approaches for mouse models of human disease.disease model and mechanisms,4:305-310.
[0463]
karimova,m.,splith,v.,karpinski,j.,pisabarro,m.t.,buchholz,f.(2016).discovery of nigri/nox and panto/pox site-specific recombinase systems facilitates advanced genome engineering.scientific reports,6:30130.
[0464]
karpinski,j.,hauber,i.,chemnitz,j.,c.,paszkowski-rogacz,m.,chakraborty,d.,beschorner,n.,hofmann-sieber,h.,lange,u.c.,grundhoff,a.,hackmann,k.,schrock,e.,abi-ghanem,j.,pisabarro,m.t.,surendranath,v.,schambach,a.,lindner,c.,van lunzen,j.,hauber,j.,buchholz,f.(2016).directed evolution of a recombinase that excises the provirus of most hiv-1 primary isolates with high specificity.nature biotechnology,34:401-409.
[0465]
konkle,b.,stasyshyn,o.,chowdary,p.,bevan,d.h.,mant,t.,shima,m.,engl,w.,dyck-jones,j.,fuerlinger,m.,patrone,l.,ewenstein,b.,abbuehl,b.(2015).pegylated,full-length,recombinant factor viii for prophylactic and on-demand treatment of severe hemophilia a.blood,126:1078
–
1085.
[0466]
kosicki,m.,tomberg,k.,bradley,a.(2018).repair of double-strand breaks induced by crispr
–
cas9 leads to large deletions and complex rearrangements.nature biotechnology,36:765
–
771.
[0467]
lansing,f.,paszkowski-rogacz,m.,schmitt,l.t.,schneider m.p.,rojo romanos,t.,sonntag,j.,buchholz,f.(2020).aheterodimer of evolved designer-recombinases precisely excises a human genomic dnalocus.nucleic acids research.48(1):472-485.doi:10.1093/nar/gkz1078
[0468]
lee,h.j.,kweon,j.,kim,e.,kim,s.,kim,j.s.(2012).targeted chromosomal duplications and inversions in the human genome using zinc finger nucleases.genome research,22:539-548.
[0469]
lenting,p.,denis,c.v.,christophe,o.d.(2017).emicizumab,a bispecific antibody recognizing coagulation factors ix and x:how does it actually compare to factor viii？blood,130:2463
–
2468.
[0470]
mahlangu,j.,powell,j.s.,ragni,m.v.,chowdary,p.,josephson,n.c.,
obligate heterotetrameric complex.nucleic acids research,43:9076-9085.

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用可获自腰果壳油的酚封闭的低粘度异氰酸酯预聚物、其生产方法及其用途与流程

用于高效且特异性基因组编辑的位点-特异性重组酶的融合物

相关文献

最热文献