一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

中国仓鼠卵巢细胞中内源性逆转录病毒的表征及灭活的制作方法

2021-10-22 22:25:00 来源:中国专利 TAG:逆转录 仓鼠 表征 卵巢 中国

中国仓鼠卵巢细胞中内源性逆转录病毒的表征及灭活


背景技术:

1.病毒等外源因子对生物制药产品的污染会中断药物供应,从而危及患者安全。虽然生物制药的病毒污染很少,但它们仍然会发生(1),并且降低治疗性蛋白质制剂中病毒污染的风险仍然是重当务之急。
2.中国仓鼠卵巢(cho)细胞是生物制药产品中应用最广泛的哺乳动物表达系统。其中,与用于产生重组蛋白的其他细胞系相比,cho细胞由于其优越的安全性而成为优选的生产宿主。例如,研究表明,cho细胞对某些病毒感染具有降低的易感性(1),包括对许多人逆转录病毒和鼠逆转录病毒引起的感染的抗性,其中一些鼠逆转录病毒已知可感染其他哺乳动物细胞(2,3)。此外,与其他啮齿动物细胞不同,cho细胞似乎不能产生可在哺乳动物细胞中尤其是在人类细胞中复制的传染性逆转录病毒(3

6)。然而,病毒样颗粒(vlp)已在cho细胞内被检测到并在培养基中出芽(7

11)。这种vlp的存在引起了安全和监管方面的问题,不仅是因为存在可能从仓鼠到人类的内源性逆转录病毒(erv)传播的风险,还因为它们干扰并降低了检测其他外源因子的灵敏度。
3.用于说明本发明、特别是提供关于本发明实践的更多细节的本文使用的出版物和其他材料,包括专利和专利申请,通过引用全部纳入本文。为方便起见,出版物在以下文本中通过所附文献目录的编号、作者姓名和出版年份或专利号/专利公布号进行引用。
4.vlp是由几个实验室独立检测到的,表明vlp来自稳定整合到cho基因组中的erv,而不是外源性感染(12)。cho细胞具有两类的erv:脑池内a型erv(iap),一种在内质网池中形成未成熟颗粒的缺陷erv类(13)和出芽c型erv(6,12)。尽管c型erv序列仍未被完全表征,但先前的一项研究估计,约100至300个c型erv序列可能存在于cho基因组中(6)。它们中的一些似乎是全长的并被主动转录的前病毒,例ml2g逆转录病毒(10,12)。然而,lie等人描述的ml2g erv序列在其每个基因(gag、pol和env)中都包含移码突变,表明该基因座的特定erv序列不产生任何vlp(12)。然而,该出版物指出,这种类型的erv序列的其他成员被转录,并可能产生vlp。ml2g转录物与鼠白血病病毒(mlv)家族有约64%的序列一致性。
5.通常认为cho细胞能产生非感染性逆转录病毒颗粒,因为无法证明它们的传染性。然而,不能排除cho基因组中不可数的预测的c型erv病毒中至少有一种具有传染性或变得有传染性的风险。如果表观遗传学沉默的erv发生表达,如在一些化学治疗中观察到的(14),如果功能失调的erv可以获得功能获得突变,或者如果erv重组或彼此反式互补,就可能发生上述情况。这种基因变化更有可能发生在永生化细胞系例如cho细胞中,永生化细胞系总体遗传不稳定性增加(15)。值得注意的是,cho c型erv与mlv家族(一个已知跨越种间屏障甚至感染灵长类细胞的逆转录病毒家族(16))的密切相似性进一步表明,cho颗粒可能会像在其他逆转录病毒观察到的一样(17)具有变得对人类有致病性的可能性。最后,正如对病毒颗粒(vp)所预期的,cho细胞vlp被报道含有与c型逆转录病毒相关的病毒基因组rna序列(de wit,c.,fautz,c.,&xu,y.(2000).real

time quantitative pcr for retrovirus

like particle quantification in cho cell culture.biologicals,28(3),137

148)。然而,负责使cho细胞释放vlp和vp的erv序列仍然未被表征。因此,避免源自
cho内源性来源的病毒污染的策略是非常可取的。
6.最有希望的有效防止仓鼠erv传播的策略是使用crispr

cas9介导的诱变来灭活逆转录病毒。可编程的crispr

cas9 rna引导的核酸酶系统已经被用于将dna双链断裂(dsb)引入人细胞和猪细胞中的前病毒序列(18,19)。不精确的dsb修复可导致病毒序列内的插入和缺失,并抑制病毒活性。在一篇开创性的论文中,yang等人证明了crispr

cas9技术可用于敲除所有62个猪基因组erv序列,导致erv传染性降低1000倍以上(19)。尽管成功,但由于高细胞毒性、频繁的基因组重排和低编辑效率,病毒灭活仍然具有技术挑战性(19,20)。与单个基因的常规编辑相比,多位点位置的编辑效率降低的一个原因可能是erv样序列的绝对数量,所述erv样序列可以作为精确、无突变修复的修复模板,从而对抗erv诱变并促进染色体重排。然而,cho细胞中c型erv序列的不完全表征,以及缺乏基因组c型erv序列和病毒颗粒之间的明确联系,阻碍了在cho细胞中建立类似的erv灭活策略。
7.2016年12月23日提交的美国专利公开2019/0194694 a1公开了过去病毒/逆转录病毒感染残余物的负载量减少的哺乳动物细胞和哺乳动物细胞系及其生产和使用方法。其中公开了工程化细胞,例如工程化cho

k1。该工程旨在通过在细胞基因组的erv中引入改变,优选为大量改变,从而来改变基因组,以抑制或消除vlp和/或vp的释放。功能性第1组erv的完整的共有dna序列显示为美国专利公开2019/0194694 a1中的seq id no.1。美国专利公开2019/0194694 a1的公开内容通过引用全文具体地纳入本文。
8.本领域需要工程化细胞,例如cho细胞,使得细胞不释放或基本上不释放潜在功能性vp。当细胞被设计成表达任何转基因产物,特别是具有治疗活性的蛋白质时,这一点尤其重要。需要得到的工程化细胞在其转基因产物产量上几乎没有减少或没有减少。本领域需要提供这种工程化细胞,特别是用于转基因产物的生产。还需要限制或消除cho培养上清液中不完全表征的逆转录病毒核酸的存在。本发明解决了这些需求以及其他需求。


技术实现要素:

9.使用cho

k1细胞在基因组水平、转录组水平和病毒颗粒水平上对出芽c型erv序列进行深入表征。与以前的研究相反,鉴定出转录的c型erv第1组序列,其产生具有开放阅读框的全长转录物,表明该erv组产生潜在功能性逆转录病毒。利用crispr

cas9基因组编辑,表达的第1组c型erv序列被突变,并且可以表明,单个erv的gag基因内的特异性功能缺失突变足以将功能性病毒rna负载颗粒的释放减少250倍以上。这表明单个erv基因座负责从cho细胞释放的大多数c型病毒颗粒。总之,本文提供了一种进一步提高cho细胞安全性的新策略,为彻底消除产生生物治疗剂(本文也称为治疗产品)的cho细胞培养物中的内源性病毒污染铺平了道路。
10.在一个实施方案中,本发明针对一种工程化细胞,优选为哺乳动物细胞系的工程化细胞,例如工程化cho细胞,包括工程化cho

k1,其包括:
11.所述细胞的基因组,其包括第1组c型erv序列,其包括整合到所述基因组中的至少一个全长第1组c型erv序列,其中所述基因组包括在所述第1组c型erv序列的一个或多个gag序列内的一个或多个改变,但不超过二十个改变,包括19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2个或1个改变,导致一个或多个改变的第1组c型erv序列,其中至少一个所述改变在所述至少一个全长第1组c型erv序列的gag基因内,导致至少一个改变的全长
第1组c型erv序列。
12.所述基因组可以包括超过100个、超过120、140、160、180、200、220、240、260、280或300个的第1组c型erv序列,包括所述整合到所述基因组中的至少一个全长第1组c型erv序列。
13.所述整合到所述基因组中的至少一个全长第1组c型erv序列可以对应于seq1id 3或与seq id 3具有超过90%、95%、96%、97%、98%或99%序列一致性的序列。
14.在所述超过100个、超过120、140、160、180、200、220、240、260、280或300个的第1组c型erv序列中,超过10、20、30、40、50、60、70、80、90、100个可以是全长第1组c型erv序列。
15.所述至少一个全长第1组c型erv序列的gag基因内的所述至少一个改变中的至少一个可以是功能缺失突变。
16.所述至少一个全长第1组c型erv序列中的所述改变可以阻断翻译起始或可以在gag基因中的ppyp基序下游引入移码。
17.所述改变可以在不超过一个所述全长第1组c型erv序列的所述gag基因内,优选在seq id no.3内,更优选在myr gag出芽基序和/或ppyp gag出芽基序内或在所述myr gag出芽基序和/或ppyp gag出芽基序5’端和/或3’端的最多达5、10、15、20、25、30、35、40、45或50个包括连续核苷酸在内的核苷酸的序列内。
18.所述改变可以包括等于或大于1、2、3、4、5、6、7、8、9、10个核苷酸的缺失,等于或大于seq id no:3或基因组与seq id no:3具有超过95%、96%、97%、98%、99%序列一致性的序列中1%、2%、3%、4%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或100%的连续核苷酸的缺失以及任选地,改变包括seq id no:1的核苷酸1至核苷酸30020的缺失,以及核苷酸39348至核苷酸59558的缺失。
19.本发明还公开了一种工程化细胞,优选为哺乳动物细胞系的工程化细胞,例如工程化cho细胞,包括工程化cho

k1细胞,其包括:
20.所述细胞的基因组,其包括:
21.包括gag基因、env基因、pol基因和长末端重复(ltr)并且包括在所述gag基因、env基因、pol基因和/或所述ltr中包括至少一个改变的序列,其中所述序列选自:
22.(i)seq id no:3,
23.(ii)seq id no:1,
24.(iii)(i)或(ii)的变体;或
25.(iv)与(i)或(ii)在所述gag基因、env基因、pol基因和/或所述ltr之外具有超过95%、96%、97%、98%、99%序列一致性的序列,
26.所述至少一个改变选自由插入、缺失、替换和它们的组合组成的组。
27.所述至少一个改变可以在所述gag基因、env基因、pol基因和/或所述ltr中,所述至少一个改变在所述gag基因、env基因、pol基因和/或所述ltr的不超过100、90、80、70、60、50、40、30、20、15、10、5、4、3、2个包括连续核苷酸在内的核苷酸中或者1个核苷酸中。
28.本发明还公开了一种工程化细胞,优选为哺乳动物细胞系的工程化细胞,例如工程化cho细胞,包括工程化cho

k1细胞,其中所述基因组包括:
29.(i)seq id no:3的不超过10%、20%、30%、40%、50%的连续核苷酸,或
30.(ii)与(i)具有超过90%序列一致性的序列。
31.所述至少一个全长第1组c型erv序列中的所述改变位于所述gag基因中,所述gag基因包括ppyp基序,并且其中(i)编码所述ppyp基序的序列和/或在(i)中序列5’和/或3’侧翼的最多达5、10、15、20、25、30、35、40、45或50个包括连续核苷酸在内的核苷酸的序列包括改变。
32.所述基因组可以包括不超过15、14、13、12、11、10、9、8、7、6、5、4、3、2、1个所述第1组c型erv序列中的改变。
33.所述基因组可以包括不超过15、14、13、12、11、10、9、8、7、6、5、4、3、2、1个改变的第1组c型erv序列。
34.所述改变可以是缺失、插入、替换/或它们的组合,优选为n末端myr基序编码dna序列的改变,例如通过去除或替换氨基末端的甘氨酸残基可以抑制gag蛋白的豆蔻酰化的一个或几个突变,或可以阻止病毒颗粒从宿主细胞释放的ppyp突变,或可以干扰(infer)gag mrna翻译成全长gag蛋白的一个或多个移码突变。
35.所述改变可以是移码突变。
36.在另一个实施方案中,本发明涉及一种工程化细胞,优选为哺乳动物细胞系的工程化细胞,例如工程化cho细胞,包括工程化cho

k1细胞,包括:
37.所述细胞的基因组,其包括整合到所述基因组中的第1组c型erv序列,其中使以下序列从所述基因中缺失:包括单个在内的至少一个全长第1组c型erv序列,例如seq id no:3或seq id no:3的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或100%的连续核苷酸,以及
38.任选地seq id no:3的5’侧翼区域和/或3’侧翼区域((即所述基因组中位于seq id no:3的5’端和/或3’端的序列),所述5’侧翼区域和/或3’侧翼区域包括在seq id no:3侧翼的1

50、30

100、50

150、100

200或超过200、300、400个或超过500个上的连续核苷酸。
39.所述侧翼区域可以分别为seq id no:4和seq id no:5。
40.所述细胞的所述基因组包括:(i)seq id no:4的至少80%、90%、95%、98%、99%或100%的连续核苷酸或者与其具有至少90%、95%、98%或99%序列一致性的序列,且与其直接相邻;seq id no:5的至少80%、90%、95%、98%、99%或100%的连续核苷酸或与其具有至少90%、95%、98%或99%序列一致性的序列。优选地,在所得序列中,seq id no:4是seq id no:5的5’端。
41.所述改变可以是至少5、10、15、20、25、30、50或100个包括连续核苷酸在内的核苷酸的插入,至少5、10、15、20、25、30、50或100个包括连续核苷酸在内的核苷酸的缺失,或者共同导致至少5、10、15、20、25、30、50或100个核苷酸的添加和/或去除的插入和缺失的组合或者插入、替换和/或缺失的组合。
42.所述erv元件可以来自γ逆转录病毒erv或β逆转录病毒erv,包括脑池内白血病病毒、考拉流行性病毒(korv)、小鼠乳腺肿瘤病毒(mmtv)、小鼠白血病病毒(mlv)erv、猫白血病病毒、长臂猿白血病病毒、猪c型内源性逆转录病毒和/或脑池内白血病病毒。
43.所述细胞每单位时间释放一个数量病毒颗粒(vp)、病毒样颗粒(vlp)或逆转录病毒(样)颗粒(rv(l)p),所述数量相对于所述工程化细胞的非工程对应物每单位时间释放的vp、vlp或rv(l)p,所述数量减少,优选地减少超过2倍、更优选地超过10倍、甚至更优选地超过50倍、超过100倍、超过150倍、超过200倍或超过250倍。
44.所述工程化细胞可以不释放vp或基本上不释放vp和/或vlp,特别是基本上不释放rvp和/或rvlp。
45.所述工程化细胞还可以包括转基因,优选整合到所述基因组中的转基因。
46.所述转基因可以是编码标记蛋白例如gfp(绿色荧光蛋白)、生物治疗剂和/或非编码rna的标记基因。
47.在另一个实施方案中,本发明涉及一种工程化细胞,优选为哺乳动物细胞系的工程化细胞,例如工程化cho细胞,包括工程化cho

k1细胞,包括:
48.所述细胞的基因组,其包括seq id no:3或其变体,并且还包括编码sirna的序列,其中所述sirna的靶序列位于seq id no:3或其变体内,更优选地位于seq id no:3编码所述gag前体蛋白的序列或其变体内。
49.在另一个实施方案中,本发明针对一种用于产生转基因产物的方法,包括:
50.提供前述权利要求中任一项所述的工程化细胞,
51.将编码所述转基因产物例如生物治疗剂的至少一个转基因导入该工程化细胞中,以及
52.在所述细胞中表达所述至少一个转基因,其中所述工程化细胞不释放或基本上不释放vlp。
53.还公开了一种检测试剂盒及其用途,包括:
54.(i)至少一个针对seq id no:3的引物,和/或
55.(ii)至少一个针对seq id no:4或seq id no:5的引物,以及
56.如何使用(i)和/或(ii)的引物来检测是否存在来自cho细胞基因组的seq id no:1、seq id no:3、或所述cho细胞基因组的seq id no:3内是否存在突变的说明书。
附图说明
57.图1.cho

k1基因组内全长c型erv dna序列的系统发育分析。序列比对用mafft比对软件版本7(64)实现,采用标准参数、200pam/k=2的评分矩阵、2.55%的空位罚分和0.123的提供值(offer value)。对112个全长c型erv的完整gag

pol

env序列(a)或分别地在gag(b)、pol(c)和env(d)序列中进行比对。根据这些比对,利用geneious tree builder version 11.1.5并利用遗传距离模型hky和基于序列相似性的upgma方法构建系统发育树。树下的比例尺显示了每个核苷酸的替换率。第1组及其三个子簇(subcluster)和第2组用方括号表示。
58.图2.野生型cho细胞中表达的c型erv序列的表征。将从cho

k1细胞获得的细胞总rna(a)或病毒颗粒rna(b)的illumina测序读段映射到第1组和第2组的c型erv序列上。读段被映射到第1组erv的共有序列和第2组erv的两个不同的基因座(基因座a和基因座b)上。映射读段的最大数量显示在每个子图的左轴上,每百万读段中来自于每千碱基的读段数(rpkm)显示在右侧。(c)使用特异性靶向第1组c型erv的荧光探针进行的cho

k1染色体fish分析的代表性中期扩散。表示出了染色体dna并且整合的逆转录病毒序列的fish信号以较亮的圆点显示。(d)显示了三个代表性的间期cho

k1细胞,其中mrna显示在中心区域,而第1组c型erv rna位于外围。明亮的光点表示转录位点上新生的第1组mrna。基因座a和基因座b上的第2组erv示意图(a)上的符号显示了这些erv序列中发生的突变类型,在c型第2组erv
基因座a的描绘(左侧)中有2个n末端移码突变和3个终止密码子突变,并且在c型第2组erv基因座b的描绘(左侧)中有2个缺失,缺失大小以碱基数量表示。
59.图3.用于erv诱变的crispr

cas9靶位点。设计用于靶向第1组c型erv的gag的豆蔻酰化(myr)基序和ppyp基序的八个sgrna序列的方向和位置用灰色箭头表示。对于靶向正向链(myr2,ppyp5,ppyp6,ppyp7)的sgrna,crispr

cas9 dsb位点由空心三角形标示,对于靶向反向链(myr4,myr8,ppypl3,ppyp20)的sgrna,crispr

cas9 dsb位点由实心三角形标示。前间隔序列邻近基序(pam)位点用粗体字母标记。
60.图4.通过深度dna测序进行的myr基序侧翼区域和ppyp基序侧翼区域的序列多样性评估和crispr衍生的突变的分析。使用c型erv特异性引物对myr和ppyp crispr靶位点周围约300bp进行靶向扩增,并且通过illumina深度测序对扩增子进行分析。基于来自myr(a)侧翼序列和ppyp(b)侧翼序列的野生型cho

k1深度测序读段的97%相似性进行聚类分析。根据图1中鉴定的系统发育组,簇用括号表示。包含myr2 sgrna识别位点和ppyp6 sgrna识别位点以及相邻pam序列的簇以粗体显示,每个靶位点最丰富的簇,对于myr是簇8(a)/(e),而对于ppyp则是簇2425(b)/(f)。右侧的值表示每个子簇获得的读段数相对于读段总数的频率。(c)从myr2 sgrna或ppyp6 sgrna处理的多克隆群体中分离的7个克隆(c02、d12、g09、a02、e10、k03、k14)中不同突变的数量及其相应的读段频率。所有克隆都在表达的第1组c型erv基因座显示突变。灰色阴影框表示以高于平均读段频率(>0.4%,左侧轴)发生的突变,并且包含相同突变的erv基因座的预测数量用虚线表示。每个克隆的突变erv位点的估计总数由右侧轴表示。(d)与c

nhej、alt

ej或hr介导的基因转换dsb修复机制相容的myr2 sgrna或ppyp6 sgrna诱导的修复连接体的频率。与这三种主要dsb修复机制不相容的修复连接体被归类为未知。对从sanger mrna测序和illumina深度dna测序中获得的总共74个dna修复连接体(nmyr=47,npyp=27)进行了分析。(e和f)最好地代表从30个myr2和12个ppyp6衍生的突变深度测序读段的突变侧翼序列的野生型cho簇的频率。包含myr2 sgrna或ppyp6sgrna识别位点(包括相邻的pam位点)的簇以粗体字母显示(中靶(on

targets)),而具有sgrna错配的簇以正常字母显示(脱靶(off

targets))。脱靶簇在sgrna识别位点的位置13或位置15处有错配。
61.图5.在表达的第1组c型erv序列中突变的cho克隆的病毒颗粒rna测序。来自myr2 sgrna克隆(d12,左子图)和ppyp6 sgrna克隆(e10,右子图)的病毒rna颗粒深度测序读段在第1组共有序列和第2组基因座a和基因座b上进行了映射,如对野生型cho病毒颗粒所示出(图2b)的那样。d12突变体和e10突变体在功能相关的第1组c型erv基因座中都包含gag功能缺失突变。映射到每个子图的读段数显示在左轴上,并且每百万读段中来自于每千碱基的读段数(rpkm)显示在右侧。
62.图6.erv突变cho细胞的细胞生长、细胞大小和治疗性igg免疫球蛋白产生的评估。培养5天后,测量野生型cho细胞(wt)、空sgrna载体处理细胞(empty)、批量分选多克隆crispr处理细胞(poly)以及表达的erv基因座处含有突变的克隆(c02、d12、g09、a02、e10、k03和k14)或不含突变的克隆(b01、b03)的活细胞密度(a)和细胞大小(b)。将相同的样本稳定转染以表达igg免疫球蛋白抗体,并在10天补料分批培养过程中评估细胞密度(c)、细胞活力(d)和igg产量(e)。采用benjamini和hochberg错误发现率校正的双尾非配对student’s t检验来计算相对于空载体对照的统计学显著性(n≥2,误差条表示s.e.m,*p<0.05,**p
<0.01)。
63.图7.通过流式细胞术对gag特异性sgrna介导的crispr

cas9切割的评估。经crispr

cas9、myr或ppyp基序特异性sgrna(myr2、myr4、myr8、ppyp5、ppyp6、ppyp7、ppyp13、ppyp20sgrna)或非靶向空载体对照转染的cho细胞的dsred阳性(dsred )细胞率(a)、dsred荧光强度(b)和高粒度细胞率(c、d)的分析。子图c显示经空载体处理、经myr2 sgrna处理和经ppyp6 sgrna处理的细胞的大小(fsc)与粒度(ssc)流式细胞术密度图。较大的门选择完整的非碎片细胞,而较小的门标记粒度水平升高的cho细胞亚群,如子图d中所定量的。采用benjamini和hochberg错误发现率校正的双尾非配对student’s t检验来计算相对于空载体对照的统计学显著性(n=3,误差条表示s.e.m,*p<0.05,**p<0.01)。
64.图8.通过对多克隆cho群体的靶向mrna测序对gag特异性sgrna介导的crispr

cas9切割效率的评估。使用示出的第1组c型特异性引物对从批量分选的经crispr处理的多克隆群体的反转录细胞mrna获得的多克隆pcr产物进行indel突变分析。通过分解sanger色谱图来估计突变频率(28)。预测的相对于未经处理的野生型对照样本的突变频率显示在色谱图的右侧。每个sgrna的dsb位点用一条黑线表示,dsb位点相对于箭头指示的测序方向下游的分解窗口以灰色阴影显示。所示的myr基序对应于seq id no:86的核苷酸10

核苷酸71。所示的ppyp基序对应于seq id no:76的核苷酸21

核苷酸98。
65.图9.myr和ppyp多样性簇的野生型cho共有序列。经深度测序的野生型cho细胞的myr(a)和ppyp(b)侧翼区域的簇序列。阴影对应于图4a和图4b中描述的系统发育组。包含sgrna识别位点(黑色轮廓箭头)以及相邻pam序列的myr簇和ppyp簇以粗体字母书写。myr基序和ppyp基序分别用浅灰色轮廓框和深灰色轮廓框表示。ppyp侧翼区域相对于myr侧翼区域的较高的序列复杂性分别通过缺失序列或描绘缺失或插入和单核苷酸变体的线来说明。
66.图10.erv基因座特异性突变及其在克隆群体中的频率的表征。分析在不同克隆中以正常(0.2%

0.4%)或高(>0.4%)读段频率检测到的突变的illumina原始读段。饼图表示已鉴定的具有相同crispr衍生突变但不同突变侧翼序列的组的数量和频率(例如,在d12_1_1和g09_1_1中)。饼图的51%标记部分提供了4个大致相等的部分,表示预测erv基因座的数量无法根据它们的侧翼序列进行区分。
67.图11.myr2 sgrna和ppyp6 sgrna介导的突变和修复连接体的表征。分析了47个myr2和27个ppyp6衍生的修复连接体的sgrna特异性突变特征,包括引发的突变类型(缺失、插入、indel)(a),突变对gag功能和erv功能的影响(erv编码区外、翻译抑制、移码突变、框内突变)(b)、突变大小分布(c)以及mmej和sd

mmej alt

ej修复途径的活性。indel突变在本图和整个说明书中定义为与插入结合的缺失。与mmej和sd

mmej修复机制都相容的修复连接体被分类为“mmej sd

mmej”。从sanger mrna和illumina dna深度测序都获得了修复连接体。
68.图12.独特的功能活性第1组c型erv基因座的鉴定。(a)e10(ppyp6 sgrna)克隆的全基因组测序后获得的15kb pacbio读段的示意图。该读段包含全长gag、pol、env和全长3

ltr序列、以及在gag基因中并延伸到cho基因组中的e10特异的crispr突变。(b)pacbio cho基因组特异性序列与公众可获得的ncbi cho基因组的比对。ncbi支架标识显示在顶部。表明了预测的第1组c型erv整合位点。erv整合位点周围的基因组区域包含两个蛋白质编码基因(cidec,jagn1)和三个假基因(rps15,rpl18a,rpl34;以浅灰色背景显示),如ncbi所注释
的。cidec(细胞死亡诱导dffa样效应因子c)编码参与脂质代谢的脂滴蛋白(65),jagn1(jagunal同源物1)编码参与早期分泌途径的内质网蛋白(66),以及rps15、rpl18a、rpl34编码核糖体蛋白。每个基因的预测mrna表达水平通过rna测序数据估计,并以每百万读段中来自于每千碱基的读段数(rpkm)表示。(c)myr2和ppyp6 sgrna侧翼区域的sanger测序结果。用第1组特异性引物从细胞总mrna(图中的“mrna”)或用对表达的第1组c型erv特异的引物从基因组dna(图中的“dna”)中获得的pcr扩增子进行sanger测序。克隆(c02、d12、g09、a02、e10、k03、k14)在功能活性的第1组c型erv基因座含有突变,但克隆(b01和b03)以及空载体对照不含突变。预测的myr2和ppyp6 dsb位点用虚线标记。
69.图13.erv突变的cho细胞在vp中释放的病毒rna量的评估。逆转录病毒rna基因组是从未经处理的细胞(ut)、空sgrna载体处理的细胞(empty)、批量分选的多克隆的crispr处理的细胞(poly)以及在表达的第1组c型erv基因座中含有突变的克隆(c02、d12、g09、a02、e10、k03和k14)或没有检测到的erv突变的克隆(b01、b03)的5天培养物上清液中存在的病毒颗粒中分离出来的。(a)对rna进行处理以用于illumina测序,并将获得的读段映射到seq id no:3的第1组c型erv基因座上。将erv读段映射到seq id no:3的表达的第1组erv基因座的序列(灰色条)和作为对照的cho细胞的45s核糖体rna序列(黑色条)。y轴表示每个测序反应的每千个碱基的读段数。(b)对从在细胞培养物上清液中释放的vp分离的逆转录总rna进行定量pcr(q

pcr)分析。对从3个独立的cho细胞培养物获得的样本以一式三份进行逆转录pcr分析和q

pcr分析。用第1组erv ltr特异性引物对基因组逆转录病毒序列进行定量。将数据归一化为被分析细胞的数量,并表示为相对于ut细胞的倍数变化的平均值和标准差。
具体实施方式
70.根据本发明的细胞,优选为哺乳动物细胞/真核细胞,包括工程化细胞,能够保持在细胞培养条件下。标准细胞培养条件为30℃至40℃,最好在37℃或在37℃左右,例如在用于产生重组蛋白的全合成培养基中。这种类型的细胞的非限制性实例是非灵长类真核细胞,例如中国仓鼠卵巢(cho)细胞,包括cho

k1(atcc ccl 61)、dg44和cho

s细胞以及sure cho

m细胞(cho

k1的衍生细胞),以及小仓鼠肾细胞(bhk,atcc ccl 10)。灵长类真核宿主细胞包括,例如人宫颈癌细胞(hela,atcc ccl 2)和293[atcc crl 1573]以及3t3[atcc ccl 163]和猴肾cv1系[atcc ccl 70],也被sv40转化(cos

7,atcc crl1587)。术语“工程化”表示细胞的基因组已被改变,例如通过插入、缺失和/或替换。本领域技术人员应当理解,即使在本文所述的工程化之前,被工程化的细胞也是非天然存在的细胞。上述细胞,特别是多种cho细胞,通常用于生物技术应用,例如用于产生治疗性蛋白。正如本领域技术人员也应当理解的,除了上述细胞之外的其他细胞也可以被工程化,只要它们用于或可以用于生物技术应用,特别是用于例如治疗性蛋白的表达。
[0071]
内源性逆转录病毒(erv)是源自很久以前经逆转录病毒感染的生殖细胞并在数百万年前整合到哺乳动物和其他脊椎动物细胞中的序列。这些erv是根据孟德尔定律遗传的。完整的内源性逆转录病毒的大小平均在6kb至12kb之间,并且其含有总以相同的顺序出现的gag基因、pol基因和env基因。编码序列侧翼为两个ltr(长末端重复序列)。大多数erv是有缺陷的,因为它们携带着大量灭活突变。此外,erv可以通过表观遗传沉默效应而灭活(即
不转录)。然而,一些erv在它们的基因组中仍然有开放阅读框和/或它们可能具有转录活性。哺乳动物的erv具有很强的相似性,并且可能起源于γ逆转录病毒属和β反转录病毒属,包括池内白血病病毒、猫白血病病毒(felv)、小鼠白血病病毒(mlv)、考拉流行性病毒(korv)、小鼠乳腺肿瘤病毒(mmtv)。erv保留在基因组中,并对其整合到基因组中的细胞可能有某些优势,包括提供遗传多样性的来源和保护对抗其他病毒病原体。然而,在本文其他地方描述的转基因(即蛋白质)表达的背景下,它们会变得具有感染性并具有风险,特别是因为由于癌症、细胞应激和/或表观遗传修饰引起的erv觉醒。
[0072]
逆转录病毒基因组中编码的三种主要蛋白是gag、pol和env。由gag基因编码的gag(组抗原)是一种多聚蛋白,它被加工成基质和决定逆转录病毒核心的其他核心蛋白,包括核蛋白核心颗粒。pol是由pol基因编码的逆转录酶,具有rnase h和整合酶功能。pol的活性导致病毒的双链dna预整合形式,和通过整合酶功能导致整合到宿主基因组中,也通过rnase功能导致整合到宿主基因组中后的逆转录。env是由env基因编码的包膜蛋白,并且位于病毒的脂层以决定病毒的嗜性。
[0073]
2016年12月23日提交的美国专利公开2019/0194694 a1证明了可能整合到细胞的基因组中形成γ逆转录病毒相关的erv的三类γ逆转录病毒。先前已报道了159个iap(脑池内a型颗粒)序列和144个c型小鼠erv样序列、以及6个与galv(长臂猿白血病病毒)相关的序列。
[0074]
2016年12月23日提交的美国专利公开2019/0194694a1中也讨论了基于来自cho基因组的γ逆转录病毒样erv的121个gag序列的相邻连接共有树(neighbor

joining consensus tree)。第1组和第2组erv均显示包含转录活性erv。第2组erv中的一个序列被发现具有活性,但包含终止密码子。相反,第1组中的多个序列被发现具有活性,并且在编码序列中不包含终止密码子。gag和pol的cdna分析与由全长erv序列编码的表达的erv的存在一致。根据这些序列,确定了第1组病毒的共有序列为gccccccgcca tatccgccac tgccgccccc accagaggca gaagcgg[seq id no:6]。比较图1a、图1b、图1c和图1d。
[0075]
全长erv序列,特别是全长第1组c型erv序列,是整合到细胞基因组中并且在引入改变之前可以被表达(即转录成具有gag基因、pol基因和env基因的完整开放阅读框架的功能性转录物)的序列。因此,全长erv序列,特别是全长第1组c型erv序列,将至少编码gag前体蛋白、pol编码的逆转录酶和env蛋白。在优选实施方案中,全长erv序列还包含一个或两个长末端重复(ltr)或其部分,例如长末端重复的10%、20%、30%、40%、50%、60%、70%、80%的连续核苷酸。在更优选的实施方案中,全长且表达的erv序列对应于seq id no:3或与其具有超过90%、95%、98%或99%序列一致性的序列。
[0076]
某些全长第1组c型erv序列可能导致病毒颗粒(vp)的形成和释放,所述病毒颗粒可能包含包装在病毒颗粒中的全长病毒基因组rna。在本技术的上下文中,vp是指包含至少一部分病毒基因组的病毒颗粒。在某些情况下,vp可以包含全长病毒基因组rna,并因此可以是功能性vp。在本发明的上下文中使用的vlp是看起来是vp但缺少病毒基因组的任何部分的颗粒。
[0077]
功能缺失突变会干扰正常的蛋白质合成,因此,如果发生这种突变,就不会合成任何功能性蛋白。在例如gag基因中发生功能缺失突变的情况下,gag前体蛋白或其切割产物之一受到损害,因此不会发生erv出芽。
[0078]
根据本发明的工程化细胞可以包含在大多数部分与其来源的细胞(例如cho

k1细胞)的基因组相同的基因组。然而,作为这些基因组一部分的至少1个且不超过20个(包括19、18、17、16、14、13、12、11、10、9、8、7、6、5、4、3、2、1个)erv序列,包括第1组c型erv序列,将包含本文所述的改变。
[0079]
gag基因产生gag前体蛋白,其由未剪接的病毒mrna表达。gag前体蛋白在病毒成熟过程中被病毒编码的蛋白酶(pol基因的产物)切割成通常四个较小的蛋白,称为ma(基质)、ca(衣壳)、nc(核衣壳)和另一个蛋白结构域(例如,小鼠白血病病毒(mlv)中的pp12或hiv中的p6)。本文引用的gag序列可能会产生gag前体蛋白也可能不会产生gag前体蛋白。
[0080]
gag基因编码位于atg翻译起始密码子下游的n末端myr基序。myr基序的改变是本发明的一部分。这种改变通常干扰gag豆蔻酰化,并且例如,阻断翻译或产生功能缺失突变的gag转录物。结果,在本发明的某些实施方案中,质膜上的适当病毒颗粒组装和/或逆转录病毒颗粒释放可能被阻断。seq id no:3的myr基序由位于1334

1336的序列(atg ggg caa)编码。myr基序在本文中也被称为myr出芽基序。
[0081]
gag基因的ppxy基序也有助于逆转录病毒的出芽。ppxy基序的改变也是本发明的一部分。这种改变可能会强烈抑制病毒颗粒的释放。ppxy基序可能与在第1组和第2组cho erv中保守的ppyp基序(或ppyp出芽基序)重叠,以下称为ppyp以指代这种cho特异性的ppxy相关出芽基序。ppyp由seq id no:3的位于1851

1868(ccc ccg cca tat ccg cca)的序列编码。
[0082]
ma多肽来源于前体蛋白的n端豆蔻酰化末端。大多数ma分子仍然附着在病毒粒子脂质双层的内表面以稳定该颗粒。
[0083]
ca蛋白形成病毒颗粒的锥形核心。
[0084]
gag的nc区域负责特异性识别逆转录病毒的所谓包装信号。该包装信号由位于病毒rna的5’端附近的四个茎环结构组成,并且足以介导异源rna掺入病毒粒子。nc通过两个锌指基序介导的相互作用与包装信号结合。
[0085]
另一个蛋白结构域介导前体蛋白gag和辅助蛋白vpr之间的相互作用,导致vpr掺入到组装中的病毒粒子中。hiv中的p6区域还包含所谓的晚期结构域,晚期结构域是从感染细胞中有效释放出芽病毒粒子所必需的(hope&trono,2000)。
[0086]
病毒蛋白酶(pro)、整合酶(in)、rnase h和逆转录酶(rt)在gag

pol融合蛋白的背景下表达。gag

pol前体通常由核糖体移码事件产生,所述移码事件由特定的顺式作用rna基序触发(一个在gag rna的远端区域的后接短茎环的七核苷酸序列)。当核糖体遇到这个基序时,它们约有5%的时间移动到pol阅读框,而不会中断翻译。核糖体移码的频率解释了为什么gag和gag

pol前体以约20∶1的比例产生。
[0087]
在病毒成熟过程中,病毒编码的蛋白酶将pol多肽从gag中切割,并进一步将其消化,以分离蛋白酶、rt、rnase h和整合酶的活性。这些切割并非都有效地发生,例如,约50%的rt蛋白仍然与rnase h相连作为单一多肽(p65)(hope&trono,2000)。
[0088]
pol基因编码逆转录酶。在逆转录过程中,聚合酶制备病毒粒子中存在的单链基因组rna的二聚体的双链dna拷贝。rnase h从第一条dna链上去除原始rna模板,从而合成dna的互补链。聚合酶的主要功能性种类是异源二聚体。所有pol基因产物都可以在释放的病毒粒子的衣壳内找到。
[0089]
in蛋白介导前病毒dna插入受感染的细胞的基因组dna。这一过程由in的三个不同功能介导。
[0090]
env蛋白由单个剪接的mrna表达。首先在内质网上合成的env通过高尔基复合体迁移,在高尔基复合体env经历了糖基化。感染性通常需要env糖基化。细胞蛋白酶将蛋白质切割成跨膜结构域和表面结构域(hope&trono,2000)。
[0091]
从基因组的某些erv表达的病毒基因组rna可以以vp的形式从细胞中释放出来。其他表达的erv可能会导致rvlp的形成,但不会导致vp的形成,并且因此可能不会以病毒基因组rna的形式释放。然而,通常被释放的那些更有可能变得有传染性。
[0092]
因此,通常有利的是,使细胞如本文所述工程化,使细胞能够不表达和释放vp或基本上不表达和释放vp,优选也不表达和释放vlp,优选在标准培养条件下或应激培养条件下。如果细胞培养物包括的工程化细胞释放的vp/vlp比未进行本文所述的vp/vlp释放减少程序的对应物少50%、少40%、少30%、少20%、少10%,优选少5%,则基本上没有vp/vlp被释放。这样的对应物,例如,可以是可商购的cho

k1细胞。不表达或基本上不表达意味着通过pcr和测序分析可以检测到的未突变的gag mrna序列少于50%、少于40%、少于30%、少于20%、少于10%、优选少于5%。不释放意味着没有可检测到或基本上没有可检测到的病毒序列释放,这是通过purelink viral rna/dna extractioninvitrogen和cdna pcr检测评估,或从qiagen,quantitect rev.transcription获得的。
[0093]
序列或基因的改变包括在本文所述的工程化之前在细胞中(特别是在细胞的一个或多个(包括一个或多个特定erv)erv中)没有发生的添加/插入、缺失和/或替换。在某些实施方案中,改变可以包括切除至少一个(在某些实施方案中只是一个即单个)完整erv,包括任选的erv的侧翼区域5’和/或3’。所述改变可以包括,例如,gag基因、env基因、pol基因和/或ltr中的至少一个改变。在某些实施方案中,所述改变包括gag基因、env基因、pol基因和/或ltr特别是一个或多个erv序列例如全长erv序列和/或本文公开的一个或多个特定序列的不超过100、90、80、70、60、50、40、30、20、15、10、5、4、3、2个核苷酸(包括连续核苷酸)或1个核苷酸。
[0094]
异源核酸序列是在根据本发明的工程化之前没有在细胞中出现的核酸序列,而相关类型的核酸序列可能很好地存在于细胞中。本发明上下文中使用的转基因是这样的异源核酸序列,特别是编码给定成熟蛋白的脱氧核糖核酸(dna)序列(在本文中也称为编码蛋白质的dna)、编码前体蛋白的dna序列或编码不编码蛋白质的功能性rna(非编码rna)的dna序列。分离转基因并将其引入细胞以产生转基因产物。根据本发明的一些优选转基因编码如gfp(绿色荧光蛋白)等标记蛋白。这些可用于检测成功整合到evr元件中,因此改变/灭活erv元件。其他转基因是那些编码例如最终由所关注细胞产生的蛋白质,如免疫球蛋白(ig)、fc融合蛋白和其他蛋白质,特别是具有治疗活性的蛋白质(“生物治疗剂”)。
[0095]
如本文所用,“基因组编辑”指的是对基因组序列的修饰(“编辑”),并且可以包括至少一个核苷酸的缺失、至少一个核苷酸的添加/插入或至少一个核苷酸的替换。经编辑的基因组序列在本文中称为靶核酸序列。靶向插入是发生在特定预定靶位点的插入。基因组编辑工具将双链断裂或单链断裂引入基因组,例如通过核酸酶或切口酶,并至少部分依赖于细胞重组机制(见下文讨论)来修复这些断裂。这些工具还通常包含序列特异性dna结合模块。
[0096]
zfn(锌指核酸酶)和talen(转录激活因子样效应物核酸酶)通过在特定的基因组位置诱导dna双链断裂(dsb)来刺激易错的非同源末端连接(nhej)或同源定向修复(hdr),从而实现广泛的遗传修饰。
[0097]
crispr(簇状、规则间隔、短回文重复序列)系统的序列特异性由小rna决定。crispr基因座由一系列由“间隔”序列隔开的重复序构成,所述重复序列与噬菌体和其他可移动遗传元件的基因组相匹配。重复间隔阵列被转录为长前体,并在重复序列中进行处理,以产生指定被crispr系统切割的靶序列(也称为前间隔序列)的小crrna。对于切割,通常需要紧邻靶区域下游的序列基序的存在,称为前间隔序列邻近基序(pam)。crispr相关(cas)基因通常位于重复间隔阵列的侧面,并且编码负责crrna(crispr rna)生物发生和靶向的酶促机制。cas9是使用crrna向导来指定切割位点的dsdna核酸内切酶。将crrna向导加载到cas9上发生在crrna前体的加工过程中,并且需要与前体反义的小rna、tracrrna和rnase iii。与使用zfn或talen进行基因组编辑相比,改变cas9靶标特异性不需要蛋白质工程,而只需要设计短crrna向导,也称为sgrna。
[0098]
到目前为止,cas9核酸酶的三种不同变体已被用于基因组编辑方法。第一种是野生型cas9,其可以定点切割双链dna,从而激活双链断裂(dsb)修复机制。双链断裂可以通过细胞非同源末端连接(nhej)途径修复,导致破坏靶基因座的插入和/或缺失(indel)。或者,如果提供与靶向基因座同源的供体模板,则可以通过允许进行精确的替换突变的同源定向修复(hdr)途径修复dsb。
[0099]
通过开发仅具有切口酶活性的突变形式(称为cas9d10a),对cas9系统进行了进一步工程化,以提高精确度。这意味着cas9系统只切割一条dna链,且不会激活nhej。相反,当提供同源修复模板时,dna修复只通过高保真hdr途径进行,导致indel突变减少。当基因座被设计成产生相邻dna缺口的成对的cas9复合体靶向时,cas9d10a因此在许多应用中在靶特异性方面更具吸引力。
[0100]
在本发明的上下文中,确定erv元件的特定序列或共有序列以通过例如上述系统之一指定切割位点。这种特定序列或共有序列的长度优选为5个碱基对至50个碱基对,优选为10个碱基对至50个碱基对,或者15个碱基对至25个碱基对,或者25个碱基对至50个碱基对,或者30个碱基对至50个碱基对。共有序列可以包含例如1、2、3、4或5个错配(相对于彼此具有超过60%、70%、80%、90%或95%的互补性),只要仍然可以进行切割。参见例如图3和表1,它们显示了cho

k1基因组中myr特异性sgrna和ppyp特异性sgrna的特异性靶位点。上述系统被称为非天然存在的系统或异源系统,这意味着它们被引入细胞中而不是在根据本发明进行工程化之前是细胞的一部分。在某些实施方案中,特定的dna切割事件导致表达的erv的转录沉默。
[0101]
根据本发明的载体是能够运输另一种核酸例如要由该载体表达的转基因的核酸分子,所述核酸分子已经连接到该载体上,通常已经整合到该载体中。例如,质粒是一种载体,逆转录病毒或慢病毒是另一种载体。在本发明的优选实施方案中,载体在转染之前线性化。表达载体包括异源调控元件或在这些调控元件的控制下,该调控元件被设计为促进由表达载体携带的核酸序列(例如转基因)的转录和/或表达。调节元件包括增强子和/或启动子,但也包括本文所述的各种其他元件。
[0102]
在非病毒载体中,转座子尤其具有吸引力,因为它能够在宿主基因组内的多个基
因座以高频率整合单拷贝的dna序列(整合载体)。与病毒载体不同,一些转座子据报道不会优先整合到细胞基因附近,因此它们不太可能引入有害突变。此外,转座子很容易产生和处理,通常由包含侧面为反向重复序列的货物dna的转座子供体载体和转座酶表达的辅助质粒或mrna构成。开发了多种转座子系统,以在不干扰内源性转座子拷贝的情况下在多种细胞系中动员dna。例如,最初从粉纹夜蛾(cabbage looper moth)中分离出来的piggybac(pb)转座子可以有效地将货物dna转座到多种哺乳动物细胞中。
[0103]
在本发明的上下文中,载体,特别是非整合载体,也可以用于基因或功能性rna的瞬时表达。瞬时表达是一种有限时间的表达,并且表达的时间取决于载体的设计和培养条件。然而,瞬时表达是指在至少24小时但通常不超过7天的时间里表达。
[0104]
当放置在质粒载体上的转基因附近时,表观遗传调控元件可用于保护货物dna免受不必要的表观遗传效应的影响。例如,被称为基质附着区(mar)的元件被提出用于增加货物dna基因组的整合和转录,同时防止异染色质沉默,以有效力的人类mar1

68为例。mar还可以充当绝缘体,从而阻止邻近细胞基因的激活。因此,mar元件已被用来在质粒载体或病毒载体的情况下介导高水平持续的表达。对于瞬时基因表达,可以使用非整合载体(有时称为附加型载体),例如质粒载体或非整合慢病毒(nil)载体。它们可以在宿主细胞内稳定地或短暂地维持和复制。
[0105]
载体的载体序列是载体不包括任何“其他”核酸(如转基因)和遗传元件(如mar元件)的dna或rna序列。
[0106]
术语序列一致性是指核苷酸序列或氨基酸序列一致性的量度。通常,对序列进行比对,从而获得最高级别的匹配。“一致性”本身在本领域中具有公认的含义,并且可以使用已公开的技术进行计算(参见例如,computational molecular biology,lesk,a.m.,ed.,oxford university press,new york,1988;biocomputing:informatics and genome projects,smith,d.w.,ed.,academic press,new york,1993;computer analysis of sequence data,part i,griffin,a.m.,and griffin,h.g.,eds.,humana press,new jersey,1994;sequence analysis in molecular biology,von heinje,g.,academic press,1987;and sequence analysis primer,gribskov,m.and devereux,j.,eds.,m stockton press,new york,1991)。虽然存在多种方法来测量两个多核苷酸序列或多肽序列之间的一致性,但是术语“一致性”对于本领域技术人员来说是已熟知的,为定义序列中给定位置的相同核苷酸或氨基酸(carillo,h.&lipton,d.,siam j applied math 48:1073(1988))。
[0107]
任何特定的核酸分子与例如seq id no.1、seq id no.2、seq id no.3、seq id no.4、seq id no.5或其一部分的γ逆转录病毒样序列是否有至少50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%或99%的一致性,可以常规地使用已知计算机程序来确定,例如用dnasis软件(hitachi software,san bruno,calif.)进行初始序列比对,随后用esee 3.0版dna/蛋白质序列软件(cabot@trog.mbb.sfu.ca)进行多序列比对。
[0108]
氨基酸序列与例如seq id no.1、seq id no.2、seq id no.3、seq id no.4、seq id no.5或其一部分表达的蛋白质是否有至少50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%或99%的一致性,可以常规地使用已知的计算机程序来确定,例如bestfit程序(wisconsin sequence analysis version 8 for unix,
genetics computer group,university research park,575 science drive,madison,wis.53711)。bestfit使用smith和waterman的局部同源性算法(advances in applied mathematics 2:482

489(1981)找到两个序列之间的最佳同源性区段。
[0109]
当使用dnasis、esee、bestfit或任何其它序列比对程序来确定特定序列是否例如与根据本发明的参考序列95%一致时,设置参数,使得在参考核酸序列或氨基酸序列的全长上计算一致性百分比,并且允许参考序列中最高达核苷酸总数5%的一致性空位。
[0110]
用于确定查询序列(本发明的序列)和目标序列之间的最佳总体匹配(也称为全局序列比对)的另一优选方法可以使用基于brutlag等人的算法(comp.app.biosci.(1990)6:237

245)的fastdb计算机程序来确定。在序列比对中,查询序列和目标序列都是dna序列。rna序列可以通过将u’转换为t’来比较。所述全局序列比对的结果是一致性百分比。在dna序列的fastdb比对中用于计算一致性百分比的优选参数是:矩阵=单一矩阵、k

元组=4、错配罚分=1、连接罚分=30、随机组长度=0、切断得分=1、空位罚分=5、空位大小罚分=0.05、窗口大小=500或目标核苷酸序列的长度,以较短者为准。
[0111]
例如,与本发明的参考核苷酸序列具有95%“一致性”的多核苷酸与参考序列相同,不同之处在于该多核苷酸序列在编码多肽的参考核苷酸序列的每100个核苷酸中平均可包含多达5个点突变。换言之,为了获得具有与参考核苷酸序列至少95%一致的核苷酸序列的多核苷酸,可以将参考序列中多达5%的核苷酸缺失或替换为另一个核苷酸,或者可以将参考序列中多达5%总核苷酸的核苷酸插入到参考序列中。所述查询序列可以是完整序列、orf(开放阅读框)或本文所述的任何片段。
[0112]
ncbi基本局部比对搜索工具(blast)(altschul et al.j.mol.biol.215:403

410,1990)可以从几个来源获得,包括国家生物技术信息中心(ncbi,bethesda,md.)和互联网,用于与序列分析程序blastp、blastn、blastx、tblastn和tblastx结合使用。可以在ncbi网站上访问blast以及如何使用该程序确定序列一致性和序列相似性的说明。
[0113]
本发明不仅指与本文公开的序列具有某个序列一致性的序列,而且同样指本文公开的任何序列的序列变体。因此,本发明还指提及某个序列一致性的任何上下文中的序列变体,反之亦然。“序列变体”是指不同于本文公开的序列(多核苷酸序列或多肽序列)但保留其基本性质的多核苷酸或多肽。通常,变体总体上与本文公开的序列非常相似,并且在许多区域与本文公开的序列一致。
[0114]
变体可以包含在编码区、非编码区或两者中的改变。特别优选的是包含下述改变的序列变体,所述改变产生沉默的替换、添加或缺失,但不改变例如编码多肽的性质或活性。由于遗传密码的简并性,通过沉默替换产生的核苷酸变体是优选的。此外,其中5

10个、1

5个或1

2个氨基酸以任意组合被替换、删除或添加的变体也是优选的。
[0115]
本发明还包括所述多核苷酸的等位变体。等位变体表示占据同一染色体基因座的基因的两种或更多种替换形式中的任何一种。等位变异是通过突变自然产生的,并可能导致群体内的多态性。基因突变可以是沉默的(编码多肽没有改变),或者可以编码氨基酸序列改变的多肽。多肽的等位变体是由基因的等位变体编码的多肽。
[0116]
通过插入或缺失一个或多个氨基酸残基和/或用不同的氨基酸残基替换一个或多个氨基酸残基,多肽变体的氨基酸序列可以不同于seq id no.1、seq id no.2、seq id no.3、seq id no.4,或seq id no.5中描述的氨基酸序列。优选地,氨基酸的变化是轻微的,
即不会显著影响例如蛋白质的折叠和/或活性的保守氨基酸替换;氨基酸的变化是小的缺失,通常为1个至约30个氨基酸的缺失;氨基酸的变化是小的氨基末端延伸或羧基末端延伸,例如氨基末端的甲硫氨酸残基;氨基酸的变化是最高达约20个至25个残基的小的接头肽;或氨基酸的变化是通过改变净电荷或其他功能来促进纯化的小的延伸,例如多组氨酸序列段、抗原表位或结合域。保守替代的实例在碱性氨基酸(精氨酸、赖氨酸和组氨酸)、酸性氨基酸(谷氨酸和天冬氨酸)、极性氨基酸(谷氨酰胺和天冬酰胺)、疏水性氨基酸(亮氨酸、异亮氨酸和缬氨酸)、芳香族氨基酸(苯丙氨酸、色氨酸和酪氨酸)和小氨基酸(甘氨酸、丙氨酸、丝氨酸、苏氨酸和甲硫氨酸)的组内。通常不改变特定活性的氨基酸替换是本领域已知的并且描述于,例如h.neurath and r.l.hill,1979,the proteins,academic press,new york。最常见的交换是ala/ser、val/ile、asp/glu、thr/ser、ala/gly、ala/thr、ser/asn、ala/val、ser/gly、tyr/phe、ala/pro、lys/arg、asp/asn、leu/ile、leu/val,以及这些相反的交换。
[0117]
某个百分比的“连续核苷酸”是指彼此直接相连的核苷酸。因此,包含60000个核苷酸的seq id no:2的10%的核苷酸可以是核苷酸1至核苷酸6000或核苷酸2至核苷酸6001等。
[0118]
如果说一个序列与另一个序列“直接相邻”,意味着没有间隔序列。侧翼区域与特定序列直接相邻,并且表示特定核酸序列的5’区域和3’区域。
[0119]
通过例如sirna的基因沉默已在别处有描述,例如在美国专利公开20180016583中,该专利通过全文引用纳入本文,并且特别是其公开内容和基因沉默。
[0120]
cho细胞是治疗性蛋白最广泛使用的表达系统,但也是40多年来公认的外来病毒样颗粒的来源(7

10)。尽管这些颗粒从未被证明有传染性,但它们的基因组起源和可能的进化仍然大部分未知。因此,安全间题一直存在,并且在提纯治疗性蛋白时必须采取充分的预防措施。在本发明中,发明人通过在基因组、转录组和病毒颗粒水平上表征cho内源性逆转录病毒元件来解决这个问题,表明cho细胞能够释放携带有第1组c型erv的病毒rna基因组的完整病毒颗粒。该序列编码全长的开放阅读框,因此很可能产生功能性病毒蛋白。这一发现对1994年发表的关于cho病毒颗粒序列的唯一可用研究提出挑战,在该研究中,作者仅检测到erv基因中有大量突变的有缺陷的dna序列(12)。利用这个更新的病毒颗粒rna序列,负责表达和释放cho病毒颗粒的可能的erv基因座的数量被限制在cho基因组中一组最多30个非常保守的第1组c型erv序列中。
[0121]
接下来,使用crispr

cas9对功能相关的第1组c型erv序列的myr出芽基序和ppyp出芽基序进行突变,以寻求阻止erv出芽。在瞬时crispr

cas9表达后,10%

15%的分离克隆在表达的第1组序列中存在突变,其中一些突变导致了gag功能缺失效应。在确定的erv序列中引入独特的突变后,可以查明作为cho细胞中病毒c型颗粒形成的来源的单个基因组erv基因座。最有趣的是,这个特定位点的定点诱变足以避免携带病毒基因组rna的病毒颗粒的释放。这表明存在于cho基因组中的其他erv可能无法补充gag功能缺失,也不能在crispr

cas9诱变后被重新激活。
[0122]
多基因座基因组编辑的一个常见技术挑战是存在广泛的dna损伤。这种损伤可能是由多个由cas9诱导的dsb引起的,所述dsb通常激活p53信号传导并导致细胞死亡(20,47

50)。预计这项研究中设计的sgrna可以完美地识别cho基因组中约60个不同的第1组c型erv
基因座,尽管只有一些应该被转录并且因此可能会优先被cas9切割。事实上,crispr

cas9处理的克隆在单次瞬时转染后具有1到14个不同的突变位点,这表明cho细胞能够处理最多达14个单独的dsb的dna损伤反应和dna损伤修复。与在原代细胞中有时单个dsb断裂会导致细胞死亡(50)相比,转化的细胞系(如cho细胞)通常会遇到更高水平的内源性dna损伤,并且它们更有可能处理多基因座的基因组编辑并存活,如本文所示(51)。然而,即使在cho细胞中,在用erv靶向sgrna进行相当温和的瞬时处理后,也观察到细胞增殖和/或细胞活力的下降,这与预测的靶位点数量有很好的相关性。升高的细胞毒性可能会阻止更多高度突变克隆的分离。这可以解释为什么最近的一项研究报告分离出在最多达62个内源性病毒元件中含有突变的原代猪细胞需要抗凋亡处理来抑制p53介导的细胞死亡(20)。
[0123]
多基因座编辑的另一个挑战是cho基因组中存在的大量重复erv序列可用作hr(同源重组)修复的模板,这可以抵消由c

nhej(典型非同源末端连接修复)和alt

ej(替代末端连接)修复途径介导的有效基因敲除。在cho细胞中,hr活性被认为比其他细胞(52,53)要低很多。通常,hr可以精确修复dsb(双链断裂),但也会出现不精确的修复结果(54)。本发明发现在两个sgrna位点的分析的修复连接体中,约10%包含hr相容特征,例如来自其他erv基因座的模板插入。因此,推测hr修复是活跃的,并可能对抗有效的erv诱变。
[0124]
本研究中使用的基因组编辑策略主要目的是引入gag功能缺失突变,干扰正常gag蛋白合成并从而阻止erv的出芽。然而,本领域技术人员将理解,pol基因或env基因和/或至少一个ltr中的功能缺失突变也可以通过适当的程序引入。正如预期的那样,在表达的第1组c型erv序列中突变的克隆显示,第1组和第2组erv的mrna表达水平没有变化(数据未显示),但在释放封装的病毒rna方面受到严重损害。此外,与对照样本相比,erv突变克隆在细胞生长、细胞大小或治疗性蛋白产生方面没有一致的差异。因此,克隆之间的差异可能是克隆特异的。克隆变异是从多克隆群体中分离克隆时的常见现象,并且该现象甚至在克隆的亚克隆过程中也被注意到(57,58)。克隆特异性变异不仅源于克隆之间的遗传异质性,例如由于获得随机突变和/或crispr衍生的突变,暴露于不同的应激反应,特别是在crispr处理期间,而且还源于蛋白质表达的随机波动和/或表观遗传效应(49、58、59)。此外,未翻译的mrna或无义mrna以及被截短的且通常功能失调的蛋白质在细胞质中的积累与不清楚的副作用有关(60)。
[0125]
本公开显示可以使用第1组c型特异性sgrna选择性地突变具有功能活性的erv基因座。这为提高cho细胞的安全性提供了新的途径,从而大大减少了在生物制药生产过程中清除病毒所需的病毒灭活和病毒去除步骤的数量。单个erv基因座可以负责erv的表达和cho细胞释放病毒颗粒,这一发现使发明人能够使用两个位点特异的sgrna来切除整个10kb长的前病毒基因组,就像对hiv感染的人类细胞所做的那样(61)。这种erv诱变的方法可能会减少引发的dna损伤反应,可能避免缺陷erv rna在细胞质中积累和/或由于cho基因组其他元件的突变而产生的其他有害副作用,从而减少对中靶(on

target)表型的混淆效应。
[0126]
材料和方法
[0127]
细胞培养
[0128]
将适应悬浮的中国仓鼠卵巢(cho

k1)衍生细胞保持在无血清hyclone sfm4cho培养基中,该培养基中补充了hyclone cell boost 5补充剂(ge healthcare)、l

谷氨酰胺(gibco)、ht补充剂(gibco)和抗生素抗真菌溶液(gibco)。用赤藓红b染料(sigma

aldrich)
评估cho细胞活力,并用luna

fl双荧光细胞计数器(logos biosystems)定量活细胞密度和细胞大小。细胞在50ml tubespin生物反应管(tpp,switzerland)于37℃在5%co2的加湿培养箱中培养,搅拌速度为180rpm,并且每3

4天传代一次。
[0129]
质粒构建
[0130]
用哺乳动物密码子优化的化脓性链球菌(streptococcus pyogenes)cas9(spcas9)核酸酶表达质粒jds246(addgene质粒#43861)(21)引入位点特异性dsb。crisprseek r包(22)被用于设计靶向第1组erv的gag共有序列中的豆蔻酰化(myr)基序或ppyp基序的单向导rna(sgrna)序列。
[0131]
在所有潜在的sgrna中,选择了3个myr(myr2,myr4,myr8)特异性sgrna序列和5个ppyp(ppyp5,ppyp6,ppyp7,ppyp13,ppyp20)特异性sgrna序列,因为它们介导的dsb切割距离靶基序不超过25bp,并且因为使用各种评分工具(crisprseek,(22);crispr的序列扫描,(23);sgrna评分器1.0,(24))预测它们具有高sgrna效率(表1)。
[0132]
表1.cho

k1基因组中myr特异性sgrna和ppyp特异性sgrna的erv靶位点预测数量。
[0133][0134]
*spcas9的典型pam序列是ngg
[0135]
使用crisprseek包,以cho

k1细胞基因组为参考序列,对这些sgrna序列进行全基因组脱靶切割分析。使用zinc finger targeter软件支持工具(25,26)设计sgrna寡核苷酸,随后如前人所述(21)将退火的sgrna寡核苷酸克隆到哺乳动物sgrna表达载体mlm3636(addgene质粒#43860)中。对于在5’端缺少鸟嘌呤(g)核苷酸的sgrna序列,附加一个额外的非配对g以提高来自sgrna表达质粒的转录(27)。所有使用的引物均购自microsynth ag(balgach,switzerland),并列于表2。
[0136]
表2a.本研究中使用的sgrna和相应引物的序列。
[0137][0138][0139]
表2b.用于表征编辑后的cho细胞的相应基因组基因座的pcr引物和illumina测序引物序列。
[0140][0141]
表2b(续表).用于表征编辑后的cho细胞的相应基因组基因座的pcr引物和illumina测序引物序列。
[0142][0143]
pr=根据预期的erv的百分比(总计=1)的引物比
[0144]
表2c.用于表征和验证erv基因座和表达的pcr引物和qpcr引物的序列
[0145][0146]
vp和vlp的rna提取
[0147]
根据制造商的方法并进行一些修改,使用invitgen病毒rna/dna小量提取试剂盒(thermo fisher scientific)从vp和vlp分离的cho培养上清液中提取总rna。使用新鲜制备的上清液,或者使用仅一个冷冻和解冻循环后的上清液。将上清液500μl装入带0.22μm滤膜的corning costar spin

x柱离心管,于16000g离心1分钟。向500μl的cho细胞培养物上清液中加入约12.5个单位的无rnase的dnase(macherey

nagel),于37℃孵育15分钟以消化可能存在的残留dna。然后按照病毒rna/dna小量提取试剂盒中的说明对得到的提取物进行处理。将从离心柱中回收的rna重新悬浮在30μl的无rnase水中,然后用10个单位的无rnase的dnase(macherey

nagel)于37℃进行另一次30分钟的dnase处理。在以5mm最终浓度加入edta后,将提取物于70℃孵育15分钟以进行dnase变性步骤。将样本放置在微量透析mf

millipore滤膜(merkmillipore)(vswp型,0.025μm孔径)上15分钟,以去除样本中残留的edta等盐。
[0148]
erv序列灭活、荧光细胞富集和单细胞分离
[0149]
cho

k1细胞在转染前一天以300,000细胞/ml接种。在转染当天,根据制造商的说明,使用neon转染系统(thermo fisher scientific),以3700ng的crispr

cas9表达质粒和1110ng的myr特异性sgrna表达质粒或ppyp特异性sgrna表达质粒对700,000个细胞进行电
穿孔。crispr

cas9表达质粒和sgrna表达质粒按等摩尔比使用。在每种转染条件下加入200ng的pcmv

dsred

express质粒(clonetech)作为转染对照。对于crispr对照实验,将myr特异性sgrna表达质粒或ppyp特异性sgrna表达质粒替换为空的sgrna表达载体(空载体对照)。
[0150]
为了富集转染的和erv突变的cho细胞,在转染后48小时至72小时,用moflo astrios eq或facsaria ii细胞分选仪(beckman coulter)对至少70,000个细胞进行批量分选,以获得最高30%

40%的转染的dsred表达细胞群。然后将细胞短暂离心以交换培养基并扩增。为了分离单细胞克隆,crispr处理的细胞于室温与dapi活性染料(bd biosciences)孵育15分钟。使用facsaria fusion(beckman coulter)将活细胞单细胞分选到96孔板中。细胞克隆在补充有l

谷氨酰胺、ht补充剂、抗生素抗真菌溶液和clonacell

cho acf补充剂(stemcell technologies)的sfm4cho培养基中恢复,以提高分选后的存活率。使用软件v10.4.2分析流式细胞仪数据。首先使用侧向角散射(ssc)和前向角散射(fsc)对细胞进行门控,以将完整的细胞群体与碎片分开,然后在ssc

h/ssc

w和fsc

h/fsc

w图中选择单细胞。然后,以非荧光细胞作为门控对照,对单细胞群体进行对于dsred 细胞的门控。
[0151]
erv突变效率
[0152]
为了评估erv特异性sgrna的切割效率,在转录的erv序列中确定erv突变的频率。用nucleospin rna试剂盒(macherey nagel)提取经crispr处理的多克隆细胞的总rna,并用olig(dt)
15
引物和反转录系统(promega)反转录成cdna。对于crispr处理的单细胞克隆,使用sv 96总rna分离系统(promega)分离总rna,并使用反转录混合物、oligo(dt)(promega)进行反转录。使用dna聚合酶(new england biolabs)和第1组erv特异性引物(表2b)进行crispr靶区域的pcr扩增。pcr产物通过sanger测序进行分析并分析突变。crispr处理的多克隆群体的诱变频率是通过对混合sanger测序图谱的分解以及使用tide软件与未经处理的(野生型)细胞的比较来确定的。
[0153]
crispr靶向基因组区域的深度扩增子测序分析
[0154]
为了在基因组水平上评估crispr诱导的erv突变的数量,使用dnasyblood&tissue(qiagen)从erv编辑的cho克隆中提取dna。按照illumina“16s宏基因组测序文库制备方法”中所述的两步pcr方法并作了一些修改,使用提取的基因组dna制备测序文库。简而言之,使用primer design

m工具(29)设计简并引物,以扩增所有预测的c型erv序列的myr2 sgrna靶位点和ppyp6 sgrna靶位点侧面约300bp的基因组区域(对于myr为290bp的扩增子,对于ppyp为314bp的扩增子,表2)。简并引物含有多种0bp至3bp的异质性间隔区以增加模板复杂性(30),myr引物或ppyp引物以预测的基因组频率混合。在第一轮pcr中,使用100ng分离的基因组dna通过kapa hifi hotstart(2
×
)(kapa biosystems)对myr靶基因座和ppyp靶基因座分别进行23个循环和20个循环的pcr扩增。pcr扩增子采用ampure磁珠(beckman coulter)按1∶1的磁珠比进行纯化。在agilent 2100
上验证扩增子的质量和大小,并使用qubit dsdna hs(thermo fisher scientific)对dna进行定量。在第二轮pcr中,使用8个pcr循环将illumina nextera xt测序接头加入15ng纯化的扩增子中。最终文库用ampure磁珠(beckman coulter)按1∶1.12的磁珠比进行纯化。使用片段分析仪(advanced analytical)验证文库质量和大小,并使用qubit dsdna hs(thermo fisher scientific)进行定量。以等摩尔比合并文库,添加25%的phix,并在洛桑大学基因技术设施(switzerland)的illumina miseq上使用2
×
250bp的双端测序进行测序。
[0155]
对于所有已鉴定的突变,使用upgma树构建方法下的jukes

cantor遗传距离模型对illumina原始读段进行聚类,以检测突变侧翼区域的erv基因座特异性遗传变异。
[0156]
erv突变cho克隆的全基因组测序
[0157]
为鉴定cho全基因组中突变的erv基因座,用blood&cellculture dna试剂盒(qiagen)从经sgrna ppyp6处理的e10克隆中提取高分子量dna。dna质量和数量分别使用片段分析仪(advanced analytical)和(thermo fisher scientific)进行验证。样本测序在在洛桑大学基因技术设施(switzerland)的pacbio sequel(pacific biosciences)上进行。
[0158]
治疗性蛋白表达的分析
[0159]
为了评估erv修饰细胞的治疗性蛋白产生能力,用带有嘌呤霉素抗性基因的曲妥珠单抗免疫球蛋白g1(igg1)重链和轻链表达载体对预先用erv特异性sgrna表达质粒或空sgrna表达质粒处理的多克隆细胞群体和细胞克隆进行电穿孔(31)。用相同的表达载体平行转染野生型cho

k1细胞作为对照。转染2天后,将细胞转移到含5μg/ml嘌呤霉素的培养基中,并进行3周的选择。
[0160]
如前人所述(31),在10天的补料分批培养过程中,对稳定表达曲妥珠单抗的细胞群体的培养物中的免疫球蛋白滴度进行了定量。简而言之,细胞以0.3
×
106细胞/ml接种于5ml的初始培养体积中(没有嘌呤霉素选择)。在细胞培养的第0天、第2天、第3天、第6天和第8天,用cell boost 5补充剂(ge healthcare)按初始培养体积的16%喂养细胞。分别于第3天、第6天、第8天和第10天评估细胞密度和细胞活力,并且于第6天、第8天和第10天用夹心elisa法检测细胞培养物上清液中免疫球蛋白的分泌。
[0161]
cho

k1细胞中erv元件的表征
[0162]
为了寻找存在于cho细胞中的erv,使用长读段测序从头组装cho

k1基因组,并在该组装体中搜索先前报道的iap和ml2g小鼠逆转录病毒序列(12,13)。此外,发明人还利用图谱对通过序列相似性鉴定的erv元件进行了补充和验证。在cho基因组中发现了约160拷贝的iap样前病毒元件。除了约200个iap外,还鉴定出173个与cho细胞中的ml2g序列有至少80%序列一致性的γ逆转录病毒c型前病毒(12)(表3)。
[0163]
表3.在cho

k1细胞的基因组、转录组和病毒颗粒中检测到的不同c型erv序列的数
量和频率。
[0164][0165]
虽然c型前病毒的鉴定数量与先前的估计一致(6),但发明人注意到一些erv拷贝不能被成功地放置在组装体中,这表明173个拷贝可能低估了cho细胞中c型erv元件的总储备量。在已鉴定的173个c型erv序列中,只有112个含有产生功能性erv所必需的gag基因、pol基因和env基因。这些全长仓鼠c型erv序列的系统发育分析揭示了它们与其他哺乳动物逆转录病毒元件(例如猫白血病病毒(felv)和小鼠白血病病毒(mlv))非常相似(数据未显示)。在这些c型erv序列中,发明人鉴定了两个不同的组:第1组和第2组,分别包含101个和36个成员(图1a)。第1组和第2组的c型erv形成了优势的功能最保守的序列簇,具有完整的5’ltr

gag

pol

env
‑3’
ltr前病毒结构,并且它们也与mlv元件有最大的相似性,已知mlv原件会生感染灵长类细胞系的病毒颗粒(16)。这意味着第1组和第2组的erv是最有可能形成病毒颗粒的候选者。
[0166]
进一步的序列分析强调了gag基因和pol基因在第1组和第2组的erv序列中高度保守,但属于第1组的erv总体上表现出比第2组erv更少的多样性(图1b

图1d),并揭示了可能不同且保守程度较低的第3组erv的存在,例如来自基于env的系统发育的erv(图1d)。第1组erv序列平均共享99%的序列一致性,并且可能形成三个亚组(在图1b

图1d中以不同的阴影标记)。然而,这些erv序列的总体高度保守性和使用读段组装的基因组中的测序错误频率阻碍了对这些第1组、第2组和第3组的erv中哪些可能是功能性和潜在活性的直接鉴定。
[0167]
为了补充对基因组cho erv的表征,使用illumina技术对总细胞mrna进行测序,以完善转录的erv序列。c型erv mrna是cho细胞中最丰富的10个转录物之一(数据未显示)。将读段映射到c型erv代表上显示所有读段的99.5%具有对应于第1组和第2组的序列,表明这两组贡献了绝大多数cho细胞转录的erv。虽然读段主要映射在两个易于区分的第2组erv序列上,但它们也映射在约30个第1组erv序列上(图2a)。由于第1组erv是最高度保守的,因此不容许将这些读段明确地认为是一个或几个独特的第1组基因座的特征。有趣的是,两个转录的第2组erv序列都含有中断的orf和/或缺失的编码序列,一个包含pol基因中2350bp的缺失,而第二个在gag基因和pol基因中有一个移码以及在pol中有三个终止密码子突变。sanger测序证实了这些突变。相比之下,转录的第1组erv序列似乎编码全长gag、pol和env转录物。总体而言,这表明有3至32个erv基因座被转录,对应于cho细胞中总erv元件的约2%至20%(表3)。这样的erv表达频率与以前的报告一致,表明大多数内源化的erv在细胞系和生物体中是表观遗传沉默的(32)。最后,在总细胞mrna中还检测到含有ltr的病毒基因组rna,表明cho细胞能够产生逆转录病毒基因组,该逆转录病毒基因组可以被封装并作为逆转录病毒颗粒释放于细胞上清液中。
[0168]
分离由培养的cho细胞释放的逆转录病毒样颗粒,并提取病毒基因组rna序列,通过采用技术的深度测序进行表征。与细胞总mrna序列相比,观察到含有ltr的病毒基因组rna丰富了20倍(图2a)。这表明cho细胞能够将含有基因组病毒rna的逆转录病毒颗粒释放到细胞上清液中。对这些病毒rna序列的深度分析表明,第1组衍生的读段主要存在于释放的病毒颗粒中(图2b)。此外,这些序列仅可以被映射到1至5个不同的第1组erv序列,这表明只有少数第1组erv基因座负责cho细胞中病毒颗粒(vp)的产生(表3)。
[0169]
为了进一步表征功能性第1组c型erv序列,设计了用于荧光原位杂交(fish)实验的第1组特异性探针。使用这些探针在cho

k1基因组中检测到约50

100个第1组erv整合位点,与在新组装的基因组中检测到的病毒整合事件的数量一致(图2c和表3)。逆转录病毒整合分散在整个cho

k1基因组中,在最小的染色体之一中可能存在整合热点。此外,当对第1组新生mrna进行染色时,观察到一个独特的高转录位点,表明只有一个第1组erv基因座可能具有转录活性(图2d)。
[0170]
总之,在基因组、转录组和病毒颗粒(vp)水平上的系统erv表征确定了几个第1组c型erv是从cho

k1细胞表达和释放功能性逆转录病毒颗粒的有力候选者。虽然c型erv序列之间的高度序列一致性掩盖了表达的erv基因座的确切数量,但这些数据表明,通过基因组编辑来突变少数转录的第1组erv基因座可能足以防止erv颗粒的形成。
[0171]
设计erv特异性sgrna序列用于crispr

cas9基因组编辑
[0172]
为了抑制潜在感染性病毒颗粒(vp)从cho细胞释放,目的是破坏对vp释放至关重要的保守erv序列基序。gag蛋白在逆转录病毒出芽过程中起关键作用,并且一致地,其在cho细胞的c型erv中是保守的。然而,与例如pol基因相比,gag序列足够不同,以区分第1组和第2组的c型erv序列,从而容许特异性地靶向第1组erv颗粒(图1b和图1c)。选择参与病毒出芽的两个保守的gag序列(豆蔻酰化(myr)基序和ppxy基序),作为crispr

cas9介导的诱变靶点。n末端myr基序位于atg翻译起始密码子下游第2位的甘氨酸残基处(图3)。gag的豆蔻酰化通常被认为是将蛋白质靶向到宿主质膜所必需的(33)。直接干扰gag豆蔻酰化、阻止生理起始位点的翻译或产生功能缺失的gag转录物的突变将扰乱在质膜上正确的病毒颗粒组装,从而阻止逆转录病毒颗粒的出芽(33,34)。除了myr,保守的富含脯氨酸的ppxy基序也有助于逆转录病毒出芽,可能是通过与escrt机制相互作用(35),ppxy基序的突变强烈地抑制病毒颗粒的释放(36)。ppxy基序与在第1组和第2组cho erv中保守的ppyp基序重叠,下文中称为ppyp以指代这种cho特异性的ppxy相关出芽基序。
[0173]
针对第1组gag共有序列设计了8个sgrna:3个靶向myr基序(myr2,myr4,myr8)的构建体和5个靶向ppyp基序(ppyp5,ppyp6,ppyp7,ppyp13,ppyp20)的构建体(图3)。所选的sgrna序列位于相应的靶基序附近,并被预测在33至117个靶erv序列之间完全匹配,但当允许最多3个错配和非典型前间隔序列邻近基序(pam)位点时,靶向最多达283个位点(表1)。重要的是,所有这些潜在的切割位点都映射到erv序列,而在cho基因组中的其他脱靶位点没有被检测到。虽然这些sgrna序列包含大量预测的靶位点,但推测表达的erv可能优先被crispr

cas9核酸酶切割,因为crispr

cas9核酸酶优先选择开放染色质(37)。
[0174]
用crispr

cas9和myr sgrna表达质粒或ppyp sgrna表达质粒以及dsred转染对照质粒一起瞬时转染cho

k1亲本细胞,以突变gag出芽基序。对于crispr对照样本,将gag特异性sgrna表达质粒替换为非靶向空载体sgrna对照质粒(空载体)或不处理(野生型)。对转染
的dsred阳性(dsred )细胞进行批量分选,以富集含有靶基序突变的细胞。在用erv特异性sgrna处理后,注意到与对照样本相比,转染的dsred 细胞的总体频率降低,并且dsred 细胞的dsred荧光强度显著下降,这表明最高度转染的细胞可能因为高频率的基因组切割而无法存活(图7a和图7b)。一致地,这种效应对于具有最低的预测靶位点数量的myr4 sgrna处理的细胞也减弱。发明人还观察到crispr处理后增加的细胞粒度,这与dsred 细胞的频率和表达强度呈负相关(图7c和图7d)。此前报道高度颗粒的细胞由促凋亡细胞群和/或死亡细胞群组成(38)。总之,这提供了crispr介导的erv切割阻碍细胞增殖和细胞存活的证据,特别是在高度转染的细胞中,意味着erv特异性sgrna在cho基因组的多个靶位点有效地引入dsb。
[0175]
为了估计表达的第1组erv中crispr介导的诱变频率,对批量分选的经myr和ppyp处理的总细胞mrna进行反转录和pcr扩增,然后对多克隆pcr产物进行直接测序,或将其克隆到细菌载体中再进行单克隆序列分析。基于这些分析,估计所设计的gag特异性sgrna在约9%至35%的erv mrna中引入了突变,并且myr2 sgrna或ppyp6 sgrna是最有效的(图8,表4,表5)。有趣的是,一些回收的突变预计会阻止翻译或引入移码,并且因此应该会导致gag功能缺失表型。
[0176]
表4.对克隆到质粒载体中的表达的c型erv序列中的crispr介导的突变的检测。
[0177][0178]
(1)包括翻译抑制和移码突变,并且其表示为相对于突变序列的数量。
[0179]
表5显示了用野生型cas9核酸酶和多种sgrna(myr2,ppyp6和ppyp13)处理的cho

k1细胞的表达的erv修复连接体的mrna sanger测序数据。这些序列来自克隆到质粒载体中的cdna pcr扩增子的sanger测序。
[0180]
表5.克隆到质粒载体中的erv突变的cho

k1 mrna连接扩增子的序列分析。
[0181]
[0182]
[0183]
[0184][0185]
表5显示了用野生型cas9核酸酶和多种sgrna(myr2,ppyp6和ppyp13)处理的cho

k1细胞的表达的erv修复连接体的mrna sanger测序数据。在第二列中,由多种sgrna和野生型cas9核酸酶诱导的预测钝端dsb位点以斜体arial black字体(例如,)突出显示,pam位点以粗体arial字体(例如,)突出显示。myr靶基序和ppyp靶基序以常规arial black字体(例如,)突出显示。微同源介导的末端连接(mmej)修复机制中预先存在的微同源序列(mh)以粗体显示,而合成依赖性微同源介导的末端连接(sd

mmej)机制的从头开始的mh用双线下划线。插入的碱基用粗体字母表示,缺失的碱基用
“‑”
符号表示,并且替换用粗体黑色表示。(8)先前还观察到由第4个核苷酸的重复所组成的频繁1bp插入(lemos 2018,taheri 2018),(9)用于插入的dna模板序列位于上游290bp,(10)用于插入的dna模板序列位于71bp下游。
[0186]
表5的第2列显示了由多种sgrna和野生型cas9核酸酶诱导的预测钝端dsb位点(更多详细信息参见表格图例)。在第3列中,提供了突变的大小和mh长度(以bp为单位)。括号中
显示了从头开始的mh的引发位点和断裂位点之间的距离。第4列显示erv突变类型包括框内突变、框外突变、翻译抑制(atg翻译起始密码子的突变)或位于erv编码区之外的突变。框外突变和翻译抑制可能影响erv的表达和vlp的形成,而框内突变和编码区之外的突变不太可能影响erv的表达和vlp的形成。第5列中示出了基于手动连接体分析的最可能的dsb修复机制。可能的修复机制包括c

nhej、mmej、sd

mmej(快速恢复(snap

back))、sd

mmej(环出(loop

out))、单链退火(ssa)、同源重组(hr)和未知。对于快速恢复sd

mmej机制,从头引发位点是反向重复序列,而环出sd

mmej机制使用具有直接重复序列的引发位点(khodaveridan 2017)。如果观察到的连接体序列与多于一个的机制兼容,并且两者看起来可能性相等,则会列出所有可能的途径。使用schimmel et al.2017(schimmel 2017)中所述的程序验证连接体在断裂位点和模板化插入(sd

mmej)处的同源性。第6列显示根据mh大小和缺失长度的每个修复模式的评分。使用bae et al.2014(bae 2014)中所述的rgenome“microhomology

predictor”工具(在rgenome.net网站上的mich

calculator下)计算模式评分。评分越高,越有可能观察到预测的突变。模式评分仅对在断裂位点显示mh的修复连接体(mmej介导的修复)有效。第7列显示了使用在线工具(cas9靶标处修复事件的优选结果;在partslab.sanger.ac.uk网站下)crispr

cas9编辑结果的预测频率,如allan et al.2018(allan 2018)所述。频率越高,预计包含预测突变模式的连接体就越多。只列出了预测的十种最常见突变的频率。
[0187]
erv突变的cho

k1克隆的分离和表征
[0188]
由于预测约10%至15%表达的第1组erv序列会发生突变,因此推测在多克隆群体中很难检测到病毒颗粒释放的潜在减少。因此,从批量分选的myr2或ppyp6编辑的细胞池中分离单个cho细胞克隆,并筛选在表达的第1组erv序列中有突变的克隆。在经myr2处理的95个克隆中和经ppyp6 sgrna处理的181个克隆中,分别有18个克隆(18%)和14个克隆(8%)在mrna水平上含有第1组erv突变,与先前的估计一致(表6,也包括表4、表5)。
[0189]
表6.编辑的cho

k1克隆的表达的c型erv序列中crispr介导的突变的检测。
[0190]
样本筛选的克隆数突变的克隆数突变频率功能缺失突变频率*myr2 sgrna951819%11%ppyp6 sgrna181148%79%总计2763212%45%
[0191]
*包括翻译抑制和移码突变,并且表示为相对于突变克隆的数量。
[0192]
在myr2突变的克隆中,大多数克隆在atg起始密码子上游有一个相同的1bp插入(表7),这可能是由交错的crispr

cas9切割造成的(39)。用ppyp6 sgrna处理的克隆都没有获得跨越ppyp基序的突变。尽管如此,2个myr2衍生的克隆和11个ppyp6衍生的克隆含有阻止翻译或者使gag转录物移码的突变,因此所述克隆成为减少病毒颗粒释放有希望的候选者。还观察到所有克隆的修复连接体的sanger测序图谱均显示清晰的单突变序列,在crispr侧翼序列中没有背景噪音。这支持了只有一个第1组erv基因座可以被显著转录并导致cho细胞产生病毒颗粒的假设。
[0193]
表7.突变cho

k1克隆的表达的mrna erv的序列分析。
[0194]
[0195]
[0196]
[0197][0198]
表7显示了用野生型cas9核酸酶和myr2 sgrna或ppyp6sgrna(连接)处理的cho

k1克隆的表达的erv修复连接体的mrna sanger测序数据和亲代非工程cho细胞的未突变序列(基因组)。这些序列来自于cdna pcr扩增子的sanger测序。如果多次检测到相同的修复连接,则每个样本名称下面的数字表示为(n=)。在第2列中,由两个sgrna和野生型cas9核酸酶诱导的预测钝端dsb位点以斜体arial black字体(例如,)突出显示,pam位点以及myr靶基序和ppyp靶基序以常规arial black字体(例如,)突出显示。微同源介导的末端连接(mmej)修复机制中预先存在的微同源序列(mh)用灰色粗体字母(例如,)显示,而合成依赖性微同源介导的末端连接(sd

mmej)机制的从头开始的mh用双线下划线。插入的碱基用小的粗体courier字母(例如,)表示,缺失的碱基用
“‑”
符号表示,并且替换用斜体带一条粗线表示。(深色突出显示的框包含)。na:没有。(8)先前还观察到由第4个核苷酸的重复组成的频繁1bp插入(lemos 2018,taheri2018)。(9)未知机制,但shin等人(shin 2017)描述了相似的连接体模式。
[0199]
为了在基因组水平上进一步研究crispr衍生的突变,在表达的erv序列中携带突变的cho克隆子集中对c型erv的myr侧翼区域和ppyp侧翼区域进行了深度测序(表7)。在表达的第1组c型erv序列中选择有gag功能缺失突变的2个myr2编辑克隆和4个ppyp6编辑克隆(myr2的克隆为co2和d12;ppyp6的克隆为a02、e10、k03和k14),以及1个在第1组erv编码区外有大的突变的myr2衍生克隆(g09),并将它们与野生型对照样本和空载体对照样本一起进行基因分型。
[0200]
表7显示了用野生型cas9核酸酶和myr2 sgrna或ppyp6sgrna处理的cho

k1克隆的表达的erv修复连接体的mrna sanger测序数据。这些序列来自于cdna pcr扩增子的sanger测序。在第2列中,突出显示了由两个sgrna和野生型cas9核酸酶诱导的预测钝端dsb位点(更多详细信息参见表格图例)。在第3列中,提供了突变的大小和mh长度(以bp为单位)。括号中显示了从头开始的mh的引发位点和断裂位点之间的距离。
[0201]
第4列显示erv突变类型包括框内突变、框外突变、翻译抑制(atg翻译起始密码子的突变)或位于erv编码区之外的突变。框外突变和翻译抑制可能影响erv的表达和vlp的形
成,而框内突变和编码区之外的突变不太可能影响erv的表达和vlp的形成。第5列中示出了基于手动连接体分析的最可能的dsb修复机制。可能的修复机制包括c

nhej、mmej、sd

mmej(快速恢复)、sd

mmej(环出)、单链退火(ssa)、同源重组(hr)和未知。对于快速恢复sd

mmej机制,从头引发位点是反向重复序列,而环出sd

mmej机制使用具有直接重复序列的引发位点(khodaveridan 2017)。如果观察到的连接体序列与多于一个的机制兼容,并且两者看起来可能性相等,则会列出所有可能的途径。使用schimmel et al.2017(schimmel2017)中所述的程序验证连接体在断裂位点和模板化插入(sd

mmej)处的同源性。第6列显示根据mh大小和缺失长度的每个修复模式的评分。使用bae et al.2014(bae 2014)中所述的rgenome“microhomology

predictor”工具(http://www.rgenome.net/mich

calculator/)计算模式评分。评分越高,越有可能观察到预测的突变。模式评分仅对在断裂位点显示mh的修复连接体(mmej介导的修复)有效。第7列显示了使用在线工具(cas9靶标处修复事件的优选结果;https://partslab.sanger.ac.uk/forecast)crispr

cas9编辑结果的预测频率,如allan et al.2018(allan 2018)所述。频率越高,预计包含预测突变模式的连接体就越多。只列出了预测的十种最常见突变的频率。
[0202]
为了检测crispr衍生的突变,并将它们与在每个靶标天然存在的序列变异区分开,对来自野生型cho细胞的读段进行了聚类,并使用这些聚类共有序列来创建多样性图谱。当按97%的序列相似性进行聚类时,鉴定出34个myr簇和28个ppyp簇,它们代表了myr和ppyp侧翼区域内存在的天然erv序列多样性(图4a和图4b,图9)。尽管总体上序列多样性很高,但myr基序和ppyp基序本身是高度保守的,这与它们对病毒出芽的生物学意义一致。鉴定的簇与先前从cho基因组中表征的c型erv组以及它们的预测频率有良好相关性,证实了对erv序列在整个基因组水平上的表征(图1,图4a和图4b)。
[0203]
对于这两个靶标,最大的簇包含了所有读段的约40%,并且丰度是第二大簇的至少四倍(突出显示,图4a和图4b)。有趣的是,最大簇的共同序列也与从cho病毒颗粒中确定的第1组c型erv序列一致。在所有簇中,myr2 sgrna和ppyp6 sgrna可以靶向13个myr簇和8个ppyp簇,这些myr簇和ppyp簇分别容纳61%和72%的捕获读段多样性(粗体字母,图4a和图4b)。
[0204]
使用这些野生型cho簇和多样性图谱,发现每个克隆有1至7个不同的crispr衍生突变,包括已经在mrna水平上检测到的突变(框数,图4c)。检测到的突变范围从114bp缺失一直跨越到78bp插入。如预期的那样,用空载体表达质粒处理的cho细胞在crispr靶位点缺乏额外的突变。一些突变,例如1bp的插入,发生在所有三个基因分型的myr2处理的克隆中,但在ppyp6克隆中不存在,正如sgrna特异性修复结果所预期的(40)。
[0205]
通常,以约0.3%的读段频率检测到给定的突变,因此这必须代表cho基因组中的单个erv基因座(图4c)。然而,以远高于0.3%的读段频率发现了3个myr2衍生的突变,在所有的g09克隆读段中的2.6%中存在相同的1bp插入。因此,这意味着相同的突变可能在同一克隆中出现不止一次。为了支持这一假设,预测的单基因座突变(即,克隆a02或e10)的读段在突变侧翼区域高度相似,而大量突变(即g09 1_1)的读段在突变侧翼区域包含变异,这表明相同的突变可能已经在不同的erv基因座重复发生(图10)。以g09

11为例,可以区分出5个erv组,其中一个组的读段是其他组的4倍,这表明该突变应该已经发生在g09克隆中的8个不同的erv基因座处。因此,发明人得出以下结论,在瞬时crispr转染后,每个克隆获得了
1至14个erv突变(图4c)。鉴定出在dna水平上只有一个erv突变的克隆,并且发现该突变与在胞内rna水平上检测到的单一突变一致,进一步证实了单个第1组c型erv基因座被转录,并且可能负责c型逆转录病毒颗粒从cho细胞中的释放。
[0206]
在一个克隆中同一突变的重复出现提出了一个问题,即它们是否可能是基因转换的结果,基因转换是与同源重组(hr)相关的修复机制,其中先前突变的erv基因座被用作模板来修复其他被切割的erv位点。为了寻找在myr2介导的切割和ppyp6介导的切割后hr活性的证据,将先前获得的mrna和dna数据结合,并且总共分析了74个dna修复连接体(n
myr
=47,n
ppyp
=27)。myr2 sgrna介导的切割导致总体上更高的突变频率,优选为插入,而ppyp6 sgrna主要产生缺失。值得注意的是,在70%的ppyp6 sgrna诱导的修复连接体中观察到gag功能缺失突变,但仅在所有myr2 sgrna衍生突变中的30%中观察到gag功能缺失突变(图11b)。大多数myr2和ppyp6衍生的修复连接体与经典的非同源末端连接(c

nhej)和替代末端连接(alt

ej)修复活性相容(图4d)。c

nhej通常会导致较小的插入和缺失,而alt

ej利用dsb位点的微同源序列来退火断裂的末端,这通常会导致更大和更复杂的突变。虽然alt

ej修复被认为是大多数哺乳动物细胞中的备用途径,但当靶向gag基因时,检测到25%

55%的alt

ej相容连接体,这支持了cho细胞中alt

ej活性内在地升高的结论(41,42)。在alt

ej修复连接体中,一些可以独特地归因于微同源介导的末端连接(mmej)或合成依赖性微同源介导的末端连接(sd

mmej)alt

ej亚途径,而另一些则与mmej修复和sd

mmej修复一致(43,44)(图11d)。有趣的是,所有分析的修复连接体中约10%的修复连接包含以其他erv基因座为模板的插入,或者以相同erv基因座为模板但使用远处序列的插入,而其他的修复连接体则表现出缺乏微同源序列的明显重复,如由alt

ej机制所介导的。所有这些后述连接体都与crispr切割后myr2靶位点和ppyp6靶位点处的同源定向修复活性一致(图4d)。因此,hr介导的基因转换可能确实导致了某些突变的多次发生。
[0207]
接下来,评估在某些c型erv簇中是否发生更频繁的突变,表明对某些erv基因座的优选切割。正如预期的那样,突变仅与第1组的簇相关,而不与第2组的簇相关,从而证实了sgrna仅对第1组具有特异性(图4e和图4f)。大多数突变位于最丰富的myr簇或ppyp簇中,代表活跃转录并因此表达的erv。其他突变出现在另外的簇中,尽管频率较低,但是所有这些突变都包含与pam序列相邻的myr2sgrna识别位点或ppyp6 sgrna识别位点(图4e和图4f,粗体)。令人惊讶的是,还观察到在包含一个sgrna靶位点碱基对错配的myr簇和ppyp簇中的crispr切割,这支持了先前的报告,即crispr

cas9在靶识别过程中容忍小的错配(45)(图4e和图4f,正常字体)。总体而言,得出的结论是与高频突变相关的簇最有可能包含表达的erv基因座。
[0208]
cho

k1细胞中独特的产生病毒颗粒(vp)的erv基因座的鉴定
[0209]
在rna和靶向dna扩增子测序过程中观察到的sanger色谱图以及gag突变的读段频率分别证实了这样的假设,即单个第1组c型erv基因座是被转录的,并因此可以介导cho细胞产生病毒颗粒。为了进一步证实这一假设,使用方法对e10克隆的基因组进行完全测序,以获得足够长的读段,以便明确确定含有erv的基因座。选择e10克隆是因为它似乎只包含单个突变的erv,以便将其在rna水平上的独特突变与一个潜在独特的基因组基因座相关联(图4c)。对e10克隆基因组序列的分析鉴定了携带在mrna水平检测到的突变的单个erv基因座(图12a和图12b)。然后,使用位于亲本cho细胞系和深度测序的克隆中erv序列
外的基因座特异性引物,通过pcr扩增和dna sanger测序对预测的erv整合位点进行验证。所有深度测序的克隆都包含mrna水平的crispr衍生的突变,在该erv基因座也具有相同的突变,进一步支持该基因组区域包含表达的c型erv元件(图12c)。有趣的是,因为另一个等位基因缺乏相应的erv整合,这个特殊的erv整合被发现是半合子的并且发生在两个适度表达的cho细胞基因之间的开放染色质中。
[0210]
接下来,评估这个表达的erv基因座的gag功能缺失突变是否可以导致对病毒颗粒出芽的预期抑制。除了先前表征的突变克隆外,发明人还平行分析了它们相应的批量分选多克隆群体,以及在表达的第1组erv序列中没有可检测突变的克隆(对于myr2为b01,对于ppyp6为b03),作为另外的对照。首先,从cho细胞培养物上清液中提取病毒颗粒,并用rt

qpcr方法测定c型病毒基因组的量。初步数据表明,通过gag功能缺失突变体释放的病毒颗粒含有的第1组c型基因组病毒rna比对照样本少80%,而第2组基因组病毒rna的量仍接近检测极限(数据未显示)。为了证实这一发现,对从d12(myr2 sgrna)和e10(ppyp6 sgrna)克隆释放的病毒颗粒中提取的rna进行了illumina深度测序。值得注意的是,与野生型cho细胞相比,d12和e10两者中映射到第1组erv序列的读段减少超过250倍,而映射到第2组的读段的痕量仍然接近检测水平(比较图13)。这表明,阻止翻译起始(d12)或在gag基因中在ppyp基序下游引入移码(e10)的单个表达的第1组erv序列的突变足以严重减少完整病毒颗粒的出芽。
[0211]
对显示出病毒出芽减少的经编辑的cho细胞系的表征
[0212]
观察到crispr诱变有效地阻止病毒颗粒释放之后,接下来测试erv灭活是否会影响cho细胞的其他特性,如细胞生长、细胞大小和治疗性蛋白产生。erv编辑的克隆被发现以与多克隆群体、野生型细胞对照和空载体处理的细胞对照相似的速度增殖,培养5天后密度达到约12.5
×
106细胞/ml(图6a)。这样的细胞密度符合cho

k1约20小时的预期倍增时间(46)。虽然2个myr2 sgrna克隆(c02、d12)和1个ppyp6 sgrna克隆(k14)显示出略微改变的细胞周期持续时间,但该效应没有统计学显著性。此外,在erv编辑的细胞中,细胞大小倾向于增加,尤其是在c02克隆中,但与空载体对照细胞相比没有显著差异(图6b)。
[0213]
最后,评估了erv编辑的cho细胞产生治疗性蛋白的能力,这是cho细胞用于生物技术的关键特性。用先前表征的erv突变细胞产生稳定表达人源化治疗性igg免疫球蛋白的多克隆群体,并定量10天的补料分批培养中的igg分泌。表达igg蛋白的erv编辑的克隆和多克隆群体显示出与野生型对照细胞和空载体对照细胞相似的细胞生长和细胞活力特性,如在没有治疗性蛋白质表达的情况下所观察到的(图6c和图6d)。细胞培养物上清液中的igg效价在补料分批实验过程中不断增加,正如对分泌的igg蛋白的积累所预期的,在补料分批结束时对照细胞和大多数erv编辑的细胞克隆中igg效价达到约300mg/l至400mg/l(图6e)。因此,erv诱变并未全面影响cho细胞产生igg蛋白的能力,尽管克隆c02(myr2 sgrna)分泌的免疫球蛋白明显减少,这可能反映了其生长减少和细胞大小增加,而克隆e10和k03(都是ppyp6 sgrna)产生的igg比空载体对照多50%。总体而言,这表明暴露于多基因座的erv编辑的cho克隆通常保持正常的cho特征,而一些克隆,特别是那些在ppyp区域发生突变的克隆,似乎获得了更高的代谢能力来产生治疗性蛋白。然而,这种明显增强的代谢能力不能与特定的erv突变类型或突变总数相关,也不能与细胞生长或大小相关,表明是克隆特异性效应。
tool.nucleic acids res.,35,599

605.
[0241]
26.sander,j.d.,maeder,m.l.,reyon,d.,voytas,d.f.,joung,j.k.and dobbs,d.(2010)zifit(zinc finger targeter):an updated zinc finger engineering tool.nucleic acids res.,38,462

468.
[0242]
27.ran,f.a.,hsu,p.d.,wright,j.,agarwala,v.,scott,d.a.and zhang,f.(2013)genome engineering using the crispr

cas9 system.nat.protoc.,8,2281

2308.
[0243]
28.brinkman,e.k.,chen,t.,amendola,m.and van steensel,b.(2014)easy quantitative assessment of genome editing by sequence trace decomposition.nucleic acids res.,42,1

8.
[0244]
29.yoon,h.and leitner,t.(2015)primerdesign

m:a multiple

alignment based multiple

primer design tool for walking across variable genomes.bioinformatics,31,1472

1474.
[0245]
30.fadrosh,d.w.,ma,b.,gajer,p.,sengamalay,n.,ott,s.,brotman,r.m.and ravel,j.(2014)an improved dual

indexing approach for multiplexed 16s rrna gene sequencing on the illumina miseq platform.microbiome,2,6.
[0246]
31.le fourn,v.,girod,p.a.,buceta,m.,regamey,a.and mermod,n.(2014)cho cell engineering to prevent polypeptide aggregation and improve therapeutic protein secretion.metab.eng.,21,91

102.
[0247]
32.feschotte,c.and gilbert,c.(2012)endogenous viruses:insights into viral evolution and impact on host biology.nat.rev.genet.,13,283.
[0248]
33.morikawa,y.,hinata,s.,tomoda,h.,goto,t.,nakai,m.,aizawa,c.,tanaka,h.and mura,s.(1996)complete inhibition of human immunodeficiencyvirus gag myristoylation is necessary for inhibition of particle budding.j.biol.chem.,271,2868

2873.
[0249]
34.wapling,j.,srivastava,s.,shehu

xhilaga,m.and tachedjian,g.(2007)targeting human immunodeficiency virus type 1 assembly,maturation and budding.drug target insights,2,159

182.
[0250]
35.henzy,j.e.,gifford,r.j.,johnson,w.e.and coffin,j.m.(2014)a novel recombinant retrovirus in the genomes of modern birds combines features of avian and mammalian retroviruses.j.virol.,88,2398

2405.
[0251]
36.segura

morales,c.,pescia,c.,chatellard

causse,c.,sadoul,r.,bertrand,e.and basyuk,e.(2005)tsg101 and alix interact with murine leukemia virus gag and cooperate with nedd4 ubiquitin ligases during budding.j.biol.chem.,280,27004

27012.
[0252]
37.daer,r.m.,cutts,j.p.,brafman,d.a.and haynes,k.a.(2017)the impact of chromatin dynamics on cas9

mediated genome editing in human cells.acs synth.biol.,6,428

438.
[0253]
38.gosselin,k.,deruy,e.,martien,s.,vercamer,c.,bouali,f.,dujardin,t.,
number dictates a gene

independent cell response to crispr/cas9 targeting.cancer discov.,6,914

929.
[0265]
50.ihry,r.j.,worringer,k.a.,salick,m.r.,frias,e.,ho,d.,theriault,k.,kommineni,s.,chen,j.,sondey,m.,ye,c.,et al.(2018)p53 inhibits crispr

cas9 engineering in human pluripotent stem cells.nat.med.,24,939

946.
[0266]
51.o’connor,m.j.(2015)targeting the dna damage response in cancer.mol.cell,60,547

560.
[0267]
52.orlando,s.j.,santiago,y.,dekelver,r.c.,freyvert,y.,boydston,e.a.,moehle,e.a.,choi,v.m.,gopalan,s.m.,lou,j.f.,li,j.,et al.(2010)zinc

finger nuclease

driven targeted integration into mammalian genomes using donors with limited chromosomal homology.nucleic acids res.,38,1

15.
[0268]
53.cristea,s.,freyvert,y.,santiago,y.,holmes,m.c.,urnov,f.d.,gregory,p.d.and cost,g.j.(2013)in vivo cleavage of transgene donors promotes nuclease

mediated targeted integration.biotechnol.bioeng.,110,871

880.
[0269]
54.guirouilh

barbat,lambert,s.,bertrand,p.and lopez,b.s.(2014)is homologous recombination really an error

free process?front.genet.,5,175.
[0270]
55.benson,f.e.,stasiak,a.and west,s.c.(1994)purification and characterization of the human rad51 protein,an analogue of e.coli reca.embo j.,13,5764

71.
[0271]
56.stark,j.m.,hu,p.,pierce,a.j.,moynahan,m.e.,ellis,n.and jasin,m.(2002)atp hydrolysis by mammalian rad51 has a key role during homology

directed dna repair.j.biol.chem.,277,20185

20194.
[0272]
57.lee,j.s.,park,j.h.,ha,t.k.,samoudi,m.,lewis,n.e.,palsson,b.o.,kildegaard,h.f.and lee,g.m.(2018)revealing key determinants of clonal variation in transgene expression in recombinant cho cells using targeted genome editing.acs synth.biol.,10.1021/acssynbio.8b00290.
[0273]
58.pilbrough,w.,munro,t.p.and gray,p.(2009)intraclonal protein expression heterogeneity in recombinant cho cells.plos one,4,e8432.
[0274]
59.sigal,a.,milo,r.,cohen,a.,geva

zatorsky,n.,klein,y.,liron,y.,rosenfeld,n.,danon,t.,perzov,n.and alon,u.(2006)variability and memory of protein levels in human cells.nature,444,643

646.
[0275]
60.schmieder,v.,bydlinski,n.,strasser,r.,baumann,m.,kildegaard,h.f.,jadhav,v.and borth,n.(2018)enhanced genome editing tools for multi

gene deletion knock

out approaches using paired crispr sgrnas in cho cells.biotechnol.j.,13,1700211.
[0276]
61.hu,w.,kaminski,r.,yang,f.,zhang,y.,cosentino,l.,li,f.,luo,b.,alvarez

carbonell,d.,garcia

mesa,y.,karn,j.,et al.(2014)rna

directed gene editing specifically eradicates latent and prevents new hiv

1 infection.proc.natl.acad.sci.,111,11461

11466.
[0277]
62.manrique,m.l.,celma,c.c.p.,gonz
á
lez,s.a.and affranchino,j.l.(2001)mutational analysis of the feline immunodeficiency virus matrix protein.virus res.,76,103

113.
[0278]
63.kawada,s.,goto,t.,haraguchi,h.,ono,a.and morikawa,y.(2008)dominant negative inhibition of human immunodeficiency virus particle production by the nonmyristoylated form of gag.j.virol.,82,4384

4399.
[0279]
64.nakamura,t.,yamada,k.d.,tomii,k.and katoh,k.(2018)parallelization of mafft for large

scale multiplesequence alignments.bioinformatics,34,2490

2492.
[0280]
65.puri,v.,konda,s.,ranjit,s.,aouadi,m.,chawla,a.,chouinard,m.,chakladar,a.and czech,m.p.(2007)fat

specific protein 27,a novel lipid droplet protein that enhances triglyceride storage.j.biol.chem.,282,34213

34218.
[0281]
66.boztug,k.,p.m.,salzer,e.,racek,t.,s.,garncarz,w.,gertz,e.m.,a.a.,antonopoulos,a.,haslam,s.m.,et al.(2014)jagn1 deficiency causes aberrant myeloid cell homeostasis and congenital neutropenia.nat.genet.,46,1021

1027.
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜