使用加标签的向导RNA构建体进行高效基因筛选的组合物和方法与流程

2021-11-15 18:47:00 来源：中国专利 TAG：

使用加标签的向导rna构建体进行高效基因筛选的组合物和方法
技术领域
1.本发明涉及使用具有内部标签(“ibar”)的向导rna构建体进行基因筛选的组合物，试剂盒和方法。

背景技术：

2.crispr/cas9系统实现了以高的效率和特异性在靶标基因组位点上进行编辑1‑2。其为数众多的用途之一是通过将混合高通量混池测序与二代测序(“ngs”)分析相结合来鉴定编码基因、非编码rna和调节元件的功能。通过将混合的单向导rna(“sgrna”)或成对的向导rna(“pgrna”)文库引入至表达cas9或者与效应子结构域融合的无催化活性的cas9(dcas9)的细胞，研究人员可以通过产生不同突变、大的基因组缺失、转录激活或转录抑制来实施多种基因筛选。
3.为了产生高质量的grna细胞文库以用于给定的混合性crispr筛选，须在细胞文库构建期间使用低感染复数(“moi”)来确保每个细胞平均纳入少于1个sgrna或pgrna以使该筛选的假阳性率(fdr)
6,10,11
最小化。为了进一步降低fdr并提高数据重现性，通常需要深度覆盖的grna和多个生物学重复以获得带有高统计学意义的命中基因，这会导致工作量增加。当实施大量的全基因组筛选时，当用于文库构建的细胞材料有限时，或者当进行更具挑战性的筛选(例如体内筛选)时会出现更多困难，因为这些情况下均难以获得实验重复或控制moi。用于在真核细胞中大规模鉴定靶标的可靠且高效的筛选策略仍旧是迫切需要。
4.本文提及的所有出版物、专利、专利申请和已公开的专利申请的披露均通过引用整体并入本文。

技术实现要素：

5.本技术提供了用于通过crispr
‑
cas基因编辑系统进行基因筛选的向导rna构建体、文库、组合物和试剂盒，以及基因筛选的方法。
6.本技术的一个方面提供了一种sgrna
ibar
构建体组，其包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码一个sgrna
ibar
，其中每条sgrna
ibar
都具有包含向导序列和内部标签(“ibar“)序列的sgrna
ibar
序列，其中每个向导序列与靶标基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体中每条sgrna
ibar
的ibar序列是彼此不同的。并且其中每条sgrna
ibar
可与cas蛋白合作以修饰靶标基因组基因座。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸，例如约2
‑
20个核苷酸或约3
‑
10个核苷酸。在一些实施方案中，每个向导序列包含约17
‑
23个核苷酸。
7.在根据上述任一sgrna
ibar
构建体组的一些实施方案中，其中每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区，并且其中ibar序列位于第一茎序列和第二茎序列之间。在根据上述任一组
sgrna
ibar
构建体的一些实施方案中，其中每条sgrna
ibar
序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交形成与cas蛋白相互作用的双链rna区，并且其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。
8.在根据上述任一sgrna
ibar
构建体组的一些实施方案中，cas蛋白是cas9。在一些实施方案中，每条sgrna
ibar
序列包含与第二序列融合的向导序列，其中第二序列包含与cas9相互作用的重复
‑
反向
‑
重复茎环。在一些实施方案中，每条sgrna
ibar
序列的ibar序列位于重复
‑
反向
‑
重复茎环的环状区域中。在一些实施方案中，将每条sgrna
ibar
序列的ibar序列插入重复
‑
反向
‑
重复茎环的环状区域中。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每条sgrna
ibar
序列的ibar序列位于茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，每条sgrna
ibar
序列的ibar序列插入茎环1、茎环2或茎环3的环状区域中。
9.在根据上述任一sgrna
ibar
构建体组的一些实施方案中，每个sgrna
ibar
构建体是质粒。在一些实施方案中，每个sgrna
ibar
构建体是病毒载体，例如慢病毒载体。
10.本技术的一个方面提供了sgrna
ibar
文库，其包含根据上述任一sgrna
ibar
构建体组的多个sgrna
ibar
构建体组，其中每个sgrna
ibar
构建体组对应与不同靶标基因组基因座互补的向导序列。在一些实施方案中，sgrna
ibar
文库包含至少约1000(例如至少约2000、5000、10000、15000、20000或更多)个sgrna
ibar
构建体组。在一些实施方案中，至少两个sgrna
ibar
组构建体的ibar序列是相同的。在一些实施方案中，不同的sgrna
ibar
构建体组具有不同的ibar序列组合。
11.本技术的一个方面提供了制备包含多个sgrna
ibar
构建体组的sgrna
ibar
文库的方法，其中每个组对应多个向导序列中的一个，每个向导序列与不同的靶标基因组基因座互补，其中所述方法包括：a)为每个向导序列设计三个或更多(例如四个)sgrna
ibar
构建体，其中每个sgrna
ibar
构建体包含或编码具有包含相应向导序列和ibar序列的sgrna
ibar
序列的sgrna
ibar
，其中对应于三个或更多个sgrna
ibar
构建体中每个sgrna
ibar
构建体的ibar序列彼此不同，并且其中每条sgrna
ibar
可与cas蛋白合作以修饰相应的靶标基因组基因座；b)合成每个sgrna
ibar
构建体，从而产生sgrna
ibar
文库。在一些实施方案中，该方法还包括提供多个向导序列。
12.在根据上述任一制备方法的一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸，例如约2
‑
20个核苷酸或约3
‑
10个核苷酸。在一些实施方案中，每个向导序列包含约17
‑
23个核苷酸。
13.在根据上述任一制备方法的一些实施方案中，其中每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中ibar序列位于第一茎序列和第二茎序列之间。在根据上述任一制备方法的一些实施方案中，其中每条sgrna
ibar
序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区，并且其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。
14.在根据上述任一制备方法的一些实施方案中，cas蛋白是cas9。在一些实施方案中，每条sgrna
ibar
序列包含与第二序列融合的向导序列，其中第二序列包含与cas9相互作用的重复
‑
反向
‑
重复茎环。在一些实施方案中，每条sgrna
ibar
序列的ibar序列位于重复
‑
反
向
‑
重复茎环的环状区域中。在一些实施方案中，将每条sgrna
ibar
序列的ibar序列插入重复
‑
反向
‑
重复茎环的环状区域中。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每条sgrna
ibar
序列的ibar序列位于茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，每条sgrna
ibar
序列的ibar序列插入茎环1、茎环2或茎环3的环状区域中。
15.在根据上述任一制备方法的一些实施方案中，每个sgrna
ibar
构建体是一个质粒。在一些实施方案中，每个sgrna
ibar
构建体是一个病毒载体，例如慢病毒载体。
16.还提供了使用根据上述任一制备方法的方法制备的sgrna
ibar
文库，以及包含上述任一sgrna
ibar
构建体组或上述任一sgrna
ibar
文库的组合物。
17.本技术的另一方面提供了筛选调节(modulate)细胞表型的基因组基因座的方法，包括：a)使初始细胞群接触i)如上所述的sgrna
ibar
文库中的任一sgrna
ibar
文库，并且可选地ii)cas组分(包含cas蛋白或编码cas蛋白的核酸)，其在可使sgrna
ibar
构建体和可选的cas组分被引入细胞的情况下进行，以提供经修饰的细胞群；b)从经修饰的细胞群中选择出具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预设阈值水平之上的向导序列的基因组基因座。在一些实施方案中，细胞是真核细胞，诸如哺乳动物细胞。在一些实施方案中，初始细胞群表达cas蛋白。
18.在根据上述任一筛选方法的一些实施方案中，每个sgrna
ibar
构建体是病毒载体，并且其中sgrna
ibar
文库以大于约2(例如3、4、5、6、7、8、9、10或更高)的感染复数(moi)接触初始细胞群。在一些实施方案中，将sgrna
ibar
文库中大于约95％(例如大于约97％，98％，99％或更高)的sgrna
ibar
构建体引入初始细胞群中。在一些实施方案中，该筛选以大于约1000倍(例如2000倍，3000倍，5000倍或更高)的覆盖率进行。
19.在根据上述任一筛选方法的一些实施方案中，该筛选是阳性筛选。在一些实施方案中，该筛选是阴性筛选。
20.在根据上述筛选方法中的任一个的一些实施方案中，表型指蛋白质表达、rna表达、蛋白质活性或rna活性。在一些实施方案中，表型选自细胞死亡、细胞生长、细胞运动性、细胞代谢、药物抗性、药物敏感性和对刺激因子的应答。在一些实施方案中，表型是对刺激因子的应答，并且其中所述刺激因子选自激素、生长因子、炎性细胞因子、抗炎细胞因子、药物、毒素和转录因子。
21.在根据上述任一筛选方法的一些实施方案中，sgrna
ibar
序列通过基因组测序或rna测序获得。在一些实施方案中，sgrna
ibar
序列通过二代测序(next
‑
generation sequencing)获得。
22.在根据上述筛选方法中的任一个的一些实施方案中，序列计数经过中值比率归一化，然后进行均值
‑
方差建模。在一些实施方案中，基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的方差。在一些实施方案中，将从经选择的细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。在一些实施方案中，基于每条ibar序列的倍数变化的方向确定所述sgrna
ibar
序列中
对应于向导序列的诸ibar序列之间的数据一致性，其中如果ibar序列的倍数变化相对于彼此处于相反的方向，则该向导序列的方差增加。
23.在根据上述任一筛选方法的一些实施方案中，该方法还包括：验证鉴定出的基因组基因座。
24.还提供了用于筛选调节细胞表型的基因组基因座的试剂盒和制品，其包含上述任一种sgrna
ibar
文库。在一些实施方案中，试剂盒或制品还包含cas蛋白或编码cas蛋白的核酸。
附图说明
25.图1a
‑
1e显示了使用sgrna
ibar
构建体的示例性的基于crispr/cas的筛选。图1a显示了具有内部标签(ibar)的sgrna
ibar
的示意图。将6
‑
nt标签(ibar6)嵌入到sgrna框架的四元环(tetraloop)中。图1b显示了使用靶向单个基因的sgrna构建体文库(antxr1；在本文中称为“sgrna
ibar
‑
antxr1”)但具有所有4,096个ibar6序列的基于crispr/cas的筛选实验的结果。sgrna构建体的对照(“sgrna
非靶向”)具有不靶向antxr1的向导序列，但具有相应的ibar6序列。使用每种sgrna
ibar
‑
antxr1
的归一化丰度计算参比组和毒素(pa/lfndta)处理组之间的倍数变化。在此展示了显示出sgrna
ibar
‑
antxr1
，不加标签的sgrna
antxr1
和非靶向sgrna的倍数变化的密度图。计算pearson相关性(“corr”)。图1c显示了ibar6各个位置的核苷酸特性对sgrna编辑效率的影响。图1d显示了由筛选实验中具有与pa/lfndta的最小细胞抗性相关的六个标签的sgrna
ibar
‑
antxr1
产生的插入缺失(indels)。使用image lab软件测量t7e1测定中剪切效率的百分比，数据表示为平均值
±
s.d(n＝3)。使用的所有引物列于表1中。图1e显示了mtt活力测定的结果，其证实了由所述sgrna
ibar
‑
antxr1
编辑的细胞对pa/lfndta的易感性降低。
26.图2显示了根据ibar序列的gc含量分类为三组的所有4,096种ibar6序列的sgrna
ibar
‑
antxr1
集合的crispr筛选。三组中的gc含量为：高(100
‑
66％)、中(66
‑
33％)和低(33
‑
0％)。示出了两个生物学重复试验的排序。
27.图3a
‑
3d显示了ibar序列对sgrna活性的影响的评估。由sgrna1
ibar
‑
cspg4
(图3a)，sgrna2
ibar
‑
cspg4
(图3b)，sgrna2
ibar
‑
mlh1
(图3c)和sgrna3
ibar
‑
msh2
(图3d)产生的indel与六个标签(从上述筛选来看，在赋予细胞对pa/lfndta的抗性的过程中，这六个标签表现最差)以及gtttttt(被认为是u6启动子终止信号)相关联。使用image lab软件测量t7e1测定中剪切效率的百分比，数据表示为平均值
±
s.d.(n＝3)。所使用的所有引物列于表1中。
28.图4显示了使用sgrna
ibar
文库进行crispr混合筛选的示意图。对于给定的sgrna
ibar
文库，将四种不同的ibar6随机分配到每种sgrna。通过具有高moi(即～3)的慢病毒感染将sgrna
ibar
文库导入靶细胞。在文库筛选后，通过ngs(二代测序)确定来自富集细胞的sgrna及其相关的ibar。对于数据分析，应用中值比归一化(median ratio normalization)，然后进行均值
‑
方差建模(mean
‑
variance modelling)。基于分配给相同sgrna的所有ibar的倍数变化一致性来确定sgrna
ibar
的方差。使用平均值和经调整的方差来计算每条sgrna
ibar
的p值。所有基因的健壮排序融合(robust rank aggregation,rra)得分被考虑用于鉴定命中基因。较低的rra得分对应于富集程度更高的命中基因。
29.图5显示了经设计的寡核苷酸dna序列。阵列合成的85
‑
nt dna寡核苷酸含有sgrna
和标签ibar6的编码序列。用引物靶向左臂和右臂以进行扩增。bsmbi位点用于将混合的标签sgrna克隆到最终的表达框架中。
30.图6a
‑
6f显示了在moi为0.3、3和10时hela细胞中涉及tcdb毒性的必需基因的筛选结果。图6a和6b显示了在moi为0.3时由mageck(图6a)和mageck
ibar
(图6b)计算鉴定出的基因(fdr<0.15)的筛选得分。图6c和6d显示了在moi为3时由mageck(图6c)和mageck
ibar
(图6d)计算鉴定出的基因(fdr<0.15)的筛选得分。图6e
‑
6f显示了由mageck(图6e)和magickb(图6f)在moi为10时计算鉴定出的基因(fdr<0.15)的筛选得分。阴性对照基因由纵坐标底部附近的深色圆点标记。通过mageck和mageck
ibar
展示了每个生物学重复中鉴定出的候选基因排序。
31.图7a
‑
7h显示了在tcdb筛选之前(ctrl)和之后(exp)，cspg4靶向构建体(图7a)，sppl3靶向构建体(图7b)，ugp2靶向构建体(图7c)，katnal2靶向构建体(图7d)，hprt1图(7e)，rnf212b靶向构建体(图7f)，sbno2靶向构建体(图7g)和eras靶向构建体(图7h)的sgrna
ibar
读数计数，moi为10，由mageck计算，两次重复。
32.图8a
‑
8c显示了不同样品中的sgrna分布和覆盖度。图8a显示了参比组和6
‑
tg治疗组的sgrna
ibar
分布。横轴表示以log10表示的归一化rpm，纵轴表示sgrna的数量。图8b显示了参比样品的sgrna覆盖度。纵轴表示sgrna比例与设计的关系。图8c显示了在文库中携带不同数量的经设计ibar的sgrna的比例。
33.图9显示在moi为3的6
‑
tg筛选后，两个生物学重复之间所有基因的log10(倍数变化)的pearson相关性。
34.图10显示了使用mageck
ibar
分析调整方差后所有sgrna
ibar
的均值方差模型。
35.图11a
‑
11g显示了用于在hela细胞中鉴定对6
‑
tg介导的细胞毒性重要的人类基因的混合筛时，crispr
ibar
和常规crispr的比较。图11a
‑
11b显示了由mageck
ibar
(图11a)和mageck(图11b)计算的排序靠前的基因的筛选得分。标记鉴定出的候选基因(fdr<0.15)，并且在mageck
ibar
筛选中只有前10个命中基因被标记。阴性对照基因由纵坐标底部的深色圆点标记。图11c显示了对参与6
‑
tg细胞毒性的报告基因(mlh1，msh2，msh6和pms2)的验证。图11d显示了使用mageck
ibar
(左)或常规mageck分析(右)在两个生物学重复之间的前20个阳性的经选择的基因的spearman相关系数。图11e显示了对通过mageck
ibar
或mageck分析分离出的最靠前的候选基因的验证。靶向各基因的小型sgrna混合物中通过慢病毒感染递送至细胞。在用6
‑
tg处理之前，将转导的细胞再培养10天。数据表示为平均值
±
s.e.m(n＝5)。使用student's t
‑
检验计算出p值(*p<0.05；**p<0.01；***p<0.001；ns，无显著性)。用于验证的sgrna序列列于表3中。图11f
‑
11g显示在两次重复中，6
‑
tg筛选之前(ctrl)和之后(exp)，hprt1靶向构建体(图11f)和fgf13靶向构建体(图11g)的sgrna
ibar
读数计数。
36.图12显示了靶向mlh1，msh2，msh6和pms2的原始设计的sgrna的效率。使用image lab软件测量t7e1测定中剪切效率的百分比，数据表示为平均值
±
s.d.(n＝3)。所使用的所有引物列于表1中。
37.图13显示了在两个实验重复中靶向所示最靠前的候选基因(hprt1，itgb1，srgap2和aktip)的每种sgrna
ibar
的倍数变化。ctrl和exp分别代表在6
‑
tg处理之前和之后的样品。
38.图14a
‑
14i显示了在两个重复中，靶向itgb1(图14a)，srgap2(图14b)，aktip(图14c)，actr3c(图14d)，ppp1r17(图14e)，acsbg1(图14f)，calm2(图14g)，tcf21(图14h)和
kifap3(图14i)的sgrna
ibar
读数计数。ctrl和exp分别代表在6
‑
tg处理之前和之后的样品。
39.图15a
‑
15f显示了在两个重复中，靶向galr1(图15a)，dupd1(图15b)，tecta(图15c)，or51d1(图15d)，neg89(图15e)和neg67(图15f)的sgrna
ibar
读数计数。ctrl和exp分别代表在6
‑
tg处理之前和之后的样品。
40.图16显示了在两个实验重复中经由常规分析的hprt1，fgf13，galr1和neg67的归一化sgrna读数计数。ctrl和exp分别代表6
‑
tg处理之前和之后的样品。
41.图17显示了使用金标准必需基因，对mageck和mageck
ibar
分析的筛选性能(由roc曲线确定)评估。显示了auc(曲线下面积)的值。虚线表示随机分类模型的性能。
42.图18显示了不同长度的ibar对sgrna活性的影响。如图所示为sgrna1
cspg4
和具有不同长度的标签的sgrna1
ibar
‑
cspg4
产生的indel。使用image lab软件测量t7e1测定中剪切效率的百分比，数据表示为平均值
±
s.d.(n＝3)。所使用的所有引物列于表1中。
具体实施方式
43.本技术提供了使用具有内部标签(ibar)的向导rna组进行基因筛选的组合物和方法。向导rna靶向特定的基因组基因座，并与三个或更多个ibar序列相关连。包含多个向导rna组(每个靶向不同的基因组基因座)的向导rna文库可用于基于crispr/cas的筛选，以从混合细胞文库中鉴定出调节表型的基因组基因座。本文描述的筛选方法具有降低的错误发现率(false discovery rate)，因为ibar序列允许在单个实验中分析对应于每组向导rna构建体的经过基因编辑的重复样品。低的错误发现率还能够通过将向导rna文库病毒以高感染复数(moi)转导至细胞来高效地产生细胞文库。
44.本文描述的实验数据证明ibar方法在高通量筛选中特别有利。常规的crispr/cas筛选方法通常是劳动密集型的，因为当产生细胞文库时需要低的感染复数(moi)用于慢病毒转导，以及多个生物学重复以最小化错误发现率。相比之下，ibar方法产生的筛选结果具有低得多的假阳性和假阴性率，并允许使用高moi生成细胞文库。例如，与具有0.3的低moi的常规crispr/cas筛选相比，ibar方法可以将起始细胞数量减少超过20倍(例如moi为3)至超过70倍(例如moi为10)，同时保持高效率和准确性。ibar系统特别适用于下述基于细胞的筛选，其中细胞可用量有限，或者用于体内筛选(病毒对特定细胞或组织的感染难以控制在低moi下)。
45.因此，本技术的一个方面提供了sgrna
ibar
构建体组，其包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
，其中每条sgrna
ibar
具有包含向导序列和内部标签(“ibar”)的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，并且其中每条sgrna
ibar
可与cas蛋白合作以修饰靶基因组基因座。
46.本技术的一个方面提供了包含多个sgrna
ibar
构建体组的sgrna
ibar
文库，其中每个sgrna
ibar
构建体组包含三个或更多个sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
，其中每条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，其中每条sgrna
ibar
可与cas蛋白合作以修饰靶基因组基因座，并且其中每组sgrna
ibar
构建体对应于与不同靶基因组基因座互补的向导
序列。
47.还提供了筛选调节(modulate)细胞表型的基因组基因座的方法，包括：a)使初始细胞群接触i)包含多个sgrna
ibar
构建体组的sgrna
ibar
文库，其中每个sgrna
ibar
构建体组包含三个或更多个sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
，其中每条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
的构建体向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，其中每条sgrna
ibar
可与cas蛋白合作以修饰靶基因组基因座，并且其中每组sgrna
ibar
构建体对应于与不同靶基因组基因座互补的向导序列；并且可选地ii)cas组分(包含cas蛋白或编码cas蛋白的核酸)，其在可使sgrna
ibar
构建体和可选的cas组分被引入细胞的情况下进行，以提供经修饰的细胞群；b)从经修饰的细胞群中选择具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预设阈值水平之上的向导序列的基因组基因座。定义
48.将参照特定实施例并参考某些附图来描述本发明，但是本发明不限于此。权利要求中的任何附图标记不应被解释为限制范围。在附图中，为了说明的目的，一些元件的尺寸可能被夸大并且未按比例绘制。除非另外定义，否则本文使用的所有技术和科学术语具有与本领域普通技术人员通常理解的含义相同的含义。如有冲突，以本文件(包括定义)为准。优选的方法和材料如下所述，尽管与本文所述的那些类似或等同的方法和材料可用于实践或测试本发明。本文提及的所有出版物、专利申请、专利和其他参考文献都通过引用而整体并入。本文公开的材料、方法和实施例仅是说明性的而非限制性的。
49.如本文所用，“内部标签”或“ibar”是指插入或附加于分子的标识，其可用于追踪分子的特性和性能。例如，ibar可以是插入或附加到crispr/cas系统的向导rna的短核苷酸序列，如本发明所例示。多个ibar可用于在一个实验中追踪单向导rna序列的性能，从而提供用于统计分析的重复数据，而无需重复该实验。
50.表述“ibar序列置于环区”是指ibar序列插入环区的任何两个核苷酸之间、插入环区的5'或3'末端或取代环区的一个或多个核苷酸。
[0051]“crispr系统”或“crispr/cas系统”统称为参与表达和/或引导crispr相关(“cas”)基因活性的转录物和其他元件。例如，crispr/cas系统可包括编码cas基因的序列，tracr(反式激活crispr)序列(例如tracrrna或活性部分tracrrna)，tracr
‑
伴侣序列(tracr
‑
mate sequence)(例如在内源crispr系统中包含的“正向重复”和tracrrna加工的部分正向重复)，向导序列(在内源crispr系统中也称为“间隔区”)，以及衍生自crispr基因座的其他序列和转录物。
[0052]
在形成crispr复合物的背景下，“靶序列”是指与经设计的向导序列具有互补性的序列，其中靶序列和向导序列之间的杂交促进crispr复合物的形成。如果存在足够的互补性以引起杂交并促进crispr复合物的形成，则不一定需要完全互补。靶序列可包含任何多核苷酸，例如dna或rna多核苷酸。crispr复合物可包含与靶序列杂交的向导序列并与一种或多种cas蛋白复合。
[0053]
术语“向导序列”是向导rna中的连续核苷酸序列，其与靶标多核苷酸中的靶序列具有部分或完全互补性，并且可以通过cas蛋白促进其经由碱基配对与靶序列杂交。在crispr/cas9系统中，靶序列与pam位点相邻。pam序列及其在另一条链上的互补序列一起构成pam位点。
[0054]
术语“单向导rna”，“合成向导rna”和“sgrna”可互换使用，是指包含向导序列和sgrna功能所必需的和/或sgrna与一种或多种cas蛋白相互作用形成crispr复合物所必需的序列的多核苷酸序列。在一些实施方案中，sgrna包含与第二序列融合的向导序列，所述第二序列包含衍生自tracr rna的tracr序列和衍生自crrna的tracr伴侣序列。tracr序列可以包含来自天然存在的crispr/cas系统的tracrrna的全部或部分序列。术语“向导序列”是向导rna中识别靶位点的核苷酸序列，并且可与术语“向导”或“间隔区”互换使用。术语“tracr伴侣序列”也可与术语“正向重复”互换使用。如本文所用，“sgrna
ibar”是指具有ibar序列的单向导rna。
[0055]
术语“可与cas蛋白合作”是指向导rna可与cas蛋白相互作用以形成crispr复合物。
[0056]
如本文所用，术语“野生型”是本领域技术人员理解的术语，并且是指生物体，菌株，基因或特征的典型形式，因它在自然界中发生，故区别于突变体或变体形式。
[0057]
如本文所用，术语“变体”应理解为表现出的特性具有偏离自然发生的模式。
[0058]“互补性”是指核酸通过传统的watson
‑
crick碱基配对或其他非传统形式与另一种核酸序列形成氢键的能力。互补百分比表示核酸分子中可以与第二核酸序列形成氢键(例如watson
‑
crick碱基配对)的残基的百分比(例如10中的5、6、7、8、9、10个为50％，60％，70％，80％，90％和100％互补)。“完全互补”意指核酸序列的所有连续残基与第二核酸序列中相同数量的连续残基形成氢键。如本文所用，“基本上互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸区域互补程度为至少60％，65％，70％，75％，80％，85％，90％，95％，97％，98％，99％或100％，或指两个核酸在严格条件下杂交。
[0059]
如本文所用，杂交的“严格条件”是指与靶序列具有互补性的核酸主要与靶序列杂交并且基本上不与非靶序列杂交的条件。严格条件通常是序列依赖性的，并且取决于许多因素而变化。通常，序列越长，序列与其靶序列特异性杂交的温度越高。tijssen(1993)，laboratory techniques in biochemistry and molecular biology
‑
hybridization with nucleic acid probes part 1，second chapter“principles of principles of hybridization and the strategy of nucleic acid probe assay”，elsevier，ny中详细描述了严格条件的非限制性实例。
[0060]“杂交”是指其中一个或多个多核苷酸形成通过核苷酸残基的碱基之间的氢键稳定的复合物的反应。氢键可以通过watson crick碱基配对，hoogstein结合或以任何其他序列特异性的方式发生。复合物可包含形成双螺旋结构的双链，形成多链复合物的三条或更多条链，单一自杂交链或这些的任何组合。杂交反应可以构成更广泛过程中的步骤，例如pcr的起始，或酶对多核苷酸的剪切。能够与给定序列杂交的序列称为给定序列的“互补序列”。
[0061]
如本文所用的“构建体”是指核酸分子(例如，dna或rna)。例如，当在sgrna的上下
文中使用时，构建体是指包含sgrna分子的核酸分子或编码sgrna的核酸分子。当在蛋白质的上下文中使用时，构建体是指包含可以转录成rna或表达为蛋白质的核苷酸序列的核酸分子。构建体可含有与核苷酸序列可操作连接的必需调节元件，当构建体存在于宿主细胞中时，所述调节元件允许核苷酸序列的转录或表达。
[0062]
如本文所用，“可操作地连接”是指基因的表达处于与其空间连接的调节元件(例如启动子)的控制下。调节元件可位于其控制下的基因的5'(上游)或3'(下游)。调节元件(例如启动子)和基因之间的距离可以与该调节元件(例如启动子)与其天然控制的基因之间的距离大致相同，并且调节元件来源于该基因。如本领域已知的，可以适应该距离的变化而不损失调节元件(例如启动子)中的功能。
[0063]
术语“载体”用于描述可以被工程化以含有可以在宿主细胞中扩增的克隆的一种多核苷酸或多种多核苷酸的核酸分子。载体包括但不限于：单链，双链或部分双链的核酸分子；包含一个或多个游离末端，没有游离末端(例如环状)的核酸分子；包含dna，rna或两者的核酸分子；以及本领域已知的其他多核苷酸种类。一种类型的载体是“质粒”，其是指可以，例如通过标准分子克隆技术，插入额外dna片段的环状双链dna环。某些载体能够在引入它们的宿主细胞中自主复制(例如，具有细菌复制起点的细菌载体和游离型哺乳动物载体)。其他载体(例如，非游离型哺乳动物载体)在引入宿主细胞后整合到宿主细胞的基因组中，从而与宿主基因组一起复制。此外，某些载体能够指导它们可操作地连接的那些基因的表达。此类载体在本文中称为“表达载体”。重组表达载体可以包含适于在宿主细胞中表达核酸的形式的本发明的核酸，这意味着重组表达载体包括一种或多种调节元件，其可以基于用于表达的、可以与待表达的核酸序列可操作地连接的宿主细胞来选择。
[0064]“宿主细胞”是指可以是或已经是载体或分离的多核苷酸的受体的细胞。宿主细胞可以是原核细胞或真核细胞。在一些实施方案中，宿主细胞是真核细胞，其可以在体外培养并使用本文描述的方法进行修饰。术语“细胞”包括原代受试细胞及其后代。
[0065]“感染复数”或“moi”在本文中可互换使用，是指制剂(例如，噬菌体，病毒或细菌)与其感染靶标(例如细胞或生物体)的比率。例如，当提及接种病毒颗粒的一组细胞时，感染复数或moi是指在病毒转导期间病毒颗粒(例如包含sgrna文库的病毒颗粒)的数量与混合物中存在的靶细胞的数量之间的比率。
[0066]
如本文所用的细胞的“表型”是指细胞的可观察特征或性状，例如其形态，发育，生物化学或生理学特性，物候节律或行为。表型可能来自细胞中基因的表达，环境因素的影响，或两者之间的相互作用。
[0067]
当在本说明书和权利要求中使用术语“包含”时，不排除其他元件或步骤。
[0068]
应理解，本文描述的本发明的实施方案包括“由......组成”和/或“基本上由......组成”的实施方案。
[0069]
本文提及“约”某值或参数时包括了(并描述了)针对该值或参数本身的变化。例如，涉及“约x”的描述包括“x”的描述。
[0070]
如本文所使用的，提及“非”某值或参数通常表示并描述“除了”某值或参数。例如，该方法非用于治疗x型癌症，意味着该方法用于治疗除x以外的其他类型的癌症。
[0071]
本文使用的术语“约x
‑
y”具有与“约x至约y”相同的含义。
[0072]
如本文和所附权利要求中所使用的，单数形式“一”，“一个”和“该”包括提及对象
的复数，除非上下文另有明确说明。
[0073]
为了详述本文中核苷酸的数值范围，明确考虑其间的每个中间数。例如，对于19
‑
21nt的范围，除了19nt和21nt之外还考虑了数量20nt，并且对于moi的范围，明确考虑了它们之间的每个中间数，无论是整数还是小数。单向导rna
ibar
文库
[0074]
本技术提供了一组或多组向导rna构建体和向导rna文库，其包含具有内部标签(ibar)的向导rna(例如单向导rna)。
[0075]
在一个方面，本发明涉及crispr/cas向导rna和编码crispr/cas向导rna的构建体。每条向导rna包含置于向导rna区域中的ibar序列，其不显著干扰向导rna和cas核酸酶之间的相互作用。提供多组(例如2、3、4、5、6或更多组)向导rna构建体(包括向导rna分子和编码向导rna分子的核酸)，其中一组中的每条向导rna具有相同的向导序列，但不同的ibar序列。具有不同ibar序列的组的不同sgrna
ibar
构建体可用于单个基因编辑和筛选实验以提供重复数据。
[0076]
本技术的一个方面提供了sgrna
ibar
构建体组，其包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
，其中每条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，并且其中每条sgrna
ibar
可与cas蛋白合作以修饰靶基因组基因座。在一些实施方案中，每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中将ibar序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每条sgrna
ibar
序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。
[0077]
在一些实施方案中，提供了sgrna
ibar
构建体组，其包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
，其中每条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，并且其中每条sgrna
ibar
可与cas9蛋白合作以修饰靶基因组基因座。在一些实施方案中，每条sgrna
ibar
序列包含与第二序列融合的向导序列，其中第二序列包含与cas9相互作用的重复
‑
反向
‑
重复茎环。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，ibar序列位于重复
‑
反向
‑
重复茎的环状区域中，和/或茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，将ibar序列插入重复
‑
反向
‑
重复茎环的环状区域中，和/或茎环1的环状区域、茎环2的环状区域或茎环3的环状区域中。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。
[0078]
在一些实施方案中，提供了sgrna
ibar
构建体组，其包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
，其中每条sgrna
ibar
具有包含向导序列、
第二序列和ibar序列的sgrna
ibar
序列，其中向导序列与第二序列融合，其中第二序列包含与cas9蛋白相互作用的重复
‑
反向
‑
重复茎环，其中ibar序列被置于(例如插入)重复
‑
反向
‑
重复茎环的环状区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，并且其中每条sgrna
ibar
可与cas9蛋白合作以修饰靶基因组基因座。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。
[0079]
在一些实施方案中，提供了crispr/cas向导rna构建体，其包含靶向基因组基因座的向导序列和编码重复：反向重复双链(repeat:anti
‑
repeat duplex)和四元环(tetraloop))的向导发夹(guide hairpin)，其中内部标签(ibar)嵌入四元环中作为内部重复(replicate)。在一些实施方案中，内部标签(ibar)包含3个核苷酸(“nt”)
‑
20nt(例如3nt
‑
18nt，3nt
‑
16nt，3nt
‑
14nt，3nt
‑
12nt，3nt
‑
10nt，3nt
‑
9nt，4nt
‑
8nt，5nt
‑
7nt；优选3nt，4nt，5nt，6nt，7nt)序列，其由a，t，c和g核苷酸组成。在一些实施方案中，向导序列的长度为17
‑
23、18
‑
22、19
‑
21个核苷酸，并且一旦发夹序列被转录就可以与cas核酸酶结合。在一些实施方案中，crispr/cas向导rna构建体还包含编码茎环1、茎环2和/或茎环3的序列。在一些实施方案中，该向导序列靶向真核细胞的基因组基因，优选地，真核细胞是哺乳动物细胞。在一些实施方案中，crispr/cas向导rna构建体是病毒载体或质粒。
[0080]
在一些实施方案中，提供了sgrna
ibar
文库，其包含多个本文所述的任一个sgrna
ibar
构建体组，其中每个组对应于与不同靶基因组基因座互补的向导序列。在一些实施方案中，sgrna
ibar
文库包含至少约1000个sgrna
ibar
构建体组。在一些实施方案中，至少两个sgrna
ibar
构建体组的诸ibar序列是相同的。在一些实施方案中，所有sgrna
ibar
构建体组的诸ibar序列是相同的。
[0081]
在一些实施方案中，提供了包含多个sgrna
ibar
构建体组的sgrna
ibar
文库，其中每组包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
；其中每条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中对于三个或更多个sgrna
ibar
构建体各自的ibar序列是彼此不同的，其中每种sgrna
ibar
可与cas蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列。在一些实施方案中，每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中将ibar序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每条sgrna
ibar
序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，sgrna
ibar
文库包含至少约1000个sgrna
ibar
构建体组。在一些实施方案中，至少两个sgrna
ibar
构建体组的诸ibar序列是相同的。
[0082]
在一些实施方案中，提供了包含多个sgrna
ibar
构建体组的sgrna
ibar
文库，其中每组
包含三个或更多个(例如，四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
；其中每条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中所述三个或更多个sgrna
ibar
构建体的ibar序列彼此不同，其中每条sgrna
ibar
可与cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列。在一些实施方案中，每条sgrna
ibar
序列包含与第二序列融合的向导序列，其中第二序列包含与cas9相互作用的重复
‑
反向
‑
重复茎环。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，ibar序列位于重复
‑
反向
‑
重复茎环的环状区域中；和/或茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，将ibar序列插入重复
‑
反向
‑
重复茎环的环状区域中，和/或茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，sgrna
ibar
文库包含至少约1000个sgrna
ibar
构建体组。在一些实施方案中，至少两个sgrna
ibar
构建体组的ibar序列是相同的。
[0083]
在一些实施方案中，提供了包含多个sgrna
ibar
构建体组的sgrna
ibar
文库，其中每组包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
；其中每条sgrna
ibar
具有包含向导序列、第二序列和ibar序列的sgrna
ibar
序列，其中所述向导序列与第二序列融合，其中所述第二序列包含与cas9蛋白相互作用的重复
‑
反向
‑
重复茎环。其中ibar序列被置于(例如插入)重复
‑
反向
‑
重复茎环的环状区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，其中每种sgrna
ibar
可与cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，sgrna
ibar
文库包含至少约1000个sgrna
ibar
构建体组。在一些实施方案中，至少两个sgrna
ibar
构建体组的ibar序列是相同的。在一些实施方案中，每条sgrna
ibar
序列的所述第二序列还包含茎环1、茎环2和/或茎环3。
[0084]
还提供了本文所述的sgrna
ibar
构建体、sgrna
ibar
构建体组或文库的任一种编码的sgrna分子。还提供了包含sgrna
ibar
构建体、sgrna
ibar
分子、sgrna
ibar
组或文库中的任一种的组合物和试剂盒。
[0085]
在一些实施方案中，提供了经分离的宿主细胞，其包含本文所述的sgrna
ibar
构建体、sgrna
ibar
分子、sgrna
ibar
组或文库中的任一种。在一些实施方案中，提供了宿主细胞文库，其中每个宿主细胞包含来自本文所述的sgrna
ibar
文库的一种或多种sgrna
ibar
构建体。在一些实施方案中，宿主细胞包含或表达crispr/cas系统的一种或多种组分，例如可与sgrna
ibar
构建体合作的cas蛋白。在一些实施方案中，cas蛋白是cas9核酸酶。
[0086]
本文还提供了制备包含多个sgrna
ibar
构建体组的sgrna
ibar
文库的方法，其中每个组对应多个向导序列中的一个，每个向导序列与不同的靶基因组基因座互补，其中所述方法包括：a)为每个向导序列设计三个或更多个sgrna
ibar
构建体，其中每个sgrna
ibar
构建体包含或编码具有包含相应向导序列和ibar序列的sgrna
ibar
序列的sgrna
ibar
，其中三个或更多个sgrna
ibar
构建体各自的ibar序列是彼此不同的，并且其中每条sgrna
ibar
可与cas蛋白合作以修饰相应的靶基因组基因座；b)合成每个sgrna
ibar
构建体，从而产生sgrna
ibar
文库。在一
些实施例中，该方法还包括设计多个向导序列。ibar序列
[0087]
一个sgrna
ibar
构建体组，其包含三个或更多个sgrna
ibar
构建体，每个构建体具有不同的ibar序列。在一些实施方案中，一个sgrna
ibar
构建体组包含三个sgrna
ibar
构建体，每个构建体具有不同的ibar序列。在一些实施方案中，一个sgrna
ibar
构建体组包含四个sgrna
ibar
构建体，每个构建体具有不同的ibar序列。在一些实施方案中，一个sgrna
ibar
构建体组包含五个sgrna
ibar
构建体，每个构建体具有不同的ibar序列。在一些实施方案中，一个sgrna
ibar
构建体组包含六个或更多个sgrna
ibar
构建体，每个构建体具有不同的ibar序列。
[0088]
ibar序列可具有任何合适的长度。在一些实施方案中，每条ibar序列的长度为约1
‑
20个核苷酸(“nt”)，例如约2nt
‑
20nt，3nt
‑
18nt，3nt
‑
16nt，3nt
‑
14nt，3nt
‑
12nt，3nt
‑
10nt，3nt
‑
9nt，4nt
‑
8nt，5nt
‑
7nt中的任一个。在一些实施方案中，每条ibar序列长约3nt，4nt，5nt，6nt或7nt。在一些实施方案中，每种sgrna
ibar
构建体的诸ibar序列具有相同的长度。在一些实施方案中，不同sgrna
ibar
构建体的诸ibar序列具有不同长度。
[0089]
ibar序列可具有任何合适的序列。在一些实施方案中，ibar序列是由a，t，c和g核苷酸组成的dna序列。在一些实施方案中，ibar序列是由a，u，c和g核苷酸组成的rna序列。在一些实施方案中，ibar序列具有除a，t/u，c和g之外的非常规的或经修饰的核苷酸。在一些实施方案中每条ibar序列是6个核苷酸长，由a，t，c和g核苷酸组成。
[0090]
在一些实施方案中，与文库中的每个sgrna
ibar
构建体组相关的ibar序列组彼此不同。在一些实施方案中，文库中至少个两个sgrna
ibar
构建体组的ibar序列是相同的。在一些实施方案中，同一个ibar序列组被用于文库中的每组sgrna
ibar
构建体。没有必要为不同的sgrna
ibar
构建体组设计不同的ibar组。固定的一个ibar组可以用于文库中的所有sgrna
ibar
构建体组，或者多个ibar序列可以随机分配到文库中的不同的sgrna
ibar
构建体组。我们的ibar策略采用简化的(streamlined)分析工具(ibar)，可以在各种环境中促进大规模crispr/cas筛选，用于生物医学发现。
[0091]
可以将ibar序列置于(包括插入)向导rna中不影响grna在将cas核酸酶(例如cas9)引导至其靶位点的效率的任何合适区域。ibar序列可以位于sgrna的3'末端或内部位置。例如，sgrna可以包含与crispr复合物中的cas核酸酶相互作用的各种茎环，并且ibar序列可以嵌入在任一个茎环的环状区域中。在一些实施方案中，每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中ibar序列设置在第一茎序列和第二茎序列之间。在一些实施方案中，每条sgrna
ibar
序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。
[0092]
例如，crispr/cas9系统的向导rna可包含靶向基因组基因座的向导序列，和编码下述的向导发夹序列(重复：反向重复双链(repeat:anti
‑
repeat duplex)和四元环(tetraloop))。在一些实施方案中，将内部标签(ibar)置于(包括插入)四元环中作为内部重复。在内源crispr/cas9系统的背景下，crrna与反式激活crrna(tracrrna)杂交形成crrna：tracrrna双链体，其被加载到cas9上以指导具有适当的前间隔区邻近基序(pam)的同源dna序列的剪切。内源性crrna序列可分为向导(20nt)和重复(12nt)区，而内源性
tracrrna序列可分为反向重复序列(14nt)和三个tracrrna茎环。在一些实施方案中，sgrna结合靶dna以形成t形结构，其包含向导：靶异源双链、重复：反向重复双链和茎环1
‑
3。在一些实施方案中，重复和反向重复部分通过四元环连接，重复和反向重复形成重复：反向重复双链，其通过单核苷酸(a51)与茎环1连接，而茎环1和2通过5nt单链接头(核苷酸63
‑
67)连接。在一些实施方案中，向导序列(核苷酸1
‑
20)和靶dna(核苷酸10
‑
200)通过20个watson
‑
crick碱基形成向导：靶异源双链，而重复(核苷酸21
‑
32)和反向重复(核苷酸37
‑
50)通过9个watson
‑
crick碱基对形成重复：反向重复双链(u22：a49
‑
a26：u45和g29：c40
‑
a32：u37)。在一些实施方案中，tracrrna尾(核苷酸68
‑
81和82
‑
96)经由四个和六个watson
‑
crick碱基对形成茎环2和3(a69：u80
‑
u72：a77和g82：c96
‑
g87：c91)。本文描述了示例性crispr/cas9系统的晶体结构(nishimasu h，等人，crystal structure of cas9 in complex with guide rna and target dna.cell.2014；156：935
‑
949)，其通过引用整体并入本技术中。
[0093]
在一些实施方案中，该ibar序列位于sgrna的四元环或重复：反向重复茎环的环状区域中。在一些实施方案中，将ibar序列插入sgrna的四元环或重复：反向重复茎环的环状区域中。cas9 sgrna框架的四元环位于cas9
‑
sgrna核糖核蛋白复合物之外，其在不影响其上游向导序列的活性的情况下经受各种目的的改变
9,12
。本技术的发明人已证明6
‑
nt长的ibar(ibar6)可以嵌入典型cas9 sgrna框架的四元环中，而不影响sgrna的基因编辑效率或增加脱靶效应。
[0094]
示例性ibar6产生4,096个标签组合，这为高通量筛选提供了足够的变体(图1a)。为了确定这些额外ibar序列的插入是否影响grna活性，构建了预设的sgrna文库，其与4,096个ibar6序列中的每个组合，靶向炭疽毒素受体基因antxr113。将该sgrna
ibar
‑
antxr1
文库通过低moi(为0.3)的慢病毒转导导入不断表达cas9
6,7
的hela细胞。经过三轮pa/lfndta毒素处理和富集后，如先前报道的那样6通过ngs分析检测来自抗毒素细胞的sgrna及其ibar6序列。大多数sgrna
ibar
‑
antxr1
和未加标签的sgrna
antxr1
显著富集，而几乎所有非靶向对照sgrna都不存在于抗性细胞群中。重要的是，具有不同ibar6的sgrna
ibar
‑
antxr1
的富集水平似乎在两个生物学重复之间是随机的(图1b)。在计算ibar6的每个位置处的核苷酸频率后，未从任一重复中观察到序列偏差(图1c)。此外，ibar6中的gc含量似乎不影响sgrna剪切效率(图2)。向导序列
[0095]
向导序列与靶序列杂交并指导crispr复合物与靶序列的序列特异性结合。在一些实施方案中，当使用合适的比对算法进行理想比对时，向导序列与其相应的靶序列之间的互补程度为约或大于约75％，80％，85％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％或更多。可以使用用于比对序列的任何合适的算法来确定理想比对，其非限制性示例包括smith
‑
waterman算法，needleman
‑
wimsch算法，基于burrows
‑
wheeler变换的算法。在某些实施方案中，向导序列的长度为约或大于约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个核苷酸。可以通过任何合适的测定来评估向导序列指导crispr复合物与靶序列的序列特异性结合的能力。例如，可以把足以形成crispr复合物的crispr系统的组分(包括待测序的向导序列)提供给具有相应靶序列的宿主细胞，例如通过用编码crispr序列的组分的载体转染，然后评估靶序列内的优先剪切。类似地，可以通过提供靶序列，crispr复合物的组分(包括待测序的向导序列和不同于测试向
导序列的对照向导序列)，并比较测试和对照向导序列的反应中靶序列处的结合或剪切率，以在试管中评估靶多核苷酸序列的剪切。
[0096]
在一些实施方案中，向导序列可以短至约10个核苷酸且长至约30个核苷酸。在一些实施方案中，向导序列是长度为15、16、17、18、19、20、21、22、23或24个核苷酸中的任一个。合成向导序列可以是约20个核苷酸长，但可以更长或更短。举例来说，crispr/cas9系统的向导序列可以由与靶序列互补的20个核苷酸组成，即向导序列可以与pam序列上游的20个核苷酸相同(除了dna和rna之间的a/u差异)。
[0097]
可以根据本领域任何已知的方法设计sgrna
ibar
构建体中的向导序列。向导序列可以靶向编码区，诸如外显子或剪接位点，目的基因的5'非翻译区(utr)或3'非翻译区(utr)。例如，基因的阅读框可以被向导rna的靶位点处的双链断裂(dsb)介导的插入缺失所破坏。或者可以使用靶向编码序列5'末端的向导rna以高效率制造出基因敲除。可以根据某些序列特征设计和优化向导序列(为了高中靶基因编辑活性和低脱靶效应)。例如，向导序列的gc含量可以在20％
‑
70％的范围内，并且可以避免含有均聚物片段的序列(例如tttt，gggg)。
[0098]
可以设计向导序列以靶向任何目的基因组基因座。在一些实施方案中，向导序列靶向真核细胞的基因组基因座，例如哺乳动物细胞。在一些实施方案中，向导序列靶向植物细胞的基因组基因座。在一些实施方案中，向导序列靶向细菌细胞或古细菌细胞的基因组基因座。在一些实施方案中，向导序列靶向蛋白质编码基因。在一些实施方案中，向导序列靶向编码rna的基因，例如小rna(例如，microrna，pirna，sirna，snorna，trna，rrna和snrna)、核糖体rna或长非编码rna(lincrna)。在一些实施方案中，向导序列靶向基因组的非编码区。在一些实施方案中，向导序列靶向染色体基因座。在一些实施方案中，向导序列靶向染色体外的基因座。在一些实施方案中，向导序列靶向线粒体或叶绿体基因。
[0099]
在一些实施方案中，设计向导序列以抑制或激活任何目的靶基因的表达。靶基因可以是内源基因或转基因。在一些实施方案中，靶基因可以是已知与特定表型相关的。在一些实施方案中，靶基因是不涉及特定表型的基因，诸如不认为是与特定表型相关的已知基因或未被表征的未知基因。在一些实施方案中，靶区域位于作为靶基因的不同染色体上。其他sgrna组件
[0100]
sgrna
ibar
包含促进与cas蛋白形成crispr复合物的额外序列元件。在一些实施方案中，sgrna
ibar
包含第二序列，其包含重复
‑
反向
‑
重复茎环。重复
‑
反向
‑
重复茎环包含tracr伴侣序列，其通过环状区域和与所述tracr伴侣序列互补的tracr序列融合。
[0101]
通常，在内源crispr/cas9系统的背景下，crispr复合物(包含与靶序列杂交并与一种或多种cas蛋白复合的向导序列)的形成导致在靶序列处或者在它附近(例如在1、2、3、4、5、6、7、8、9、10、20、50或更多个碱基对内)一条或两条链的剪切。tracr序列，其可以包含野生型tracr序列的全部或部分(例如野生型tracr序列的大约或大于约20、26、32、45、48、54、63、67、85或更多个核苷酸)或由其组成，可以形成crispr复合物的一部分，诸如通过使至少一部分tracr序列与tracr伴侣序列(其与向导序列的可操作地连接)全部或部分杂交。在一些实施方案中，tracr序列与tracr伴侣序列具有足够的互补性，以杂交并参与crispr复合物的形成。与靶序列一样，认为不需要完全互补，只要有足够的功能即可。在一些实施方案中，当理想比对时，tracr序列沿着tracr伴侣序列的长度具有至少50％，60％，70％，
80％，90％，95％或99％的序列互补性。确定理想比对在本领域技术人员的能力范围内。例如，存在公开的和商业上可用的比对算法和程序，诸如(但不限于)clustalw，smith
‑
waterman in matlab，bowtie，geneious，biopython和seqman。在一些实施方案中，tracr序列长度为约或大于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50或更多个核苷酸。可以使用衍生自天然存在的crispr系统的任一种已知的tracr伴侣序列和tracr序列，诸如来自us8697359中描述的化脓性链球菌crispr/cas9系统的tracr伴侣序列和tracr序列以及本文所述的那些。
[0102]
在一些实施方案中，tracr序列和tracr伴侣序列包含在单个转录物内，使得两者之间的杂交产生具有二级结构的转录物，例如茎环(也称为发夹)，称为“重复
‑
反向
‑
重复茎环(repeat
‑
anti
‑
repeat stem loop)”。
[0103]
在一些实施方案中，在没有ibar序列的sgrna构建体中茎环的环状区域的长度为4个核苷酸，并且这种环状区域也称为“四元环(tetraloop)”。在一些实施方案中，环状区域具有序列gaaa。然而，可以使用更长或更短的环序列，也可以使用替代序列，例如包括核苷酸三联体(例如aaa)和另外的核苷酸(例如c或g)的序列。在一些实施方案中，环状区域的序列是caaa或aaag。在一些实施例中，将ibar置于环状区域，诸如四元环中。在一些实施方案中，将ibar插入环状区域，诸如四元环中。例如，ibar序列可以插入第一核苷酸之前，第一核苷酸和第二核苷酸之间，第二核苷酸和第三核苷酸之间，第三核苷酸和第四核苷酸之间，或四元环中第四核苷酸之后。在一些实施方案中，ibar序列取代环状区域中的一个或多个核苷酸。
[0104]
在一些实施方案中，sgrna
ibar
包含至少两个或更多个茎环。在一些实施方案中，sgrna
ibar
具有两个、三个、四个或五个茎环。在一些实施方案中，sgrna
ibar
具有至多五个发夹。在一些实施方案中，sgrna
ibar
构建体还包含转录终止序列，诸如多t序列，例如6个t核苷酸。
[0105]
在一些实施方案中，其中cas蛋白是cas9，每条sgrna
ibar
包含与第二序列融合的向导序列，所述第二序列包含与cas9相互作用的重复
‑
反向
‑
重复茎环。在一些实施方案中，将ibar序列置于重复
‑
反向
‑
重复茎环的环状区域中。在一些实施方案中，将ibar序列插入重复
‑
反向
‑
重复茎环的环状区域中。在一些实施方案中，ibar序列取代重复
‑
反向
‑
重复茎环的环状区域的一个或多个核苷酸。在一些实施方案中，每条sgrna
ibar
的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，将ibar序列置于茎环1的环状区域中。在一些实施方案中，将ibar序列插入茎环1的环状区域中。在一些实施方案中，ibar序列取代茎环1的环状区域中的一个或多个核苷酸。在一些实施方案中，将ibar序列置于茎环2的环状区域中。在一些实施方案中，将ibar序列插入茎环2的环状区域中。在一些实施方案中，ibar序列取代茎环2的环状区域的一个或多个核苷酸。在一些实施方案中，将ibar序列置于茎环3的环状区域中。在一些实施方案中，将ibar序列插入茎环3的环状区域中。在一些实施方案中，ibar序列取代茎环3的环状区域的一个或多个核苷酸。
[0106]
在一些实施方案中，每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中ibar序列位于第一茎序列和第二茎序列之间。在一些实施方案中，每条sgrna
ibar
在5’至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用
的双链rna区域，并且其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。
[0107]
在crispr/cas9系统中，向导rna可用于指导cas9核酸酶对基因组dna的剪切。例如，向导rna可以由可变序列的核苷酸间隔区(向导序列)组成，其以特定于序列的方式使crispr/cas系统核酸酶靶向基因组位置，并且发夹序列(其在不同的向导rna中恒定不变)允许向导rna与cas核酸酶结合。在一些实施方案中，提供了crispr/cas向导rna，其包含与宿主细胞中的靶基因组序列同源或互补的crispr/cas可变向导序列以及在转录时能够结合cas核酸酶(例如cas9)的不变发夹序列，其中发夹序列编码重复：反向重复双链和四元环，并且内部标签(ibar)嵌入四元环区域。
[0108]
crispr/cas9向导rna的向导序列长度可为约17
‑
23、18
‑
22、19
‑
21个核苷酸。向导序列可以以序列特异性方式使cas核酸酶靶向基因组基因座，并且可以按照本领域已知的一般原理设计。可以根据本领域的常识提供不变的向导rna发夹序列，例如，如nishimasu等人所公开的(nishimasu h，et al.calco structure of cas9 in complex with guide rna and target dna.cell.2009；156：935
‑
949)。本技术还提供了不变的向导rna发夹序列的实例，但应理解本发明不限于此并且可以使用其他不变的发夹序列，只要它们能够在转录后结合cas核酸酶。
[0109]
先前的研究表明，对于体外cas9催化的dna剪切(jinek等人，2012)，尽管具有48
‑
nt tracrrna尾部的sgrna(称为sgrna( 48))是最小区域，但具有延长的tracrrna尾部、sgrna( 67)和sgrna( 85)的sgrna可以改善体内cas9剪切活性(hsu等人，2013)。在一些实施方案中，sgrna
ibar
包含茎环1、茎环2和/或茎环3。茎环1、茎环2和/或茎环3区域可以提高crispr/cas9系统中的编辑效率。cas蛋白
[0110]
本文所述的sgrna
ibar
构建体可以设计为与本领域已知的任一种天然存在的或工程化的crispr/cas系统合作。在一些实施方案中，sgrna
ibar
构建体可与i型crispr/cas系统合作。在一些实施方案中，sgrna
ibar
构建体可与ii型crispr/cas系统合作。在一些实施方案中，sgrna
ibar
构建体可与iii型crispr/cas系统合作。示例性crispr/cas系统可以在wo2013176772，wo2014065596，wo2014018423，wo2016011080，us8697359，us8932814，us10113167b2中找到，其公开内容出于所有目的通过引用整体并入本文。
[0111]
在某些实施方案中，sgrna
ibar
构建体可与衍生自crispr/cas i型，ii型或iii型系统的cas蛋白合作，这些cas蛋白具有rna导向的多核苷酸结合和/或核酸酶活性。此类cas蛋白的实例列于例如wo2014144761wo2014144592，wo2013176772，us20140273226和us20140273233中，其通过引用整体并入本文。
[0112]
在某些实施方案中，cas蛋白衍生自ii型crispr
‑
cas系统。在某些实施方案中，cas蛋白是cas9蛋白或源自cas9蛋白。在某些实施方案中，cas蛋白是或源自细菌cas9蛋白，包括wo2014144761鉴定出的那些。
[0113]
在一些实施方案中，sgrna
ibar
构建体可与cas9(也称为csn1和csx12)，其同源物或其修饰形式合作。在一些实施方案中，sgrna
ibar
构建体可与两种或更多种cas蛋白合作。在一些实施方案中，sgrna
ibar
构建体可与来自化脓性链球菌或肺炎链球菌的cas9蛋白合作。cas酶是本领域已知的。例如，化脓性链球菌cas9蛋白的氨基酸序列可以用登记号q99zw2在swissprot数据库中找到。
[0114]
cas蛋白(在本文中也称为“cas核酸酶”)提供所需的活性，例如靶结合，靶切口或剪切活性。在某些实施方案中，所需活性是靶结合。在某些实施方案中，所需活性是靶切口或靶剪切。在某些实施方案中，所需活性还包括由与cas蛋白或核酸酶缺陷的cas蛋白共价融合的多肽提供的功能。这种所需活性的实例包括转录调节活性(活化或抑制)，表观遗传修饰活性或靶可视化/鉴定活性。
[0115]
在一些实施方案中，sgrna
ibar
构建体可与cas核酸酶合作，所述cas核酸酶剪切靶序列，包括双链剪切和单链剪切。在一些实施方案中，sgrna
ibar
构建体可与无催化活性的cas(“dcas”)合作。在一些实施方案中，sgrna
ibar
构建体可与crispr激活(“crispra”)系统的dcas合作，其中dcas与转录激活因子融合。在一些实施方案中，sgrna
ibar
构建体可与crispr干扰(crispri)系统的dcas合作。在一些实施方案中，dcas与阻遏物结构域融合，诸如krab结构域。
[0116]
在某些实施方案中，cas蛋白是野生型cas蛋白(诸如cas9)或其片段的突变体。cas9蛋白通常具有至少两个核酸酶(例如，dnase)结构域。例如，cas9蛋白可具有ruvc样核酸酶结构域和hnh样核酸酶结构域。ruvc和hnh结构域共同作用以剪切靶位点中的两条链以在靶多核苷酸中产生双链断裂(jinek等，science 337：816
‑
21)。在某些实施方案中，突变体cas9蛋白被修饰为仅含有一个功能性核酸酶结构域(ruvc样或hnh样核酸酶结构域)。例如，在某些实施方案中，修饰突变体cas9蛋白，使得一个核酸酶结构域缺失或突变而不再具有功能性(即不存在核酸酶活性)。在其中一个核酸酶结构域无活性的一些实施方案中，突变体能够将切口引入双链多核苷酸(这种蛋白质被称为“切口酶”)但不能剪切双链多核苷酸。在某些实施方案中，修饰cas蛋白以增加核酸结合亲和力和/或特异性，改变酶活性，和/或改变蛋白质的另一性质。在某些实施方案中，截短或修饰cas蛋白以优化效应结构域的活性。在某些实施方案中，修饰或消除ruvc样核酸酶结构域和hnh样核酸酶结构域，使得突变体cas9蛋白不能切开或剪切靶多核苷酸。在某些实施方案中，相对于野生型对应物缺乏一些或所有核酸酶活性的cas9蛋白仍然或多或少地维持靶识别活性。
[0117]
在某些实施方案中，cas蛋白是融合蛋白，其包含与另一多肽或效应结构域融合的天然存在的cas或其变体。另一种多肽或效应结构域可以是例如剪切结构域，转录激活结构域，转录抑制结构域或表观遗传修饰结构域。在某些实施方案中，融合蛋白包含经修饰的或经突变的cas蛋白，其中所有核酸酶结构域已经失活或缺失。在某些实施方案中，cas蛋白的ruvc和/或hnh结构域受到修饰或突变，使得它们不再具有核酸酶活性。
[0118]
在某些实施方案中，融合蛋白的效应结构域是从具有所需特性的任何核酸内切酶或核酸外切酶获得的剪切结构域。
[0119]
在某些实施方案中，融合蛋白的效应结构域是转录激活结构域。通常，转录激活结构域与转录控制元件和/或转录调节蛋白(即转录因子，rna聚合酶等)相互作用以增加和/或激活基因的转录。在某些实施方案中，转录激活结构域是单纯疱疹病毒vp16激活结构域，vp64(其为vp16的四聚体衍生物)，nfxb p65激活结构域，p53激活结构域1和2，creb(camp反应元件结合蛋白)激活结构域，e2a激活结构域或nfat(活化t细胞核因子)激活结构域。在某些实施方案中，转录激活结构域是gal4，gcn4，mll，rtg3，gln3，oaf1，pip2，pdr1，pdr3，pho4或leu3。转录激活结构域可以是原始转录激活结构域的野生型或经修饰或经截短的形式。
[0120]
在某些实施方案中，融合蛋白的效应结构域是转录抑制结构域，例如诱导型camp
早期阻遏物(icer)结构域，kruppel相关盒a(krab
‑
a)阻遏物结构域，富含yy1甘氨酸的抑制物结构域，sp1样抑制因子，e(spi)抑制因子，i.kappa.b阻遏物或mecp2。
[0121]
在某些实施方案中，融合蛋白的效应结构域是表观遗传修饰结构域，其通过修饰组蛋白结构和/或染色体结构来改变基因表达，例如组蛋白乙酰转移酶结构域，组蛋白脱乙酰酶结构域，组蛋白甲基转移酶结构域，组蛋白去甲基化酶结构域，dna甲基转移酶结构域或dna去甲基化酶结构域。
[0122]
在某些实施方案中，cas蛋白还包含至少一个另外的结构域，例如核定位信号(nls)，细胞穿透或易位结构域和标志物结构域(例如荧光蛋白标志物)。载体
[0123]
在一些实施方案中，sgrna
ibar
构建体包含与向导rna序列和ibar序列可操作地连接的一种或多种调节元件。示例性的调节元件包括但不限于启动子、增强子、内部核糖体进入位点(ires)和其他表达控制元件(例如转录终止信号，诸如多腺苷酸化信号和多
‑
u序列)。这些调节元件描述于例如goeddel，gene expression technology：methods in enzymology 185，academic press，san diego，calif(1990)中。调控元件包括在许多类型的宿主细胞中指导核苷酸序列进行组成型表达的那些和仅在某些宿主细胞中指导核苷酸序列表达的那些(例如组织特异性调控序列)。
[0124]
sgrna
ibar
构建体可以存在于载体中。在一些实施方案中，sgrna
ibar
构建体是表达载体，诸如病毒载体或质粒。本领域技术人员应理解，表达载体的设计可取决于诸如待转化的宿主细胞的选择、所需表达水平等因素。在一些实施方案中，sgrna
ibar
构建体是慢病毒载体。在一些实施方案中，sgrna
ibar
构建体是腺病毒或腺相关病毒。在一些实施方案中，载体还包含选择标志物。在一些实施方案中，载体还包含编码crispr/cas系统的一种或多种元件的一种或多种核苷酸序列，例如编码cas核酸酶(例如cas9)的核苷酸序列。在一些实施方案中，提供了载体系统，其包含编码crispr/cas系统的一种或多种元件的核苷酸序列的一种或多种载体，和包含本文所述的任一种sgrna
ibar
构建体的载体。载体可包括以下元件中的一种或多种：复制起点，调节目标多肽表达的一种或多种调节序列(诸如例如启动子和/或增强子)，和/或一种或多种更多选择标志物基因(诸如例如，抗生素抗性基因和编码荧光蛋白的基因)。文库
[0125]
可以设计本文描述的sgrna
ibar
文库以根据基因筛选的需要靶向多个基因组基因座。在一些实施方案中，设计单个sgrna
ibar
构建体组以靶向每种目的基因。在一些实施方案中可以设计多个(例如至少2、4、6、10、20或更多个，诸如4
‑
6)具有靶向单个目的基因的不同向导序列的sgrna
ibar
构建体组。
[0126]
在一些实施方案中，sgrna
ibar
文库包含至少10、20、50、100、200、500、1000、2000、5000、10000、20000、50000、100000或更多个sgrna
ibar
构建体组。在一些实施方案中，sgrna
ibar
文库靶向细胞或生物体中的至少10、20、50、100、200、500、1000、2000、5000、10000、15000或更多个基因。在一些实施方案中，sgrna
ibar
文库是蛋白质编码基因和/或非编码rna的全基因组文库。在一些实施方案中，sgrna
ibar
文库是靶向文库，其靶向信号传导途径中或者与细胞过程相关联的所选基因。在一些实施方案中，sgrna
ibar
文库用于与特定调节表型相关的全基因组筛选。在一些实施方案中，sgrna
ibar
文库用于全基因组筛选以鉴
定出与特定调节表型相关的至少一种靶基因。在一些实施方案中，sgrna
ibar
文库被设计为靶向真核基因组，例如哺乳动物基因组。示例性的目的基因组包括啮齿动物(小鼠，大鼠，仓鼠，豚鼠)，驯养动物(例如牛，绵羊，猫，狗，马或兔)，非人灵长类动物(例如猴)的基因组，鱼类(如斑马鱼)，非脊椎动物(如果蝇(drosophila melanogaster)和秀丽隐杆线虫(caenorhabditis elegans))以及人类。
[0127]
可以使用已知算法设计sgrna
ibar
文库的向导序列，所述算法在用户定义的列表中鉴定出具有高度靶向特异性的crispr/cas靶位点(基因组靶标扫描(gt
‑
scan))；参见o'brien等，bioinformatics(2014)30：2673
‑
2675)。在一些实施方案中可以在单个阵列上产生100,000个sgrna
ibar
构建体，提供足够的覆盖以全面筛选人类基因组中的所有基因。通过并行地合成多个sgrna
ibar
文库，还可以扩大该方法以实现全基因组筛选。sgrna
ibar
文库中sgrna
ibar
构建体的确切数量可取决于是否筛选1)靶向基因或调节元件，2)靶向完整基因组或基因组基因的亚组。
[0128]
在一些实施方案中，设计sgrna
ibar
文库以靶向与基因组中的基因重叠的每个pam序列，其中pam序列对应cas蛋白。在一些实施方案中，设计sgrna
ibar
文库用以靶向在基因组中发现的pam序列的次级组，其中pam序列对应cas蛋白。
[0129]
在一些实施方案中，sgrna
ibar
文库包含一个或多个不靶向基因组中任何基因组基因座的对照sgrna
ibar
构建体。在一些实施方案中，不靶向认定的基因组基因的sgrna
ibar
构建体可以作为阴性对照包含在sgrna
ibar
文库中。
[0130]
可使用本领域任何已知核酸合成方法和/或分子克隆方法制备本文所述的sgrna
ibar
构建体和文库。在一些实施方案中，sgrna
ibar
文库以通过阵列的电化学方法(例如customarray，twist，gen9)，dna印迹法(例如，agilent)或单个寡核苷酸固相合成法(例如通过idt)合成。可以通过pcr扩增sgrna
ibar
构建体并将其克隆到表达载体(例如，慢病毒载体)中。在一些实施方案中，慢病毒载体进一步编码基于crispr/cas的基因编辑系统的一种或多种组分，诸如cas蛋白(例如cas9)。宿主细胞
[0131]
在一些实施方案中，提供了包含宿主细胞的组合物，所述宿主细胞包含本文所述的sgrna
ibar
构建体、分子、组或文库中的任一种。
[0132]
在一些实施方案中，提供了编辑宿主细胞中基因组基因座的方法，包括向宿主细胞中引入向导rna构建体，其包含靶向基因组基因的向导序列和编码重复：反向重复双链和四元环的向导发夹序列，其中内部标签(ibar)嵌入四元环中作为内部重复，表达靶向宿主细胞中基因组基因的向导rna，从而在cas核酸酶存在下编辑靶基因组基因。
[0133]
在一些实施方案中，提供了通过将本文所述的任一种sgrna
ibar
文库转染至多个宿主细胞而制备的细胞文库，其中sgrna
ibar
构建体存在于病毒载体(例如慢病毒载体)中。在一些实施方案中，转染期间病毒载体和宿主细胞之间的感染复数(moi)为至少约1。在一些实施方案中，moi为至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10中的任一个或更高。在一些实施方案中，moi为约1、约1.5、约2、约2.5、约3、约3.5、约4、约4.5、约5、约5.5、约6、约6.5、约7、约7.5、约8.5、约9、约9.5或约10。在一些实施方案中，moi是1
‑
10、1
‑
3、3
‑
5、5
‑
10、2
‑
9、3
‑
8，4
‑
6或2
‑
5中的任一个。在一些实施方案中，转染期间病毒载体和宿主细胞之间的moi小于1，例如小于0.8、0.5、0.3或更低。在一些实施方案中，moi为
约0.3至约1。
[0134]
在一些实施方案中，将驱动crispr/cas系统的一种或多种元件表达的一种或多种载体引入宿主细胞中，使得crispr系统元件的表达在一个或多个靶位点指导与sgrna
ibar
分子形成crispr复合物。在一些实施方案中，宿主细胞已经被引入cas核酸酶或被工程化以稳定表达crispr/cas核酸酶。
[0135]
在一些实施方案中，宿主细胞是真核细胞。在一些实施方案中，宿主细胞是原核细胞。在一些实施方案中，宿主细胞是细胞系，例如预先建立的细胞系。宿主细胞和细胞系可以是人的细胞或细胞系，或者它们可以是非人的，哺乳动物的细胞或细胞系。宿主细胞可以源自任何组织或器官。在一些实施方案中，宿主细胞是肿瘤细胞。在一些实施方案中，宿主细胞是干细胞或ips细胞。在一些实施方案中，宿主细胞是神经细胞。在一些实施方案中，宿主细胞是免疫细胞，例如b细胞或t细胞。在一些实施方案中，宿主细胞难以用低moi(例如，低于1、0.5或0.3)的病毒载体(例如慢病毒载体)转染。在一些实施方案中，使用低moi(例如，低于1、0.5或0.3)的crispr/cas系统难以编辑宿主细胞。在一些实施方案中，宿主细胞可获得量有限。在一些实施方案中，宿主细胞获自来自个体的活组织检查，例如来自肿瘤活组织检查。筛选方法
[0136]
本技术还提供了使用本文所述的任一种向导rna构建体，向导rna文库和细胞文库的基因筛选方法，包括高通量筛选和全基因组筛选。
[0137]
在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使表达cas蛋白的初始细胞群与本文所述的任一sgrna
ibar
文库接触，所述接触在可使sgrna
ibar
构建体被引入细胞的情况下进行，以提供经修饰的细胞群；b)从经修饰的细胞群中选择具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预设阈值水平之上的向导序列的基因组基因座。在一些实施方案中，其中每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)，使sgrna
ibar
文库以大于约2(例如在至少约3、5或10)的感染复数(moi)与初始细胞群相接触。在一些实施方案中，将sgrna
ibar
文库中超过约95％的sgrna
ibar
构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。
[0138]
在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使初始细胞群接触i)本文所述的任一种sgrna
ibar
文库；ii)cas组分，其包含cas蛋白或编码cas蛋白的核酸相接触，其在可使sgrna
ibar
构建体和cas组分被引入细胞的情况下进行，以提供经修饰的细胞群；b)从经修饰的细胞群中选择出具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预设阈值水平之上的向导序列的基因组基因座。在一些实施方案中，其中每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)，使
sgrna
ibar
文库以大于约2的感染复数(moi)与初始细胞群相接触(例如在至少约3、5或10)。在一些实施方案中，将sgrna
ibar
文库中超过约95％的sgrna
ibar
构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。
[0139]
在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使表达cas蛋白的初始细胞群接触sgrna
ibar
文库，其在可使sgrna
ibar
构建体被引入细胞的情况下进行，以提供经修饰的细胞群；其中sgrna
ibar
文库包含多个sgrna
ibar
构建体组，其中每组包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
；其中每条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中每条ibar序列是相同的。三个或更多个sgrna
ibar
构建体彼此不同，其中每条sgrna
ibar
可与cas蛋白合作以修饰靶基因组基因座；其中每组对应与不同靶基因组基因座互补的向导序列；b)从经修饰的细胞群中选择出具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预设阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中将ibar序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每条sgrna
ibar
序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，cas蛋白是cas9。在一些实施方案中，每条sgrna
ibar
序列包含与第二序列融合的向导序列，其中第二序列包含与cas9相互作用的重复
‑
反向
‑
重复茎环。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，ibar序列位于重复
‑
反向
‑
重复茎环的环状区域中，和/或茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，将ibar序列插入重复
‑
反向
‑
重复茎环的环状区域中，和/或茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中使sgrna
ibar
文库与初始细胞群以大于约2(例如，至少约3、5或10)的感染复数(moi)接触。在一些实施方案中，sgrna
ibar
文库包含至少约1000组sgrna
ibar
构建体。在一些实施方案中，至少两组sgrna
ibar
构建体的ibar序列是相同的。在一些实施方案中，将sgrna
ibar
文库中超过约95％的sgrna
ibar
构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。
[0140]
在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使初始细胞群接触i)sgrna
ibar
文库和ii)cas组分，其包含cas蛋白或编码cas蛋白的核酸，其在可使sgrna
ibar
构建体和cas组分被引入细胞的情况下进行，以提供经修饰的细胞群；其中sgrna
ibar
文库包含多个sgrna
ibar
构建体组，其中每组包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
；其中每
条sgrna
ibar
具有包含向导序列和ibar序列的sgrna
ibar
序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中所述三个或更多个sgrna
ibar
构建体的ibar序列彼此不同，其中每条sgrna
ibar
可与cas蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列；b)从经修饰的细胞群中选择具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预设阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每条sgrna
ibar
序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，并且其中将ibar序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每条sgrna
ibar
序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与cas蛋白相互作用的双链rna区域，其中ibar序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，cas蛋白是cas9。在一些实施方案中，每条sgrna
ibar
序列包含与第二序列融合的向导序列，其中第二序列包含与cas9相互作用的重复
‑
反向
‑
重复茎环。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，ibar序列位于重复
‑
反向
‑
重复茎环的环状区域中，和/或茎环1、茎环2或茎环3的环状区域中。在一些实施方案中，将ibar序列插入重复
‑
反向
‑
重复茎环的环状区域中，和/或茎环1、茎环2或茎环3的环状区域中。在一些实施方案中每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，使sgrna
ibar
文库与初始细胞群以大于约2(例如至少约3、5或10)的感染复数(moi)接触。在一些实施方案中，sgrna
ibar
文库包含至少约1000个sgrna
ibar
构建体组。在一些实施方案中，至少两个sgrna
ibar
构建体组的ibar序列是相同的。在一些实施方案中，将sgrna
ibar
文库中超过约95％的sgrna
ibar
构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。
[0141]
在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，例如哺乳动物细胞)的基因组基因座的方法，包括：a)使表达cas9蛋白的初始细胞群与sgrna
ibar
文库接触，所述接触在可将sgrna
ibar
构建体引入细胞的条件下进行，以提供经修饰的细胞群；其中sgrna
ibar
文库包含多个sgrna
ibar
构建体组，其中每组包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
；其中每条sgrna
ibar
具有包含向导序列、第二序列和ibar序列的sgrna
ibar
序列，其中所述向导序列与第二序列融合，其中所述第二序列包含与cas9蛋白相互作用的重复
‑
反向
‑
重复茎环。其中ibar序列被置于(例如插入)重复
‑
反向
‑
重复茎环的环状区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，其中每个sgrna
ibar
可与cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列；b)从修饰的细胞群中选择具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴别出对应于排序在预设阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如，慢病毒载体)。在一些实施方案中，使sgrna
ibar
文库与初始细胞群以大于约2(例如，至少约3、5或10)的感染复数(moi)接触。在一些实施方案中，sgrna
ibar
文库包含至少约1000组sgrna
ibar
构建体。在一些实施方案中，至少两组sgrna
ibar
构建体的ibar序列是相同的。在一些实施方案中，将sgrna
ibar
文库中超过约95％的sgrna
ibar
构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。
[0142]
在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使初始细胞群接触i)本文描述的sgrna
ibar
文库；ii)cas组分，其包含cas9蛋白或编码cas9蛋白的核酸，其在可将sgrna
ibar
构建体和cas组分导入细胞的条件下进行，以提供经修饰的细胞群；其中sgrna
ibar
文库包含多组sgrna
ibar
构建体，其中每组包含三个或更多个(例如四个)sgrna
ibar
构建体，每个构建体包含或编码sgrna
ibar
；其中每条sgrna
ibar
具有包含向导序列、第二序列和ibar序列的sgrna
ibar
序列，其中所述向导序列与第二序列融合，其中所述第二序列包含与cas9蛋白相互作用的重复
‑
反向
‑
重复茎环。其中ibar序列被置于(例如插入)重复
‑
反向
‑
重复茎环的环状区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgrna
ibar
构建体的向导序列是相同的，其中三个或更多个sgrna
ibar
构建体各自的ibar序列彼此不同，其中每个sgrna
ibar
可与cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列；b)从经修饰的细胞群中选择具有经调节的表型的细胞群，以提供经选择的细胞群；c)从经选择的细胞群中获得sgrna
ibar
序列；d)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中所述排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；e)鉴别出对应于排序在预设阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每条ibar序列包含约1
‑
50个核苷酸。在一些实施方案中，每条sgrna
ibar
序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每个sgrna
ibar
构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，使sgrna
ibar
文库与初始细胞群以大于约2(例如至少约3、5或10)的感染复数(moi)接触。在一些实施方案中，sgrna
ibar
文库包含至少约1000组sgrna
ibar
构建体。在一些实施方案中，至少两组sgrna
ibar
构建体的ibar序列是相同的。在一些实施方案中，将sgrna
ibar
文库中超过约95％的sgrna
ibar
构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。
[0143]
在一些实施方案中，提供了用于最小化基于crispr/cas的高通量基因筛选的错误发现率(false discovery rate,fdr)的方法，其包括：通过在同一实验中在靶细胞中计数向导rna和内部标签(ibar)核苷酸序列两者，将多个嵌入了向导rna的内部标签引入到宿主细胞中以多次追踪每个向导rna的性能。在优选的实施方案中，标签包含2nt
‑
20nt(更优选3nt
‑
18nt，3nt
‑
16nt，3nt
‑
14nt，3nt
‑
12nt，3nt
‑
10nt，3nt
‑
9nt，4nt
‑
8nt，5nt
‑
7nt；甚至更优选3nt，4nt，5nt，6nt，7nt)由a，t，c和g组成的短序列。在优选的实施方案中，标签嵌入在向
导rna的四元环状区域中。在优选的实施方案中，向导rna构建体是病毒载体。在优选的实施方案中，病毒抗原载体是慢病毒载体。在优选的实施方案中，向导rna构建体以moi>1引入靶细胞(例如moi>1.5，moi>2，moi>2.5，moi>3，moi>3.5，moi>4，moi>4.5，moi>5，moi>5.5，moi>6，moi>6.5，moi>7；诸如moi约为1，moi约为1.5，moi约为2，moi约为2.5，moi约为3，moi为约3.5，moi约为4，moi约为4.5，moi约为5，moi约为5.5，moi约为6，moi约为6.5，moi约为7)。
[0144]
作为一种强大的基因组编辑工具，成簇规律间隔短回文重复序列(crispr)
‑
成簇规律间隔短回文重复序列相关蛋白9(cas9)系统已迅速发展成为真核细胞中基于功能的大规模筛选策略。与常规的crispr/cas筛选方法相比，本发明提供了一种新的基因筛选方法，通过该方法，筛选的假阳性率(fdr)显著降低并且数据重现性大大增加。
[0145]
两篇论文在最近报道了在sgrna体外产生随机标签用于经混合的crispr筛选
13,14
。假设每条sgrna将产生所需的功能丧失(lof)和非lof等位基因，则对任一给定sgrna的所有读数的计算无法准确评估其靶向基因在阴性筛选中的重要性。通过将一个umi(独特分子鉴别符)与每条sgrna的一个编辑结果相关联以实现单细胞谱系追踪来降低假阴性率，或通过计数减少的sgrna附属rsl(随机序列标志物)数量来提高筛选质量，可以大大改善统计结果。与这两种方法不同，本发明提供了一种使用具有ibar序列的sgrna组的新方法，以便能够用以高moi病毒感染得到的crispr文库进行混合筛选，从而减小文库的大小并改善数据质量。
[0146]
本文所述的筛选方法使用各sgrna构建体组的文库，每个构建体具有内部标签(ibar)，以通过统计分析改善对靶标的鉴别和数据重现性，并降低错误发现率(fdr)。在使用混合的sgrna文库的常规crispr/cas筛选方法中，在细胞文库构建期间使用低感染复数(moi)产生表达grna的高质量细胞文库，以确保每个细胞平均含有少于1个sgrna或成对的向导rna(“pgrna”)。因为文库中的sgrna分子随机整合到转染的细胞中，所以足够低的moi确保每个细胞表达单个sgrna，从而最小化筛选的假阳性率(fdr)。为了进一步降低fdr并提高数据重现性，通常需要grna的深度覆盖和多次生物学重复以获得具有高统计学意义的命中基因。当需要大量全基因组筛选时，当用于文库构建的细胞材料有限时，或者当进行难以安排实验重复或控制moi的更具挑战性的筛选(即体内筛选)时，常规筛选方法面临困难。使用如本文所述的sgrna
ibar
文库的方法通过在每条sgrna中包含ibar序列克服了困难，这使得能够在具有相同向导序列但不同ibar序列的每条sgrna组内收集内部重复。例如，如实施例中所述，每个sgrna的具有四个核苷酸的ibar，可以提供足够的内部重复以评估靶向相同基因组基因座的不同sgrna
ibar
构建体之间的数据一致性。两个独立实验之间的高度一致性表明，使用ibar方法，一个实验重复对于crispr/cas筛选是足够的(图9c和表1)。如实施例中构建的全基因组人类文库所示，由于在宿主细胞的病毒转导期间文库覆盖率显著增加且moi较高，因此初始细胞群中的细胞数量可减少20倍以达到相同的文库覆盖率(表3)。出于同样的原因，使用sgrna
ibar
的每个全基因组筛选的工作量可以按比例减少。使用具有不同ibar序列的sgrna，然后可以通过计数向导序列和相应的内部标签(ibar)核苷酸序列在同一实验中多次追踪每个向导序列的性能，从而大大减少fdr，并提高效率和可靠性。在病毒转导步骤中使用高病毒滴度可以进一步提高转导效率和文库覆盖率，例如，moi>1(例如moi>1.5，moi>2，moi>2.5，moi>3，moi>3.5，moi>4，moi>4.5，moi>5，moi>5.5，moi>6，moi>6.5，moi>7，moi>7.5，moi>8，moi>8.5，moi>9，moi>9.5或moi>10；诸如moi约为1，moi约为1.5，moi
约为2，moi约为2.5，moi约为3，moi约为3.5，moi约为4moi约为4.5，moi约为5，moi约为5.5，moi约为6，moi约为6.5，moi约为7，moi约为7.5，moi约为8，moi约为8.5，moi约为9，moi约为9.5，moi约为10)。
[0147]
cas蛋白可以在体外或体内筛选中以(i)cas蛋白，或(ii)编码cas蛋白的mrna，或(iii)编码蛋白的线性或环状dna的形式引入细胞。cas蛋白或编码cas蛋白的构建体在组合物中可以为经纯化的或未经纯化的。将蛋白质或核酸构建体引入宿主细胞的方法是本领域公知的，并且适用于本文所述的所有需要将cas蛋白质或其构建体引入细胞的方法。在某些实施方案中，cas蛋白作为蛋白质递送到宿主细胞中。在某些实施方案中，cas蛋白由宿主细胞中的mrna或dna组成性表达。在某些实施方案中，来自mrna或dna的cas蛋白的表达在宿主细胞中是可诱导的或经诱导的。在某些实施方案中，可以使用本领域已知的重组技术将cas蛋白以cas蛋白：sgrna复合物的形式引入宿主细胞中。引入cas蛋白或其构建体的示例性方法已描述于例如wo2014144761、wo2014144592和wo2013176772中，其通过引用整体并入本文。
[0148]
在一些实施方案中，该方法使用crispr/cas9系统。cas9是来自微生物ii型crispr(成簇规律间隔短回文重复序列)系统的核酸酶，已显示当与单向导rna(sgrna)配对时剪切dna。sgrna将cas9引导至靶基因组基因中的互补区域，这可导致位点特异性双链断裂(dsb)，其可通过细胞非同源末端连接(nhej)机制以易于错误的方式修复。野生型cas9主要剪切grna序列后面是pam序列(
‑
ngg)基因组位点。nhej介导的cas9诱导的dsb的修复诱导在剪切位点处起始的多种突变，其通常是小的(<10bp)插入/缺失(插入缺失)，但可以包括更大(>100bp)的插入缺失。
[0149]
本文描述的方法可用于鉴别出编码基因、非编码rna和调节元件的功能。在一些实施方案中，将sgrna
ibar
文库引入表达cas9的细胞或与效应结构域融合的无催化活性的cas9(dcas9)。通过高通量筛选，本领域技术人员可以通过产生多种突变，大的基因组缺失，转录激活或转录抑制来进行多种基因筛选。如实施例中所示，ibar序列不影响sgrna在指导cas9或dcas9核酸酶修饰靶位点方面的效率。
[0150]
本文描述的筛选方法可以应用于体外基于细胞的筛选或体内筛选。在一些实施方案中，细胞是细胞培养物中的细胞。在一些实施方案中，细胞存在于组织或器官中。在一些实施方案中，细胞存在于生物体中，诸如秀丽隐杆线虫(c.elegans)、苍蝇或其他模式生物体中。
[0151]
可以用crispr/cas向导rna文库(例如crispr/cas向导rna文库慢病毒库)来转导初始细胞群。在一些实施方案中，将sgrna
ibar
病毒载体文库以高感染复数(moi)(例如至少约1、2、3、4、5、6中任一个moi)引入初始细胞群，在一些实施方案中，将sgrna
ibar
病毒载体文库以低moi引入初始细胞群，例如moi为不大于约0.9、0.8、0.7、0.6、0.5、0.4、0.3中的任一个或更低。在一些实施方案中，初始细胞群包含不超过107、5
×
106、2
×
106、106、5
×
105、2
×
105、105、5
×
104、2
×
104、104或者103个细胞中的任一个。在一些实施方案中，在sgrna
ibar
文库中的90％，91％，92％，93％，94％，95％，96％，97％，98％，99％，99.5％或更高百分比中的任一个的sgrna
ibar
构建体被引入初始细胞群。在一些实施方案中，筛选以超过50倍，100倍，200倍，500倍，1000倍，2000倍，5000倍，10000倍中任一个或更高倍数的覆盖率进行。
[0152]
在将sgrna
ibar
文库引入初始细胞群后，可将细胞温育合适的一段时间以使基因编
辑。例如细胞可以孵育至少12小时，24小时，2天，3天，4天，6天，7天，8天，9天，10天，11天，12天，13天，14天或更长时间。获得具有靶基因组基因座或目的基因的插入，敲除，敲入，激活或抑制的经修饰的细胞。在一些实施方案中，靶基因的转录被经修饰的细胞中的sgrna
ibar
构建体阻遏或抑制。在一些实施方案中，靶基因的转录被经修饰的细胞中的sgrna
ibar
构建体激活。在一些实施方案中，靶基因被经修饰的细胞中的sgrna
ibar
构建体敲除。可以使用由sgrna
ibar
载体编码的选择性标志物(例如荧光蛋白标记或药物抗性标志物)选择出经修饰的细胞。
[0153]
在一些实施方案中，该方法使用设计用于靶向基因中的剪接位点或连接处的sgrna
ibar
文库。靶向剪接的方法可用于筛选基因组中的多个(例如数千个)序列，从而阐明这些序列的功能。在一些实施方案中，靶向剪接的方法用于高通量筛选中以鉴别出存活、增殖、抗药性或其他目的的表型所需的基因组基因。在靶向剪接的实验中，靶向目标基因内数万个剪接位点的sgrna
ibar
文库可以例如通过作为库的慢病毒载体递送到靶细胞中。通过鉴别出在选择所需表型后在细胞中富集或消耗的sgrna
ibar
序列，可以系统地鉴别该表型所需的基因。
[0154]
在一些实施方案中，经修饰的细胞进一步经受刺激因子(例如激素，生长因子，炎性细胞因子，抗炎细胞因子，药物，毒素和转录因子)。在一些实施方案中，用药物处理经修饰的细胞以鉴别出增加或降低细胞对药物敏感性的基因组基因座。
[0155]
在一些实施方案中，从筛选中选择出具有经调节的表型的细胞。“调节”是指改变活动的状态，例如调控，下调，上调，减少，阻遏，增加，减少，失活或激活。可以使用已知技术分离出具有经调节的基因表达或细胞表型的细胞，例如通过荧光激活细胞分选(facs)或通过磁激活细胞分选。可以通过检测细胞内或细胞表面标志物来识别经调节的表型。在一些实施方案中，可以通过免疫荧光染色检测细胞内或细胞表面标志物。在一些实施方案中，内源靶基因可以用荧光报告分子标记，例如通过基因组编辑。其他适用的经调节的表型筛选包括：基于对刺激因子，细胞死亡，细胞生长，细胞增殖，细胞存活，药物抗性或药物敏感性的响应的变化来分离出独特的细胞群。
[0156]
在一些实施方案中，经调节的表型可以是至少一种靶基因的基因表达的变化或细胞或生物体表型的变化。在一些实施方案中，表型是蛋白质表达，rna表达，蛋白质活性或rna活性。在一些实施方案中，细胞表型可以是对刺激因子，细胞死亡，细胞生长，药物抗性，药物敏感性或其组合的细胞响应。刺激因子可以是物理信号，环境信号，激素，生长因子，炎性细胞因子，抗炎细胞因子，转录因子，药物或毒素，或其组合。
[0157]
在一些实施方案中，选择经修饰的细胞用于细胞增殖或存活。在一些实施方案中，经修饰的细胞在选择剂的存在下培养。选择剂可以是化学治疗剂，细胞毒剂，生长因子，转录因子或药物。在一些实施方案中，对照细胞在除无选择剂以外的相同条件下培养。在一些实施方案中，选择可以在体内进行，例如使用模式生物。在一些实施方案中，使细胞离体接触sgrna
ibar
文库用于基因编辑，并将基因编辑的细胞引入生物体(例如作为异种移植物)以选择出经调节的表型。
[0158]
在一些实施方案中，与对照细胞中一种或多种基因的表达水平相比，选择的经修饰的细胞具有一种或多种基因表达的改变。在一些实施方案中，与对照细胞相比，基因表达的变化是基因表达的增加或减少。基因表达的变化可以通过蛋白质表达，rna表达或蛋白质
活性的变化来确定。在一些实施方案中，基因表达的变化响应于刺激因子(诸如化学治疗剂，细胞毒性剂，生长因子，转录因子或药物)而发生。
[0159]
在一些实施方案中，对照细胞是不包含sgrna
ibar
构建体的细胞，或已经引入阴性对照sgrna
ibar
构建体的细胞，所述构建体包含不靶向细胞中任何基因组基因座的向导序列。在一些实施方案中，对照细胞是未暴露于刺激因子(诸如药物)的细胞。
[0160]
通过测定经选择的细胞群中的sgrna
ibar
序列来分析所选择的具有经调节的表型的细胞群。sgrna
ibar
序列可通过基因组dna的高通量测序，rt
‑
pcr，qrt
‑
pcr，rna
‑
seq或本领域已知的其他测序方法获得。在一些实施方案中，sgrna
ibar
序列通过基因组测序或rna测序获得。在一些实施方案中，sgrna
ibar
序列通过二代测序获得。
[0161]
可以使用本领域任何已知的方法分析测序数据并与基因组比对。在一些实施方案中向导rna的序列和相应的ibar序列的计数由统计分析确定。在一些实施方案中序列计数经历归一化方法(诸如中值比归一化)。
[0162]
统计方法可用于确定在所选细胞群中增强或消耗的sgrna
ibar
分子的身份。示例性的统计方法包括但不限于线性回归、广义线性回归和分层回归。在一些实施方案中，序列计数在中值比归一化后进行均值
‑
方差建模。在一些实施方案中，使用mageck(li，w等人，mageck enables robust identification of essential genes from genome
‑
scale crispr/cas9 knockout screens.genome biol 15,554(2014))对向导rna序列进行排序。
[0163]
在一些实施方案中，基于使所述sgrna
ibar
序列中与所述向导序列相对应的诸ibar序列之间的数据一致性来调整每个向导序列的方差。如本文所用的“数据一致性”是指对应于筛选实验中不同ibar序列的相同向导序列的测序结果(例如序列计数，归一化序列计数，排序或倍数变化)的一致性。理论上，来自筛选的真实命中应该具有与具有相同向导序列但不同ibar的sgrna
ibar
构建体相对应的相似归一化序列计数、排序和/或倍数变化。
[0164]
在一些实施方案中，将从经选择的细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。在一些实施方案中，基于每条ibar序列的倍数变化的方向，确定所述sgrna
ibar
序列中与所述向导序列相对应的诸ibar序列之间的数据一致性，其中如果ibar序列的倍数变化相对于彼此是处于相反方向的，则向导序列的方差增加。在一些实施例中，将健壮排序融合应用于序列计数以确定数据一致性。
[0165]
在一个sgrna
ibar
构建体组中，可以基于该组中不同ibar序列的预设阈值数m的富集方向的一致性来调整向导序列的排序，其中m是1和n之间的整数。例如，如果sgrna
ibar
组的至少m个ibar序列呈现相同的倍数变化方向，即全部大于或小于对照组的倍数变化，则排序(或方差)不变。然而，如果超过n
‑
m个不同的ibar序列显示出不一致的倍数变化方向，那么sgrna
ibar
组将通过降低其排序而受到降级(例如通过增加其方差)。健壮排序融合(rra)是本领域可以使用的统计和排序工具之一。本领域技术人员可以理解，进行统计和排序也可以使用其它可用工具。本发明利用rra计算每个基因的最终得分，以便基于每个基因的均值和方差获得基因的排序。通过这种方式，在不同方向上显示了相应ibar之间在不同方向上有倍数变化的sgrna可以通过增加的方差受到降级，这导致了某些基因的得分和排名降低。
[0166]
在一些实施方案中，该方法用于阳性筛选，即通过鉴别在所选细胞群中增加的向导序列。在一些实施方案中，该方法用于阴性筛选(即通过鉴别在经选择的细胞群中消耗的
向导序列)。在经选择的细胞群中，序列计数或倍数变化为增加的向导序列排序高，而在经选择地细胞群中，序列计数或倍数变化为消耗的向导序列排序低。
[0167]
在一些实施方案中，该方法还包括验证经鉴别的基因组基因座。例如，当鉴别基因组基因座时，可以重复使用相应的sgrna
ibar
构建体的实验，或者可以设计一个或多个sgrna(不含ibar序列和/或带有不同的向导序列)以靶向相同的目的基因。可以将单个sgrna
ibar
或sgrna构建体引入细胞中以验证在细胞中编辑相同目的基因的效果。
[0168]
进一步提供了分析来自本文描述的任一种筛选方法的测序结果的方法。示例性分析方法在实施例部分中描述，包括如mageck
ibar
算法。
[0169]
在一些实施方案中，提供了一种计算机系统，包含：输入单元，其接收来自用户的请求以鉴别经调节的细胞表型的基因组基因座；可操作地耦合到输入单元的一个或多个计算机处理器，其中一个或多个计算机处理器被单独地或共同地编程为：a)使用本文所述的任一种方法从基因筛选中接收一组测序数据；b)基于序列计数对sgrna
ibar
序列的相应向导序列进行排序，其中排序包括：基于所述sgrna
ibar
序列中对应于向导序列的诸ibar序列之间的数据一致性调整每个向导序列的排序；c)鉴别出对应于排序在预设阈值水平以上的向导序列的基因组基因座；d)以可读方式呈现数据和/或生成测序数据的分析。试剂盒和制品
[0170]
本技术还提供了用于使用本文所述的sgrna
ibar
文库的筛选方法的任一实施方案的试剂盒和制品。
[0171]
在一些实施方案中，提供了用于筛选调节细胞表型的基因组基因座的试剂盒，其包含本文所述的任一种sgrna
ibar
文库。在一些实施方案中，试剂盒还包含cas蛋白或编码cas蛋白的核酸。在一些实施方案中，试剂盒还包含一种或多种sgrna
ibar
构建体的阳性和/或阴性对照组。在一些实施方案中，试剂盒还包含数据分析软件。在一些实施方案中，试剂盒包含用于实施本文所述的任一种筛选方法的说明书。
[0172]
在一些实施方案中，提供了用于制备可用于基因筛选的sgrna
ibar
文库的试剂盒，其包含三个或更多个(例如四个)构建体，每个构建体包含不同的ibar序列和用于插入向导序列的克隆位点，以提供sgrna
ibar
构建体组。在一些实施方案中，构建体是载体，例如质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，试剂盒包含用于制备sgrna
ibar
文库和/或用于实施本文所述的任一种筛选方法的说明书。
[0173]
试剂盒可以含有其他组分，例如容器、试剂、培养基、引物、缓冲液、酶等，以便于实施本文所述的任一种筛选方法。在一些实施方案中，试剂盒包含用于将sgrna
ibar
文库和cas蛋白或编码cas蛋白的核酸导入细胞的试剂、缓冲液和载体。在一些实施方案中，试剂盒包含引物、试剂和酶(例如聚合酶)用于制备从所选细胞中提取的sgrna
ibar
序列的测序文库。
[0174]
本技术的试剂盒处于合适的包装中。合适的包装包括但不限于小瓶、瓶子、广口瓶、软包装(例如聚酯薄膜或塑料袋)等。所述试剂盒可以可选地提供额外的组件，例如缓冲剂和作为说明的信息。因此，本技术还提供了制品，其包括小瓶(例如密封小瓶)，瓶子，罐子，软包装等。
[0175]
本技术还提供了试剂盒或制品，其包含用于本文所述任一种筛选方法的任一sgrna
ibar
构建体，sgrna
ibar
分子，sgrna
ibar
组，细胞文库或其组合物。实施例
[0176]
以下实施例旨在作为本技术的示例，因此不应被视为以任何方式限制本发明。提供以下实施例和详细描述是为了说明而非限制。方法细胞和试剂
[0177]
将hela和hek293t细胞系维持在补充有1％青霉素/链霉素和10％胎牛血清(fbs，cellmax bl102
‑
02)的dulbecco改良eagle培养基(dmem，gibco c11995500bt)中，并在37℃下以5％co2培养。检查所有细胞中是否存在支原体污染。质粒构建
[0178]
通过使用来自plenti
‑
sgrna
‑
lib的bstbi(neb，r0519)和xhoi(neb，r0146)改变bsmbi(thermo scientific，er0451)位点的位置来构建出慢病毒sgrna
ibar
表达框架(addgene，#53121)。使用bsmbi介导的golden gate克隆策略将表达sgrna和sgrna
ibar
的序列克隆到框架中
28
。基因组规模crispr sgrna
ibar
文库的设计
[0179]
从ucsc hg38基因组检索基因注释，其包含19,210个基因。对于每个基因，使用我们新开发的deeprank算法设计了三种不同的sgrna，这些sgrna在基因组中的16
‑
bp种子区域具有至少一个错配，具有高水平的预测靶向效率。然后我们随机为每种sgrna分配了4个6
‑
bp的ibar(ibar6)。我们设计了额外的1,000个非靶向sgrna，每个都有4个ibar6，作为阴性对照。crispr sgrna
ibar
质粒文库的构建
[0180]
设计85
‑
nt dna寡核苷酸并进行阵列合成。靶向寡核苷酸侧翼序列的引物(oligo
‑
f和oligo
‑
r)用于pcr扩增。使用golden gate方法
28
将pcr产物克隆到上文构建的慢病毒载体中。将连接混合物转化到trans1
‑
t1感受态细胞(transgene，cd501
‑
03)中以获得文库质粒。计数转化的克隆以确保覆盖至少100倍sgrna
ibar
文库的规模。按照标准方案(qiagen12362)提取文库质粒，并将其与两种慢病毒包装质粒pvsvg和pr8.74(addgene，inc)转染到hek293t细胞中以获得文库病毒。使用相同的方案构建包含针对靶向antxr1的一种sgrna的所有4,096个ibar6的ibar文库。筛选含有所有4,096种ibar6的sgrna
ibar
‑
antxr1
文库
[0181]
将总共2
×
107个细胞接种在150
‑
mm培养皿上，并用moi为0.3的文库慢病毒感染。感染72小时后，将细胞重新接种并用1μg/ml嘌呤霉素(solarbio p8230)处理48小时。对于每个重复，收集5
×
106个细胞用于基因组提取。在文库感染的细胞培养15天后，使用pa/lfndta毒素
29,30
进行sgrna
ibar
‑
antxr1
文库的筛选7。然后，使用primer
‑
f和primer
‑
r扩增具有基因组dna中的ibar编码区的sgrna(transgen，ap131
‑
13)，然后使用nebnext ultra dna文库制备试剂盒(illumina(neb e7370l))进行高通量测序分析(illumina hiseq2500)。使用基因组规模的crispr/cas9 sgrna
ibar
文库筛选对tcdb细胞毒性重要的基因和对细胞活性必需的基因
[0182]
将总共1.6
×
108个细胞(moi＝0.3)，1.53
×
107个细胞(moi＝3)和4.6
×
106个细胞(moi＝10)分别铺在150
‑
mm培养皿上用于2个重复的sgrna文库构建。用不同moi的文库慢病毒感染细胞，并在感染后用1μg/ml嘌呤霉素处理72小时。将整合了sgrna
ibar
的细胞再培养15天以使基因敲除最大化。将细胞重新接种到150
‑
mm培养皿上，用tcdb(100μg/ml)处理10
小时，然后通过重复移液移除松散附着的圆形细胞
19
。对于每轮筛选，将细胞在不含tcdb的新鲜培养基中培养至达约50％
‑
60％汇合。混合一个重复中的所有抗性细胞并进行另一轮tcdb筛选。对于随后的三轮筛选，tcdb浓度分别为125pg/ml，150pg/ml和175pg/ml。在四轮处理后，收集抗性细胞和未处理的细胞用于基因组dna提取，sgrna的扩增和ngs分析。将7对引物用于pcr扩增(表1)，并将pcr产物混合用于ngs。对于moi为0.3的阴性筛选，在ngs解码之前培养总共4.6
×
107(两个重复)个整合了sgrna
ibar
的细胞28天。表1.用于基因组dna的pcr扩增和文库构建的引物
使用基因组规模crispr/cas9 sgrna
ibar
文库，筛选对6
‑
tg细胞毒性重要的基因
[0183]
将总共5
×
107个细胞接种在150
‑
mm培养皿上，并获得两次重复。用moi为3的文库慢病毒感染细胞，并在感染后72小时用1μg/ml嘌呤霉素处理。将整合了sgrna
ibar
的细胞再培养15天，以总数5
×
107重新接种，然后用200ng/ml 6
‑
tg(selleck)处理。对于以下两轮筛选，6
‑
tg浓度为250ng/ml和300ng/ml。对于每轮选择，将药物维持7天，并将细胞在不含6
‑
tg的新鲜培养基中培养另外3天。然后，将一个重复中的所有抗性细胞组合在一起并进行另一轮6
‑
tg筛选。在三轮处理后收集抗性细胞和未处理的细胞用于基因组dna提取，用ibar区域扩增sgrna并深度测序分析。阳性筛选数据分析
[0184]
mageck
ibar
是基于mageck算法
17
为使用sgrna
ibar
文库的筛选开发的分析策略。mageck
ibar
充分利用了python，pandas，numpy，scipy。分析算法包含三个主要部分：分析准备，统计测试和排序融合(rank aggregation)。在分析准备阶段，对输入的sgrna
ibar
原始计数进行归一化，然后对总体均值和方差的系数进行建模。在统计检验阶段，我们使用检验来确定处理组和对照组归一化读数之间差异的显著性。在排序融合阶段，我们融合了针对每个基因的所有sgrna
ibar
的排序，以获得最终的基因排序。归一化和准备
[0185]
我们首先从测序数据获得sgrna
ibar
的原始计数。由于测序深度和测序错误可能会影响sgrna
ibar
的原始计数，因此在进行以下分析之前需要进行归一化。估计大小因数(size factor)以使不同测序深度的原始计数归一化。然而，由于少数高度富集的sgrna可能对总读数计数具有强烈影响，因此不应在归一化中使用与总读数计数的比率。因此，我们选择中值比率归一化
31
。假设文库中有n个sgrna，i范围从1到n，总共m个实验(对照组和治疗组均如此)，j范围从1到m。大小因数s
j
可表示如下：
[0186]
因此，我们通过计算相应的大小因数获得每个实验中sgrna
ibar
的归一化计数。在均值
‑
方差建模步骤中，用nb分布估计生物学重复和不同处理中每条sgrna
ibar
的平均值和方差
32
：k
ij
～nb(μ
ij
，σ
ij2
)
[0187]
我们使用mageck采用的模型来计算均值和方差的系数
17
。均值
‑
方差模型满足以下关系：σ2＝μ kμ
b
[0188]
为了确定库中来自所有sgrna
ibar
的k和b系数，可以将该函数转换为线性函数：log2(σ2‑
μ)＝log2k blog2μ
[0189]
直接计算处理组和对照组计数的平均值，并且可以从平均值和系数计算相应的方差。对于crispr
‑
ibar分析，我们通过不同ibar的表现评估了sgrna的富集。我们为每条sgrna设计了四个ibar，作为内部重复。由于文库构建期间的高moi，一定有与真的阳性命中相关的假阳性sgrna“搭便车”。这里的“搭便车”用于描述靶向无关基因的sgrna误与功能性sgrna相关联而进入相同的细胞。我们基于每种sgrna的不同ibar的富集方向来修改sgrna
ibar
的方差。如果一个sgrna的所有ibar呈现相同的倍数变化方向，即全部大于或小于对照组的倍数变化，那么方差将保持不变。然而，如果一个具有不同ibar的sgrna显示出不一致的倍数变化方向，那么这种sgrna将通过增加其方差而受到降级。不一致的sgrna
ibar
的最终调整方差是模型估计的方差加上从ctrl和exp样本计算的实验方差。
[0190]
最后，通过处理组与对照组的平均和归一化方差相比，计算sgrna
ibar
的得分：其中t
i
是第i个sgrna的处理组计数的平均值，并且c
i
和v
i
是第i个sgrna的对照组计数的平均值和方差。因为方差被用作计算得分的分母，所以不一致的sgrna
ibar
的扩大方差导致较低的得分。统计测试和排序融合
[0191]
将正态分布用于测试处理组计数的score
i
。标准正态分布中得分的两侧分别提供了较大尾部和较小尾部p值。
[0192]
为了获得基因排序，我们使用rra(robust rank aggregation method)方法，这是用于融合排序的适当方法
33
。mageck采用通过限制富集的sgrna
17
来改良的rra方法。假设一个基因在m个sgrna
ibar
文库中总共有n个具有不同ibar的sgrna；每条sgrna
ibar
在r＝(r1，r2，...，r
n
)文库中都有一个排序。首先，应该通过文库中sgrna
ibar
的总数来归一化sgrna
ibar
的排序。我们获得了每个r
i
＝r
i
/m的归一化排序r＝(r，r2，...，r
n
)，其中1≤i≤n。然后，我们计算了归一化的排序sr，使得sr1≤sr2≤
…
≤sr
n
。经整理的归一化遵循在0和1之间均匀分布。概率β
k，n
(sr)(其中sr
i
≤r
i
)遵循β分布β(k，n 1
‑
k)，使得ρ＝min(β
1，n
，β
2，n
，...，β
n，n
)。对于每个基因，得分ρ可以通过rra获得并通过bonferroni校正进一步调整
33
。我们采用了mageck，其开发了α
‑
rra，从排序列表中选择了最前α％的sgrna。选择低于阈值(例如0.25)的sgrna的p值。在rra计算中仅考虑一个基因的最前sgrna，以此使ρ＝min(β
1，n
，β
2，n
，...，
β
j，n
)，其中1≤j≤n。阴性筛选数据分析
[0193]
在基于ibar策略的高moi的阳性筛选分析过程中，我们修改了相应标签中具有不同倍数变化方向的sgrna的模型估计方差。但对于阴性筛选，大多数非功能性sgrna将保持不变。因此，基于相应标签的倍数变化方向的方差修改算法变得不足以证明某些sgrna是否是假阳性结果。因此，我们直接将标签视为内部重复。在考虑ibar时，我们对阴性筛选进行了两次健壮排序融合，而不是对不一致的sgrna
ibar
进行方差调整。第一轮健壮排序融合将sgrna
ibar
水平融合为sgrna水平，第二轮将sgrna水平融合为基因水平。验证候选基因
[0194]
为了验证每个基因，我们选择文库中设计的两个sgrna，并将其克隆到具有嘌呤霉素选择标志物的慢病毒载体中。我们使用x
‑
tremegene hp dna转染试剂(roche)将两种sgrna质粒混合并用两种慢病毒包装质粒(pvsvg和pr8.74)共转染到hek293t细胞中。将稳定表达cas9的hela细胞用慢病毒感染3天，并用1μg/ml嘌呤霉素处理2天。然后，在每个孔中加入5,000个细胞，每组获得5个重复。24小时后，实验组用150ng/ml 6
‑
tg处理，对照组用正常培养基处理7天。然后，按照标准方案进行mtt(amresco)染色和检测。将用6
‑
tg处理的实验孔与未经6
‑
tg处理的孔归一化。结果
[0195]
我们任意设计了6
‑
nt长的ibar(ibar6)，其产生了4,096个标签组合，为我们的目的提供了足够的变体(图1a)。为了确定这些额外的ibar序列的插入是否影响grna活性，我们构建了靶向炭疽毒素受体基因antxr116的预设的sgrna文库，其与所有4,096种类型的ibar6组合。通过moi为0.3的慢病毒转导在不断表达cas9
7,8
的hela细胞中构建这种特殊的sgrna
ibar
‑
antxr1
文库。经过三轮pa /lfndta毒素处理和富集后，如先前报道的那样，通过ngs分析检测sgrna及其来自抗毒素细胞的ibar6序列7。大多数sgrna
ibar
‑
antxr1
和未加标签的sgrna
antxr1
显著富集，而几乎所有非靶向的对照sgrna在抗性细胞群中都不存在。重要的是，具有不同ibar6的sgrna
ibar
‑
antxr1
的富集水平似乎在两个生物学重复之间是随机的(图1b)。在计算ibar6的每个位置处的核苷酸频率后，我们未能观察到来自任一重复的核苷酸的任何偏差(图1c)。此外，ibar6中的gc含量似乎不影响sgrna剪切效率(图2)。然而，有少量ibar6的附属sgrna
antxr1
在筛选重复中表现不佳。为了排除这些ibar6对sgrna活性具有负面影响的可能性，我们从sgrna
ibar
‑
antxr1
排序靠后处选择了六种不同的ibar用于进一步研究。与未加标签的对照sgrna
antxr1
相比，所有这6个sgrna
ibar
‑
antxr1
在产生靶位点dna双链断裂(dsb)(图1d)并且导致毒素抗性表型的antxr1基因破坏方面显示出相当效率(图1e)。我们进一步通过四种分别靶向cspg4，mlh1和msh2的不同sgrna证实了ibar对sgrna效率的影响可忽略不计(图3)。总之，这些结果表明这种重新设计的sgrna
ibar
保留了足够的sgrna活性，使得通常可以在crispr混合筛选中应用该策略。
[0196]
基于ibar策略，我们随后开始扩展其应用以在高moi下实施新的sgrna
ibar
文库筛选。我们按照标准程序收集文库细胞，提取其基因组dna用于ibar编码区的sgrna pcr扩增，并进行ngs分析
7,11,12
。mageck算法可用于通过归一化它的原始计数来计算sgrna得分的统计学显著性，使用负二项式(nb)模型来估计其方差，并使用具有均匀分布的零模型确定其排序
17
。考虑到ibar，我们评估了同一实验重复中所有相关ibar中任何sgrna计数变化的一
致性。该过程有效地消除了细胞文库构建中由于高moi的慢病毒感染而与功能性sgrna相关的“搭便车者”。具体而言，对于ibar系统，我们故意仅针对那些多个ibar的倍数变化方向相反的sgrna调整模型估计的方差，导致这些异常值的p值增加。最后，我们根据sgrna得分和生物学重复之间的技术差异确定了命中基因(图4)。我们开发了这种基于mageck的特定算法，名为mageck
ibar
，用于分析sgrna
ibar
文库筛选，其是开源的，可免费下载。
[0197]
然后，我们构建了覆盖每个经注释的人类基因的sgrna
ibar
文库。对于19,210个人类基因中的每个基因，使用deeprank方法设计了三种独特的sgrna，为其中每种随机分配了四个ibar6。此外，纳入1,000个非靶向sgrna(每个具有4个ibar6)作为阴性对照。为了便于统计比较，将每3种独特的非靶向sgrna组人工命名为阴性对照基因。85
‑
nt sgrna
ibar
寡核苷酸在计算机上设计(图5)，使用阵列合成法合成，并作为混合文库克隆到慢病毒框架中。表达cas9的hela细胞用sgrna
ibar
文库慢病毒以三种不同的moi(0.3、3和10)转导，对sgrna进行400倍覆盖以产生细胞文库，其中每条sgrna
ibar
被覆盖100倍。为了评估ibar设计对不同moi下crispr筛选的影响，我们进行了阳性筛选，以鉴别出艰难梭菌毒素b(tcdb)细胞毒性的基因，这是该厌氧杆菌的关键毒力因子之一
18
。我们先前已经报道了tcdb功能性受体cspg4
19
的首次鉴别，其编码基因也被鉴别并在基因组规模的crispr文库筛选
20
中排序最前。在该报道的crispr筛选中，ugp2基因也是排序在靠前处的，并且鉴别并证实为fzd2编码介导tcdb对宿主细胞的杀伤作用的次级受体。值得注意的是，fzd2的作用与cspg4相比明显相形见绌，因此fzd2基因只能通过截短的tcdb进行鉴别，其中cspg4相互作用区域被删除
20
。在我们的tcdb筛选中，我们使用mageck
ibar
和mageck分别分析来自ibar和传统crispr筛选的数据。因此，我们从两者中获得了排序靠前的基因(fdr<0.15)。
[0198]
对于在0.3的低moi下筛选，cspg4和ugp2被鉴别并排序在前(图6a)，与先前的报道
20
一致。在考虑ibar时，除了cspg4和ugp2之外，我们还鉴别了fzd2(图6b)。因为fzd2是经证实的tcdb受体，其在hela细胞中比cspg4发挥更弱的作用
20
，这些结果表明，当以低moi构建细胞文库时，ibar方法提供优于传统crispr筛选的质量和灵敏度。此外，cspg4和ugp2的排序在两个实验重复之间的crispr
ibar
筛选中更加一致，再次表明新方法的质量高得多(图6a、6b)。在高moi(3和10)下，cspg4和ugp2可以从crispr和crispr
ibar
筛选中分离，但后者的数据质量显著更高(图6c
‑
6f)。通常，moi越高，传统方法的信噪比越差。在moi为10时，在常规方法中假阳性命中的数量急剧增加，但在crispr
ibar
筛选中没有(图6e、6f)。令人印象深刻的是，即使moi为10，cspg4和ugp2仍然在crispr
ibar
筛选中排序靠前，尽管数据质量略有下降(图6f)。值得注意的是，几乎所有靶向cspg4和ugp2的sgrna
ibar
在tcdb处理后都显著富集(图7)，与使用常规方法在moi为10时鉴别的其他基因明显不同，例如sppl3就可能是假阳性结果(图7)。比较两个生物学重复，cspg4和ugp2在具有所有moi条件的crispr
ibar
筛选的两个生物学重复中均排序靠前(图6b，6d，6f)，但排序较低的常规crispr筛选在moi为3时不是如此，其中ugp2在两个重复中排序均超过60(图6c)，并且在moi为10时，两个重复中均出现许多假阳性命中(图6e)。这些结果表明，即使在高moi下，ibar方法仍保持数据质量，与常规crispr筛选在较低moi下相当。另外，由于两个实验重复之间的高度一致性，一个生物学重复可能足以使用crispr
ibar
筛选鉴别命中基因(图6)。毕竟，可以在一个基于ibar方法的实验中进行多次重复。
[0199]
为了进一步评估ibar方法的功效，我们继续进行筛选以鉴别调节细胞对6
‑
tg
21
的
敏感基因，6
‑
tg是一种癌症药物，可经处理以抑制dna合成。我们决定以moi为3构建基因组规模的sgrna
ibar
文库，以产生每条sgrna具有高覆盖度(2,000倍)的细胞文库，其中每条sgrna
ibar
被覆盖500倍。(图8a)显示了两个实验重复的总读数分布，并且两个重复的参比细胞文库覆盖了所有最初设计的sgrna的97％(图8b)。原始文库中超过95％的sgrna保留了3至4个ibar，表明其中大多数sgrna具有足够的标签变体用于筛选和数据分析，文库的良好质量(图8c)。所有基因的倍数变化在两个生物学重复之间相关性良好(图9)。对于同一6
‑
tg筛选的两个sgrna文库重复，我们还使用mageck和mageck
ibar
分析。对于mageck
ibar
，我们最终获得了所有sgrna
ibar
的经调整的方差和平均分布，其中增加了在不同ibar中重复不一致的富集的sgrna的方差(图10)。
[0200]
从具有统计学显著性的阳性选择出的sgrna中，我们鉴别出排序最前的基因(fdr<0.15)，其相应的sgrna在不同的ibar中一致地富集(图11a)，并且我们还在没有考虑标签的情况下，使用mageck算法发现了这些靠前的基因(图11b)。与先前的报道
22
一致，靶向hprt1基因的sgrna在两种方法中排序靠前。先前报道了四种基因(mlh1，msh2，msh6和pms2)参与6
‑
tg介导的细胞死亡6。我们检查并确认了所有针对这四种基因设计的初始sgrna，除一种以外，均具有剪切活性(图12)，表明这些基因确实与我们使用的hela细胞中6
‑
tg介导的细胞死亡无关(图11c)。当分别分析两个生物学重复时，每个重复的前20个基因与crispr
ibar
筛选显示高水平的一致性(排序的spearman相关系数＝0.74)，而使用常规方法时两个重复的共同性较少(spearman相关排序系数＝
‑
0.09)(图11d和表2)。表2：使用mageck
ibar
和mageck分析的两个生物学重复的前20个基因列表。
注意：在两个重复的列表中排序在前20的基因以粗体标记。
[0201]
为了验证筛选结果，我们从头设计并组合两个sgrna以制备用于靶向每个候选基因的微
‑
混池，并且通过慢病毒感染将每个混池引入hela细胞中(表3)。表3用于6
‑
tg筛选的候选基因功能验证的sgrna设计以及用于测试ibar对活性的影响的sgrna设计
[0202]
通过3
‑
(4,5
‑
二甲基
‑2‑
噻唑基)
‑
2,5
‑
二苯基
‑
2h
‑
四唑溴化物(mtt)检测定量sgrna文库对针对6
‑
tg处理的细胞活力的影响。选择来自crispr
ibar
以及crispr筛选的前10个基因用于验证。值得注意的是，鉴别出两个非靶向的对照基因(non
‑
targeting control genes)，排在常规crispr筛选的候选者列表前10中。由于我们用于生成细胞文库的高moi，可以预见这些明显的假阳性结果。我们成功证实两个重复的crispr
ibar
前10候选基因均为真阳性结果；相反，来自常规方法候选者列表的前10中仅五个基因证明是真阳性(图11e)。其中，使用两种方法都获得了四种基因(hprt1，itgb1，srgap2和aktip)，而六种基因(actr3c，ppp1r17，acsbg1，calm2，tcf21和kifap3)仅被crispr
ibar
鉴定出来并且排序在前。总之，与传统方法相比，ibar提高了高moi筛选的准确性(假阳性和假阴性率很低)。
[0203]
我们进一步评估了靶向前四种候选基因(hprt1，itgb1，srgap2和aktip)的每种sgrna
ibar
的性能。富集的sgrna的所有不同ibar似乎对其所属sgrna的富集水平几乎没有影响，并且与任何特定sgrna相关的ibar的顺序似乎是随机的(图13)，进一步支持了我们之前关于ibar的认识，即其不影响其所属sgrna的效率。在两个重复中，在6
‑
tg处理后，所有四种靶向hprt1的sgrna
ibar
显著富集(图11f)。其他crispr
ibar
鉴定的基因的大多数sgrna
ibar
在6
‑
tg选择后富集(图14)。相比之下，只有极少数来自常规crispr筛选的一些靠前基因的sgrna
ibar
被富集，包括fgf13(图11g)、galr1和两个阴性对照基因(图15)，导致mageck而非mageck
ibar
分析中的假阳性命中(图16)。
[0204]
如我们设计的，每条sgrna的四个标签似乎提供了足够的内部重复以评估数据一致性。两个生物学重复之间的高度一致性表明，对于使用ibar方法的crispr筛选，一个实验重复是足够的(图6、图11d和表2)。由于在用于文库构建时，固定数量的细胞转导了高moi，文库覆盖率显著增加，我们将文库构建的起始细胞减少超过20倍(moi＝3)和70倍(moi＝10)以匹配甚至胜过使用两个生物学重复的moi为0.3的常规筛选的结果(表4)。表4.在不同moi下用于tcdb筛选的crispr文库构建所需的细胞数量比较
[0205]
由于多次剪切降低了细胞活力，因此以高moi构建的crispr文库对于阴性筛选而言可能具有异常的错误发现率
23,24
。因此，我们在moi为0.3时进行了基因组规模的阴性筛选，以在调用必需基因方面对ibar方法进行评估。对于使用ibar的阳性筛选，我们修改了标签中具有不同倍数变化方向的sgrna的模型估计方差，以扩大方差，从而使不相关的sgrna受到足够的降级。然而，对于阴性筛选，经由无关的sgrna消耗对其倍数变化方向的一致性几乎没有影响，因为非功能性sgrna保持不变。因此，我们仅将标签视为内部重复，而不带降级程序(penalty procedure)。我们使用金标准必需基因(gold
‑
standard essential genes)
25
，采用ibar方法在低moi下进行阴性筛选，跟传统的方法相比，确实获得了改进的统计学结果，获得了更高的真阳性率和更低的假阳性率(图17)。
[0206]
除了用于文库构建的细胞的显著减少之外，在相同实验中由ibar赋予的内部重复致使与分开的生物学重复试验(separate biological replicates)相比，条件更均一和比较更合理，统计学得分得到改善。当需要在多个细胞系中进行大规模crispr筛选时或者当用于筛选的细胞样品稀少时(例如来自患者或原代物的样品)，ibar方法的优势更突出。特别是对于难以预测慢病毒转导率且不同动物的可变条件可能极大地影响筛选结果的体内筛选，ibar方法可能是解决这些技术限制的理想解决方案。
[0207]
对于阴性筛选，ibar方法改善了在低moi下由病毒感染构成的文库的统计数据(图17)。尽管ibar方法的技术进步提供了与“内部重复(internal replication)”相同的益处，但我们必须在病毒转导期间对moi保持谨慎，以产生基于测量细胞活力的阴性筛选中的原始细胞文库。虽然据报道大规模整合不会影响细胞适应性
26
，但已显示由具有活性cas9的细胞中较高moi引起的多次dna剪切(cutting)会降低细胞活力
23,24
。不带剪切的策略(诸如crispri/a9或istop系统
27
)与ibar系统相结合可能是在高moi下进行阴性筛选的更好的选择。
[0208]
尽管我们有数据支持ibar6对sgrna的活性几乎没有影响，但我们不建议使用具有连续t(>4)的标签以避免任何轻微影响。最终，4,096种ibar6提供了足够的变体来制作crispr文库。此外，ibar的长度不限于6
‑
nt。我们测试了不同长度的ibar，发现它们的长度可达50
‑
nt而不影响其所属sgrna的功能(图18)。此外，没有必要为不同的sgrna设计不同的标签组。分配给所有sgrna一组固定的ibar应该与文库筛选中的随机分配一样有效。我们的ibar策略采用简化的分析工具mageck
ibar
，可以促进大规模crispr筛选以便在各种环境中进行广泛的生物医学发现。参考文献
1.jinek,m.et al.a programmable dual
‑
rna
‑
guided dna endonuclease in adaptive bacterial immunity.science 337,816
‑
821(2012).2.cong,l.et al.multiplex genome engineering using crispr/cas systems.science 339,819
‑
823(2013).3.mali,p.et al.rna
‑
guided human genome engineering via cas9.science 339,823
‑
826(2013).4.shalem,o.et al.genome
‑
scale crispr
‑
cas9 knockout screening in human cells.science343,84
‑
87(2014).5.wang,t.,wei,j.j.,sabatini,d.m.&lander,e.s.genetic screens in human cells using the crispr
‑
cas9 system.science 343,80
‑
84(2014).6.koike
‑
yusa,h.,li,y.,tan,e.p.,velasco
‑
herrera mdel,c.&yusa,k.genome
‑
widerecessive genetic screening in mammalian cells with a lentiviral crispr
‑
guide rna library.nat biotechnol 32,267
‑
273(2014).7.zhou,y.et al.high
‑
throughput screening of a crispr/cas9 library for functional genomics in human cells.nature 509,487
‑
491(2014).8.zhu,s.et al.genome
‑
scale deletion screening of human long non
‑
coding rnas using a paired
‑
guide rna crispr
‑
cas9 library.nat biotechnol 34,1279
‑
1286(2016).9.gilbert,l.a.et al.genome
‑
scale crispr
‑
mediated control of gene repression and activation.cell 159,647
‑
661(2014).10.konermann,s.et al.genome
‑
scale transcriptional activation by an engineered crispr
‑
cas9 complex.nature 517,583
‑
588(2015).11.peng,j.,zhou,y.,zhu,s.&wei,w.high
‑
throughput screens in mammalian cells using the crispr
‑
cas9 system.febs j 282,2089
‑
2096(2015).12.zhu,s.,zhou,y.&wei,w.genome
‑
wide crispr/cas9 screening for high
‑
throughput functional genomics in human cells.methods mol biol 1656,175
‑
181(2017).13.michlits,g.et al.crispr
‑
umi:single
‑
cell lineage tracing of pooled crispr
‑
cas9 screens.nat methods 14,1191
‑
1197(2017).14.schmierer,b.et al.crispr/cas9 screening using unique molecular identifiers.molecular systems biology 13,945(2017).15.shechner,d.m.,hacisuleyman,e.,younger,s.t.&rinn,j.l.multiplexable,locus
‑
specific targeting of long rnas with crispr
‑
display.nat methods 12,664
‑
670(2015).16.bradley,k.a.,mogridge,j.,mourez,m.,collier,r.j.&young,j.a.identification of the cellular receptor for anthrax toxin.nature 414,225
‑
229(2001).17.li,w.et al.mageck enables robust identification of essential genes from genome
‑
scale crispr/cas9 knockout screens.genome biol 15,554(2014).
18.lyras,d.et al.toxin b is essential for virulence of clostridium difficile.nature 458,1176
‑
1179(2009).19.yuan,p.et al.chondroitin sulfate proteoglycan 4 functions as the cellular receptor for clostridium difficile toxin b.cell res 25,157
‑
168(2015).20.tao,l.et al.frizzled proteins are colonic epithelial receptors for c.difficile toxin b.nature 538,350
‑
355(2016).21.tan,y.y.,epstein,l.b.&armstrong,r.d.in vitro evaluation of 6
‑
thioguanine and alpha
‑
interferon as a therapeutic combination in hl
‑
60 and natural killer cells.cancer res 49,4431
‑
4434(1989).22.duan,j.,nilsson,l.&lambert,b.structural and functional analysis of mutations at the human hypoxanthine phosphoribosyl transferase(hprt1)locus.human mutation 23,599
‑
611(2004).23.jackson,s.p.sensing and repairing dna double
‑
strand breaks.carcinogenesis 23,687
‑
696(2002).24.meyers,r.m.et al.computational correction of copy number effect improves specificity of crispr
‑
cas9 essentiality screens in cancer cells.nat genet 49,1779
‑
1784(2017).25.hart,t.,brown,k.r.,sircoulomb,f.,rottapel,r.&moffat,j.measuring error rates in genomic perturbation screens:gold standards for human functional genomics.molecular systems biology 10,733(2014).26.zhou,y.et al.painting a specific chromosome with crispr/cas9 for live
‑
cell imaging.cell res 27,298
‑
301(2017).27.billon,p.et al.crispr
‑
mediated base editing enables efficient disruption of eukaryotic genes through induction of stop codons.mol cell 67,1068
‑
1079 e1064(2017).28.engler,c.,gruetzner,r.,kandzia,r.&marillonnet,s.golden gate shuffling:a one
‑
pot dna shuffling method based on type iis restriction enzymes.plos one 4,e5553(2009).29.wei,w.,lu,q.,chaudry,g.j.,leppla,s.h.&cohen,s.n.the ldl receptor
‑
related protein lrp6 mediates internalization and lethality of anthrax toxin.cell 124,1141
‑
1154(2006).30.qian,l.et al.bidirectional effect of wnt signaling antagonist dkk1 on the modulation of anthrax toxin uptake.science china.life sciences 57,469
‑
481(2014).31.anders,s.&huber,w.differential expression analysis for sequence count data.genome biol 11,r106(2010).32.robinson,m.d.&smyth,g.k.small
‑
sample estimation of negative binomial dispersion,with applications to sage data.biostatistics 9,321
‑
332
(2008).33.kolde,r.,laur,s.,adler,p.&vilo,j.robust rank aggregation for gene list integration and meta
‑
analysis.bioinformatics 28,573
‑
580(2012).

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于双官能化有机小分子为母体的铝离子检测荧光探针及其制备方法与应用与流程

使用加标签的向导RNA构建体进行高效基因筛选的组合物和方法与流程

相关文献

最热文献