一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于高通量测序和探针富集的鉴定转基因事件的方法与流程

2022-02-21 04:33:55 来源:中国专利 TAG:


1.本技术涉及生物信息学技术领域,尤其涉及一种基于高通量测序和探针富集的快速鉴定转基因事件的方法。


背景技术:

2.转基因食品(geneticallymodifiedfood)是指利用基因工程或遗传工程手段,将外源基因转入受体生物中(如动物、植物或者微生物中),改变其遗传特性,获得原物种所不具备的性状、营养价值或品质特征。
3.近年来,转基因植物的数量、多样性及市场上的转基因作物大幅度增加。为了保护公众的选择权和知情权,逐步建立并加强了对转基因产品的标识管理以对转基因食品与饲料进行管制和跟踪。为此,转基因开发人员必须对每一种获得授权的新型转基因生物进行分子表征鉴定。这种传统的分子特征鉴定方法主要利用southern杂交分析外源基因在受体生物中插入的数目,利用染色体步移技术确定外源基因或者插入载体和受体基因组的连接处的序列,利用原位杂交技术确定外源基因或者载体整合在受体生物上的染色体位置。但这些方法流程繁琐、相对耗时,而且需要为每个新的植物品种精心设计、定制实验。
4.随着二代测序技术的快速发展,开始利用全基因组测序来检测转基因事件。但该方法需要对整个受体基因组进行测序,并测序到一定的深度,才能扫描到外源基因在受体基因组的插入位置,特别是对大的受体基因组如玉米、小麦等,需要较大的测序数据量,测序成本也随之显著提高。若全基因组测序数据量小时,会出现靶外源基因或载体在目标生物体插入位置无测序序列覆盖,造成漏检事件,增加了假阴性率。


技术实现要素:

5.本技术提供了一种基于高通量测序和探针富集的快速鉴定转基因事件的方法,以解决现有技术检测转基因事件所存在的问题。
6.第一方面,本技术提供了一种基于高通量测序和探针富集的鉴定转基因事件的方法,所述方法包括以下步骤:
7.得到目标生物体的靶外源基因序列,
8.得到对所述靶外源基因序列的捕获探针;
9.得到所述目标生物体的若干待标识的dna片段和参考基因组序列;
10.对待标识的所述dna片段连接接头序列,得到含接头的所述dna片段;
11.用所述捕获探针对所述含接头的dna片段中的靶外源基因进行捕获与文库构建,得到富集文库;
12.对所述富集文库进行高通量测序,得到高通量测序数据;
13.用所述高通量测序数据中的dna序列分别与所述参考基因组序列和所述靶外源基因进行比对,确定所述靶外源基因插入所述目标生物体基因组上的位置,以鉴定转基因事件。
14.可选的,所述高通量测序包括单末端测序或双末端测序。
15.可选的,所述用所述高通量测序数据中的dna序列分别与所述参考基因组序列和所述靶外源基因进行比对,确定所述靶外源基因插入所述目标生物体基因组上的位置包括:
16.若进行所述双末端测序,判定所述高通量测序数据中的双端读序是否包括重叠片段;
17.若是,将含有重叠片段的所述高通量测序数据中的双端读序进行拼接,得到拼接序列;
18.用所述拼接序列分别与所述参考基因组序列和所述靶外源基因序列进行至少一次比对,
19.其中,进行第一比对时,若所述拼接序列的一端与所述靶外源基因序列至少有n1个碱基序列相匹配,得到初步匹配拼接序列;若所述初步匹配拼接序列与所述参考基因组序列至少有n1个碱基序列相匹配,得到第一有效序列;
20.若否,将所述高通量测序数据中的双端读序分别与所述靶外源基因序列和所述参考基因组序列进行至少一次比对;
21.若将所述高通量测序数据中的双端读序的一端与所述靶外源基因序列至少有n3个碱基序列相匹配,另一端与所述参考基因组序列至少有n3个碱基序列相匹配,得到第二有效序列;
22.对所述第一有效序列和所述第二有效序列进行筛选,得到第一目标有效序列,
23.判断所述第一目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且若覆盖所述交界位点的序列数目≥n4,将所述交界位点沿上下游各延伸n5bp,得到靶外源基因在参考基因组中的插入位置和插入方向,其中,n1、n3、n4和n5为正整数,且n1≥30,n3≥30,n4≥5,n5≥20。
24.可选的,所述用所述拼接序列分别与所述参考基因组序列和所述靶外源基因序列进行至少一次比对,还包括:
25.进行第二比对时,将所述第一有效序列分别与所述靶外源基因序列和所述参考基因组序列进行比对,判断所述第一有效序列与所述靶外源基因序列有n2个碱基以上的序列相匹配,并与所述参考基因组序列有n2个碱基以上的序列相匹配,得到第三有效序列,其中,n2为正整数,且n2≥30。
26.可选的,所述对所述第一有效序列和所述第二有效序列进行筛选,得到第一目标有效序列包括:
27.对所述第一有效序列进行筛选,
28.若所述第一有效序列与所述靶外源基因序列和所述参考基因组序列相匹配的碱基数目均大于n8bp,
29.若所述第一有效序列与所述靶外源基因序列和所述参考基因组序列的错配的碱基数目均小于n9bp,
30.若所述第一有效序列的测序读长为130-150bp时,所述第一目标有效序列分别与所述靶外源基因序列和所述参考基因组序列的相匹配的碱基数目之和大于80bp;
31.若所述第一有效序列同时与所述靶外源基因序列和所述参考基因组序列相匹配
的碱基数目小于10bp,
32.若所述第一有效序列与所述靶外源基因序列和所述参考基因组序列均不相匹配的碱基数目小于n10bp,得到第一目标有效序列;
33.对所述第二有效序列进行筛选,
34.若所述第二有效序列与所述靶外源基因序列和所述参考基因组序列相匹配的碱基数目均大于n8bp,
35.若所述第二有效序列与所述靶外源基因序列和所述参考基因组序列的错配的碱基数目均小于n9bp,
36.若所述第二有效序列的测序读长为130-150bp时,所述第一有效序列与所述靶外源基因序列和所述参考基因组序列的相匹配的碱基数目之和大于80bp;
37.若所述第二有效序列同时与所述靶外源基因序列和所述参考基因组序列相匹配的碱基数目小于10bp,
38.若所述第二有效序列与所述靶外源基因序列和所述参考基因组序列均不相匹配的碱基数目小于n10bp,得到第一目标有效序列;
39.其中,n8、n9和n10为正整数,且n8≥30,n9≤10,n10≤20。
40.可选的,所述用所述高通量测序数据中的dna序列分别与所述参考基因组序列和所述靶外源基因进行比对,确定所述靶外源基因插入所述目标生物体基因组上的位置还包括:
41.若进行所述单末端测序,将所述高通量测序数据中的dna序列分别与所述靶外源基因序列和所述参考基因组序列进行第三比对;
42.若所述dna序列一端与所述靶外源基因序列至少有n7个碱基序列相匹配,得到初步匹配读序序列;
43.将所述初步匹配读序序列与所述参考基因组序列进行比对,若所述初步匹配读序序列与所述参考基因组序列至少有n6个碱基相匹配,得到第四有效序列;
44.第四有效序列进行筛选,得到第二目标有效序列,
45.判断所述第二目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且覆盖所述交界位点的序列数目≥n4,将所述交界位点沿上下游各延伸n5bp,得到靶外源基因在参考基因组中的插入位置和插入方向,其中,n6和n7为正整数,且n6≥30,n7≥30。
46.可选的,所述用所述参考基因组序列和所述靶外源基因序列对所述高通量测序数据中的基因片段进行比对之前,还包括:去除杂质序列。
47.可选的,所述去除杂质序列包括:
48.去除所述高通量测序数据中序列的测序接头;
49.去除不符合预设标准的序列;所述不符合预设标准的序列包括:
50.单端序列3’端含有预设质量碱基数目超过自身序列1/3的序列,所述预设质量碱基为质量值≤20的碱基;
51.去除序列长度小于80bp的序列。
52.可选的,所述捕获探针中的鸟嘌呤和胞嘧啶之和所占的摩尔比率为30%-80%;所述捕获探针与非靶标序列具有长度<40bp的相同序列段,且所述捕获探针与非靶标序列的
序列同源性小于85%。
53.第二方面,本技术提供了一种基于高通量测序和探针富集的鉴定转基因事件的应用,将权利要求1-9中任意一项所述的方法用于植物、动物和微生物的任意一种。
54.本技术实施例提供的上述技术方案与现有技术相比具有如下优点:
55.本技术实施例提供的该方法,对所述打断的dna片段末端修复后连接接头序列,给每个待鉴定的样品加上样品条形码,多个样品可以混合进行探针捕获与高通量测序;根据所述靶外源基因序列设计并得到捕获探针;用所述捕获探针连有接头序列的dna片段进行捕获和富集,得到富集文库;对所述富集文库进行高通量测序,得到高通量测序数据;将所述高通量测序数据与所述靶外源基因序列和所述参考基因序列进行比对,确定所述靶外源基因插入所述目标生物体的基因组上的位置;与全基因组测序鉴定转基因事件相比,本技术的方法只需富集转入的外源基因(载体)及其毗邻的侧翼序列,无需全基因组测序,大大节省了成本,而且可用于转入外源基因或者载体不清楚的转基因材料,与传统的普通pcr方法(如染色体步移方法)相比,具有快速、可重复性高、结果稳定的优势,该方法结合生物信息学分析手段,在靶外源基因、载体已知或者未知的条件下,鉴定出靶外源基因或载体在目标生物体基因组上的插入位置、拷贝数、方向及侧翼序列。
附图说明
56.此处的附图被并入说明书中并构成本说明书的一部分,说明了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
57.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
58.图1为本技术实施例提供的一种基于高通量测序和探针富集的鉴定转基因事件的方法的流程示意图;
59.图2为本技术利用靶向测序的技术来鉴定植物转基因事件的方法的原理示意图;
60.图3为本技术利用靶向测序的技术来鉴定植物转基因事件的方法的分析流程图;
61.图4为实施例1外源基因插入片段(载体)的示意图;
62.图5为实施例1mon810转化体中转基因事件分析中找到的能比对到p35s启动子和玉米基因组序列的上比对结果;
63.图6为实施例1外源基因插入片段(载体)插入到玉米基因组中的结构示意图;
64.图7为实施例2外源基因插入片段的示意图;
65.图8为本发明利用靶向测序的技术来鉴定衣藻插入基因侧翼序列的方法的实验分析流程图;
66.图9为实施例3中一条有效读序与外源插入片段及插入基因组的比对信息;
67.图10为实施例3衣藻中一个插入突变体的插入衣藻基因组的具体情况示意图(精准插入);
68.图11为实施例4中一条有效读序与外源插入片段及插入基因组的比对信息;
69.图12为实施例4衣藻一个插入突变体的插入衣藻基因组的具体情况示意图(非精准插入)。
具体实施方式
70.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
71.第一方面,本技术提供了一种基于高通量测序和探针富集的鉴定转基因事件的方法,如图1所示,所述方法包括以下步骤:
72.s1.得到目标生物体的靶外源基因序列;
73.本技术实施例中,若插入的靶外源基因(载体)的序列已知,本发明方法可以快速地鉴定出外源基因在受体物种的插入位置、拷贝数目、方向及侧翼序列信息。若插入的靶外源基因(载体)未知,本发明根据自己收集的常用外源插入外源基因(载体序列信息)也可能有效的鉴定出外源基因在受体物种的插入位置、拷贝数目、方向及侧翼序列信息。本技术同时检测多个相同或不同的靶外源基因插入的位置、拷贝数目、方向及侧翼序列信息。
74.本技术实施例中,靶外源基因目标生物体的参考基因组可以由提供目标生物的单位提供,也可以是收集的常用的或现有文献已公布的靶外源基因、目标生物体的参考基因组,目标生物体的参考基因组。
75.s2.得到对所述靶外源基因序列的捕获探针;
76.本技术实施例中,得到用以对所述靶外源基因序列的捕获探针,所述捕获探针如果在50-80bp,对目标区域进行高密度覆盖(即探针之间有overlap),有overlap可以避免探针序列短捕获效果稍弱的问题;所述捕获探针如果在100-120bp,即使没有overlap亦具有良好的捕获效果;所述捕获探针在设计时需要避开ssr、n区域;常规的来说,所述捕获探针之间不能存在40bp以上完全相同。
77.本技术实施例中,所述捕获探针的制备方法包括:用所述靶外源基因序列设计,得到捕获探针。
78.s3.得到所述目标生物体的参考基因组序列和若干待标识的dna片段;
79.s4.对待标识的所述dna片段连接接头序列,得到含接头的所述dna片段;
80.s5.用所述捕获探针对所述含接头的dna片段中的靶外源基因进行捕获与文库构建,得到富集文库;
81.s6.对所述富集文库进行高通量测序,得到高通量测序数据;
82.本技术实施例中,根据测序文库构建前,每个dna分子原始模板上加的分子特异的条形码,利用程序计算出内参基因的原始dna模板分子,分子数目小于100;所述参考基因组进行比对高通量测序数据,实际的原始dna模板分子数目小于一个特定值时,样品要进行重新实验;这个特定值可以为100或105等,或者至少大于等于100。实际的内参基因的dna原始模板分子大于一个特定值时,判定得到目标生物体基因的富集文库。
83.内参基因的选择要符合以下条件:(1)内参基因在植物中较保守;(2)选出的保守基因探针设计的位点不要太多,可以是2-3个位点,选出的内参基因要在多种植物中进行验证,保证其在植物的通用性。
84.s7.用所述高通量测序数据中的dna序列分别与所述参考基因组序列和所述靶外源基因进行比对,确定所述靶外源基因插入所述目标生物体基因组上的位置,以鉴定转基
因事件。
85.本技术实施例中,得到目标生物体的靶外源基因序列可以在得到所述目标生物体的若干待标识的dna片段和参考基因组序列之后进行。
86.作为一种可选的实施方式,所述高通量测序包括单末端测序或双末端测序。
87.目前3种高通量测序技术,roche454,solexa和abisolid,均有单端测序和双端测序两种方式。在基因组denovo测序过程中,roche454的单端测序读长可以达到400bp,经常用于基因组骨架的组装,而solexa和abisolid双端测序可以用于组装scaffolds和填补gap。下面以solexa为例,对单端测序(single-read)和双端测序(paired-end和mate-pair)进行介绍。single-read、paired-end和mate-pair主要区别在测序文库的构建方法上。
88.本技术实施例中,对所述的高通量测序文库进行高通量测序,得到单末端(200-300bp)或者双末端的测序数据(单端读长150bp)。
89.作为一种可选的实施方式,所述用所述高通量测序数据中的dna序列分别与所述参考基因组序列和所述靶外源基因进行比对,确定所述靶外源基因插入所述目标生物体基因组上的位置,如图2和图3所示,包括:
90.若进行所述双末端测序,判定所述高通量测序数据中的双端读序是否包括重叠片段;
91.若是,将含有重叠片段的所述高通量测序数据中的双端读序进行拼接,得到拼接序列;
92.用所述拼接序列分别与所述参考基因组序列和所述靶外源基因序列进行至少一次比对,其中,进行第一比对时,若所述拼接序列的一端与所述靶外源基因序列至少有n1个碱基序列相匹配,得到初步匹配拼接序列;若所述初步匹配拼接序列与所述参考基因组序列至少有n1个碱基序列相匹配,得到第一有效序列;
93.若否,将所述高通量测序数据中的双端读序分别与所述靶外源基因序列和所述参考基因组序列进行至少一次比对,
94.若将所述高通量测序数据中的双端读序的一端与所述靶外源基因序列至少有n3个碱基序列相匹配,另一端与所述参考基因组序列至少有n3个碱基序列相匹配,得到第二有效序列;
95.对所述第一有效序列和所述第二有效序列进行筛选,得到第一目标有效序列,
96.判断所述第一目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且若覆盖所述交界位点的序列数目≥n4,将所述交界位点沿上下游各延伸n5bp,得到靶外源基因在参考基因组中的插入位置和插入方向,其中,n1、n3、n4和n5为正整数,且n1≥30,n3≥30,n4≥5,n5≥20。
97.作为一种可选的实施方式,所述用所述拼接序列分别与所述参考基因组序列和所述靶外源基因序列进行至少一次比对,还包括:
98.进行第二比对时,将所述第一有效序列分别与所述靶外源基因序列和所述参考基因组序列进行比对,判断所述第一有效序列与所述靶外源基因序列有n2个碱基以上的序列相匹配,并与所述参考基因组序列有n2个碱基以上的序列相匹配,得到第三有效序列,其中,n2为正整数,且n2≥30。
99.作为一种可选的实施方式,所述对所述第一有效序列和所述第二有效序列进行筛
选,得到第一目标有效序列包括:
100.对所述第一有效序列进行筛选,
101.若所述第一有效序列与所述靶外源基因序列和所述参考基因组序列相匹配的碱基数目均大于n8bp,
102.若所述第一有效序列与所述靶外源基因序列和所述参考基因组序列的错配的碱基数目均小于n9bp,
103.若所述第一有效序列的测序读长为130-150bp时,所述第一目标有效序列分别与所述靶外源基因序列和所述参考基因组序列的相匹配的碱基数目之和大于80bp;
104.若所述第一有效序列同时与所述靶外源基因序列和所述参考基因组序列相匹配的碱基数目小于10bp,
105.若所述第一有效序列与所述靶外源基因序列和所述参考基因组序列均不相匹配的碱基数目小于n10bp,得到第一目标有效序列;
106.对所述第二有效序列进行筛选,
107.若所述第二有效序列与所述靶外源基因序列和所述参考基因组序列相匹配的碱基数目均大于n8bp,
108.若所述第二有效序列与所述靶外源基因序列和所述参考基因组序列的错配的碱基数目均小于n9bp,
109.若所述第二有效序列的测序读长为130-150bp时,所述第一有效序列与所述靶外源基因序列和所述参考基因组序列的相匹配的碱基数目之和大于80bp;
110.若所述第二有效序列同时与所述靶外源基因序列和所述参考基因组序列相匹配的碱基数目小于10bp,
111.若所述第二有效序列与所述靶外源基因序列和所述参考基因组序列均不相匹配的碱基数目小于n10bp,得到第一目标有效序列;
112.其中,n8、n9和n10为正整数,且n8≥30,n9≤10,n10≤20。
113.作为一种可选的实施方式,所述用所述高通量测序数据中的dna序列分别与所述参考基因组序列和所述靶外源基因进行比对,确定所述靶外源基因插入所述目标生物体基因组上的位置还包括:
114.若进行所述单末端测序,将所述高通量测序数据中的dna序列分别与所述靶外源基因序列和所述参考基因组序列进行第三比对;
115.若所述dna序列一端与所述靶外源基因序列至少有n7个碱基序列相匹配,得到初步匹配读序序列;
116.将所述初步匹配读序序列与所述参考基因组序列进行比对,若所述初步匹配读序序列与所述参考基因组序列至少有n6个碱基相匹配,得到第四有效序列;
117.对所述第四有效序列进行筛选,得到第二目标有效序列;
118.判断所述第二目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且覆盖所述交界位点的序列数目≥n4,将所述交界位点沿上下游各延伸n5bp,得到靶外源基因在参考基因组中的插入位置和插入方向,其中,n6和n7为正整数,且n6≥30,n7≥30。
119.作为一种可选的实施方式,用所述参考基因组序列和所述靶外源基因序列对所述
高通量测序数据进行比对之前,还包括:去除杂质序列。
120.作为一种可选的实施方式,所述去除杂质序列包括:
121.去除所述高通量测序数据中的测序接头;
122.去除不符合预设标准的序列;所述不符合预设标准的序列包括:
123.单端序列3’端含有预设质量碱基数目超过自身序列1/3的序列,所述预设质量碱基为质量值≤20的碱基;
124.去除序列长度小于80bp的序列。
125.作为一种可选的实施方式,所述捕获探针中的鸟嘌呤和胞嘧啶之和所占的摩尔比率为30%-80%;所述捕获探针与非靶标序列具有长度<40bp的相同序列段,且所述捕获探针与非靶标序列的序列同源性小于85%;捕获探针之间最好无二聚体、发夹结构,退火温度接近。
126.第二方面,本技术提供了一种基于高通量测序和探针富集的鉴定转基因事件的应用,将第一方面所述的方法用于转基因植物、转基因动物和转基因微生物的任意一种。
127.本技术方法的主要优点有:每个样品提前加上了样品特异的条形码,一次可完成数百至上千个外源基因插入突变体的检测;成本低:相对于全基因组测序检测外源基因的插入位点,本技术采用探针捕获靶标序列的方法,可使靶标序列测序到较高的深度,成本明显降低;即使与传统的tail-pcr或genomewalking相比,成本也几乎相当;结果稳定,可重复性且更容易解释;可以通过比较转基因材料和野生材料的表型差异来确定发生插入突变的基因的功能;具有通量高的效果,一次可以检测多个转基因事件,测序结果借助于生物信息学方法,可以一次即获得外源基因在因组上的插入位置、拷贝数、方向及插入位置的侧翼序列信息。
128.以下实施例用于说明本发明,但不用来限制本发明的范围。
129.未特别指明,实施例均按照常规实验条件,如一些常规的分子实验可以参考sambrook等分子克隆实验手册sambrookj&russelldw,molecularcloning:alaboratorymanual,2001,或按照制造厂商说明书进行。
130.实施例1
131.实验材料:mon810转基因玉米购自于欧盟标准品irmm公司(irmm,geel,belgium)。该转基因样品转入的外源片段如图4所示,含有外源基因烟草花叶病毒启动子(p35s),玉米热激蛋白hsp70的内含子序列和具有抗虫特性的cry1ab基因,该转基因标准品作为我们的研究材料。
132.dna的提取与破碎:植物基因组的提取采用的是天根生化科技(北京)有限公司的高效植物基因组dna提取试剂盒(dp350)。用来提取dna的植物材料可以为种子,也可以为新鲜的植物材料如根、茎、片或种子等器官,也可以为这些器官的混合,或者种子刚萌发的幼苗。本实验用的是欧洲irmm公司制成的mon810粉末,转基因含量为10%。利用天根dna提取试剂盒提取dna后,取出0.5ug-1ug用于超声波破碎仪(covaris,woburn,ma,usa),最后把基因组dna破碎成200-500bp的片段。
133.捕获外源片段探针的设计,涉及符合条件的探针在金斯瑞生物公司合成。本实例中主要针对图4中的外源插入元件进行探针捕获,主要为了鉴定外源基因在受体作物中插入的位置,对p35s启动子(seq id no:1)和cry1ab(seq id no:2)基因进行了全覆盖的形式
进行设计,对位于中间位置的玉米hsp70内含子(seq id no:1)设计到了目的基因的两端,共设计了26条探针,探针序列见表1。收到探针为干粉状态,需要加100μl探针稀释液将探针稀释至2pm,将所有的探针等量混合成探针mix,进行样本检测时探针使用量为2μl/样。
134.表1实例1所用到的探针序列。
135.136.137.[0138][0139]
1.探针捕获文库构建与测序:利用每个样本的基因组dna构建与illumina兼容的ngs文库。简而言之,利用covariss220破碎后的dna片段,经末端修复和加a尾后,使用过量的含有dna分子特异的条形码及样品特异的条形码(index)与其连接。3’端接头序列与5'通用接头序列相比,3'接头序列还包含额外的8bp的dna分子特异的条形码(umi)。然后根据方案使用genobaitsdna文库制备试剂盒(dl002,molbreedingbiotechnologyco.,ltd,china)构建dna文库。按照其说明书,将每个与illumina兼容的genobaits文库(100ng)汇集在一起,用genobaitsdna文库制备试剂盒(dl001,molbreedingbiotechnologymolbreedingbiotechnologyco.,ltd,china)按照其说明书进行靶标序列捕获和富集。最后在illuminahiseqx-ten(illumina,inc.,sandiego,ca)上对富集文库进行双末端高通量测序使用,测序读长为2
×
150bp。测序下机后的进行质控,质控软件为cutadapt2.4,去除高通量测序数据中的杂质序列。
[0140]
2.根据高通量测序数据中内参基因的数目进行质控,判定是否得到目标生物体基因的文库:(1)根据测序文库构建前,每个dna分子原始模板上加的分子特异的条形码,利用程序计算出内参基因的原始dna模板分子;(2)原始模板dna分子小于100时,样品要进行重新实验;本实例中利用的内参基因,原始测序数据是197999条,根据dna分子条形码还原后,得到48782条dna原始模板分子,因此表明本次探针调取与文库构建成功,可以进行下一步的生物信息学分析。
[0141]
3.目标有效序列的筛选,与本技术文件中方法一致,且筛选后的目标有效序列需满足下面五个条件时:
[0142]
a:目标有效序列与外源基因和植物参考基因组的匹配碱基数目均大于30bp;
[0143]
b:目标有效序列与外源基因和植物参考基因组的错配碱基数目均小于10bp;
[0144]
c:目标有效序列与外源基因和植物参考基因组的匹配碱基数目之和大于80bp(当测序读长介于130-150bp时);
[0145]
d:目标有效序列同时与外源基因匹配又与植物参考基因组的匹配碱基数目小于10bp;
[0146]
e:目标有效序列既不外源基因匹配又不与植物参考基因组的匹配碱基数目小于20bp;
[0147]
4.插入位点及侧翼序列的确定:判断所述目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且覆盖所述交界位点的序列数目≥5,将所述交界位点沿上下游各延伸20bp,即可获得外源插入基因的侧翼序列及插入方向;
[0148]
根据上述步骤筛选,如图3所示,找到了一端比对到p35s启动子,另一端比对到在玉米染色体上的读序,确定了其在p35s启动子在玉米中的插入位置信息,插入到了玉米5号染色体的55879236处,把其中一条拿到ncbi比对,确实能找到在水稻mon810转基因品系的5’端测序序列(genbank号:jq406879.1),比对结果见图5。如图6,外源片段的插入导致在cry1ab基因插入的右边界处9bp序列的引入,而在p35s的左边界处并未导致核苷酸序列的插入或者缺失;找到了cry1ab在水稻基因组的插入位置,也位于水稻5号染色体上,但是和p35s相隔一段距离,这可能是我们用的玉米参考基因组是b73,而孟山都远东有限公司用的转基因受体是玉米hi-ii,因此,根据p35s和cry1ab基因找到它们在玉米基因组的插入位置有些距离,是可以理解的。同时利用我们能确定的cry1ab插入位置的序列到ncbi继续搜索,发现这些序列确实能比对到ncbi中mon810品系在玉米物种的3’端测序序列上(genbank号:jq406878.1)比对上,这些结果说明我们发明的鉴定转基因事件方法的可靠性。
[0149]
实施例2
[0150]
1.实验材料:将携带外源基因片段的jmj705-pu1301载体(见图7)通过农杆菌转化的方法转到水稻中花品系中,其中外源基因片段上含有筛选标记基因hyg,具有潮霉素抗性。获得转化株系在含有潮霉素的平板上上进行筛选。得到的稳定株系,用来作为我们的研究材料。
[0151]
2.dna的提取与破碎:植物基因组的提取采用的是天根生化科技(北京)有限公司的高效植物基因组dna提取试剂盒(dp350)。用来提取dna的植物材料可以为种子,也可以为新鲜的植物材料如根、茎、片或种子等器官,也可以为这些器官的混合,或者种子刚萌发的幼苗。本实验采用的是我们实验室自己获得的转基因材料,用来提取dna的是该转基因品系的新鲜叶片。利用天根dna提取试剂盒提取dna后,取出0.5ug-1ug用于超声波破碎仪(covaris,woburn,ma,usa),最后把基因组dna破碎成200-500bp的片段。
[0152]
3.捕获外源片段探针的设计:外源探针序列的设计要符合本技术的条件,最后符合条件的探针委托金斯瑞生物公司进行合成。本实例中主要针对图7中2个外源插入元件进行探针捕获,由于我们主要为了鉴定外源基因在受体作物中插入的位置,因此我们设计时对t35s启动子(seq id no:4)和tnos(seq id no:5)基因进行了全覆盖的形式进行设计共设计了4条探针,探针序列见表2。收到探针为干粉状态,需要加100μl探针稀释液将探针稀释至2pm,将所有的探针等量混合成探针mix,进行样本检测时探针使用量为2μl/样。
[0153]
表2实施例例2所用到的探针序列。
[0154][0155][0156]
4.探针捕获文库构建与测序:利用每个样本的基因组dna构建与illumina兼容的ngs文库。简而言之,利用covariss220破碎后的dna片段,经末端修复和加a尾后,使用过多的含有dna分子特异的条形码及样品特异的条形码(index)与其连接。3’端接头序列与5'通用接头序列相比,3'接头序列还包含额外的8bp的dna分子特异的条形码(umi)。然后根据方案使用genobaitsdna文库制备试剂盒(dl002,molbreedingbiotechnologyco.,ltd,china)构建dna文库。按照其说明书,将每个与illumina兼容的genobaits文库(100ng)汇集在一起,用genobaitsdna文库制备试剂盒(dl001,molbreedingbiotechnologyco.,ltd,china)按照其说明书进行靶标序列捕获和富集。最后在illuminahiseqx-ten(illumina,inc.,sandiego,ca)上对富集文库进行双末端高通量测序使用,测序读长为2
×
150bp;测序下机后的进行质控,质控软件为cutadapt2.4,去除高通量测序数据中的杂质序列。
[0157]
5.根据高通量测序数据中的内参基因的数目进行质控:
[0158]
(1)根据测序文库构建前,每个dna分子原始模板上加的分子特异的条形码,利用程序计算出内参基因的原始dna模板分子;
[0159]
(2)原始模板dna分子小于100时,样品要进行重新实验;本实例中利用的内参基因,原始测序数据是53364条,根据dna分子条形码还原后,得到7964条dna原始模板分子,因此表明本次探针调取与文库构建成功,可以进行下一步的生物信息学分析。
[0160]
6.目标有效序列的筛选,与本技术文件中方法一致,且筛选后的目标有效序列需满足下面五个条件时:
[0161]
a:目标有效序列与外源基因和植物参考基因组的匹配碱基数目均大于30bp;
[0162]
b:目标有效序列与外源基因和植物参考基因组的错配碱基数目均小于10bp;
[0163]
c:目标有效序列与外源基因和植物参考基因组的匹配碱基数目之和大于80bp(当测序读长介于130-150bp时);
[0164]
d:目标有效序列同时与外源基因匹配又与植物参考基因组的匹配碱基数目小于10bp;
[0165]
e:目标有效序列既不外源基因匹配又不与植物参考基因组的匹配碱基数目小于20bp。
[0166]
7.插入位点及侧翼序列的确定:判断所述目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且覆盖所述交界位点的序列数目≥5,将所述交界位点沿上下游各延伸20bp,即可获得外源插入基因的侧翼序列及插入方向;
[0167]
根据上述步骤筛选,找到了一端比对到tnos终止子,另一端比对到在水稻染色体上的读序,确定了其在tnos终止子在水稻中的插入位置信息(表3),插入到了水稻2号染色体的21340946处;同时我们也找到了t35s在水稻基因组的插入位置,在水稻2号染色体21340892处,在基因组21340892,基因组引入了4个碱基,在21340946端基因组引入了14个碱基,该外源片段的插入导致了基因组54个碱基的缺失。在水稻染色体上共有一个拷贝。通过我们发明的方法有效的鉴定出了新的转基因事件、外源基因插入的位置、拷贝数及插入方向,这些结果说明我们发明的鉴定转基因事件的方法是可行的。
[0168]
本发明提供的方法,给每个由外源基因插入形成的莱茵衣藻突变体加上样品条形码,多个样品混合后,再用设计的探针捕获靶标序列,并进行高通量测序,后期结合生物信息学可以有效的鉴定出靶外源基因在各突变体基因组上的插入位置、插入方向、拷贝数及其侧翼序列(如图8所示),下面结合实施例3和实施例4来说明。
[0169]
实施例3
[0170]
1.实验材料:将携带外源基因片段的pjmg-aphviii载体经酶切后,利用电转化法转到莱茵衣藻(chlamydomonasreinhardtii)野生型藻株21gr中。其中,外源基因片段上含有筛选标记基因aphviii,具有巴龙酶素抗性。获得转化株系在含有巴龙霉素的平板上进行筛选,得到的稳定株系,作为研究材料。
[0171]
2.dna的提取与破碎:莱茵衣藻基因组的提取采用的是天根生化科技(北京)有限公司的高效植物基因组dna提取试剂盒(dp350)0.5ug-1ug突变体利用超声波破碎仪(covaris,woburn,ma,usa)把基因组dna破碎成200-500bp的片段。
[0172]
3.捕获外源片段探针的设计,最后符合条件的探针在武汉擎科生物技术有限公司进行合成。本实例中只用了3条位于外源片段两端位置的探针序列进行测试,探针序列为seq id no:6,seq id no:7,seq id no:8。
[0173]
探针杂交:按照下面体系加入相应的试剂或者样品,下述杂交溶液,95度变性10min,在杂交箱中,67度杂交1h。如表2所示。
[0174]
表2探针杂交体系。
[0175]
探针(10um/l=10pmol/ul)12ul破碎的dna18ul(1ug)20ssc(finalconcentration=6xssc)15ul
500mmedta(final=5mm)0.5ul10%sds(final=0.1%)0.5ul50denhardt’sreagentfinal=1
×
)1ulddh203ul补足50ul
[0176]
外源片段捕获:采用neb公司的链霉素亲和磁珠(sa)进行捕获(neb公司,货号#s1420s),捕获过程按照其说明书进行。其中链霉素亲和磁珠提前从冰箱拿出室温平衡30min。
[0177]
4.高通量文库构建与测序:捕获的目标片段采用ionplusfragmentlibrarykit(由美国lifetechnology公司,货号4471252)进行文库构建,操作步骤按照其说明书进行。测序试剂盒采用的是ions5precisionidchef&测序试剂盒(由美国life technology公司,货号a33208)。构建好的测序文库通过taqman探针法定量,然后以等摩尔量混合,通过单端测序在离子s5测序仪(a27212,thermofisherscientific,waltham,ma,usa)上测序,读取长度为400bp。质控软件为fastx_toolkit,去除高通量测序数据中的杂质序列。
[0178]
5.根据高通量测序数据中的内参基因的数目进行质控:
[0179]
获得4751条有效测序片段因此表明本次探针调取与文库构建成功,可以进行下一步的生物信息学分析。
[0180]
6.目标有效序列的筛选,与本技术文件中方法一致,且筛选后的目标有效序列需满足下面五个条件时:
[0181]
a:目标有效序列与外源基因和衣藻参考基因组的匹配碱基数目均大于30bp;
[0182]
b:目标有效序列与外源基因和衣藻参考基因组的错配碱基数目均小于10bp;
[0183]
c:目标有效序列与外源基因和衣藻参考基因组的匹配碱基数目之和大于80bp
[0184]
(当测序读长介于130-150bp时);
[0185]
d:目标有效序列同时与外源基因匹配又与莱茵衣藻参考基因组的匹配碱基数目小于10bp;
[0186]
e:目标有效序列既不外源基因匹配又不与莱茵衣藻参考基因组的匹配碱基数目小于20bp;
[0187]
7.插入位点及侧翼序列的确定:判断所述目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且覆盖所述交界位点的序列数目≥5,将所述交界位点沿上下游各延伸20bp,即可获得外源插入基因的侧翼序列及插入方向;
[0188]
根据上述步骤筛选,获得的其中一个读序与外源插入片段及莱茵衣藻参考基因组的blast比对结果如图9所示;获得的外源片段插入到莱茵衣藻的基因组的具体情况如图10所示。blast比对结果如表3所示,从表3结果可以看出,该外源片段的插入并没有引起莱茵衣藻基因组插入位置序列的变化。
[0189]
表3。
[0190][0191]
实施例4
[0192]
1.实验材料:将携带外源基因片段的pjmg-aphviii载体经酶切后,利用电转化法转到莱茵衣藻(chlamydomonasreinhardtii)野生型藻株21gr中。其中外源基因片段上含有筛选标记基因aphviii,具有巴龙酶素抗性,获得转化株系在含有巴龙霉素的平板上进行筛选,得到的稳定株系,作为研究材料。
[0193]
2.dna的提取与破碎:莱茵衣藻基因组的提取采用的是天根生化科技(北京)有限公司的高效植物基因组dna提取试剂盒(dp350)。0.5ug-1ug突变体利用超声波破碎仪(covaris,woburn,ma,usa)把基因组dna破碎成200-300bp的片段。
[0194]
3.捕获外源片段探针的设计:外源探针序列的设计要符合本技术的条件:
[0195]
(1)探针长度设计在30-80bp,对目标区域高密度覆盖(即探针之间有overlap);
[0196]
或者探针长度设计在100-120bp,探针之间没有重叠;
[0197]
(2)探针设计时避开ssr、n区域;
[0198]
(3)计算所有探针序列的鸟嘌呤和胞嘧啶的含量,所述捕获探针中的鸟嘌呤和胞嘧啶之和所占的摩尔比率为30%-80%;
[0199]
(4)计算所述捕获探针中的鸟嘌呤和胞嘧啶之和所占的摩尔比率为30%-80%;所述捕获探针与非靶标序列具有长度<40bp的相同序列段,且所述捕获探针与非靶标序列的序列同源性小于85%;捕获探针之间最好无二聚体、发夹结构,退火温度接近。
[0200]
最后,符合条件的探针在武汉擎科生物技术有限公司进行合成。本实例中只用了3条位于外源片段两端位置的探针序列进行测试,探针序列为seq id no:9,seq id no:10,seq id no:11。
[0201]
探针杂交:按照下面体系加入相应的试剂或者样品,下述杂交溶液,95度变性10min,在杂交箱中67度杂交1h,杂交体系如表4。
[0202]
表4杂交体系中的各组分。
[0203]
探针(10um/l=10pmol/ul)12ul破碎的dna18ul(1ug)20ssc(finalconcentration=6xssc)15ul500mmedta(final=5mm)0.5ul10%sds(final=0.1%)0.5ul50denhardt’sreagent(final=1
×
)1ulddh203ul补足50ul
[0204]
外源片段捕获:采用neb公司的链霉素亲和磁珠(sa)进行捕获(neb公司,货号#s1420s),捕获过程按照其说明书进行。其中链霉素亲和磁珠提前从冰箱拿出室温平衡30min。
[0205]
4.高通量文库构建与测序:捕获的目标片段采用nebnextdna文库制备预混液试剂盒(由neb公司,货号e6040s)进行文库构建,操作步骤按照其说明书进行。构建好的文库在illumina平台上进行双末端测序,每个读序长度为150bp。质控软件为cutadapt2.4,去除高通量测序数据中的杂质序列。
[0206]
5.根据高通量测序数据,根据内参基因的数目进行质控:
[0207]
获得有效测序片段因此表明本次探针调取与文库构建成功,可以进行下一步的生物信息学分析。
[0208]
6.目标有效序列的筛选,与本技术文件中方法一致。
[0209]
去除杂质序列包括以下三步:
[0210]
1)去除测序数据中的接头:
[0211]
2)去除不符合预设标准的序列;单端读序3’端含有的低质量碱基数超过全长序列的三分之一时,去除该读序的全部序列,其中低质量碱基为质量20的碱基;
[0212]
3)去除读序长度小于80bp的序列;
[0213]
筛选后的目标有效序列需满足下面五个条件时:
[0214]
a:目标有效序列与外源基因和衣藻参考基因组的匹配碱基数目均大于30bp;
[0215]
b:目标有效序列与外源基因和衣藻参考基因组的错配碱基数目均小于10bp;
[0216]
c:目标有效序列与外源基因和衣藻参考基因组的匹配碱基数目之和大于80bp
[0217]
(当测序读长介于130-150bp时);
[0218]
d:目标有效序列同时与外源基因匹配又与莱茵衣藻参考基因组的匹配碱基数目小于10bp;
[0219]
e:目标有效序列既不外源基因匹配又不与莱茵衣藻参考基因组的匹配碱基数目小于20bp;
[0220]
7.插入位点及侧翼序列的确定:判断所述目标有效序列是否具有与所述参考基因组序列匹配及不匹配的交界位点,若是,且覆盖所述交界位点的序列数目≥5,将所述交界位点沿上下游各延伸20bp,即可获得外源插入基因的侧翼序列及插入方向;
[0221]
根据上述步骤筛选,获得的其中一个读序与外源插入片段及莱茵衣藻参考基因组的blast比对结果如图11所示;获得的外源片段插入到莱茵衣藻的基因组的具体情况如图12所示。blast比对结果如表5所示,从表5结果可以看出,该外源片段的插入引起莱茵衣藻基因组的第4号染色体上,插入时,在莱茵衣藻基因组上引起了15bp序列的插入。
[0222]
表5。
[0223][0224]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性地包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0225]
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献