一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

混样筛选潜在风险单核苷酸多态性等位位点的方法与流程

2022-09-15 04:28:09 来源:中国专利 TAG:


1.本发明属于生物技术领域,涉及一种混样筛选潜在风险单核苷酸多态性等位位点的方法。


背景技术:

2.单核苷酸多态性(single nucleotide polymorphism,简称snp)是指dna序列上发生的单个核苷酸碱基之间的变异,在人群中这种变异的发生频率至少大于1%,它是基因组中存在的一种数量非常丰富的变异形式,占人类基因组中遗传多态性的90%以上。针对不同人种基因组的测序结果表明,在人类群体中存在大约1000万个snp位点,在公共数据库中至少有500多万个snps已被报道,snps在基因组的分布密度达到每300-500个碱基就存在一个snp。随着分子生物学技术的飞跃发展,snps基因分型技术和方法不断涌现。虽然经典的一些检测snps的技术,如限制性片段长度多态性(restriction fragment length polymorphism,rflp)和单链构象多态性(single-strand conformation polymorphism,sscp)等技术仍在实践中广泛使用,但一些高灵敏度、高通量的基因分型方法日益受到重视。这些检测技术包括:taqman探针法、snplex基因分型法、连接酶检测反应法(ligase detection reaction,ldr)、焦磷酸测序法、dna芯片/阵列分析法、微球法(illumina),以及质谱分析和温控高效液相色谱法,可以满足大样本及多snps位点的基因分型要求。
3.随着snps检测技术的进展,snps在人群中的检测日益得到广泛应用,特别是对于当前多基因复杂疾病如肿瘤、冠心病的遗传易感性的探讨,传统的以家系为基础的连锁分析在检测能力上已经有了明显的局限性,而病例-对照等易于开展的关联性研究方法有显著的优势。因此,近几年探讨snps作为复杂性疾病的遗传标记的关联性研究大量涌现。
4.而基于snps关联研究到学上,需要大量的样本,目前主要是收集大量样本,然后对每个样本进行全基因组或者全外显子组测序,最后进行关联分析,这样就要对计算机的计算和存储能力要求很高,而且对分析复杂性也有极大的提升,还要付出的巨大的财力,基于以上几点的要求就很难以让一般的科研人员或者临床数据难以得到应用,不宜于普遍的推广。
5.因此,有必要开发一种减少了成本的投入且简单方便的混样筛选潜在风险单核苷酸多态性等位位点的方法。


技术实现要素:

6.为了解决所述技术问题,本发明提供了一种混样筛选潜在风险单核苷酸多态性等位位点的方法,该方法减少了成本的投入,降低对设备的要求,降低实验费用成本,简单方便。
7.为解决上述技术问题,本发明采用如下技术方案:
8.本发明提供了一种混样筛选潜在风险单核苷酸多态性等位位点的方法,所述方法包括:
9.将样本的核酸样品分为疾病组和正常组分别等量混样,获得疾病组样品和正常组样品;分别以所述疾病组样品和正常组样品为模板,对关注的易感基因的外显子全长进行pcr,获得扩增产物并测序,获得疾病组和正常组测序数据;
10.将所述疾病组和正常组测序数据分别通过质量筛选后,与基因组参考序列进行对比并分析,获得所有snp位点、对应每个snp位点的测序片段、和每个所述测序片段的支持数;
11.对每个所述snp位点进行注释,统计正常组和疾病组中每个snp位点中每种等位基因出现的频率;
12.通过比较疾病组中和正常组中每个snp位点中每种等位基因出现的频率之差,筛选疾病组相对正常组显著差异的snp位点,获得潜在风险snp位点。
13.进一步地,所述疾病组样品中包含多种含有等量核酸样品的疾病样本;所述正常组样品中包含多种含有等量核酸样品的正常样本;所述疾病组样品与所述正常组样品的样品数相等或不相等。
14.进一步地,所述关注的易感基因包括五个,分别为park2、pink1、vps35、eif4g1、lrrk2,对关注的易感基因的外显子全长进行pcr时采用的引物对分别如seq id no.1-seq id no.2所示、seq id no.3-seq id no.4所示、seq id no.5-seq id no.6所示、seq id no.7-seq id no.8所示、seq id no.9-seq id no.10所示。
15.具体地:
16.pink1(f:5`-cgtgggtccaaagtgc-3`;r:5`-acaaatgggaggtgctg-3`)、
17.lrrk2(f:5`-aggaagccgagcaggag-3`;r:5`-aaggaaaggatatgggagt-3`)、
18.vps35(f:5`-aaacacgaaagagccacg-3`;r:5`-taattcacttaccgcatc-3`)、
19.eif4g1(f:5`-tgggagtttcaaagttcgg-3`;r:5`-ggcggctttaccttcagt-3`)、
20.park2(f:5`-ccgacgtacagggaacataa-3`;
21.r:5`-tcagacagcatctcctttaatcctg-3`)。
22.进一步地,所述质量筛选包括:
23.使用cutadapt从原始测序片段序列中去掉adaptor,后使用fastx toolkit(v0.0.14)处理片段序列,去除末端低质量碱基并删除低质量片段序列,其中,所述末端低质量碱基为质量《20的碱基片段序列,所述低质量片段序列为质量《20的碱基占整个序列长度大于70%的片段序列;
24.截掉n碱基及n之后的碱基,使用bwa-mem软件的默认参数将长度超过16nt的作为筛选后的高质量片段序列。
25.进一步地,所述与基因组参考序列进行对比并分析中,通过基因分析工具gatk分析,获得所有snp位点。
26.进一步地,所述snp位点注释包括:
27.针对每一个snp位点,参考基因组的碱基类型为ref,其可能发生的多态性碱基位点为alt,分别统计支持碱基是ref的测序片段序列个数和支持碱基是alt的测序片段序列个数。
28.进一步地,所述统计正常组和疾病组中每个snp位点中每种等位基因出现的频率,包括:
29.根据等位位点的基因分型统计比对每种等位基因(ref,alt)测到的片段序列的个数,其中,正常组为:a,b;疾病组为:c,d;
30.根据总的测序覆盖的序列数,其中正常组为:a b;疾病组为:c d,计算正常组和疾病组中等位基因alt出现的频率,其中ratio(正常组)=b/(a b);ratio(疾病组)=d/(c d),即为每个snp位点中每种等位基因出现的频率。
31.进一步地,所述通过比较疾病组中和正常组中每个snp位点中每种等位基因出现的频率之差,筛选疾病组相对正常组显著差异的snp位点,包括:
32.根据疾病组中每个snp位点等位基因alt的频率ratio(疾病组),以及正常组中的等位基因alt的频率ratio(正常组),通过比较疾病组中和正常组中频率之差diffratio,选择diffratio=绝对值{ratio(疾病组)-ratio(正常组)}≥0.1,后使用卡方检验计算pvalue,选择pvalue《0.05,获得疾病组相对正常组显著差异的snp位点。
33.本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
34.本发明提供的混样筛选潜在风险单核苷酸多态性等位位点的方法,无需对每个样本进行测序检测变异,而是将疾病组和正常组分别等量混样,这样最终进入测序的只有2个样本,然后通过我们设计的算法进行变异位点的检出以及变异频率的比较,获得潜在风险单核苷酸多态性等位位点。这极大的减少了成本的投入,降低对设备的要求,降低实验费用成本,简单方便,适合于普通的科研单位和临床医院使用,更高效经济的缩小研究范围。
附图说明
35.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
36.图1为本发明实施例提供的一种混样筛选潜在风险单核苷酸多态性等位位点的方法的流程图;
37.图2为本发明实施例提供的一种混样筛选潜在风险单核苷酸多态性等位位点的方法的测序结果分析图;
38.图3为本发明实施例的结果。
具体实施方式
39.下文将结合具体实施方式和实施例,具体阐述本发明,本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解,这些具体实施方式和实施例是用于说明本发明,而非限制本发明。
40.在整个说明书中,除非另有特别说明,本文使用的术语应理解为如本领域中通常所使用的含义。因此,除非另有定义,本文使用的所有技术和科学术语具有与本发明所属领域技术人员的一般理解相同的含义。若存在矛盾,本说明书优先。
41.除非另有特别说明,本发明中用到的各种原材料、试剂、仪器和设备等,均可通过市场购买得到或者可通过现有方法制备得到。
42.下面将结合实施例及实验数据对本技术的效果进行详细说明。
43.实施例1
44.1、将样本的核酸样品分为疾病组和正常组分别等量混样,获得疾病组样品和正常组样品,具体地:
45.对62份疾病组样品进行等量混合,对88份正常组样品进行等量混合;使用超微量分光光度计检测每个样品的浓度,按照每样取500ng进行混样,取样前需要把每个样品涡旋离心,混样之后要测一下正常组和疾病组的真实浓度。注:如果计算出来取的体积超过实际体积,就把所有的样品全部加进去。混合好之后一定要充分涡旋混匀,由于后续操作时间比较长,建议操作一段时间就要把模板涡旋离心一下,避免混合不均匀。
46.2、对关注的5个易感基因的exons设计引物进行pcr扩增:
47.以外显子最大化的方式输出5个易感基因的全部外显子序列,在外显子的上下游再向外延伸200bp便于设计扩增全长的引物。5个易感基因共有125个外显子,使用诺唯赞高保证酶在疾病组和正常组样本中分别进行扩增。扩增体系及条件如下:
[0048][0049][0050]
表1
[0051]
[0052]
[0053]
[0054]
[0055]
[0056]
[0057]
[0058][0059]
扩增后的dna进行二代测序的建库,以及illumina测序;将扩增的片段进行琼脂糖凝胶电泳检测,对条带进行纯化回收定量。将每个条带的回收产物取等量混合后进行dna建库及illumina测序。
[0060]
3、测序数据获得5个易感基因snp基因型;
[0061]
首先使用cutadapt从原始测序片段序列中去掉adaptor,然后使用fastx toolkit(v0.0.14)处理片段序列,去除末端低质量碱基(质量《20)并删除低质量片段序列(质量《20的读长度大于70%)。然后,截掉n碱基及n之后的碱基。使用bwa-mem软件的默认参数将长度超过16nt的高质量片段序列与人类基因组(grch38)进行比对。得到的比对结果按染色体及比对位置排序,并使用samtools软件进一步将比对结果转换为二进制比对格式(bam)。使用samtools的rmdup模块从数据中删除重复数据。使用基因组分析工具包gatk模块realignertargetcreator、indel re-aligner和base re-calibrator对去重之后的比对结果进行预处理。在碱基质量重新校准后,以dbsnp和1000genome的snp数据库作为已知位点。使用picardhsmetrics确定效率指标,捕获最终目标序列。重新调整和重新校准的bam文件使用以下参数(-stand_emit_conf 10,-stand_call_conf)作为gatkhaplotypecaller软件的输入。最后,使用gatk变异过滤对原始变异进行软过滤(低质量:30《q《50)。最后snp位点用annovar软件注释,注释结果包括clinvar数据库的结果(与疾病相关的人类基因组变异数据库)。
[0062]
3、统计正常组和疾病组中每个snp位点中每种等位基因出现的频率;
[0063]
根据上面的分析得到混样的疾病组和正常组的所有snp位点,根据等位位点的基因分型统计比对每种等位基因(ref,alt)测到的片段序列的个数(正常组:a,b;疾病组:c,d),根据总的测序覆盖的序列数(正常组:a b;疾病组:c d),计算每组等位基因alt出现的频率ratio(正常组)=b/(a b);ratio(疾病组)=d/(c d);
[0064]
4、筛选疾病组相对正常组显著差异的snp位点:
[0065]
根据以上得到的疾病组中每个snp位点等位基因alt的频率ratio(疾病组),以及
正常组中的等位基因alt的频率ratio(正常组),通过比较疾病组中和正常组中频率之差diffratio,选择diffratio=》0.1;
[0066]
计算方式如下:
[0067]
diffratio=绝对值{ratio(疾病组)-ratio(正常组)}
[0068]
然后使用卡方检验计算pvalue,选择pvalue《0.05;
[0069]
计算方式如下:
[0070]
表2
[0071] refalt正常组ab疾病组cd
[0072]
使用r语言中fisher.test(矩阵),计算pvalue;
[0073]
筛选最后的得到的snp位点可以作为潜在风险突变的snp位点,最后获取18个snp位点(具体如表3),可以作为后续重点研究疾病相关的snp位点。
[0074]
表3
[0075]
[0076][0077]
对比例1
[0078]
使用传统实验方法统计验证结果中每个位点基因型的个数,统计ref和alt等位基因的个数,计算疾病组与正常alt突变频率or值。具体操作步骤为:
[0079]
将实施例1筛选的18个潜在风险snp位点使用芯片测序和质谱方法测序每个样本的基因型;
[0080]
将测序和质谱法结果进行统计,并计算等位基因的出现频率,计算每个位点的等位基因频率疾病组和正常组的or值(odds ratio),验证其可信度。
[0081]
(1)测序法结果如表4和表5所示:
[0082]
表4
[0083][0084]
表5
[0085]
[0086]
(2)质谱法结果如表6和表7所示:
[0087]
表6
[0088][0089]
表7
[0090][0091][0092]
(3)根据上述疾病组与正常alt突变频率or值获得的可信的snp位点为rs9355996,rs3077908,rs9364644,rs1365770,rs3761863,rs512550,rs3886747,rs10878441,rs73187631,rs10784548,rs10878245。
[0093]
表8
[0094]
snporrs113175731.218242399rs93559961.460176991rs30779081.595238095rs936464412.48979592rs37654750.804769001rs13657701.514231499rs37618631.514231499
rs22305711.110161443rs5125501.707692308rs38867471.514231499rs108784411.514231499rs80641.266666667rs731876312.222222222rs107845481.514231499rs108782451.582030215
[0095]
实验例2、对比例1和实施例1两种方法的比较
[0096]
将实施例1的结果与对比例1的测序结果进行比较:
[0097]
1、本发明实施例1的验证位点共18个,其中使用测序法验证有4个,使用质谱法验证位点有14个。
[0098]
2、通过两种方法测序获得每个样本对应位点的基因型,并对每个位点分别统计每种基因型样本的个数,并统计混样测序分析结果ref和alt等位基因在疾病和正常组分别总共的个数,计算疾病组(b)alt突变频率与正常组(z)alt突变频率的odds ratio(or)。
[0099]
其中的测序法结果中无法测到表示双向套峰无法判定;部分测到基因型为cg,即部分确定的基因分型与我们混样测序结果不一致。
[0100]
质谱法验证位置与分析位置不对应的位点rs776880599位点关注taa》t,ta,验证结果是t》tt;rs68121389关注gt》g,验证结果是g》t,与混样分析结果分析的具体位置有差异。chr12_40310377这个位点全部没有发生突变。
[0101]
对于有效的15个检出位点,其中11个or值大于1.5,超几何分布计算其显著性pvalue=0.018。
[0102]
通过这一比较我们分析得出我们混样测序获得潜在风险snp位点与传统实验方法获得的一致性达到73%以上,而在成本上面,本发明的方法,混样测序测序量为每样12g,包括实验试剂耗材、人工成本及测序成本,每样是3000元,再加后续将分析的位点在进行单独样本去实验验证,成本需要2万,
[0103]
而传统每个样外显子组测序及分析成本是1500元,如果按照传统的全外显子测序每样10g,虽然获得的整体数据比较多,但对于研究的需要数据有效占比很低,需要成本1500*150,总共需要22万5千,而本发明针对实际需要,针对性的选择5个关注基因所需成本降低到传统的十分之一,与此同时获得的位点也进行了实验验证,保证了分析结果的可信度。这样可以在有限的预算更好的利用已有样本获得有研究价值的位点。
[0104]
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0105]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0106]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精
神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献