一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于动物基因组功能突变位点基因芯片的构建及其应用的制作方法

2021-12-18 01:47:00 来源:中国专利 TAG:


1.本发明属于动物基因育种基因芯片构建技术领域,具体涉及一种基于动物基因组功能突变位点基因芯片的构建及应用。


背景技术:

2.当前,用于动物基因组育种商业化的基因芯片类产品大部分多是没有功能的分子标记,不属于真正意义上的功能突变位点。现有市场上的芯片类产品,其分子标记的效应依赖于连锁的功能突变的效应,然而不同群体或同一群体不同世代,连锁程度都会发生变化,这就会无形中增加了分子标记效应评估的难度、降低了评估的准确性,并且也降低了基因组育种值评估的准确性和育种效率。
3.同时,不同群体间由于连锁程度不同,导致了能够应用于商业化的基因芯片在不同群体间的通用性较差,现有的基因芯片并不能很好地发挥出基因组育种的优势。
4.基于大规模多组学高通量测序数据,开发以功能突变位点为主的功能位点基因芯片,能够有效弥补现有商业基因芯片的不足,对提高基因组育种效率、加快动物改良速度具有重要意义。


技术实现要素:

5.为了解决现有技术存在的上述问题,本发明目的在于提供一种基于动物基因组功能突变位点基因芯片的构建及应用。
6.本发明所采用的技术方案为:一种基于动物基因组功能突变位点基因芯片的构建,所述构建包括如下步骤:
7.s1构建动物基因组功能突变位点的基因数据信息数据库:采集样本物种的参考基因组序列、基因组注释数据、基因组重测序数据、表观基因组学数据、生产性状关联基因组区域数据、生产性状关联基因组位点数据和基因组保守区域数据;
8.s2比对质控数据:对上述动物基因组功能突变位点的基因数据信息数据库进行高通量测序,之后将上述所有高通量测序数据进行数据质控,之后将合格质控测序数据与参考基因组序列进行比对,序列比对完成后进行二次数据质控,去除冗余数据,完成质控比对;
9.s3获得基因组遗传变异数据和基因组调控元件数据:利用gatk和人类encode数据标准流程处理上述完成质控比对后的数据,获得基因组遗传变异数据和基因组调控元件数据;
10.s4遗传变异数据的滤除:以genome strip和mdust工具处理样本物种的参考基因组序列,获得基因组低比对效率和低复杂区域,剔除位于上述两个区域内的基因组遗传变异,按预设顺序滤除变异数据;
11.s5构建遗传变异所有特征权重数据:将上述步骤s1和s3中获得的所有数据作为基因组遗传变异的特征,计算每个遗传变异的上述特征权重之和,作为该遗传变异的特征分
数;
12.s6基因芯片构成:根据芯片库容量,参考基因组大小,设定滑动窗口,计算滑动窗口的连锁块,计算连锁块的分数,结合连锁块分数和遗传变异特征分数,筛选获得多态性基因位点。
13.作为优选地,所述步骤s1中,样本物种的生产性状关联基因组区域数据包括自然选择的基因组区域数据和人工选择的基因组区域数据。
14.作为优选地,所述步骤s1中,样本物种的生产性状基因组位点数据包括等位基因差异表达位点数据和全基因组关联分析报道与生产性状显著关联的位点数据。
15.作为优选地,所述步骤s2中,合格质控测序数据为测序序列不包含测序接头、连续4个测序碱基的测序质量平均得分不低于15、长度不低于40个碱基数据。
16.作为优选地,所述步骤s2中,合格质控测序数据与参考基因组序列进行比对时,选用短序列比对工具进行,所述短序列比对工具包括bwa和bowtie2。
17.作为优选地,所述步骤s2中,所述冗余数据包括比对质量得分不高于20的测序数据和建库测序时pcr引入的重复数据。
18.作为优选地,所述步骤s4中,预设顺序包括遗传变异质量、覆盖度、最小等位基因频率和完整度,依次进行变异数据的滤除。
19.作为优选地,所述步骤s5中,计算每个遗传变异的上述特征权重之和的计算公式为f=∑
n=0 w
k

20.其中n代表特征数目,n=18;w代表特征权重;
21.所述遗传变异的特征具体包括染色质开放区、无核小体区、footprint、motif、增强子、启动子、终止密码子/移码突变、非同义突变、同义突变、120个哺乳动物基因组保守区域、等位基因表达不平衡位点、自然/人工选择基因组区域、gwas候选位点、与gwas候选位点连锁(r2)>0.8的位点、最小等位基因频率第一四分位数区间、第二四分位数区间、第三四分位数区间和第四四分位数区间。
22.作为优选地,所述步骤s6中,计算滑动窗口的连锁块时利用haploview工具进行计算,所述计算连锁块时连锁不平衡参数r2≥0.8。
23.一种基于动物基因组功能突变位点基因芯片的应用,采用如上述权利要求1

9任一所述的基因芯片的构建在筛选猪基因组的功能突变位点中的应用;
24.所述猪基因功能突变位点包括52,321个(pig 52k)。
25.本发明的有益效果为:
26.本发明提供了一种基于动物基因组功能突变位点基因芯片的构建及应用。该基因芯片是基于构建动物基因组功能突变位点的基因数据信息数据库、比对质控数据、获得基因组遗传变异数据和基因组调控元件数据、遗传变异数据的滤除、构建遗传变异所有特征权重数据完成整体数据的分析及处理后,构建出了一套具有完整功能位点的基因芯片。
27.该基于动物基因组功能突变位点基因芯片的构建,不仅为动物遗传育种理论研究、动物性状高效改良和动物新品种培育提供了重要技术支撑,具有重要理论和应用价值。同时,公开了用于猪基因组育种的功能位点基因芯片的全部52,321个功能snp位点位置信息,用于猪遗传育种理论研究、性状改良和新品种培育。
28.该基于动物基因组功能突变位点基因芯片的构建方法,不仅适用于猪功能位点基
因芯片设计,也适用于马、牛、羊、鸡、鱼等家畜、家禽、水产类动物等各种动物基因组的功能位点基因芯片构建,为其他动物遗传研究、性状改良和新品种培育提供芯片设计技术。
附图说明
29.图1为上述发明提供的基因组功能位点优化技术流程的一种具体实施方式示意图;
30.图2为上述发明挑选的功能位点在猪参考基因组上的分布密度示意图(以1mb的滑动窗口,统计窗口包含的功能snp个数);
31.图3为上述发明挑选的功能位点在欧洲家猪群体中最小等位基因频率分布柱形图;
32.图4为上述发明挑选的功能位点在欧亚大陆广泛分布的家猪群体中最小等位基因频率分布柱形图;
33.图5为上述发明挑选的功能位点与不同类型功能元件交集分析示意图。
具体实施方式
34.下面结合具体实施例对本发明做进一步阐释。本领域技术人员将会理解,下列所描述的实施例是本发明一部分实施例,而不是全部的实施例,仅用于说明本发明,而不应视为限制本发明的范围。所用试剂均为可以通过市售购买获得的常规产品。
35.实施例:
36.猪功能位点基因芯片位点构建:
37.一、基于409头欧亚大陆广泛分布的家猪全基因组重测序数据(表1),通过测序读段(read)质控、比对至猪的最新版本参考基因组(sscrofa11.1)及高质量基因组遗传变异检测,获得了家猪全基因组单核苷酸变异(single nucleotide polymorphism,snp)和插入缺失(insertion and deletion,indel)数据集合。snp的过滤参数为:变异质量值(qual<30.0)、突变型等位基因单位深度质量值(qd<2.0)、突变型等位基因read数和参考型等位基因read数正负链分布fisher检验值(fs>60.0)、变异位点所有read比对质量均方根(mq<40.0)、参考型和突变型等位基因正负链read数的比值比(sor>3.0)、参考型和突变型等位基因read位置分布秩和检验(readposranksum<负8.0)及变异完整度(f_missing<=0.1),最终得到约62.5m(m=1,000,000)的snp变异。
38.表1猪样本信息
39.40.[0041][0042]
其中,european hybrids表示duroc

yorkshire

landrace的杂交个体。
[0043]
二、在第一步过滤获得的62.5m基因组遗传变异的基础上,进一步过滤位于基因组高度重复区域内的遗传变异。通过genome strip(kmer size=100bp)和mdust软件,分别统计猪参考基因组低比对效率和低复杂区域,剔除位于上述区域的遗传变异;同时去除附近(上下游100bp)存在较高频率indel(maf≥0.1)的snp变异,避免影响位点的检测和分型。经过两步过滤后,获得了约37.7m的遗传变异。
[0044]
三、根据遗传变异的特征注释、等位基因频率和连锁信息定义了一套综合评分系统(表2)。根据这套评分系统对筛选的单倍型及遗传变异进行重要性评估,筛选功能重要的遗传变异,具体分析流程如下:
[0045]
(1)利用bedtools软件标记37.7m遗传变异的特征,同时计算每个遗传变异所有的特征权重之和作为该变异的特征权重(f);
[0046]
(2)将位于同一连锁块内所有遗传变异的特征权重之和作为该连锁块的综合得分(h);
[0047]
(3)根据打分情况对基因组连锁块及遗传变异进行重要性分级;得分越高,相应的连锁块和突变功能越重要;筛选获得重要功能突变或连锁块,作为后续功能位点芯片设计的重要基础信息。
[0048]
(4)结合目标功能芯片组的库容量,将猪参考基因组序列按特定长度的窗口进行均分,然后从每个窗口挑取最优位点用于后续芯片设计。本发明以猪52k功能位点基因芯片组设计为例,将猪的全基因组按45kb的窗口(依据探针密度52k,考虑猪染色体水平的组装大小约2.39g)均分,利用haploview软件计算所有窗口的连锁块(连锁不平衡r2≥0.8),通过连锁块对全基因组遗传变异去冗余。
[0049]
(5)每个窗口首先挑选综合得分(h)最高的连锁块;然后选择特征权重(f)最大的snp变异作为该窗口的候选变异。如果一个窗口包含多个得分相等的单倍型或者snp变异,
则随机选择其中一个连锁块及相应f值最大的snp变异用于芯片设计。
[0050]
(6)按照上述步骤,最终筛选获得52k的位点,作为本发明设计的用于猪基因组育种的功能位点基因芯片。
[0051]
表2基因组不同特征变异的权重
[0052][0053]
[0054]
如图1为上述发明提供的基因组功能位点优化技术流程示意图。
[0055]
如图2为上述发明挑选的功能位点在猪参考基因组上的分布密度示意图(以1mb的滑动窗口,统计窗口包含的功能snp个数)。该图中通过利用颜色进行区分属于数据显示的重要指标之一。该图表明上述发明挑选的功能位点在猪基因组上的分布均一性高。
[0056]
如图3为上述发明挑选的功能位点在欧洲家猪群体中最小等位基因频率分布柱形图。该图表明上述发明挑选的功能位点在欧洲家猪群体中有一定数量的低频变异,这与欧洲家猪高强度的人工选育有关。
[0057]
如图4为上述发明挑选的功能位点在欧亚大陆广泛分布的家猪群体中最小等位基因频率分布柱形图。该图表明上述发明挑选的功能位点在世界家猪群体中各区段的频率分布较均匀。
[0058]
如图5为上述发明挑选的功能位点与不同类型功能元件交集分析示意图。由于不同类型功能元件组合数太多,本发明仅展示交集数目在前20的分析结果。该图表明超过50%的上述发明挑选的功能位点位于基因组增强子区域和染色质开放区域。
[0059]
猪功能位点基因芯片:
[0060]
[0061]
[0062]
[0063]
[0064]
[0065]
[0066]
[0067]
[0068]
[0069]
[0070]
[0071]
[0072]
[0073]
[0074]
[0075]
[0076]
[0077]
[0078]
[0079]
[0080]
[0081]
[0082]
[0083]
[0084]
[0085]
[0086]
[0087]
[0088]
[0089]
[0090]
[0091]
[0092]
[0093]
[0094]
[0095]
[0096]
[0097]
[0098]
[0099]
[0100]
[0101]
[0102]
[0103]
[0104]
[0105]
[0106]
[0107]
[0108]
[0109]
[0110]
[0111]
[0112]
[0113]
[0114]
[0115]
[0116]
[0117]
[0118]
[0119]
[0120]
[0121]
[0122]
[0123]
[0124]
[0125]
[0126]
[0127]
[0128]
[0129]
[0130]
[0131]
[0132]
[0133]
[0134]
[0135]
[0136]
[0137]
[0138]
[0139]
[0140]
[0141]
[0142]
[0143]
[0144]
[0145]
[0146]
[0147]
[0148]
[0149]
[0150]
[0151]
[0152]
[0153]
[0154]
[0155]
[0156]
[0157]
[0158]
[0159]
[0160]
[0161]
[0162]
[0163]
[0164]
[0165]
[0166]
[0167]
[0168]
[0169]
[0170]
[0171]
[0172]
[0173]
[0174]
[0175]
[0176]
[0177]
[0178]
[0179]
[0180]
[0181]
[0182]
[0183]
[0184]
[0185]
[0186]
[0187]
[0188]
[0189]
[0190]
[0191]
[0192]
[0193]
[0194]
[0195]
[0196]
[0197]
[0198]
[0199]
[0200]
[0201]
[0202]
[0203]
[0204]
[0205]
[0206]
[0207]
[0208]
[0209]
[0210]
[0211]
[0212]
[0213]
[0214]
[0215]
[0216]
[0217]
[0218]
[0219]
[0220]
[0221]
[0222]
[0223]
[0224]
[0225]
[0226]
[0227]
[0228]
[0229]
[0230]
[0231]
[0232]
[0233]
[0234]
[0235]
[0236]
[0237]
[0238]
[0239]
[0240]
[0241]
[0242]
[0243]
[0244]
[0245][0246]
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,均属于本发明的保护范围。上述具体实施方式不应理解成对本发明的保护范围的限制,本领域的普通技术人员应当理解,在不背离本发明的范围下,可对前述各实施例所记载的技术方案进行修改,或对其中部分或者全部技术特征进行等同替换,与此同时这些修改或者替换,并不会使相应的技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献