一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于RNAseq数据的SNPs主成分进行鸡种质资源鉴定方法及应用与流程

2022-11-19 07:03:42 来源:中国专利 TAG:

基于rnaseq数据的snps主成分进行鸡种质资源鉴定方法及应用
技术领域
1.本发明涉及分子标记技术领域,更具体地说是涉及基于rnaseq数据的snps主成分进行种质资源鉴定方法及在鸡种质鉴定中的应用。


背景技术:

2.随着分子生物学和计算技术的发展,利用分子遗传标记判断种质资源来源、亲缘关系等已成为常用方法。分子遗传标记是指以个体间遗传物质内核苷酸序列差异为基础的遗传标记,是在dna水平上遗传变异的直接反映,该标记数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的限制,而且检测该标记时可取用不同发育时期的组织器官甚至细胞。
3.分子标记检测技术发展历经三代,即以限制性片段长度多态性标记、随机扩增多态性dna、扩增片段长度多态性为主的第一代、以微卫星标记为主的第二代以及单核苷酸多态性(snps)为主的第三代。dna结构直接决定遗传物质,是物种特性的根本所在,不同品种或不同类别在遗传上的差异可不同程度地反映在其序列上。dna分子遗传标记为克服这一难题提供了有效的解决途径。
4.而主成分分析(principal component analysis,pca),是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。pca是一种线性降维方法,通过线性变换简化数据集,提取关键信息对数据进行区分。主成分判别分析(discriminant analysis of principal components,dapc)是由jombart及其同事(jombart等人,2010)提出,可用于推断遗传相关个体集群的数量。在这种多变量统计方法中,样本中的方差被划分为组间和组内分量,以尽量扩大组之间的区别。在dapc中,首先使用pca转换数据,然后使用判别分析(da)识别聚类。
5.利用全基因组重测序数据的snps可用于不同种群群体遗传结构、选择信号、全基因组关联分析和种质资源鉴定,但需要的样本量大或测序深度高,成本偏高;而转录组测序是基于特定组织进行高通量测序,获得在组织中表达的基因数据,数据量明显少于重测序数据,成本降低,且能够实现准确提取snps。
6.因此,如何提供一种基于rnaseq数据snps精确鉴定种质资源的方法是当前亟需解决的问题。


技术实现要素:

7.有鉴于此,本发明提供了一种基于rnaseq数据的snps主成分进行种质资源鉴定方法及在鸡种质鉴定中的应用,实现种质资源的精准鉴定,是目前常规方法无法实现的。
8.为了实现上述效果,本发明目的之一是提供一种种质资源鉴定方法,主要是基于rnaseq数据的snps主成分进行种质资源鉴定。
9.本发明目的之二提供一种基于rnaseq数据的snps主成分进行种质资源鉴定方法,
包括如下步骤:
10.1)获得输入的rnaseq原始数据;
11.2)对rnaseq原始数据进行质控和过滤得到干净reads;
12.3)进行数据与基因组比对,去除重复序列;
13.4)snps提取与质控;
14.5)snps主成分判别分析及鉴定。
15.优选的,步骤1)所述获取输入的rnaseq原始数据:采集组织,利用trizol法提取总rna,构建cdna文库,同时利用illumina测序平台进行测序获得原始reads。
16.优选的,步骤2)利用fastqc进行测序数据质控,及fastp对测序数据进行质量过滤,获得干净reads。
17.优选的,步骤3)用clean reads与鸡参考基因组grcg6a比对,去除重复序列。
18.优选的,步骤3)所述比对工具为bwa mem;所述去除重复序列工具为picard markduplicates。
19.优选的,步骤4)所述snps提取与质控:利用gatk进行质控,
20.为保证提取的snp准确性,质控参数为:qd《2.0,fs》60.0,mq《40.0;maf》0.05,max-missing=1,mindp》4,maxdp》1000;minq》30,mingq》80,min-alleles2,max-alleles2;
21.且,采用vcftools分离snps与indel。
22.优选的,步骤5)snps主成分判别分析及鉴定是利用r语言程序包adegenet进行主成分判别分析及鉴定。
23.本发明目的之三利用上述方法在鸡种质资源鉴定中的应用。
24.本发明目的之四提供一种基于rnaseq数据snps主成分进行鸡种质资源鉴定方法,包括上述所述方法,且步骤1)所述组织包括但不限于鸡肝脏、脾脏、骨骼和脑。
25.综上所述,本发明的有益效果至少包括:能够实现种质资源的精准鉴定;
26.步骤4)中的质控参数可以保证每个个体提取的snps准确性为100%;
27.本发明提取的snps不仅能够对种质资源进行精准鉴定,还能够进行不同种质资源表达基因特异snps以及表型差异显著相关snps的筛选。
28.利用snp主成分进行判别分析,缩小了同一种质资源个体间的相对距离,同时,扩大了不同种质资源个体间的相对距离,可实现对种质资源的精准分类。
附图说明
29.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
30.图1附图为实施例1海兰灰蛋鸡和太行鸡主成分分析图;
31.图2附图为实施例1海兰灰蛋鸡和太行鸡主成分判别分析图;
32.其中,图1和图2中绿色均代表海兰灰蛋鸡;橙色均代表太行鸡;
33.图3附图为实施例2太行鸡和ross肉鸡主成分分析图;
34.图4附图为实施例2太行鸡和ross肉鸡主成分判别分析图。
35.其中,图3和图4中绿色均代表肉鸡;橙色均代表太行鸡。
具体实施方式
36.下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
37.实施例1:鉴定太行鸡与海兰灰蛋鸡
38.选择11只太行鸡和12只海兰灰商品蛋鸡胫骨组织rnaseq数据,每个样本测序数据量为6gb。
39.利用上述方法,共提取到82457个snps,剔除包含缺失snps的位点,获得18 059个snps用于后续分析,利用这些snps和r语言程序包adegenet进行主成分和判别分析,结果发现第一主成分可以解释变异的18.23%,各样本第一主成分和第二主成分得分见表1所示;并如图1可看出,利用第一主成分得分可以明显区分两个鸡品种。
40.表1太行鸡和海兰灰蛋鸡snps主成分得分表
41.样品编号第一主成分得分第二主成分得分品种1-15.494155790.380932318海兰灰2-16.74684045-0.871966477海兰灰3-16.312810.323110066海兰灰4-16.900076491.105576871海兰灰5-17.40258962-0.586184944海兰灰6-16.831082771.133781081海兰灰7-15.282198920.638879395海兰灰8-16.291588330.22311645海兰灰9-15.27335961-1.063383557海兰灰10-15.30448688-0.893871642海兰灰11-15.7524192-1.033941097海兰灰12-16.80890497-0.922981808海兰灰1314.278886041.001195346太行鸡1414.8943928813.19969074太行鸡1515.582637186.928841548太行鸡1614.1628445-0.059682067太行鸡1715.81025653-23.56572838太行鸡1814.532746370.366011427太行鸡1914.2726292217.17524731太行鸡2014.346788491.693796014太行鸡2115.5142416-5.151840515太行鸡2216.001781261.827832473太行鸡2316.946474062.481614521太行鸡2412.87486877.890203301太行鸡2515.18196619-22.22024838太行鸡
42.实施例2:太行鸡与ross肉鸡
43.选择11只太行鸡胫骨和9只ross708肉鸡心脏rnaseq数据(数据来源于sra数据库,srr7250871,srr7250872,srr7250873,srr7250875,srr7250877,srr7250878,srr7250879,srr7250884,srr7250885),提取到16 317个snps,利用这些snps和r语言程序包adegenet进行主成分和判别分析,结果发现第一主成分可以解释变异的13.36%,各样本第一主成分和第二主成分得分见表2和图3。由图3可看出,利用第一主成分得分可以明显区分两个鸡品种。根据主成分分析图4可以看出两个品种在第一主成分可以明显分开,判别分析准确率达100%。
44.表2太行鸡和ross肉鸡snps主成分得分表
45.样本编号第一主成分得分第二主成分得分品种1-12.752336-23.6553977太行鸡2-10.891649-3.55063138太行鸡3-8.89046620.1591949太行鸡4-11.6077584.15319675太行鸡5-10.369067-3.06917805太行鸡6-10.665503-0.05176512太行鸡7-10.6957730.89649965太行鸡8-9.28606410.64745404太行鸡9-9.807078-15.50490573太行鸡10-3.5307420.41210058太行鸡11-7.2671078.4402002太行鸡21-8.6375222.20209736太行鸡22-8.3073564.22608167太行鸡1212.637025-0.63228868ross肉鸡1314.747638-0.54108388ross肉鸡1413.4045690.15899165ross肉鸡1513.479992-0.80328344ross肉鸡1612.669277-0.98803757ross肉鸡1713.856562-0.31275436ross肉鸡1814.083391-0.89652386ross肉鸡1913.699891-0.97238454ross肉鸡2014.130076-0.31758249ross肉鸡
46.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
47.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明
将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献