一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

利用全基因组SNP信息快速鉴定猪品种的方法及其应用

2023-02-02 00:27:14 来源:中国专利 TAG:

利用全基因组snp信息快速鉴定猪品种的方法及其应用
技术领域
1.本发明涉及动物品种鉴定技术领域,特别涉及一种利用全基因组snp信息快速鉴定大白猪、长白猪及其二元杂交猪的方法及其应用。


背景技术:

2.猪的品种鉴定具有重要的生物学意义及经济价值。无论是从品种保护还是从育种策略的制定角度,都离不开准确的猪的品种鉴定。早期对于猪的品种鉴定工作主要依赖于表型数据,但是由于杂交育种的推广,使得各个品种已无法仅靠表型就能进行区分。当前现有的方法往往是通过pcr扩增检测各个品种特异的snp标记,但是这种方法大都更适用于地方猪品种。针对市面上常见的大白猪和长白猪群体,品种特异性snp标记往往难以确定,此时若仍然沿用该方法毕竟使得鉴定的准确性大打折扣。目前的生猪繁育体系中,大白猪和长白猪通常都位于核心群。核心群的数量虽然比较少,但是在本品种的遗传改良中占据主导作用。只有对准确的核心群进行选择才能使得育种获得持续的遗传进展,否则只能是南辕北辙,事倍功半。
3.伴随着基因分型技术的飞速发展,使得获得全基因组范围内的海量的snp标记成为了可能。因此,一种高效、简捷地利用全基因组snp信息进行准确的品种鉴定的方法就应运而生。利用全基因组范围的snp的信息,能够从遗传方面最大程度的解析各个品种的差异,从而对各个品种进行准确的鉴定。


技术实现要素:

4.本发明针对现有技术的缺陷,提供了一种利用全基因组snp信息快速鉴定猪品种的方法及其应用。
5.为了实现以上发明目的,本发明采取的技术方案如下:
6.一种利用全基因组snp信息快速鉴定猪品种的方法,包括以下步骤:
7.s1:根据已有数据库构建参考集;
8.s2:提取待鉴定品种个体的基因组dna,并对dna进行质量检测;
9.s3:利用基因芯片技术对待鉴定个体进行分型;
10.s4:应用三种方法进行品种鉴定:
11.s41:利用主成分分析的方法,将高密度的snp转换为少数几个线性无关的特征向量(主成分),并应用k-means聚类的方法将待鉴定个体聚类到参考集中以鉴定出待鉴定个体的品种;
12.s42:利用品种特异snp的方法,根据参考集鉴定猪品种特异的snp,选取待鉴定个体中品种特异的snp的集合。假设不同位点的snp基因型信息为独立的事件,根据二项分布的公式计算得到待鉴定个体为要鉴定品种的概率。设定阈值为0.9,若概率大于0.9则判定待鉴定个体归属于该品种;
13.s43:应用群体遗传学的方法,假设群体有k个祖先,计算现有群体中各个祖先群体
来源遗传成分的比例,选择得到最佳的k值并根据遗传成分比例判断待鉴定个体的品种;
14.s5:综合分析s4的三种结果,确定待鉴定个体的最终品种。
15.进一步地,s2对dna进行质量检测:剔除检出率《90%、偏离哈代温伯格(hardy-weinberg equilibrium,hwe)《10-7的snp和检出率《90%的个体,并对缺失的基因型使用beagle 5.1进行填充。
16.进一步地,s3具体为:将s2的所有个体的基因型数据转换为0,1,2格式并按交集合并基因型数据。利用r语言环境下的prcomp函数得到主成分,取前十个主成分作为特征向量用于k-means分析,调用r语言环境下的kmeans函数完成分析,得到鉴定个体分型。
17.进一步地,s41具体包括:将参考集的基因组信息和待鉴定个体的信息合并,并将基因型数据转换为0,1,2格式的基因型矩阵。利用r语言环境下的prcomp函数,将高密度的snp信息转换为少数几个线性无关的特征向量(取前十个主成分)。利用k均值聚类算法,将欧式距离平方作为样本之间的距离,并通过损失函数最小化的原则,经过反复迭代求得局部最优解,并根据轮廓系数最终将样本划分为多类以确定待鉴定个体的品种。
18.进一步地,s42具体包括:根据参考集的基因组信息,选取待鉴定品种中多态性小的snp位点(maf《=0.01)并将二者取交集。从交集的snp位点中,选取最小等位基因频率对应的等位基因在待鉴定品种中不相同的snp位点。然后从待鉴定个体的基因型信息中挑选这部分不相同的snp位点信息。根据二项分布的计算公式,分别计算待鉴定个体属于各个品种的概率。设定阈值,若待鉴定个体属于某一品种的概率大于设定的阈值就认为个体属于该品种。
19.进一步地,s43具体包括:将数据转换为plink格式的数据,从群体遗传的角度利用贝叶斯算法,预设不同的分群策略(不同的k值)并得到不同分群下的交叉熵,选取交叉熵最小的分群策略。根据生成的血统比例文件对待测个体的品种进行鉴定。上述步骤可借助admixture软件完成分析。
20.本发明还公开了所述利用全基因组snp信息快速鉴定猪品种的方法在鉴定大白猪、长白猪和二元杂交猪品种的应用。
21.与现有技术相比,本发明的优点在于:
22.充分利用高密度的snp信息,能最大程度的从遗传层面解析品种差异,从而精准的鉴定出猪只的品种。此外,综合利用了三种不同的方法来解析品种差异,从而进一步提高了品种鉴定的准确性。
附图说明
23.图1是本发明实施例利用全基因组snp信息快速鉴定猪品种的方法流程图。
24.图2是本发明实施例利用主成分分析的方法及k-means算法对待鉴定品种个体进行分类的二维散点图。
具体实施方式
25.为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
26.如图1所示,一种利用全基因组snp信息快速鉴定猪品种的方法,包括以下步骤:
27.(1)结合实验室目前已有的数据库信息,从数据库中抽提出大白猪和长白猪的信息,构成参考集。
28.(2)提取待鉴定个体的dna并进行基因分型。对基因型数据进行质控:剔除检出率《90%、偏离哈代温伯格(hardy-weinberg equilibrium,hwe)《10-7的snp和检出率《90%的个体,并对缺失的基因型使用beagle 5.1进行填充。
29.(3)将参考集的基因组信息和待鉴定个体的信息合并,并将基因型数据转换为0,1,2格式的基因型矩阵。利用r语言环境下的prcomp函数,将高密度的snp信息转换为少数几个线性无关的特征向量(取前十个主成分)。利用k均值聚类算法,将欧式距离平方作为样本之间的距离,并通过损失函数最小化的原则,经过反复迭代求得局部最优解,并根据轮廓系数最终将样本划分为多类以确定待鉴定个体的品种。
30.该方法具体实现过程如下:
31.3.1随机选取k个聚类中心点(k个簇),记为μ1,μ2,

μk32.3.2定义损失函数,计算第t次迭代下每个样本xi与每个中心点的欧式距离,并将其分配到具体其最近的中心簇
[0033][0034]
3.3对于每一个类重新计算该簇中心点的值:
[0035][0036]
3.4重复3.2和3.3多次,直至中心点位置不变,即该算法达到局部收敛
[0037]
3.5计算每个k值下的轮廓系数:
[0038]
其中ak表示的是样本点与同一簇中其他点的平均距离,bk表示的是样本点与其他簇中所有点的平均距离。
[0039]
3.6取轮廓系数最小时对应的k值为最终的聚类数并根据已知品种记录信息的样本点得到每个类群对应的品种信息,从而确定待鉴定个体的品种信息
[0040]
(4)根据参考集的基因组信息,选取得到大白猪和长白猪中多态性小的snp位点(maf《=0.01)并将二者取交集。从交集的snp位点中,选取最小等位基因频率对应的等位基因在大白猪和长白中不相同的snp位点。然后从待鉴定个体的基因型信息中挑选这部分的snp信息。为了简化计算,假设不同snp位点的基因型是互不影响的,故可将其视为n重伯努利实验。根据二项分布的定义,分别计算待鉴定个体属于各个品种的概率。设定阈值(默认为0.9),若待鉴定个体属于某一品种的概率大于设定的阈值就认为个体属于该品种。
[0041]
(5)将数据转换为plink格式的数据,从群体遗传的角度利用贝叶斯算法,预设不同的分群策略(不同的k值)并得到不同分群下的交叉熵,选取交叉熵最小的分群策略。根据生成的血统比例文件对待测个体的品种进行鉴定。上述步骤可借助admixture软件完成分析。
[0042]
(6)综合比较(3)-(5)的品种鉴定的结果,确定最终的结果。
[0043]
实施例1
[0044]
实验材料:qmsim软件模拟得到的1423个line1(记为大白)、1424个line2(记为长白)及4个cross line(记为二元杂),芯片密度为54k。
[0045]
具体步骤如下:
[0046]
(1)将1420个大白及1420个长白样本视作参考集,将3个大白、4个长白及4个二元杂样本视作验证集(待鉴定品种)。将验证集样本依次命名个体1、个体2
……
个体10。
[0047]
(2)分品种对基因型样本进行质控填充。参考集的样本大小为,1420个48k的大白,1420个49k的长白。验证集的样本大小为,3个48k的大白,4个49k的长白,4个49k的二元杂。
[0048]
(3)将上述所有个体的基因型数据转换为0,1,2格式并按交集合并基因型数据。利用r语言环境下的prcomp函数得到主成分,取前十个主成分作为特征向量用于k-means分析,调用r语言环境下的kmeans函数完成分析。结果见图2。从图2可以很明显的看到个体1-个体3被鉴定出来属于大白,个体4-个体7被鉴定出来属于长白,个体8-个体10被鉴定出来是属于二元杂。该方法在验证集上的准确性为100%。
[0049]
(4)根据参考集的基因组信息,共选取得到大白和长白的66个特异性snp位点。根据二项分布的计算公式得到验证集个体的品种信息,结果见表1。根据表1的结果可知该方法在验证集上的准确性为100%。
[0050]
表1验证群个体归属于各个品种的概率
[0051][0052]
(5)将参考集和验证集的基因型数据合并,使用plink软件将基因型数据转换为.bed,.fam及.bim格式的二进制文件。使用admixture软件确定最佳的k值(k=2),并得到验证群个体的血统比例,结果见表2。根据表1结果可知该方法在验证集上的准确性为100%。
[0053]
表2验证群个体的血统比例
[0054][0055]
综合(3),(4),(5)的结果,最终判定个体1-个体3为大白,个体4-个体7为长白,个体8-个体10为二元杂。
[0056]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献