一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于SNP位点的基因身高预测试剂盒和芯片及方法与流程

2022-04-14 02:19:55 来源:中国专利 TAG:

基于snp位点的基因身高预测试剂盒和芯片及方法
技术领域
1.本发明涉及生物医疗领域。具体地,本发明涉及基于snp位点的基因身高预测试剂盒和芯片及方法。


背景技术:

2.目前对儿童成年后身高的预测方法主要包括:(1)通过测定骨龄,进而推算出儿童剩余的长高空间的骨龄检测法(骨龄是国内外专家一致公认能精确反映人体发育成熟度、骨骼生长状况的一个重要而可定量计数的指标);(2)基于父母身高,来估算子代身高的父母平均身高预测法;(3)基于身高的遗传度最高可达80%的基因检测的方法。然而,依托于非基因检测的身高预测技术,如通过测量骨龄,只能反映检测时间节点时的发育状况;依托于基因检测的身高预测的技术,大多依托于分类模型,即给出的结果为有限分类类型(如:高身高、低身高、平均身高),无法提供具体的预测身高数值。
3.因此,目前预测身高的方法仍有待研究。


技术实现要素:

4.本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。为此,本发明提出了用于预测身高的snp、用于检测snp的探针、用于预测身高的试剂盒和芯片及其用途、构建用于预测身高的机器学习模型的方法、预测身高的方法、电子设备和可执行的存储介质,利用本发明提出的snp可以准确地预测出身高数值,具有良好的应用推广价值。
5.在本发明的一个方面,本发明提出了一种用于预测身高的snp。根据本发明的实施例,所述用于预测身高的snp包括下列的至少之一:rs10946808、rs10958476、rs11021504、rs11205277、rs11765954、rs12198986、rs12338076、rs1351394、rs143383、rs143384、rs1776897、rs1812175、rs185819、rs2282978、rs3130050、rs3748069、rs3751599、rs3760318、rs3791675、rs3791679、rs3816804、rs3823418、rs4533267、rs4713858、rs4743034、rs4794665、rs4800148、rs4821083、rs6030712、rs6060369、rs6763931、rs678962、rs6830062、rs7153027、rs7571816、rs757608、rs7678436、rs7846385、rs7968682、rs798544、rs8756和rs967417。采用上述snp位点可以准确预测身高。
6.需要说明的是,本发明所使用的rs编号是ncbi基因数据库对snp的识别编号,对应着基因组上一个特定位置的基因改变,可在ncbi数据库中查询。
7.在本发明的另一方面,本发明提出了一种用于检测前面所述的snp的探针。根据本发明的实施例,所述探针具有如seq id no:1~42任一所述核苷酸序列。上述探针可以特异性地识别相应的snp位点(对应关系如下表),从而可以准确地获知snp位点的基因型,进一步准确预测身高值。
8.表1探针和snp位点对应关系
[0009][0010][0011]
在本发明的又一方面,本发明提出了一种用于预测身高的试剂盒或芯片。根据本发明的实施例,所述用于预测身高的试剂盒或芯片包括前面所述用于检测前述的snp的探针。由此,利用根据本发明实施例的试剂盒或芯片可以有效地识别并结合前述snp位点,从而有助于准确获知其基因型,进一步准确预测身高值。
[0012]
在本发明的又一方面,本发明提出了用于预测身高的snp的试剂、前面所述用于检
测snp的探针或者用于预测身高的试剂盒或芯片在构建预测身高的机器学习模型或者预测身高中的应用。
[0013]
在本发明的又一方面,本发明提出了一种构建用于预测身高的机器学习模型的方法。根据本发明的实施例,所述方法包括:获取已知性别和身高值的受试者的生物样本;提取所述生物样本的基因组dna;测定所述基因组dna中如前面所述用于预测身高的snp的基因型;以所述snp的基因型作为机器学习模型的输入特征,以性别和身高值作为标记,进行训练,获得用于预测身高的机器学习模型。如前所述,利用前面所述snp位点、检测其的探针或试剂盒或芯片可以准确地预测身高值。具体地,预测身高是以非诊断和治疗目的实施的。
[0014]
根据本发明的实施例,利用前面所述用于检测snp的探针识别所述基因组dna上的所述snp。上述探针可以特异性识别并结合到snp位点,通过测序可以获知snp位点的基因型,从而有助于基于基因型预测身高值。
[0015]
根据本发明的实施例,所述生物样本选自外周血、唾液、试子和/或实体组织。
[0016]
根据本发明的实施例,所述机器学习模型为回归模型。目前现有的基于基因型预测身高均采用的是分类模型,其给出的结果为有限的分类类型,如高身高、低身高、平均身高等,无法预测具体的身高数值。基于上述snp位点的基因型可以构建回归模型,进而可以准确地预测身高数值。
[0017]
在本发明的又一方面,本发明提出了一种预测身高的方法。根据本发明的实施例,所述预测身高的方法包括:获取已知性别受试者的生物样本;提取所述生物样本的基因组dna;测定所述基因组dna中如前面所述用于预测身高的snp的基因型;将性别和所述snp的基因型输入预先构建的机器学习模型中,进行测试,以便预测所述受试者的身高值。由此,利用根据本发明实施例的方法可以准确预测身高值。
[0018]
根据本发明的实施例,所述预先构建的机器学习模型是通过前面所述构建用于预测身高的机器学习模型的方法获得的。
[0019]
在本发明的又一方面,本发明提出了一种可执行的存储介质。根据本发明的实施例,所述存储介质存储有计算机程序指令,所述计算机程序指令在处理器上运行时,使所述处理器执行如前面所述预测身高的方法。由此,可以准确地预测身高值。
[0020]
在本发明的又一方面,本发明提出了一种电子设备。根据本发明的实施例,所述电子设备包括:前面所述可执行的存储介质和处理器;所述处理器用于执行所述计算机程序以实现如前面所述预测身高的方法。由此,通过实施该电子设备,可以准确地预测身高值。
[0021]
有益效果
[0022]
(1)基于本发明构建用于预测身高的机器学习模型的方法构建的模型,得到的预测身高值和样本的实际身高值之间的皮尔逊相关系数为0.58,表明其检测的准确性较高。并且,可直接给出身高的数值,而现有技术给出结论大多为“高身高、低身高或平均身高”等,本发明的结论较以往而言更加明确,且有可信度的支持。
[0023]
(2)由于本发明的预测身高方法基于真实有效的样本基因型和表型数据,故可以对不同遗传背景的群体做出差异化的模型。
[0024]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0025]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0026]
图1显示了根据本发明一个实施例的构建预测身高的机器学习模型的流程示意图;
[0027]
图2显示了根据本发明一个实施例的预测身高值和真实身高值之间的皮尔逊相关系数分析图。
具体实施方式
[0028]
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
[0029]
实施例1
[0030]
发明人对现有技术中公开的与身高相关的snp位点进行分析,从中选取了51个snp位点。通过收集296个成年测试样本(男性:168个,女性:128个)的基因型数据和真实身高表型数据;使用plink

linear软件计算snp位点基因型和身高表型之间的关联性p值,设置阈值为0.5。选取p值小于阈值的42个snp位点(具体位点参见表1)作为后续建模和预测的位点集合。
[0031]
实施例2
[0032]
参考图1所示流程图构建身高预测机器学习模型,采集大量受测者的唾液样本,并要求受测样本填写身高、性别信息的问卷。通过对受测者唾液样本提取dna,建库上机杂交测序,并对信号数据进行分析,得到受测者42个snp位点的具体基因型。将基因型和性别数据输入构建好的模型中,即可得到受测者的基因身高预测值。具体步骤如下:
[0033]
(1)训练集构建:
[0034]

样本预处理:样本预处理过程中去除了性别信息不明确、年龄数值不达标(年龄《18)和基因型数据质控不合格的样本(call_rate《98%)。最终获得了326名成年女性和423名成年男性的42个snp位点基因型数据和身高表型数据。
[0035]

数据预处理:样本身高数据统一单位为cm;
[0036]
性别数据:男性用0表示,女性用1表示;
[0037]
基因型数据:基因型为野生型纯合体时表示为0,杂合体表示为1,突变型纯合体表示为2;
[0038]
将749个样本的数据转换为一个749
×
44的矩阵。
[0039]
(2)建模:
[0040]
配置python2.7环境,下载安装sklearn模块,调用fit函数使用训练集进行模型构建。
[0041]
(3)模型评估:
[0042]

测试集基因型:共收集了258名男性和316名女性的唾液样本,经过dna提取后,使用表1中提供的探针进行杂交建库并上机测序。通过数据数据分析将测序数据转换为对
应snp位点的基因型数据;基因型为野生型纯合体时表示为0,杂合体表示为1,突变型纯合体表示为2;
[0043]

测试集表型数据:收集受测者的真实身高(单位:cm)和性别数据;男性用0表示,女性用1表示;
[0044]

测试集编码:对每一个样本生成一个1
×
43的矩阵变量,导入先前获得的预测模型,使用predict方法得到预测值;
[0045]

相关性评估:对于所有测试样本,使用真实身高数值作为横坐标,预测身高值作为纵坐标,画出散点图并计算皮尔逊相关系数,值为0.58(图2)。由此,表明该方法可以准确预测身高值。
[0046]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0047]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献