一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于对照组的半监督SNP分型方法、装置和电子设备与流程

2022-04-09 08:50:07 来源:中国专利 TAG:

基于对照组的半监督snp分型方法、装置和电子设备
技术领域
1.本发明涉及基因分型技术领域,尤其是涉及一种基于对照组的半监督snp分型方法、装置和电子设备。


背景技术:

2.单核苷酸多态性(single nucleotide polymorphism,snp)主要是指在基因组水平上由单个核苷酸的变异所引起的dna序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。snp在人类基因组中广泛存在,目前已经形成直接测序法、扩增曲线法、高分辨率熔解曲线分析(high resolution melting,hrm)等多种分型检测技术。其中,扩增曲线法凭借其操作简单、速度快、通量大、结果容易判读等优点被广泛应用。
3.扩增曲线法通常采集各样本针对各等位基因扩增终了的荧光强度数据,然后以此为基础进行研究(也被称为“终点法”)。这其中用的较多的分析方法是聚类分析,但通过实验发现,簇分布的不规则程度对聚类结果的影响较大,如果簇分布很不规则,则聚类效果通常不会太好,此时,要取得良好的聚类效果,需要较多的已标签数据,且簇分布越不规则,就需要越多的已标签数据。
4.也就是说,现有的snp基因分型技术中,存在由于基因型簇分布不规则,导致分型效果不好的技术问题。


技术实现要素:

5.本发明的目的在于提供一种基于对照组的半监督snp分型方法、装置和电子设备,以缓解现有技术中存在的由于基因型簇分布不规则,导致分型效果不好的技术问题。
6.第一方面,本发明实施例提供了一种基于对照组的半监督snp分型方法,包括:
7.基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;
8.根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;
9.根据snp的基因型特点对聚类结果进行分类,确定待测样本的基因型。
10.在一些可能的实施方式中,基于预先采集的样本数据,确定类别中心的步骤之前,方法还包括:
11.采集针对snp位点的各通道终点荧光强度数据;
12.对终点荧光强度数据进行预处理,生成样本数据。
13.在一些可能的实施方式中,基于预先采集的样本数据,确定类别中心的步骤,包括:
14.基于预先采集的样本数据,确定对照组样本的已知类别;对照组样本的已知类别包括:空白样本、纯合子、杂合子;
15.根据对照组样本的已知类别,确定第一类别中心。
16.在一些可能的实施方式中,基于预先采集的样本数据,确定类别中心的步骤,还包
括:
17.基于预先采集的样本数据和预先确定的总类别数,确定未知类别数目;
18.基于最小距离最大原则,确定未知类别的第二类别中心。
19.在一些可能的实施方式中,根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果的步骤,包括:
20.根据第一类别中心和第二类别中心,结合预先确定的设定模式,对样本数据进行自适应聚类分析,生成最优聚类结果。
21.在一些可能的实施方式中,设定模式包括允许变更和不允许变更;
22.当对照组的设定模式为允许变更时,则对照组中的各样本所属类别在进行聚类时允许变更;当对照组的设定模式为不允许变更时,则对照组中的各样本所属类别在进行聚类时不允许变更。
23.第二方面,本发明实施例提供了一种基于对照组的半监督snp分型装置,包括:
24.类别中心确定模块,用于基于预先采集的样本数据,确定对照组样本的类别中心;样本数据包括对照组样本和待测样本;
25.聚类分析模块,用于根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;
26.分类模块,用于根据snp的基因型特点对聚类结果进行分类,确定待测样本的基因型。
27.在一些可能的实施方式中,还包括:采集模块,用于采集针对snp位点的各通道终点荧光强度数据;对终点荧光强度数据进行预处理,生成样本数据。
28.第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
29.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述第一方面任一项所述的方法。
30.本发明提供了一种基于对照组的半监督snp分型方法、装置和电子设备,该方法包括:基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;根据snp的基因型特点对聚类结果进行分类,确定待测样本的snp分型。通过该方法缓解了由于基因型簇分布不规则,导致分型效果不好的技术问题,达到了提高分型准确性且易于实现的技术效果。
附图说明
31.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
32.图1为本发明实施例提供的一种基于对照组的半监督snp分型方法的流程示意图;
33.图2为本发明实施例提供的一种基于对照组的半监督snp分型方法的分型结果示
意图;
34.图3为本发明实施例提供的一种基于对照组的半监督snp分型装置的结构示意图;
35.图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
36.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
37.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
39.snp即单核苷酸多态性,目前已经形成直接测序法、扩增曲线法、hrm(高分辨率熔解曲线分析)等多种分型检测技术。在这其中,扩增曲线法虽只针对已知的1-2个位点,但因为操作简单,速度快、通量大、结果容易判读等优点而受到青睐。扩增曲线法通常采用终点法,即采集各样本针对各等位基因扩增终了的荧光强度数据,然后以此为基础进行研究。这其中用的较多的分析方法是聚类分析,但通过实验发现,簇分布的不规则程度对聚类结果的影响较大,如果簇分布很不规则,则聚类效果通常不会太好,此时,要取得良好的聚类效果,需要较多的已标签数据,且簇分布越不规则,就需要越多的已标签数据。
40.已标签数据即为对照组,通常包括空白对照、阴性对照或阳性对照,在snp分型实验中,即为空白对照样本、纯合子对照样本、杂合子对照样本。在具体实验中,可能包括其中一种或几种对照样本,在一种对照样本类中样本的个数也不确定。因为有一部分样本类型已经给定,如果实验符合预期,则这些样本会呈现规定的基因型,如何充分利用已知的对照组数据对最终的未知样本进行基因型分类,这是一个常规的半监督学习问题,但如果实验不符合预期,则有些样本可能不能呈现规定的基因型,即最终的分类结果是与实验情况相关的,此时就是一个比较特殊的半监督学习问题。
41.为此,本方案提出一种基于对照组的半监督基于对照组的半监督snp分型方法,主要思路是充分利用对照组信息,计算具有对照组的初始类中心,并基于最小距离最大原则确定其他类别中心,然后基于与实验相关的对照组设定模式进行聚类分析,确定未知样本基因型,从而缓解了snp分型中因为基因型簇分布不规则,分型效果不好的问题,易于理解,容易实现。
42.为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于对照组的半监督snp分型方法进行详细介绍,参见图1所示的一种基于对照组的半监督snp分型方法的流程示意图,该方法可以由电子设备执行,主要包括以下步骤s110至步骤s130:
43.s110:基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;
44.其中,样本数据为预先采集的各通道实时荧光定量pcr扩增终点荧光强度数据。类别中心用于表示样本数据组中所有类别中心,包括根据对照组确定的已知类别对应的第一类别中心及根据最小距离最大原则确定的未知类别对应的第二类别中心。
45.s120:根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;
46.s130:根据snp的基因型特点对聚类结果进行分类,确定待测样本的基因型。
47.本发明提供了一种基于对照组的半监督snp分型方法,该方法包括:基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;根据snp的基因型特点对聚类结果进行分类,确定待测样本的snp分型。通过该方法缓解了由于基因型簇分布不规则,导致分型效果不好的技术问题,达到了提高分型准确性且易于实现的技术效果。
48.在一种实施例中,上述步骤s110之前,该方法还包括:
49.s21:采集针对snp位点的各通道终点荧光强度数据;
50.s22:对终点荧光强度数据进行预处理,生成样本数据。
51.在本发明实施例中,采集各通道实时荧光定量pcr扩增终点荧光强度数据,在确定终点荧光强度之前,应去除基线、各通道之间串扰、孔间误差等的影响。对终点荧光强度数据进行预处理还包括归一化,采用整体归一化,即首先确定所有通道中最大的终点荧光强度及最小的终点荧光强度,然后采用最大最小归一化方法即可。
52.在一种实施例中,上述步骤s110包括:
53.s31:基于预先采集的样本数据,确定对照组样本的已知类别;对照组样本的已知类别包括:空白样本、纯合子、杂合子;
54.s32:根据对照组样本的已知类别,确定第一类别中心。
55.在本发明实施例中,首先计算对照组内各类别初始中心(即第一类别中心)。双通道是snp分型的基础,对于多通道的情形,对其中的任意两个通道分别进行双通道分析即可。以其中杂合子对照组为例,假设有n个已知的杂合子对照样本,其中样本i对应的1、2两通道终点荧光强度分别为(x
i1
,x
i2
),则该类别初始中心(x1,x2)为:
[0056][0057]
同理确定其他已知类别的第一类别中心。
[0058]
在一种实施例中,上述步骤s110还包括:
[0059]
基于预先采集的样本数据和预先确定的总类别数,确定未知类别数目;
[0060]
基于最小距离最大原则,确定未知类别第二类别中心。
[0061]
在本发明实施例中,设已知的对照组类别数为m,则总类别数目m≥m,可能的基因型包括空白样本、纯合子1、纯合子2、杂合子,即4种,另外,可根据样本数目额外增加1-2类未知类型。为了找出最优的分类结果,进行聚类分析时依次以分类数目c=m,

,6(c为正整数)进行聚类,然后根据一定的评价指标进行选择。
[0062]
假设已知类别初始中心共有3个,如果c=3,则所有初始类别中心已确定,如果c》
3,以c=4为例,则在已知的3个初始类别中心之外还需要确定一个类别中心,以最小距离最大原则进行选择,即计算所有样本中每1个样本距3个初始类别中心的最短距离,然后比较所有样本的最短距离,如果某个样本具有最大的最短距离,则该样本位置即为第4个初始聚类中心,以此类推,确定其他初始聚类中心。
[0063]
在一种实施例中,上述步骤s120包括:根据第一类别中心和第二类别中心,结合预先确定的设定模式,对样本数据进行自适应聚类分析,生成最优聚类结果。
[0064]
其中,预先确定的设定模式包括允许变更和不允许变更;
[0065]
当对照组的设定模式为允许变更时,则对照组中的各样本所属类别在进行聚类时允许变更;当对照组的设定模式为不允许变更时,则对照组中的各样本所属类别在进行聚类时不允许变更。
[0066]
在本发明实施例中,根据对照组各样本所属类别在进行聚类时是否允许变更,将对照组设定模式分为两种:其一是“允许”,其二是“不允许”。上述对照组的设定模式可以根据试验情况确定,如果试验中各已知对照组各通道终点荧光强度人为判据均符合预期,则可将设定模式定为“不允许”;如果实验中各已知对照组各通道终点荧光强度人为判据具有不符合预期的情况,且是试验流程、方法、耗材等方面的问题,在稳妥的情况下,试验应该重做,但如果是因为其他因素,比如未知突变,此时也可谨慎的将设定模式定为“允许”,即对照组各样本基因型在聚类过程中可以更改。
[0067]
在本发明实施例中,在上述优化阶段,当对照设定模式定为允许时,可以采样聚类分析工具k-means进行聚类,即计算每个样本与各个聚类中心之间的距离,把每个样本分配给距离它最近的聚类中心,然后不断迭代,直到满足最后的终止条件,比如迭代次数达到规定次数、聚类中心不再发生改变或距离平方和最小等。
[0068]
当对照组设定模式定为不允许时,在计算新的聚类中心后,不需要重新计算对照组样本与各中心距离,即将各对照组样本仍归为它所属的类别中,对于其他样本,则按照该样本距各聚类中心的最短距离进行重新归类。
[0069]
以轮廓系数作为评价指标,因进行聚类分析时可选的分类数目c=m,

,6(c为正整数),依次进行聚类分析,并选取具有最高轮廓系数的聚类结果。
[0070]
根据各基因型生物学特征,当为纯合子时,其中一个通道的终点荧光强度相对于其他通道会明显变大,即靠近该通道对应的坐标轴,当为杂合子时,某两个通道的终点荧光强度会比较接近,即靠近两正交坐标轴的分界面。为此,综合考察各聚类中心,当某聚类中心靠近某坐标轴时,为对应该坐标轴通道的纯合子,反之则为杂合子。
[0071]
作为一个具体的示例,利用博日荧光定量pcr检测系统对多份模板试剂进行了pcr扩增实验,并利用上述方法进行了snp分型。这里以其中一份某snp位点具有两个等位基因数据为例,设定轮廓系数阈值为0.90。实验共17个样本,其中已知的对照组共8个,空白对照组、纯合子1对照组、纯合子2对照组及杂合子对照组分别有2个样本,其余9个样本为未知类型样本,实验结果经专家判断,对照组基因型均符合预期。将对照组设定模式设为“不允许”。
[0072]
按照前述步骤进行分析,因样本总数较少,取c=4,5依次进行分析,发现当c=4时具有较高的轮廓系数0.99,取该次聚类结果,如图2所示。为了进行比较,可以人为更改几个对照组基因型,如果对照组模式设定为“不允许”,则大部分样本因为个体轮廓系数较低定
为未知样本,且总体轮廓系数《0.5,显然是不符合要求的,反之,如果将对照组模式设定为“允许”,则虽然初始设定的聚类中心有误,但经过迭代优化,最后能达到图2的分类效果,即不考虑其他因素,单纯从聚类效果看,将对照组模式设定为“允许”具有较好的鲁棒性。
[0073]
本发明提供了一种基于对照组的半监督snp分型方法,该方法包括:基于预先采集的样本数据,确定对照组样本的类别中心;样本数据包括对照组样本和待测样本;根据对照组样本的类别中心,对样本数据进行自适应聚类分析,生成聚类结果;根据snp的基因型特点对聚类结果进行分类,确定待测样本的snp分型。通过该方法缓解了由于基因型簇分布不规则,导致分型效果不好的技术问题,达到了提高分型准确性且易于实现的技术效果。
[0074]
本发明实施例提供了一种基于对照组的半监督snp分型装置,参见图3,该装置包括:
[0075]
类别中心确定模块310,用于基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;
[0076]
聚类分析模块320,用于根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;
[0077]
分类模块330,用于根据snp的基因型特点对聚类结果进行分类,确定待测样本的基因型。
[0078]
在一种实施例中,上述装置还包括:采集模块,用于采集针对snp位点的各通道终点荧光强度数据;对终点荧光强度数据进行预处理,生成样本数据。
[0079]
本技术实施例所提供的基于对照组的半监督snp分型装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本技术实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。本技术实施例提供的基于对照组的半监督snp分型装置与上述实施例提供的基于对照组的半监督snp分型方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
[0080]
本技术实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
[0081]
图4为本技术实施例提供的一种电子设备的结构示意图,该电子设备400包括:处理器40,存储器41,总线42和通信接口43,所述处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存储器41中存储的可执行模块,例如计算机程序。
[0082]
其中,存储器41可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
[0083]
总线42可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0084]
其中,存储器41用于存储程序,所述处理器40在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
[0085]
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现成可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
[0086]
对应于上述方法,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述方法的步骤。
[0087]
在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0088]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0089]
另外,在本技术提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0090]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0091]
应注意到:相似的标号和字母在附图中表示类似项,因此,一旦某一项在一个附图
中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0092]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献