一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种确定基因型的方法及装置与流程

2022-02-22 20:37:42 来源:中国专利 TAG:


1.本发明属于核酸质谱技术领域,尤其涉及一种确定基因型的方法及装置。


背景技术:

2.由于核酸质谱技术是基于聚合酶链式反应(polymerase chain reaction ,缩写pcr)扩增之后实现多位点单碱基延伸后的准确检测,因此核酸质谱技术是生物分析方面必不可少的检测手段;但人们往往忽略了对质谱实验数据的准确分析和表达,即基因型分析。由于基因型分析结果的准确性对临床分析起着至关重要的作用,因此基因型分析是质谱实验数据处理过程中必不可少的重要环节。
3.在现代临床应用中,由于基因型表达对由一系列存在于核酸序列上的基因调控而引起的大部分生理或疾病性状、用药种类,以及剂量指导等多方面有着极其重要的作用;因此对于基因型表达,精准的基因型分析显得尤为重要。目前常用的基因型分析技术有限制性片段长度多态性、末端限制性长度多态性、扩增片段长度多态性、多重连接探针扩增等;然而现有的基因型分析技术只能做出大概预测,无法获取准确的基因型分析结果。为此,需要提供一种高可靠性和高准确性的基因型分析方法。


技术实现要素:

4.鉴于此,本发明实施例提供一种确定基因型的方法及装置,能够对质谱实验数据进行准确地分析,提高了基因型分析的可靠性和准确性。
5.为实现上述目的,根据本发明实施例第一方面,提供一种确定基因型的,所述方法包括:将核酸质谱图中质谱峰按照位点分子量分成若干位点单元;每个所述位点单元包括引物质谱峰和至少一个样本质谱峰;针对所述位点单元中任一样本质谱峰:将所述样本质谱峰按照钟形曲线进行拟合,得到拟合函数数据,并从所述拟合函数数据中获取所述样本质谱峰的特征值,所述特征值为峰高、峰面积或者信噪比;基于所述拟合函数数据确定所述样本质谱峰的有效性参数;若所述有效性参数满足有效性阈值,则确定所述样本质谱峰为等位基因峰;基于所述位点单元中等位基因峰对应的位点分子量以及特征值,确定所述位点单元的基因型。
6.可选的,所述基于所述位点单元中等位基因峰对应的位点分子量以及特征值,确定所述位点单元的基因型,包括:若所述位点单元只有一个等位基因峰的特征值满足特征值阈值,则基于所述等位基因峰对应的位点分子量确定所述位点单元的基因型;若所述位点单元中有两个或两个以上等位基因峰的特征值均满足特征值阈值,则基于每个所述等位基因峰对应的位点分子量以及特征值,确定所述位点单元的基因型。
7.可选的,所述若所述位点单元中有两个等位基因峰的特征值均满足特征值阈值,则基于每个所述等位基因峰对应的位点分子量以及特征值,确定所述位点单元的基因型,包括:若所述位点单元中有两个等位基因峰的特征值均满足特征值阈值,则将位点分子量最大的等位基因峰作为主要等位基因,并将位点分子量最小的等位基因峰作为次要等位基
因;基于两个所述等位基因峰的特征值确定所述位点单元的产物强度;获取所述引物质谱峰的特征值,基于所述产物强度和所述引物质谱峰的特征值确定所述位点单元的延伸率;若所述产物强度和所述延伸率均满足预设条件,则基于所述次要等位基因的特征值和所述主要等位基因的特征值,确定所述位点单元的惩罚值;判断所述惩罚值是否满足预设惩罚值,若满足,则将所述位点单元的基因型记为次要等位基因-主要等位基因。
8.所述若有两个以上等位基因峰的特征值均满足特征值阈值,则基于每个所述等位基因峰对应的位点分子量以及特征值,确定所述位点单元的基因型,包括:若所述位点单元中有两个以上等位基因峰的特征值均满足特征值阈值,则基于两个以上所述等位基因峰的特征值确定所述位点单元的产物强度;获取所述引物质谱峰的特征值,基于所述产物强度和所述引物质谱峰的特征值确定所述位点单元的延伸率;若所述产物强度和所述延伸率均满足预设条件,则针对所述位点单元中任一所述等位基因峰:基于所述等位基因峰的特征值和所述产物强度确定所述等位基因峰的频率;将所述位点单元中所有等位基因峰的频率按照从大到小的顺序排列,并将排序中频率最大的等位基因峰作为基因型的起始基因峰,之后按照所述排序依次判断每个所述等位基因峰的频率是否满足预设频率阈值,基于判断结果将满足预设频率阈值的等位基因峰依次排列在所述起始基因峰后,得到基因型排序;基于所述基因型排序中等位基因峰对应的位点分子量,确定所述位点单元的基因型。
9.可选的,所述基于所述拟合函数数据确定所述样本质谱峰的有效性参数,包括:基于所述样本质谱峰的拟合函数数据,确定样本质谱峰的信噪比参数、分辨率参数、峰偏移量参数、峰宽参数,以及峰形状参数;基于所述信噪比参数、分辨率参数、峰偏移量参数、峰宽参数,以及峰形状参数,确定所述样本质谱峰的有效性参数。
10.可选的,所述的方法还包括:确定所述位点单元的基因型可靠性参数;判断所述基因型可靠性参数是否满足预设可靠性阈值;基于判断结果确定所述位点单元的基因型可靠性结果。
11.可选的,所述确定所述位点单元的基因型可靠性参数,包括:从所述位点单元中选取最小有效性参数作为所述位点单元的质量参数;确定所述位点单元的影响性参数;基于所述位点单元中所有等位基因峰的特征值以及引物质谱峰的特征值,确定所述位点单元的产量参数;基于所述质量参数、所述影响性参数以及所述产量参数,确定所述位点单元的基因型可靠性参数。
12.可选的,所述确定所述位点单元的影响性参数,包括:若所述位点单元中只有一个等位基因峰,则确定所述位点单元的影响参数为常数;若所述位点单元中有两个或两个以上等位基因峰,则将所有等位基因峰中位点分子量最大的等位基因峰作为主要等位基因,并将位点分子量最小的等位基因峰作为次要等位基因,基于所述次要等位基因和所述主要等位基因之间的比率确定所述位点单元的影响参数。
13.可选的,所述预设可靠性阈值包括第一预设可靠性阈值、第二预设性可靠阈值和第三预设性可靠阈值;所述基于判断结果确定所述位点单元的基因型可靠性结果,包括:若所述基因型可靠性参数小于第一预设可靠性阈值,则确定所述位点单元的基因型可靠性结果为低概率型;若所述基因型可靠性参数大于第一预设可靠性阈值且小于第二预设可靠性阈值,则确定所述位点单元的基因型可靠性结果为可能型;若所述基因型可靠性参数大于第二预设可靠性阈值且小于第三预设可靠性阈值,则确定所述位点单元的基因型可靠性结
果为肯定型;若所述基因型可靠性参数大于第三预设可靠性阈值,则确定所述位点单元的基因型可靠性结果为确定型。
14.为实现上述目的,根据本技术实施例第二方面,还提供一种确定基因型的装置,所述装置包括:划分模块,用于将核酸质谱图中质谱峰按照位点分子量分成若干位点单元;每个所述位点单元包括引物质谱峰和至少一个样本质谱峰;第一确定模块,用于针对所述位点单元中任一样本质谱峰:将所述样本质谱峰按照钟形曲线进行拟合,得到拟合函数数据,并从所述拟合函数数据中获取所述样本质谱峰的特征值,所述特征值为峰高、峰面积或者信噪比;基于所述拟合函数数据确定所述样本质谱峰的有效性参数;若所述有效性参数满足有效性阈值,则确定所述样本质谱峰为等位基因峰;第二确定模块,用于基于所述位点单元中等位基因峰对应的位点分子量以及特征值,确定所述位点单元的基因型。
15.为实现上述目的,根据本技术实施例第三方面,还提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述的确定基因型的方法。
16.为实现上述目的,根据本技术实施例第四方面,还提供一种电子设备,该电子设备包括处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现如第一方面所述的确定基因型的方法。
17.相关技术相比,本技术实施例提供的一种确定基因型的方法及装置,所述方法包括:首先将核酸质谱图中质谱峰按照位点分子量分成若干位点单元;每个所述位点单元包括引物质谱峰和至少一个样本质谱峰;之后针对所述位点单元中任一样本质谱峰:将所述样本质谱峰按照钟形曲线进行拟合,得到拟合函数数据,并从所述拟合函数数据中获取所述样本质谱峰的特征值,所述特征值为峰高、峰面积或者信噪比;基于所述拟合函数数据确定所述样本质谱峰的有效性参数;若所述有效性参数满足有效性阈值,则确定所述样本质谱峰为等位基因峰;最后基于所述位点单元中等位基因峰对应的位点分子量以及特征值,确定所述位点单元的基因型。由此能够基于核酸质谱图以及位点分子量确定位点单元的基因型,提高了基因型分析的准确性,解决了现有技术中由于采用有限制性片段长度多态性、末端限制性长度多态性、扩增片段长度多态性、多重连接探针扩增等技术导致无法准确预测核酸序列基因型的问题。
18.需要理解的是,本技术的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本技术的其他实施方式还能够实现上面未提到的有益效果。
附图说明
19.附图用于更好地理解本技术,不构成对本技术的不当限定。其中在附图中,相同或对应的标号表示相同或对应的部分。
20.图1为本技术一实施例确定基因型的方法的示意性流程图;图2为本技术一实施例中位点单元质谱峰的示意图;图3为本技术另一实施例确定基因型的方法的示意性流程图;图4为本技术一实施例确定基因型的装置的示意性框图。
具体实施方式
21.以下结合附图对本技术的示范性实施例做出说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
22.如图1所示,本技术一实施例确定基因型的方法的示意性流程图;如图2所示,本技术一实施例中位点单元质谱峰的示意图。
23.一种确定基因型的方法,该方法至少包括如下操作流程:s101,将核酸质谱图中质谱峰按照位点分子量分成若干位点单元;每个位点单元包括引物质谱峰和至少一个样本质谱峰;s102,针对位点单元中任一样本质谱峰:将样本质谱峰按照钟形曲线进行拟合,得到拟合函数数据,并从拟合函数数据中获取样本质谱峰的特征值,特征值为峰高、峰面积或者信噪比;基于拟合函数数据确定样本质谱峰的有效性参数;若有效性参数满足有效性阈值,则确定样本质谱峰为等位基因峰;s103,基于位点单元中等位基因峰对应的位点分子量以及特征值,确定位点单元的基因型。
24.在s101中,根据核酸质谱检测试剂中位点排列,将核酸质谱仪输出的核酸质谱图中质谱峰按照位点分子量依次划分成若干位点单元,每个位点单元中具有相同的引物质谱峰,但是每个位点单元中样本质谱峰的数量不一定相同,位点单元至少包括一个样本质谱峰且样本质谱峰的数量不大于五个。例如:第一个位点单元中样本质谱峰为一个,第二个位点单元中样本质谱峰为三个,第三个位点单元中样本质谱峰为五个。
25.如图2所示,位点单元中引物质谱峰作为基准峰为up,四个样本质谱峰分别为pc,pa,pg以及pu。基于四个样本质谱峰在质谱图中位置,确定四个样本质谱峰所对应的位点分子量,如下所示:pc的位点分子量为up位点分子量 247.2da;pa的位点分子量为up位点分子量 271.2da;pg的位点分子量为up位点分子量 287.2da;pu的位点分子量为up位点分子量 327.2da或262.2da。
26.在s102中,钟形曲线对应的函数表达式如下式所示:式(1);-=式(2);snr=/n()式(3);v=a/snr式(4)。
27.其中,为拟合峰值中心基线之上的峰高,为拟合线宽、为拟合峰值中心,
为样本质谱峰的预期分子量,为峰偏移,为拟合峰与基线之间的峰面积、为信噪比、为面积方差,yi和为样本质谱图上任一点对应的峰高和分子量,由此得到拟合函数数据。拟合函数数据包括但不限于、、a、、,以及。
28.之后,可以利用深度学习的方法训练归一化模型,利用归一化模型对拟合函数数据进行预测处理,得到样本质谱峰的有效性参数;或者,利用现有的算法对拟合函数数据进行归一化计算,得到样本质谱峰的有效性参数。
29.最后,再判断样本质谱峰对应的有效性参数是否大于有效性阈值,若有效性参数大于有效性阈值,则确定样本质谱峰为等位基因峰;若有效性参数不大于有效性阈值,则确定样本质谱峰不是等位基因峰。在这里,有效性阈值是预设的且基于实际经验获得的。
30.需要说明的是,基于核酸检测目的的不同,当用于基因类型检测时,优选峰高或信噪比作为产量检测因子,次选峰面积作为产量检测因子;当用于基因突变检测时,优选峰面积作为产量检测因子,次选峰高或信噪比作为产量检测因子。在选择峰高或信噪比作为产量检测因子时,通常基于如下规则进行选取:当样本浓度高的时候选择峰高作为产量检测因子,当样本浓度低的时候选择信噪比作为产量检测因子。因此根据核酸检测目的的不同,需要从拟合函数数据中选取不同的产量检测因子作为特征值。
31.在s103中,若位点单元中没有等位基因峰,则确定位点单元的基因型为无结果。若位点单元中有等位基因峰,则基于位点单元中等位基因峰对应的位点分子量以及特征值,确定位点单元的基因型;示例性地,若位点单元只有一个等位基因峰的特征值满足特征值阈值,则基于等位基因峰对应的位点分子量确定位点单元的基因型;若位点单元中有两个或两个以上等位基因峰的特征值均满足特征值阈值,则基于每个等位基因峰对应的位点分子量以及特征值,确定位点单元的基因型;若位点单元等位基因峰的特征值均不满足特征值阈值,则确定位点单元的基因型为无结果。
32.本技术实施例提供的一种确定基因型的方法,所述方法针对核酸质谱图中的任一位点单元的样本质谱峰:对样本质谱峰进行拟合处理,从而得到拟合函数数据;并基于拟合函数数据确定样本质谱峰的有效性参数,之后基于有效性参数判断样本质谱峰是否为等位基因峰;最后基于位点单元中等位基因峰的对应的位点分子量以及特征值,确定位点单元的基因型。由此能够基于核酸质谱图以及位点分子量确定位点单元的基因型,提高了基因型分析结果的准确性,解决了现有技术中由于采用有限制性片段长度多态性、末端限制性长度多态性、扩增片段长度多态性、多重连接探针扩增等技术导致无法准确预测核酸序列基因型的问题。
33.如图3所示,本技术另一实施例确定基因型的方法的示意性流程图。本实施例是在前述实施例的基础上进一步优化得到的。该方法至少包括如下操作流程:s301,将核酸质谱图中质谱峰按照位点分子量分成若干位点单元;每个位点单元包括引物质谱峰和至少一个样本质谱峰;s302,针对位点单元中任一样本质谱峰:将样本质谱峰按照钟形曲线进行拟合,得到拟合函数数据,并从拟合函数数据中获取样本质谱峰的特征值,特征值为峰高、峰面积或者信噪比;基于拟合函数数据确定样本质谱峰的有效性参数;若有效性参数满足有效性阈值,则确定样本质谱峰为等位基因峰;s303,基于位点单元中等位基因峰对应的位点分子量以及特征值,确定位点单元的基因型;s304,确定位点单元的基因型可靠性参数;
s305,判断基因型可靠性参数是否满足预设可靠性阈值;s306,基于判断结果确定位点单元的基因型可靠性结果。
34.其中,s301的具体实现过程与图1所示实施例中s101的具体实现过程相类似,这里不再赘述。
35.在s302中,利用现有的算法对拟合函数数据进行归一化计算,得到样本质谱峰的有效性参数。示例性地,基于样本质谱峰的拟合函数数据,确定样本质谱峰的信噪比参数、分辨率参数、峰偏移量参数、峰宽参数,以及峰形状参数;基于信噪比参数、分辨率参数、峰偏移量参数、峰宽参数,以及峰形状参数,确定样本质谱峰的有效性参数。
36.样本质谱峰的信噪比参数用于表示基线变化(化学噪声)对峰高的影响,信噪比参数的计算公式如下所述:所述:式(5);其中,表示样本质谱峰的有效性阈值,优选0.8;表示样本质谱峰识别的信噪比阈值,优选1.5。
37.样本质谱峰的分辨率参数用于表示目标峰与周围峰的位置关系,分辨率参数的计算公式如下所述:的计算公式如下所述:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(6);其中,跟分别表示第i个样本质谱峰的质量和峰形加权值,跟分别表示与第i个样本质谱峰相邻的样本质谱峰的质量和峰形加权值;其中,强峰的样本质谱峰和引物质谱峰的加权值均为1,弱峰的样本质谱峰和引物质谱峰的加权值均为0.05,其中表示计算分辨率参数的一个特殊参数,优选0.7,表示基于第j个样本质谱峰处分子量计算得到的参数。
38.样本质谱峰的偏移量参数用于表示样本质谱峰的拟合峰与样本质谱峰质量信号的接近程度,偏移量参数的计算公式如下所述:号的接近程度,偏移量参数的计算公式如下所述:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(7);其中,表示样本质谱峰的有效性阈值,优选0.8;表示计算偏移量参数的一个特殊参数,优选0.7。
39.样本质谱峰的峰宽参数的计算公式如下所述:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(8);其中,d计算峰宽参数的一个特殊参数,优选-0.001或-0.0005。
40.峰形状参数用于表示高斯曲线与样本特征峰形状的拟合程度,峰形状参数的计算公式如下所述:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(9);其中,e为计算峰形状参数的一个特殊参数,优选0.2或0.1;为拟合面积差,即拟合强度与测量强度之间平方差之和的平方根。
41.样本质谱峰的有效性参数的计算公式如下所述:=
××××ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(10)。
42.在s303中,基于单等位基因峰确定位点单元的基因型的方法,包括:若位点单元只有一个等位基因峰的特征值满足特征值阈值,则基于等位基因峰对应的位点分子量确定位点单元的基因型。例如,若位点单元只有一个等位基因峰的峰高大于峰高阈值,则根据该等位基因峰对应的位点分子量确定位点单元的基因型。峰高阈值可以为1.0。
43.基于两个等位基因峰确定位点单元的基因型的方法,包括:若位点单元中有两个等位基因峰的特征值均满足特征值阈值,则将位点分子量最大的等位基因峰作为主要等位基因,并将位点分子量最小的等位基因峰作为次要等位基因。基于两个等位基因峰的特征值确定位点单元的产物强度;获取引物质谱峰的特征值,基于产物强度和引物质谱峰的特征值确定位点单元的延伸率;若产物强度和延伸率均满足预设条件,则基于次要等位基因的特征值和主要等位基因的特征值,确定位点单元的惩罚值;判断惩罚值是否满足预设惩罚值,若满足,则将位点单元的基因型记为次要等位基因-主要等位基因。
44.例如:s11,若位点单元中有两个等位基因峰的峰高均大于峰高阈值,则将位点分子量最大的等位基因峰作为主要等位基因,并将位点分子量最小的等位基因峰作为次要等位基因。
45.s12,将主要等位基因的峰高与次要等位基因的峰高进行加和,得到位点单元的产物强度m。
46.s13,获取引物质谱峰的峰高,将产物强度与引物质谱峰的峰高进行加和,从而得到加和结果;将产物强度与加和结果作比值,从而得到位点单元的延伸率。
47.s14,判断位点单元的产物强度是否大于预设强度且延伸率是否大于预设延伸率;若判断结果表征产物强度大于预设强度且延伸率大于预设延伸率,则确定位点单元的基因型为有结果,执行s15步骤。
48.若判断结果表征产物强度和延伸率中有一个不满足预设条件,则确定位点单元的基因型为无结果。
49.s15,将次要等位基因峰高与次要等位基因和主要等位基因两者之间的峰高之和作比值,从而得到参数x;并根据惩罚值计算公式,利用参数x计算惩罚值y;惩罚值y计算公式如下所述:ymin=
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(11);其中,参数组a(1.0,0.5,0),b(0.1,0.4,0.1),i为数组下标。
50.s15,判断惩罚值是否小于预设惩罚值,若判断结果表征惩罚值小于预设惩罚值,则将位点单元的基因型记为次要等位基因-主要等位基因;若判断结果表征惩罚值不小于预设惩罚值,则确定位点单元的基因型为无结果。
51.基于两个以上等位基因峰确定位点单元的基因型的方法,包括:若位点单元中有两个以上等位基因峰的特征值均满足特征值阈值,则基于两个以上等位基因峰的特征值确
定位点单元的产物强度;获取引物质谱峰的特征值,基于产物强度和引物质谱峰的特征值确定位点单元的延伸率;若产物强度和延伸率均满足预设条件,则针对位点单元中任一等位基因峰:基于等位基因峰的特征值和产物强度确定等位基因峰的频率;将位点单元中所有等位基因峰的频率按照从大到小的顺序排列,并将排序中频率最大的等位基因峰作为基因型的起始基因峰,之后按照排序依次判断每个等位基因峰的频率是否满足预设频率阈值,基于判断结果将满足预设频率阈值的等位基因峰依次排列在起始基因峰后,得到基因型排序;基于基因型排序中等位基因峰对应的位点分子量,确定位点单元的基因型。
52.例如,s11,若位点单元中有两个以上等位基因峰的峰高均大于峰高阈值,则将两个以上等位基因峰的峰高进行加和,得到位点单元的产物强度m。
53.s12,获取引物质谱峰的峰高,将产物强度与引物质谱峰的峰高进行加和,从而得到加和结果;将产物强度与加和结果作比值,从而得到位点单元的延伸率。
54.s13,判断位点单元的产物强度是否大于预设强度且延伸率是否大于预设延伸率;若判断结果表征产物强度大于预设强度且延伸率大于预设延伸率,则确定位点单元的基因型为有结果,执行s14步骤。
55.若判断结果表征产物强度和延伸率中有一个不满足预设条件,则确定位点单元的基因型为无结果。
56.s14,针对位点单元中任一等位基因峰:基于等位基因峰的峰高和产物强度作比值,从而得到等位基因峰的频率;将位点单元中所有等位基因峰的频率按照从大到小的顺序排列,并将排序中频率最大的等位基因峰作为基因型的起始基因峰,s15,针对排序中的任一等位基因峰:按照排序判断等位基因峰的频率是否大于预设频率阈值,若判断结果表征等位基因峰的频率大于预设频率,则将该等位基因峰依次拼接在起始基因峰后,若判断结果表征等位基因峰的频率不大于预设频率,则舍弃该等位基因峰。再按照排序依次判断其他等位基因峰是否大于预设频率阈值,从而获得到基因型排序;s16,基于基因型排序中等位基因峰对应的位点分子量,确定位点单元的基因型。
57.由此,能够根据位点单元中等位基因峰的数量确定位点单元的基因型,提高了位点单元基因型分析的准确性。
58.在s304至s306中,从位点单元中选取最小有效性参数作为位点单元的质量参数;确定位点单元的影响参数;基于位点单元中所有等位基因峰的特征值以及引物质谱峰的特征值,确定位点单元的产量参数;基于质量参数、影响性参数以及产量参数,确定位点单元的基因型可靠性参数。
59.若位点单元中只有一个等位基因峰,则确定位点单元的影响参数为常数;例如,影响参数=1。
60.若位点单元中有两个或两个以上等位基因峰,则将所有等位基因峰中位点分子量最大的等位基因峰作为主要等位基因,并将位点分子量最小的等位基因峰作为次要等位基因,基于次要等位基因和主要等位基因之间的比率确定位点单元的影响参数位点单元的影响参数的计算公式如下所述:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(12);其中,h为可调参数,优选0.2或0.5,计算为主要等位基因的峰高与次要等位基因的峰高之间的比率,表示样本质谱峰的有效性阈值,优选0.8,如果(影响参数阈值,优选0.8),重新计算,记为,表示反向倾斜,的计算公式如下所述:的计算公式如下所述:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(13);其中,为可调参数,优选0.75或0.6。
61.位点单元的产量参数的计算公式如下所述:的计算公式如下所述:的计算公式如下所述:的计算公式如下所述:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(14);其中,为可调参数,优选0.1或0.25,优选0.8,分别表示等位基因峰的峰高之和跟引物质谱峰的峰高。
62.位点单元的基因型可靠性参数的计算公式如下所示:=
××ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(15)。
63.预设可靠性阈值包括第一预设可靠性阈值、第二预设性可靠阈值和第三预设性可靠阈值。若基因型可靠性参数小于第一预设可靠性阈值,则确定位点单元的基因型可靠性结果为低概率型;若基因型可靠性参数大于第一预设可靠性阈值且小于第二预设可靠性阈值,则确定位点单元的基因型可靠性结果为可能型;若基因型可靠性参数大于第二预设可靠性阈值且小于第三预设可靠性阈值,则确定位点单元的基因型可靠性结果为肯定型;若基因型可靠性参数大于第三预设可靠性阈值,则确定位点单元的基因型可靠性结果为确定型。同理,遍历核酸质谱图中所有位点单元,得到每个位点单元对应的基因型可靠性结果。最后将核酸质谱图对应的基因型,以及基因型可靠性结果作为基因型分析报告输出。
64.本实施例通过对基因型的可靠性进行分析,得到核酸质谱图对应基因型的可靠性结果,由此,提高了基因型分析的可靠性。
65.如图4所示,本技术一实施例确定基因型的装置的示意性框图。一种确定基因型的装置,该装置400包括:划分模块401,用于将核酸质谱图中质谱峰按照位点分子量分成若干位点单元;每个位点单元包括引物质谱峰和至少一个样本质谱峰;第一确定模块402,用于针对位点单元中任一样本质谱峰:将样本质谱峰按照钟形曲线进行拟合,得到拟合函数数据,并从拟合函数数据中获取样本质谱峰的特征值,特征值为峰高、峰面积或者信噪比;基于拟合函数数据确定样本质谱峰的有效性参数;若有效性参数满足有效性阈值,则确定样本质谱峰为等位基因峰;第二确定模块403,用于基于位点单元中等位基因峰对应的位点分子量以及特征值,确定位点单元的基因型。
66.在可选的实施例中,第二确定模块403包括:第一确定子单元,用于若位点单元只
有一个等位基因峰的特征值满足特征值阈值,则基于等位基因峰对应的位点分子量确定位点单元的基因型;第二确定子单元,用于若位点单元中有两个或两个以上等位基因峰的特征值均满足特征值阈值,则基于每个等位基因峰对应的位点分子量以及特征值,确定位点单元的基因型。
67.在可选的实施例中,第二确定子单元包括:第一子单元,用于若位点单元中有两个等位基因峰的特征值均满足特征值阈值,则将位点分子量最大的等位基因峰作为主要等位基因,并将位点分子量最小的等位基因峰作为次要等位基因;第二子单元,用于基于两个等位基因峰的特征值确定位点单元的产物强度;第三子单元,用于获取引物质谱峰的特征值,基于产物强度和引物质谱峰的特征值确定位点单元的延伸率;第四子单元,用于若产物强度和延伸率均满足预设条件,则基于次要等位基因的特征值和主要等位基因的特征值,确定位点单元的惩罚值;判断惩罚值是否满足预设惩罚值,若满足,则将位点单元的基因型记为次要等位基因-主要等位基因。
68.在可选的实施例中,第二确定子单元还包括:第五子单元,用于若位点单元中有两个以上等位基因峰的特征值均满足特征值阈值,则基于两个以上等位基因峰的特征值确定位点单元的产物强度;第六子单元,用于获取引物质谱峰的特征值,基于产物强度和引物质谱峰的特征值确定位点单元的延伸率;第七子单元,用于若产物强度和延伸率均满足预设条件,则针对位点单元中任一等位基因峰:基于等位基因峰的特征值和产物强度确定等位基因峰的频率;第八子单元,用于将位点单元中所有等位基因峰的频率按照从大到小的顺序排列,并将排序中频率最大的等位基因峰作为基因型的起始基因峰,之后按照排序依次判断每个等位基因峰的频率是否满足预设频率阈值,基于判断结果将满足预设频率阈值的等位基因峰依次排列在起始基因峰后,得到基因型排序;第九子单元,用于基于基因型排序中等位基因峰对应的位点分子量,确定位点单元的基因型。
69.在可选的实施例中,第一确定模块包括:第一确定子单元,用于基于样本质谱峰的拟合函数数据,确定样本质谱峰的信噪比参数、分辨率参数、峰偏移量参数、峰宽参数,以及峰形状参数;第二确定子单元,用于基于信噪比参数、分辨率参数、峰偏移量参数、峰宽参数,以及峰形状参数,确定样本质谱峰的有效性参数。
70.在可选的实施例中,确定基因型的装置还包括:第三确定模块,用于确定位点单元的基因型可靠性参数;判断模块,用于判断基因型可靠性参数是否满足预设可靠性阈值;第四确定模块,用于基于判断结果确定位点单元的基因型可靠性结果。
71.在可选的实施例中,第三确定模块包括:选取单元,用于从位点单元中选取最小有效性参数作为位点单元的质量参数;第一确定单元,用于确定位点单元的影响性参数;第二确定单元,用于基于位点单元中所有等位基因峰的特征值以及引物质谱峰的特征值,确定位点单元的产量参数;第三确定单元,用于基于质量参数、影响性参数以及所述产量参数,确定位点单元的基因型可靠性参数。
72.在可选的实施例中,第一确定单元包括:第一子单元,用于若位点单元中只有一个等位基因峰,则确定位点单元的影响参数为常数;第二子单元,用于若位点单元中有两个或两个以上等位基因峰,则将所有等位基因峰中位点分子量最大的等位基因峰作为主要等位基因,并将位点分子量最小的等位基因峰作为次要等位基因,基于次要等位基因和主要等位基因之间的比率确定位点单元的影响参数。
73.在可选的实施例中,预设可靠性阈值包括第一预设可靠性阈值、第二预设性可靠阈值和第三预设性可靠阈值;第四确定模块包括:第一确定子单元,用于若基因型可靠性参数小于第一预设可靠性阈值,则确定位点单元的基因型可靠性结果为低概率型;第二确定子单元,用于若基因型可靠性参数大于第一预设可靠性阈值且小于第二预设可靠性阈值,则确定位点单元的基因型可靠性结果为可能型;第三确定子单元,用于若基因型可靠性参数大于第二预设可靠性阈值且小于第三预设可靠性阈值,则确定位点单元的基因型可靠性结果为肯定型;第四确定子单元,用于若基因型可靠性参数大于第三预设可靠性阈值,则确定位点单元的基因型可靠性结果为确定型。
74.上述装置可执行本技术一实施例所提供的确定基因型的方法,具备执行确定基因型的方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的确定基因型的方法。
75.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
76.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
77.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
78.另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
79.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
80.或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、rom、磁碟或者光盘等各种可以存储程序代码的介质。
81.以上,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉
本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献