人为突变程度评估方法及装置与流程

2022-12-02 23:08:22 来源：中国专利 TAG：

1.本发明涉及基因测序技术领域，尤其涉及一种人为突变程度评估方法及装置。

背景技术：

2.基因测序过程可以包括以下多个步骤：对测序样本进行取样与保存、提取脱氧核糖核酸（dna）、聚合酶链式反应（polymerase chain reaction，pcr）扩增、构建测序文库以及测序文库上机测序。上述，每个步骤又包含不同的试剂及复杂的操作过程，因而每个步骤的操作差异及试剂的差异都会对最终的测序结果造成不同程度的影响。例如，试剂不合格会导致dna分子氧化而产生碱基由c突变为t或碱基由g突变为a。
3.对测序样本进行测序得到的测序数据进行分析得到的突变结果，与测序样本真实存在突变之间存在一定的差异。如果上述差异在合理的范围之内，可以被认为是系统误差；如果上述差异超出合理的范围，可以被称为人为突变。人为突变对分析测序数据得到的突变结果造成了严重的干扰，也反映出测序结果不可靠。
4.目前，一般是在分析测序数据的过程中，在判断单个突变的可靠性时区分出此突变是否是假阳性。突变的假阳性判断常用的方法是计算测序数据的特征，基于上述特征，通过各种算法识别是否是假阳性。但对单个突变是否是假阳性的识别，无法反映是否存在人为突变。
5.综上，如何评估人为突变程度是目前业界亟待解决的重要课题。

技术实现要素：

6.本发明提供一种人为突变程度评估方法及装置，用以解决现有技术中无法评估人为突变程度的缺陷，实现对人为突变程度的评估。
7.本发明提供一种突变程度评估，包括：基于测试样本的突变分析结果，获取所述测试样本的突变分布特征；基于所述测试样本的突变分布特征和多个正常样本的突变分布特征，获取所述测试样本的人为突变程度的评估结果；其中，所述突变分布特征包括第一特征、第二特征和第三特征；所述第一特征，用于指示各类型碱基突变的比例；所述第二特征，用于指示突变所属的各类型三联碱基motif的比例；所述第三特征，用于指示突变的突变频率。
8.根据本发明提供的一种人为突变程度评估方法，所述基于所述测试样本的突变分布特征和多个正常样本的突变分布特征，获取所述测试样本的人为突变程度的评估结果，包括：对所述测试样本的突变分布特征和回归特征进行超几何分布检验，获取第一概率、第二概率和第三概率，并对所述测试样本的突变分布特征和所述多个正常样本的突变分布特征进行相关性分析，获取第一相关性最大值、第二相关性最大值和第三相关性最大值；
基于所述第一概率、所述第二概率、所述第三概率、所述第一相关性最大值、所述第二相关性最大值和所述第三相关性最大值，获取所述评估结果；其中，所述回归特征包括第一回归特征、第二回归特征和第三回归特征；所述第一回归特征，是对所述多个正常样本的所述第一特征进行回归分析后得到的；所述第二回归特征，是对所述多个正常样本的所述第二特征进行回归分析后得到的；所述第三回归特征，是对所述多个正常样本的所述第三特征进行回归分析后得到的；所述第一概率，是对所述测试样本的所述第一特征与所述第一回归特征进行超几何分布检验后得到的；所述第二概率，是对所述测试样本的所述第二特征与所述第二回归特征进行超几何分布检验后得到的；所述第三概率，是对所述测试样本的所述第三特征与所述第三回归特征进行超几何分布检验后得到的；所述第一相关性最大值，是所述测试样本的所述第一特征与各所述正常样本的所述第一特征之间的相关性系数中的最大值；所述第二相关性最大值，是所述测试样本的所述第二特征与各所述正常样本的所述第二特征之间的相关性系数中的最大值；所述第三相关性最大值，是所述测试样本的所述第三特征与各所述正常样本的所述第三特征之间的相关性系数中的最大值。
9.根据本发明提供的一种人为突变程度评估方法，所述对所述测试样本的突变分布特征和所述多个正常样本的突变分布特征进行相关性分析，获取第一相关性最大值、第二相关性最大值和第三相关性最大值，包括：获取所述测试样本的第一特征与每一所述正常样本的所述第一特征的皮尔逊相关系数，得到各第一相关性系数，获取所述测试样本的第二特征与每一所述正常样本的所述第二特征的皮尔逊相关系数，得到各第二相关性系数，以及获取所述测试样本的第三特征与每一所述正常样本的所述第三特征的皮尔逊相关系数，得到各第三相关性系数；分别获取所述各第一相关性系数、所述各第二相关性系数和所述各第三相关性系数的最大值，作为所述第一相关性最大值、所述第二相关性最大值和所述第三相关性最大值。
10.根据本发明提供的一种人为突变程度评估方法，所述基于所述第一概率、所述第二概率、所述第三概率、所述第一相关性最大值、所述第二相关性最大值和所述第三相关性最大值，获取所述评估结果的公式为：g = (1-ps) (1-pm) (1-pf) s
max m
max f
max
其中，g表示所述评估结果；ps表示所述第一概率；pm表示所述第二概率；pf表示所述第三概率；s
max
表示所述第一相关性最大值；m
max
表示所述第二相关性最大值；f
max
表示所述第三相关性最大值。
11.根据本发明提供的一种人为突变程度评估方法，所述基于测试样本的突变分析结果，获取所述测试样本的突变分布特征，包括：基于所述突变分析结果，获取突变的总数量以及每一类型碱基突变的第一数量；基于所述总数量和每一所述第一数量，获取所述第一特征。
12.根据本发明提供的一种人为突变程度评估方法，所述基于测试样本的突变分析结果，获取所述测试样本的突变分布特征，包括：基于所述突变分析结果，获取突变的总数量以及每一突变所属的各类型三联碱基motif的第二数量；
基于所述总数量和每一所述数量，获取所述第二特征。
13.根据本发明提供的一种人为突变程度评估方法，所述基于测试样本的突变分析结果，获取所述测试样本的突变分布特征，包括：基于所述突变分析结果，获取每一突变的突变频率；获取突变频率落入预设的各频率区间的突变的第三数量；基于所述第三数量，获取所述第三特征。
14.本发明还提供一种人为突变程度评估装置，包括：获取模块，用于基于测试样本的突变分析结果，获取所述测试样本的突变分布特征；评估模块，用于基于所述测试样本的突变分布特征和多个正常样本的突变分布特征，获取所述测试样本的人为突变程度的评估结果；其中，所述突变分布特征包括第一特征、第二特征和第三特征；所述第一特征，用于指示各类型碱基突变的比例；所述第二特征，用于指示突变所属的各类型三联碱基motif的比例；所述第三特征，用于指示突变的突变频率。
15.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述人为突变程度评估方法的步骤。
16.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述人为突变程度评估方法的步骤。
17.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述人为突变程度评估方法的步骤。
18.本发明提供的人为突变程度评估方法及装置，通过基于测试样本的突变分析结果，获取测试样本的突变分布特征，基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果，能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
附图说明
19.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1是本发明提供的人为突变程度评估方法的流程示意图之一；图2是本发明提供的人为突变程度评估方法的流程示意图之二；图3是本发明提供的人为突变程度评估装置的结构示意图；图4是本发明提供的电子设备的结构示意图。
具体实施方式
21.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，
而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
22.下面结合图1至图4描述本发明的人为突变程度评估方法及装置。
23.图1是本发明提供的人为突变程度评估方法的流程示意图之一。如图1所示，该方法包括：步骤101和步骤102。
24.具体地，本发明实施例提供的人为突变程度评估方法的执行主体为人为突变程度评估装置。该装置可以将通过pc（个人计算机）或移动终端等多种形式实施。
25.在测序样本的突变分析结果与该测序样本真实存在突变之间的差异超过预设范围的情况下，上述差异为人为突变。
26.步骤101、基于测试样本的突变分析结果，获取测试样本的突变分布特征。其中，突变分布特征包括第一特征、第二特征和第三特征；第一特征，用于指示各类型碱基突变的比例；第二特征，用于指示突变所属的各类型三联碱基motif的比例；第三特征，用于指示突变的突变频率。
27.具体地，步骤101之前，该方法可以包括：获取测试样本的突变分析结果。测试样本可以为需要进行基因测序的测序样本。
28.可选地，获取测试样本的突变分析结果，可以包括：获取测试样本的测序数据；对测序数据进行预处理，得到合格的比对序列；将该比对序列与参考基因组进行比对，得到测试样本的原始比对结果；对该原始比对结果进行矫正，得到最终的比对结果；对最终的比对结果进行突变分析，得到测试样本的突变分析结果。
29.获取测试样本的突变分析结果之后，可以分别从碱基突变、三联碱基motif和突变频率三方面对测试样本的突变分析结果进行特征提取，获取测试样本的第一特征、第二特征和第三特征，从而得到测试样本的突变分布特征。
30.可选地，碱基突变，可以指某个位点发生的单碱基突变。
31.碱基突变的类型，可以包括：碱基由c突变为a、碱基由g突变为t、碱基由c突变为t、碱基由g突变为a、碱基由c突变为g、碱基由g突变为c、碱基由a突变为t、碱基由t突变为a、碱基由a突变为c、碱基由t突变为g、碱基由a突变为g以及碱基由t突变为c等12种。
32.可选地，可以基于测试样本的突变分析结果，获取上述12种类型中每一类型的碱基突变的数量与突变的总数量之比，分别记为qca、qgt、...、qtc，作为测试样本的第一特征。其中，qca表示类型为碱基由c突变为a的碱基突变的数量与突变的总数量之比，其余依此类推。
33.可选地，获取每一类型的碱基突变的数量与突变的总数量之比之后，还可以基于各类型的碱基突变的数量与突变的总数量之比所落入的预设的第一百分比区间，获取测试样本的第一特征。
34.示例性地，在测试样本的qca和qgt分别为4.6%和16.5%的情况下，可以将4.6%和16.5%确定为测试样本的第一特征中的两个，也可以在预设的第一百分比区间为(0,10]、(10,20]、...、(90,100]的情况下，(0,10]、(10,20]、...、(90,100]对应的值分别为1至00的情况下，将1和2确定为测试样本的第一特征中的两个。
35.可以理解的是，第一百分比区间可以根据实际需求预先划分。对于第一百分比区间的具体值，本发明实施例不进行具体限定。
36.可选地，三联碱基motif，可以指以发生单碱基突变的位点以及该位点的上一位点和下一位点构成的特定的三联碱基序列。该特定的三联碱基序列，为该突变所属的三联碱基motif。
37.三联碱基motif的类型，可以包括：ccn、tcn、gcn、acn、ngg、nga、ngc、ngt等8种类型。其中，字母n表示a、t、c和g中的任意一种碱基。
38.可选地，可以基于测试样本的突变分析结果，获取上述8种类型中每一类型的三联碱基motif的数量与突变的总数量之比，分别记为qccn、qtcn、...、qngt，作为测试样本的第二特征。其中，qccn表示类型为ccn的三联碱基motif的数量与突变的总数量之比，其余依此类推。
39.可选地，获取每一类型的三联碱基motif的数量与突变的总数量之比之后，还可以基于各类型的三联碱基motif的数量与突变的总数量之比所落入的预设的第二百分比区间，获取测试样本的第二特征。
40.示例性地，在测试样本的qccn和qtcn分别为7.8%和8.2%的情况下，可以将7.8%和8.2%确定为测试样本的第二特征中的两个，也可以在预设的第二百分比区间为(0,4]、(4,8]、...、(96,100]的情况下，(0,4]、(4,8]、...、(96,100]对应的值分别为1至25的情况下，将2和3确定为测试样本的第二特征中的两个。
41.可以理解的是，第二百分比区间可以根据实际需求预先划分。对于第二百分比区间的具体值，本发明实施例不进行具体限定。
42.可选地，对于每一位点的突变，该突变的突变频率，可以指该位点支持突变的reads数与该位点总的测序reads数之比。其中，reads（读长）是高通量测序中一个反应获得的测序序列。
43.示例性地，某个位点的原始碱基为g，突变后的碱基为a，该位点支持突变的reads数为100，该位点总的测序reads数为988，则该突变的突变频率为100/988=10.12%。
44.可选地，可以基于测试样本的突变分析结果，获取每一突变的突变频率，作为测试样本的第三特征。
45.可选地，获取每一突变的突变频率之后，还可以基于各突变的突变频率所落入的预设的第三百分比区间，获取测试样本的第三特征。
46.可选地，可以统计突变频率落入每个第三百分比区间的突变的数量，作为测试样本的第三特征；还可以获取突变频率落入每个第三百分比区间的突变的数量与突变的总数之比，作为测试样本的第三特征。
47.示例性地，在预设的第三百分比区间为(0,5]、(5,10]、...、(95,100]的情况下，各第三百分比区间的突变的数量（即突变频率落入每个第三百分比区间的突变的数量）分别为1、0、2、1、0、2、0、2、0、2、1、1、0、1、1、0、3、2、1、1，突变的总数为21，则测试样本的第三特征可以包括0.0476、0、0.0952、0.0476、0、0.0952、0、0.0952、0、0.0952、0.0476、0.0476、0、0.0476、0.0476、0、0.1429、0.0952、0.0476、0.0476。
48.可以理解的是，第三百分比区间可以根据实际需求预先划分。对于第三百分比区间的具体值，本发明实施例不进行具体限定。
49.步骤102、基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果。
50.具体地，步骤101之前，可以对于每一个正常样本，获取该正常样本的突变分布特征。获取正常样本的突变分布特征的方法步骤，与获取测试样本的突变分布特征的方法步骤相同，此处不再赘述。
51.正常样本，指该样本的突变分析结果与该样本的真实突变情况之间的差异小于预设的阈值的样本。
52.可选地，可以基于上述多个正常样本的突变分布特征，根据任一种人工智能方法进行训练，得到训练好的分析模型；将测试样本的突变分布特征输入该训练好的分析模型进行分析，可以获取该训练好的分析模型输出的测试样本的人为突变程度的评估结果。
53.需要说明的是，测试样本的人为突变程度的评估结果，可以是定性的分析结果，也可以是定量的分析结果。定性的分析结果，可以指示是否存在人为突变，即测试样本是否为异常样本。定量的分析结果，可以指示人为突变的程度，即测试样本的异常程度。
54.可以理解的是，与正常样本对应，异常样本指该样本的突变分析结果与该样本的真实突变情况之间的差异大于或等于前述预设的阈值的样本。
55.需要说明的是，传统的基于单个突变的数据特征的方法无法从整个流程上来判断分析的结果是否受到了异常步骤的影响，无法判断实验过程中是否有异常情况，从而在人为突变程度的判断上会有偏颇。评估人为突变程度的难度主要包括以下3个方面：（1）测序得到的数据包含多个特征，如插入片段长度、测序深度、dup（重复序列，duplicate reads）率等等，如何抓取关键特征是基础，目前难以抓取关键特征；（2）异常样本的数据特征往往包含样本个体特征、系统误差和人为造成的数据异常，如何区分3种特征是评估样本是否是异常数据的关键，目前难以区分3种特征；（3）目前难以对异常样本进行异常严重等级的评估。
56.本发明实施例通过基于测试样本的突变分析结果，获取测试样本的突变分布特征，基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果，能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
57.基于上述任一实施例的内容，基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果，包括：对测试样本的突变分布特征和回归特征进行超几何分布检验，获取第一概率、第二概率和第三概率，并对测试样本的突变分布特征和多个正常样本的突变分布特征进行相关性分析，获取第一相关性最大值、第二相关性最大值和第三相关性最大值。其中，回归特征包括第一回归特征、第二回归特征和第三回归特征；第一回归特征，是对多个正常样本的第一特征进行回归分析后得到的；第二回归特征，是对多个正常样本的第二特征进行回归分析后得到的；第三回归特征，是对多个正常样本的第三特征进行回归分析后得到的；第一概率，是对测试样本的第一特征与第一回归特征进行超几何分布检验后得到的；第二概率，是对测试样本的第二特征与第二回归特征进行超几何分布检验后得到的；第三概率，是对测试样本的第三特征与第三回归特征进行超几何分布检验后得到的；第一相关性最大值，是测试样本的第一特征与各正常样本的第一特征之间的相关性系数中的最大值；第二相关性最大值，是测试样本的第二特征与各正常样本的第二特征之间的相关性系数中的最大值；第三相关性最大值，是测试样本的第三特征与各正常样本的第三特征之间的相关性系数中的最大值。
58.具体地，可以前述多个正常样本的突变分布特征进行回归分析，得到回归特征。
59.可以对前述多个正常样本的第一特征进行回归分析，得到第一回归特征。
60.可以对前述多个正常样本的第二特征进行回归分析，得到第二回归特征。
61.可以对前述多个正常样本的第三特征进行回归分析，得到第三回归特征。
62.可选地，上述进行回归分析，可以采用任一种回归分析方法。
63.优选地，上述进行回归分析，可以采用局部加权回归（loess，locally weighted regression）方法。
64.可选地，可以对测试样本的第一特征和第一回归特征进行超几何分布检验，获取第一概率ps。
65.可选地，可以对测试样本的第二特征和第二回归特征进行超几何分布检验，获取第二概率pm。
66.可选地，可以对测试样本的第三特征和第三回归特征进行超几何分布检验，获取第三概率pf。
67.可选地，可以对测试样本的第一特征、第二特征和第三特征，以及第一回归特征、第二回归特征和第三回归特征进行多元超几何分布检验，获取第一概率ps、第二概率pm和第三概率pf。
68.可以分别对测试样本的第一特征和每一正常样本的第一特征进行相关性分析，得到多个相关性系数，并将其中最大的相关性系数确定为第一相关性最大值s
max
。
69.可以分别对测试样本的第二特征和每一正常样本的第二特征进行相关性分析，得到多个相关性系数，并将其中最大的相关性系数确定为第二相关性最大值m
max
。
70.可以分别对测试样本的第三特征和每一正常样本的第三特征进行相关性分析，得到多个相关性系数，并将其中最大的相关性系数确定为第三相关性最大值f
max
。
71.可选地，上述进行相关性分析，可以采用任一种相关性分析方法。
72.基于第一概率、第二概率、第三概率、第一相关性最大值、第二相关性最大值和第三相关性最大值，获取评估结果。
73.具体地，获取第一概率ps、第二概率pm、第三概率pf、第一相关性最大值s
max
、第二相关性最大值m
max
和第三相关性最大值f
max
之后，可以基于第一概率ps、第二概率pm、第三概率pf、第一相关性最大值s
max
、第二相关性最大值m
max
和第三相关性最大值f
max
进行计算，获取测试样本的人为突变程度的评估结果。
74.示例性地，测试样本的人为突变程度的评估结果g可以通过如下公式获取：g =a
×
(1-ps) b
×
(1-pm) c
×
(1-pf) d
×smax e
×mmax f
×fmax
（1）其中，a、b、c、d、e和f为预先确定的权重。
75.本发明实施例通过对测试样本的突变分布特征和回归特征进行超几何分布检验，获取第一概率、第二概率和第三概率，并对测试样本的突变分布特征和多个正常样本的突变分布特征进行相关性分析，获取第一相关性最大值、第二相关性最大值和第三相关性最大值，基于第一概率、第二概率、第三概率、第一相关性最大值、第二相关性最大值和第三相关性最大值，获取测试样本的人为突变程度的评估结果，能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
76.基于上述任一实施例的内容，对测试样本的突变分布特征和多个正常样本的突变
分布特征进行相关性分析，获取第一相关性最大值、第二相关性最大值和第三相关性最大值，包括：获取测试样本的第一特征与每一正常样本的第一特征的皮尔逊相关系数，得到各第一相关性系数，获取测试样本的第二特征与每一正常样本的第二特征的皮尔逊相关系数，得到各第二相关性系数，以及获取测试样本的第三特征与每一正常样本的第三特征的皮尔逊相关系数，得到各第三相关性系数。
77.具体地，可以基于积差相关方法对分别对测试样本的第一特征和每一正常样本的第一特征进行相关性分析，得到测试样本的第一特征与该正常样本的第一特征的皮尔逊相关系数，作为一个第一相关性系数，从而可以得到各第一相关性系数[s1、s2 ... sn]。其中，n表示正常样本的数量。
[0078]
可以基于积差相关方法对分别对测试样本的第二特征和每一正常样本的第二特征进行相关性分析，得到测试样本的第二特征与该正常样本的第二特征的皮尔逊相关系数，作为一个第二相关性系数，从而可以得到各第二相关性系数[m1、m2 ... mn]。其中，n表示正常样本的数量。
[0079]
可以基于积差相关方法对分别对测试样本的第三特征和每一正常样本的第三特征进行相关性分析，得到测试样本的第三特征与该正常样本的第三特征的皮尔逊相关系数，作为一个第三相关性系数，从而可以得到各第三相关性系数[f1、f2 ... fn]。其中，n表示正常样本的数量。
[0080]
积差相关，又称为皮尔逊积差相关、皮尔逊相关或称为积矩相关（product-moment coefficient of correlation)。
[0081]
分别获取各第一相关性系数、各第二相关性系数和各第三相关性系数的最大值，作为第一相关性最大值、第二相关性最大值和第三相关性最大值。
[0082]
具体地，获取各第一相关性系数[s1、s2 ... sn]之后，可以确定上述各第一相关性系数[s1、s2 ... sn]中的最大值，将该最大值为第一相关性最大值s
max
。
[0083]
获取各第二相关性系数[m1、m2 ... mn]之后，可以确定上述各第二相关性系数[m1、m2 ... mn]中的最大值，将该最大值为第二相关性最大值m
max
。
[0084]
获取各第三相关性系数[f1、f2 ... fn]之后，可以确定上述各第三相关性系数[f1、f2 ... fn]中的最大值，将该最大值为第三相关性最大值f
max
。
[0085]
本发明实施例通过皮尔逊相关方法对测试样本的突变分布特征和多个正常样本的突变分布特征进行相关性分析，获取的第一相关性最大值、第二相关性最大值和第三相关性最大值更准确，从而能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
[0086]
基于上述任一实施例的内容，基于第一概率、第二概率、第三概率、第一相关性最大值、第二相关性最大值和第三相关性最大值，获取评估结果的公式为：g = (1-ps) (1-pm) (1-pf) s
max m
max f
max
其中，g表示评估结果；ps表示第一概率；pm表示第二概率；pf表示第三概率；s
max
表示第一相关性最大值；m
max
表示第二相关性最大值；f
max
表示第三相关性最大值。
[0087]
具体地，测试样本的人为突变程度的评估结果可以通过如下公式计算获得：g =(1-ps) (1-pm) (1-pf) s
max
m
max
f
max
（2）其中，g表示评估结果；ps表示第一概率；pm表示第二概率；pf表示第三概率；s
max
表
示第一相关性最大值；m
max
表示第二相关性最大值；f
max
表示第三相关性最大值。
[0088]
需要说明的是，g值越小则表示人为突变程度越高，说明整个测序过程中某些步骤出现了较为严重的异常情况。
[0089]
可选地，可以基于g值对人工突变程度的等级进行评估，等级划分如下：0《= g 《=2，人工突变程度高，表示该测试样本严重异常；2《 g 《=4，人工突变程度中，表示该测试样本异常；4《 g 《=6，人工突变程度低，表示该测试样本正常。
[0090]
本发明实施例通过基于第一概率、第二概率、第三概率、第一相关性最大值、第二相关性最大值和第三相关性最大值，获取测试样本的人为突变程度的评估结果，能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
[0091]
基于上述任一实施例的内容，基于测试样本的突变分析结果，获取测试样本的突变分布特征，包括：基于突变分析结果，获取突变的总数量以及每一类型碱基突变的第一数量。
[0092]
具体地，获取测试样本的突变分析结果之后，可以统计测试样本的突变分析结果中突变的总数量d，以及前述12种类型中每一类型的碱基突变的第一数量。
[0093]
上述12种类型中每一类型的碱基突变的第一数量可以分别记为dca、dgt、...、dtc。其中，dca表示类型为碱基由c突变为a的碱基突变的第一数量，其余依此类推。
[0094]
基于总数量和每一第一数量，获取第一特征。
[0095]
具体地，分别将每一第一数量除以突变的总数量d，可以得到上述12种类型中每一类型的碱基突变的数量与突变的总数量之比，分别记为qca、qgt、...、qtc，作为测试样本的第一特征。
[0096]
本发明实施例通过基于突变分析结果，获取突变的总数量以及每一类型碱基突变的第一数量，基于总数量和每一第一数量，获取第一特征，获取的第一特征更准确，从而能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
[0097]
基于上述任一实施例的内容，基于测试样本的突变分析结果，获取测试样本的突变分布特征，包括：基于突变分析结果，获取突变的总数量以及每一突变所属的各类型三联碱基motif的第二数量。
[0098]
具体地，获取测试样本的突变分析结果之后，可以统计测试样本的突变分析结果中突变的总数量d，以及突变所属的前述8种类型中每一类型的三联碱基motif的第二数量。
[0099]
上述8种类型中每一类型的三联碱基motif的第二数量可以分别记为dccn、dtcn、... 、dngt。其中，dccn表示类型为ccn的三联碱基motif的第二数量。
[0100]
基于总数量和每一数量，获取第二特征。
[0101]
具体地，分别将每一第二数量除以突变的总数量d，可以得到上述8种类型中每一类型的三联碱基motif的数量与突变的总数量之比，分别记为qccn、qtcn、...、qngt，作为测试样本的第二特征。
[0102]
本发明实施例通过基于突变分析结果，获取突变的总数量以及每一突变所属的各类型三联碱基motif的第二数量，基于总数量和每一数量，获取第二特征，获取的第二特征更准确，从而能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的
假阳性突变进行评估。
[0103]
基于上述任一实施例的内容，基于测试样本的突变分析结果，获取测试样本的突变分布特征，包括：基于突变分析结果，获取每一突变的突变频率。
[0104]
具体地，获取测试样本的突变分析结果之后，可以获取测试样本的突变分析结果中每一突变的突变频率。
[0105]
获取突变频率落入预设的各频率区间的突变的第三数量。
[0106]
具体地，可以基于预设的步长，划分各频率区间。
[0107]
可选地，可以基于步长将百分比0-100分成多个梯度，每个梯度为1个频率区间。
[0108]
示例性地，在步长为5的情况下，可以将百分比0-100分成20个梯度，得到20个频率区间，分别为(0,5]、(5,10]、...、(95,100]。其中，(0,5]表示突变的突变频率大于0且小于或等于5%，其余依此类推。
[0109]
示例性地，在步长为4的情况下，可以将百分比0-100分成25个梯度，得到20个频率区间，分别为(0,4]、(4,8]、...、(96,100]。其中，(0,4]表示突变的突变频率大于0且小于或等于4%，其余依此类推。
[0110]
获取每一突变的突变频率之后，可以统计突变频率落入每个频率区间的突变的第三数量。
[0111]
基于第三数量，获取第三特征。
[0112]
具体地，分别将每一第三数量除以突变的总数量d，可以得到测试样本的第三特征。
[0113]
示例性地，在步长为5的情况下，突变频率落入20个频率区间的突变的第三数量可以分别记为d5、d
10
、...、d
100
，20个第三特征可以记为q5、q
10
、...、q
100
。
[0114]
本发明实施例通过基于突变分析结果，获取每一突变的突变频率，获取突变频率落入预设的各频率区间的突变的第三数量，基于第三数量，获取第三特征，获取的第三特征更准确，从而能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
[0115]
为了便于对本发明上述各实施例的理解，下面通过一个实例描述人为突变程度评估方法的实施过程。
[0116]
图2是本发明提供的人为突变程度评估方法的流程示意图之二。如图2所示，一种人为突变程度评估方法可以包括以下步骤。
[0117]
步骤201、测序数据下机。
[0118]
针对测试样本，可以基于1460g基因panel进行捕获并用illumina平台进行测序，得到测试样本的测序数据并导出（即下机）。
[0119]
需要说明的是，illumina平台可以基于高通量测序技术（high-throughput sequencing）进行测序。高通量测序又称“下一代”测序（"next-generation" sequencing technology，ngs），或大规模平行测序（massively parallel sequencing，mps）。区别于传统sanger（双脱氧法）测序，能够一次并行对大量核酸分子进行平行序列测定的技术，通常一次测序反应能产出不低于100mb的测序数据。
[0120]
步骤202、数据质控。
[0121]
可以对测试样本的测序数据进行预处理，实现对测序数据的质控。
[0122]
对测试样本的测序数据进行预处理，可以包括根据碱基测序质量、reads的长度和n碱基含量等中的至少一项对原始的测试样本的测序数据进行筛选，去除掉低质量的测序序列，避免低质量的测序序列对后续突变分析及突变程度评估造成的干扰，提高后续突变分析及突变程度评估的结果的准确性。其中，字母n表示a、t、c和g中的任意一种碱基。
[0123]
低质量的测序序列，可以包括测序reads中的接头序列等。
[0124]
可选地，可以基于fastp软件进行质控，生成clean data。
[0125]
步骤203、序列比对。
[0126]
将预处理得到的合格的比对序列进行人类全基因组序列比对，即比对到人类参考基因组上，生成携带有测试样本的原始比对结果的bam文件。
[0127]
可选地，可以基于bwa软件将clean data比对到hg19参考基因组。
[0128]
步骤204、比对结果矫正。
[0129]
序列中存在碱基的插入或缺失突变时，会对比对结果的正确性产生影响，并会直接影响周边突变的检测，因此，对测试样本的原始比对结果进一步进行矫正分析，以得到每条测序reads在基因组上的准确定位信息，以便后续分析。
[0130]
对测试样本的原始比对结果进一步进行矫正分析，可以包括对indel区域进行重新比对等，以得到每条测序reads在基因组上的准确定位信息。
[0131]
具体地，可以利用已有的人类参考基因组序列和千人基因组计划推出的indel位点信息，找到测试样本中所有需要进行重新比对的区域，形成interval文件；然后结合此interval文件，对测试样本的原始比对结果中的indel突变类型进行二次比对，以此得到携带有最终的比对结果的bam文件。
[0132]
可选地，可以基于gatk4软件对步骤203得到的bam文件进行重比对，实现比对结果矫正。
[0133]
步骤205、突变分析。
[0134]
基于步骤204得到的bam文件进行突变分析，保留所有突变，不对突变分析的结果做任何过滤，得到测试样本的突变分析结果。
[0135]
可选地，可以基于gatk4软件进行突变分析。
[0136]
步骤206、获取突变分布特征。
[0137]
可以通过前述任一实施例描述的步骤，基于测试样本的突变分析结果，获取测试样本的突变分布特征。
[0138]
步骤207、人为突变程度评估。
[0139]
可以通过前述任一实施例描述的步骤，基于测试样本的突变分布特征、10560例正常样本的突变分布特征和正常样本模型，获取测试样本的人为突变程度的评估结果。
[0140]
正常样本模型，是基于上述10560例正常样本的突变分布特征，分别从碱基突变、三联碱基motif、突变频率三方面进行loess回归得到的3个正常样本模型。
[0141]
基于测试样本的突变分布特征、10560例正常样本的突变分布特征和正常样本模型，获取测试样本的人为突变程度的评估结果，可以包括进行多元的超几何分布检验和皮尔逊相关性计算，并基于前述公式（2）得到测试样本的人为突变程度的评估结果。
[0142]
需要说明的是，对于10560例正常样本中的每一正常样本，可以通过前述步骤201至步骤206，即通过捕获、测序、质控、比对、突变分析和计算等，得到该正常样本的突变分布
特征。
[0143]
通过对100例测试样本，分别执行前述步骤201至步骤207，可以得到上述100例测试样本的人为突变程度的评估结果g，如表1所示。
[0144]
表1 人为突变程度的评估结果表本发明实施例提供的方法具有以下优点：（1）专业化，本发明实施例提供的方法是专门针对测序数据的人为突变评估设计的方法，考虑了测序各个步骤对结果造成影响的各种情况。
[0145]
（2）范围广，可以适用于不同的测序平台、基因组所有区域、不同的测序panel，且适用于任何样本。
[0146]
（3）解决了测序步骤中人为异常操作对突变分析造成的影响。
[0147]
下面对本发明提供的人为突变程度评估装置进行描述，下文描述的人为突变程度评估装置与上文描述的人为突变程度评估方法可相互对应参照。
[0148]
图3是本发明提供的人为突变程度评估装置的结构示意图。基于上述任一实施例的内容，如图3所示，人为突变程度评估装置包括：获取模块301和评估模块302，其中：
获取模块301，用于基于测试样本的突变分析结果，获取测试样本的突变分布特征；评估模块302，用于基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果；其中，突变分布特征包括第一特征、第二特征和第三特征；第一特征，用于指示各类型碱基突变的比例；第二特征，用于指示突变所属的各类型三联碱基motif的比例；第三特征，用于指示突变的突变频率。
[0149]
具体地，获取模块301和评估模块302可以电连接。
[0150]
获取模块301获取测试样本的突变分析结果之后，可以分别从碱基突变、三联碱基motif和突变频率三方面对测试样本的突变分析结果进行特征提取，获取测试样本的第一特征、第二特征和第三特征，从而得到测试样本的突变分布特征。
[0151]
评估模块302可以基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取该测试样本的人为突变程度的评估结果。
[0152]
可选地，评估模块302，可以包括：分析单元，用于对测试样本的突变分布特征和回归特征进行超几何分布检验，获取第一概率、第二概率和第三概率，并对测试样本的突变分布特征和多个正常样本的突变分布特征进行相关性分析，获取第一相关性最大值、第二相关性最大值和第三相关性最大值；评估单元，用于基于第一概率、第二概率、第三概率、第一相关性最大值、第二相关性最大值和第三相关性最大值，获取评估结果；其中，回归特征包括第一回归特征、第二回归特征和第三回归特征；第一回归特征，是对多个正常样本的第一特征进行回归分析后得到的；第二回归特征，是对多个正常样本的第二特征进行回归分析后得到的；第三回归特征，是对多个正常样本的第三特征进行回归分析后得到的；第一概率，是对测试样本的第一特征与第一回归特征进行超几何分布检验后得到的；第二概率，是对测试样本的第二特征与第二回归特征进行超几何分布检验后得到的；第三概率，是对测试样本的第三特征与第三回归特征进行超几何分布检验后得到的；第一相关性最大值，是测试样本的第一特征与各正常样本的第一特征之间的相关性系数中的最大值；第二相关性最大值，是测试样本的第二特征与各正常样本的第二特征之间的相关性系数中的最大值；第三相关性最大值，是测试样本的第三特征与各正常样本的第三特征之间的相关性系数中的最大值。
[0153]
可选地，分析单元，可以具体用于：获取测试样本的第一特征与每一正常样本的第一特征的皮尔逊相关系数，得到各第一相关性系数，获取测试样本的第二特征与每一正常样本的第二特征的皮尔逊相关系数，得到各第二相关性系数，以及获取测试样本的第三特征与每一正常样本的第三特征的皮尔逊相关系数，得到各第三相关性系数；分别获取各第一相关性系数、各第二相关性系数和各第三相关性系数的最大值，作为第一相关性最大值、第二相关性最大值和第三相关性最大值。
[0154]
可选地，基于第一概率、第二概率、第三概率、第一相关性最大值、第二相关性最大值和第三相关性最大值，获取评估结果的公式为：
g = (1-ps) (1-pm) (1-pf) s
max m
max f
max
其中，g表示评估结果；ps表示第一概率；pm表示第二概率；pf表示第三概率；s
max
表示第一相关性最大值；m
max
表示第二相关性最大值；f
max
表示第三相关性最大值。
[0155]
可选地，获取模块301，可以包括：第一获取单元，用于基于突变分析结果，获取突变的总数量以及每一类型碱基突变的第一数量；基于总数量和每一第一数量，获取第一特征。
[0156]
可选地，获取模块301，可以包括：第二获取单元，用于基于突变分析结果，获取突变的总数量以及每一突变所属的各类型三联碱基motif的第二数量；基于总数量和每一数量，获取第二特征。
[0157]
可选地，获取模块301，可以包括：第三获取单元，用于基于突变分析结果，获取每一突变的突变频率；获取突变频率落入预设的各频率区间的突变的第三数量；基于第三数量，获取第三特征。
[0158]
本发明实施例提供的人为突变程度评估装置，用于执行本发明上述人为突变程度评估方法，其实施方式与本发明提供的人为突变程度评估方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0159]
该人为突变程度评估装置用于前述各实施例的人为突变程度评估方法。因此，在前述各实施例中的人为突变程度评估方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。
[0160]
本发明实施例通过基于测试样本的突变分析结果，获取测试样本的突变分布特征，基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果，能快速、准确地进行测试样本的人为突变程度的评估，能有效地对人为造成的假阳性突变进行评估。
[0161]
图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（communications interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行人为突变程度评估方法，该方法包括：基于测试样本的突变分析结果，获取测试样本的突变分布特征；基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果；其中，突变分布特征包括第一特征、第二特征和第三特征；第一特征，用于指示各类型碱基突变的比例；第二特征，用于指示突变所属的各类型三联碱基motif的比例；第三特征，用于指示突变的突变频率。
[0162]
此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，
read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
[0163]
本发明实施例提供的电子设备中的处理器410可以调用存储器430中的逻辑指令，其实施方式与本发明提供的人为突变程度评估方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0164]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的人为突变程度评估方法，该方法包括：基于测试样本的突变分析结果，获取测试样本的突变分布特征；基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果；其中，突变分布特征包括第一特征、第二特征和第三特征；第一特征，用于指示各类型碱基突变的比例；第二特征，用于指示突变所属的各类型三联碱基motif的比例；第三特征，用于指示突变的突变频率。
[0165]
本发明实施例提供的计算机程序产品被执行时，实现上述人为突变程度评估方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0166]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的人为突变程度评估方法，该方法包括：基于测试样本的突变分析结果，获取测试样本的突变分布特征；基于测试样本的突变分布特征和多个正常样本的突变分布特征，获取测试样本的人为突变程度的评估结果；其中，突变分布特征包括第一特征、第二特征和第三特征；第一特征，用于指示各类型碱基突变的比例；第二特征，用于指示突变所属的各类型三联碱基motif的比例；第三特征，用于指示突变的突变频率。
[0167]
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述人为突变程度评估方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。
[0168]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0169]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
[0170]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可
以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

人为突变程度评估方法及装置与流程

相关文献

最热文献