过滤酶切建库方式引入噪音的方法和装置与流程

2022-04-13 20:03:56 来源：中国专利 TAG：

1.本发明涉及生物信息分析方法，具体而言，涉及一种过滤酶切建库方式引入噪音的方法和装置。

背景技术：

2.随着二代测序(next-generation sequencing，ngs)技术的发展，研究者对建库效率的要求随之提高。由于目前各个厂家测序仪的读长有限，所以基因组片段化是构建文库的第一步，目前常见的片段化方法有机械法片段化和酶切片段化法。机械法片段化主要利用超声波打断基因组，其原理是利用超声波伸缩共振，将基因组进行片段化，该方法的优点在于产生的片段稳定、均一、无偏好性，是目前二代测序建库中片段化的金标准。但超声打断也有其无法克服的局限性，如仪器耗材成本高、不同质量和降解程度的样本需要摸索不同的打断时间、过长的打断时间导致dna损伤等。因此便捷、经济、高效的酶切片段化方法逐步被用于手动化和自动化建库。该方法是利用片段化酶对基因组进行随机打断，其显著的特点是比较温和，并且能够更好的保留dna完整性，可显著简化建库流程和缩短时间成本。
3.但是在酶的作用下，dna片段上部分反向重复序列异常结合在一起，形成了颈环结构，它们可在下游的末端修复和pcr扩增后，产生重复的、属于人工合成错误引入的异常序列，被称为artifact序列。artifact序列是酶切ngs建库方法可能引入的主要噪音序列，因为artifact序列是dna片段上真实分子异常组合，而不是测序过程中产生的错误，所以artifact序列碱基质量高，即使所占比例较低，仍会对突变分析造成显著的影响，尤其是对低频突变的检测。artifact序列导致的假阳性突变的频率约在0.1％-30％之间，难以通过分子标签去除，因此迫切需要一种方法来最大程度地消除酶切建库方式所引入的噪音干扰。

技术实现要素：

4.本发明提供一种过滤酶切建库方式引入噪音的方法和装置，以解决现有技术中此类噪音难以消除的问题。
5.根据本技术的第一个方面，提供了一种酶切建库方式引入噪音的过滤方法，包括以下步骤：获取酶切建库双端测序下机数据与参考基因组序列的初始比对结果文件；从初始比对结果文件中提取含有soft clip标记的读段，并统计各读段中soft clip碱基数；将soft clip碱基数大于阈值t1的读段记为候选处理序列，并提取各候选处理序列在参考基因组上的比对位置以及候选处理序列中的soft clip碱基序列；根据各候选处理序列在参考基因组上的比对位置前后延伸d长度，得到延伸区域，并在各延伸区域内寻找与soft clip碱基序列相似的序列，如果相似序列的相似度大于阈值t2时，读段视为含有酶切噪音的读段，存放于去除文件中；从初始比对结果文件中过滤掉去除文件中含有的读段，得到去除酶切建库方式引入噪音的比对文件；其中，相似度是指延伸区域内与soft clip碱基序列的比对匹配率。
6.进一步地，从初始比对结果文件中提取含有soft clip标记的读段，并统计各读段中soft clip碱基数的步骤中，将初始比对结果文件切割成若干份进行多进程并行处理，优选地，将初始比对结果文件切割成若干份进行多进程并行处理时，根据初始比对结果文件的行数m和进程数目n，按照int(m/n) 1计算每个分割文件大小，得到均等分割比对文件。
7.进一步地，将soft clip碱基数大于阈值t1的读段记为候选处理序列包括如下情形：(i)分布在读段的前端或后端的soft clip碱基，若soft clip碱基数大于阈值t1时，读段记为候选处理序列；(ii)同时出现在读段的前端和后端的soft clip碱基，至少一端的soft clip碱基数大于阈值t1时，读段记为候选处理序列；(iii)同时出现在读段的前端和后端的soft clip碱基，前端和后端soft clip碱基数分别小于阈值t1，且前端和后端soft clip碱基数之和大于阈值t1时，读段不记为候选处理序列。
8.进一步地，根据各候选处理序列在参考基因组上的比对位置，按如下规则前后延伸d长度：(i)当比对位置位于染色体起始位置区域，且距离染色体起始位置的长度小于d时，仅延伸至染色体起始位置；(ii)当比对位置位于染色体末端位置区域，且距离是染色体末端位置的长度小于d时，仅延伸至染色体末端位置；(iii)当比对位置位于染色体中间位置，且距离染色体起始位置和染色体末端位置的长度均大于d时，前后延伸d长度；优选地，d为200～400bp，更优选为250bp～350bp。
9.进一步地，通过局部比对的方法在各延伸区域内寻找与soft clip碱基序列相似的序列；优选地，局部比对的方法所引入的评分机制如下：相同碱基记为2分，错配碱基记为-3分，出现空缺记为-10分，连续的空缺不计分，根据最优得分在延伸区域找到soft clip碱基序列的最优相似序列。
10.进一步地，在各延伸区域内寻找与soft clip碱基序列相似的序列，如果相似序列的相似度大于阈值t2时，读段视为含有酶切噪音的读段包括如下情形：(i)分布在读段的前端或后端的大于阈值t1的soft clip碱基，或者，同时出现在读段的前端和后端仅有一端大于阈值t1的soft clip碱基，当延伸区域存在与soft clip碱基序列相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列；(ii)同时出现在读段的前端和后端的soft clip碱基，前端和后端都大于阈值t1的soft clip碱基，当两端的soft clip序列在所在延伸区域都能找到相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列。
11.根据本技术的第二个方面，提供了一种过滤酶切建库方式引入噪音的装置，该装置包括：获取模块，被设置为获取酶切建库双端测序下机数据与参考基因组序列的初始比对结果文件；提取统计模块，被设置为从初始比对结果文件中提取含有soft clip标记的读段，并统计各读段中soft clip碱基数；标记提取模块，被设置为将soft clip碱基数大于阈值t1的读段记为候选处理序列，并提取各候选处理序列在参考基因组上的比对位置以及候选处理序列中的soft clip碱基序列；延伸相似比对模块，被设置为根据各候选处理序列在参考基因组上的比对位置前后延伸d长度，得到延伸区域，并在各延伸区域内寻找与soft clip碱基序列相似的序列，如果相似序列的相似度大于阈值t2时，读段视为含有酶切噪音的读段，存放于去除文件中；噪音去除模块，用于从初始比对结果文件中过滤掉去除文件中含有的读段，得到去除酶切建库方式引入噪音的比对文件；其中，相似度是指延伸区域内与soft clip碱基序列的比对匹配率。
12.进一步地，提取统计模块包括多个提取统计子模块，多个提取统计子模块并行处
理，优选地，多个提取统计子模块按照如下方式划分：根据初始比对结果文件的行数m和进程数目n，按照int(m/n) 1计算每个分割文件大小，得到均等分割比对文件。
13.进一步地，标记提取模块包括：第一标记模块，被设置为对于分布在读段的前端或后端的soft clip碱基，当soft clip碱基数大于阈值t1时，将读段记为候选处理序列；第二标记模块，被设置为对于同时出现在读段的前端和后端的soft clip碱基，当至少一端soft clip碱基数大于阈值t1时，将读段记为候选处理序列；第三标记模块，被设置为对于同时出现在读段的前端和后端的soft clip碱基，前端和后端soft clip碱基数分别小于阈值t1，且前端和后端soft clip碱基数之和大于阈值t1时，将读段不记为候选处理序列。
14.进一步地，延伸相似比对模块包括：第一延伸模块，被设置为当比对位置位于染色体起始位置区域，且距离染色体起始位置的长度小于d时，仅延伸至染色体起始位置；第二延伸模块，被设置为当比对位置位于染色体末端位置区域，且距离是染色体末端位置的长度小于d时，仅延伸至染色体末端位置；第三延伸模块，被设置为当比对位置位于染色体中间位置，且距离染色体起始位置和染色体末端位置的长度均大于d时，前后延伸d长度；优选地，d为200～400bp，更优选为250bp～350bp。
15.进一步地，延伸相似比对模块包括局部比对模块；优选地，局部比对模块的评分机制如下：相同碱基记为2分，错配碱基记为-3分，出现空缺记为-10分，连续的空缺不计分，根据最优得分在延伸区域找到soft clip碱基序列的最优相似序列。
16.进一步地，延伸相似比对模块进一步包括：噪音序列第一判定模块，被设置为对于分布在读段的前端或后端的大于阈值t1的soft clip碱基，或者，同时出现在读段的前端和后端仅有一端大于阈值t1的soft clip碱基，当延伸区域存在与soft clip碱基序列相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列；噪音序列第二判定模块，被设置为对于同时出现在读段的前端和后端的soft clip碱基，前端和后端都大于阈值t1的soft clip碱基，当两端的soft clip序列在所在延伸区域都能找到相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列。
17.根据本技术的第三个方面，提供了一种计算机可读存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述酶切建库方式引入噪音的过滤方法。
18.根据本技术的第四个方面，提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述酶切建库方式引入噪音的过滤方法。
19.应用本技术的技术方案，通过从初始比对结果文件中提取除含有soft clip标记的读段，并基于其中的soft clip的碱基数的多少筛选出候选处理序列，进一步通过对候选处理序列所在比对位置两侧延伸一定长度的延伸区域内筛选与该候选处理序列相似度大于阈值的相似序列，若存在这样的相似序列，则认为该读段为含有酶切噪音的读段，如此将所有含有噪音的读段从初始比对结果文件中过滤掉，则获得了去除噪音的比对文件。该方法能够有效过滤酶切建库中引入的artifact序列，从而提高检测的准确性。
附图说明
20.说明书附图可提供对本发明的进一步详解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
21.图1示出了本发明的一种酶切建库方式产生的噪音的过滤方法的流程图；
22.图2示出了本发明的一种具体实施例中，经过本发明的过滤方法过滤前，不同酶切建库的方法以及超声打断建库数据中softclip reads占比、hardclip reads占比、artifact reads占比柱状图。
23.图3示出了本发明的一种具体实施例中，经过本发明的过滤方法过滤后，不同酶切及超声打断建库数据中softclip reads占比、hardclip reads占比、artifact reads占比柱状图。
24.图4示出了酶切建库方式中人工错误而引入的artifact噪音的原理示意图。
具体实施方式
25.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
26.术语解释：
27.比对：二代测序产出的短序列(又称读段)比对到参考基因组上，得到的比对结果文件为sam或bam文件，该文件中包括cigar信息。cigar保护的是比对结果信息，表明了一条read所有碱基的比对情况，位于第六列。一般含有midnsp七种，其中m表示match,匹配；i表示insertion，插入；d表示deletion，缺失；n表示skipped bases on the reference，s表示soft clipping，软剪切；h表示hard clipping，硬剪切；p表示padding。
28.soft clip：指虽然比对不到基因组，但是还是存在于seq(segment sequence)中的序列，此时cigar列对应的s(soft)的符号。也即：虽然比对不上参考基因组，但是在bam/sam比对文件中的reads上还是存在的序列，即这部分序列并没有被截断扔掉。
29.hard clip：表示比对不上，且不会存在于sam/bam比对文件中的序列，即被截断扔掉了的序列，此时cigar列中含有h(hard)的符号，但在第六列的序列位置上并无对应的序列。
30.示例如下：
31.参考基因组序列：agctagcatcgtgtgtgaccggtctaggaagcaggaatctgcg
32.测序read:agggtgtaacc-gactagtttt
33.上述示例的比对结果中，大写字母表示匹配(非完全匹配，部分碱基是错配的)，-表示缺失，小写字母表示末端未匹配的序列，这部分就是clipping序列。若该read只比对到基因组的这个位置，cigar信息为3s8m1d6m4s；若该序列比对到基因组多个位置，比对的cigar信息为3h8m1d6m4h。s和h除了比对位置的区别以外，在输出数据中的序列也不同，标注为s的序列会显示在bam文件中，标注为h的序列则会删除。比如3s8m1d6m4s在bam中输出序列为agggtgtaaccgactagtttt，而在3h8m1d6m4h输出的序列为gtgtaaccgactag。
34.如背景技术中提到的，通过酶切建库的方式引入的噪音会影响低频突变的检测的准确性，但目前尚无有效的去除方法，为改善这一状况，本技术提出了新的改进方案。
35.实施例1
36.在本实施例中，提供了一种过滤酶切建库方式引入噪音的方法。如图1所示，该方法包括以下步骤：
37.s101，获取酶切建库双端测序下机数据并将其比对至参考基因组序列的初始比对
结果文件；
38.s102，从初始比对结果文件中提取含有soft clip标记的读段(reads)，并统计各读段中soft clip碱基数；
39.s103，将soft clip碱基数大于阈值t1的读段记为候选处理序列，并提取各候选处理序列在参考基因组上的比对位置以及候选处理序列中的soft clip碱基序列；
40.s104，根据各候选处理序列在参考基因组上的比对位置前后延伸d长度，得到延伸区域，并在各延伸区域内寻找与soft clip碱基序列相似的序列，如果相似序列的相似度大于阈值t2时，读段视为含有酶切噪音的读段，存放于去除文件中；
41.s105，从初始比对结果文件中过滤掉去除文件中含有的读段，得到去除酶切建库方式引入噪音的比对文件；
42.其中，相似度是指延伸区域内与soft clip碱基序列的比对匹配率。
43.上述实施例中，通过从初始比对结果文件中提取除含有soft clip标记的读段，并基于其中的soft clip的碱基数的多少筛选出候选处理序列，进一步通过对候选处理序列所在比对位置两侧延伸一定长度的延伸区域内筛选与该候选处理序列相似度大于阈值的相似序列，若存在这样的相似序列，则认为该读段为含有酶切噪音的读段，如此将所有含有噪音的读段从初始比对结果文件中过滤掉，则获得了去除噪音的比对文件。该方法能够有效过滤酶切建库中引入的artifact序列，从而提高检测的准确性。
44.具体地，将下机测序数据与参考基因组进行比对，按照常规前处理步骤进行压缩、排序、分组、解压后得到若干个sam文件。
45.这些sam文件中包含了soft clip信息。这些soft clip中，一部分是由酶切建库方式中人工错误而引入的artifact噪音(图4)。在某些实施例中，此类噪音产生的原理如下：
46.第一，由于限制性内切酶的特性，在酶切的过程中可能会产生带有回文结构的粘性末端，并在其中一条链上产生artifact(图4)。
47.第二，由于回文结构的特性，在该实施例中，一条链上的回文结构可能会导致链弯曲并与自身互补配对进而结合形成颈环结构。
48.第三，在使用pcr末端修复的过程中，该链上的颈环结构的链末端会因正链补齐修复而结合，颈环结构断裂，导致这条链中的一段序列被拆分为两部分，一部分结合到了另一条链上。
49.第四，两条链中，由于负链上的序列是原本存在的，因此可完美地匹配到参考基因组上；而正链上的一段序列来源于负链，因此在全局比对中部分无法全部比对上参考基因组，这段序列为soft clip，也是我们需要过滤掉的artifact噪音。
50.在本发明实施例中，考虑到所要处理的比对结果文件数据量巨大，处理耗时长，因此为缩短处理时间，在一种优选的实施例中，将初始比对结果文件拆分为若干个子文件采取多进程并行处理的方式。所采取的拆分模式如下：根据比对文件行数m和进程数目n，按照int(m/n) 1计算每个分割文件大小，得到均等分割比对文件。
51.上述步骤s102中，从初始比对结果文件中提取含有soft clip标记的读段，并统计各读段中soft clip碱基数的具体操作，示例如下：
52.从每一个sam文件中提取出含有soft clip的reads。若一条读段只比对到基因组唯一位置，且这条读段中有部分碱基未能匹配基因组，这些碱基标记为soft clip。在初始
比对结果文件sam文件中的第六列包含了比对的结果，其中s表示被剪切的序列存在于序列中，即需要提取的soft clip信息。其他不包含soft clip的reads，则认定为非artifact，不含酶切噪音。
53.将soft clip碱基数大于阈值t1的读段记为候选处理序列，具体操作示例如下：为soft clip碱基数的长度设定阈值t1，若reads中soft clip长度小于阈值，则判定为非artifact；相反，若reads中soft clip长度小于阈值，则判定为待处理序列。
54.值得注意的是，同一reads中可能会出现一段或两段soft clip且分布在reads两端，需对其进行判断和区分处理。对于含有不同段soft clip的reads，区分筛选方式如下：
55.在一种优选的实施例中，将soft clip碱基数大于阈值t1的读段记为候选处理序列包括如下情形：(i)分布在读段的前端或后端的soft clip碱基，若soft clip碱基数大于阈值t1时，读段记为候选处理序列；(ii)同时出现在读段的前端和后端的soft clip碱基，至少一端的soft clip碱基数大于阈值t1时，读段记为候选处理序列；(iii)同时出现在读段的前端和后端的soft clip碱基，前端和后端soft clip碱基数分别小于阈值t1，且前端和后端soft clip碱基数之和大于阈值t1时，读段不记为候选处理序列。
56.优选地，需要将不同soft clip段数的reads分别存放在不同文件中。
57.对于存放仅有一段或含有两段soft clip的reads的文件分别进行处理。
58.1)针对存放仅有一段的文件，在实施例中，需要分别提取出该段soft clip的碱基序列，然后将该段序列与参考序列进行局部比对，获得其比对率；
59.2)针对含有两段soft clip序列的文件，需要对每一段soft clip序列逐一进行判断和比对，具体的，若左端的长度大于阈值t1而右端小于阈值t1或左端长度小于阈值t1而右端长度大于阈值t1，则仅需要对大于阈值的soft clip序列与参考序列进行比对；若双端序列均大于阈值t1，则需分别进行比对，获得比对率。
60.值得注意的是，这段局部比对的参考序列是根据候选处理序列基因组比对位置在参考基因组上前后延伸d长度的碱基序列提取而来，其延伸规则如下：
61.(i)当比对位置位于染色体起始位置区域，且距离染色体起始位置的长度小于d时，仅延伸至染色体起始位置；
62.(ii)当比对位置位于染色体末端位置区域，且距离是染色体末端位置的长度小于d时，仅延伸至染色体末端位置；
63.(iii)当比对位置位于染色体中间位置，且距离染色体起始位置和染色体末端位置的长度均大于d时，前后延伸d长度；
64.优选地，d为200～400bp，更优选为250bp～350bp。
65.特别的，本发明实施例中用于局部比对的比对软件是基于smith-waterman算法自主开发的局部比对软件，根据最优得分找到soft clip碱基序列在延伸序列的最优相似序列。
66.对上述比对率设定一个阈值t2，前述获得的比对率与该阈值t2进行比较。具体实施方式如下：
67.(i)分布在读段的前端或后端的大于阈值t1的soft clip碱基，或者，同时出现在读段的前端和后端仅有一端大于阈值t1的soft clip碱基，当延伸区域存在与soft clip碱基序列相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列；
68.(ii)同时出现在读段的前端和后端的soft clip碱基，前端和后端都大于阈值t1的soft clip碱基，当两端的soft clip序列在所在延伸区域都能找到相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列。
69.最后，将视为含有酶切噪音的序列存放于去除(remove)文件。根据多进程同时比对文件得到的remove文件，从初始比对结果文件中，将remove文件含有的读段去除，得到去除酶切建库方式引入噪音的比对文件。
70.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。
71.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本技术可借助软件加必需的检测仪器等硬件设备的方式来实现。基于这样的理解，本技术的技术方案中数据处理的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例或者实施例的某些部分的方法。
72.本技术可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
73.显然，本领域的技术人员应该明白，上述的本技术的部分模块或步骤可以在通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本技术不限制于任何特定的硬件和软件结合。
74.实施例2
75.本实施例提供了一种过滤酶切建库方式引入噪音的装置，该装置包括：获取模块、提取统计模块、标记提取模块、延伸相似比对模块以及噪音去除模块，其中，
76.获取模块，被设置为获取酶切建库双端测序下机数据与参考基因组序列的初始比对结果文件；
77.提取统计模块，被设置为从初始比对结果文件中提取含有soft clip标记的读段，并统计各读段中soft clip碱基数；
78.标记提取模块，被设置为将soft clip碱基数大于阈值t1的读段记为候选处理序列，并提取各候选处理序列在参考基因组上的比对位置以及候选处理序列中的soft clip碱基序列；
79.延伸相似比对模块，被设置为根据各候选处理序列在参考基因组上的比对位置前后延伸d长度，得到延伸区域，并在各延伸区域内寻找与soft clip碱基序列相似的序列，如果相似序列的相似度大于阈值t2时，读段视为含有酶切噪音的读段，存放于去除文件中；
80.噪音去除模块，用于从初始比对结果文件中过滤掉去除文件中含有的读段，得到去除酶切建库方式引入噪音的比对文件；
81.其中，相似度是指延伸区域内与soft clip碱基序列的比对匹配率。
82.可选地，提取统计模块包括多个提取统计子模块，多个提取统计子模块并行处理，优选地，多个提取统计子模块按照如下方式划分：根据初始比对结果文件的行数m和进程数目n，按照int(m/n) 1计算每个分割文件大小，得到均等分割比对文件。
83.可选地，标记提取模块包括：第一标记模块，被设置为对于分布在读段的前端或后端的soft clip碱基，当soft clip碱基数大于阈值t1时，将读段记为候选处理序列；第二标记模块，被设置为对于同时出现在读段的前端和后端的soft clip碱基，当至少一端的soft clip碱基数大于阈值t1时，将读段记为候选处理序列；第三标记模块，被设置为对于同时出现在读段的前端和后端的soft clip碱基，前端和后端soft clip碱基数分别小于阈值t1，且前端和后端soft clip碱基数之和大于阈值t1时，将读段不记为候选处理序列。
84.可选地，延伸相似比对模块包括：第一延伸模块，被设置为当比对位置位于染色体起始位置区域，且距离染色体起始位置的长度小于d时，仅延伸至染色体起始位置；第二延伸模块，被设置为当比对位置位于染色体末端位置区域，且距离是染色体末端位置的长度小于d时，仅延伸至染色体末端位置；第三延伸模块，被设置为当比对位置位于染色体中间位置，且距离染色体起始位置和染色体末端位置的长度均大于d时，前后延伸d长度；优选地，d为200～400bp，更优选为250bp～350bp。
85.可选地，延伸相似比对模块包括局部比对模块；优选地，局部比对模块的评分机制如下：相同碱基记为2分，错配碱基记为-3分，出现空缺记为-10分，连续的空缺不计分，根据最优得分在延伸区域找到soft clip碱基序列的最优相似序列。
86.可选地，延伸相似比对模块进一步包括：噪音序列第一判定模块，被设置为对于分布在读段的前端或后端的大于阈值t1的soft clip序列，或者，同时出现在读段的前端和后端仅有一端大于阈值t1的soft clip碱基，当延伸区域存在与soft clip碱基序列相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列；噪音序列第二判定模块，被设置为对于同时出现在读段的前端和后端的soft clip碱基，前端和后端都大于阈值t1的soft clip碱基，当两端的soft clip序列在所在延伸区域都能找到相似度大于阈值t2的相似序列时，读段视为含有酶切噪音的序列。
87.实施例3
88.本实施例提供了一种计算机可读存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述酶切建库方式引入噪音的过滤方法。
89.还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述酶切建库方式引入噪音的过滤方法。
90.实施例4
91.对某肠癌样本采用不同酶切建库的方法以及超声打断建库的方法进行建库，分别对不同建库方式获得的测序数据，分别在采用本技术的噪音过滤方法处理之前及之后softclip reads占比、hardclip reads占比、artifact reads占比进行了分析，分析结果见图2和图3。
92.图2显示的是，使用本技术的过滤方法前，不同酶切及超声打断建库数据中
softclip reads占比、hardclip reads占比、artifact reads占比柱状图，横坐标为样品，纵坐标分别为softclip reads、hardclip reads、artifact reads占比，v-enfrag、k-enfrag、s-enfrag、nad-enfrag代表样品使用不同酶进行酶切处理，nad-covaris代表样品使用超声打断处理。不难发现，无论使用何种酶切方式建库，均会引入一定量的artifact reads酶切噪音，这些酶切噪音虽然比例不高，但会导致假阳性突变，对突变分析带来影响。
93.图3显示的是，经过本发明的过滤方法过滤后，不同酶切及超声打断建库数据中softclip reads占比、hardclip reads占比、artifact reads占比柱状图，横坐标为样品，纵坐标分别为softclip reads、hardclip reads、artifact reads占比，v-enfrag、k-enfrag、s-enfrag、nad-enfrag代表样品使用不同酶进行酶切处理，nad-covaris代表样品使用超声打断处理。结果表明，不同酶切建库方式、甚至是超声打断所引入的artifact reads占比都降为了0，此外softclip reads占比、hardclip reads占比也显著降低。
94.从以上的描述中，可以看出，本发明的方法不仅能有效地最大程度快速去除酶切建库所引入的噪音，而且有很好的兼容性。
95.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于难愈合创伤治疗的生物膜的制备方法与流程

过滤酶切建库方式引入噪音的方法和装置与流程

相关文献

最热文献