一种无参考基因组的变异检测的数据工作流处理方法与流程

2021-10-27 22:07:00 来源：中国专利 TAG：基因组工作流变异检测参考

技术特征：
1.一种无参考基因组的变异检测的数据工作流处理方法，其特征在于，包括如下步骤：s1、提取原始测序数据fastq文件，建立存储库，将fastq文件切割为多个数据工作流，并将所述多个数据工作流存储在存储库中；s2、采用基于最近投影算法将多个数据工作流进行投影变换，得到多个虚拟投影序列；s3、利用变换空间索引算法，对所述虚拟投影序列进行字符串的搜索，使用解码操作，查找出所述字符串在数据工作流上的测序序列上的位置；s4、当字符串的搜索步骤中没有找到合适的区间的时候，修改查找的字符串以命中不同的区间，然后在新的区间上继续进行搜索操作。2.根据权利要求1所述的数据工作流处理方法，其特征在于，步骤s1中，采用多层级多节点分配和排序的方法，将存储库划分到多个区域，并将所述多个数据工作流发送到相应的多个区域，接着在多个区域上完成排序。3.根据权利要求1所述的数据工作流处理方法，其特征在于，步骤s4中，还包括差异查找步骤，获取搜索匹配的最小次数，利用搜索匹配的最小次数对差异读段区间，实现快速地搜索操作与解码操作。4.根据权利要求3所述的数据工作流处理方法，其特征在于，所述差异读段包括未投影和不完全投影的读段。5.根据权利要求1所述的数据工作流处理方法，其特征在于，步骤s2具体包括：s21、假设每个数据工作流上的测序序列为t，长度为n，在测序序列t的末尾添加一个投影标识符，得到带有投影标识符的测序序列t'；s22、对带有投影标识符的测序序列t’进行循环右移，每次右移一位，循环n次后得到n个长度为n的字符串，对n个长度为n的字符串按照字典顺序排序，得矩阵m。6.根据权利要求5所述的数据工作流处理方法，其特征在于，还原虚拟投影序列得到数据工作流上的测序序列的步骤如下:s23、求矩阵m的第一列f列，按照字典顺序重新排列虚拟投影序列；s24、从矩阵m的第一行开始，找到其f列对应的字符，并输出该字符；s25、找到其前面的同一行l列的字符；s26、根据l列的字符，找到与其在同一行的f列字符；s27、重复步骤s24
‑
s26，直到l列的字符为投影标识符，输出的结果即为数据工作流上的测序序列的逆序，再一次逆序输出结果，并去掉标识符，得数据工作流上的测序序列。7.根据权利要求1所述的数据工作流处理方法，其特征在于，对所述虚拟投影序列进行字符串的搜索，具体包括：s31、字符串设为p，长度为m，p[i]表示p上的第i个字符，1≤i≤_m，设在虚拟投影序列上查找到区间为[start,end]；s32、令初始i＝m，根据start＝c[p[i]] 1,end＝c[p[i] 1]计算最初的start与end，然后i自减1；s33、从后往前搜索p，按照公式(1)、(2)进行计算获得start与end，start＝c[p[i]] occ(p[i]，start
‑
1) 1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)end＝c[p[i]] occ(p[i]，end)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)s34、完成计算后i自减1，重新计算start与end，直到遍历p，即i为0；
s35、遍历结束后，如果end<start，则字符串p没有在虚拟投影序列中出现；否则，输出end
‑
start l作为出现次数；s36、进行虚拟投影序列到测序序列的解码操作；从位置k开始执行解码操作，直到得到的字符为标识符，解码过程中得到的字符个数就是i。

技术总结
本发明提出了一种无参考基因组的变异检测的数据工作流处理方法，包括如下步骤：提取原始测序数据FASTQ文件，建立存储库，将FASTQ文件切割为多个数据工作流，并将所述多个数据工作流存储在存储库中；采用基于最近投影算法将多个数据工作流进行投影变换，得到多个虚拟投影序列；利用变换空间索引算法，对所述虚拟投影序列进行字符串的搜索，使用解码操作，查找出所述字符串在数据工作流上的测序序列上的位置；当字符串的搜索步骤中没有找到合适的区间的时候，修改查找的字符串以命中不同的区间，然后在新的区间上继续进行搜索操作。然后在新的区间上继续进行搜索操作。然后在新的区间上继续进行搜索操作。

技术研发人员：刘珍刘志岩王海宁
受保护的技术使用者：哈尔滨因极科技有限公司
技术研发日：2021.07.23
技术公布日：2021/10/26

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种抑菌快吸吸收用品及其制造方法与流程

一种无参考基因组的变异检测的数据工作流处理方法与流程

相关文献

最热文献