技术特征:
1.一种无参考基因组的变异检测的数据工作流处理方法,其特征在于,包括如下步骤:s1、提取原始测序数据fastq文件,建立存储库,将fastq文件切割为多个数据工作流,并将所述多个数据工作流存储在存储库中;s2、采用基于最近投影算法将多个数据工作流进行投影变换,得到多个虚拟投影序列;s3、利用变换空间索引算法,对所述虚拟投影序列进行字符串的搜索,使用解码操作,查找出所述字符串在数据工作流上的测序序列上的位置;s4、当字符串的搜索步骤中没有找到合适的区间的时候,修改查找的字符串以命中不同的区间,然后在新的区间上继续进行搜索操作。2.根据权利要求1所述的数据工作流处理方法,其特征在于,步骤s1中,采用多层级多节点分配和排序的方法,将存储库划分到多个区域,并将所述多个数据工作流发送到相应的多个区域,接着在多个区域上完成排序。3.根据权利要求1所述的数据工作流处理方法,其特征在于,步骤s4中,还包括差异查找步骤,获取搜索匹配的最小次数,利用搜索匹配的最小次数对差异读段区间,实现快速地搜索操作与解码操作。4.根据权利要求3所述的数据工作流处理方法,其特征在于,所述差异读段包括未投影和不完全投影的读段。5.根据权利要求1所述的数据工作流处理方法,其特征在于,步骤s2具体包括:s21、假设每个数据工作流上的测序序列为t,长度为n,在测序序列t的末尾添加一个投影标识符,得到带有投影标识符的测序序列t';s22、对带有投影标识符的测序序列t’进行循环右移,每次右移一位,循环n次后得到n个长度为n的字符串,对n个长度为n的字符串按照字典顺序排序,得矩阵m。6.根据权利要求5所述的数据工作流处理方法,其特征在于,还原虚拟投影序列得到数据工作流上的测序序列的步骤如下:s23、求矩阵m的第一列f列,按照字典顺序重新排列虚拟投影序列;s24、从矩阵m的第一行开始,找到其f列对应的字符,并输出该字符;s25、找到其前面的同一行l列的字符;s26、根据l列的字符,找到与其在同一行的f列字符;s27、重复步骤s24
‑
s26,直到l列的字符为投影标识符,输出的结果即为数据工作流上的测序序列的逆序,再一次逆序输出结果,并去掉标识符,得数据工作流上的测序序列。7.根据权利要求1所述的数据工作流处理方法,其特征在于,对所述虚拟投影序列进行字符串的搜索,具体包括:s31、字符串设为p,长度为m,p[i]表示p上的第i个字符,1≤i≤_m,设在虚拟投影序列上查找到区间为[start,end];s32、令初始i=m,根据start=c[p[i]] 1,end=c[p[i] 1]计算最初的start与end,然后i自减1;s33、从后往前搜索p,按照公式(1)、(2)进行计算获得start与end,start=c[p[i]] occ(p[i],start
‑
1) 1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)end=c[p[i]] occ(p[i],end)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)s34、完成计算后i自减1,重新计算start与end,直到遍历p,即i为0;
s35、遍历结束后,如果end<start,则字符串p没有在虚拟投影序列中出现;否则,输出end
‑
start l作为出现次数;s36、进行虚拟投影序列到测序序列的解码操作;从位置k开始执行解码操作,直到得到的字符为标识符,解码过程中得到的字符个数就是i。
技术总结
本发明提出了一种无参考基因组的变异检测的数据工作流处理方法,包括如下步骤:提取原始测序数据FASTQ文件,建立存储库,将FASTQ文件切割为多个数据工作流,并将所述多个数据工作流存储在存储库中;采用基于最近投影算法将多个数据工作流进行投影变换,得到多个虚拟投影序列;利用变换空间索引算法,对所述虚拟投影序列进行字符串的搜索,使用解码操作,查找出所述字符串在数据工作流上的测序序列上的位置;当字符串的搜索步骤中没有找到合适的区间的时候,修改查找的字符串以命中不同的区间,然后在新的区间上继续进行搜索操作。然后在新的区间上继续进行搜索操作。然后在新的区间上继续进行搜索操作。
技术研发人员:刘珍 刘志岩 王海宁
受保护的技术使用者:哈尔滨因极科技有限公司
技术研发日:2021.07.23
技术公布日:2021/10/26
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。