一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种无参考基因组的变异检测的数据工作流处理方法与流程

2021-10-27 22:07:00 来源:中国专利 TAG:基因组 工作流 变异 检测 参考

技术特征:
1.一种无参考基因组的变异检测的数据工作流处理方法,其特征在于,包括如下步骤:s1、提取原始测序数据fastq文件,建立存储库,将fastq文件切割为多个数据工作流,并将所述多个数据工作流存储在存储库中;s2、采用基于最近投影算法将多个数据工作流进行投影变换,得到多个虚拟投影序列;s3、利用变换空间索引算法,对所述虚拟投影序列进行字符串的搜索,使用解码操作,查找出所述字符串在数据工作流上的测序序列上的位置;s4、当字符串的搜索步骤中没有找到合适的区间的时候,修改查找的字符串以命中不同的区间,然后在新的区间上继续进行搜索操作。2.根据权利要求1所述的数据工作流处理方法,其特征在于,步骤s1中,采用多层级多节点分配和排序的方法,将存储库划分到多个区域,并将所述多个数据工作流发送到相应的多个区域,接着在多个区域上完成排序。3.根据权利要求1所述的数据工作流处理方法,其特征在于,步骤s4中,还包括差异查找步骤,获取搜索匹配的最小次数,利用搜索匹配的最小次数对差异读段区间,实现快速地搜索操作与解码操作。4.根据权利要求3所述的数据工作流处理方法,其特征在于,所述差异读段包括未投影和不完全投影的读段。5.根据权利要求1所述的数据工作流处理方法,其特征在于,步骤s2具体包括:s21、假设每个数据工作流上的测序序列为t,长度为n,在测序序列t的末尾添加一个投影标识符,得到带有投影标识符的测序序列t';s22、对带有投影标识符的测序序列t’进行循环右移,每次右移一位,循环n次后得到n个长度为n的字符串,对n个长度为n的字符串按照字典顺序排序,得矩阵m。6.根据权利要求5所述的数据工作流处理方法,其特征在于,还原虚拟投影序列得到数据工作流上的测序序列的步骤如下:s23、求矩阵m的第一列f列,按照字典顺序重新排列虚拟投影序列;s24、从矩阵m的第一行开始,找到其f列对应的字符,并输出该字符;s25、找到其前面的同一行l列的字符;s26、根据l列的字符,找到与其在同一行的f列字符;s27、重复步骤s24

s26,直到l列的字符为投影标识符,输出的结果即为数据工作流上的测序序列的逆序,再一次逆序输出结果,并去掉标识符,得数据工作流上的测序序列。7.根据权利要求1所述的数据工作流处理方法,其特征在于,对所述虚拟投影序列进行字符串的搜索,具体包括:s31、字符串设为p,长度为m,p[i]表示p上的第i个字符,1≤i≤_m,设在虚拟投影序列上查找到区间为[start,end];s32、令初始i=m,根据start=c[p[i]] 1,end=c[p[i] 1]计算最初的start与end,然后i自减1;s33、从后往前搜索p,按照公式(1)、(2)进行计算获得start与end,start=c[p[i]] occ(p[i],start

1) 1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)end=c[p[i]] occ(p[i],end)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)s34、完成计算后i自减1,重新计算start与end,直到遍历p,即i为0;
s35、遍历结束后,如果end<start,则字符串p没有在虚拟投影序列中出现;否则,输出end

start l作为出现次数;s36、进行虚拟投影序列到测序序列的解码操作;从位置k开始执行解码操作,直到得到的字符为标识符,解码过程中得到的字符个数就是i。

技术总结
本发明提出了一种无参考基因组的变异检测的数据工作流处理方法,包括如下步骤:提取原始测序数据FASTQ文件,建立存储库,将FASTQ文件切割为多个数据工作流,并将所述多个数据工作流存储在存储库中;采用基于最近投影算法将多个数据工作流进行投影变换,得到多个虚拟投影序列;利用变换空间索引算法,对所述虚拟投影序列进行字符串的搜索,使用解码操作,查找出所述字符串在数据工作流上的测序序列上的位置;当字符串的搜索步骤中没有找到合适的区间的时候,修改查找的字符串以命中不同的区间,然后在新的区间上继续进行搜索操作。然后在新的区间上继续进行搜索操作。然后在新的区间上继续进行搜索操作。


技术研发人员:刘珍 刘志岩 王海宁
受保护的技术使用者:哈尔滨因极科技有限公司
技术研发日:2021.07.23
技术公布日:2021/10/26
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜