一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向群体基因组索引表示与构建的方法及设备

2023-02-02 00:54:26 来源:中国专利 TAG:

技术特征:
1.一种面向群体基因组索引表示与构建的方法,其特征在于,包括以下步骤:步骤一、数据收集与预处理:获取人类参考基因组数据和制定的已知包含不同类型变异的变异数据,并对两种数据文件进行去除冗余数据等规范化操作预处理;步骤二、参考基因组构建de bruijn图模型索引表示:遍历完整的参考基因组,提取所有k-mer序列,同时记录每个k-mer对应的四元组(k-mer序列,入边碱基,出边碱基,偏移位置),基于每个k-mer对应的四元组,提取输入数据的不同k-mer序列以及k-mer序列之间的关联关系构建de bruijn图模型,de bruin图g=<v,e>是一个有向图模型,图中节点v是相互之间不同的长度为k的短序列片段k-mer,提取基因组上所有不同k-mer构成节点集合v={v1,v2,

,vm};对于两个节点vi和vj,如果vi与vj有(k-1)-mer的序列重叠,则存在有向边vi

vj;每一个k-mer序列代表一个de bruijn图模型节点,根据节点的入边与出边数量情况确定唯一路径unipath,节点的入度和出度分别定义为节点的入边和出边的个数,且节点可能存在一个或多个入边和出边;图g中任意两个节点可形成的一条路径,如果路径的起始节点入度大于1且出度是1,结束节点出度大于1且入度是1,中间节点入度是1且出度是1,则该路径是一个唯一路径unipath;利用生成的所有唯一路径;对于每一个路径,其上的节点关联了生成的k-mer序列位置集合;针对某路径,从头开始向后遍历每一个节点,获取当前节点和其后继节点的两个位置集合,找出两个集合的相近位置元素;由于每个位置集合是有序集合,遍历某集合元素并采用二分查找方法,找出所有相近位置并形成新位置集合;按照此方法,依次向后遍历路径上的每一个节点,每遍历一个新节点即执行以上位置查找和集合合并操作,直至遇到路径的结束节点,最后形成的位置集合即为当前唯一路径对应的位置集合;按照此方法生成所有唯一路径对应的位置集合,并表示为二进制索引文件,表示为f-pos;步骤三、局部变异序列索引表示与构建:首先将参考基因组按照固定长度区间进行有重叠划分,每个划分的固定长度区间作为一个局部区域,每两个相邻局部区域有部分重叠,重叠区域的长度是划分区域长度的一半;针对某个体的单体型,收集每个局部区域内的变异,并形成带有已知变异的局部个体基因组序列,即生成局部变异序列;重叠区域的长度是划分区域长度的一半;通过以上方法生成变异序列索引文件,每一个变异序列索引文件对应作为一个alt string;步骤四、针对“unipath”和“alt string”,基于minimizer的群体基因组索引表示与构建:在针对“unipath”和“alt string”构建索引之前,分别将“unipath”图以及“alt string”列表转换为字符串列表;之后,针对字符串列表中的每一个字符串,依照minimizer选取准则,选取滑窗内哈希值最小的k-mer,作为局部的代表k-mer;这些局部最小k-mer被称为minimizer,将会被存储在一个统一的列表里;所有字符串对应的minimizer列表,将会被合并成为一个完整的列表,该列表会被按照minimizer的哈希值的大小进行排序;之后,按照每个minimizer的哈希值的高k位构建
miminizer的二级索引,k为二级索引参数;二级索引将minimizer的总索引分割成为b=2
^k
个小区间,当假设minimizer的总数目为m个的时候,每个小区间平均包含m/b个minimizer;构建好的minimizer,每个占据96bit的存储空间,其中minimizer的哈希值的后q位占据30位存储空间;minimizer在原始“unipath”或者“alt string”列表上的位置,占据65bit的空间。2.根据权利要求1所述的一种面向群体基因组索引表示与构建的方法,其特征在于,在遍历完整的参考基因组提取所有k-mer序列时,需要对k-mer序列进行排序和去重操作,具体过程包括以下步骤:根据k-mer的前f个bp的序列内容作为文件名,bp表示碱基总量,将k-mer序列对应的四元组写入对应临时文件;然后,将一个文件内所有k-mer序列导入内存,对当前内存中的文件里的k-mer执行快速排序,使文件内k-mer序列对应的四元组有序,再输出到硬盘形成对应的有序文件;快速排序:从头遍历当前文件内k-mer集合,对相邻的相同k-mer序列进行合并,并对k-mer对应的偏移位置结合进行合并;对所有文件依次导入内存并进行快速排序,生成所有不同k-mer序列并保证k-mer对应的位置集合有序。3.根据权利要求2所述的一种面向群体基因组索引表示与构建的方法,其特征在于,根据节点的入边与出边数量情况确定唯一路径unipath的过程包括以下步骤:首先根据节点的入边与出边数量情况,将节点分为如下几种类型:1)

x’型节点:多个入边且多个出边;2)

fy’型节点:多个入边且一个出边;3)

ry’型节点:一个入边且多个出边;4)

l’型节点:一个入边且一个出边;唯一路径的起始和终止节点的构成方式有以下几种可能性:(1)起始和终止节点是同一个

x’型节点;(2)起始节点是

fy’型节点且结束节点是

ry’型节点;(3)起始节点是

x’型节点的后驱节点或

fy’型节点的后驱节点且结束节点

x’型节点的前驱节点或

ry’型节点的前驱节点;然后,遍历图中所有节点,如果当前节点是唯一路径的起始节点,则执行向后延伸操作;向后延伸操作:通过当前节点的出边信息计算得出其后驱节点,如果后驱节点是

l’型节点,则继续向后延伸,按照此方法依次循环,直至遇到结束节点;通过以上方法可生成图模型的所有唯一路径且保证路径中各节点不重复;通过以上方法生成所有的唯一路径索引文件,每一个唯一路径索引文件对应作为一个unipath。4.根据权利要求3所述的一种面向群体基因组索引表示与构建的方法,其特征在于,步骤四中选取滑窗内哈希值最小的k-mer的具体过程包括以下步骤:minimizer的选取有两个关键参数,分别是windows size以及k-mer长度;假设待构建索引的序列为l,k-mer长度为l_k,则滑窗选取时,将会有(l-l_k 1)个k-mer被选取出来;假设windows size是w,则从编号1~5这5个k-mer中,选取哈希值最小的一个min_k-mer1;之
后,从2~6这5个中,选择最小的一个min_k-mer2;之后是3~7并依次类推;相邻的不同minimizer选取窗口选取出来的min_k-mer可能是同一个,此时每个重复的仅仅记录一次;min_k-mer被称为minimizer。5.根据权利要求4所述的一种面向群体基因组索引表示与构建的方法,其特征在于,所述哈希值的后q位中的q=minimizer_len*2-k,其中minimizer_len表示minimizer长度。6.根据权利要求5所述的一种面向群体基因组索引表示与构建的方法,其特征在于,针对“unipath”进行基于minimizer的群体基因组索引表示与构建时,unipath图模型中的minimizer的存储数据结构如下:构建的unpath序列的minimizer索引,除了30bit的minimizer存储空间,还有65bit的位置区;所述位置区为:其中32bit用于存储该minimizer所属的unitig的id,32bit存储该minimizer所在unitig的位置,1bit用于存储该minimizer相对于unitig的方向。7.根据权利要求6所述的一种面向群体基因组索引表示与构建的方法,其特征在于,针对“alt string”进行基于minimizer的群体基因组索引表示与构建时,alt string的minimizer的存储数据结构如下:“alt string”的minimizer的每一项存储成为96bit的数据结构,所有的minimizer共同构成数据表;属于“alt string”的minimizer,其坐标以如下方法唯一标注:每个minimizer包含65位的位置区,其中,(a)25bit用于存储该minimizer所属的window block的id;(b)19bit存储该minimizer所在haplotype的id;(c)22bit用来存储在haplotype上的位置;(d)1bit用于存储该minimizer相对于haplotype上的方向。8.根据权利要求7所述的一种面向群体基因组索引表示与构建的方法,其特征在于,针对“alt string”进行基于minimizer的群体基因组索引表示与构建的过程中,仅对相互靠近的每个window block中间的甜区变异构建索引,所述甜区为每个window block的从25%*l到75%l的一段区域。9.根据权利要求7或8所述的一种面向群体基因组索引表示与构建的方法,其特征在于,所述方法还包括minimizer查找的过程,minimizer查找的过程包括以下步骤:首先,使用minimizer生成算法生成read的minimizer列表;之后针对其中的某个minimizer,获取其哈希值的前k位,定位到minimizer索引的一个小区间内,该小区间平均包含m/b个minimizer;之后,在该小区间内,使用剩余的q位作为key,进行二分查找;找到minimizer在索引中的具体位置之后,将通过其65位的位置区,解析出来read的minimizer在“unipath”图或者“alt string”列表中的位置;如果查找的是“unipath”图的minimizer索引,则解析为相应的unitig的id,unitig上的位置以及minimizer相对于unitig的方向;如果查找的是“alt string”列表的minimizer索引,则解析成为:window block的id,haplotype的id,haplotype上的位置,以及该minimizer相对于haplotype上的方向,即minimizer在wb结构上的坐标。10.一种面向群体基因组索引表示与构建设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现
如权利要求1至9之一所述的一种面向群体基因组索引表示与构建方法。

技术总结
面向群体基因组索引表示与构建的方法及设备,属于基因技术与计算机技术结合领域。本发明为了解决现有基因组索引结构构建的方法无法对PB级群体基因组数据构建有效的索引结构的问题。本发明对参考基因组构建de Bruijn图模型索引表示,确定每个唯一路径unipath;将参考基因组按照固定长度区间进行有重叠划分,每两个相邻局部区域有部分重叠,针对某个体的单体型,收集每个局部区域内的变异,生成局部变异序列,进而生成变异序列索引文件alt string;分别将unipath以及alt string列表转换为字符串列表并基于minimizer进行群体基因组索引的表示与构建。组索引的表示与构建。组索引的表示与构建。


技术研发人员:国宏哲 李高阳 刘博 王亚东
受保护的技术使用者:哈尔滨工业大学
技术研发日:2022.10.21
技术公布日:2023/1/31
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献