一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于压缩基因组序列数据的方法与流程

2022-04-27 10:52:31 来源:中国专利 TAG:

技术特征:
1.一种用于压缩由测序机器产生的基因组序列数据的计算机实现的方法,所述基因组序列数据包括已与参考序列比对的核苷酸或碱基的序列的读段,从而产生比对读段,所述比对读段作为读段列表存储在初始文件中,所述方法包括:针对每个比对读段,确定所述读段与所述参考序列是完全映射的还是不完全映射的,或者所述读段是否与所述参考序列是未映射的,根据所述确定对所述读段进行编码,其中根据第一编码过程对被确定为完全映射的所述读段进行编码,并且根据第二编码过程对被确定为未映射的所述读段进行编码,其中确定步骤包括针对每个不完全映射的读段,将所述读段与所述参考序列之间的失配的数目与阈值进行比较,其中,在编码步骤中,根据所述第二编码过程或第三编码过程对被确定为不完全映射的所述读段进行编码,当所述失配数目大于所述阈值时,根据所述第二编码过程对所述不完全映射的读段进行编码,并且当所述失配数目低于所述阈值时,根据所述第三编码过程对所述不完全映射的读段进行编码,其中,在所述第二编码过程中,所述读段的每个核苷酸或碱基被单独编码,其中所述第一编码过程和所述第三编码过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码过程相关联的所述读段,所述第一编码过程和所述第三编码过程中的每一者是简化的信息源熵编码过程。2.根据权利要求1所述的方法,其中所述确定步骤包括当读段被确定为与所述参考序列不完全映射并且具有低于所述阈值的失配数目时的进一步确定,所述进一步确定有关于所述读段与所述参考序列是全局映射的还是局部映射的,并且其中所述第三编码过程包括第一编码子过程和第二编码子过程,根据所述第一编码子过程对被确定为全局映射的所述读段进行编码,根据所述第二编码子过程对被确定为局部映射的所述读段进行编码,所述第一编码子过程和所述第二编码子过程包括不同的描述符集合,每个描述符集合单义地表示与对应的编码子过程相关联的所述读段。3.根据权利要求2所述的方法,其中所述第一编码子过程的所述描述符包括所述参考序列中的比对起始位置、读段长度和由符号替换表示的失配列表,并且其中所述第二编码子过程的所述描述符包括所述参考序列中的局部比对起始位置、读段长度、由符号替换表示的失配列表,以及不是所述比对的一部分的所述读段的剪切部分的长度。4.根据权利要求3所述的方法,其中,在所述编码步骤中,将要根据所述第二编码子过程编码的读段的所述剪切部分串联,所述剪切部分的每个核苷酸或碱基被单独编码。5.根据前述权利要求中任一项所述的方法,其中,在所述编码步骤中,在1个字节上编码不完全映射的读段的每个失配。6.根据权利要求5所述的方法,其中,在所述编码步骤中,不完全映射的读段的每个失配如下编码:
·
所述字节的前两位用于编码所述读段中存在的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基;并且
·
所述字节的后六位用于编码所述参考序列中的所述失配的位置,所述位置被计算为相对于所述读段的前一个失配的偏移。7.根据权利要求6所述的方法,其中,在所述编码步骤中,如果在给定失配与所述前一
个失配之间计算出的所述偏移大于最大可编码值,则在所述两个失配之间插入至少一个假失配,直到所述失配中的每一者与所述至少一个假失配之间的每个偏移都低于所述最大可编码值,假失配被定义为这样的失配:对于所述失配,所述字节的位用于编码所述失配,或者用于编码与所述参考序列中的对应参考核苷酸或碱基相等的核苷酸或碱基。8.根据前述权利要求中任一项所述的方法,还包括将所述读段列表划分为读段块的初始步骤,其中每个块开始于包含对所述块进行解码所需的信息的标头,其中所述压缩方法逐块进行。9.根据权利要求8所述的方法,其中所述读段块具有相同的块大小。10.根据前述权利要求中任一项所述的方法,还包括提供包含编码读段列表的压缩文件的最终步骤,所述编码读段以与存储在所述初始文件中的所述读段的顺序相同的顺序存储在所述压缩文件中。11.根据前述权利要求中任一项所述的方法,其中所述阈值等于31。12.根据前述权利要求中任一项所述的方法,还包括:针对每个比对读段,确定所述读段是否包含至少一个对应于所述测序机器不能检出任何碱基或核苷酸的情况的失配的步骤。13.根据权利要求12所述的方法,还包括:针对每个包含至少一个对应于所述测序机器不能检出任何碱基或核苷酸的情况的失配的读段,确定此类失配的数目的步骤,以及将所述数目与参考阈值进行比较的步骤。14.根据权利要求13所述的方法,其中,在所述编码步骤中,如果此类失配的数目大于所述参考阈值,则将要根据所述第二编码过程编码的读段的每个核苷酸或碱基以4位单独编码,并且如果此类失配的数目低于所述参考阈值,则将要根据所述第二编码过程编码的读段的每个核苷酸或碱基以2位单独编码,并且所述编码步骤还包括编码沿着所述参考序列的位置的列表,所述位置对应于所述参考序列中的此类失配的位置。15.一种在计算机可读存储介质上体现的计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述计算机可执行指令在由处理器执行时,使得所述处理器执行包括前述权利要求中任一项所述的方法的所述步骤的操作。16.一种具有计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在由处理器执行时,使得所述处理器执行包括权利要求1至14中任一项所述的方法的所述步骤的操作。17.一种设备,包括:处理器;和存储器,其可操作地耦接到所述处理器以形成计算装置,所述存储器存储处理器可执行指令,所述处理器可执行指令至少基于在所述处理器上被执行而使得所述处理器执行包括权利要求1所述的方法的所述步骤的操作。18.一种用于压缩基因组序列数据的方法,所述方法包括:由一个或多个计算机获得读段记录;由所述一个或多个计算机确定所述读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;基于由所述一个或多个计算机确定所述读段记录对应于被不完全映射到所述参考序
列的读段,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;以及基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述一个或多个计算机将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录。19.根据权利要求18所述的方法,其中由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目包括:由所述一个或多个计算机确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。20.根据权利要求18所述的方法,其中每个读段记录包括:指示比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;以及指示所述读段中的所述可能失配中的每一者的相对位置的数据。21.根据权利要求18所述的方法,其中将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录包括:针对每个特定失配,由所述一个或多个计算机编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及由一个或多个计算机编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。22.根据权利要求21所述的方法,所述方法还包括:由一个或多个计算机确定所述偏移是否大于最大可编码值;以及基于确定所述偏移大于所述最大编码值,由一个或多个计算机在所述特定失配与所述前一个失配之间插入至少一个假失配。23.根据权利要求18所述的方法,所述方法还包括:基于确定所述失配数目不满足所述预先确定的失配阈值数目,由一个或多个计算机使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。24.根据权利要求18所述的方法,所述方法还包括:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由一个或多个计算机使用简化的信息熵编码来编码所述读段记录的至少一部分。25.根据权利要求18所述的方法,其中所述一个或多个计算机包括一个或多个硬件处理器。26.根据权利要求25所述的方法,其中所述一个或多个硬件处理器包括一个或多个现场可编程门阵列(fpga)。27.一种硬件处理器,其包括被配置为执行一个或多个操作的硬件处理电路系统,所述一个或多个操作包括:由所述硬件处理电路系统获得读段记录;由所述硬件处理电路系统确定所述读段记录是对应于被完全映射到参考序列的读段
还是被不完全映射到所述参考序列的读段;基于由所述硬件处理电路系统确定所述读段记录对应于被不完全映射到所述参考序列的读段,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;以及基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述硬件处理电路系统将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录。28.根据权利要求27所述的硬件处理器,其中每个读段记录包括:指示所述比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;以及指示所述读段中的所述可能失配的相对位置的数据。29.根据权利要求27所述的硬件处理器,其中将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录包括:针对每个特定失配,由所述硬件处理电路系统编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及由所述硬件处理电路系统编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。30.根据权利要求29所述的硬件处理器,其中所述硬件处理器电路系统被进一步配置为执行包括以下各项的操作:由所述硬件处理电路系统确定所述偏移是否大于最大可编码值;基于确定所述偏移大于所述最大编码值,由所述硬件处理电路系统在所述特定失配与所述前一个失配之间插入至少一个假失配。31.根据权利要求27所述的硬件处理器,其中所述硬件处理器电路系统被进一步配置为执行包括以下各项的操作:基于确定所述失配数目不满足所述预先确定的失配阈值数目,由所述硬件处理电路系统使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。32.根据权利要求27所述的硬件处理器,其中所述硬件处理器电路系统被进一步配置为执行包括以下各项的操作:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由所述硬件处理电路系统使用简化的信息熵编码来编码所述读段记录的至少一部分。33.根据权利要求24所述的硬件处理器,其中所述硬件处理电路系统包括一个或多个现场可编程门阵列(fpga)。34.根据权利要求18所述的硬件处理器,其中由所述硬件处理电路系统确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目包括:由所述硬件处理电路系统确定所述不完全映射的读段的所述失配数目是否大于所述预先确定的失配阈值数目。35.一种用于压缩基因组序列数据的系统,所述系统包括:
一个或多个计算机,和存储指令的一个或多个存储装置,所述指令在由一个或多个计算机执行时,能够操作以使得所述一个或多个计算机执行以下操作,所述操作包括:由所述一个或多个计算机获得读段记录;由所述一个或多个计算机确定所述读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;基于由所述一个或多个计算机确定所述读段记录对应于被不完全映射到所述参考序列的读段,由所述一个或多个计算机确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;以及基于确定所述失配数目满足所述预先确定的失配阈值数目,由所述一个或多个计算机将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录。36.根据权利要求35所述的系统,其中每个读段记录包括:指示比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;以及指示所述读段中的所述可能失配中的每一者的相对位置的数据。37.根据权利要求35所述的系统,其中将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录包括:针对每个特定失配,由一个或多个计算机编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及由一个或多个计算机编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。38.根据权利要求37所述的系统,所述操作还包括:由所述一个或多个计算机确定所述偏移是否大于最大可编码值;以及基于确定所述偏移大于所述最大编码值,由一个或多个计算机在所述特定失配与所述前一个失配之间插入至少一个假失配。39.根据权利要求35所述的系统,所述操作还包括:基于确定所述失配数目不满足所述预先确定的失配阈值数目,由一个或多个计算机使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。40.根据权利要求35所述的系统,所述操作还包括:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,由一个或多个计算机使用简化的信息熵编码来编码所述读段记录的至少一部分。41.根据权利要求35所述的系统,其中所述一个或多个计算机包括一个或多个硬件处理器。42.根据权利要求41所述的系统,其中所述一个或多个硬件处理器包括一个或多个现场可编程门阵列(fpga)。43.一种具有存储在其上的指令的计算机可读存储装置,所述指令在由数据处理设备执行时,使得所述数据处理设备执行用于压缩基因组序列数据的操作,所述操作包括:
获得读段记录;确定所述读段记录是对应于被完全映射到参考序列的读段还是被不完全映射到所述参考序列的读段;基于确定所述读段记录对应于被不完全映射到所述参考序列的读段,确定所述不完全映射的读段的失配数目是否满足预先确定的失配阈值数目;以及基于确定所述失配数目满足所述预先确定的失配阈值数目,将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录。44.根据权利要求43所述的计算机可读存储装置,其中每个读段记录包括:指示比对读段相对于所述参考序列的绝对起始位置的数据;指示所述读段的长度的数据;指示所述读段是完全映射的还是不完全映射的数据;指示在所述读段中识别的失配的数目的数据;以及指示所述读段中的所述可能失配中的每一者的相对位置的数据。45.根据权利要求43所述的计算机可读存储装置,其中将所述不完全映射的读段的每个失配编码为具有1个字节大小的记录包括:针对每个特定失配,由一个或多个计算机编码所述字节的前两位以包括表示存在于所述读段中的替代核苷酸或碱基而不是所述参考序列中的对应参考核苷酸或碱基的数据;以及由一个或多个计算机编码所述字节的剩余六位以包括表示所述参考序列中的所述失配的位置的数据,所述位置被计算为相对于所述读段的前一个失配的偏移。46.根据权利要求45所述的计算机可读存储装置,所述操作还包括:由所述一个或多个计算机确定所述偏移是否大于最大可编码值;以及基于确定所述偏移大于所述最大编码值,由一个或多个计算机在所述特定失配与所述前一个失配之间插入至少一个假失配。47.根据权利要求43所述的计算机可读存储装置,所述操作还包括:基于确定所述失配数目不满足所述预先确定的失配阈值数目,使用简化的信息熵编码过程将对应于所述失配中的每一者的位置的所述参考序列的位置列表编码到所述参考序列中。48.根据权利要求43所述的计算机可读存储装置,所述操作还包括:基于确定所述读段记录对应于被完全映射到所述参考序列的读段,使用简化的信息熵编码来编码所述读段记录的至少一部分。

技术总结
本发明涉及一种基于参考的方法,其用于压缩由测序机器产生的基因组序列数据。确定先前已与参考序列比对的核苷酸或碱基的序列与参考序列是完全映射的、不完全映射的还是未映射的;然后根据所述确定进行编码。该确定步骤包括:对于每个不完全映射的序列,将所述序列与参考序列之间的失配的数目与参考阈值进行比较,以及根椐用于压缩由测序机器产生的基因组序列数据的所述比较方法的结果,根据不同的编码过程对不完全映射的序列进行编码。码过程对不完全映射的序列进行编码。码过程对不完全映射的序列进行编码。


技术研发人员:G
受保护的技术使用者:因美纳有限公司
技术研发日:2020.09.11
技术公布日:2022/4/26
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献