一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

生物序列标识符的压缩方法及装置、解压方法及装置与流程

2022-12-20 20:16:50 来源:中国专利 TAG:

技术特征:
1.一种生物序列标识符的压缩方法,其特征在于,包括:对于基因测序文件中的每个标识符,将所述标识符拆分成若干子标识符;定义若干窗口的编码规则,所述编码规则与所述子标识符的文本格式相匹配;将指代含义相同的子标识符划分至相同的窗口;对于各个窗口,根据对应的编码规则对所述窗口中的所有子标识符进行编码,并将各个窗口的编码结果汇总成所述标识符的压缩结果。2.根据权利要求1所述的生物序列标识符的压缩方法,其特征在于,将所述标识符拆分成若干子标识符,包括:确定所述标识符是基于单端测序得到的生物序列的标识符,还是基于双端测序得到的生物序列的标识符;在确定所述标识符是基于单端测序得到的生物序列的标识符的情况下,根据预定义的拆分规则将所述标识符拆分成对应于各个窗口的子标识符;所述窗口的数量和/或各个窗口的属性由初始被拆分的标识符的子标识符的字符类型和长度确定;在确定所述标识符是基于双端测序得到的生物序列的标识符的情况下,根据预定义的拆分规则分别将所述标识符的第一片段和第二片段拆分成对应于各个窗口的子标识符。3.根据权利要求2所述的生物序列标识符的压缩方法,其特征在于,若所述标识符是基于双端测序得到的生物序列的标识符,所述压缩方法还包括:确定所述标识符第一片段的各个子标识符与所述第二片段中相同位序的子标识符的差异信息;将所述标识符第一片段的子标识符的文本格式以及所述差异信息确定为所述标识符的子标识符的文本格式,或者将所述标识符第二片段的子标识符的文本格式以及所述差异信息确定为所述标识符的子标识符的文本格式。4.根据权利要求2所述的生物序列标识符的压缩方法,其特征在于,所述拆分规则包括:按照连续符号及连续非符号进行拆分;和/或,按照所述标识符与其他标识符的连续相同内容及差异内容进行拆分。5.根据权利要求1所述的生物序列标识符的压缩方法,其特征在于,还包括:根据各个子标识符的文本格式确定所述标识符的文本格式;对具有相同文本格式的标识符进行共同编码。6.一种生物序列标识符的解压方法,其特征在于,包括:确定用于对标识符的二进制流进行解压的解压信息;其中,所述二进制流由权利要求1-5中任一项所述的生物序列标识符的压缩方法对标识符进行压缩得到,所述解压信息根据对所述标识符进行压缩的过程中生成的文本格式所确定;根据所述解压信息对所述二进制流进行解压,得到生物序列的标识符。7.一种生物序列标识符的压缩装置,其特征在于,包括:拆分模块,用于对于基因测序文件中的每个标识符,将所述标识符拆分成若干子标识符;定义模块,用于定义若干窗口的编码规则,所述编码规则与所述子标识符的文本格式相匹配;
划分模块,用于将指代含义相同的子标识符划分至相同的窗口;编码模块,用于对于各个窗口,根据对应的编码规则对所述窗口中的所有子标识符进行编码,并将各个窗口的编码结果汇总成所述标识符的压缩结果。8.一种生物序列标识符的解压装置,其特征在于,包括:确定模块,用于确定用于对标识符的二进制流进行解压的解压信息;其中,所述二进制流由权利要求1-5中任一项所述的生物序列标识符的压缩方法对标识符进行压缩得到,所述解压信息根据对所述标识符进行压缩的过程中生成的文本格式所确定;解压模块,用于根据所述解压信息对所述二进制流进行解压,得到生物序列的标识符。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。

技术总结
本发明公开了生物序列标识符的压缩方法及装置、解压方法及装置。对于基因测序文件中的每个标识符,将所述标识符拆分成若干子标识符;定义若干窗口的编码规则,所述编码规则与所述子标识符的文本格式相匹配;将指代含义相同的子标识符划分至相同的窗口;对于各个窗口,根据对应的编码规则对所述窗口中的所有子标识符进行编码,并将各个窗口的编码结果汇总成所述标识符的压缩结果。这些方法在尽量兼容特殊数据的前提下,尽量提升了对所有标识符数据的压缩率,同时保证了编解码性能。同时保证了编解码性能。同时保证了编解码性能。


技术研发人员:陈毓新 赵子健 李胜康 龚淳 黄志博 张勇
受保护的技术使用者:深圳华大生命科学研究院
技术研发日:2021.06.17
技术公布日:2022/12/19
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献