一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于IIB型限制性内切酶特征的宏基因组测序数据处理系统及处理方法与流程

2022-02-24 18:08:08 来源:中国专利 TAG:

技术特征:
1.一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,包括:数据预处理模块、定性模块、定量模块和多酶切结果定性/定量合并模块;所述数据预处理模块包括:数据质控单元和电子酶切单元;其中,所述数据质控单元对iib型限制性内切酶酶切片段测序结果进行数据质控,提取质控后含有iib型限制性内切酶标签的数据作为高质量测序数据;所述电子酶切单元从含有微生物基因组的数据库下载基因组,对每个基因组采用iib型限制性内切酶进行电子酶切,即对基因组正向和反向分别提取特定识别序列后排序输出,生成每个基因组含有iib型限制性内切酶识别位点的标签;所述定性模块包括:第一微生物唯一标签数据库和定性分析单元;其中,所述第一微生物唯一标签数据库为:将电子酶切单元获得标签,在界、门、纲、目、科、属、种、株不同物种分类水平上判断每个标签的唯一性,并输出不同物种分类水平、每个基因组的唯一标签,该唯一标签组成第一微生物唯一标签数据库;所述标签的唯一性是指在不同物种分类水平上,只在某一微生物中存在的标签;所述定性分析单元将样品的高质量测序数据和第一微生物唯一标签数据库比对,即通过构建哈希表的方式,检测高质量测序数据在第一微生物唯一标签数据库中是否有序列完全一致的标签,获得不同物种分类水平鉴定到的唯一标签,统计微生物不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度,并计算获得候选微生物定性信息和gscore值;所述定性是指根据是否检测到某微生物的唯一标签来确定是否存在该微生物;所述定量模块包括:第二微生物唯一标签数据库和定量分析单元;其中,所述第二微生物唯一标签数据库为:通过对候选微生物进行假阳性过滤,然后对过滤后微生物基因组信息通过所述电子酶切单元获得标签,在界、门、纲、目、科、属、种、株不同物种分类水平上判断每个标签的唯一性并输出不同物种分类水平、每个基因组的唯一标签,该唯一标签组成第二微生物唯一标签数据库;所述定量分析单元将样品的高质量测序数据和第二微生物唯一标签数据库比对,即通过构建哈希表的方式,检测高质量测序数据在第二微生物唯一标签数据库中是否有序列完全一致的标签,获得不同物种分类水平鉴定到的唯一标签,统计微生物不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度,并计算获得统计微生物的相对含量;所述第一微生物唯一标签数据库和第二微生物唯一标签数据库中,单一物种分类在界、门、纲、目、科、属、种、株某一水平下,每个基因组的唯一序列标签仅在该某一水平下的微生物基因组中存在,且在其他同水平微生物基因组中均没有的序列;所述多酶切结果定性/定量合并模块包括:多酶切结果定性合并单元和多酶切结果定量合并单元;其中,所述多酶切结果定性合并单元将一种以上iib型限制性内切酶的不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度进行累加合并,判断是否检测到某微生物的唯一标签,并重新计算微生物定性信息;所述多酶切结果定量合并单元将一种以上iib型限制性内切酶酶切的定量结果进行累加合并,作为最终的相对定量结果。2.根据权利要求1所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述第一微生物唯一标签数据库和第二微生物唯一标签数据库中,合并
物种分类水平下所有基因组唯一标签作为该物种分类水平下唯一标签数据库,不同物种分类水平对应不同的微生物唯一标签数据库,即每个物种分类水平都有一个微生物唯一标签数据库。3.根据权利要求1所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述数据预处理模块中,微生物基因组或测序数据输入格式为fasta、fastq测序数据文件或fasta/fastq的压缩文件。4.根据权利要求1所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述数据质控单元对任意单端测序数据进行质控和酶切或对任意双端测序数据进行拼接、质控和酶切,以获得含有iib型限制性内切酶酶切特异性位点的20bp至38bp的碱基片段。5.根据权利要求1所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述数据质控单元将双端测序数据根据reads之间的重叠区进行拼接、对单端测序和双端测序的测序数据质量进行数据质控。6.根据权利要求5所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述数据质控单元对重叠区碱基数≥10bp的双端测序数据进行拼接、去除质量值低于q20的碱基数超过整条reads碱基数20%的低质量reads、去除n碱基含量比例大于10%的reads、去除不含iib型限制性内切酶酶切位点的reads。7.根据权利要求1所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述第二微生物唯一标签数据库过滤假阳性采用gscore值作为过滤假阳性结果指标,其计算公式为:其中,s
i
为一个样本中物种i的所有唯一标签的测序深度和;t
i
为一个样本中物种i被测到的唯一标签数的数目。8.根据权利要求1所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述第二微生物唯一标签数据库过滤假阳性采用设定基因组检测到的唯一标签的数目≥2来过滤假阳性。9.根据权利要求1所述的一种基于iib型限制性内切酶特征的宏基因组测序数据处理系统,其特征在于,所述定量分析单元中,微生物的相对含量的计算公式为:其中,s
i
为一个样本中物种i的所有唯一标签的测序深度和;t
i
为iib型限制性内切酶对物种i基因组进行电子酶切可获得的标签数。10.一种基于iib型限制性内切酶特征的宏基因组测序数据处理方法,其特征在于,采用如权利要求1-9之任一项所述的基于iib型限制性内切酶特征的宏基因组测序数据处理系统,所述方法包括以下步骤:步骤1:对含有iib型限制性内切酶标签的测序数据进行数据质控,提取质控后含有iib型限制性内切酶标签的数据作为高质量测序数据;步骤2:将样品的高质量测序数据和第一微生物唯一标签数据库比对,获得不同物种分
类水平鉴定到的唯一标签,统计微生物不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度,并计算获得候选微生物定性信息、gscore值;步骤3:将一种以上iib型限制性内切酶的不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度进行累加合并,并重新计算获得候选微生物定性信息、gscore值;步骤4:将样品的高质量测序数据和第二微生物唯一标签数据库比对,获得不同物种分类水平鉴定到的唯一标签,统计微生物不同物种分类水平鉴定到的唯一标签数、唯一标签数的深度,并计算统计微生物的相对含量,即relative abundance值;步骤5:将一种以上iib型限制性内切酶酶切的定量结果进行累加合并,并重新计算统计微生物的相对含量,作为最终的相对定量结果。

技术总结
本发明公开了一种基于IIB(2B)型限制性内切酶特征的宏基因组测序数据处理系统,包括:数据预处理模块、定性模块、定量模块和多酶切结果定性/定量合并模块。通过本发明的处理系统可对基于唯一标签的“两步定量法”对具有IIB型限制性内切酶特征的宏基因组测序数据进行分析处理,其具有检测速度快、成本低、假阳性率低、准确率高和分辨率高的特点,为该技术在微生物检测领域打下基础。本发明还公开了基于IIB型限制性内切酶特征的宏基因组测序数据处理方法。本发明所述方法和系统能以低成本、高分辨率实现同时对细菌和真菌等微生物的鉴定和获得相对含量信息,填补目前该技术在微生物简化基因组检测领域上的空白。简化基因组检测领域上的空白。简化基因组检测领域上的空白。


技术研发人员:孙政 王师 张荣超 黄适 周丽沙 王修评
受保护的技术使用者:中国海洋大学
技术研发日:2020.11.27
技术公布日:2022/2/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献