一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

测序数据排除细菌污染序列的方法和装置与流程

2022-06-08 14:50:13 来源:中国专利 TAG:


1.本发明涉及基因组测序领域,具体而言,涉及一种测序数据排除细菌污染序列的方法和装置。


背景技术:

2.wgs(whole genome sequencing)技术指的是全基因组测序技术。包括第一代测序技术sanger测序,第二代测序技术,和第三代测序技术。因为成本的限制,目前sanger测序在基因组组装方面应用较少,主要为二代和三代测序技术。
3.二代测序技术一般是illumina平台,产出为双端测序的读段(reads),读段读长为150bp左右,错误率在1%-1.5%左右。三代测序技术主要为pacbio平台和nanopore平台,产出读段读长为10-100k,错误率比较高,可以达到10%-15%。
4.动植物在测序过程中,经常会引入细菌污染,有些可能是样本采集过程中引入,有些可能是物种自带的寄生或共生细菌,还有的可能是测序环境污染的细菌。在基因组组装方面,细菌污染会导致contig错连,组装出带有细菌污染的基因组。污染严重时还会导致基因组组装大小异常,组装结果不能用于后续分析。一般细菌的测序序列gc含量会比较高,可以通过去除高gc含量的reads进行排污,但动植物中重复序列也会出现测序序列gc含量过高的现象,仅通过gc含量进行排污会导致排污不完全和排污错误的情况发生。
5.blast 全称为basic local alignment search tool,即“基于局部比对算法的搜索工具”,是测序常用的序列比对软件,可以将测序reads与指定数据库进行比对,blast 比对输出m8格式,共有12列:1.查询序列的id;2.比对上的目标序列的id;3.序列比对的一致性百分比,即%identity;4.符合比对的比对区域的长度;5.比对区域错配碱基数;6.比对区域gap数目;7.比对区域在查询序列上的起始位点;8.比对区域在查询序列上的终止位点;9.比对区域在目标序列上的起始位点;10.比对区域在目标序列上的终止位点;11.比对的e值,即期望值,e值越小表明真实性越高;12.比对结果的bit值。blastn是blast 中核酸序列比对的一个模块,megablast是blastn中的一个引擎,在核酸比对中速度比blastn引擎更快。
6.nt数据库是美国国家生物技术信息中心ncbi官方的核酸序列数据库,nt库属于非冗余核酸序列数据库,nt数据库中的序列有唯一识别号,为accession号。
7.taxonomy为生物分类数据库,存储的为物种分类信息,每个物种有唯一的编号,以数字形式表示,为taxid。


技术实现要素:

8.本发明的主要目的在于提供一种测序数据排除细菌污染序列的方法和装置,以解决现有排除污染的方法不够准确的问题。
9.为了实现上述目的,根据本发明的一个方面,提供了一种测序数据排除细菌污染序列的方法,该方法包括:将测序数据与nt数据库进行比对,得到比对结果;将比对结果进
行物种分类解析;去除比对结果中解析为细菌的序列,从而排除测序数据中细菌污染序列。
10.进一步地,将测序数据与nt数据库进行比对,得到比对结果包括:从ncbi下载nt数据库;将测序数据与nt数据库进行比对,获得比对结果。
11.进一步地,将比对结果进行物种分类解析之前,方法还包括:从ncbi下载生物分类数据库,获取物种分类信息;利用nt数据库和生物分类数据库,建立参考核酸序列与物种分类信息对应关系表。
12.进一步地,将比对结果进行物种分类解析包括:查找比对结果中对某一参考核酸序列的覆盖度大于等于80%的测序序列,记为候选污染序列;对照参考核酸序列与物种分类信息对应关系表,获得候选污染序列所对应的物种分类信息。
13.进一步地,参考核酸序列与物种分类信息对应关系表为nt数据库中的核酸序列的登录号与物种编号taxid的对应关系表。
14.根据本技术的第二个方面,提供了一种测序数据排除细菌污染序列的装置,该装置包括:比对模块,被设置为将测序数据与nt数据库进行比对,得到比对结果;解析模块,被设置为将比对结果进行物种分类解析;去除模块,被设置为去除比对结果中解析为细菌的序列,从而排除测序数据中细菌污染序列。
15.进一步地,下载单元,被设置为从ncbi下载nt数据库;比对单元,被设置为将测序数据与nt数据库进行比对,获得比对结果。
16.进一步地,装置还包括:下载模块,被设置为从ncbi下载生物分类数据库,获取物种分类信息;对应关系建立模块,被设置为利用nt数据库和生物分类数据库,建立参考核酸序列与物种分类信息对应关系表。
17.进一步地,解析模块包括:第一查找单元,被设置为查找比对结果中对某一参考核酸序列的覆盖度大于等于80%的测序序列,记为候选污染序列;第二查找单元,被设置为对照参考核酸序列与物种分类信息对应关系表,获得候选污染序列所对应的物种分类信息。
18.进一步地,参考核酸序列与物种分类信息对应关系表为nt数据库中的核酸序列的登录号与物种编号taxid的对应关系表。
19.根据本技术的第三个方面,提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种测序数据排除细菌污染序列的方法。
20.根据本技术的第四个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种测序数据排除细菌污染序列的方法。
21.应用本发明的技术方案,本技术通过将测序数据与nt数据库中的序列进行比对,将比对结果中的序列进行物种分类解析,将解析为细菌序列的测序序列去除,从而获得了排除细菌序列污染的测序数据。与现有技术中基于gc含量来排除细菌污染序列的方法相比,该方法不仅排除准确度更高,而且速度更快,更适合用于二代和三代大数据量的细菌污染排污。
附图说明
22.构成本技术的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了测序数据排除细菌污染序列的方法的流程示意图。
具体实施方式
23.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。
24.如背景技术所提到的,现有的测序数据中混有细菌序列污染时,难以准确排除污染序列的问题,为改善这一问题,本技术提供了一种新的排除污染序列的思路。与gc方法去除细菌污染的方法相比,本技术提供的方法准确度更高,速度更快,更适合用于二代和三代大数据量的细菌污染排污。在此基础上,提出了本技术的一系列方案。
25.实施例1本实施例提供了一种测序数据排除细菌污染序列的方法,该方法包括:步骤s101,将测序数据与nt数据库进行比对,得到比对结果;步骤s103,将比对结果进行物种分类解析;步骤s105,去除比对结果中解析为细菌的序列,从而排除测序数据中细菌污染序列。
26.本技术的测序数据排除细菌污染序列的方法,通过将测序数据与nt数据库中的序列进行比对,将比对结果中的序列进行物种分类解析,将解析为细菌序列的测序序列去除,从而获得了排除细菌序列污染的测序数据。与现有技术中基于gc含量来排除细菌污染序列的方法相比,该方法不仅排除准确度更高,而且速度更快,更适合用于二代和三代大数据量的细菌污染排污。
27.上述步骤s101中,将测序数据与nt数据库中的核酸序列进行比对,以获得测序数据中的序列是否为nt数据库中的核酸序列,或者与nt数据库中的核酸序列的同一性或覆盖度等比对结果。
28.在本技术一些优选的实施例中,将测序数据与nt数据库进行比对,得到比对结果包括:从ncbi下载nt数据库;将测序数据与nt数据库进行比对,获得比对结果。通过从ncbi网站上下载现有的nt数据库,利用已知的核酸序列与测序数据进行比对,从而获得测序数据中与nt数据库中的已知序列具有一定同一性或覆盖度的序列,通过对这些序列的物种来源进行确认,以便后续排除其中属于细菌来源的序列。
29.为确定比对结果中同一性或覆盖度高于一定阈值的序列的具体的物种来源,需要进行物种分类解析。为了进一步确定nt数据库中每一条核酸序列的具体物种来源,同样可以利用已知的物种分类数据库中的物种分类信息来确定。在本技术一些优选的实施例中,将比对结果进行物种分类解析之前,该方法还包括:从ncbi下载生物分类数据库,获取物种分类信息;利用nt数据库和生物分类数据库,建立参考核酸序列与物种分类信息对应关系表。
30.nt数据库中的每一种核酸序列都有唯一的登录号(accession no.)taxonomy为生物分类数据库,存储的为物种分类信息,每个物种有唯一的编号,以数字形式表示,为taxid。
31.将登录号与taxid对应关系和taxid与分类(界门纲目科属种)对应关系结合,得到accession与taxid与分类(界门纲目科属种)对应关系表。
32.在本技术一些优选的实施例中,将比对结果进行物种分类解析包括:查找比对结果中对某一参考核酸序列的覆盖度大于等于80%(此处的覆盖度是指参考核酸序列与查询的核酸序列有80%的序列是一致的。选择覆盖度大于等于80%这个阈值,是考虑到一般认为序列覆盖度大于80%,倾向认为2个序列是同一物种的概率比较大)的测序序列,记为候选污染序列;对照参考核酸序列与物种分类信息对应关系表,获得候选污染序列所对应的物种分类信息。
33.在本技术一些优选的实施例中,参考核酸序列与物种分类信息对应关系表为nt数据库中的核酸序列的登录号与物种编号taxid的对应关系表。
34.需要说明的是,上述nt数据库,和/或taxonomy生物分类数据库的具体下载方式,采用本领域的常规方法下载即可。
35.下面将结合其他的实施例来进一步说明本技术的有益效果。
36.实施例2按照本实施例,如图1所示,对测序数据排污细菌序列的具体方法为:1.在ncbi上下载最新版本的包含物种信息的taxonomy数据库和nt数据库。
37.2.使用blast 中的blastdbcmd命令提取nt数据库中序列accession与taxid对应关系。
38.3.使用taxonkit中的lineage命令在taxonomy数据库中,提取nt数据库中序列taxid与分类(界门纲目科属种)对应关系。
39.4.使用paste命令,将accession与taxid对应关系和taxid与分类(界门纲目科属种)对应关系结合,得到accession与taxid与分类(界门纲目科属种)对应关系表。
40.5.使用blast 中makeblastdb命令对nt数据库建索引。
41.6.将测序序列使用blastn模块中的megablast引擎与建好索引的nt数据库进行比对,得到比对结果m8格式文件。
42.7.根据m8格式文件中,覆盖度在80%以上的查询序列对应的目标序名词,在accession与taxid与分类(界门纲目科属种)对应关系表中找到对应的细菌界的测序序列名称。
43.8.将对应的细菌界的测序序列名称的reads在原始测序序列中去掉,得到排污后的测序序列。
44.实施例3利用实施例2的方法对1g基因组的50
ꢀ×
二代数据和40
ꢀ×
三代数据进行细菌污染序列进行排除,排污结果见下表:表1. 1g基因组排污结果。
45.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有
技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
46.对应于上述方式,本技术还分别提供了一种一种测序数据排除细菌污染序列的装置,该装置用于实现上述一种测序数据排除细菌污染序列的方法,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
47.下面结合可选的实施例进一步说明。
48.实施例4本实施例中,提供了一种测序数据排除细菌污染序列的装置,该装置包括:比对模块,被设置为将测序数据与nt数据库进行比对,得到比对结果;解析模块,被设置为将比对结果进行物种分类解析;去除模块,被设置为去除比对结果中解析为细菌的序列,从而排除测序数据中细菌污染序列。
49.可选地,比对模块包括:下载单元,被设置为从ncbi下载nt数据库;比对单元,被设置为将测序数据与nt数据库进行比对,获得比对结果。
50.可选地,装置还包括:下载模块,被设置为从ncbi下载生物分类数据库,获取物种分类信息;对应关系建立模块,被设置为利用nt数据库和生物分类数据库,建立参考核酸序列与物种分类信息对应关系表。
51.可选地,解析模块包括:第一查找单元,被设置为查找比对结果中对某一参考核酸序列的覆盖度大于等于80%的测序序列,记为候选污染序列;第二查找单元,被设置为对照参考核酸序列与物种分类信息对应关系表,获得候选污染序列所对应的物种分类信息。
52.可选地,参考核酸序列与物种分类信息对应关系表为nt数据库中的核酸序列的登录号与物种编号taxid的对应关系表。
53.实施例5本实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种测序数据排除细菌污染序列的方法。
54.本实施例还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种测序数据排除细菌污染序列的方法。
55.从以上的实施例可以看出,本技术提供的测序数据排除细菌污染序列的方法和装置,通过利用已知的nt数据库和物种分类数据库,并建立核酸序列与物种分类信息的对应关系表,进而通过将测序数据与nt数据库中的核酸序列比对,通过查找比对结果中覆盖度超过阈值的测序序列所对应的参考核酸序列,进一步查找该参考核酸序列的登录号对应的物种信息号,进而确定该测序序列是否为细菌序列,若是则可以删除该序列,从而得到排除细菌污染序列的测序数据。该方法不仅排除污染准确性高,而且排除速度快,更适合二代或三代测序数据的排污。
56.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献