一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种鉴定细菌质粒基因组及其特征图谱的综合性方法与流程

2022-04-27 11:49:53 来源:中国专利 TAG:


1.本发明属于生物信息学领域,具体涉及一种鉴定细菌质粒基因组及其特征图谱的综合性方法。


背景技术:

2.细菌通过水平基因转移获得外源性dna,这个能力能够使其快速适应环境变化所带来的生存压力,提供了强有力的竞争优势并可能改变与宿主之间的关联。细菌的水平基因转移一方面提高了细菌适应新环境的能力,另一方面大大增加了细菌的多样性。目前,已知参与水平转移的基因大多与细菌的抗药性和致病性有关。质粒作为水平基因转移的一种重要载体,质粒dna通过接合作用不仅可在同一种属细菌间转移,而且可在不同种属细菌间相互传递。现已证实不仅不同大肠埃希菌菌株之间能发生r质粒转移,而且伤寒沙门菌能将r质粒传递给大肠埃希菌;反过来,大肠埃希菌也可将不同来源的r质粒转移给伤寒沙门菌和痢疾志贺菌。
3.但是,现在还缺少能准确快速鉴定细菌质粒基因组及其特征图谱的工具,对于研究细菌内部因水平基因转移增加的菌种遗传多样性及受体菌获得新的生物学性状方面也存在影响。


技术实现要素:

4.针对现有技术中存在的如何快速准确地鉴定细菌基因组中的质粒基因组及其特征图谱的技术问题。本发明提供了一种鉴定细菌质粒基因组及其特征图谱的综合性方法借助高通量测序技术大规模获取菌株基因组信息,尤其借助三代测序技术、微生物相关公共数据库和软件方法,进行有序的整合应用于批量细菌的基因组分析,快速获得了细菌的质粒数量及其携带的耐药基因和接合性转移能力等信息。通过对信息的整合分析,在研究医院内部感染暴发事件和抗菌素耐药等重大公共卫生问题方面有很好的用途。
5.一方面,本发明提供了一种鉴定细菌质粒基因组及其特征图谱的综合性方法,所述方法包括:
6.(1)从用户提供的细菌基因组文件中按照长度筛选出候选的质粒序列并统计基本信息,修改序列名字便于后续进行统计;
7.(2)从公共数据库下载已知的质粒序列数据,同源聚类并去冗余构建参考数据库;
8.(3)对确定为质粒的序列进行特征分析,全面刻画细菌质粒基因组的特征图谱;
9.(4)结合步骤(3)质粒鉴定的特征,评估质粒所携带的抗菌素耐药基因的风险等级及相应的拷贝数数量,整体评估质粒耐药基因的风险程度;
10.(5)统计各细菌的质粒信息并进行归类统计,从整体描述用户提供的细菌基因组的完整质粒信息。
11.进一步的,本发明所述步骤(1)中,所述用户提供的细菌基因组(genome.fasta),通过短测序读长组装得到的基因组或者通过长测序读长的基因组序列;所述按照长度过滤
的具体操作为,先统计输入基因组序列的长度,剔除最长之后剩余的序列均为候选的质粒序列;所述修改序列名称具体指以用户提供的基因组名字 阿拉伯数字的组合。具体规则为按序列长度一次进行排序,如“genome_1”,“genome_2”等。
12.更加优选地,本发明长测序读长的基因组效果更佳。
13.进一步的,本发明步骤(2)构建所述参考数据库是采用最优比对算法和参数将候选的细菌质粒序列与手动整理的数据库进行比对,结合具体的比对信息进行过滤,确定序列是否为质粒序列,并确定质粒序列对应数据库的来源和相应编号。
14.优选地,本发明所述步骤(2)中,所述公共数据库包含ncbi核酸数据库,addgene数据库,plsdb数据库中一个或者多个。
15.进一步的,本发明所述同源聚类和去冗余方法如下:
16.首先采用cd-hit软件设置95%的一致性和覆盖度进行聚类,然后去掉噪音的序列,得到整理后的质粒数据库。本发明采用的所述最优比对软件和参数是“mash screen-i 0.95-v 0.1” “blastn-evalue 1e-5-perc_identity 90-outfmt 6”的两种软件参数组合,两种方法都比对上的序列作为候选的质粒。
17.进一步的,本发明步骤(3)特征分析包含质粒的类型和可接合转移能力分析,整合两个及两个以上耐药数据库获得质粒序列的耐药基因的数量和类别以及毒力因素。
18.进一步的,本发明所述步骤(3)中,质粒的类型主要通过plasmidfinder去确定其质粒的谱系和不兼容性,参数设置为默认;所述可接合转移能力的评估,利用plascad将候选的质粒区分成可接合转移,不可移动,可移动的三个大类,其中可接合转移的是重点关注的对象;所述整合两个或者两个以上耐药基因组数据库具体指card耐药基因数据库、resfinder数据库、megares数据库、ncbi数据库、argannot数据库中的两个或者两个以上,采用abricate作为注释工具,注释耐药基因最终采取合并的策略;所述毒力因素的鉴定,主要是与vfdb数据库进行注释,abricate参数为默认。
19.本发明所述耐药基因和毒力因子注释,后续都按照identity》=95%且coverage》=80%进行筛选过滤。
20.本发明中,所述步骤(4)中,所述评估质粒携带耐药基因的风险等级,采用arg_ranker工具根据耐药基因富集信息,可移动性和宿主致病性的先验知识,将耐药基因风味两个等级,等级i为目前对宿主健康产生影响,等级ii为未来将会对宿主健康产生影响,并输出每个等级下耐药基因的类别和拷贝数量。
21.进一步的,本发明步骤(5)统计的细菌质粒信息按照数量、类别、公共数据来源、耐药基因数量和类型、抗菌素耐药机制、抗菌素信息、可接合转移能力、毒力因素进行归类统计。
22.本发明中,所述步骤(5)中,所述统计质粒信息指的是将步骤(1)到步骤(4)获得的质粒信息进行汇总,结果以txt/csv/xlsx等格式进行呈现,且相应的结果存储在对应的指定文件夹目录下便于随时调取使用。
23.本发明所述的方法还包括步骤(6)分析菌株质粒之间的共线性来可视化菌株质粒结构变异的具体位置。
24.进一步的,本发明步骤(6)分析菌株质粒之间的共线性来可视化其结构变异的具体位置是通过如下方法:
25.挑选同种菌株的质粒按照序列长短信息进行位置依次上下排列或者支持通过菌株收集时间来进行排列来进行结果展示,每种菌株质粒都以特定的颜色进行区分。
26.进一步的,本发明中所述步骤(6)中,所述分析质粒基因组之间的共线性采用jcvi的分析工具来完成;所述分析质粒基因组之间的共线性需要对候选的质粒基因组进行prokka注释得到蛋白编码基因的gff文件,然后提取对应的cds序列和基因所在基因组的位置信息,处理成jcvi所要求的输入格式,进行共线性图的绘制,最终生成pdf格式的文件。
27.优选地,本发明质粒的排列顺序默认是按照长度进行排列或者根据自己的需求进行定义。
28.本发明所述方法还包括步骤(7)对于全部的质粒序列进行成环状态的评估:采用脚本工具结合菌株三代测序数据对全部的质粒序列进行成环评估,并指出未成环质粒的断点位置便于后续进行针对性的调整。
29.进一步的,本发明所述步骤(7)中,所述对于质粒基因组成环的分析,采用基于perl开发的脚本工具进行分析,只适用于有对应三代测序数据的菌株,本发明脚本工具将能准确快速地鉴定质粒基因组是否成环和潜在的断点位置以便做后续针对性的调整。
30.优选地,本发明采用minimap2将三代测序reads比对回质粒基因组,将比对reads按照identity》=90%和coverage》=90%区分为完全比对和部分比对,最后利用svg工具绘制候选质粒序列成环连接点两侧区域的覆盖情况,清晰直观展示质粒是否成环的结果。
31.另外一方面,通过本发明鉴定细菌质粒基因组及其特征图谱的综合性方法能够获得的细菌的质粒基因组特征数据库。
32.通过实施本发明的技术方案,可以达到以下有益效果:
33.本发明提供的一种鉴定细菌质粒基因组及其特征图谱的综合性方法应用于全部细菌的基因组分析,能够快速获得细菌的质粒数量及其携带的耐药基因和接合性转移能力等信息,对于研究医院内部获得性感染、社区获得性感染、抗菌素耐药性流行和预测方面等重大公共卫生问题有很好作用,也对于研究细菌内部因水平基因转移而增加的菌种遗传多样性及受体菌获得新的生物学性状方面有很好用途。
附图说明
34.图1为本发明中一种鉴定细菌质粒基因组及其特征图谱的综合性方法的技术路线图。
35.图2为实施例1中细菌质粒鉴定结果。
36.图3为实施例1中细菌质粒基因组之间的共线性分析结果。
37.图4为实施例1中细菌质粒基因组的成环状态检测的结果。
具体实施方式
38.下面将结合说明书附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
39.下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所
描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
40.本发明提供了一种鉴定细菌质粒基因组及其特征图谱的综合性方法,所述方法包括:
41.(1)从用户提供的细菌基因组文件中按照长度筛选出候选的质粒序列并统计基本信息,修改序列名字便于后续进行统计。
42.(2)从公共数据库下载已知的质粒序列数据,同源聚类并去冗余构建参考数据库。
43.(3)对确定为质粒的序列进行特征分析,全面刻画细菌质粒基因组的特征图谱。
44.(4)结合步骤(3)质粒鉴定的特征,评估质粒所携带的抗菌素耐药基因的风险等级及相应的拷贝数数量,整体评估质粒耐药基因的风险程度。
45.(5)统计各细菌的质粒信息并进行归类统计,从整体描述用户提供的细菌基因组的完整质粒信息。
46.实施例1:鲍曼不动杆菌中质粒鉴定及其特征图谱的绘制
47.本实施例对十例鲍曼不动杆菌的菌株的dna进行nanopore测序,对这十个样品的测序数据进行质控,过滤接头,过滤长度小于500bp的read,过滤质量值q低于8的read,产生clean read;基于clean read对每个菌株进行组装和抛光以及组装完整性的评估,评估合格后得到这十个鲍曼菌株的基因组序列。
48.根据组装好的十个鲍曼菌株的基因组,进行候选质粒序列的筛选,发现十个菌株所携带候选质粒的数量范围从1~4个,长度范围从8,731~692,909bp,gc含量分布从33.43%~43.30%,十个菌株候选的质粒数量共计24个。这批序列分别用mash screen-i 0.95-v 0.1” “blastn-evalue 1e-5-perc_identity 90-outfmt 6”的两种软件参数组合与手动整理的质粒数据库进行比对,最终发现23个序列均能在数据库中满足比对要求和过滤条件,因此这23个序列被确定为质粒(结果如附图2所示)。另外还有一个序列在数据库中并未找到对应的序列。
49.确定为质粒的23个序列,进行基因组特征的分析。利用plasmidfinder进行质粒谱系鉴定和不兼容性分析,未搜索到相应结果,这与菌株种类相关。通过plascad来分析质粒序列中自主转移所必需蛋白系统来鉴定其可转移能力,其中10个质粒序列被划分为可接合转移,4个质粒为可移动质粒但缺乏自主转移能力,其余9个质粒序列为不可转移的质粒序列;耐药基因和毒力因子的注释,采用abricate作为注释工具对23个质粒序列进行resfinder数据库,megares数据库,ncbi数据库,argannot数据库,card耐药基因数据库,vfdb数据库注释,abricate参数为默认。上述耐药基因和毒力因子注释,后续都按照identity>=95%且coverage>=80%进行筛选过滤,最终23个质粒的全部特征统计结果如下:
50.#plasmids and amr genesconjugative numbermobilizable numbernone-mobilizable numbertotalplasmids10(43.48%)4(17.39%)9(39.13%)23(100%)amr genes-bearing plasmids10(71.43%)0(0%)4(28.57%)14(100%)amr genes10(37.04%)0(0%)17(62.96%)27(100%)
51.从上述数据可以看出,这十个可接合转移质粒均携带blaoxa-23的耐药基因主要是抗β内酰胺酶类抗生素的作用,4个不可自主移动的质粒不携带耐药基因,另外不能移动的质粒携带的耐药基因种类较多,这些可能都与菌株种类相关。
52.实施例2:
53.本实施例采用jcvi的分析工具来完成质粒基因组之间的共线性分析,需要对候选的质粒基因组进行prokka注释得到蛋白编码基因的gff文件,然后提取对应的cds序列和基因所在基因组的位置信息,处理成jcvi所要求的输入格式,进行共线性图的绘制,最终生成pdf格式的文件。本实施例重点关注10个可接合转移质粒之间的共线性,默认按照序列长短进行排列,为了展示美观进行了等长处理(如附图3所示)。从10个可接合性转移共线性结果来看,除大片段的倒位以外,整体的共线性较好,可能说明这批可接合性转移的质粒来源于同一个祖先并在短期内进行扩散。
54.实施例3:
55.本实施例采用基于perl开发的脚本工具进行分析,而且本实施例脚本工具只适用于有对应三代测序数据的菌株,本实施例脚本工具将能准确快速地鉴定质粒基因组是否成环和潜在的断点位置以便做后续针对性的调整。脚本工具具体步骤为采用minimap2将三代测序reads比对回质粒基因组,将比对reads按照identity》=90%和coverage》=90%区分为完全比对和部分比对,最后利用svg工具绘制候选质粒序列成环连接点两侧区域的覆盖情况,清晰直观展示质粒是否成环的结果。具体的,本实施例利用三代纠错后的数据对这10个可接合转移的质粒进行成环状态的判断,以其中一个质粒结果来进行展示(如附图4所示)。
56.上述结果是因为:中间矩形条代表待检测的序列(其中与矩形垂直灰色的线表示基因组成环的连接点);矩形条上半部分为完全比对上基因组的reads,矩形条下半部分为部分比对上基因组的reads(其中灰色表示正向比对上的reads,黑色表示反向比对上的reads,浅灰色表示未比对上基因组的reads片段),可以看到在矩形条上方,均匀覆盖着完全比对上的reads,有正向的也有反向的且能够完整地跨过灰色垂直线的两边的区域,因此,经过软件判断该contig序列成环。
57.以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本技术欲包括任何变更、用途或对本发明的改进,包括脱离了本技术中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献