一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于二代测序的微生物16S扩增子数据分析的装置及方法与流程

2021-12-15 00:14:00 来源:中国专利 TAG:
基于二代测序的微生物16s扩增子数据分析的装置及方法
技术领域
:1.本发明涉及生物信息
技术领域
:,具体涉及基于二代测序的微生物16s扩增子数据分析的装置及方法。
背景技术
::2.16srdna为编码原核生物核糖体小亚基rrna的dna序列,包括10个保守区域(conservedregions)和9个高变区域(hypervariableregions),其中保守区在细菌间差异不大,高变区具有属或种的特异性,随亲缘关系不同而有一定的差异。对16srdna某个高变区进行测序分析,用于研究环境微生物中细菌或古菌的群落结构多样性。3.微生物16s扩增子分析即指16srdna分析,通过提取环境样品的dna,选择合适的通用引物扩增16s的目的区域,通过分析目的区域的序列变异和丰度,以研究环境微生物多样性及群落组成差异。技术实现要素:4.本发明所要解决的技术问题是如何对微生物16s扩增子数据进行数据分析。5.为了解决上述技术问题,本发明首先提供了微生物16s扩增子数据分析的装置。所述装置可包括如下模块:6.(1)数据获得模块:用于获取所有待测样本的微生物16s扩增子的原始数据;7.(2)数据质控分析模块:用于将所述原始数据进行质量控制得到有效数据;8.(3)otu聚类及物种注释模块:用于获得所有待测样本的物种组成及丰度信息;所述otu聚类及物种注释模块包括如下模块:9.(3‑1)otu聚类及物种注释模块:用于将所述所有待测样本的所述有效数据聚类成otus,并对otus的代表序列进行物种注释;10.(3‑2)物种分布分析模块:用于分析所述所有待测样本在不同分类水平上的物种相对丰度及比例;11.(3‑3)物种进化树构建模块:用于构建所述所有待测样本的属水平物种进化树,用于分析属水平物种的系统进化关系;12.(4)α‑多样性分析模块:用于分析所述所有待测样本内的微生物群落多样性;所述α‑多样性分析模块包括如下模块:13.(4‑1)α‑多样性指数统计模块:用于统计所述所有样本的α‑多样性分析指数;14.(4‑2)物种多样性曲线绘制模块:用于绘制所述所有待测样本的物种多样性曲线,以分析所述有效数据的数据量的合理性和所述样本中物种的丰富度和均匀度;15.(5)β‑多样性分析模块:用于比较分析所述所述所有待测样本间的微生物群落构成;所述β‑多样性分析模块包括如下模块:16.(5‑1)β‑多样性指数统计模块:用于统计所述所有待测样本间的β‑多样性指数;17.(5‑2)排序分析模块:用于在可视化的低维空间展示多维数据的结构;18.(5‑3)聚类分析模块:用于通过对待测样本进行聚类分析,获得所述所有待测样本间的相似性分析结果;19.(6)组间差异显著性分析模块:用于分析获得待测样本分组组间差异的显著性。20.上文所述所有待测样本的数量大于等于2个。所述所有待测样本可分为实验组样本和对照组样本。所述代表序列可为选取一条代表性序列作为该otu的序列(由于每个otu中的序列不完全相同)用于后续分析。所述不同分类水平可为门‑phylum、纲‑class、目‑order、科‑family、属‑genus。21.上文所述装置中,(5‑2)所述排序分析模块可通过如下步骤的方法建立:主坐标分析、主成分分析和/或无度量多维标定法分析。22.上文所述装置中,(5‑1)模块中所述β‑多样性指数可包括所述所有待测样本间的相异系数、样本距离、样本的群落组成、样本的组间和组内差异。所述相异系数可选用weightedunifrac距离和unweightedunifrac距离来衡量。23.所述weightedunifrac距离和unweightedunifrac距离的构建方法可为:根据模块(3)中得到的的所述所有待测样本的物种组成及丰度信息,将相同分类的otus信息合并处理得到物种丰度信息表(profilingtable。同时利用otus之间的系统发生关系,进一步计算unifrac距离(unweightedunifrac)。然后利用otus的丰度信息对unifrac距离(unweightedunifrac)进一步构建weightedunifrac距离。24.上文所述装置中,(6)组间差异显著性分析模块可通过如下步骤的方法建立:anosim分析、mrpp分析、adonis分析和/或lefse分析。25.上文所述装置中,(5‑3)聚类分析模块可通过构建upgma聚类树的方法建立。26.上文所述装置中,(4‑2)模块所述物种多样性曲线可为稀释曲线和等级聚类曲线。27.所述稀释曲线可为从所述所有待测样本中随机抽取一定测序数据量的有效数据,统计所述抽取的有效数据所代表物种数目(即otus数目),以抽取的有效数据与其所对应的物种数来构建曲线,得到稀释曲线。28.所述等级聚类曲线的构建方法可为将所述所有待测样本中的otus按相对丰度(或者包含的序列数目)由大到小排序得到对应的排序编号,再以otus的排序编号为横坐标,otus中的相对丰度(也可用该等级otu中序列数的相对百分含量)为纵坐标,将这些点用折线连接,即绘制得到等级聚类曲线。29.上文所述装置中,(3‑2)所述物种分布分析模块可通过如下步骤的方法建立:物种相对丰度分析、属水平物种数量分析和/或物种丰度聚类分析。30.所述物种相对丰度分析的步骤可为:根据(3‑1)otu聚类及物种注释模块得到的所述所有待测样本的物种注释结果,选取每个所述待测样本或待测样本分组在各分类水平(门、纲、目、科、属)上最大丰度排名前10的物种,生成物种相对丰度柱形累加图,以便直观查看各样品在不同分类水平上,相对丰度较高的物种及其比例。所述属水平物种数量分析方法为:根据(3‑1)所述otu聚类及物种注释模块得到的所述所有待测样本的物种注释结果,统计每个待测样本分组在属水平上的物种数量,并生成物种数量维恩图,以便直观的展示在属水平上组间的物种差异。31.所述物种丰度聚类分析的方法可为:根据所述属水平物种数量分析得到的所述所有待测样本在属水平的物种注释及丰度信息,选取丰度排名前35的属,根据其在每个待测样本中的丰度信息,从物种和样本两个层面进行聚类,绘制成热图,便于发现哪些物种在哪些样本中聚集较多或含量较低。依据提供的组别,对物种和样本两个层面进行聚类,得到组别物种丰度聚类展示结果和样本物种丰度聚类展示结果。32.为了解决上述技术问题,本发明还提供了微生物16s扩增子数据分析的方法。所述方法可包括如下步骤:33.(1)获取所有待测样本的微生物16s扩增子的原始数据;34.(2)数据质控分析:用于将所述原始数据进行质量控制得到有效数据;35.(3)otu聚类及物种注释:用于获得所述所有待测样本的物种组成及丰度信息;所述otu聚类及物种注释模块包括如下步骤:36.(3‑1)otu聚类及物种注释:用于将所述所有所述待测样本的所述有效数据聚类成otus,并对otus的代表序列进行物种注释;37.(3‑2)物种分布分析:用于分析所述所有待测样本在不同分类水平上的物种相对丰度及比例;38.(3‑3)物种进化树构建:用于构建所述所有待测样本的属水平物种进化树,用于分析属水平物种的系统进化关系;39.(4)α‑多样性分析:用于分析所述所有待测样本内的微生物群落多样性;所述α‑多样性分析模块包括如下步骤:40.(4‑1)α‑多样性指数统计:用于统计所述所有待测样本的α‑多样性分析指数;41.(4‑2)物种多样性曲线绘制:用于绘制所述所有待测样本的物种多样性曲线,以分析所述有效数据的数据量的合理性和所述所有待测样本中物种的丰富度和均匀度;42.(5)β‑多样性分析:用于比较分析所述所有待测样本间的微生物群落构成;所述β‑多样性分析包括如下步骤:43.(5‑1)β‑多样性指数统计:用于统计所述所有待测样本间的β‑多样性指数;44.(5‑2)排序分析:用于将所述待测样本或物种排列在一定的空间,在一个低维空间中,使相似的所述待测样本或物种距离相近,相异的所述待测样本或物种距离较远,降低维数,反映一定的生态梯度;45.(5‑3)聚类分析:用于通过对所述所有待测样本进行聚类分析,获得所述所有待测样本间的相似性分析结果;46.(6)组间差异显著性分析:用于分析获得所述所有待测样本分组组间差异的显著性。47.为了解决上述技术问题,本发明还提供了存储有计算机程序的计算机可读存储介质。所述计算机程序使计算机可建立如上文所述装置的模块。48.存储有计算机程序的计算机可读存储介质也属于本发明的保护范围。所述计算机程序可使计算机运行如上文所述步骤的方法或所述计算机程序可使计算机运行如上文所述装置的模块。测序得到的原始数据(rawdata),存在一定比例的干扰数据(dirtydata)。为了使信息分析的结果更加准确、可靠,本发明首先对原始数据进行拼接、过滤,得到有效数据(cleandata);然后基于有效数据进行otus(operationaltaxonomicunits)聚类和物种分类分析;根据otus聚类结果,一方面对每个otu的代表序列做物种注释,得到对应的物种信息和基于物种的丰度分布情况。同时,本发明对otus进行丰度、alpha多样性计算、venn图和花瓣图等分析,以得到样本内物种丰富度和均匀度信息、不同样本或所有样本分组间的共有和特有otus信息等。另一方面,本发明对otus进行多序列比对并构建系统发生树,并进一步得到不同样本和所有样本分组的群落结构差异,通过pcoa和pca、nmds等降维图和样本聚类树进行展示。为进一步挖掘分组样本间的群落结构差异,选用lefse、anosim和mrpp等统计分析方法对所有分组样本的物种组成和群落结构进行差异显著性检验。同时,也可结合环境因素进行cca/rda分析和多样性指数与环境因子的相关性分析,得到显著影响组间群落变化的环境影响因子。本发明所提供的装置通过分析不同样本分组之间和/或样本内微生物16s区域的序列变异和丰度,可应用于分析研究环境微生物中细菌或古菌的群落结构多样性。附图说明49.图1为技术路线。50.图2为门水平上的实验组和对照组物种相对丰度柱形图。横坐标(groupname)是实验组和对照组的分组名称;纵坐标(relativeabundance)‑表示相对丰度;others表示图中这10个门之外的其他所有门的相对丰度之和。51.图3为属水平物种数量维恩图。con_42和con_1为两个对照组的名称。52.图4为组别(实验组和对照组)物种丰度聚类图。纵向为样本信息,横向为物种注释信息,图中左侧的聚类树为物种聚类树;上方的聚类树为样本组间的聚类树;中间热图对应的值(即背景的灰度值)为每一行物种相对丰度经过标准化处理后得到的z值,即一个样本在某个分类上的z值为样本在该分类上的相对丰度和所有样本在该分类的平均相对丰度的差除以所有样本在该分类上的标准差所得到的值。53.图5为样本物种丰度聚类图。依据提供的样品,对物种和样本两个层面进行聚类,纵向为样本信息,横向为物种注释信息,图中左侧的聚类树为物种聚类树;上方的聚类树为样本组间(实验组和对照组)的聚类树;中间热图对应的值(即背景的灰度值)为每一行物种相对丰度经过标准化处理后得到的z值,即一个样本在某个分类上的z值为样本在该分类上的相对丰度和所有样本在该分类的平均相对丰度的差除以所有样本在该分类上的标准差所得到的值。54.图6为属水平物种系统发生关系。属水平物种的代表序列构建的系统发育树,分支的背景灰度值表示其对应的门,每种灰度代表一个门。55.图7为rarefactioncurve稀释曲线(上)和rankabundancecurve等级聚类曲线(下)。上图的横坐标为从某个样本中随机抽取的测序条数,纵坐标为基于该测序条数能构建的otu数量,用来反映测序深度情况,不同的样本使用不同灰色深度的曲线表示;下图的横坐标为按otus丰度排序的序号,纵坐标为对应的otus的相对丰度,不同的样本使用不同灰色深度的折线表示。56.图8为按组分析的稀释曲线(上)和按组分析的rankabundance曲线(下)。稀释曲线中,横坐标为从某个样品中随机抽取的测序条数,纵坐标为基于该测序条数能构建的otu数量,用来反映测序深度情况,不同的样本使用不同灰度的曲线表示;rankabundance曲线中,横坐标为按otus丰度排序的序号,纵坐标为对应的otus的相对丰度,不同的样本使用不同的灰度的折线表示。57.图9为beta多样性指数热图(样本展示)。图中方格中的数字是样本两两之间的相异系数,相异系数越小的两个样本,物种多样性的差异越小。58.图10为beta多样性指数热图(实验组和对照组组别展示)。图中方格中的数字是样本两两之间的相异系数,相异系数越小的两个样本,物种多样性的差异越小。59.图11为pca分析。横坐标表示第一主成分,百分比则表示第一主成分对样本差异的贡献值;纵坐标表示第二主成分,百分比表示第二主成分对样本差异的贡献值;图中的每个点表示一个样本,同一个组的样本使用同一种形状和灰度表示;在有聚类圈的pca图中,以分组信息添加聚类圈。60.图12为nmds分析。横纵坐标轴含义:nmds是距离值的秩次(数据排名)信息的评估,图形上样本信息仅反映样本间数据秩次信息的远近,而不反映真实的数值差异,横纵坐标轴并无权重意义,横轴不一定比纵轴更加重要;图中的每个点表示一个样本,同一个组的样本使用同一种形状和灰度表示,stress小于0.2时,说明nmds可以准确反映样品间的差异程度。61.图13为基于weightedunifrac距离的upgma聚类树(以实验组和对照组组别聚类),将聚类结果与各样本在门水平上的物种相对丰度整合展示。左侧是upgma聚类树结构,右侧的是各样本在门水平上的物种相对丰度分布图。62.图14为基于unweightedunifrac距离的upgma聚类树(以实验组和对照组组别聚类),将聚类结果与各样本在门水平上的物种相对丰度整合展示。左侧是upgma聚类树结构,右侧的是各样本在门水平上的物种相对丰度分布图。63.图15为anosim组间差异分析。纵坐标为样品间距离的秩,横坐标:between为两组之间的结果,其他两个为实验组各自组内的结果。64.图16为lda值分布柱状图。lda值分布柱状图中展示了ldascore大于设定值(默认设置为2)的物种,即组(实验组和对照组)间具有统计学差异的biomarker,柱状图的长度代表差异物种的影响大小(即为ldascore),1代表1天;42代表42天。65.图17为进化分支图。由内至外辐射的圆圈代表了由门至属(或种)的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。着色原则:无显著差异的物种统一着色为黄色,差异物种biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群。图中英文字母表示的物种名称在右侧图例中进行展示,1代表1天;42代表42天。具体实施方式66.下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本
技术领域
:普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。67.下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。68.实施例一、微生物16s扩增子数据分析的装置及方法69.一、微生物样本16s扩增子测序70.待测微生物样本分为实验组微生物样本的和对照组微生物样本。71.使用illumina测序平台进行高通量测序,对待测微生物样本的16s扩增子进行测序,获得待测微生物样本的16s扩增子的原始数据(rawdata或rawreads)。72.原始数据(rawdata或rawreads)的来源为高通量测序平台获得的原始下机数据。测序得到的原始图像数据经basecalling转化为序列数据即为原始下机数据,结果以fastq文件格式存储(文件名:*.fq),fastq文件为用户得到的最原始文件,里面存储测序获得的reads的序列以及reads的测序质量。73.二、微生物16s扩增子数据分析74.1、数据获得模块:用于获取步骤一中得到的实验组微生物样本和对照组微生物样本的16s扩增子的原始数据。75.2、数据质控分析模块:用于将原始数据进行质量控制得到有效数据。76.由于在高通量测序平台测序的建库阶段会出现建库长度的偏差,测序阶段会出现测序错误的情况,数据获得模块中获取的原始数据中会存在无效数据(包含接头信息、低质量碱基、未测出的碱基)无效数据会对生物信息数据分析带来严重的干扰,需要对原始数据进行质量控制,过滤排除无效数据,得到有效数据(cleandata或cleanreads,数据格式与rawdata相同),以保证生物信息分析的正常进行。质量控制过程具体包括原始数据拼接和过滤。77.数据质控分析模块通过如下步骤的方法建立:78.2.1数据过滤和拼接79.(1)过滤掉测序获得的reads中的接头序列和barcode序列;80.(2)用flash(fastlengthadjustmentofshortreads,下载网址:https://ccb.jhu.edu/software/flash/)软件将有overlap的reads对进行拼接,得到拼接数据;81.(3)使用qiime(下载网址:http://qiime.org/)软件对拼接数据进行过滤,过滤掉含n较多或含低质量碱基较多的序列;82.(4)过滤掉拼接序列中的嵌合体序列。83.2.2质控结果分析84.2.2.1测序数据量统计85.对数据过滤和拼接处理过程中各步骤得到的序列进行统计,根据统计结果确定样本和数据的有效性,选择符合经验值的质控后的数据进行后续数据分析。86.2.2.2拼接序列长度分布分析87.统计各样本拼接序列的长度分布,由于原始下机的reads包含接头或barcode序列,截取这些序列后对reads进行拼接时,reads的重叠区域长度也会有所变化,所以拼接序列长度会有所波动。通过分析各样本的拼接序列长度的分布,选择分布符合经验的样本进行后续数据分析。88.2.2.3测序质量分布分析89.选择测序数据的质量在q20(碱基质量值大于20,即测序错误率小于1%)以上的样本和数据进行后续数据分析。90.2.2.4测序错误率分布分析选择测序数据的碱基测序错误率低的样本和数据进行后续数据分析。91.3.otu聚类及物种注释模块:用于获得待测微生物样本的物种组成及丰度信息。92.3.1otu聚类及物种注释模块:用于对所有样本的有效数据聚类成otus,并对otus的代表序列进行物种注释。93.该模块通过如下步骤的方法建立:94.(1)对所有样本的有效数据进行聚类,以97%的一致性(identity)使用vsearch(version2.4.2)(下载地址:https://github.com/torognes/vsearch)将序列聚类成为otus(operationaltaxonomicunits),然后对otus的代表序列使用rdpclassifiernaivebayesian分类算法(相关网址:https://rdp.cme.msu.edu/classifier/classifier.jsp)进行物种注释。95.(2)使用docker技术封装前端网页报告方法构建灵活的otus和物种注释结果的heatmap互动网页展示,结果可在结果文件或网页版报告中查看。96.3.2物种分布分析模块:用于分析样本在不同分类水平上的物种相对丰度及比例。该模块通过如下步骤的方法建立:97.3.2.1物种相对丰度分析:根据3.1otu聚类及物种注释模块得到的样本的物种注释结果,选取每个样本或样本分组在各分类水平(门‑phylum、纲‑class、目‑order、科‑family、属‑genus)上最大丰度排名前10的物种,生成物种相对丰度柱形累加图,以便直观查看各样品在不同分类水平上,相对丰度较高的物种及其比例。98.各样本门水平物种相对丰度柱形图如图2所示。99.3.2.2属水平物种数量分析:根据3.1otu聚类及物种注释模块得到的样本的物种注释结果,统计实验组和对照组样本在属水平上的物种数量,并生成物种数量维恩图,以便直观的展示在属水平上组间的物种差异(图3)。100.3.2.3物种丰度聚类分析:根据步骤3.2.2得到的所有样本在属水平的物种注释及丰度信息,选取丰度排名前35的属,根据其在每个样本中的丰度信息,从物种和样本两个层面进行聚类,绘制成热图,便于发现哪些物种在哪些样本中聚集较多或含量较低。依据提供的组别(实验组和对照组),对物种和样本两个层面进行聚类,得到组别物种丰度聚类展示结果和样本物种丰度聚类展示结果(图4和图5)。101.表1聚类结果原始数据统计表[0102][0103]注:第一行为样本名称;firmicutes:厚壁菌门;actinobacteria:放线菌门;fusobacteria:梭杆菌门;proteobacteria:变形杆菌门;planctomycetes:浮霉菌门;acidobacteria:酸杆菌门;cyanobacteria:蓝细菌;bacteroidetes:拟杆菌门;tenericutes:软壁菌门;verrucomicrobia:疣微菌门;thermotogae:热袍菌门;synergistetes:互养菌门。[0104]表2聚类结果原始数据统计表[0105][0106][0107]注:第一行为样本名称;bacteroidetes:拟杆菌门;verrucomicrobia:疣微菌门;tenericutes:软壁菌门;synergistetes:互养菌门;cyanobacteria:蓝细菌;planctomycetes:浮霉菌门;acidobacteria:酸杆菌门;actinobacteria:放线菌门;thermotogae:热袍菌门;firmicutes:厚壁菌门;fusobacteria:梭杆菌门;deinococcus‑thermus:栖热菌门;proteobacteria:变形菌门。[0108]3.3物种进化树构建模块:用于得到样本属水平物种进化树,以研究属水平物种的系统进化关系。该模块通过如下步骤的方法建立:[0109]通过进行多序列比对得到top100属的代表序列的系统发生关系,并进行结果展示(图6)。[0110]4.样本复杂度(alphadiversity,α‑多样性)分析模块:用于分析样本内(within‑community)的微生物群落多样性。[0111]α‑多样性用于分析样本内(within‑community)的微生物群落多样性,通过单样本的多样性分析(alpha多样性)可以反映样本内的微生物群落的丰富度和多样性,包括用物种累积箱形图、物种多样性曲线和一系列统计学分析指数来评估各样本内微生物群落的物种丰富度和多样性的差异。[0112]4.1α‑多样性指数统计模块:用于统计不同样本的α‑多样性分析指数。[0113]一般来说,在97%以上的序列一致性下聚类成为一个otu的序列被认为可能是源自于同一个种(speciesboundary)的序列。因此,该模块通过如下步骤的方法建立:对不同样本在97%一致性阈值下的alphadiversity分析指数(shannon、simpson、chao1、ace、goods_coverage、pd_whole_tree)进行统计(表3)。[0114]具体步骤为:为了便于进行样本多样性之间的比较,将所有样本中序列进行随机抽样,统一在最小样本tags数深度下计算不同样本的多样性指数。抽样的过程为,分别以1000为一个步长、在每个步长进行10次重复抽取序列,来计算otu数目以及多个多样性指数。[0115]表3.alphaindices统计表[0116][0117][0118]注:第一列为样本名称;对不同样品及分组在97%一致性阈值下的alphadiversity分析指数(observed_species指数、shannon指数、simpson指数、chao1指数、ace、goods_coverage以及pd_whole_tree)[0119]4.2物种多样性曲线绘制模块:用于绘制物种多样性曲线,分析有效数据的数据量(测序数据量)的合理性和样本中物种的丰富度和均匀度。[0120]稀释曲线和等级聚类曲线是常见的描述组内样品多样性的曲线。rarefactioncurve,即稀释曲线,是从样品中随机抽取一定测序量的数据,统计它们所代表物种数目(即otus数目),以抽取的测序数据量与对应的物种数来构建曲线。稀释曲线可直接反映测序数据量的合理性绘制,并间接反映样品中物种的丰富程度,当曲线趋向平坦时,说明测序数据量渐进合理,更多的数据量只会产生少量新的物种(otus)。[0121]等级聚类曲线(rankabundance曲线)是将样品中的otus按相对丰度(或者包含的序列数目)由大到小排序得到对应的排序编号,再以otus的排序编号为横坐标,otus中的相对丰度(也可用该等级otu中序列数的相对百分含量)为纵坐标,将这些点用折线连接,即绘制得到rankabundance曲线,它可直观的反映样品中物种的丰富度和均匀度。在水平方向上,物种的丰富度由曲线的宽度来反映,物种的丰富度越高,曲线在横轴上的跨度越大;在垂直方向上,曲线的平滑程度,反映了样品中物种的均匀程度,曲线越平缓,物种分布越均匀。[0122]该模块通过如下步骤的方法建立:等级聚类曲线(rankabundance曲线)将每个样本中的otu按照丰度大小沿横坐标依次排序(同一水平线上的otu丰度相同),并以各自的丰度标准化后的值(一般会做log2处理)为纵坐标,用折线或者曲线将各otus互相连接,绘制稀释曲线(图7)和等级聚类曲线(图8)。[0123]5.多样本比较(betadiversity,β‑多样性)分析模块:用于比较分析实验组和对照组不同样本的微生物群落构成。该模块通过如下步骤的方法建立:[0124]首先根据模块3中得到的所有样本的物种注释结果和物种的丰度信息,将相同分类的otus信息合并处理得到物种丰度信息表(profilingtable)。同时利用otus之间的系统发生关系,进一步计算unifrac距离(unweightedunifrac)。unifrac距离是一种利用各样本中微生物序列间的进化信息计算样品间距离,两个以上的样品,则得到一个距离矩阵。然后,利用otus的丰度信息对unifrac距离(unweightedunifrac)进一步构建weightedunifrac距离。最后,通过多变量统计学方法主成分分析(pca,principalcomponentanalysis),主坐标分析(pcoa,principalco‑ordinatesanalysis),无度量多维标定法(nmds,non‑metricmulti‑dimensionalscaling),非加权组平均聚类分析(upgma,unweightedpair‑groupmethodwitharithmeticmeans)分析以及beta多样性指数组间差异分析等方法,从中发现实验组和对照组样本间的差异。[0125]5.1β‑多样性指数统计模块:用于统计β‑多样性指数,包括样本间的相异系数、样本距离、样本的群落组成、样本的组间和组内差异。该模块通过如下步骤的方法建立:[0126]距离矩阵热图:β‑多样性研究中,选用weightedunifrac距离和unweightedunifrac距离两个指标来衡量两个(分组)样本间的相异系数,其值越小,表示这两个(分组)样本在物种多样性方面存在的差异越小(图9)。以weightedunifrac和unweightedunifrac距离绘制的heatmap图(图10)。[0127]5.2排序分析模块:作为多元统计的方法,用于在可视化的低维空间展示多维数据的结构。[0128]该模块通过如下步骤的方法建立:[0129]5.2.1pcoa分析:主坐标分析(pcoa,principalco‑ordinatesanalysis),是通过一系列的特征值和特征向量排序从多维数据中提取出最主要的元素和结构。基于weightedunifrac距离和unweightedunifrac距离来进行pcoa分析,并选取贡献率最大的主坐标组合进行作图展示。如果样本距离越接近,表示物种组成结构越相似,因此群落结构相似度高的样本倾向于聚集在一起,群落差异很大的样本则会远远分开。[0130]5.2.2pca分析:主成分分析(pca,principalcomponentanalysis),是一种应用方差分解,对多维数据进行降维,从而提取出数据中最主要的元素和结构的方法。应用pca分析,能够提取出最大程度反映样品间差异的两个坐标轴,从而将多维数据的差异反映在二维坐标图上,进而揭示复杂数据背景下的简单规律。如果样品的群落组成越相似,则它们在pca图中的距离越接近(图11)。[0131]5.2.3nmds分析:无度量多维标定法(nmds,non‑metricmulti‑dimensionalscaling)统计是一种适用于生态学研究的排序方法。nmds是非线性模型,其设计目的是为了克服线性模型(包括pca、pcoa)的缺点,更好地反映生态学数据的非线性结构。应用nmds分析,根据样本中包含的物种信息,以点的形式反映在多维空间上,而对实验组和对照组不同样本间的差异程度,则是通过点与点间的距离体现,能够反映样本的组间(实验组和对照组之间)和组内(实验组或对照组组内)差异等(图12)。[0132]5.3聚类分析模块:用于通过对样本进行聚类分析,获得实验组和对照组不同样本间的相似性分析结果。[0133]upgma聚类树:在环境生物学中,upgma(unweightedpair‑groupmethodwitharithmeticmean)是一种较为常用的聚类分析方法,它最早便是用来解决分类问题的。upgma的基本思想是:首先将距离最小的2个样品聚在一起,并形成一个新的节点(新的样品),其分支点位于2个样本间距离的1/2处;然后计算新的“样本”与其它样本间的平均距离,再找出其中的最小2个样本进行聚类;如此反复,直到所有的样本都聚到一起,最终得到一个完整的聚类树。[0134]以weightedunifrac距离矩阵和unweightedunifrac距离矩阵做upgma聚类分析,并将聚类结果与各样本在门水平上的物种相对丰度整合展示(图13和图14)。[0135]6.组间差异显著性分析模块:用于基于多样本比较(β‑多样性)分析模块得到的样本的组间和组内差异,分析样本分组(实验组和对照组)组间差异的显著性。[0136]该模块通过如下步骤的方法建立:[0137]6.1anosim分析:anosim分析是一种非参数检验,用来检验组间的差异是否显著大于组内差异,从而判断分组是否有意义。具体为使用r语言vegan包的anosim函数(相关网址:https://github.com/vegandevs/vegan)进行相似性分析。[0138]对anosim的分析结果,基于两两样本之间的距离值排序获得的秩(组间的为between,组内的为within),这样任一两两组的比较可以获得三个分类的数据,并进行箱线图的展示(若两个箱的凹槽互不重叠,则表明它们的中位数有显著差异)(表4和图15)。[0139]表4anosim组间差异分析[0140][0141][0142]注:第一列为实验组和对照组的名称;r‑value介于(‑1,1)之间,r‑value大于0,说明组间差异显著。r‑value小于0,说明组内差异大于组间差异,统计分析的可信度用p‑value表示,p<0.05表示统计具有显著性。[0143]6.2mrpp分析:[0144]mrpp分析与anosim类似,用于分析组间微生物群落结构的差异是否显著,通常配合pca、pcoa、nmds等降维图使用,具体为使用r语言vegan包的mrpp函数(相关网址:https://github.com/vegandevs/vegan)进行分析。[0145]表5mrpp组间差异分析[0146]groupaobserved‑deltaexpected‑deltasignificancelgg0.5_42‑lgg0.5_10.2363871045752.0023417532.6155080.003lgg0.25_42‑lgg0.25_10.0375470426980.1527627252.461230.005con_1‑lgg0.5_10.1800400727244.8469488835.6109840.006lgg0.25_21‑lgg0.25_420.025859166619.7927446795.5191610.01lgg0.5_21‑lgg0.5_10.1869837477283.9617828959.1834780.031lgg0.25_1‑lgg0.5_10.1088525317123.1184567993.1983220.039con_42‑con_10.0208375117034.1126887183.8053090.053con_21‑con_420.0151910276689.3603046792.5460530.068lgg0.25_21‑lgg0.25_10.0190752597436.1801077580.7855570.105con_21‑con_1‑0.0014736037660.6171147649.345020.434con_42‑lgg0.25_42‑0.000775576371.5730666366.6352940.471con_21‑lgg0.25_21‑0.0031786726975.027586952.9265040.5lgg0.25_42‑lgg0.5_42‑0.0060529676427.5839246388.9120480.709con_21‑lgg0.5_21‑0.0225403747715.8843237545.7991860.808lgg0.25_21‑lgg0.5_21‑0.0232595867519.6099447348.6826270.847con_42‑lgg0.5_42‑0.0094477216394.0411136334.1973830.877lgg0.5_21‑lgg0.5_42‑0.0197022457830.8932357679.5881080.898con_1‑lgg0.25_1‑0.0169867489543.9753669384.5621750.899[0147]注:第一列为实验组和对照组的名称;observedelta值越小说明组内差异小,expectdelta值越大说明组间差异大。a值大于0说明组间差异大于组内差异,a值小于0说明组内差异大于组间差异。significance值小于0.05说明差异显著。[0148]6.3adonis分析:adonis又称置换多因素方差分析(permutationalmanova)或非参数多因素方差分析(nonparametricmanova),是一种基于距离矩阵(如bray‑curtis,euclidean等)的非参数多元方差分析方法。该方法可分析不同分组因素对样品差异的解释度,并使用置换检验对分组的统计学意义进行显著性分析。adonis分析使用r语言vegan包adonis函数(相关网址:https://github.com/vegandevs/vegan)进行。[0149]表6adonis组间(实验组和对照组)差异分析[0150][0151]注:第一列为实验组和对照组的名称;df表示自由度;sumsofsqs:总方差,又称离差平方和;meansqs:均方(差),即sumsofsqs/df;f.model:f检验值;r2表示不同分组对样本差异的解释度,即分组方差与总方差的比值,r2越大表示分组对差异的解释度越高;pr表示p值,小于0.05说明本次检验的可信度高。括号里面为残差项对应的值。[0152]6.4lefse分析:lefse(ldaeffectsize)分析能够在组与组(实验组和对照组)之间寻找具有统计学差异的biomarker,即组(实验组和对照组)间差异显著的物种。[0153]lefse是一种用于发现高维生物标识和揭示基因组特征的软件。包括基因,代谢和分类,用于区别两个或两个以上生物条件(或者是类群)。该算法强调的是统计意义和生物相关性。让研究人员能够识别不同丰度的特征以及相关联的类别。lefse的统计结果包括三部分,分别是lda值分布柱状图,进化分支图(系统发育分布)和组间具有统计学差异的biomarker在不同组中丰度比较图(图16和图17)。[0154]以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本技术欲包括任何变更、用途或对本发明的改进,包括脱离了本技术中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献