一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于测序数据的自动化血清型分析鉴定方法及系统

2022-08-27 23:56:44 来源:中国专利 TAG:


1.本技术属于基因测序数据分析技术领域,尤其涉及一种基于测序数据的自动化血清型分析鉴定方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本技术相关的背景技术信息,不必然构成在先技术。
3.基于微生物基因组测序数据信息的血清分型技术广泛应用要求分析程序的自动化血清分型流程。对于单物种的血清型分析的研究已经取得了一定的成果。
4.发明人发现,现有的对于血清分型的工作通常专注于单物种的微生物测序数据分析,尤其是沙门氏菌血清型的鉴定分析,无法满足目前快速发展的大量的多物种的测序数据的分析需求。并且它们涉及的方面通常不够全面,仅专注于序列型或血清型的单个方面,无法兼顾多个方面,也无法将多个方面的信息联系起来。


技术实现要素:

5.为克服现有技术的不足,本技术提供基于测序数据的自动化血清型分析鉴定方法及系统,用于多物种血清型的鉴定,以及定制的生物信息学分析,有利于提高血清型分析鉴定结果的准确率。
6.本技术采用的技术方案如下:
7.第一方面,本技术实施例提供一种基于测序数据的自动化血清型分析鉴定方法,包括:
8.获取微生物基因组测序数据;
9.将所述微生物基因组测序数据与关键等位基因数据库中的各关键等位基因进行比对,记录相似度大于预设阈值的关键等位基因和相应的比对评分;
10.根据所述关键等位基因和相应的比对评分,确定所述微生物基因组测序数据所属的生物体;
11.使用所述生物体的关键等位基因,确定序列型数据库中的序列型;使用所述序列型搜索血清型数据库,根据序列型和血清型之间的映射关系确定所述微生物基因组测序数据的血清型。
12.在一种可能的实施方式中,在获取微生物基因组测序数据之前,还包括:构建关键等位基因-序列型-血清型关联数据库(下文简称为关联数据库)。
13.在一种可能的实施方式中,所述关联数据库的构建过程包括:收集相关关键等位基因、序列型和血清型信息;挖掘关键等位基因与序列型的关联关系、序列型与血清型的关联关系,以及关键等位基因、序列型、血清型的信息;根据上述关联关系与信息构建所述关键等位基因-序列型-血清型关联数据库。
14.在一种可能的实施方式中,所述关键等位基因-序列型-血清型关联数据库包括关
键等位基因数据库、序列型数据库和血清型数据库,各数据库通过索引建立关联关系;所述序列型数据库记录关键等位基因的不同组合到每个生物体序列类型的映射关系;所述血清型数据库记录序列类型与血清型之间的关联关系,用于多种微生物的血清型鉴定。
15.在一种可能的实施方式中,根据大数定律计算关联数据库中一种生物体序列类型的每个血清型频率,根据所述频率确定出生物体的血清型为已知血清型的概率;根据所述概率确定序列类型与血清型之间的关联关系。
16.在一种可能的实施方式中,使用sigmoid评分策略来评估所述微生物基因组测序数据所属的生物体。
17.在一种可能的实施方式中,通过以下方式评估所述微生物基因组测序数据所属的生物体:
[0018][0019][0020]
其中,x表示生物体的等位基因座中不同等位基因的数量,θ表示与标记相关的权重,s表示与生物体的一个等位基因相关的得分;allele表示生物体的关键等位基因,alleles表示生物体的所有关键等位基因,f表示生物体的最终得分;根据最终得分确定所述微生物基因组测序数据所属的生物体。
[0021]
第二方面,本技术实施例提供一种基于测序数据的自动化血清型分析鉴定系统,包括:
[0022]
获取模块,用于获取微生物基因组测序数据;
[0023]
比对模块,用于将所述微生物基因组测序数据与关键等位基因数据库中的各关键等位基因进行比对,记录相似度大于预设阈值的关键等位基因和相应的比对评分;
[0024]
确定模块,用于根据所述关键等位基因和相应的比对评分,确定所述微生物基因组测序数据所属的生物体;
[0025]
鉴定模块,用于使用所述生物体的关键等位基因,确定序列型数据库中的序列型;使用所述序列型搜索血清型数据库,根据序列型和血清型之间的映射关系鉴定所述微生物基因组测序数据的血清型。
[0026]
第三方面,本技术实施例提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于测序数据的自动化血清型分析鉴定方法的步骤。
[0027]
第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于测序数据的自动化血清型分析鉴定方法的步骤。
[0028]
本技术的有益效果是:
[0029]
通过自动化生物信息学分析步骤,包括:获取微生物基因组测序数据;将微生物基因组测序数据与关键等位基因数据库中的各关键等位基因进行比对,记录相似度大于预设阈值的关键等位基因和相应的比对评分;根据关键等位基因和相应的比对评分,确定所述
微生物基因组测序数据所属的生物体;使用生物体的关键等位基因,确定序列型数据库中的序列型;使用序列型搜索血清型数据库,根据序列型和血清型之间的映射关系确定微生物基因组测序数据的血清型,能够针对不同平台产生的短读长和长读长测序数据进行定制的生物信息学分析,得到准确的分析结果。
附图说明
[0030]
构成本技术的一部分的说明书附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
[0031]
图1是本技术实施例所提供的基于测序数据的自动化血清型分析鉴定方法的流程图;
[0032]
图2是本技术另一实施例所提供的基于测序数据的自动化血清型分析鉴定方法的流程图;
[0033]
图3是本技术实施例所提供的键等位基因-序列型-血清型关联数据库的结构图;
[0034]
图4是本技术实施例所提供的基于测序数据的自动化血清型分析鉴定系统的结构图;
[0035]
图5是本技术实施例所提供的一种计算机设备的示意图。
具体实施方式
[0036]
下面结合附图与实施例对本技术作进一步说明。
[0037]
应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0038]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0039]
现阶段,对于血清分型的工作通常专注于单物种的微生物测序数据分析,尤其是沙门氏菌血清型的鉴定分析,无法满足目前快速发展的大量的多物种的测序数据的分析需求。并且它们涉及的方面通常不够全面,仅专注于序列型或血清型的单个方面,无法兼顾多个方面,也无法将多个方面的信息联系起来。更先进的分析技术或工具应该为血清型鉴定提供多方面的分析,同时分析覆盖更多物种,以及提供更简单的配置选择,让其用户友好性更好。基于此,本技术提供一种基于测序数据的自动化血清型分析鉴定方法,用于实现基于微生物基因组的可应用于多物种的序列型和血清型鉴定。
[0040]
实施例一
[0041]
如图1和图2中所示,本技术实施例所提供的基于测序数据的自动化血清型分析鉴定方法包括以下步骤:
[0042]
s101:获取微生物基因组测序数据。
[0043]
其中,所述微生物基因组测序数据包括不同类型,具体包括短读长测序数据、长读长测序数据和组装后数据。
[0044]
s102:将所述微生物基因组测序数据与关键等位基因数据库中的各关键等位基因进行比对,记录相似度大于预设阈值的关键等位基因和相应的比对评分。
[0045]
在具体实施中,本实施例首先将微生物基因组测序数据比对到关键等位基因-序列型-血清型关联数据库。在分析比对结果后,提取模式(每个生物体与一个模式相关)、等位基因、allele_num、输入序列长度、比对长度和相同匹配数的信息。根据提取的信息评估可能的微生物列表,如果微生物基因组测序数据对生物体的等位基因覆盖率较高,则这些序列属于该生物的可能性较高。特别地,当一个生物的序列长度和比对长度等于相同匹配的数量时,分配高分数标记;当一对输入序列长度、对齐长度和相同匹配数相等时,分配中等分数标记;当输入序列长度、对齐长度和相同匹配数不相等时,分配低分数标记。
[0046]
对于可能列表中得分最高的生物体,本实施例获得其对应的模式、allele、allele_num信息,并在关键等位基因序列类型血清型关联数据库上构造执行的等效搜索条件,在此基础上,本实施例生成输入测序数据的序列型和血清型,并完成相应的微生物鉴定。
[0047]
本技术实施例中,作为一可选实施例,在获取微生物基因组测序数据之前,还包括:构建关键等位基因-序列型-血清型关联数据库。
[0048]
在具体实施中,关键等位基因-序列型-血清型关联数据库由三部分组成:用于搜索关键等位基因的关键等位基因数据库、与关键等位基因关联的序列型数据库和与序列类型关联的血清型数据库。
[0049]
本技术实施例中,作为一可选实施例,所述关联数据库的构建过程包括:收集相关关键等位基因、序列型和血清型信息;挖掘关键等位基因与序列型的关联关系、序列型与血清型的关联关系,以及关键等位基因、序列型、血清型的信息;根据上述关联关系与信息构建所述关键等位基因-序列型-血清型关联数据库。
[0050]
在具体实施中,收集相关关键等位基因、序列型和血清型信息,挖掘序列型和血清型之间的关联,为多种微生物的血清型鉴定提供支持,并构建关联数据库。关联数据库包含135个生物体的1044个关键等位基因座,每个等位基因座包含数十个或数百个不同的等位基因序列。此外,关联数据库包含45898个序列类型和血清类型之间的关联。表1列出了一些生物体及其等位基因,其中每个生物体可能与几个不同的等位基因座(例如,等位基因_1、等位基因_2,

)相关,每个等位基因座可能具有不同数量的等位基因(例如,pgi(17)描述了一个等位基因座pgi中有17个等位基因)。
[0051]
表1关联数据库中的生物和等位基因示例
[0052]
[0053][0054]
本技术实施例中,作为一可选实施例,所述关键等位基因-序列型-血清型关联数据库包括关键等位基因数据库、序列型数据库和血清型数据库,各数据库通过索引建立关联关系;所述序列型数据库记录关键等位基因的不同组合到每个生物体序列类型的映射关系;所述血清型数据库记录序列类型与血清型之间的关联关系,用于多种微生物的血清型鉴定。
[0055]
在具体实施中,同一等位基因座上的等位基因可能与多个序列相关,例如,肠沙门氏菌的等位基因座aroc与2106个序列相关,如表2中所示。关键等位基因数据库存储下载的关键等位基因(基因序列和等位基因之间的关系是一对一的映射,如图3中1:1所示)。本实施例提供本地脚本下载基因序列,并建立blast索引,通过快速比对找到类似的关键等位基因。
[0056]
表2沙门氏菌等位基因aroc和对应的序列示例
[0057]
allelesequencearoc_1

gtttttcgcccgggacacgcggattacacctatgagcaga

aroc_2

ctgcgcgattaccgtggcggtggacgttcttccgcgcgtg

aroc_3

cttccgcgcgtgaaaccgcgatgcgcgtagcggcaggggc

aroc_4

gatcgccaagaaatacctggcggaaaagttcggcatcgaa

aroc_5

gatattccgctggagattaaagactggcgtcaggttgagc

……
[0058]
进一步的,关键等位基因-序列型关联具体为:
[0059]
序列类型数据库记录关键等位基因的不同组合到每个生物的序列类型的映射。本工具提供了一个本地脚本来收集和存储sqlite中的映射。表3显示了序列型数据库中肠道沙门氏菌方案的示例,其列由肠道沙门氏菌的序列类型(见st列)和相应的等位基因(见aroc、dnan、hemd等列)组成。表3中的等位基因值是相应的序列号。不同的等位基因组合与不同的序列型相关,本实施例利用这些组合来识别生物体的序列类型。
[0060]
表3沙门氏菌序列型和相应等位基因
[0061]
starocdnanhemdhisdpuresucathra11111115211211153112111944341161334134516434543363942
……………………
[0062]
进一步的,所述序列型-血清型关联具体为:
[0063]
血清型数据库记录序列类型和血清型之间的关联,用于多种微生物的血清型鉴定。本工具提供了一个本地脚本来构造和存储sqlite中的关联。血清型和序列型之间的关系是一种多对多映射关系(图3中以n:n表示)。
[0064]
本技术实施例中,作为一可选实施例,根据大数定律计算关联数据库中一种生物体序列类型的每个血清型频率,根据所述频率确定出生物体的血清型为已知血清型的概率;根据所述概率确定序列类型与血清型之间的关联关系。
[0065]
在具体实施中,在计算了关联数据库中一种生物体的序列类型的每个血清型频率fi后,本实施例根据大数定律将频率fi指定为给定生物体的血清型为已知血清型的概率。表4显示了血清型数据库中肠道沙门氏菌方案的示例,其列包含序列类型和相关血清型。例如,如果给定生物体的st值为1,则其相应血清型的typhi和enteritidis概率分别为0.9995和0.0005。借助血清型数据库中的关联信息,本技术可以从序列型中识别多种微生物的可能血清型。
[0066]
表4沙门氏菌序列型和关联的血清型
[0067]
stserotype1typhi:0.9995;enteritidis:0.00052typhi:0.9990;others:0.0014montevideo:0.9286;others:0.07145newport:0.6667;others:0.33336enteritidis:1.08typhi:1.010dublin:0.84;typhi:0.02;unknown:0.13;naestved:0.0111enteritidis:0.98;others:0.0213agona:0.97;derby:0.004;others:0.026
……
[0068]
s103:根据所述关键等位基因和相应的比对评分,确定所述微生物基因组测序数据所属的生物体。
[0069]
作为一可选实施例,通过以下方式评估所述微生物基因组测序数据所属的生物体:
[0070][0071][0072]
其中,x表示生物体的等位基因座中不同等位基因的数量,θ表示与标记相关的权重,s表示与生物体的一个等位基因相关的得分;allele表示生物体的关键等位基因,alleles表示生物体的所有关键等位基因,f表示生物体的最终得分;根据最终得分确定所述微生物基因组测序数据所属的生物体。
[0073]
在具体实施中,该评分过程可由算法1描述。θ1和θ2是与标记相关的权重,org是可能的生物体。分数表由可能的生物体及其相应的最终分数f组成。第1-5行解析该生物并获得可能生物体等位基因的所有关键等位基因;第6-10行使用公式(1)计算与可能生物体的一个等位基因相关的得分;第11-12行使用公式(2)计算每个可能生物体的最终分数f。
[0074][0075]
s104:使用所述生物体的关键等位基因,确定序列型数据库中的序列型;使用所述序列型搜索血清型数据库,根据序列型和血清型之间的映射关系确定所述微生物基因组测序数据的血清型。
[0076]
在具体实施中,本实施例生成最终得分最高的最可能生物体之后,使用最可能生物体的关键等位基因获得序列型数据库中的序列型,使用序列型搜索血清型数据库,并根据序列型和血清型之间的映射关系获得可能的血清型。注意,对于沙门氏菌的血清型鉴定,本实施例可以通过利用与seqsero2中使用的抗原相关的基因序列,进一步增强本技术的鉴定能力。到目前为止,本实施例完成了多种微生物血清型的鉴定。
[0077]
对于没有专业生物信息学知识的研究人员和临床医生,本实施例实现了生物信息学分析鉴定的自动化,包括获取微生物基因组测序数据、微生物基因组测序数据比对、血清
分型评分、多微生物物种序列型与血清型鉴定,构建关键等位基因-序列型-血清型关联数据库,能够针对不同平台产生的短读长和长读长测序数据进行定制的生物信息学分析,获得准确的分析结果。
[0078]
实施例二
[0079]
请参阅图4,本技术实施例所提供的基于测序数据的自动化血清型分析鉴定系统的结构图,如图4中所示,所述基于测序数据的自动化血清型分析鉴定系统400包括:
[0080]
获取模块410,用于获取微生物基因组测序数据;
[0081]
比对模块420,用于将所述微生物基因组测序数据与关键等位基因数据库中的各关键等位基因进行比对,记录相似度大于预设阈值的关键等位基因和相应的比对评分;
[0082]
确定模块430,用于根据所述关键等位基因和相应的比对评分,确定所述微生物基因组测序数据所属的生物体;
[0083]
鉴定模块440,用于使用所述生物体的关键等位基因,确定序列型数据库中的序列型;使用所述序列型搜索血清型数据库,根据序列型和血清型之间的映射关系鉴定所述微生物基因组测序数据的血清型。
[0084]
实施例三
[0085]
请参阅图5,图5是本技术实施例提供的一种计算机设备的示意图。如图5中所示,所述计算机设备500包括处理器510、存储器520和总线530。
[0086]
所述存储器520存储有所述处理器510可执行的机器可读指令,当计算机设备500运行时,所述处理器510与所述存储器520之间通过总线530通信,所述机器可读指令被所述处理器510执行时,可以执行如上述图1和图2所示方法实施例中的基于测序数据的自动化血清型分析鉴定方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
[0087]
实施例四
[0088]
基于同一申请构思,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法实施例中所述的基于测序数据的自动化血清型分析鉴定方法的步骤。
[0089]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random accessmemory,ram)等。
[0090]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献