一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于短核苷酸片段检测抗生素耐药基因的方法

2022-06-08 22:55:44 来源:中国专利 TAG:


1.本发明涉及抗生素耐药基因检测领域,尤其涉及一种基于短核苷酸片段检测抗生素耐药基因的方法。


背景技术:

2.细菌耐药性,尤其是和人类健康相关的细菌产生的耐药性菌株的增加会给临床治疗带来严峻的挑战。细菌耐药性是指细菌对抗菌药物不敏感的现象,是细菌自身生存过程中的一种特殊表现形式。随着分子生物学技术的发展,研究发现细菌耐药性是与其抗生素耐药基因的表达有关系。
3.抗生素耐药基因(antibiotic resistance genes,args)是编码耐药性状的一段核苷酸序列,其不仅可以使细菌本身产生耐药性,还能在环境或临床中通过质粒、转座子、整合子等可移动元件转移到其他细菌中,使其它细菌也对抗生素产生耐受性。因此,通过识别抗生素耐药基因对研究细菌耐药的传播机制有重要意义。
4.聚合酶链式反应(polymerase chain reaction,pcr)是目前常用的抗生素耐药基因检测手段,它是一种用于放大扩增特定dna片段的分子生物技术。其比较适合于单个抗生素耐药基因进行检测,若对多个抗生素耐药基因同时检测,需要进行多次或多重pcr检测,操作繁琐。
5.全基因组测序技术(whole genome sequencing,wgs)能够对未知基因组序列的细菌进行个体分析测定完整的基因序列信息,其测序思想是提取基因组dna并随机打断成短核苷酸片段,最后对短核苷酸片段进行测序,得到的序列通过生物信息学的方法进行组装、拼接,获得细菌完整的基因组序列。通过对细菌全基因组测序并利用序列比对的方法,能够检测出细菌携带的所有抗生素耐药基因。
6.目前,基于全基因组数据检测抗生素耐药基因的方法主要有:(1)通过全局比对算法把测序数据与抗生素耐药基因数据库序列进行比对;(2)利用蛋白同源和蛋白变异的特征信息预测细菌全基因组中携带的抗生素耐药基因。
7.然而,目前基于全基因组数据检测抗生素耐药基因的方法存在以下问题:(1)大多数抗生素耐药基因数据库缺乏有效和可持续的管理流程,致使新出现的抗生素耐药基因不能及时在数据库中更新和管理;(2)抗生素耐药基因库的命名不统一,造成同样的抗生素耐药基因误认成不同抗生素耐药基因;(3)全基因组测序技术在测序和拼接的过程可能会降低测序结果的准确性,检测出错误的抗生素耐药基因。


技术实现要素:

8.为了解决上述技术问题,本发明提供了一种基于短核苷酸片段检测抗生素耐药基因的方法。该方法可以解决因全基因组测序结果准确性较低,以及抗生素耐药基因数据库更新不及时和命名不统一,而影响抗生素耐药基因检测的问题,提高抗生素耐药基因检测的准确率和检出率。
9.本发明的具体技术方案为:一种基于短核苷酸片段检测抗生素耐药基因的方法,包括以下步骤:步骤s1:获取抗生素耐药基因的基因序列以及细菌菌株的全基因组测序数据,分别进行数据预处理识别核苷酸片段,得到核苷酸序列索引参考数据集c1和比对数据集c2;步骤s2:从参考数据集c1和比对数据集c2中分别获取指定长度的短核苷酸片段参考数据集s1和比对数据集s2;步骤s3:将参考数据集s1和比对数据集s2进行动态匹配;步骤s4:依据步骤s3的结果,进行比对率计算;步骤s5:输出抗生素耐药基因检测结果。
10.步骤(1)中,抗生素耐药基因的基因序列和细菌菌株的全基因组测序数据均可从ncbi等数据库中获取。
11.本发明利用snm算法来检测抗生素耐药基因,虽然也是基于抗生素耐药基因的基因序列和细菌菌株的全基因组测序数据,但与现有技术不同的是:

本发明的方法中所采用的并非抗生素耐药基因数据库,而是从ncbi等数据库中获取特定抗生素耐药基因的基因序列后,自行输入,因而能够避免抗生素耐药基因数据库无法及时更新和命名不统一对检测结果的影响,防止由于抗生素耐药基因数据库的问题而造成无法检查出全部的抗生素耐药基因,或者同样的抗生素耐药基因被误认成不同抗生素耐药基因;2

本发明考虑到全基因组测序技术在测序和拼接的过程可能会降低测序结果的准确性,导致检测出错误的抗生素耐药基因,并结合全基因组测序技术的原理,采用了获取短核苷酸片段后动态匹配的方法,能够降低全基因组测序结果准确性对抗生素耐药基因检测的影响,提高抗生素耐药基因的准确率和检出率。
12.此外,本发明步骤s2中生成的短核苷酸片段特异性较高,短核苷酸片段参考数据集s1在理论上表示了耐药基因的特征信息。步骤s3中对短核苷酸片段进行动态匹配,可准确检测样本内的抗生素耐药基因。
13.作为优选,步骤s1中,所述数据预处理包括以下步骤:步骤s11:分别输入抗生素耐药基因的基因序列和细菌菌株的全基因组测序数据;步骤s12:按行读取数据文件中的核苷酸片段,并用识别符进行分割;步骤s13:将识别到的核苷酸片段中,第一行信息存储至name中,第二行至最后一行的核苷酸信息进行连接,并存储到reads中,得到核苷酸序列索引参考数据集c1和比对数据集c2。
14.步骤s1中的预处理为识别核苷酸片段,具体过程如下:将所输入的数据按行读取,并用识别符进行分割,识别符可采用

》’,得到核苷酸片段并存储至核苷酸序列索引表,存储格式为《name,reads》,其中,name为核苷酸注释,reads为识别的核苷酸片段。
15.作为优选,步骤s2中,所述指定长度为30~35bp(碱基对)。
16.进一步地,步骤s2中,所述指定长度为31bp。
17.将短核苷酸片段长度设置为31bp,原因在于:核苷酸片段长度的设置需要考虑序列的特异性(即某个基因独有的一段核苷酸序列)和比对效率,长度取值太小,会降低短核苷酸片段的特异性,长度取值太大则会降低比对效率。
18.作为优选,步骤s2的具体过程包括以下步骤:
步骤s21:分别输入参考数据集c1和比对数据集c2;步骤s22:设置短核苷酸片段滑动窗口长度,以1bp为移动步长,对参考数据集c1和比对数据集c2进行切割;步骤s23:根据步骤s22所得结果,统计每个短核苷酸片段出现的频率,存储在短核苷酸片段参考数据集s1和比对数据集s2中。
19.步骤s23中,短核苷酸片段参考数据集s1和比对数据集s2可采用《index,value》格式存储,其中,index为短核苷酸片段,value为短核苷酸片段出现的频率。
20.作为优选,步骤s3的具体过程包括以下步骤:步骤s31:提取参考数据集s1中的子集;步骤s32:遍历比对数据集s2;步骤s33:将参考数据集s1中的子集与比对数据集s2依次比对,判断参考数据集s1中的子集是否出现在比对数据集s2中;若是,则比对成功,进行步骤s34;若否,则比对失败,进行步骤s35;步骤s34:返回1,结果暂存在结果数组中,而后进行步骤s36;步骤s35:判断比对数据集s2是否为空;若为空,则返回0,结果暂存在结果数组中,而后进行步骤s36;若不为空,则返回至步骤s32;步骤s36:判断参考数据集s1是否为空;若为空,则把结果数组生成结果文件;若不为空,则返回至步骤s31。
21.进一步地,所述结果数组的格式为《index,result》,其中,index为参考数据集s1中的短核苷酸片段,result为比对结果。
22.作为优选,步骤s4的具体过程包括以下步骤:步骤s41:对结果数组进行统计,统计对象包括比对的短核苷酸片段总数和比对成功的短核苷酸片段总数,或者包括比对失败的短核苷酸片段总数;步骤s42:根据统计结果,计算比对率。
23.作为优选,步骤s4中,所述比对率按照以下公式计算:或者
24.作为优选,步骤s5中,所述抗生素耐药基因检测结果包括:菌株编号、所检测的抗生素耐药基因名称、比对的短核苷酸片段总数、比对成功的短核苷酸片段总数和比对率。
25.与现有技术相比,本发明具有以下优点:(1)本发明通过自行输入抗生素耐药基因序列,有效解决了抗生素耐药基因数据库的局限性对抗生素耐药基因检测的影响,提高了检测结果的准确性;(2)本发明考虑了全基因组测序技术的原理,降低了全基因组测序结果不准确的问题对抗生素耐药基因检测的影响,提高了抗生素耐药基因检测的准确率和检出率;(3)本发明生成的短核苷酸片段特异性较高,短核苷酸片段参考数据集s1在理论
上表示了耐药基因的特征信息;(4)本发明对短核苷酸片段进行动态匹配,可准确检测样本内的抗生素耐药基因。
附图说明
26.图1是本发明实施例1中检测抗生素耐药基因的流程图。
27.图2是本发明实施例1中获取短核苷酸片段参考数据集s1和比对数据集s2(步骤s2)的流程图。
28.图3是本发明实施例1中对参考数据集s1和比对数据集s2进行动态比对(步骤s3)的流程图。
具体实施方式
29.下面结合实施例对本发明作进一步的描述。
30.实施例1一种基于短核苷酸片段检测抗生素耐药基因的方法,如图1所示,包括以下步骤:步骤s1:从ncbi数据库中获取抗生素耐药基因bla
kpc-2
的基因序列,以及肺炎克雷伯菌的全基因组测序数据,分别进行数据预处理识别核苷酸片段,数据预处理具体包括以下步骤:步骤s11:分别输入抗生素耐药基因bla
kpc-2
的基因序列以及肺炎克雷伯菌的全基因组测序数据;步骤s12:利用readsequence函数,按行读取数据文件中的核苷酸片段,并以

》’为识别符进行分割;步骤s13:将识别到的核苷酸片段中,第一行信息存储至name中,第二行至最后一行的核苷酸信息进行连接,并存储到reads中,得到核苷酸序列索引表,即核苷酸序列索引参考数据集c1和比对数据集c2,以《name,reads》格式存储,其中,name为核苷酸注释,reads为识别的核苷酸片段。
31.步骤s2:从参考数据集c1和比对数据集c2中分别获取31bp的短核苷酸片段参考数据集s1和比对数据集s2,具体过程如图2所示,包括以下步骤:步骤s21:分别输入参考数据集c1和比对数据集c2;步骤s22:设置短核苷酸片段滑动窗口长度为31bp,移动步长为1bp,利用creatsnt函数,对参考数据集c1和比对数据集c2进行切割;步骤s23:根据步骤s22所得结果,统计每个短核苷酸片段出现的频率,输出短核苷酸片段参考数据集s1和比对数据集s2,以《index,value》格式存储,其中,index为短核苷酸片段,value为短核苷酸片段出现的频率。
32.步骤s2获得的短核苷酸片段出现频率统计结果(参考数据集s1)如表1所示。
33.表1短核苷酸片段数据统计结果index(短核苷酸片段)value(频率)ccgctgggagctggagctgaactccgccatc1tgttgattggctaaagggaaacacgaccggc1
…………
gcagcggcagcagtttgttgattggctaaag1步骤s3:将参考数据集s1和比对数据集s2进行动态匹配,具体过程如图3所示,包括以下步骤:步骤s31:提取参考数据集s1中的子集;步骤s32:遍历比对数据集s2;步骤s33:利用matchsnt函数,将参考数据集s1中的子集与比对数据集s2依次比对,判断参考数据集s1中的子集是否出现在比对数据集s2中;若是,则进行步骤s34;若否,则进行步骤s35;步骤s34:返回1,结果暂存在结果数组中,而后进行步骤s36;步骤s35:利用matchsnt函数,判断比对数据集s2是否为空;若为空,则返回0,结果暂存在结果数组中,而后进行步骤s36;若不为空,则返回至步骤s32;步骤s36:利用matchsnt函数,判断参考数据集s1是否为空;若为空,则把结果数组生成结果文件amr_result.csv,格式为《index,result》,其中,index为参考数据集s1中的短核苷酸片段,result为比对结果;若不为空,则返回至步骤s31。
34.步骤s4:依据步骤s3的结果,进行比对率计算,具体过程包括以下步骤:步骤s41:读取步骤s36输出的结果文件,统计参考数据集s1中的短核苷酸片段总数(即比对的短核苷酸片段总数),以及比对数据集s2中检测到的短核苷酸总数(即比对成功的短核苷酸片段总数);步骤s42:根据统计结果,按照以下公式计算比对率:
35.步骤s5:输出抗生素耐药基因检测结果,如表2所示。包括菌株编号、所检测的抗生素耐药基因名称、短核苷酸片段总数、检测到的短核苷酸片段数和比对率。
36.表2尽管本发明较多地使用了短核苷酸片段、抗生素耐药基因等术语,但并不排除使用其它术语地可能性。使用这些术语仅仅为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。本发明中所用原料、设备,若无特别说明,均为本领域的常用原料、设备;本发明中所用方法,若无特别说明,均为本领域的常规方法。
37.以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效变换,均仍属于本发明技术方案的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献