一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

宏基因组文库和天然产物发现平台的制作方法

2022-11-16 17:17:26 来源:中国专利 TAG:

宏基因组文库和天然产物发现平台
1.相关申请的交叉引用
2.本技术要求于2020年2月13日提交的美国临时申请第62/976,194号、于2020年2月13日提交的美国临时申请第62/976,198号以及于2020年2月13日提交的美国临时申请第62/976,201号的优先权权益,所述美国临时申请的内容通过引用整体并入本文。
技术领域
3.本公开总体上涉及用于改进天然产物发现的系统和方法。所公开的系统和方法产生了适于计算机模拟天然产物发现流水线的经测序的宏基因组数据库。还提供了用于鉴定和验证新的编码天然产物的多基因簇的方法。


背景技术:

4.来自植物和微生物的天然产物在历史上一直是临床药物开发和研究的重要来源。第一抗生素,即盘尼西林(penicillin),是亚历山大
·
弗莱明(alexander fleming)于1928年从真菌中发现的。当今,几乎三分之二的临床使用的抗生素源自放线菌目(actinomycetales),并且当今使用的药物中总计约一半为天然产物或其衍生物。
5.传统上,在微生物中发现天然产物涉及在不同生长条件下培养菌株以激发次级代谢物的产生,并且然后测定这些次级代谢物的各种医学活性。然而,这些传统方法产生的回报随着越来越少的新天然产物被发现而减少。
6.天然产物发现中的困难已经导致大多数制药公司降低了天然产物研究的优先级别,以支持合成文库的高通量筛选。然而,天然产物具有优于合成分子文库的优势,因为所述天然产物已经进化为与蛋白质相互作用并诱导生物效应。
7.对用于鉴定新天然产物的方法、系统和工具的需求一直存在并且未得到满足。


技术实现要素:

8.在一些实施例中,本公开教示了用于宏基因组文库制备、测序和组装的新颖方法。具体地,在一些实施例中,本公开教示了产生长组装体宏基因组文库的方法,所述长组装体宏基因组文库提供更高质量的经组装的序列,这首次实现了宏基因组样品的有效计算机模拟多基因簇分析。
9.因此,在一些实施例中,本公开教示了一种用于组装经深度测序的长dna重叠群宏基因组文库的方法,所述方法包括:a)提供包括独有的全基因组的未经测序且未经组装的宏基因组dna样品;b)通过以下降低所述宏基因组dna样品的基因组复杂度:i)将来自所述宏基因组文库的dna片段克隆到多个载体中以产生宏基因组载体片段文库,所述宏基因组载体片段文库包括来自所述未经测序且未经组装的宏基因组dna样品的dna;ii)将来自所述宏基因组载体片段文库的所述载体汇集到多个离散微型宏基因组亚基中,以产生微型宏基因组文库,所述多个离散微型宏基因组亚基各自包括约1,000个到约20,000个所汇集的载体,所述微型宏基因组文库在所述多个微型宏基因组亚基内包括来自所述未经测序且未
经组装的宏基因组dna样品的dna;c)对存在于所述微型宏基因组文库的所述多个离散微型宏基因组亚基中的所述所汇集的载体中含有的所述宏基因组dna进行池内测序和组装以产生经测序且经组装的dna重叠群;由此产生经测序且经组装的中间dna重叠群长度微型宏基因组文库,其中平均经测序且经组装的dna重叠群长度为至少约10kb;以及d)任选地通过进一步组装来自所述中间dna重叠群长度微型宏基因组文库的多个经测序且经组装的dna重叠群来进行池间dna重叠群组装以产生长dna重叠群长度宏基因组文库。
10.本公开还提供了用于编码天然产物的多基因簇的计算机模拟鉴定的平台。因此,在一些实施例中,本公开教示了一种用于搜索多基因簇特征集数字宏基因组文库并且鉴定所关注天然产物的计算机模拟方法,所述方法包括:a)查询数字宏基因组文库中指示天然产物多基因簇特征集的信号;b)提供所述查询的输出作为多个信号相关联的多基因簇数字特征集;c)通过以下确定生物相关性并且将所述生物相关性分配到所述信号相关联的多基因簇数字特征集:根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集;和/或根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能,以由此鉴定在计算上确定的生物抗性基因;以及d)基于在计算上确定的生物抗性基因位于包括经数字组装的生物合成操纵子的在计算上确定的天然产物多基因簇特征集的阈值参数内来鉴定所关注天然产物。
11.在一些实施例中,在长组装体数字宏基因组文库上进行本公开的所述计算机模拟多基因发现方法。因此,在一些实施例中,本公开教示了计算机模拟方法,其中所述多基因簇特征集数字宏基因组文库包括:经测序且经数字组装的重叠群序列,所述经测序且经数字组装的重叠群序列的平均长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb或其间的任何范围或子范围。
12.在一些实施例中,在传统发现技术不能够完全解析文库的多样性的情况下,本公开的系统和方法特别擅长鉴定大型经组装文库中的多基因簇。因此,在一些实施例中,本公开教示了计算机模拟方法,其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb或500兆碱基。
13.在一些实施例中,本公开教示了计算机模拟方法,其中步骤a)中的所述查询包括:利用hmm模型来搜索所述数字宏基因组文库中的已知抗性基因或变体或其同源物。因此,在一些实施例中,本公开教示了计算机模拟方法,其中步骤a)中的所述查询包括:利用hmm模型来搜索所述数字宏基因组文库中的在计算上预测或假设的抗性基因或变体或其同源物。
14.在一些实施例中,本公开教示了计算机模拟方法,其中步骤a)中的所述查询包括:鉴定在计算上预测为含有多基因簇的所有序列,所述多基因簇包括一或多个生物合成操纵子。
15.在一些实施例中,本公开还教示了用于生物合成修饰天然产物的系统和方法。例如,在一些实施例中,本公开教示了使用酶组来模拟目标天然产物。因此,在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)提供已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的多种酶,由此产生模拟酶组文库;b)将来自模拟酶组的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物;c)分析步骤(b)的所述反应混合物中的至
少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及d)从所述模拟酶组中选择酶,由此模拟所述目标天然产物,其中所选酶产生所述目标天然产物的期望类似物,如通过步骤(c)的所述分析确定的。
16.在其它实施例中,本公开教示了使用重组细胞来模拟天然产物。例如,在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)提供多个微生物菌株,由此产生微生物菌株的模拟酶组文库,所述多个微生物菌株各自表达已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶;b)使来自所述微生物菌株的模拟酶组文库的单独微生物菌株与所述目标天然产物或所述目标天然产物的前体接触,由此产生混合物;c)分析步骤(b)的所述混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及d)从所述微生物菌株的模拟酶组文库中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(c)的所述分析确定的;其中所述所选微生物菌株所表达的所述酶是所选酶。
17.在一些实施例中,将使用重组细胞的方法应用于已经可以产生所述目标天然产物的细胞。因此,在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)提供多个基因序列,所述多个基因序列各自编码已知或被预测为催化用于所述目标天然产物的第一模拟的一种类型的反应的酶;b)扰动第一基础微生物菌株的一或多个细胞的基因组,由此产生微生物菌株的模拟酶组文库,所述一或多个细胞用于各自表达由步骤(a)的所述多个基因序列中的一或多个基因序列编码的酶,其中所述第一基础微生物菌株能够合成所述目标天然产物;c)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株;d)分析来自步骤(c)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及e)从所述微生物菌株的模拟酶组中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(d)的所述分析确定的。
18.在一些实施例中,本公开提供了用于鉴定用于模拟天然产物的酶的系统和方法。也就是说,在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)访问训练数据集,所述训练数据集包括基因序列输入变量和表型性能输出变量;i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列,并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征;b)开发用所述训练数据集填充的第一预测机器学习模型;c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的宏基因组文库,以鉴定所述宏基因组文库内的候选序列池,其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应;d)如果所述第一置信度评分与第二置信度评分的比率超出预选阈值,则从所述候选序列池中去除通过第二预测机器学习模型利用所述第二置信度评分被预测为执行不同功能的任何序列,由此产生经过滤的候选序列池;e)制造一或多个微生物细胞,所述一或多个微生物细胞用于各自表达源自来自步骤(d)的所述经过滤的候选序列池的序列;f)培养步骤(e)的制造的宿主细胞,并且使经培养的细胞裂解,由此产生模拟酶组文库;g)将来自所述模拟酶组文库的单
独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物;h)分析步骤(g)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及i)从模拟酶组中选择酶,由此模拟所述目标天然产物,其中所选酶产生所述目标天然产物的期望类似物,如通过步骤(h)的所述分析确定的。
19.在一些实施例中,本公开还教示了一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:a)提供已知产生所述目标天然产物的第一多基因簇;b)基于所述第一多基因簇开发预测模型;c)通过计算机模拟查询数字宏基因组文库中新多基因簇,由此产生候选多基因簇池,其中所述新多基因簇通过所述预测模型被预测为产生所述目标天然产物或所述目标天然产物的变体;d)通过计算机模拟用注释引擎鉴定步骤(c)的所述候选多基因簇池的所述新多基因簇中的一或多个新多基因簇内的编码生物合成酶的单独基因,由此产生包括来自所述新多基因簇的生物合成基因的模拟酶组文库;e)扰动基础微生物宿主细胞的基因组,所述基础微生物宿主细胞用于表达来自所述模拟酶组文库的基因,其中所述基础微生物宿主细胞包括所述第一多基因簇;f)培养在步骤(e)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞;g)分析来自步骤(f)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物;以及h)从在步骤(f)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(g)的所述分析确定的。
附图说明
20.图1-描绘了本公开的天然产物发现平台的工作流。在一些实施例中,工作流包括(1)使用例如本公开的筒仓汇集方法来产生复杂度降低的物理宏基因组文库;(2)产生具有长组装体序列的数字宏基因组文库;(3)将计算机模拟mgc平台发现工具应用于长组装体宏基因组文库,如本文所公开的;(4)通过从例如物理文库中重构mgc或通过长dna合成对由所鉴定的mgc产生的天然产物进行原型分析;以及任选地(5)模拟所述天然产物。步骤1-3表示本公开的计算机模拟mgc发现工作流。
21.图2-描绘了本公开的天然产物发现平台的步骤1-3。
22.图3-描绘了本公开的天然产物发现平台的步骤4-5。
23.图4-描绘了使用条形码进行的dna测序多路复用策略的示意图。可以在测序之前将可区分的序列添加到dna中(例如,通过添加衔接子序列)。然后可以将具有不同条形码的dna片段汇集(即,多路复用)到单个序列运行中。条形码是在测序后处理中鉴定的,并且用于分离属于不同dna样品的读段(即,解复用)。
24.图5-描绘了多基因簇相关联的抗性基因的作用机制的非限制性列表。抗性基因可以通过运出对生产细胞有毒的天然产物来起作用。抗性基因可以修饰在生产细胞内积累的天然产物以减少或消除细胞内的毒性。抗性基因可以作用于内源基因,对其进行修饰,使得所述内源基因不再受天然产物的影响。抗性基因可以是天然产物的目标的变体,使得变体允许生产细胞继续起作用。
25.图6-描绘了本公开的计算机模拟天然产物多基因簇发现方法的实施例的步骤。可以在数字宏基因组文库(dml)中通过基于所选靶基因(例如,其它生物体中的或相关天然产物的抗性基因)选择的hmm来鉴定候选抗性基因。还可以筛选宏基因组文库中多基因簇的存
在。在一些实施例中,本公开教示了选择在mgc内或所述mgc的1-2个orf内包括候选抗性基因的mgc。
26.图7-展示了用于鉴定可以用于本公开的多基因发现平台的靶抗性基因的方法。对于每个所关注靶抗性基因,从序列数据库(例如,uniprot数据库)中检索蛋白质序列和(如果有的话)蛋白质的直系同源群簇(cog)的id。在一些实施例中,通过eggnog的聚类算法(例如,数据库4.5.1版)形成cog。在一些实施例中,使用diamond blastp将cog内的序列与同一直系同源群中的所有微生物蛋白质进行比较。在一些实施例中,选择相关命中,即,10-3
或更低的e值,以供下游分析。
27.图8-描绘了优先化本公开的计算机模拟天然产物多基因簇发现方法的实施例的步骤。
28.图9-描绘了本公开的天然产物模拟平台的各种策略。在一些实施例中,本公开教示了通过工程化mgc(例如,修饰或敲除参与所述天然产物的生物合成的一或多个基因)来模拟天然产物。在一些实施例中,本公开教示了通过酶组(例如,已知或被预测为催化期望反应的混杂酶)模拟天然产物的方法。在一些实施例中,本公开教示了利用同源簇来模拟天然产物的方法。这些技术的组合也在本公开的设想的实施例内。
29.图10-描绘了一组宏基因组来源的醛酮还原酶,所述醛酮还原酶被筛选以产生布雷菲德菌素a(brefeldin a)和格尔德霉素(geldanamycin)的修饰,如实例5所描述的。使用本公开的方法,鉴定了3种可以修饰布雷菲德菌素的酶和1种可以修饰格尔德霉素的酶。
30.图11-是将本公开的生物合成模拟方法与基于化学的对应物进行比较的表。
31.图12-描绘了本公开的生物合成模拟方法之一的工作流。
32.图13-描绘了本公开的文库制备方法的初始步骤。将从环境样品中提取的dna克隆到粘粒骨架中,通过噬菌体包装,并且转导到大肠杆菌(e.coli)宿主中以产生宏基因组dna文库。
33.图14-描绘了本公开的文库制备方法的步骤。在测序之前,将来自宏基因组dna文库的含有粘粒(主要地每个细胞一个粘粒)的大肠杆菌筒仓汇集到微型宏基因组中。池大小基于本公开中讨论的模拟的结果。
34.图15-描绘了本公开的数字宏基因组文库的组装步骤。在一些实施例中,使用两期组装方法来获得更长的组装体。
35.图16-描绘了排列作为大肠杆菌或dna储备的微型宏基因组池以产生物理宏基因组文库。随后使用这些排列的文库以回收所关注序列以供进一步分析。
36.图17-描绘了根据本公开的方法的基于抗性基因的多基因簇搜索的结果。
37.图18-描绘了根据本公开的方法的基于抗性基因的多基因簇搜索的另外的结果。使用了本公开的工作流来鉴定靶向wrn-解旋酶、mfn2、hsp40、sec61a1和fpgs的天然产物的编码天然产物的簇。
38.图19-是基于粘粒的数字宏基因组文库构建的示意图。
39.图20-是系统如何可以以流线型有成本效益的方式通过在长时间段内对特定样品重新测序来聚集新信息以产生单个新的可搜索宏基因组文库的图示。
40.图21a-c-描绘了产生的各个组装体测试增加筒仓池大小对整体组装质量的影响的结果。图21a描绘了各种池大小的组装体的n50。30,000个粘粒的池的10倍测序覆盖率仍
然可以产生具有长度足以实现mgc发现的n50的宏基因组组装体。图21b呈现了来自部分a的对数尺度的结果。图21c描绘了每500mb原始序列产生的15kb 重叠群的数量随原始序列如何被汇集而变化。6,000-15,000的池大小提供了mgc发现的最高效率。
41.图22-描绘了分析的结果,所述分析利用来自进行了测序以产生一系列n50的高度相似的样品的测序组装体并且测试文库组装体质量(如通过n50测量的)对mgc发现率的影响。每kb序列的mgc的数量迅速增加到约15kb的n50,并且然后开始趋于平稳。
42.图23-描绘了联合基因组研究所(joint genome institute,jgi)土壤宏基因组文库(项目1077706)与根据本公开的方法由土壤样品产生的数字宏基因组文库(mce)之间的大小差异(参见实例4)。jgi的总体经组装的序列是根据本公开的方法产生的mce的总体经组装的序列的4倍以上。然而,mce的n50为约15kbp,相比之下jgi n50为985bp。
43.图24-描绘了使用本公开的数字搜索方法在jgi和mce文库中鉴定的簇的数量。在jgi数据库中鉴定了仅120个mgc,相比之下在mce中鉴定了1287个。因此,可能的是在mce数据库中鉴定10倍多的mgc,所述数据库的大小是jgi土壤宏基因组数据库的大小的四分之一(即mce在鉴定mgc方面表现出超过50倍的有效性)。
44.图25-描绘了使用本公开的数字搜索方法在jgi和mce文库中鉴定的簇的数量。结果示出为每千兆碱基序列中鉴定的mgc的数量。n50为约15kbp的mce在鉴定mgc方面的效率超过50倍。
45.图26-描绘了本公开的计算机模拟天然产物多基因簇发现方法的实施例的步骤。查询数字宏基因组文库中多基因簇的存在。可以在数字宏基因组文库中通过基于已知或预测的靶抗性基因(例如,其它生物体中的或相关天然产物的抗性基因)选择的hmm来鉴定候选抗性基因。在一些实施例中,本公开教示了选择在mgc内或所述mgc的1-2个orf内包括候选抗性基因的mgc。
46.图27-描绘了本公开的非靶向(“新发”)抗性信号多基因簇特征集发现工作流。
47.图28-克朗图(krona plot),其展示了根据本公开的方法由土壤样品产生的数字宏基因组文库(mce)的分类特性(参见实例4)。mce表现出表示原始环境土壤样品的分类多样性。
48.图29-示出了预测的mgc内的基因的组合评分,作为实例17的非靶向mgc发现工作流的一部分。
49.图30-描绘了由通过使用hdac1作为靶基因的抗性基因工作流鉴定的mgc编码的新鉴定的天然产物的活性曲线。本公开的方法能够鉴定特异性靶向所选治疗靶标的天然产物。
50.图31-描绘了由通过使用sod2作为靶基因的抗性基因工作流鉴定的mgc编码的新鉴定的天然产物的归一化的sod活性。本公开的方法能够鉴定特异性靶向所选治疗靶标的天然产物。
具体实施方式
51.本公开提供了用于鉴定来自不同的宏基因组样品的多基因簇的新颖方法,所述宏基因组样品编码能够结合所关注蛋白质靶标的天然产物。
52.定义
53.当宿主细胞的基因组被修饰(例如,通过基因的插入、缺失、替代,包含编码多基因簇的质粒的插入)使得宿主细胞产生至少一种新基因/蛋白质(例如,能够合成天然产物的酶)时,本公开将如蛋白质等部分称为被“工程化”为宿主细胞。
54.如本文所使用的,“置信度评分”是向分类或分类器分配的置信度的量度。例如,当编码抗性基因时可以向对氨基酸序列的鉴定分配置信度评分。置信度评分包含比特评分和e值等。“比特评分”提供了预测准确性的置信度。“比特”是指信息含量,并且比特评分总体上表示命中的信息的量。较高的比特评分表示较好的预测,而低评分表示较低的信息含量,例如,较低的复杂度匹配或较差的预测。如本文所使用的“e值”是指向结果,例如对数据库中的被预测为编码与搜索蛋白质具有相同功能的蛋白质(例如,天然产物的抗性蛋白)的序列的鉴定分配的显著性的量度。e值通常估计在同一数据库内观察到类似结果的可能性。e值越低,结果越显著。
55.如本文所使用的“隐马尔可夫模型(hidden markov model)”或“hmm”是指将被建模的系统假设为具有不可观察的(即隐藏)状态的马尔可夫过程的统计模型。当应用于氨基酸序列时,hmm提供了用于在数学上表示序列家族的方法。其捕获了序列是有序的并且氨基酸在某些位置处比在其它位置处更保守的性质。一旦构建了序列家族的hmm,就可以针对所述hmm对新序列进行评分以评估所述新序列有多匹配以及新序列有多少可能成为家族成员。
56.如本文所使用的,术语“序列同一性”指两个最佳比对的多核苷酸或多肽序列在残基,例如核苷酸或氨基酸,的整个比对窗口中不变的程度。测试序列和参考序列的所比对片段的“同一性分数”是两个所比对序列共享的相同残基的数量除以参考序列段,即整个参考序列或参考序列的较小限定部分中残基的总数。“同一性百分比”是同一性分数乘以100。用于确定同一性百分比的序列的比较可以通过许多众所周知的方法,包含例如通过使用数学算法,例如blast序列分析程序套件中的那些算法来完成。除非另有说明,否则权利要求书中的术语“序列同一性”是指通过clustal使用默认参数计算的序列同一性。
57.如本文所使用的,在使用本领域已知的氨基酸序列比对工具,例如clustal omega或将序列x和y进行比对时,当序列“x”中的残基位于不同序列“y”中的位置或残基(如核酸残基或氨基酸残基)“a”的对应物位置时,序列“x”中的残基(如核酸残基或氨基酸残基)被称为与序列“y”中的“a”相对应。
58.当关于蛋白质使用序列同一性的百分比时,应承认不相同的残基位置通常因保守氨基酸取代而不同,在保守氨基酸取代的情况下氨基酸残基被具有相似化学性质(例如,电荷或疏水性)的其它氨基酸残基取代并且因此不改变分子的功能性质。因此类保守取代而不同的序列被称为具有“序列相似性”或“相似性”。进行这种调整的装置是本领域的技术人员众所周知的。典型地,这涉及将保守取代作为部分错配而不是完全错配来评分,由此增加序列同一性百分比。因此,例如,在给予相同氨基酸的评分为1并且给予非保守取代的评分为零的情况下,给予保守取代的评分介于零与1之间。保守取代的评分是例如根据梅耶斯(meyers)和米勒(miller),生物科学计算机应用(computer applic.biol.sci.),4:11-17(1988)计算的。相似性是序列之间的相关性相比于同一性更敏感的量度;其不仅考虑了相同(即100%保守的)残基,还考虑了不相同但相似的(在大小、电荷等方面)残基。相似性%有点复杂,因为其精确数值取决于参数,如用于(例如,容许blosum45对严格blosum90)估计
所述相似性%的取代矩阵。
59.本公开的方法和系统可以用于鉴定与一或多个靶基因/蛋白质或一或多个所选蛋白质结构域,如抗性蛋白质,或一种种类的抗性蛋白质内的共享结构域同源/直系同源的序列。在一些实施例中,同源序列是与靶基因/蛋白质共享序列同一性(例如,至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少71%、至少72%、至少73%、至少74%、至少75%、至少76%、至少77%、至少78%、至少79%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%的同一性百分比,包含其间的所有值)的序列。在一些实施例中,同源序列是通过本公开的hmm模型鉴定的那些序列。在一些实施例中,同源序列还执行与靶基因/蛋白质的生物功能相同或相似的生物功能。
60.在一些实施例中,本公开教示了用于鉴定靶蛋白或基因的同源物或直系同源物的方法和系统。如本文所使用的,术语“靶蛋白”或“靶基因”是指同源物或直系同源物所寻找的起始基因或蛋白质(例如,核酸或氨基酸序列)。在一些实施例中,用多于一个靶基因/蛋白质进行搜索。
61.如本文所使用的,术语“直系同源物”是指与靶序列同源并且来自不同物种的核酸或蛋白质。在一些实施例中,直系同源物被假设为源自同一祖先序列,通过物种形成事件分开。
62.本公开教示了用于鉴定靶基因/蛋白质的同源物和直系同源物的方法和系统,其中所述同源物和直系同源物执行与靶基因/蛋白质的功能相同的功能。如本文所使用的,术语“相同的功能”是指可互换的基因或蛋白质,使得新鉴定的同源物或直系同源物可以替代原始靶基因/蛋白质,同时维持至少某种水平的功能。在一些实施例中,能够催化与靶标酶的反应相同的反应的酶将被视为执行相同的功能。在一些实施例中,能够调节与靶转录因子调节的基因相同的基因的转录因子将被视为执行相同的功能。在一些实施例中,能够与靶小rna所复合的核酸相同(或等同)的核酸复合的小rna将被视为执行相同的功能。
63.然而,执行“相同的功能”不一定需要新鉴定的同源物或直系同源物来执行靶基因/蛋白质的所有功能,但这也不阻止新鉴定的同源物能够执行靶基因/蛋白质的那些功能之外的另外的功能。因此,在一些实施例中,当与靶标酶相比时,新鉴定的同源物或直系同源物可能具有例如较小的可用反应物池,或者可能产生另外的产物。
64.本领域的技术人员还将理解,术语“相同的功能”在一些实施例中还可以涵盖一致但不相同的功能。例如,在一些实施例中,通过本公开的方法和系统鉴定的同源物或直系同源物可以在一种生物体中执行相同的功能,但是不能够在另一种生物体中执行相同的功能。这种场景的一个说明性实例是在与一种生物体的其它可相容亚基一起表达时能够执行相同的功能但是不可与来自不同生物体的亚基直接组合的多亚基酶的直系同源物亚基。此亚基将仍然被视为执行“相同的功能”。用于确定鉴定的基因/蛋白质是否执行与靶基因/产物的功能相同的功能的技术在本公开中详细讨论。
65.术语“多肽”或“蛋白质”或“肽”特别旨在涵盖天然存在的蛋白质,以及重组或合成产生的那些蛋白质。应当注意,术语“多肽”或“蛋白质”可以包含蛋白质的天然存在的经修
饰形式,如糖基化形式。如本文所使用的术语“多肽”或“蛋白质”或“肽”旨在涵盖任何氨基酸序列并包含经修饰的序列,如糖蛋白。
66.术语“预测”在本文中用于指蛋白质将执行给定功能的可能性、概率或评分,或者一系列基因形成编码天然产物的多基因簇的可能性、概率或评分。
67.在本说明书中,术语“开放阅读框”或orf是指编码蛋白质基因的dna序列,所述开放阅读框的范围从翻译起始密码子(例如,atg、gtg和ttg)到终止密码子(例如,tga、taa、tag)。出于本技术的目的,在计算上预测(或在经验上确定)为不产生蛋白质的dna序列不被视为orf。例如,没有相关联的转录起始位点的orf(即,将不被转录为mrna的dna序列)将将不被视为orf。另外,编码少于10个、20个、30个、40个、50个、60个、70个、80个、90个或100个氨基酸的orf不被视为用于在计算上确定的天然产物多基因簇特征集的元件之间的邻近度计算的目的的orf。
68.术语“训练数据”、“训练集”或“训练数据集”是指分类可以已知的数据集。在一些实施例中,训练集包括输入变量和输出变量并且可以用于训练模型。集的特征值可以形成输入向量,例如训练集的训练向量。训练向量(或其它输入向量)的每个元素可以与包含一或多个变量的特征相对应。例如,训练向量的元素可以与矩阵相对应。集的标签值可以形成含有字符串、数字、字节码或前述数据类型的任何大小、维度或组合的任何集合的向量。在一些实施例中,“训练数据”用于开发能够鉴定可能表现出与靶基因/蛋白质的功能相同的功能的其它序列的机器学习预测模型。在一些实施例中,训练数据集包含具有一或多个基因序列(例如,核苷酸或氨基酸)的基因序列输入变量,所述一或多个基因序列编码能够执行与靶蛋白质的功能相同的功能的蛋白质。在一些实施例中,训练数据集还可以含有被标记为不执行相同的功能的序列。
69.在一些实施例中,训练数据集还包含“表型性能输出变量”。在一些实施例中,“表型性能输出变量”可以是二元的(例如,指示相关联的序列是否表现出相同的功能)。在一些实施例中,表型输出变量可以指示关于所阐述的功能的确定性水平,如指示相同的功能是否已经被实验验证为积极或消极,或者是基于一或多个其它因子进行预测的。在一些实施例中,表型输出变量不以数据的形式存储,而仅仅是执行给定功能的事实。例如,训练数据集可以包括已知或被预测为执行目标功能的序列。在此类实施例中,基因输入变量是序列,并且表型性能输出变量是执行功能或被预测为执行功能的事实。因此,在一些实施例中,包含在列表中意味着表型性能变量指示序列执行相同的功能。
70.如本文所使用的,术语“宿主细胞”、“细胞生物体”、“微生物(microorganism)”或“微生物(microbe)”应该广义地理解。这些术语可互换使用并且包含但不限于两个原核域,即细菌(bacteria)和古生菌(archaea),以及某些真核真菌和原生生物。在一些实施例中,本公开涉及本公开中存在的列表/表和附图的“微生物”或“细胞生物体”或“微生物”。这种表征不仅可以指表和图中的所鉴定的分类属,还可以指所鉴定的分类物种,以及所述表或图中任何生物体的各种新颖和新鉴定或新设计的菌株。同一表征适用于在本说明书的其它部分中,如在实例中对这些术语的引用。
71.在一些实施例中,本公开公开了包括至少一种未经培养的微生物或微生物的基因序列的宏基因组数据库。如本文所使用的,术语“未经培养的微生物”、“未经培养的细胞”或“未经培养的生物体”是指未在实验室培养基中生长的细胞。在一些实施例中,未经培养的
微生物/细胞/生物体尚不适于在实验室中生长。在一些实施例中,未经培养的微生物/细胞/生物体直接源自环境样品。在一些实施例中,未经培养的微生物/细胞/生物体先前尚未进行测序,或者基因组序列不可公开获得。
72.术语“原核生物”是本领域公认的并且是指不含有细胞核或其它细胞器的细胞。原核生物总体上被分类为两个域,即细菌和古生菌之一。古生菌域与细菌域的生物体之间的决定性差异基于16s核糖体rna中核苷酸碱基序列的根本差异。
73.术语“古生菌”是指疵壁菌门(mendosicute)的生物体的一种分类,其通常存在于非惯常环境中并且通过几个标准与原核生物中的其余原核生物区分,所述几个标准包含核糖体蛋白的数量和细胞壁中胞壁酸的缺乏。基于ssrrna分析,古生菌由两个系统发育上不同的群组成:泉古菌(crenarchaeota)和广古菌(euryarchaeota)。基于生理学,古生菌可以被组织成三种类型:产甲烷菌(methanogen)(产生甲烷的原核生物);极端嗜盐菌(extreme halophile)(生活在非常高浓度下的盐(nacl)中的原核生物);以及极端(超)嗜热菌(extreme(hyper)thermophilu)(生活在非常高温度下的原核生物)。除了将其与细菌区分开来的统一古生菌特征(即,细胞壁中无胞壁质、酯连接的膜脂等)之外,这些原核生物表现出独特的结构或生化属性,这使其适应其特定生境。泉古菌主要由超嗜热菌硫依赖型原核生物组成,并且广古菌含有产甲烷菌和极端嗜盐菌。
[0074]“细菌”或“真细菌”是指原核生物体域。细菌包含至少11个不同的群,如下:(1)革兰氏阳性(革兰氏 )细菌(gram-positive(gram )bacteria),其中存在两个主要亚门:(1)高g c群(放线菌(actinomycete)、分枝杆菌(mycobacteria)、微球菌(micrococcu)等),(2)低g c群(芽孢杆菌(bacillu)、梭状芽孢杆菌(clostridia)、乳杆菌(lactobacillu)、葡萄球菌(staphylococci)、链球菌(streptococci)、支原体(mycoplasma);(2)变形菌(proteobacteria),例如,紫色光合和非光合革兰氏阴性菌(purple photosynthetic and non-photosynthetic gram-negative bacteria)(包含大多数“常见的”革兰氏阴性菌);(3)蓝细菌(cyanobacteria),例如含氧光能利用菌;(4)螺旋菌和相关物种;(5)浮霉菌(planctomyces);(6)拟杆菌(bacteroide)、黄杆菌(flavobacteria);(7)衣原体(chlamydia);(8)绿色硫细菌(green sulfur bacteria);(9)绿色非硫细菌(green non-sulfur bacteria)(也是厌氧光能利用菌);(10)抗辐射微球菌(radioresistant micrococci)和其相关菌;(11)热袍菌(thermotoga)和栖热腔菌属嗜热菌(thermosipho thermophile)。
[0075]“真核生物”是其细胞含有细胞核和包裹在膜内的其它细胞器的任何生物体。真核生物属于真核生物域或真核生物界分类群。将真核细胞与原核细胞(前述细菌与古生菌)分开的限定特征为其具有膜结合的细胞器,特别是含有遗传物质并且被核膜包裹的细胞核。
[0076]
术语“经基因修饰的宿主细胞”、“重组宿主细胞”和“重组菌株”在本文中可互换使用并且是指已经通过本公开的克隆和转换方法进行基因修饰的宿主细胞。因此,这些术语包含已经被基因改变、修饰或工程化,使得其表现出相比于其所源自的天然存在的生物体改变的、修饰的或不同的基因型和/或表型(例如,在基因修饰影响微生物的编码核酸序列时)的宿主细胞(例如,细菌、酵母细胞、真菌细胞、cho、人细胞等)。应当理解,在一些实施例中,这些术语不仅是指所讨论的特定重组宿主细胞,还指此宿主细胞的后代或潜在后代。
[0077]
术语“野生型微生物”或“野生型宿主细胞”描述了自然界中存在的细胞,即未经基
因修饰的细胞。
[0078]
术语“基因工程化”可以指对宿主细胞的基因组进行的任何操纵(例如通过插入、缺失、突变或替代核酸)。基因工程化包含携带人工添加的额外染色体dna的生物体,如质粒。
[0079]
术语“对照”或“对照宿主细胞”是指用于确定基因修饰或实验性治疗的影响的适当的比较宿主细胞。在一些实施例中,对照宿主细胞是野生型细胞。在其它实施例中,除了区分治疗宿主细胞的基因修饰之外,对照宿主细胞在基因上与经基因修饰的宿主细胞相同。
[0080]
术语“多基因簇”或“mgc”是指参与特殊代谢物,如微生物编码的天然产物的产生的有组织的基因群。mgc内的基因典型地被紧密分组在一起以促进共遗传。mgc通常一起调节,有时形成生物合成操纵子。用于鉴定mgc的方法在本技术中在以下部分中讨论。
[0081]“条形码”或“分子条形码”是用于标记的物质。条形码可以标记如核酸或多肽等分子。在一些实施例中,核酸内的条形码可以用于通过处理/测序步骤来跟踪核酸。在一些实施例中,条形码可以用于在测序之后对序列进行分选。在一些实施例中,条形码用于解复用序列混合物。用于标记的物质与信息相关联。在一些实施例中,条形码是序列标识符(即基于序列的条形码或序列索引)。在一些实施例中,条形码是具体核苷酸序列。在一些实施例中,条形码是不同大小的分子或同一分子的不同终点。条形码可以包含分子内的特定序列和不同终止序列。例如,从同一引物扩增并且具有25个核苷酸位置的分子与扩增并且具有27个核苷酸位置的分子不同。27mer序列中的另外的位置被视为条形码。在一些实施例中,条形码掺入到多核苷酸中。用于掺入条形码的一些非限制性方法可以包含分子生物学方法。用于掺入条形码的分子生物学方法的一些非限制性实例是通过引物(例如,加尾引物延伸)、探针(即,利用与探针连接的延伸)或连接(即,已知序列与分子的连接)。
[0082]
如本文所使用的,对经组装的文库的n50的提及是指所述长度或更长的所有重叠群的集合覆盖组装体的至少一半的长度。
[0083]
在一些实施例中,通过首先按长度从最长到最短对组装体中的每个重叠群进行排序来计算n50。从最长的重叠群开始,将每个重叠群的长度相加,直到此运行总和等于组装体中所有重叠群的总长度的一半(总组装体长度)。此列表中最短重叠群的长度为n50值。
[0084]
天然产物发现的传统方法
[0085]
基于产物的筛选
[0086]
在进行dna测序和分析之前,在实验室中主要使用培养依赖型技术进行对来自微生物的天然产物的鉴定(卡茨l.(katz l.),巴尔茨r.h.(baltz r.h.)天然产物发现:过去、现在和未来(natural product discovery:past,present and future.)工业微生物学与生物技术杂志(j.ind.microbiol.biotechnol.)2016;43:155

176)。天然产物的发现传统上涉及从环境中采样,在实验室中培养这些样品,并且最后筛选提取的产物的生物活性。因此,这种天然产物发现的传统方法已受限于可培养的生物体,这严重限制了mgc发现的速率和多样性发现的mgc。
[0087]
天然产物鉴定的传统方法在其利用现有多样性的能力方面也受到限制,因为其需要天然产物以足够数量表达和积累以用于随后的生物测定。然而,大多数产生天然产物的簇并不是在所有条件下进行表达的,如果进行表达的话(任h.(ren h.),王斌(wang b.),赵
h.(zhao h.)打破沉默:用于发现新颖天然产物的新策略(breaking the silence:new strategies for discovering novel natural products.)生物技术近期述评(curr.opin.biotechnol.)2017;48:21-27)。在进行表达的那些簇中,只有一部分被分泌并以足够高的水平积累以进行生物测试(罗云孜(luo y.),瑞安
·e·
科布(cobb r.e.),赵h.天然产物发现的最新进展(recent advances in natural product discovery.)生物技术近期述评2014;30:230

237)。
[0088]
克服天然产物聚类缺乏表达的尝试取得了混合成功。例如,小组已经尝试通过操纵嵌入在簇内的基因元件来增加天然产物编码基因簇的表达(艾米利亚
·
帕劳托(palazzotto e.)、蒂尔曼韦伯(weber t.)用于研究微生物中的次级代谢物的生物合成的组学和多组学方法(omics and multi-omics approaches to study the biosynthesis of secondary metabolites in microorganisms.)生物技术近期述评2018;45:109-116)。其它小组尝试通过人工敲入位于目标簇上游的强启动子来触发天然宿主中的簇表达任h.,王斌,赵h.打破沉默:用于发现新颖天然产物的新策略.生物技术近期述评2017;48:21

27。例如,使用了基于crispr-cas9系统的启动子敲入策略来激活五种不同链霉菌(streptomyces)物种中的多个沉默mgc,这使得从绿产色链霉菌(streptomyces viridochromogenes)中发现了新颖五角聚酮化合物。
[0089]
其它方法已经集中于尝试通过在异源宿主中表达这些(通常是沉默)基因簇来连续和/或随机筛选推定编码天然产物的基因簇(娜塔莱
·
库普里纳(kouprina n.),弗拉基米尔
·
拉里奥诺夫(larionov v.)通过酵母酿酒酵母中的转换关联重组克隆从复杂基因组中选择性分离基因组基因座(selective isolation of genomic loci from complex genomes by transformation-associated recombination cloning in the yeast saccharomyces cerevisiae.)自然-实验室指南(nat.protoc.)2008;3:371)。异源宿主可以提供优于天然宿主的显著生长优势并且可以绕过天然宿主中的调节系统。尽管这些方法有助于表达目标多基因簇,但是这些方法往往是低通量的并且不是用于大规模筛选和鉴定所有已知(和未经培养的)微生物中的新天然产物的实用解决方案。
[0090]
来自宏基因组文库的天然产物
[0091]
新天然产物的未开发的潜力的最大来源之一是未经培养的微生物。可以在实验室中生长的细菌物种的数量仅占自然界中存在的总体多样性的非常小的分数(埃里克
·j·
斯图尔特(stewart e.j.)使不可培养的细菌生长(growing unculturable bacteria.)细菌学杂志(j.bacteriol.)2012;194:4151-4160)。多行证据显示,使用标准实验室技术可容易培养土壤中少于0.1%的微生物(汉德斯曼(handelsman)等人未知土壤微生物化学的分子生物学途径:天然产物的新前沿(moleculare biological access to the chemistry of unknown soil microbes:a new frontier for natural products.)化学与生物学(chemistry&biology.)1998,5:r245-249)。事实上,新的估计表明,地球上99.999%的微生物多样性尚待探索(肯尼斯
·j·
洛西(kenneth j.loceya)和杰伊
·
t
·
列侬(jay t.lennona.)尺度定律预测全球微生物多样性(scaling laws predict global microbial diversity).美国国家科学院院刊(pnas),2016)。
[0092]
如以上所描述的,未经培养的生物体尚未成为传统的基于发酵的天然产物发现方法的有用来源。然而,最近,基因组学时代开发的工具,包含高通量测序、dna克隆和编辑以
及生物信息学工具,现在使得理论上可能通过直接查看其基因组的dna序列(而不是培养生物体)来探索这些未经培养的生物体的基因组。这实现了宏基因组学领域的发展,即对直接从环境样品中回收的遗传物质的研究。理论上,如果具有未经培养的生物体的基因组,就可以在生物信息学上鉴定在所述基因组中编码的mgc。然而,有许多技术挑战使得这种方法难以以接近宏基因组学领域所期望的规模的任何规模实施。例如,据估计,地球上每克表层土壤含有109个细菌细胞,并且包括至少300,000,000个不同的基因组(德尔蒙特(delmont)等人使用原位富集和宏基因组学重构稀有土壤微生物基因组(reconstructing rare soil microbial genomes using in situ enrichments and metagenomics.)微生物学前沿(front microbiol)2015;6;358)。这种巨大的复杂度使得在生物信息学上将dna序列组装成任何显著长度变得极其困难。对宏基因组文库的研究表明,土壤内的大多数不同微生物代表生态系统内的少数,这由于降低敏感度进一步加剧了发现的问题。以下进一步详细地讨论了先前用于挖掘宏基因组多样性的方法。
[0093]
使用简并引物对mgc进行宏基因组筛选
[0094]
用于研究宏基因组文库中的多基因簇的流行方法是使用简并引物。简并引物是其中一些位置含有多于一个可能的核苷酸碱基的寡核苷酸序列。简并引物的灵活杂交性质可以用于靶向和扩增基因组中非常相似但有细微差异的区域(查姆
·
林哈特(linhart c.),罗恩
·
沙米尔(shamir r.)简并引物设计问题:理论与应用(the degenerate primer design problem:theory and applications.)计算生物学杂志:计算分子细胞生物学杂志(j.comput.biol.a j.comput.mol.cell biol.)2005;12:431-456)。简并引物已经用于选择性扩增与腺苷酰化和硫醇化结构域相关联的非核糖体肽合酶nrps基因,已经发现这些结构域在经测序经培养的基因组之中非常保守(柴坦
·
科斯拉(khosla c.),拉杰什
·
s戈卡莱(gokhale r.s.),约翰
·r·
雅各布森(jacobsen j.r.),大卫
·e·
凯恩(cane d.e.)聚酮化合物合酶的耐受性和特异性(tolerance and specificity of polyketide synthases.)生物化学年鉴(annu.rev.biochem.)1999;68:219-253)。通过简并引物鉴定的基因组序列然后可以进行测序并且用于通过传统“引物步移”技术鉴定周围的dna序列。
[0095]
简并引物已跨大量天然产物鉴定工作使用。使用了定制的引物集来筛选放线菌中的nrps和i型pks(pks-i)系统(安吉尔
·
阿尤索-萨托(ayuso-sacido a.),奥尔加
·
热尼乌(genilloud o.)用于筛选放线菌中的nrps和pks-i系统的新pcr引物:这些生物合成基因序列在主要分类群中的检测和分布(new pcr primers for the screening of nrps and pks-i systems in actinomycetes:detection and distribution of these biosynthetic gene sequences in major taxonomic groups.)微生物生态学(microb.ecol.)2005;49:10-24)。在此研究中,在210个参考菌株上对引物集进行了测试,所述参考菌株覆盖了放线菌中的主要家族和33个不同属。在79.5%的菌株中观察到靶向nrps的引物的pcr扩增,而在56.7%的菌株中观察到靶向pks-i的引物的pcr扩增。
[0096]
在另一项研究中,使用了源自保守的生物合成基序的简并引物来研究来自185种土壤微生物组样品的酮缩酶结构域(杰里米
·g·
欧文(owen j.g.),扎卡里
·
夏洛普-鲍尔斯(charlop-powers z.),亚历山德拉
·g·
史密斯(smith a.g.),梅琳达
·
特内(ternei m.a.),保拉y卡莱(calle p.y.),布贾拉
·
维杰
·b·
雷迪(reddy b.v.b.),丹尼尔蒙蒂尔(montiel d.),肖恩
·f·
布雷迪(brady s.f.)使用短dna序列标签的多路复用的宏基因组
挖掘促进环氧酮蛋白酶体抑制剂的靶向发现(multiplexed metagenome mining using short dna sequence tags facilitates targeted discovery of epoxyketone proteasome inhibitors.)美国国家科学院院刊2015;112:4221

4226.)。检测到编码环氧酮蛋白酶体抑制剂的生物合成多基因簇,并且进一步分析实现了对七种环氧酮天然产物,包含具有独特弹头结构的化合物的分离和表征。
[0097]
然而,使用简并引物作为首过发现工具有几个缺点。首先,所述简并引物依赖于对选定数量的被假设为跨经培养和未经培养的生物体为保守的基因的鉴定。然而,引物内简并的水平是有限的,并且即使靶序列中的微小意外变化也可能导致杂交损失。这限制了可以通过此技术靶向的基因的类型,并且进一步提出了这样的问题,即对具有此类特定共享基序的基因的关注是否会阻止用户探索新的和从未经测序的微生物的完整多样性。
[0098]
鉴于基因组拷贝数的巨大变化,指数pcr扩增中对简并引物的依赖也存在一些问题。此类文库的pcr扩增可能会通过产生高度富集了一种类型的簇而潜在地未能检测其它类型的簇的扩增产物而加剧文库表示的问题。
[0099]
简并引物的第二限制是在完整天然产物簇可供审查之前所需的下游处理的量。通常使来自用简并引物进行pcr扩增的序列在凝胶上运行以在提取和测序每个条带之前按大小分离产物。这种限制是相关的,不仅是因为达到完全测序的多基因簇的时间和费用,而且是因为其为避免假阳性带来的压力。具有太大杂交范围的简并引物虽然潜在地能够发现另外的多基因簇,但最终也可能扩增非特异性基因,这些非特异性基因必须经过几个更多的步骤之后才能从工作集中排除。因此,简并引物仍然是用于鉴定宏基因组文库中的mgc任务的相对笨拙的工具。
[0100]
产生宏基因组文库的其它先前尝试
[0101]
已经尝试了用于产生高质量宏基因组的许多其它方法,但收效甚微。例如,几个组已经尝试通过使用细胞分选仪破坏宏基因组样品来降低宏基因组文库组装的复杂度。这些尝试在极小规模(例如100个细胞/池)上显示处了某些成功,并且已被报告仅回收了少数低覆盖率的基因组。这些论文普遍得出的结论是,“组装体通常是高度碎片化的并且不完整,并且整个过程易于出现偏差和污染。”(例如,阿尔泰奥lv(alteio lv),舒尔茨f(schulz f),塞沙德里r(seshadri r),等人微系统(msystems.)2020;5(2):e00768-19.2020年3月10日出版doi:10.1128/msystems.00768-19)。
[0102]
正在探索的另一条途径是产生“合成长读段序列数据”。这种方法通常利用标准短读段测序,但是会处理dna样品以并入连续数据信息。例如,本领域已经尝试使用在文库组装的各个阶段添加的转座体复合物,以提供连续性数据(例如,ep 3636757、us 2020/0202144、us 10,577,603和ep 3377625b1)。类似的尝试利用唯一分子标识符条形码来类似地提供序列连续性信息(参见例如us 2020/0123539、ep 2977455、us 10,557,166、us 10,557,133和us 10,726,942)。虽然这些方法在小规模下有效,但是将合成长读段技术应用于宏基因组数据库的尝试均以失败告终(参见wo 2020/165433“1024个条形码并不代表对来自生物样品的基因组或宏基因组dna的分子的混合物进行唯一标记的足够多样性”)。
[0103]
研究人员还尝试使用计算机模拟方法来降低宏基因组样品的复杂度。这些方法包含基于甲基化模式的分箱(即,向组装群分配序列)(us 2020/0160936)、预测物种(克里斯
托弗
·
昆斯(christopher quince),艾伦
·w·
沃克(alan w.walker),贾里德
·
t
·
辛普森(jared t.simpson),尼古拉斯
·j·
洛曼(nicholas j.loman),尼古拉
·
塞加塔(nicola segata)“鸟枪宏基因组学:从采样到分析(shotgun metagenomics,from sampling to analysis.)”)。这些方法虽然很有前途,但是高度容易出错,并且此时还不能够完全跨宏基因组样品中存在的整个分类谱对序列进行分箱,其中大多数序列还有待探索。(参见西蒙
·
叶(simon h ye),凯瑟琳
·j·
西德尔(katherine j siddle),丹尼尔
·j·
帕克(daniel j park),帕迪斯
·c·
萨贝蒂(pardis c sabeti)细胞(cell.)2019年8月08日;178(4):779

794.doi:10.1016/j.cell.2019.07.010,其解释了基于分类对序列进行分箱的尝试是如何失败的,这“进一步强调了演进距离和描述不佳的分类群对分类性能的影响”)。
[0104]
这些方法虽然在其推进进程的尝试中令人钦佩,但是都未能提供用于天然产物发现的可行数字宏基因组数据库。这一领域的大多数作家都对本领域的局限性持开放态度。(参见安娜
·
埃琳娜
·
佩雷斯-科巴斯(ana elena p
é
rez-cobas),劳拉
·
戈麦斯-瓦莱罗(laura gomez-valero),卡门
·
布赫里瑟(carmen buchrieser),微生物生态学中的宏基因组方法:全基因组和标记基因测序分析的更新(metagenomic approaches in microbial ecology:an update on whole-genome and marker gene sequencing analyses)“基于此,在进行wgs时必须小心地完成和分析基因组组装,并且从这些样品中获得的大部分读段将保持未组装”;还参见wo 2019/147753“土壤微生物组的复杂度限制了鸟枪法测序作为用于鉴定土壤基因组中的生物合成基因簇的工具的实用性”)。本公开解决了本领域中的这些限制,并且提供了用于产生适于计算机模拟mgc发现的数字宏基因组文库的方法。
[0105]
通过生物信息学流水线进行检测和分析
[0106]
最近在多基因簇分析方面做出的努力依赖于经测序的基因组和生物信息工具。现在已经开发了许多生物信息工具来检测常规基因组序列和基因组解析的宏基因组中的已知mgc(蒂尔曼韦伯,hyun uk基姆(kim h.u.)次级代谢物生物信息学门户:促进次级代谢物产生的合成生物学的计算工具(the secondary metabolite bioinformatics portal:computational tools to facilitate synthetic biology of secondary metabolite production.)合成与系统生物技术(synth.syst.biotechnol.)2016;1:69-79.)。这些工具最初被开发用于在经测序的公共数据库中使用,并且还应用于环境基因组解析的宏基因组(彼得
·
西默曼西奇(cimermancic p.),玛尼克斯h
·
米德玛(medema m.h.),扬
·
克莱森(claesen j.),健二库里塔(kurita k.),劳拉
·c·
维兰德
·
布朗(brown l.c.),康斯坦丁诺斯
·
马夫罗马蒂斯(mavrommatis k.),阿姆丽塔
·
帕蒂(pati a.),保罗
·
a戈弗雷(godfrey p.a.),迈克尔
·
科尔森(koehrsen m.),乔恩
·
克拉迪(clardy j.),等人从原核生物合成基因簇的全球分析中洞察次级代谢(insights into secondary metabolism from a global analysis of prokaryotic biosynthetic gene clusters.)细胞2014;158:412-421)。
[0107]
antismash、napdos和clustscan是生物信息学软件的实例,其在其分析中提供了低新颖性但高置信度并且因此适于寻找已知生物合成种类的基因簇的用户,或者适于研究单个或多个基因组中用于注释目的的所有可检测mgc。(凯布林(blin k.),托马斯
·
沃尔夫(wolf t.),马克
·g·
雪佛兰(chevrette m.g.),陆晓雯(lu x.),克里斯托弗
·j·
施瓦伦(schwalen c.j.),萨特里亚
·
考萨尔(kautsar s.a.),埃尔南多
·g·
苏亚雷斯
·
杜兰
(suarez duran h.g.),德洛斯桑托斯伊曼纽尔l.c.(de los santos e.l.c.),hyun uk基姆,马里亚纳中殿(nave m.),等人antismash 4.0—化学预测和基因簇边界鉴定的改进(antismash 4.0—improvements in chemistry prediction and gene cluster boundary identification.)核酸研究(nucleic acids res.)2017;45:w36

w41;以及安东尼奥
·
斯塔切维奇(starcevic a.),尤里卡
·
祖科(zucko j.),尤里卡
·
西蒙科维奇(simunkovic j.),保罗
·f·
朗(long p.f.),约翰
·
卡勒姆(cullum j.),达斯拉夫
·
格兰努埃利(hranueli d.)clustscan:用于模块化生物合成基因簇的半自动注释和新颖化学结构的计算机模拟预测的集成程序包(clustscan:an integrated program package for the semi-automatic annotation of modular biosynthetic gene clusters and in silico prediction of novel chemical structures.)核酸研究2008;36:6882

6892)。antismash的较新版本现在还并入了用于另外类型的mgc的算法,包含新颖类型(凯布林(kai blin)等人,antismash 5.0:对次级代谢物基因组挖掘流水线的更新(antismash 5.0:updates to the secondary metabolite genome mining pipeline),核酸研究,第47卷,第w1期,2019年7月02日,第w81-w87页。
[0108]
其它可用工具是用更多贪心算法设计的。例如,clusterfinder是最近开发的提供低置信度但高新颖性分析的软件(彼得
·
西默曼西奇,玛尼克斯h
·
米德玛,扬
·
克莱森,健二库里塔,劳拉
·c·
维兰德
·
布朗,康斯坦丁诺斯
·
马夫罗马蒂斯,阿姆丽塔
·
帕蒂,保罗
·
a戈弗雷,迈克尔
·
科尔森,乔恩
·
克拉迪,等人从原核生物合成基因簇的全球分析中洞察次级代谢.细胞2014;158:412-421)。clusterfinder算法最近已经集成到antismash工具中。预测来自新颖种类的基因簇是有价值的,因为所述基因簇有可能用新化学支架编码分子。clusterfinder使用在mgc分析与非mgc分析之间切换的隐马尔可夫模型以寻找在基因组区中编码的广泛基因功能的模式,而不是搜索特定单独签名基因的存在。这种方法使得clusterfinder能够鉴定来自各个门的多种细菌的编码芳基多烯的生物合成的大的、先前未被识别的基因簇家族(同上)。
[0109]
当前可用的用于mgc发现的生物信息学工具的非限制性列表在以下在表1中提供。描述这些工具的每个参考文献都通过引用并入到本技术中。
[0110]
表1-用于mgc发现和分析的生物信息学软件(能够应用mgc预测算法的工具)
[0111]
[0112]
[0113]
[0114][0115]
d),刘池满(liu cm),罗锐邦(luo r),等人megahit:用于通过简洁的德布鲁因图实现大型且复杂的宏基因组组装的超快速单节点解决方案(megahit:an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de bruijn graph.)生物信息学(bioinformatics)2015;31(10):1674

6)。大多数物种的低覆盖率意味着新发组装是不可能的,除非所讨论的基因组相对较小。
[0122]
事实上,来自大多数复杂宏基因组文库的组装体在长度上高度受限,并且因此防止了有意义的mgc分析。短组装体通常不包含完整mgc,这使得生物信息学算法难以鉴定和分析簇。当鉴定了基因时,如果不是不可能的话,则通常难以重构原始mgc以表达和测试所得天然产物。由于这些限制,还没有对高度复杂的宏基因组文库进行任何计算机模拟生物信息学mgc分析。相反,迄今为止报告的大多数生物信息学工作依赖于可公开获得的经预先组装的文库,或者依赖于少于10k个基因组的有限的小宏基因组组装体。
[0123]
当前公开的发明解决了这些技术问题,并且提供了用于产生能够通过本公开的mgc生物信息学工具搜索的长读段片段经组装的宏基因组文库的方法、系统和工具。本公开还提供了用于在产生了宏基因组文库后鉴定新的编码天然产物的mgc的几种新颖计算机模拟工作流。
[0124]
当前天然产品发现平台的方法、系统和工具
[0125]
本公开提供了使得能够在无需培养含有mgc的微生物的情况下从微生物中挖掘大量的mgc的几种先进的宏基因组文库制备和生物信息学分析流水线。本公开中提供的工具由此提供了令人难以置信的机会来解析微生物暗物质的次级代谢性质,所述微生物暗物质是未经培养的大多数微生物多样性。
[0126]
在一些实施例中,本公开教示了一种天然产物发现工作流,其包括:1)物理宏基因组文库产生,2)数字宏基因组文库(“dml”)的测序和产生,3)基于新颖生物信息学发现方法来查询dml和鉴定所关注簇,4)天然产物分子原型分析,5)计算机模拟和/或湿实验室天然产物结构解析,以及任选地6)通过化学或生物合成方法进行模拟。(参见例如,图1-3)。以下更详细地讨论了天然产物发现平台的元件中的每个元件。
[0127]
数字宏基因组文库-介绍
[0128]
在一些实施例中,本公开教示了用于从宏基因组文库中鉴定mgc的方法和系统。本公开还教示了用于产生适于mgc生物信息学搜索的宏基因组文库的方法和系统。
[0129]
在一些实施例中,本公开的mgc发现系统和方法应用于宏基因组文库,或更具体地应用于数字宏基因组文库(dml)。出于本公开的目的,宏基因组文库以以下方式定义:
[0130]
1)包括未经培养的物种的基因组的物理或数字序列文库(例如,源自环境样品没有介于中间的培养步骤的文库)。在一些实施例中,未经培养的物种来自酵母、真菌、细菌、古生菌、原生生物、病毒、寄生虫或藻类物种。未经培养的物种可以从任何来源获得,例如土壤、肠道、水生生境。在一些实施例中,如果经组装的文库内的序列中的大多数序列来自未经培养的生物体并且如果文库满足其它大小限制,则文库被视为宏基因组文库。在一些实施例中,本公开的物理和/或数字序列文库表示其提取自的环境样品,并且不是现有小(例如,少于100个生物体)组装体的聚集。除了源自环境样品的序列之外的任何外源添加/掺入的序列可以被视为在本公开的文库之外。
[0131]
2)满足以上点1的定义,并且进一步地其中文库内的序列中的大多数序列来自未
经培养的生物体的物理或数字序列文库。在一些实施例中,如果在文库中的生物体中的大多数生物体未进行培养的情况下通过对物理文库进行测序产生了数字宏基因组文库,则所述数字宏基因组文库被视为含有来自未经培养的生物体的序列中的大多数序列。在一些实施例中,如果在测序之前未对生物体进行培养的情况下通过对物理文库进行测序产生了数字宏基因组文库,则所述数字宏基因组文库被视为含有来自未经培养的生物体的序列中的大多数序列。在一些实施例中,如果经组装的文库内的序列中的基本上所有序列来自未经培养的生物体并且如果文库满足其它大小限制,则文库被视为宏基因组文库。如此上下文中所使用的,术语“基本上所有”是指其中至少90%的经组装的序列来自未经培养的生物体的文库。在一些实施例中,如果在文库中的生物体中的基本上所有生物体未进行培养的情况下通过对物理文库进行测序产生了数字宏基因组文库,则所述数字宏基因组文库被视为含有来自未经培养的生物体的序列中的基本上所有序列。在一些实施例中,如果在测序之前未对生物体进行培养的情况下通过对物理文库进行测序产生了数字宏基因组文库,则所述数字宏基因组文库被视为含有来自未经培养的生物体的序列中的基本上所有序列。
[0132]
3)满足以上点1和/或2的定义,并且进一步包括多于一个未经培养的物种的基因组的物理或数字序列文库。在一些实施例中,宏基因组文库包括至少100个、500个、1000个、104个、105个、106个、107个或更多个未经培养的物种的基因组。在一些实施例中,通过除以dml中的总体经组装的序列并且将所述序列除以预期存在于基因组中的种类的生物体的基因组的平均大小来计算数字宏基因组文库中的经组装的基因组的数量。在一些实施例中,通过对dml中的独有的16s rrna序列的数量进行计数来评估数字宏基因组文库中的经组装的基因组的数量。在一些实施例中,通过对dml中的独有的内部经转录的间隔子(its)的数量进行计数来评估数字宏基因组文库中的经组装的基因组的数量。
[0133]
4)满足以上点1-3中的一或多个点的定义,并且其中数字宏基因组文库的大小为至少约50mb、60mb、70mb、80mb、90mb、100mb、110mb、120mb、130mb、140mb、150mb、160mb、170mb、180mb、190mb、200mb、210mb、220mb、230mb、240mb、250mb、260mb、270mb、280mb、290mb、300mb、310mb、320mb、330mb、340mb、350mb、360mb、370mb、380mb、390mb、400mb、410mb、420mb、430mb、440mb、450mb、460mb、470mb、480mb、490mb、500mb、550mb、600mb、650mb、700mb、750mb、800mb、850mb、900mb、950mb、1000mb、1050mb、1100mb、1150mb、1200mb、1250mb、1300mb、1350mb或1400mb的数字序列文库。经组装的序列是dml中的所有重叠群的加性长度。
[0134]
5)满足以上点1-4中的一或多个点的定义,并且进一步包括的n50为至少约10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb的数字序列文库(即,长组装体数字宏基因组文库)。
[0135]
在一些实施例中,宏基因组学涉及从环境样品中直接提取dna。宏基因组数据库的另一个优点是其可以富集更可能包括可能编码期望的天然产物的基因的生物体。例如,具有抗真菌性质的天然产物的mgc可以富集在由经常受到真菌感染攻击的微生物样品产生的宏基因组数据库中。与人类消化健康相关联的天然产物的mgc可以富集在从由人类或动物肠道收集的微生物样品产生的宏基因组数据库中。因此,本公开的方法和系统受益于可通过宏基因组数据库获得的序列的广泛多样性,并且受益于富集此类数据库以用于期望的最
终用途的潜力。
[0136]
微生物在生态系统的功能中起着至关重要的作用并且在数量上得到了很好的体现。如土壤样品、食品样品或生物组织样品等环境样品可以含有极大量的生物体并且因此可以产生大基因组数据集。例如,据估计,依赖于细菌来调节消化、内分泌和免疫功能的人体可以含有至多100万亿个生物体。另外,据估计,一克土壤可以含有1,000种到10,000种不同物种的具有107个到109个细胞的细菌,包含可培养的和不可培养的细菌。再现宏基因组dna文库中的这种整体多样性需要产生和管理大量克隆的能力。在一些实施例中,宏基因组数据库可以包括至少一个、几十个、几十万个或甚至几百万个重组克隆,所述重组克隆因其掺入的dna而彼此不同。在一些实施例中,宏基因组文库可以由宏基因组片段构建和/或可以被组装成重叠群,如美国专利第8,478,544号、第10,227,585号和第9,372,959号中描述的,所述美国专利中的每一个均通过引用以其整体并入本文。在一些实施例中,宏基因组序列可以被组装成完整基因组。在一些实施例中,宏基因组文库可以被优化为包括用于促进对微生物生物合成通路的搜索的平均大小(或n50)的克隆的宏基因组插入物,因为这些通路通常在微生物的基因组中以簇的形式组织。克隆的dna的片段越大(大于30kb),要分析的克隆的数量就越受限并且再现完整代谢通路的可能性就越大。考虑到要研究的大量重组克隆,可以采用高密度杂交系统(高密度膜或dna芯片),如以进行细菌群落的表征(关于综述,参见zhou等人,微生物学当前观点(curr.opin.microbial.)2003;6:288-294,所述文献通过引用并入本文)。
[0137]
本领域的技术人员将理解dna、rna和蛋白质序列之间的关系,并且因此将能够容易地转化dna序列数据以产生具有rna或蛋白质信息的宏基因组文库。在一些实施例中,本公开的宏基因组文库包括从细胞群体获得的dna序列。因此,在一些实施例中,宏基因组文库包括从直接dna测序获得的信息。在一些实施例中,宏基因组文库包括直接测量的或基于dna序列预测的经转录的rna。因此,在一些实施例中,可以搜索宏基因组文库中sirna、mirna、rrna和核酸适配体。在一些实施例中,宏基因组文库包括测量的或基于测量的dna序列预测的氨基酸蛋白质序列数据。例如,宏基因组文库可以包括本公开中描述的机器学习模型可访问的预测或验证的蛋白质序列的列表。
[0138]
在一些实施例中,本公开的mgc发现系统和方法应用于来自环境样品的经组装的序列文库。(“环境文库”或“el”)。在一些实施例中,el是环境dna样品的经深度(即至少10倍覆盖率)测序的组装体,所述环境dna样品已被直接测序(并且因此可以是宏基因组样品),或者已经历至少一个培养步骤(例如,以富集一或多个种类的生物体)。在一些实施例中,本公开的el将包括以下用本公开的mgc发现方法和系统改进其功能的性质:
[0139]
1)el包括大小为至少约50mb、60mb、70mb、80mb、90mb、100mb、110mb、120mb、130mb、140mb、150mb、160mb、170mb、180mb、190mb、200mb、210mb、220mb、230mb、240mb、250mb、260mb、270mb、280mb、290mb、300mb、310mb、320mb、330mb、340mb、350mb、360mb、370mb、380mb、390mb、400mb、410mb、420mb、430mb、440mb、450mb、460mb、470mb、480mb、490mb、500mb的经数字组装的序列文库。经组装的序列是el中所有重叠群的加性长度。
[0140]
2)el满足以上点el点1的定义,并且进一步包括的n50为至少约10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb。(即,长组装体数字环境文库)
[0141]
本文档的后续部分教示了制备用于本公开的方法的环境文库和宏基因组文库的方法。以下讨论的用于制备宏基因组文库的方法也适用于环境文库。例如,在一些实施例中,本公开的环境文库仍是从环境样品中提取的、在测序之前被筒仓化到池中,并且可以任选地分两个阶段组装,如下文所讨论的。此外,本文档中讨论的所有数字搜索工作流也可以应用于el。也就是说,所有对dml在本说明书下文讨论的方法中的用途的参考都可以用术语el替代。本片段仅指出当前公开的方法对可以含有经培养的生物体的文库的适用性,但是不与如上文所定义的真正宏基因组文库的益处相矛盾。
[0142]
宏基因组文库产生-dna提取
[0143]
产生宏基因组文库的第一步骤是从所关注宏基因组样品(例如,土壤、河水、肠道粪便)中提取dna。本领域的技术人员将熟悉dna提取方法。存在许多针对来自宏基因组样品的测序应用进行优化的商购dna提取试剂盒。例如,mp销售用于从土壤样品中进行dna提取的fastdna
tm spin试剂盒。本领域中公开了其它已知技术(卡希夫
·
沙米姆(shamim k),阿雅
·
夏尔马(sharma j),桑托什
·
库马尔
·
杜贝(dubey sk)用于从河口沉积物中提取宏基因组dna的快速且高效的方法(rapid and efficient method to extract metagenomic dna from estuarine sediments.)3生物技术(3biotech.)2017;7(3):182;还参见萨蒂亚布拉塔百格(bag,s.),比帕萨萨哈(saha,b.),奥哈斯维
·
梅塔(mehta,o.)等人,用于从人类样品和环境样品中进行高质量宏基因组dna提取的改进方法(an improved method for high quality metagenomics dna extraction from human and environmental samples.)科学报告(sci rep)6,26775(2016);以及埃拉赫
·
艾哈迈迪(ahmadi,e.),莫杰甘
·
考萨里(kowsari,m.),达武德
·
阿扎法尔(azadfar,d.)等人森林科学年鉴(annals of forest science)(2018)75:43)。
[0144]
在一些实施例中,本公开教示了用于土壤宏基因组dna提取的方案,所述方案包括:a)用金属丝网从土壤样品中去除非土壤碎片;b)通过添加300ml基于ctab的裂解缓冲液(100mm tris-hcl、100mm edta、1.5m nacl、1%(w/v)ctab、2%(w/v)sds,ph 8.0)从所得土壤中提取dna,然后在一致倒置的情况下在70℃下温育2小时以进行混合;c)将样品在4℃下以4,000g离心20分钟并且将上清液转移到干净的瓶子中,然后在4℃下以4,000g第二次离心20分钟;d)将裂解物转移到新的瓶子中并且添加0.7体积的异丙醇并轻轻混合30分钟;e)用在4℃下4,000g 30分钟的两轮离心使沉淀的dna团粒化,在第一次与第二次离心之间用70%乙醇洗涤;f)去除上清液并且使粒料干燥;以及g)将粒料重悬于10ml te缓冲液中。提取的dna可以任选地通过分光光度计定量,并且可以被保存以供进一步处理。本领域的技术人员将熟悉用于从环境样品中提取dna的许多其它方法(参见例如萨蒂亚布拉塔百格,比帕萨萨哈,奥哈斯维
·
梅塔等人用于从人类样品和环境样品中进行高质量宏基因组dna提取的改进方法科学报告6,26775(2016);l阿琳
·
波特斯(porteous,l.a.)等人,用于从环境样品中提取dna以进行聚合酶链式反应扩增和dna指纹分析的有效方法(an effective method to extract dna from environmental samples for polymerase chain reaction amplification and dna fingerprint analysis.)当前微生物学(current microbiology)29,301

307(1994);克拉丽丝
·
马洛茨(c.marotz)等人,用于不同环境样品的流线型宏基因组学的dna提取(dna extraction for streamlined metagenomics of diverse environmental samples.)生物技术(biotechniques)第62卷第6期;拉蒙娜
·

6000
tm
测序仪每次运行能够测序320亿个到400亿个碱基(即,大约相当于平均细菌基因组的约10,000倍)。这种类型的有意样品汇集典型地依赖于使用加条形码技术,所述加条形码技术允许计算机在基因组组装开始之前将所得序列分选到与每个单独(预混合的)样品相对应的文件中。
[0153]
宏基因组dna样品表示大规模、非自愿且未标记的dna池,其包括原始物质样品(例如,土壤)中存在的数百个到数百万个微生物的基因组。因为基因组是预混合的,所以必须在不能根据其所属的生物体对读段进行预分选的情况下组装来自宏基因组ngs的所得序列。
[0154]
在一些实施例中,本公开教示了对宏基因组样品进行筒仓汇集以降低复杂度并改进组装的方法。在一些实施例中,来自宏基因组dna样品的dna粘粒被处理并储存在大肠杆菌文库中。大肠杆菌文库内的每个菌落包括一个长度为约35-40kb的粘粒。在一些实施例中,将宏基因组文库的基因组分解成单独粘粒降低了此类片段的组装难度。这与立即测序全基因组的一些传统方法形成对比,其无需首先将文库分成单独粘粒。
[0155]
许多传统测序方案教示了将由全基因组构成的宏基因组环境dna提取到单个样品中以进行鸟枪测序(例如,将宏基因组文库内的所有克隆组合成单个池)。当前公开的方法与这些传统方法的不同之处在于其产生了多个各种大小的小池,这些池最大化了测序仪的使用,同时仍产生了足够质量的用于mgc发现的组装体。
[0156]
具体地,在一些实施例中,当前公开的方法教示了1)将基因组的片段克隆到粘粒中,其中2)将有限数量的含有粘粒的大肠杆菌菌落选择性汇集到多个测序筒仓中。(参见图2的步骤1和图14)所得测序筒仓包括有限数量的全长粘粒,因此降低了后续组装体的复杂度。如以下将更详细讨论的,筒仓汇集方法将由于并行组装全基因组或与数百个/数千个基因组相对应的2000万个粘粒之一引起的问题减少到组装仅集中于几千个粘粒的问题。
[0157]
一些出版物先前已经公开了少量克隆的汇集,作为加条形码或全基因组测序的替代方案(玛丽亚
·
朱恩科娃(dz
ˇ
unkova

m),朱塞佩
·
德奥里亚(d'auria g),大卫佩雷斯-比利亚罗亚(pe

rez-villarroya d),安德烈斯
·
莫亚(moya a)(2012)应用于人类粪便宏基因组克隆文库的杂交测序方法揭示了具有潜在生物技术应用的克隆(hybrid sequencing approach applied to human fecal metagenomic clone libraries revealed clones with potential biotechnological applications.)公共科学图书馆
·
综合7:e47654.;王玲玲(wang l),阿亚特哈特姆(hatem a),乌米特v(catalyurek uv),马克
·
莫里森(morrison m),于中唐(yu z)(2013)对粘附到牛的瘤胃中的固体消化物的微生物携带的碳水化合物活性酶的宏基因组研究(metagenomic insights into the carbohydrate-active enzymes carried by the microorganisms adhering to solid digesta in the rumen of cows.)公共科学图书馆
·
综合8:e78507)。例如,拉姆(lam)等人2013公开了源自环境样品的92个不同克隆的汇集.(凯西
·n·
拉姆(lam kn),迈克尔
·w·
霍尔(hall mw),凯雅
·
恩格尔(engel k),格雷戈里
·
维(vey g),程久军(cheng j),等人(2014)对用于来自宏基因组文库的粘粒克隆进行高通量测序的所汇集的策略的评估(evaluation of a pooled strategy for high-throughput sequencing of cosmid clones from metagenomic libraries.)公共科学图书馆
·
综合9(6):e98968.doi:10.1371/journal.pone.0098968)。然而,拉姆等人的实验被限制于少量经预筛选的克隆,
这些克隆被测序为大约900倍的读段深度和》100倍的覆盖率。尽管测序的此极其高的水平,但是拉姆报告仅回收了92个原始克隆中的77个原始克隆的参考重叠群。因此,lam等人的结果没有提供从如当前公开的3,000个到14,000个粘粒的筒仓汇集中成功产生数字宏基因组文库的任何预期。
[0158]
本发明部分基于申请者的意外发现,即通过产生5-20k粘粒、10-15k粘粒或12-12k粘粒的筒仓的池,可以产生、测序和成功组装大型物理文库,如来自环境文库或宏基因组文库的那些文库,以用于mgc发现。本技术中描述的研究表明可以根据本公开的方法在仍然产生适于mgc发现的数字环境或宏基因组文库的同时汇集的粘粒的数量。例如,图21a表明在10倍覆盖率测序时,可以汇集约30,000个粘粒,同时仍然产生n50为至少15kb(确定为实现mgc的最佳发现)的文库。图21c提供了对筒仓的最佳汇集的进一步洞察。太多粘粒汇集造成了组装阶段的困难,这减少了文库中的15kb经组装的重叠群的数量和组装的总体效率。太少粘粒汇集导致测序仪的使用效率低下,从而使总体序列较少,并且因此使经组装的15 kb经组装的重叠群也更少。
[0159]
在一些实施例中,所得测序筒仓中的每个筒仓包括3,000-35,000个粘粒。在一些实施例中,每个测序筒仓包括3,000个、3,100个、3,200个、3,300个、3,400个、3,500个、3,600个、3,700个、3,800个、3,900个、4,000个、4,100个、4,200个、4,300个、4,400个、4,500个、4,600个、4,700个、4,800个、4,900个、5,000个、5,100个、5,200个、5,300个、5,400个、5,500个、5,600个、5,700个、5,800个、5,900个、6,000个、6,100个、6,200个、6,300个、6,400个、6,500个、6,600个、6,700个、6,800个、6,900个、7,000个、7,100个、7,200个、7,300个、7,400个、7,500个、7,600个、7,700个、7,800个、7,900个、8,000个、8,100个、8,200个、8,300个、8,400个、8,500个、8,600个、8,700个、8,800个、8,900个、9,000个、9,100个、9,200个、9,300个、9,400个、9,500个、9,600个、9,700个、9,800个、9,900个、10,000个、10,100个、10,200个、10,300个、10,400个、10,500个、10,600个、10,700个、10,800个、10,900个、11,000个、11,100个、11,200个、11,300个、11,400个、11,500个、11,600个、11,700个、11,800个、11,900个、12,000个、12,100个、12,200个、12,300个、12,400个、12,500个、12,600个、12,700个、12,800个、12,900个、13,000个、13,100个、13,200个、13,300个、13,400个、13,500个、13,600个、13,700个、13,800个、13,900个、14,000个、15,000个、16,000个、17,000个、18,000个、19,000个、20,000个、21,000个、22,000个、23,000个、24,000个、25,000个、26,000个、27,000个、28,000个、29,000个、30,000个、31,000个、32,000个、33,000个、34,000个或35,000个粘粒,包含其间的所有范围和子范围。在一些实施例中,所得测序筒仓中的每个筒仓包括6,000-10,000个粘粒。在一些实施例中,筒仓池随测序覆盖率而变化。在一些实施例中,筒仓池的大小根据图21a-c中定义的曲线来定义。
[0160]
在一些实施例中,每个测序筒仓包括总计长度介于105百万碱基与1,400百万碱基(mb)之间的dna。在一些实施例中,每个测序筒仓包括总计长度为100mb、101mb、102mb、103mb、104mb、105mb、106mb、107mb、108mb、109mb、110mb、111mb、112mb、113mb、114mb、115mb、116mb、117mb、118mb、119mb、120mb、121mb、122mb、123mb、124mb、125mb、126mb、127mb、128mb、129mb、130mb、131mb、132mb、133mb、134mb、135mb、136mb、137mb、138mb、139mb、140mb、141mb、142mb、143mb、144mb、145mb、146mb、147mb、148mb、149mb、150mb、151mb、152mb、153mb、154mb、155mb、156mb、157mb、158mb、159mb、160mb、161mb、162mb、
163mb、164mb、165mb、166mb、167mb、168mb、169mb、170mb、171mb、172mb、173mb、174mb、175mb、176mb、177mb、178mb、179mb、180mb、181mb、182mb、183mb、184mb、185mb、186mb、187mb、188mb、189mb、190mb、191mb、192mb、193mb、194mb、195mb、196mb、197mb、198mb、199mb、200mb、201mb、202mb、203mb、204mb、205mb、206mb、207mb、208mb、209mb、210mb、211mb、212mb、213mb、214mb、215mb、216mb、217mb、218mb、219mb、220mb、221mb、222mb、223mb、224mb、225mb、226mb、227mb、228mb、229mb、230mb、231mb、232mb、233mb、234mb、235mb、236mb、237mb、238mb、239mb、240mb、241mb、242mb、243mb、244mb、245mb、246mb、247mb、248mb、249mb、250mb、251mb、252mb、253mb、254mb、255mb、256mb、257mb、258mb、259mb、260mb、261mb、262mb、263mb、264mb、265mb、266mb、267mb、268mb、269mb、270mb、271mb、272mb、273mb、274mb、275mb、276mb、277mb、278mb、279mb、280mb、281mb、282mb、283mb、284mb、285mb、286mb、287mb、288mb、289mb、290mb、291mb、292mb、293mb、294mb、295mb、296mb、297mb、298mb、299mb、300mb、301mb、302mb、303mb、304mb、305mb、306mb、307mb、308mb、309mb、310mb、311mb、312mb、313mb、314mb、315mb、316mb、317mb、318mb、319mb、320mb、321mb、322mb、323mb、324mb、325mb、326mb、327mb、328mb、329mb、330mb、331mb、332mb、333mb、334mb、335mb、336mb、337mb、338mb、339mb、340mb、341mb、342mb、343mb、344mb、345mb、346mb、347mb、348mb、349mb、350mb、351mb、352mb、353mb、354mb、355mb、356mb、357mb、358mb、359mb、360mb、361mb、362mb、363mb、364mb、365mb、366mb、367mb、368mb、369mb、370mb、371mb、372mb、373mb、374mb、375mb、376mb、377mb、378mb、379mb、380mb、381mb、382mb、383mb、384mb、385mb、386mb、387mb、388mb、389mb、390mb、391mb、392mb、393mb、394mb、395mb、396mb、397mb、398mb、399mb、400mb、401mb、402mb、403mb、404mb、405mb、406mb、407mb、408mb、409mb、410mb、411mb、412mb、413mb、414mb、415mb、416mb、417mb、418mb、419mb、420mb、421mb、422mb、423mb、424mb、425mb、426mb、427mb、428mb、429mb、430mb、431mb、432mb、433mb、434mb、435mb、436mb、437mb、438mb、439mb、440mb、441mb、442mb、443mb、444mb、445mb、446mb、447mb、448mb、449mb、450mb、451mb、452mb、453mb、454mb、455mb、456mb、457mb、458mb、459mb、460mb、461mb、462mb、463mb、464mb、465mb、466mb、467mb、468mb、469mb、470mb、471mb、472mb、473mb、474mb、475mb、476mb、477mb、478mb、479mb、480mb、481mb、482mb、483mb、484mb、485mb、486mb、487mb、488mb、489mb、490mb、491mb、492mb、493mb、494mb、495mb、496mb、497mb、498mb、499mb、500mb、505mb、510mb、515mb、520mb、525mb、530mb、535mb、540mb、545mb、550mb、555mb、560mb、565mb、570mb、575mb、580mb、585mb、590mb、595mb、600mb、605mb、610mb、615mb、620mb、625mb、630mb、635mb、640mb、645mb、650mb、655mb、660mb、665mb、670mb、675mb、680mb、685mb、690mb、695mb、700mb、705mb、710mb、715mb、720mb、725mb、730mb、735mb、740mb、745mb、750mb、755mb、760mb、765mb、770mb、775mb、780mb、785mb、790mb、795mb、800mb、805mb、810mb、815mb、820mb、825mb、830mb、835mb、840mb、845mb、850mb、855mb、860mb、865mb、870mb、875mb、880mb、885mb、890mb、895mb、900mb、905mb、910mb、915mb、920mb、925mb、930mb、935mb、940mb、945mb、950mb、955mb、960mb、965mb、970mb、975mb、980mb、985mb、990mb、995mb、1000mb、1005mb、1010mb、1015mb、1020mb、1025mb、1030mb、1035mb、1040mb、1045mb、1050mb、1055mb、1060mb、1065mb、1070mb、1075mb、1080mb、1085mb、1090mb、1095mb、1100mb、1105mb、1110mb、1115mb、1120mb、1125mb、1130mb、1135mb、
1140mb、1145mb、1150mb、1155mb、1160mb、1165mb、1170mb、1175mb、1180mb、1185mb、1190mb、1195mb、1200mb、1205mb、1210mb、1215mb、1220mb、1225mb、1230mb、1235mb、1240mb、1245mb、1250mb、1255mb、1260mb、1265mb、1270mb、1275mb、1280mb、1285mb、1290mb、1295mb、1300mb、1305mb、1310mb、1315mb、1320mb、1325mb、1330mb、1335mb、1340mb、1345mb、1350mb、1355mb、1360mb、1365mb、1370mb、1375mb、1380mb、1385mb、1390mb、1395mb或1400mb的dna,包含其间的所有范围和子范围。
[0161]
宏基因组文库产生-通过加条形码进行筒仓汇集
[0162]
本领域的技术人员将认识到,可以通过使用加条形码技术以不同程度复制、补充和/或扩展以上所描述的物理筒仓汇集。dna条形码,通常也被称为标签、索引序列或标识符代码,包含出于鉴定目的而被掺入到核酸分子中的特定序列。条形码可以用于鉴定单独核酸分子或核酸分子群。
[0163]
在一些实施例中,本公开教示了使用条形码以筒仓汇集来自中宏基因组文库的dna。例如,本公开考虑了在测序之前单独或以群的形式对来自大肠杆菌菌落的粘粒加条形码。因此,在一些实施例中,本公开的方法包括对ngs的单独粘粒进行处理和加条形码。
[0164]
在一些实施例中,本公开教示了条形码用于进一步降低现有测序筒仓的复杂度的传统用途。因此,在一些实施例中,本公开教示了单独粘粒的加条形码。
[0165]
本公开的某些加条形码实施例不同于传统条形码用途,因为条形码不应用于每个粘粒,而是相反添加到测序筒仓(如上文所描述的)中的经处理的序列中,或者添加在微型筒仓池中的经处理的序列中,所述序列然后可以进一步汇集到测序筒仓中。
[0166]
在一些实施例中,本公开教示了产生微型筒仓池,在所述筒仓池中多个粘粒被汇集并针对ngs进行处理。在一些实施例中,每个微型筒仓包括100个、200个、300个、400个、500个、600个、700个、800个、900个、1,000个、1,100个、1,200个、1,300个、1,400个、1,500个、1,600个、1,700个、1,800个、1,900个、2,000个、2,100个、2,200个、2,300个、2,400个、2,500个、2,600个、2,700个、2,800个、2,900个、3,000个、3,100个、3,200个、3,300个、3,400个、3,500个、3,600个、3,700个、3,800个、3,900个、4,000个、4,100个、4,200个、4,300个、4,400个、4,500个、4,600个、4,700个、4,800个、4,900个、5,000个、5,100个、5,200个、5,300个、5,400个、5,500个、5,600个、5,700个、5,800个、5,900个、6,000个、6,500个、7,000个、7,500个、8,000个、8,500个、9,000个、9,500个、10,000个、10,500个、11,000个、11,500个、12,000个、12,500个、13,000个、13,500个、14,000个、14,500个、15,000个、15,500个、16,000个、16,500个、17,000个、17,500个、18,000个、18,500个、19,000个、19,500个、20,000个、20,500个、21,000个、21,500个、22,000个、22,500个、23,000个、23,500个、24,000个、24,500个、25,000个、25,500个、26,000个、26,500个、27,000个、27,500个、28,000个、28,500个、29,000个、29,500个、30,000个、30,500个、31,000个、31,500个、32,000个、32,500个、33,000个、33,500个、34,000个、34,500个、35,000个粘粒,包含其间的任何范围和子范围。
[0167]
在一些实施例中,在汇集已发生之后,并且在每个筒仓内的序列已经被片段化为片段大小以进行下一代测序之后,将条形码添加到微型筒仓池中。然后,可以在通过测序仪运行之前将加条形码的微型筒仓池进一步组合成更宽的测序池。
[0168]
在一些实施例中,单独加条形码的序列与其它加条形码的样品一起测序。然后,可以通过已知技术对加条形码的读段进行分选(例如,解复用),并且将其分配给对应的群。
(参见例如,图4)。
[0169]
可以基于选择特定核酸序列来产生条形码。例如,illumina
tm
测序可以利用6个碱基以有效产生48个不同的条形码。ion torrent公司测序仪(ion torrent sequencer)(例如,ion proton
tm
测序仪或ion pgm
tm
测序仪)可以利用6个碱基以产生16个条形码。在一些实施例中,可以向条形码的产生应用规则,即使在测序期间出现两个误差时,所述规则也允许正确鉴定单个条形码。加条形码例如在美国专利第7,902,122号和美国专利公开2009/0098555中描述。通过引物延伸,例如通过pcr进行的条形码掺入可以使用美国专利第5,935,793号或us 2010/0227329中描述的方法进行。在一些实施例中,可以通过使用连接将条形码掺入到核酸中,之后可以进行扩增;例如,美国专利第5,858,656号、第6,261,782号、美国专利公开2011/0319290或美国专利公开2012/0028814中所述的方法可以与本发明一起使用。在一些实施例中,可以使用一或多个条形码,例如,美国专利公开2007/0020640、美国专利公开2009/0068645、美国专利公开2010/0273219、美国专利公开2011/0015096或美国专利公开2011/0257031中所描述的。
[0170]
本领域的技术人员将认识到,可以通过使用合成长读段技术来复制和/或潜在地改进如以上所描述的筒仓池的核酸测序。在一些实施例中,本公开的方法可以与“染色质捕获”技术组合,如在us 2018/0119203、us 2019/0241933、us 9,715,573、us 10,457,934和us 10,526,641中公开的技术,这些专利出于所有目的通过引用并入本文。在一些实施例中,样品的加条形码和/或染色捕获可以通过本领域的技术人员已知的或者另外在本文档中描述的可商购的机器人(例如,液体处理器,如tecan)来自动化。
[0171]
不管条形码的确切实施方案如何,所得经数字组装的文库仍应满足以上所讨论的数字文库的限制。在一些实施例中,用条形码产生的数字环境或宏基因组文库表现出的n50应为至少10kb、11kb、12kb、13kb、14kb或15kb。
[0172]
宏基因组文库产生-排列文库
[0173]
在一些实施例中,本公开教示了产生多基因簇特征集数字宏基因组文库的物理(dna储备)拷贝的方法。在一些实施例中,物理文库拷贝提供数字存储的经组装的序列的生物备份拷贝。在一些实施例中,物理文库可以用于对一或多个筒仓池或条形码群进行进一步测序以增强经测序的文库(例如,通过增加数据库的一或多个部分的序列覆盖率)。
[0174]
在一些实施例中,物理文库提供用于克隆和研究通过本公开的系统和方法鉴定的mgc的机制。也就是说,在一些实施例中,多基因簇特征集数字宏基因组文库内的每个序列与物理文库内相关dna可以被访问的位置相关联。
[0175]
因此,在一些实施例中,通过以上方法产生的粘粒筒仓池储存在大肠杆菌的包括粘粒的甘油储备中。在一些实施例中,通过以上方法产生的粘粒筒仓池以单独的dna储备的形式储存。在一些实施例中,通过以上方法产生的粘粒筒仓池以微生物的包括所汇集的粘粒的甘油储备的形式储存。在一些实施例中,物理文库以96孔格式储存,以便于储存和访问。(参见图2的步骤1和图16)。这些物理文库在本文中被称为“宏基因组物理文库”或“环境物理文库”,这取决于其序列来源。
[0176]
产生数字宏基因组文库的方法-文库制备和测序
[0177]
在一些实施例中,单独制备了以上产生的所得筒仓池(或粘粒或微型筒仓池)以供测序。许多用于由dna制备测序文库的试剂盒可从许多供应商商购获得。试剂盒可用于制备
从微克直到皮克数量的起始材料的文库。然而,较高数量的起始材料需要较少的扩增并且因此可以改善文库复杂度。
[0178]
除了因美纳公司的nextera prep,文库制备通常需要:(i)断裂,(ii)端部修复,(iii)5'主要端部磷酸化,(iv)3'端部a加尾以促进与测序衔接子的连接,(v)衔接子连接以及(vi)任选地一些数量的pcr循环以富集具有与两个端部连接的衔接子的产物。ion torrent公司工作流的主要区别在于使用到不同的衔接子序列的平末端连接。
[0179]
为了促进多路复用,每个样品可以使用不同的加条形码的衔接子。可替代地,可以在pcr扩增步骤中通过使用不同的加条形码的pcr引物引入条形码以扩增不同的样品。具有加条形码的衔接子和pcr引物的高质量试剂可从许多供应商以试剂盒的形式容易获得。然而,dna文库构建的所有组分现在从衔接子到酶都被良好记录,并且可以很容易地组装到“家酿(home-brew)”文库制备试剂盒中。
[0180]
替代性方法是nextera dna样品制备试剂盒(因美纳公司),其通过使用转座酶以在被称为“加标记(tagmentation)”的单管反应中同时将dna片段化并对dna加标记来制备基因组dna文库。经工程化的酶具有双重活性;将dna片段化并且同时向片段的两个端部添加特定衔接子。这些衔接子序列用于通过pcr扩增插入dna。pcr反应还会添加索引(条形码)序列。制备程序通过将dna断裂、端部修复和衔接子连接组合到单个步骤中改进了传统方案。与机械断裂方法相比,此方案对dna输入的量非常敏感。为了获得分开适当距离的转座事件,转座酶复合物与样品dna的比率可能很重要。由于片段大小还取决于反应效率,因此应严格控制如温度和反应时间等所有反应参数,以获得最佳结果。
[0181]
许多dna测序技术是本领域已知的,包含基于荧光的测序方法(参见例如比伦(birren)等人,分析dna的基因组分析(genome analysis analyzing dna),1,纽约冷泉港(cold spring harbor,n.y.))。在一些实施例中,利用了本领域所理解的自动化测序技术。在一些实施例中,可以利用分区的扩增子的并行测序(pct公开第wo 2006084132号)。在一些实施例中,dna测序是通过并行寡核苷酸延伸实现的(参见例如美国专利第5,750,341号;第6,306,597号)。测序技术的另外的实例包含church polony技术(米特拉(mitra)等人,2003,分析生物化学(analytical biochemistry)320,55-65;申杜雷(shendure)等人,2005科学(science)309,1728-1732;美国专利第6,432,360号、第6,485,944号、第6,511,803号)、454微微量焦磷酸测序技术(玛格丽特(margulies)等人,2005自然(nature)437,376-380;us 20050130173)、solexa单碱基加成技术(贝内特等人,2005,药物基因组学(pharmacogenomics),6,373-382;美国专利第6,787,308号;第6,833,246号)、lynx大规模并行签名测序技术(布伦纳(brenner)等人,(2000).自然生物技术(nat.biotechnol.)18:630-634;美国专利第5,695,934号;第5,714,330号)以及adessi pcr菌落技术(阿德西(adessi)等人(2000)核酸研究28,e87;wo 00018957)。
[0182]
下一代测序(ngs)方法共享大规模并行高通量策略的共同特征,其目标是与旧测序方法相比降低成本(参见例如沃克尔丁(voelkerding)等人,临床化学(clinical chem.),55:641-658,2009;麦克莱恩(maclean)等人,自然综述:微生物学(nature rev.microbio),7-287-296;每个文献都通过引用以其整体并入本文)。ngs方法可以广泛地分为典型地使用模板扩增的那些方法和不使用模板扩增的那些方法。需要扩增的方法包含由罗氏公司(roche)商业化为454技术平台的焦磷酸测序(例如,gs 20和gs flx),由因美纳
公司商业化的solexa平台,以及由应用生物系统公司(applied biosystems)商业化的支持寡核苷酸连接和检测(solid)平台。非扩增方法,也被称为单分子测序,通过分别地由helicos生物科学公司(helicos biosciences)商业化的heliscope平台和由visigen公司(visigen)、牛津纳米孔技术有限公司(oxford nanopore technologies ltd.)、生命技术公司/ion torrent公司和太平洋生物科学公司(pacific biosciences)商业化的新兴平台例示。
[0183]
在焦磷酸测序(美国专利第6,210,891号;第6,258,568号)中,模板dna被片段化、端部修复、与衔接子连接,并且通过用承载与衔接子互补的寡核苷酸的珠粒捕获单个模板分子进行原位克隆扩增。每个承载单个模板类型的珠粒被分室成油包水型微泡,并且使用被称为乳液pcr的技术对模板进行克隆扩增。在扩增之后破坏乳液,并且将珠粒沉积到在测序反应期间用作流动单元格的微微滴定板的单独孔中。在流动单元格中在测序酶和如荧光素酶等发光报告子存在的情况下,四种dntp试剂中的每种试剂的有序迭代引入发生。在将适当的dntp添加到测序引物的3'端部的情况下,所得atp产生会在孔内引起突然发光,所述突然发光是使用ccd相机记录的。可能的是实现大于或等于400个碱基的读段长度,并且可以实现106个序列读段,从而产生至多5亿个碱基对(mb)的序列。
[0184]
在solexa/illumina平台中(沃克尔丁等人,临床化学,55-641-658,2009;麦克莱恩等人,自然综述:微生物学,7
·
'287-296;美国专利第6,833,246号;第7,115,400号;第6,969,488号),以较短长度读段的形式产生测序数据。在这种方法中,单链片段化的dna被端部修复以产生5'-磷酸化平末端,然后进行将单个a碱基添加到片段的3'端部的klenow介导的添加。a-添加促进了t-突出端衔接子寡核苷酸的添加,所述t-突出端衔接子寡核苷酸随后用于将模板-衔接子分子捕获在布满寡核苷酸锚的流动单元格的表面上。锚用作pcr引物,但是由于模板的长度和其与其它附近锚寡核苷酸的邻近度,通过pcr进行的延伸使分子“拱起”以与邻近的锚寡核苷酸杂交,以在流动单元格的表面上形成桥结构。dna的这些环变性并被切割。然后用可逆染料终止子对正向链进行测序。通过检测掺入后的荧光来确定掺入的核苷酸的序列,其中每个荧光团和块在dntp添加的下一次循环之前被去除。序列读段长度范围为36个核苷酸到超过50个核苷酸,其中每次分析运行的总体输出超过10亿个核苷酸对。
[0185]
使用solid技术对核酸分子进行测序(沃克尔丁等人,临床化学,55-641-658,2009;美国专利第5,912,148号;第6,130,073号)还涉及模板断裂、与寡核苷酸衔接子连接、与珠粒附接以及通过乳液pcr进行克隆扩增。在此之后,将承载模板的珠粒固定在玻璃流动单元格的衍生化表面上,并且将与衔接子寡核苷酸互补的引物退火。然而,不是利用此引物进行3'延伸,相反使用此引物以提供5'磷酸基团以与含有两个探针特异性碱基、随后是6个简并碱基和四个荧光标签之一的询问探针连接。在solid系统中,询问探针具有位于每个探针的3'端部处的两个碱基与位于在5'端部处的四个荧光之一的16种可能组合。荧光颜色和因此每个探针的身份,与特定的颜色空间编码方案相对应。多轮(通常为7轮)探针退火、连接和荧光检测之后是变性,并且然后是使用相对于初始引物偏移一个碱基的引物进行的第二轮测序。以这种方式,模板序列可以在在计算上重构,并且模板碱基被询问两次,这使得准确性提高。序列读段长度平均为35个核苷酸,并且每次测序运行的总体输出超过40亿个碱基。
[0186]
在某些实施例中,采用纳米孔测序(参见例如阿斯蒂尔(astier)等人,美国化学会志(j.am.chem.soc.)2006年2月8日;128(5):1705-10)。纳米孔测序背后的理论与在将纳米孔浸入在导电流体中并在跨所述纳米孔施加电势(电压)时发生的情况有关。在这些条件下,可以观察到由于离子通过纳米孔传导而产生的微弱电流,并且电流的量对纳米孔的大小极其敏感。随着核酸的每个碱基通过纳米孔,这导致通过纳米孔的电流的幅值发生变化,由此允许确定dna分子的序列,对于四个碱基中的每个碱基所述变化是不同的。
[0187]
ion torrent技术是基于对在dna聚合期间释放的氢离子的检测进行dna测序的方法(参见例如,科学327(5970):1190(2010);美国专利申请公开第20090026082号、第20090127589号、第20100301398号、第20100197507号、第20100188073号和第20100137143号)。微孔含有要测序的模板dna链。在微孔层下面是超敏感的isfet离子传感器。所有层都容纳在cmos半导体芯片内,这与电子行业中使用的芯片类似。在将dntp掺入到正在生长的互补链中时,会释放氢离子,这触发了超敏感的离子传感器。如果模板序列中存在均聚物重复序列,则将多个dntp分子掺入到单个循环中。这引起对应数量的释放的氢和成比例地更高的电子信号。此技术与其它测序技术的不同之处在于未使用经修饰的核苷酸或光学器件。对于50个碱基读段,ion torrent测序仪的每个碱基准确度为约99.6%,其中每次运行产生了约100mb。读段长度为100个碱基对。长度为5个重复序列的均聚物重复序列的准确度为约98%。离子半导体测序的益处是测序速度快并且前期成本和运营成本低。
[0188]
在一些实施例中,本公开教示了长组装体测序技术的用途。例如,在一些实施例中,本公开教示了pacbio测序和/或纳米孔测序。
[0189]
pacbio smrt技术基于包含带有透明底部的单独微微升大小的孔的专门流动单元格。孔中的每个孔,被称为零模波导(zmw),在底部含有单个固定聚合酶(西蒙
·
阿杜伊(ardui,s.),瓦莱丽
·
雷斯(race,v.),托米
·

·
拉威尔(de ravel,t.),希尔德
·

·
埃施(van esch,h.),康拉德
·
德弗里恩特(devriendt,k.),格特
·
马蒂斯(matthijs,g.),等人(2018b).通过长读段单分子测序检测具有fmr1前突变的女性的agg中断:1年临床经验(detecting agg interruptions in females with a fmr1premutation by long-read single-molecule sequencing:a 1year clinical experience).遗传学前沿(front.genet.)9:150)。这使得在文库制备中循环的单个dna分子(即,smrtbell)在聚合酶将标记的碱基掺入到模板dna上时通过孔前进。碱基的掺入诱导荧光,所述荧光可以通过zmw的透明底部实时记录(马丁
·

·
波拉德(pollard,m.o.),迪普蒂
·
古尔达萨尼(gurdasani,d.),亚历山大
·j·
门策(mentzer,a.j.),塔林
·
波特(porter,t.)和曼金德
·
桑德胡(sandhu,m.s.)(2018)长读段:其目的和地点(long reads:their purpose and place).人类分子遗传学(hum.mol.genet.)27,r234

r241。smrt的平均读段长度最初为仅约1.5kb,并且报告的误差率高,为13%,其特征在于错误插入(毛里西奥
·
奥卡内罗(arneiro,m.o.),卡斯滕
·
拉斯(russ,c.),迈克尔
·g·
罗斯(ross,m.g.),斯泰西
·
加布里埃尔(gabriel,s.b.),乍得
·
努斯鲍姆(nusbaum,c.)和马克
·
德普里斯托(depristo,m.a.)(2012).太平洋生物科学公司用于人类数据中的基因分型和变异发现的测序技术(pacific biosciences sequencing technology for genotyping and variation discovery in human data).bmc基因组学(bmc genomics)13:375.;迈克尔a奎尔(quail,m.a.),米里亚姆
·
史密斯(smith,m.),保罗
·
库普兰(coupland,p.),托马斯
·d·
奥托
(otto,t.d.),西蒙
·r·
哈里斯(harris,s.r.),托马斯
·r·
康纳(connor,t.r.),等人(2012).三个下一代测序平台的故事:ion torrent公司、太平洋生物科学公司和因美纳公司miseq测序仪的比较(a tale of three next generation sequencing platforms:comparison of ion torrent,pacific biosciences and illumina miseq sequencers).bmc基因组学13:341.)。自从其引入以来,smrt技术的读段长度和通量已显著增加。sequel机器的通量可以达到每个smrt细胞》10gb,而rsii和sequel两者的平均读段长度》10kb,其中一些读段跨越》100kb(欧文
·
l
·

·
戴克(van dijk,e.l.),闫亚什奇辛(jaszczyszyn,y.),德尔芬纳昆(naquin,d.)和克劳德
·
瑟姆斯(thermes,c.)(2018).测序技术的第三次革命(the third revolution in sequencing technology).遗传学趋势(trends genet.)34,666

681.)。
[0190]
于2015年引入了利用便携式minion测序仪以及随后的更多高通量桌面型测序仪gridion和promethion通过ont进行的纳米孔测序。纳米孔测序的基本原理是传递dna分子的单个链通过插入到膜中具有附接的酶的用作生物传感器的纳米孔(大卫
·
迪默(deamer,d.),马克
·
艾克森(akeson,m.)和丹尼尔布兰顿(branton,d.)(2016).三十年的纳米孔测序(three decades of nanopore sequencing).自然生物技术(nat.biotechnol.)34,518

524)。测量并放大跨膜的电信号的变化,以便实时确定通过孔的碱基。可以是聚合酶或解旋酶的纳米孔连接的酶与控制其通过的孔运动的多核苷酸紧密结合(马丁
·

·
波拉德,迪普蒂
·
古尔达萨尼,亚历山大
·j·
门策,塔林
·
波特和曼金德
·
桑德胡(2018).长读段:其目的和地点人类分子遗传学27,r234

r241)。对于纳米孔测序,除了分析的dna片段的大小之外,对读段长度没有明确的限制。平均而言,ont单分子读段的长度》10kb,但对于》1mb的超过smrt的一些单独读段长度而言可以达到超长(米腾杰恩(jain,m.),谢尔盖
·
科伦(koren,s.),卡伦
·h·
米加(miga,k.h.),乔什
·
奎克(quick,j.),亚瑟
·c·
兰德(rand,a.c.),托马斯
·
萨萨尼(sasani,t.a.),等人(2018).具有超长读段的人类基因组的纳米孔测序和组装(nanopore sequencing and assembly of a human genome with ultra-long reads).自然生物技术36,338-345)。此外,ont gridion和promethion测序仪每次运行的通量也高于pacbio(分别地每次运行至多100gb和6tb)(欧文
·
l
·

·
戴克,闫亚什奇辛,德尔芬纳昆和克劳德
·
瑟姆斯)(2018).测序技术的第三次革命.遗传学趋势.34,666

681)。
[0191]
本公开还教示了选自由hi-c、3c、4c、5c、tla、tcc和原位hi-c组成的组的技术的用途。例如,dna序列读段将dna,即固定剂温育一定时间段,以使基因组dna原位交联,并由此形成交联的基因组dna;将交联的基因组dna片段化;连接交联的且片段化的基因组dna以形成近侧连接的复合物;剪切近侧连接的复合物以形成近侧连接的dna片段;以及获得多个近侧连接的dna片段以形成文库,由此获得多个基因组dna片段。合成长读段的更多信息参见沙尼卡
·
阿马拉辛格(amarasinghe,s.l.),苏士安(su,s.),董学义(dong,x.)等人长读段测序数据分析的机遇与挑战(opportunities and challenges in long-read sequencing data analysis).基因组生物学(genome biol)21,30(2020)。
[0192]
在一些实施例中,本公开教示了用于对宏基因组文库进行测序的杂交方法。也就是说,在一些实施例中,本公开教示了用两种或更多种测序技术(例如,一种短读段和一种长读段)进行测序。在一些实施例中,使用长读段测序可以通过提供dna区的参考序列来改进文库的后续组装,在所述区中组装将不会以其它方式在仅短读段的情况下进行。
[0193]
产生数字宏基因组文库的方法-测序后处理和顺序组装
[0194]
在一些实施例中,本公开教示了一种用于产生长组装体经测序的宏基因组文库的顺序序列组装方法。序列组装描述了将从测序机器获得的各个序列读段一起拼接成表示原始dna分子的更长读段的过程。组装与短读段ngs平台具体相关,在所述平台中序列范围在50-500个碱基范围内。
[0195]
在一些实施例中,从测序步骤获得的序列可以直接组装。在一些实施例中,来自测序步骤的序列经历根据测序制造商的说明或根据本领域已知的方法进行的一些处理。例如,在一些实施例中,修整来自所汇集的样品的读段以去除任何衔接子/条形码序列并进行质量过滤。在一些实施例中,处理来自一些测序仪(例如,)的序列以合并成对端部读段。在一些实施例中,还去除了污染序列(例如克隆载体、宿主基因组)。在一些实施例中,本公开的方法与任何适用的后ngs序列处理工具兼容。在一些实施例中,通过bbtools(bbmap

bushnell b.

sourceforge.net/projects/bbmap/)对本公开的序列进行处理。
[0196]
序列组装技术可以被广泛分为两个类别:比较组装和新发组装。本领域的技术人员将熟悉基因组组装器的基本原理,所述基本原理包含重叠-布局-一致性、比对-布局-一致性、贪婪方法、基于图的方案和欧拉路径(比拉尔瓦吉德(bilal wajid),埃尔钦塞佩丁(erchin serpedin),用于下一代测序仪的基因组组装器的一般算法特征综述(review of general algorithmic features for genome assemblers for next generation sequencers,genomics),基因组学、蛋白质组学和生物信息学(proteomics&bioinformatics),第10卷,第2期,2012,第58-73页)。
[0197]
根据一些实施例,宏基因组文库序列的组装可以是使用本领域已知的任何合适的序列组装器组装的新发组装,所述组装器包含但不限于abyss、allpaths-lg、amos、arapan-m、arapan-s、celera wga assembler/cabog、clc genomics workbench和clc assembly cell、cortex、dna baser、dna dragon、dnanexus、edena、euler、euler-sr、forge、geneious、graph constructor、idba、idba-ud、ligr assembler、masurca、mira、nextgene、newbler、padena、pasha、phrap、tigr assembler、ray、sequecher、seqman ngen、sga、sgarcgs、sopra、sparseassembler、ssake、soapdenovo、spades、staden gap4包、taipan、vcake、phusion组装器、qsra和velvet。
[0198]
迄今为止可用的序列组装器的非限制性列表在表2中提供。
[0199]
表2-新发序列组装器的非限制性列表
[0200]
[0201]
[0202]
[0203]
[0204]
[0205][0206][0207]
在一些实施例中,本公开教示了包括至少第一组装和第二组装的顺序组装技术。
在一些实施例中,所述第一组装是来自每个筒仓池的序列的组装(或者如果加条形码的话,则是组装成任何不同地加条形码的序列群)。该第一组装因此仅通过组合从同一筒仓池(或加条形码的群)中获得的读段来构建序列。此第一组装受益于相对较低复杂度的读段池,并且因此能够以更高的置信度比对序列(并且因此产生与更复杂的池的组装体相比更长的组装体)。来自第一组装的所得序列由多个微型宏基因组组成,每个微型宏基因组与初始大肠杆菌粘粒文库中的一或多个粘粒的一部分相对应。(参见图15)。
[0208]
在一些实施例中,来自第一组装的微型宏基因组产生n50长度为约5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb、36kb、37kb、38kb、39kb或40kb的数字文库,包含其间的所有范围和子范围。因此,在一些实施例中,来自第一组装的微型宏基因组产生n50长度为至少5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb、36kb、37kb、38kb、39kb或40kb的数字文库。
[0209]
在一些实施例中,来自第一组装的所得组装体然后被用于在第二组装中制备跨不同筒仓池(或加条形码的群,如果使用了条形码的话)的更长组装体。如以上所描述的,用于第一组装的筒仓池(或加条形码的群)中的每个筒仓池是起始宏基因组dna样品的较小部分。因此,可能的是并且甚至很可能的是包含在一个筒仓池/条形码群中的序列可以与来自一或多个其它筒仓池/条形码群的序列相对应(即,组装、比对)。因此,在一些实施例中,来自第一组装的经组装的微型宏基因组中的每个经组装的微型基因组以第二组装的输入的形式提供。在一些实施例中,来自第一组装的微型基因组可以进行组合并且产生更长的序列组装体。(参见图15)。在一些实施例中,第二组装还包括组装来自筒仓池/条形码群中的每个筒仓池/条形码群的剩余的任何未经组装的读段。
[0210]
在一些实施例中,所得跨筒仓/条形码群组装体产生甚至大型的序列串。来自第一组装步骤和第二组装步骤的所得经组装的序列被填充到数据库中并且被称为“数字宏基因组文库”或“数字环境文库”,这取决于序列的来源。
[0211]
在一些实施例中,所得数字宏基因组文库或所得数字环境文库包括约15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb、36kb、37kb、38kb、39kb、40kb、41kb、42kb、43kb、44kb、45kb、46kb、47kb、48kb、49kb、50kb、51kb、52kb、53kb、54kb、55kb、56kb、57kb、58kb、59kb、60kb、61kb、62kb、63kb、64kb、65kb、66kb、67kb、68kb、69kb、70kb、71kb、72kb、73kb、74kb、75kb、76kb、77kb、78kb、79kb、80kb、81kb、82kb、83kb、84kb、85kb、86kb、87kb、88kb、89kb、90kb、91kb、92kb、93kb、94kb、95kb、96kb、97kb、98kb、99kb、100kb、101kb、102kb、103kb、104kb、105kb、106kb、107kb、108kb、109kb、110kb、111kb、112kb、113kb、114kb、115kb、116kb、117kb、118kb、119kb、120kb、121kb、122kb、123kb、124kb、125kb、126kb、127kb、128kb、129kb或130kb的平均序列长度,包含其间的所有范围和子范围。在一些实施例中,数字宏基因组文库的平均序列长度为32kb。
[0212]
在一些实施例中,所得数字宏基因组文库或所得数字环境文库包括的n50为约10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、23kb、24kb、25kb、26kb、27kb、28kb、29kb、30kb、31kb、32kb、33kb、34kb、35kb、36kb、37kb、38kb、39kb、
40kb、41kb、42kb、43kb、44kb、45kb、46kb、47kb、48kb、49kb、50kb、51kb、52kb、53kb、54kb、55kb、56kb、57kb、58kb、59kb、60kb、61kb、62kb、63kb、64kb、65kb、66kb、67kb、68kb、69kb、70kb、71kb、72kb、73kb、74kb、75kb、76kb、77kb、78kb、79kb、80kb、81kb、82kb、83kb、84kb、85kb、86kb、87kb、88kb、89kb、90kb、91kb、92kb、93kb、94kb、95kb、96kb、97kb、98kb、99kb、100kb、101kb、102kb、103kb、104kb、105kb、106kb、107kb、108kb、109kb、110kb、111kb、112kb、113kb、114kb、115kb、116kb、117kb、118kb、119kb、120kb、121kb、122kb、123kb、124kb、125kb、126kb、127kb、128kb、129kb或130kb,包含其间的所有范围和子范围。在一些实施例中,所得数字宏基因组文库或所得数字环境文库包括的n50为至少15kb、16kb、17kb、18kb、19kb或20kb。
[0213]
在一些实施例中,本公开教示了本文所描述的物理和/或数字序列文库表示其从中提取的环境样品。在一些实施例中,数字序列文库可以通过评审文库内经组装的序列的预测的分类学分类来评估。本领域的技术人员将熟悉评估序列和经组装的文库内的分类多样性的方法。在一些实施例中,数字宏基因组文库的分类表征可以通过克朗图来完成。提供了分类可以如何进行的说明性描述。经组装的重叠群的核苷酸序列用作到软件工具kaiju的输入(github.com/bioinformatics-centre/kaiju;彼得
·
门泽尔(menzel,p.)(2016)“使用kaiju对宏基因组进行快速且敏感的分类学分类(fast and sensitive taxonomic classification formetagenomics with kaiju).”自然通讯(nat.commun.)7:11257)。kaiju工具预测重叠群上所有六个阅读框中的orf,并且使用预测的orf以进行针对参考数据库的同源性搜索。基于最近公共祖先(lca),基于源重叠群序列上包含的orf中的每个orf的分类的分配,将分类学分配给源重叠群序列。使用的参考数据库是ncbi nr数据库中的所有蛋白质序列。这包含来自所有经培养的和环境细菌、古生菌以及真核生物的序列数据。使用这种方法确定的多样性提供了对在阵列化的宏基因组文库中捕获的环境dna的组成的概述。
[0214]
对编码天然产物的簇的计算机模拟鉴定
[0215]
微生物中的许多天然产物是通过多基因簇(mgc)编码的机器产生的,所述多基因簇除了编码生物合成基因之外,典型地还编码表达控制、自身抗性和输出(克里斯托弗
·
t
·
沃尔什(walsh ct)和迈克尔
·a·
菲施巴赫(fischbach ma)2010.天然产物2.0版:将基因连接到分子(natural products version 2.0:connecting genes to molecules).美国化学学会杂志(j am chem soc)132:2469

2493.;科特曼(kottmann)等人,2015.关于生物合成基因簇的最少信息(minimum information about a biosynthetic gene cluster).自然化学生物学11:625

631;埃洛迪
·
坦科尼(tenconi e.)和塞巴斯蒂安
·
里加利(rigali s.)2018.放线菌中对dna损伤性抗肿瘤抗生素的自身抗性机制(self-resistance mechanisms to dna-damaging antitumor antibiotics in actinobacteria).微生物学当前观点45:100

108)。跨产物/物种的多基因簇的比较也已经揭示了一系列能够在其它dna调节和生物合成基因的背景之中鉴定mgc的各个类别的保守的结构特征。本公开的发明利用编码天然产物的mgc的保守结构性质、序列性质和组织性质来产生新的计算机模拟天然产物发现工作流。(参见图1)。在本公开的计算机模拟方法中可以广泛地分类为1)基于抗性基因的mgc搜索,2)非靶向抗性信号mgc搜索,以及3)过渡mgc搜索。这些方法中的每种方法在以下更详细讨论。
[0216]
在一些实施例中,本公开的计算机模拟方法(即,以上讨论的方法1-3)能够利用数字宏基因组文库或数字环境文库(并探索其多样性)。本文档概述了使用宏基因组文库进行天然产物发现的许多优势。然而,在一些实施例中,本公开的计算机模拟方法还可以应用于其它序列文库,如表示菌株集合的文库或其它私人和可公开获得的数据库或数字环境文库,如本公开的先前部分所描述的。因此,本领域的技术人员将认识到以下在宏基因组文库的上下文中对方法的描述还可以应用于其它序列文库。因此,还固有地公开了方法对这些文库的应用。
[0217]
编码天然产物的mgc的计算机模拟发现-抗性基因搜索
[0218]
理论基础
[0219]
在一些实施例中,本公开教示了用于mgc的基于抗性的搜索策略。这些策略很大程度上基于天然产物进化的抗性假设。
[0220]
抗性假设说明,在mgc内通常存在至少一种针对生物体产生的潜在有害的天然产物(“np”)的基因赋予的抗性。不希望受任何一种理论的束缚,本发明人假设mgc内抗性基因的存在是用于确保产生天然产物的微生物具有将新np递送到其环境的途径,或者以其它方式减轻因其积累而产生的任何负面影响的进化式自我防御机制。此假设还假设大多数(但不是全部)抗性基因将位于mgc内或者与mgc高度邻近。这种基因邻近度增加了抗性基因将与编码天然产物的mgc共遗传(并且潜在地共调节)的机会。
[0221]
抗性假设涵盖可以分类为四种显著机制的多种抗性策略。(参见图5)。例如,在一些实施例中,抗性是基于np输出(外排)的抗性,如通过从链霉菌输出四环素所例示的。在一些实施例中,抗性是基于np修饰的抗性,如通过对链霉菌中的氯霉素(chloramphenicol)进行的乙酰转移酶修饰所例示的。在一些实施例中,抗性是基于靶修饰的抗性,如通过对链霉菌中的氨基糖苷类进行的核糖体甲基化所例示的。在一些实施例中,抗性是基于靶标变体的抗性,如通过编码赋予针对利福霉素拟无枝酸菌(amycolatopsis rifamycinica)中的利福霉素(rifamycin)的抗性的rna聚合酶变体所例示的。本领域的技术人员将认识到,这些机制是说明性的,并且不意味着限制本发明的范围。因此,在一些实施例中,本技术中对抗性基因的提及将被广泛地理解为涵盖落入以上讨论的机制中的任何机制或导致抗性基因与其编码np的mgc处于邻近位置的其它机制下的基因。
[0222]
作为抗性假设中基于靶标变体的策略的延伸,复制假设说明mgc内的抗性基因将与生物体中执行主要功能的必需基因共享序列相似性。
[0223]
复制假设源于这样的观察,即如dna旋转酶等许多抗生素的共同靶位点也存在于生产微生物中。因此,为了保护自身,生产微生物含有具有轻微修饰的靶序列的拷贝,所述轻微修饰使得改变的蛋白质对有毒天然产物的作用有抗性。在一些实施例中,修饰影响天然产物与蛋白质结合的能力,但不影响蛋白质在细胞中执行其正常作用的能力。(参见例如图17所示的环氧霉素(expoxomicin)抗性,以及以下讨论的实例)。
[0224]
例如,热带盐孢菌(salinispora tropica)产生用于抑制蛋白酶体的盐孢菌酰胺a(salinosporamide a)。然而,蛋白酶体也存在于热带盐孢菌中。编码盐孢菌酰胺a的基因簇包含sali基因,所述基因与strop_2244上的蛋白酶体β亚基基因共享58%序列同一性。然而,在蛋白质水平上,sali亚基和典型β亚基的不同之处仅在于位置45和49处的两个氨基酸。然而,当与α亚基组合时,sali蛋白形成不能通过盐孢菌酰胺a结合的蛋白酶体复合物,
由此充当针对盐孢菌酰胺a的基于有效靶标变体的抗性(安德鲁
·j·
羽衣甘蓝(kale aj),瑞恩
·
p
·
麦格林奇(mcglinchey rp),安娜
·
莱克纳(lechner a),布拉德利
·s·
摩尔(moore bs.)对天然蛋白酶体抑制剂盐孢菌酰胺a的细菌性自身抗性(bacterial self-resistance to the natural proteasome inhibitor salinosporamide a).美国化学会生物化学(acs chem biol.)2011;6(11):1257

1264)。
[0225]
在其核心处,基于靶标变体的策略和复制假设描述了非常相似的想法。然而,“基于靶标变体的策略”是指自我保护机制,而复制假设描述了mgc的可以用于增强mgc预测的一种可能性质。事实上,本公开的某些实施例基于这样的假设,即mgc内编码的靶标变体将与不仅存在于生产微生物中而且存在于其它生物体中的必需基因表现出同源性。
[0226]
在一些实施例中,本公开因此教示了“抗性基因”跨不同生物体的保守性表明保守的基因可以是由mgc编码的天然产物的靶标。在一些实施例中,本公开的系统和方法利用微生物mgc抗性基因与其它生物体中的必需基因之间的关系来设计集中于特定应用目标的天然产物发现程序。
[0227]
例如,本技术内的实例使用在人类癌症中鉴定的抗性基因的相似性以基于靶向同一必需基因的可能性来鉴定具有潜在抗癌性质的新颖天然产物。(参见实施例2和图17)。
[0228]
基于抗性基因假设的特定发现工作流在以下更详细讨论。
[0229]
抗性基因搜索工作流
[0230]
在一些实施例中,本公开教示了用于搜索数字宏基因组文库并且鉴定所关注天然产物的计算机模拟方法。在一些实施例中,本公开的所述方法包括以下步骤:a)查询数字宏基因组文库中指示天然产物多基因簇特征集的信号;b)提供所述查询的输出作为多个信号相关联的(多基因簇)数字特征集;c)通过以下确定生物相关性并且将所述生物相关性分配到所述信号相关联的多基因簇数字特征集:i)根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集;和/或ii)根据所述信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能,以由此鉴定在计算上确定的生物抗性基因;以及d)基于在计算上确定的生物抗性基因位于包括经数字组装的生物合成操纵子的在计算上确定的天然产物多基因簇特征集的阈值参数内来鉴定所关注天然产物。
[0231]
在一些实施例中,抗性基因搜索涉及三个步骤:鉴定候选抗性基因的步骤;鉴定候选基因簇的步骤;最后确定所述候选抗性基因和所述候选基因簇在dna片段内的邻近度。本领域的技术人员将认识到,对候选抗性基因和候选基因簇的鉴定可以以任何顺序进行。两种可能的顺序涵盖在本权利要求书中并且在以下更详细讨论。
[0232]
本公开的抗性基因mgc搜索的工作流的实施例的视觉表示在图6中提供。简而言之,查询数字宏基因组文库中已知或预测的抗性基因的同源物(即,抗性基因同源性,与步骤a)相对应)的存在。即,在一些实施例中,初始的“a)查询数字宏基因组文库中指示天然产物多基因簇特征集的信号”包括查询数字宏基因组文库中候选抗性基因的存在。
[0233]
包括所鉴定的候选抗性基因的数字dna序列命中被任选地过滤,并且然后被分析其中编码天然产物的多基因簇的存在(即,簇预测,与c)i)步骤相对应)。即,在一些实施例中,所述“确定生物相关性并且将所述生物相关性分配到信号相关联的多基因簇数字特征集”包括鉴定候选基因簇。
[0234]
最后,相比于所鉴定的候选簇的位置分析所鉴定的候选抗性基因的位置,由此鉴定候选抗性基因位于簇的预测的边界内或位于离所述边界预定距离(即,邻近度分析,与步骤d)相对应)内的候选簇。
[0235]
如以上提到的,本领域的技术人员将认识到,对候选簇和候选耐药性基因的鉴定可以以任何顺序进行。例如,在一些实施例中,查询数字宏基因组文库中所有预测的编码天然产物的多基因簇(候选簇,与步骤a)相对应)的存在。即,在一些实施例中,初始的a)“查询数字宏基因组文库中指示天然产物多基因簇特征集的信号”包括查询数字宏基因组文库中候选抗性基因的存在。
[0236]
进一步查询包括预测的编码天然产物的多基因簇的数字dna序列命中中已知或预测的抗性基因的同源物(即,候选抗性基因,与步骤c)ii)相对应)的存在。即,在一些实施例中,所述“确定生物相关性并且将所述生物相关性分配到信号相关联的多基因簇数字特征集”包括鉴定候选抗性基因。
[0237]
最后,相比于所鉴定的候选簇的位置分析所鉴定的候选抗性基因的位置,由此鉴定候选抗性基因位于簇的预测的边界内或位于离所述边界预定距离(即,邻近度分析,与步骤d相对应)内的候选簇。这些步骤中的每个步骤在以下更详细讨论。
[0238]
选择用于抗性基因搜索的靶基因
[0239]
在一些实施例中,发现平台的初始步骤是设置目标,并且鉴定被设计为鉴定期望天然产物的抗性基因(图7)。在一些实施例中,本公开的方法可以被定制为搜索编码特定种类的天然产物的mgc。例如,在一些实施例中,目标可以是鉴定可以与人类蛋白质(即,靶基因/蛋白质)相互作用的天然产物。在此说明性实例中,查询数字宏基因组文库中人类蛋白质的在原核生物中非常保守的同源物的存在(即,查询抗性基因的数据库)。举例来说,在一些实施例中,当前公开的方法可以用于使用抗性基因搜索来搜索编码细菌性编码天然产物的人蛋白酶体抑制剂。
[0240]
因此,当前公开的方法允许首次探索和鉴定用于特定治疗靶标的新天然产物。例如,如果目标是鉴定能够调节与癌症相关的人类细胞周期基因的活性的天然产物,则靶基因/蛋白质将是人类细胞周期基因和相关基因。即,在一些实施例中,对能够调节细胞周期基因的活性的天然产物的搜索将利用预测模型(例如hmm,对人类细胞周期基因以及(可能地)其它相关基因(例如,同一pfam中的或科学报告公认的位于同一种类内的基因)进行训练)。在一些实施例中,将mgc发现工作流应用于当前公开的长组装体文库表现出意外的允许首次探索宏基因组样品的广泛基因多样性的协同性。事实上,实验表明应用发现工作流在鉴定mgcs方面的效率是其它大序列数据库的效率的10倍、20倍、30倍、40倍或50倍以上。
[0241]
在另一说明性实例中,目标可以是鉴定已知抗生素的变体。在这些实施例中,可以查询数字宏基因组文库中负责已知抗生素的抗性的基因(例如,用于氨苄西林抗性的tem-1b-内酰胺酶)的同源物的存在。基于与负责已知抗生素的抗性的基因共享同源性的候选抗性基因的存在,将预期所得命中富集在编码抗生素变体的mgc中。因此,在一些实施例中,本公开的抗性基因搜索鉴定编码靶向抗性基因(或其同源物)或其影响通过抗性基因的存在而降低/缓解的天然产物的mgc。
[0242]
然而,本领域的技术人员将认识到本公开的方法可以应用任何物种的基因/蛋白质,包含源自植物、真菌和细菌的那些基因/蛋白质。
[0243]
在一些实施例中,用于抗性基因搜索的靶基因序列为完整基因序列(例如,从转录起始位点到终止)。在一些实施例中,用于抗性基因搜索的靶基因序列为基因的编码序列(例如,所表达的基因减utr)。在一些实施例中,用于抗性基因搜索的靶基因序列为部分基因,如包括一或多个相关结构域的那些基因。在一些实施例中,用于抗性基因搜索的靶基因序列为蛋白质序列,如完整表达的蛋白质的序列。在一些实施例中,用于抗性基因搜索的靶基因序列为蛋白质序列,如完整表达的蛋白质的序列。在一些实施例中,用于抗性基因搜索的靶基因序列为部分蛋白质序列,如属于特定所关注蛋白质结构域的那些序列。因此,如果靶抗性基因为具有非常保守的dna结合结构域的蛋白质,则本公开的抗性基因搜索与整个蛋白质序列相反可以集中于保守的dna结合结构域。
[0244]
在一些实施例中,本公开教示了使用以下计算机模拟工作流选择抗性基因搜索靶标:1)鉴定期望天然产物靶基因(例如,假设受已知或预测的天然产物影响的基因);2)鉴定期望天然产物靶基因(例如,uniprot中存在的)的共同直系同源物群(cog);3)确定所鉴定的cog是否含有微生物序列;以及4)如果是的话,将靶基因与来自同一cog的微生物序列进行blast比较。在一些实施例中,所得blast命中:5)进一步评估为保守(例如,《.001的e值指示靶基因/蛋白质与微生物基因/蛋白质之间存在显著保守)。在一些实施例中,本公开教示了通过blast选择基因,如以上所述。在一些实施例中,本公开教示了仅选择e值《.001的blast命中。在一些实施例中,在本文档中所述的mgc搜索工作流中使用所选靶基因。
[0245]
抗性基因同源性搜索
[0246]
在一些实施例中,本公开教示了查询数字宏基因组文库中指示天然产物多基因簇特征集的信号。在一些实施例中,所述查询步骤包括搜索数字宏基因组文库中已知或预测的抗性基因(均被称为靶抗性基因)的同源物,由此鉴定候选抗性基因。如以上指出的,在一些实施例中,抗性基因搜索可以之后在方法中在用于将生物相关性分配到信号相关联的多基因簇数字特征集的步骤中进行。
[0247]
在一些实施例中,使用传统搜索方法进行对抗性基因的搜索。例如,在一些实施例中,基因序列同一性鉴定候选抗性基因。在一些实施例中,可以通过本领域的普通技术人员已知的任何方法计算相关多肽或核酸序列的身份。两种序列(例如,核酸序列或氨基酸序列)的“同一性百分比”可以例如使用卡尔林(karlin)和阿特舒尔(altschul),美国国家科学院院刊,87:2264-68,1990的算法来确定,可以如卡尔林和阿特舒尔,美国国家科学院院刊,90:5873-77,1993中那样进行修改。将这种算法并入到阿特舒尔等人,分子生物学杂志(j.mol.biol.),215:403-10,1990的和程序(2.0版或之后版本)中。蛋白质搜索可以例如用xblast程序,评分=50,字长=3进行,以获得与本文描述的蛋白质同源的氨基酸序列。当两个序列之间存在空位时,可以利用例如阿特舒尔等人,核酸研究,25(17):3389-3402,1997中描述的带空位当利用和带空位程序时,可以使用相应程序(例如,和)的默认参数,或者可以如本领域的普通技术人员所理解的适当调整参数。
[0248]
在一些实施例中,候选抗性基因与靶抗性基因表现出至少20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、
hmm模型鉴定候选抗性基因的用途。这些hmm可用于各种类型的蛋白质和蛋白质结构域,并且可以直接应用于本公开的数字宏基因组文库。
[0255]
tigrfam是由策划的多序列比对、用于蛋白质序列分类的隐马尔可夫模型(hmm)以及能够搜索同源蛋白质的相关联的信息组成的资源。开始于发行版10.0,tigrfam模型使用提供了优越的搜索速度和搜索敏感度的hmmer3(丹尼尔
·
h.哈夫特(haft dh),等人,tigrfam:用于蛋白质的功能性鉴定的蛋白质家族资源(tigrfams:a protein family resource for the functional identification of proteins.)核酸研究2001-01-01;29.1:41-3)。
[0256]
pfam类似地含有基于完整蛋白质结构域的多个比对和基于隐马尔可夫模型的谱(hmm谱)。结构域边界、家族成员和比对的定义是基于专门指示、序列相似性、其它蛋白质家族数据库和hmm谱正确鉴定和比对成员的能力而半自动完成的(埃里克l.索诺翰莫尔(sonnhammer el),肖恩
·r·
艾迪(eddy sr),伊万伯尼(birney e),亚历克斯
·
贝特曼(bateman a),理查德德宾(durbin r.)pfam:蛋白质结构域的多序列比对和hmm谱(pfam:multiple sequence alignments and hmm-profiles of protein domains.)核酸研究1998;26(1):320-322)。用于候选抗性蛋白的hmm搜索的说明性实例在本文档的稍后部分中提供。
[0257]
抗性基因搜索输出和任选过滤
[0258]
在一些实施例中,来自抗性基因同源性搜索的输出是来自数字宏基因组文库(即,信号相关联的多基因簇数字特征集)的经组装的序列内含有的多个候选抗性基因序列。在一些实施例中,每个候选抗性基因序列与和搜索模型的预测准确的可能性相关的置信度评分相关联。因此,候选抗性基因序列可以由模型(例如,机器学习模型,例如,hmm)基于分配给候选序列的置信度评分来鉴定。
[0259]
在一些实施例中,本公开教示了保留所有预测的基因候选序列以用于下一工作流步骤。在一些实施例中,本公开教示了使用预先选择的置信度截止值,使得仅具有最佳置信度的命中进行到随后的分析步骤。置信度评分截止值可以基于数据库的大小和方法的特定实施方案的其它特征而变化。可替代地,方法或系统可以采用用于在候选基因与非候选基因之间进行区分的其它方式。在一些实施例中,按候选抗性基因序列的置信度评分以最高置信度到最低置信度的顺序对候选抗性基因序列进行排序,并且然后采用截止值以去除低于特定置信度阈值的任何序列。例如,如果置信度评分为e值,则可以按e值上升的顺序对候选序列进行排序:最低e值(最高置信度)到最高e值(最低置信度)。然后,可以从候选序列池中去除指定了高于所选阈值的e值的任何序列。类似地,如果置信度评分为比特评分,则候选序列可以按比特评分不断下降的顺序排序:最高比特评分(最高置信度)到最低比特评分(最低置信度)。然后,可以从候选序列池中去除指定了低于所述阈值的比特评分的任何序列。
[0260]
在一些实施例中,在从序列数据库中鉴定候选抗性序列之后,过滤候选序列以去除不太可能执行靶抗性基因的功能的候选序列。在一些实施例中,候选序列是使用一或多个第二“对照”预测模型基于其评估过滤的。采用的对照预测模型的数量可以取决于情况、靶抗性基因的类型、相关数据的可用性和其它此类特征。在一些实施例中,对照预测模型的数量介于1与100,000之间。在一些实施例中,对照预测模型的数量为至少1、至少10、至少
100、至少1,000、至少10,000或至少100,000。
[0261]
在一些实施例中,由第一预测模型例如通过分配置信度评分来评估候选抗性序列,所述第一预测模型确定序列执行靶抗性基因的功能的可能性;然后,由第二预测模型或确定序列执行不同功能的可能性的模型例如通过分配置信度评分来评估候选序列。然后比较候选序列执行靶蛋白质或靶基因功能或另一种功能的相对可能性。在一些实施例中,每个候选序列指定了由第一预测模型产生的“靶抗性基因置信度评分”和“最佳匹配置信度评分”,其中最佳匹配置信度评分是由第二预测模型产生的最佳置信度评分,所述第二预测模型评估候选序列执行与靶蛋白质或靶基因功能不同的功能的可能性。例如,如果采用了500个对照预测模型来确定序列是否可能编码执行与靶蛋白质或靶基因功能不同的功能的蛋白质或基因,则“最佳匹配置信度评分”将是由500个对照预测模型中的任一个对照预测模型产生的最佳置信度评分(例如,最高比特评分、最低e值)。
[0262]
因此,在一些实施例中,将靶蛋白质或靶基因置信度评分与最佳匹配置信度评分进行比较。在一些实施例中,将靶蛋白质或靶基因e值的对数和最佳匹配(例如,来自第二预测机器学习模型)e值的对数进行比较。在一些实施例中,将靶蛋白质或靶基因比特评分和最佳匹配比特评分进行比较。在一些实施例中,确立针对执行靶蛋白质或靶基因功能的相对可能性的阈值。
[0263]
所采用的对照预测机器学习模型的数量不是数字受限的,而是基于产生对照模型的能力和/或对照模型的可用性,如可以基于对直系同源群的鉴定产生的那些对照模型而不是靶蛋白质或靶基因属于的对照模型。在一些实施例中,采用了至少一个次级模型。在一些实施例中,采用了至少5个、10个、50个、100个、200个、300个、400个、500个、600个、700个、800个、900个、1,000个或10,000个对照模型。
[0264]
在一些实施例中,仅在执行靶蛋白质或靶基因功能的可能性大于执行不同蛋白质功能的可能性时(例如,靶匹配置信度评分为最佳匹配置信度评分时)才保留候选抗性序列。在一些实施例中,仅在执行靶抗性基因功能的可能性大于或大约等于执行不同蛋白质功能的可能性时才保留候选抗性序列。在一些实施例中,在执行靶抗性基因功能的相对可能性落入某个置信度区间内时保留候选抗性序列。在一些实施例中,在执行靶抗性基因功能的相对可能性超过某个阈值内时保留候选抗性序列。在一些实施例中,在候选抗性序列满足以下标准(或靶抗性基因的等效物)时保留候选抗性序列。
[0265]

[0266]
在一些实施例中,最佳匹配e值或最佳匹配比特评分为对照预测模型之外的最佳置信度评分。在其它实施例中,最佳匹配是所有所测试预测模型之外的最佳置信度评分,包含候选抗性基因置信度评分。在此第二实施例中,如果候选抗性基因置信度评分(例如,比特评分或e值)为最佳匹配,则比率为1。在其中从对照预测模型之中选择最佳匹配置信度评分的其它实施例中,比率可以超过1。
[0267]
用于保留候选抗性基因序列的阈值可以基于期望置信度范围修改。在一些实施例
中,阈值介于0.1与0.99之间。在一些实施例中,阈值介于0.5与0.99之间。在一些实施例中,阈值为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9。在一些实施例中,阈值为0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9或0.95。
[0268]
以上阈值计算是说明性的而绝不是详尽的。本领域的技术人员将认识到如何应用各个阈值截止值取决于其置信度评分是如何计算的。例如,如果置信度评分使得较低评分指示较大置信度,则可以在靶蛋白质或靶基因置信度评分与最佳匹配置信度评分的比率低于某个阈值时保留序列。
[0269]
在一些实施例中,输出候选抗性基因中的每个输出候选抗性基因将与较长dna序列相关联(即,每个候选抗性基因将被容纳在数字宏基因组文库内的较长组装的dna序列内)。在一些实施例中,本公开教示了过滤到容纳在经组装的dna序列内的长度小于10kb、15kb、20kb、25kb或30kb的候选抗性基因。在一些实施例中,序列长度截止值是基于多基因簇的预期大小得到的。如果预期天然产物预期是通过至少30kb的多基因簇产生的,则其可能与进一步处理长度小于10kb的候选抗性基因不相关。
[0270]
在一些实施例中,还可以基于经组装的dna序列的预测的分类过滤抗性基因搜索的输出。因此,如果目标是鉴定来自放线菌的天然产物,则可以在随后的工作流步骤之前过滤掉已被鉴定为属于其它属/物种的序列。
[0271]
在一些实施例中,还可以过滤抗性基因搜索的输出以去除重复或高度相关的序列。在一些实施例中,还可以过滤抗性基因结果以去除部分序列。
[0272]
在一些实施例中,抗性基因搜索的输出可以基于每个候选抗性序列与来自另一种生物体的对应靶e基因的同源性而被优先化。因此,在一些实施例中,使用blast将候选抗性基因与已知数据库进行比较,以确定最强匹配是否被blast鉴定为期望靶序列的同源物。例如,在一些实施例中,对靶向人蛋白酶体的β亚基的天然产物的搜索将使用blast针对人蛋白质组进行比较以确保候选序列能够从蛋白质组数据库中鉴定β亚基。这些命中将在一些实施例中被优先化以供进一步审查。
[0273]
在一些实施例中,来自数字宏基因组文库的dna数字序列,其被鉴定为包括候选抗性基因并且(任选地)进一步在以上所述的过滤步骤存活并且在本文被称为“信号相关联的多基因簇数字特征集”。
[0274]
在一些实施例中,允许未经过滤的序列沿当前公开的工作流行进。
[0275]
多基因簇预测
[0276]
在一些实施例中,本公开教示了将生物相关性指定给信号相关联的多基因簇数字特征集的步骤。在一些实施例中,指定相关性包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集(例如,鉴定生物合成操纵子)。在一些实施例中,此步骤包括在计算上确定信号相关联的多基因簇数字特征集是否包括任何编码天然产物的多基因簇(mgc)。
[0277]
如以上提到的,在一些实施例中,多基因簇预测可以在早期在方法中在用于查询数字宏基因组文库中指示天然产物多基因簇特征集的信号的步骤中进行。因此,在一些实施例中,多基因簇预测产生多个信号相关联的多基因簇数字特征集。
[0278]
针对mgc挖掘的基因组的概念是通过开发利用各种方法来进入潜在编码天然产物
(np)的簇池的许多生物信息学工具促进的。这些工具通常依赖于被设计为搜索与迄今为止发现的mgc相关联的各个基因和结构的存在的算法。
[0279]
编码各个生物合成种类的天然产物的mgc包含聚酮化合物(pks)(克里斯汀赫特韦克(hertweck c)(2009)聚酮化合物多样性的生物合成逻辑(the biosynthetic logic of polyketide diversity).德国应用化学-英文国际版(angew chem int ed engl)48:4688

4716)、非核糖体肽(nrp)(希瑟
·
l康多素(condurso hl),史蒂文d布鲁纳(bruner sd)(2012)非核糖体肽生物合成机械的结构和非典型化学(structure and noncanonical chemistry of nonribosomal peptide biosynthetic machinery).天然产物报告(nat rod rep)29:1099

1110)、核糖体合成的且经翻译后修饰的肽(ripp)(凯尔
·
l
·
邓巴(dunbar kl),道格拉斯a.米切尔(mitchell da)(2013)通过对核糖体天然产物生物合成的研究揭示自然界的合成潜力(revealing nature’s synthetic potential through the study of ribosomal natural product biosynthesis).acs化学生物(acs chem biol)8:473

487)、糖(艾米利安k.麦克克莱尼(mccranie ek),布莱恩o.巴赫曼(bachmann bo)(2014)生物活性低聚糖天然产物(bioactive oligosaccharide natural products).天然产物报告31:1026

1042)、萜(大卫e.凯恩(cane de),池田晴雄(ikeda h)(2012)细菌萜的探索与开发(exploration and mining of the bacterial terpenome).化学研究评述(acc chem res)45:463

472)和混合结构。
[0280]
前述天然产物种类中的每个种类可以被进一步分为亚类。例如,聚酮化合物基于其生物合成酶,即聚酮化合物合酶(pks)的架构被分为三个群。最低程度地,pks包括三种活性:(1)酰基转移酶(at)—选择构建块的决策门;(2)硫醇化(t)或构建块共价拴系于其上的酰基载体蛋白(acp);以及(3)催化激活的羧酸单体的缩合(“头对尾(head-to-tail)”、脱羧、克莱森型反应(claisen-type reaction))的酮合酶(ks)。催化结构域在i型pks中融合,而ii型pks是离散酶的可解离复合物。主要存在于植物中的iii型pks是直接使用丙二酰辅酶a(malonyl-coa)而不是首先将丙二酰辅酶a转移到t结构域的多功能酶。此外,i型pks可以进一步分类为迭代型(即,每个结构域催化多于一轮延伸)或者是多模块型,因为所述迭代型是真菌聚酮化合物生物合成所典型的,所述多模块型是细菌i型pks的原型。另外,反式-at pks(约恩
·
皮尔(piel j)(2010)通过反式-at聚酮化合物合酶生物合成聚酮化合物(biosynthesis of polyketides by trans-at polyketide synthases).天然产物报告27:996

1047)是多模块化pks的进化上不同的亚型,其中at结构域是独立的。以与多模块化pks组织的方式相似的方式组织非核糖体肽合成酶(nrps)。腺苷酰化(a)结构域选择将其转移到t结构域(在nrps中也被称为肽基载体蛋白,pcp)的氨基酸构建块,并且缩合(c)结构域催化肽键形成。
[0281]
已知mgc的这些前述特征连同其相关联的签名结构域/基因可以用于开发用于本公开的数字宏基因组文库内的新mgc的搜索模型(例如,通过签名结构域中的一或多个签名结构域的谱隐马尔可夫模型(hmm))。
[0282]
在一些实施例中,可以使用几种开发的算法将生物合成基因簇的预测自动化。与本公开的方法兼容的簇预测算法的非限制性列表包含:sbspks(斯瓦达
·
阿南德,普拉萨德m v r,吉坦贾利
·
亚达夫等人(2010)sbspks:对聚酮化合物合酶的基于结构的序列分析.核酸研究38:w487

w496)、np.searcher(迈克尔h t李,彼得m u ung,詹姆斯
·
扎科斯基等
人(2009)天然产物的自动化基因组挖掘.bmc生物信息学10:185),以及bagel3(奥克
·j·

·
赫尔,安妮
·
德容,曼努埃尔
·
蒙塔尔班-洛佩兹等人(2013)bagel3:对编码细菌素和(非)杀菌经翻译后修饰的肽的基因的自动鉴定.核酸研究41:w448

w453),以上分别集中于聚酮化合物、聚酮化合物以及nrp和ripp。可用计算机模拟工具的最新综述参见(蒂尔曼韦伯(2014)用于分析抗生素生物合成通路的计算机模拟工具(in silico tools for the analysis of antibiotic biosynthetic pathways).国际医学微生物学杂志(int j med microbiol)304:230

235)。本公开的表1提供了另外的mgc鉴定算法。
[0283]
用于自动鉴定和分析多基因簇的最全面的计算工具是antismash(抗生素和次级代谢物分析壳-最新版本5.0)凯
·
布兰,西蒙
·
肖(simon shaw),凯瑟琳
·
斯坦克(katharina steinke),拉斯穆斯
·
维勒布罗(rasmus villebro),纳丁
·
齐默特(nadine ziemert),李相烨,玛尼克斯h
·
米德玛和蒂尔曼韦伯核酸研究(2019))。另外,西默曼西奇等人(彼得
·
西默曼西奇,玛尼克斯h
·
米德玛,扬
·
克莱森等人(2014)从原核生物合成基因簇的全球分析中洞察次级代谢.细胞158:412

421)最近已经开发了clusterfinder,这是基于hmm的概率算法,其可以鉴定以pfam结构域频率为中心的已知和未知种类的天然产物。在一些实施例中,本公开利用deepbgc来预测mgc(参见杰弗里
·d·
汉尼根等人,用于生物合成基因簇预测的深度学习基因组挖掘策略,核酸研究,第47卷,第18期,2019年10月,第e110页)。在一些实施例中,本公开使用表1中描述的工具中任何工具以进行mgc预测步骤。
[0284]
在一些实施例中,来自多基因簇预测步骤的输出是数字宏基因组文库内的多个在计算上确定的天然产物多基因簇。在一些实施例中,结果是也被鉴定为包括候选抗性基因的dna序列。
[0285]
邻近度分析
[0286]
在一些实施例中,当前公开的用于鉴定所关注天然产物的方法包括以下步骤:基于在计算上确定的(候选)生物抗性基因位于包括经数字组装的生物合成操纵子(或多个操纵子)的在计算上确定的(候选)天然产物多基因簇特征集的阈值参数内来鉴定所关注天然产物。在一些实施例中,本公开因此选择如以上所描述的在其簇边界内或在所述边界的预先选择的阈值内含有至少一个所鉴定的候选抗性基因(即,在计算上确定的生物抗性基因)的在计算上确定的天然产物多基因簇(例如,通过antismash或等效分析鉴定的)。(参见图6和图8)。
[0287]
在一些实施例中,如果在计算上确定的多基因簇在其簇边界内包括候选抗性基因,则选择所述在计算上确定的多基因簇。在一些实施例中,如果在计算上确定的多基因簇在任一簇边界的1个开放阅读框(orf)内(即,在预测的簇之外)包括候选抗性基因,则选择所述在计算上确定的多基因簇。也就是说,如果在簇的边界与候选抗性基因的转录起始位点之间存在一个或更少的在计算上预测的开放阅读框,则选择所述簇。在一些实施例中,如果在计算上确定的天然产物多基因簇在任一簇边界的2个orf内包括候选抗性基因,则选择所述在计算上确定的天然产物多基因簇。在一些实施例中,如果在计算上确定的天然产物多基因簇在任一簇边界的3个、4个、5个、6个或个orf内包括候选抗性基因,则选择所述在计算上确定的天然产物多基因簇。
[0288]
在一些实施例中,如果在计算上确定的天然产物多基因簇在任一簇边界的1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb或10kb(包含其间的所有范围和子范围)内包括候选抗
性基因,则选择所述在计算上确定的天然产物多基因簇。也就是说,如果候选抗性基因的起始密码子(如果在mgc的下游的话)或终止密码子(如果在mgc的上游的话)在任一簇边界的1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb或10kb(包含其间的所有范围和子范围)内,则选择所述在计算上确定的天然产物多基因簇。
[0289]
在一些实施例中,可以根据预测置信度评分和/或序列相似性进一步过滤或优先化所得所选天然产物多基因簇。(参见图6)例如,在一些实施例中,本公开教示了基于序列相似性对序列去重复。在一些实施例中,本公开教示了通过过滤掉密切相关的序列(例如,通过序列同源性)来去重复。在一些实施例中,使用生物合成基因相似性聚类和勘探引擎big-scape来进行去重复或优先化(豪尔赫
·c·
纳瓦罗-穆尼奥斯(navarro-j.c.),耐莉塞勒姆-莫吉卡(selem-mojica,n.),迈克尔
·w·
穆洛尼(mullowney,m.w.)等人用于探索大规模生物合成多样性的计算框架(a computational framework to explore large-scale biosynthetic diversity).自然化学生物学16,60

68(2020))。
[0290]
制造和验证
[0291]
在一些实施例中,本公开设想了实验验证通过本公开的方法鉴定的新多基因簇。也就是说,在一些实施例中,本公开教示了制造包括编码天然产物的(候选/所选)的mgc的细胞或其重构版本。在一些实施例中,本公开教示了制造包括在计算上确定的天然产物多基因簇特征集的细胞或其重构版本。在一些实施例中,制造步骤还应用于本公开的其它mgc发现和抗性基因发现工作流。
[0292]
在一些实施例中,可以将从序列文库中回收的含mgc的序列直接克隆到宿主细胞中以进行表达。在一些实施例中,必须重构(例如,优化)mgc以用于到不同细胞中表达。本领域的技术人员将熟悉用于重构mgc的方法。例如,在一些实施例中,重构mgc包含密经码子优化经编码基因。在一些实施例中,重构mgc包含用其它序列替代一或多个调节序列以用于在宿主细胞中更好地表达。有关常见重构策略的指导可以在谭高翼(gao-yi tan),刘天罡(tiangang liu),放线菌中天然产物生物合成的合理合成通路重构(rational synthetic pathway refactoring of natural products biosynthesis in actinobacteria),代谢工程(metabolic engineering),第39卷,2017,第228-236页中找到。
[0293]
抗性基因工作流替代性实施例
[0294]
以上公开的抗性基因工作流遵循首先进行抗性基因同源性搜索并且之后进行多基因簇预测的一般顺序。本公开还设想了其中颠倒搜索顺序,使得首先进行多基因簇预测,并且然后进行抗性基因同源性搜索的实施例。事实上,可以存在颠倒顺序可以产生分析效率的一些情况。例如,如果多基因簇预测工具在计算上没有抗性基因同源性搜索费力,则通过首先进行多基因簇预测来首先缩小搜索空间在计算上可能是高效的。类似地,如果用户预期在同一数字宏基因组文库中进行对多个靶抗性基因的搜索,则首先在整个文库上进行全局多基因簇分析,并且然后使用那些所鉴定的簇来加速随后的抗性基因同源性搜索在计算上可能是高效的。可能会出现期望颠倒这些步骤的顺序的其它情况。不是鉴定所有可能的场景,而是本公开仅指出在一些实施例中,顺序可以颠倒。
[0295]
非靶向抗性信号多基因簇特征集发现工作流
[0296]
从编码天然产物的序列文库中发现ag、药物和消费者产物的潜力在很大程度上仍未触及。特别是宏基因组文库表示未探索的基因多样性的丰富来源。然而,这些宏基因组文
库内含有的许多未发现的天然产物预期是与现有天然产物和其相关联的合成操纵子缺乏显著关系的全新分子。如本部分所示,本公开的工具利用生物合成操纵子的保守结构性质来鉴定新的天然产物,并在可能的情况下鉴定其对应新颖抗性基因(非靶向抗性信号多基因簇特征集发现平台)。
[0297]
在一些实施例中,本公开的非靶向抗性信号多基因簇特征集发现平台遵循以下一般工作流:a)在计算上预测长组装体数字宏基因组文库内的天然产物多基因簇特征集;b)注释预测的天然产物多基因簇特征集内(或所述簇的边界的1-2个orf内)的基因;c)从所述预测的天然产物多基因簇特征集中过滤加注释的基因以便集中于以下基因,由此产生多个经过滤的所关注基因:i)所述基因不具有预测的生物合成功能,并且ii)所述基因(任选地)不被认为是已知抗性基因的同源物;以及d)选择包括所述多个经过滤的所关注基因中的至少一个所关注基因的一或多个天然产物多基因簇特征集,由此产生候选mgc序列的文库。在一些实施例中,所述工作流进一步包括以下步骤:e)制造一或多个宿主细胞,其中每个制造的宿主细胞包括来自候选mgc序列之中的天然产物多基因簇特征集;f)培养步骤(e)的制造的宿主细胞以及g)分析来自步骤(f)的培养物的用过的培养物中天然产物的存在,其中所述天然产物不存在于对照宿主细胞的培养物中,所述对照宿主细胞缺乏所述制造的宿主细胞中存在的所述天然产物多基因簇特征集。此工作流的每个步骤在以下更详细地讨论。
[0298]
在一些实施例中,如通过antismash评估的,如果基因在mibig中具有大于10个、9个、8个、7个、6个、5个、4个、3个或2个blast命中,则所述基因被预测为具有生物合成功能。
[0299]
在一些实施例中,所述方法包括过滤掉不在生物合成操纵子内或不紧邻生物合成操纵子的基因。在一些实施例中,所述方法包括过滤掉不在核心生物合成基因的1kb、2kb、3kb、4kb、5kb或10kb内的基因。在一些实施例中,所述方法包括过滤掉不是必需基因(例如,www.essentialgene.org列出的)或者blast结果比特评分比在必需基因的情况下低250、200、150、100或50的基因。在一些实施例中,所述方法包括过滤掉被注释为转运相关基因或调节基因的基因。在一些实施例中,注释由任何注释引擎处理,包含例如antismash。
[0300]
通过抗性机制过滤
[0301]
抗性基因可以通过多种抗性机制赋予天然产物抗性,参见例如图5。虽然鉴定具有所有抗性机制的抗性基因的mgc可能是有价值的,但是在一些应用中,搜索被预测为通过一或多种抗性机制起作用的mgc/抗性基因可能是有益的。
[0302]
因此,在一些实施例中,方法包括过滤掉被预测为具有与期望抗性机制不同的抗性机制的基因。因此,在一些实施例中,方法包括过滤掉与具有与期望抗性机制不同的抗性机制的抗性基因表现出相似性的基因。在一些实施例中,方法包括过滤除了与具有期望抗性机制的抗性基因表现出相似性的那些基因之外的所有基因。
[0303]
在一些实施例中,通过用针对每种机制的resfam模型分析基因来评估对抗性基因机制的确定。
[0304]
在一些实施例中,期望的抗性机制是基于靶标变体的抗性。这是因为基于变体的抗性机制提供了关于经编码的天然产物的生物靶标的信息。也就是说,基于变体的抗性基因的存在表明抗性基因的非变体等效物(即,变体取代的基因)可能是mgc所编码的天然产物的靶标。因此,通过机制过滤在一些实施例中还可以提供关于新发现的天然产物的功能的信息。
[0305]
其它非靶向工作流程
[0306]
在一些实施例中,本公开教示了一种用于鉴定具有预测的抗性基因的候选多基因簇特征集的计算机模拟方法,所述方法包括以下步骤:a)在计算上预测数字宏基因组文库内的天然产物多基因簇特征集;b)向所述多基因簇特征集内的基因分配生物合成潜在评分;所述生物合成潜在评分是基于计算的基因是生物合成酶的可能性的;c)任选地向所述多基因簇特征集内的基因分配已知抗性基因评分,所述已知抗性评分是基于基因与已知抗性基因的共享序列同一性的;以及d)选择包括预测的抗性基因的候选多基因簇特征集,所述预测的抗性基因表现出预设的组合评分阈值,所述组合评分是基于所述生物合成潜在评分和所述已知抗性基因评分的组合的(如果分配的话)。
[0307]
在一些实施例中,所述方法包括向所述多基因簇特征集内的基因分配生物合成操纵子评分,所述生物合成操纵子评分是基于基因与其多基因簇特征集内的生物合成操纵子的邻近度的;并且其中所述组合评分还是基于所述生物合成操纵子评分的。
[0308]
在一些实施例中,所述方法包括向所述多基因簇特征集内的基因分配核心生物合成基因距离评分,所述核心生物合成基因距离评分是基于基因与其多基因簇特征集内的核心生物合成基因的邻近度的;并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。
[0309]
在一些实施例中,所述方法包括向所述多基因簇特征集内的基因分配必需基因评分,所述必需基因评分是基于基因与已知必需基因序列的列表的最高序列同一性的;并且其中所述组合评分还是基于所述必需基因评分的。在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因与必需基因共享至少99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性。
[0310]
在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因与已知抗性基因共享少于99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性。
[0311]
在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因与已知抗性基因共享超过99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性。在一些实施例中,此策略表示抗性基因工作流的进一步窄化/改进。
[0312]
在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因与生物合成酶共享少于90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性。在一些实施例中,生物合成酶是由含有预测的抗性基因的多基因簇特征集编码的天然产物的生物合成酶。在一些实施例中,生物合成酶是与由多基因簇特征集(例如,mibig)编码的天然产物相关联的生物合成酶。在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因在mibig中返回少于8个、6个、4个或2个blast命中,如通过antimash评估的。
[0313]
在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因具有组合评分,
其中计算的基因是生物合成酶的可能性低,并且其中当分别与已知生物合成酶或已知抗性基因相比时,与已知抗性基因的共享序列同一性低。在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因具有组合评分,其中计算的基因是生物合成酶的可能性低,并且其中当分别与已知生物合成酶或已知抗性基因相比时,与已知抗性基因的共享序列同一性高。
[0314]
在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因位于所选候选多基因簇特征集内的生物合成操纵子内或与生物合成操纵子紧邻(即其间没有其它orf)。在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因位于所选候选多基因簇特征集中含有的生物合成操纵子的内部或生物合成操纵子的500bp内。
[0315]
在一些实施例中,所选候选多基因簇特征集内的预测的抗性基因位于核心生物合成酶的1kb、2kb、3kb、4kb或5kb内。
[0316]
在一些实施例中,方法包括向多基因簇特征集内的基因分配转运基因潜在评分,所述转运基因潜在评分是基于基因是转运相关基因的可能性的(例如,通过序列同一性),并且其中组合评分还是基于核心生物合成基因距离评分的。在一些实施例中,通过注释引擎,如antismash评估转运基因潜力。
[0317]
在一些实施例中,方法包括向多基因簇特征集内的基因分配调节基因潜在评分,所述调节基因潜在评分是基于基因是调节基因的可能性的(例如,通过序列同一性),并且其中组合评分还是基于核心生物合成基因距离评分的。在一些实施例中,通过注释引擎,如antismash评估调节基因潜力。
[0318]
在一些实施例中,方法包括以下步骤:向多基因簇特征集内的基因分配抗性机制评分,所述抗性机制评分是基于基因与具有不同于期望抗性机制的抗性机制的抗性基因的相似性分配的,并且其中组合评分还是基于抗性机制评分的。
[0319]
在一些实施例中,方法包括以下步骤:向多基因簇特征集内的基因分配抗性机制评分,所述抗性机制评分是基于基因与具有所述期望抗性机制的抗性基因的相似性分配的,并且其中组合评分还是基于抗性机制评分的。
[0320]
在一些实施例中,期望抗性机制是基于靶标变体的抗性。
[0321]
在计算上预测mgc
[0322]
在一些实施例中,非靶向抗性信号多基因簇特征集发现平台包括步骤a)在计算上预测长组装体数字宏基因组文库内的天然产物多基因簇特征集。在一些实施例中,此步骤如上所述在标题“多基因簇预测”下进行。简而言之,利用mgc预测算法分析数字宏基因组文库内的序列以鉴定天然产物多基因簇特征集。在一些实施例中,利用antismash完成对天然产物多基因簇特征集的鉴定。
[0323]
注释mgc特征集内的基因
[0324]
在一些实施例中,非靶向抗性信号多基因簇特征集发现平台包括步骤b)注释预测的天然产物多基因簇特征集内(或所述簇的边界的1-2个orf内)的基因。还阐述了基于各个注释(例如,调节或转运基因)的其它过滤步骤。在一些实施例中,基于mgc中的序列与已知基因的同源性使用一或多个注释引擎完成预测的天然产物多基因簇特征集的注释。
[0325]
在一些实施例中通过antismash进行注释,所述antismash对mgc的鉴定还包含注释每个mgc内的基因。在一些实施例中,通过mgc内的序列与公共数据库中含有的已知生物
合成酶的比较完成注释步骤。
[0326]
例如,在一些实施例中,注释基于与天然产物基因簇,如mibig(//mibig.secondarymetabolites.org/download)中含有的生物合成酶的同源性进行。因此,在一些实施例中,通过注释“生物合成”和“生物合成附加的”查询来自mibig数据库的生物合成酶的氨基酸序列,并且从序列基因库文件中提取氨基酸序列。使用cd-hit对氨基酸序列的所得集聚类以减少冗余。在一些实施例中,氨基酸序列的所得非冗余集表示生物合成酶数据库,所述生物合成酶数据库可以用于针对mgc内的较大序列集进行查询以鉴定生物合成酶同源物。
[0327]
本领域的技术人员将熟悉可与本公开的工作流兼容的各个其它基因注释工具。注释工具的非限制性列表如以下表3中提供。
[0328]
表3-序列注释工具的非限制性列表
[0329]
[0330]
[0331]
[0332][0333]
过滤掉生物合成基因
[0334]
在一些实施例中,非靶向抗性信号多基因簇特征集发现平台包括步骤c):从预测的天然产物多基因簇特征集过滤加注释的基因,以便集中于以下基因,以由此产生多个经过滤的所关注基因:i)所述基因不具有预测的生物合成功能,并且ii)所述基因(任选地)不是已知靶抗性基因的同源物。
[0335]
不具有生物合成作用的基因
[0336]
因此,在一些实施例中,本公开教示了从预测的天然产物多基因簇特征集中过滤掉基因,其中所述过滤掉的(即,从考虑中去除的)基因通过注释步骤被注释为具有生物合成作用。
[0337]
在一些实施例中,所述方法包括过滤掉不在生物合成操纵子内或不紧邻生物合成操纵子的基因。在一些实施例中,所述方法包括过滤掉不在核心生物合成基因的1kb、2kb、3kb、4kb、5kb或10kb内的基因。在一些实施例中,所述方法包括过滤掉不是必需基因(例如,www.essentialgene.org列出的)或者blast结果比特评分比在必需基因的情况下低250、200、150、100或50的基因。在一些实施例中,所述方法包括过滤掉被注释为转运相关基因或调节基因的基因。不是其它mgc中的已知靶抗性基因的同源物的基因。
[0338]
在一些实施例中,本公开教示了从预测的天然产物多基因簇特征集中过滤掉基因,其中所述过滤掉的(即,从考虑中去除的)基因是其它mgc中的已知靶抗性基因的同源物。因此,在一些实施例中,本公开教示了将mgc内的基因与已知靶抗性基因的列表进行比较,并且鉴定其同源物。
[0339]
在一些实施例中,已知靶抗性基因的列表来自源自resfam数据库的resfam,所述数据库包含不通过编码靶蛋白质的变体来提供抗性的抗性基因。在一些实施例中,抗性基
因数据库包含dantas lab resfam(莫莉
·k·
吉布森(gibson mk),凯文
·j·
福斯伯格(forsberg kj),高塔姆
·
丹塔斯(dantas g.)抗生素抗性功能的改进的注释通过生态学揭示了微生物细菌抗性组簇(improved annotation of antibiotic resistance functions reveals microbial resistomes cluster by ecology).国际微生物生态学学会期刊(the isme journal.)2014,doi:ismej.2014.106)。在一些实施例中,以与基于靶抗性鉴定候选抗性基因的方式相同的方式进行对同源性的评估(即,如本文档中在标题“抗性基因同源性搜索(resistance gene homology searches.)”下所描述的)。简而言之,可以基于序列同一性、序列相似性和/或通过hmm预测模型来确定同源性。
[0340]
在一些实施例中,如果序列与已知抗性基因共享超过60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%序列同一性,包含其间的所有范围和子范围,则所述序列被视为已知抗性基因的同源物。在一些实施例中,如果序列的候选抗性比特评分与最佳匹配比特评分的比率大于0.6、0.7、0.8或0.9,包含其间的所有范围和子范围,则所述序列被视为已知抗性基因的同源物。
[0341]
与簇中的至少一个生物合成基因/酶共调节的基因
[0342]
在一些实施例中,本公开进一步教示了另外的步骤c)iii):从预测的天然产物多基因簇特征集中过滤加注释的基因以仅保留以下基因:所述基因包括不具有预测的生物合成功能的还与多基因簇特征集内具有预测的生物合成功能的另一个基因共调节的基因。在一些实施例中,本公开进一步教示了过滤掉基因,以便集中于与天然产物多基因簇特征集的生物合成基因中的至少一个生物合成基因共调节的基因。也就是说,在一些实施例中,本公开教示了多个经过滤的所关注基因与天然产物多基因簇特征集中的至少一个生物合成基因/酶共调节。
[0343]
在一些实施例中,本公开进一步教示了过滤掉不在生物合成操纵子内或不紧邻生物合成操纵子的基因,以便集中于与天然产物多基因簇特征集的生物合成基因中的至少一个生物合成基因共调节的基因。也就是说,在一些实施例中,本公开教示了多个经过滤的所关注基因与天然产物多基因簇特征集中的至少一个生物合成基因/酶共调节(例如,通过生物合成操纵子)。
[0344]
本领域的技术人员将理解在经验上确定或在计算上预测两个基因是否是共调节的各种方式。例如,在一些实施例中,如果多基因簇的结构表明两个基因是共调节的(例如,基因包括在操纵子内或者是预测的多顺反子mrna的一部分),则这两个基因将被视为是共调节的。在一些实施例中,如果两个基因中的第一基因的表达在经验上被确定为与第二基因的产生相关(例如,如果两个基因在相似的条件下被激活/被抑制),则所述两个基因将被视为是共调节的。在一些实施例中,如果两个基因的启动子含有被预测为或被示出为与同一转录因子结合的结合位点,则所述两个基因将被视为是共调节的。
[0345]
在一些实施例中,使用所得多个经过滤的所关注基因以选择包括所述多个经过滤的所关注基因中的至少一个所关注基因的一或多个天然产物多基因簇特征集,由此产生候选mgc序列的文库。
[0346]
过渡多基因簇特征集发现工作流
[0347]
在一些实施例中,本公开教示了鉴定编码新颖天然产物的多基因簇的过渡方法。在一些实施例中,本公开的过渡方法表示基于已知/预测的所关注mgc的特征对mgc的水平探索。过渡搜索部分是基于发明人的发现,即已知mgc的同源物/直系同源物可以存在于宿主细胞的基因组的其它部分中,或者存在于不同微生物物种中,其中所述同源物/直系同源物缺乏原始已知mgc的标志性抗性基因,或者含有与原始基因由很少相似性的抗性基因。
[0348]
因此,在一些实施例中,本公开教示了一种用于鉴定候选多基因簇(mgc)的计算机模拟方法,所述方法包括以下步骤:a)提供已知或预测的mgc的序列;b)在计算上预测长组装体数字宏基因组文库内的天然产物多基因簇特征集并且提供所述预测的输出作为多个信号相关联的多基因簇数字特征集;c)从步骤(b)的所述多个信号相关联的多基因簇数字特征集之中选择候选mgc,所述候选mgc包括至少一个相似性因子,所述至少一个相似性因子选自由以下组成的组:i)所述已知或预测的mgc和所述候选mgc内的生物合成酶之中的序列同源性;ii)所述已知或预测的mgc和所述候选mgc内的每种类型的生物合成模块的相同数量;以及iii)通过由所述已知/预测的mgc和所述候选mgc产生的天然产物的预测的化学结构的相似性确定与所述已知或预测的mgc的相似性;由此鉴定不编码抗性基因或含有与原始基因不相似的抗性基因的候选mgc。在一些实施例中,仅使用相似性因子(i)。在一些实施例中,基于包括至少两个相似性因子(例如,包括(i)和(ii)或(i)和(iii)或(ii)和(iii))的mgc来选择mgc。
[0349]
在一些实施例中,对新颖候选mgc的过渡(水平)搜索基于mgc候选物与已知或预测的mgc的相似性。也就是说,在一些实施例中,本公开的方法包含“提供已知或预测的mgc的序列”的步骤。在一些实施例中,已知mgc是已进行实验验证并且被证明产生天然产物的那些mgc(例如,通过执行方法的人员所掌握或已知的经验数据或如在期刊中所报道的)。在一些实施例中,预测的mgc是通过本公开的mgc发现方法中的任何一种方法被预测为编码天然产物的那些mgc。在一些实施例中,预测的mgc是包括i)抗性基因,并且ii)至少部分基于如pks、nrp、ripp等mgc特征的存在被鉴定为编码多基因簇的那些,如在本文档的“多基因簇预测”部分中讨论的。
[0350]
在一些实施例中,本过渡搜索工作流包括鉴定包括与已知/预测的mgc的相似性因子的候选mgc的步骤。在一些实施例中,通过簇中的生物合成酶之间的序列同源性确定与已知或预测的mgc的相似性(例如,通过例如blast、hmm或通过如antismash注释引擎等其它工具确定的)。在一些实施例中,通过簇中的核心生物合成酶之间的序列同源性确定与已知或预测的mgc的相似性(例如,候选mgc中的acad与已知或预测的mgc中的acad具有显著相似性,如通过例如blast或hmm确定和以下更详细讨论的)。在一些实施例中,本公开教示了候选mgc将含有已知或预测的mgc的生物合成酶中的所有生物合成酶的同源物。在一些实施例中,候选mgc含有已知或预测的mgc的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个生物合成酶的同源物。在一些实施例中,候选mgc含有已知或预测的mgc的生物合成酶中的至少10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、
75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%生物合成酶的同源物,包含其间的所有范围和子范围。
[0351]
在一些实施例中,生物合成基因/酶包括能够催化生物化学合成反应或是催化反应的复合物的一部分的所表达蛋白质(或编码所述蛋白质的核酸序列,这取决于上下文)。也就是说,单独不具有催化活性但与能够催化生物化学反应的一或多种其它酶复合的序列被视为生物合成酶。例如,蛋白质tfua自身不具有催化活性但在天然产物的产生中与ycao复合。在一些实施例中,通过一或多个注释引擎鉴定生物合成酶。在一些实施例中,如果基因通过antismash被如此注释,则所述基因被视为生物合成基因/酶。在一些实施例中,如果基因在mibig数据库中被如此列出,则所述基因被视为生物合成基因/酶。
[0352]
在一些实施例中,本公开教示了候选mgc将含有已知或预测的mgc的核心生物合成酶中的所有核心生物合成酶的同源物。本领域的技术人员将容易能够鉴定定义相关mgc(即,鉴定“核心生物合成酶”)的基因。在一些实施例中,“核心生物合成酶”因mgc而变化。例如,在一种情况下,所述核心生物合成酶可以是产生分子支架的两种生物合成酶。在另一种情况下,所述核心生物合成酶可以是核心生物合成酶以及参与利用独有前体的酶的存在。在另一种情况下,催化特性修饰的定制酶可以是作为簇的特性的酶。在一些实施例中,如果基因通过注释引擎被如此注释,则所述基因被视为“核心生物合成酶”。在一些实施例中,如果基因通过antismash被如此注释,则所述基因被视为“核心生物合成酶”。本公开教示了鉴定“核心生物合成”酶或基因的方法。在一些实施例中,核心生物合成基因是编码mgc内的在天然产物的产生中具有生物合成作用并且形成对分子结构或功能重要的分子的种类的所有成员未共享的部分的酶的基因。在一些实施例中,这些酶产生支架或弹头。例如,在环氧霉素簇中,acad基因将是这些基因之一(形成对分子功能来说必不可少的环氧酮),但nrps基因将不是(nrps基因是所有nrps簇之中共享的)。在一些实施例中,这些酶是引入在其可以赋予靶结合和药代动力学性质时不会形成明显的结构支架或弹头的功能群和部分的定制酶。实例将是催化硫酰胺形成的tfua基因和在维里硫酰胺生物合成中催化丝氨酸/苏氨酸脱水的hopa1样基因。这些都是一些非维里硫酰胺簇具有(半独有)的两种定制反应,但两种定制反应的相交将极大富集维里硫酰胺样簇。
[0353]
在一些实施例中,“核心生物合成”酶的进一步选择允许用户通过过滤对np的产生重要并且据信富集在所关注np内或是所关注np内独有的酶的存在将候选mgc池进一步富集到最可能编码所关注np的那些中。在一些实施例中,将不量化为“核心生物合成”酶的酶是共同生物合成酶或共同定制酶。共同生物合成酶是构建一种种类的代谢物的种类定义的支架的那些酶。实例将是iii型pks中的查耳酮/芪类合酶基因。共同定制酶是构建种类定义的功能群的那些酶。实例将是o-甲基转移酶或羟化酶。不仅是跨许多不同簇共有的这些酶,而且其在簇类似物中的存在通常不可靠。因此,在一些实施例中,共同生物合成酶和共同定制酶单独将不被预期为富集编码所关注np的那些的候选mgc池(例如,在过渡搜索-将类似np编码为由初始已知或预测的mgc编码的那些的情况下)。术语“核心生物合成酶”与术语“核心生物合成基因”可互换使用。
[0354]
在一些实施例中,候选mgc含有已知或预测的mgc的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个核心生物合成
酶的同源物。在一些实施例中,候选mgc含有已知或预测的mgc的生物合成酶中的至少10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%核心生物合成酶的同源物,包含其间的所有范围和子范围。
[0355]
在一些实施例中,以与基于靶抗性鉴定候选抗性基因的方式相同的方式进行对同源性的评估(即,如本文档中在标题“抗性基因同源性搜索”下所描述的)。简而言之,可以基于序列同一性、序列相似性和/或通过hmm预测模型来确定同源性。
[0356]
在一些实施例中,如果序列与初始已知或预测的mgc的生物合成基因/酶共享超过60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%序列同一性,包含其间的所有范围和子范围,则所述序列被视为生物合成或核心生物合成基因/酶的同源物。在一些实施例中,如果序列的候选抗性比特评分与最佳匹配比特评分的比率大于0.6、0.7、0.8或0.9,包含其间的所有范围和子范围,则所述序列被视为已知抗性基因的同源物。
[0357]
在一些实施例中,本公开教示了与已知或预测的mgc的额外相似性因子,所述额外相似性因子可以用于鉴定新mgc。在一些实施例中,通过鉴定两个簇中的基因的相似互补物(例如,两个簇中编码的定制酶的相同集)确定相似性。
[0358]
在一些实施例中,基因的相似互补物意味着候选mgc在已知或预测的mgc中含有相同数量(或者加或减1-2)的每种类型的生物合成模块。例如,如果在预测的mgc具有三个pks样模块和三个nrs样模块的情况下,候选mgc具有三个pks样模块和四个nrs样模块,则所述候选mgc将具有基因的相似互补物。
[0359]
在一些实施例中,通过由已知/预测的mgc和候选mgc产生的天然产物的预测的化学结构的相似性确定与已知或预测的mgc的相似性。本领域的技术人员将理解如何根据mgc预测化学结构。能够根据mgc预测np化学结构的工具的非限制性实例在以下表4中提供。关于根据基因序列进行化学结构解析的另外的讨论在本文档的“结构解析-从基因到化学”部分中提供。
[0360]
表4-化学结构预测工具的非限制性列表
[0361][0362]
在一些实施例中,通过人工检查来完成预测的化学结构的相似性。因此,在一些实施例中,如果两个预测的化学结构共享同一核心结构元件,则所述两个预测的化学结构将被视为是相似的。在其它实施例中,化通过本领域的技术人员已知的任何算法/计算方法确定学结构相似性,包含在尼娜
·
尼科洛娃(nikolova,n.)和乔安娜
·
贾沃斯卡(jaworska,j.)(2003),用于测量化学相似性的方法

综述(approaches to measure chemical similarity

a review).qsar组合科学(qsar comb.sci.),22:1006-1026中所公开的那些方法。
[0363]
在一些实施例中,基于谷本(tanimoto)系数并使用python文库rdkit(www.rdkit.org),通过根据np对应的指纹计算逐对np结构相似性来评估np的结构相似性。简而言之,准备摩根指纹(morgan fingerprint)以用于合成的(或被预测为要合成的)np和用于通过所述多个信号相关联的多基因簇数字特征集(例如,通过antismash鉴定的mgc)合成的(或被预测为要合成的)np。然后对这些指纹进行比较以鉴定最相似的np结构和其对应候选mgc。
[0364]
在一些实施例中,用二分变量的公式计算谷本系数。
[0365][0366]
在一些实施例中,使用以下连续变量的公式来计算谷本系数。
[0367][0368]
其中通过将分子a与b之间共有的“c”特征除以第一分子的特征“a”加上第二分子的特征“b”,减去c来计算两个分子之间的s
ab
相似性评分。也就是说,a是分子a中on位的数量,b是分子b中on位的数量,而c是两个分子中为on的位的数量。x
ja
表示分子a的第j个特征。x
jb
表示分子b的第j个特征。如何计算谷本系数的更多信息请参见大卫
·
巴尤斯(bajusz,d.),安妮塔
·
拉茨(r
á
cz,a.)和卡罗利
·
赫伯格(h
é
berger,k.)为什么谷本指数是基于指
纹的相似性计算的适当选择?(why is tanimoto index an appropriate choice for fingerprint-based similarity calculations?).化学信息杂志7,20(2015)。
[0369]
在一些实施例中,谷本系数的范围为0到1,其中0为无相似性并且1为相同分子。在一些实施例中,如果两个天然产物结构的谷本相似性系数为至少.6、.7.、.8、.9或.95,包含其间的所有范围和子范围,则所述两个天然产物结构被视为是相似的。
[0370]
在一些实施例中,通过以上所描述的两种或更多种方法的组合来评估相似性(例如,通过所有生物合成酶或核心生物合成酶之间的序列同源性,通过使两个mgc中含有相似的基因互补物,或者通过预测的化学结构的相似性)。在一些实施例中,本公开的过渡搜索能够将推定功能分配给候选mgc,尽管该mgc在其边界内缺乏抗性基因。
[0371]
在一些实施例中,本公开教示了经修饰的过渡mgc发现工作流。例如,在一些实施例中,本公开教示了一种用于鉴定候选多基因簇(mgc)的计算机模拟方法,所述方法包括以下步骤:a)鉴定已知或预测的mgc的生物合成基因/酶;b)查询数字宏基因组文库中在(a)中鉴定的所述生物合成基因/酶中的每种生物合成基因/酶的同源物,其中所述数字宏基因组文库包括经数字组装的重叠群;以及c)基于所述数字宏基因组文库的单个重叠群内的所述生物合成酶的同源物的存在来鉴定新候选mgc。在一些实施例中,此工作流的生物合成基因/酶是核心生物合成基因/酶,如本文档中在前所描述的。
[0372]
在一些实施例中,本公开教示了一种用于鉴定候选多基因簇(mgc)的计算机模拟方法,所述方法包括以下步骤:a)提供具有核心生物合成基因/酶的集的已知或预测的mgc;b)查询数字宏基因组文库中在(a)的所述核心生物合成基因/酶中的每种核心生物合成基因/酶的同源物,其中所述数字宏基因组文库包括经数字组装的重叠群;以及c)基于所述数字宏基因组文库的单个经数字组装的重叠群内所述核心生物合成基因/酶中的每种核心生物合成基因/酶的同源物的存在来鉴定新候选mgc。在一些实施例中,此工作流的生物合成基因是核心生物合成基因/酶,如本文档中在前所描述的。
[0373]
本公开的此部分描述了基于所述数字宏基因组文库的单个重叠群内的所述生物合成酶的同源物的存在来鉴定新候选mgc。在一些实施例中,本公开教示了对含有已知或预测的mgc的生物合成酶中的所有生物合成酶的同源物的候选mgc的鉴定。在一些实施例中,候选mgc含有已知或预测的mgc的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个生物合成酶的同源物,包含其间的所有范围和子范围。在一些实施例中,候选mgc含有已知或预测的mgc的生物合成酶中的至少10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%生物合成酶的同源物,包含其间的所有范围和子范围。
[0374]
在一些实施例中,候选mgc含有已知或预测的mgc的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个核心生物合成酶的同源物,包含其间的所有范围和子范围。在一些实施例中,候选mgc含有已知或预测的
mgc的生物合成酶中的至少10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%核心生物合成酶的同源物,包含其间的所有范围和子范围。
[0375]
因此,在一些实施例中,本公开教示了筛选经数字组装的重叠群中已知或预测的mgc的生物合成基因/酶或核心生物合成基因/酶的同源物的存在。在一些实施例中,逐个鉴定生物合成基因或核心生物合成基因/酶的同源物,并且然后第二步骤确认所鉴定的同源物在单个重叠群中(即,至少一个完整同源物“集”在经数字组装的重叠群内)。在其它实施例中,在单个步骤中搜索生物合成基因或核心生物合成基因/酶的同源物并且确认所述同源物在单个经数字组装的重叠群中。
[0376]
在一些实施例中,以与本公开的其它同源性步骤和具体地本部分中的方式相同的方式进行生物合成基因或核心生物合成基因/酶的同源性(即通过序列同一性或通过hmm、通过上文所描述的截止值)。在一些实施例中,使用如multi-geneblast等工具(www.ncbi.nlm.nih.gov/pmc/articles/pmc3670737/)。
[0377]
在一些实施例中,遵循本文档中公开的任何其它mgc发现平台来进行本公开的过渡搜索方法。因此,在一些实施例中,过渡搜索可以用于基于通过以上讨论的基于抗性基因的搜索方法鉴定的mgc来鉴定另外的候选mgc。在一些实施例中,过渡搜索方法可以用于基于文献中报告或者另外通过本文未公开的其它方法鉴定的已知簇来鉴定另外的相关mgc。
[0378]
hmm的构建
[0379]
此文档中描述的几种同源性搜索可以通过hmm搜索进行。在一些实施例中,hmm搜索基于如pfam和tigrfam中可获得的那些模型等现有hmm模型。在其它实施例中,本公开教示了构建被设计为搜索候选同源物基因的新hmm的方法。构建用于搜索候选同源物基因的自定义hmm的方法在以下更详细讨论。
[0380]
在一些实施例中,本公开提供了利用隐马尔可夫模型(hmm)来预测候选同源物基因(例如,候选抗性基因,或者用于通过与具有已知功能的基因的同源性进行注释的目的)的方法和系统。然而,为了简单起见,以下部分将一般性地指hmm鉴定与靶基因/蛋白质的同源物的用途。
[0381]
以下提供了用于产生供本方法和系统使用的hmm的示例性工作流。在一些实施例中,hmm产生工作流包括以下步骤:
[0382]
1)鉴定要用于与靶抗性基因相对应的训练数据集的序列;
[0383]
2)比对序列;
[0384]
3)评估比对;
[0385]
4)从多序列比对中产生hmm预测机器学习模型;
[0386]
5)评估hmm。
[0387]
这些示例性步骤中的每个步骤在此详述。
乙酰高丝氨酸巯基酶。
[0401]
b.在左上角,存在针对整个uniprotkb对此序列进行blast搜索的按钮。点击此按钮,并选择高级选项。
[0402]
c.将阈值设置为0.1并且将命中设置为1000;这将提供大量命中,同时去除非常不同的序列。然后运行搜索。将需要几分钟来完成搜索。
[0403]
d.点击下载链接以fasta文件的形式下载所有序列。
[0404]
2.比对序列
[0405]
可以使用任何可获得的多序列比对工具比对在步骤1中积累的序列。多序列比对工具包含clustal omega、emboss cons、kalign、mafft、muscle、mview、t-coffee和webprank等。出于此说明性实例的目的,采用clustal omega。clustal omega可以安装在计算机上并且从命令行开始运行,例如,在以下提示下:
[0406]
$clustalo-infile=uniprot-list.fasta-type=protein-[0407]
output=fasta-outfile=aligned.fasta
[0408]
3.评估对比对(任选的)
[0409]
可以对在步骤2中进行的多序列比对进行评估并且过滤不良匹配。如先前所描述的,不共享序列特征的序列很可能不在同一直系同源群中并且可能有损于hmm的质量。
[0410]
为了帮助比对的评估,示例性浏览器内比对工具为http://msa.biojs.net/and//github.com/veidenberg/wasabi。两者都可以下载并且在本地运行。
[0411]
可以在进行到下一步骤之前从训练数据集中去除与训练数据集的其余部分不匹配的序列。此类序列可以基于比对质量的客观标准,如不具有与直系同源群的大多数其它成员共有的一或多个序列特征,以自动方式去除。在一些实施例中,与同源群不匹配的序列可以通过其它方式去除,例如视觉检查。
[0412]
4.基于训练数据集产生hmm预测机器学习模型
[0413]
hmm可以通过任何hmm构建软件产生。示例性软件可以在以下网站找到,或者根据以下网站改编:mallet.cs.umass.edu;www.cs.ubc.ca/~murphyk/software/hmm/hmm.html;cran.r-project.org/web/packages/hmm/index.html;www.qub.buffalo.edu;//ccb.jhu.edu/software/glimmerhmm/。在一些实施例中,采用了hmmer工具。
[0414]
出于此说明性实例的目的,使用了hmmbuild并且hmmbuild可以下载并且使用以下命令在本地运行:
[0415]
$hmmbuild test.hmm aligned.fasta
[0416]
5.评估hmm(任选的)
[0417]
为了评估步骤4中产生的hmm,可以使hmm在加注释的数据库上运行以评估其正确识别序列的能力。在此说明性实例中,hmm用于查询swissprot数据库,对于所述数据库,所有注释都被假设为真。可以检查此测试运行的结果以查看搜索结果的注释是否与hmm应该表示的功能相匹配。
[0418]
在具有蛋白质序列的搜索数据库(例如,protein_db.fasta)的fasta文件(或多个文件)的情况下,可以运行以下命令以产生与对应e值的hmm匹配的输出文件。
[0419]
$hmmsearch-a 0
‑‑
cpu 8-e 1e-20
‑‑
noali
‑‑
notextw test.hmm protein_
db.fasta》hmm.out
[0420]
此命令还可以在基因组的经翻译蛋白质组上使用以找到与功能基序相匹配的所有命中。
[0421]
此命令中的各种选项对应于以下内容:
[0422]-a 0:不保存所有命中与文件的多个比对
[0423]
‑‑
cpu 8:使用8个并行cpu工作器以用于多线程
[0424]-e 1e-20:报告序列《=输出中的1e-20e值阈值
[0425]
‑‑
noali:不输出比对,因此输出较小
[0426]
‑‑
notextw:不限制ascii文本输出行宽度
[0427]
在一些实施例中,可以使用根据本方法和其它已知方法构建的自定义构建的hmm以建立同源性用于本公开的任何工作流步骤(例如,鉴定候选抗性基因,或注释基因)。在一些实施例中,围绕“完整”靶序列(例如,用于抗性搜索的靶基因、生物合成基因或“核心生物合成基因/酶”,或本公开中描述的其它基因)构建hmm。在一些实施例中,围绕所述靶序列的特定结构域(例如,被发现表示所关注特定靶基因/蛋白质的域)构建hmm。
[0428]
结构解析-从基因到化学
[0429]
在一些实施例中,当前公开的天然产物发现工作流(例如图1)包括计算机模拟结构解析的步骤。也就是说,在一些实施例中,本公开教示了基于通过本文公开的方法鉴定的天然产物多基因簇的序列(例如,在计算上确定的天然产物多基因簇特征集)来预测天然产物化学结构的方法。(参见图3)。
[0430]
在一些实施例中,在计算上预测的天然产物(np)结构可以有助优先化np发现工作。例如,与被预测为产生程序的目标更关注的np的mgc相比,被预测为产生具有已知结构的np的mgc在发现流水线中可能会被去优先化。在一些实施例中,关于np结构的计算机模拟预测可以促进np的后续检测(例如,通过质谱)。
[0431]
直接根据基因组序列数据预测多种生物合成通路的小分子产物是计算和数据密集型过程。存在大量参与合成和定制天然产物支架的酶,以及已知化学主题的无数变化。从计算角度来看,这个问题在很大程度上可以简化为如何获取足够全面的训练数据集来遮盖这种多样性和复杂度的问题。
[0432]
已经开发了一系列算法来预测nrps腺苷酰化域和pks酰基转移酶域的底物特异性。(参见例如巴尔赞一世
·
哈亚特(khayatt bi),莱克斯奥维马斯(overmars l),罗兰
·j·
西森(siezen rj),克里斯托弗
·
弗兰克(francke c.)使用底物特异性隐马尔可夫模型的集成对nrps和pks系统的腺苷酰化和酰基转移酶活性进行分类(classification of the adenylation and acyl-transferase activity of nrps and pks systems using ensembles of substrate specific hidden markov models).公共科学图书馆综合.2013;8:e62136,以及达米尔
·
巴拉纳西奇(d),等人通过潜在语义索引预测非核糖体肽合成酶的腺苷酰化域的底物特异性和其它蛋白质性质(predicting substrate specificity of adenylation domains of nonribosomal peptide synthetases and other protein properties by latent semantic indexing).工业微生物学与生物技术杂志2014;41:461

7)。关于生物合成基因簇(mibig)的最少信息还包含关于所有酶功能和已知mgc的特异性的加注释信息,以及每次观察可获得的证据的水平(玛尼克斯h
·
米德玛
mass spectrometry and genome mining for nonribosomal peptide discovery).天然产物杂志(j nat prod.)2014;以及阿德里安
·
古索尔斯(guthals a),杰拉米
·d·
沃特鲁斯(watrous jd),彼得
·c·
多雷斯坦(dorrestein pc),努诺
·
班德拉(bandeira n.)高通量质谱法中的光谱网络范式(the spectral networks paradigm in high throughput mass spectrometry).分子生物系统(mol biosyst.)2012;8:2535-2544)。
[0439]
rippquest的搜索数据库通过在基因组中找到每个检测到的编码羊毛硫氨酸合成酶的基因附近的所有短开放阅读框(orf)来编译,而nrpquest通过在每个检测到的nrp mgc中产生nrps组装线的所有可能的顺序并且然后使用nrpspredictor2预测每个nrps模块编码的氨基酸来产生可能nrp的数据库(马克
·
罗蒂格(m),等人nrpspredictor2-用于预测nrps腺苷酰化域特异性的web服务器(nrpspredictor2

a web server for predicting nrps adenylation domain specificity).核酸研究2011;39:w362

7)。光谱网络方法使得能够评估分子的多个变体,这降低了了由意外定制修饰导致假阴性结果的可能性。此外,其允许立即鉴定已知肽的先前未知变体。
[0440]
替代性方法pep2path使用概率框架来预测每个nrps模块选择每个可能的氨基酸作为底物的可能性,并且然后计算所有可能的nrps组装线匹配质谱法衍生的质量偏移序列标签:表示所研究肽的氨基酸序列的片段分子量差异的序列的组合概率(玛尼克斯h
·
米德玛,等人pep2path:肽天然产物的自动化质谱法指导的基因组挖掘(pep2path:automated mass spectrometry-guided genome mining of peptidic natural products).plos计算生物学(plos comput biol.)2014;10:e1003822)。即使pep2path基于与nrpquest相同的用于底物特异性预测的算法(即,nrpspredictor2),但是这种方法的优点是,如果几个模块被略微误预测,则算法将会预测到肽-mgc链接:例如,如果模块对酪氨酸具有特异性,并且观察到苯丙氨酸,则所述模块负责观察到的氨基酸的概率将仍然是高的。pep2path还具有用于ripp mgc鉴定的工具,所述工具搜索基因组中所有可能的orf,以用于对观察到的质量偏移序列标签的命中。
[0441]
用于优先化抗性基因和簇的工作流
[0442]
本公开提供了描述抗性基因和簇的优先化实施例的工作流。(参见图8)。
[0443]
在一些实施例中,当前公开的工作流被设计为过滤掉推定抗性基因有很大机会在簇中发挥不同作用(例如生物合成对抗性)的簇以及过滤掉具有如不完整等另外的技术问题,或基于缺乏某些生物合成基因而为真簇的具有低置信度的簇。
[0444]
在一些实施例中,本工作流包含用于确定抗性基因是否令人信服的检查点。如果抗性基因位于具有生物合成基因(例如已知定制,如甲基转移酶、糖基转移酶和氧化酶/还原酶)的操纵子中,或者孤立在生物合成基因中的两个基因内的,则所述抗性基因是令人信服的。如果抗性基因可以具有生物合成作用,则所述抗性基因与相关联的基因一起评估(例如,如果参与脂肪酸代谢的靶抗性基因与含脂肪酸的基因簇相关联,则所述靶抗性基因就不那么令人信服)。不令人信服的抗性基因位于具有其它初级代谢基因/管家基因(例如:参与氨基酸代谢的多种酶)的操纵子中或靠近其它初级代谢基因/管家基因。如果抗性基因靠近多部分复合物的其它部分(例如,如果靶抗性基因为核糖体亚基,并且其与其它核糖体亚基相关联),则所述抗性基因也不那么令人信服。
[0445]
在一些实施例中,本工作流包含用于确定基因簇是否令人信服地为真的检查点。
令人信服的基因簇含有能够产生支架的多个生物合成基因。例如,这可以包含编码模块化组装线(pks/nrps)、结构肽(ripp)或萜类合成酶的基因。没有周围生物合成定制基因的分离的基因通常是不令人信服的,例如在没有其它相关联的基因的情况下由于存在蛋白酶而被调用的细菌素簇被丢弃。在一些实施例中,此质量控制步骤通过确保在计算上确定的生物抗性基因位于在计算上确定的天然产物多基因簇特征集的阈值参数内来解决。
[0446]
在一些实施例中,本工作流包含用于确定簇是否可以产生所关注的某些东西的检查点。基因簇的“关注性”是通过许多度量评估的。如果基因簇看起来与先前所鉴定的基因簇相同,则丢弃所述簇。如果基因簇看起来与先前所鉴定的基因簇相似,则评估先前所鉴定的基因簇的类似物的值(例如,没有生物活性的分子的类似物不是所关注的)。评估可以产生的预测的分子的特性,例如细菌素的药代动力学将可能较差,并且因此其不太受关注。在一些实施例中,还评估了可能受关注的分子特征,例如如果存在卤化酶,则这可能产生更容易鉴定并且可以具有更有价值的药代动力学的分子。
[0447]
在一些实施例中,本工作流包含用于确定基因簇是否含于单个粘粒中的检查点。如果不存在在粘粒上或外运行的生物合成基因的操纵子,则猜测簇位于单个粘粒上。
[0448]
在一些实施例中,本工作流包含用于确定簇是否可以完成的检查点。将不含于单个粘粒上的簇与文库中的其它重叠群进行比较。如果可以存在完成了基因簇(使得不存在在粘粒上或外运行的生物合成基因的操纵子)的重叠的重叠群(或多个重叠群),则所述簇被视为是可完成的。如果粘粒的经组装的序列是短的(《30kb),这表明所述粘粒是不完整的,则如果从物理粘粒文库中检索到粘粒并对粘粒重新测序,则所述经组装的序列可以是可完成的。因此,如果经组装的序列特别受关注并且值得冒其将不能完成的风险,则所述经组装序列可能仍然会继续。
[0449]
当前天然产物模拟平台的方法、系统和工具
[0450]
本公开的部分提供了用于从宏基因组文库中发现新颖天然产物的各种方法。这些新颖天然产物有可能显著增加对各种应用的可用np多样性,所述各种应用的范围为小分子药物治疗、如杀虫剂或昆虫信息素等农业产品和/或其它消费食品、化妆品和清洁产品等。
[0451]
然而,在一些情况下,出于其它原因,对期望应用具有高潜力的天然产物仍然被视为不可活。例如,天然产物可能缺乏必要的保存期限,可能会在一些患者群体中引起不良反应,或者可能只是具有阻碍广泛采用的不期望的味道或气味。天然产物还可能具有较差的生物利用度或较差的吸收、分布、代谢和排泄(adme)谱。可能阻止另外有益的天然产物取得商业成功的其它原因可能是生产成本,或者缺乏对天然存在的化合物的专利保护。在这些情况下,对天然产物进行修饰以产生减轻感知到的缺点和/或灌输期望性质的分子可能是有益的。
[0452]
受益于修饰的天然产物的实例是水杨酸(sa)。这种天然产物最初是在柳树中发现的,是常见植物应激激素。这种天然产物在古典时期很有价值,并且在来自苏美尔(sumer)的泥板和埃及(egypt)的纸莎草纸中被提及作为对疼痛的治疗。(迪尔穆德
·
杰弗里斯(diarmuid jeffreys).阿司匹林:神奇药物的非凡故事(aspirin:the remarkable story of a wonder drug).化学遗产基金会(chemical heritage foundation),2008)。然而,水杨酸难以合成,并且不被抱怨天然产物对胃的刺激作用的一些患者所喜欢。1897年,的科学家开发了sa的乙酰水杨酸变体,所述乙酰水杨酸变减轻了原始药物的刺激
作用,并且更易于合成(同上)。此药物现在通常被称为阿司匹林。
[0453]
在一些实施例中,本公开教示了用于改进新发现的天然产物的方法。因此,在一些实施例中,本公开教示了模拟天然产物的方法。如本文所使用的,模拟描述了对天然产物进行修饰以产生具有改进的或另外期望的性质的变体分子。在一些实施例中,模拟包括向天然产物的中央核心结构添加各种化学基团或从所述中央核心结构中去除各种化学基团。
[0454]
在一些实施例中,本公开教示了天然产物模拟的生物合成方法。因此,在一些实施例中,本公开通过修饰现有生物合成通路,或者通过用一或多种酶催化剂对天然产物进行合成后处理来产生天然产物的变体。在一些实施例中,本公开将基于生物合成的模拟称为“生物转化”。图11提供了当前公开的生物转化策略与用于模拟的传统化学方法的比较。
[0455]
在一些实施例中,本公开的模拟方法包括在天然产物合成期间或之后发生的修饰。也就是说,在一些实施例中,本公开的模拟方法开始于在天然产物已经合成之后(例如,在提取之后、在单独反应中、或通过并入另外的生物合成步骤)对天然产物进行修饰。在一些实施例中,本公开的模拟方法将天然产物本身的生物合成步骤修饰为产生变体(例如,替代或修饰天然产物的生物合成通路内的基因以产生变体)。在一些实施例中,本公开还教示了通过向生物合成通路添加中间步骤来模拟天然产物的方法。
[0456]
在一些实施例中,当前公开的模拟方法落入表示以下的至少三个广泛类别:1)簇工程化(例如,破坏或以其它方式修饰现有生物合成基因/生物合成通路),2)酶组(例如,使用混杂酶),以及3)利用同源簇(例如,通过交换整个mgc或一部分进行生物合成工程化)。(参见图9)。在一些实施例中,本公开还教示了通过以上所描述的三种广泛策略中的一或多种策略的组合进行模拟。这些策略中的每种策略在以下更详细讨论。
[0457]
天然产物模拟-簇工程化
[0458]
在一些实施例中,本公开教示了模拟天然产物的簇工程化方法。因此,在一些实施例中,本公开教示了一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:a)提供基础微生物宿主细胞,所述基础微生物宿主细胞包括已知产生所述目标天然产物的多基因簇;b)扰动所述基础微生物宿主细胞的基因组以使所述多基因簇内的一或多个基因的表达突变或敲除所述一或多个基因的表达,由此产生经突变的微生物宿主细胞文库;c)培养来自所述经突变的微生物宿主细胞文库的微生物宿主细胞;d)分析来自步骤(c)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在(或对其进行鉴定);以及e)从步骤(c)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(d)的所述分析确定的。
[0459]
在一些实施例中,可以通过修饰dna序列的任何已知方法完成扰动基因组的步骤。在一些实施例中,本公开教示了通过用包括期望突变的对应dna替代多基因簇中的所有多基因簇(或其一部分)来扰动基因组。在一些实施例中,本公开教示了例如,环入/环出技术的用途。在一些实施例中,本公开教示了基因编码工具用于进行期望修饰的用途。
[0460]
在一些实施例中,基因组编辑系统的分子可以包含例如a)酶和rna,b)rna和编码酶的核酸,c)酶和编码rna的核酸,或d)编码酶和rna两者的核酸。在一些实施例中,基因组编辑系统包括设计师核酸酶(或编码设计师核酸酶的核酸,如mrna或dna质粒),如锌指核酸酶(zfn)、转录激活子样效应核酸酶(talen)、归巢核酸内切酶(如arc nuclease
tm
)或核酸引
导的核酸内切酶(ngen),如rna引导的核酸内切酶(rgen,例如,cas9)或dna引导的核酸内切酶(dgen)。在一些实施例中,基因组编辑系统进一步包括引导核酸(gna)(或编码引导核酸的核酸,如mrna或dna质粒),如引导rna(grna)或引导dna(gdna)。在一些实施例中,基因组编辑系统为成簇的、规律间隔的短回文重复序列(crispr)系统(包含例如,crispr相关联的蛋白质和/或核酸或编码crispr相关联的蛋白质和/或核酸中的一或多种的核酸)。在一些实施例中,基因组编辑系统包括zfn。在一些实施例中,基因组编辑系统包括talen。在一些实施例中,基因组编辑系统包括归巢核酸内切酶。在一些实施例中,基因组编辑系统包括整合酶(或编码整合酶的核酸,如mrna或dna质粒)。在一些实施例中,基因组编辑系统进一步包括供体核酸,所述供体核酸包括整合酶所识别的重组位点。
[0461]
本公开的工程化(例如,基因组扰动)方法可以单独完成或者可以是较大菌株工程化程序的一部分。例如,在一些实施例中,本公开的mgc工程化可以根据美国专利申请9,988,624的方法完成,所述美国专利申请以其整体并入本文。
[0462]
天然产物模拟-酶组和混杂酶
[0463]
在一些实施例中,本公开教示了模拟天然产物的酶组方法。因此,在一些实施例中,本公开教示了一或多种酶用于修饰天然产物或天然产物的前体的用途。
[0464]
在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)提供已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的多种酶,由此产生模拟酶组文库;b)将来自模拟酶组的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物;c)分析步骤(b)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及d)从所述模拟酶组中选择酶,由此模拟所述目标天然产物,其中所选酶产生所述目标天然产物的类似物,如通过步骤(c)的所述分析确定的。
[0465]
在一些实施例中,来自模拟酶组的酶为经纯化的酶。在一些实施例中,以来自异源表达所述酶的微生物菌株的裂解物的形式提供步骤(a)的所述酶。
[0466]
在一些实施例中,来自酶组的酶包含在菌株内。因此,在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)提供多个微生物菌株,由此产生微生物菌株的模拟酶组文库,所述多个微生物菌株各自表达已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶;b)使来自所述微生物菌株的模拟酶组文库的单独微生物菌株与所述目标天然产物或所述目标天然产物的前体接触,由此产生混合物(例如,在包括所述目标天然产物或所述目标天然产物的前体的生长培养基中培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株);c)分析步骤(b)的菌株与所述目标天然产物或前体的混合物(例如,来自步骤(b)的培养物的用过的培养基)中所述目标天然产物或所述目标天然产物的类似物的存在;以及d)从所述微生物菌株的模拟酶组文库中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(c)的所述分析确定的;其中所述所选微生物菌株所表达的所述酶是所选酶。
[0467]
在一些实施例中,酶组内的菌株在与目标天然产物或其前体接触之前裂解。因此,在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)提供多个微生物菌株裂解物,由此产生模拟酶组文库,每种裂解物来
自表达已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的微生物菌株;b)将来自所述模拟酶组文库的单独裂解物与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生酶混合物;c)分析步骤(b)的所述酶混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及d)从所述模拟酶组文库中选择裂解物,由此模拟所述目标天然产物,所述裂解物产生所述目标天然产物的期望类似物,如通过步骤(c)的所述分析确定的;其中与所鉴定的裂解酶相对应的微生物菌株所表达的酶为所选酶。
[0468]
在一些实施例中,所述方法进一步包括以下步骤:扰动第一基础微生物菌株的基因组,所述第一基础微生物菌株用于表达所述所选酶,其中所述第一基础微生物菌株能够合成所述目标天然产物。
[0469]
在其它实施例中,酶组是添加到已经能够产生天然产物的微生物中的一系列序列。因此,在一些实施例中,本公开教示了:
[0470]
一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)提供多个基因序列,所述多个基因序列各自编码已知或被预测为催化用于所述目标天然产物的第一模拟的一种类型的反应的酶;b)扰动第一基础微生物菌株的一或多个细胞的基因组,由此产生微生物菌株的模拟酶组文库,所述一或多个细胞用于各自表达由步骤(a)的所述多个基因序列中的一或多个基因序列编码的酶,其中所述第一基础微生物菌株能够合成所述目标天然产物;c)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株;d)分析来自步骤(c)的培养物的用过的培养基或裂解物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及e)从所述微生物菌株的模拟酶组中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(d)的所述分析确定的。在一些实施例中,本公开的菌株可以通过重复以上方法的步骤用第二多个基因序列而被进一步修饰为包括另外的酶。
[0471]
在一些实施例中,将由基因序列编码的酶添加到菌株中以催化另外的反应(即,除了已由原始mgc编码的反应之外)。因此,在一些实施例中,本公开教示了将编码由多个基因序列编码的酶的核酸添加到现有mgc中。
[0472]
在一些实施例中,将由多个基因序列编码的酶添加到菌株中以取代所关注天然产物的生物合成通路中的反应。因此,在一些实施例中,扰动宿主细胞的基因组的步骤包括用编码由第一多个基因序列或第二多个基因序列中的一或多个基因序列编码的酶的序列取代原始mgc中的生物合成基因中的一或多个生物合成基因。
[0473]
在一些实施例中,从宏基因组文库中鉴定由多个基因序列编码的酶。因此,在一些实施例中,所述酶中的至少一种酶来自宏基因组文库,并且通过用训练数据集填充的机器学习模型被预测为催化所述一种类型的反应,所述训练数据集包括基因序列输入变量和表型性能输出变量;i)其中所述基因序列输入变量包括催化用于所述目标天然产物的模拟的所述类型的反应的酶的一或多个氨基酸序列;并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征。
[0474]
在一些实施例中,本公开教示了一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:a)访问训练数据集,所述训练数据集包括基因序列输入变量和表型性能输出变量;i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列,并且ii)其中所述表型性
能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征;b)开发用所述训练数据集填充的第一预测机器学习模型;c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列(例如,由本公开的dml内的经组装的重叠群编码的氨基酸的列表)的数字宏基因组文库以鉴定所述数字宏基因组文库内的候选序列池,其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应;d)如果所述第一置信度评分与第二置信度评分的比率超出预选阈值,则从所述候选序列池中去除通过第二预测机器学习模型利用所述第二置信度评分被预测为执行不同功能的任何序列,由此产生经过滤的候选序列池;e)制造一或多个微生物细胞,所述一或多个微生物细胞用于各自表达源自来自步骤(d)的所述经过滤的候选序列池的序列;f)培养步骤(e)的制造的宿主细胞,并且使经培养的细胞裂解,由此产生模拟酶组文库;g)将来自所述模拟酶组文库的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物;h)分析步骤(g)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及i)从模拟酶组中选择酶,由此模拟所述目标天然产物,其中所选酶产生所述目标天然产物的期望类似物,如通过步骤(h)的所述分析确定的。
[0475]
本公开的模拟方法的许多实施例叙述了分析早期步骤的用过的培养基、裂解物、温育、反应、混合物或等效物中目标天然产物和/或所述目标天然产物的类似物的存在。在一些实施例中,此分析步骤包括对所述目标天然产物或类似物的存在的直接测量。本领域的技术人员将了解检测化学实体的许多方法,包含hplc、gc、nmr、ir等。
[0476]
在一些实施例中,此分析步骤包括指示目标天然产物的类似物的存在的代替测量。例如,在一些实施例中,本公开教示了各种比色测定用于鉴定期望分子的存在或分子的消耗的用途。在一些情况下,比色测定直接测量类似物的存在。在其它实施例中,比色测定测量用于推断第一化合物的存在的不同的化合物。例如,在一些实施例中,测量酶辅因子的存在或消耗以推断目标天然产物的酶转化。在一些实施例中,测量反应物的存在或消耗以推断目标天然产物的酶转化。一个说明性实例是比色测定监测随时间推移还原型烟酰胺腺嘌呤二核苷酸(磷酸)的消耗的用途。此比色测定可以用于底物的酶促还原(模拟)需要氧化nad(p)h的情况;因此,此酶组的活性与可以通过340nm处吸光度的降低来监测的nad(p)h的消耗有关。
[0477]
天然产物模拟-利用同源簇
[0478]
在一些实施例中,本公开教示了利用同源mgc来模拟天然产物。
[0479]
在一些实施例中,本公开教示了通过鉴定被预测为产生相同或非常相似的天然产物的同源mgc进行模拟的方法。这种方法利用一或多个宏基因组文库内的现有多样性来鉴定质量优于最初所鉴定的天然产物的那些质量的天然产物变体。在一些实施例中,预期新鉴定的mgc将包括将引起对天然产物的对应修饰由此产生类似物的一或多种略微不同的生物合成酶。
[0480]
在一些实施例中,本公开教示了一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:a)提供已知产生所述目标天然产物的第一多基因簇;b)基于所述第一多基因簇开发预测模型;c)通过计算机模拟查询数字宏基因组文库中新多基因簇,由此产生候选多基因簇池,其中所述新多基因簇通过所述预测模型被预测为产生所述目标天然
产物或所述目标天然产物的变体;d)制造一或多个微生物宿主细胞,所述一或多个微生物宿主细胞用于各自表达来自所述候选多基因簇池的至少一个多基因簇;e)培养在步骤(d)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞;f)分析来自步骤(e)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物;以及g)从步骤(e)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(f)的所述分析确定的。
[0481]
在一些实施例中,本公开的预测模型确定新多基因簇是否产生目标天然产物或目标天然产物的变体,如本文档的“过渡多基因簇特征集发现工作流”部分中所描述的(例如,使用表4中描述的工具或其等效物)。
[0482]
在一些实施例中,已知mgc是已进行实验验证并且被证明产生天然产物的那些mgc(例如,通过经验数据或如在期刊中所报道的)。
[0483]
在一些实施例中,本公开教示了用于鉴定同源mgc并且挖掘用于模拟酶的那些mgc的方法。在一些实施例中,本公开教示了对编码原始天然产物的mgc进行工程化以添加来自同源mgc的一或多个部分。在一些实施例中,本公开教示了对编码原始天然产物的mgc进行工程化以用来自同源mgc的一或多个部分替代所述原始mgc内的一或多个基因。(参见图12)。
[0484]
因此,在一些实施例中,本公开教示了一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:a)提供已知产生所述目标天然产物的第一多基因簇;b)基于所述第一多基因簇开发预测模型;c)通过计算机模拟查询数字宏基因组文库中新多基因簇,由此产生候选多基因簇池,其中所述新多基因簇通过所述预测模型被预测为产生所述目标天然产物或所述目标天然产物的变体;d)通过计算机模拟用注释引擎鉴定步骤(c)的所述候选多基因簇池的所述新多基因簇中的一或多个新多基因簇内的编码生物合成酶的单独基因,由此产生包括来自所述新多基因簇的生物合成基因的模拟酶组文库;e)扰动基础微生物宿主细胞的基因组,由此制造细胞,所述基础微生物宿主细胞用于表达来自所述模拟酶组文库的基因,其中所述基础微生物宿主细胞包括所述第一多基因簇;f)培养在步骤(e)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞;g)分析来自步骤(f)的培养物的用过的培养基或裂解物中的所述目标天然产物和/或所述目标天然产物的类似物;以及h)从在步骤(f)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(g)的所述分析确定的。
[0485]
在一些实施例中,基于所述第一多基因簇开发预测模型的步骤是鉴定可以用于搜索相似生物合成簇的生物合成基因的集。在一些实施例中,用于搜索相似生物合成簇的生物合成基因是核心生物合成酶。
[0486]
在一些实施例中,进行通过计算机模拟查询数字宏基因组文库中新多基因簇的步骤,如在本公开的过渡多基因簇特征集发现工作流部分中所描述的。也就是说,在一些实施例中,“查询步骤”包括鉴定含有前一步骤的mgc预测模型的所有生物合成基因的同源物的mgc。在一些实施例中,候选mgc含有mgc预测模型的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个生物合成基因的同源物,
包含其间的所有范围和子范围。在一些实施例中,候选mgc含有mgc预测模型的至少10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%、40%、41%、42%、43%、44%、45%、46%、47%、48%、49%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%生物合成酶的同源物。如以上提到的,在一些实施例中,mgc预测模型包括第一mgc的所有生物合成基因。在一些实施例中,mgc预测模型仅包括第一mgc的核心生物合成基因/酶,包含其间的所有范围和子范围。
[0487]
在一些实施例中,本公开教示了一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:a)提供已知或被预测为产生所述目标天然产物或相关天然产物的多个多基因簇;b)通过计算机模拟用注释引擎鉴定步骤(a)的所述多个多基因簇内的编码生物合成酶的单独基因,由此产生包括来自所述多个多基因簇的生物合成基因的模拟酶组文库;c)扰动基础微生物宿主细胞的基因组,由此制造微生物细胞,所述基础微生物宿主细胞用于表达来自所述模拟酶组文库的基因,其中所述基础微生物宿主细胞包括能够产生所述目标天然产物的第一多基因簇;d)培养在步骤(c)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞;e)分析来自步骤(d)的培养物的用过的培养基或裂解物中的所述目标天然产物和/或所述目标天然产物的类似物;以及f)从步骤(d)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(e)的所述分析确定的。
[0488]
天然产物模拟-组合策略
[0489]
在一些实施例中,本公开教示了通过所公开策略的组合进行模拟。因此,在一些实施例中,本公开教示了组合簇工程化和酶组的策略。在一些实施例中,本公开教示了组合簇工程化和同源簇的利用的策略。在一些实施例中,本公开教示了组合酶组和同源簇的利用的策略。在一些实施例中,本公开教示了组合簇工程化、酶组和同源簇的利用的策略。
[0490]
用于执行所公开方法的系统
[0491]
本领域的技术人员将理解,本公开的实施例的一些或所有元件和其伴随操作可以全部或部分地由包含一或多个处理器和一或多个存储系统的一或多个计算机系统实施。一些元件和功能可以在本地实施并且其它元件和功能可以通过不同服务器在网络上以分布式方式实施,例如以客户端-服务器方式。具体地,可以使服务器侧操作以软件即服务(saas)方式供多个客户端获得。
[0492]
本领域的技术人员将认识到,在一些实施例中,本文所描述的操作中的一些操作可以通过人工实施方案或者通过自动化手段和手动手段的组合来实施。当操作未完全自动化时,本公开的实施例的适当组成部分可以例如接收操作的人工执行的结果,而不是通过其自身的操作能力产生结果。
[0493]
******
[0494]
参考附图和实例进行本描述,在所述参考附图和实例中示出了各种示例实施例。然而,可以使用许多不同的示例实施例,并且因此本描述不应被解释为限于本文阐述的示
例实施例。相反,提供这些示例实施例使得本公开将是彻底的且完整的。对示例性实施例的各种修改对于本领域的技术人员来说将是显而易见的,并且在不脱离本公开的精神和范围的情况下,本文定义的一般原理可以应用于其它实施例和应用。因此,本公开不旨在限于所示实施例,而是旨在符合与本文公开的原理和特征一致的最广泛范围。
[0495]
实例
[0496]
以下实例出于展示本公开的各个实施例的目的而给出并且不意味着以任何方式限制本公开。如权利要求的范围所定义的,本领域的技术人员将认识到其间的变化和涵盖在本公开的精神内的其它用途。
[0497]
出于帮助读者的目的,以下提供了简短目录表。此目录表中的任何内容都不意味着限制本技术的实例或公开的范围。
[0498]
表4.1-实例部分的目录表
[0499]
[0500]
[0501][0502]
实例1-建模以确立最佳宏基因组文库参数
[0503]
本发明部分地基于发明人对实现计算机模拟天然产物发现的宏基因组文库参数的发现。作者假设,产生将对mgc发现有用的宏基因组文库的先前尝试由于产生了以下文库失败:i)由于过于复杂的dna混合物而未能产生足够长的组装体,或者ii)由于只选择了几个细胞/粘粒以进行测序而未能捕获环境样品内有意义的多样性。也就是说,先前尝试没有采取足以降低复杂度的步骤,也没有降低太多复杂度,使得未能捕获样品的多样性。
[0504]
作为初始步骤,发明人分析了具有不同n50长度的文库的mgc发现率。对来自相似复杂度的样品的各种数字宏基因组文库(dml)以不同覆盖水平进行测序,以便产生范围为约1000bp到约25,000bp的不同n50的dml。使用metaquast计算每个dml的n50、总体组装长度和重叠群的数量的dml组装度量。然后用antismash分析这些测试dml以鉴定组装体内存在的多基因簇。出于此分析的目的,仅搜索大于10kb的簇,因为这已被确定为编码所关注天然
产物的最小平均簇大小(参见巴尔茨r.h.基因组时代的天然产物药物发现;现实、猜想、误解和机会(natural product drug discovery in the genomic era;realities,conjectures,misconceptions,and opportunities).工业微生物学与生物技术杂志2019年3月;46(3-4):281-299,所述文献表明至少约10kb的簇与有用的生物活性最具关联性)。最后,对于每个dml,计算经组装的序列的》10kb的mgc的数量/mbp。
[0505]
这些实验的结果在表5中示出并且还在图22中展示。图22中每兆碱基对经组装序列的mgc发现率被描绘为测试dml的n50的函数。总体mgc发现率随着不断增加的n50而迅速增加,但在n50为约15,000bp时开始趋平。n50为15,000bp的文库。
[0506]
表5-测试dml中的mgc发现率
[0507][0508][0509]
注意,因为每个样品的复杂度相似,所以较低的n50也导致dml的总体组装长度较低(总体组装长度是dml的重叠群内包含的非重叠序列信息的总量)。
[0510]
来自此实验的结果表明n50低于5,000bp的文库不足以用于实际mgc发现。在一些实施例中,结果表明n50为至少15kb的dml对于mgc发现是最佳的。
[0511]
实例2-建模以确立最佳汇集参数
[0512]
本公开教示了将来自环境样品的克隆汇集成单独筒仓作为降低宏基因组文库的复杂度以供后续组装的方式的方法。汇集还允许对环境样品进行更多采样并且允许更高效
使用测序仪的带宽,并且每次运行可以产生更大的总文库。为了确定用于产生用于天然产物发现的dml的最佳汇集水平,进行了一系列模拟。
[0513]
为了产生对不同大小(1个、5个、10个、100个、200个、6,000个、12,000个和60,000个粘粒)的粘粒池的模拟测序和测序组装,将由多个不同大小的在经验上测序的宏基因组文库产生的原始成对端部fasq(因美纳公司)数据串联以产生粘粒的期望模拟数量。首先使用来自bbtools包(//sourceforge.net/projects/bbmap/)的bbduk对这些模拟的池的原始fastq文件进行修整。然后使用bbtools包中的bbnorm对修整的fastq文件中的总读段进行子采样以归一化为5倍和10倍的目标读段深度。在归一化和子采样之后,使用bbduk从归档的fastq中去除匹配大肠杆菌gdna和pweb克隆载体骨架的读段,然后使用bbmerge合并成对端部读段。合并和未合并的成对端部fastq读段(对于每个归一化的深度)作为到spades组装器(v.3.10.1)的输入提供,并且在没有读段误差校正的情况下用默认参数运行组装。此过程由在5倍和10倍覆盖率下测序的粘粒池产生了模拟组装体。使用metaquast(v.5.0.0)产生来自每个组装体的重叠群的组装质量度量,包含n50和长度大于15kb的重叠群的数量。15kb n50截止值基于实例1的结果,所述实例已经鉴定了大于15kb的重叠群长度对于编码天然产物的mgc是最佳的。最后,通过将重叠群输入到antismash 5.0中来鉴定在这些重叠群上编码的mgc的数量。
[0514]
这些模拟的结果在表6中描绘,并且在图21a和图21b中展示。模拟显示,在10倍覆盖率下,可能通过汇集每测序筒仓至多约34,000个克隆产生适于mgc发现的数字宏基因组文库(即,n50大于15,000bp)。这个结果是出乎意料的,因为一般的想法是,虽然已同时测序的《100个粘粒的池可以产生足以实现mgc注释的长度的序列组装体,但是更高复杂度水平(例如》1000个粘粒)的粘粒池在没有用于对来自池的样品解复用的方式(例如,通过使用单独条形码)的情况下将导致不能用于mgc注释的失败的或低质量的组装体。
[0515]
表6-由粘粒汇集产生的文库的n50长度
[0516]
粘粒池大小5倍覆盖率下的n5010倍覆盖率下的n50123678346015134193460110127073233310013973319612001475332645600011856253311200010713249526000015668546
[0517]
虽然模拟表明至多约34,000个的粘粒池可以产生足以含有mgc的长度的序列组装体,但是所述复杂度可能不是用于mgc发现的最高效的池大小。为了进一步优化此应用的池的复杂度,对模拟的数据进行分析以确定每500mb增量的原始序列数据的长重叠群(》15kb)组装的效率(如根据5倍或10倍原始序列覆盖率计算的)。选择500mb,因为其与由因美纳公司miseq运行产生的数据的量近似。来自这些模拟的结果在以下表7中描述,并且还在图21c中展示。
[0518]
表7-组装的长重叠群对每个筒仓池的粘粒的效率
[0519][0520]
结果显示,当在池中从1个粘粒移动到约10,000个粘粒时,每500mb原始序列数据产生的》15kb的重叠群的数量显著增加,这表明在所述复杂度程度下汇集粘粒是对用于mgc注释的测序能力的更高效的使用。然而,随着池的复杂度增加到60,000,每500mb原始序列数据产生的》15kb的重叠群的数量急剧下降。在这些高度复杂的池中,组装体仍然可以产生更高绝对数量的》15kb的重叠群,但是每个重叠群需要更多测序才能产生,并且因此每次测序运行产生了所述长度的更少重叠群。因此,对于此应用,模拟表明约6,000-15,000个的粘粒池产生了用于mgc发现的最佳文库。这些模拟对于20倍覆盖率测序运行重复,并且产生了与以上报告的那些结果相似的结果。
[0521]
基于以上实例1和2的结果,申请人然后着手通过每次筒仓测序运行汇集6,000个到10,000个粘粒来由土壤环境dna产生优化的宏基因组文库,如以下在实例3中更详细讨论的。
[0522]
实例3-制备宏基因组文库
[0523]
集合
[0524]
从私人田地中收集了大约1kg土壤样品并且通过使土壤通过2mm丝网筛来去除岩石、树枝和其它非土壤物质。通过首先添加300ml基于ctab的裂解缓冲液(100mm tris-hcl、100mm edta、1.5m nacl、1%(w/v)ctab、2%(w/v)sds,ph 8.0)从约250g的土壤中提取dna,然后在一致倒置的情况下在70℃下温育2小时以进行混合。将样品在4℃下以4,000g离心20分钟。将上清液转移到清洁的瓶子中并且在4℃下以4,000g再次离心20分钟。将所得裂解物转移到新的瓶子中并且添加0.7体积的异丙醇并轻轻混合持续30分钟。通过在4℃下以4,000g持续30分钟的两轮离心使沉淀的dna团粒化,在第一次离心与第二次离心之间用70%乙醇洗涤。丢弃上清液,使dna粒料干燥,并且将干燥dna重悬于10ml te中。使用epoch分光光度计对提取的dna进行定量,并且将dna保存以供进一步处理。
[0525]
大小选择
[0526]
将提取的包括土壤样品中微生物的基因组的dna上样在未染色的0.75%琼脂糖凝胶上并且在3v/cm的恒定电压下分离12-16小时。切除含有dna定大小标志物的凝胶的边缘并且对所述边缘进行染色。随后,切除含有大约35-50kb的dna的凝胶带。将含有dna的凝胶切片置于具有1x tae缓冲液的12kd mwc透析管中并且在3v/cm恒定电压下电洗脱dna持续3小时。电洗脱之后,使用具有30kd mwc膜的centricon超滤装置浓缩dna并且将缓冲液交换为0.5x te缓冲液。(参见图13)。
[0527]
粘粒包装
[0528]
使用end-it dna端部修复试剂盒(卢西根公司,er0720)将dna平末端化并且进行异丙醇沉淀。将含有250ng平末端化的dna的大约10次连接反应与500ng平末端化的粘粒载体(t4连接酶,纽英伦生物技术公司(neb),m0202)组合并且克隆到粘粒骨架中。按照制造商的说明使用maxplax
tm
包装试剂盒(卢西根公司,mp5120)将克隆的dna包装到噬菌体中并且转导到大肠杆菌中。(参见图13)。简而言之,在不引入气泡的情况下,通过移液几次将包括噬菌体的包装提取物溶液与断裂的dna混合。将反应在30摄氏度下温育90分钟。添加另外25ul解冻的包装提取物溶液,并且将反应在30摄氏度下温育另外90分钟。用噬菌体稀释缓冲液稀释温育的样品并且轻轻涡旋。通过添加氯仿a轻轻混合样品使未掺入的噬菌体蛋白沉淀。将稀释液与宿主大肠杆菌细胞混合,在室温下温育20分钟以供噬菌体附接。将经转染的细胞在37摄氏度下回收持续75分钟并且铺板在含有适当抗生素选择的lb琼脂上。根据制造商的说明,测量包装反应的一部分的包装效率。
[0529]
汇集和测序
[0530]
实例2已经表明,在10倍覆盖率下,可能汇集至多约34,000个克隆,同时仍然产生适于天然产物发现的dml(例如,n50为至少15,000bp),但是将在每个池约6,000个-约15,000个克隆的范围内实现最大效率。为了在预算限制内产生尽可能最好的文库,基于噬菌体包装的测得的效率将含有经转导的粘粒的大肠杆菌组合成每个大约6,000个-10,000个粘粒的池(“大肠杆菌粘粒池”)。使用nexteradna文库制备试剂盒制备用于测序的每个大肠杆菌粘粒池,并且在hiseq 4000或novaseq 6000测序仪上测序。(参见图14)
[0531]
顺序组装
[0532]
对来自所汇集的样品的读段进行修整、质量过滤,并且使用bbtools合并成对端部读段。还使用bbtools去除污染序列(例如克隆载体、宿主基因组)。使用spades 3.10.1版组装清洁的合并和未合并的成对端部读段。使用n50长度为约18kb的所得重叠群组装体以制备跨不同重叠群和池的更长组装体。(参见图15)。所得跨池组装体产生了n50为约32kb的大序列串。将经组装的序列填充到数据库中并且称为“数字宏基因组文库”。
[0533]
排列物理池
[0534]
将大肠杆菌粘粒池储存在含甘油的单独冷冻小瓶中以供长期储存。将重复大肠杆菌粘粒池以96孔格式储存作为大肠杆菌细胞的甘油储备或作为从所述储备中分离的dna。(参见图16)。这些被称为“宏基因组物理文库”。通过数据库将数字宏基因组文库中的每个序列与储存的宏基因组物理文库内的对应物理dna片段的位置相关联。
[0535]
实例4-使用本公开的数字宏基因组文库和可公开获得的经组装的宏基因组文库进行mgc发现比较。
[0536]
按照与实例3中所描述的那些方案相同的方案制备的数字宏基因组文库。根据从实例1和2中进行的模拟中收集的推荐产生文库。所得文库广泛地表示其源自的土壤环境样品(参见例如图28),并且对改进的mgc发现表现出》15,000bp的n50。
[0537]
为了验证这些上文引用的文库设计选择,发明人进行了来自此实例的dml与最大可公开获得的土壤宏基因组之一的dml(来自项目id gp0051441的联合基因组研究所土壤宏基因组文库,在此被称为“jgi土壤宏基因组”)的真实世界比较。jgi土壤宏基因组基于从堪萨斯州(kansas)、威斯康星州(wisconsin)和爱荷华州(iowa)原生草原土壤样品中收集的土壤,并且可在联合基因组研究所基因组门户以//img.jgi.doe.gov/cgi-bin/m/
main.cgi?section=taxondetail&page=taxondetail&taxon_oid=3300000956公开获得(还参见艾迪娜
·

·
豪(adina chuang howe),珍妮特
·
詹森(janet k.jansson),斯蒂芬妮
·a·
马尔法蒂(stephanie a.malfatti),苏珊娜g.崔吉(susannah g.tringe),詹姆斯
·m·
蒂杰(james m.tiedje),c.泰特斯
·
布朗(c.titus brown).“通过组装解决土壤多样性(tackling soil diversity with the assembly)”美国国家科学院院刊2014年3月,201402564;doi:10.1073/pnas.1402564111)。
[0538]
jgi宏基因组文库具有的总体组装长度为8.88千兆碱基对,相比之下,本公开的dml为仅1.84千兆碱基对。实例3中产生的dml的平均n50大于15,000bp,而jgi宏基因组的平均n50为985bp。
[0539]
均使用antismash 5.0分析了jgi宏基因组文库和dml以鉴定长度大于10kb的推定多基因簇的数量。此分析的此结果在图24中汇总。antismash在dml中鉴定了1287个推定簇,但在jgi宏基因组文库中仅鉴定了120个推定簇。这些结果在图25中更好地表示,所述图提供了每千兆碱基序列鉴定的簇的数量。jgi宏基因组文库产生了每千兆碱基13.5个推定簇,而本公开的dml产生了每千兆碱基序列700个推定簇。
[0540]
因此,当与可公开获得的宏基因组文库相比时,本公开的dml在产生推定簇命中方面为50倍以上。
[0541]
实例5-对宏基因组文库中的天然产物的鉴定(抗性信号搜索)
[0542]
在实例3中设计并验证了数字宏基因组文库(dml)之后,接下来试图将产物发现工作流应用于此dml。此实例说明了用于鉴定新颖天然产物的基于抗性信号的多基因簇特征集搜索,如本文档“抗性基因搜索工作流”部分所讨论的。此实例使用推定基于靶标变体的抗性序列作为指示天然产物多基因簇特征集的信号。此实例应用抗性基因搜索工作流以通过使用已知抗性基因作为用于鉴定候选抗性基因的靶基因来鉴定与现有天然产物相关的新天然产物。
[0543]
应用靶标
[0544]
蛋白酶体的抑制剂为经批准的抗癌药物(例如卡非佐米(carfilzomib))以及临床开发中的抗癌药物(例如马里左米(marizomib))。卡非佐米和马里左米分别基于细菌天然产物,即环氧霉素和盐孢菌酰胺a。编码盐孢菌属细菌的某些物种中的盐孢菌酰胺a的生物合成基因簇含有产生盐孢菌酰胺a所需的所有生物合成酶。除了这些酶之外,生物合成基因簇含有编码蛋白酶体的β亚基的变体的对盐孢菌酰胺a的作用具有抗性的基因(抗性基因)。这种蛋白质变体的表达允许产生用于在存在盐孢菌酰胺a的情况下存活的细菌。新颖天然产物小分子蛋白酶体抑制剂可以由含有编码蛋白酶体β亚基的变体的抗性基因的生物合成基因簇编码。这些新颖天然产物蛋白酶体抑制剂可以充当新颖抗癌药物的支架。
[0545]
选择hmm
[0546]
搜索hmm文库(pfam和tigrfam)以鉴定蛋白酶体的β亚基的适当hmm。选择tigr03690并将其用作搜索查询。
[0547]
搜索宏基因组文库中的抗性基因-查询数字宏基因组文库中指示天然产物多基因簇特征集的信号。
[0548]
使用以上鉴定的hmm模型以搜索通过实例3产生的数字宏基因组文库中编码蛋白酶体的β亚基的微生物基因(靶基因、抗性基因)。搜索鉴定了一系列被称为“候选序列”的序
列。每个候选序列都与由模型分配的置信度评分相关联。建立了1e-10的最大e值以选择最高命中以供进一步分析。在一些情况下,序列以97%的同一性去重复。
[0549]-提供hmm查询的输出作为多个信号相关联的(多基因簇)数字特征集。
[0550]
将编码以上鉴定的一或多种候选序列(即,编码蛋白酶体的β亚基的基因)的经组装的序列下载到表示信号相关联(多基因簇)的数字特征集的新文件中。
[0551]
多基因簇鉴定-确定生物相关性并且将所述生物相关性分配到信号相关联的多基因簇数字特征集。
[0552]
使用antismash簇分析工具分析这些数字特征集中多基因簇特征集的存在。(参见凯
·
布兰等人“antismash 5.0:对次级代谢物基因组挖掘流水线的更新”核酸研究(2019),工具可在//antismash.secondarymetabolites.org/#!/start获得)。基于与基因簇相关联的生物合成和其它基于序列的信号的存在(例如,使用antismash)鉴定mgc也被称为根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0553]
基于在计算上确定的生物抗性基因位于在计算上确定的天然产物多基因簇特征集的阈值参数内来鉴定编码所关注天然产物的mgc
[0554]
将在早期步骤中鉴定的抗性基因(候选序列)的位置与以上通过antismash鉴定的mgc的位置进行比较。选择在其预测的边界内或距这些边界5-10kb内含有候选序列的20个预测的天然产物多基因簇以供进一步分析。
[0555]
多基因簇的任选优先化
[0556]
此实施的目标是鉴定编码具有潜在抗癌性质的与环氧霉素具有结构相似性的天然产物的新颖变体的mgc。为了富集含有真正抗性基因的天然产物多基因簇,使用另外的标准来选择最受关注的簇。利用blast将推定抗性基因(候选基因)与人类蛋白质组进行比较以证实与推定抗性基因的最强蛋白质匹配是蛋白酶体的β亚基的组分。注意,这也可以通过仅在“查询数字宏基因组文库中指示天然产物多基因簇特征集的信号”的步骤中增加抗性基因同源性搜索的严格性来实现。
[0557]
还通过bigscape分析了来自antismash分析的命中以鉴定所鉴定的多基因簇之间的关系并且相应地对多基因簇进行分组。(参见纳瓦罗-穆尼奥斯(navarro-muoz)等人“从大规模基因组数据系统探索生物合成多样性的计算框架(a computational framework for systematic exploration of biosynthetic diversity from large-scale genomic data)”生物预印本服务器(biorxiv)2018,所述工具可在omictools.com/big-scape-tool获得)。在一些工作流中,通过1)多基因簇的预测长度和2)由kaiju分配的多基因簇的预测分类对多基因簇的列表进一步过滤。
[0558]
含有编码蛋白酶体的β亚基的与编码蛋白酶体α亚基的基因相邻的基因的多基因簇被认为不太可能用作抗性基因并且从集中去除所述多基因簇。
[0559]
这些步骤将候选簇池优先化为被选择用于验证的三个优先多基因簇。
[0560]
概述这种方法的计算机模拟步骤的流程图在图6提供。
[0561]
np验证
[0562]
此实例的工作流步骤将文献中已经报道的mgc鉴定为产生埃波霉素(1,2-环氧基-2-羟甲基-4-(n-异辛酰基丝氨酰基氨基)-6-甲基庚-6-烯-3-酮)。因此,对埃波霉素簇的鉴
定验证了抗性基因搜索工作流的计算机模拟部分。
[0563]
此实例中鉴定的另外的候选mgc将通过湿实验室技术进行验证。从宏基因组物理文库中回收包括以上被鉴定为包括多基因簇的邻近候选序列的序列的dna。简而言之,从宏基因组数据库获得包括多基因簇的期望dna序列的位置,所述位置指示每个序列物理位于的板和孔(即,宏基因组物理文库内的位置)。然后从物理文库中回收所鉴定的dna序列(例如,通过稀释系列以从池中分离所关注序列),并且在酿酒酵母中使用转换辅助重组(tar)将包括多基因簇的dna序列克隆和重新组装在质粒载体中。使用所述载体以将多基因簇引入到链霉菌属微生物宿主中。然后培养经修饰的微生物宿主细胞,并且测试天然产物的产生,其中除了在所鉴定的多基因簇中(或其附近)鉴定的候选抗性基因的表达除外,所述天然产物i)与蛋白酶体体内或体外结合或以其它方式相互作用和/或ii)通过抑制蛋白酶体对细胞有毒性。
[0564]
实例6-在没有抗性基因存在/知识的情况下对通过簇产生的天然产物的鉴定(过渡搜索工作流)
[0565]
此实例说明了用于发现缺乏可易于鉴定的抗性基因的多基因簇特征集的方法,如在本文档的“过渡多基因簇特征集发现工作流”部分中所讨论的。这种方法可以用于基于其与其它已知簇的相似性来鉴定新颖多基因簇,包含具有已知或预测的抗性基因的已知簇。
[0566]
进一步分析在实例5中鉴定的多基因簇以鉴定所述簇共有的独特酶组分。选择已知产生埃波霉素的簇以供进一步分析。对编码埃波霉素的簇的序列分析鉴定了与非核糖体肽合成酶和聚酮化合物合酶基因相关联的酰基辅酶a脱氢酶(acad)基因(ahb38508.1),所述基因对于在埃波霉素中发现的独特环氧酮(即,“核心生物合成基因/酶”)的形成是必需的。为了鉴定编码在结构上与埃波霉素相关的分子的簇,使用ahb38508.1序列以blast搜索实例3的数字宏基因组文库以鉴定具有高同一性评分的其它acad基因。然后,通过产生紧密围绕推定acad基因的dna的数据库对前250个命中进行进一步分析。这通过采用含有acad基因的整个重叠群以供进一步分析来完成。dml含有在宏基因组数据库中鉴定的250个推定acad基因中的每个推定acad基因的上游的20kb和下游的20kb。然后使用antismash分析这些含有acad基因的所选序列以鉴定推定多基因簇内含有的acad基因。具体地,鉴定与含有nrps和pks的基因簇相关联的命中。总共22个命中被鉴定为能够编码埃波霉素样天然产物的推定新颖多基因簇。
[0567]
进一步过滤这22个推定命中中表现出以下的命中:i)大小与原始埃波霉素簇的大小相似(即范围为约20kb到40kb)以及ii)核心生物合成基因/酶的相似组分(例如,存在一到两个pks样模块、二到五个nrps样模块和前述acad基因)。这些过滤器并没有将序列排除在考虑之外,而是相反用于优先化用于实验验证的命中。
[0568]
当检查了22个命中时,在数据库中鉴定出编码被称为环氧霉素或密切相关的类似物的含环氧酮的分子的两个簇。尽管在环氧霉素簇内缺乏抗性基因,但是环氧霉素已被表征为蛋白酶体的β亚基的抑制剂。
[0569]
实例7-对宏基因组文库中的天然产物的鉴定(非靶向抗性信号搜索)
[0570]
此实例说明了用于新发多基因簇特征集发现的方法,所述方法不需要预先选择推定抗性基因来开始搜索。此实例通常遵循本文档的“非靶向抗性信号多基因簇特征集发现工作流”部分中概述的工作流。在一些情况下,此实例的方法能够在不依赖于所述新颖抗性
基因与已知抗性基因的序列同一性的情况下鉴定新颖抗性基因。
[0571]
产生参与天然产物的生物合成的酶的生物合成数据库
[0572]
鉴定了天然产物基因簇的公共数据库(mibig//mibig.secondarymetabolites.org/download)中含有的生物合成酶。通过注释“生物合成”和“生物合成附加的”查询这些生物合成酶的氨基酸序列,并且从序列基因库文件中提取氨基酸序列。使用cd-hit对氨基酸序列的所得集聚类以减少冗余。氨基酸序列的所得非冗余集表示生物合成酶数据库,并且可以用于针对较大序列集进行查询以鉴定生物合成酶同源物。
[0573]
宏基因组文库中的多基因簇鉴定(预言)-计算上预测长组装体数字宏基因组文库内的天然产物多基因簇特征集;
[0574]
使用antismash簇分析工具分析通过实例3产生的数字宏基因组文库中多基因簇特征集的存在。(参见凯
·
布兰等人“antismash 5.0:对次级代谢物基因组挖掘流水线的更新”核酸研究(2019),工具可在//antismash.secondarymetabolites.org/#!/start获得)。所得antismash输出包含所鉴定的基因簇的列表,以及这些簇内的关键生物合成酶的功能注释。
[0575]
对所鉴定的mgc(预言)内的推定抗性基因的鉴定-注释预测的天然产物多基因簇特征集内的基因并且从预测的天然产物多基因簇特征集中过滤加注释的基因。
[0576]
通过消除过程完成所鉴定的多基因簇内的推定抗性基因。对多基因簇内的基因的注释进行过滤以去除以高置信度程度被预测为参与通过antismash预测的或生物合成数据库中含有的天然产物的生物合成的任何序列。多基因簇内没有预测的生物合成功能的其余基因被视为“候选抗性基因”,并且被进一步分析。
[0577]
使用来自resfam数据库的鉴定不通过编码靶蛋白质的变体提供抗性的抗性基因的hmm来鉴定非蛋白质变体抗性基因并且从分析中去除所述非蛋白质变体抗性基因。通过鉴定公共数据库中的所述基因的推定直系同源物来计算机模拟研究其余候选抗性基因。所鉴定的直系同源物提供了经编码的天然产物的推定靶标。
[0578]
np和抗性验证(预言)
[0579]
从宏基因组物理文库中回收包括以上被鉴定为包括多基因簇的邻近候选序列的序列的dna。简而言之,从宏基因组数据库获得包括多基因簇的期望dna序列的位置,所述位置指示每个序列物理位于的板和孔(即,宏基因组物理文库内的位置)。然后从物理文库中回收所鉴定的dna序列(例如,通过稀释系列以从池中分离所关注序列),并且在酿酒酵母中使用转换辅助重组(tar)将包括多基因簇的dna序列克隆和重新组装在质粒载体中。使用所述载体以将多基因簇引入到链霉菌属微生物宿主中。然后培养经修饰的微生物宿主细胞,并且测试空载体对照中不存在的天然产物的产生。
[0580]
天然产物是半纯化的并且通过纸片扩散测定来验证其对未经修饰的微生物宿主细胞的毒性。当推定抗性基因在未经修饰的微生物宿主中表达时,天然产物不再有毒性。结合测定表明天然产物与假设的靶蛋白质相互作用。
[0581]
实例8-模拟天然产物
[0582]
此实例说明了用于模拟天然产物分子的几种当前公开的方法。具体地,实例描述了预测机器学习模型用于鉴定和编译来自宏基因组文库的酶组的用途。这些组然后应用于
天然产物分子(或整合到产生天然产物的菌株的基因组中)以产生新颖类似物。
[0583]
从宏基因组文库中选择酶
[0584]
开发了hmm以鉴定384个醛酮还原酶基因,所述醛酮还原酶基因被选择为1)广泛地对宏基因组多样性进行采样和/或2)含有被认为富集所关注酶-底物活性的序列特性。
[0585]
构件酶组
[0586]
从宏基因组数据库获得包括酶组的期望dna序列的位置,所述位置指示每个序列物理位于的板和孔(即,宏基因组物理文库内的位置)。然后从物理文库(例如通过pcr)中回收所鉴定的序列,并且将所鉴定的序列克隆到表达质粒中并转换到微生物宿主细胞中。然后将这些宿主细胞排列成96孔或384孔格式。
[0587]
测定和鉴定活性酶
[0588]
为了表达所关注酶,在抗生素选择下,在自诱导培养基中培养含有表达质粒的微生物菌株。在诱导之后,收获、裂解和澄清微生物培养物以释放过表达的所关注酶以用于表征。
[0589]
为了表征酶组的活性,将澄清的裂解物在含有底物、缓冲液和其它相关添加剂的具有独特标志物(例如具有已知吸光度的辅因子)的反应混合物中温育。通过反应过程内吸收强度的变化来测量活性。在整个反应持续期间,活性酶变体将显示出的δ吸光度低于对照的δ吸光度。
[0590]
例如,醛酮还原酶酶组的特征在于监测随时间推移还原型烟酰胺腺嘌呤二核苷酸(磷酸)的消耗的终点比色测定。底物的酶促还原(模拟)需要nad(p)h被氧化;因此,此酶组的活性与可以通过340nm处吸光度的降低来监测的nad(p)h的消耗有关。
[0591]
将含有过表达的酶变体的澄清的裂解物与设定浓度的底物(格尔德霉素)、磷酸盐缓冲液和nad(p)h混合。在反应开始和结束时提取反应混合物的吸光度以确定δ吸光度。还使用了对照来确定背景吸光度。对含有变体的具有高于背景的正δ吸光度的反应混合物进行分析以确认期望类似物,即还原型格尔德霉素的产生。
[0592]
体内活性
[0593]
将通过体外酶组筛选鉴定的能够作用于格尔德霉素的酶变体克隆到表达质粒中并且转换到格尔德霉素的天然生产者吸水链霉菌(streptomyces hygroscopicus)中。在发酵和质谱法分析之后,在体外测定中鉴定的还原形式的格尔德霉素将被鉴定为位于经转换的微生物细胞中。(参见图10)。
[0594]
实例9-使用训练数据集以产生应用于宏基因组数据库以产生用于模拟的候选序列池的预测机器学习模型-自定义akr hmm方法
[0595]
这些实例描述了预测机器学习模型用于鉴定和编译来自宏基因组文库的候选酶组的用途。这种选择的目的是a)跨大序列文库(例如,本公开的宏基因组文库)广泛地对多样性进行采样和/或b)表明当前描述的预测模型富集所关注酶-底物活性的能力。
[0596]
因此,实例9和10表示模拟平台的计算机模拟部分。实例11之后克隆并且表达所鉴定的候选模拟酶池并且针对天然产物分子测试所述所鉴定的候选模拟酶池以产生新颖类似物。以下讨论了所追求策略的另外的细节。
[0597]
由文献综述和加注释的数据库产生规范醛酮还原酶(akr)序列的初始训练数据集。这在本说明书中被称为“访问包括基因序列输入变量和表型性能输出变量的训练数据
集”。
[0598]
这些训练数据集序列用于产生进一步用于开发自定义预测机器学习hmm模型的多序列比对(msa),如本文档中所描述的。这在本说明书中被称为“开发用训练数据集填充的第一预测机器学习模型”。
[0599]
然后针对实例3的数字宏基因组文库运行自定义akr hmm(或将自定义akr hmm应用于字宏基因组文库)以鉴定候选akr序列池,所述候选akr序列在本文中被称为hmm输出序列。这在本说明书中被称为“使用计算机处理器将第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的宏基因组文库以鉴定宏基因组文库内的候选序列池。”通过hmm鉴定了总共110,232个初始序列。
[0600]
为了进一步富集所关注序列,按大小过滤这些hmm输出序列(分别确立150个到1,500个氨基酸的可接受最小/最大长度)。此限制是为了确保任何所鉴定的序列表示完整akr酶。此过滤步骤的结果留下了107,838个命中数量。
[0601]
使用cd-hit将结果按40%id进一步聚类,以便基于候选序列的序列相似性对候选序列进行分组,以便在后续验证阶段更好地对命中的多样性进行采样。通过cd-hit产生的2,404个簇按其大小分选(簇大小是每个簇的序列的数量)。随后,选择2,404个簇中的177个簇以按簇大小表示107,828个序列,即最大的177个cdhit簇。为了鉴定177个簇中的每个簇的代表性序列,簇质心选择如下:首先,使用mafft算法比对簇的所有序列。接下来,使用hmmbuild软件将所得多序列比对转化到hmm。在此步骤之后,对簇的所有序列运行此hmm。评分最高的序列最终被选为cdhit簇代表。进行此步骤以提供通过模型鉴定的序列的尽可能广泛的图片,但不一定是新酶的发现所需要的。
[0602]
从此搜索的命中之中选择了177个候选akr序列以供进一步验证。177个所测试命中中的两个所测试命中被验证为能够在初始筛选中模拟布雷菲德菌素a。这些酶还表现出对红霉素(erythromicin)和盐霉素(salinomycin)的活性。对结果的更详细讨论在本公开的实例16中提供。
[0603]
实例10-使用训练数据集以产生应用于宏基因组数据库以产生用于模拟的候选序列池的预测机器学习模型-自定义hmm文库此实例描述了用于从hmm结果集之中选择基因以对结果的多样性进行采样的替代性方法。在实例9中,通过基于序列同一性对结果进行聚类来对结果进行采样。在此实例中,产生了表示来自实例9的107,838个hmm输出序列的序列集。这是通过计算所有2,404个cdhit簇的“簇质心”实现的。另外,对公共uniprotkb swissprot数据库运行了以上提到的自定义hmm;这产生了添加到2,404个cdhit40簇质心的另外378个序列。将这些集组合成包含2,722个序列的单个序列集。使用此集以产生序列相似性网络。这是通过对所有这些2,722个序列运行all-by-all blast,从而产生所有这些序列的成对相似性矩阵来实现的。然后使用cytoscape软件将此矩阵表示为网络;每个节点表示序列,并且边缘表示成对blast相似性。使用灌注力引导布局以使簇可视化。
[0604]
在此步骤之后,对于此网络对几个边缘包含截止值(图由成对blast比特评分表示的)手动采样。此步骤由可从源自uniprotkb swissprot数据库的序列获得的信息引导。也就是说,选择80(成对blast比特评分)的边缘包含截止值以产生包含属于akr超家族(如由swissprot定义的)的不同亚家族的akr同源物的序列簇。此程序产生了39个序列相似性簇。
[0605]
然后,使用这39个广泛序列相似性簇来产生39个自定义hmm的集,如下所示。使用
mafft算法对39个序列集,每个簇一个序列集,进行比对,并且然后使用所述序列集以使用hmmbuild软件产生hmm。这基于出版物或加注释的数据库中鉴定的那些序列之外的序列提供了扩展系列的hmm模型。
[0606]
然后使用所有这39个自定义hmm文库模型以搜索实例3的宏基因组文库。然后手动确定特定hmm比特核心截止值,使得给定hmm的命中将不包含任何其它hmm的命中(比特评分值为150、160、170、180、190、190、260、260、270、280、290、290、300、300、300、300、300、310、310、340、340、340、350、370、370、370、370、380、390、400、410、410、430、430、430、440、490、520和610)。由于对每个hmm仍找到了许多命中,因此使用cdhit算法以使用40%id对这39个命中集中的每个命中和每一命中进行聚类。然后选择质心序列(参见以上最大簇中的7个)来表示39个序列集中的每个序列集。
[0607]
从此搜索的命中之中选择了168个候选akr序列以供进一步验证。168个所测试命中之一被验证为能够模拟格尔德霉素,如以下实施例16所描述的。
[0608]
实例11-针对天然产物对候选akr序列进行实验验证
[0609]
此实例公开了本公开的模拟方法的“湿实验室”部分,其中对通过以上所描述的预测引擎鉴定的候选序列进行实验验证。
[0610]
在实例9-10中鉴定的345个候选akr序列池是由早期实例中利用的宏基因组文库的现有物理文库进行pcr扩增的。使用primer3以设计用于扩增的固定端引物。为了以高通量克隆,将同源序列插入到每个基因扩增子上,以用于pet24a表达质粒(西格玛奥德里奇公司(sigma aldrich))的多克隆位点内的有效gibson组装。用q5热启动高保真2x主混合物(新英格兰生物实验室(new england biolabs))在降落pcr热循环仪条件下进行20ul pcr(在72℃退火温度下以-1℃/循环降落持续8个循环,然后进行64℃退火持续28个循环)。使用磁珠清理方案(dna清理和浓缩器磁珠试剂盒,zymo研究公司(zymo research))纯化pcr产物。
[0611]
用ecori-hf/noti-hf(新英格兰生物实验室)消化表达质粒并且在组装之前进行纯化(qiaquick pcr纯化试剂盒,凯杰公司(qiagen))。gibson组装(nebuilder hifi dna组装)和化学转换(10-β感受态大肠杆菌高保真,纽英伦生物技术公司)方案适于96孔板和384孔板格式的高通量自动化。成功克隆了228/345个基因。小量制备(凯杰公司,质粒plus 96试剂盒)成功克隆并将其转换到表达宿主(bl21-de3,纽英伦生物技术公司)中。
[0612]
为了最佳表达,在96深孔板中使用自身诱导培养基 卡那霉素(kanamycin)在25℃诱导下培养1ml bl21-de3pet24a-akr菌株。过夜诱导之后,在10℃下以5000rpm收获培养物持续10分钟。使用250ul bugbuster主混合物(西格玛奥德里奇公司)将粒料重悬并裂解。然后将裂解的细胞团粒化并且通过脱盐板(zeba旋转脱盐板-7k mwco,赛默飞世尔公司(thermo fisher))运行以进行缓冲液交换并澄清过表达的酶裂解物以用于表征。
[0613]
为了表征克隆的akr文库对格尔德霉素、红霉素、布雷菲德菌素a和盐霉素天然产物的活性,开发了监测还原型烟酰胺腺嘌呤二核苷酸(磷酸)的消耗的终点比色测定。底物的酶促还原需要nad[p]h被氧化;因此,此酶组的活性与可以通过340nm处吸光度的降低来监测的nad[p]h的消耗有关。在反应开始和结束时提取反应混合物的吸光度以确定δ吸光度。还使用了对照来确定背景吸光度。分析含有变体的具有高于背景的正δ吸光度的反应混合物以确认期望类似物,例如,还原型布雷菲德菌素a的产生。在1.5小时内在22℃下振荡96
孔板、200ul反应,所述反应含有含180ul主混合物、100um nad[p]h、200um天然产物(例如,布雷菲德菌素a)的175mm磷酸盐缓冲液(ph7)和20ul澄清的裂解物。
[0614]
在从实例9-10中筛选出228个酶变体之后,提交了显示出的δ吸光度显著低于对照的δ吸光度的三种活性变体用于模拟确认。所鉴定的酶表现出对格尔德霉素、红霉素、布雷菲德菌素a和盐霉素的活性。
[0615]
对产生显著正δ吸光度的反应进行了另外的表征。将100ul等分试样与乙腈:以11的比率混合以析出蛋白质和缓冲盐;在搅动之后,对有机层进行液体萃取。将5ul所萃取溶剂注入在lc-ms(thermo q-exact)上以供分析。在布雷菲德菌素a的情况下,在281.1747m/z和1.69分钟/的保留时间时观察到推定反应产物。这种质荷比和保留时间在比色结果表明期望酶活性的反应混合物中被一致观察到。作为对照,还分析了空菌株(pet24a)并且没有检测到推定产物。这与未观察到适当活性的其它akr变体一致。因此,使用本公开的方法鉴定了格尔德霉素、红霉素、布雷菲德菌素a和盐霉素类似物。
[0616]
实例12-模拟酶发现-通过在mgc内搜索进行富集
[0617]
此实例表明,可以通过定义编码基因的位置来增强模拟酶发现。
[0618]
检索mibig数据库(//mibig.secondarymetabolites.org/)中注释为“脱氢酶”的氨基酸序列以用作查询序列。检索到总共约200个氨基酸序列。使用了这些序列作为用于在实例3的宏基因组数据库中对预测的cds序列进行搜索的查询。
[0619]
接下来,测试了候选脱氢酶序列的位置是否可以用于进一步富集所关注模拟酶。检索含有以上鉴定的候选脱氢酶序列的重叠群。使用antismash 4将生物合成基因簇预测为在重叠群上。根据生物合成基因簇是否可以被预测为在含有候选脱氢酶序列的重叠群上,将脱氢酶数据集进一步划分为“簇相关联的”和“簇不相关联的”。如果任何类别的生物合成基因簇被预测为在重叠群上,则将其分类为“在mgc内”,并且如果任何簇未被预测为在重叠群上,则将其分类为“在mgc外”。
[0620]
这些计算机模拟方法鉴定了在mgc内的451个脱氢酶序列以及在mgc外的523个脱氢酶序列。
[0621]
在所鉴定的脱氢酶序列中,选择了“在mgc内”的143个序列和“在mgc外”的270个序列以进行实验验证。通过从数字宏基因组文库的物理拷贝中获得完整候选序列并且将其克隆到表达载体中来进行实验性湿实验室验证,如实例11中所描述的。测试对格尔德霉素、盐霉素和布雷菲德菌素a天然产物底物的脱氢酶活性。
[0622]
这些测定的结果在以下表8中示出。
[0623]
表8-脱氢酶模拟验证
[0624][0625]
验证实验鉴定了总共三种能够使用三种所测试天然产物之一作为底物的酶。结果显示,通过将搜索集中于位于预测的mgc序列内的候选脱氢酶序列,本公开的模拟酶发现方法可以进一步改进/富集验证的酶。结果鉴定出位于mgc内的两种酶,并且只有一种酶位于mgc外。验证的脱氢酶在mgc内的富集进一步体现在发现率上,其中“在mgc内”群中测试的143种酶中验证了2种酶,并且“在mgc外”类别中验证了270种酶中的1种酶(在mgc内的富集为约4倍)。
[0626]
实例13-模拟酶发现-基于整个序列或单独域的搜索
[0627]
本公开教示了本公开的hmm搜索策略可以基于整个所关注靶序列。在一些实施例中,本公开教示了本公开的hmm搜索策略可以基于靶序列的一或多个所关注结构域。比较了这些各个策略。
[0628]
黄细胞色素p450bm3是由细胞色素p450和nadph-细胞色素p450还原酶结构域构成的天然融合蛋白。p450bm3结合并氧化几种中链到长链脂肪酸,典型地在ω-1、ω-2和ω-3位置处羟基化这些脂质。
[0629]
bm3是包括两个主要结构域的天然融合酶:细胞色素p450(血红素结合)催化结构域和在cpr的不同结构域中含有fad和fmn辅因子的nadph-细胞色素p450还原酶(cpr)结构域。获得了基于整个bm3序列的hmm模型(“完整hmm”),以及基于pfam数据库的hmm模型,特别是具有以下标识符的四种hmm:与蛋白质的区相对应的pf00067、pf00258、pf00667和pf00175(“部分hmm”)。
[0630]
然后针对实例3的数字宏基因组文库运行以上hmm(或将所述hmm应用于数字宏基因组文库),如下所述。使用了完整hmm以搜索数字宏基因组文库,并且将命中分类为“更高比特评分”或“更低比特评分”候选bm3序列。然后单独使用蛋白质的部分hmm以搜索文库。然后选择通过四个部分hmm中的每个部分hmm鉴定的候选bm3序列以进行验证(“多个hmm模型的较高比特评分hmm命中”)。
[0631]
在所鉴定的候选bm3序列中,选择130个“多个hmm模型的较高比特评分hmm命中”序列、4个“一个hmm模型的较高比特评分hmm命中”序列和64个“一个hmm模型的较低比特评分hmm命中”序列以供实验验证。通过从数字宏基因组文库的物理拷贝中获得完整候选序列并
且将那些序列克隆到表达载体中来进行实验性湿实验室验证,如实例11中所描述的。
[0632]
测试对香叶醇(geraniol)天然产物底物的脱氢酶活性。这些测定的结果在以下表9中示出。
[0633]
表9-bm3模拟验证
[0634][0635]
验证实验鉴定了香叶醇天然产物底物上的总计五种活性酶。因此,这是对本公开的模拟方法的又一次验证。另外,结果显示可以使用对如特定酶的所关注结构域的序列等部分序列进行训练的hmm模型进行本公开的模拟酶发现方法。结果还显示本公开的模拟发现平台可以利用hmm的组合。
[0636]
实例14-模拟酶发现-应用于甲基转移酶
[0637]
此实例表明,模拟酶发现平台可以应用于任何所关注模拟酶,包含甲基转移酶。
[0638]
产生了具有验证或预测的甲基转移酶功能的53个甲基转移酶序列的初始训练数据集。这对应于要求保护的“访问包括基因序列输入变量和表型性能输出变量的训练数据集”的步骤。
[0639]
这些训练数据集序列用于产生进一步用于开发自定义预测机器学习hmm模型的多序列比对(msa),如下文描述的。这在本说明书中被称为“开发用训练数据集填充的第一预测机器学习模型”。
[0640]
然后针对实例3的数字宏基因组文库运行自定义hmm(或将自定义hmm应用于字宏基因组文库)以鉴定候选甲基转移酶序列池,所述候选甲基转移酶序列在本文中被称为hmm输出序列。这对应于要求保护的元素“使用计算机处理器将第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的宏基因组文库以鉴定宏基因组文库内的候选序列池。”选择了742个序列以供进一步分析(“hmm输出序列”或具体地“候选[甲基转移酶]序列”)。
[0641]
在所鉴定的候选甲基转移酶序列中,选择了233个以进行实验验证。通过从数字宏基因组文库的物理拷贝中获得完整候选序列并且将那些序列克隆到表达载体中来进行实验性湿实验室验证,如实例11中所描述的。
[0642]
测试对利福霉素和地美环素(demeclocycline)天然产物底物的甲基转移酶活性。这些测定的结果在以下表10中示出。
[0643]
表10-甲基转移酶模拟验证
[0644][0645]
验证实验鉴定了总共十一种能够使用两种所测试天然产物中的至少一种作为底物的酶。因此,这是对本公开的模拟方法的又一次验证。
[0646]
实例15-模拟酶发现-比较hmm算法与传统blast搜索
[0647]
此实例表明,本公开的基于机器学习的模拟酶发现平台在鉴定用于模拟的酶方面优于传统的blast搜索。
[0648]
产生了两种类型的hmm模型以用于搜索宏基因组数据库。第一种类型的模型为lims hmmscan全自动lims搜索。在kegg数据库中鉴定了四个卤过氧化物酶家族,如通过kegg直系同源群k00433、k17990、k20206和k00431定义的。使用mafft软件比对了与每个这些群相关联的序列以产生四种多序列比对,并且然后使用每种比对以使用hmmbuild软件产生hmm。
[0649]
针对实例3的宏基因组数据库运行所有这些hmm以找到卤过氧化物酶模拟酶。然后通过“如果第一置信度评分与第二置信度评分的比率落入预选阈值以下,则从候选序列池中去除通过第二预测机器学习模型利用所述第二置信度评分被预测为执行不同功能的任何序列”来过滤结果。
[0650]
因此,不相关命中的去除如下进行。首先,构建用于所有可用的kegg直系同源群的hmm文库(数千个用于不同的酶功能的hmm)。这些hmm的产生与上文所描述的四种hmm的产生相同。对lims hmmscan的所有命中运行此hmm文库,并且去除数千个hmm中的任何hmm的比特评分比lims hmmscan hmm中的每个的比特评分高120%的所有命中。
[0651]
第二hmm模型是根据本公开的方法产生的自定义hmm文库。简而言之,产生了已知或预测为表现出卤过氧化物酶活性的卤过氧化物酶序列的初始训练数据集。这对应于要求保护的“访问包括基因序列输入变量和表型性能输出变量的训练数据集”的步骤。
[0652]
这些训练数据集序列用于产生进一步用于开发自定义预测机器学习hmm模型的多序列比对(msa),如下文描述的。这在本说明书中被称为“开发用训练数据集填充的第一预测机器学习模型”。
[0653]
然后针对实例3的数字宏基因组文库运行自定义hmm机器学习模型(或将自定义hmm机器学习模型应用于字宏基因组文库)以鉴定候选卤过氧化物酶序列池,所述候选卤过氧化物酶序列在本文中被称为hmm输出序列。这对应于要求保护的元素“使用计算机处理器将第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的宏基因组文库以鉴定宏基因组文库内的候选序列池。”选择了从此自定义hmm文库中鉴定的总共1141个序列以供进一步分析,而从lims hmmscan hmm中选择了277个序列以供进一步分析。
[0654]
作为比较,对实例3的数字宏基因组文库进行使用传统blast蛋白算法的对照搜索。使用用于产生以上所描述的自定义hmm文库的相同酶运行blast搜索。对24个blast查询规范序列中的每个序列应用相同的选择程序。首先,选择最佳blast命中(单个序列)以供筛
选。其次,对于blast命中的24个集中的每个集,手动确定特定比特评分截止值。由于分选的blast比特评分的特征在于值非常高以及随后这些比特评分急剧下降,因此确定的比特评分是与所述急剧下降的最低比特评分相对应的比特评分。由于这些查询中的每个查询典型地存在许多blast命中,所以通过cdhit以40%id来聚类blast命中,并且如上述实例中所描述的那样选择簇质心。保存了总共前101个blast命中。
[0655]
在所鉴定的候选卤过氧化物酶序列中,选择了lims hmm scan命中中的182个、自定义hmm文库命中中的368个命中和blast命中中的57个命中以供实验验证并成功地进行了克隆。通过从数字宏基因组文库的物理拷贝中获得完整候选序列并且将那些序列克隆到表达载体中来进行实验性湿实验室验证,如实例11中所描述的。
[0656]
测试对利福霉素和地美环素天然产物底物的卤过氧化物酶活性。这些测定的结果在以下表11中示出。
[0657]
表11-卤过氧化物酶模拟验证
[0658][0659]
验证实验鉴定了总共七种能够使用两种所测试天然产物中的至少一种作为底物的酶。因此,这是对本公开的用于卤过氧化物酶的模拟方法的又一次验证。此实例也是本公开的hmm过滤方法的说明,所述过滤方法利用其它hmm的评分来过滤结果。
[0660]
结果还显示,本公开的机器学习平台(例如,lims hmmscan和自定义hmm文库)显著优于传统blast方法,所述传统blast方法无法鉴定甚至单个模拟酶。
[0661]
实例16-模拟酶发现-[0662]
此实例展示了本公开的基于机器学习的模拟酶发现平台相比于其它方法的优势。
[0663]
此实例中比较了五种搜索策略。
[0664]
第一模型是如下产生的位置剖析模型。首先,研究了文献记载的akr的结构以鉴定负责底物识别的位置。其次,使用mafft算法和手动管理产生了对akr,包含晶体解析结构的序列的基于结构的多序列比对。第三,在比对中鉴定了与在第一阶段鉴定的位置中的残基相对应的十一个位置。第四,使用mafft-添加算法将107,828个akr序列中的每个序列单独添加到多序列比对中。第五,保存了与11个位置相对应的107,828个序列中的每个序列中的11个氨基酸的预测的位置。第六,然后将11个位置中的每个位置映射到20个序列(选自107,828个集),每个序列表示所述位置中存在的不同氨基酸。在一些情况下,并非所有20个氨基酸变体都可用。
[0665]
第二模型是根据实例10中描述的方法产生的自定义hmm文库。
[0666]
第三模型是根据实例9中描述的方法产生的自定义akr hmm。
[0667]
第四模型是插入缺失变体模型。研究了akr酶的多重晶体解析结构的结构,特别是在活性位点附近的结构。这些结构(psb代码:1pz1、4pmj、1pyf、1gve、1lqa、1ynp和1og6)的结构比对表明,所有这些蛋白共享相似的整体结构(均共享α/βtim桶形折叠),但在结合底物的区附近有所不同。共同折叠中的两个特定位置被鉴定为靠近底物结合位点,其中不同的akr结构具有“装饰”共同折叠的不同环。这表明特定akr的底物特异性至少部分地通过在活性位点附近发现的两个环的序列和长度确定。在所有检查的结构之中两对环的起始位置和结束位置是一致的,如其基于结构的序列比对所表明的。
[0668]
因此,环长度可以用作在akr的底物识别部分中对变体采样的动机。接下来,使用位置剖析方法以识别宏基因组储存库中存在的107,828个序列中的每个序列的环长度。所述识别是通过鉴定多序列比对中的起始-结束位置,以及鉴定两个环在查询序列中的起始和结束位置实现的。此步骤已经产生了在宏基因组储存库中发现的107,828个序列中的每个序列的两个环的长度的映射。最后,从此集中选择了91个序列,使得其对环的长度的不同组合进行采样,例如“短环1”(1-10个氨基酸)和“中环2”(11-20个氨基酸)。
[0669]
第五模型是位置组合剖析模型。此模型基于位置剖析模型。这里的动机是在位置剖析模型中存在的11个位置的不同组合在底物识别中发挥潜在重要作用。为了对11个位置的不同组合进行采样,遵循以下步骤:在宏基因组文库中存在的107,828个akr同源物中的每个同源物与被预测为驻留在对位置剖析模型鉴定的11个位置中的每个位置中的11个氨基酸的组合之间产生了映射。计算这些组合中的每个组合的频率,并且然后通过其频率对11个氨基酸组合的列表进行分选。最后,选择64个序列以供筛选,每个序列包含最频繁的64个组合。
[0670]
然后针对实例3的数字宏基因组文库运行上文所描述的五个模型(或将上文所描述的五个模型应用于字宏基因组文库)以鉴定候选akr序列池,所述候选akr序列在本文中被称为hmm输出序列。这对应于要求保护的元素“使用计算机处理器将第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的宏基因组文库以鉴定宏基因组文库内的候选序列池。”通过位置剖析模型鉴定出总共180个初始序列,通过本公开的自定义hmm鉴定出总共168个初始序列,由自定义akr hmm模型鉴定出总共177个初始序列,由插入缺失变体模型鉴定出91初始序列,并且由位置组合剖析模型鉴定出64个序列(“hmm输出序列”或具体地“候选[akr]序列”)。
[0671]
在所鉴定的候选akr序列中,选择了位置剖析模型中的94个初始序列、自定义hmm模型中的总共92个初始序列、自定义akr hmm模型中的总共136个初始序列、插入缺失变体模型中的总共49个初始序列以及位置组合剖析模型中的总共35个序列以供实验验证。通过从数字宏基因组文库的物理拷贝中获得完整候选序列并且将那些序列克隆到表达载体中来进行实验性湿实验室验证,如实例11中所描述的。
[0672]
测试对格尔德霉素、红霉素、布雷菲德菌素a和盐霉素天然产物底物的akr活性。这些测定的结果在以下表12中示出。
[0673]
表12-akr模拟验证
[0674][0675][0676]
结果证实了本公开的预测机器学习模型能够鉴定新颖模拟酶,包含akr。
[0677]
实例17-非靶向mgc发现工作流
[0678]
此实例是本公开的非靶向mgc发现工作流的工作说明。在一些实施例中,非靶向工作流描述了向预测的mgc内的基因分配生物合成潜在评分、抗性基因评分以及(在一些实施例中)生物合成操纵子评分、核心生物合成基因距离评分和必需基因评分中的一或多个。这些评分要素的应用如下所示。
[0679]
此实例的目标是测试本公开的工作流是否可以用于通过排除过程来富集抗性基因,所述排除过程过滤掉不太可能是抗性基因的基因。尽管此实例使用已知抗性基因以便能够验证结果,但是可以将相同的步骤应用于任何数量的预测的mgc以鉴定仍未知的抗性基因。
[0680]
将含有疏螺旋体素(borrelidin)(aj580915)、硫代马林醇(thiomarinol)(fn689524)、加里曼丹素(kalimantacin)(gu479979)、埃波霉素(kf647220)、孟加拉酰胺(bengamide)(kp143770)、浅灰霉素(griselimycin)(kp211414)、盐孢菌酰胺(nc_009380)、戊丙酯菌素(pentalenolactone)(nz_bjtv01000007)和白霉素(albomycin)(nz_cp029361)基因簇的dna序列提交给antismash。所有这些已知都含有靶拷贝抗性基因。这使得9个基因簇被鉴定出,其中有总共388个基因。在这388个基因中,其中的9个是抗性基因,这意味着抗性基因占总基因的2.3%。
[0681]
首先,对所有基因进行分析并且向其分配生物合成潜在评分,转运相关潜在评分和调节潜在评分。通过antismash被注释为具有生物合成功能(部分生物合成潜在评分)、转
运相关功能或调节基因功能的所有基因被给予了低优先级评分并且从考虑中完全排除。如以上提到的,生物合成潜力、转运相关潜力和调节潜力在是通过antismash使用mibig数据库给出的注释计算的。这留下了原始388个基因中的149个基因。在这149个基因中,8个是抗性基因,这意味着抗性基因占其余基因的5.4%。这个步骤引起抗性基因的大于两倍的富集。
[0682]
然后分析其余149个基因并且给出了生物合成潜在评分、生物合成操纵子评分、核心生物合成基因距离评分和必需基因评分,这些评分然后被组合成组合评分,如图29所示。出于此实例的目的,没有给出抗性基因评分,因为数据集包含了将被过滤掉的已知抗性基因。被注释为具有生物合成功能的给出了低优先级评分和/或从考虑中完全排除的所有基因。生物合成潜力是通过antismash使用mibig数据库给出的注释计算的。相比于具有较少命中(不太可能具有生物合成潜力)的那些基因,在mibig基因的情况下具有较多blast命中(较高生物合成潜力)的基因给出了较低评分。消除了小于0.85的组合评分,而保留了大于0.85的组合评分。在评分中幸存的10个基因中,6个是此实例中使用的9个mgc的已知抗性基因(约60%的基因为抗性基因)。因此,本公开的非靶向工作流能够使用本公开的评分因子将抗性基因的发生率富集三十倍以上。
[0683]
实例18抗性基因工作流(hdac1)靶基因的另外的实例
[0684]
此实例说明了使用本公开的抗性基因工作流来鉴定靶向特定治疗靶标的编码天然产物的多基因簇的能力。此实例示出了对被预测为产生靶向人类hdac1基因的天然产物的候选mgc的鉴定。
[0685]
hdac1负责对核心组蛋白(h2a、h2b、h3和h4)的n-末端部分上的赖氨酸残基去乙酰化。组蛋白去乙酰化提供了用于表观遗传抑制的标签并且在转录调节、细胞周期进程和发育事件中发挥重要作用。hdac酶已经被视为用于广泛人类病症的潜在有用治疗靶标。新兴研究已经表明,不同类型的hdac抑制剂在神经病症的各种实验模型中显示出有益作用。
[0686]
为了鉴定编码靶向hdac1的天然产物的mgc,应用了使用hdac1(pfam pf00850)作为靶抗性基因的抗性基因工作流。如本文所公开的那样构建了与此pfam相对应的hmm。使用了所得hmm模型以搜索实例3的宏基因组数据库,以使用50的比特评分截止值返回同源氨基酸序列。与此截止值相匹配的序列被称为“候选抗性基因”,其通过“查询数字宏基因组文库中指示天然产物多基因簇特征集的信号”的步骤鉴定。
[0687]
含有候选抗性基因的重叠群被称为“多个信号相关联的多基因簇数字特征集”。这些多基因簇数字特征集编码来自以上hmm搜索的预测的hdac1同源物并且然后通过antismash v5运行以鉴定处于在计算上确定的天然产物多基因簇特征集内的特征集(“根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇(mgc)特征集”)。含有预测的bgc。
[0688]
此工作流鉴定了含有候选hdac1抗性基因的87个潜在mgc,所述抗性基因在mgc的边界内或直接紧邻所述边界,如通过antismash预测的。选择了内部命名为被称为zgchdac11789的簇以供下游分析。
[0689]
在从宏基因组文库的物理拷贝中成功检索到含有编码zgchdac11789的期望mgc的单个大肠杆菌分离物之后,通过在酿酒酵母中进行的tar(转换关联重组)克隆将编码所关
注生物合成通路的dna克隆到酿酒酵母/大肠杆菌/链霉菌穿梭载体中。在酿酒酵母中进行dna转换和重组之后,从酿酒酵母中提取经组装的质粒dna并且将其转换到大肠杆菌中以供繁殖。通过下一代测序来确认所得质粒的序列。
[0690]
接下来,通过接合转移将此质粒引入到异源表达宿主白色链霉菌j1074(野生型或经工程化的菌株)中。具体地,将含有所关注质粒的大肠杆菌s17菌株与白色链霉菌的孢子共培养以刺激缀合过程。在含有期望抗生素标志物的固体培养基上进行生长选择之后,使白色链霉菌接合后体菌落繁殖以产生甘油孢子储备并且通过菌落pcr证实基因簇的存在。
[0691]
对于用于检测新颖化合物产生的初始小规模板筛选,向24深孔板的每个单个孔中添加3ml含有适当的选择抗生素的tsb种子培养物并且用具有和不具有簇的白色链霉菌孢子接种到约0.05的最终od
450
。将板用两层透气密封件密封并且在30℃下以250rpm(2.5cm摆度)和80-85%湿度温育2-3天直到形成致密培养物。然后在新的一组24深孔板中将培养物以10%(v/v)接种量接种到含有适当的选择抗生素的3ml每种发酵培养基(mo42、o42、r5a和isp4)中。将此主板培养物温育七天然后收获。
[0692]
在发酵完成后,用相等体积的乙酸乙酯将板中的培养物萃取两次并且将组合的有机层浓缩至干燥,然后进行lc/ms分析以验证新颖分子的产生。
[0693]
在确认了新颖分子的产生之后,利用了dasgip生物反应器(eppendorf)中的大规模发酵来产生经半纯化的材料。首先将孢子(0.05od)接种至250ml带挡板的烧瓶(x8)中并且在30摄氏度下生长24小时,每个烧瓶含有75ml terrific大豆肉汤(tsb)、apra(50ug/ml)和消泡剂(pd-602)。然后将每种种子培养物均等地分到两个dasgip中(总共16份)并且在30摄氏度下在范围为200-800rpm的搅动下生长96小时。将来自单独反应器的发酵肉汤汇集并且以4000rpm(4℃)离心持续20分钟。小心地将澄清的肉汤从细胞粒料中倾析,并且随后用活化的双阴离子hp20树脂(阿法埃莎公司(alfa aesar))(5%w/v)萃取大约16小时。通过干酪布过滤从树脂中去除水性介质并丢弃。用超纯水(约12l)彻底洗涤树脂以确保去除任何高度水溶性介质组分。然后,通过直接向树脂添加溶剂并轻轻搅拌15-30分钟将洗涤过的树脂用2l hplc丙酮以及之后的2
×
l hplc甲醇萃取2次。通过真空过滤从树脂中过滤有机溶剂,对所述有机溶剂进行汇集和真空浓缩直到只剩下水溶液为止。用相等体积的乙酸乙酯萃取此水溶液层3次。将有机层汇集,经无水mgso4干燥、过滤并且在真空中完全干燥,从而产生棕色油(855.1mg)。
[0694]
将此粗制萃取物在微量甲醇(约2ml)中培养,上样到硅胶上并且随后使用biotage selekt自动色谱仪器进行分级,所述自动色谱仪器安装有biotage 二氧化硅hc-d高容量duo柱(10g)和可与240ml收集瓶兼容的biotage isolera托盘架。使用由庚烷(溶剂a)、乙酸乙酯(溶剂b)和甲醇(溶剂c)组成的三溶剂逐步梯度完成分级。以20毫升分钟-1
的流速洗脱材料,每一步骤收集4个cv级分(60ml)。梯度的初始步骤由7:3(a:b)组成,随后是由1:1(a:b)、1:4(a:b)、100%b、1:9(b:c)、3:7(b:c)和最终的1:4(b:c)组成的六个另外的步骤,产生了7个极性递增的级分(f1-f7)。将级分真空浓缩并且通过lcms使用赛默飞世尔公司q-exactive orbitrap ms和vanquish lc使用分析型安捷伦公司(agilent)eclipse 2.1x50mm c18柱以0.5毫升分钟-1
的流速分析所关注离子(m/z 811.5828)。鉴定f6(245.8mg)中的化合物。
[0695]
在安捷伦公司1260infinity ii系列制备型hplc上使用以8毫升/分钟流速运行的
反相飞诺美公司(phenomenex)10μm c18(2)柱(250
×
10.00mm)对f6进行进一步分级,从而收集12ml级分。将样品溶解在hplc级甲醇中,达到100mgml-1
的最终浓度。通过注射500μl等分试样的此溶液(使用500μl环)完成纯化。使用h2o(溶剂a)和乙腈(溶剂b)洗脱材料。梯度使用10%乙腈持续2分钟的初始等度步骤。随后是在28分钟内从10%到95%乙腈的线性递增梯度(总共30分钟)。通过95%乙腈持续另外10分钟的等度步骤(总共40分钟)以及最后的10%乙腈持续10分钟的等度平衡步骤(总共50分钟)洗涤柱。通过lcms分析级分中所关注离子(如先前所描述的)。汇集含有适当m/z的级分并干燥,从而产生3.7mg灰白色固体。通过lcms和elsd(安捷伦公司1290infinity ii lc-elsd)检测分析经纯化的化合物以供纯度评估。
[0696]
使用可商购获得的荧光活性测定试剂盒(hdac1荧光试剂盒,bps生物科学公司(bps bioscience))测量hdac1活性。对照和测试反应设置如下。在实验之前,将所有相关试剂解冻至室温。用hdac测定缓冲液将hdac1稀释至1.4ng/ul并且将25x hdac底物3稀释为200μm溶液。制备酶之后紧接着开始测定以限制hdac1和hdac显影剂不在使用中的时间。还将商业抑制剂曲古菌素a在hdac测定缓冲液中稀释10倍。制备了三种对照:35μl hdac测定缓冲液 5ul bsa(1mg/ml) 5ul hdac底物3 5ul 100%dmso(空白)、30μl hdac测定缓冲液 5ul bsa(1mg/ml) 5ul hdac底物3 5ul hdac1 5ul 100%dmso(阳性对照)和30μl hdac测定缓冲液 5ul bsa(1mg/ml) 5ul hdac底物3 5ul hdac1 5ul曲古菌素a(抑制剂对照)。设置了另外的对照来监测抑制剂荧光:45ul hdac测定缓冲液 5ul测试化合物。最后,将抑制样品制备成含有30μl hdac测定缓冲液 5ul bsa(1mg/ml) 5ul hdac底物3 5ul hdac1 5ul测试化合物(抑制样品),一式三份。
[0697]
将所有对照和样品混合并且在37℃下温育30分钟。在温育之后,向每个反应添加50ul 2x hdac显影剂并且在22℃下温育15分钟;然后进行荧光测量。此测定的结果在图30中示出。
[0698]
随着源自zgchdac11789的经半纯化的分子的浓度不断增加,hdac1活性受到抑制。因此,本公开的抗性基因工作流能够鉴定编码能够影响/靶向期望治疗靶标的天然产物的mgc。
[0699]
实例19sod2(超氧化物歧化酶)的抗性基因工作流的另外的实例
[0700]
此实例提供了如何使用本公开的抗性基因工作流来鉴定靶向特定治疗靶标的编码天然产物的多基因簇的另一个说明。此实例示出了对被预测为产生靶向人类sod2基因的天然产物的候选mgc的鉴定。
[0701]
超氧化物歧化酶2(sod2)是铁/锰超氧化物歧化酶家族的成员。其编码形成同源四聚体并且每个亚基与一个锰离子结合的线粒体蛋白。这种蛋白质与氧化磷酸化的超氧化物副产物结合并且将所述超氧化物副产物转化为过氧化氢和双原子氧。此基因中的突变与特发性心肌病(idc)、早衰、散发性运动神经元疾病和癌症相关。
[0702]
为了鉴定编码靶向sod2的天然产物的mgc,应用了使用sod2(pfam pf00081)作为靶抗性基因的抗性基因工作流。如本文所公开的那样构建了与此pfam相对应的hmm。使用了所得hmm模型以搜索实例3的宏基因组数据库,以使用50的比特评分截止值返回同源氨基酸序列。与此截止值相匹配的序列被称为“候选抗性基因”,其通过“查询数字宏基因组文库中指示天然产物多基因簇特征集的信号”的步骤鉴定。
[0703]
含有候选抗性基因的重叠群被称为“多个信号相关联的多基因簇数字特征集”。这些多基因簇数字特征集编码来自以上hmm搜索的预测的sod2同源物并且然后通过antismash v5运行以鉴定处于在计算上确定的天然产物多基因簇特征集内的特征集(“根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇(mgc)特征集”)。
[0704]
此工作流鉴定了含有sod2的同源物的96个潜在mgc,所述同源物在mgc的边界内或直接紧邻所述边界,如通过antismash预测的。选择了命名为zgcsod21789的簇以供下游分析。
[0705]
在从宏基因组文库中成功检索到含有编码zgcsod21789的期望粘粒的单个大肠杆菌分离物之后,通过在酿酒酵母中进行的tar(转换关联重组)克隆将编码所关注生物合成通路的dna克隆到酿酒酵母/大肠杆菌/链霉菌穿梭载体中。在酿酒酵母中进行dna转换和重组之后,从酿酒酵母中提取经组装的质粒dna并且将其转换到大肠杆菌中以供繁殖。通过下一代测序来确认所得质粒的序列。
[0706]
接下来,通过接合转移将此质粒引入到异源表达宿主白色链霉菌j1074(野生型或经工程化的菌株)中。具体地,将含有所关注质粒的大肠杆菌s17菌株与白色链霉菌的孢子共培养以刺激缀合过程。在含有期望抗生素标志物的固体培养基上进行生长选择之后,使白色链霉菌接合后体菌落繁殖以产生甘油孢子储备并且通过菌落pcr证实基因簇的存在。
[0707]
对于用于检测新颖化合物产生的初始小规模板筛选,向24深孔板的每个单个孔中添加3ml含有适当的选择抗生素的tsb种子培养物并且用具有和不具有簇的白色链霉菌孢子接种到约0.05的最终od
450
。将板用两层透气密封件密封并且在30℃下以250rpm(2.5cm摆度)和80-85%湿度温育2-3天直到形成致密培养物。然后在新的一组24深孔板中将培养物以10%(v/v)接种量接种到含有适当的选择抗生素的3ml每种发酵培养基(mo42、o42、r5a和isp4)中。将此主板培养物温育七天然后收获。
[0708]
在发酵完成后,用相等体积的乙酸乙酯将板中的培养物萃取两次并且将组合的有机层浓缩至干燥,然后进行lc/ms分析以验证新颖分子的产生。
[0709]
在确认了新颖分子产生后,在2.8l ultrayield(汤姆森公司(thomson))摇瓶中利用了更大规模的发酵来产生用于测定的粗制裂解物。为此,在带挡板的250ml摇瓶中的25ml tsb培养基中开始种子训练。在用孢子储备将培养物接种到约0.04的od
450
之后,将种子瓶在30℃下以175rpm(5cm摆度)和80-85%湿度温育至少24小时直到致密培养物形成为止。然后将整个种子培养物以5%的接种物接种到2.8l ultrayield摇瓶中的0.5l发酵培养基中。将ultrayield摇瓶用排气盖或双重透气密封件密封并且在收获之前在相同条件下温育七天。
[0710]
使用dianion hp20树脂(阿法埃莎公司)通过在收获之前16小时向培养物添加5%w/v来萃取发酵肉汤。通过将培养物的内容物转移到500ml离心瓶(康宁公司(corning))中,然后使用avanti j-e离心机以3000rpm离心10分钟来收集树脂和生物质。将培养物上清液倾析并丢弃。通过直接向瓶子添加250ml超纯水溶液并摇动、离心,然后倾析掉上清液废物,将细胞和树脂粒料洗涤2次。然后通过向瓶子直接添加溶剂、超声处理15分钟、离心、倾析并且汇集所有溶剂提取物,用250ml hplc丙酮和2x250ml甲醇依次提取洗涤过的细胞和树脂粒料2次。将有机萃取物真空浓缩到余水性萃取物。将此水性萃取物用相等体积的乙酸乙酯
萃取2次,ph调节至5,然后用乙酸乙酯萃取另外两次。在真空中浓缩所汇集的乙酸乙酯萃取物。
[0711]
使用可商购获得的比色活性试剂盒(超氧化物歧化酶比色活性试剂盒,赛默飞世尔公司)确定超氧化物歧化酶2(sod2)活性。对照和测试反应设置如下。在混合之前,将所有相关试剂解冻至室温。在以试剂盒形式提供的其相应缓冲液中稀释10x底物浓缩物和25x黄嘌呤氧化酶浓缩物;用提供的测定缓冲液将sod2(西格玛奥德里奇公司)稀释至1u/ml。稀释酶之后紧接着开始测定以限制sod2和黄嘌呤氧化酶不在使用中的时间。在测定缓冲液中还将两种商业抑制剂,2-甲氧基雌二醇和lcs-1(西格玛奥德里奇公司),稀释至30μm。制备了三种对照:8ul sod2 50ul 1x底物 2ul测定缓冲液(阳性对照)、100%dmso(载体对照)或商业抑制剂(抑制剂对照)。另外,两种对照被制备成含有10ul测定缓冲液 50ul 1x底物(底物对照)或58ul测定缓冲液 2ul测试化合物(测试化合物对照)。最后,制备了8ul sod2 50ul 1x底物 2ul试验化合物(zgcsod21789粗制裂解物或wt粗制裂解物);所有对照和样品一式三份制备。在所有对照和样品准备好后,添加了25ul 1x黄嘌呤氧化酶以启动超氧化物产生;将反应在22℃下温育20分钟。
[0712]
在0分钟(黄嘌呤氧化酶添加之前)和20分钟时进行吸光度测量。此测定的结果在图31中示出。
[0713]
来自zgcsod21789发酵肉汤的粗制裂解物抑制sod2活性,而来自wt对照的粗制裂解物不抑制。因此,本公开的抗性基因工作流能够鉴定编码能够影响/靶向期望治疗靶标的天然产物的mgc。
[0714]
实例20宏基因组文库组装和版本控制
[0715]
下一代测序(ngs)的进展允许科学家通过微生物dna的直接测序来研究和剖析微生物群落。被称为序列读段的原始ngs数据可以直接与参考序列进行比较以在计算上鉴定所关注特征和基因。通过鉴定这些序列中的重叠,还可以将序列读段组装成被称为重叠群的更长序列。随后可以对重叠群进行注释以鉴定所关注基因和特征。源自微生物群落的序列的集合通常被称为宏基因组文库。
[0716]
代替直接测序,宏基因组文库还可以通过将微生物dna包装到粘粒中来构建,所述粘粒然后由宿主生物体,通常为大肠杆菌克隆和复制,并且跨多个物理样品进行分割,由此降低任何单个物理样品的复杂度。在制备了物理粘粒宏基因组文库之后,可以对每个样品的粘粒和微生物群落dna进行测序和分析,并且将结果在计算上组合以产生物理宏基因组文库的数字表示(图19)。
[0717]
分析和构建宏基因组文库的关键挑战在于通过计算分析以扩展到随时间推移产生的大量序列数据的方式跟踪数据溯源。
[0718]
在此描述的方法解决了以产生一致序列集合的方式大规模运行宏基因组组装和注释流水线的问题,其中每个单个序列可以与用于产生数据的特定生物信息学工具、被测序的特定物理样品以及正在研究的微生物群落相关。
[0719]
此实例描述了被设计成大规模组装和注释宏基因组粘粒文库的计算基础设施和系统,但是任何宏基因组数据或单独的序列数据都可以用同一机制进行处理。
[0720]
ngs数据处理流水线
[0721]
过程由通过5个步骤处理原始序列数据组成:
[0722]
1)数据准备和样品id分配
[0723]
使用如因美纳公司novaseq等ngs测序仪产生原始ngs数据。在测序之前,用唯一id标记单独样品和测序运行。在产生新ngs数据后,将所述数据存储在本地化部署簇上或用云提供商,如亚马逊网络服务存储。重要的是,本发明规定了如何标记和存储此数据,使得后续步骤可以大规模消耗所述数据。也就是说,通过ngs测序运行组织数据,并且然后通过自动产生或手动分配的唯一样品id标记单独序列数据文件(fastq)。
[0724]
另外,在单独文件中提供样品的元数据,所述单独文件将单独样品id映射到原始微生物群落源的唯一标识符,所述唯一标识符可以之后用于将环境或实验条件与每个样品相关联。
[0725]
在此步骤,还产生将处理期间的所有中间数据文件和最终数据文件关联在一起的唯一“数据构建”id。本发明的文件和数据跟踪组成部分的细节,参见以下“数据伪影跟踪系统”。
[0726]
2)预处理和ngs读段过滤
[0727]
对每个经测序的样品的原始ngs数据进行预处理以基于数据质量或污染过滤掉读段。可以根据特定宏基因组制备对此步骤使用一系列生物信息学工具,如fastqc或bbtools。整个发明与工具选择无关,只要所述工具选择产生了样品的新fastq文件。
[0728]
为了大规模运行此步骤(数百或更多个样品),在容器中执行生物信息学工具(具体地用docker执行,但是具有版本控制的图像的容器化系统都将起作用)。通过首先鉴定测序运行和数据构建id,获取要处理的那些样品的元数据,然后使用批执行系统按样品分配工作以并行运行来对工作负荷进行批处理。要使用的批执行系统的特定选择对于本发明来说不是关键的,只要单独计算节点具有访问序列数据和共享文件系统或存储的途径。
[0729]
本发明的关键部分是将每个样品的溯源信息提供给预处理步骤,指示哪个输入数据文件要进行处理以及还有使用的工具的版本和描述每个样品的元数据。然后,在使用稍后描述的“数据伪影跟踪系统”进行索引和版本控制之前将所述信息与预处理步骤的输出文件一起保存。此步骤的组合输出然后可用于下游处理和手动检查。
[0730]
3)序列组装
[0731]
然后可以将经过滤的原始序列数据按样品单独组装以产生被称为重叠群的长得多的共有序列。存在许多可以将序列读段数据组装为重叠群的生物信息学工具,包含spades和megahit。
[0732]
此步骤通过启动容器来触发,所述容器首先鉴定数据构建id,使用数据伪影跟踪系统来鉴定输入,并且使用批处理执行系统跨所有样品以大规模并行方式运行。然后将经组装的重叠群与度量一起存储在一组文件中,所述一组文件然后由数据伪影跟踪系统进行索引。
[0733]
本发明的另一个重要方面在于用通用唯一id(uuid)标记单独重叠群,所述通用唯一id可以在没有中央id提供者的情况下并行产生并且仍然保证是唯一的,这是大规模组装中的重要考虑因素。
[0734]
4)序列注释
[0735]
然后可以分析重叠群以鉴定预测的基因的位置或其它基因组特征,如启动子位点。也可以分析重叠群以分配生物体的预测分类。关于先前的步骤,存在许多可用于注释
dna序列的生物信息学工具,包含prodigal和kaiju。
[0736]
与序列组装一样,此步骤通过启动容器来触发,所述容器首先使用数据构建id来鉴定正在进行的数据构建,使用数据伪影跟踪系统来鉴定输入,并且使用批执行系统跨所有样品以大规模并行方式运行。
[0737]
也与先前步骤一样,用数据伪影跟踪系统对输出数据进行索引和版本控制。
[0738]
5)序列合并到版本控制的数据构建中
[0739]
最终步骤是将跨样品的数据聚集到单个集合中以用于数据构建。此步骤类似地开始于启动容器,所述容器使用唯一数据构建id以将来自多个步骤的输出文件组合到单组文件中,所述单组文件形成系统的最终输出。这些文件包含每个重叠群序列的经组合fasta文件、基因组特征注释的genbank和fasta文件、每个重叠群序列的分类预测的csv文件以及将每个重叠群和注释与唯一数据构建id、样品id和具有可用的任何另外的元数据的宏基因组文库相关联的一组csv文件。
[0740]
此时,数据构建被视为对此数据集合和数据构建id是完整且不可变的。
[0741]
数据伪影跟踪系统
[0742]
系统的用于操作的核心组分之一是数据伪影跟踪系统,所述数据伪影跟踪系统以可搜索的方式将文件组与元数据相关联,使得输出数据可以被快速分类并且输入数据可以被轻松鉴定。
[0743]
数据伪影跟踪系统将一组文件与含有溯源元数据(包含产生时间戳、数据构建id、所包含文件的校验和以及用于产生文件的生物信息学工具的容器版本等其它信息)的json文件以及唯一标识所述一组文件的uuid一起分组。此组文件然后被称为数据伪影。
[0744]
数据伪影在被索引时被视为是不可变的并且因此提供所述数据是如何与所述数据一起产生的可搜索记录。
[0745]
在两步过程中创建数据伪影。可由计算作业写入的通用文件系统允许将输出写入并分组到文件夹中。此虚拟空间被视为数据伪影暂存区。其允许在此文件系统上并行写入和创建文件。这些数据伪影尚不可搜索,但是一旦创建了含有所需元数据信息的“artifact.json”文件,就被视为是可索引的。
[0746]
在第二步骤中,索引器在数据伪影暂存区中爬取具有相关联的“artifact.json”文件的任何新数据伪影。此索引器以单独作业手动运行或者以某个固定时间间隔启动。在索引期间,验证元数据和文件。如果有效,则将数据伪影文件移动到文件系统上的单独永久位置,在适当时备份到其它云存储位置,并且在如mongodb等基于文档的数据库中索引元数据。至关重要的是,这现在允许其它计算作业唯一地标识每个数据伪影并且通过查询所述文档数据库来搜索数据。
[0747]
举例来说,组装任务将查找含有特定样品的经过滤的fastq序列数据的所有数据伪影,运行组装工具,然后在数据伪影暂存区中创建输出文件夹来存储所得fasta文件。最后,任务将写入指示数据伪影已经准备好进行处理的“artifact.json”文件。索引器任务然后将数据伪影移动到永久位置,以使这些文件可用于下游步骤。然后,注释任务可以从数据伪影数据库中查找一或多个样品的经组装的重叠群,并且类似地处理这些重叠群以鉴定基因或其它基因组特征。
[0748]
随时间推移组装和注释流水线的操作
[0749]
通常,当对数百个样品构建复杂宏基因组文库时,由于正常的实验方差、实验错误或其它类似问题,可能没有像期望的那样好得对单独样品进行测序。这种规模的测序仍然相对昂贵,因此重新测序或重新制备整个文库可能受成本过高限制。相反,粘粒dna的单独样品可以重新制备或简单地重新测序以添加另外的数据并提高最终组装件的质量。这因为这样的事实而被复杂化,即重新测序并不总是在初步分析期间立即进行的,而是可以在数月或数年之后在对特定样品有了新的关注或者之后确定了某些样品的质量不够高的情况下被调用。
[0750]
这对发明解决的数据跟踪和处理提出了计算上的挑战。没有内置溯源或用于在样品、重叠群或基因水平上进行有效版本控制的手段的传统系统将难以以维持现有数据完整性同仍用最新近的数据增强结果的方式随时间推移跨许多宏基因组文库组合结果。
[0751]
然而,在此描述的发明通过使用数据伪影跟踪系统,允许随着时间的推移有效地增量构建宏基因组文库。随着新样品被重新测序,新数据构建id被创建,在适当时使用新数据或新数据和旧数据一起的组合对选择样品重新运行流水线步骤。在最后的数据聚集步骤中,从先前的数据构建中提取选择信息并且将选择信息以保留未接触过的样品但替代或聚集新结果的方式组合到可以立即使用的新数据构建中。
[0752]
此过程在图20中展示。采取命名为mg3的宏基因组文库,所述宏基因组文库被制备为跨一组板的数百个样品内的粘粒文库。然后对这些板上的每个样品进行测序。由于样品数量巨大,这些样品在远程测序中心被分成两次测序运行。系统分配唯一id seqr_000531和seqr_000532以唯一标识哪些样品在哪个测序运行中测序。预处理、组装和注释步骤被运行为将所述数据组合到给出数据构建id mg3_build_1的单个数据构建中。这种结果现在可在下游用于序列搜索或其它应用。假设未来几十个样品由于后来检测到的数据质量问题而被要求重新测序。这些样品进行制备并且用不同测序中心重新测序。所述新测序运行也被分配了唯一id,并且流水线将那些样品与来自那些样品的过去信息一起处理以产生改进的组装件和新注释。数据现在统一从mg3_build_1和新样品的结果聚集以产生进而可用于下游分析的mg3_build_2。此过程可以在本发明下无限地重复以随时间的推移渐进地产生单个或经组合的宏基因组文库或其它文库,同时仍跟踪每个特定重叠群的溯源和对特定流水线版本、测序运行和宏基因组文库的注释。
[0753]
本发明的另外的实施例
[0754]
本公开考虑的其它主题在以下编号实施例中阐述:
[0755]
1.一种用于搜索多基因簇特征集数字宏基因组文库并且鉴定所关注天然产物的计算机模拟方法,所述方法包括:
[0756]
a)查询数字宏基因组文库中指示天然产物多基因簇特征集的信号;
[0757]
b)提供所述查询的输出作为多个信号相关联的多基因簇数字特征集;
[0758]
c)通过以下确定生物相关性并且将所述生物相关性分配到所述信号相关联的多基因簇数字特征集:
[0759]
根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇(mgc)特征集;和/或
[0760]
根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生
物抗性基因功能,以由此鉴定在计算上确定的生物抗性基因;以及
[0761]
d)基于在计算上确定的生物抗性基因位于包括经数字组装的生物合成操纵子的在计算上确定的天然产物多基因簇特征集的阈值参数内来鉴定编码所述所关注天然产物的mgc。
[0762]
2.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库是长组装体数字宏基因组文库,所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。
[0763]
3.根据实施例1至2中任一实施例所述的方法,其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。
[0764]
4.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库包括的n50长度为至少约10kb、15kb或20kb,并且所述数字宏基因组文库的大小为至少约500mb。
[0765]
5.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,并且所述数字宏基因组文库的大小为至少约1tb。
[0766]
6.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列,并且所述数字宏基因组文库的大小为约500mb到约1tb。
[0767]
7.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数经组装的序列来自未经培养的微生物。
[0768]
8.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的基本上所有序列都来自未经培养的微生物。
[0769]
9.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。
[0770]
10.根据实施例1所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品,所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。
[0771]
11.根据实施例1所述的方法,其中步骤a)中的所述查询包括:利用hmm模型来搜索所述数字宏基因组文库中的所关注基因,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0772]
11.1.根据实施例1所述的方法,其中步骤a)中的所述查询包括鉴定所述数字宏基因组文库内的含有所关注基因的同源物的重叠群,其中同源性是基于与所述所关注基因表
现出至少95%、90%、85%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性的候选序列确定的,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0773]
12.根据实施例1所述的方法,其中步骤a)中的所述查询包括:利用预测模型来搜索所述数字宏基因组文库中的所关注基因的同源物,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0774]
13.根据实施例1所述的方法,其中步骤a)中的所述查询包括:利用预测模型来搜索所述数字宏基因组文库中的一或多个所关注基因的同源物,其中所述基因的经编码的蛋白质不具有产生所述所关注天然产物的生物合成功能,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0775]
13.1根据实施例12或13中任一实施例所述的方法,其中所述预测模型选自由以下组成的组:hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、rnn(递归神经网络)、动态贝叶斯网络、人工神经网络,包含递归神经网络,如基于长短期记忆模型(lstm)的那些递归神经网络,以及其组合。
[0776]
13.1.1根据实施例12或13所述的方法,其中所述预测模型为hmm。
[0777]
13.2根据实施例13.1.1所述的方法,其中所述同源物在所述hmm模型上表现出大于30、40、50、60、70、80、90、100、110、120或130的比特评分。
[0778]
13.3.根据实施例1所述的方法,其中步骤a)中的所述查询包括:鉴定所述数字宏基因组文库内的含有所关注基因的同源物的重叠群,其中同源性是基于与所述所关注基因表现出至少95%、90%、85%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性的候选序列确定的,其中所述所关注基因的经编码的蛋白质不具有产生所述所关注天然产物的生物合成功能,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0779]
14.根据实施例1所述的方法,其中步骤a)中的所述查询包括:利用预测模型来搜索所述数字宏基因组文库中的已知抗性基因或变体或其同源物,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0780]
14.1根据实施例14所述的方法,其中所述预测模型选自由以下组成的组:hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、rnn(递归神经网络)、动态贝叶斯网络、人工神经网络,包含递归神经网络,如基于长短期记忆模型(lstm)的那些递归神经网络,以及其组合。
[0781]
14.1.1根据实施例14所述的方法,其中所述预测模型为hmm。
[0782]
14.2根据实施例14.1.1所述的方法,其中所述同源物在所述hmm模型上表现出大于30、40、50、60、70、80、90、100、110、120或130的比特评分。
[0783]
14.3.根据实施例1所述的方法,其中步骤a)中的所述查询包括:鉴定所述数字宏
基因组文库内的含有已知抗性基因的同源物或变体或其同源物的重叠群,其中同源性是基于与所述已知抗性基因或变体或其同源物表现出至少95%、90%、85%或80%序列同一性的候选序列确定的,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0784]
15.根据实施例1所述的方法,其中步骤a)中的所述查询包括:利用预测模型来搜索所述数字宏基因组文库中的在计算上预测或假设的抗性基因或变体或其同源物,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0785]
15.1根据实施例15所述的方法,其中所述预测模型选自由以下组成的组:hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、rnn(递归神经网络)、动态贝叶斯网络、人工神经网络,包含递归神经网络,如基于长短期记忆模型(lstm)的那些递归神经网络,以及其组合。
[0786]
15.1.1根据实施例15所述的方法,其中所述预测模型为hmm。
[0787]
15.2根据实施例15.1.1所述的方法,其中所述同源物在所述hmm模型上表现出大于30、40、50、60、70、80、90、100、110、120或130的比特评分。
[0788]
15.3.根据实施例1所述的方法,其中步骤a)中的所述查询包括:鉴定所述数字宏基因组文库内的含有在计算上预测或假设的抗性基因的同源物的重叠群,其中同源性是基于与所述在计算上预测或假设的抗性基因表现出至少95%、90%、85%或80%序列同一性的候选序列确定的,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0789]
16.根据实施例1所述的方法,其中步骤a)中的所述查询包括:利用预测模型来搜索所述数字宏基因组文库中的单重叠群上含有的所关注基因,并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能,以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0790]
16.1根据实施例16所述的方法,其中所述预测模型选自由以下组成的组:hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、rnn(递归神经网络)、动态贝叶斯网络、人工神经网络,包含递归神经网络,如基于长短期记忆模型(lstm)的那些递归神经网络,以及其组合。
[0791]
16.1.1根据实施例16所述的方法,其中所述预测模型为hmm。
[0792]
16.2根据实施例16.1.1所述的方法,其中所述同源物在所述hmm模型上表现出大于30、40、50、60、70、80、90、100、110、120或130的比特评分。
[0793]
17.根据实施例1所述的方法,其中所述信号相关联的多基因簇数字特征集包括多个重叠群的数据库,所述多个重叠群在在计算上被预测为含有多基因簇,所述多基因簇包括一或多个生物合成操纵子。
[0794]
18.根据实施例1所述的方法,其中步骤a)中的所述查询包括:鉴定在计算上被预测为含有多基因簇的所有序列,所述多基因簇包括一或多个生物合成操纵子(例如,包括
mgc),并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能,以由此鉴定在计算上确定的生物抗性基因。
[0795]
19.根据实施例1所述的方法,其中所述信号相关联的多基因簇数字特征集包括多个含有推定抗性基因的单重叠群的数据库。
[0796]
20.根据实施例1至19中任一实施例所述的方法,其中过滤所述信号相关联的多基因簇数字特征集以消除大小小于约15kb的重叠群。
[0797]
21.根据实施例1至19中任一实施例所述的方法,其中过滤所述信号相关联的多基因簇数字特征集以消除大小小于约15kb的重叠群并且还消除与所述信号相关联的多基因簇数字特征集内的第一重叠群共享大于约99%、98%、97%、96%、95%、94%、93%、92%、91%或90%序列同一性的重复重叠群结果。
[0798]
21.1根据实施例1至19中任一实施例所述的方法,其中过滤编码所述所关注天然产物的mgc以消除与在步骤(d)中鉴定的第一所鉴定的mgc共享大于约99%、98%、97%、96%、95%、94%、93%、92%、91%或90%序列同一性的重复mgc。
[0799]
22.根据实施例1至21.1中任一实施例所述的方法,其中用遗传算法执行步骤c)中的组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0800]
23.根据实施例1至21.1中任一实施例所述的方法,其中用遗传簇预测算法执行步骤c)中的组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0801]
24.根据实施例1至21.1中任一实施例所述的方法,其中用多基因簇(mgc)预测算法(例如,表1中列出的那些算法)执行步骤c)中的组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0802]
25.根据实施例1至21.1中任一实施例所述的方法,其中用抗生素和次级代谢物分析壳(antismash)算法和流水线或deepbgc算法和流水线执行组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0803]
26.根据实施例1至25中任一实施例所述的方法,其中在利用生物合成基因簇(bgc)预测算法组装包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集之后,执行根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能,以由此鉴定在计算上确定的生物抗性基因。
[0804]
26.1根据实施例1至25中任一实施例所述的方法,其中在根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能以由此鉴定在计算上确定的生物抗性基因、已利用生物合成基因簇(bgc)预测算法组装的包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集之后,执行利用生物合成基因簇(bgc)预测算法组装包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集。
[0805]
27.根据实施例1至26.1中任一实施例所述的方法,其进一步包括:
[0806]
e)鉴定所述数字宏基因组文库内的不包括所述在计算上确定的生物抗性基因的多个在计算上确定的天然产物多基因簇特征集。
[0807]
28.根据实施例1至26.1中任一实施例所述的方法,其进一步包括:
[0808]
e)鉴定不包括所述在计算上确定的生物抗性基因但与包括所述在计算上确定的生物抗性基因的在计算上确定的天然产物多基因簇特征集具有预定程度的遗传相关性的多个在计算上确定的天然产物多基因簇特征集,以由此产生过渡抗性基因天然产物多基因
簇特征集。
[0809]
29.根据实施例1至26.1中任一实施例所述的方法,其进一步包括:
[0810]
e)鉴定不包括所述在计算上确定的生物抗性基因但与包括所述在计算上确定的生物抗性基因的所鉴定的在计算上确定的天然产物多基因簇特征集具有预测程度的遗传相关性的多个在计算上确定的天然产物多基因簇特征集,以由此产生过渡抗性基因天然产物多基因簇特征集;以及
[0811]
f)从所述过渡抗性基因天然产物多基因簇特征集中鉴定所关注天然产物。
[0812]
29.1根据实施例1至29中任一实施例所述的方法,其中所述在计算上确定的生物抗性基因受所述多基因簇特征集内的生物合成操纵子的调节控制。
[0813]
29.2根据实施例1至29.1中任一实施例所述的方法,其包括以下步骤:
[0814]
e)制造宿主细胞或其重构版本,其中所述宿主细胞包括在步骤(d)中鉴定的编码所述所关注天然产物的所述mgc。
[0815]
29.3根据实施例29.2所述的方法,其包括以下步骤:
[0816]
f)培养步骤(e)的制造的宿主细胞。
[0817]
29.4根据实施例29.3所述的方法,其包括以下步骤:
[0818]
g)分析来自步骤(f)的培养物的用过的培养物中天然产物的存在,其中所述天然产物不存在于对照宿主细胞的培养物中,所述对照宿主细胞缺乏所述制造的宿主细胞中存在的mgc序列。
[0819]
29.5根据实施例1至29.4中任一实施例所述的方法,其中根据实施例32至61中任一实施例所述的方法产生所述数字宏基因组文库。
[0820]
29.6根据实施例27至28中任一实施例所述的方法,其包括以下步骤:
[0821]
f)制造宿主细胞或其重构版本,其中所述宿主细胞包括在步骤(e)中鉴定的所述在计算上确定的天然产物多基因簇特征集中的至少一个特征集。
[0822]
29.7根据实施例29.6所述的方法,其包括以下步骤:
[0823]
g)培养步骤(f)的制造的宿主细胞。
[0824]
29.8根据实施例29.7所述的方法,其包括以下步骤:
[0825]
h)分析来自步骤(g)的培养物的用过的培养物中天然产物的存在,其中所述天然产物不存在于对照宿主细胞的培养物中,所述对照宿主细胞缺乏所述制造的宿主细胞中存在的mgc序列。
[0826]
30.一种用于鉴定具有未知推定抗性基因或无抗性基因的候选多基因簇(mgc)特征集的计算机模拟方法,所述方法包括以下步骤:
[0827]
a)在计算上预测数字宏基因组文库内的天然产物多基因簇特征集;
[0828]
b)注释预测的天然产物多基因簇特征集内的基因,每个多基因簇特征集包括左边界和右边界,其中所述注释步骤任选地包括注释位于所述多基因簇特征集的所述边界的1-2个开放阅读框(orf)内的基因;
[0829]
c)从所述预测的天然产物多基因簇特征集中过滤加注释的基因以仅保留以下基因,由此产生多个经过滤的所关注基因:
[0830]
i)所述基因不具有预测的生物合成功能,并且
[0831]
ii)所述基因任选地不是已知靶抗性基因的同源物;以及
[0832]
d)选择包括所述多个经过滤的所关注基因中的至少一个所关注基因的天然产物多基因簇特征集,由此鉴定具有推定抗性基因或无抗性基因的候选mgc序列。
[0833]
30.1一种用于鉴定具有预测的抗性基因的候选多基因簇特征集的计算机模拟方法,所述方法包括以下步骤:
[0834]
a)在计算上预测数字宏基因组文库内的天然产物多基因簇特征集;
[0835]
b)向所述多基因簇特征集内的基因分配生物合成潜在评分;所述生物合成潜在评分是基于计算的基因是生物合成酶的可能性的;
[0836]
c)向所述多基因簇特征集内的基因分配已知抗性基因评分,所述已知抗性评分是基于基因与已知抗性基因的共享序列同一性的;
[0837]
d)选择包括预测的抗性基因的候选多基因簇特征集,所述预测的抗性基因表现出预设的组合评分阈值,所述组合评分是基于所述生物合成潜在评分和所述已知抗性基因评分的组合的。
[0838]
30.2根据实施例30.1所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配生物合成操纵子评分,所述生物合成操纵子评分是基于基因与其多基因簇特征集内的生物合成操纵子的邻近度的;并且其中所述组合评分还是基于所述生物合成操纵子评分的。
[0839]
30.3根据实施例30.1和30.2中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配核心生物合成基因距离评分,所述核心生物合成基因距离评分是基于基因与其多基因簇特征集内的核心生物合成基因的邻近度的;并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。
[0840]
30.4根据实施例30.1至30.3中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配必需基因评分,所述必需基因评分是基于基因与已知必需基因序列的列表的最高序列同一性的;并且其中所述组合评分还是基于所述必需基因评分的。
[0841]
30.5根据实施例30.1至30.4中任一实施例所述的方法,其中所选候选多基因簇特征集内的所述预测的抗性基因与已知抗性基因共享小于99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%或80%序列同一性。
[0842]
30.6根据实施例30.1至30.5中任一实施例所述的方法,其中所述所选候选多基因簇特征集内的所述预测的抗性基因与生物合成酶共享小于90%、89%、88%、87%、86%、85%、84%、83%、82%、81%或80%序列同一性。
[0843]
30.6.1根据实施例30.1至30.6中任一实施例所述的方法,其中生物合成酶是由含有所述预测的抗性基因的多基因簇特征集编码的所述天然产物的生物合成酶。
[0844]
30.6.2根据实施例30.1至30.6.1中任一实施例所述的方法,其中生物合成酶是与由多基因簇特征集(例如,mibig)编码的天然产物相关联的生物合成酶的同源物。
[0845]
30.7根据实施例30.1至30.6.2中任一实施例所述的方法,其中所述所选候选多基因簇特征集内的所述预测的抗性基因在mibig中返回少于8个、6个、4个或2个blast命中,如通过antimash评估的。
[0846]
30.8根据实施例30.1至30.7中任一实施例所述的方法,其中所述所选候选多基因
簇特征集内的所述预测的抗性基因具有组合评分,其中所述计算的基因是生物合成酶的可能性低,并且其中当分别与已知生物合成酶或已知抗性基因相比时,与已知抗性基因的共享序列同一性低。
[0847]
30.9根据实施例30.1至30.8中任一实施例所述的方法,其中所述所选候选多基因簇特征集内的所述预测的抗性基因位于所述所选候选多基因簇特征集内的生物合成操纵子内或与所述生物合成操纵子紧邻(即其间没有其它orf)。
[0848]
30.10根据实施例30.1至30.9中任一实施例所述的方法,其中所述所选候选多基因簇特征集内的所述预测的抗性基因位于所述所选候选多基因簇特征集中含有的生物合成操纵子的内部或生物合成操纵子的500bp内。
[0849]
30.11根据实施例30.1至30.10中任一实施例所述的方法,其中所述所选候选多基因簇特征集内的所述预测的抗性基因位于核心生物合成酶的1kb、2kb、3kb、4kb或5kb内。
[0850]
30.12根据实施例30.1至30.11中任一实施例所述的方法,其中所述所选候选多基因簇特征集内的所述预测的抗性基因与必需基因共享至少99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性。
[0851]
30.12.1根据实施例30.1至30.12中任一实施例所述的方法,其中所述方法包括向所述多基因簇特征集内的基因分配转运基因潜在评分,所述转运基因潜在评分是基于基因是转运相关基因的可能性的(例如,通过序列同一性),并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。
[0852]
30.12.2根据实施例30.1至30.12.1中任一实施例所述的方法,其中所述方法包括向所述多基因簇特征集内的基因分配调节基因潜在评分,所述调节基因潜在评分是基于基因是调节基因的可能性的(例如,通过序列同一性),并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。
[0853]
30.12.3根据实施例30.1至30.12.2中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配抗性机制评分,所述抗性机制评分是基于基因与具有不同于期望抗性机制的抗性机制的抗性基因的相似性分配的,并且其中所述组合评分还是基于所述抗性机制评分的。
[0854]
30.12.4根据实施例30.1至30.12.3中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配抗性机制评分,所述抗性机制评分是基于基因与具有所述期望抗性机制的抗性基因的相似性分配的,并且其中所述组合评分还是基于所述抗性机制评分的。
[0855]
30.12.5根据实施例30.1至30.12.4所述的方法,其中所述期望抗性机制是基于靶标变体的抗性。
[0856]
30.13一种用于鉴定由多基因簇编码的天然产物的抗性基因的计算机模拟方法,所述方法包括以下步骤:
[0857]
a)在计算上预测数字宏基因组文库内的天然产物多基因簇;
[0858]
b)向所述多基因簇特征集内的基因分配生物合成潜在评分;所述生物合成潜在评分是基于计算的基因是生物合成酶的可能性的;
[0859]
c)向所述多基因簇特征集内的基因分配已知抗性基因评分,所述已知抗性评分是
基于基因与已知抗性基因的共享序列同一性的;
[0860]
d)选择表现出预设的组合评分阈值的预测的抗性基因,所述组合评分是基于所述生物合成潜在评分和所述已知抗性基因评分的组合的。
[0861]
30.14根据实施例30.13所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配生物合成操纵子评分,所述生物合成操纵子评分是基于基因与其多基因簇特征集内的生物合成操纵子的邻近度的;并且其中所述组合评分还是基于所述生物合成操纵子评分的。
[0862]
30.15根据实施例30.13和30.14中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配核心生物合成基因距离评分,所述核心生物合成基因距离评分是基于基因与其多基因簇特征集内的核心生物合成基因的邻近度的;并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。
[0863]
30.16根据实施例30.13至30.15中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配必需基因评分,所述必需基因评分是基于基因与已知必需基因序列的列表的最高序列同一性的;并且其中所述组合评分还是基于所述必需基因评分的。
[0864]
30.17根据实施例30.13至30.16中任一实施例所述的方法,其中所述预测的抗性基因与已知抗性基因共享小于99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%或80%序列同一性。
[0865]
30.18根据实施例30.13至30.17中任一实施例所述的方法,其中所述预测的抗性基因与生物合成酶共享小于90%、89%、88%、87%、86%、85%、84%、83%、82%、81%或80%序列同一性。
[0866]
30.19根据实施例30.13至30.18中任一实施例所述的方法,其中生物合成酶是由含有所述预测的抗性基因的多基因簇特征集编码的所述天然产物的生物合成酶。
[0867]
30.19.1根据实施例30.13至30.19中任一实施例所述的方法,其中生物合成酶是与由多基因簇特征集(例如,mibig)编码的天然产物相关联的生物合成酶。
[0868]
30.20根据实施例30.13至30.19.1中任一实施例所述的方法,其中所述预测的抗性基因在mibig中返回少于8个、6个、4个或2个blast命中,如通过antimash评估的。
[0869]
30.21根据实施例30.13至30.20中任一实施例所述的方法,其中所述预测的抗性基因具有组合评分,其中所述计算的基因是生物合成酶的可能性低,并且其中与已知抗性基因的共享序列同一性低。
[0870]
30.22根据实施例30.13至30.21中任一实施例所述的方法,其中所述预测的抗性基因位于所选候选多基因簇特征集内的生物合成操纵子内或与所述生物合成操纵子紧邻(即其间没有其它orf)。
[0871]
30.23根据实施例30.13至30.22中任一实施例所述的方法,其中所述预测的抗性基因位于生物合成操纵子的内部或生物合成操纵子的500bp内。
[0872]
30.24根据实施例30.13至30.23中任一实施例所述的方法,其中所述预测的抗性基因位于核心生物合成酶的1kb、2kb、3kb、4kb或5kb内。
[0873]
30.25根据实施例30.13至30.24中任一实施例所述的方法,其中所述所选候选多基因簇特征集内的所述预测的抗性基因与必需基因共享至少99%、98%、97%、96%、95%、
94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、75%、74%、73%、72%、71%或70%序列同一性。
[0874]
30.26根据实施例30.13至30.25中任一实施例所述的方法,其中所述方法包括向所述多基因簇特征集内的基因分配转运基因潜在评分,所述转运基因潜在评分是基于基因是转运相关基因的可能性的(例如,通过序列同一性),并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。
[0875]
30.27根据实施例30.13至30.26中任一实施例所述的方法,其中所述方法包括向所述多基因簇特征集内的基因分配调节基因潜在评分,所述调节基因潜在评分是基于基因是调节基因的可能性的(例如,通过序列同一性),并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。
[0876]
30.28根据实施例30.13至30.27中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配抗性机制评分,所述抗性机制评分是基于基因与具有不同于期望抗性机制的抗性机制的抗性基因的相似性分配的,并且其中所述组合评分还是基于所述抗性机制评分的。
[0877]
30.29根据实施例30.13至30.27中任一实施例所述的方法,其包括以下步骤:向所述多基因簇特征集内的基因分配抗性机制评分,所述抗性机制评分是基于基因与具有所述期望抗性机制的抗性基因的相似性分配的,并且其中所述组合评分还是基于所述抗性机制评分的。
[0878]
30.30根据实施例30.28或30.29所述的方法,其中所述期望抗性机制是基于靶标变体的抗性。
[0879]
31.根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文库是长组装体数字宏基因组文库,所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。
[0880]
31.1根据实施例30至31中任一实施例所述的方法,其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。
[0881]
31.2根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,并且所述数字宏基因组文库的大小为至少约500mb。
[0882]
31.3根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,并且所述数字宏基因组文库的大小为至少约1tb。
[0883]
31.4根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列,并且所述数字宏基因组文库的大小为约500mb到约1tb。
[0884]
31.5根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列、所述经组装的重叠群序列;其中所述文库中的大多数序列来自未经培养的微生物。
[0885]
31.6根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文
库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的基本上所有序列都来自未经培养的微生物。
[0886]
31.7根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。
[0887]
31.8根据实施例30至30.30中任一实施例所述的方法,其中所述数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品,所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。
[0888]
31.9根据实施例30至31.8中任一实施例所述的方法,其中步骤(c)进一步过滤加注释的基因,以便仅保留以下基因:iii)所述基因与所述多基因簇特征集内的具有预测的生物合成功能的另一个基因共调节。
[0889]
31.10根据实施例30至31.9中任一实施例所述的方法,其包括以下步骤:
[0890]
e)制造宿主细胞或其重构版本,其中所述宿主细胞包括步骤(d)的所述候选mgc序列。
[0891]
31.10.1根据实施例30至31.9中任一实施例所述的方法,其包括以下步骤:
[0892]
e)制造宿主细胞或其重构版本,其中所述宿主细胞包括步骤(d)的所述所选候选多基因簇特征集。
[0893]
31.10.2根据实施例30至31.9中任一实施例所述的方法,其包括以下步骤:
[0894]
e)制造宿主细胞或其重构版本,其中所述宿主细胞包括所述多基因簇特征集,所述多基因簇特征集包括步骤(d)的所述所选预测的抗性基因。
[0895]
31.11根据实施例31.10至31.10.2所述的方法,其包括以下步骤:
[0896]
f)培养步骤(e)的制造的宿主细胞。
[0897]
31.12根据实施例31.11所述的方法,其包括以下步骤:
[0898]
g)分析来自步骤(f)的培养物的用过的培养物中天然产物的存在,其中所述天然产物不存在于对照宿主细胞的培养物中,所述对照宿主细胞缺乏所述制造的宿主细胞中存在的所述候选mgc序列。
[0899]
31.13根据实施例30至31.12中任一实施例所述的方法,其中根据实施例32至61中任一实施例所述的方法产生所述数字宏基因组文库。
[0900]
32.一种用于组装长组装体dna重叠群宏基因组文库的方法,所述方法包括:
[0901]
a)提供包括独有的全基因组的未经测序且未经组装的宏基因组dna样品;
[0902]
b)通过以下降低所述宏基因组dna样品的基因组复杂度:
[0903]
i)将来自所述宏基因组dna样品的dna片段克隆到多个载体中,以产生宏基因组载体片段文库;
[0904]
ii)将来自所述宏基因组载体片段文库的所述载体汇集到多个离散微型宏基因组亚基中,以产生微型宏基因组文库,所述多个离散微型宏基因组亚基各自包括约1,000个到约30,000个所汇集的载体,所述微型宏基因组文库在所述多个微型宏基因组亚基内包括来
自所述未经测序且未经组装的宏基因组dna样品的dna;
[0905]
c)对存在于所述微型宏基因组文库的所述多个离散微型宏基因组亚基中的所述所汇集的载体中含有的所述宏基因组dna进行池内测序和组装,以产生首过长组装体dna重叠群宏基因组文库,所述首过长组装体dna重叠群宏基因组文库包括经测序且经组装的dna重叠群;其中所述首过长组装体dna重叠群宏基因组文库的n50长度为至少约10kb。
[0906]
32.1根据实施例32所述的方法,其包括以下步骤:
[0907]
d)通过进一步组装来自所述首过长组装体dna重叠群宏基因组文库的多个经测序且经组装的dna重叠群来进行池间dna重叠群组装以产生二过长组装体dna重叠群宏基因组文库。
[0908]
33.根据实施例32或32.1所述的方法,其中所述未经测序且未经组装的宏基因组dna样品包括至少约50个、100个、500个、1000个或10000个独有的全基因组。
[0909]
34.根据实施例32至33中任一实施例所述的方法,其中所述未经测序且未经组装的宏基因组dna样品中的所述独有的全基因组的平均大小为至少约1mb、2mb、3mb、4mb或5mb或介于1-5mb之间。
[0910]
35.根据实施例32至34中任一实施例所述的方法,其中所述长组装体dna重叠群宏基因组文库包括长度为至少约10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb或100kb的多个经测序且经组装的dna重叠群。
[0911]
36.根据实施例32至35中任一实施例所述的方法,其中所述长组装体dna重叠群宏基因组文库的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb或100kb。
[0912]
36.1.根据实施例32至36中任一实施例所述的方法,其包括:排列来自所述微型宏基因组亚基的dna。
[0913]
37.根据实施例32至36中任一实施例所述的方法,其包括:排列长组装体dna重叠群长度宏基因组文库的物理拷贝。
[0914]
38.根据实施例32至36中任一实施例所述的方法,其包括:以细菌细胞或dna形式排列中间dna重叠群长度微型宏基因组文库或长dna重叠群长度宏基因组文库的物理拷贝。
[0915]
39.根据实施例32至36中任一实施例所述的方法,其包括:将所述多个离散微型宏基因组亚基排列到真实坐标空间中并且向每个亚基分配标识符。
[0916]
40.根据实施例32至36中任一实施例所述的方法,其包括:将所述多个离散微型宏基因组亚基排列到多孔微量滴定板中。
[0917]
41.根据实施例32至36中任一实施例所述的方法,其包括:将所述多个离散微型宏基因组亚基排列到96孔微量滴定板中。
[0918]
42.根据实施例32至41中任一实施例所述的方法,其中所述载体包括质粒。
[0919]
43.根据实施例32至41中任一实施例所述的方法,其中所述载体包括粘粒、f粘粒、bac、yac或其组合。
[0920]
44.根据实施例32至41中任一实施例所述的方法,其中所述载体包括粘粒。
[0921]
45.根据实施例32至44中任一实施例所述的方法,其中步骤(b)中的所述宏基因组载体片段文库包括至少约1m个或10m个载体。
[0922]
46.根据实施例32至44中任一实施例所述的方法,其中所述载体包括粘粒,并且步
骤(b)中的所述宏基因组载体片段文库包括至少约10m个粘粒。
[0923]
47.根据实施例32至44中任一实施例所述的方法,其中所述载体包括粘粒,并且步骤(b)中的所述宏基因组载体片段文库包括至少约20m个粘粒。
[0924]
48.根据实施例32至47中任一实施例所述的方法,其包括在步骤(b)中:将来自所述宏基因组文库的小于约200kb的dna片段克隆到多个载体中。
[0925]
49.根据实施例32至47中任一实施例所述的方法,其包括在步骤(b)中:将来自所述宏基因组dna样品的小于约100kb的dna片段克隆到多个载体中。
[0926]
50.根据实施例32至47中任一实施例所述的方法,其包括在步骤(b)中:将来自所述宏基因组dna样品的小于约50kb的dna片段克隆到多个载体中。
[0927]
51.根据实施例32至47中任一实施例所述的方法,其包括在步骤(b)中:将来自所述宏基因组dna样品的约20kb到约50kb的dna片段克隆到多个载体中。
[0928]
52.根据实施例32至47中任一实施例所述的方法,其包括在步骤(b)中:将来自所述宏基因组dna样品的约30kb到约45kb的dna片段克隆到多个粘粒中。
[0929]
53.根据实施例32至52中任一实施例所述的方法,其中步骤(b)中的所述离散微型宏基因组亚基各自包括约3,000个到约15,000个所汇集的载体。
[0930]
54.根据实施例32至52中任一实施例所述的方法,其中步骤(b)中的所述离散微型宏基因组亚基各自包括约5,000个到约12,000个所汇集的粘粒载体。
[0931]
55.根据实施例32至54中任一实施例所述的方法,其中所述二过长组装体dna重叠群宏基因组文库的n50长度为至少约10kb、15kb、20kb、25kb或30kb。
[0932]
56.根据实施例32至55中任一实施例所述的方法,其中步骤(c)包括:同时组装来自所述多个离散微型宏基因组亚基的单个离散微型宏基因组亚基中存在的所述所汇集的载体中含有的所有dna重叠群。
[0933]
57.根据实施例32至56中任一实施例所述的方法,其中在步骤(c)中,利用单分子测序进行池内测序。
[0934]
58.根据实施例32至56中任一实施例所述的方法,其中在步骤(c)中,利用边合成边测序(sbs)进行池内测序。
[0935]
59.根据实施例32至56中任一实施例所述的方法,其中在步骤(c)中,利用单分子实时(smrt)测序进行池内测序。
[0936]
60.根据实施例32至56中任一实施例所述的方法,其中在步骤(c)中,利用纳米孔测序进行池内测序。
[0937]
60.1.根据实施例32至56中任一实施例所述的方法,其中在步骤(c)中,利用合成长读段测序进行池内测序。
[0938]
60.2根据实施例60.1所述的方法,其中所述合成长读段是基于邻位连接策略和/或光学图谱进行的。
[0939]
60.3.根据实施例32至56中任一实施例所述的方法,其中在步骤(c)中,池内测序为hi-c测序。
[0940]
61.根据实施例32至60.3中任一实施例所述的方法,其中步骤b)中的所述离散微型宏基因组亚基各自包括约5,000个到约12,000个所汇集的粘粒载体,并且其中步骤(c)包括同时组装来自所述多个离散微型宏基因组亚基的单个离散微型宏基因组亚基中存在的
所有经测序的dna。
[0941]
62.一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:
[0942]
a)提供已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的多种酶,由此产生模拟酶组文库;
[0943]
b)将来自模拟酶组的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物;
[0944]
c)分析步骤(b)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[0945]
d)从所述模拟酶组中选择酶,由此模拟所述目标天然产物,其中所选酶产生所述目标天然产物的期望类似物,如通过步骤(c)的所述分析确定的。
[0946]
63.根据实施例62所述的方法,其中以来自异源表达所述酶的微生物菌株的裂解物的形式提供步骤(a)的所述酶。
[0947]
64.一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:
[0948]
a)提供多个微生物菌株,由此产生微生物菌株的模拟酶组文库,所述多个微生物菌株各自表达已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶;
[0949]
b)使来自所述微生物菌株的模拟酶组文库的单独微生物菌株与所述目标天然产物或所述目标天然产物的前体接触,由此产生混合物;
[0950]
c)分析步骤(b)的所述混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[0951]
d)从所述微生物菌株的模拟酶组文库中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(c)的所述分析确定的;其中所述所选微生物菌株所表达的所述酶是所选酶。
[0952]
65.根据实施例62至64中任一实施例所述的方法,其进一步包括以下步骤:扰动第一基础微生物菌株的基因组,所述第一基础微生物菌株用于表达所述所选酶,其中所述第一基础微生物菌株能够合成所述目标天然产物。
[0953]
66.一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:
[0954]
a)提供多个基因序列,所述多个基因序列各自编码已知或被预测为催化用于所述目标天然产物的第一模拟的一种类型的反应的酶;
[0955]
b)扰动第一基础微生物菌株的一或多个细胞的基因组,由此产生微生物菌株的模拟酶组文库,所述一或多个细胞用于各自表达由步骤(a)的所述多个基因序列中的一或多个基因序列编码的酶,其中所述第一基础微生物菌株能够合成所述目标天然产物;
[0956]
c)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株;
[0957]
d)分析来自步骤(c)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[0958]
e)从所述微生物菌株的模拟酶组中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(d)的所述分析确定的。
[0959]
67.根据实施例66所述的方法,其进一步包括以下步骤:
[0960]
f)提供第二多个基因序列,所述第二多个基因序列各自编码已知或被预测为催化
用于步骤(e)的所述目标天然产物或所述期望类似物的第二模拟的一种类型的反应的酶;
[0961]
g)扰动第二基础微生物菌株的一或多个细胞的基因组,由此产生第二微生物菌株的模拟酶组文库,所述一或多个细胞用于各自表达由步骤(f)的所述第二多个基因序列中的一或多个基因序列编码的酶,其中所述第二基础微生物菌株能够合成步骤(e)的所述期望类似物;
[0962]
h)培养来自所述第二微生物菌株的模拟酶组文库的单独微生物菌株;
[0963]
i)分析来自步骤(h)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物;以及
[0964]
j)从所述第二微生物菌株的模拟酶组中选择微生物菌株,由此模拟所述目标天然产物,其中此步骤的所选微生物菌株产生所述目标天然产物的第二期望类似物,如通过步骤(i)的所述分析确定的。
[0965]
68.根据实施例66或67所述的方法,其中所述目标天然产物通过生物合成通路在所述第一基础微生物菌株或所述第二基础微生物菌株中产生,所述生物合成通路包括多个生物合成基因,并且其中步骤(b)和/或(g)分别包括用步骤(a)或(f)的所述第一多个基因序列或所述第二多个基因序列中的一或多个基因序列替代所述生物合成基因中的一或多个生物合成基因。
[0966]
69.根据实施例62至68中任一实施例所述的方法,其中所述酶中的至少一种酶来自序列文库(例如,宏基因组文库),并且通过用训练数据集填充的机器学习模型被预测为催化所述类型的反应,所述训练数据集包括基因序列输入变量和表型性能输出变量;
[0967]
i)其中所述基因序列输入变量包括催化用于所述目标天然产物的模拟的所述类型的反应的酶的一或多个氨基酸序列;以及
[0968]
ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征。
[0969]
70.根据实施例69所述的方法,其中所述训练数据集包括以下蛋白质的氨基酸序列:
[0970]
i)所述蛋白质已在经验上被示出为催化用于所述目标天然产物的模拟的所述类型的反应;或者
[0971]
ii)所述蛋白质已通过其它机制以高置信度被预测为催化用于所述目标天然产物的模拟的所述类型的反应。
[0972]
71.根据实施例62至70中任一实施例所述的方法,其中所述酶是混杂酶。
[0973]
71.1根据实施例62至70中任一实施例所述的方法,其中所述所选酶能够修饰多于一种底物。
[0974]
72.一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:
[0975]
a)访问训练数据集,所述训练数据集包括基因序列输入变量和表型性能输出变量;
[0976]
i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列,并且
[0977]
ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征;
[0978]
b)开发用所述训练数据集填充的第一预测机器学习模型;
[0979]
c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如,宏基因组文库),以鉴定所述宏基因组文库内的候选序列池,其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应;
[0980]
d)如果所述第一置信度评分与第二置信度评分的比率超出预选阈值,则从所述候选序列池中去除通过第二预测机器学习模型利用所述第二置信度评分被预测为执行不同功能的任何序列,由此产生经过滤的候选序列池;
[0981]
e)制造一或多个微生物细胞,所述一或多个微生物细胞用于各自表达源自来自步骤(d)的所述经过滤的候选序列池的序列;
[0982]
f)培养步骤(e)的制造的宿主细胞,并且使经培养的细胞裂解,由此产生模拟酶组文库;
[0983]
g)将来自所述模拟酶组文库的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物;
[0984]
h)分析步骤(g)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[0985]
i)从模拟酶组中选择酶,由此模拟所述目标天然产物,其中所选酶产生所述目标天然产物的期望类似物,如通过步骤(h)的所述分析确定的。
[0986]
72.1一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:
[0987]
a)访问训练数据集,所述训练数据集包括基因序列输入变量和表型性能输出变量;
[0988]
i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列,并且
[0989]
ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征;
[0990]
b)开发用所述训练数据集填充的第一预测机器学习模型;
[0991]
c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如,宏基因组文库),以鉴定所述宏基因组文库内的候选序列池,由此产生候选序列池,其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应;
[0992]
d)制造一或多个微生物细胞,所述一或多个微生物细胞用于各自表达来自步骤(c)的所述候选序列池的序列;
[0993]
e)培养步骤(d)的制造的宿主细胞,并且使经培养的细胞裂解,由此产生模拟酶组文库;
[0994]
f)将来自所述模拟酶组文库的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物;
[0995]
g)分析步骤(f)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[0996]
h)从模拟酶组中选择酶,由此模拟所述目标天然产物,其中所选酶产生所述目标天然产物的期望类似物,如通过步骤(g)的所述分析确定的。
[0997]
73.一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:
[0998]
a)访问训练数据集,所述训练数据集包括基因序列输入变量和表型性能输出变量;
[0999]
i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列,并且
[1000]
ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征;
[1001]
b)开发用所述训练数据集填充的第一预测机器学习模型;
[1002]
c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如,宏基因组文库),以鉴定所述宏基因组文库内的候选序列池,其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应;
[1003]
d)如果所述第一置信度评分与第二置信度评分的比率超出预选阈值,则从所述候选序列池中去除通过第二预测机器学习模型利用所述第二置信度评分被预测为执行不同功能的任何序列,由此产生经过滤的候选序列池;
[1004]
e)扰动基础微生物菌株的一或多个微生物细胞的基因组,由此产生微生物菌株的模拟酶组文库,所述一或多个微生物细胞用于各自表达源自来自步骤(d)的所述经过滤的候选序列池的序列,其中所述基础微生物菌株能够合成所述目标天然产物;
[1005]
f)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株;
[1006]
g)分析来自步骤(f)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[1007]
h)从所述微生物菌株的模拟酶组中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(g)的所述分析确定的。
[1008]
73.1一种用于对目标天然产物进行生物合成模拟的方法,所述方法包括以下步骤:
[1009]
a)访问训练数据集,所述训练数据集包括基因序列输入变量和表型性能输出变量;
[1010]
i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列,并且
[1011]
ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征;
[1012]
b)开发用所述训练数据集填充的第一预测机器学习模型;
[1013]
c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如,宏基因组文库),以鉴定所述宏基因组文库内的候选序列池,由此产生候选序列池,其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应;
[1014]
d)扰动基础微生物菌株的一或多个微生物细胞的基因组,由此产生微生物菌株的模拟酶组文库,所述一或多个微生物细胞用于各自表达源自来自步骤(c)的所述候选序列池的序列,其中所述基础微生物菌株能够合成所述目标天然产物;
[1015]
e)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株;
[1016]
f)分析来自步骤(e)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[1017]
g)从所述微生物菌株的模拟酶组中选择微生物菌株,由此模拟所述目标天然产物,其中所选微生物菌株产生所述目标天然产物的期望类似物,如通过步骤(f)的所述分析确定的。
[1018]
73.2.一种用于鉴定能够模拟天然产物的酶的方法,所述方法包括以下步骤:
[1019]
a)访问训练数据集,所述训练数据集包括基因序列输入变量和表型性能输出变量;
[1020]
i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列,并且
[1021]
ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征;
[1022]
b)开发用所述训练数据集填充的第一预测机器学习模型;
[1023]
c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如,宏基因组文库),以鉴定所述宏基因组文库内的候选序列池,由此产生被预测为能够模拟天然产物的候选序列池,其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应。
[1024]
73.3根据实施例72至73.2中任一实施例所述的方法,其包括鉴定所述序列文库内的在计算上被预测为含有多基因簇的所有序列,并且从步骤(c)的所述候选序列池中去除不位于预测的多基因簇内的序列的步骤。
[1025]
73.4根据实施例73.2或73.3所述的方法,其包括以下步骤:
[1026]
d)制造一或多个微生物细胞,所述一或多个微生物细胞用于各自表达来自所述候选序列池的序列。
[1027]
73.5根据实施例73.4所述的方法,其包括以下步骤:
[1028]
e)培养步骤(d)的制造的宿主细胞,并且使经培养的细胞裂解,由此产生模拟酶组文库。
[1029]
73.6根据实施例73.5所述的方法,其包括以下步骤:
[1030]
f)将来自所述模拟酶组文库的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育,由此产生反应混合物。
[1031]
73.7根据实施例73.6所述的方法,其包括以下步骤:
[1032]
g)分析步骤(f)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在。
[1033]
73.8根据实施例73.7所述的方法,其包括以下步骤:
[1034]
h)从模拟酶组中选择酶,其中所选酶产生所述目标天然产物的期望类似物,如通
过步骤(g)的所述分析确定的。
[1035]
74.根据实施例72和73.8中任一实施例所述的方法,其进一步包括向步骤(a)的所述训练数据集添加以下,由此产生更新后的训练数据集:
[1036]
i)所述序列中的在步骤(e)的所述微生物细胞中表达的至少一个序列;以及
[1037]
ii)与(i)的所述至少一个序列相对应的表型性能测量结果,如在步骤(h)中测量的。
[1038]
75.根据实施例72.1至73中任一实施例所述的方法,其进一步包括向步骤(a)的所述训练数据集添加以下,由此产生更新后的训练数据集:
[1039]
i)所述序列中的在步骤(d/e)的所述微生物菌株的模拟酶组文库中表达的至少一个序列,以及
[1040]
ii)与(i)的所述至少一个序列相对应的表型性能测量结果,如在步骤(g)中测量的。
[1041]
75.1根据实施例73.1所述的方法,其进一步包括向步骤(a)的所述训练数据集添加以下,由此产生更新后的训练数据集:
[1042]
i)所述序列中的在步骤(d)的所述微生物菌株的模拟酶组文库中表达的至少一个序列,以及
[1043]
ii)与(i)的所述至少一个序列相对应的表型性能测量结果,如在步骤(f)中测量的。
[1044]
76.根据实施例74至75.1中任一实施例所述的方法,其中所述表型性能测量结果指示存在的所述目标天然产物的所述类似物的量。
[1045]
77.根据实施例74至75.1中任一实施例所述的方法,其中倒数第二步是用所述更新后的训练数据集重复所有先前的步骤至少一次。
[1046]
78.根据实施例72至77中任一实施例所述的方法,其中所述训练数据集包括以下蛋白质的氨基酸序列:
[1047]
i)所述蛋白质已在经验上被示出为催化用于所述目标天然产物的模拟的所述类型的反应;或者
[1048]
ii)所述蛋白质已通过其它机制以高置信度被预测为催化用于所述目标天然产物的模拟的所述类型的反应。
[1049]
78.1根据实施例72至78中任一实施例所述的方法,其中所述预测机器学习模型是隐马尔可夫模型(hmm)。
[1050]
79.一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:
[1051]
a)提供已知产生所述目标天然产物的第一多基因簇;
[1052]
b)基于所述第一多基因簇开发预测模型;
[1053]
c)通过计算机模拟查询数字宏基因组文库中新多基因簇,由此产生候选多基因簇池,其中所述新多基因簇通过所述预测模型被预测为产生所述目标天然产物或所述目标天然产物的变体;
[1054]
d)通过计算机模拟用注释引擎鉴定步骤(c)的所述候选多基因簇池的所述新多基因簇中的一或多个新多基因簇内的编码生物合成酶的单独基因,由此产生包括来自所述新多基因簇的生物合成基因的模拟酶组文库;
[1055]
e)扰动基础微生物宿主细胞的基因组,所述基础微生物宿主细胞用于表达来自所述模拟酶组文库的基因,其中所述基础微生物宿主细胞包括所述第一多基因簇;
[1056]
f)培养在步骤(e)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞;
[1057]
g)分析来自步骤(f)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物;以及
[1058]
h)从在步骤(f)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(g)的所述分析确定的。
[1059]
80.一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:
[1060]
a)提供已知产生所述目标天然产物的第一多基因簇;
[1061]
b)基于所述第一多基因簇开发预测模型;
[1062]
c)通过计算机模拟查询数字宏基因组文库中新多基因簇,由此产生候选多基因簇池,其中所述新多基因簇通过所述预测模型被预测为产生所述目标天然产物或所述目标天然产物的变体;
[1063]
d)制造一或多个微生物宿主细胞,所述一或多个微生物宿主细胞用于各自表达来自所述候选多基因簇池的至少一个多基因簇;
[1064]
e)培养在步骤(d)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞;
[1065]
f)分析来自步骤(e)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物;以及
[1066]
g)从在步骤(e)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(f)的所述分析确定的。
[1067]
81.根据实施例80所述的方法,其进一步包括以下步骤:
[1068]
h)扰动基础微生物宿主细胞的基因组,由此产生经修饰的基础宿主细胞,所述基础微生物宿主细胞用于表达来自包括在步骤(g)的所述所选微生物宿主细胞内的所述候选多基因簇的基因,其中所述基础微生物宿主细胞包括所述第一多基因簇。
[1069]
82.根据实施例81所述的方法,其中步骤(h)包括用来自所述候选多基因簇的对应基因替代来自所述第一多基因簇的原始基因。
[1070]
83.根据实施例81所述的方法,其中步骤(h)包括从所述第一多基因簇中敲除原始基因。
[1071]
84.一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:
[1072]
a)提供基础微生物宿主细胞,所述基础微生物宿主细胞包括已知产生所述目标天然产物的多基因簇;
[1073]
b)扰动所述基础微生物宿主细胞的基因组以使所述多基因簇内的一或多个基因的表达突变或敲除所述一或多个基因的表达,由此产生经突变的微生物宿主细胞文库;
[1074]
c)培养来自所述经突变的微生物宿主细胞文库的微生物宿主细胞;
[1075]
d)分析来自步骤(c)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在;以及
[1076]
e)从在步骤(c)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生
所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(d)的所述分析确定的。
[1077]
84.1一种用于产生目标天然产物的类似物的方法,所述方法包括以下步骤:
[1078]
a)提供已知或被预测为产生所述目标天然产物或相关天然产物的多个多基因簇;
[1079]
b)通过计算机模拟用注释引擎鉴定步骤(a)的所述多个多基因簇内的编码生物合成酶的单独基因,由此产生包括来自所述多个多基因簇的生物合成基因的模拟酶组文库;
[1080]
c)扰动基础微生物宿主细胞的基因组,由此制造微生物细胞,所述基础微生物宿主细胞用于表达来自所述模拟酶组文库的基因,其中所述基础微生物宿主细胞包括能够产生所述目标天然产物的第一多基因簇;
[1081]
d)培养在步骤(c)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞;
[1082]
e)分析来自步骤(d)的培养物的用过的培养基或裂解物中的所述目标天然产物和/或所述目标天然产物的类似物;以及
[1083]
f)从在步骤(d)中培养的所述微生物宿主细胞中选择微生物宿主细胞,由此产生所述目标天然产物的类似物,其中所选微生物宿主细胞产生所述目标天然产物的类似物,如通过步骤(e)的所述分析确定的。
[1084]
84.2根据实施例62至84.1中任一实施例所述的方法,其中根据实施例32至61中任一实施例所述的方法产生所述数字宏基因组文库。
[1085]
85.一种用于鉴定不编码已知抗性基因的候选多基因簇(mgc)的计算机模拟方法,所述方法包括以下步骤:
[1086]
a)提供已知或预测的mgc的序列;
[1087]
b)在计算上预测长组装体数字宏基因组文库内的天然产物多基因簇特征集并且提供所述预测的输出作为多个信号相关联的多基因簇数字特征集;
[1088]
c)从步骤(b)的所述多个信号相关联的多基因簇数字特征集之中选择候选mgc,所述候选mgc包括至少一个相似性因子,所述至少一个相似性因子选自由以下组成的组:
[1089]
i)所述已知或预测的mgc和所述候选mgc内的1种、2种、3种、4种、5种、6种、7种或8种生物合成酶的序列同源性;
[1090]
ii)所述已知或预测的mgc和所述候选mgc内的每种类型的生物合成模块的相同数量;以及
[1091]
iii)由所述已知/预测的mgc和所述候选mgc产生的天然产物的预测的化学结构的相似性;
[1092]
由此鉴定不编码已知抗性基因的所述候选mgc。
[1093]
86.根据实施例85所述的方法,其中所述已知或预测的mgc包括推定抗性基因。
[1094]
87.根据实施例85至86中任一实施例所述的方法,其中步骤(c)(i)的所述相似性因子包括所述候选mgc中的所述生物合成酶与已知或预测的mgc的所述生物合成酶中的至少一种生物合成酶的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或100%序列同源性。
[1095]
88.根据实施例85至87中任一实施例所述的方法,其中通过序列同一性确定所述生物合成酶的同源性。
[1096]
89.根据实施例88所述的方法,其中如果所述候选mgc中的生物合成酶与所述已知
或预测的mgc内的生物合成酶表现出至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%序列同一性,则所述生物合成酶是同源物。
[1097]
90.根据实施例85至87中任一实施例所述的方法,其中通过hmm工具确定所述生物合成酶的同源性。
[1098]
91.根据实施例90所述的方法,其中如果所述候选mgc中的生物合成酶的候选比特评分与最佳匹配比特评分的比率大于0.6、0.7、0.8或0.9,则所述生物合成酶是同源物。
[1099]
92.根据实施例85至91中任一实施例所述的方法,其中所述生物合成酶是核心生物合成酶。
[1100]
93.根据实施例85至92中任一实施例所述的方法,其中通过谷本系数确定所述候选mgc与所述已知或预测的mgc中的所述预测的化学结构的相似性。
[1101]
94.根据实施例93所述的方法,其中如果候选mgc与已知或预测的mgc表现出至少.7、.8、.9或.95的谷本系数,则所述候选mgc的预测的化学结构与所述已知或预测的mgc的已知或预测的化学结构相似。
[1102]
95.根据实施例85至94中任一实施例所述的方法,其中所述推定抗性基因位于所述预测的mgc内,并且不参与所述天然产物的合成。
[1103]
96.根据实施例85至95中任一实施例所述的方法,其中所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。
[1104]
97.根据实施例85至96中任一实施例所述的方法,其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。
[1105]
98.根据实施例85至95中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括的n50长度为至少约10kb、15kb或20kb,并且所述数字宏基因组文库的大小为至少约500mb。
[1106]
99.根据实施例85至95中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,并且所述数字宏基因组文库的大小为至少约1tb。
[1107]
100.根据实施例85至95中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列,并且所述数字宏基因组文库的大小为约500mb到约1tb。
[1108]
101.根据实施例85至95中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数经组装的序列来自未经培养的微生物。
[1109]
102.根据实施例85至95中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的基本上所有序列都来自未经培养的微生物。
[1110]
103.根据实施例85至95中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述经数字组装的重叠群序列
的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。
[1111]
104.根据实施例85至95中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品,所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。
[1112]
105.根据实施例85至104中任一实施例所述的方法,其包括以下步骤:
[1113]
d)制造宿主细胞或其重构版本,其中制造的宿主细胞包括在步骤(c)中鉴定的所述候选mgc。
[1114]
106.根据实施例105所述的方法,其包括以下步骤:
[1115]
e)培养步骤(d)的所述制造的宿主细胞。
[1116]
107.根据实施例106所述的方法,其包括以下步骤:
[1117]
f)分析来自步骤(e)的培养物的裂解物和/或用过的培养物中天然产物的存在,其中所述天然产物不存在于对照宿主细胞的培养物中,所述对照宿主细胞缺乏所述制造的宿主细胞中存在的所述候选mgc序列。
[1118]
108.一种用于鉴定候选多基因簇(mgc)的计算机模拟方法,所述方法包括以下步骤:
[1119]
a)鉴定已知或预测的mgc的核心生物合成酶;
[1120]
b)查询长组装体数字宏基因组文库中在(a)中鉴定的所述核心生物合成酶中的每种核心生物合成酶的同源物,其中所述数字宏基因组文库包括经数字组装的重叠群;以及
[1121]
c)基于所述数字宏基因组文库的单个重叠群内的所述核心生物合成酶的同源物的存在来鉴定新mgc。
[1122]
109.根据实施例108所述的方法,其中如果在所述数字宏基因组文库中编码的酶与所述已知或预测的mgc的所述核心生物合成酶中的至少一种核心生物合成酶表现出至少10%、20%、30%、40%、50%、60%、70%、80%、90%或100%序列同源性,则所述酶被视为同源物。
[1123]
109.1根据实施例108至109中任一实施例所述的方法,其中通过序列同一性确定所述核心生物合成酶的同源性。
[1124]
109.2根据实施例109.1所述的方法,其中如果所述新mgc中的基因与所述已知或预测的mgc内的生物合成酶表现出至少80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%序列同一性,则所述基因是同源物。
[1125]
110.根据实施例108所述的方法,其中通过hmm工具确定所述生物合成酶的同源性。
[1126]
111.根据实施例110所述的方法,其中如果所述数字宏基因组文库中的酶的核心生物合成比特评分与最佳匹配比特评分的比率大于0.6、0.7、0.8或0.9,则所述酶是同源物。
[1127]
112.根据实施例108至111中任一实施例所述的方法,其中所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。
[1128]
112.1根据实施例108至112中任一实施例所述的方法,其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。
[1129]
113.根据实施例108至111中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括的n50长度为至少约10kb、15kb或20kb,并且所述数字宏基因组文库的大小为至少约500mb。
[1130]
114.根据实施例108至111中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,并且所述数字宏基因组文库的大小为至少约1tb。
[1131]
115.根据实施例108至111中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列,并且所述数字宏基因组文库的大小为约500mb到约1tb。
[1132]
116.根据实施例108至111中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数经组装的序列来自未经培养的微生物。
[1133]
117.根据实施例108至111中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的基本上所有序列都来自未经培养的微生物。
[1134]
118.根据实施例108至111中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。
[1135]
119.根据实施例108至111中任一实施例所述的方法,其中所述多基因簇特征集数字宏基因组文库包括n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列,其中所述文库中的大多数序列来自未经培养的微生物,所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品,所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。
[1136]
120.根据实施例108至119中任一实施例所述的方法,其包括以下步骤:
[1137]
d)制造一或多个宿主细胞,其中每个制造的宿主细胞包括在步骤(c)中鉴定的所述新mgc。
[1138]
121.根据实施例120所述的方法,其包括以下步骤:
[1139]
e)培养步骤(d)的所述制造的宿主细胞。
[1140]
122.根据实施例121所述的方法,其包括以下步骤:
[1141]
f)分析来自步骤(e)的培养物的裂解物和/或用过的培养物中天然产物的存在,其中所述天然产物不存在于对照宿主细胞的培养物中,所述对照宿主细胞缺乏所述制造的宿主细胞中存在的所述新mgc序列。
[1142]
123.根据实施例85至122中任一实施例所述的方法,其中根据实施例32至61中任一实施例所述的方法产生所述数字宏基因组文库。
[1143]
通过引用并入
[1144]
本文引用的所有参考文献、文章、出版物、专利、专利出版物和专利申请均出于所有目的通过引用以其整体并入。然而,本文引用的任何参考文献、文章、出版物、专利、专利出版物和专利申请的提及不是也不应该被视为承认或以任何形式暗示其构成有效的现有技术或形成世界上的任何国家的公知常识的一部分。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献