宏基因组文库和天然产物发现平台的制作方法

2022-11-16 17:17:26 来源：中国专利 TAG：

技术特征：
1.一种用于搜索多基因簇特征集数字宏基因组文库并且鉴定所关注天然产物的计算机模拟方法，所述方法包括：a)查询数字宏基因组文库中指示天然产物多基因簇特征集的信号；b)提供所述查询的输出作为多个信号相关联的多基因簇数字特征集；c)通过以下确定生物相关性并且将所述生物相关性分配到所述信号相关联的多基因簇数字特征集：根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇(mgc)特征集；和/或根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能，以由此鉴定在计算上确定的生物抗性基因；以及d)基于在计算上确定的生物抗性基因位于包括经数字组装的生物合成操纵子的在计算上确定的天然产物多基因簇特征集的阈值参数内来鉴定编码所述所关注天然产物的mgc。2.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库是长组装体数字宏基因组文库，所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。3.根据权利要求1至2中任一权利要求所述的方法，其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。4.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库包括的n50长度为至少约10kb、15kb或20kb，并且所述数字宏基因组文库的大小为至少约500mb。5.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，并且所述数字宏基因组文库的大小为至少约1tb。6.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列，并且所述数字宏基因组文库的大小为约500mb到约1tb。7.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数经组装的序列来自未经培养的微生物。8.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的基本上所有序列都来自未经培养的微生物。9.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。10.根据权利要求1所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：
n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。11.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：利用hmm模型来搜索所述数字宏基因组文库中的所关注基因，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。12.根据权利要求1所述的方法，其中步骤a)中的所述查询包括鉴定所述数字宏基因组文库内的含有所关注基因的同源物的重叠群，其中同源性是基于与所述所关注基因表现出至少95％、90％、85％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％或70％序列同一性的候选序列确定的，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。13.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：利用预测模型来搜索所述数字宏基因组文库中的所关注基因的同源物，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。14.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：利用预测模型来搜索所述数字宏基因组文库中的一或多个所关注基因的同源物，其中所述基因的经编码的蛋白质不具有产生所述所关注天然产物的生物合成功能，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。15.根据权利要求13或14中任一权利要求所述的方法，其中所述预测模型选自由以下组成的组：hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、rnn(递归神经网络)、动态贝叶斯网络、人工神经网络，包含递归神经网络，如基于长短期记忆模型(lstm)的那些递归神经网络，以及其组合。16.根据权利要求13或14所述的方法，其中所述预测模型为hmm。17.根据权利要求16所述的方法，其中所述同源物在所述hmm模型上表现出的比特评分大于30、40、50、60、70、80、90、100、110、120或130。18.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：鉴定所述数字宏基因组文库内的含有所关注基因的同源物的重叠群，其中同源性是基于与所述所关注基因表现出至少95％、90％、85％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％或70％序列同一性的候选序列确定的，其中所述所关注基因的经编码的蛋白质不具有产生所述所关注天然产物的生物合成功能，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。19.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：利用预测模型来搜索所述数字宏基因组文库中的已知抗性基因或变体或其同源物，并且其中步骤c)包括根据信
号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。20.根据权利要求19所述的方法，其中所述预测模型选自由以下组成的组：hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、rnn(递归神经网络)、动态贝叶斯网络、人工神经网络，包含递归神经网络，如基于长短期记忆模型(lstm)的那些递归神经网络，以及其组合。21.根据权利要求19所述的方法，其中所述预测模型为hmm。22.根据权利要求21所述的方法，其中所述同源物在所述hmm模型上表现出的比特评分大于30、40、50、60、70、80、90、100、110、120或130。23.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：鉴定所述数字宏基因组文库内的含有已知抗性基因的同源物或变体或其同源物的重叠群，其中同源性是基于与所述已知抗性基因或变体或其同源物表现出至少95％、90％、85％或80％序列同一性的候选序列确定的，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。24.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：利用预测模型来搜索所述数字宏基因组文库中的在计算上预测或假设的抗性基因或变体或其同源物，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。25.根据权利要求24所述的方法，其中所述预测模型选自由以下组成的组：hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、rnn(递归神经网络)、动态贝叶斯网络、人工神经网络，包含递归神经网络，如基于长短期记忆模型(lstm)的那些递归神经网络，以及其组合。26.根据权利要求24所述的方法，其中所述预测模型为hmm。27.根据权利要求26所述的方法，其中所述同源物在所述hmm模型上表现出的比特评分大于30、40、50、60、70、80、90、100、110、120或130。28.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：鉴定所述数字宏基因组文库内的含有在计算上预测或假设的抗性基因的同源物的重叠群，其中同源性是基于与所述在计算上预测或假设的抗性基因表现出至少95％、90％、85％或80％序列同一性的候选序列确定的，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。29.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：利用预测模型来搜索所述数字宏基因组文库中的单重叠群上含有的所关注基因，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定多个基因的在计算上预测的生物合成功能，以及数字组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。30.根据权利要求29所述的方法，其中所述预测模型选自由以下组成的组：hmm、pssm(位置特异性评分矩阵)、svm(支持向量机)、双向lstm(长短期记忆)、cnn(卷积神经网络)、
rnn(递归神经网络)、动态贝叶斯网络、人工神经网络，包含递归神经网络，如基于长短期记忆模型(lstm)的那些递归神经网络，以及其组合。31.根据权利要求29所述的方法，其中所述预测模型为hmm。32.根据权利要求31所述的方法，其中所述同源物在所述hmm模型上表现出的比特评分大于30、40、50、60、70、80、90、100、110、120或130。33.根据权利要求1所述的方法，其中所述信号相关联的多基因簇数字特征集包括多个重叠群的数据库，所述多个重叠群在计算上被预测为含有多基因簇，所述多基因簇包括一或多个生物合成操纵子。34.根据权利要求1所述的方法，其中步骤a)中的所述查询包括：鉴定在计算上被预测为含有多基因簇的所有序列，所述多基因簇包括一或多个生物合成操纵子(例如，包括mgc)，并且其中步骤c)包括根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能，以由此鉴定在计算上确定的生物抗性基因。35.根据权利要求1所述的方法，其中所述信号相关联的多基因簇数字特征集包括多个含有推定抗性基因的单重叠群的数据库。36.根据权利要求1至35中任一权利要求所述的方法，其中过滤所述信号相关联的多基因簇数字特征集以消除大小小于约15kb的重叠群。37.根据权利要求1至35中任一权利要求所述的方法，其中过滤所述信号相关联的多基因簇数字特征集以消除大小小于约15kb的重叠群并且还消除与所述信号相关联的多基因簇数字特征集内的第一重叠群共享大于约99％、98％、97％、96％、95％、94％、93％、92％、91％或90％序列同一性的重复重叠群结果。38.根据权利要求1至35中任一权利要求所述的方法，其中过滤编码所述所关注天然产物的所述mgc以消除与在步骤(d)中鉴定的第一所鉴定的mgc共享大于约99％、98％、97％、96％、95％、94％、93％、92％、91％或90％序列同一性的重复mgc。39.根据权利要求1至38中任一权利要求所述的方法，其中用遗传算法执行步骤c)中的组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。40.根据权利要求1至38中任一权利要求所述的方法，其中用遗传簇预测算法执行步骤c)中的组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。41.根据权利要求1至38中任一权利要求所述的方法，其中用多基因簇(mgc)预测算法(例如，表1中列出的那些算法)执行步骤c)中的组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。42.根据权利要求1至38中任一权利要求所述的方法，其中用抗生素和次级代谢物分析壳(antismash)算法和流水线或deepbgc算法和流水线执行组装包括一或多个生物合成操纵子的在计算上确定的天然产物多基因簇特征集。43.根据权利要求1至42中任一权利要求所述的方法，其中在利用生物合成基因簇(bgc)预测算法组装包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集之后执行根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能以由此鉴定在计算上确定的生物抗性基因。44.根据权利要求1至42中任一权利要求所述的方法，其中在根据信号相关联的多基因簇数字特征集确定至少一个基因的在计算上预测的生物抗性基因功能以由此鉴定在计算
上确定的生物抗性基因、已利用生物合成基因簇(bgc)预测算法组装的包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集之后，执行利用生物合成基因簇(bgc)预测算法组装包括生物合成操纵子的在计算上确定的天然产物多基因簇特征集。45.根据权利要求1至44中任一权利要求所述的方法，其进一步包括：e)鉴定所述数字宏基因组文库内的不包括所述在计算上确定的生物抗性基因的多个在计算上确定的天然产物多基因簇特征集。46.根据权利要求1至44中任一权利要求所述的方法，其进一步包括：e)鉴定不包括所述在计算上确定的生物抗性基因但与包括所述在计算上确定的生物抗性基因的在计算上确定的天然产物多基因簇特征集具有预定程度的遗传相关性的多个在计算上确定的天然产物多基因簇特征集，以由此产生过渡抗性基因天然产物多基因簇特征集。47.根据权利要求1至44中任一权利要求所述的方法，其进一步包括：e)鉴定不包括所述在计算上确定的生物抗性基因但与包括所述在计算上确定的生物抗性基因的所鉴定的在计算上确定的天然产物多基因簇特征集具有预测程度的遗传相关性的多个在计算上确定的天然产物多基因簇特征集，以由此产生过渡抗性基因天然产物多基因簇特征集；以及f)从所述过渡抗性基因天然产物多基因簇特征集中鉴定所关注天然产物。48.根据权利要求1至47中任一权利要求所述的方法，其中所述在计算上确定的生物抗性基因受所述多基因簇特征集内的生物合成操纵子的调节控制。49.根据权利要求1至48中任一权利要求所述的方法，其包括以下步骤：e)制造宿主细胞或其重构版本，其中所述宿主细胞包括在步骤(d)中鉴定的编码所述所关注天然产物的所述mgc。50.根据权利要求49所述的方法，其包括以下步骤：f)培养步骤(e)的制造的宿主细胞。51.根据权利要求50所述的方法，其包括以下步骤：g)分析来自步骤(f)的培养物的用过的培养物中天然产物的存在，其中所述天然产物不存在于对照宿主细胞的培养物中，所述对照宿主细胞缺乏所述制造的宿主细胞中存在的mgc序列。52.根据权利要求1至51中任一权利要求所述的方法，其中根据权利要求110至144中任一权利要求所述的方法产生所述数字宏基因组文库。53.根据权利要求45至46中任一权利要求所述的方法，其包括以下步骤：f)制造宿主细胞或其重构版本，其中所述宿主细胞包括在步骤(e)中鉴定的所述在计算上确定的天然产物多基因簇特征集中的至少一个特征集。54.根据权利要求53所述的方法，其包括以下步骤：g)培养步骤(f)的制造的宿主细胞。55.根据权利要求54所述的方法，其包括以下步骤：h)分析来自步骤(g)的培养物的用过的培养物中天然产物的存在，其中所述天然产物不存在于对照宿主细胞的培养物中，所述对照宿主细胞缺乏所述制造的宿主细胞中存在的mgc序列。
56.一种用于鉴定具有未知推定抗性基因或无抗性基因的候选多基因簇(mgc)特征集的计算机模拟方法，所述方法包括以下步骤：a)在计算上预测数字宏基因组文库内的天然产物多基因簇特征集；b)注释预测的天然产物多基因簇特征集内的基因，每个多基因簇特征集包括左边界和右边界，其中所述注释步骤任选地包括注释位于所述多基因簇特征集的所述边界的1-2个开放阅读框(orf)内的基因；c)从所述预测的天然产物多基因簇特征集中过滤加注释的基因以仅保留以下基因，由此产生多个经过滤的所关注基因：i)所述基因不具有预测的生物合成功能，并且ii)所述基因任选地不是已知靶抗性基因的同源物；以及d)选择包括所述多个经过滤的所关注基因中的至少一个所关注基因的天然产物多基因簇特征集，由此鉴定具有推定抗性基因或无抗性基因的候选mgc序列。57.一种用于鉴定具有预测的抗性基因的候选多基因簇特征集的计算机模拟方法，所述方法包括以下步骤：a)在计算上预测数字宏基因组文库内的天然产物多基因簇特征集；b)向所述多基因簇特征集内的基因分配生物合成潜在评分；所述生物合成潜在评分是基于计算的基因是生物合成酶的可能性的；c)向所述多基因簇特征集内的基因分配已知抗性基因评分，所述已知抗性评分是基于基因与已知抗性基因的共享序列同一性的；d)选择包括预测的抗性基因的候选多基因簇特征集，所述预测的抗性基因表现出预设的组合评分阈值，所述组合评分是基于所述生物合成潜在评分和所述已知抗性基因评分的组合的。58.根据权利要求57所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配生物合成操纵子评分，所述生物合成操纵子评分是基于基因与其多基因簇特征集内的生物合成操纵子的邻近度的；并且其中所述组合评分还是基于所述生物合成操纵子评分的。59.根据权利要求57和58中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配核心生物合成基因距离评分，所述核心生物合成基因距离评分是基于基因与其多基因簇特征集内的核心生物合成基因的邻近度的；并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。60.根据权利要求57至58中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配必需基因评分，所述必需基因评分是基于基因与已知必需基因序列的列表的最高序列同一性的；并且其中所述组合评分还是基于所述必需基因评分的。61.根据权利要求57至60中任一权利要求所述的方法，其中所选候选多基因簇特征集内的所述预测的抗性基因与生物合成酶共享小于90％、89％、88％、87％、86％、85％、84％、83％、82％、81％或80％序列同一性。62.根据权利要求57至61中任一权利要求所述的方法，其中生物合成酶是由含有所述预测的抗性基因的多基因簇特征集编码的所述天然产物的生物合成酶。63.根据权利要求57至61中任一权利要求所述的方法，其中生物合成酶是与由多基因簇特征集(例如，mibig)编码的天然产物相关联的生物合成酶的同源物。
64.根据权利要求57至63中任一权利要求所述的方法，其中所述所选候选多基因簇特征集内的所述预测的抗性基因在mibig中返回少于8个、6个、4个或2个blast命中，如通过antimash评估的。65.根据权利要求57至64中任一权利要求所述的方法，其中所述所选候选多基因簇特征集内的所述预测的抗性基因具有组合评分，其中所述计算的基因是生物合成酶的可能性低，并且其中当分别与已知生物合成酶或已知抗性基因相比时，与已知抗性基因的共享序列同一性低。66.根据权利要求57至65中任一权利要求所述的方法，其中所述所选候选多基因簇特征集内的所述预测的抗性基因位于所述所选候选多基因簇特征集内的生物合成操纵子内或与所述生物合成操纵子紧邻(即其间没有其它orf)。67.根据权利要求57至66中任一权利要求所述的方法，其中所述所选候选多基因簇特征集内的所述预测的抗性基因位于所述所选候选多基因簇特征集中含有的生物合成操纵子的内部或生物合成操纵子的500bp内。68.根据权利要求57至67中任一权利要求所述的方法，其中所述所选候选多基因簇特征集内的所述预测的抗性基因位于核心生物合成酶的1kb、2kb、3kb、4kb或5kb内。69.根据权利要求57至68中任一权利要求所述的方法，其中所述所选候选多基因簇特征集内的所述预测的抗性基因与必需基因共享至少99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％或70％序列同一性。70.根据权利要求57至69中任一权利要求所述的方法，其中所述方法包括向所述多基因簇特征集内的基因分配转运基因潜在评分，所述转运基因潜在评分是基于基因是转运相关基因的可能性(例如，通过序列同一性)的，并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。71.根据权利要求57至70中任一权利要求所述的方法，其中所述方法包括向所述多基因簇特征集内的基因分配调节基因潜在评分，所述调节基因潜在评分是基于基因是调节基因的可能性(例如，通过序列同一性)的，并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。72.根据权利要求57至71中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配抗性机制评分，所述抗性机制评分是基于基因与具有不同于期望抗性机制的抗性机制的抗性基因的相似性分配的，并且其中所述组合评分还是基于所述抗性机制评分的。73.根据权利要求57至72中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配抗性机制评分，所述抗性机制评分是基于基因与具有所述期望抗性机制的抗性基因的相似性分配的，并且其中所述组合评分还是基于所述抗性机制评分的。74.根据权利要求57至73所述的方法，其中所述期望抗性机制是基于靶标变体的抗性。75.一种用于鉴定由多基因簇编码的天然产物的抗性基因的计算机模拟方法，所述方法包括以下步骤：a)在计算上预测数字宏基因组文库内的天然产物多基因簇；b)向所述多基因簇特征集内的基因分配生物合成潜在评分；所述生物合成潜在评分是
基于计算的基因是生物合成酶的可能性的；c)向所述多基因簇特征集内的基因分配已知抗性基因评分，所述已知抗性评分是基于基因与已知抗性基因的共享序列同一性的；d)选择表现出预设的组合评分阈值的预测的抗性基因，所述组合评分是基于所述生物合成潜在评分和所述已知抗性基因评分的组合的。76.根据权利要求75所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配生物合成操纵子评分，所述生物合成操纵子评分是基于基因与其多基因簇特征集内的生物合成操纵子的邻近度的；并且其中所述组合评分还是基于所述生物合成操纵子评分的。77.根据权利要求75和76中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配核心生物合成基因距离评分，所述核心生物合成基因距离评分是基于基因与其多基因簇特征集内的核心生物合成基因的邻近度的；并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。78.根据权利要求75至77中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配必需基因评分，所述必需基因评分是基于基因与已知必需基因序列的列表的最高序列同一性的；并且其中所述组合评分还是基于所述必需基因评分的。79.根据权利要求75至78中任一权利要求所述的方法，其中所述预测的抗性基因与已知抗性基因共享小于99％、98％、97％、96％、95％、94％、93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％或80％序列同一性。80.根据权利要求75至79中任一权利要求所述的方法，其中所述预测的抗性基因与生物合成酶共享小于90％、89％、88％、87％、86％、85％、84％、83％、82％、81％或80％序列同一性。81.根据权利要求75至80中任一权利要求所述的方法，其中生物合成酶是由含有所述预测的抗性基因的多基因簇特征集编码的所述天然产物的生物合成酶。82.根据权利要求75至81中任一权利要求所述的方法，其中生物合成酶是与由多基因簇特征集(例如，mibig)编码的天然产物相关联的生物合成酶。83.根据权利要求75至82中任一权利要求所述的方法，其中所述预测的抗性基因在mibig中返回少于8个、6个、4个或2个blast命中，如通过antimash评估的。84.根据权利要求75至83中任一权利要求所述的方法，其中所述预测的抗性基因具有组合评分，其中所述计算的基因是生物合成酶的可能性低，并且其中与已知抗性基因的共享序列同一性低。85.根据权利要求75至84中任一权利要求所述的方法，其中所述预测的抗性基因位于所选候选多基因簇特征集内的生物合成操纵子内或与所述生物合成操纵子紧邻(即其间没有其它orf)。86.根据权利要求75至85中任一权利要求所述的方法，其中所述预测的抗性基因位于生物合成操纵子的内部或生物合成操纵子的500bp内。87.根据权利要求75至86中任一权利要求所述的方法，其中所述预测的抗性基因位于核心生物合成酶的1kb、2kb、3kb、4kb或5kb内。88.根据权利要求75至87中任一权利要求所述的方法，其中所述所选候选多基因簇特征集内的所述预测的抗性基因与必需基因共享至少99％、98％、97％、96％、95％、94％、
93％、92％、91％、90％、89％、88％、87％、86％、85％、84％、83％、82％、81％、80％、79％、78％、77％、76％、75％、74％、73％、72％、71％或70％序列同一性。89.根据权利要求75至88中任一权利要求所述的方法，其中所述方法包括向所述多基因簇特征集内的基因分配转运基因潜在评分，所述转运基因潜在评分是基于基因是转运相关基因的可能性(例如，通过序列同一性)的，并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。90.根据权利要求75至89中任一权利要求所述的方法，其中所述方法包括向所述多基因簇特征集内的基因分配调节基因潜在评分，所述调节基因潜在评分是基于基因是调节基因的可能性(例如，通过序列同一性)的，并且其中所述组合评分还是基于所述核心生物合成基因距离评分的。91.根据权利要求75至90中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配抗性机制评分，所述抗性机制评分是基于基因与具有不同于期望抗性机制的抗性机制的抗性基因的相似性分配的，并且其中所述组合评分还是基于所述抗性机制评分的。92.根据权利要求75至90中任一权利要求所述的方法，其包括以下步骤：向所述多基因簇特征集内的基因分配抗性机制评分，所述抗性机制评分是基于基因与具有所述期望抗性机制的抗性基因的相似性分配的，并且其中所述组合评分还是基于所述抗性机制评分的。93.根据权利要求91或92所述的方法，其中所述期望抗性机制是基于靶标变体的抗性。94.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库是长组装体数字宏基因组文库，所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。95.根据权利要求56至94中任一权利要求所述的方法，其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。96.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，并且所述数字宏基因组文库的大小为至少约500mb。97.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，并且所述数字宏基因组文库的大小为至少约1tb。98.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列，并且所述数字宏基因组文库的大小为约500mb到约1tb。99.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列、所述经组装的重叠群序列；其中所述文库中的大多数序列来自未经培养的微生物。100.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的基本上所有序列都来自未经培养的微生物。
101.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。102.根据权利要求56至93中任一权利要求所述的方法，其中所述数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。103.根据权利要求56至102中任一权利要求所述的方法，其中步骤(c)进一步过滤加注释的基因，以仅保留以下基因：iii)所述基因与所述多基因簇特征集内的具有预测的生物合成功能的另一个基因共调节。104.根据权利要求56至103中任一权利要求所述的方法，其包括以下步骤：e)制造宿主细胞或其重构版本，其中所述宿主细胞包括步骤(d)的所述候选mgc序列。105.根据权利要求56至103中任一权利要求所述的方法，其包括以下步骤：e)制造宿主细胞或其重构版本，其中所述宿主细胞包括步骤(d)的所述所选候选多基因簇特征集。106.根据权利要求56至103中任一权利要求所述的方法，其包括以下步骤：e)制造宿主细胞或其重构版本，其中所述宿主细胞包括所述多基因簇特征集，所述多基因簇特征集包括步骤(d)的所述所选预测的抗性基因。107.根据权利要求104至106所述的方法，其包括以下步骤：f)培养步骤(e)的制造的宿主细胞。108.根据权利要求107所述的方法，其包括以下步骤：g)分析来自步骤(f)的培养物的用过的培养物中天然产物的存在，其中所述天然产物不存在于对照宿主细胞的培养物中，所述对照宿主细胞缺乏所述制造的宿主细胞中存在的所述候选mgc序列。109.根据权利要求56至108中任一权利要求所述的方法，其中根据权利要求110至144中任一权利要求所述的方法产生所述数字宏基因组文库。110.一种用于组装长组装体dna重叠群宏基因组文库的方法，所述方法包括：a)提供包括独有的全基因组的未经测序且未经组装的宏基因组dna样品；b)通过以下降低所述宏基因组dna样品的基因组复杂度：i)将来自所述宏基因组dna样品的dna片段克隆到多个载体中，以产生宏基因组载体片段文库；ii)将来自所述宏基因组载体片段文库的所述载体汇集到多个离散微型宏基因组亚基中，以产生微型宏基因组文库，所述多个离散微型宏基因组亚基各自包括约1,000个到约30,000个所汇集的载体，所述微型宏基因组文库在所述多个微型宏基因组亚基内包括来自所述未经测序且未经组装的宏基因组dna样品的dna；c)对存在于所述微型宏基因组文库的所述多个离散微型宏基因组亚基中的所述所汇集的载体中含有的所述宏基因组dna进行池内测序和组装，以产生首过长组装体dna重叠群
宏基因组文库，所述首过长组装体dna重叠群宏基因组文库包括经测序且经组装的dna重叠群；其中所述首过长组装体dna重叠群宏基因组文库的n50长度为至少约10kb。111.根据权利要求110所述的方法，其包括以下步骤：d)通过进一步组装来自所述首过长组装体dna重叠群宏基因组文库的多个经测序且经组装的dna重叠群来进行池间dna重叠群组装以产生二过长组装体dna重叠群宏基因组文库。112.根据权利要求110或111所述的方法，其中所述未经测序且未经组装的宏基因组dna样品包括至少约50个、100个、500个、1000个或10000个独有的全基因组。113.根据权利要求110至112中任一权利要求所述的方法，其中所述未经测序且未经组装的宏基因组dna样品中的所述独有的全基因组的平均大小为至少约1mb、2mb、3mb、4mb或5mb或介于1-5mb之间。114.根据权利要求110至113中任一权利要求所述的方法，其中所述长组装体dna重叠群宏基因组文库包括长度为至少约10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb或100kb的多个经测序且经组装的dna重叠群。115.根据权利要求110至114中任一权利要求所述的方法，其中所述长组装体dna重叠群宏基因组文库的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb或100kb。116.根据权利要求110至115中任一权利要求所述的方法，其包括：排列来自所述微型宏基因组亚基的dna。117.根据权利要求110至115中任一权利要求所述的方法，其包括：排列长组装体dna重叠群长度宏基因组文库的物理拷贝。118.根据权利要求110至115中任一权利要求所述的方法，其包括：以细菌细胞或dna形式排列中间dna重叠群长度微型宏基因组文库或长dna重叠群长度宏基因组文库的物理拷贝。119.根据权利要求110至115中任一权利要求所述的方法，其包括：将所述多个离散微型宏基因组亚基排列到真实坐标空间中并且向每个亚基分配标识符。120.根据权利要求110至115中任一权利要求所述的方法，其包括：将所述多个离散微型宏基因组亚基排列到多孔微量滴定板中。121.根据权利要求110至115中任一权利要求所述的方法，其包括：将所述多个离散微型宏基因组亚基排列到96孔微量滴定板中。122.根据权利要求110至121中任一权利要求所述的方法，其中所述载体包括质粒。123.根据权利要求110至121中任一权利要求所述的方法，其中所述载体包括粘粒、f粘粒、bac、yac或其组合。124.根据权利要求110至121中任一权利要求所述的方法，其中所述载体包括粘粒。125.根据权利要求110至124中任一权利要求所述的方法，其中步骤(b)中的所述宏基因组载体片段文库包括至少约1m个或10m个载体。126.根据权利要求110至124中任一权利要求所述的方法，其中所述载体包括粘粒，并且步骤(b)中的所述宏基因组载体片段文库包括至少约10m个粘粒。127.根据权利要求110至124中任一权利要求所述的方法，其中所述载体包括粘粒，并
且步骤(b)中的所述宏基因组载体片段文库包括至少约20m个粘粒。128.根据权利要求110至127中任一权利要求所述的方法，其包括在步骤(b)中：将来自所述宏基因组文库的小于约200kb的dna片段克隆到多个载体中。129.根据权利要求110至127中任一权利要求所述的方法，其包括在步骤(b)中：将来自所述宏基因组dna样品的小于约100kb的dna片段克隆到多个载体中。130.根据权利要求110至127中任一权利要求所述的方法，其包括在步骤(b)中：将来自所述宏基因组dna样品的小于约50kb的dna片段克隆到多个载体中。131.根据权利要求110至127中任一权利要求所述的方法，其包括在步骤(b)中：将来自所述宏基因组dna样品的约20kb到约50kb的dna片段克隆到多个载体中。132.根据权利要求110至127中任一权利要求所述的方法，其包括在步骤(b)中：将来自所述宏基因组dna样品的约30kb到约45kb的dna片段克隆到多个粘粒中。133.根据权利要求110至132中任一权利要求所述的方法，其中步骤(b)中的所述离散微型宏基因组亚基各自包括约3,000个到约15,000个所汇集的载体。134.根据权利要求110至132中任一权利要求所述的方法，其中步骤(b)中的所述离散微型宏基因组亚基各自包括约5,000个到约12,000个所汇集的粘粒载体。135.根据权利要求110至134中任一权利要求所述的方法，其中所述二过长组装体dna重叠群宏基因组文库的n50长度为至少约10kb、15kb、20kb、25kb或30kb。136.根据权利要求110至135中任一权利要求所述的方法，其中步骤(c)包括：同时组装来自所述多个离散微型宏基因组亚基的单个离散微型宏基因组亚基中存在的所述所汇集的载体中含有的所有dna重叠群。137.根据权利要求110至136中任一权利要求所述的方法，其中在步骤(c)中，利用单分子测序进行池内测序。138.根据权利要求110至136中任一权利要求所述的方法，其中在步骤(c)中，利用边合成边测序(sbs)进行池内测序。139.根据权利要求110至136中任一权利要求所述的方法，其中在步骤(c)中，利用单分子实时(smrt)测序进行池内测序。140.根据权利要求110至136中任一权利要求所述的方法，其中在步骤(c)中，利用纳米孔测序进行池内测序。141.根据权利要求110至136中任一权利要求所述的方法，其中在步骤(c)中，利用合成长读段测序进行池内测序。142.根据权利要求141所述的方法，其中所述合成长读段是基于邻位连接策略和/或光学图谱进行的。143.根据权利要求110至136中任一权利要求所述的方法，其中在步骤(c)中，池内测序是hi-c测序。144.根据权利要求110至143中任一权利要求所述的方法，其中步骤b)中的所述离散微型宏基因组亚基各自包括约5,000个到约12,000个所汇集的粘粒载体，并且其中步骤(c)包括：同时组装来自所述多个离散微型宏基因组亚基的单个离散微型宏基因组亚基中存在的所有经测序的dna。145.一种用于对目标天然产物进行生物合成模拟的方法，所述方法包括以下步骤：
a)提供已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的多种酶，由此产生模拟酶组文库；b)将来自模拟酶组的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育，由此产生反应混合物；c)分析步骤(b)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及d)从所述模拟酶组中选择酶，由此模拟所述目标天然产物，其中所选酶产生所述目标天然产物的期望类似物，如通过步骤(c)的所述分析确定的。146.根据权利要求145所述的方法，其中以来自异源表达所述酶的微生物菌株的裂解物的形式提供步骤(a)的所述酶。147.一种用于对目标天然产物进行生物合成模拟的方法，所述方法包括以下步骤：a)提供多个微生物菌株，由此产生微生物菌株的模拟酶组文库，所述多个微生物菌株各自表达已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶；b)使来自所述微生物菌株的模拟酶组文库的单独微生物菌株与所述目标天然产物或所述目标天然产物的前体接触，由此产生混合物；c)分析步骤(b)的所述混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及d)从所述微生物菌株的模拟酶组文库中选择微生物菌株，由此模拟所述目标天然产物，其中所选微生物菌株产生所述目标天然产物的期望类似物，如通过步骤(c)的所述分析确定的；其中所述所选微生物菌株所表达的所述酶是所选酶。148.根据权利要求145至147中任一权利要求所述的方法，其进一步包括以下步骤：扰动第一基础微生物菌株的基因组，所述第一基础微生物菌株用于表达所述所选酶，其中所述第一基础微生物菌株能够合成所述目标天然产物。149.一种用于对目标天然产物进行生物合成模拟的方法，所述方法包括以下步骤：a)提供多个基因序列，所述多个基因序列各自编码已知或被预测为催化用于所述目标天然产物的第一模拟的一种类型的反应的酶；b)扰动第一基础微生物菌株的一或多个细胞的基因组，由此产生微生物菌株的模拟酶组文库，所述一或多个细胞用于各自表达由步骤(a)的所述多个基因序列中的一或多个基因序列编码的酶，其中所述第一基础微生物菌株能够合成所述目标天然产物；c)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株；d)分析来自步骤(c)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及e)从所述微生物菌株的模拟酶组中选择微生物菌株，由此模拟所述目标天然产物，其中所选微生物菌株产生所述目标天然产物的期望类似物，如通过步骤(d)的所述分析确定的。150.根据权利要求149所述的方法，其进一步包括以下步骤：f)提供第二多个基因序列，所述第二多个基因序列各自编码已知或被预测为催化用于步骤(e)的所述目标天然产物或所述期望类似物的第二模拟的一种类型的反应的酶；g)扰动第二基础微生物菌株的一或多个细胞的基因组，由此产生第二微生物菌株的模
拟酶组文库，所述一或多个细胞用于各自表达由步骤(f)的所述第二多个基因序列中的一或多个基因序列编码的酶，其中所述第二基础微生物菌株能够合成步骤(e)的所述期望类似物；h)培养来自所述第二微生物菌株的模拟酶组文库的单独微生物菌株；i)分析来自步骤(h)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物；以及j)从所述第二微生物菌株的模拟酶组中选择微生物菌株，由此模拟所述目标天然产物，其中此步骤的所选微生物菌株产生所述目标天然产物的第二期望类似物，如通过步骤(i)的所述分析确定的。151.根据权利要求149或150所述的方法，其中通过生物合成通路在所述第一基础微生物菌株或所述第二基础微生物菌株中产生所述目标天然产物，所述生物合成通路包括多个生物合成基因，并且其中步骤(b)和/或(g)分别包括用步骤(a)或(f)的所述第一多个基因序列或所述第二多个基因序列中的一或多个基因序列替代所述生物合成基因中的一或多个生物合成基因。152.根据权利要求145至151中任一权利要求所述的方法，其中所述酶中的至少一种酶来自序列文库(例如，宏基因组文库)，并且通过用训练数据集填充的机器学习模型被预测为催化所述一种类型的反应，所述训练数据集包括基因序列输入变量和表型性能输出变量；i)其中所述基因序列输入变量包括催化用于所述目标天然产物的模拟的所述类型的反应的酶的一或多个氨基酸序列；并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征。153.根据权利要求152所述的方法，其中所述训练数据集包括以下蛋白质的氨基酸序列：i)所述蛋白质已在经验上被示出为催化用于所述目标天然产物的模拟的所述类型的反应；或者ii)所述蛋白质已通过其它机制以高置信度被预测为催化用于所述目标天然产物的模拟的所述类型的反应。154.根据权利要求145至153中任一权利要求所述的方法，其中所述酶是混杂酶。155.根据权利要求145至153中任一权利要求所述的方法，其中所述所选酶能够修饰多于一种底物。156.一种用于对目标天然产物进行生物合成模拟的方法，所述方法包括以下步骤：a)访问训练数据集，所述训练数据集包括基因序列输入变量和表型性能输出变量；i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列，并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征；b)开发用所述训练数据集填充的第一预测机器学习模型；c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体
的氨基酸序列的序列文库(例如，宏基因组文库)，以鉴定所述宏基因组文库内的候选序列池，其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应；d)如果所述第一置信度评分与第二置信度评分的比率超出预选阈值，则从所述候选序列池中去除通过第二预测机器学习模型利用所述第二置信度评分被预测为执行不同功能的任何序列，由此产生经过滤的候选序列池；e)制造一或多个微生物细胞，所述一或多个微生物细胞用于各自表达源自来自步骤(d)的所述经过滤的候选序列池的序列；f)培养步骤(e)的制造的宿主细胞，并且使经培养的细胞裂解，由此产生模拟酶组文库；g)将来自所述模拟酶组文库的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育，由此产生反应混合物；h)分析步骤(g)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及i)从模拟酶组中选择酶，由此模拟所述目标天然产物，其中所选酶产生所述目标天然产物的期望类似物，如通过步骤(h)的所述分析确定的。157.一种用于对目标天然产物进行生物合成模拟的方法，所述方法包括以下步骤：a)访问训练数据集，所述训练数据集包括基因序列输入变量和表型性能输出变量；i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列，并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征；b)开发用所述训练数据集填充的第一预测机器学习模型；c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如，宏基因组文库)，以鉴定所述宏基因组文库内的候选序列池，由此产生候选序列池，其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应；d)制造一或多个微生物细胞，所述一或多个微生物细胞用于各自表达来自步骤(c)的所述候选序列池的序列；e)培养步骤(d)的制造的宿主细胞，并且使经培养的细胞裂解，由此产生模拟酶组文库；f)将来自所述模拟酶组文库的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育，由此产生反应混合物；g)分析步骤(f)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及h)从模拟酶组中选择酶，由此模拟所述目标天然产物，其中所选酶产生所述目标天然产物的期望类似物，如通过步骤(g)的所述分析确定的。158.一种用于对目标天然产物进行生物合成模拟的方法，所述方法包括以下步骤：a)访问训练数据集，所述训练数据集包括基因序列输入变量和表型性能输出变量；
i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列，并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征；b)开发用所述训练数据集填充的第一预测机器学习模型；c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如，宏基因组文库)，以鉴定所述宏基因组文库内的候选序列池，其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应；d)如果所述第一置信度评分与第二置信度评分的比率超出预选阈值，则从所述候选序列池中去除通过第二预测机器学习模型利用所述第二置信度评分被预测为执行不同功能的任何序列，由此产生经过滤的候选序列池；e)扰动基础微生物菌株的一或多个微生物细胞的基因组，由此产生微生物菌株的模拟酶组文库，所述一或多个微生物细胞用于各自表达源自来自步骤(d)的所述经过滤的候选序列池的序列，其中所述基础微生物菌株能够合成所述目标天然产物；f)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株；g)分析来自步骤(f)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及h)从所述微生物菌株的模拟酶组中选择微生物菌株，由此模拟所述目标天然产物，其中所选微生物菌株产生所述目标天然产物的期望类似物，如通过步骤(g)的所述分析确定的。159.一种用于对目标天然产物进行生物合成模拟的方法，所述方法包括以下步骤：a)访问训练数据集，所述训练数据集包括基因序列输入变量和表型性能输出变量；i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列，并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征；b)开发用所述训练数据集填充的第一预测机器学习模型；c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如，宏基因组文库)，以鉴定所述宏基因组文库内的候选序列池，由此产生候选序列池，其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应；d)扰动基础微生物菌株的一或多个微生物细胞的基因组，由此产生微生物菌株的模拟酶组文库，所述一或多个微生物细胞用于各自表达源自来自步骤(c)的所述候选序列池的序列，其中所述基础微生物菌株能够合成所述目标天然产物；e)培养来自所述微生物菌株的模拟酶组文库的单独微生物菌株；f)分析来自步骤(e)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及g)从所述微生物菌株的模拟酶组中选择微生物菌株，由此模拟所述目标天然产物，其
中所选微生物菌株产生所述目标天然产物的期望类似物，如通过步骤(f)的所述分析确定的。160.一种用于鉴定能够模拟天然产物的酶的方法，所述方法包括以下步骤：a)访问训练数据集，所述训练数据集包括基因序列输入变量和表型性能输出变量；i)其中所述基因序列输入变量包括已知或被预测为催化用于所述目标天然产物的模拟的一种类型的反应的酶的一或多个氨基酸序列，并且ii)其中所述表型性能输出变量包括与所述一或多个氨基酸序列相关联的一或多个表型性能特征；b)开发用所述训练数据集填充的第一预测机器学习模型；c)使用计算机处理器将所述第一预测机器学习模型应用于含有来自一或多个生物体的氨基酸序列的序列文库(例如，宏基因组文库)，以鉴定所述宏基因组文库内的候选序列池，由此产生被预测为能够模拟天然产物的候选序列池，其中所述候选序列通过所述第一预测机器学习模型利用相应第一置信度评分被预测为催化用于所述目标天然产物的模拟的所述类型的反应。161.根据权利要求156至160中任一权利要求所述的方法，其包括鉴定所述序列文库内的在计算上被预测为含有多基因簇的所有序列，并且从步骤(c)的所述候选序列池中去除不位于预测的多基因簇内的序列的步骤。162.根据权利要求160或161所述的方法，其包括以下步骤：d)制造一或多个微生物细胞，所述一或多个微生物细胞用于各自表达来自所述候选序列池的序列。163.根据权利要求162所述的方法，其包括以下步骤：e)培养步骤(d)的制造的宿主细胞，并且使经培养的细胞裂解，由此产生模拟酶组文库。164.根据权利要求163所述的方法，其包括以下步骤：f)将来自所述模拟酶组文库的单独酶与所述目标天然产物或所述目标天然产物的前体一起温育，由此产生反应混合物。165.根据权利要求164所述的方法，其包括以下步骤：g)分析步骤(f)的所述反应混合物中的至少一种反应混合物中所述目标天然产物和/或所述目标天然产物的类似物的存在。166.根据权利要求165所述的方法，其包括以下步骤：h)从模拟酶组中选择酶，其中所选酶产生所述目标天然产物的期望类似物，如通过步骤(g)的所述分析确定的。167.根据权利要求156和166中任一权利要求所述的方法，其进一步包括向步骤(a)的所述训练数据集添加以下，由此产生更新后的训练数据集：i)所述序列中的在步骤(e)的所述微生物细胞中表达的至少一个序列；以及ii)与(i)的所述至少一个序列相对应的表型性能测量结果，如在步骤(h)中测量的。168.根据权利要求157至158中任一权利要求所述的方法，其进一步包括向步骤(a)的所述训练数据集添加以下，由此产生更新后的训练数据集：i)所述序列中的在步骤(d/)的所述微生物菌株的模拟酶组文库中表达的至少一个序
列；以及ii)与(i)的所述至少一个序列相对应的表型性能测量结果，如在步骤(g)中测量的。169.根据权利要求167或168所述的方法，其中所述表型性能测量结果指示存在的所述目标天然产物的所述类似物的量。170.根据权利要求167或168所述的方法，其中倒数第二步是用所述更新后的训练数据集重复所有先前的步骤至少一次。171.根据权利要求156至170中任一权利要求所述的方法，其中所述训练数据集包括以下蛋白质的氨基酸序列：i)所述蛋白质已在经验上被示出为催化用于所述目标天然产物的模拟的所述类型的反应；或者ii)所述蛋白质已通过其它机制以高置信度被预测为催化用于所述目标天然产物的模拟的所述类型的反应。172.根据权利要求156至171中任一权利要求所述的方法，其中所述预测机器学习模型是隐马尔可夫模型(hmm)。173.一种用于产生目标天然产物的类似物的方法，所述方法包括以下步骤：a)提供已知产生所述目标天然产物的第一多基因簇；b)基于所述第一多基因簇开发预测模型；c)通过计算机模拟查询数字宏基因组文库中新多基因簇，由此产生候选多基因簇池，其中所述新多基因簇通过所述预测模型被预测为产生所述目标天然产物或所述目标天然产物的变体；d)通过计算机模拟用注释引擎鉴定步骤(c)的所述候选多基因簇池的所述新多基因簇中的一或多个新多基因簇内的编码生物合成酶的单独基因，由此产生包括来自所述新多基因簇的生物合成基因的模拟酶组文库；e)扰动基础微生物宿主细胞的基因组，所述基础微生物宿主细胞用于表达来自所述模拟酶组文库的基因，其中所述基础微生物宿主细胞包括所述第一多基因簇；f)培养在步骤(e)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞；g)分析来自步骤(f)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物；以及h)从在步骤(f)中培养的所述微生物宿主细胞中选择微生物宿主细胞，由此产生所述目标天然产物的类似物，其中所选微生物宿主细胞产生所述目标天然产物的类似物，如通过步骤(g)的所述分析确定的。174.一种用于产生目标天然产物的类似物的方法，所述方法包括以下步骤：a)提供已知产生所述目标天然产物的第一多基因簇；b)基于所述第一多基因簇开发预测模型；c)通过计算机模拟查询数字宏基因组文库中新多基因簇，由此产生候选多基因簇池，其中所述新多基因簇通过所述预测模型被预测为产生所述目标天然产物或所述目标天然产物的变体；d)制造一或多个微生物宿主细胞，所述一或多个微生物宿主细胞用于各自表达来自所述候选多基因簇池的至少一个多基因簇；
e)培养在步骤(d)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞；f)分析来自步骤(e)的培养物的用过的培养基中的所述目标天然产物和/或所述目标天然产物的类似物；以及g)从在步骤(e)中培养的所述微生物宿主细胞中选择微生物宿主细胞，由此产生所述目标天然产物的类似物，其中所选微生物宿主细胞产生所述目标天然产物的类似物，如通过步骤(f)的所述分析确定的。175.根据权利要求174所述的方法，其进一步包括以下步骤：h)扰动基础微生物宿主细胞的基因组，由此产生经修饰的基础宿主细胞，所述基础微生物宿主细胞用于表达来自包括在步骤(g)的所述所选微生物宿主细胞内的所述候选多基因簇的基因，其中所述基础微生物宿主细胞包括所述第一多基因簇。176.根据权利要求175所述的方法，其中步骤(h)包括用来自所述候选多基因簇的对应基因替代来自所述第一多基因簇的原始基因。177.根据权利要求175所述的方法，其中步骤(h)包括从所述第一多基因簇中敲除原始基因。178.一种用于产生目标天然产物的类似物的方法，所述方法包括以下步骤：a)提供基础微生物宿主细胞，所述基础微生物宿主细胞包括已知产生所述目标天然产物的多基因簇；b)扰动所述基础微生物宿主细胞的基因组以使所述多基因簇内的一或多个基因的表达突变或敲除所述一或多个基因的表达，由此产生经突变的微生物宿主细胞文库；c)培养来自所述经突变的微生物宿主细胞文库的微生物宿主细胞；d)分析来自步骤(c)的培养物的用过的培养基中所述目标天然产物和/或所述目标天然产物的类似物的存在；以及e)从在步骤(c)中培养的所述微生物宿主细胞中选择微生物宿主细胞，由此产生所述目标天然产物的类似物，其中所选微生物宿主细胞产生所述目标天然产物的类似物，如通过步骤(d)的所述分析确定的。179.一种用于产生目标天然产物的类似物的方法，所述方法包括以下步骤：a)提供已知或被预测为产生所述目标天然产物或相关天然产物的多个多基因簇；b)通过计算机模拟用注释引擎鉴定步骤(a)的所述多个多基因簇内的编码生物合成酶的单独基因，由此产生包括来自所述多个多基因簇的生物合成基因的模拟酶组文库；c)扰动基础微生物宿主细胞的基因组，由此制造微生物细胞，所述基础微生物宿主细胞用于表达来自所述模拟酶组文库的基因，其中所述基础微生物宿主细胞包括能够产生所述目标天然产物的第一多基因簇；d)培养在步骤(c)中制造的所述微生物宿主细胞中的至少一个微生物宿主细胞；e)分析来自步骤(d)的培养物的用过的培养基或裂解物中的所述目标天然产物和/或所述目标天然产物的类似物；以及f)从在步骤(d)中培养的所述微生物宿主细胞中选择微生物宿主细胞，由此产生所述目标天然产物的类似物，其中所选微生物宿主细胞产生所述目标天然产物的类似物，如通过步骤(e)的所述分析确定的。180.根据权利要求145至179中任一权利要求所述的方法，其中根据权利要求220至144
中任一权利要求所述的方法产生所述数字宏基因组文库。181.一种用于鉴定不编码已知抗性基因的候选多基因簇(mgc)的计算机模拟方法，所述方法包括以下步骤：a)提供已知或预测的mgc的序列；b)在计算上预测长组装体数字宏基因组文库内的天然产物多基因簇特征集并且提供所述预测的输出作为多个信号相关联的多基因簇数字特征集；c)从步骤(b)的所述多个信号相关联的多基因簇数字特征集之中选择候选mgc，所述候选mgc包括至少一个相似性因子，所述至少一个相似性因子选自由以下组成的组：i)所述已知或预测的mgc和所述候选mgc内的1种、2种、3种、4种、5种、6种、7种或8种生物合成酶的序列同源性；ii)所述已知或预测的mgc和所述候选mgc内的每种类型的生物合成模块的相同数量；以及iii)由所述已知/预测的mgc和所述候选mgc产生的天然产物的预测的化学结构的相似性；由此鉴定不编码已知抗性基因的所述候选mgc。182.根据权利要求181所述的方法，其中所述已知或预测的mgc包括推定抗性基因。183.根据权利要求181至182中任一权利要求所述的方法，其中步骤(c)(i)的所述相似性因子包括所述候选mgc中的所述生物合成酶与已知或预测的mgc的所述生物合成酶中的至少一种生物合成酶的至少10％、20％、30％、40％、50％、60％、70％、80％、90％或100％序列同源性。184.根据权利要求181至183中任一权利要求所述的方法，其中通过序列同一性确定所述生物合成酶的同源性。185.根据权利要求184所述的方法，其中如果所述候选mgc中的生物合成酶与所述已知或预测的mgc内的生物合成酶表现出至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性，则所述生物合成酶是同源物。186.根据权利要求181至183中任一权利要求所述的方法，其中通过hmm工具确定所述生物合成酶的同源性。187.根据权利要求186所述的方法，其中如果所述候选mgc中的生物合成酶的候选比特评分与最佳匹配比特评分的比率大于0.6、0.7、0.8或0.9，则所述生物合成酶是同源物。188.根据权利要求181至187中任一权利要求所述的方法，其中所述生物合成酶是核心生物合成酶。189.根据权利要求181至188中任一权利要求所述的方法，其中通过谷本系数(tanimoto coefficient)确定所述候选mgc与所述已知或预测的mgc中的所述预测的化学结构的相似性。190.根据权利要求189所述的方法，其中如果候选mgc与已知或预测的mgc表现出至少.7、.8、.9或.95的谷本系数，则所述候选mgc的预测的化学结构与所述已知或预测的mgc的已知或预测的化学结构相似。191.根据权利要求181至190中任一权利要求所述的方法，其中所述推定抗性基因位于
所述预测的mgc内，并且不参与所述天然产物的合成。192.根据权利要求181至191中任一权利要求所述的方法，其中所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。193.根据权利要求181至192中任一权利要求所述的方法，其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。194.根据权利要求181至191中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括的n50长度为至少约10kb、15kb或20kb，并且所述数字宏基因组文库的大小为至少约500mb。195.根据权利要求181至191中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，并且所述数字宏基因组文库的大小为至少约1tb。196.根据权利要求181至191中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列，并且所述数字宏基因组文库的大小为约500mb到约1tb。197.根据权利要求181至191中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数经组装的序列来自未经培养的微生物。198.根据权利要求181至191中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的基本上所有序列都来自未经培养的微生物。199.根据权利要求181至191中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。200.根据权利要求181至191中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。201.根据权利要求181至200中任一权利要求所述的方法，其包括以下步骤：d)制造宿主细胞或其重构版本，其中制造的宿主细胞包括在步骤(c)中鉴定的所述候选mgc。202.根据权利要求201所述的方法，其包括以下步骤：e)培养步骤(d)的所述制造的宿主细胞。203.根据权利要求202所述的方法，其包括以下步骤：f)分析来自步骤(e)的培养物的裂解物和/或用过的培养物中天然产物的存在，其中所述天然产物不存在于对照宿主细胞的培养物中，所述对照宿主细胞缺乏所述制造的宿主细胞中存在的所述候选mgc序列。
204.一种用于鉴定候选多基因簇(mgc)的计算机模拟方法，所述方法包括以下步骤：a)鉴定已知或预测的mgc的核心生物合成酶；b)查询长组装体数字宏基因组文库中在(a)中鉴定的所述核心生物合成酶中的每种核心生物合成酶的同源物，其中所述数字宏基因组文库包括经数字组装的重叠群；以及c)基于所述数字宏基因组文库的单个重叠群内的所述核心生物合成酶的同源物的存在来鉴定新mgc。205.根据权利要求204所述的方法，其中如果在所述数字宏基因组文库中编码的酶与所述已知或预测的mgc的所述核心生物合成酶中的至少一种核心生物合成酶表现出至少10％、20％、30％、40％、50％、60％、70％、80％、90％或100％序列同源性，则所述酶被视为同源物。206.根据权利要求204至205中任一权利要求所述的方法，其中通过序列同一性确定所述核心生物合成酶的同源性。207.根据权利要求206所述的方法，其中如果所述新mgc中的基因与所述已知或预测的mgc内的生物合成酶表现出至少80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％或99％序列同一性，则所述基因是同源物。208.根据权利要求204所述的方法，其中通过hmm工具确定所述生物合成酶的同源性。209.根据权利要求208所述的方法，其中如果所述数字宏基因组文库中的酶的核心生物合成比特评分与最佳匹配比特评分的比率大于0.6、0.7、0.8或0.9，则所述酶是同源物。210.根据权利要求204至209中任一权利要求所述的方法，其中所述长组装体数字宏基因组文库包括的n50长度为至少约10kb、15kb、20kb、25kb、30kb、35kb或40kb。211.根据权利要求204至210中任一权利要求所述的方法，其中所述数字宏基因组文库的大小为至少约50mb、75mb、100mb、200mb、300mb、400mb、500mb、600mb、700mb、800mb、900mb、1000mb、1100mb、1200mb、1300mb或1400mb。212.根据权利要求204至209中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括的n50长度为至少约10kb、15kb或20kb，并且所述数字宏基因组文库的大小为至少约500mb。213.根据权利要求204至209中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，并且所述数字宏基因组文库的大小为至少约1tb。214.根据权利要求204至209中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的序列，并且所述数字宏基因组文库的大小为约500mb到约1tb。215.根据权利要求204至209中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数经组装的序列来自未经培养的微生物。216.根据权利要求204至209中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的基本上所有序列都来自未经培养的微生物。
217.根据权利要求204至209中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒、f粘粒、bac、yac或其组合文库中。218.根据权利要求204至209中任一权利要求所述的方法，其中所述多基因簇特征集数字宏基因组文库包括：n50长度为至少约10kb、15kb或20kb的经测序且经数字组装的重叠群序列，其中所述文库中的大多数序列来自未经培养的微生物，所述未经培养的微生物中的至少一些未经培养的微生物源自土壤样品，所述经数字组装的重叠群序列的物理拷贝被排列到对应物理粘粒文库中。219.根据权利要求204至218至中任一权利要求所述的方法，其包括以下步骤：d)制造一或多个宿主细胞，其中每个制造的宿主细胞包括在步骤(c)中鉴定的所述新mgc。220.根据权利要求219所述的方法，其包括以下步骤：e)培养步骤(d)的所述制造的宿主细胞。221.根据权利要求220所述的方法，其包括以下步骤：f)分析来自步骤(e)的培养物的裂解物和/或用过的培养物中天然产物的存在，其中所述天然产物不存在于对照宿主细胞的培养物中，所述对照宿主细胞缺乏所述制造的宿主细胞中存在的所述新mgc序列。222.根据权利要求181至221中任一权利要求所述的方法，其中根据权利要求110至144中任一权利要求所述的方法产生所述数字宏基因组文库。

技术总结
本公开提供了用于鉴定编码天然产物的多基因簇(MGC)的方法和系统。在一些实施例中，本公开还教示了用于产生适于MGC搜索生物信息工具和技术的经测序且经组装的宏基因组文库的方法。方法。方法。

技术研发人员：O
受保护的技术使用者：齐默尔根公司
技术研发日：2021.02.12
技术公布日：2022/11/15

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：素材审核方法、计算设备及存储介质与流程

宏基因组文库和天然产物发现平台的制作方法

相关文献

最热文献