一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法

2022-09-04 05:24:54 来源:中国专利 TAG:

1.本发明涉及食品生产技术领域,具体是酸奶生产技术领域,尤其是涉及一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法。


背景技术:

2.酸奶是一种在添加或不添加乳粉(或脱脂乳粉)乳中(杀菌乳或浓缩乳),由保加利亚乳杆菌和嗜热链球菌发酵制成的凝乳状产品,成品中含有大量相应的活性微生物。酸奶不仅含有丰富的钙、蛋白质、核黄素和维生素等营养物质,而且还含有大量对人体健康有益的益生菌。目前已经证实酸奶对人体有平衡肠道菌群、提高机体免疫力、降低胆固醇和延缓衰老等作用,越来越多的人日常会摄入酸奶,这就对生产酸奶的品质提出了更高的要求。
3.目前,在酸奶生产过程中,通常是将一株嗜热链球菌与一株保加利亚乳杆菌复配进行发酵,经过生物湿实验,测试发酵时间、产酸速率、粘度、持水力、质构和风味等表型数据来确定这两株菌是否能够互作共生,提高发酵速率,加快酸奶生产。
4.然而,上述方法费时费力,而且产出量小,确定评估一对菌是否互作需要15-21天。随着科技的发展,通过计算机科学领域的人工智能方法可以加快速度。


技术实现要素:

5.本发明的目的是提供一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法,采用特征提取、聚类、机器学习与深度学习技术,加快了检测速度。
6.为实现上述目的,本发明提供了一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法,步骤如下:
7.s1、数据预处理和特征提取
8.分别计算m株保加利亚乳杆菌和n株嗜热链球菌的全基因组数据的k-mer数据,根据k-mer数据计算各自的2k维特征向量,向量拼接得到m
×
n个2
k 1
维互作向量,通过自编码器提取融合特征向量;
9.s2、确定标签
10.将步骤s1获得的m
×
n个融合特征向量,采用聚类算法进行聚类,对不同聚类结果的数据打上相反的标签,移除零散的点后,得到标签相反的两组数据集;
11.s3、模型的构建与评估
12.对步骤s2中的两组数据集采用机器学习和深度学习方法建模并对剩余的经过实验验证的50%的互作对和50%的不互作对采用评估指标进行评估;
13.s4、模型的调优
14.通过调整机器学习中各模型的参数及深度学习中训练的轮数epoches、学习率learning rate的参数设置进行调优;
15.s5、使用最佳参数重新训练模型、保存模型。
16.s6、使用kegg数据进行模型构建
17.取本实验室的m株保加利亚乳杆菌和n株嗜热链球菌的代谢通路图(kegg)特征矩阵,通过对特征矩阵中相同的酶取交集并相加得到m
×
n个融合特征向量,通过降维方法对融合特征向量降维,重复s2到s5。
18.s7、取s5和s6中评估结果较优的模型。
19.优选的,步骤s3中,数据处理为取正负样本数据集,采用逻辑回归、朴素贝叶斯、随机森林、支持向量机和适合序列建模的长短时记忆网络、一维卷积神经网络、transformer、注意力机制进行模型单独构建或者融合构建并评估,确定最佳的模型。
20.优选的,最佳模型的评估指标包括sn、sp、acc、mcc,其计算公式如下:
[0021][0022]
其中,敏感性(sensitivity,sn)表示所有互作菌株组合中被正确预测的比例;特异性(specificity,sp)表示所有不互作菌株组合中被正确预测的比例;正确率(accuracy,acc)表示所有菌株组合中被正确预测的比例;马修相关系数(mathew's correlation coefficient,mcc)来评估分类性能,它是利用统计方法衡量预测结果与真实结果间的相关性;
[0023]
真阳性(true positive,tp)表示互作对被预测为互作对的个数;真阴性(true negative,tn)表示非互作对被预测为非互作对的个数;假阳性(false positive,fp)表示非互作对被预测为互作对的个数;假阴性(false negative,fn)表示互作对被预测为非互作对的个数。
[0024]
优选的,步骤s7中,模型确定后,对多株菌株组合进行互作预测,筛选出互作可能性大的菌株对,进行验证。
[0025]
因此,本发明采用上述一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法,采用特征提取、聚类、机器学习与深度学习技术,加快了检测速度。通过特征提取可实现对两种菌株全基因组测序数据的数值化表示,聚类技术可实现对保加利亚乳杆菌和嗜热链球菌的互作标签的确定,机器学习和深度学习技术可以构建保加利亚乳杆菌和嗜热链球菌的互作预测模型。与原技术相比,在保证预测准确率的前提下可实现高通量高效预测。
[0026]
下面通过实施例,对本发明的技术方案做进一步的详细描述。
具体实施方式
[0027]
以下通过实施例对本发明的技术方案作进一步说明。
[0028]
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
[0029]
一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法,步骤如下:
[0030]
s1、数据预处理和特征提取
[0031]
分别计算m株保加利亚乳杆菌和n株嗜热链球菌的全基因组数据的k-mer数据,根据k-mer数据计算各自的2k维特征向量,向量拼接得到m
×
n个2
k 1
维互作向量,通过自编码
器提取融合特征向量;
[0032]
s2、确定标签
[0033]
将步骤s1获得的m
×
n个融合特征向量,采用聚类算法进行聚类,对不同聚类结果的数据打上相反的标签,移除零散的点后,得到标签相反的两组数据集;
[0034]
s3、模型的构建与评估
[0035]
对步骤s2中的两组数据集均进行数据处理;
[0036]
步骤s3中,数据处理为取其正负样本数据集,采用逻辑回归、朴素贝叶斯、随机森林、支持向量机和适合序列建模的长短时记忆网络、一维卷积神经网络、transformer、注意力机制进行模型单独构建或者融合构建和评估,确定最佳的模型。
[0037]
最佳模型的评估指标包括sn、sp、acc、mcc,其计算公式如下:
[0038][0039]
其中,敏感性(sensitivity,sn)表示所有互作菌株组合中被正确预测的比例;特异性(specificity,sp)表示所有不互作菌株组合中被正确预测的比例;正确率(accuracy,acc)表示所有菌株组合中被正确预测的比例;马修相关系数(mathew's correlation coefficient,mcc)来评估分类性能,它是利用统计方法衡量预测结果与真实结果间的相关性;
[0040]
真阳性(true positive,tp)表示互作对被预测为互作对的个数;真阴性(true negative,tn)表示非互作对被预测为非互作对的个数;假阳性(false positive,fp)表示非互作对被预测为互作对的个数;假阴性(false negative,fn)表示互作对被预测为非互作对的个数。
[0041]
s4、模型的调优
[0042]
通过调整机器学习中各模型的参数及深度学习中训练的轮数epoches、学习率learning rate的参数设置进行调优;
[0043]
s5、使用最佳参数重新训练模型、保存模型。
[0044]
s6、使用kegg数据进行模型构建
[0045]
取m株保加利亚乳杆菌和n株嗜热链球菌的代谢通路图(kegg)特征矩阵,通过对特征矩阵中相同的酶取交集并相加得到m
×
n个融合特征向量,通过降维方法对融合特征向量降维,重复s2到s5。
[0046]
s7、取s5和s6中评估结果较优的模型。
[0047]
步骤s7中,模型确定后,对多株菌株组合进行互作预测,筛选出互作可能性大的菌株对进行验证。
[0048]
实施例一
[0049]
一、全基因组数据
[0050]
(1)根据每株菌的全基因组测序数据构建其k-mer数据,k一般取4,可得2k个k-mer,然后根据频次计算其k-mer特征,得2k个特征。
[0051]
(2)m株保加利亚乳杆菌和n株嗜热链球菌的k-mer特征拼接,得到m
×
n个融合后的2
k 1
维特征。
[0052]
(3)将12组经过实验室验证的互作对和12组经过实验室验证的不互作对,采用步骤(1)、(2)构建其2
k 1
维特征。
[0053]
(4)将50%的互作对与50%的不互作对与m
×
n个融合后的2
k 1
维特征数据放在一起,采用聚类算法(dbscan,kmean,层次等)对这些特征进行聚类。
[0054]
(5)根据聚类结果确定正负样本集标签。
[0055]
(6)采用机器学习深度学习方法构建模型。
[0056]
(7)对剩余的50%的互作对与50%的不互作对进行评估并对模型进行调优,选出最佳模型。
[0057]
二、kegg数据
[0058]
(1)将m株保加利亚乳杆菌和n株嗜热链球菌的kegg特征矩阵,按照酶进行交集后对应位置相加,得到互作矩阵。
[0059]
(2)将12组经过实验室验证的互作对和12组经过实验室验证的不互作对,各取其50%从kegg代谢通路图互作矩阵中移出。
[0060]
(3)采用聚类算法(dbscan,kmean,层次等)对这些特征进行聚类。
[0061]
(4)根据聚类结果确定正负样本集标签。
[0062]
(5)采用机器学习深度学习方法构建模型。
[0063]
(6)对剩余的50%的互作对与50%的不互作对进行评估并对模型进行调优,选出最佳模型。
[0064]
三、根据全基因组数据得到的最佳模型和kegg数据得到的最佳模型中选择最优模型。
[0065]
因此,本发明采用上述一种保加利亚乳杆菌与嗜热链球菌相互作用预测方法,通过对保加利亚乳杆菌和嗜热链球菌的全基因组测序数据,依次通过特征提取、聚类、标签确定、构建模型等一系列的操作可以构建保加利亚乳杆菌与嗜热链球菌的互作预测模型,实现对保加利亚乳杆菌与嗜热链球菌是否互作的批量预测。机器学习和深度学习技术可提高预测效率和预测通量,并保证预测准确率。
[0066]
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献