一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

生物过程的监测、模拟、以及控制的制作方法

2022-12-03 12:14:56 来源:中国专利 TAG:


1.本公开涉及用于监测、模拟和控制生物过程的计算机实现的方法、计算机程序和系统。本公开的特定方法、程序和系统使用机器学习来预测表示生物过程中的细胞代谢条件的一个或多个变量。


背景技术:

2.生物过程使用生物系统来生产特定的生物材料,例如具有治疗作用的生物分子。该过程通常涉及在受控的大气条件下将细胞和/或微生物放入具有包含营养物质的培养基的生物反应器中。培养基被细胞消耗并用于生长和其他代谢功能,包括生产特定的生物材料和副产物。
3.生物反应器通常包含仪器或与仪器相关联,该仪器连续(例如,每秒、每分钟、每小时一次)测量过程条件(例如温度、ph和溶解氧)以及营养物和气体的添加和离开生物反应器的流的流量和含量。通常,周期性地(例如,每天一次或两次,或多于两次)采集培养物样本,以测量主体流体(bulk fluid)的含量,包括一个或多个代谢物(例如,葡萄糖、谷氨酰胺、乳酸盐、nh4等)的浓度、产物生物材料的浓度(也称为滴度(titer))、细胞度量(例如总细胞和活细胞密度(viable cell density,vcd))和产物生物材料的质量度量(有时也称为“质量属性”或“关键质量属性”(critical quality attribute,cqa),例如,产物的糖基化谱(glycosylation profile)或活性)。
4.统计过程分析方法可以用来评估生物过程的良好的性能。特别地,多元统计模型(包括主成分分析(principal component analysis,pca)和(正交)偏最小二乘((orthogonal)partial least square,(o)pls))回归已经成为用于识别过程条件的流行工具,这些过程条件对于确保cqa在规范内(统称为“关键过程参数”(critical process parameter,cpp)),并在生物过程进展到完成时确定这些过程条件的可接受范围非常重要。这样的工具已经在软件套件(sartorius stedim data analytics)中实现,这是一种用于对生物制药开发和制造过程进行建模和优化的领先的数据分析软件。
5.在典型的生物过程分析中,在生物过程完成期间测量一系列过程变量(例如数十个过程变量,包括温度、关键营养物和代谢物的浓度、ph、体积、气体浓度、活细胞密度等)。这些过程变量一起表示“过程条件”。这些变量中的许多变量是高度相关的,因此,可以使用pca和pls等方法来识别捕获数据中相关结构的概要变量(summary variable)。然后可以提取这些变量(通常相对较少),并且可以估计定义“正常”的过程条件的这些变量的值的范围。此外,诸如(o)pls的模型可用于从这些过程变量预测产物滴度。
6.所有这些方法都模拟了过程参数对细胞生产的产物的影响,但不了解过程参数如何影响细胞的功能,以及这最终如何导致cqa和产物滴度的变化。在过程开发过程中,缺乏对代谢活性的直接测量造成了一种使用试验和误差来设计过程操作的情况。使用这样的方法,以一种特殊的方式进行实验,以确定生产高质量和相对高收益的产物的条件。此外,缺乏对细胞代谢条件(决定产生特定cqa和滴度的过程条件)的了解意味着诊断/预测故障(例
如异常的代谢操作)或优化过程需要主题专家(subject matter expert,sme)来提出生物学相关的假设,对于这些假设,代谢条件可以是所观察到的行为的基础。
7.此外,所有这些方法都依赖于对生物过程的后验分析,并且对预测生物过程如何演化的能力有限。这意味着这些方法不适合用于实施先发制人的行动来校正生物过程的进程(而不是在事后诊断该进程是错误的,这可能会浪费时间和资源),也不适合用于构建模拟生物过程的进程的模型(例如用于过程优化)。
8.因此,需要一种用于监测、模拟和控制生物过程的改进方法的系统和方法。


技术实现要素:

9.根据本公开的第一方面,提供了一种用于监测生物过程的计算机实现的方法,生物过程包括生物反应器中的细胞培养物,该方法包括以下步骤:获得一个或多个过程条件的值,一个或多个过程条件包括在一个或多个成熟度的生物过程的一个或多个过程参数、一个或多个代谢物浓度和/或一个或多个生物质相关度量;使用获得的值作为机器学习模型的输入,确定细胞培养物中一个或多个代谢物的单位转运速率(specific transport rate),该机器学习模型被训练用于至少部分地基于在一个或多个成熟度的生物过程的一个或多个过程条件的值来预测在所述一个或多个成熟度中的最晚成熟度或较晚成熟度的一个或多个代谢物的单位转运速率;至少部分地基于确定的单位转运速率来预测生物过程的一个或多个特征。
10.第一方面的方法可以具有以下可选特征中的任一特征或任何特征组合。
11.预测生物过程的一个或多个特征可以包括:将单位转运速率或从该单位转运速率导出的值与一个或多个预定值进行比较;基于上述比较确定过程是否正常操作。
12.上述一个或多个预定值可以指定为随成熟度变化,并且将单位转运速率或从该单位转运速率导出的值与一个或多个预定值进行比较可以包括:将该单位转运速率或从该单位转运速率导出的值与一个或多个与对应于较晚成熟度值的成熟度相关联的预定值进行比较。
13.在本公开的上下文中,可以以时间单位表示成熟度。例如,成熟度可以指自生物过程开始以来的时间量或任何其他参考时间。因此,对特定“成熟度”和“成熟度函数”的提及应解释为包括“时间点”、“时间”和“时间函数”。
14.获得一个或多个过程条件的值可以包括直接或间接测量一个或多个过程条件的值。获得一个或多个过程条件的值可以包括例如从用户、计算设备或存储器接收这些值。
15.代谢物的单位转运速率可以是单位消耗速率或单位生产速率。代谢物i的单位转运速率可以是每细胞和每单位成熟度在细胞和培养基之间转运的代谢物的净量。
16.如下文将进一步描述的,预测生物过程的一个或多个特征可以包括在多个分类之间对过程的内部代谢条件进行分类,其中,过程的内部代谢条件包括单位转运速率或从单位转运速率导出的值。对过程的内部代谢条件进行分类可以包括将过程的内部代谢条件分类为用于生物材料生产的最佳类别或次最佳类别。
17.如下文将进一步描述的,预测生物过程的一个或多个特征可以包括使用包括单位转运速率或从单位转运速率导出的变量的过程演化的一个或多个模型来预测过程的状态轨迹(state trajectory)。一个或多个模型可以包括动力学生长模型和物质平衡方程。过
程的状态可以包括这样的模型中的任何变量的值,例如一个或多个细胞培养物参数和/或代谢物浓度的值。过程的状态轨迹可以包括在多个时间点/成熟度的状态变量的值。
18.如下文将进一步描述的,预测生物过程的一个或多个特征包括:使用包括单位转运速率或从该单位转运速率导出的变量的过程演化的一个或多个模型来预测在一个或多个过程参数变化之后的过程的未来状态。
19.如下文将进一步描述的,预测生物过程的一个或多个特征包括:使用一个或多个预测模型预测与该过程相关联的当前或未来关键质量属性(cdq),预测模型被训练用于至少部分地基于单位转运速率或从该单位转运速率导出的变量来预测一个或多个cqa的值。
20.上述一个或多个过程条件可以包括一个或多个过程参数,这些过程参数选自溶解氧、溶解co2、ph、温度、渗透压、搅拌速度、搅拌功率、顶空气体成分(例如co2压力)、流速(flow rate)(例如进料速率(feed rate)、出料速率(bleed rate)、收获速率(harvest rate))、进料介质成分和培养物体积。一个或多个过程条件可以包括一个或多个生物质相关度量,这些生物质相关度量选自活细胞密度、总细胞密度、细胞活力、死细胞密度和裂解细胞密度。一个或多个代谢物浓度可以包括培养基室中的一个或多个代谢物的浓度。除非上下文另有指示,否则代谢物浓度通常指培养基中的代谢物浓度。用于预测一个或多个代谢物的单位转运速率的一个或多个过程条件的值可以包括至少一个代谢物浓度值。一个或多个过程条件的值还可以包括过程条件的至少一个其他值,优选地至少两个其他值。一个或多个代谢物浓度的值可以包括已确定单位转运速率的一个或多个代谢物的浓度。一个或多个代谢物可以替代地或另外包括一个或多个代谢物的浓度,这些代谢物是已确定了单位转运速率的一个或多个代谢物的前体(precursor)。一个或多个代谢物可以替代地或另外包括一个或多个代谢物的浓度,这些代谢物是生产或消耗已确定了单位转运速率的一个或多个代谢物的反应产物。
21.预测生物过程的一个或多个特征包括使用预测模型预测生物过程的一个或多个关键质量属性的值,该预测模型已被训练用于使用包括一个或多个单位转运速率的一组预测变量来预测cqa。预测模型可以是机器学习模型,例如多元模型。可以使用来自多个训练运行(training run)的数据来训练预测模型。
22.该方法还可以包括使用预训练的预测模型来确定一个或多个潜在变量的值,其中,预测模型是使用包括单位转运速率的过程变量作为预测变量的线性模型。在这样的实施例中,将从单位转运速率导出的值与预定值进行比较的步骤可以包括将一个或多个潜在变量的值与对应的预定值进行比较。
23.预训练的预测模型可以已被训练用于确定随成熟度变化的一个或多个潜在变量的值。预测模型可以是线性模型,该线性模型使用单位转运速率和可选的过程条件作为预测变量,并使用成熟度作为响应变量。预测模型可以是诸如pls或opls模型的多元模型。多元模型可以是方程(1)和方程(2)中定义的pls模型,其中,在方程(1)和方程(2)中:x是在成熟度m的过程变量的m
×
n矩阵,y是成熟度值的m
×
1矩阵,t是得分值(score value)的m
×
l矩阵,得分值描述了与成熟度最相关的过程变量的各方面,包括一个或多个潜在变量。
24.预测模型可以是主成分回归(principal component regression,pcr)。预测模型可以是pcr模型,其中,pca应用于在成熟度m的过程变量的矩阵x,并且成熟度值的矩阵y对由此获得的主成分进行回归,以识别与成熟度最相关的主成分,pca得分表示描述与成熟度
最相关的过程变量的各方面的潜在变量。
25.预测模型可以已使用来自被认为正常操作的多个类似生物过程的数据进行预训练,其中,类似生物过程是将相同细胞用于相同目的的生物过程。预测模型可以已使用来自多个类似生物过程的数据进行预训练,其中,至少一些生物过程在随成熟度变化的一个或多个过程条件方面彼此不同。
26.机器学习模型可以是回归模型。机器学习模型可以选自线性回归模型、随机森林回归器、人工神经网络(artificial neural network,ann)、及其组合。
27.有利地,机器学习模型是ann或ann的集合。本发明人已经发现ann特别适合用于当下的任务。在不希望被理论束缚的情况下,发明人认为这至少部分是因为ann非常适合用于使用具有复杂相关结构的输入数据来预测值。因此,ann在联合预测多个单位转运速率方面表现很好。
28.线性回归模型可以是偏最小二乘或正交偏最小二乘模型。机器学习模型可包括多个机器学习模型,其中,每个机器学习模型已被训练用于预测一个或多个代谢物的单独选择的子集的单位转运速率。
29.机器学习模型可以已被训练用于至少部分地基于在一个或多个先前成熟度的生物过程的一个或多个过程条件的值来联合预测在较晚成熟度的一个或多个代谢物的单位转运速率。联合预测多个代谢物(即,其全部或子集)的单位转运速率可以有利地提高预测的准确性,其中,联合预测的代谢物的单位转运速率彼此相关。在不希望被理论束缚的情况下,许多代谢物将与单位转运速率相关,由于代谢物参与了细胞内相关的代谢途径,这些单位转运速率至少在某种程度上是相关的。
30.获得在一个或多个成熟度的一个或多个过程条件的值可以包括获得在多个成熟度的一个或多个过程条件的值;并且机器学习模型已被训练用于至少部分地基于在多个成熟度的生物过程的一个或多个过程条件的值来预测在多个成熟度中的最晚成熟度或较晚成熟度的一个或多个代谢物的单位转运速率。发明人已经发现,与使用在单个先前成熟度的预测变量相比,使用在多个先前成熟度的预测变量预测单位转运速率有利地提高了预测的准确性。在不希望被理论束缚的情况下,通过使用在多个时间点的预测变量可以提高机器学习预测的准确性,这是因为这些数据可以捕获关于生物过程动力学的信息。
31.有利地,机器学习模型可以已被训练用于至少部分地基于在两个不同成熟度的生物过程的一个或多个过程条件的值来预测在两个不同成熟度中的最晚成熟度或较晚成熟度的一个或多个代谢物的单位转运速率。发明人已经发现,与使用在单个先前成熟度的预测变量相比,使用在两个先前成熟度的预测变量预测单位转运速率有利地提高了预测的准确性,但是通过包括附加的成熟度进一步提高准确性的程度并不那么明显。换言之,发明人已经发现,通过只使用两个成熟度可以获得与使用多个成熟度相关联的许多益处。
32.用作机器学习模型输入的一个或多个过程条件的值可以与彼此相隔成熟度差(difference in maturity)的多个成熟度相关联,成熟度差约等于用于训练机器学习模型的值之间的成熟度差。
33.预测生物过程的一个或多个特征可以包括通过以下确定从单位转运速率导出的一个或多个变量的值:使用单位转运速率来确定在较晚成熟度的对应的一个或多个代谢物的浓度,可选地,其中,确定在较晚成熟度的对应的一个或多个代谢物的浓度包括求解相应
的物质平衡方程。
34.在实施例中,一个或多个代谢物包括所需产物。同样,本文还描述了预测生物过程中的所需产物的浓度的方法。
35.确定在成熟度k的代谢物i的浓度可以包括对在mi已知的先前成熟度和成熟度k之间对方程(4)、(4a)-(4f)和(28)中的任何方程求积分,其中,k是与预测的单位转运速率相关联的成熟度。该方法还可以包括通过以下确定从单位转运速率导出的一个或多个变量的值:使用单位转运速率来确定在较晚成熟度的对应的一个或多个代谢物的浓度,并使用一个或多个上述浓度来确定在较晚成熟度的生物质相关度量的值,可选地,其中,确定在较晚成熟度的生物质相关度量的值包括求解动力学生长模型。求解在成熟度k的动力学生长模型可以包括在xv、x
l
、xd和/或x
t
已知的先前成熟度和成熟度k之间对方程(14)至(17)中的任何方程求积分。
36.在实施例中,生物质相关度量包括生物质的量。在一些这样的实施例中,生物质是生物过程的所需产物。
37.该方法还可以包括使用一个或多个代谢物浓度和/或生物质相关度量值作为机器学习模型的输入,来预测在其他成熟度的单位转运速率。在这样的实施例中,该方法可以用于如下模拟生物过程:迭代地确定用作机器学习模型的输入的过程条件的值以预测在后续成熟度的单位转运速率,并从后续成熟度确定代谢物浓度和生物质相关度量。
38.同样,还根据本方面描述了模拟生物过程的方法,该生物过程包括生物反应器中的细胞培养物,该方法包括:获得一个或多个过程条件的初始值,一个或多个过程条件包括在一个或多个初始成熟度的生物过程的一个或多个过程参数、一个或多个代谢物浓度和/或一个或多个生物质相关度量;使用获得的值作为机器学习模型的输入,确定细胞培养物中一个或多个代谢物的单位转运速率,该机器学习模型被训练用于至少部分地基于在一个或多个成熟度的生物过程的一个或多个过程条件的值来预测在一个或多个成熟度中的最晚成熟度或较晚成熟度的一个或多个代谢物的单位转运速率;至少部分地基于确定的单位转运速率来预测生物过程的一个或多个过程条件的值,一个或多个过程条件包括一个或多个过程参数、一个或多个代谢物浓度和/或一个或多个生物质相关度量;使用一个或多个过程条件的预测值重复上述确定步骤和预测步骤。
39.用作机器学习模型输入的任何过程参数的值可以被设置为对应的初始值(即,假设上述过程参数保持恒定)。作为替代或除此之外,可以从用户界面、计算设备或存储器获得用作机器学习模型输入的任何过程参数的值。例如,可以提供一个或多个过程参数的轨迹作为该方法的输入,其中,过程参数的轨迹包括在多个成熟度的过程参数的值。
40.可以使用从用户、计算设备或存储器接收的过程条件值来执行本方面的各种方法。可以使用在生物过程操作期间实时获得的过程条件值来执行本方面的各种方法。这样的过程条件值可以包括操作设置(即,由操作者设置的参数),和/或在生物过程操作期间在线测量或离线测量的值。因此,本文描述的监测生物过程的各种方法可以实时地实施,即在生物过程的操作期间实时地实施。在这样的实施例中,获得一个或多个过程条件的值的步骤可以包括接收在最晚成熟度的一个或多个过程条件的值(已经测量或确定在该最晚成熟度的这样的值),并且可选地包括从数据存储器获得在一个或多个先前成熟度的一个或多个过程条件的值。
41.本方面的任何方法可以包括在数据存储器中记录一个或多个过程条件的值、确定的单位转运速率和/或从单位转运速率导出的值。
42.上述方法还可以包括:如果上述比较步骤指示生物过程不正常操作,则向用户输出信号。可以通过诸如屏幕的用户界面或通过诸如音频或触觉信令的任何其他方式输出信号。
43.将一个或多个单位转运速率或从一个或多个单位转运速率导出的变量的值与一个或多个预定值进行比较可以包括:将一个或多个单位转运速率或从一个或多个单位转运速率导出的变量的值与被认为正常操作的一组生物过程中的对应变量的平均值进行比较。如果一个或多个单位转运速率或从一个或多个单位转运速率导出的变量的值在被认为正常操作的一组生物过程中相应的对应变量的平均值的预定范围内,则可以认为该生物过程正常操作。该预定范围可以定义为与被认为正常操作的一组生物过程中相应的对应变量的平均值相关联的标准偏差的函数。如果一个或多个变量t的值在定义为average(t)
±
n*sd(t)的范围内,则可以认为生物过程正常操作,其中,average(t)是被认为正常操作的一组生物过程中的变量t的平均值,sd(t)是与average(t)相关联的标准偏差,并且n是预定常数(对于子范围average(t) n*sd(t)和子范围average(t)-n*sd(t),n可以相同,或者在这些子范围之间可以不同)。在实施例中,n是1、2、3或实现所选置信区间(例如95%置信区间)的值。在实施例中,如果一个或多个变量t的值在定义为置信区间(例如基于t的假设分布的围绕average(t)的95%置信区间)的范围内,则可认为生物过程正常操作。假设分布可以是高斯(正态)分布、卡方分布(chi-squared distribution)等。在假设分布是正态分布的情况下,p%置信区间(其中p可以是例如95)可以等效于average(t)
±
n*sd(t)的范围,其中,n是实现p%置信区间的单个值(例如对于95%置信区间,n可以约为1.96)。
44.除非上下文另有指示,否则本文描述的方法的所有步骤都是计算机实现的。特别地,本方法的任何步骤可由计算设备实现,可选地,该计算设备与一个或多个传感器、其他计算设备和/或用户界面进行可操作通信。
45.上述方法还可以包括:通过将在较晚成熟度的过程参数的特定值包括在物质平衡方程、动力学生长模型和/或机器学习模型用于预测在其他成熟度的单位转运速率的输入值中,来预测该特定值的影响。
46.根据第二方面,提供了一种用于控制生物过程的计算机实现的方法,该生物过程包括生物反应器中的细胞培养物,该方法包括:实施根据上述第一方面的任何实施例的步骤;将单位转运速率或从该单位转运速率导出的值与一个或多个预定值进行比较;基于上述比较确定是否实施校正动作;如果上述确定步骤指示要实施校正动作,则向一个或多个效应器装置发送信号以实施校正动作。
47.根据本方面的方法可以具有关于第一方面公开的任何特征。本方面的方法还可以具有以下可选特征中的任一特征或任何特征组合。
48.基于上述比较确定是否实施校正动作可以包括基于上述比较确定生物过程是否正常操作,如果上述比较步骤指示生物过程不正常操作,则向一个或多个效应器装置发送信号以实施校正动作。
49.基于上述比较确定是否实施校正动作可以包括基于上述比较确定生物过程是否最佳地操作,如果上述比较步骤指示所述生物过程未最佳地操作,则向一个或多个效应器
装置发送信号以实施校正动作。
50.确定生物过程是否最佳地操作可以包括确定一个或多个过程条件的不同集合是否与改进的单位转运速率或从该单位转运速率导出的值相关联。在这样的实施例中,一个或多个预定值可以包括与过程条件一个或多个不同集合相关联的值。
51.上述方法还可以包括在自获得先前测量以来经过预定时间段之后,重复上述监测生物过程的方法的步骤。
52.校正动作可以与一个或多个过程条件的值的变化相关联。该方法还可以包括:通过将上述值包括在物质平衡方程、动力学生长模型和/或机器学习模型用于预测在其他成熟度的单位转运速率的输入,来预测校正动作的效果,以确定要实施的校正动作。
53.效应器装置可以是耦合到生物反应器的任何设备,效应器装置用于改变生物反应器中的一个或多个物理条件或化学条件。
54.根据第三方面,提供了一种优化生物过程的方法,该生成过程包括生物反应器中的细胞培养物,该方法包括使用第一组过程条件和至少另一组过程条件来执行前述方面的任何实施例的方法,并通过比较与各组过程条件相关联的单位转运速率或从该单位转运速率导出的值来确定另一组过程条件是否优于第一组过程条件。
55.该方法还可以包括选择另一组过程条件,并将与另一组过程条件相关联的单位转运速率或从该单位转运速率导出的值和与一组或多组先前使用的条件相关联的单位转运速率或从该单位转运速率导出的值进行比较。
56.上述选择另一组过程条件的步骤可以包括从用户界面接收另一组条件、从数据库或计算设备获得另一组条件、使用优化算法确定另一组条件、或其组合。
57.根据第四方面,还公开了一种提供用于监测生物过程的工具的方法,该生物过程包括生物反应器中的细胞培养物,该方法包括以下步骤:获得一个或多个过程条件的测量,一个或多个过程条件包括在多个成熟度的生物过程的一个或多个过程参数、一个或多个代谢物浓度和/或一个或多个生物质相关度量;使用物质平衡模型和上述测量确定在多个成熟度的细胞培养物中一个或多个代谢物的单位转运速率;使用上述测量和确定的对应单位转运速率来训练机器学习模型,该机器学习模型被训练用于至少部分地基于在一个或多个成熟度的生物过程的一个或多个过程条件的值来预测在一个或多个成熟度中的最晚成熟度或较晚成熟度的一个或多个代谢物的单位转运速率。该方法可以包括关于第一方面描述的任何特征。
58.根据第五方面,提供了一种用于监测生物过程的系统,该生物过程包括生物反应器中的细胞培养物,该系统包括:至少一个处理器;包含指令的至少一个非暂时性计算机可读介质,当由至少一个处理器执行时,指令使至少一个处理器执行以下操作:获得一个或多个过程条件的值,一个或多个过程条件包括在一个或多个成熟度的生物过程的一个或多个过程参数、一个或多个代谢物浓度和/或一个或多个生物质相关度量;使用获得的值作为机器学习模型的输入,确定细胞培养物中一个或多个代谢物的单位转运速率,该机器学习模型被训练用于至少部分地基于在一个或多个成熟度的生物过程的一个或多个过程条件的值来预测在一个或多个成熟度中的最晚成熟度或较晚成熟度的一个或多个代谢物的单位转运速率;至少部分地基于确定的单位转运速率来预测生物过程的一个或多个特征。
59.根据本方面的系统可以用于实现根据第一方面的任何实施例的方法。特别地,上
述至少一个非暂时性计算机可读介质可以包含指令,当由至少一个处理器执行时,指令使至少一个处理器执行包括关于第一方面描述的任何操作的操作。
60.上述系统还可以包括与所述处理器可操作地连接的以下中的一个或多个:用户界面,其中,指令还使处理器向用户界面提供以输出到用户的以下中的一个或多个:一个或多个单位转运速率或从一个或多个单位转运速率导出的变量的值、上述比较步骤的结果、以及指示生物过程已被确定为正常操作或不正常操作的信号;一个或多个生物质传感器;一个或多个代谢物传感器;一个或多个过程条件传感器;一个或多个效应器装置。
61.根据本公开的第六方面,提供了一种用于控制生物过程的系统,该系统包括:
62.根据上述方面的用于监测生物过程的系统;以及
63.可操作地连接到用于监测生物过程的上述系统的处理器的至少一个效应器装置。
64.根据本方面的系统可以用于实现第二方面的任何实施例的方法。特别地,上述至少一个非暂时性计算机可读介质可以包含指令,当由至少一个处理器执行时,指令使至少一个处理器执行包括关于第二方面描述的任何操作的操作。
65.根据第七方面,提供了一种用于提供监测生物过程的工具的系统,该生物过程包括生物反应器中的细胞培养物,该系统包括:至少一个处理器;包含指令的至少一个非暂时性计算机可读介质,当由至少一个处理器执行时,指令使至少一个处理器执行以下操作:
66.获得一个或多个过程条件的测量,一个或多个过程条件包括在多个成熟度的生物过程的一个或多个过程参数、一个或多个代谢物浓度和/或一个或多个生物质相关度量;使用物质平衡模型和上述测量确定在多个成熟度的细胞培养物中一个或多个代谢物的单位转运速率;使用上述测量和确定的对应单位转运速率来训练机器学习模型,该机器学习模型被训练用于至少部分地基于在一个或多个成熟度的生物过程的一个或多个过程条件的值来预测在一个或多个成熟度中的最晚成熟度或较晚成熟度的一个或多个代谢物的单位转运速率。
67.根据本方面的系统可以用于实现第四方面的任何实施例的方法。特别地,上述至少一个非暂时性计算机可读介质可以包含指令,当由至少一个处理器执行时,指令使至少一个处理器执行包括关于第四方面描述的任何操作的操作。根据另一方面,提供了一种计算机实现的方法,该方法使用细胞代谢状态观察器来预测生物反应器中的生物系统生产或消耗的至少一种生物材料的量。该方法包括:
68.测量过程条件,过程条件包括随时间变化的生物系统的一个或多个过程参数、一个或多个代谢物浓度和一个或多个生物质相关度量;
69.确定生物系统的单位转运速率,单位转运速率包括代谢物的单位消耗速率和代谢物的单位生产速率,使用测量的过程条件作为机器学习模型的输入,该机器学习模型被训练用于至少部分地基于在一个或多个时间的生物过程的一个或多个过程条件的值来预测在一个或多个时间中的最晚时间或较晚时间的一个或多个代谢物的单位转运速率;
70.向用于预测生物材料的生产的混合系统模型提供上述过程条件和上述单位转运速率,该混合系统模型包括:
71.动力学生长模型,用于估计随时间变化的细胞生长;以及
72.代谢条件模型,基于代谢物的单位消耗或分泌速率选择过程条件,其中,该代谢条件模型用于将生物系统分类为内部代谢条件;以及
73.基于混合系统模型预测生物材料的量。
74.该动力学生长模型可以用于估计活细胞密度。动力学生长模型可以用于考虑裂解细胞。在实施例中,混合模型用作状态观察器,并提供对生物系统的内部代谢状态的估计和对生物系统的细胞状态的估计。在实施例中,动力学生长模型用作状态观察器,并提供生物系统的细胞状态的估计。该方法可以包括:获得代谢物的当前测量;使用机器学习模型确定代谢物的消耗速率;使用代谢状态观察器和当前测量预测代谢物的未来浓度。
75.该方法还可以包括:将内部代谢条件分类为用于生物材料生产的最佳类别或次最佳类别;当内部代谢条件被分类为次最佳类别时向用户发送通知。
76.动力学生长模型可以包括莫诺德动力学模型(monod kinetic model)或饱和动力学模型(saturation kinetic model)。在实施例中,可以测量随时间变化的生物系统的细胞密度或细胞活力。动力学生长模型还可以用于估计随时间变化的微生物细胞生长。
77.代谢条件模型可以包括机器学习模型、深度学习模型、主成分分析(pca)模型、偏最小二乘(partial least squares,pls)模型、偏最小二乘判别分析(partial least squares discriminant analysis,pls-da)模型或正交偏最小二乘判别分析(orthogonal partial least squares discriminant analysis,opls-da)模型中的一个或多个。
78.在实施例中,可以从生物反应器获得测试样品,并且该方法可以确定测试样品中生物材料的量是否在混合系统模型预测的范围内。
79.当混合系统模型运行时,可以更新混合系统模型的参数。混合系统的参数可以包括与混合系统模型相关联的系数。
80.根据任何方面,过程条件可以包括ph、温度、溶解氧、渗透压、离开生物反应器的过程流、生长培养基、副产物、氨基酸、代谢物、氧气流速、氮气流速、二氧化碳流速、空气流速和搅拌速率中的一个或多个。生长培养基或进料(feed)可以包括营养物质,营养物质包括氨基酸、糖类或有机酸。生物过程的副产物可以包括氨基酸、糖类、有机酸或氨。
81.本方面的方法还可以包括:基于混合系统模型确定生物反应器的最佳过程条件;使用一个或多个传感器来测量随时间变化的生物反应器的实验过程条件;监测测量的实验过程条件,以检测与最佳过程条件的偏差;当检测到偏差时,向用户发送通知。
82.上述方法还可以包括:基于混合系统模型确定生物反应器的最佳过程条件;使用一个或多个传感器来测量随时间变化的生物反应器的实验过程条件;监测测量的实验过程条件,以检测与最佳过程条件的偏差;向控制生物反应器的控制器提供反馈以自动调整实验过程条件,以最小化与最佳过程条件的偏差。
83.上述方法还可以包括:基于混合系统模型确定生物反应器的最佳过程条件;使用一个或多个传感器来测量随时间变化的生物反应器的实验过程条件;监测测量的实验过程条件,以检测与最佳过程条件的偏差;当检测到偏差时,向用户发送通知;向控制生物反应器的控制器提供反馈以自动调整实验过程条件,以最小化与最佳过程条件的偏差。
84.上述方法还可以包括:使用混合系统模型模拟预测的至少一种生物材料的量,其中,混合系统模型通过上述过程条件初始化;基于上述模拟确定生物系统的一个或多个状态。
85.上述方法还可以包括:基于优化方法调整过程条件,以确定优化预测轨迹、产物数量(滴度)和/或产物质量的一组过程条件。
86.上述方法可以包括校准用于预测生物系统在生物反应器中生产的生物材料的混合系统模型,包括:获得包括一个或多个过程条件的测量的实验数据,一个或多个过程条件包括多个生物反应器批次(batch)的一个或多个过程参数、一个或多个代谢物浓度和一个或多个生物质相关度量(例如,细胞量),每个批次与过程条件的特定集合相关联;基于实验数据,使用混合系统模型的动力学模型确定理想条件下的生长速率;基于理想条件下的生长速率和来自实验数据的生长速率,使用动力学模型确定细胞裂解参数;使用物质平衡方程和实验数据确定代谢物的单位生产速率或单位消耗速率;确定抑制生长的因子的动力学参数,以最小化理想条件下的生长速率与实验数据中的生长速率之间的差值;训练机器学习模型来预测单位生产速率/单位消耗速率;基于代谢物的测量的单位消耗速率或测量的分泌速率训练混合系统模型的代谢条件模型,代谢条件模型用于将生物系统分类为与该生物系统生产的生物材料的单位生产率(specific productivity)相关联的代谢状态。
87.可以向优化模块提供一组参数以确定优化生物材料生产的过程条件,其中,该组参数包括理想条件下的生长速率、代谢物的单位消耗速率和单位生产速率以及新的过程条件。
88.该方法可以包括使用主成分分析(pca)监测生物反应器的主体属性(bulk properties)。可以使用偏最小二乘(pls)回归预测生物反应器的输出。该输出可以是一定量的生物材料。“生物材料”可以包括代谢物、细胞、期望蛋白质、抗体、免疫球蛋白、毒素、一个或多个副产物、目标分子或使用生物反应器制造的任何其他类型的分子。可以存在不止一种感兴趣的生物材料,包括产物、目标生物。
89.如本文所使用的,“抑制生长的因子”可以包括底物限制、温度或ph变化或抑制生长的代谢物。术语“单位生产率”可以指在每个细胞的基础上生产的产物的量。术语“过程优化”可以指确定过程的最佳调整或设置。代谢物可包括任何合适的分析物,包括但不限于:氨基酸(例如,丙氨酸、精氨酸、天冬氨酸、天冬酰胺、半胱氨酸、半胱氨酸、谷氨酸、谷氨酰胺、甘氨酸、组氨酸、羟脯氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、缬氨酸等)、糖类(例如,岩藻糖、半乳糖、葡萄糖、葡萄糖-1-磷酸葡萄糖、乳糖、甘露糖、棉子糖、蔗糖、木糖等)、有机酸(例如,乙酸、丁酸和2-羟基丁酸、3-羟基丁酸、柠檬酸、甲酸、富马酸、异戊酸、乳酸、马来酸、丙酸、丙酮酸、琥珀酸等)、其他有机化合物(例如,丙酮、乙醇、焦谷氨酸等)。
90.根据另一方面,提供了一种包括指令的非暂时性计算机可读介质,当由至少一个处理器执行时,指令使至少一个处理器执行本文所述的任何方面的任何实施例的方法。
91.根据另一方面,提供了一种包括代码的计算机程序,当在计算机上执行时,代码使计算机执行本文所述的任何方面的任何实施例的方法。
附图说明
92.作为示例,现在将参考附图来描述本公开的实施例,在附图中:
93.图1示出了根据本公开实施例的一般生物过程的简化过程图;
94.图2是示出了根据本公开的实施例的提供工具的方法的流程图;特别地,该流程图示出了模型校准过程,该过程得到可用于预测生物过程的一个或多个代谢条件变量的校准后的模型;
95.图3是示出了根据本发明实施例的预测一个或多个代谢条件变量的方法的流程图;特别地,该流程图示出了模型部署过程,通过该过程可以预测生物过程的代谢条件变量;
96.图4示出了根据本公开的实施例的所选参数对动力学生长模型的变量的影响;图4a是示出对于参数θ
i,n
的三个示例性值,捕获了生长抑制变量对生长速率的影响的校正因子(y轴)的值随生长抑制变量(x轴,例如具有细胞抑制作用的代谢物的浓度)的值变化的曲线图,在该示例中参数θ
i,n
表示变量zn的近似值,在大于该近似值时,变量zn开始抑制生长;图4b是示出对于参数θ
s,n
的三个示例性值,捕获了底物限制变量对生长速率的影响的校正因子(y轴)的值随底物限制变量(x轴,例如代谢物(如营养物)的浓度)的值变化的曲线图,在该示例中,参数θ
s,n
表示变量zn的近似值,在小于该近似值时,变量zn开始对生长产生限制作用;图4c和图4d是示出对于参数θ
q,n
的三个示例性值(μ
q,n
的值固定)(d)和参数μ
q,n
的三个示例性值(θ
q,n
的值固定)(c),捕获了对生长具有二次影响的变量的作用的校正因子(y轴)的值随二次影响变量(x轴,例如温度、ph)的值变化的曲线图,其中,在这些示例中,参数θ
q,n
表示效应的扩散,并且参数μ
q,n
表示发生最大生长的值;
97.图5示意性地示出了根据本公开的实施例的系统;
98.图6示意性地示出了用于实现根据本公开的实施例的方法的计算架构;
99.图7示出了使用如本文所述的混合模型监测生物过程的示例性方法的流程图;
100.图8示出了使用如本文所述的混合模型模拟生物过程的示例性方法的流程图;
101.图9a-图9d示出了使用如本文所述的混合模型的示例;图9a-图9c示出了根据本公开的自变量调整对生长廓线(growth profile)的影响的示例:对于每个图,以实线示出预测的生长状态的廓线,并且包括测量的状态的相关联数据以用于比较;(a)是具有温度变化(抑制生长)的批次的测量和预测的轨迹的示例,(b)是具有ph变化和低进料速率(葡萄糖耗竭(glucose depletion))的批次的测量和预测的轨迹,(c)是具有ph和温度变化的批次的测量和预测的轨迹;(d)示出了根据本公开的由混合模型进行的细胞状态分类的示例输出;该图示出了pca得分散点图,提供了对由葡萄糖耗竭引起的代谢紊乱的可观察性(例如,来自使用pca的状态观察器的预测);以原点为中心的圆圈内的葡萄糖浓度表示正常操作——超出此范围的葡萄糖值表明滴度降低或产物质量问题的风险增加;
102.图10示出了根据本公开的示例性实施例的生物过程监测/控制过程的结果(a),并且示出了根据本公开的使用各种实施方式获得的预测之间的比较(b-d);(a)对于每个代谢物,每个图比较:(i)在左侧,(a)代谢神经网络预测的代谢物的单位消耗速率/分泌速率和(b)根据相应代谢物浓度的测量结果回溯计算的对应单位消耗速率/分泌速率之间的均方误差(mean square error,mse)(其中,条(bar)的高度表示6折(6folds)模型交叉验证过程的平均mse,误差条(error bar)指示6折的标准偏差);以及(ii)在右侧,(a)针对相应代谢物计算的单位消耗速率/分泌速率(计算为从12个批次的代谢浓度测量中回溯计算的平均值)和(b)从相应的回溯代谢物浓度测量中计算的对应单位消耗速率/分泌速率之间的mse(其中,条的高度表示12个批次的平均mse,误差条指示围绕该平均值的标准偏差);注意,“基准”数据是使用从相同测量导出的度量计算的,这些度量被用作mse计算的地面真值,因此人为压低;对于相应的代谢物,每个图(b-d)比较:(a)代谢神经网络预测的代谢物的单位消耗速率/分泌速率和(b)根据相应代谢物浓度的测量结果回溯计算的对应单位消耗速率/
分泌速率之间的均方误差(mse)(其中,条的高度表示6折模型交叉验证过程的平均mse,误差条指示6折的标准偏差);(b)左侧的条示出了使用滞后=0的代谢神经网络的数据,中间的条示出了使用滞后=1的代谢网络(如图10a中用于获得预测的网络的情况)的数据,右侧的条示出了使用滞后=2的代谢网络的数据;(c)左侧的条示出了仅使用代谢物浓度作为输入值的代谢神经网络的数据,右侧的条示出了使用所有可用变量作为输入值的代谢神经网络(如图10a中用于获得预测的网络的情况)的数据;(d)左侧的条示出了仅使用代谢物浓度作为输入值的代谢神经网络(如图10c中用于获得左侧的条的预测的网络的情况)的数据,右侧的条示出了使用由生成左侧的条的数据的网络使用的5个代谢物浓度中的4个代谢物浓度(除葡萄糖浓度以外)作为输入值的代谢神经网络的数据;
103.图11示出了根据本公开的示例性实施例的生物过程监测/控制过程的结果:该图比较:(i)在左侧,滴度神经网络预测的单位生产速率(specific production rate,spr)和从回溯测量的产物浓度计算的对应spr之间的mse(其中,条的高度表示6折网络交叉验证过程的平均mse,误差条指示6折的标准偏差);以及(ii)在右侧,计算为12个批次的平均值的spr和从回溯测量的产物浓度计算的spr之间的mse(其中,条的高度表示12个批次的平均mse,误差条指示围绕该平均值的标准偏差);同样,“基准”数据是使用从相同测量导出的度量计算的,这些度量被用作mse计算的地面真值,因此人为压低;
104.图12示出了根据本公开的示例性实施例的生物过程模拟的结果;每个图与用于模拟的动力学生长模型中所表示的代谢物相关,并且示出了:(i)在左侧:(a)动力学生长模型使用代谢神经网络(用于预测葡萄糖、谷氨酰胺、乳酸、谷氨酸和氨中的每一个在每个时间点的单位转运速率)预测的相应代谢物浓度和(b)对应的(回溯)测量的浓度之间的均方误差(mse)(其中,条的高度表示6折模型交叉验证过程的平均mse,误差条指示6折的标准偏差);以及(ii)在右侧,(a)由同一动力学生长模型使用从(回溯)测量的浓度计算的12批次的平均单位转运速率计算的相应代谢物浓度和(b)对应的(回溯)测量的浓度之间的mse(其中,条的高度表示12批次的平均mse,误差条指示围绕该平均值的标准偏差);注意,“基准”数据是使用从相同测量导出的度量计算的,这些度量被用作mse计算的地面真值,因此人为压低。
105.本文所示的附图示出了本发明的实施例,这些附图不应解释为限制本发明的范围。在适当的情况下,将在不同的图中使用相同的附图标记,以表示所示实施例中的相同结构特征。
具体实施方式
106.下面将参考附图描述本发明的具体实施例。
107.生物过程
108.如本文所使用的,术语“生物过程”(在本文中也称为“生物制造过程”)指的是一种过程,在这种过程中,生物成分(例如细胞、细胞部分(如细胞器)或多细胞结构(如有机体或球体))被保存在人工环境(如生物反应器)中的液体培养基中。在实施例中,生物过程指的是细胞培养物。生物过程通常产生产物,产物可以包括生物质和/或由于生物成分的活性而生产的一个或多个化合物。生物反应器可以是一次性的容器或可重复使用的容器,生物反应器中可以容纳适用于进行生物过程的液体培养基。在us2016/0152936和wo2014/020327
中描述了适用于生物过程的示例生物反应器系统。例如,生物反应器可选自:先进微生物反应器(例如the automation partnership ltd的250或15生物反应器)、一次性生物反应器(例如袋式生物反应器,例如sartorius stedim biotech gmbh的str生物反应器)、不锈钢生物反应器(例如sartorius stedim systems gmbh的系列可用的5至2000l生物反应器)等。本发明适用于任何类型的生物反应器,尤其适用于从台式系统(benchtop system)到制造规模系统(manufacturing scale system)的任何供应商和任何规模的生物反应器。
109.细胞培养(cell culture)指的是将活细胞保存在人工环境(如生物反应器)中的生物过程。本文所述的方法、工具和系统适用于使用可在培养物中保存的任何类型的细胞(无论是真核细胞还是原核细胞)的生物过程。特别地,本发明可用于使用细胞类型监测和/或控制生物过程,细胞类型包括但不限于哺乳动物细胞(例如中国仓鼠卵巢(chinese hamster ovary,cho)细胞、人胚胎肾(human embryonic kidney,hek)细胞、vero细胞等)、非哺乳动物动物细胞(例如鸡胚成纤维(chicken embryo fibroblast,cef)细胞)、昆虫细胞(例如黑腹果蝇(d.melanogaster)细胞、家蚕(b.mori)细胞等)、细菌细胞(例如大肠杆菌(e.coli)细胞)、真菌细胞(例如酿酒酵母(s.cerevisiae)细胞)和植物细胞(例如拟南芥(a.thaliana)细胞)。生物过程通常会生产产物,该产物可以是细胞本身(例如用于进一步生物过程的细胞群、用于细胞治疗的细胞群、用作产物(如益生菌、原料等)的细胞群)、大分子或大分子结构(例如蛋白质、肽、核酸或病毒颗粒(如单克隆抗体、免疫原性蛋白质或肽、用于基因治疗的病毒或非病毒载体、例如用于食品工业和诸如水净化、去污染等环境应用的酶))、或小分子(例如醇、糖、氨基酸等)。
110.图1示出了一般生物过程的简化过程图。该生物过程在反应器2中实现,在所示的实施例中,反应器2配备有搅拌装置22。描述了四个流(flow)(在本文中也称为“流(stream)”),但是根据特定情况,这些流中的任何一个流或全部流可能不存在。第一流24是包含任何添加到生物反应器中的培养物的物质的进料流(feed flow)ff(通常包括新鲜培养基,在这种情况下,生物过程可称为“补料分批(fed-batch)”过程,“灌注(perfusion)”过程或“连续(continuous)”过程),第二流26是与生物反应器中的培养物具有相同成分的出料流(bleed flow)fb,第三流28a是通过使用细胞分离装置28处理辅助收获流(auxiliary harvest flow)28c而获得的收获流fh,细胞分离装置28用于生产第三(收获)流和第四流28b,第四流28b是包括细胞和在细胞分离装置28中尚未完全分离的任何培养基的循环流(recycle flow)fr。在实施例中,因为仅考虑收获流fh足以捕获通过收获和细胞分离过程从生物反应器有效输出的流,因此可以忽略循环流fr。因此,对存在或不存在的收获流的提及可以指存在或不存在辅助收获流28c(以及导出的收获流和循环流——fh和fr)。可以假设收获流fh包括与反应器中的培养基具有相同成分的培养基,但不存在细胞或存在的细胞很少。进料流、出料流和收获流(ff、fb、fh和fr)可能都不存在,在这种情况下,生物过程被称为“无补料分批过程(unfed batch process)”或简称为“分批过程”。当提供进料流ff和收获流fh时,该生物过程可称为“灌注”培养。当提供进料流ff和出料流fb使得生物过程在(伪)稳态(从过程条件的观点来看,即,尤其是保持培养物的体积恒定)下操作时,生物过程可称为“连续”培养。当提供进料流ff但不存在输出流(出料流和收获流,fb和fh)时,生物过程可称为“补料分批”过程。本发明适用于上述所有操作模式。
111.生物过程的产物可以具有一个或多个关键质量属性(cqa)。如本文所使用的,“关键质量属性”是可以被定义和测量以表征产物的质量的产物的任何属性(尤其包括任何化学、物理、生物和微生物属性)。可以定义产物的质量特性,以确保产物的安全性和有效性保持在预定的边界内。cqa可以尤其包括小分子或大分子的分子结构(尤其包括肽或蛋白质的一级、二级和三级结构中的任何一种)、蛋白质或肽的糖基化谱等。产物可与“规范”相关联,该“规范”提供产物需要符合的一个或多个cqa的值或值的范围。如果产物的所有cqa都符合规范,则该产物可称为“规范”(或“符合规范”、“在规范内”等),否则可称为“不规范”(或“不符合规范”)。cqa可以与一组关键过程参数(cpp)以及实现可接受cqa的cpp值的范围(可选地,成熟度相关范围)相关联。如果cpp在被认为实现可接受的cqa的预定范围内,则生物过程运行(即生物过程的执行的特定实例)可以称为“正常”或“规范”,否则可以称为“不正常”或(“不符合规范”)。
112.如本文所使用的,术语“成熟度”指的是生物过程完成的度量。成熟度通常以从生物过程开始到生物过程结束的时间来衡量。因此,术语“成熟度”或“生物过程成熟度”可以指从参考时间点(例如生物过程开始)开始的时间量。因此,措辞“随生物过程成熟度变化”(例如,将变量量化为“随生物过程成熟度变化”)在一些实施例中可以指“随时间变化”(例如,将变量量化为“随时间变化,例如自生物过程开始以来”)。反之,除非上下文另有指示,否则对时间相关变量的提及(无论是在文本中还是在方程中)应理解为适用于任何成熟度度量(包括但不限于时间)。特别地,可以使用随时间单调增加的任何度量,例如,可以使用自生物过程开始以来在培养基中积累或提取的所需产物(或不需要的副产物)的量、积分细胞密度等。成熟度可以用百分比(或其他分数度量)来表示,也可以用绝对值来表示,该绝对值逐渐变为某个值(通常是最大值或最小值),在该绝对值变为该值时,生物过程被认为是完整的。
113.如本文所使用的,术语“过程条件”指的是生物过程操作的任何可测量的物理化学参数。过程条件可以尤其包括培养基和生物反应器操作的参数,例如ph、温度、培养基密度、材料进出生物反应器的体积/质量流速、反应器的体积、搅拌速率等。过程条件还可以包括生物反应器中生物质(例如总细胞密度、活细胞密度等)的测量或生物过程的整个室中代谢物的数量(尤其包括任何细胞室、包括细胞室、包括培养基和细胞的培养物室和培养基室中代谢物的数量)的测量。
114.如本文所使用的,术语“过程输出”指的是量化过程的期望结果的一个值或一组值。过程的期望结果可以是生产生物质本身、生产一个或多个代谢物、降解一个或多个代谢物、或这些结果的组合。
115.术语“代谢物”指的是在生物过程中由细胞消耗或生产的任何分子。代谢物尤其包括营养物(如葡萄糖、氨基酸等)、副产物(如乳酸和氨)、所需产物(如重组蛋白或肽)、参与生物质生产的复合分子(如脂质和核酸)、以及由细胞消耗或产生的任何其他分子如氧(o2)。如本领域技术人员所理解的,根据特定的情况,同一分子可以认为是营养物、副产物或所需产物,并且这甚至可以随着生物过程的操作而改变。然而,所有参与细胞代谢的分子(无论是作为由细胞机器(cellular machinery)进行的反应的输入或输出)在本文中称为“代谢物”。
116.细胞代谢条件
117.术语“细胞代谢条件”(在本文中也称为“代谢条件”或“细胞条件”)指的是表征生物过程中的细胞的代谢(即生物过程中的细胞的代谢活性)的一个或多个变量的值。细胞代谢条件可以尤其包括代谢物进出细胞的单位转运速率——在本文中也称为单位消耗速率(例如当代谢物(如营养物)主要由细胞消耗时)或单位分泌速率(当代谢物主要由细胞生产时;特别是当代谢物是所需产物时,这也可以称为单位生产速率(spr)),或从包括以下一个或多个变量(例如如下文将进一步描述的,使用多元分析技术的变量)的一组变量中导出的任何变量。例如,在一些实施例中,细胞培养物的代谢条件可以表示为[metabolic condition]=f(δ,u,m,s),其中f是将原始变量集合转换为捕获原始变量之间关系的一个或多个变量的函数,δ是一个或多个代谢物的单位分泌速率/消耗速率,u是诸如温度、ph等的过程变量,m是代谢物浓度,s是表示细胞培养物系统的状态的变量。如下文将进一步阐述的,状态可以是由微分方程系统建模的变量,这些微分方程共同构成了动力学生长模型。例如,细胞培养物系统的状态变量可以包括活细胞密度、裂解细胞密度、总细胞密度、死细胞密度或相关变量(例如细胞活力)中的一个或多个。如下文进一步阐述的,可以例如使用pca、pls或opls来获得函数f。代谢物的细胞消耗速率或分泌速率/生产速率(即代谢物进出细胞的单位转运速率)和细胞内代谢物的浓度(可以用每体积或每细胞的质量单位表示)可以认为表示代谢变量(因为这些变量表征细胞的代谢)。注意,代谢物可以转运到细胞内,也可以运转到细胞外(例如,代谢物可以被消耗也可以被生产),在这种情况下,单位转运速率量化了在两个方向上移动的联合影响。换言之,代谢物的单位转运速率量化了细胞和液体培养基之间转运的代谢物的净量(例如,作为培养基中代谢物的量的变化,反映了从培养基到细胞的移动,反之亦然)。此外,生物过程的室中的同一代谢物的浓度(例如在主体成分或液体培养基中,可以用每体积的质量单位表示)可以认为表示过程变量(因为该浓度表征了一个宏观过程变量)。例如,液体培养基中的氧或葡萄糖浓度(例如以质量/体积为单位)可以认为是在宏观水平描述过程(过程条件)的过程变量(在本文中也称为“过程参数”),而细胞中的氧或葡萄糖浓度(例如以质量/细胞为单位)可以认为是描述细胞的代谢条件的代谢变量。
[0118]
术语“多元统计模型”指的是旨在捕获多个变量之间的关系的数学模型。常用的多元统计模型有主成分分析(pca)、偏最小二乘回归(pls)和正交pls(opls)。术语“多元统计分析”指的是建立(包括但不限于设计和参数化)和/或使用多元统计模型。
[0119]
主成分分析(pca)用于识别一组正交轴(称为“主成分”),这些轴捕获数据中量逐渐减少的方差。第一主成分(pc1)是使一组数据在pc1轴上的投影的方差最大化的方向(轴)。第二主成分(pc2)是与pc1正交的方向(轴),该方向(轴)使数据在pc1轴和pc2轴上的投影的方差最大化。数据点在由一个或多个主成分定义的新空间中的坐标有时被称为“得分”。pca作为降维方法,为每个数据点获得得分,这些得分捕获多个基础变量对数据多样性的贡献。pca可以用于生物过程的一组运行的历史数据,以表征和区分好的(正常的)和坏的(不正常的)过程条件。这实现了对历史批次何时偏离了可接受的过程条件的回溯识别,并解释了各个过程变量中哪个过程变量对全局过程条件中观察到的偏差影响最大。这可以用来研究如何在未来避免这样的偏差。
[0120]
pls是一种回归工具,pls通过将一组预测变量和对应的可观察变量投影到新空间来标识线性回归模型。换言之,pls将预测矩阵x(维数mxn)和响应矩阵y(维数mxp)之间的关
系标识为:
[0121]
x=tp
t
e (1)
[0122]
y=uq
t
f (2)
[0123]
其中,t和u是维数为mxl的矩阵,t和u分别是x得分(x在“潜在变量”的新空间上的投影)和y得分(y在新空间上的投影);p和q是正交载荷矩阵(定义新空间并分别具有维数nxl和pxl);矩阵e和f是误差项(假设e和f都是独立且同分布(independent and identically distributed,iid)的随机正态变量)。得分矩阵t概括了x中的预测变量的变化,得分矩阵u概括了y中的响应的变化。矩阵p表示x和u之间的相关性,矩阵q表示y和t之间的相关性。将x和y分解成得分和对应载荷的矩阵,以最大化t和u之间的协方差。opls是pls的一种变型,其中,x中的变化被分成三个部分:与y相关的预测部分(如pls模型中的tp
t
)、正交部分(捕获与y不相关的系统变化的t
orth
p
ortht
)和噪声部分(如pls模型中的e,捕获残差)。偏最小二乘(pls)和正交pls(opls)回归可以用来表征过程条件对期望过程输出(产物浓度、质量属性等)的影响。这可以通过拟合如上所述的(o)pls模型来执行,其中,x包括被认为对过程输出有影响的一个或多个过程变量,并且y包括过程输出的对应度量。这可以用来确定可以控制哪些过程变量以及应该如何控制这些变量,以改进或控制期望输出。
[0124]
软件套件(sartorius stedim data analytics)还包括所谓的“批次演化模型(batch evolution model,bem)”,bem描述了过程条件的时间序列演化,称为过程“路径”。通过拟合如上所述的(o)pls模型来获得过程路径,但是在该模型中,x包括在过程的演化中的多个时间(成熟度值)测量的被认为具有潜在相关性的一个或多个过程变量,并且y包括对应的成熟度值。例如,可以在m个成熟度值下测量一组n个过程变量,这nxm个值可以作为系数包括在矩阵x中。对应的矩阵y是成熟度值的mx1矩阵(即长度为m的向量)。因此,t矩阵包括对于描述与成熟度最相关的过程变量的各个方面的m个成熟度值中的每个成熟度值和l个识别的潜在变量中的每个潜在变量的得分值。通过使用t中的得分值来训练关于在过程结束时实现所需产物质量的过程路径的bem,可以定义“黄金bem(golden bem)”,“黄金bem”描述对于未来批次可接受的过程路径的范围(实现在规范内的cqa)。这使得通过监测批次能够知道正在进行的批次在规范内。这还意味着,如果一个正在进行的批次看起来将偏离接受的路径范围,则可以向操作者发出警报,让操作者知道需要采取校正动作来防止产物损失。此外,可以向操作者强调导致过程条件偏差的过程测量(通过分析x中对t中观察到已经偏离期望进程的得分贡献最大的变量),以帮助诊断问题和识别适当的校正动作进程。这都可以实时完成。此外,操作者只需要在正常的批次处理操作中考虑一小组概要参数,只有当出现问题时,操作者才选择与适当的主题专家一起深入讨论。
[0125]
使用物质平衡方程计算单位转运速率
[0126]
代谢物i的单位转运速率(下文示为δ
m,i
)(即单位消耗速率或生产速率/分泌速率,取决于从反应器的角度来看该速率是正值还是负值)是捕获生物过程中细胞代谢条件方面的重要变量。此外,在代谢物是所需产物的情况下,该代谢物的单位分泌速率/生产速率提供了对细胞培养物生产率的有用指示。可以如下文所述的在特定时间点使用物质平衡方程计算这些变量δ
m,i
(每个感兴趣的代谢物一个变量δ
m,i
),同时在两个连续的时间点测量相应代谢物的浓度和活细胞密度。
[0127]
表示代谢物(特别包括营养物质、副产物和所需产物)的主体浓度的演化的方程可
以基于物质平衡方程(如以下方程(3))来表示:
[0128]
[反应器内代谢物的量的总变化]=[进入反应器的代谢物的总的流]-离开反应器的代谢物的总的流] [反应器内细胞分泌的代谢物]-反应器内细胞消耗的代谢物](3)
[0129]
方程(3)以数学形式表示系统(反应器)中研究的代谢物的质量守恒。在每个时间点t都需要满足方程(3)。方程(3)中代谢物的流可以表示为质量流(massflow)或摩尔流(molarflow)(因为摩尔流可以通过摩尔质量转换为质量流,反之亦然,使得无论选择何种单位,都可以核实方程中表示的质量守恒),并且本领域技术人员能够将其中一个转换为另一个。因此,对质量流的提及旨在包括在对方程内的单位的一致性进行对应调整的情况下使用对应的摩尔流。类似地,对浓度的提及可以指质量浓度或摩尔浓度。进入生物反应器的代谢物的流取决于进料流ff(如果存在该流,即ff≠0)和该流中代谢物的浓度的值。离开生物反应器的代谢物的流取决于收获流fh(如果存在的话)和出料流fb(如果存在的话)的值,以及在这些相应流中代谢物的浓度。生物反应器中细胞对代谢物的消耗和分泌取决于反应器中的活细胞密度和称为“单位转运速率”(有时也称为“代谢速率”)的变量,该变量也可以称为细胞对代谢物的“单位消耗速率”(通常,如果“单位转运速率”是负值,则细胞正在消耗代谢物)或细胞对代谢物的“单位分泌速率/生产速率”(通常,如果“单位转运速率”是正值,则细胞正在生产代谢物)。因此,对于一般系统(例如,如图1所示),对于代谢物i,方程(3)中描述的物质平衡可写为以下方程(4):
[0130][0131]
其中,δ
m,i
培养物中细胞对代谢物i的单位转运速率,mi是反应器中代谢物i的浓度,v是生物反应器中培养物的体积,m
f,i
是进料流中代谢物i的浓度,m
h,i
是收获流中代谢物i的浓度,m
b,i
是出料流中代谢物i的浓度,xv是反应器中的活细胞密度,并且ff、fh和fb分别是体积进料流速、体积收获流速和体积出料流速(虽然质量流速可以与相应流的密度的适当系数等同地使用)。在实施例中,项δ
m,i
*xv可以被项替代,其中,ε是一个常数,选择ε以确保低于代谢物检出限的mi的值不会导致单位转运速率估计中的误差。通常,将ε选择为约等于代谢物的检出限(例如,在代谢物浓度被标准化的情况下,可以将ε选择为0.05)。
[0132]
方程(4)假设收获流28a包含通过辅助收获流28c离开系统的唯一物质(即,因为代谢物仅通过收获流离开系统,所以模型中无需包括辅助收获流和回流),并且细胞分离设备28的作用使得可以假设收获流28a不包含细胞。方程(4)可适用于包括辅助收获流28c(如果使用质量流速,则包括对应的m
a,i
和密度ρa)和回流28b(以及对应的m
r,i
和ρr)。此外,可以修改方程(4)以对通过收获流移除某些细胞进行建模。换言之,取决于生物过程的设置和所作的假设,可以在方程(4)中添加附加项,并且可以移除一些项。下面提供了一些常见的生物过程设置及其对应的简化方程的示例。
[0133]
如本领域技术人员所理解的,取决于操作模式(例如,补料分批、无补料分批等)和所作的假设(例如,各种流和生物反应器中的可变体积、可变浓度等),(3)中的一般方程表示可以不同。根据本文提供的教导,本领域技术人员将能够相应地表示和求解方程(3)。此外,一个特定假设是否合理可能视情况而定,本领域技术人员将能够使用众所周知的技术来核实是否是这样的情况。例如,本领域技术人员将能够核实培养物的体积是否恒定(例如
通过检查流入和流出生物反应器的材料的量或使用液位传感器)、培养基密度是否恒定(例如使用比重计)、一个或多个代谢物的浓度在一个或多个室和/或流中是否相同(例如使用一个或多个代谢物传感器分别测量这些室和/或流中的代谢物浓度)等。本领域技术人员还将意识到,一个特定假设在一种情况下可能是合理的,但在另一种情况下可能是不合理的。例如,培养基中的小分子代谢物的浓度在生物反应器和流出的流(收获流和/或出料流)中可能是相同的,但是如果大分子可能会被过滤器或其他结构拦截,则大分子的浓度在生物反应器和一个或多个流出的流之间可能是不同的。
[0134]
可以基于方程(4)(或如下所述,其简化变型),使用已知的(即测量或模拟的)代谢物浓度和活细胞密度的值,并使用一阶有限差分近似来计算在特定时间点的代谢物的单位转运(消耗/分泌)速率。例如,使用这样的近似,方程(4)可以根据方程(5)求解以得出在时间k的δ
m,i
(表示为δ
m,i
(k)或δ
m,i,k
):
[0135][0136]
其中下标k和k 1表示在代谢物浓度和活细胞密度的值可用的第k个时间点和第k 1个时间点的值,ivcdk是时间点k和时间点k 1之间的积分活细胞密度(integrated viable cell density)。注意,第k个观察到的消耗速率是具有前瞻性的,意味着其表示了时间间隔k

k 1的消耗速率。
[0137]
如下文将进一步阐述的,一个或多个感兴趣的代谢物的单位转运(消耗/分泌)速率可用作代谢条件模型的变量,该代谢条件模型将细胞的代谢条件分类为例如用于生物材料生产的最佳或次最佳状态或类别。
[0138]
对于灌注培养(其中存在进料流ff、出料流fb和收获流fh),可以通过做出一些假设来简化方程(4)。例如,假设在生物反应器的培养基中各处代谢物浓度相同,因此在收获流和出料流中的代谢物浓度也是相同的(换言之,假设可以忽略反应器内的浓度梯度,使得m
b,i
=m
h,i
=mi),并且可以忽略在出料流和收获流中损失的细胞数量,则方程(4)可以写为:
[0139][0140]
进一步假设培养物的体积是恒定的(即ff=fh fb),流是恒定的,并使用导数的一阶有限差分近似,可以求解方程(18a)以得出在时间tk的代谢物的单位消耗速率/分泌速率为:
[0141][0142]
对于补料分批培养物(其中存在进料流,但不存在出料流或收获流,即fh=fb=0),方程(18)可以写为:
[0143][0144]
使用导数的一阶有限差分近似求解方程(4b)可以得出在时间tk的代谢物的单位消耗速率/分泌速率为:
[0145][0146]
在进料流是连续或半连续的实施例中(例如对于滴入的进料流),方程(5b)中的方法可能特别有用。在实施批式(bolus)进料策略的实施例中(即,瞬时添加的进料流相对较大),可以使用伪代谢物浓度pmi重写方程(4b),伪代谢物浓度pmi允许从方程(4b)中消除进料流,即:
[0147][0148]
对于在进料流中提供的代谢物,可以通过以下来获得伪代谢物浓度pmi:(i)使用测量的(或以其他方式确定的,例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积和已知的进料浓度来确定每次进料中有多少代谢物被添加到反应器中,以及(ii)从进料后的代谢物浓度的所有测量中减去(i)中的值。对于进料中不存在的代谢物(或可假设进料中不存在的代谢物),可以通过以下来获得伪代谢物浓度pmi:(i)使用测量的(或以其他方式确定的,例如基于初始反应器的体积和一个或多个进料批次提供的体积)反应器体积来确定由于每次进料引起的稀释而导致的浓度变化,以及(ii)从进料后的代谢物浓度的所有测量中加上(i)中的值。可以用导数的一阶有限差分近似求解方程(4d)以得出在时间k的代谢物的单位转运速率:
[0149][0150]
方程(5d)也可以写为:
[0151][0152]
其中,m
i,k
是在时间k的代谢物i的浓度,madd
i,k
是在时间k的代谢物i的批式添加(bolusaddition)中代谢物i的量,vk是生物反应器中的总体积,ivcd是总活细胞密度。此外,如果该代谢物是细胞的产物(即预期不存在于进料中的代谢物,例如所需产物),则该代谢物的单位生产速率可以写为:
[0153][0154]
其中,δ
m,i
(k)也可以写为q
igg
(k),并且m
i,k 1
、m
i,k
也可以写为c
igg,k 1
、c
igg,k
,以表示该代谢物是所需产物,例如重组抗体(igg)。
[0155]
对于无补料分批培养物(不存在进料流、出料流或收获流,即ff=fh=fb=0),方程(4)可以写为:
[0156][0157]
求解该方程,可以得出在时间k的单位消耗速率/分泌速率为:
[0158][0159]
在实施例中,可以使用方程(6)计算ivcdk:
[0160]
ivcdk=(αx
v,k
βx
v,k 1
)*(t
k 1-tk)(6)
[0161]
其中,系数α和系数β对两个活细胞密度值的相对影响进行加权,并且使得α β=1。
例如,这两个值的权重可以相同,即a=β=0.5。在实施例中,可以选择α和β以使得α》β(例如α=0.6和β=0.4)。可以选择这些系数来反映观察到的细胞生长行为,并且可以针对每个时间点独立地选择这些系数。如果可以假设指数增长,则可以使用对数变换来计算总活细胞密度。例如,可以使用方程(6a)来计算总细胞密度。
[0162][0163]
其中,
[0164]
或者,在本文描述的方法中可以使用任何用于计算总活细胞密度的方法。
[0165]
可以使用已知的(通常测量的)在时间/成熟度k和k 1的生物质浓度和代谢物浓度来求解上述在时间k的δ
m,i
的方程(或考虑到过程的配置和所作的一组假设而定义的任何对应的方程),以获得在可获得上述测量的每个时间点/成熟度值的代谢物转运速率。此外,这可以针对每种测量的代谢物单独进行。所得到的代谢物转运速率表征培养物中细胞的随成熟度变化的代谢条件,并表示为针对每单位成熟度(即通常每单位时间)每细胞的代谢物的量(质量或摩尔)。这表示关于细胞代谢条件的非常有价值的信息,如下文将进一步描述的,代谢条件模型可以使用这些信息来监测细胞培养物。注意,在用于单位转运速率的所有方程中,所有项的符号都可以取反,这取决于是使用负速率来表示细胞消耗代谢物,使用正速率来表示细胞生产代谢物(即,从培养基的角度来描述速率),还是相反的情况(即,使用正速率来表示细胞消耗代谢物,使用负速率表示细胞生产代谢物,换言之,从细胞室的角度来描述速率)。
[0166]
使用机器学习预测单位转运速率
[0167]
使用上述方法,只有在代谢物浓度和活细胞密度数据可用的时间点才能准确计算单位转运速率。无论是为了预测性控制、过程优化还是模拟(数字孪生(digital twin)),这都限制了我们预测生物过程行为的能力。本发明解决了该问题,本发明使用机器学习方法(即,训练和/或部署特定机器学习模型的机器学习算法)来基于表征在一个或多个先前时间点的生物过程的一个或多个变量的已知的(测量的或计算的)值来预测在未来时间点的一个或多个代谢物的单位转运速率。
[0168]
换言之,根据本发明,可以获得代谢物的单位消耗速率/分泌速率δi=f
ml,i
(u,m,s),其中,f
ml,i
是已被训练用于预测与以下内容相关的单位消耗速率/分泌速率δi(单独或与其他δi一起)的模型:选自过程变量u(例如温度、ph等)的一个或多个变量、一个或多个代谢物浓度m(其中,代谢物浓度也可以被认为是过程变量的一部分,即符号u可以指物理-化学过程变量和/或主体培养基中的代谢物浓度)、以及一个或多个表示细胞培养系统的状态的变量s(例如活细胞密度,裂解细胞密度,总细胞密度,细胞活力)。为了避免任何疑义,上述这些类别的变量中的任何变量可以不存在,即模型f
ml,i
(u,m,s)可以不包括选自过程变量u的变量,不包括选自代谢物浓度m的变量,和/或不包括选自细胞培养物状态变量s的变量(前提是包括这些类别中的至少一个类别的至少一个变量)。在实施例中,上述一个或多个变量至少包括代谢物浓度m。因此,在一些实施例中,过程变量和/或细胞状态变量可以不存在,并且训练的模型可以至少(或仅)基于一个或多个代谢物浓度来预测单位消耗速率/分泌速率δi。优选地,上述一个或多个代谢物浓度包括已预测单位消耗速率的代谢物的浓度,和/或其浓度与已预测单位消耗速率的代谢物(例如,直接产物或其前体)的浓度高度相关
的代谢物。在不希望被理论束缚的情况下,因为代谢物浓度与单位转运速率自然相关,因此仅使用这些代谢物浓度就可以获得在预测单位转运速率的任务中表现令人满意的机器学习。然而,过程变量和细胞培养物状态变量可以承载互补信息,机器学习模型可以有利地学习使用这样的信息来提高其预测准确性。因此,包括数量更多和/或种类更多的预测变量(例如,包括来自u、m和s类别中的一个或多个或每个类别的变量)可以获得具有提高的预测准确性和/或能够在更多情况下实现良好和/或提高的准确性的模型。
[0169]
术语“机器学习模型”指的是已被训练用于基于输入数据预测一个或多个输出值的数学模型,其中,“训练”指的是使用数学模型的训练数据和参数学习的过程,该过程获得可以预测与训练数据相关联的比较(已知)数据相比具有最小误差的输出值的模型,其中,这些比较值通常称为“标签”。术语“机器学习算法”或“机器学习方法”指的是训练和/或部署机器学习模型的算法或方法。本发明中使用的机器学习模型可以视为回归模型,因为这些机器学习模型捕获因变量(正在预测的单位转运速率)和一组自变量(也称为预测因子)之间的关系。根据本发明,可以使用任何机器学习回归模型。在本发明的上下文中,通过使用学习算法来训练机器学习模型以识别函数f:u,m,s

δi,其中,f是由一组参数θ参数化的函数,使得:
[0170][0171]
其中,是预测的单位转运(消耗/分泌)速率,θ是标识为满足方程(8)的一组参数:
[0172][0173]
其中,l是基于观察到和预测的单位消耗速率来量化模型预测误差的损失函数。函数f、参数θ和函数l的具体选择以及用于获得θ的具体算法(学习算法)取决于所用的具体机器学习方法。可以在本发明的上下文中使用满足上述方程的任何方法,尤其包括损失函数、模型类型和架构的任何选择。在实施例中,机器学习模型是线性回归模型。线性回归模型是根据方程(9)形式的模型,也可以根据方程(9b)写为:
[0174]
y=xβ ε(9)
[0175]
yi=β0 β1x
i1
..β
p
x
ip
εii=1,

,n(9b)
[0176]
其中,y是具有n个元素yi(每个因变量一个)的向量,x是具有针对p个预测变量中的每一个和n个因变量中的每一个的元素x
i1
..x
ip
和n个元素1作为截距值的矩阵,β是p 1个参数的向量,ε是n个误差项(每个因变量一个)的向量。
[0177]
在实施例中,机器学习模型是随机森林回归(randomforestregressor)。在例如breiman,leo."randomforests."machinelearning45.1(2001):5-32中描述了随机森林回归。随机森林回归是一种模型,该模型包括决策树的集合,并输出一个分类,该分类是各个树的平均预测。决策树对特征空间进行递归分区,直到每个叶子(最终分区集)与目标的单个值相关联。回归树具有可以被认为形成一组连续的数字的叶子(预测的结果)。通常通过获得浅决策树(shallowdecisiontrees)的集合来参数化随机森林回归。在实施例中,机器学习模型是人工神经网络(ann,也简称为“神经网络(neuralnetwork,nn)”)。通常通过一组权重来参数化ann,这些权重被应用于多个连接神经元中的每个连接神经元的输入,以获得被馈送到激活函数以产生神经元输出的加权和。可以使用称为反向传播
(backpropagation)(参见例如rumelhart,david e.,geoffrey e.hinton,and ronald j.williams."learning representations by back-propagating errors."nature 323.6088(1986):533-536)的方法来训练神经网络的参数,通过反向传播,调整了连接权重以补偿学习过程中发现的错误,并结合权重更新过程,该权重更新过程例如是随机梯度下降(stochastic gradient descent)(参见例如kiefer,jack,and jacob wolfowitz."stochastic estimation of the maximum of a regression function."the annals of mathematical statistics 23.3(1952):462-466)。
[0178]
在回归问题中使用的合适的损失函数(例如本文所述的那些函数)包括均方误差、平均绝对误差和huber损失。可以根据本发明使用这些损失函数中的任何损失函数。均方误差(mean squared error,mse)可以表示为:
[0179][0180]
平均绝对误差(mean absolute error,mae)可以表示为:
[0181][0182]
对于离群值观察,mae被认为比mse更鲁棒。huber损失(参见例如huber,peter j."robust estimation of a location parameter."breakthroughs in statistics.springer,new york,ny,1992.492-518)可以表示为:
[0183][0184]
其中,α是参数。对于离群值,huber损失被认为比mse更鲁棒,并且在其最小值附近强凸。然而,因为mse可以更容易地解决优化问题,因此特别是当不期望存在较强的离群值影响时,mse仍然是一个非常常用的损失函数。
[0185]
在实施例中,机器学习模型包括多个模型(这些模型的预测被组合)的集合。或者,机器学习模型可以包括单个模型。在实施例中,可以训练机器学习模型以预测单个代谢物的单位分泌速率/消耗速率。或者,可以训练机器学习模型以联合预测多个代谢物的单位分泌速率/消耗速率。在这种情况下,所使用的损失函数可以修改为所有预测变量的平均值(可选地,加权平均值),如方程(13)所述:
[0186][0187]
其中,αi是可以为每种代谢物i单独地选择的可选的权重,δ和是所有代谢物的实际和预测的单位消耗速率的向量。可选地,可以在包括在损失函数之前对δi的值进行缩放(例如,通过归一化使得所有联合预测的变量的标签具有相等的方差),例如,以降低一些联合预测的主导训练的风险。
[0188]
在实施例中,基于输入值来训练机器学习模型以预测一个或多个代谢物的单位转运速率,输入值包括表征在时间点k的生物过程的一个或多个变量的已知的(测量的或计算的)值。在实施例中,基于输入值来训练机器学习模型以预测一个或多个代谢物的单位转运速率,输入值包括表征在多个时间点(k、k-1、

)的生物过程的一个或多个变量的已知的(测量的或计算的)值。例如,可以基于输入值来训练机器学习模型以预测一个或多个代谢物的单位转运速率,输入值包括表征在第一时间点k和第二时间点k-1的生物过程的一个或
多个变量的已知的(测量的或计算的)值。上述输入变量可以包括在多个时间点中的每个时间点的一个或多个变量的值,其中,可以针对每个时间点独立地选择一个或多个变量。例如,在一个时间点的一个或多个变量可以与在另一时间点的一个或多个变量部分或完全重叠。在实施例中,对于多个时间点中的每个时间点,上述一个或多个变量是相同的。在一些实施例中,训练数据(用于训练模型的数据)或提供给使用中的模型的数据中可以存在缺失值。训练和/或使用机器学习模型可以包括输入一个或多个缺失值。插补法(imputation method)是本领域中已知的。在本上下文中适于使用的插补法包括例如线性插值、均值代换等。
[0189]
在实施例中,基于输入值来训练机器学习模型以预测在未来时间点的一个或多个代谢物的单位转运速率,输入值包括表征在一个或多个时间点k、k-1等的生物过程的一个或多个变量的已知的(测量的或计算的)值。换言之,所使用的训练数据可以使得:根据在时间j》k、k-1、

的已知对应值来评估基于在一个或多个时间点k、k-1等的数据的模型预测。在实施例中,用于训练的输入数据中的多个时间点相隔预定时间段(例如1小时、2小时、3小时、12小时、1天、2天等)。例如,用于训练的输入数据可以包括在一个时间点和在与第一时间点相隔固定时间段的第二时间点的值。在实施例中,根据在时间j》k、k-1、

的已知对应值(标签值)来评估基于在一个或多个时间点k、k-1等的数据的模型预测,其中,时间点j与k、k-1、

中的一个或多个时间点相隔预定时间段。在简单的示例中,训练机器学习模型以预测从输入上述输入值中的最晚输入值的一天起的第二天(即1天内)的一个或多个代谢物的单位转运速率。在该示例中,如果输入值包括相隔一天的固定时间段的两个时间点,则训练机器学习模型以基于当前一天和前一天的一个或多个变量的值来预测第二天的一个或多个代谢物的单位转运速率。
[0190]
对于整个训练数据集,上述时间段(无论是在输入值之间还是在输入值和预测值之间)可以近似相同。或者,训练数据可以包括不相隔相同时间差的输入值的集合和/或输入值和对应的已知(标签)值的集合。例如,训练数据可以包括对多个生物过程的测量,其中,在多个生物过程中的一些生物过程中每天获取数据,而在其他生物过程中每半天获取数据。优选地,所使用的训练数据包括相隔近似相同的时间(或成熟度,视情况而定)差的输入值的集合以及输入值和对应的标签值的集合。在上述示例中,这可以通过仅使用训练数据的与连续多天相关联的测量(不止包括每日测量)来实现,或者相反地通过输入未获取测量的时间点的测量来实现。所训练的机器学习模型可以有利地用于预测与时间差相关联的单位转运速率,该时间差是预测和最晚输入值之间的时间差和/或是与训练数据中的对应时间差类似的多个输入值之间的时间差。时间和时间差的提及可以指代对应的成熟度和成熟度差。此外,已被训练用于基于包括在多个时间点的值的输入值来预测单位转运速率的机器学习模型可用于基于包括缺失值(例如,包括的时间点比训练机器学习模型的时间点更少)的输入值来预测单位转运速率。例如,当单个时间点的值可用时(例如,当机器学习模型用于基于初始条件进行预测时),情况可能就是这样。因此,例如,已被训练用于基于包括在两个连续时间点的值的输入值来预测单位转运速率的机器学习模型可用于基于包括在一个时间点的值和两个连续时间点中机器学习模型期望作为输入的另一个时间点的零值或估算值的输入值来预测单位转运速率。通常,可以使用各种方法来估算缺失数据,例如用对应的值的集合的平均值、中值或众数、从对应的值的集合中随机提取的值等来替换缺失
值。或者,可以使用支持缺失值的机器学习算法。这样的算法可能包括k最近邻(k-nearestneighbour)或分类和回归树。例如,机器学习模型可以是随机森林。
[0191]
动力学生长模型
[0192]
术语“动力学生长模型”指的是任何捕获生物过程中细胞群动力学的模型。因此,动力学生长模型可用于监测或模拟生物反应器中活细胞的数量(和其他培养相关参数),并预测在未来时间点的生物反应器中的细胞数量。例如,动力学生长模型可包括一个或多个微分方程,这些微分方程对一个或多个细胞群变量的成熟度相关(通常是时间相关)行为进行建模。细胞群变量是特定类型的过程条件,细胞群变量表征生物过程中的活细胞群、死细胞群、裂解细胞群和/或总细胞群。一般的细胞群变量包括活细胞密度(vcd)、死细胞密度和裂解细胞密度,分别捕获生物反应器中活细胞、死细胞和裂解细胞的浓度。在实施例中,动力学生长模型使用monod方程来捕获限制性营养物(limitingnutrient)的浓度与细胞生长速率的函数。以下方程(14)至方程(17)中提供了动力学生长模型的一个示例,这些方程分别描述了活细胞密度xv、死细胞密度xd、总细胞密度x
t
和裂解细胞密度x
l
随时间/成熟度的变化:
[0193][0194][0195][0196]
x
t
=xv xd x
l
(17)
[0197]
在方程(14)-(17)中,fb和fh分别是出料速率和收获速率(参见上文和图1),v是反应器体积,μ
eff
、μd和k
l
分别是有效生长速率、有效死亡速率和裂解速率。方程(14)包含以下假设:(i)活细胞以有效生长速率μ
eff
形成活细胞;(ii)活细胞可以通过出料流fb(如果存在的话)离开反应器;(iii)活细胞能以有效死亡速率μd转化为死细胞;(iv)没有活细胞通过收获流fh离开反应器(换言之,当存在收获流时,包括一个完美的细胞截留过滤器——这在通过收获流离开生物反应器的任何细胞的量忽略不计时可以是一种有效的假设)。有效生长速率的计算对该模型的运作至关重要,详见下文。
[0198]
方程(15)包含以下假设:(i)活细胞以有效死亡速率μd形成死细胞;(ii)死细胞通过一阶过程(first-orderprocess)以速率k
l
转化为裂解细胞;(iii)死细胞可以通过出料流fb(如果存在的话)离开反应器;(iv)没有死细胞通过收获流fh离开反应器。有效死亡速率的计算详见下文。方程(16)包含以下假设:(i)死细胞以速率k
l
形成裂解细胞;(ii)裂解细胞可以通过出料流fb(如果存在的话)离开反应器;(iv)裂解细胞可以通过收获流fh(如果存在的话)离开反应器。方程(17)包含了这样的假设:细胞要么存活,要么死亡,要么裂解。这可以用于通过打破活细胞和死细胞的平衡来从其他变量计算其中一个变量,例如裂解细胞(通常不能直接测量)。
[0199]
在实施例中,例如,如以下方程(18)所提供的,可以将(通过参数μd捕获的)死亡过程建模为基本死亡速率和毒性因子的组合。
[0200]
μd=kd k
t
φ
t
(18)
[0201]
在方程(18)中,kd是初级(基本)死亡速率,k
t
是“毒性速率”,φ
t
是毒性的度量。该
变量φ
t
可以表示对细胞有毒性作用的一个或多个成分的浓度。在实施例中,假设φ
t
等于裂解细胞的浓度x
l
(即φ
t
=x
l
)。在其他实施例中,假设φ
t
等于由于细胞生长而在培养物中积累并抑制细胞生长和/或对细胞有毒的未知生物材料的浓度,该浓度被指定为φb(使得φ
t
=φb)。可以例如使用以下方程(19)来捕获该变量的演化:
[0202][0203]
该方程假设未知产物的生产速率与活细胞密度xv成正比,并且该产物可以通过出料流和收获流(fb、fh)(如果存在的话)离开生物反应器。
[0204]
在实施例中,可以将(通过参数μ
eff
捕获的)生长过程建模为理想条件下的生长速率μ
max
(假设在理想条件下生长速率最大)和描述其他系统变量对生长的影响的一个或多个因子的乘积。这些因子在一些情况下可以采取以下三种功能形式之一:底物限制ηs、二次ηq、或抑制ηi。这些因子与所实现的有效生长速率之间的关系可以在方程(20)中捕获:
[0205]
μ
eff
=μ
max
ηsηqηi(20)
[0206]
其中,校正因子ηs捕获ns个底物限制变量的贡献,ηq捕获nq个二次影响变量的贡献,ηi捕获ni个抑制变量的贡献。ns可以等于0(无底物限制变量)、1(一个底物限制变量)或任何自然数。nq可以等于0(无二次影响变量)、1(一个二次影响变量)或任何自然数。ni可以等于0(无抑制变量)、1(一个抑制变量)或任何自然数。上述校正因子可以计算为多个校正因子的乘积,其中的每个校正因子捕获底物限制变量/二次影响变量/抑制变量的贡献,如以下方程(21)-(23)所示:
[0207][0208][0209][0210]
在实施例中,使用具有以下方程(24)提供的形式的校正因子捕获抑制作用:
[0211][0212]
其中,zn是具有生长抑制作用的物质的浓度,θ
i,n
是表示zn水平的参数,高于该水平会产生抑制作用。图4a示出了对于参数θ
i,n
的不同值,生长抑制因子的值随生长抑制物质(其影响由校正因子模拟)的浓度变化的示例。上述方程(18)和(19)中的变量φ
t
可以视为抑制作用的特例,其中,抑制物质的浓度取决于活细胞密度(例如,因为抑制物质是由存在的细胞产生或由于存在细胞而产生)。该变量φ
t
有时也可以使用方程(24)中提供的公式来建模。因此,在一些实施例中,方程(20)可以写为:
[0213][0214]
其中,θ
t
(或θb,视情况而定)是表示生物材料的积累对生长的抑制作用的系数(例如,可以等于x
l
或)。如本领域技术人员所理解的,在一些实施例中,可以存在不止一种物质其中的每种物质都可以使用方程(18)和(25)以及相应的方程(19)中的相应项来建模。具有生长抑制作用的物质以及由培养物中的细胞产生或由于存在细胞而产生的物
质(即物质)的示例包括有毒的副产物,例如氨。具有不一定与活细胞密度相关的生长抑制作用的物质的示例包括包含在培养基中以具有期望作用但也可能对细胞培养物具有(理想条件下,轻微的)生长抑制作用的物质(例如抗生素)。
[0215]
在实施例中,使用具有以下方程(26)提供的形式的校正因子捕获底物限制影响:
[0216][0217]
其中,θ
s,n
是表示近似水平的参数,低于该水平时变量zn(限制生长的底物)开始对生长产生限制影响。图4b示出了对于参数θ
s,n
的不同值,底物限制因子的值随限制性底物(其影响由校正因子模拟)的浓度变化的示例。在方程(26)中,因子2用于赋予参数θ
s,n
一个直观的生物学含义:近似浓度,当zn低于该近似浓度时,可以看到限制影响(例如,该值使得当zn的值低于θ
s,n
时,抑制作用超过~0.95阈值的值)。该因子可以是任何值,以实现相同的行为,同时使得参数θ
s,n
被相应调整并且不再具有相同的直观解释。特别地,可以完全省略该因子(即设置为1)。类似地,在方程(24)和(25)中,立方项(即(zn/θ
i,n
))可以包括一个系数,该系数赋予参数θ
i,n
一个直观的生物学含义:近似浓度,当zn高于该近似浓度时,可以看到限制影响(例如,该值使得当zn的值达到θ
i,n
(例如0.37)时,抑制作用超过~0.95阈值的值)。具有底物限制影响的物质的示例包括营养物,如葡萄糖、氨基酸等。
[0218]
在实施例中,使用具有以下方程(27)提供的形式的校正因子捕获二次影响:
[0219][0220]
其中,μ
q,n
是表示目标值(即发生最大生长的值)的参数,θ
q,n
是表示影响的“扩散”的参数。因子1/25用于赋予参数θ
q,n
一个直观的含义,其中,θ
q,n
的值等于1意味着二次影响在目标值μ
q,n
±
1的范围内超过95%的阈值。该因子可以是任何值,以实现相同的行为,同时使得参数θ
q,n
被相应调整并且不再具有相同的直观解释。特别地,可以完全省略该因子(即设置为1)。因为可以使用户更容易设置这些参数(使用例如生物学知识或假设)或这些参数的实际边界,因此使用提供这些参数(例如θ
s,n
和θ
q,n
)的直观解释的因子可能是有利的。图4c示出了对于参数μ
q,n
的不同值(θ
q,n
的值固定等于1),二次影响因子的值随物质(其影响由校正因子建模)的浓度变化的示例。图4d示出了对于参数θ
q,n
的不同值(μ
q,n
的值固定等于5),二次影响因子的值随物质(其影响由校正因子建模)的浓度变化的示例。
[0221]
如本领域技术人员所理解的,作为上述方程的替代或除上述方程之外,可以使用其他方程来对细胞群体变量和影响这些变量的因子进行建模。这些方程一起可以形成状态空间模型(有时也称为状态观察器)。实际上,这些方程基于一系列状态变量xv、xd、x
t
、x
l
随输入到系统的输入的变化描述了的细胞培养物状态(本文也称为“细胞状态”)的演变,该输入包括例如影响细胞状态的各种物质的浓度。
[0222]
如上所述,该状态空间模型(包括动力学生长模型)可以被扩展为包括捕获主体培养物中一个或多个代谢物(尤其包括营养物、副产物和所需产物)的浓度的演化的一个或多个方程。此外,这些方程可用于计算单位分泌速率/消耗速率。然而,这些方程只允许计算在可以测量代谢物浓度的特定时间点的单位消耗速率/分泌速率。因此,使用物质平衡方程计算的单位转运速率可用于识别已经发生故障,但这些方程不能预测在未来时间点的单位消耗速率/分泌速率的值。因此,也不能计算在未来时间点可以预期的代谢物的浓度,因为这
需要在方程(4)(或等价方程)中包括随时间变化的单位转运速率。因为底物限制、抑制或具有二次影响的代谢物的浓度将影响细胞状态变量(通过上文阐述的动力学生长模型),因此这反过来限制了计算在这样的未来时间点可以预期的细胞状态变量的能力。本发明解决了这些问题。
[0223]
根据本发明,通过机器学习模型预测一个或多个感兴趣代谢物的单位转运速率。可以通过将这些预测包括在方程(4)和等价方程中,即通过用一个或多个代谢物的以下方程来扩展上述动力学生长模型,将这些预测集成到上述状态模型中:
[0224][0225]
其中,ε可以设置为0或反映上述代谢物的检出限的值,并且f
ml,i
中的(u,m,s)是在一个或多个先前时间点的相应变量的值。可以在每个时间点t求解这样的扩展的状态模型,以预测mi、xv、xd和x
l
的新值,这些新值又可以用于使用机器学习模型预测下一时间点的单位转运速率的新值,该预测可以插入状态模型以预测mi、xv、xd和x
l
的新值等。
[0226]
图2是示出了模型校准过程的流程图,该模型校准过程可用于获得用于预测生物过程的一个或多个代谢条件变量的校准后的机器学习模型。在步骤200,接收与生物过程相关联的多个过程变量200a和代谢物浓度200b(其中过程变量和代谢物浓度可以统称为过程条件变量)的值。这些变量的值可能已经使用传感器测量(如下文将进一步阐述),和/或已经从测量中推断。可选地,还接收一个或多个细胞状态变量200c的值。可以通过测量和/或通过例如使用如本文所述的动力学生长模型从测量结果推断值来获得这些变量的值。在步骤200接收的值包括用于机器学习模型的输入数据以及可用于验证机器学习模型的输出的数据(即,标签或可从中计算标签的数据)。在步骤210,将接收的一个或多个值作为输入提供给机器学习模型,机器学习模型在步骤220中提供单位转运速率的一组预测作为输出。在步骤230,将预测的单位转运速率与直接或间接地从步骤200的测量中获得的对应消耗速率进行比较。例如,可以将预测的速率与使用如上所述的物质平衡方程计算的对应速率进行比较。或者,通过基于上述预测的速率计算一个或多个其他值,并将这一个或多个值与对应的测量值(或从单位转运速率导出的值)进行比较,可以间接地将预测的速率与对应的测量值进行比较。例如,预测的单位消耗速率/分泌速率可用于计算一个或多个代谢物的浓度,并且这些浓度可与对应的已知值(即,测量的浓度或从测量值导出的浓度)进行比较。比较预测值和对应的已知值通常包括计算如上所述的损失函数值。在步骤240,优化算法使用在步骤230计算的损失值来修改机器学习模型。通常使用在步骤200接收的不同或部分重叠的输入值集合来重复步骤200、210、220、230和240,所有这些输入值集合共同构成训练数据。可以重复该过程,直到满足一个或多个停止准则。例如,停止准则可以包括最大迭代次数、与一个或多个先前迭代相比损失函数的值的变化量的阈值、在一个或多个迭代中已经达到的目标损失函数值等。
[0227]
图3是示出了模型部署过程的流程图,通过该模型部署过程可以预测生物过程的代谢条件变量。在步骤300,接收与生物过程相关联的多个过程变量300a和代谢物浓度300b(其中过程变量和代谢物浓度可以统称为过程条件变量)的值。可选地,还接收一个或多个细胞状态变量200c的值。在步骤300接收的值在步骤210被训练后的机器学习模型用于计算在步骤220输出的单位转运速率的一个或多个预测。然后可以在步骤330使用上述预测来监
测、控制、优化或模拟生物过程。在步骤300接收的所有值可能已经使用传感器测量、从测量结果推断、由模型预测或由用户设置(或这些方式的组合)。
[0228]
例如,在过程监测的背景下,可能已经测量了部分或全部值。机器学习模型可以使用这些测量值来预测单位转运速率,这些单位转运速率提供了对正在被监测的生物过程中的细胞的未来代谢条件的指示。这些预测还可用于(例如使用如本文所述的物质平衡方程和/或动力学生长模型)计算未来代谢物浓度和/或细胞状态。所有这些特征都可以用来确定生物过程是否正常操作,例如如上所述使用已经参数化的多元模型来定义被认为是“正常”的行为范围。这反过来可以用来确定是否应该采取校正动作,也可以用来选择合适的校正动作。重要的是,虽然存在识别“不符合规范”操作的生物过程的多元方法,但这些方法当前的实施方式仅允许确定生物过程当前是否正常操作。这些方法不允许预测在未来时间点的生物过程是否正常操作,或者如果一个或多个过程条件改变,该生物过程是否正常操作。
[0229]
图5示出了根据本公开的实施例的用于监测和/或控制生物过程的系统的实施例。该系统包括计算设备1,计算设备1包括处理器101和计算机可读存储器102。在所示的实施例中,计算设备1还包括用户界面103,用户界面103被示为屏幕,但可以包括例如通过声音或视觉信号向用户传送信息的任何其他装置。计算设备1例如通过网络6可操作地连接到生物过程控制系统,该生物过程控制系统包括生物反应器2、一个或多个传感器3和一个或多个执行器4。计算设备可以是智能手机、平板电脑、个人电脑或其他计算设备。计算设备用于实现如本文所述的用于监测生物过程的方法。在替代实施例中,计算设备1用于与远程计算设备(未示出)通信,远程计算设备本身用于实现如本文所述的监测生物过程的方法。在这种情况下,远程计算设备还可以用于向计算设备发送监测生物过程的方法的结果。计算设备1和远程计算设备之间的通信可以通过有线或无线连接,并且可以在本地网络或公共网络上(例如在公共互联网上)进行。传感器3和可选的执行器4中的每一个可以与计算设备1有线连接,或者能够通过无线连接(如图所示,例如通过wifi)进行通信。计算设备1与执行器4和传感器之间的连接可以是直接的或间接的(例如通过远程计算机)。一个或多个传感器3用于获取与在生物反应器2中执行的生物过程相关的数据,可以如图1所示地实现该生物过程。一个或多个执行器4用于控制在生物反应器2中执行的生物过程的一个或多个过程参数。
[0230]
一个或多个传感器3可以是在线传感器(有时也称为“内联传感器”),在线传感器(在获取或不获取培养物的样本的情况下)在生物过程进行时自动测量生物过程的属性,或离线传感器(无论是手动还是自动,均获得样本,并随后进行处理以获得测量结果)。来自传感器的每个测量值(或从这样的测量值导出的值)表示一个数据点,该数据点与时间(或对应的成熟度)值相关联。一个或多个传感器3包括用于记录生物反应器2中的生物质的传感器,本文称为“生物质传感器”。生物质通常是以活细胞密度或参数(从该参数可以估计活细胞密度)的形式。该生物质传感器可以记录物理参数,从该物理参数可以估计生物反应器中的生物质(通常以总细胞密度或活细胞密度的形式)。例如,基于光密度或电容的生物质传感器是本领域已知的。一个或多个传感器还包括测量一个或多个代谢物浓度的一个或多个传感器,本文称为“代谢物传感器”。代谢物传感器可以测量整个培养物、培养基室、生物质室(即整个细胞)或单位细胞室中的单个或多个代谢物(例如,从几个代谢物到数百甚至数千个代谢物)的浓度。代谢物传感器的示例是本领域已知的,这些示例包括nmr光谱仪、质谱
仪、基于酶的传感器(有时称为“生物传感器”,例如用于监测葡萄糖、乳酸等)等。大多数常用的代谢物传感器测量培养基中代谢物的浓度。如本文所使用的,传感器3(例如,代谢物传感器和生物质传感器)还可以指从一个或多个测量变量(例如,由其他传感器提供的测量变量)估计代谢物浓度或生物质量的系统。例如,代谢物传感器实际上可以实现为处理器(例如处理器101),该处理器从(例如测量系统的物理/化学性质的)一个或多个传感器接收信息,并使用一个或多个数学模型来根据这样的信息估计代谢物浓度。例如,代谢物传感器可以实现为处理器,该处理器从近红外光谱仪接收光谱并从这些光谱估计代谢物的浓度。这样的传感器可以称为“软传感器”(指的是使用软件获得这些传感器的“测量值”,而不是通过直接测量获得“测量值”)。一个或多个传感器3还包括测量其他过程条件的一个或多个传感器,这些过程条件例如是ph、培养物的体积、材料进出生物反应器的体积/质量流速、培养基密度、温度等。这样的传感器是本领域已知的。测量其他过程条件的一个或多个传感器3是否必要或有利可至少取决于如下文将进一步阐述的操作模式和由物质平衡模块做出的假设。例如,在生物过程不以无补料分批操作的情况下,包括用于测量进入和/或离开生物反应器的流的量和/或成分的一个或多个传感器可能是有利的。此外,在物质平衡模块不假设生物反应器中的体积恒定的情况下,包括用于测量生物反应器中液体的体积的传感器(例如液位传感器)可能是有利的。来自传感器3的测量被传送到计算设备1,计算设备1可以将数据永久地或暂时地存储在存储器102中。计算设备的存储器102可以存储如本文所述的训练后的机器学习算法。处理器101可以执行指令,以如本文所述(例如,通过参考图3)使用训练后的机器学习模型和来自一个或多个传感器3的数据来预测一个或多个单位转运速率。注意,如参考图5所述的系统也可用于如本文所述(例如,通过参考图2)训练机器学习模型。
[0231]
在过程模拟的背景下,一些值可能已经由用户测量,而其他值可能已经由用户预测或设置。例如,用户可能希望研究特定地改变一个或多个过程条件对生物过程性能的一个或多个度量的影响。为此,可以基于测量的时间进程设置一个或多个值,并且可以设置其他值以表示预期变化。或者,可以将所有值设置为表示打算使用的一组条件。上述值至少包括足以用于机器学习模型预测第一组单位转运速率的初始条件。这些预测可用于(例如使用如本文所述的物质平衡方程和/或动力学生长模型)计算未来代谢物浓度和/或细胞状态。这些值可以被反馈到机器学习模型,可选地与用户打算设置的其他过程参数相结合。然后,可以如上所述的得到一组新的预测,并且可以根据需要多次重复该过程。如上所述,这些预测本身可以提供对正在被模拟的生物过程中的细胞代谢条件的指示。此外,作为过程模拟过程的一部分(例如,使用如本文所述的物质平衡方程和/或动力学生长模型)计算的代谢物浓度和/或细胞状态也可以提供指示细胞培养物性能的信息。因为上述模拟复制了生物信息学中的真实过程条件以了解这些过程件对细胞培养物性能的影响,因此这样的应用可以称为“数字孪生”。例如,这样的模拟过程可用于研究过程条件(例如温度廓线(temperature profile)、ph、溶解氧廓线、搅拌、培养基成分、流参数等)对生物过程的影响。在这种情况下,初始条件可以包括机器学习模型使用的包括代谢物浓度的所有起始过程条件,并且除了代谢物浓度(将由模型计算)之外的在每个后续时间点的过程条件(例如用作机器学习模型的输入和/或用作物质平衡/动力学生长模型的参数)可以被设置为所研究的那些过程条件。
[0232]
在过程优化的背景下,上述模拟过程可以被集成为优化过程的一部分,通过该优化过程,能够基于一个或多个期望标准研究和比较多个过程条件或其组合。例如,期望标准可以包括所需产物的浓度或在预定时间量内生产的所需产物的总量。
[0233]
如技术人员所理解的,来自任何机器学习模型的预测的准确性取决于用于训练该模型的数据和该模型的特定用途的组合。例如,当输入数据具有基于多个时间点之间的时间差(与用于训练模型的训练数据中的至少一些时间差类似)的特征时,机器学习模型可以提供更准确的预测。作为另一示例,相较于已使用捕获一组范围较窄的条件的训练数据训练的机器学习模型,已使用反映各种过程条件的训练数据训练的机器学习模型可以提供更准确的预测。因此,在不希望被理论束缚的情况下,为了预测过程的监测(其中该过程预期在正常条件下运行),使用表示一组(通常,范围相对较窄)正常条件(已知实现在规范内的过程的条件)的数据可能就够了。相反,为了模拟或优化,使用表示各种条件的数据来训练机器学习可能会表现得更好。然而,请注意,在不存在预测的情况下,这样的模拟或优化是不可能实现的,因此即使是不完美的机器学习模型也可能提供优势。
[0234]
现在将描述使用单位消耗速率/分泌速率的上述预测作为用于生物过程监测、控制、模拟和优化的混合模型的一部分的具体实施例。
[0235]
用于预测性生物过程监测、控制、模拟和优化的混合模型
[0236]
图6示出了如本文所述的用于混合模型的计算架构的示例性实施例。动力学和代谢状态观察系统5包括多个特定处理模块,包括动力学生长模型50、代谢条件模型60、状态校正模型75、过程监测引擎80、标记和报警引擎85、以及消耗速率和分泌速率模块90。代谢条件模型60可以包括附加模块,包括多元统计建模引擎65(本文也称为pca和pls统计建模引擎)和数据驱动的机器学习引擎70。动力学生长模型50和代谢条件模型60一起形成称为“混合模型”的模型。动力学模型是用于确定活细胞、裂解细胞、活细胞的量以及细胞密度等(如上文所述)的模型。代谢条件模型60是用于提供关于生物过程的产物滴度和关于该滴度和属性(例如,副产物等)的质量控制信息的模型。代谢条件模型60的输出可以被馈送给动力学生长模型50,即使用代谢条件模型60计算的一些值可用作动力学生长模型50中的输入变量。状态校正模型75可用于基于实验数据更新对动力学生长模型50的状态的估计。可以基于测量的实验输出和估计的混合模型输出之间的差值来导出误差,并且可以基于误差信号来调整混合模型的参数,以随时间将误差信号驱动到零。
[0237]
动力学生长模型50是基于monod生长方程(参见方程(14)-(27))和代谢物物质平衡方程(参见方程(3)-(6)和(27))的状态空间模型。monod生长方程和代谢物物质平衡方程是可用于描述细胞生长(例如微生物细胞生长)、细胞密度和活细胞密度、总细胞(例如活细胞、死细胞和裂解细胞)等的一系列微分方程。动力学生长模型的输入可以包括温度、进料条件、ph等,并且输出包括状态估计。动力学生长模型可以看作典型的状态空间模型。在该背景下,内部建模的参数称为状态。例如,这些参数可以包括xv、xd、x
l
、mi。动力学生长模型可用于监测生物反应器中活细胞的数量(和其他参数),并预测在未来时间点的生物反应器中的细胞数量。除了动力学生长方程(上述方程(14)-(27))和物质平衡方程(例如方程(28)或方程(4)和等价方程中的任何方程)之外,动力学生长模型可以包括用于描述期望的生物材料随时间变化的速率的单独方程。这可以表示为:
[0238][0239]
其中,是生物材料随时间变化的速率,qp是一个函数,该函数的输入包括代谢物浓度m,δ
(m,i)
(t)是当前时间的代谢物的单位生产速率或单位消耗速率,u是一组自变量(即,作为输入提供给该模型并且模型不计算新值的变量,例如,这些变量可以包括诸如温度、ph等的过程参数),xv是活细胞密度。在生物材料本身是代谢物的情况下,方程(29)可以采取如上所述的物质平衡方程的形式(并且因此该方程(29)可以作为一组物质平衡方程的一部分包括在内)。类似地,在生物材料本身是生物质的情况下,方程(29)可以采取相关的动力学生长方程(例如捕获活细胞密度的方程)的形式。换言之,如果期望的生物材料是生物质或在模型中包括的物质平衡方程中已经捕获的代谢物,则方程(29)可以已经形成如上所述的模型的一部分。动力学生长模型的输出包括产物滴度、代谢物浓度、活细胞密度和活力。动力学生长模型还可用于根据上述测量数据计算在给定时间的一个或多个代谢物的单位消耗(或分泌)速率。根据本发明,可以使用如本文所述的训练后的机器学习模型来预测未来时间的一个或多个代谢物的单位消耗(或分泌)速率。此外,还可以使用动力学生长模型和测量数据来计算一些单位转运速率,以及使用机器学习模型来预测其他单位转运速率。
[0240]
代谢条件模型60将系统的内部代谢状态分类为例如用于生物材料生产的最佳或次最佳状态或类别。可选地,输入到代谢条件模型的输入可以包括温度、进料条件等。通常,代谢条件模型独立于动力学生长模型,并且可以独立于动力学生长来执行代谢条件监测。在实施例中,代谢条件模型可用于通过提供对滴度和/或质量的估计以改进滴度预测,来增强动力学生长模型。代谢条件模型使用代谢物的单位消耗/单位生产作为最小输入。如上所述,这些速率可以从代谢物浓度和活细胞密度数据计算,或者可以使用机器学习模型预测。代谢条件模型可选地使用附加测量参数和/或未测量的状态作为输入来改进产物滴度和/或质量的预测。在一些实施例中,代谢条件模型包括统计建模引擎65,统计建模引擎65用于使用单位消耗速率/生产速率(以及可选地,从过程测量的附加参数或状态)作为输入来构建主成分分析(pca)或偏最小二乘(pls)或正交偏最小二乘(opls)模型,并产生一个或多个多元得分作为输出。统计建模引擎可以包括任何合适的引擎,包括(pca)模型、偏最小二乘(pls)模型、偏最小二乘判别分析(pls-da)模型和/或正交偏最小二乘判别分析(opls-da)模型。pca可用于表征数据集中的变化,即,在这种情况下,用于表征代谢变化。pls可用于将代谢变化与重要质量度量(产物质量)的生产率(滴度)或生产相关。用于执行pls的技术可以参见例如in wold et al.,pls-regression:a basic tool of chemometrics,chemometrics and intelligent laboratory systems 58(2001)109-130。用于执行pca的技术可以参见例如in wold et al.,principal component analysis,chemometrics and intelligent laboratory systems 2(1987)37-52。pca和pls都可以用于降低数据集的维数,即提取一组尽可能多地捕获数据中的可变性的概要变量。pca是一种无监督降维技术,pca可以在不丢失大量信息的情况下通过变量的线性组合对数据进行概括。pls是一种有监督降维技术,pls基于因变量与自变量之间的相关性而应用。这些技术被认为在本领域现有技术的范围内。
[0241]
在一些实施例中,代谢条件模型60的输出被馈送到动力学生长模型50。代谢条件
模型60还可以允许对生物过程中细胞的代谢条件进行可视化。因此,代谢条件模型60的输出既可用作动力学生长模型50的输入,也可以促进细胞代谢的代谢条件的监测和可视化。代谢条件模型可以包含数据驱动的机器学习引擎70或链接到数据驱动的机器学习引擎70。机器学习引擎70可以包括一个或多个机器学习模型,例如神经网络、深度学习模型或其他机器学习模型。可以使用已知的技术来训练机器学习引擎70以将生物系统/生物反应器的状态分类为最佳状态或次最佳状态。此外,可以使用已知的技术来训练机器学习引擎70以将代谢物的状态分类为最佳状态或次最佳状态。在实施例中,机器学习引擎70执行可比拟统计建模引擎65的分类,并且在一些情况下,机器学习引擎70以比统计建模引擎65更高的准确性和精确性执行分类。机器学习引擎70还包括一个或多个机器学习模型,这些机器学习模型如本文所述被训练用于预测单位转运速率。
[0242]
状态校正模型75减少了系统中的误差。可以确定混合模型的输出与测量数据之间的差值,并将该差值作为误差信号提供给状态校正模型75。状态校正模型用于使误差最小化,并用于随时间将误差信号驱动到零。状态校正可以对应于与扩展卡尔曼滤波器(kalman filter)相关联的技术。在实施例中,状态校正模型75可以是单独的模块,或者可选地,可以集成到动力学生长模型中。过程监测引擎80可以连接到用于测量与生物反应器相关联的一个或多个参数的多个传感器。这些参数可以包括温度、氧气水平、进料条件、ph值或生物过程的可以实时或几乎实时地监测的其他方面。可以将这些测量提供给模拟生物反应的混合模型。还可以将这些测量提供给代谢条件模块60,以监测细胞代谢并生成状态估计。标记和报警引擎85监测系统的过程偏差。如果生物反应器的输出偏离其预期/预测输出,则向用户提供报警。在一些方面,生物过程可能被系统暂停,直到该过程被校正。在其他方面,系统可以补偿上述偏差(例如,调整进料或过程条件以达到期望状态(例如,最佳状态))。标记和报警引擎85还可以向用户发送关于生物反应器状态的通知。在其他方面,当内部代谢状态被分类为次最佳类别时,可以向用户发送通知。消耗速率和分泌速率模块190确定生物过程反应器中代谢物/分析物的单位消耗速率和单位生产速率。单位消耗数据由代谢条件模型60使用。可以将代谢条件模型60的输出(例如,单位生产/单位消耗的估计)提供到动力学生长模型中以预测产物滴度。控制器95可以接收反馈(例如,生物反应器的输出)以控制生物反应器自动调整实验过程条件,以最小化与最佳过程条件的偏差。
[0243]
数据库30包含用于动力学和代谢状态观察系统5的各种类型的数据。训练数据32对应于用于识别动力学模型系数、计算代谢物的单位消耗速率/生产速率、和/或训练代谢条件模型60以将细胞的状态分类为最佳状态或次最佳状态或确定估计生物材料的生产量(例如单位生产率)、和/或训练预测单位消耗速率/分泌速率的机器学习模型的数据。过程条件34对应于当前生物过程反应的过程条件。过程条件34还可以包含已实验确定的理想过程条件。可以将这些条件提供给混合模型(50、60),以促进当前生物过程操作的过程监测或生物反应器的模拟/预测。输出36是动力学和代谢状态观察系统5的输出,并且可以从实验系统的输出中减去该输出,以生成反馈到混合模型的输入中的误差信号。
[0244]
可以通过过程监测引擎80获得代谢物和细胞密度的测量,并将测量提供给单位消耗和分泌速率模型190,以通过使用如上所述的物质平衡方程或通过调用机器学习引擎70来确定代谢物的单位消耗速率或单位分泌速率。可以提供单位消耗速率和单位分泌速率作为代谢条件模型的输入。单位消耗速率和单位分泌速率允许将过程条件转换为每个细胞对
每种代谢物消耗或产生的量(即代谢条件变量)。在实施例中,可以将单位消耗速率和单位分泌速率提供给代谢条件模型60,其中,pca和pls统计建模引擎65和/或数据驱动的机器学习引擎70对细胞的状态进行分类,以确定系统是处于例如关于过程参数(例如温度、进料浓度、ph等)的最佳条件还是次最佳条件。
[0245]
如图7所示,上述架构可以用于监测生物过程。使用这样的架构而不是仅使用生物过程的可测量特征来监测意味着可以估计生物过程的内部状态(即细胞培养和细胞代谢的特征),从而提供对生物过程状态更丰富的描绘。例如,可以在步骤705测量一组过程参数(也称为生物反应器的“输入”或“输出”,这取决于这些参数是否被设置为操作条件或这些参数是否由生物过程中的细胞活性而产生),并将这些参数用作混合模型的输入。这些参数可以包括代谢物浓度、活细胞密度(vcd)、产物滴度、产物质量、细胞活力、产物质量、温度、ph、溶解氧(dissolved oxygen,do)等。通常随时间测量上述过程参数。在实施例中,零阶保持(zero-order hold)用于估计采样间隔的值。将测量的过程参数提供给动力学生长模型50。在步骤710,动力学生长模型可以使用一些这样的数据(特别是初始条件)来初始化状态值(例如,代谢物值),状态包括xv、xd、x
l
、mi。还可以在步骤715用参数初始化动力学生长模型50,这些参数可以由用户提供、作为默认值检索或与测量数据一起接收。然后,在步骤725,仅通过求解模型中的方程,就可以使用动力学生长模型50来确定状态xv、xd、x
l
、mi的值。这可以通过以下来实现:给定过程参数的测量值,从反应开始的时间到当前时间,对动力学生长模型中的动力学方程组求积分。求解动力学生长模型需要了解在每个建模时间点的单位消耗速率/生产速率。在步骤720,可以从先前的实验了解在每个建模时间点的单位消耗速率/生产速率,即通过从先前的实验中的代谢物浓度测量和活细胞密度测量中计算速率,并假设这些速率也适用于本过程(特别是如果使用在对应时间获得的值)。或者,在步骤720,如本文所述,可以基于在先前时间点的过程参数和/或动力学生长模型状态估计,使用机器学习模型来预测一个或多个单位消耗速率/分泌速率。动力学生长模型50的输出可以包括产物滴度、代谢物浓度、活细胞密度和活力。如本领域技术人员所理解的,动力学生长模型可以包括捕获一个代谢物或多个代谢物浓度变化的方程。类似地,可以预测一个或多个代谢物的单位消耗速率/分泌速率,并将其用于代谢条件模型。
[0246]
动力学生长模型未反映生物反应器中细胞的内部状态。如果细胞遭受过程条件的波动或偏差(例如,温度的变化,代谢物的增加或减少,进料条件的变化等),细胞可能进入次最佳状态,并且输出(例如,生产中的生物滴度)可能是次最佳的。因此,在实施例中,可以用代谢条件模型60来补充动力学生长模型50。这提供了一种方法来估计细胞的内部状态,并将输出生产与环境变量相关联,以优化生产。在具有大量状态(包括一些彼此相关的状态)的多维系统中,由于在这种情况下很难确定应调整的过程条件,因此这可能特别有用。因此,代谢条件模型60提供了一种方法来估计细胞的内部状态,并将输出生产与环境条件(变量)相关联,以优化滴度生产。此外,如果系统偏离最佳范围,则用户可以接收通知,该通知提示用户校正生物过程以使反应返回到最佳条件。在一些实施例中,系统可以自动校正进料或环境条件以使系统返回到最佳条件。例如,通过向控制生物反应器的控制器提供反馈,可以自动调整实验过程条件以最小化与最佳过程条件的偏差。如下所述,还可以使用优化进程来确定过程调整。
[0247]
现在将描述代谢条件模型60的功能。在步骤750,基于如上所述在步骤745已经计
算和/或预测的单位消耗速率和单位生产速率,使用代谢条件模型确定代谢条件。在步骤755,可选地,代谢条件还可以用于计算单位生产率或一个或多个质量属性。例如,这可以使用(o)pls模型来完成,该(o)pls模型已被训练用于根据代谢条件预测这些值。在动力学生长模型中可以使用单位生产率(靶蛋白(target protein)的生产)来估计产物滴度。为了进行过程监测,在步骤760,可以使用一个或多个分类方法(例如,机器学习分类器或通过将当前代谢条件与被认为对应于正常状态和/或最佳状态的代谢条件或条件范围进行比较)对当前代谢条件进行分类。此外,本文提供的数据驱动方法(例如,pca和pls统计建模引擎65和数据驱动的机器学习引擎70)可用于降低系统的维数,和/或允许识别影响滴度的条件。例如,当观察具有包括相关变量的大量状态变量(例如包括多个过程条件、代谢物浓度、生长变量和单位消耗速率/分泌速率)的系统时,甚至很难识别与最佳情况的偏差,更不用说确定应调整的过程条件以影响滴度。由于本技术通过识别在最佳确定范围之外的过程变量来提供对生物反应器的细致而具体的控制,因此本技术提供了对现有技术的改进。在实施例中,“最佳”指的是与最佳的滴度生产对应的过程条件或进料条件的范围。然而,可以任意定义“最佳”。
[0248]
在步骤730,可以将混合模型的输出(例如,状态估计、代谢状态等)或单独的动力学生长模型的输出(在不包括代谢条件模型的实施例中)与生物反应器的输出进行比较,并且测量的参数和估计的参数之间的差值可以通过状态校正模型75反馈到混合模型220的输入中,以改进模型。状态校正模型75设法修改参数以最小化测量的生物反应器输出和混合模型输出之间的差值,以随时间将误差信号驱动到零。通常,当不能直接测量系统的状态时,状态估计器可以用来估计系统的内部状态。特别地,在步骤740,卡尔曼滤波器可用于基于噪声环境中的间接测量来确定内部系统状态的最佳估计。也就是说,卡尔曼滤波器可以用于基于过程条件和动力学模型最佳地估计系统的内部状态。卡尔曼滤波器特别适用于在有噪声系统中实现系统状态的最佳估计。在该示例中,状态校正模型75可以包括卡尔曼滤波器或扩展卡尔曼滤波器。卡尔曼滤波器或扩展卡尔曼滤波器(extended kalman filter,ekf)可用于确定最佳状态值,其中,误差与模型状态估计中的不确定性、状态测量中的不确定性以及误差的协方差组合。卡尔曼滤波器可以应用于动力学生长模型,以提高该模型提供的细胞状态估计的准确性。如本领域已知的,可以使用历史训练数据来校准(该过程指的是识别模型中的合适参数)动力学生长模型和/或代谢条件模型。
[0249]
上述混合模型也可用于优化。优化可以包括通常使用优化算法来搜索各种输入变量,以获得最大化滴度、质量或其他期望结果的集合。可以在运行时(例如当如上所述的监测生物过程时)执行优化以预测过程条件,这些过程条件可用于将已识别为使用混合模型以次最佳方式执行的过程恢复为最佳状态。也可以独立于任何特定运行来执行优化,例如,以识别用于未来的生物过程的最佳过程条件。输入变量通常包括营养物添加和独立的过程参数,例如温度和ph值。通过参考图8,可以如下所述进行优化过程。在步骤810,接收输入变量(ui)的轨迹集合,该输入变量可以包括营养物添加。在步骤815,根据初始测量数据初始化状态值(xv、xd、x
l
、mi)(即,动力学生长模型的状态)。然后在步骤820,对动力学生长模型的方程求积分,以确定在适当时间范围的生长轨迹和代谢物轨迹。在步骤825,使用代谢条件模型确定细胞代谢条件,并且使用数据驱动分类(通过多元统计建模引擎和/或数据驱动的机器学习引擎)对代谢条件进行分类。在操作830,使用代谢条件模型(例如,使用训练为
根据代谢条件变量预测滴度的多元模型)和/或动力学生长模型(例如,通过对捕获产物滴度和/或质量变化的方程求积分)来预测单位生产率和产物质量。在操作835,预测生物材料的滴度和质量。这可以使用一组不同的输入变量轨迹和/或初始状态值来重复,以识别满足一个或多个最佳标准的这些变量的值。优化算法实施各种步骤以探索更多的可能值,以识别满足这些最佳准则的一个或多个值的集合。
[0250]
找到过程的最佳调整或设置可以定义为找到使数学目标函数j最小化(或最大化)的控制变量(u或自变量,在这种情况下是过程条件和进料)的集合。例如,用于最大化未来时间点t
(t k)
的滴度的目标函数可以采用以下形式:
[0251][0252]
其中,是未来时间点的预测的滴度,x|
[t]
是状态的当前值,u|
[t]
是从现在时间点[t]到未来时间点[t k]之间要实施的操纵变量的集合。在实施例中,同时优化了多个目标。这可以通过根据这些目标的重要性来对这些目标进行加权来实现。例如,为了最大化滴度并使质量度量始终符合目标,目标函数可以采用以下形式:
[0253][0254]
其中,θ是待优化的每个参数的相对权重,q
sp
是质量参数q的目标或设定点。存在与用于igg的函数类似的函数(fq),该函数用于预测未来时间点的未来质量变量。此外,可以将约束添加到函数中。例如,在将质量保持在操作规范内的前提下最大化滴度的优化目标可以由受到以下约束的方程(31)控制:
[0255][0256]
此外,为了防止优化算法选择一组新的不可行的输入,也可以对u设置限制。此外,当探索可能值的空间或向控制器提供改变当前操作条件的指令时(例如,其中,已经识别了次最佳状态,并且该模型已经与优化算法一起用于识别可以校正该次最佳状态的过程条件的变化),可以通过对来自配方(recipe)或当前设置的u的改变施加惩罚来调整优化算法修改条件u的程度。这防止控制器对过程条件做出不稳定或大的改变,从而无法改进目标参数。然后将整个目标函数描述为获得可行的u的最佳集合,该最佳集合最大化滴度(igg)并使质量始终符合目标且在规定限制内。这可能由受到方程(32)中的约束并且满足u
min
≤u|
[t]
≤u
max
的以下方程控制:
[0257][0258]
其中,θu是u的惩罚权重(注意,可能存在不止一个u),u
sp
是u的目标值,该目标值通常是设定值或当前值。
[0259]
本文提供的技术提供了准确模拟生物反应器中的细胞行为的模型。使用实验数据,预测的vcd和活力廓线被示为与在不同进料、ph和温度廓线下测量的实验值相匹配。如图9所示,上述混合模型能够复制实验测量的行为,并识别不同的功能细胞状态。特别地,如图9a-图9c所示,由动力学生长模型预测的抑制生长的温度变化被证实确实会抑制生长。ph值的变化看起来会略微增加细胞的死亡速率,但似乎不会抑制细胞的生长速率。细胞看起来能很好地适应葡萄糖耗竭和谷氨酰胺耗竭并从葡萄糖耗竭和谷氨酰胺耗竭恢复。因此,
因为细胞可能代谢其他碳源,所以在生长中未观察到明显的变化。如图9d所示,使用数据驱动方法(在该示例中为pca)对基于测量数据计算的单位消耗速率进行的细胞状态分类能够识别生物过程在次最佳范围内操作。
[0260]
此外,混合模型有效地充当用于细胞代谢和代谢物的软传感器,以允许监测和表征代谢物的单位消耗和单位生产,以及监测和表征细胞状态和代谢活性的变化。与不估计裂解细胞或以其他方式考虑裂解细胞的其他模型不同,混合模型考虑裂解细胞的数量,这影响了主体流体的毒性。这样的方法使得混合模型比其他不考虑该特征的模型更准确,并且时间维度比其他模型更长。混合模型的其他优点包括能够更多地了解细胞代谢和驱动细胞生长、细胞死亡、活力、滴度和产物质量的因子。混合模型还能够模拟新过程条件(例如,进料、温度、ph廓线等)的性能,以最大化生产率并观察细胞状态(例如,代谢活性等)或其变化。在其他方面,可以从补料分批操作中预测灌注性能。这些技术改进了预测,改进了滴度预测以及基于监测和预测的产物质量。本技术可应用于各种应用领域,这些应用领域包括简单的单变量代谢物状态估计器、综合的多元代谢物状态估计器、自生系统(例如,数字孪生模拟)等。因此,本技术对生物反应器控制和生物制品制造领域提供了改进。
[0261]
示例
[0262]
现在将描述校准机器学习模型的示例性方法以及用于模拟生物过程的示例性方法。
[0263]
材料和方法
[0264]
数据
[0265]
这些示例中使用的数据是从微型生物反应器中的12批次细胞培养物中收集的。允许每个单独的批次运行12天。生物反应器中的细胞是产生重组抗体(简称igg)的中国仓鼠卵巢(chinese hamster ovary,cho)细胞。这样的产物的浓度称为“滴度”。在12天的时间内,这些批次处于活性状态,每天(不定期)测量2-3次生物反应器的状态,产生了300多个观察结果。总共测量了11个自变量:活细胞密度(vcd)、细胞活力(可以作为vcd/tcd而获得,其中,tcd是总细胞密度并且可以等于vcd dcd,其中dcd是死细胞密度——在该示例中,通过测量tcd然后在存在染料(该染料例如是荧光染料,用于给活细胞染色以获得vcd)的情况下对细胞计数来获得上述细胞活力和vcd)、溶解氧(do)、ph、温度、体积、以及葡萄糖、谷氨酰胺、乳酸盐、谷氨酸盐和氨的浓度。此外,每天测量一次滴度,使得滴度数据集的大小差不多只有代谢数据集大小的三分之一。
[0266]
缺失值被线性插值以保持尽可能多的观察。一些滴度测量效果很差,导致单位生产速率为负,这在生物学上是不可信的,因此删除了这些滴度测量。
[0267]
用于训练的每个测量的数据被标准化(每个观察x被缩放为其中μ是变量的平均值,σ是标准偏差)。因为标准化降低了值较大的变量对训练产生不成比例的影响的风险(因为这些变量的值,而不是因为这些变量对预测的重要性),所以标准化预期将提高训练的速度和稳定性。标准化使得所有的变量z被分布为具有平均值=0、标准偏差=1。仅对训练数据执行标准化(参见下文),以减少对验证数据集的偏差。
[0268]
标签的计算
[0269]
术语“标签”指的是由机器学习模型预测的变量的(假设的)真实值。在这些示例
中,机器学习模型被训练用于预测在多个时间点(tk)的一组代谢物(δ
m,i
)的单位消耗速率(specific consumption rate,scr)和产物(q
igg
)的单位生产速率(spr)。因此,上述多个时间点中的每个时间点的标签是这些scr和spr的(假设的)真实值。对于每个时间点,使用以下方程计算这些参数:
[0270][0271]qigg
(tk)=(c
igg,k-c
igg,k 1
)ivcd-1
[0272]
ivcd=(0.6x
v,k-0.4x
v,k 1
)(t
k 1-tk)
[0273]
其中,m
i,k
是在时间k的代谢物i的浓度,madd
i,k
是在时间k的代谢物i的批式添加(以离散的时间间隔向反应器中添加的液体,以提供更多的营养物质),vk是生物反应器中的总体积,ivcd是总活细胞密度,x
v,k
是在时间k的活细胞密度,c
igg,k
是在时间k的生物反应器中的产物的浓度。
[0274]
如上所述,对训练数据集上的所有标签进行标准化。在对数据进行过滤以移除不合理的值后计算最终的滴度标签。
[0275]
机器学习模型
[0276]
在这些示例中,独立训练了两个机器学习模型:一个机器学习模型用于预测产物的单位生产速率,另一机器学习模型用于(联合)预测每种测量的代谢物的单位消耗速率/生产速率。前一个机器学习模型称为“滴度网络”,后一个机器学习模型称为“代谢网络”。这两个网络都是前馈神经网络(neural network,nn)。在选择具有三个隐藏层的全连通神经网络之前,测试了各种架构(数据未示出)。测试了多个滞后值(无滞后,滞后=1,滞后=2)以及多个输入变量。
[0277]
最终的代谢网络使用滞后=1,并提前一步预测(即该代谢网络预测在时间t的一个或多个变量的值——即时间点t和时间点t 1之间的单位消耗速率——随在时间t和t-1的一个或多个变量的值变化)。实际上,考虑到所导致的计算时间的增加,并未发现滞后=2(两个滞后值)的网络的性能相较于滞后=1的网络的性能存在明显提高。相反,与滞后=0相比,滞后=1与性能的显著提高相关联(参见图10b)。最终的代谢网络有22个输入节点(11个变量,每个变量针对两个时间点提供)、每个隐藏层中的22个节点、以及5个输出值。还测试了输入变量的不同集合,以研究使用所有可用变量的效果、仅使用代谢物浓度的效果或使用代谢物浓度的一个子集的效果之间的比较。结果(参见图10c-图10d)表明,在单独使用代谢物浓度(甚至代谢物浓度的一个子集)的情况下,足以获得可接受的预测。然而,由于附加变量预期用于改善预测或至少这些变量的鲁棒性,因此所有的可用变量都被用于最终的网络。
[0278]
最终的滴度nn不使用滞后值并提前一步预测(即该代谢网络预测在时间t的一个或多个变量的值——即时间点t和时间点t 1之间的单位消耗速率——随在时间t的一个或多个变量的值变化)。实际上,将滞后=1的滴度nn与滞后=0的滴度值进行比较,并未发现两者存在明显差异(对于无滞后的滴度nn,mes=123
±
116,对于滞后为1的滴度nn,mes=122
±
109)。由于引入滞后并没有显著提高性能,因此为了提高计算效率和便于实现,生物反应器模拟器选择了更简单的架构。
[0279]
使用relu作为上述两种网络的激活函数。
[0280]
机器学习模型的训练
[0281]
通过使用训练数据集来完成网络的训练或拟合。该数据集包含输入值和对应的真实输出值或标签。输入值通过网络馈送,并且通过损失函数将该网络的输出与标签进行比较。
[0282]
损失函数确定网络预测与标签的接近程度,如果损失为0,则网络预测与标签相同。用于回归问题的常见损失函数是均方误差(mse)。然后,该损失或误差通过网络向后馈送,根据权重计算损失函数的梯度。这称为误差的反向传播。然后,优化器通过使用上述梯度(通常基于梯度下降),调整权重,以最小化损失函数。
[0283]
通常,网络对整个数据集进行多次训练,每次迭代数据集都称为一个轮数(epoch)。计算整个数据集的损失和梯度花费的计算时间和存储较多,所以通常在数据集的小样本上计算损失,该小样本称为批次。在数据集的小样本上计算梯度和更新权重将导致针对整个最小化损失函数的准确性较低,但多次这样做将得到类似的结果,同时使用较少的计算能力资源和时间。
[0284]
通过对网络进行足够轮数的训练,通常可以实现0训练损失。然而,这通常是一种过拟合的情况。过拟合的模型不能很好地概括未知数据。为了避免过拟合,通常在验证数据集上计算模型的损失,这称为验证损失。在检查验证数据集时不更新权重。当验证损失停止减少时,通常最好停止训练网络以避免过拟合。
[0285]
在本示例中,adam(diederik p.kingma,jimmy ba,arxiv:1412.6980,dec 2014)用作优化器,mse用作损失函数,两个网络的批次大小都是5。代谢nn以10-3
的学习率训练10个轮数,然后以10-4
的学习率训练10个周期。学习率通过影响神经网络中的权值在训练过程中的更新量来决定优化过程的收敛速度。通常通过试错和/或基于经验来设置学习率。当上述优化已经收敛到参数空间的一个区域时,随着优化的进行降低学习率可以允许对网络的权重进行微调。滴度nn以10-3
的学习率训练最多100个轮数,或者直到观察到验证损失不减少为止,之后,使用验证损失最小的模型。训练在连续训练30个轮数后停止,验证损失没有减少。注意,这样的“提前停止”的方法也适用于代谢nn的训练。
[0286]
交叉验证
[0287]
本示例使用了k折交叉验证(k-fold cross-validation),k折交叉验证基于对原始数据集的随机选择的不同子集重复训练和测试计算。该过程使得通过将数据集划分为k个不重叠的子集来形成数据集的分区。然后通过计算k个试验的平均测试损失来估计测试损失。在第i个试验,数据的第i个子集用作测试集,数据的其余子集用于训练。
[0288]
在本示例中,使用了6折交叉验证。代谢网络的最终标签数据集包括310个值,在交叉验证过程的每次迭代中,这些值被划分为大小为258的训练集和大小为52的验证集。滴度网络的最终标签数据集包括131个值,在交叉验证过程的每次迭代中,这些值被分为大小为109的训练集和大小为22的验证集。为了分配验证集,替代随机分配观察值的标准做法,将来自两个完整批次的观察值分配为验证集。由于一个批次中的观察是相关的,因此该策略降低了过于乐观(overly optimistic)的验证性能的风险。
[0289]
评估-监测
[0290]
将代谢网络的预测与12批次(12天内,每种代谢物29个值)中每个时间点的平均scr值进行比较。这反映了这样一种情况,即在没有本方法的情况下,预测代谢物的单位消
耗速率/生产速率的值的唯一方法是使用从假设遵循类似进程的一组批次中导出的值。
[0291]
特别地,(针对交叉验证过程中的每个验证数据集)计算了代谢nn的预测和标签(参见上文)之间的mse,并使用每个代谢物的平均mse进行比较。这称为网络mse。类似地,计算了12批次的平均scr/spr与标签之间的mse。这称为基准mse。
[0292]
评估-模拟
[0293]
此外,代谢网络用于使用从生物反应器模型获得的模拟值来预测单位消耗速率/生产速率,该生物反应器模型包括如上所述的动力学生长模型和用于数据可用的5个代谢物中的每个代谢物的物质平衡方程。该模型用测量的代谢物浓度进行初始化,然后可以使用vcd、ph、温度、do、活力的测量值但仅使用代谢物浓度的预测值运行12天。使用动力学生长模型和物质平衡方程,根据代谢nn提供的物质平衡方程中相应的scr/spr来预测上述值(相反,通过求解动力学生长方程和物质平衡方程得到的代谢物浓度由代谢nn用于在下一步预测scr/spr)。
[0294]
通过将上述模拟器预测的代谢物浓度与类似模拟器使用的从12批次数据计算的平均scr/spr值(数据未示出)进行比较来评估预测。对于每个时间点,该模拟器都使用了位于积分时间限制(integration time limit)之前且接近积分时间限制的平均scr/spr值。
[0295]
注意,因为nn方法在理论上能够预测各种设置(例如,不同过程条件)的spr/scr值,而使用来自先前获取的数据的平均值假设了用于获取上述数据的过程条件与正在模拟的过程条件至少非常类似(优选地,相同),因此上述比较并不完全反映nn方法的性能。换言之,使用来自先前获取的数据的平均值的方法仅限于模拟已知情况,当试图模拟未知情况时,执行效果很有可能会显著变差。
[0296]
示例1-监测
[0297]
在该示例中,如方法部分所阐述的,训练代谢网络和滴度网络,并且如上文所阐述的,将网络的预测与从先前获取的数据计算出的对应基准值进行比较。
[0298]
其结果如图10a和图11所示。在图10a中,对于每个图,比较了以下内容:在左侧,代谢神经网络预测的代谢物的scr和对应标签之间的mse(其中,条的高度表示6折交叉验证的平均mse,误差条表示6折的标准偏差);以及在右侧,计算为12批次的代谢物的平均值的scr和对应标签之间的mse(其中,条的高度表示12批次的平均mse,误差条指示围绕该平均值的标准偏差)。
[0299]
类似地,图11比较了以下内容:在左侧,滴度nn预测的spr和对应标签之间的mse(其中,条的高度表示6折交叉验证的平均mse,误差条表示6折的标准偏差);在右侧,计算为12个批次的平均值的spr和对应标签之间的mse(其中,条的高度表示12个批次的平均mse,误差条指示围绕该平均值的标准偏差)。
[0300]
如图10a所示,对于每个代谢物,代谢网络的mse明显低于基准mse。图11示出了滴度网络的滴度spr预测的平均mse略低于基准的平均mse。注意,滴度网络使用较少的数据作为输入(由于滞后=0),并且只训练用于预测单个值(产物的spr)。相反,代谢网络使用滞后的为1,并且训练用于联合预测5个值(5个代谢物中每个代谢物的scr)。
[0301]
代谢物的scr/spr通过细胞的代谢而在生物上相关。因此,如果网络架构能够捕获多个代谢物的值之间的相关性(这些相关性反映了这些代谢物的生物学特性),则联合预测多个代谢物的值可以提高网络的性能。此外,上述产物可以视为代谢物,使得可以使用单个
网络一起预测产物的spr和代谢物的scr。假设网络架构能够捕获反映基础生物学特性的代谢物的scr/spr之间的相关性,则这可以提高预测的准确性。
[0302]
图10b在代谢nn预测的代谢物的scr和对应标签之间的mse(其中,条的高度表示6折交叉验证的平均mse,误差条指示6折的标准偏差)方面示出了增加代谢网络中的滞后值的益处。在每个图中,左侧的条示出了来自使用滞后=0训练的网络的预测的mse,中间的条示出了来自使用滞后=1训练的网络的(如图10a中用于获得结果的最终网络)预测的mse,右侧的示出了来自使用滞后=2训练的网络的预测的mse。图10b的数据表明,在这种情况下,将滞后从0增加到1可能是有益的,而从滞后=1增加到滞后=2并不能显著改善预测。图10c在如上所述计算的mse方面示出了使用所有可用变量作为输入(每个图中右侧的条)的代谢网络的性能与仅使用5种代谢物浓度作为输入(每个图中左侧的条)的代谢网络的性能的比较,上述可用变量为活细胞密度(vcd)、细胞活力、溶解氧(do)、ph、温度、体积和葡萄糖、谷氨酰胺、乳酸、谷氨酸和氨的浓度。数据表明,在这种情况下,代谢物浓度将足以用于获得有用的预测。图10d在如上所述计算的mse方面示出了仅使用5个代谢物浓度(每个图中左侧的条——对应于图10c的每个图中左侧的条)的代谢网络的性能与使用5个代谢物浓度中的4个代谢物浓度(除葡萄糖外,每个图中右侧的条)的代谢网络的性能的比较。数据表明,使用预测了scr的代谢物浓度(或密切相关的代谢物)可以提高特定代谢物预测的准确性。实际上,由于缺乏葡萄糖数据,葡萄糖scr预测看起来受影响最大,而其他scr预测仍可接受。由于使用所有可用变量似乎没有明显不利之处,而且数据表明,随着附加变量的增加,mse有降低的趋势,所以在最终网络(用于生成图10a中的数据)中使用了所有这些变量。
[0303]
示例2-模拟
[0304]
在该示例中,根据材料部分和方法部分的阐述训练代谢网络,并使用网络的预测来以初始条件和过程条件模拟生物反应器,其中,初始条件对应于材料部分和方法部分中示出的数据中的初始条件,过程条件为数据中除代谢物浓度和活细胞密度(由模型预测)之外的过程条件(即ph、温度、do、体积)。然后,通过计算mse,将根据代谢物浓度进行的每个模拟的预测与对应的测量浓度进行比较。其结果如图12所示。
[0305]
在图12中,每个图比较了以下内容:在左侧,由上述模型使用用于提供代谢物scr的代谢nn预测的代谢物浓度和对应的测量浓度之间的mse(其中,条的高度表示12批次的平均mse,误差条指示围绕该平均值的标准偏差);在右侧,由同一模型但使用平均scr(该平均scr根据代谢物的12批次计算)计算的代谢物浓度和对应标签之间的mse(其中,条的高度表示12批次的代谢物的平均mse,误差条指示围绕该平均值的标准偏差)。
[0306]
如图12所示,至少对于其中一些代谢物,代谢网络的mse明显低于基准mse。对于网络模拟的执行效果不如基于数据的模拟的代谢物,考虑到基于数据的模拟将测量的代谢物浓度与已经使用模型(该模型使用scr,这些scr使用与模拟结果进行比较的代谢物浓度计算)获得的代谢物浓度进行比较,因此上述网络模拟和基于数据的模拟在性能上的差距相对较小。此外,网络模拟的mse总是小于基于数据的mse一个数量级(如果,网络模拟比基于数据的模拟差的话)。如上所述,考虑到网络模拟为模拟和优化开辟了新的途径,而这对于基于数据的模拟是无法实现的,因此上述误差是一个可接受的误差水平。
[0307]
等效物和范围
[0308]
本规范中提及的所有文档都通过引用全部并入本文。
[0309]
术语“计算机系统”包括用于实现根据上述实施例的系统或执行根据上述实施例的方法的硬件、软件和数据存储设备。例如,计算机系统可以包括中央处理单元(central processing unit,cpu)、输入装置、输出装置和数据存储器,该计算机系统可以实现为一个或多个连接的计算设备。优选地,所述计算机系统具有显示器或包括具有显示器的计算设备,以(例如在业务过程的设计中)提供可视输出显示。数据存储器可以包括ram、磁盘驱动器或其他计算机可读介质。该计算机系统可以包括通过网络连接并能够通过该网络彼此通信的多个计算设备。
[0310]
可以将上述实施例的方法提供为计算机程序或计算机程序产物或承载计算机程序的计算机可读介质,当在计算机上运行时,计算机程序用于执行上述方法。
[0311]
术语“计算机可读介质”包括但不限于任何非暂时性介质或可由计算机或计算机系统直接读取和访问的介质。上述介质可以包括但不限于磁存储介质(例如软盘、硬盘存储介质和磁带);光存储介质(例如光盘或cd-rom);电存储介质(例如存储器,包括ram、rom和闪存);以及上述介质的混合和组合,例如磁/光存储介质。
[0312]
除非上下文另有规定,否则上述特征的描述和定义不限于本发明的任何特定方面或实施例,而是同样适用于所描述的所有方面和实施例。
[0313]
本文所使用的“和/或”应理解成具体公开了两个特定特征或成分中间的每一个,涵盖了包括或不包括另外的特征或成分的情形。例如,“a和/或b”表示具体公开了(i)a,(ii)b以及(iii)a和b中的每一种情形,就像将每一种情形都单独列在这里一样。
[0314]
注意,除非上下文另有明确规定,否则如在说明书和所附权利要求书中使用的单数形式“一”、“一个”和“该”包括复数指称。在本文中,,范围可以表示为从“大约”一个特定值,和/或到“大约”另一个特定值。当表示这样的范围时,另一实施例包括从一个特定值和/或到另一个特定值。类似地,当通过使用先行语“大约”或“近似”将值表示为近似值时,可以理解为该特定值形成另一实施例。与数值相关的术语“大约”或“近似”是可选的,并且表示例如 /-10%。
[0315]
贯穿本说明书和权利要求书,除非上下文另有要求,否则词语“包含”和“包括”及其变体应理解为意味着包括所述整数或一组整数但不排除任何其他整数或一组整数。
[0316]
除非上下文另有规定,否则通过使用术语“由...组成”或“基本上由...组成”替换术语“包括”,本发明的其他方面和实施例可以提供上述方面和实施例。
[0317]
在前述描述或权利要求中或在附图中公开的特征可以以其特定形式表示,或者可以通过用于执行所公开的功能的装置或用于获得所公开的结果的方法或过程来表示,可以单独地表示这些特征,或者可以以这些特征的任何组合来表示这些特征,以通过不同的形式实现本发明。
[0318]
虽然已经结合上述示例性实施例描述了本发明,但基于本公开,许多等效的修改和变化对于本领域技术人员将是显而易见的。因此,本发明的上述示例性实施例被认为是说明性的而非限制性的。在不脱离本发明的精神和范围的情况下,可以对描述的实施例进行各种改变。
[0319]
为了避免任何疑义,本文提供的任何理论解释均用于促进读者的理解。发明人不希望受这些理论解释的束缚。
[0320]
本文使用的任何部分标题仅用于组织目的,不应解释为限制所描述的主题。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献