一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于预测生物应答的系统和方法与流程

2022-08-03 06:12:11 来源:中国专利 TAG:

用于预测生物应答的系统和方法
相关申请的交叉引用
1.本技术要求2019年10月21日提交的美国临时专利申请序列号62/924,079的优先权,所述申请的全部内容通过引用并入本文。
技术领域
2.本公开文本涉及用于预测生物应答的系统和方法。


背景技术:

3.哺乳动物免疫系统使用两种通常机制来保护身体免受环境病原体的侵害。当遇到源自病原体的分子时,免疫应答激活,以确保针对该病原生物的保护。
4.第一免疫系统机制是非特异性(或先天)炎症应答。先天免疫系统显现识别病原体上而非机体本身上存在的特定分子。
5.第二免疫系统机制是特异性或获得性(或适应性)免疫应答。对于每种损伤或感染,先天应答基本上是相同的。相比之下,获得性应答特异性地响应于病原体中的分子或源自病原体的分子而发生。免疫系统识别自身和非自身(例如病原体或源自病原体的)蛋白质之间的结构差异并且对所述结构差异进行应答。免疫系统识别为非自身的蛋白质称为抗原。病原体通常表达大量高度复杂的抗原。获得性免疫系统利用两种机制:第一种为响应于病原体中存在的许多不同分子(称为抗原)产生免疫球蛋白(抗体)。第二种为募集受体以结合抗原的加工形式,所述抗原的加工形式被呈递在细胞表面以便被其他细胞鉴别为受感染的细胞。
6.总之,获得性免疫是由称为b和t淋巴细胞(或简称为b和t细胞)的特化免疫细胞介导的。获得性免疫对抗原结构具有特异性记忆。重复暴露于相同的抗原会增加应答,这可增加针对该特定病原体的诱导保护水平。b细胞通过抗体的作用产生和介导它们的功能。b细胞依赖性免疫应答称为“体液免疫”,因为抗体存在于体液中。t细胞依赖性免疫应答称为“细胞介导的免疫”,因为效应活性直接由效应t细胞的局部作用介导。效应t细胞的局部作用通过t细胞与次级效应细胞(诸如激活的巨噬细胞)之间的协同相互作用而被放大。结果是病原体被杀死并且防止导致疾病。
7.与病原体类似,疫苗通过在疫苗接种部位激活先天免疫应答并且激活抗原特异性t和b细胞来发挥作用,这些细胞可在次级淋巴组织中产生长期记忆细胞。疫苗与疫苗接种部位的细胞以及与t细胞和b细胞的精确相互作用对于疫苗的最终成功至关重要。
8.在确定候选抗原是否是功能性和有效的疫苗时,通常需要对候选抗原进行严格的测试和评价方案。传统上,候选抗原在临床前通过一种如下方法进行测试,其中通过体外测定、离体测定和使用各种动物模型(例如,小鼠模型、雪貂模型等)评估候选抗原。
9.可以用于测量生物应答的一种示例性测定类型是血凝抑制测定(hai)。hai应用如下血凝过程,其中红细胞(rbc)表面上的唾液酸受体与流感病毒(和几种其他病毒)表面上存在的血凝素糖蛋白结合,并且创建相互连接的rbc和病毒颗粒的网络或晶格结构,称为血
凝,其以浓度依赖性方式发生在病毒颗粒上。这是一种物理测量,作为病毒结合体内病原体靶向细胞上的类似唾液酸受体的能力的替代。抗病毒抗体的引入在针对另一种病毒的人类或动物免疫应答中发生(所述另一种病毒在遗传上可能与测定中用于结合rbc的病毒类似或不同)。这些抗体干扰病毒-rbc相互作用并且改变病毒的浓度,足以改变测定中观察到血凝时的浓度。hai的一个目标可以是表征抗血清或其他含有抗体的样品中抗体的浓度,这与它们在测定中引起血凝的能力有关。防止血凝的抗体的最高稀释度称为hai滴度(即测量的应答)。
10.另一个测量生物应答的示例方法是测量由人类或动物免疫应答引发的潜在的更大组的抗体,所述潜在的更大组的抗体不一定能够影响hai测定中的血凝。为此,一种常见的方法是利用酶联免疫吸附测定(elisa)技术,其中将病毒抗原(例如血凝素)固定在固体表面,然后允许来自抗血清中的抗体与抗原结合。读出测量外源酶对底物的催化作用,所述底物与来自抗血清的抗体或自身与抗血清的抗体结合的其他抗体复合。对底物的催化作用产生可易于检测的产物。这种体外测定有许多变型。一种这样的变型称为抗体取证(af);这是一种多重珠阵列技术,允许同时针对许多抗原测量单个血清样品。与hai滴度相比,这些测量表征了浓度和总抗体识别,hai滴度被认为更具体地与血凝素分子对唾液酸结合的干扰有关。因此,抗血清的抗体在一些情况下可能具有与一种病毒的血凝素分子(相对于另一种病毒的血凝素分子)的对应hai滴度相比成比例更高或更低的测量值;换句话说,af和hai这两个测量值通常不是线性相关的。
11.测量生物应答的另一个示例方法是测量病毒对神经氨酸酶(na)抑制剂的敏感性(nai测定)。例如,可以使用基于荧光的测定来评估流感病毒对na抑制剂的敏感性,所述测定基于na酶切割2
′‑
(4-甲基伞形酮基)-α-d-n-乙酰神经氨酸(munana)底物以释放荧光产物4-甲基伞形酮(4-mu)。因此,荧光的量与na酶活性的量直接相关。因此,na抑制剂对流感病毒na的抑制作用是基于降低50%na酶活性所需的na抑制剂浓度来确定的,给出的值通常称为ic(50)。因此,针对na酶促位点的抗血清中抗体的浓度和质量可以通过这些抗体存在时na酶促活性的降低来测量。
12.目前,常规的候选抗原测试只能在引发预想的“保护性”免疫应答的条件下执行。也就是说,如果一种动物或测定未能展现对候选抗原的适当应答,则候选抗原通常被“下移选择”(也就是说,作为生产性候选物被放弃)。例如,通常使用依序选择方案测试流感抗原,其中首先通过体外测定评估抗原,以确保抗原易于大规模生产。以抗原通过这些要求为条件,然后通过免疫例如小鼠来评估抗原,以测量其从小鼠中引发保护性免疫应答的能力。此应答通常被认为是对抗原本身和各种其他病毒株和/或病毒株组分的保护性应答,期望针对这些病毒株和/或病毒株组分进行保护。此后,可以以类似的方式对雪貂进行评估,条件是小鼠或其他先前的测量已经证明了什么可以被认为是保护性应答的提示。仅次于在人类中的评估,可以评估离体平台诸如人类免疫系统复制品或非人类灵长类动物;同样,以先前步骤的成功为条件。


技术实现要素:

13.在一个方面,提供了一种用于预测生物应答的数据处理系统。所述系统包括包含计算机可执行指令的计算机可读存储器。所述系统包括至少一个处理器,所述至少一个处
理器被配置为执行包括至少一个机器学习模型的可执行逻辑,所述至少一个机器学习模型被训练来预测生物应答,其中当所述至少一个处理器正在执行所述计算机可执行指令时,所述至少一个处理器执行一个或多个操作。所述一个或多个操作包括接收第一分子序列的第一序列数据。所述一个或多个操作包括接收第二分子序列的第二序列数据。所述一个或多个操作包括至少部分地基于所接收的第一序列数据和第二序列数据预测对第二分子序列的生物应答。
14.所述一个或多个操作可以包括接收对应于第一分子序列和第二分子序列的非人类生物应答数据。所述一个或多个操作可以包括预测生物应答进一步至少部分地基于非人类生物应答数据。所述一个或多个操作可以包括将第一序列数据和第二序列数据编码为氨基酸错配。
15.第一分子序列可以包括候选抗原。第二分子序列可以包括已知的病毒株。
16.预测生物应答可以包括预测人类生物应答。预测生物应答可以包括预测至少一种人类生物应答和至少一种非人类生物应答。生物应答可以包括抗体滴度。机器学习模型可以包括深度神经网络。
17.这些和其他方面、特征和实现方式可以被表达为方法、设备、系统、部件、程序产品、执行交易的方法、用于执行功能的手段或步骤,以及其他方式,并且将从包括权利要求在内的以下描述中变得清楚。
18.本公开文本的实现方式可以提供以下优点。机器学习技术可以用于训练机器学习模型来预测生物应答,使得减少假阳性和假阴性的发生率。与常规技术相比,所描述的系统和方法中的至少一些可以用于高效地处理固有稀疏的数据,例如通过减少数据的维度。所描述的系统和方法中的至少一些可以利用所接收的数据中的非线性关系来相对于传统技术提高预测准确度。所描述的系统和方法中的至少一些可以用于同时预测人类生物应答和非人类生物应答。所描述的系统和方法中的至少一些可以用于预测实验未观察到的结局。
19.这些和其他方面、特征、实现方式和优点可以被表达为用于执行功能的方法、设备、系统、部件、程序产品、手段或步骤,以及其他方式。
20.这些和其他方面、特征和实现方式将从以下描述(包括权利要求)中变得清楚。
附图说明
21.图1示出了根据本公开文本的一个或多个实施方案的使用机器学习技术来预测生物应答的系统的例子。
22.图2示出了描绘根据本公开文本的一个或多个实施方案的用于预测生物应答的方法的例子的流程图。
23.图3示出了根据本公开文本的一个或多个实施方案的用于训练机器学习模型预测生物应答的数据的例子。
24.图4示出了根据本公开文本的一个或多个实施方案的用于训练机器学习模型预测生物应答的例子的流程图。
25.图5描绘了被开发用于预测生物应答的平移模型的实验结果。
具体实施方式
26.在设计用于分析候选疫苗接种的依序选择方案时,可能有若干关键的假定。一种假定可以是测定的“平移性”越来越高,由此假定了与人类应答的类似性的定性测量。例如,小鼠在许多方面(例如,寿命、大小、器官大小、免疫系统设计等)在生理上与人类相距甚远。对于流感的情况,雪貂通常被确立为重演对流感感染的生理应答(例如,打喷嚏、传播等)的许多方面的基准标准者。另一个假定可以是,在远人类评估中的不良应答必然指示人类中的不良应答。还可以假定,在远人类评估中的良好应答可能指示在更类似于人类的情境中的良好应答。
27.不幸的是,传统的依序选择方案可能导致可能对人类有效但在雪貂或小鼠模型中不能引发所需的应答(假阴性)的许多抗原被丢弃。相反,传统的依序选择方案可能导致选择在动物中表现良好但最终将在人类中产生较差应答(假阳性)的抗原。
28.本公开文本中描述的系统和方法可以用于克服传统依序选择方案的上述缺点中的至少一些。例如,本公开文本中描述的系统和方法可以使用机器学习技术来训练机器学习模型以预测生物应答,诸如动物和人类对毒素或其他外来物质(例如,流感抗原)的应答。病毒序列数据以及来自动物实验或体外实验中的至少一者的生物应答读出可以用于训练机器学习模型来做出此类预测。因此,机器学习模型的输出可以提供关于第一分子序列(例如,候选抗原/接种株)是否可以用于在人类或非人类物种中产生足以保护所述物种对抗其他分子序列(例如,已知病毒株)的生物应答的见解。
29.在附图中,为了便于描述,示出了示意性元素的具体布置或排序,诸如表示装置、模块、指令块和数据元素的那些。然而,本领域的技术人员应该理解,附图中示意性元素的特定排序或布置并不意味着需要特定顺序或序列的处理或过程分离。此外,在附图中包括示意性元素并不意味着暗示这种元素在所有实施方案中都是必需的,或由这种元素表示的特征在一些实施方案中可能不包括在其他元素中或不与其他元素组合。
30.另外,在附图中,在连接元素诸如实线或虚线或箭头用于展示两个或更多个其他示意性元素之间的连接、关系或关联时,缺少任何此类连接元素并不意味着暗示不存在连接、关系或关联。换句话说,元素之间的一些连接、关系或关联没有在附图中示出,以免模糊本公开文本。此外,为了便于图示,单个连接元素用于表示元素之间的多个连接、关系或关联。例如,在连接元素表示信号、数据或指令的通信时,本领域技术人员应该理解,这种元素表示一个或多个信号路径(例如,总线),如可能需要的,以影响通信。
31.现在将详细参考实施方案,在附图中示出了其实施例。在以下详细描述中,阐述了许多具体细节以便提供对各种描述的实施方案的透彻理解。然而,对于本领域普通技术人员来说清楚的是,可在没有这些具体细节的情况下实践各种描述的实施方案。在其他情况下,没有详细描述熟知的方法、过程、部件、电路和网络,以免不必要地模糊实施方案的各个方面。
32.下文描述了几个特征,每个特征可以彼此独立使用或者与其他特征的任意组合一起使用。然而,任何单个的特征可能不能解决上文讨论的任何问题,或者可能只解决上文讨论的问题之一。上文讨论的一些问题可能无法通过本文描述的任何特征完全解决。尽管可能提供了标题,与特定标题相关但未在具有该标题的部分中找到的数据也可以在本说明书的其他地方找到。
用于预测生物应答的系统和方法
33.图1示出了根据本公开文本的一个或多个实施方案的使用机器学习技术来预测生物应答的系统100的例子。系统100包括计算机处理器110。计算机处理器110包括计算机可读存储器111和计算机可读指令112。系统100还包括机器学习系统150。机器学习系统150包括机器学习模型120。机器学习系统150可以与计算机处理器110分离或集成。
34.计算机可读存储器111(或计算机可读介质)可以包括适用于本地技术环境的任何数据存储技术类型,包括但不限于基于半导体的存储器装置、磁存储器装置和系统、光存储器装置和系统、固定存储器、可移动存储器、盘存储器、闪速存储器、动态随机存取存储器(dram)、静态随机存取存储器(sram)、电可擦编程只读存储器(eeprom)等。在一些实现方式中,计算机可读存储器111包括具有可执行指令的代码段。
35.在一些实现方式中,计算机处理器110包括通用处理器。在一些实现方式中,计算机处理器110包括中央处理单元(cpu)。在一些实现方式中,计算机处理器110包括至少一个专用集成电路(asic)。计算机处理器110还可以包括通用可编程微处理器、专用可编程微处理器、数字信号处理器(dsp)、可编程逻辑阵列(pla)、现场可编程门阵列(fpga)、专用电子电路等、或它们的组合。计算机处理器110被配置为执行程序代码装置,诸如计算机可执行指令112。在一些实现方式中,计算机处理器110被配置为执行机器学习模型120。
36.计算机处理器110被配置为获得第一分子序列的第一分子序列数据161和第二分子序列的第二分子序列数据162。第一分子序列数据161可以包括候选抗原(例如,接种株)的氨基酸序列数据。候选抗原可以对应于例如h3n1病毒。第二分子序列数据162可以包括针对其寻求保护的已知病毒株的氨基酸序列数据。例如,第二分子序列可以是2001年出现的已知病毒株。在一些实现方式中,如稍后将参考图4进一步详细解释的,计算机处理器110还被配置为接收与第一分子序列和第二分子序列相关联的非人类生物应答数据。非人类生物应答数据可以包括例如测量非人类模型(例如,小鼠、雪貂、人类免疫系统复制品等)在接种第一分子序列后对第二分子序列的生物应答的生物应答读出(例如,抗体滴度)。如稍后参考图4进一步详细讨论的,在一些实现方式中,计算机处理器110能够将第一分子序列数据161和第二分子序列数据162编码为氨基酸错配。上述数据可以通过一种或多种方式获得,诸如与数据库(包括基于云的环境)的有线或无线通信、光纤通信、通用串行总线(usb)、光盘只读存储器(cd-rom)等。
37.机器学习系统150应用机器学习技术来训练机器学习模型120,当机器学习模型被应用于输入数据时,机器学习模型生成输入数据项是否具有相关联的一种或多种特性的指示,诸如输入数据项具有特定布尔特性的概率,或标量特性的估计值。
38.作为机器学习模型120的训练的一部分,机器学习系统150可以通过识别已经被确定为具有所讨论特性的输入数据项的正训练集来形成输入数据的训练集,并且在一些实现方式中,形成缺少所讨论特性的输入数据项的负训练集。
39.机器学习系统150从训练集的输入数据中提取特征值,这些特征是被认为与输入数据项是否具有一种或多种相关特性潜在相关的变量。输入数据的特征的有序列表在这里称为输入数据的特征向量。在一些实现方式中,机器学习系统150应用降维(例如,经由线性判别分析(lda)、主分量分析(pca)、从神经网络学习的深度特征等)来将输入数据的特征向量中的数据量减少到更小、更有代表性的数据集。
40.在一些实现方式中,机器学习系统150使用监督机器学习来训练机器学习模型120,其中正训练集和负训练集的特征向量用作输入。在一些实现方式中使用不同的机器学习技术,诸如线性支持向量机(线性svm)、针对其他算法的增强(例如adaboost)、神经网络、逻辑回归、朴素贝叶斯、基于记忆的学习、随机森林、袋装树、决策树、增强树或增强树桩。当应用于从输入数据项提取的特征向量时,机器学习模型120输出输入数据项是否具有所讨论的特性的指示,诸如布尔是/否估计、表示概率的标量值、表示多个特性的标量值的向量、或表示不同且不是先验固定数量的多个特性的标量值的非参数分布,其可在希尔伯特或类似的无限维空间中显式或隐式地表示。
41.在一些实现方式中,验证集由除了训练集中的那些数据之外的另外的输入数据形成,这些数据已经被确定为具有或缺乏所讨论的特性。机器学习系统150将训练的机器学习模型120应用于验证集的数据,以量化机器学习模型120的准确性。在准确度测量中应用的常见测量包括:精确度=tp/(tp fp)和召回率=tp/(tp fn),其中精确度是机器学习模型120在其预测的总数(tp fp或假阳性)中正确预测(tp或真阳性)的数量,而召回率是机器学习模型120在确实具有所讨论特性的输入数据项的总数(tp fn或假阴性)中正确预测(tp)的数量。f得分(f-得分=2*pr/(p r))将精确度和召回率统一到单一的衡量标准中。在一些实现方式中,机器学习系统150迭代地重新训练机器学习模型120,直到出现停止条件,诸如模型120足够精确的准确度测量指示,或已经发生了多个训练轮次。
42.在一些实现方式中,机器学习模型120包括神经网络。在一些实现方式中,神经网络包括卷积神经网络。机器学习模型120可以包括其他类型的神经网络,诸如递归神经网络、径向基函数神经网络、物理神经网络(例如,光学神经网络)等等。稍后参考图3至图4更详细地讨论根据本公开文本的一个或多个实现方式的训练机器学习模型的特定方法。
43.机器学习模型120被配置为基于所接收的数据预测对第二分子序列的生物应答163。例如,假定第一分子序列数据161表示要用作疫苗接种的候选抗原的氨基酸序列,并且第二分子序列数据162表示已知在2012年流行的病毒株的氨基酸序列。如果人类免疫系统接种了第一分子序列(即,候选抗原),机器学习模型120可以预测人类免疫系统在遇到第二分子序列(例如,已知病毒株)后将产生的生物应答(例如,抗体滴度)。
44.图2示出了描绘根据本公开文本的一个或多个实现方式的使用机器学习技术来预测生物应答的方法200的例子的流程图。为了说明的目的,方法200被描述为由系统100执行,所述系统使用先前参考图1讨论的机器学习技术来预测生物应答。方法200包括接收第一分子序列的第一序列数据(框210),接收第二分子序列的第二序列数据(框220),以及预测对第二分子序列的生物应答(框230)。
45.在框210处,计算机处理器110接收第一分子序列的第一分子序列数据161。如前所指示,第一分子序列数据161可以包括候选抗原(例如,接种株)的氨基酸序列数据。例如,候选抗原可以对应于h3n1病毒。
46.在框220处,计算机处理器220接收第二分子序列的第二分子序列数据162。第二分子序列数据162可以包括针对其寻求保护的已知病毒株的氨基酸序列数据。例如,第二分子序列可以是2001年出现的已知病毒株。
47.在一些实现方式中,方法200进一步包括将第一分子序列数据161和第二分子序列数据162编码为氨基酸错配。例如,可以比较第一分子序列和第二分子序列的类似区域,并
且可以为区域中的每个不匹配的氨基酸配对编码“1”值,而为区域中的每个匹配的氨基酸配对编码“0”值。因此,可以向机器学习模型120提供第一分子序列与第二分子序列之间的非类似度,如由分子序列之间的类似区域内的位置处的不匹配氨基酸所限定的。
48.在一些实现方式中,方法200进一步包括接收与第一分子序列和第二分子序列相关联的非人类生物应答数据。非人类生物应答数据可以包括例如测量非人类模型(例如,小鼠、雪貂、人类免疫系统复制品等)在接种第一分子序列后对第二分子序列的生物应答的生物应答读出(例如,抗体滴度)。
49.在框230处,机器学习模型120基于所接收的数据预测对第二分子序列的生物应答。例如,如果人类免疫系统接种了第一分子序列(即,候选抗原),机器学习模型120可以预测人类免疫系统在遇到第二分子序列(即,已知病毒株)后将产生的生物应答(例如,抗体滴度)。在一些实现方式中,机器学习模型120被配置为预测对第二分子序列的非人类生物应答。例如,如果动物的免疫系统接种了第一分子序列,机器学习模型可以预测动物的免疫系统(例如,小鼠、雪貂等)在遇到第二分子序列后将产生的抗体滴度。训练机器学习模型来预测生物应答的方法
50.现在将描述用于训练机器学习模型120来预测生物应答的方法。图3示出了根据本公开文本的一个或多个实现方式的用于训练机器学习模型预测生物应答的数据的例子。如所示,来自数千(或数百万、数十亿等)次实验的数据可用于构建来自例如雪貂、小鼠和体外人类免疫系统复制品(例如,)模型的生物应答读出和病毒序列数据的综合储存库。在示出的实施方案中,数据包括抗原序列数据、病毒序列数据和通过血凝抑制测定(hai)和抗体取证(af)测量的生物应答读出。病毒序列数据包括一组已知病毒株(称为“读出”组)。实验可以分成称为“循环”的批次(例如,循环1和循环2)。在每个循环中,用选择的分子序列(例如,h3蛋白质、疫苗制剂等)激发模型系统,并且测量所述模型系统产生针对一组“读出”病毒株(称为“读出组”)的免疫应答的能力。可以选择病毒读出组来表示在限定时期(例如,1950年至2016年)期间流行的流感株的广泛取样。
51.为了将模型实验与人类结果相关联,可以针对“读出”组来测量人类血清。在示出的例子中,对于在模型系统中测试的每一对抗原株/读出株,在人类血清测量中并不总是有对应的对。这是因为人类样品可能是从接种疫苗的人身上收集的,而接种疫苗的时间段并不涵盖循环中的每个所用的全部年份。因此,机器学习模型可以被限制为仅在人类血清中测试的抗原和读出,并且人类读出滴度的向量可以被选择作为机器学习模型的目标向量。人类af读出可以来自疫苗接种后第21天收集的人类血清,所述时间通常足够受试者在接种后进行血清转化。
52.使用从上述实验得到的数据,可以训练模型来预测生物应答。在一些实现方式中,可以使用线性模型。
53.图4示出了根据本公开文本的一个或多个实现方式的用于训练机器学习模型预测生物应答的例子的流程图。如所示,首先制备数据矩阵400,其中每行对应于一对病毒抗原,诸如抗原株和“读出”株的h3区域。矩阵的列(或特征)包括雪貂模型af读出滴度402和小鼠模型af读出滴度403的具体列。在一些实现方式中,缺失的滴度数据用列的平均值来估算。然而,许多标准方法可以用于估算缺失的滴度数据。序列列401表示抗原株和“读出”株在选择区域中的氨基酸序列差异(seqdiff)表示,在示出的例子中,所述区域包括抗原株和“读
出”株的h3区域。通过在h3氨基酸序列比对的每个位置检查在抗原株和“读出”株之间氨基酸是相同还是不同来制备seqdiff。如果两个株之间的氨基酸不相同,则可以编码“1”。如果两个株之间的氨基酸相同,则可以编码“0”。将两个序列编码为氨基酸错配基本上可以创建蛋白质汉明距离测量,其通常反映对应氨基酸不同的位置的数量。在一些实现方式中,在整个训练集中一致为“0”的列被丢弃。使用线性回归将每行的列401、402、403与对应的人类滴度404相关联。
54.包括读出滴度的列402、403可以例如在拟合线性回归模型之前进行z得分变换。z得分可以指平均值为零且标准偏差为一的线性变换数据值,并且可以指示观察值在平均值之上或之下多少个标准差。因为seqdiff表示的编码可以是稀疏的,所以在一些情况下,主分量分析(pca)可以用于将seqdiff向量的维度减少到五个分量。pca是指统计学过程,它使用正交变换将一组可能相关的变量的观察值转换为一组称为主分量的线性不相关变量的值。pca可以用于强调变化,突出数据集中的强模式,并且将大量变量减少到较小的集合,而不会丢失较大集合中的大量信息。可以在数据的各种组合上训练线性模型,以更好地理解小鼠滴度、雪貂滴度和序列数据预测人类应答的相对能力。
55.尽管如前所述,机器学习模型可以构建为线性模型来预测生物应答,但是在数据特征与人类生物应答之间可能存在非线性关系。因此,使用来自前述实验的数据,可以构建使用深度神经网络或其他非线性模型的模型,所述模型能够1)利用数据中的非线性关系来做出与前述线性模型相比相对准确的预测,以及2)同时做出对动物滴度和人类滴度两者的预测。一起预测所有滴度可以利用这种认识,即免疫应答的强信号可以直接编码在抗原株和“读出”株的蛋白质序列中。通过训练模型仅从序列预测人类和动物两者的滴度,机器学习模型可以被迫搜索驱动跨物种免疫原性的序列-功能关系。在统计学术语中,这可以称为“借用强度”,并且可以允许模型更好地利用一种类型的模型(例如,雪貂模型)的大量可用数据来生成对人类应答的更稳健的预测。此策略可以适于更多的病毒抗原,以及具有超过13000个示例行的数据矩阵的构建。与线性模型一样,每个病毒株和读出株对的h3区域的seqdiff表示可以用作输入数据。
56.尽管,在一些实现方式中,对于线性模型,目标向量是人类滴度,但是非线性神经网络模型可以用例如七个输出列(雪貂hai和af滴度、小鼠hai和af滴度、mimic af、人类hai、人类af)来表示多目标回归问题。因为hai实验的检测极限通常为40(或,当表示为稀释度时,为1:40),所以任何低于此值的测量值都可以设置为40。类似地,如果af测量值低于所述值,则可以将其设置为10000。hai可以表示为log2(滴度/10),而af可以表示为log2(滴度)。如果在接种时(第0天)和血清转化后(第21天)进行测量,则人类和人类复制品数据可能具有额外的复杂性。因此,人类和人类复制品滴度可以表示为第21天/第0天的log2倍变化。在目标向量中滴度值缺失的情况下,可以将这些值设置为零,并且可以为这些位置屏蔽神经网络中的损失函数。这可以确保对缺失值的预测在训练期间不会对模型的适合度产生影响。
57.在一些实现方式中,可以使用具有两个具有relu激活的128节点密集层和一个7节点密集输出层的神经网络。可以随机排除部分数据(例如,15%的数据)作为测试集,并且可以对神经网络训练多代(epoch)(例如,400、500、1000等)。在一些实现方式中,使用以下参数:学习率=0.001;权衰减=0.0001;批量大小=128。
58.在一些实现方式中,l2损失函数用于人类复制品、人类af和人类hai目标向量。通常,l2损失函数最小化了估计目标值与现有目标值之间的平方差。在一些实现方式中,huber损失函数可以用于雪貂和小鼠数据。通常,在稳健回归中使用huber损失函数,并且至少在一些情况下,huber损失函数与l2损失函数相比对数据中的异常值更不敏感。为了进一步偏置模型,可以使用显式加权方案来对错误分类的人类样品施加另外的惩罚。例如,在训练的每代(epoch),可以将下列权重乘以每个目标损失:雪貂hai=0.8;雪貂af=1;小鼠hai=1;小鼠af=1;人类hai=2;人类af=2;mimic=1.5。实验结果:
59.图5描绘了被开发用于预测生物应答的平移模型的实验结果。开发了序列δ模型,所述模型使用抗原序列和抗体诱导抗原序列的按序列位置的错配(1/0),从而通过回归预测所述抗体是否抑制抗原神经氨酸酶。对由四种标准护理(soc)神经氨酸酶抗原诱导的针对42种na变体的小鼠血清抗体的nai的测量,以及对每种血清-na变体部分所得的归一化ic50计算,用于训练模型。如前所述,所述模型包括诸如由1或0编码的血清soc变体抗原对之间的序列错配等特征。将线性回归应用于序列特征以预测抗体-抗原nai作为归一化ic50。如图5中所示,大部分na序列变异降低了soc抗体nai(相对于socna),如负系数所证明,并且约2倍更有可能接近活性位点,表明所述模型捕获了准确的生物功能。
60.尽管前面的说明描述了某些候选抗原及其相关联的生物应答,但在流感的背景下,术语抗原应理解为广义地解释为包括在体内诱导免疫应答(例如,抗体的产生)的任何毒素或外来物质。例如,抗原可以对应于病毒株、细菌株、原生动物株系、朊病毒株、类病毒株或真菌株等。例如,候选抗原可以对应于呼吸道合胞病毒和其他副粘病毒。候选抗原可以包括百日咳抗原、白喉抗原和破伤风抗原等。
61.尽管前面的说明描述了某些生物应答,诸如hai滴度和af滴度,但是也可以使用其他生物应答。例如,生物应答可以对应于抗体表征(诸如对特定抗原和/或抗原片段组的亲和力和/或亲合力(例如蛋白质阵列、噬菌体展示文库等)),功能概况(诸如以确定抗药物抗体、免疫补体相互作用(例如吞噬作用、炎症、膜攻击)、抗体依赖性细胞毒性(adcc)或类似的fc介导的效应子功能),形成的免疫复合物的概况(例如受体结合概况),免疫沉淀测定,na酶抑制,或这些的组合。生物应答可以对应于抗体与其他抗体或抗血清竞争结合靶标。生物应答可以对应于抗血清表征(其可以对应于前述抗体表征的那些),以及功能测定(诸如微中和测定、血凝抑制和神经氨酸酶抑制)、结合测定(诸如血凝测定)、酶反应测定(诸如酶联凝集素测定(ella))、配体结合测定(诸如唾液酸衍生物及其模拟物的结合)和荧光读出测定(诸如20-(4-甲基伞形酮基)-a-d-n-乙酰神经氨酸(munana)裂解)。
62.生物应答可以对应于通过被动转移和/或外源表达或通过以下一种或多种方式实现的转移,利用单克隆或多克隆抗体的体内评估:逆转录病毒感染介导的转染或内源表达,或宿主基因组修饰(诸如通过crispr),两个体之间的液体转移,或这些的组合。生物应答可以对应于对通过免疫接种产生的免疫性进行的体内评估,以评估抗原性。生物应答可以对应于诸如主要组织相容性复合体(mhc)i类和ii类上的线性肽抗原的结合/亲和力测量的表征,并且还可以评估关于t细胞识别的生产性t细胞表位展示。生物应答可以对应于表征,诸如对抗原片段组(例如蛋白质阵列、噬菌体展示文库等)的亲和力,以鉴定被识别的表位。生物应答可以对应于离体和/或体外的功能概况,诸如以确定t细胞应答和/或介导的应答。生物应答可以对应于响应于自然感染和/或激发和/或免疫的适应性应答相关t细胞(例如αβ
或γδt细胞)增殖(例如组织区室中的丰度)的体内和/或原位测量。生物应答可以对应于通过与其他表位竞争所测量的响应于自然感染和/或激发和/或免疫的适应性应答相关t细胞(例如αβ或γδt细胞)识别特异性的体外和/或离体测量。
63.生物应答可以对应于由待对抗的病原体或替代物(诸如假型病毒或细菌)引起的组织形成、组织修复或入侵组织的形态学或生理学变化的原位、离体和/或体内评估。生物应答可以对应于相对于其他抗原和/或生理状态的原位、离体蛋白质、基因表达和/或非编码rna水平差异,所述其他抗原和/或生理状态例如通过生物标记诸如年龄、性别、虚弱、标称血清状态、种族、单倍型、地理位置来表征。生物应答可以对应于对自然发生的或通过人类或模式生物(诸如但不限于小鼠、大鼠、兔、雪貂、豚鼠、猪、牛、鸡、绵羊、鼠海豚、蝙蝠、狗、猫、斑马鱼和其他硬骨鱼,以及非人类灵长类动物诸如猴子和类人猿)传播的感染的保护、传播或其他总体生理应答的原位评估。
64.关于在受控人类激发研究中包括的对同型和/或异型感染原的故意感染(即激发)的应答,生物应答可以对应于对血液或组织中存在的蛋白质或代谢物的原位、离体和/或体内评估,其中蛋白质可以是细胞因子、激素或信号传导分子,并且其中代谢物可以是维生素、辅因子或其他代谢副产物。生物应答可以对应于对可能受免疫应答影响或影响免疫应答的微生物组的原位、离体和/或体内评估。生物应答可以对应于响应于单独抗原或抗原与先天免疫细胞(诸如自然杀伤(nk)细胞、树突细胞(dc)、嗜中性粒细胞、巨噬细胞、单核细胞等)联合激发的离体功能概况、体外表型和/或功能性t细胞应答概况(受体表达、细胞因子产生、细胞毒性潜力)。生物应答可以对应于表观遗传分析,所述表观遗传分析使用如前所述的技术或方法收集或产生的样品执行。
65.尽管前面的说明描述了用于训练机器学习模型来预测生物应答的某些方法和数据,但是也可以使用其他方法和数据。例如,神经网络模型可以包括比先前描述的模型更多或更少的层,其中每个层可以具有更多或更少的节点。
66.在前面的描述中,已经参考许多具体细节描述了本发明的实施方案,这些细节可能因实现方式而异。因此,说明书和附图被认为是说明性的,而不是限制性的。本发明范围的唯一和排他的指示、以及申请人希望的本发明的范围是本技术中以权利要求提出的特定形式给出的权利要求(包括任何后续的修正)的字面和等同范围。本文中对包含在权利要求中的术语明确阐述的任何定义将决定权利要求中使用的这些术语的含义。此外,当我们在前面的描述或后面的权利要求中使用术语“进一步包括”时,这个短语后面的可以是附加的步骤或实体,或者前述步骤或实体的子步骤/子实体。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献