一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

确定性解码器变分自动编码器的制作方法

2022-10-26 23:42:30 来源:中国专利 TAG:

确定性解码器变分自动编码器
相关申请的交叉引用
1.本专利申请要求于2020年3月02日提交的申请号为62/984,172的美国临时申请的优先权,该临时申请通过具体引用整体并入本文。


背景技术:
技术领域:
2.本发明涉及具有用于选择最高分数词符(token)而不是采样顺序数据的确定性解码器的变分自动编码器。相关技术的描述:
3.变分自动编码器(vae)是机器学习模型,用于学习对象(例如分子)的分布。变分自动编码器包含两个神经网络,例如编码器和解码器。编码器学习对象到压缩的“潜在”代码的映射,解码器学习从这些潜在代码重构对象。vae的一个重要特征是编码器和解码器两者都是随机的,即编码器可以将对象映射到具有不同概率的不同潜在代码。类似地,解码器可以从相同的潜在代码产生不同的对象,其中一些对象具有较高的概率,一些对象具有较低的概率。vae容易出现后验塌陷(posterior collapse),这是当编码器为大多数对象产生相同分布的潜在代码时而解码器在生成对象时会忽略潜在代码的问题。
4.变分自动编码器是一种基于自动编码器的生成模型,可在许多数据域中提供高质量的样本,包括图像生成、自然语言处理、音频合成和药物发现。变分自动编码器使用随机编码器和解码器。编码器将对象x映射到潜在代码的分布上,解码器产生与给定潜在代码相对应的对象的分布p
θ
(x|z)。
5.对于复杂的随机解码器(例如pixelrnn),vae倾向于忽略潜在代码,因为解码器具有足够的灵活性,可以在完全不使用潜在代码的情况下产生整个数据分布p(x)。这种行为可能会损害vae的表示学习能力,并且无法将其潜在代码用于下游任务。
6.vae的潜在代码的一种应用是分子特性的贝叶斯优化。高斯过程回归器已经对vae的潜在代码进行了训练,并优化了潜在代码以发现具有理想特性的分子结构。对于随机解码,高斯过程必须考虑目标变量的随机性,因为每个潜在代码都对应于多个分子结构。


技术实现要素:

7.在一些实施例中,提供了确定性解码器vae(dd-vae)的模型。dd-vae可以具有导出的其证据下界,并且可以提出一种方便的近似,具有证明可以收敛到非松弛目标的最佳参数。在完全支持建议分布的情况下,无损自动编码是不可能的,因此本发明引入有界支持分布作为其解决方案。对多个数据集(合成、mnist、moses、zinc)进行了实验,以表明dd-vae既产生了适当的生成分布,又产生了有用的潜在代码。
8.在一些实施例中,利用确定性解码器变分自动编码器生成对象的计算机实现方法可以包括:提供被配置为确定性解码器变分自动编码器的模型;将对象数据输入到确定性
解码器变分自动编码器的随机编码器中;利用编码器在潜在空间中生成潜在代码;将来自所述潜在空间的所述潜在代码提供给解码器,其中所述解码器被配置为确定性解码器;利用所述解码器生成解码对象;以及生成识别所述解码对象的报告。
9.在一些实施例中,所述方法可以包括:所述编码器将所述对象数据映射到潜在代码的分布上;在所述潜在空间中采样潜在代码;将经采样的潜在代码输入到所述确定性解码器中;所述确定性解码器将每个潜在代码映射到单个数据点;并生成基于输入对象数据的生成对象的分布。
10.在一些实施例中,所述对象数据是序列数据。在一些方面,序列数据是简化分子线性输入规范(smiles),使得对象是分子。
11.在一些实施例中,所述计算机实现可以包括:获得对象数据的序列模型,该对象数据是具有序列的序列数据;将序列的每个词符定义为有限的;在给定每个先前词符的潜在代码的情况下,将序列模型参数化为针对每个词符的概率分布的循环神经网络;从具有最高分数词符的潜在代码中解码序列,以产生重建序列;并确定重建序列是正确的序列。
12.在一些实施例中,所述计算机实现的方法可以包括:使用有界支持建议分布;选择内核并计算kullback-leibler散度;使用舍选采样法对潜在代码进行采样;重新参数化经采样的潜在代码以获得最终样本;以及可选地重复采样直到获得可接受的最终样本。
13.在一些实施例中,所述计算机实现的方法可以包括获得均匀分布作为编码器的先验。
14.在一些实施例中,所述计算机实现的方法可以包括导出标准高斯分布和均匀分布的有界支持分布的kullback-leibler散度作为所述编码器的先验。
15.在一些实施例中,所述计算机实现的方法包括:通过用平滑函数近似来优化不连续函数;定义arg max;用参数化的指示函数的平滑松弛来近似arg max;以及用所述指示函数的平滑松弛来代替arg max。
16.在一些实施例中,所述计算机实现的方法包括:等效地定义arg max;引入指示函数的平滑松弛;允许所述平滑松弛点式收敛到指示函数;用平滑松弛代替arg max;以及获得证据下界的近似。
17.在一些实施例中,所述计算机实现的方法包括使用最高分数的词符选择潜在代码来代替或执行采样。
18.在一些实施例中,所述计算机实现的方法包括:针对高斯分布和均匀分布导出kulback-leibler散度;或者计算kulback-leibler散度,从而鼓励潜在代码边缘分布为p(z)。
19.在一些实施例中,所述计算机实现的方法可以包括(例如,训练dd-vae):a)将温度参数τ初始化为0《τ《1;b)使用公式(13)计算目标函数,
c)计算目标函数的梯度;d)优化所计算梯度的结果;e)重复步骤b)、c)和d),直到收敛;f)减小温度参数τ的值;g)重复步骤b)、c)、d)、e)和f),直到温度参数τ小于预定阈值;以及h)提供经过训练的dd-vae模型。
20.在一些实施例中,所述计算机实现的方法可以包括:从先验分布中采样潜在代码;将经采样的潜在代码提供给dd-vae的循环解码器;在序列词符结束之前获得所有词符的分数;选择具有最高分数的词符;将所选词符添加到当前生成的序列的末尾;将采样的词符作为输入提供到循环解码器中;以及使用循环解码器从采样的词符生成对象。
21.在一些实施例中,所述计算机实现的方法可以包括:从先验分布中采样潜在代码;将经采样的潜在代码提供给dd-vae的解码器,其中所述解码器被配置为卷积解码器或全连接解码器;同时获得每个输出元素的每个可能值的分数;为每个输出元素选择可能值和最高分数;将所选的输出元素作为输入提供给解码器;以及使用解码器从所选输出元素生成对象。
22.在一些实施例中,一种生成对象(例如,真实物理对象,而非虚拟对象)的方法:执行计算机实现的方法以获取虚拟对象(例如,从确定性解码器生成的对象):提供被配置为确定性解码器变分自动编码器的模型;将对象数据输入到确定性解码器变分自动编码器的随机编码器中;利用编码器在潜在空间中生成潜在代码;将来自潜在空间的潜在代码提供给解码器,其中解码器被配置为确定性解码器;用解码器生成解码对象;并生成识别解码对象的报告。然后,该方法可以包括未在计算机上实现的物理步骤,包括:选择解码对象;以及获得所选择的解码对象的物理形式。在一些方面,对象是分子。在一些方面,所述方法包括验证所述分子具有所述分子的至少一个特征。例如,可以测试分子的物理特性或生物活性。
23.在一些实施例中,一种计算机系统可以包括:一个或多个处理器;以及存储指令的一个或多个非暂时性计算机可读介质,所述指令响应于由所述一个或多个处理器执行,使得所述计算机系统执行操作,所述操作包括本文所述的计算机实现的方法。
24.上述概述仅是说明性的,并不旨在以任何方式进行限制。除了上述说明性方面、实施例和特征之外,通过参考附图和下面的详细描述,其他方面、实施例和特征将变得显而易见。附图简要说明
25.结合附图,从下面的描述和所附权利要求中,本公开的前述和以下信息以及其他特征将变得更加明显。应当理解,这些附图仅描绘了根据本公开的几个实施例,并且因此不被认为是对其范围的限制,将通过使用附图以额外的特征和细节来描述本公开。
26.图1示出了一种具有随机编码器的dd-vae,该随机编码器将有界支持分布的参数输出到潜在空间中,然后用确定性解码器对其进行解码。
27.图2示出了在潜在空间的采样期间,循环神经网络(rnn)解码器选择的arg的最大分数p
θ
(xi|x
<i
,z)。
28.图3示出了对于μ=0和σ=1的有界支持建议,其是通过散度导出的。
29.图4示出了一些有界支持内核的散度。
30.图5示出了均匀先验导出的散度。
31.图6示出了不同τ值的函数στ(x)。
32.图7示出了可以执行本文所述的计算机实现的方法的示例计算机系统。
33.图8a示出了一种训练dd-vae(例如,图1)的方法。
34.图8b示出了确定性解码器的功能,其可以允许改进dd-vae的学习能力的表示,其中潜在代码可以用于下游任务。
35.图8c示出了一个其中dd-vae可以与简化分子线性输入规范(smiles)一起使用来表示分子的示例,其提供了使用深度优先搜索顺序遍历将分子图表示为字符串(例如,序列)的系统。
36.图8d示出了一种使用有界支持建议分布如何避免与为给定z产生的单个数据点相关的问题的方法。
37.图8e示出了用于优化不连续函数的方法,用于将近似elbo的最优参数收敛到原始函数的最优参数。
38.图9a示出了具有均匀先验和均匀建议的dd-vae。
39.图9b示出了具有均匀先验和tricube建议的dd-vae。
40.图9c示出了具有高斯先验和高斯建议的vae。
41.图10a-10b示出了具有高斯先验和建议的基线vae的学习潜在空间结构,并将其与具有均匀先验和建议的dd-vae进行比较。
42.图11示出了具有在moses数据集上确定性解码的分布学习。
43.图12示出了在zinc数据集上样本的重建精度(序列式)和有效性;zinc数据集上稀疏高斯过程的预测性能;对数似然(ll)和均方根误差(rmse);使用贝叶斯优化发现的前3个分子的得分。
44.图13示出了使用不同协议发现的前3个分子。
45.图14示出了一种训练dd-vae的方法。
46.图15示出了一种使用具有循环解码器的dd-vae生成对象的方法。
47.图16示出了一种使用具有被配置为卷积解码器或全连接解码器的dd-vae生成对象的方法。
48.附图中的元件和部件可以根据本文描述的实施例中的至少一个来布置,并且该布置可以由本领域普通技术人员根据本文中提供的公开内容来修改。
具体实施方式
49.在以下详细说明中,参考构成本发明一部分的附图。在附图中,除非上下文另有规定,相似的符号通常标识相似的组件。在具体实施方式、附图和权利要求中描述的说明性实
施例并不意味着是限制性的。在不脱离本文所呈现的主题精神或范围的情况下,可以使用其他实施例,并且可以进行其他改变。容易理解的是,如本文一般描述的和在附图中示出的本公开的方面可以以各种不同的配置来布置、替换、组合、分离和设计,所有这些在本文中都被明确考虑。
50.确定性解码器vae(dd-vae)
51.可以设计和制定确定性解码器变分自动编码器(dd-vae)。有界支持建议(bounded support proposal)可以与dd-vae一起使用。也可以进行dd-vae的elbo(证据下界)的连续松弛。已经证明,松弛问题的最优解与原始问题的最优解相匹配。确定性解码简化了回归任务,从而提高了预测质量。
52.dd-vae的变分自动编码器使用随机编码器和确定性解码器。编码器将对象x映射到潜在代码的分布上,解码器产生对应于如图1所示的给定潜在代码的对象分布p
θ
(x|z)。图1示出了一种dd-vae 100。其中dd-vae的随机编码器102将有界支持分布的参数输出到潜在空间106中。利用高斯建议,无损自动编码是不可能的,因为任何两个对象的建议都会重叠。dd-vae可以使用确定性解码器104代替随机解码。因此,在图1中,编码器102是随机编码器,而解码器104是确定性解码器。
53.图2示出了在潜在空间206的采样期间,循环神经网络(rnn)解码器104选择分数的argmax p
θ
(xi|x
<i
,z)。因此,解码器的唯一变化源是z。因此,可以使用松弛的目标函数通过argmax来优化。对于复杂的随机解码器(例如pixelrnn),vae倾向于忽略潜在代码,因为解码器具有足够的灵活性,可以在完全不使用潜在代码的情况下产生整个数据分布p(x)。这种行为可能会损害vae的表示学习能力,并且无法将其潜在代码用于下游任务。dd-vae的确定性解码器将每个潜在代码映射到单个数据点,因此很难忽略潜在代码,因为它们是唯一的变化源。
54.在dd-vae中,该协议符合标准高斯先验,并研究了编码器和解码器所需的属性,以实现确定性解码。dd-vae可以与简化分子线性输入规范(smiles)一起表示分子,其提供了使用深度优先搜索顺序遍历将分子图表示为字符串的系统。
55.图8a示出了一种训练(例如,图1中的)dd-vae的方法200。方法200可以包括在框202处提供dd-vae。dd-vae包括随机编码器和确定性解码器。在框204处,对象x被输入到随机编码器中。在框206处,编码器将对象x映射到潜在代码的分布上。在框208处,对潜在代码进行采样。在框210处,经采样的潜在代码被输入到确定性解码器中。在框212处,确定性解码器生成对象的分布p
θ
(x|z),所生成的对象是基于对象x生成的。
56.图8b示出了确定性解码器功能220,其可以允许改进dd-vae的学习能力的表示,其中潜在代码可以用于下游任务。在框222处,确定性解码器可以将每个潜在代码映射到单个数据点。在框224处,考虑潜在代码,并且在框226处,允许潜在代码向生成的对象的分布提供变化。
57.图8c示出了一个示例,其中dd-vae可以与简化分子线性输入规范(smiles)一起使用来表示分子,其供了使用深度优先搜索顺序遍历将分子图表示为字符串(例如,序列)的系统。在框232处,获得序列模型,xi是序列x1,x2,......,x
|x|
。在框234处,序列模型的每个词符被定义为有限词汇v的元素。在框236处,序列可以具有参数化为循环神经网络(rnn)的解码分布,其在给定潜在代码和所有先前词符的情况下,产生随每个词符xi变化的概率分
布。在框238处,确定性解码器在每次迭代中通过取得具有最高分数的词符来从潜在代码z解码序列然后,在框240处,确定重建的序列是否正确。
58.图8d示出了一种使用有界支持建议分布的如何避免与对于给定z产生的单个数据点相关联的问题的方法250。在框252处,提供了一种有界支持建议分布模型。在框254处,协议可以选择一个内核,以便可以解析地计算q(z|x)和先验p(z)之间的散度。可选地,可以确定并绘制散度的密度。在框256处,可以使用舍选采样法(rejection sampling)来采样潜在代码。在框258处,应用重新参数化以获得最终样本。在框260处,重复采样直到获得可接受的样本。在一些方面,在框251处,第i个有界支持建议,协议可以使用均匀(uniform)分布u[-1,1]作为vae中的先验(均匀先验),只要的支持位于先验分布的支持内。在框262处,获得一组参数(θ,φ),对于该组参数,建议q
φ
(z|x)对于不同的x不重叠,因此是有限的。
[0059]
图8e示出了优化不连续函数用于将近似elbo的最优参数收敛到原始函数的最优参数的方法270。在步骤272处,等效地定义arg max。在框274处,引入了指示函数的平滑松弛,该指示函数利用温度参数进行参数化。在框276处,允许平滑松弛点式(pointwise)收敛到指示函数。在框280处,用建议的松弛代替arg max,并且在框280处获得证据下界的近似值。这可以针对不同的温度参数τ进行。
[0060]
在一些实施例中,可以如本文所述执行用dd-vae生成对象的方法。该方法可以包括提供被配置为确定性解码器变分自动编码器的模型。然后,可以将对象数据输入到dd-vae的编码器中。可以通过编码器获得潜在对象数据。可以将所述潜在对象数据提供给解码器,其中所述解码器被配置为确定性解码器。解码器可以生成解码对象。生成的对象可以准备成现实生活中的对象。该方法还可以包括生成识别解码对象的报告,该报告可以存储在存储设备中或提供用于各种用途。该报告可用于准备对象的物理的现实生活版本。
[0061]
在一些实施例中,编码器输出有界支持分布的参数。可以计算出kullback-leibler散度,从而鼓励潜在代码以p(z)的形式进行边缘分布。解码器可以选择分数的arg max。通过获得具有最高分数的词符,可以从潜在代码中解码序列。可以使用确定性解码器将每个潜在代码映射到单个数据点。
[0062]
在一些实施例中,可以使用有界支持建议分布来执行协议。此外,可以执行计算kullback-leibler散度。在一些方面,可以将均匀分布作为编码器的先验分布。
[0063]
在一些实施例中,可以通过利用平滑函数对不连续函数进行近似来优化该不连续函数来执行协议。在一些方面,可以执行定义arg max。arg max可以通过参数化的指示函数的平滑松弛来近似。而且,arg max可以用指示函数的平滑松弛代替。
[0064]
在一些实施例中,对象数据被配置为顺序数据(sequential data)。顺序数据可以是按顺序排列的化学命名,例如smiles。
[0065]
在一些实施例中,所述方法选择最高分数的词符而不是采样。在一些方面,解码器仅使用潜在代码来产生解码对象。在一些方面,潜在代码是唯一的变化源。在一些方面,该方法使用有界支持建议分布。
[0066]
在一些方面,所述方法包括使用目标函数进行训练。在一些方面,所述方法可以包括针对高斯分布和均匀分布导出kulback-leibler散度。在一些方面,该方法可以包括计算
kullback-leibler散度,从而鼓励潜在代码以p(z)进行边缘分布。
[0067]
在一些方面,该方法可以包括从解码对象的分布中选择解码对象或从解码器中选择任何对象。在计算机数据中,解码对象表示物理形式。然后可以将解码对象用作获得所选解码对象的物理形式的模型。在一些方面,对象是分子。也就是说,所选解码对象可以被制备成物理形式,例如通过合成其化学结构。在准备之后,所述方法可以包括验证所选解码对象的物理形式。这可以包括在分析中测试分子,以确定该分子是否具有所需的活性。该活性可以是生物途径或某些疾病状态下的生物活性。
[0068]
在一些实施例中,提供了一种用于使用具有dd-vae.的机器学习模型来生成新的离散对象的计算系统。计算系统可以被编程为具有随机编码器和确定性解码器。可以对计算系统被编程,以执行从变分自动编码器的训练方法导出训练方法。计算系统可以被配置用于执行目标函数的平滑近似。在一些方面,随机编码器可以被配置为具有有界支持的编码分布。可以使用示例的有界支持分布,其中分布由移位和缩放的有界支持内核进行参数化。计算系统可以被配置为获得对于标准高斯分布和均匀分布的有界支持分布导出kulback-leibler散度。
[0069]
可以对计算系统进行编程,以学习具有确定性解码器的变分自动编码器,并且其中解码器将潜在代码映射到单个对象。计算系统具有两个新的组件:有界支持建议分布和用于训练的新的目标函数。对于新的有界支持建议分布,该协议针对高斯分布和均匀分布推导了kulback-leibler散度。提出的目标函数可以实现无损压缩。
[0070]
图14示出了一种训练dd-vae的方法300。该方法可以包括在框302处例如通过计算机编程创建dd-vae。dd-vae可以包括编码器网络和解码器网络。编码器可以是随机编码器。解码器不是随机解码器。相反,解码器是确定性解码器。dd-vae可以包括其网络为循环神经网络、全连接神经网络或卷积网络。训练方法300可以包括在框304处以小于1的正值初始化的温度参数τ,使得0《τ《1。训练方法300可以包括在框306处使用公式(13)(在此提供)计算目标函数。在框308处,用公式(13)相对于编码器和解码器参数计算目标函数的梯度。在框310处,使用优化器函数对计算梯度的结果执行优化。优化器函数可以是随机梯度下降(sgd)、adam、adadelta、贝叶斯优化器或其他函数中的任何一个。可以重复框306、308和310的步骤,直到在框312处收敛。然后在框314处根据递减时间表来减小温度参数τ的值,该递减时间表可以通过将温度参数τ乘以从零到1(0《cv《1)的恒定值(cv),从温度参数τ减去固定值,或其它。在框316处,可以重复框306、308、310、312和314的步骤,直到温度参数τ小于预定阈值。然后,可以在框318处提供经过训练的dd-vae模型。
[0071]
图15示出了一种使用具有循环解码器dd-vae(例如根据图14训练的)生成对象的方法330。方法330可以包括在框332处获得训练的dd-vae。在框334处,具有潜在代码的潜在空间可以从先验分布中采样。然后在框336处将经采样的潜在代码提供给循环解码器。在框338处,当尚未生成“序列结束词符”时,获得所有词符的分数。在框340处,选择最高分数的词符。在框342处,将所选择的词符添加到当前生成序列的末尾。然后,在框344处,在下一次迭代中,采样的词符作为输入被提供到解码器中。在框346处,由解码器将采样词符生成到对象中。然后,在框348处,例如在报告中提供所生成的对象。生成的对象是虚拟对象,可以用作准备生成对象的物理版本的蓝图。
[0072]
图16示出了一种使用具有卷积解码器或全连接解码器的dd-vae(如根据图14训练
的)生成对象的方法350。方法350可以包括在框352处获得训练的dd-vae。在框354处,具有潜在代码的潜在空间可以从先验分布中采样。然后在框356处,将经采样的潜在代码提供给卷积解码器或全连接解码器。然后,在框358处,同时获得每个输出元素的每个可能值的所有分数。在框360处,对于每个输出元素,选择具有最高分数的可能值。然后,在框362处,在下一次迭代中,选择的输出元素作为输入被提供到解码器中。在框364处,由解码器将所选择的输出元素生成到对象中。然后,在框366处,例如在报告中提供所生成的对象。生成的对象是虚拟对象,可以用作准备生成对象的物理版本的蓝图。
[0073]
在一些实施例中,代替变分自动编码器,基础算法可以优化对抗性自动编码器的目标函数。
[0074]
在一些实施例中,模型编码器和解码器可以采用任何形式的神经网络,包括循环网络、卷积网络、注意网络和其他。
[0075]
对象数据可以是序列数据,这表明对象可以用序列表示。序列可以是一行词符或标识符,当它们放在一起时提供对象的指示或序列表示。在本文所述的处理期间,机器学习系统运行迭代,所述迭代可用于处理数据以学习数据以及从学习数据重建新对象。迭代也可以与序列一起运行,其中序列可以被认为是词符或标识符,其中每个迭代可以处理所有词符或标识符,或者序列中的每个词符或标识符可以顺序被处理。smiles格式的化学结构就是这种序列的良好示例。
[0076]
示例
[0077]
合成数据
[0078]
通过对四个数据集进行实验来测试dd-vae:合成数据集和mnist数据集以可视化学习的流形结构的;在moses分子数据集上分析dd-vae的分布质量;和zinc数据集,以查看dd-vae潜在代码是否适合目标导向的优化。
[0079]
该数据集提供了具有随机解码器的标准vae和具有确定性解码器的dd-vae模型的概念比较验证。数据由6位字符串组成,每个字符串的概率由概率为1的独立的伯努利样本给出,为0.8。例如,字符串“110101”的概率为0.84。0.22≈0.016.
[0080]
在图9a-9c中,示出了利用所提出的模型学习的2d潜在代码。作为编码器和解码器,使用具有隐藏大小128的2层门控循环单元(gru)网络。该模型提供了均匀先验,并比较了均匀和tricube建议。对于基线模型,训练了具有高斯建议和先验的β-vae。我们使用β=0.1,对于较大的β,我们观察到后验塌陷。对于我们的模型,我们使用了β=1,它等同于所描述的模型。图9a示出了具有均匀先验和均匀建议的dd-vae。图9b示出了具有均匀先验和tricube建议的dd-vae。图9c示出了具有高斯先验和高斯建议的vae。在合成数据上学习2d流形。虚线表示建议边界,实线表示解码边界。对于每个解码的字符串,我们在确定性解码下编写其概率。
[0081]
对于基线模型,观察到不规则的判决边界,对于远离原点的潜在代码,其行为也不可预测。均匀和tricube建议都学习覆盖整个潜在空间的砖块状结构。在训练期间,可以观察到,均匀建议倾向于以很小的幅度分开建议分布,以确保它们之间没有重叠。随着训练的继续,建议的宽度会增加,直到它们覆盖整个潜在空间。对于tricube建议,我们观察到类似的行为,尽管模型可以容忍轻微的重叠。
[0082]
编码器和解码器是具有2层128个神经元的gru。潜在大小为2;嵌入维度为8。我们
用adam优化器对模型进行了100个时期的训练,初始学习率为510-3,每20个时期减半。批大小为512。在训练期间,我们通过固定编码器并仅学习解码器,对模型进行了10个时期的微调。对于具有均匀先验和均匀建议的建议模型,我们在100个时期将权重β线性地从0增加到0.1。对于高斯和tricube建议,我们在100个时期将权重β线性地从0增加到1。对于所有三个实验,我们对前两个时期的自动编码器进行了β=0的预训练。在对数线性尺度的100个时期的训练期间,我们将将温度从10-1
退火到10-3
。对于tricube建议,我们将温度退火至10-2。
[0083]
二进制mnist
[0084]
为了在成像数据上评估模型,我们考虑了一个通过阈值0.3将原始0到1灰度图像进行阈值化而获得的二值化数据集。该实验的目的是可视化dd-vae如何在中等大小的数据集上学习2d潜在代码。
[0085]
在本实验中,我们训练了一个具有784到256到128到32到2结构的4层全连接编码器和解码器。在图10a-10b中,我们示出了具有高斯先验和建议的基线vae的学习潜在空间结构,并将其与具有均匀先验和建议的dd-vae进行了比较。应当注意,均匀表示均匀地覆盖了潜在空间,因为所有点都具有相同的先验概率。此属性对于可视化任务很有用。学习结构可以更好地将类分开,尽管它是以无监督的方式进行训练的:2d潜在代码上的k-最近邻分类器对dd-vae产生的87.8%精度和对vae产生86.1%精度。
[0086]
我们通过0.3值对原始mnist像素进行阈值化来对数据集进行二值化。我们使用了具有leakyrelu激活函数的层大小为784至256至128至32至2的全连接神经网络。我们以起始学习率为5
×
10-3
对模型进行了150个时期的训练,每20个时期减半。我们使用了批大小为512,并使用值10剪切了梯度。对于vae,我们从10-5
增加3到0.005,对于dd-vae增加到0.05。我们对数尺度将温度从0.01降低到0.0001
[0087]
分子集(moses)
[0088]
我们在moses数据集上比较了分布学习任务的模型。moses数据集包含大约200万个以smiles字符串表示的分子结构;moses还实现了多个指标,包括与最近邻的相似性(snn/test)和fr
é
chet chemnet距离(fcd/test)。snn/test是生成的分子与测试集中最近邻的分子的平均tanimoto相似性。因此,如果生成的分子位于测试集的流形上,则snn具有很高的精度。fcd/test计算激活chemnet倒数第二层的生成集和测试集之间的fr
é
chet距离。较低的fcd/test表示生成的分布和测试分布更接近匹配。
[0089]
我们监视模型的行为以获得较高的重建精度。我们为vae和dd-vae训练了一个具有512个神经元和64个潜在维数的2层gru编码器和解码器。我们用这样的3个模型进行了预训练,使得序列式(sequence wise)重建精度约为95%。我们监测fcd/test和snn/test指标,同时逐渐增加3,直到序列式重建精度降至70%以下。
[0090]
在图11报告的结果中,dd-vae在两个指标上都优于vae。有界支持建议对目标指标的影响较小,尽管它们对fcd/test和snn/test都有所改善。图11示出了在moses数据集上采用确定性解码学习的分布。我们报告生成模型指标:fcd/test(越低越好)和snn/test(越高越好)。多次运行的平均值
±
标准差。g=高斯建议,t=三重建议。
[0091]
我们使用了一个隐藏大小为512的2层gru网络。嵌入大小为64,潜在空间为64维。我们使用了tricube建议和高斯先验。我们以固定的3在20个时期内预先训练了一个模型,
然后在180个时期线性地增加3。我们在预训练后将学习率减半。对于dd-vae模型,我们以对数标度将温度从0.2降低到0.1。对于vae模型,我们线性地增加了3个散度,从0.0005增加到0.01,从0.0015增加到0.02。
[0092]
贝叶斯优化
[0093]
分子的生成分子自动编码器的标准用例是潜在代码上分子属性的贝叶斯优化(bo)。在本实验中,我们训练了一个1层gru编码器和解码器,其中zinc上有1024个神经元,潜在维度为64。我们调整了超参数,使得我们所有模型的训练集序列式重建精度接近96%。模型在测试集上显示出良好的重建精度和样本的良好有效性(图12)。我们使用提出的标准两步验证程序探索了潜在空间,以显示dd-vae潜在代码的优势。贝叶斯优化的目标是最大化分子m的以下分数:score(m)=logp(m)

sa(m)

cycle(m)
ꢀꢀ
(25)
[0094]
其中logp(m)是分子的水-辛醇分配系数,sa(m)是从rdkit软件包获得的合成可及性分数,cycle(m)惩罚分子中最大的环r
max
(m),如果由6个以上的原子组成:cycle(m)=max(0,|-6)
ꢀꢀ
(26)
[0095]
score(m)中的每个部件通过减去平均值并除以训练集中估计的标准偏差来归一化。验证过程包括两个步骤。首先,我们在来自zinc数据库的大约250,000个smiles字符串上训练的dd-vae的潜在代码上训练稀疏高斯过程,并在图12中报告高斯过程在十倍交叉验证上的预测性能。我们将dd-vae与以下基线进行比较:character vae,cvae;grammar vae,gvae;syntax-directed vae,sd-vae;junction tree vae,jt-vae.。图12示出了在zinc数据集上样本的重建精度(序列式)和有效性;zinc数据集上稀疏高斯过程的预测性能;对数似然(ll)和均方根误差(rmse);使用贝叶斯优化发现的前3个分子的分数。g=高斯建议,t=tricube建议。
[0096]
使用经过训练的稀疏高斯过程,我们使用预期改进获取函数和krigingbeliever算法对60个潜在代码进行迭代采样,以为该批处理选择多个点。我们评估了选定的点,并将重建的对象添加到训练集中。我们重复训练和采样5次迭代,并报告了图12和图13中最高分数的分子。
[0097]
所提出的模型在多个下游任务(包括分子结构的贝叶斯优化)上优于标准vae模型。在消融研究中,我们注意到具有有界支持的模型在采样过程中显示出较低的有效性。我们认为这是由于潜在空间的区域没有被任何建议所覆盖:解码器在训练期间不会访问这些区域,并且在那里可能会表现出意外行为。由于潜在代码均匀地覆盖了潜在空间,因此我们找到了一个适用于下游分类和可视化任务的均匀先验。
[0098]
dd-vae引入了一个额外的超参数τ,用于平衡重建和项。与权重β不同,温度τ非线性地改变损失函数及其梯度。我们发现它对于选择起始温度非常有用,这样在训练开始时,以使和重建项的梯度具有相同的大小。通过退火时间表的实验,我们发现对数线性退火略好于线性退火。
[0099]
我们使用了一个隐藏大小为1024的1层gru网络。嵌入大小为64,潜在空间为64维。我们使用了tricube建议和高斯先验。我们训练了一个200个时期的模型,其起始学习率为5
×
10-4
,每50个时期减半。在dd-vae模型的前50个时期,我们将散度权重3从10-3
线性增加到0.02,对于vae模型从10-4
增加到5
×
10-4
,对于具有tricube建议的vae模型从10-4
增加到
8x10-4
。在dd-vae模型的前100个时期,我们将温度对数线性地从10-3
降低到10-4
。有了这样的参数,我们实现了一个可比较的95%训练序列式重建精度。
[0100]
机器学习协议
[0101]
变分自动编码器(vae)包括编码器q
φ
(z|x)和解码器p
θ
(x|z)。该模型学习数据分布p(x)到潜在代码p(z)的先验分布的映射,其通常是标准高斯n(0,i)。通过最大化对数边缘似然logp(x)上的下界来学习参数θ和φ。l(θ,φ)被称为证据下界(elbo):
[0102]
公式1中的log p
θ
(x|z)项是重建损失,而kl项是kullback-leibler散度,它鼓励潜在代码以p(z)形式进行边缘分布。
[0103]
对于序列模型,xi是序列x1,x2,...,x
|x|
,其中序列的每个词符都是有限词汇表v的元素,|x|是序列x的长度。序列的解码分布通常被参数化为循环神经网络,其在给定潜在代码和所有先前词符的情况下在每个词符xi上产生概率分布。这种模型的elbo是:其中
[0104]
在确定性解码器中,协议通过在每次迭代中获取最高分数的词符来从潜在代码z解码序列解码序列
[0105]
为了避免歧义,当两个词符具有相同的最大概率时,arg max等于数据中没有出现的特殊“未定义”词符。这种公式简化了派生。为了方便,该协议也可以假定解码后,如果模型重建了正确的序列,elbo的重建项是为一的指示函数,否则为零:后,如果模型重建了正确的序列,elbo的重建项是为一的指示函数,否则为零:
[0106]
如果模型具有非零重建错误率,则是-∞。
[0107]
现在,描述了vae中的有界支持建议分布以及它们对确定性解码器有用的原因。变分自动编码器经常使用高斯建议分布:
[0108]
其中,和∑
φ
(x)是对建议分布的均值和协方差矩阵进行建模的神经网络。对于固定的z,高斯密度q
φ
(z|x)对于任何x都是正的。因此,无损解码器必须以正概率从每个z
解码每个x。然而,确定性解码器对于给定的z只能产生单个数据点使得重建项为减去无穷大。为避免此问题,协议使用有界支持建议分布。
[0109]
作为有界支持建议分布,我们建议使用具有使用内核k定义的边缘的因式分解分布:
[0110]
其中,和是对内核k的位置和带宽进行建模的神经网络;q
φ
(z|x)中z的第i维的支持是一个范围:
[0111]
该协议可以选择一个内核,使得它可以计算q(z|x)和先验p(z)之间的散度。如果p(z)被因式分解,散度是一维散度之和:
[0112]
在图4中,散度示出了一些有界支持内核,它们的密度在图3中示出。应当注意,散度的形式与高斯建议分布的形式非常相似,其中它们仅在σ2的常数乘数和加性常数上有所不同。对于采样,我们使用来自具有均匀建议的k(∈)的舍选采样法,并应用重新参数化来获得最终样本:z=∈
·
σ μ。这种采样中的接受率为1/(2k(0))。因此,为了采样大小为n的批,协议对n
·
2k(0)对象进行采样并重复采样,直到获得至少n个接受的样本。该协议还存储有多余样本的缓冲区,并在以后续批中使用它们。
[0113]
图3示出了μ=0和σ=1的有界支持建议,该建议是通过散度导出的。
[0114]
利用有界支持建议,只要的支持位于先验分布的支持范围内,该协议就可以使用均匀分布u[-1,1]d作为vae中的先验。实际上,协议通过使用以下转换将编码器中的μ和σ转换为μ

和σ

来确保这一点:来确保这一点:
[0115]
图5中报告了均匀先验的导出的散度。
[0116]
对于离散数据,利用有界支持建议,该协议可以确保足够灵活的编码器和解码器,存在一组参数(θ,φ),对于该参数,建议对于不同的x不重叠,因此是有限的。例如,协议可以枚举所有对象,并将第i个对象映射到一个范围[i,i 1]。
[0117]
不连续函数的优化可以通过用平滑函数近似来执行。该协议还显示了近似elbo的最优参数收敛于原始函数的最佳参数。
[0118]
对于某些数组r,该协议等效地从公式3定义了arg max:
[0119]
公式(11)通过引入用温度参数τ∈(0,1)参数化的指示函数的平滑松弛σ
τ
(x)来近似:
[0120]
应当注意,σ
τ
(x)点式收敛到在图6中,示出了τ的不同值的函数σ
τ
(x)。用建议的松弛代替arg max,该协议获得后续证据下界的近似值:
[0121]
图6示出了不同τ的指示函数的σ
τ
(x)的松弛。
[0122]
对于0<τ<1,所提出的是有限的,并且点式收敛到如果温度τ逐渐降低并解决的最大化问题,则它将收敛到非松弛的最佳参数。
[0123]
最优参数的收敛可用于获得的最优参数。该协议可以引入辅助函数,这些函数可用于评估模型的质量,并为的最佳参数收敛到的最佳参数制定定理。表示给定编码器和解码器的序列式错误率:
[0124]
对于给定的通过重新排列公式14中的项来找到最优解码器和相应的序列式错误率δ(φ),并应用重要性采样:其中是最优解码器,为:
[0125]
χ是所有可能的序列集。ω表示是有限的参数集:
[0126]
在大多数实际应用中,序列的最大长度是有限的。如果μ和σ对所有x∈χ连续地依赖于则满足表1中考虑的所有分布的等连续性假设。
[0127]
如本文所述,当编码器和解码器足够灵活时,对于有界支持分布,ω不是空的。
[0128]
数据表明,在完成自动编码器的训练后,该协议可以固定编码器并微调解码器。由于δ(φ)=0,因此这种的最优随机解码器是确定性的,并且除零概率子集外,任何z都对应于单个x。据认为,对于固定通过从公式2优化elbo项的重建来学习通过从公式2优化elbo项的重建来学习
[0129]
但是,实际上,该协议不会将温度精确地退火到零,因此微调是可选的。
[0130]
基于自动编码器的生成模型具有编码器-解码器对和正则化器,其强制编码器输出边缘分布作为先验分布。该正则化器可以采用如变分自动编码器中的散度形式或如在对抗性自编码器和wasserstein自动编码器中的对抗性损失形式。除了基于自动编码器的生成模型外,生成对抗性网络(和归一化流)也被证明对序列生成有用。
[0131]
当编码器输出先验分布时,变分自动编码器容易出现后验塌陷,并且解码器自行学习整个分布p(x)。使用自回归解码器(例如pixelrnn)的vae经常发生后验塌陷。多种方代法可以减轻后验塌陷,包括降低散度权重β,或鼓励潜在代码与相应对象之间的高互信息。
[0132]
在本技术中,该协议符合标准高斯先验,并研究了编码器和解码器实现确定性解码所需的属性。
[0133]
本技术可以与简化分子线性输入规范(smiles)一起使用以表示分子,其提供了一种使用深度优先搜索顺序遍历将分子图表示为字符串的系统。
[0134]
本领域技术人员将理解,对于本文所公开的过程和方法,在过程和方法中执行的功能可以以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且这些步骤和操作中的一些可以是可选的,组合成更少的步骤和操作,或者扩展成额外的步骤和操作,而不会减损所公开的实施例的本质。
[0135]
在一个实施例中,本方法可以包括在计算系统上执行的方面。这样,所述计算系统可以包括存储设备,所述存储设备具有用于执行所述方法的计算机可执行指令。所述计算机可执行指令可以是计算机程序产品的一部分,所述计算机程序产品包括用于执行权利要求中的任一项所述的方法中的一个或多个算法。
[0136]
在一个实施例中,可以响应于存储在计算机可读介质上并且可由一个或多个处理器执行的计算机可读指令的执行来执行或使得执行本文描述的操作、过程或方法中的任一个。计算机可读指令可以由来自桌面计算系统、便携式计算系统、平板计算系统、手持计算系统以及网络元件和/或任何其他计算设备的各种计算系统的处理器执行。计算机可读介
质不是暂时性的。所述计算机可读介质是一种物理介质,其具有存储在其中的所述计算机可读指令,以便由所述计算机/处理器从所述物理介质物理读取。
[0137]
可以通过各种载体实现本文所述的过程和/或系统和/或其他技术(例如,硬件、软件和/或固件),并且优选的载体可以随着部署过程和/或系统和/或其他技术的环境而变化。例如,如果实现者确定速度和准确性是最重要的,则实现者可以选择主要的硬件和/或固件载体;如果灵活性是最重要的,则实现者可以选择主要的软件实现;或者,又可选的,实现者可以选择硬件、软件和/或固件的某种组合。
[0138]
本文描述的各种操作可以单独地和/或共同地通过广泛范围的硬件、软件、固件或实际上其任何组合来实现。在一个实施例中,本文描述的主题的若干部分可以通过专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)或其他集成格式来实现。然而,本文所公开的实施例的全部或部分的一些方面可以等同地在集成电路中实现,作为在一个或多个计算机上运行的一个或多个计算机程序(例如,作为在一个或多个计算机系统上运行的一个或多个程序),作为在一个或多个处理器上运行的一个或多个程序(例如,作为在一个或多个微处理器上运行的一个或多个程序),作为固件,或作为其实际上的任何组合,根据本发明,设计电路和/或编写用于软件和/或固件的代码是可能的。此外,本文描述的主题的机制能够以各种形式作为程序产品进行分配,并且本文描述的主题的说明性实施例都适用于与用于实际执行分配的信号承载介质的特定类型无关的情况。物理信号承载介质的示例包括但不限于以下内容:可记录型介质,例如软盘、硬盘驱动器(hdd)、光盘(cd)、数字通用光盘(dvd)、数字磁带、计算机存储器,或任何其他非暂时性或传输的物理介质。具有计算机可读指令的物理介质的示例省略了瞬态或传输类型的介质,例如数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路等)。
[0139]
通常以本文所述的方式描述设备和/或过程,然后使用工程实践将这些描述的设备和/或过程集成到数据处理系统中。也就是说,本文所述的设备和/或过程的至少一部分可以通过合理数量的实验被集成到数据处理系统中。;典型的数据处理系统通常包括以下中的一个或多个:系统单元外壳、视频显示设备、例如易失性和非易失性存储器的存储器、例如微处理器和数字信号处理器的处理器、例如操作系统的计算实体、驱动程序、图形用户界面和应用程序、一个或多个交互设备(例如触摸板或屏幕)和/或包括反馈回路和控制电机控制系统(例如,用于感测位置和/或速度的反馈;用于移动和/或调节组件和/或数量的控制电机)。典型的数据处理系统可以利用任何合适的市售组件来实现,例如通常在数据计算/通信和/或网络计算/通信系统中找到的组件。
[0140]
本文描述的主题有时示出了包含在不同其他组件内或与不同其他组件连接的不同组件。这样描述的架构仅仅是示例性的,并且实际上实现相同功能的许多其它架构可以实现。在概念意义上,实现相同功能的组件的任何布置被有效地“关联”,从而实现期望功能。因此,本文中组合以实现特定功能的任何两个组件可被视为彼此“相关联”,从而实现期望功能,而与架构或中间组件无关。同样地,如此关联的任何两个组件也可以被视为彼此“可操作地连接”或“可操作地耦合”以实现期望功能,并且能够如此关联的任何两个部件也可以被视为“可操作地耦合”,以实现期望功能。可操作地可耦合的具体示例包括但不限于:物理上可配对和/或物理上相互作用的组件和/或无线可交互和/或无线地相互作用的组件和/或逻辑上可交互的组件。
[0141]
图7示出了被布置在一些实施例中以执行本文描述的方法(或其部分)的示例计算设备600(例如,计算机)。在非常基本的配置602中,计算设备600通常包括一个或多个处理器604和系统存储器606。存储器总线608可用于在处理器604和系统存储器606之间通信。
[0142]
根据期望配置,处理器604可以是任何类型,包括但不限于微处理器(μp)、微控制器(μc)、数字信号处理器(dsp)或其任何组合。处理器604可以包括一个或多个级别的高速缓存(例如,一级高速缓存610和二级高速缓存612)、处理器核614和寄存器616。示例处理器核614可以包括算术逻辑单元(alu)、浮点单元(fpu)、数字信号处理核(dsp核)或其任何组合。示例存储器控制器618也可以与处理器604一起使用,或者在一些实现中,存储器控制器618可以是处理器604的内部部分。
[0143]
根据期望的配置,系统存储器606可以是任何类型,包括但不限于易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或其任何组合。系统存储器606可以包括操作系统620、一个或多个应用程序622和程序数据624。应用程序622可以包括确定应用程序626,其被布置成执行如本文所述的操作,包括关于本文所述的方法所描述的那些操作。确定应用程序626可以获得数据,例如压力、流速和/或温度,然后确定系统的变化以改变压力、流速和/或温度。
[0144]
计算设备600可以具有额外的特征或功能,以及额外的接口,以方便基本配置602与任何所需设备和接口之间的通信。例如,总线/接口控制器630可用于方便基本配置602与一个或多个数据存储设备632之间经由存储接口总线634的通信。数据存储设备632可以是可移动存储设备636、不可移动存储设备638或其组合。可移动存储和不可移动存储设备的示例包括:例如柔性磁盘驱动器和硬盘驱动器(hdd)的磁盘设备,例如光盘(cd)驱动器或数字多功能磁盘(dvd)驱动器的光盘驱动器,固态驱动器(ssd)和磁带机等。示例计算机存储介质可以包括:在用于存储信息(例如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实现的易失性和非易失性、可移动和不可移动介质。
[0145]
系统存储器606、可移动存储设备636和非可移动存储设备638是计算机存储介质的示例。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储技术,cd-rom、数字多功能磁盘(dvd)或其他光学存储器,磁带盒、磁带、磁盘存储或其他磁存储设备,或可用于存储期望信息并且可由计算设备600访问的任何其他介质。任何这样的计算机存储介质可以是计算设备600的一部分。
[0146]
计算设备600还可以包括接口总线640,用于促进从各种接口设备(例如,输出设备642、外围接口644和通信设备646)经由总线/接口控制器630到基本配置602的通信。示例输出设备642包括图形处理单元648和音频处理单元650,其可以被配置为经由一个或多个a/v端口652与例如显示器或扬声器的各种外部设备通信。示例外围接口644包括串行接口控制器654或并行接口控制器656,其可以被配置为经由一个或多个i/o端口658与例如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)的外部设备或其他外围设备(例如,打印机、扫描仪等)通信。示例通信设备646包括网络控制器660,其可以被布置为方便经由一个或多个通信端口664通过网络通信链路与一个或多个其他计算设备662通信。
[0147]
网络通信链路可以是通信介质的一个示例。通信介质通常可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据(例如载波或其他传输机制)来体现,并且可以包括任何信息传递介质。“调制数据信号”可以是以在信号中编码信息的方式设置
或改变其一个或多个特性的信号。作为示例而非限制,通信介质可以包括例如有线网络或直接有线连接的有线介质,以及例如声学、射频(rf)、微波、红外(ir)和其他无线介质的无线介质。本文使用的术语计算机可读介质可以包括存储介质和通信介质两者。
[0148]
计算设备600可以被实现为小型便携式(或移动)电子设备的一部分,例如蜂窝电话、个人数据助理(pda)、个人媒体播放器设备、无线网络手表设备、个人耳机设备、应用专用设备或包括上述任何功能的混合设备。计算设备600还可以被实现为包括笔记本电脑和非笔记本电脑配置两者的个人计算机。计算设备600还可以是任何类型的网络计算设备。计算设备600还可以是如本文所述的自动化系统。
[0149]
本文描述的实施例可以包括使用包括各种计算机硬件或软件模块的专用或通用计算机。
[0150]
在本发明范围内的实施例还包括用于承载或具有存储在其上的计算机可执行指令或数据结构的计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机访问的任何可用介质。作为示例而非限制,这种计算机可读介质可以包括ram、rom、eeprom、cd-rom或其他光盘存储器、磁盘存储器或其他磁存储设备,或可用于承载或存储以计算机可执行指令或数据结构的形式表示的期望程序代码并且可由通用或专用计算机访问的任何其他介质。当信息通过网络或其他通信连接(硬连线、无线或硬连线或无线的组合)传输或提供给计算机时,计算机正确地将该连接视为计算机可读介质。因此,任何这样的连接被适当地称为计算机可读介质。上述各项的组合也应包括在计算机可读介质的范围内。
[0151]
计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。尽管已经以特定于结构特征和/或方法行为的语言描述了主题,但是应当理解,在所附权利要求中定义的主题不一定限于上述特定特征或行为。相反,上述特定特征和行为被公开为实施权利要求的示例形式。
[0152]
在一些实施例中,计算机程序产品可以包括具有计算机可执行指令的非瞬态有形存储设备,在由处理器执行时,所述计算机可执行指令使得方法的执行,所述方法可以包括:提供具有对象的对象数据和条件的条件数据的数据集;利用对象编码器处理数据集的对象数据以获得潜在对象数据和潜在对象-条件数据;利用条件编码器处理数据集的条件数据以获得潜在条件数据和潜在条件-对象数据;利用对象解码器处理潜在对象数据和潜在对象-条件数据以获得生成的对象数据;利用条件解码器处理潜在条件数据和潜在条件对象数据以获得生成的条件数据;将潜在对象条件-数据与潜在-条件数据进行比较以确定差;通过鉴别器处理潜在对象数据和潜在条件数据以及潜在对象-条件数据或潜在条件-对象数据之一以获得鉴别器值;根据生成的对象数据、生成的条件数据、以及潜在对象-条件数据和潜在条件-对象数据之间的差从生成的对象数据选择所选对象;并在报告中向所选对象提供建议以验证对象的物理形式。非瞬态、有形存储设备还可以具有用于本文所述的方法或方法步骤中的任一个的其他可执行指令。此外,所述指令可以是执行非计算任务的指令,例如分子的合成和/或用于验证所述分子的实验方案。也可以提供其他可执行指令。
[0153]
本发明不限于本技术中描述的特定实施例,这些实施例旨在作为各个方面的说明。可以在不脱离其精神和范围的情况下进行许多修改和变化,这对于本领域技术人员来说是显而易见的。在本公开的范围内的功能上等同的方法和装置,除了本文列举的那些之外,对于本领域技术人员从前述描述中显而易见。这样的修改和变化旨在落入所附权利要
求的范围内。本公开将仅由所附权利要求的条款以及这些权利要求所享有的等同物的全部范围来限制。应当理解,本公开内容不限于特定的方法、试剂、化合物组合物或生物系统,其当然可以变化。还应理解的是,本文使用的术语仅用于描述特定实施例的目的,而并非旨在限制。
[0154]
关于本文中的基本上任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或应用的情况从复数转换为单数和/或从单数转换为复数。为了清楚起见,本文可以明确地阐述各种单数/复数排列。
[0155]
本领域技术人员将理解的是,一般而言,本文中使用的术语,尤其是在所附权利要求中使用的术语(例如,所附权利要求的主体)通常旨在作为“开放”术语(例如,术语“包括”应被解释为“包括但不限于”,术语“具有”应被解释为“至少具有”,术语“包含”应被解释为“包含但不限于”等)。本领域技术人员将进一步理解的是,如果引入的权利要求叙述的意图是特定数量,则在权利要求中将明确地叙述这样的意图,并且在没有这样的叙述的情况下不存在这样的意图。例如,作为对理解的帮助,所附权利要求可以包含使用介绍性短语“至少一个”和“一个或多个”来介绍权利要求的叙述。然而,此类短语的使用不应被解释为暗示由不定冠词“一”或“一个”引入权利要求叙述将包含此类引入的权利要求叙述的任何特定权利要求限制为仅包含一个此类叙述的实施例,即使当同一权利要求包括介绍性短语“一个或多个”或“至少一个”和不定冠词,例如“一”或“一个”(例如,“一”和/或“一个”应解释为“至少一个”或“一个或多个”);用于引入权利要求叙述的定冠词的使用也是如此。此外,即使明确列举了特定数量的引入的权利要求叙述,本领域技术人员也将认识到,这种叙述应被解释为至少表示所列举的数量(例如,“两个叙述”的裸列举,而没有其他修饰词,表示至少两个叙述,或两个或更多个叙述)。此外,在使用类似于“a、b和c等中的至少一个”的约定的那些情况下,一般而言,这种构造是在本领域技术人员将理解该约定的意义上的(例如,“具有a、b和c中的至少一个的系统”将包括但不限于单独具有a、单独具有b、单独具有c、同时具有a和b、同时具有a和c、同时具有b和c、和/或同时具有a、b和c的系统等)。在使用类似于“a、b或c等中的至少一个”的约定的那些情况下,一般而言,这种构造是在本领域技术人员将理解该约定的意义上的(例如,“具有a、b或c中的至少一个的系统”将包括但不限于单独具有a、单独具有b、单独具有c、同时具有a和b、同时具有a和c、同时具有b和c、和/或同时具有a、b和c的系统等)。本领域技术人员将进一步理解的是,无论是在说明书、权利要求或附图中,实际上任何表示两个或更多个替代术语的析取词和/或短语都应被理解为考虑包括术语中的一个、术语中的任一个或两个术语的可能性。例如,短语“a或b”将被理解为包括“a或“b”或“a和b”的可能性。
[0156]
此外,在根据markush组描述本公开的特征或方面的情况下,本领域技术人员将认识到,本公开也因此根据markush组的任何单独成员或成员的子组来描述。
[0157]
如本领域技术人员将理解的,出于任何和所有目的,例如就提供书面描述而言,本文公开的所有范围还包括任何和所有可能的子范围及其子范围的组合。任何列出的范围都可以很容易地识别为充分描述和允许将相同的范围分解为至少相等的一半,三分之二,四分之一,五分之一,十分之一等。作为非限制性示例,本文所讨论的每个范围可以容易地分解为下三分之一、中间三分之一和上三分之一等。如本领域技术人员还将理解的,例如“直到”、“至少”等的所有语言都包括所列举的术语,并且指代范围,其随后可以分解为如上所
述的子范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个细胞的组是指具有1、2或3个细胞的组。类似地,具有1-5个细胞的组是指具有1、2、3、4或5个细胞的组,等等。
[0158]
根据前述内容,应当理解,为了说明的目的,本文已经描述了本公开的各种实施例,并且在不脱离本公开的范围和精神的情况下可以进行各种修改。因此,本文公开的各种实施例不是旨在进行限制,真实范围和精神由所附权利要求指示。
[0159]
本文列举的所有参考文献通过具体引用全部并入本文。参考文献本专利的交叉引用:2018年6月2日提交的申请号为16/015,990的美国申请;2018年9月18日提交的申请号为16/134,624的美国申请;2019年9月5日提交的申请号为16/562,373的美国申请;2018年9月6日提交的申请号为62/727,926的美国申请;2018年10月17日提交的申请号为62/746,771的美国申请;和2019年2月22日提交的申请号62/809,413的美国申请;这些申请通过具体引用全文并入本文。本文列举的所有参考文献通过具体引用全部并入本文。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献