一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

逆合成相关合成可行性的制作方法

2022-11-14 03:02:26 来源:中国专利 TAG:

逆合成相关合成可行性
相关申请的交叉引用
1.本专利申请要求于2020年5月14日提交的美国临时申请63/025,135的优先权,该临时申请通过具体引用整体并入本文。


背景技术:

2.在现代药物设计和开发(ddd)行业中,化学合成计划是一个综合、复杂、长期且消耗资源的过程。它包括许多子任务,例如:合成可行性估计,经常使用计算机辅助方法手动创建或基于机器预测相关合成路径,评估市场上可用的起始构建块和即用型反应物,以及选择正确的反应特性(溶剂、催化剂、碱、温度、压力)。
3.大型制药公司大规模合成分子。在某种程度上,这可能是化学合成计划中最关键的步骤之一是估计化合物的合成可行性(sa)的原因。通常,sa根据许多基于药物化学和基于市场的指标来衡量合成的可行性。因此,通常sa代表考虑合成化合物的路线的某个值或得分(score)。sa的这种得分过程非常有用,因为它允许优先考虑合成、节省活性物质和时间,同时适合所需的生成命中率。应该注意的是,没有标准的sa定义,因此每个制药或生物技术公司都创建自己的原始计算机辅助方法来估计和验证sa。这种方法可以考虑合成的不同方面,即所得化合物中复杂子结构的量、供应商数据库中内部可用的构建块和反应物以及它们使用中的财务效益、预测合成路径中的阶段数等。
4.最近,在ddd领域,尤其是在化学合成计划方面取得了成功。因此,对sa的现代理解可以用两组常用的方法有条件地表示:(1)基于分子描述符,其中分子描述符(md)是分子的特征,例如:分子量、碳原子计数;或(2)膜渗透性和数据驱动方法。最显著和最常用的基于描述符的方法是sa得分(sa score)。sa得分仅基于分子描述符,它计算两个得分的减法。第一个通过分析已合成分子的准备好的数据库中分子片段的常见结构特征来描述历史合成知识(例如,片段是指通过可用的逆合成连接使分子断裂而获得的分子的子结构,而没有可用的逆合成连接的分子不能被分裂,因此只能包含自身作为片段)。第二个减法得分的作用类似于惩罚,并且是一个表征所考虑的分子中存在复杂结构特征的数字。因此,sa得分显示了基于快速复杂性和资源密集型全逆合成方法之间的折衷。
5.另一方面,数据驱动方法(例如合成复杂性得分(sc得分、syba、ra得分))不依赖于分子的手工特征,因此更加稳健和客观。由于此类方法不依赖于化合物合成复杂性的化学直觉,因此它们在具体的分子设计问题上是独立的,并且可以从一个合成计划任务更无缝地转移到另一个合成计划任务。
6.上述sc得分是数据驱动方法的一个可感知的示例,该方法使用先例化学反应知识来学习用于评估化合物合成复杂性的函数逼近器。作为函数逼近器,sc得分使用全连接的人工神经网络(ann),该网络使用标准反向传播算法在已知可合成的类药物分子及其已知合成路径的大型数据库上进行训练。sc得分背后的关键思想是学习这样的排名函数,该函数应大于该反应中任何不同的反应物的反应产物。因此,sc得分不考虑分解或单和双置换化学反应。由于该方法是完全数据驱动的,并且它推动上述排名系统满足任何给定的训练
反应,因此在复杂分子仅作为反应物而不作为产物的特定情况下,它也可能在测试阶段失败。
7.最初的sc得分使用分子指纹作为化学反应的特征来训练模型。然而,化学反应可以用基于字符串的格式表示。简化分子线性输入规范(smiles)是一种使用短ascii字符串描述化学物种结构的行符号形式的规范。分子的片段也是有效的带有用于连接信息的特殊符号的smiles。分子总是包含其所有片段,这些片段可以再次连接到整个分子中。大多数分子编辑器可以导入smiles字符串,以转换回分子的二维图形或三维对象。
8.另一种称为syba(合成贝叶斯可行性)的方法是一种基于片段的方法,用于区分易合成(es)和难合成(hs)化合物。它基于伯努利朴素贝叶斯分类器,该分类器用于根据单个片段在数据库中的频率对其分布进行得分。syba在zinc15数据库中可用的es分子以及仅针对复杂化合物生成和过滤的hs分子上进行了训练。
9.一些算法不仅基于分子,而且基于新型化合物的合成路线。aizynthfinder是此类软件的一个示例,可轻松用于逆合成计划。该算法基于蒙特卡洛树搜索,该搜索递归地将分子分解为可购买的前体。树搜索由人工神经网络策略指导,该策略通过利用已知反应模板库来建议可能的前体。
10.rascore是使用基于已知化合物供应商数据库的已解决或未解决的标签对aizynthfinder的逆合成预测进行训练的分类器。随后使用aizynthfinder对化合物进行逆合成分析,并标记为已解决或未解决。
11.postera得分是一个逆向合成引擎,它根据aizynthfinder发现的路线计算合成可行性得分,其得分功能可平衡多个因素,包括构建块的成本/交货时间以及模型认为反应继续进行的可能性。如果发现多个路线,这是典型的情况,则根据备用替代路线的可行性和多样性打折得分。


技术实现要素:

12.在一些实施例中,一种用于训练模型以计算合成可行性的方法可以包括:访问分子数据库并获得目标分子;将所述目标分子切片成分子片段;确定所述目标分子的多个分子片段的片段频率;计算所述分子片段的分子描述符;计算所述目标分子的合成难度得分;以及将所述目标分子的所述合成难度得分存储在具有多个分子的多个合成难度得分的数据库中。在一些方面,所述方法可以包括接收训练分子的训练数据集以获得所述目标分子的化学结构和性质的数据。在一些方面中,所述切片包括分解所述目标分子以获得可合成片段,其中分解函数:产生有效的类药物分子结构;并且该分解函数是可逆的,使得获得的可合成片段可以被转化回所述目标分子。在一些方面中,通过逆合成相关(retrosynthesis-related)分解函数来执行所述分解。
13.在一些实施例中,所述训练方法包括评估所述可合成片段的化学性质。在一些方面,通过分子描述符的计算和聚合来执行所述评估。在一些方面,分子描述符的聚合包括:手性碳数,即手性碳原子数;环数,即总环数;环侧链数,即连接到环系统的侧链数;螺数,即螺碳原子数;最大环尺寸,如果大于6,则为分子结构的最大环中的原子数,否则为0;稠环数,是分子结构中的稠环数;以及桥原子数,是分子结构的双环模式中的桥头原子数。
14.在一些实施例中,通过将同一性或对数的函数应用于包含分子片段的分子的数量
除以训练数据集中的分子数量来执行片段频率的确定。
15.在一些实施例中,在训练分子的训练数据集上计算所述目标分子的片段密度函数是基于所述训练分子中可合成片段的频率。
16.在一些实施例中,所述训练方法包括根据片段频率将所述目标分子的可合成片段的片段信息聚合为片段得分。在一些方面,通过应用于片段和片段频率的分子描述符的数学函数来执行所述聚合。所述方法可以包括获得片段得分并将所述片段得分保存在片段得分的数据库中。
17.在一些实施例中,所述训练方法可以包括将合成难度得分计算为片段密度函数与片段得分和片段频率的线性组合之间的乘积。在一些方面,所述方法包括提供计算的合成难度得分作为合成可行性得分。在一些实施例中,所述训练方法包括利用数学函数将所述合成可行性得分标准化为期望的评分。
18.在一些实施例中,评估分子合成可行性的方法可以包括:选择目标分子;将所述目标分子分解成分子片段;计算所述目标分子的分子片段的合成难度得分;确定所述分子片段的合成难度得分的总和;确定所述分子片段的片段密度;根据合成难度得分的总和以及片段密度计算合成可行性得分;以及提供目标分子的合成可行性得分。
19.在一些实施例中,所述用于确定合成可行性的方法包括获得所述目标分子的化学结构和性质的数据。在一些方面,所述方法包括从用于计算合成可行性的训练模型获得可合成片段的得分。在一些方面,所述方法包括计算不能从所述训练模型获得其性质的片段的分子性质。在一些方面中,所述方法包括计算不能从所述训练模型获得其片段密度函数的片段的片段密度函数。在一些方面,所述方法包括将处理的信息聚合到所述目标分子的合成可行性得分。在一些方面,通过逆合成相关分解函数来执行所述分解,所述逆合成相关分解函数可选地选自开源brics或recap算法。
20.在一些实施例中,用于确定合成可行性的方法包括评估可合成片段的化学性质。在一些方面,通过分子描述符的计算和聚合来执行所述评估,例如本文所述的那些(例如,与训练方法中相同)。在一些方面中,所述方法包括基于所述训练分子中可合成片段的频率在训练分子的训练数据集上计算所述目标分子的片段密度函数。在一些方面,所述方法包括根据片段频率将所述目标分子的可合成片段的处理的信息聚合为片段得分。在一些方面,通过应用于片段和片段频率的分子描述符的数学函数来执行所述聚合。在一些方面,所述合成可行性得分被评分为从1到n,其中n》1。在一些方面,不存在用于所述目标分子或可合成片段的供应商数据库。
21.在一些实施例中,用于确定合成可行性的方法可以包括:通过迭代协议计算所述目标分子的合成难度得分,所述迭代协议包括:识别所述目标分子的所有分子片段;检查合成难度得分数据库中的所有分子片段;当分子片段是合成难度得分数据库时,将所述分子片段的合成难度得分添加到合成难度得分阵列中;当分子片段不在合成难度得分中时,则:计算分子片段的分子描述符;计算具有最小频率的片段的合成难度得分;以及将计算的所述分子片段的合成难度得分添加到合成难度得分阵列中。
22.在一些实施例中,存储指令的一个或多个非暂时性计算机可读介质,所述指令响应于由一个或多个处理器执行,使计算机系统执行操作,这些操作包括根据实施例训练模型以计算合成可行性的计算机方法。
23.在一些实施例中,存储指令的一个或多个非暂时性计算机可读介质,所述指令响应于由一个或多个处理器执行,使计算机系统执行操作,这些操作包括根据实施例评估分子合成可行性的计算机方法。
24.在一些实施例中,计算机系统可以包括:一个或多个处理器;以及存储指令的一个或多个非暂时性计算机可读介质,所述指令响应于由所述一个或多个处理器执行,使所述计算机系统执行操作,这些操作包括根据实施例训练模型以计算合成可行性的计算机方法。
25.在一些实施例中,计算机系统可以包括:一个或多个处理器;以及存储指令的一个或多个非暂时性计算机可读介质,所述指令响应于由所述一个或多个处理器执行,使所述计算机系统执行操作,所述操作包括根据实施例评估分子合成可行性的计算机方法。
26.上述发明内容仅是说明性的,并不旨在以任何方式进行限制。除了上述说明性方面、实施例和特征之外,通过参考附图和下面的详细描述,其他方面、实施例和特征将变得显而易见。
附图说明
27.根据结合附图的以下描述和所附权利要求,本公开的前述和以下信息以及其他特征将变得更加明显。应当理解,这些附图仅描绘了根据本公开的几个实施例,并且因此不被认为是对其范围的限制,将通过使用附图以额外的特征和细节来描述本公开。
28.图1包括示出训练模型以计算合成难度得分的方法的流程图。
29.图2包括被配置用于训练模型以计算合成难度得分的计算架构的示意图。
30.图3包括示出评估分子合成可行性的方法的流程图。
31.图4包括被配置用于训练模型以评估分子合成可行性的计算架构的示意图。
32.图5a包括示出训练模型以计算合成可行性的方法的流程图。
33.图5b包括被配置用于训练模型以计算合成可行性的计算架构的示意图。
34.图6包括可以执行计算方法的计算设备的示意图。
35.图7包括显示两个得分引擎之间的依赖性的图。
36.图8包括分子结构及其sa和rersa图,它们显示了得分和分子所选路线中的步骤之间的依赖性。
37.图9包括显示平均得分与数据库中分子数量的关系的图,并且显示了得分对训练数据集大小的依赖性。
38.图10a-10c显示了带有计算的rersa得分的已知生物活性化合物的代表性示例。
39.图11显示了分子结构和计算的rersa得分。
40.附图中的元件和部件可以根据本文描述的至少一个实施例来布置,并且该布置可以由本领域普通技术人员根据本文提供的公开内容来修改。
具体实施方式
41.在以下详细描述中,参考了构成本文一部分的附图。在附图中,除非上下文另有指示,否则相似的符号通常标识相似的组件。在具体实施方式,附图和权利要求中描述的说明性实施例并不意味着是限制性的。在不脱离本文所呈现的主题的精神或范围的情况下,可
以利用其他实施例,并且可以进行其他改变。容易理解的是,如本文一般描述的和在附图中示出的本公开的方面可以以各种不同的配置来布置、替换、组合、分离和设计,所有这些在本文中都被明确考虑。
42.通常,所提出的称为逆合成相关合成可行性(rersa)估计的方法是一种数据处理协议,其中分子中“准备合成片段”的出现率(频率)越高,该分子的合成可行性就越高。该方法可以包括定义什么是“准备合成片段”和/或识别待合成分子的那些“准备合成片段”的步骤。在rersa方法中,“准备合成片段”(rtsf)是可以合成的片段,可以通过某些预定义的类似逆合成的分子分解程序,从准备的化合物虚拟筛选库(例如在训练数据集中)自动获得或识别。这样的库应该包含大量已知的合成可及的类药物分子。最适合该角色的是即用型化合物聚合器,例如开源pubchem、zinc和chembl,或供应商库存,例如chemdiv、enamine或商业数据库,例如clarivate analytics integrity(cortellis drug discovery intelligence)。
43.图1示出了对分子数据进行数据处理以获得目标分子的合成难度(sd)得分(sd得分)的方法100。当存在多个不同的合成路径时,方法100可以确定单个分子的多个不同的sd得分。sd得分可用于基于分子的合成难度或当合成难度(例如,sd得分)与其他目标分子的合成难度相比更差时,确定是否应该合成分子。例如,两种具有相似生物活性的化合物之间更好的sd得分可以确定哪种化合物成为药物开发的先导。而且,一个或多个分子的sd得分可以包括在sd得分数据库中。该数据库允许加入和使用sd得分进行分子合成分析。
44.方法100可以从分子数据库(框102),例如商业数据库(例如,从供应商)获得分子数据。然后通过片段协议来处理所述分子数据,该片段协议将一个或多个分子(例如,所有分子)切片成分子片段(框104),例如,rtsf。然后为数据库中的分子库确定每个分子片段的频率(片段频率,“ff”)(框106),这可以提供片段的频率阵列。这里,可以确定每个片段的频率并将其存储在数据库中。而且,片段频率可以与数据库中的分子相关联。为分子中的每个独特片段计算分子描述符(md)(框108)。然后通过ff和md的聚合来确定sd得分(框112)。sd分数被存储在sd得分数据库(框112)(例如,sd得分的字典)中。然后可以将sd得分数据库用于分子合成分析。在一些方面,方法100是模型的训练方法。因此,在方法100中使用数据集训练sd得分模型,这允许sd分数协议使用训练的模型和sd得分数据库。这有助于确定rersa。综上所述,所述方法可以包括:使用预定义的算法分裂分子;从学习的库中获取频率;如本文所示计算描述符;如本文所示计算得分;并存储所得的得分。
45.图2示出了用于执行分子数据的数据处理以获得目标分子的合成难度(sd)得分(sd得分)的架构200。架构200可以包括分子获取模块202,其被配置为从分子数据库,例如商业数据库(例如,从供应商)获得分子数据。然后通过片段化模块202处理分子数据,所述片段化模块202将分子切片成分子片段,例如rtsf。然后通过片段频率模块206为数据库中的分子库确定每个分子片段的频率(片段频率,“ff”)。通过分子描述符模块208为分子中的每个独特片段计算分子描述符(md)。然后通过sd得分模块210根据ff和md确定sd得分。然后将sd得分存储在sd得分数据库212中。
46.图3示出了确定rersa的rersa方法300。rersa方法300包括获得目标分子以利用rersa进行得分(框302),其中该分子在描述性数据(例如图形数据或字符串数据)中为虚拟格式。然后将目标分子分裂成分子片段(框304)。通过迭代sd得分操作分析分子片段(框
306)。执行迭代sd得分操作(框306),直到获得目标分子的所有分子片段的sd得分。
47.sd得分操作(框306)包括以下过程。识别目标分子的所有片段(框308)。在sd得分数据库中检查所有识别的片段的sd得分(框310)。如果确定识别的片段在sd得分数据库(例如,sd得分库)中,则将该识别的片段的sd得分添加到目标分子的片段阵列(框312),它可以是包含目标分子数据的数据库中片段阵列的列表。如果确定识别的片段不在sd得分数据库中,则计算识别的片段的分子描述符(md)(框314)。然后以最小频率计算sd得分(框316)。
48.一旦获得了目标分子的每个片段的sd得分,则计算片段的所有sd得分的总和以获得sd总和(框318)。然后,计算片段密度(fd)以测量分子中的可合成片段的相对密度(框320)。然后根据sd总和以及fd计算rersa(框322)。然后提供目标分子的rersa(框324)。可以将目标分子的rersa保存在数据库(例如,rersa数据库)中,以便比较不同分子的rersa值。例如,当多个目标分子可能具有相似的生物活性时,rersa值可用于确定使用哪个目标分子作为先导。在某种程度上,更容易且更便宜的合成可以有助于目标分子的制备和商业化。
49.图4示出了被配置为确定rersa的rersa架构400。rersa架构400包括目标分子模块,其被配置为用于获得目标分子以利用rersa进行得分,其中该分子在描述性数据(例如图形数据或字符串数据)中为虚拟格式。片段化模块404被配置为将目标分子分裂成分子片段。sd得分模块405被配置为执行操作,以便通过迭代sd得分操作来分析分子片段。执行迭代sd得分操作,直到获得目标分子的所有分子片段的sd得分。
50.片段识别模块408被配置为使得目标分子的所有片段被识别。通过片段检查器模块410在sd得分数据库中检查所有识别的片段的sd得分。如果确定识别的片段在sd得分数据库(例如,sd得分库)中,则通过sd得分记录器412将该识别的片段的sd得分添加到目标分子的片段阵列。如果确定识别的片段不在sd得分数据库中,则利用分子描述符模块414计算识别的片段的分子描述符(md)。通过sd得分模块416以最小频率计算sd得分。一旦获得了目标分子的每个片段的sd得分,则利用sd总和模块418计算片段的所有sd得分的总和以获得sd总和。利用片段密度模块420计算片段密度(fd)以测量分子中的可合成片段的相对密度。然后通过rersa计算模块422根据sd总和以及fd计算rersa。
51.图5a示出了用于训练模型以计算合成可行性(sa)的方法500。方法500可以包括接收分子的训练数据集以获得一个或多个分子的化学结构和其他性质的信息(框502)。然后,方法500执行用于将(框502)的分子分解成可合成片段集的协议。分解函数应该:产生有效的类药物分子结构;并且该分解函数是可逆的,这意味着获得的片段可以转换回原始分子结构。方法500包括评估片段的化学性质(框506)。方法500包括计算训练数据集中的片段频率(框508)。方法500包括计算训练数据集中的分子的片段密度函数(框510)。方法500包括将获得的片段信息聚合为片段得分,并考虑它们的频率(框512)。方法500包括提供机制(例如,计算机和数据库)以存储和从框512获得得分(框514)。方法500包括将合成可行性得分(sas)计算为在框510处获得的片段密度函数,和在框512处获得的聚合片段信息得分与在框508处获得的片段频率数据库的线性组合之间的乘积(框516)。在一些实施例中,所述训练方法包括利用数学函数将所述合成可行性得分标准化为期望的评分。在一些实施例中,所述训练方法包括利用数学函数将所述合成可行性得分标准化为期望的评分。
52.方法500可以利用不同的变体来执行。在框502处训练数据集的接收可以通过编程工具执行。在框504处分解为可合成片段可以通过任何逆合成相关的分解函数(例如开源
brics或recap算法)来执行。在框506处片段化学性质的评估可以通过计算和聚合分子和结构描述符来执行,例如以下至少一种:手性碳数=手性碳原子数;环数=环总数;环侧链数=连接到环系统的侧链数;螺数=螺碳原子数;最大环尺寸=分子结构的最大环中的原子数,如果大于6,否则为0;稠环数=分子结构中的稠环数;和/或桥原子数=分子结构的双环模式中的桥头原子数。在框508处频率的计算是通过将函数(例如恒等式或对数)应用于包含特定片段的分子数除以训练数据集中的分子数来执行的。在框510处片段密度函数的计算是通过将函数(例如恒等式或线性函数)应用于目标分子中的原子数除以目标分子中的片段数来执行的。在框512处将片段信息聚合为片段得分是通过应用于片段描述符和片段频率的任何数学函数来执行的。在一些方面,输入(例如,分子的训练数据集)通过片段表示。
53.图5b示出了用于评估分子合成可行性的方法550。该方法可以包括接收目标分子以获得关于其化学结构和其他相关性质的信息(框552)。方法550包括将框552接收的目标分子分解成可合成片段(框554)。方法550包括从训练模型(例如根据图5a的训练方法获得的训练模型)获得可合成片段得分(例如,片段得分、sd得分等)(框556)。方法550包括计算在框556中不能获得其性质的片段的分子性质(框558)。方法550包括计算在框556中不能获得其片段密度函数的片段的片段密度函数(框560)。方法550包括聚合处理的信息以获得目标分子的合成可行性得分(框562)。方法550可以包括获得并存储所述合成可行性得分。在一些方面,在框554处分解是通过任何逆合成相关的分解函数(例如开源brics或recap算法)来执行的。在一些方面,在框558中分子性质的计算是通过计算和聚合化学描述符来执行的。在一些方面,在框560处片段密度的计算是通过计算片段密度函数来执行的。在一些方面,在框562处聚合是通过应用于片段得分的数学公式来执行的。一些方面片段得分(框562)被评分为从1到n,其中n》1。在一些方面,供应商数据库不存在或未用于评估目标分子的分子合成可行性的方法550中。在一些实施例中,所述训练方法包括利用数学函数将所述合成可行性得分标准化为期望的评分。
54.图6示出了可以执行本文描述的计算方法的计算设备600(例如,计算机、云计算系统等)的示意性表示,其将在下面更详细地描述。
55.本文更详细地描述了前述方法。在训练过程中,为了从分子中获得“准备合成片段”,rersa方法使用分解程序,将目标分子切成一组片段。这样的分解函数应该满足几个关键标准。第一个标准是,每个片段必须对双射映射有用,以便在给定其获得的片段的情况下,应该有可能重新合成一个分子。第二个标准是,任何结果片段都必须是基本的构建块,以便每个片段可以是化学反应(反应物)的一部分,以到达目标分子。后者还意味着rtsf是有效的分子结构。满足所有上述标准的分解函数的一个示例是称为brics或recap的开源算法。
56.在训练数据集中的每个分子被分解为合成片段之后,rersa协议计算并将合成片段的频率存储在整个数据集上的字典(dictionary)(例如,数据库)中。片段(fragment)的频率(frequency)是来自包含片段的准备好的训练数据集(例如,在分子数据库中)的分子数除以数据集中的分子总数。因此,片段的频率将始终在0和1之间,或者它可以是一个百分比。因此,如果片段的频率低(例如,低于频率下限阈值),它将不会对该方法的合成可行性得分(sas)贡献很大,反之亦然。换句话说,很少合成的片段通常比经常合成的片段更难合
成。虽然片段的频率可以按原样使用,但该方法取其负对数,因此它对总体得分的贡献更大。请参阅:
57.fr
frag
=1-log(频率)
58.如何定义片段频率有多种变体:
59.fr
frag
=1-频率,
60.fr
frag
=termfrequency(片段)是在片段空间中片段的频率。
61.然后,考虑到片段的预先计算的频率值,rersa计算分子中每个rtsf的中间合成难度(sd)得分(sd得分)。直观地说,sd得分代表了片段在训练数据集中的使用及其生化特性方面的化学复杂性。sd得分(本文也称为sd)基于精心选择和良好调整的分子描述符(md),定义如下:
[0062][0063]
sd的公式包括几个列出的分子描述符:
[0064]
手性碳数(сhiral carbons count)是手性碳原子数;
[0065]
环数(ring count)是环的总数;
[0066]
环侧链数(ring side chains count)是连接到环系统的侧链数;
[0067]
螺数(spiro count)是螺碳原子数;
[0068]
如果大于6,最大环尺寸(biggest ring size)是分子结构的最大环中的原子数,否则为0,
[0069]
稠环数(fused rings count)是分子结构中的稠环数;
[0070]
桥原子数(bridge atoms count)是分子结构的双环模式中的桥头原子数;以及
[0071]
q1是标准化二次指数1,计算为(3-2*a z1/2),其中a为重原子数,z1为第一个萨格勒布指数。
[0072]
sd得分公式中的所有md都具有很强的化学相关性,并且与片段的复杂性高度相关,这意味着从化学角度来看,片段的任何md的增加都肯定会增加其纠缠和复杂性。
[0073]
然而,呈现的sd得分可能有一个潜在的问题。有些分子可能太复杂,这意味着它们不能被分裂成一组片段。这意味着此类分子的sd得分可能低于应有的水平。为了解决这个问题,rersa方法引入了一个特殊的超参数,称为片段密度(fd)。fd测量可在分子中发现的可合成片段的相对密度。在最简单的情况下,它可以被定义为原子数除以分子中可合成片段数。同样清楚的是,fd的最简单情况随着原子数的增加而增加,而随着片段数的增加而减少。因此,fd将增加具有片段数量较少的分子的总得分。但是,可以以更主要的方式设计超参数。例如,通过某种相似性度量,它可以不考虑具有原子和片段的单个分子,而是考虑相对于目标分子的一组相邻分子,从而聚合有关相邻分子的拓扑信息。
[0074]
rersa方法的最后一个阶段是计算称为rersa得分的最终得分,该得分对应于整个分子的合成可行性得分(sas)。rersa得分的非标准化版本被定义为fd与在目标分子中发现的所有可合成片段的sd得分的总和之间的乘积,这些片段按其计算的频率加权,如下所示:
[0075]
从上面的公式可以看出,最终得分可以取从零到无穷大的值,因此它没有进行标准化(normalized)。为了使rersa得分在药物化学方面更加用户友好且有意义,可以采用一种或多种标准化函数。例如,如果期望的得分值应该在0和1之间,则可以使用sigmoid函数。为了在特定预定义的和谐中获得得分,例如,一种方法可以应用具有某些范围特定参数的反正切函数。在反正切的情况下,rersa得分被定义为:
[0076]
这里,sc是评分超参数,ul是rersa得分的上限。sc的目标是在分子空间的各个部分之间提供更好的区分。较低的sc导致得分下降,而较大的sc导致相反。sc的正确选择必须导致rersa得分的平滑和居中分布。根据实验结果选择sc等于10,000。有一个生产标准,要求评分得分从1到10,通过ul提供的得分等于9。
[0077]
应该强调的是,rersa方法与sa得分(sas)相比有很大不同。sa得分使用在从最常见的训练指纹(精确地说,在扩展连接指纹上)获得的片段上计算的分子描述符,这些不一定有效,尤其是可合成分子结构。这样的指纹在药物化学方面没有吸引力,不能用作提供合理化学合成计划的构建块。此外,与sa得分相比,rersa考虑了更多化学相关分子描述符。
[0078]
另一个方面是,训练数据集的选择非常重要,因为它直接影响片段的频率,因此对整个rersa得分有很大贡献。本文进一步阐述了收集、预处理这样的训练数据集的过程。
[0079]
rersa方法完全是用python编程语言开发的。分解过程以及所有分子描述符都是使用rdkit库实现和计算的。图形是利用matplotlib库绘制的。
[0080]
rersa方法的训练算法如下所示:1.创建一个字典,其中将存储有关可合成片段的信息,2.将每个分子分裂为可合成片段,并将它们存储在列表中,而不保留同一分子内相同的可合成片段,3.计算频率:a)统计片段列表中每个独特的可合成片段的出现次数,b)将该计数除以训练数据集中的分子数,4.计算每个独特片段的分子描述符,5.将每个片段的描述符和频率聚合为sd。
[0081]
片段化算法可以与大小为m的供应商分子数据库m、片段频率字典d
fr
和片段sd字典d
sd
一起使用:
算法1:sa预测器的训练程序
[0082]
一旦训练了rersa,就可以通过以下方案获得其得分:1.接收一个新分子,2.将分子分裂为可合成的片段,3.对于每个可合成片段:
·
如果训练样本中存在可合成片段,我们取计算的sd,
·
计算其他md并暗示频率等于4.计算fd为5.将sd和fd聚合为rersa得分。
[0083]
片段化算法可以用作sa预测器,与片段sd字典d
sd
的字典;分子m;评分参数sc;以及上限参数up一起:1.将分子分裂为片段f=(f1,...,fn)2.sa=03.for n∈1;n do4.sa sa d
sd
[fn]5.end for6.na=m中的原子数7.d=na/n8.sa=arctan((sa
·
d)/sc)
·
up 1算法2:sa预测器的得分程序
[0084]
在另一种选择中,一旦训练了rersa,就可以通过以下方案获得其得分:1.接收一个新分子,2.将分子分裂为可合成的片段,3.对于每个可合成片段:
·
如果训练样本中存在可合成片段,我们取计算的sd,
·
否则计算mds,并暗示频率等于:fr
frag
=1-log(频率)4.计算fd为:fr
frag
=1-频率5.将sd和fd聚合为rersa得分。
[0085]
片段化算法可以用作sa预测器,与片段sd的字典d
sd
的字典;分子m;评分参数sc;以及上限参数up一起:1.将分子分裂为片段f=(f1,...,fn)2.rersa=03.for n∈1;n do4.rersa rersa d
sd
[fn]5.end for6.na=m中的原子数7.d=na/n8.rersa=标准化((rersa
·
d)/sc)算法2:sa预测器的得分程序
[0086]
示例
[0087]
验证
[0088]
在一些实施例中,sa是非常主观的术语,并且每个bigpharma或生物技术公司以它们自己的方式定义sa。因此,进行了几个不同的实验,以客观地将rersa方法与众所周知的sa得分进行比较。
[0089]
使用zinc15作为所有实验的训练数据集。它由约230m库存化学物质组成。根据以下过程对数据集进行预处理:1.从数据集中去除了分子量大于1000da的化合物。2.从记录中去除了盐部分。然后去除生成的重复项。3.去除了含金属的化学物质。4.应用了先进的内部药物化学过滤器(例如pains子结构和毒物),以便从不相关的化合物中过滤数据集。从数据集中去除了类自然化合物(例如类固醇、类黄酮、(寡)糖、(寡)肽等),因为它们与纯合成化学无关。5.将所得的约7m化合物的数据集聚类到具有最小tanimoto相似性0.5的簇中,并将单个调整为最近的簇。然后从每个簇中提取1%的不同分子,并且生成的数据集包含约1.2m化合物,这些化合物描述了从药物化学角度有趣的合成化合物的化学空间。
[0090]
为了确定rersa得分在药物化学方面是否有意义,对rersa得分与药物化学家估计之间的相关性进行了第一个实验。为此目的,收集了数据集和合成可行性的化学家得分
(pubs.acs.org/doi/10.1021/ci5001778),然后计算了rersa得分。因此,该方法实现了关于化学家得分的0.702的皮尔逊相关系数(p-值=1.035e-257)。图7显示了两个得分引擎之间的依赖性。
[0091]
第二个实验是在逆合成的情况下对rersa方法进行评估。选择五种众所周知的化合物及其逆向合成路线,然后为每个合成路线中的每个步骤计算两个得分:rersa得分和sa得分。图8显示了得分和所选路线中的步骤之间的依赖性。
[0092]
由于所有路线都没有保护/去保护步骤,因此乌托邦得分应表现为单调递增函数。从图中可以清楚地看出,rersa得分在单调性方面优于比sa得分。
[0093]
第三个实验涉及训练数据集的一致性,并回答了关于训练数据集的最佳大小应该是什么样的问题。首先,为了估计训练数据集的一致性,将其一分为二,并为原始训练数据集的两个部分计算rersa得分。在这些部分之间实现的皮尔逊相关性为0.99,这意味着数据集是无偏的,并且代表了用于训练该方法的足够的可合成片段。在一些方面,训练数据集被分割成批。
[0094]
实验可以确定预测器如何依赖于数据库的大小。图9中的图表显示了得分对训练数据集大小的依赖性。初始碱基被洗牌三次,然后部分用于学习。所有大小的部分都在一次尝试中累积:较大的数据库包含较小的数据库中的每个分子。对初始数据库中没有的一批1000个分子进行评估。
[0095]
可以看出,平均得分在每次启动之间变化不大,这意味着算法对从数据库中采样具有鲁棒性。尽管得分倾向于随着数据集大小而增加,但这很明显,因为频率不能随着新片段的添加而增加。人们还可以注意到,即使在十万个样本中,平均得分也非常接近红线,这不到整个数据集的10%。参见图9。
[0096]
为了建立得分函数输出的评分和阈值,进行了以下实验。根据有机合成专业知识,基于上述训练数据集的rersa得分从1到10的评分应分为5个范围:1-2-非常容易制造化合物。通常包括被拆分成2-4个非常常见的构建块(bb)的化合物。2-4-易于制造化合物。通常分子可以由3-6个构建块组成,并使用常见的有机合成反应。即使大型化合物(500-700),如果能够完全分解成常见的构建块,也可以在这个范围内具有rersa。通常,在这个范围内的化合物的合成需要4-8个易于执行的步骤。4-6-通常需要4-10个路线步骤来合成来自该rersa范围的分子。在过去十年中,许多化合物出现在bigpharma公司的药物化学产出中。这个范围是评分的“黄金均值”。我们建议首先考虑这个范围内的化合物,因为它们具有同样好的复杂性和合成可行性。6-8-具有挑战性但很有可能合成化合物。在过去十年中,许多化合物出现在bigpharma公司的药物化学产出中。使用可购买的bb,许多化合物需要6-12个阶段。化学家可能会为7-8范围内的分子合成而苦苦挣扎。8-10-非常具有挑战性的分子结构。使用普通技术合成(8-9)或几乎不可能(9-10)需要进行多步(超过12-15个阶段)合成。复杂的大环、类自然化合物、含有稀有缩聚杂环和大量立体中心的化合物主要在这个范围内得分。9-10通常需要非常复杂的逆合成路线。
[0097]
建议将值8作为默认阈值,将值8.5作为温和阈值。在图10a-10c的表格中列出了带有计算的rersa得分的已知生物活性化合物的代表性示例。图10a-10c的表格按照rersa得
分递增的顺序排列,图10b中的表格从图10a中的表格递增,图10c中的表格从图10b中的表格递增。
[0098]
实验5是在一组结构上具有小变化的相似化合物上进行的,以表明rersa得分对这些小变化敏感(例如插入或删除1.一个或两个杂原子进入循环,2.额外的手性碳,3.csp2(aro)-csp2(aro)键合模式等),如下图所示,并且难以合成的模式的出现导致rersa得分的增加。这意味着,从有机和药物化学的角度来看,rersa得分在用于合成可行性的快速估计和进一步合成提交的分子结构的高通量优先级排序中似乎是有用的。参见图11。
[0099]
本领域技术人员将理解,对于本文所公开的这种和其他过程和方法,在过程和方法中执行的功能可以以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且这些步骤和操作中的一些可以是可选的,组合成更少的步骤和操作,或者扩展成额外的步骤和操作,而不会减损所公开的实施例的本质。
[0100]
本公开不限于在本技术中描述的特定实施例,这些实施例旨在作为各个方面的说明。可以在不脱离其精神和范围的情况下进行许多修改和变化,这对于本领域技术人员来说是显而易见的。在本公开的范围内的功能上等同的方法和装置,除了本文列举的那些之外,对于本领域技术人员从前述描述中显而易见。这样的修改和变化旨在落入所附权利要求的范围内。本公开将仅由所附权利要求的条款以及这些权利要求所享有的等同物的全部范围来限制。应当理解,本公开内容不限于特定的方法、试剂、化合物组合物或生物系统,其当然可以变化。还应理解的是,本文使用的术语仅用于描述特定实施例的目的,而并非旨在限制。
[0101]
在一个实施例中,本方法可以包括在计算系统上执行的方面。这样,所述计算系统可以包括存储器设备,所述存储器设备具有用于执行所述方法的计算机可执行指令。所述计算机可执行指令可以是计算机程序产品的一部分,所述计算机程序产品包括用于执行权利要求中的任一项所述的方法中的一个或多个算法。
[0102]
在一个实施例中,本文描述的任何操作、过程、方法或步骤可以被实现为存储在计算机可读介质上的计算机可读指令。计算机可读指令可以由来自桌面计算系统、便携式计算系统、平板计算系统、手持式计算系统以及网络元件、基站、毫微微小区和/或任何其他计算设备的各种计算系统的处理器执行。
[0103]
系统各方面的硬件和软件实现之间几乎没有区别;硬件或软件的使用通常是(但并非总是如此,因为在某些情况下,硬件和软件之间的选择可能变得很重要)代表成本与效率权衡的设计选择。存在各种载体,通过这些载体可以实现本文所述的过程和/或系统和/或其他技术(例如,硬件、软件和/或固件),并且优选的载体将随着部署过程和/或系统和/或其他技术的环境而变化。例如,如果实现者确定速度和准确性是最重要的,则实现者可以选择主要的硬件和/或固件载体;如果灵活性是最重要的,则实现者可以选择主要的软件实现;或者,又可选地,实现者可以选择硬件、软件和/或固件的某些组合。
[0104]
前面的详细描述已经通过使用框图、流程图和/或示例阐述了所述过程的各种实施例。就这样的框图、流程图和/或示例包含一个或多个功能和/或操作而言,本领域技术人员将理解,这样的框图、流程图或示例中的每个功能和/或操作可以单独地和/或共同地实现,通过各种各样的硬件、软件、固件或实际上它们的任何组合。在一个实施例中,本文描述的主题的若干部分可以通过专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处
理器(dsp)或其他集成格式来实现。然而,本领域技术人员将认识到,本文所公开的实施例的全部或部分的一些方面可以等同地在集成电路中实现,作为运行在一个或多个计算机上的一个或多个计算机程序(例如,作为运行在一个或多个计算机系统上的一个或多个程序),作为运行在一个或多个处理器上的一个或多个程序(例如,作为运行在一个或多个微处理器上的一个或多个程序),作为固件,或作为其实际上的任何组合,根据本公开内容,设计电路和/或编写用于软件和/或固件的代码将完全在本领域技术人员的技术范围内。此外,本领域技术人员将理解,本文描述的主题的机制能够以各种形式作为程序产品分配,并且本文描述的主题的说明性实施例适用于与用于实际执行分配的信号承载介质的特定类型无关的情况。信号承载介质的示例包括但不限于以下:可记录型介质,例如软盘、硬盘驱动器、cd、dvd、数字磁带、计算机存储器等;以及传输类型介质,例如数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路等)。
[0105]
本领域技术人员将认识到,在本领域内以本文所述的方式描述设备和/或过程是常见的,并且其后使用工程实践将这样描述的设备和/或过程集成到数据处理系统中。也就是说,本文所述的装置和/或过程的至少一部分可以通过合理数量的实验集成到数据处理系统中。本领域技术人员将认识到,典型的数据处理系统通常包括以下中的一个或多个:系统单元外壳、视频显示设备、例如易失性和非易失性存储器的存储器、例如微处理器和数字信号处理器的处理器、例如操作系统的计算实体、驱动器、图形用户界面和应用程序、一个或多个交互设备(例如触摸板或屏幕)和/或包括反馈回路和控制电机的控制系统(例如,用于感测位置和/或速度的反馈;用于移动和/或调节部件和/或数量的控制电机)。典型的数据处理系统可以利用任何合适的市售组件来实现,例如通常在数据计算/通信和/或网络计算/通信系统中发现的组件。
[0106]
本文描述的主题有时示出了包含在不同其他组件内或与不同其他组件连接的不同组件。应当理解的是,这种所描绘的架构仅仅是示例性的,并且实际上可以实现实现相同功能的许多其他架构。在概念意义上,实现相同功能的组件的任何布置被有效地“关联”,从而实现期望功能。因此,本文中组合以实现特定功能的任何两个组件可以被视为彼此“关联”,从而实现所需的功能,而与架构或中间组件无关。同样,如此关联的任何两个组件也可以被视为彼此“可操作地连接”或“可操作地耦合”以实现期望功能,并且能够如此关联的任何两个组件也可以被视为“可操作地耦合”,以实现期望功能。可操作地可耦合的具体示例包括但不限于物理上可配合和/或物理上相互作用的组件和/或无线可交互和/或无线地相互作用的组件和/或逻辑上相互作用和/或逻辑上可相互作用的组件。
[0107]
图6显示了被布置为执行本文描述的任何计算方法的示例计算设备600。在非常基本的配置602中,计算设备600通常包括一个或多个处理器604和系统存储器606。存储器总线608可用于在处理器604和系统存储器606之间通信。
[0108]
根据所需的配置,处理器604可以是任何类型,包括但不限于微处理器(μp)、微控制器(μc)、数字信号处理器(dsp)或其任何组合。处理器604可以包括多级高速缓存,例如一级高速缓存610和二级高速缓存612、处理器核614和寄存器616。示例处理器核614可以包括算术逻辑单元(alu)、浮点单元(fpu)、数字信号处理核(dsp核)或其任何组合。示例存储器控制器618还可以与处理器604一起使用,或者在一些实现中,存储器控制器618可以是处理器604的内部部分。
[0109]
根据所需的配置,系统存储器606可以是任何类型,包括但不限于易失性存储器(例如ram)、非易失性存储器(例如rom、闪存等)或其任何组合。系统存储器606可以包括操作系统620、一个或多个应用程序622和程序数据624。应用622可以包括确定应用626,其被布置成执行如本文所述的功能,包括关于本文所述的方法所描述的那些功能。程序数据624可包括可用于分析由传感器单元240提供的污染特性的确定信息628。在一些实施例中,应用622可以被布置成利用在操作系统620上的程序数据624来操作,使得可以如本文所述地验证由不受信任的计算节点执行的工作。在图6中通过内虚线内的那些组件示出了该描述的基本配置602。
[0110]
计算设备600可以具有附加的特征或功能,以及附加的接口,以促进基本配置602与任何所需的设备和接口之间的通信。例如,总线/接口控制器630可用于方便基本配置602与一个或多个数据存储设备632之间经由存储接口总线634的通信。数据存储设备632可以是可移动存储设备636、不可移动存储设备638或其组合。可移动存储和不可移动存储设备的示例包括例如柔性磁盘驱动器和硬盘驱动器(hdd)的磁盘设备、例如光盘(cd)驱动器或数字通用磁盘(dvd)驱动器的光盘驱动器、固态驱动器(ssd)和磁带机等。示例计算机存储介质可以包括在用于存储信息(例如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实现的易失性和非易失性、可移动和不可移动介质。
[0111]
系统存储器606、可移动存储设备636和不可移动存储设备638是计算机存储介质的示例。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字通用磁盘(dvd)或其他光学存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备,或可用于存储期望信息并且可由计算设备600访问的任何其他介质。任何这样的计算机存储介质可以是计算设备600的一部分。
[0112]
计算设备600还可以包括接口总线640,用于促进从各种接口设备(例如,输出设备642、外围接口644和通信设备646)通过总线/接口控制器630到基本配置602的通信。示例输出设备642包括图形处理单元648和音频处理单元650,其可以被配置为经由一个或多个a/v端口652与例如显示器或扬声器的各种外部设备通信。示例外围接口644包括串行接口控制器654或并行接口控制器656,其可以被配置为通过一个或多个i/o端口658与外部设备(例如输入设备(例如键盘、鼠标、笔、语音输入设备、触摸输入设备等))或其他外围设备(例如,打印机、扫描仪等)通信。示例通信设备646包括网络控制器660,其可以被布置为方便经由一个或多个通信端口664通过网络通信链路与一个或多个其他计算设备662通信。
[0113]
网络通信链路可以是通信介质的一个示例。通信介质通常可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据(例如载波或其他传输机制)来体现,并且可以包括任何信息传递介质。“调制数据信号”可以是以在信号中编码信息的方式设置或改变其一个或多个特性的信号。作为示例而非限制,通信介质可以包括例如有线网络或直接有线连接的有线介质,以及例如声学、射频(rf)、微波、红外(ir)和其他无线介质的无线介质。本文使用的术语计算机可读介质可以包括存储介质和通信介质两者。
[0114]
计算设备600可以被实现为小型便携式(或移动)电子设备的一部分,例如蜂窝电话、个人数据助理(pda)、个人媒体播放器设备、无线网络手表设备、个人头戴式耳机设备、专用设备或包括上述任何功能的混合设备。计算设备600还可以被实现为包括笔记本电脑和非笔记本电脑配置两者的个人计算机。计算设备600还可以是任何类型的网络计算设备。
计算设备600还可以是如本文所述的自动化系统。
[0115]
本文描述的实施例可以包括使用包括各种计算机硬件或软件模块的专用或通用计算机。
[0116]
在本发明范围内的实施例还包括用于携带或具有存储在其上的计算机可执行指令或数据结构的计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机访问的任何可用介质。作为示例而非限制,这种计算机可读介质可以包括ram、rom、eeprom、cd-rom或其他光盘存储器、磁盘存储器或其他磁存储设备,或可用于携带或存储以计算机可执行指令或数据结构的形式表示的期望程序代码并且可由通用或专用计算机访问的任何其他介质。当信息通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)传输或提供到计算机时,计算机将该连接正确地视为计算机可读介质。因此,任何这样的连接被适当地称为计算机可读介质。上述各项的组合也应包括在计算机可读介质的范围内。
[0117]
计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。尽管已经以特定于结构特征和/或方法行为的语言描述了主题,但是应当理解,在所附权利要求中定义的主题不一定限于上述特定特征或行为。相反,上述特定特征和行为被公开为实施权利要求的示例形式。
[0118]
如本文所使用的,术语“模块”或“组件”可以指在计算系统上执行的软件对象或例程。本文描述的不同组件、模块、引擎和服务可以被实现为在计算系统上执行的对象或过程(例如,作为单独的线程)。虽然本文所述的系统和方法优选地以软件实现,但是硬件或软件和硬件的组合中的实现也是可能的和预期的。在本说明书中,“计算实体”可以是如本文先前定义的任何计算系统,或者在计算系统上运行的任何模块或调制器的组合。
[0119]
关于本文中的基本上任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或应用的情况,从复数转换为单数和/或从单数转换为复数。为了清楚起见,本文可以明确地阐述各种单数/复数排列。
[0120]
本领域技术人员将理解的是,一般而言,本文中使用的术语,尤其是在所附权利要求中使用的术语(例如,所附权利要求的主体)通常旨在作为“开放”术语(例如,术语“包括”应被解释为“包括但不限于”,术语“具有”应被解释为“至少具有”,术语“包含”应被解释为“包含但不限于”等)。本领域技术人员将进一步理解的是,如果引入的权利要求叙述的意图是特定数量,则在权利要求中将明确地叙述这样的意图,并且在没有这样的叙述的情况下不存在这样的意图。例如,作为对理解的帮助,所附权利要求可以包含使用介绍性短语“至少一个”和“一个或多个”来介绍权利要求的叙述。然而,此类短语的使用不应被解释为暗示由不定冠词“一”或“一个”引入权利要求叙述将包含此类引入的权利要求叙述的任何特定权利要求限制为仅包含一个此类叙述的实施例,即使当同一权利要求包括介绍性短语“一个或多个”或“至少一个”和不定冠词,例如“一”或“一个”(例如,“一”和/或“一个”应解释为“至少一个”或“一个或多个”);用于引入权利要求叙述的定冠词的使用也是如此。此外,即使明确列举了特定数量的引入的权利要求叙述,本领域技术人员也将认识到,这种叙述应被解释为至少表示所列举的数量(例如,“两个列举”的简单列举,而没有其他修饰词,表示至少两个例句,或两个或更多个列举)。此外,在使用类似于“a、b和c等中的至少一个”的约定的那些情况下,一般而言,这种构造是在本领域技术人员将理解该约定的意义上的(例如,“具有a、b和c中的至少一个的系统”将包括但不限于单独具有a、单独具有b、单独具有c、
一起具有a和b、一起具有a和c、一起具有b和c、和/或一起具有a、b和c的系统等)。在使用类似于“a、b或c等中的至少一个”的约定的那些情况下,一般而言,这种构造是在本领域技术人员将理解该约定的意义上的(例如,“具有a、b或c中的至少一个的系统”将包括但不限于单独具有a、单独具有b、单独具有c、一起具有a和b、一起具有a和c、一起具有b和c、和/或一起具有a、b和c的系统等)。本领域技术人员将进一步理解的是,无论是在说明书、权利要求或附图中,实际上任何表示两个或更多个替代术语的析取词和/或短语都应被理解为考虑包括术语中的一个、术语中的任一个或两个术语的可能性。例如,短语“a或b”将被理解为包括“a”或“b”或“a和b”的可能性。
[0121]
此外,在根据markush组描述本公开的特征或方面的情况下,本领域技术人员将认识到,本公开也因此根据markush组的任何单个成员或成员的子组来描述。
[0122]
如本领域技术人员将理解的,出于任何和所有目的,例如就提供书面描述而言,本文公开的所有范围还包括任何和所有可能的子范围及其子范围的组合。任何列出的范围都可以很容易地被识别为充分描述和允许将相同的范围分解为至少相等的一半,三分之二,四分之一,五分之一,十分之一等。作为非限制性示例,本文所讨论的每个范围可以容易地分解为下三分之一、中间三分之一和上三分之一等。如本领域技术人员还将理解的,例如“直到”、“至少”等的所有语言都包括所列举的数字,并且指代范围,其随后可以分解为如上所述的子范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个细胞的组是指具有1、2或3个细胞的组。类似地,具有1-5个细胞的组是指具有1、2、3、4或5个细胞的组,等等。
[0123]
根据前述内容,应当理解,为了说明的目的,本文已经描述了本公开的各种实施例,并且在不脱离本公开的范围和精神的情况下可以进行各种修改。因此,本文公开的各种实施例不旨在是限制性的,其真实范围和精神由以下权利要求指示。
[0124]
本文列举的所有参考文献通过具体引用整体并入本文。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献