一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于协同杀虫剂筛选的系统和方法与流程

2022-06-12 03:30:23 来源:中国专利 TAG:

用于协同杀虫剂筛选的系统和方法
1.相关申请的引用
2.本技术要求2019年9月26日提交的美国临时专利申请号62/906341和2020年3月10日提交的美国临时专利申请号62/987751的优先权和权益,其公开内容全文以引用方式并入本文。
技术领域
3.本公开整体涉及杀虫组合物,并且具体地涉及具有其它活性物质或制剂相关成分的杀虫组合物。


背景技术:

4.杀虫剂(例如杀真菌剂、除草剂、杀线虫剂、杀昆虫剂、杀菌剂、灭鼠剂、杀病毒剂、杀螨药、灭藻剂、软体动物杀灭剂)是用于家庭、农业、工业和商业环境中的组合物。使用杀虫剂来控制和/或抑制不需要的害虫,如果不受控,则可能伤害植物(诸如作物)、动物、人和/或其它生物体。因此,需要有效的杀虫组合物。
5.还期望减少使用杀虫剂的量,无论是为了避免有害环境作用,减少成本,还是出于其它原因。例如,化学杀虫剂通常用于农业环境中,其中已知多种植物害虫,诸如昆虫、蠕虫、线虫、真菌和植物病原体(诸如病毒和细菌)会导致种子、观赏植物和作物植物的显著损伤。此类组合物通常是昂贵的、潜在毒性的(例如,对人、动物和/或环境)、导致害虫生物体对杀虫抗性增加、受到监管限制和/或在应用后持续时间长。农民、消费者和周围环境通常有益于尽可能使用最少量的化学杀虫剂,同时继续控制害虫生长,以便使作物产量最大化。
6.针对此类问题,已经提出使用天然或生物衍生的杀虫组合物代替一些化学杀虫剂。然而,与竞争性化学杀虫剂相比,一些天然或生物衍生的杀虫剂已经证明其性能不太有效或一致,从而导致有限的采用。
7.通常期望改进的杀虫剂和杀虫组合物,以允许有效、经济且环境安全地控制不期望的害虫(诸如昆虫、植物、真菌、线虫、软体动物、螨、啮齿动物、病毒和细菌害虫)。特别地,仍然需要减少在使用中获得期望或可接受的害虫控制水平所需的杀虫试剂和/或杀虫活性成分的量的杀虫组合物。
8.识别改进的杀虫组合物通常具有挑战性。其中杀虫活性成分的量经由与一些协同添加剂的协同功效来减少的协同杀虫组合物是非常罕见的。例如,基于参考文献列出的化合物的约120,000种双组分组合的系统筛选仅发现5%的双组分对(包括氟康唑、与某些唑农业杀真菌剂化合物有关的三唑杀真菌化合物)是协同的(参见borisy等人,systematic discovery of multicomponent therapeutics.proc.natl acad.sci.100:7977-7982(2003))。在特定用途中筛选多于10^60个用于潜在协同功效的可能组合物对于常规实验技术是不可行的,例如,10个化学家的实验室可能在一年中以大约10^4-10^6种此类组合物进行筛选。
9.因此,通常期望用于筛选用于协同功效的杀虫组合物的改进的系统和方法。
10.相关技术的前述示例和与其相关的限制旨在是说明性的而非排他性的。在阅读说明书和附图的研究后,相关技术的其它限制对于本领域技术人员而言将变得显而易见。


技术实现要素:

11.以下实施方案及其方面结合意图是示例性和说明性的系统、工具和方法来描述和说明,并非限制范围。在各种实施方案中,已经减少或消除上述问题中的一个或多个问题,而其它实施方案涉及其它改进。
12.本发明的一个方面提供一种计算系统,该计算系统包括一个或多个处理器和含有指令的存储器,该指令致使一个或多个处理器执行方法,并且/或者提供一种存储此类指令的非暂态机器可读介质。该方法用于生成两种或更多种化合物之间抵抗一种或多种害虫的协同相互作用的预测。该方法包括接收杀虫化合物的第一表示;接收协同化合物的第二表示;基于第一表示来识别杀虫化合物的第一化学特征;基于第二表示来识别协同化合物的第二化学特征;通过对第一化学特征和第二化学特征进行编码来生成包含杀虫化合物和协同化合物的组合物的编码表示;以及生成杀虫化合物与协同化合物之间抵抗一种或多种害虫的协同相互作用的一个或多个预测,所述生成包括:基于分类器的经训练的参数来转换编码表示,分类器的经训练的参数已经针对至少一种组合物的化合物之间抵抗一种或多种害虫中的至少一种害虫的至少一种协同相互作用进行训练。
13.在一些实施方案中,其中协同相互作用的一个或多个预测包括多个预测,并且该方法进一步包括:将多个协同作用预测组合到组合协同作用中。在一些实施方式中,该方法进一步包括基于多个预测来确定以下中的至少一者:置信区间、标准偏差和方差。在一些实施方式中,分类器包括随机分类器,并且生成一个或多个预测包括基于分类器的经训练的参数经过多次迭代来转换编码表示,以及生成针对每次迭代的预测。
14.在一些实施方案中,生成编码表示包括基于杀虫化合物的第一化学特征来生成第一编码化合物表示,以及基于协同化合物的第二化学特征来生成第二编码化合物表示,并且其中生成一个或多个预测包括基于第一编码化合物表示和第二编码化合物表示来生成一个或多个预测。
15.在一些实施方案中,其中生成编码表示包括生成比可编码表示低维的编码表示。
16.在一些实施方案中,其中生成编码表示包括基于编码器模型的经训练的参数来将杀虫化合物和协同化合物中的至少一种的可编码表示转换为编码表示。在一些实施方式中,编码器模型包括变分自编码器的编码器部分,该编码器部分可操作以将可编码表示从变分自编码器的输入空间转换为潜在空间。在一些实施方式中,编码器模型的经训练的参数已经针对与分类器的经训练的参数不同的训练集进行训练。
17.在一些实施方案中,该方法进一步包括基于一种或多种害虫来从多个分类器中选择分类器。在一些实施方式中,该方法进一步包括接收一种或多种害虫的表示,并且选择分类器包括基于一种或多种害虫的表示来选择分类器。在一些实施方式中,分类器是多个分类器中的第一分类器,多个分类器中的至少第二分类器已经针对与一种或多种害虫不同的害虫进行训练,并且从多个分类器中选择分类器包括基于一种或多种害虫来选择第一分类器和第二分类器中的一者。在一些实施方式中,分类器包括集成分类器,该集成分类器包括多个组成分类器,该多个组成分类器至少包括第一组成分类器和第二组成分类器,该第一
组成分类器和第二组成分类器的相应的经训练的参数各自已经针对至少一种组合物的化合物之间抵抗一种或多种害虫中的至少一种害虫的至少一种协同相互作用进行训练。在一些实施方式中,生成一个或多个预测包括基于第一组成分类器来生成第一预测,以及基于第二组成分类器来生成第二预测。
18.在一些实施方案中,生成杀虫化合物和协同化合物中的至少一种的增强表示,该增强表示包括增强化学特征,该增强化学特征包括第一化学特征和第二化学特征中的至少一者。在一些实施方式中,生成增强表示包括基于定量结构-活性关系模型的经训练的参数来确定增强化学特征。
19.在一些实施方案中,接收第三化合物的第三表示,并且基于确定以下中的至少一者来从预测排除包含第三化合物的排除的组合物:第三化合物的化学特征与排除规则匹配,对应于第三化合物的可用性值小于阈值,第三化合物与第四化合物之间的相似性度量大于阈值,以及第三化合物的毒性指示与毒性标准匹配。
20.在一些实施方案中,杀虫化合物选自由以下组成的组:杀真菌剂、除草剂、杀线虫剂、杀昆虫剂、杀菌剂、灭鼠剂、杀病毒剂、杀螨药和软体动物杀灭剂。
21.在一些实施方案中,该方法包括从由以下组成的组中选择第一化学特征和第二化学特征中的至少一者:芳香性的表示、电负性的表示、极性的表示、亲水性/疏水性的表示、以及杀虫化合物和协同化合物中的至少一种的杂化的表示。
22.在一些实施方案中,一种或多种害虫包括至少一种训练害虫。在一些实施方案中,至少一种训练害虫与一种或多种害虫中的至少一种害虫共享杀虫作用模式,而不必包含在一种或多种害虫中。
23.在一些实施方案中,分类器的经训练的参数已经通过以下方式进行训练:确定多种训练组合物中的每种训练组合物的重要性度量;基于一种或多种高重要性组合物中的每种高重要性组合物的重要性度量来从多种训练组合物中选择一种或多种高重要性组合物;以及基于一种或多种高重要组合物来更新分类器的经训练的参数。在一些实施方案中,确定给定组合物的重要性度量包括基于训练组合物的杀虫化合物与训练组合物的协同化合物之间的协同相互作用的一个或多个训练预测的方差来确定给定训练组合物的重要性度量。
24.在一些实施方案中,选择一种或多种高重要性组合物包括基于代表性标准来选择一种或多种高重要性组合物。在一些实施方案中,基于代表性标准来选择一种或多种高重要性组合物包括确定多种训练组合物的多个簇,以及从多个簇中的至少两个簇中的每个簇选择至少一种高重要性组合物。在一些实施方案中,确定多种训练组合物的多个簇包括确定表示训练组合物中的第一训练组合物的至少一种化合物的至少一个图与表示训练组合物中的第二训练组合物的至少一种化合物的至少一个图之间的图形相似性度量。
25.在一些实施方案中,通过将相关的杀虫化合物和协同化合物组合以产生组合物并在测试环境中将一种或多种害虫暴露于组合物来验证或评估协同相互作用的预测。在一些实施方案中,协同相互作用的预测用于通过配制杀虫化合物来配制含有相关的杀虫化合物和协同化合物的杀虫组合物。在一些实施方案中,协同相互作用的预测用于通过将相关的杀虫化合物和协同化合物与任何期望的制剂组分或添加剂混合在一起以产生杀虫组合物来制造杀虫组合物。在一些实施方案中,协同相互作用的预测用于通过将非靶生物体暴露
于含有杀虫化合物和协同化合物的杀虫组合物来处理影响非靶生物体的一种或多种害虫。在一些实施方案中,为了处理影响非靶生物体的一种或多种害虫,确定并评估协同相互作用的多个预测,以选择多种杀虫化合物中的一种杀虫化合物和多种协同化合物中的对应协同化合物的组合。然后将非靶生物体暴露于组合物,该组合物含有多种杀虫化合物中的一种杀虫化合物和多种协同化合物中的对应协同化合物的选择的组合。
26.除了上述示例性方面和实施方案外,通过参考附图并且通过研究以下详细描述,其它方面和实施方案将变得显而易见。
附图说明
27.在附图的参考图中示出示例性实施方案。本文所公开的实施方案和附图旨在视为说明性的,而非限制性的。
28.图1示意性地示出用于在至少一种害虫上预测候选杀虫组合物的两种或更多种化合物之间的协同和/或拮抗相互作用的示例系统。
29.图2是用于通过图1的系统在至少一种害虫上生成候选杀虫组合物的两种或更多种化合物之间的协同和/或拮抗相互作用的预测的示例方法的流程图。
30.图3是用于通过图1的系统的示例选择器筛选候选杀虫组合物的示例方法的流程图。
31.图4是用于通过图1的系统的示例编码器对候选杀虫组合物进行编码的示例方法的流程图。
32.图5是用于通过图1的系统的示例分类器生成候选杀虫组合物的化合物之间的协同和/或拮抗相互作用的一种或多种预测的示例方法的流程图。
33.图6是用于训练图1的系统的示例分类器的参数的示例方法的流程图。
34.图7示意性地示出图1的系统的示例组合器的示例数据流。
35.图8示出适于提供图1的系统的示例性计算机系统。
36.图9示出评估使用协同相互作用的预测制备的杀虫组合物的功效的示例性方法。
37.图10示出使用协同相互作用的预测来配制杀虫组合物的示例性方法。
38.图11示出使用多种候选杀虫组合物的协同相互作用的预测来制造杀虫组合物的示例性方法。
39.图12示出使用协同相互作用的预测来处理影响非靶生物体的一种或多种害虫的方法。
40.图13示出使用多种候选杀虫组合物的协同相互作用的预测来处理影响非靶生物体的一种或多种害虫的方法。
具体实施方式
41.在整个以下描述中阐述具体细节以便提供对本领域技术人员的更透彻理解。然而,没有详细示出或描述众所周知的要素,以避免不必要地模糊本公开。因此,描述和附图应被视为说明性的而非限制性的含义。
42.概述
43.确定杀虫化合物和其它化合物之间的协同(和/或拮抗)相互作用的常规方法通常
涉及一系列实验室筛选和现场试验实验。实验室筛选阶段的初始板测试通常发现不存在协同相互作用。后续测试通常在植物中(in planta)进行并且可能消耗相当大的资源;例如,在农业上下文中,此类测试可以持续几个生长的季节,涉及若干人员和相当大的生长空间和基础设施,并且可能需要重复以减轻系统性误差和/或响应于测试期间出现的特定问题。
44.本公开提供针对抵抗一种或多种害虫的协同相互作用筛选两种或更多种化合物的候选杀虫组合物的系统和方法。在某些情况下,所描述的系统和方法可以有效且准确地预测哪些候选杀虫组合物可能具有抵抗一种或多种害虫的协同相互作用。除了常规的基于实验室的筛选外(例如,在常规的基于实验室的筛选之前和/或同时)或甚至代替常规的基于实验室的筛选,可以使用所描述的系统和方法。可以减少或消除预测可能缺乏期望协同相互作用的组合物的后续测试,从而潜在地加速协同杀虫组合物的发现。
45.本文所描述的系统和方法预测在包含至少一种杀虫活性成分和至少一种协同化合物的组合物中抵抗至少一种害虫的协同相互作用(或缺乏协同相互作用)。(如本文所用,“协同化合物”不需要化合物实际上是协同的,而是指化合物被评估用于与杀虫活性成分协同相互作用的事实。)根据期望的用途,协同杀虫组合物筛选系统可以被配置成以多种不同的操作模式操作。在一些实施方案中,协同杀虫组合物筛选系统生成与协同相互作用是否可能用于候选杀虫组合物的概率有关的预测。此类预测可以使用户能够基于预测来选择可能具有协同相互作用的候选杀虫组合物以用于进一步测试步骤(例如,确认预测的协同相互作用)。
46.在一些实施方案中,协同杀虫组合物筛选系统生成由候选杀虫组合物表现出的协同相互作用程度(如果有的话)的预测。此类预测可以使用户能够基于预测来选择最可能表现出协同相互作用或可能表现出至少一定程度的协同相互作用的候选杀虫组合物以用于进一步测试。
47.在一些实施方案中,协同杀虫组合物筛选系统预测描述由候选杀虫组合物表现出的协同相互作用的协同作用度量。可以预测任何合适的协同作用度量;例如,系统可以预测候选杀虫组合物的最小抑制浓度(mic)和/或分级抑制浓度指数(fici)值。系统可以替代地或另外地预测可用的各种其它协同作用度量中的任一种,包括例如由greco等人,the search for synergy:a critical review from a response surface perspective,pharmacological reviews 47,331-85描述的那些,其以引用方式并入本文。
48.在一些实施方案中,协同杀虫组合物筛选系统在一种或多种害虫生物体上预测候选杀虫组合物的改进的杀虫有效性的度量。预测度量可用于预测场中的杀虫有效性所需的候选杀虫组合物的量。此类预测可以使用户能够基于此类预测量来筛选候选杀虫组合物。例如,预测量可以与候选杀虫组合物的估计的每单位成本组合(例如,通过乘法)以确定每单位功效的预测成本。可以基于此类预测量和/或预测的每单位功效的成本来对候选杀虫组合物进行筛选、排序、将其呈现给用户或以其它方式输出。
49.前述实施方案中的一个或多个实施方案可以提供为协同杀虫组合物筛选系统的操作模式。如下文更详细地描述,协同杀虫组合物筛选系统基于经训练的参数来生成预测。在一些实施方案中,经训练的参数可以基于在系统生成预测之后执行的实验室和/或现场测试的结果来进一步训练。
50.前述概述通常是指协同相互作用。拮抗相互作用还可以或替代地预测。除非上下
文另有要求,否则本公开同样适用于协同和拮抗相互作用。
51.当结合附图阅读以下描述时,这些和其它方面和优点将变得显而易见。
52.定义
53.如本说明书中所使用的,使用以下定义:
54.候选杀虫组合物:至少两种候选化合物的组合,包括至少一种杀虫化合物和至少一种潜在协同和/或拮抗化合物(为了方便起见,在本文中通常称为协同化合物),具有或不具有限定的混合比率,并且任选地包含一种或多种另外的化合物。候选杀虫组合物可以包含混合物。
55.非靶生物体:非靶生物体是害虫对其具有有害作用的生物体。非靶生物体可以包括植物、动物和任何其它受影响的生物体,并且特别地包括作物植物和作物动物,诸如家养农场动物。例如,非靶生物体包括(但不限于)作物植物,诸如黄瓜和大豆植物;和作物动物,诸如猪和牛。
56.害虫:在环境中生活的不期望的生物体,通常对环境中的一种或多种宿主生物体(例如作物植物)具有有害作用。害虫可以是昆虫、植物、真菌、线虫、软体动物、螨、啮齿动物、病毒、细菌和/或其它生物体。害虫的示例是白粉菌,其在多种作物植物(诸如大豆植物)上生长(并且危害该多种作物植物)。
57.mic:最小抑制浓度是防止害虫生长的化学物质的最低浓度。
58.fici:分级抑制浓度指数:协同作用的度量。指示“协同作用”(fici≤0.5)、“拮抗作用”(fici>4.0)和“无相互作用”(fici>0.5-4.0)的程度。
59.度量:用于测量的标准系统。度量值是指定的测量系统内的不同值。度量的示例是fici,并且计算的fici分数是度量值。度量不需要直接从测量产生,并且可以预测(例如,如本文所述,参考协同杀虫组合物筛选系统预测度量值)。
60.协同相互作用:两种或更多种化学化合物合在一起的作用,该作用大于其在相同剂量下的单独作用的总和。据说包含两种或更多种具有协同相互作用的化合物的组合物具有协同作用。
61.拮抗相互作用:两种或更多种化学化合物合在一起的作用,该作用小于其在相同剂量下的单独作用的总和。据说包含两种或更多种具有拮抗相互作用的化合物的组合物具有拮抗作用。
62.活性成分:一种或多种化学化合物(例如,分子、复合物、混合物等),其具有抑制、刺激或以其它方式改变至少一种害虫的生产或生物活性的作用。活性成分的化合物有时被称为“活性化合物”。
63.杀虫剂:有效抑制一种或多种害虫的生长和/或生物活性的物质。
64.当用于化学和生物化学领域中时,所有其它词语都具有其正常含义。
65.协同杀虫组合物筛选系统和方法的概述
66.本公开提供了协同杀虫组合物筛选系统和其操作方法。在一些实施方案中,协同杀虫组合物筛选系统预测两种或更多种候选化合物表现出一种或多种协同(和/或拮抗)相互作用的概率。在一些实施方案中,协同杀虫组合物筛选系统预测候选化合物之间的协同(和/或拮抗)相互作用的程度。在一些实施方案中,协同杀虫组合物筛选系统预测描述候选杀虫组合物的协同(和/或拮抗)相互作用的度量值,诸如mic和/或fici值。协同杀虫组合物
筛选系统通过基于如本文更详细描述的一组经训练的参数转换候选化合物的数字表示来生成预测。由系统生成的预测可以例如在工业化学组合物筛选过程中使用以预测候选杀虫组合物是否可能具有协同(和/或拮抗)相互作用,并且任选地预测该相互作用(例如强/弱)的程度和/或描述该相互作用的度量值(例如mic和/或fici值、获得某种程度的功效所需的组合物的量等)。
67.杀虫组合物的活性成分(以及因此杀虫组合物本身)通常具有有限的寿命。害虫可以对活性成分的作用模式产生抗性,从而使杀虫组合物随着时间的推移不太有效或无效。例如,某些害虫(例如昆虫、线虫、真菌、酵母、锈菌)对已经用于管理其在作物领域中的存在的化学化合物产生抗性。由于害虫产生抗性,因此商业杀虫剂需要新的活性成分来管理它们。协同杀虫组合物筛选系统尝试通过其预测来识别化合物之间的先前未知的协同相互作用,从而识别那些化合物的候选杀虫组合物,该候选杀虫组合物相对较有可能针对抗性生物体具有更大的功效(相对于未由系统识别的具有协同相互作用的组合物)。在某些情况下,先前变得不太有效或无效的活性成分(例如由于增加的抗性)可以通过与由系统预测的候选化合物组合以具有与活性成分的协同相互作用来再次变得有效。因此,目前描述的协同杀虫组合物筛选系统可以以计算上易处理的方式识别新的杀虫组合物。
68.图1示出示例协同杀虫组合物筛选系统1000,其在第一示例性实施方案中包括用于预测两种或更多种化合物之间对至少一种害虫的协同和/或拮抗相互作用的特征(例如存在、程度和/或相关度量值)的计算机系统。本文描述了系统1000及其操作方法。
69.系统1000是提供选择器200、编码器210、集成分类器300和组合器400的计算机系统。系统1000任选地与一个或多个数据存储区,诸如数据库250、251、570通信。选择器200、编码器210、集成分类器300和组合器400可以由硬件和/或软件提供,并且在本文中通常被称为系统1000的“模块”。在高水平下,选择器200接收一种或多种候选杀虫组合物的数字表示并且选择一种或多种选择的候选杀虫组合物(例如根据本文其它地方描述的方法3000)。编码器210接收一种或多种选择的候选杀虫组合物,并且对于每种选择的候选杀虫组合物,由分类器300生成用于分类的选择的候选杀虫组合物的编码表示(例如根据本文其它地方描述的方法4000)。分类器300接收每个编码表示,并且基于一组或多组经训练的参数来生成每个编码表示的一个或多个预测(例如根据本文其它地方描述的方法5000)。在一些实施方案中,包括所描绘的实施方案,分类器300包括集成分类器,该集成分类器包括多个经训练的分类器310a...310n,该多个经训练的分类器中的每个经训练的分类器生成预测。在其中分类器300生成选择的候选杀虫组合物的多个预测的至少一些实施方案中,组合器400接收多个预测并且基于多个预测来生成组合预测450(例如,如参考图7更详细地描述)。
70.可以训练系统1000以预测候选杀虫组合物的化合物之间的各种相互作用中的任何相互作用。在一些实施方式中,系统1000通过预测候选杀虫组合物的化合物与至少一种害虫之间的协同(和/或拮抗)相互作用的预测存在概率、此类相互作用的预测程度和/或描述此类相互作用的预测度量值来生成预测450。在一些实施方案中,系统1000另外地或替代地通过预测候选杀虫组合物抵抗至少一种生物体(例如至少一种害虫、至少一种作物等)的毒性来生成预测450。在一些实施方案中,系统1000通过确定来源于候选杀虫组合物的化合物和/或至少一种害虫之间的预测协同和/或拮抗相互作用的一个或多个度量和/或其它属性来生成预测450,诸如通过至少一种害虫的一种或多种害虫预测抗性缓解、候选杀虫组合
物的预测有效性和/或预测的组合物公式(例如表达为化合物比率)。
71.图2示出用于生成候选杀虫组合物的两种或更多种化合物之间的协同和/或拮抗相互作用的预测的示例方法2000。该方法由计算机系统(例如,系统1000)执行。在2010处,计算机系统接收候选杀虫组合物的表示。动作2010可以例如通过系统1000的选择器200执行并且可以包括下文参考方法3000描述的任何动作,诸如增强组合物和/或组成化合物的表示、过滤组合物、特征选择等。在一些实施方案中,动作2010包括接收杀虫化合物的表示(在2012处)以及接收协同化合物的表示(在2014处)。在一些实施方案中,动作2010包括接收一种或多种害虫的表示,该一种或多种害虫的表示将评估候选杀虫组合物的协同杀虫功效。在一些实施方案中,动作2010还或替代地包括接收混合物信息,诸如混合物比率和/或混合物比率范围。
72.在2020处,计算机系统通过基于在2010处接收的表示对杀虫化合物和协同化合物的化学特征进行编码由分类器300生成用于分类的候选杀虫组合物的编码表示。动作2020可以例如由系统1000的编码器210和/或分类器300(其可以任选地由一个机器学习模型提供)执行,并且可以包括下文参考方法4000描述的任何动作,诸如压缩、特征选择和/或转码(例如,由编码器210和/或分类器300定义的潜在空间)。动作2030包括将每个原始表示转换为候选杀虫组合物的编码表示(其可以包括整体表示,诸如组合物的单个本征矢量,和/或多个表示,诸如候选杀虫组合物的每种化合物的表示)。
73.在2030处,计算机系统基于在2020处生成的编码表示并且基于分类器模型的经训练的参数来生成候选杀虫组合物抵抗一种或多种害虫的协同功效的预测。动作2030可以例如由系统1000的分类器300(例如,根据方法6000训练)执行,并且可以包括下文参考方法5000描述的任何动作。在至少一些实施方案中,动作2030包括基于分类器的经训练的参数来转换编码表示,分类器的经训练的参数已经针对至少一种组合物的化合物之间抵抗一种或多种害虫中的至少一种害虫的至少一种协同相互作用进行训练。动作2030可以包括例如经由随机分类器生成多个预测,如本文其它地方更详细地描述的。
74.在2040处,计算机系统任选地组合多个预测以生成组合预测(例如,预测450)。动作2040可以例如由系统1000的组合器400执行,并且可以包括下文参考组合器400和图7的数据流程图描述的任何动作。在一些实施方案中,动作2040包括生成组合预测的置信度量度(例如,置信区间),如本文其它地方更详细地描述的。
75.选择候选杀虫组合物
76.在至少一些实施方案中,系统1000的操作开始于选择器200。图3是用于通过系统1000选择候选杀虫组合物的示例方法3000的流程图。方法3000可以全部或部分地由系统1000的选择器200执行。方法3000选择用于系统1000的候选杀虫组合物以评估协同潜力。由于许多候选杀虫组合物通常将是可用的,因此在至少一些实施方式中,方法3000包括根据考虑去除某些化合物和/或组合物免于进一步评估。
77.在3005处,系统1000(例如,通过选择器200)接收一种或多种化合物中的每种化合物的至少一部分数字表示。一种或多种化合物可由用户提供,由另一计算系统提供,从数据存储区检索,和/或以其它方式经由任何合适的技术获得。每个数字表示包括化合物化学结构和/或化合物化学性质(其可以包括例如化合物的对生物体类别,诸如害虫、作物植物等的已知作用)的表示。一种或多种化合物可以包括天然和/或合成化合物。系统1000还可以
任选地接收至少一种害虫的表示。在一些实施方案中,系统1000还接收候选杀虫组合物制剂参数,诸如候选杀虫组合物中的化合物中的至少一种化合物的成分比率和/或组成百分比。由系统1000接收的各种表示和参数在本文中统称为候选杀虫组合物的接收表示。
78.在一些实施方案中,系统1000在3005处接收候选杀虫组合物的一种化合物的表示,例如在其中分类器300和/或编码器210针对协同化合物与杀虫化合物的协同相互作用进行训练的实施方案中,在这种情况下杀虫化合物可以由经训练的分类器300和/或编码器210隐含地表示,而不必需要接收到杀虫化合物的显式表示。在一些实施方案中,杀虫化合物是预定的,并且在时间方法3000开始时使其表示可用于系统1000;在方法3000期间访问预定表示包含在“接收”此类表示的含义内。
79.任选地,在3010处,系统1000用另外的化学性质增强接收表示以生成增强表示。例如,选择器200可以从数据存储区(诸如本地存储器、数据库250、数据库570或其它合适的数据存储区)获得多种化合物的原子和分子信息(例如分子结构、分子量、组成原子、键合类型(例如,单键、双键、三键、芳香族键))、原子信息(例如原子数、杂化、芳香族环成员、隐式化合价和显式化合价、程度(键的数量))和/或其它化学性质(例如,特定位置中的官能团、电荷分布)的描述。在一些实施方案中,系统1000包括用于生成另外的化学性质(例如作为选择器200的一部分)的训练模型,并且通过基于训练模型的经训练的参数生成此类另外的化学性质来增强接收表示。例如,系统1000可以包括定量结构-活性关系(qsar)模型,并且3005可以包括由qsar模型生成一个或多个性质并将一个或多个性质中的至少一个性质添加到增强表示。
80.在一些实施方案中,候选杀虫组合物的化合物的至少一部分数字表示可以包括组合物或一类化合物的识别(因此允许化合物的间接识别)。在一些实施方式中,如果候选杀虫组合物包含这样的组合物,对于该组合物,另外的信息可用于系统1000(例如,在可访问数据存储区中),则系统1000(例如,在选择器200处)通过检索该另外的信息的至少一部分并将所检索的信息添加到增强表示来增强接收表示。在一些实施方案中,此类另外的信息包括组合物的化学组成和/或比率。例如,选择器200可以将组成化合物和任选地其相关浓度添加到候选杀虫组合物的增强表示。化学成分信息可以存储在参考化学数据库(例如,图1的数据库250和/或数据库570)中。系统1000可以将此类组成化合物添加到候选杀虫组合物中。
81.在一些实施方式中,如果由系统1000接收的至少一部分表示包括一个或多个标识符,该一个或多个标识符将一个或多个类别的化合物识别为候选杀虫组合物的成分,则系统1000可以基于一个或多个类别的化合物(例如,由选择器200)生成多个候选杀虫组合物。例如,对于每个识别的化合物类别,选择器200可以(例如,基于数据存储区,诸如数据库250和/或数据库570中的信息)确定该类别中的一组化合物。选择器200可以通过生成多个增强表示来生成多个候选杀虫组合物,每个增强表示包括所识别类别中的化合物中的不同一种。(在以这种方式识别多种成分的情况下,每个增强表示将包括来自相应类别的化合物的不同组合;可以通过排列在表示之间重复给定化合物。)
82.在一些实施方式中,如果选择具有多种制剂的候选杀虫组合物(例如,天然组合物诸如提取物可能就是这种情况),则系统1000(例如,通过选择器200)可以选择一种或多种此类制剂。例如,选择器200可以生成候选杀虫组合物的多个增强表示,每个增强表示对应
于制剂中的不同一种。选择器200可以以任何适当的方式选择一种或多种制剂,包括:选择所有可用的制剂,选择满足规则的每种制剂(例如,根据复杂性度量选择具有最低复杂性的制剂,基于环境度量选择最低环境影响、基于与每种制剂相关联的成本信息选择最低成本等),根据排序算法选择具有最高排序的多种制剂,伪随机选择一种或多种制剂,请求用户进行选择,和/或另外以任何适当的方式选择一种或多种制剂。在一些实施方案中,系统1000基于可用制剂来确定平均混合物比率(例如经由算术平均值、模式或其它合适的量度),并且将该平均混合物比率添加到候选杀虫组合物的增强表示。
83.在一些实施方案中,如果候选杀虫组合物包含具有多于一种异构体的化合物,则系统1000(例如,通过选择器200)可以以任何适当的方式选择异构体,包括上文关于制剂描述的任何选择技术。如果选择多于一种异构体,则系统1000可以生成候选杀虫组合物的多个增强表示,每个增强表示对应于异构体中的不同一种。
84.在一些实施方案中,3010包括接收待包含在候选杀虫组合物中的一种或多种化合物(和/或组成成分和/或化合物类别,视情况而定)的混合物比率和/或混合物比率范围。如果系统1000接收混合物比率范围,则系统1000可以(例如,通过选择器200)选择混合物比率范围内的一个或多个混合物比率并且生成候选杀虫组合物的多个增强表示,每个增强表示对应于混合物比率中的不同一种。系统1000可以例如基于预定参数(例如,系统1000可以针对一些参数n生成n种混合物比率,这些比率在该范围内均匀间隔开,并且包括极值)、用户选择和/或任何其它合适的选择来生成此类混合物比率。
85.在一些实施方案中,3010包括确定每种候选化合物的一个或多个指纹。在此类实施方案中,由系统1000生成的增强表示可以包括一个或多个指纹。在一些实施方案中,化合物的指纹包括与候选化合物的另外的性质(例如上述各种性质)组合的化合物的图形表示的组合。每种化合物的图形表示代表化合物分子的结构,该化合物分子具有分子中的每个原子的图的节点和表示为图形边缘的键。系统1000可以进一步增强化合物中的每个节点(原子)的图形表示,该化合物具有原子性质,诸如原子数、杂化(无论原子是否为芳香族环结构的一部分)、隐式化合价和/或其键的程度。系统1000可以另外地或替代地用性质诸如键的类型(例如单键、双键、三键、芳香族键)来增强每个图形边缘(键)的图形表示。
86.在各种实施方案中,可以使用不同类型的指纹,包括归一化的库仑矩阵(rupp等人)、“结合袋”(hansen等人)和其它指纹识别算法,诸如由rdkit提供的那些,诸如原子对、拓扑挠率、扩展连通性指纹(ecfp)、e态指纹、avalon指纹、erg、morgan、maccs。在一些实施方案中,系统1000确定多个指纹(例如,在3035处用于相似性筛选,如本文其它地方更详细地描述)。在至少一个实施方式中,系统1000确定每种候选化合物的morgan和maccs指纹,并且将这两种指纹添加到增强表示。
87.在3015处,对于一种或多种害虫中的每种害虫,系统1000任选地获得害虫的表示。表示可以包括例如害虫的标识符(诸如名称、索引和/或类别变量)和/或害虫基因组的至少一部分的表示。系统1000可以将一种或多种害虫的表示(和/或来源于其的信息-例如,索引可以来源于由系统1000接收的害虫的名称)添加到组合物的增强表示和/或以其它方式将一种或多种害虫的表示(和/或来源于其的信息)与组合物的增强表示相关联。可以预定义,从用户接收,从数据存储区和/或另一计算机系统接收,和/或以其它方式由系统1000接收一种或多种害虫的表示。
88.在一些实施方案中,对于一种或多种非靶生物体中的每种非靶生物体,系统1000替代地或另外地接收非靶生物体的表示。非靶生物体可包括例如宿主植物、动物或在施用杀虫组合物期间害虫在其上取食、栖息或以其它方式接近的其它生物体。表示可以包括例如非靶生物体的标识符(诸如名称、索引和/或类别变量)和/或非靶生物体基因组的至少一部分的表示。系统1000可以将一种或多种非靶生物体的表示(和/或来源于其的信息-例如,索引可以来源于由系统1000接收的非靶生物体的名称)添加到组合物的增强表示和/或以其它方式将一种或多种非靶生物体的表示(和/或来源于其的信息)与组合物的增强表示相关联。可以预定义,从用户接收,从数据存储区和/或另一计算机系统接收,和/或以其它方式由系统1000接收一种或多种非靶生物体的表示。
89.在一些实施方式中,系统1000通过选择器200执行动作3015。在一些实施方式中,系统1000在编码器210、分类器300处和/或经由任何其它合适的模块执行动作3015。一种或多种害虫和/或一种或多种非靶生物体的表示可用于调节分类器300的行为。例如,系统1000可以基于一种或多种害虫的表示来选择分类器300的训练模型320a,

320n(例如,基于针对一种或多种害虫中的至少一种害虫进行训练的表示来选择此类模型),如下文更详细地描述的。作为另一个示例,系统1000可以通过向分类器300提供作为输入的一种或多种害虫和/或一种或多种非靶生物体的表示来调节分类器300的行为,例如以通知候选杀虫组合物抵抗害虫的协同功效和/或候选杀虫组合物与非靶生物体之间的毒性的预测。
90.在动作3005、3010和/或3015处接收、识别、生成或以其它方式获得的候选杀虫组合物形成初始候选杀虫组合物集(其可以包括在3005处接收的表示和/或在3010和/或3015处生成的增强表示)。在一些实施方案中,系统1000执行一个或多个过滤动作(诸如本文所述的任选的过滤动作3020、3030、3035、3040)以基于初始候选杀虫组合物集来确定最终候选杀虫组合物集。可以在一个或多个过滤动作之前、之后和/或同时执行动作3010和/或3015;例如,系统1000可以在执行一个或多个过滤动作之后增强如上所述的化合物表示。
91.在3020处,系统1000任选地基于化合物排除标准来过滤候选杀虫组合物(例如,基于在3005处接收的表示和/或在3010处生成的增强表示)。例如,系统1000可以从数据存储区(例如,数据库250和/或570)检索将从候选杀虫组合物中排除的化合物和/或原子的列表。作为一个说明性示例,示例排除标准可以排除含有砷和比钙重的金属的组合物。作为另一个说明性示例,应用示例排除标准可以包括确定化学复杂性的量度,并且排除含有化学复杂性量度超过阈值的化合物的组合物。例如,这种排除标准可以排除链长大于阈值的烷烃(或其它有机无环)分子。这种排除标准可以包括规则(例如,将原子与大于40.078的原子质量或与33的原子数匹配)、列表(例如,砷和比钙重的所有金属的列表)、其组合和/或任何其它合适的标准。排除标准可以由系统1000从数据存储区(例如,数据库250、570和/或参数存储区(未示出))预定义和检索。在一些实施方案中,系统1000在3020处检索多个排除标准。系统1000可以应用所有检索的排除标准或选择待应用的子集。
92.在一些实施方案中,系统1000在3020处基于化学复杂性标准来过滤候选杀虫组合物。化学复杂性标准可以包括基于其化学结构来排除化合物。例如,系统1000可以排除具有包含大于阈值的多个原子的化学结构的化合物(例如,具有多于50个原子的化合物)。阈值可以预定义、由用户提供、由系统1000生成(例如,阈值可以设置为等于候选化合物的通过复杂性量度,诸如原子数排序的第10、20、30、40、50或另一个百分位数的化学复杂性的量
度),和/或以其它方式由系统1000获得。在一些实施方案中,系统1000基于此类组合物的组成化合物的子集来过滤候选杀虫组合物。例如,系统1000可以基于针对候选协同化合物应用的化学复杂性标准来过滤候选杀虫组合物,而不必基于针对候选杀虫化合物应用的化学复杂性标准来过滤此类候选杀虫组合物。
93.在一些实施方案中,系统1000在3020处基于成分白名单标准来过滤候选杀虫组合物。例如,系统1000可以排除包含原子不在未经排除原子的预定义列表上的化合物的任何候选杀虫组合物。例如,系统1000可以被配置成增加选择的候选协同化合物是惰性的概率,并且可以排除候选杀虫组合物,其中候选协同化合物包含的原子不在惰性化合物中具有高发生率的原子列表上。这种列表可以包括例如c、o、h、n、p、cl和f,因为具有该列表外的原子的化合物倾向于更可能具有不期望的和/或不可预测的生物活性。在一些实施方案中,系统1000在3020处基于成分黑名单标准来过滤候选杀虫组合物。例如,系统1000可以排除包含原子在排除原子的预定义列表上的化合物的任何候选杀虫组合物(例如,这种列表可以包括as、sc、ti、v、cr和原子,例如重金属)。
94.在一些实施方案中,系统1000在3020处基于化学性质标准来过滤候选杀虫组合物。例如,系统1000可以排除包含具有某些化学性质,诸如系统1000识别为高度易燃、不稳定和/或具有与相同候选杀虫组合物中的其它化合物(例如原子钾和水的混合物)的某些已知相互作用的那些性质的化合物的候选杀虫组合物。系统1000可以基于例如在动作3010和/或3015处生成的化学化合物的增强表示来确定化合物的化学性质,该增强表示可以包括此类性质的记录。系统1000还可以或替代地从数据存储区(诸如数据库250和/或570)检索化学性质信息。对于每种候选杀虫组合物的化合物,可以从材料安全数据表(msds)中检索化学性质信息。
95.在一些实施方案中,针对候选杀虫组合物的每种化合物检索化学性质信息。在一些实施方案中,针对候选杀虫组合物的化合物的子集检索此类信息。例如,在系统1000被配置成增加选择的候选协同化合物是惰性的概率的实施方式中,系统1000可以检索候选杀虫化合物的此类信息,而不必检索候选协同化合物的此类信息(例如,在其它方面存在对候选协同化合物是惰性的高置信度的情况下)。作为另一个示例,在系统1000被配置成增加选择的候选协同化合物是惰性的概率的实施方式中,系统1000可以检索候选协同化合物的此类信息,以便过滤具有可能导致候选协同化合物是非惰性的化学性质的候选协同化合物(例如,在其它方面不存在对候选协同化合物是惰性的高置信度的情况下),而不必检索候选杀虫组合物的其它化合物的此类信息(例如,在候选杀虫化合物是预先选择的和/或以其它方式不单独进行过滤的情况下)。
96.如上所述,此类排除可以限于化合物的子集,诸如通过基于候选协同化合物而不必是其它化合物的原子组成和/或其它化学性质排除候选杀虫组合物。例如,假设包含重金属原子的化合物排除;因此,可以排除具有包含重金属的候选协同化合物的组合物,但是即使组合物还包含含有重金属原子的候选杀虫化合物,其中候选协同化合物缺乏任何重金属原子的组合物也可能是接受的。
97.在3030处,系统1000任选地确定来自一个或多个数据存储区(例如,数据库570)的一种或多种化合物的可用性。此类数据存储区可以包括库存系统,诸如由用户和/或由商业化学品供应商,诸如sigma-aldrich提供的那些库存系统。系统1000可以查询此类数据存储
区以获取一种或多种化合物的可用性。如果化合物被识别为不可用,和/或如果其可用性小于可用性阈值,则系统1000可以排除包含该化合物的候选杀虫组合物。对于不同的化合物,可用性阈值可以是相同或不同的,并且可以预定和/或由用户提供。
98.在一些实施方案中,在3030处,系统1000另外地或替代地检索描述与一种或多种化合物相关联的每单位资源分配的资源度量。例如,系统1000可以检索资源度量,该资源度量包括合成、运输和/或以其它方式采购一定量的化合物所需的时间量、合成复杂性的量度(例如化合物中的原子的数量,其倾向于通常对应于合成它所需的资源)、采购化合物和/或其组成所需的资金的量,和/或任何其它合适的资源度量。系统1000可以排除包含具有超过资源阈值的相关资源度量的化合物的候选杀虫组合物。资源阈值可以例如预定、由用户提供和/或从另一计算机系统检索。在一些实施方式中,系统1000基于与候选杀虫组合物的化合物相关联的一个或多个资源度量来生成估计的组成资源度量,并且排除相关的估计的组成资源度量超过资源阈值的候选杀虫组合物(其可以与在每化合物基础上应用的资源阈值相同或不同)。系统1000可以基于例如确定候选杀虫组合物的化合物的资源度量的总和和/或最大值来生成候选杀虫组合物的估计的组成资源度量。系统1000可以例如基于从候选杀虫组合物的组成成分制备候选杀虫组合物的过程开销的预定和/或用户提供的估计来缩放、添加或以其它方式增加估计的资源度量。在一些实施方式中,系统1000记录由于超过数据存储区(例如,数据库250和/或570)的资源阈值和/或非可用性排除的候选杀虫组合物。系统1000可以例如向用户显示此类候选杀虫组合物和/或生成所提出的未来测试列表(例如,由资源度量和/或可用性排序)。
99.在3035处,系统1000任选地基于每种候选杀虫组合物的相似性(或相异性)对其它候选杀虫组合物的量度来过滤候选杀虫组合物,例如以将通过方法3000生成的选择的候选杀虫组合物限制为具有类似候选协同化合物的那些候选杀虫组合物。在一个实施方案中,可以使用每种化合物的指纹来执行过滤,例如如本文其它地方所描述的。系统1000可以基于每种候选化合物的指纹(例如,morgan和/或maccs指纹)来编码每种候选化合物。例如,系统1000可以基于每种候选化合物的指纹来编码位图形式的每种候选化合物的分子结构;系统1000可以通过确定比较化合物的位图之间的相似性量度来确定组合物内的不同化合物之间和/或组合物中的化合物与另一种化合物(例如先前排除或由系统1000包括的化合物)之间的相似性量度。可以经由任何合适的相似性技术,诸如通过确定位图之间(和/或化合物的任何其它合适的表示之间)的jaccard指数来确定相似性量度。
100.在执行动作3035时,存在系统1000的若干操作模式。在一些实施方案中,系统1000排除包含具有大于(或在一些实施方案中,小于)阈值的与一种或多种化合物中的任一种化合物的相似性量度的化合物的组合物。在一些实施方案中,系统1000排除包含具有大于(或在一些实施方案中,小于)阈值的与一种或多种化合物中的每种化合物的相似性量度的化合物的组合物。在一些实施方案中,系统1000仅包括包含具有大于(或在一些实施方案中,小于)阈值的与一种或多种化合物中的任一种化合物的相似性量度的化合物的那些组合物。在一些实施方案中,系统1000仅包括包含具有大于(或在一些实施方案中,小于)阈值的与一种或多种化合物中的每种化合物的相似性量度的化合物的那些组合物。阈值可以例如预定、由用户提供和/或从另一计算机系统检索。操作模式可以预定和/或由用户选择。例如,可以将60%的阈值存储在参数存储区中,任选地与“排除《=阈值”选项一起存储。在这
种情况下,动作3035可以包括排除包含使用jaccard指数不满足至少60%相似性测试的化合物的所有候选杀虫组合物。用户可以通过应用适当的设置,使系统1000包括或排除类似或相异的化合物和候选杀虫组合物。
101.在一些实施方案中,系统1000基于每种候选杀虫组合物的化合物的子集的相似性量度来排除候选杀虫组合物。例如,系统1000可以基于候选协同化合物相对于参考协同化合物的相似性量度来排除候选杀虫组合物,而不必确定候选杀虫组合物的其它化合物的相似性量度。参考协同化合物可以由用户提供、预定、从另一计算机系统检索和/或以其它方式获得(例如,由系统1000接收的第一候选协同化合物,同时处理一批候选杀虫组合物可以用作参考协同化合物)。在合适的情况下,将候选协同化合物限制为与特定协同化合物类似的那些候选协同化合物这样可以限制由系统1000选择的不稳定或以其它方式不切实际的化合物的数量,因为具有与已知稳定化合物(例如甲酸)的化学相似性的化合物相对于任意化合物往往是更有可能也是稳定的。
102.在一些实施方案中,系统1000确定多个相似性量度并且基于多个相似性量度包括和/或排除候选杀虫组合物。例如,系统1000可以基于第一指纹,诸如maccs指纹来确定候选协同化合物(例如相对于参考协同化合物)的第一相似性量度。系统1000可以进一步基于第二指纹,诸如morgan指纹来确定候选协同化合物(例如相对于参考协同化合物)的第二相似性量度。如果两个相似性量度高于阈值(例如,50%、60%、70%、80%、90%和/或一些其它合适的阈值,其对于两个指纹可以相同或不同),则系统1000可以例如包括候选杀虫组合物并且以其它方式排除它。
103.在3040处,系统1000任选地基于毒性标准和/或适合性标准来过滤候选化合物。例如,系统1000可以针对候选杀虫组合物的每种化合物获得毒性表示,例如通过从化合物的接收表示、增强表示和/或从数据存储区诸如数据库250和/或570来检索毒性表示。如果候选杀虫组合物的化合物具有满足毒性标准的对应毒性表示,则系统1000可以排除候选杀虫组合物。例如,系统1000可以排除包含具有任何已知毒性的化合物的所有候选杀虫组合物。作为另一个示例,系统1000可以排除包含具有某些毒性类型(例如,由数据集诸如tox21识别的一种或多种毒性)的化合物的候选杀虫组合物。作为另一个示例,系统1000可以排除包含具有至少一定阈值毒性程度的化合物的候选杀虫组合物(例如,对于通过5点比例测量的毒性类型,系统1000可以排除包含具有2度或更大的毒性类型的化合物的候选杀虫组合物,而不必排除具有1度的那些)。作为另一个示例,系统1000可以排除包含针对列表上的生物体具有毒性的化合物的候选杀虫组合物;例如,如果针对人和某些作物的毒性被认为是不期望的,则列表可以包括人和那些作物,但是可以排除其它生物体(例如,害虫,针对害虫,毒性可能是期望的)。
104.在一些实施方案中,动作3040任选地包括基于适合性标准来过滤候选杀虫组合物。例如,系统1000可以从数据存储区(诸如数据库250和/或570)检索已知合适和/或已知不合适的化合物的列表。系统1000可以排除包含被列出为已知不合适的化合物的候选杀虫组合物,和/或可以排除包含未被列出为已知合适的化合物的候选杀虫组合物。例如,系统1000可以查询先前已经被注册为杀虫剂的化合物的epa提供的数据库,并且收集关于先前注册的信息,诸如已知它们针对害虫有效的信息。系统1000可以排除任何候选杀虫组合物,该组合物不包含注册为针对在3015处识别的一种或多种害虫有效的至少一种化合物,和/
或未被注册为作为某种类别的杀虫剂有效(例如,在杀真菌上下文中,仅含有已知作为杀真菌剂有效的化合物的组合物通常可被包括在内)。
105.在3045处,系统1000任选地选择候选杀虫组合物的一个或多个特征并且生成候选杀虫组合物的减少的表示。例如,系统1000可以在3010处生成增强表示,该增强表示包括多个特征,诸如化学性质(例如,经由qsar模型生成),并且可以选择用于生成的某些特征(在这种情况下,3045可以是3010的组成动作)和/或在生成之后去除一个或多个此类特征(在这种情况下,3045可以是组成或独立的动作并且可以在任何合适的时间发生)。
106.已经从数千可用特征中识别为有助于系统1000的至少一些实施方案的准确性识别协同有效的杀虫组合物的特征包括与芳香性、电负性、极性、亲水性/疏水性和杂化有关的特征。在一些实施方案中,特征选自由以下组成的一个或多个组:静电化学特征(并且具体地:化合物的每个原子的电负性、化合物的部分电荷、化合价分子连接性指数(例如,chi指数)、芳香性和局部偶极矩)、拓扑化学特征(并且具体地:原子杂化、图形距离指数(例如,weiner指数)和极性键数)、构象化学特征(并且具体地:单键数量、双键数量、三键数量、芳香族键数量、芳香族环数量、官能团定向、顺式-反式异构体的表示和对映体的表示)以及表面相关和生理化学性质(并且具体地:分配系数的量度(例如log p)、分布系数的量度(例如log d)、极性表面积的量度、分子表面积的量度、不饱和度指数、亲水性指数和总疏水表面积)。
107.例如,在至少一个示例实施方案中,大量特征(例如,在rdkitqsar模型的情况下大约2000)可以经由qsar模型针对候选杀虫组合物的一种或多种组成化合物中的每种组成化合物生成。此类特征可以包括例如化合物的标量性质(例如,磁性性质)、二维矩阵性质(例如,官能团)和/或三维矩阵性质(例如几何/构象性质)。
108.系统1000可以选择预期有助于分类器300的预测的特征。例如,系统1000可以选择与杀虫效率相关的特征,和/或可以去除与杀虫效率具有低(或无)相关性的特征。例如,系统1000可以从增强表示中去除(例如,通过指示qsar模型不生成)特征和/或使qsar模型不生成特征,诸如:化合物中的碘原子的数量的计数、化合物的分子量和/或化合物中的原子的数量的计数。
109.作为另一个示例,系统1000可以选择具有超过阈值的方差的化学特征,和/或可以去除具有低于阈值的方差的特征。(例如,在至少一些实施方案中,可以省略在由系统1000筛选的所有化合物上相同的特征,因为它们将具有0方差。)在一些实施方案中,一个或多个分类特征是二值化的;例如,描述由数量0和1主导的化合物具有的环的数量的特征可以被二值化成描述化合物是否具有环的特征(即,转换特征,使得0映射到false/0并且所有其它值映射到true/1)。在3050处,系统1000基于在3005、3010和/或3015处获得的候选杀虫组合物的表示,并且任选地基于在3020、3030、3035和/或3040处排除的候选杀虫组合物来生成最终候选杀虫组合物集。在一些实施方式中,系统1000异步执行方法3000的动作。系统1000可以在异步和/或其它实施方案中查询用于候选杀虫组合物和/或组成化合物的记录的数据存储区,诸如数据库250,并且确定记录是否准备好由编码器210编码。系统1000可以周期性地执行此类查询。系统1000可以确定记录在方法3000的其它动作中的每个动作(排除实施方案未提供的任选动作)已经对记录的对应候选杀虫组合物执行时已经准备好编码。在一些实施方案中,系统1000从最终候选杀虫组合物集中排除先前已由编码器210编码和/或
已由分类器300生成预测的任何候选杀虫组合物。系统1000可以任选地标记此类候选杀虫组合物的记录以反映此类先前编码和/或预测,并且可以在3050处检索该标记并相应地排除候选杀虫组合物。
110.在一些实施方案中,系统1000过滤用作分类器300的训练模型的训练集的一部分的任何候选杀虫组合物。系统1000可以将先前训练的化合物和/或候选杀虫组合物的列表存储在诸如数据库250的数据存储区中。
111.在动作3050之后,方法3000完成。
112.系统1000可以将在动作3005、3010、3015和/或3050处接收和/或生成的候选杀虫组合物的表示记录到数据存储区,诸如数据库250和/或570。数据存储区可以用于系统1000的其它模块、用户和/或其它计算机系统。在本公开叙述系统1000的其它模块接收信息(在本文中也被叙述为存储到此类数据存储区)的情况下,接收此类信息可以包括从此类数据存储区检索该信息。
113.系统1000可以另外地或替代地将在一个或多个过滤动作3020、3030、3035、3040处排除的候选杀虫组合物记录在数据存储区,诸如数据库250和/或570中。系统1000可以在此类记录中识别候选杀虫组合物和/或特定组成化合物被排除。系统1000可以明确地(例如,通过记录化合物不可用的指示、在排除列表上或一些其它适用原因)和/或隐含地(例如,通过根据排除的原因将组合物和/或化合物记录到不同数据存储区,使得由于不可用而被拒绝的化合物被记录到一个数据存储区,由于排除列表被拒绝的化合物被记录到另一个数据存储区,等等)记录排除的原因。在一些实施方案中,系统1000查询此类数据存储区,并且排除先前在应用过滤动作3020、3030、3035、3040之前、同时和/或之后排除的候选杀虫组合物。
114.编码候选杀虫组合物
115.系统1000在编码器210处编码候选杀虫组合物的表示。图4示出用于编码可以由编码器210和/或任何适当配置的计算机系统执行的候选杀虫组合物的表示的示例方法4000。在4010处,编码器210接收每种候选杀虫组合物的表示,该表示可以包括候选杀虫组合物的化合物的接收表示和/或增强表示、候选杀虫组合物制剂参数、化合物的指纹、化合物的图形表示、原子信息、分子信息(例如原子计数、键类型和键计数)、量子力学信息(例如,电子电荷分布)和/或关于如本文所述的候选杀虫组合物和/或其组成化合物的其它信息。在至少一些实施方案中,编码器210接收在方法3000的动作3050处生成的最终候选杀虫组合物集中的每种候选杀虫组合物的表示。为了描述编码器210,将由编码器210接收的候选杀虫组合物的表示称为原始表示。
116.在4030处,系统1000(例如,在编码器210处)将每个原始表示转换为候选杀虫组合物的编码表示。候选杀虫组合物的编码表示可以包括整体表示(例如,单个本征矢量)或多个表示(例如,候选杀虫组合物的每种化合物的表示)。由编码器210实现的转换可以包括以下中的一者或多者:压缩、特征选择和/或转码以生成候选杀虫组合物的编码表示,这些候选杀虫组合物适于通过分类器300分类。例如,编码器210可以将原子、分子、量子动力学和/或关于候选杀虫组合物(包括例如组成化合物的特征)的其它信息转换为规则结构化编码表示,该规则结构化编码表示编码该信息的至少一部分,同时符合输入到分类器300所需的结构。例如,编码表示的结构可以对应于包括神经网络的分类器300的输入层的结构(例如,
如果分类器300采用具有数值的32变量输入,则编码器可以生成包括数值的32变量编码表示、包括数值的两个16变量编码表示和/或与分类器300所需的输入对准的另一组编码表示)。编码表示任选地比原始表示低维,和/或包括比原始表示提供的特征更少的特征,如下文更详细地描述。
117.在一些实施方案中,编码器210压缩候选杀虫组合物的原始表示。杀虫组合物(包括其组成化合物)的原始表示往往是复杂的和高维的,包括许多数据点。例如,化合物的包括qsar生成的分子信息的增强表示可以提供超过3000个变量——对于至少一些计算机系统来说,极多个变量是难以训练的。编码器210可将此类表示转换为候选杀虫组合物的较低维编码表示。
118.例如,编码器210的至少一个说明性实施方案将具有多于3000个变量的原始表示转换为具有32个变量的编码表示。编码器210可以被配置成将原始表示转换为具有任何数量的变量(例如,10、16、20、25、30、40、50、64、100、128等)的编码表示。此类编码可以是无损和/或有损的。合适的编码器诸如下文所描述的那些可以提供高程度的重建保真度(即,低重建损失),这表示在至少一些实施方案中,较低维表示可以编码存储在原始表示中的所有或几乎所有信息,尽管呈编码形式。
119.在不脱离本发明的范围的情况下,可以使用几种类型的编码器。例如,在至少一些实施方案中,编码器210根据压缩技术诸如lempel-ziv压缩、通过部分匹配的预测、霍夫曼压缩、算术编码、shannon-fano压缩等来压缩原始表示。
120.任选地,在4020处,系统1000(例如,在编码器210处)基于原始表示来执行特征选择。此类特征选择可以是方法3000的动作3045的特征选择的补充或替代。(动作3045可以任选地完全或部分地由编码器210执行。)编码器210可以例如丢弃原始表示的部分并保留原始表示的其它部分以生成仅包括保留部分的较低维编码表示。尽管特征选择是(通常有损)压缩的形式,但是保留部分不一定被压缩或以其它方式编码(尽管编码器210可以任选地编码例如如本文所述的保留部分)。
121.在一些实施方式中,编码器210的特征选择包括基于原始表示来提取一个或多个特征描述符。特征描述符描述了候选杀虫组合物的特征(例如候选杀虫组合物的组成化合物的特征)并且可以包括例如原子信息、分子信息(例如原子计数、键类型和/或键计数)、量子力学信息(例如电子电荷分布)和/或候选杀虫组合物(例如其组成化合物)的其它特征。给定特征描述符可以与一种或多种候选杀虫组合物相关联。多个特征描述符可以彼此相关联,诸如当多个特征描述符与候选杀虫组合物的化合物的指纹(例如图形表示)相关联时。
122.在一些实施方式中,编码器210生成包括特征描述符的显式表示的编码表示。例如,编码器210可以从候选杀虫组合物的化合物的原始表示中提取原子计数并生成包含明确地表示该原子计数的值的编码表示。例如,如果候选杀虫组合物的原始表示指示候选杀虫组合物的第一化合物具有10个原子,则编码器210可以生成包括数字标量值10的编码表示。作为另一个示例,特征描述符可以包括非标量(例如,矢量)值,诸如其中编码器210将编码表示中的化合物的分子结构编码为简化分子线性输入规范(smiles)字符串。在一些实施方式中,编码器210生成包括特征描述符的隐式表示的编码表示,例如经由压缩表示,其可以将特征描述符组合成一个标量值和/或将特征描述符的信息分布在多个标量值上。由包括变分自编码器的编码器部分的编码器210的实施方案生成的潜在空间编码表示是这种隐
式特征选择的示例。
123.由编码器210选择的特征可以通过实施方案而变化。例如,候选杀虫组合物的原子、分子、量子动力学和/或其它特征(例如其组成化合物的特征)可以由不同编码器210和/或由提供不同编码方案的单个编码器210不同地编码。可以由编码器210提供各种编码。系统1000可以使用多于一个编码(如果需要)来生成化合物的编码表示,和/或可以使用不同编码器210和/或由编码器210提供的不同编码来生成不同化合物的编码表示。在一些实施方式中,系统1000提供至少两个编码器-至少第一编码器,其用于转换杀虫化合物的原始表示;以及至少第二编码器,其用于转换协同化合物的原始表示。此类第一编码器和第二编码器可以提供不同的编码(例如,基于编码器的不同经训练的参数和/或通过不同类型的编码器,杀虫化合物和协同化合物可以不同数量的值、不同的选择特征进行编码)。
124.在一些实施方案中,编码器210被配置成编码包含多于两种组成化合物(例如包含多种候选杀虫化合物、多种候选协同化合物和/或一种或多种其它化合物,诸如佐剂、溶剂等)的候选杀虫组合物。例如,编码器210可以基于三种、四种或更多种化合物生成编码表示。在一些实施方案中,编码器210接收化合物的固定数量的表示(例如,编码器210可以被配置成接收三种化合物)并且针对训练数据进行训练,该训练数据包括具有相同数量的化合物的杀虫组合物的表示。在一些实施方案中,根据被编码的候选杀虫组合物的组成化合物的数量,编码器210接收可变数量的化合物。编码器210可以任何适当的方式编码此类组合物;例如,编码器210可以在编码过程中的每一次接收化合物的固定数量(例如,一个、两个或更多个)表示以生成中间编码表示(例如,16、32、64或128变量浮点表示),并且然后可通过经由注意机制、逐点加和和/或任何其它合适的方法组合中间编码表示来生成最终编码表示(例如,与中间编码表示相同的形式)。编码器210可以任选地生成候选协同化合物和候选杀虫化合物的单独的编码表示。
125.在至少一个示例性实施方案中,编码器210接收一组分类器300所需的特征描述符的识别(例如在分类器300包括集成分类器的情况下,其可以包括经训练的分类器310a,

310n所需的特征描述符的识别)并基于该组特征描述符的识别对候选杀虫组合物的原始表示中表示的每种化合物执行特征提取。该组识别可以包括被分类器300接收的多种化合物的识别和/或对于每种化合物,化合物的一组特征描述符,并且编码器210可以基于针对该化合物指定的该组特征描述符来对每种化合物执行特征提取。在一些实施方式中,编码器210将与候选杀虫组合物相关联的混合物比率信息(例如,如由原始表示代表和/或与原始表示相关联)添加到编码表示中。例如,编码器210可以编码化合物的表示,将这些表示添加到编码表示中,并且独立于化合物的编码将混合物比率信息添加到候选杀虫组合物的编码表示中。作为另一个示例,混合物比率信息可以与化合物的表示一起编码,例如通过将此类混合物比率信息并入由编码器210生成的压缩和/或潜在空间表示(下文描述)中。例如,化合物的编码表示可以经由串联、注意机制和/或任何其它合适的组合技术组合(任选地与混合物比率信息一起)。
126.在一些实施方案中,不编码传递到分类器300的一些信息。例如,编码器210可以仅编码候选化合物的原始表示,而其它信息(诸如候选杀虫组合物制剂参数和/或一种或多种害虫的表示)可以在不进行编码的情况下被传递到分类器300。在一些实施方案中,系统1000与化合物原始表示的编码分开编码此类其它信息。
127.在一些实施方案中,编码器210接收化合物的原始表示作为输入并且基于编码器210的一组经训练的参数来转换原始表示。在一些实施方案中,编码器210独立地接收和编码候选杀虫组合物的每种化合物的原始表示,从而生成每种化合物的编码表示。在一些实施方案中,系统1000提供多个编码器210。系统1000可以用第一编码器编码候选杀虫组合物的第一化合物(例如,杀虫活性成分),并且用第二编码器编码候选杀虫组合物的第二化合物(例如,候选协同成分)。第一编码器和第二编码器可以针对相同或不同的训练集进行训练,并且包括相同或不同的结构和/或参数。例如,第一编码器可以针对杀虫活性成分的训练集进行训练,并且第二编码器可以针对协同(和/或拮抗和/或非协同)成分的训练集进行训练。
128.在一些实施方案中,编码器210包括变分自编码器的至少一部分。在至少一个实施方案中,编码器210包括变分自编码器的编码器部分,该编码器部分已与解码器部分一起训练,但在编码期间在没有解码器部分的情况下操作。(解码器部分不一定形成系统1000的一部分。)这种编码器210将输入空间x中的(相对稀疏)原始表示x转换为潜在空间z中的(相对致密)编码表示z,该输入空间的特征在于输入数据,该潜在空间的特征在于先前分布p(z)。特别地,编码器210确定p(z|x)以在给定化合物的潜在空间上生成分布。编码器210可以以任何合适的方式将分布转换为编码表示。在至少一些实施方式中,编码器210例如通过确定分布的平均值(例如,独立地或联合地在潜在变量上)将确定的分布转换为编码表示。这种编码器210可以被认为通过倾向于识别最有助于准确重建的那些特征来提供隐式特征压缩(并且在一些意义上是化合物的“区分”特征)。
129.在一些实施方案中,编码器210包括逆自回归流变分自编码器的编码器。例如,编码器210可以针对化学组合物的任何合适的训练数据集进行训练(如本文其它地方所述),以找到使合适的目标函数最小化的参数。例如,目标函数可以由log p(x)提供(并且例如可以经由取反从其导出损失函数),其在至少一些实施方案中可以通过基于以下的下限来近似:
[0130][0131]
其可以如下形式表示:
[0132]eq
[log p(x|z
t
) log p(z
t
)-log q(z
t
|x)]
[0133]
其中p是逆自回归流变分自编码器针对其训练的真实分布,q是逆自回归流变分自编码器学习的近似分布,z
t
是潜在空间的元素,并且可以在至少一些实施方案中描述为t
th zi,其中对于一些系列的可逆转换fi(
·
),z0~q(z0|x)并且zi=fi(z
i-1
,x),并且x是来自输入空间的元素。
[0134]
此外,在至少一些实施方案中,log q(z
t
|x)和log p(z
t
)可以近似为:
[0135][0136]
[0137]
其中∈是合适的噪声矢量(例如∈~n(0,i))并且σ
t,i
是潜在变量z
t
的第i元素的方差。
[0138]
在一些实施方案中,经由半监督方法训练编码器210,例如以使训练集中的输入表示与由解码器部分生成的重建表示之间的重建损失最小化(基于由编码器210生成的编码表示)。在一些实施方案中,编码器210针对比分类器300更大和/或更一般的数据集进行预先训练和/或训练。例如,分类器300可以针对杀虫组合物(和/或针对此类组合物的子类)进行训练,而编码器210可以针对不限于并且甚至可以不包含杀虫组合物的化学数据集进行训练。在一些实施方案中,编码器210和分类器300一起训练,使得训练涉及更新编码器210和分类器300两者的参数,以通过共享数据使共享目标函数最小化(或最大化,视情况而定)。例如,训练数据可以包括分类器相关子集,并且编码器210和分类器300的组合损失函数可以基于:l
组合
=l
编码器
αl
分类器
,其中如果给定数据在分类器相关子集中,则α=1,否则α=0。在一些实施方案中,分别训练编码器210和分类器300。一起训练编码器210和分类器300的潜在优点在于,相对于单独训练它们,一起训练可以倾向于使编码器210倾向于以更大复杂性的潜在成本和有限的相关训练数据选择与分类器300更相关的特征。
[0139]
在一些实施方案中,编码器210包括神经网络,诸如图卷积神经网络。神经网络可以将化合物的原始表示接收为在输入层处的输入(和/或其一部分,例如编码器210可以接收具有相关性质的化合物的图形表示),并且基于对应于输入层的一组经训练的参数并基于由神经网络提供的激活函数和非线性的形式来转换原始表示,从而生成中间表示。编码器210可以经由一个或多个隐藏层进一步转换中间表示,每个隐藏层具有对应结构(例如,层间输入/输出)、非线性和经训练的参数,并且最后在输出层(具有其自身结构、非线性和经训练的参数形式)处生成编码表示。在至少一些实施方案中,输出层的结构对应于分类器300所需的输入的形式。例如,如果分类器300接收32变量输入,则编码器210可以经由32变量输出层生成32变量编码表示。(中间表示不一定具有并且通常将不具有与输出层相同数量的变量或相同的结构)。
[0140]
在一些实施方案中,分类器300包括编码器210(即,编码和分类功能可由一个模块提供)。例如,在一些实施方案中,分类器300可以包括图卷积神经网络(gcnn),该gcnn接收候选杀虫组合物的一个或多个图形表示(例如,由选择器200生成),并且在初始阶段,通过横穿图形,在它们的节点和/或边缘处积累信息,并且由此确定候选杀虫组合物的中间(即编码)表示,来使那些表示变平。在gcnn操作的稍后阶段,将中间表示进一步转换为适当的输出。
[0141]
例如,系统1000可以向gcnn生成和提供候选杀虫组合物的每种化合物的图形表示。作为另一个示例,系统1000可以向gcnn生成和提供候选杀虫组合物的一个图形表示,该图形表示可以包括表示候选杀虫组合物的每种化合物的无交子图。在一些实施方案中,系统1000可以连接此类无交子图,从而生成表示候选杀虫组合物的至少一部分的连接的图。在至少一个实施方案中,系统1000将氢键合位点之间的边缘(表示键)添加到候选杀虫组合物的组成化合物的图形表示中。系统1000可以表示此类图形表示中的键长度;氢键合位点之间的添加键的表示可以提供不同于单键和双键的长度。例如,键长度可以分类表示,在这种情况下,单键的长度可以是1,双键的长度可以是2,并且添加键的长度可以是3(或在独热编码中,如分别为(1,0,0)、(0,1,0)和(0,0,1))。作为另一个示例,键长度可以连续表示(例
如基于物理长度),在这种情况下,添加键的长度可以表示为比单键更长(即更弱)(例如,对于单键是1,对于双键是0.5,并且对于添加键是2)。在至少一些实验测试中,表示明显与单键的键长度不同的添加键的键长度与本文描述的系统和方法的改进性能相关。
[0142]
系统1000可以将由编码器210生成的候选杀虫组合物的编码表示记录到数据存储区(诸如数据库250和/或570)。编码表示可以与其对应的原始表示(例如,对应的接收表示和/或在方法3000的动作3050处识别的表示)相关联。编码表示还可以或替代地与生成编码表示的编码器(例如编码器210)相关联。此类相关性可以包括例如将对应表示/编码器的标识符记录在编码表示的记录中,和/或将编码表示的标识符记录在相关联的表示/编码器的记录中。数据存储区可以用于系统1000的其它模块(例如,分类器300)、用户和/或其它计算机系统。在本公开叙述系统1000的其它模块接收信息(在本文中也被叙述为存储到此类数据存储区)的情况下,接收此类信息可以包括从此类数据存储区检索该信息。在一些实施方案中,如果编码器210被修改(例如经由通过训练更新其经训练的参数),则系统1000可以通过从数据存储区获得原始表示(和/或例如基于接收表示从选择器200获得此类原始表示)并且将原始表示转换为新编码表示来重新生成与编码器210相关联的编码表示。例如,如果系统1000提供多个编码器,则这可以减少相对于重新编码所有编码器的所有编码表示的重新编码的计算要求。
[0143]
生成候选杀虫组合物的协同作用预测
[0144]
对于每种候选杀虫组合物,分类器300接收由编码器210生成的编码表示,并且基于编码表示并基于一组或多组经训练的参数来生成一个或多个预测。图5示出用于生成候选杀虫组合物抵抗一种或多种害虫的协同功效的预测的可以由分类器300和/或任何适当配置的计算机系统执行的示性方法5000。在5010处,分类器300接收每种候选杀虫组合物的表示,该表示可以包括候选杀虫组合物的接收表示、增强表示和/或编码表示(并且可以包括组合物的组成化合物的此类表示)。在5040处,分类器300将此类表示转换为候选杀虫组合物的组成化合物抵抗一种或多种害虫的协同相互作用的预测。分类器300模拟候选化合物之间的复杂非线性关系,其形成一种或多种害虫上的候选杀虫组合物的化合物之间的协同和/或拮抗相互作用的基础。例如,活性成分可以针对实验室中的特定害虫有效,但是在植物中或现场中的上下文中由于害虫的天然防御不能穿透害虫的细胞膜。两种或更多种化合物(例如一种或多种活性化合物和一种或多种协同化合物)的协同组合允许活性化合物接近害虫的细胞结构,从而使活性化合物有效用于在植物中和在现场中使用。即使由主题预期,但化合物与害虫之间的此类相互作用也不容易预测。
[0145]
分类器300可以包括任何合适的分类器,诸如神经网络、决策树、逻辑回归、支持矢量机、堆叠模型分类器和/或任何其它合适的分类器。在一些实施方案中,包括图1的描绘的实施方案,分类器300包括集成分类器,该集成分类器包括多个经训练的分类器310a...310n(统称和单独为“分类器310”),这些分类器中的每个分类器基于对应的一组经训练的参数320a...320n(统称和单独为“经训练的参数320”)来生成预测。在一些实施方案中,分类器310包括具有多个计算层的深度神经网络(dnn)模型。每个分类器310模拟化合物之间的相互作用,并且还模拟一种或多种化合物与一种或多种害虫的天然防御之间的相互作用。系统1000可以包括任何数量的分类器310。例如,系统1000可以包括8、16、32、64、128个和/或任何其它合适数量(不一定是二的幂)的分类器。
[0146]
例如,分类器300可以包括多个经训练的神经网络分类器(例如,分类器310),该多个经训练的神经网络分类器中的每个经训练的神经网络分类器由对应的一组经训练的参数320参数化(例如,分类器310a可以通过经训练的参数320a参数化,分类器310b可以通过经训练的参数320b参数化等)。不同的分类器310(以及因此不同的经训练的参数320)可以针对不同的害虫和/或不同的化合物进行训练,并且可以由此模拟不同的相互作用。例如,每个分类器310的经训练的参数320可以已经对对应的训练数据集进行训练,该训练数据集包括已经被识别为具有协同和/或拮抗作用的化合物(和任选地一种或多种害虫)的组合物。在方法5000的一些实施方案中,系统1000接收一种或多种害虫的一个或多个表示(在5020处),并且选择针对一种或多种害虫中的至少一种害虫进行训练的分类器310(在5030处),例如如本文其它地方更详细地描述的。然后执行选择的分类器310以在5040处生成预测。
[0147]
图6示出用于训练分类器300的参数的示例方法6000。方法6000可以任选地包括训练编码器210的参数(例如基本上根据方法6000的以下描述通过将编码器210和分类器300一起训练和/或通过训练编码器210)。在一些实施方案中,动作6010基本上对应于动作5010。在一些实施方案中,方法6010包括基于协同相互作用预测(诸如在动作5040和/或动作6020中生成的协同相互作用预测)来选择候选杀虫组合物表示。例如,在一些实施方案中,方法6000包括经由主动学习训练分类器300的参数,其可以包括例如基于针对每种此类候选杀虫组合物表示生成的协同相互作用预测(例如,如在动作5040和/或6020中)来确定多个候选杀虫组合物表示(例如,所有可用的候选杀虫组合物表示、批次内的候选杀虫组合物表示、具有超过阈值的方差的对应协同相互作用预测的候选杀虫组合物表示或任何其它合适的多个候选杀虫组合物表示)中的每个候选杀虫组合物表示的重要性值。在一些实施方案中,基于候选杀虫组合物表示中的一个或多个候选杀虫组合物表示的对应的重要性值在动作6010处选择候选杀虫组合物表示中的一个或多个候选杀虫组合物表示,并且基于选择的候选杀虫组合物表示执行动作6020、6030、6040和6050,从而基于选择的候选杀虫组合物表示更新分类器300的参数。
[0148]
在一些实施方案中,确定多个候选杀虫组合物表示的重要性值包括确定多个候选杀虫组合物表示中的每个候选杀虫组合物表示的信息度量。信息度量可以基于由分类器300针对候选杀虫组合物表示生成的一个或多个协同相互作用预测(例如,如在动作5040和/或6020中)的标准偏差、方差和/或置信区间(并且在一些实施方案中与标准偏差、方差和/或置信区间等同)。在一些实施方案中,诸如其中分类器300包括集成分类器的那些实施方案中,可以参考标准偏差7220、方差和/或置信区间7220,和/或通过任何其它合适的确定如本文其它地方所述地确定方差。在至少一个实施方案中,重要性度量包括确定方差(例如,基于标准偏差7220)。在一些实施方案中,诸如包括基于超平面的分类器300的那些实施方案中,信息度量可以基于候选杀虫组合物表示与最接近的超平面的距离。在一些实施方案中,可以另外地或替代地确定其它合适的重要性量度。
[0149]
在一些实施方案中,选择候选杀虫组合物表示进一步包括基于代表性标准来选择候选杀虫组合物表示。例如,可以基于相似性度量(例如,图形相似性,对于其中候选杀虫组合物表示包括候选分子和/或其它组成取代基的图形表示的至少一些实施方案)来聚类候选杀虫组合物表示,并且可以从多个簇中的每个簇选择一种或多种候选杀虫组合物表示。
在一些实施方案中,针对簇内的候选杀虫组合物表示的仅子集确定信息度量;例如,可以针对每个簇的中心(如由聚类度量定义)处的候选杀虫组合物表示确定信息度量,并且可以基于其信息度量来选择来自多个簇的候选杀虫组合物表示(例如,通过选择具有最高或最低重要性值的n个候选杀虫组合物表示,视情况而定;通过选择具有高于或低于(和/或任选地等于)阈值的重要性度量的候选杀虫组合物表示,视情况而定;和/或通过任何其它合适的选择标准)。
[0150]
合适的代表性标准可以促进选择的候选杀虫组合物表示之间的相异性,并且在合适的情况下可以并且任选地与合适的信息度量组合,使得训练分类器300能够达到具有比随机采样所需的更少标记的候选杀虫组合物表示的模型收敛。获得标记的候选杀虫组合物表示可能是代价大的;例如,它可能涉及执行实验室实验以确认候选杀虫组合物的协同相互作用的人类专家。在合适的情况下,这种主动学习方法可以减少充分训练模型所必需或期望的实验室实验的量。
[0151]
在一些实施方案中,动作6020基本上对应于动作5040。在一些实施方案中,分类器300在动作6020处以与动作5040不同的模式操作,诸如在其中分类器300在动作6020处而不是在动作5040处训练期间生成具有丢失的预测的实施方案中。
[0152]
在6030处,系统1000接收实验结果的表示,该实验结果的表示包括动作6010的候选杀虫组合物抵抗至少一种训练害虫的协同和/或拮抗功效的指示。在一些实施方案中,至少一种训练害虫是分类器300针对其生成预测的一种或多种害虫之一。在一些实施方案中,至少一种训练害虫与一种或多种害虫中的至少一种害虫共享杀虫作用模式。例如,如果分类器300针对其生成预测的一种或多种害虫包括鳞翅目害虫(诸如苹果蠹蛾),则分类器300可以针对实验结果进行训练,该实验结果包括候选杀虫组合物抵抗与此类鳞翅目害虫,诸如相关的鳞翅目害虫(例如,在涉及苹果蠹蛾的较早示例中,此类相关的鳞翅目可以包括棉红铃虫)共享杀虫作用模式的其它害虫的协同和/或拮抗功效的指示。
[0153]
在6040处,系统1000基于在6020处生成的预测和在6030处接收的实验结果的表示,例如基于它们之间的差异来确定目标函数(其可以包括例如损失函数)的值。在6050处,系统1000基于在6040处确定的目标函数值的值例如经由反向传播来更新分类器300的参数。在一些实施方式中,不同的分类器310已经针对公共训练数据集的不同子集进行训练。子集可以重叠或无交。(每个分类器可以进一步针对未对其进行训练的公共训练集的元素进行验证。)可以通过基于数据集的一些排序识别子范围和/或通过任何其它合适的确定标准来伪随机地确定子集。
[0154]
在一些实施方式中,公共训练数据集的子集可以已经基于组合物已经针对其测试协同(和/或拮抗)相互作用的害虫来确定。例如,第一分类器310a可以已经针对训练数据的第一子集进行训练,该第一子集包括具有针对至少第一害虫的已知协同、拮抗或不相互作用的组合物。第二分类器310b可以已经针对训练数据的第二子集进行训练,该第二子集包括具有针对至少第二害虫的已知协同、拮抗或无相互作用的组合物。分类器310a和310b可以已经分别针对第一害虫和第二害虫的相互作用进行训练。例如,分类器310a可以已经被训练以生成针对至少第一害虫的组合物的协同作用的预测,该预测使针对训练数据的第一子集的重建损失(或其它合适的目标函数)最小化,而分类器310b可以已经被训练以生成针对至少第二害虫的组合物的协同作用的预测,该预测使针对训练数据的第二子集的重建损
失(或其它合适的目标函数)最小化。分类器310a在本文中被称为针对第一害虫进行训练,并且分类器310b针对第二害虫进行训练。在一些实施方式中,分类器310针对害虫的类别进行训练,例如第一分类器310a可以已经针对真菌害虫进行训练并且分类器310b可以已经针对细菌害虫进行训练。
[0155]
替代地或另外,公共训练数据集的子集可以基于共同训练数据集中的组合物的化学性质,诸如组成化合物的化学结构来确定。混合物可以基于例如以下分组为子集:其广泛化学类别(例如有机、无机、合成和/或生物)、特定化学官能团(例如具有芳基、烷基、乙基、甲基和/或其它基团)、相似性(例如代表性化合物及其取代基、异构体、与其共享部分的其它化合物和其它结构上相关的化合物)、组合物和/或其组成化合物的物理状态(例如熏剂、喷雾、灰尘等)。例如,第一分类器310a可以已经针对训练数据的第一子集进行训练,该第一子集包括包含有机杀虫活性成分的组合物。第二分类器310b可以已经针对训练数据的第二子集进行训练,该第二子集包括包含无机杀虫活性成分的组合物。分类器310a和310b可以已经分别针对有机和无机杀虫活性成分进行训练。例如,分类器310a可以已经被训练以生成包含有机杀虫活性成分的组合物(例如,抵抗一种或多种害虫)的协同作用的预测,该预测使针对训练数据的第一子集的重建损失(或其它合适的目标函数)最小化,而分类器310b可以已经被训练以生成包含无机杀虫活性成分的组合物(例如,抵抗与第一分类器相同或不同的害虫)的协同作用的预测,该预测使针对训练数据的第二子集的重建损失(或其它合适的目标函数)最小化。在一些实施方式中,分类器310针对害虫的类别进行训练,例如第一分类器310a可以已经针对真菌害虫进行训练并且分类器310b可以已经针对细菌害虫进行训练。
[0156]
系统1000可以在操作期间存储、接收,和/或可操作以检索指示每个分类器310已经针对哪些化合物和/或害虫进行训练的记录。在一些实施方案中,分类器300基于待处理的候选杀虫组合物(例如基于候选杀虫组合物的接收、增强、原始和/或编码表示)来从多个分类器310中选择一个或多个分类器310,并且基于其相关联的参数320并基于候选杀虫组合物的编码表示用选择的分类器310生成预测。例如,如果分类器300预测候选杀虫组合物抵抗瓦螨的协同作用的可能性,并且如果分类器310a和310b已经针对瓦螨进行训练,但分类器310c没有,则分类器300可以用分类器310a和310b(基于参数320a和320b)选择和生成预测,而不必用分类器310c选择或生成预测。作为另一个示例,如果候选杀虫组合物包含活性成分,已经针对该活性成分对分类器310b和310c进行训练(例如包含该化合物和各种协同化合物的组合物),但分类器310a没有,则分类器300可以用分类器310b和310c(基于参数320b和320c)选择和生成预测,而不必用分类器310a选择或生成预测。
[0157]
在一些实施方案中,分类器300从经训练的参数数据库251中选择并检索经训练的参数320。每个分类器310独立地基于对应的经训练的参数320来生成协同(和/或拮抗)相互作用的预测。预测可以包括例如这种协同相互作用的概率(和/或置信区间)、这种协同相互作用的程度和/或描述这种协同相互作用的度量值(例如mic和/或fici值)。分类器310不限于生成预测并且可以生成另外和/或替代输出;例如,分类器310还可以(或替代地)预测候选杀虫组合物(和/或任何组成化合物)的毒性和/或挥发性、害虫对候选杀虫组合物的抗性(例如,基于作为输入接收的害虫基因组数据和/或通过针对害虫抗性训练分类器310)。来自每个分类器310的预测(和/或其它输出)可以被发送到组合器400以进行组合。
[0158]
在一些实施方案中,分类器300(例如,至少一个分类器310)是随机的,并且可以基于一个编码表示来生成批量不同的预测。在一些实施方式中,分类器300基于一个编码表示来生成多于一个预测(例如,在集成分类器的情况下,通过给定分类器310)。例如,系统1000可以在用分类器300推断期间执行丢失,例如通过在推断期间分类器300(例如,至少一个分类器310)的模型的伪随机去活变量。(还可以任选地在训练中执行丢失。)因此,预期每次推断迭代可以生成不同的结果。系统1000可以组合多个此类预测以确定组合预测,并且可以基于多个预测的方差来将置信度分配给组合预测,例如如本文其它地方更详细地描述的。
[0159]
在一些实施方案中,分类器300接收编码表示(例如,来自编码器210),任选地确定要选择的分类器310的数量n,任选地确定针对每个分类器310生成的预测的数量m(n和m如下所述),如果适当的话选择n个分类器310(例如,基于编码表示和/或如上所述),并且基于对应于选择的分类器310的编码表示和经训练的参数320用n个选择的分类器310中的每个分类器生成m个预测。要选择的分类器310的数量n和/或针对每个分类器310生成的预测的数量m可以预定、由用户提供、由系统1000确定(例如基于可用计算资源)和/或以其它方式由分类器300获得。例如,n可以是8、16、32、64、128和/或任何其它合适的数量(不一定是二的幂)。m可以是20、40、100、200、1000和/或任何其它合适的数量(不一定是10的倍数)。在至少一个实施方案中,n为32并且m为100。术语n和m可以在模型中隐含;例如,分类器300可以被配置成用每个分类器310生成一个预测(即n=n和m=1)。分类器300可以基于例如如上所述的编码表示来选择n个经训练的分类器310(并且从经训练的参数数据库251中选择对应的经训练的参数320)。分类器300使用选择的经训练的参数320参数化分类器310并且基于选择的经训练的参数320来生成预测。
[0160]
系统1000可以将由分类器310生成的预测记录到数据存储区,诸如数据库250和/或570。预测可以与其对应编码表示(例如,与对应的接收表示、原始表示和/或编码表示)相关联。预测还可以或替代地与生成预测的分类器300(和/或分类器310)相关联。此类相关性可以包括例如将对应表示/分类器的标识符记录在预测的记录中,和/或将预测的标识符记录在相关联表示/分类器300/310的记录中。数据存储区可以用于系统1000的其它模块(例如组合器400)、用户和/或其它计算机系统。在本公开叙述系统1000的其它模块接收信息(在本文中也被叙述为存储到此类数据存储区)的情况下,接收此类信息可以包括从此类数据存储区检索该信息。在一些实施方案中,如果预测的对应编码表示和/或分类器300(和/或分类器310)被修改(例如经由通过训练更新经训练的参数320),则系统1000可以通过从数据存储区获得对应编码表示(和/或例如从另一模块获得此类编码表示,包括通过在此类其它模块处重新生成它们)并且经由分类器310将编码表示转换为新预测来重新生成预测。这可以减少相对于重新生成所有分类器310和/或所有编码表示的所有预测的重新生成预测的计算要求。
[0161]
组合协同作用预测
[0162]
在至少一些实施方案中,组合器400将由分类器300生成的多个预测组合到最终预测450中。在一些实施方式中,预测450包括候选杀虫组合物的化合物和/或一种或多种害虫之间的协同和/或拮抗相互作用的概率的量度。例如,预测450可以包括平均值和置信区间。在其中分类器300包括多个分类器310的至少一些实施方式中,组合器400基于每个分类器310的预测来生成预测450。
[0163]
图7中示出表征组合器400的操作方法的示例性数据流。组合器400接收多个预测7100并且基于预测7100来生成组合预测7300。在至少描绘的实施方案中,组合器400接收多个预测7100,该多个预测包括由分类器300的每个分类器310生成的多个预测7110(这些被描绘为图7的描绘的数据流中的预测7100的矩阵中的预测7110的行)。在一些实施方式中,每个分类器310可以在m迭代的过程中生成数量m的预测7110。因此,预测7100可以包括针对每次迭代生成的多个预测7120(这些被描绘为图7的描绘的数据流中的预测7100的矩阵中的预测7120的列)。每次迭代的预测7120的数量可以相同,例如对于每次迭代是n,或在迭代之间可以不同,例如在其中分类器310a比另一分类器310b经过更多或更少的迭代生成预测的实施方案中。
[0164]
在一些实施方案中,组合器400基于预测7100来生成多个聚合预测7200,并且基于聚合预测7200来生成组合预测7300。组合器400可以通过例如识别预测7100的多个子集并且基于该子集的预测7100为每个此类子集生成聚合预测来生成聚合预测7200。例如,组合器400可以识别由分类器310生成的每个多个预测7110和/或与作为子集的迭代相关联的每个多个预测7120,并且可以基于对应的多个预测7110和/或7120来生成每个聚合预测7200。组合器400生成聚合预测7200可以包括例如组合器400确定选择的子集中概率的平均值和/或标准偏差(和/或方差)。组合器400生成组合预测7300可以包括确定聚合预测7200的平均值和/或标准偏差。例如,组合器400可以确定每个多个概率7110(和/或7120)的平均值7210和任选地标准偏差(和/或方差)7220以生成每个聚合预测7200。组合器400可以进一步确定平均值7210的平均值以生成组合预测7310的平均值7310。组合器400可以进一步确定平均值7310的标准偏差,例如通过基于标准偏差(和/或方差)7220和/或平均值7210,和/或以任何其它合适的方式直接从预测7100将其确定。组合器400还可以或替代地确定预测450的置信区间7320,例如在其中预测450包括协同(和/或拮抗)相互作用的概率的实施方案中。置信区间450可以以任何合适的方式确定,例如通过不确定性的传播,和/或通过假设组合预测7300的平均值7310正常分布并且通过基于标准偏差(和/或方差)7220确定标准偏差和/或置信区间7320,并且如果适当的话,通过临界值和/或置信度水平(其可以例如预定义、用户提供和/或以其它方式由组合器400获得)。在一些实施方式中,系统1000标记(即,识别用户)低置信度预测(即,预测的置信度低于阈值的候选杀虫组合物)用于实验验证。无论系统1000是否执行此类标记,在一些实施方案中,系统1000被配置成对此类低置信度预测的实验结果重新训练分类器300(经由任何合适的技术)。
[0165]
在一些实施方式中,组合器400可以基于预测7100的无交子集来生成聚合预测7200,例如,如在每个聚合预测7200从不同分类器310的预测7110生成的情况下,如上所述。在一些实施方式中,组合器400基于预测7100的重叠子集来生成预测7100。例如,组合器400可以卷积生成聚合预测,例如通过基于具有1至m(对于一些m<m)的迭代指数的分类器310的预测7110的子集来生成第一聚合预测,并且基于与具有2至m 1的迭代指数相同的分类器310的预测7110生成第二聚合预测。
[0166]
图7示出组合器400的示例性实施方式的数据流。组合器从每个分类器310接收m个预测7100(由对应的经训练的参数320参数化)。预测7100可以表示为n
×
m矩阵,其中m是每个经训练的分类器310执行的迭代次数,每个经训练的分类器产生例如候选化合物和/或害虫之间的协同相互作用的概率的(可能不同的)预测7100。n是系统1000被配置成使用的分
类器310的数量。
[0167]
在至少该示例性实施方式中,组合器400针对每次迭代1...m确定预测7100的平均值和标准偏差(和/或方差)。这在图7中描绘为聚合预测7200的矢量,并且特别描述为平均值7210和标准偏差(和/或方差)7220的矢量。组合器400确定在聚合预测7200上的平均值,并且特别是在平均值7210上的平均值,以生成包括协同(和/或拮抗)相互作用的平均概率的组合平均值7310。组合器400任选地确定组合平均值7310的置信区间7320,例如通过在标准偏差(和/或方差)7220上执行不确定性确定的传播。
[0168]
基于协同作用预测的进一步确定
[0169]
在一些实施方案中,系统1000通过生成如上所述的预测7300并且将预测7300提供为预测450来生成预测450。在一些实施方案(例如,没有组合器400的那些实施方案中的至少一些实施方案)中,系统1000通过将由分类器300生成的一个或多个预测中的至少一个预测(例如,预测7100)提供为预测450来生成预测450。在一些实施方案中,系统1000通过进一步转换预测7100、7200和/或7300中的一个或多个预测来生成预测450。此类进一步转换可以由系统1000的组合器400和/或后处理模块(未示出)执行。在一些实施方案中,系统1000生成多个预测450,每个预测是前述方式中的任一个。例如,系统1000可以通过提供预测7300来生成第一预测450,并且可以基于第一预测450、一个或多个先前生成的其它预测450和/或预测7100、7200和/或7300中的一个或多个预测来生成一个或多个其它预测450。为了方便起见,当讨论系统1000基于第一预测450、一个或多个先前生成的其它预测450和/或预测7100、7200和/或7300中的一个或多个预测来生成预测450时,此类预测(基于其生成预测450)统称和单独称为“原始预测”。
[0170]
系统1000可以以多种方式中的任何方式确定预测450。在一些实施方案中,系统1000基于高于或低于一个或多个阈值的一个或多个原始预测来生成离散化预测(诸如二进制是/否或类别1/2/3/4/5)。例如,系统1000可以接收阈值(例如,来自参数存储区)并将阈值与原始预测进行比较。如果阈值大于(或在一些实施方案中,不小于)原始预测,则系统1000可以生成具有true值的离散化预测,否则系统1000可以生成具有false值的离散化预测。
[0171]
在一些实施方案中,系统1000基于一个或多个原始预测来生成预测450,该预测表示存在于候选杀虫组合物的化合物之间和/或候选杀虫组合物的一种或多种化合物与一种或多种害虫之间的协同(和/或拮抗)相互作用的预测概率。替代地或另外,系统1000基于一个或多个原始预测来生成表示这种协同(和/或拮抗)相互作用的预测程度的预测450。这种预测程度可以包括表征候选杀虫组合物的预测协同行为的连续值(例如浮点)度量。这种预测程度可以包括例如这种度量的量级,即例如由系统1000基于度量的对数确定的协同相互作用(例如log2)。在一些实施方案中,系统1000生成预测450,该预测表示已知协同作用度量的值,该度量诸如分级抑制浓度指数(fici)和/或任何其它合适的度量,诸如由以下公开的那些:greco,w.r.,bravo,g.&parsons,j.c.(199).the search for synergy:a critical review from a response surface perspective.pharmacological reviews 47,331-85。
[0172]
在至少一个示例实施方案中,系统1000生成预测450,该预测表示包括协同作用度量的量级的协同相互作用的预测程度并且基于一个或多个离散化标准来将量级映射到结
果。例如,离散化标准可以包括配置的效应水平bin阈值和对应的结果值(例如,从参数存储区获得)。系统1000可以将获得的效应水平bin阈值与量级的值进行比较,并且由此确定哪个结果值被量级值映射到。例如,下表中示出示例性效应水平bin阈值和对应的结果值。
[0173]
度量下限度量上限结果02无2.014弱4.0199.99强
[0174]
基于上表中描绘的阈值和结果值,如果量级值介于0和2之间,则系统1000将协同相互作用的预测程度映射到无。类似地,如果量级值大于2且小于或等于4,则系统1000将协同相互作用的预测程度映射到“弱”,并且如果量级值大于4,则系统1000将协同相互作用的预测程度映射到“强”。(任选地,顶部界限和底部界限中的一者或两者,即界限0和99.99可以替代地是无界的,使得分别小于2或大于4的任何值将被系统1000映射到bin)。
[0175]
在一些实施方案中,系统1000生成预测450,该预测包括候选杀虫组合物对一种或多种害虫的有效性的预测度量。系统1000可以通过确定提供在体外、在植物中和/或在现场中的有效性的候选杀虫组合物的量(例如预测为必要的最少量)来确定有效性的预测度量。确定杀虫上下文中的有效性可以包括确定预测组合物(例如以给定量)抑制和/或控制害虫群体处于阈值内,示例阈值包括在实验室条件下实现臭虫群体的至少90%死亡率。(可以使用不同的阈值,诸如80%、95%或甚至100%。)系统1000可以进一步组合具有每单位资源分配(诸如每单位成本)的候选杀虫组合物的量(例如,如上所述,诸如通过乘法),以确定候选杀虫组合物的功效度量的预测成本。
[0176]
系统1000可以输出针对其生成预测450的候选杀虫组合物的表示,该候选杀虫组合物的表示可以包括本文其它地方描述的候选杀虫组合物的表示中的任一个表示,并且任选地还包括预测450、7100、7200和/或7300中的任一个预测,和/或与候选杀虫组合物有关的其它信息(统称和单独称为“输出表示”)。系统1000可以例如基于预测450、7100、7200、7300中的任一个预测和/或与候选杀虫组合物有关的其它信息来过滤、排序或以其它方式修改候选杀虫组合物的输出表示。
[0177]
例如,系统1000可以基于上述功效度量的成本来过滤和/或排序候选杀虫组合物。系统1000可以基于候选杀虫组合物的对应的有效性的预测度量来识别具有最低功效度量成本的候选杀虫组合物、具有n个最低功效度量成本的一组n个候选杀虫组合物(对于一些值n,其可以预定、由用户提供和/或以其它方式获得)、具有小于(或大于)阈值的功效度量成本的一组候选杀虫组合物,和/或另一组一种或多种候选杀虫组合物。
[0178]
作为另一个示例,系统1000可以基于预测450的协同(和/或拮抗)相互作用的预测概率和/或程度来过滤和/或排序候选杀虫组合物。例如,系统1000可以确定给定候选杀虫组合物的此类相互作用的概率(和/或程度)小于(或大于、不小于或不大于)阈值并且可以从输出表示中去除候选杀虫组合物和相关信息。系统1000可以替代地或另外地通过此类概率(例如,从最高概率到最低概率)和/或程度对输出表示的候选杀虫组合物进行排序。因此,输出表示可以例如限于预测足够可能表现出协同作用(和/或预测表现出足够程度的协同作用)的候选杀虫组合物以保证进一步测试。(这里的足够性可以由阈值限定,该阈值可以预定、由用户提供和/或以其它方式获得。)
[0179]
作为说明性示例,系统1000可以去除候选杀虫组合物,对于该候选杀虫组合物,对应的预测450指示<20%的协同(和/或拮抗)相互作用的概率。系统1000可以将剩余的候选杀虫组合物从最高概率排序到最低概率。替代地或另外,系统1000可以对候选杀虫组合物进行排序,对于该候选杀虫组合物,对应的预测450指示更高于其它候选杀虫组合物的>80%的协同(和/或拮抗)相互作用的概率。它对那些具有大约>80%的协同结果概率的结果进行更高的排序。
[0180]
在一些实施方案中,系统1000通过将预测450与实验室和/或现场测试的结果进行比较并且基于此类比较更新参数320来重新训练参数320(例如,经由主动学习、在线学习和/或任何其它合适的技术)。例如,系统1000可以基于预测450与测试结果之间的差异来更新参数320以使目标函数最小化(或最大化,视情况而定)。例如,系统1000可以基于测试结果在目标函数上执行梯度下降。
[0181]
计算机系统
[0182]
图8示出提供系统1000的示例性计算机系统。每个示例性计算机500包括一个或多个处理器510a,

,510n(统称和单独称为处理器510),诸如通用cpu和/或特殊处理器,诸如fpga或gpu,该一个或多个处理器可操作地连接到永久性存储器530和/或瞬时存储器540,这些存储器存储由系统1000处理的信息并且可以存储可由处理器510执行的用于执行本文所述的方法的可执行指令(在本文中统称为“程序”)(例如执行与系统1000的类似元件相关联的动作的程序8200、8210、8300、8400,附图标记增量为8000)。下面更详细地描述程序。在一些情况下,诸如fpga,程序包括用于为特定目的调整处理器510的配置信息。一个或多个处理器510可以可操作地连接到网络和通信接口550,该网络和通信接口适合于部署配置。存储在计算机500的永久性存储器530中可以是用于存储信息的一个或多个数据库250,该信息由服务器收集和/或计算并且由处理器510在程序(例如8200、8210、8300、8400)的控制下读取、处理和写入。计算机500还可以或替代地经由网络和通信接口550可操作地连接到外部数据库570。
[0183]
永久性存储器530可以包括磁盘、prom、eeprom、闪存和类似的技术,其特征在于其在计算机500的开/关功率循环之间保留其内容的能力。一些永久性存储器530可以采取用于计算机500的文件系统的形式,并且可以用于存储控制和操作程序以及限定计算机500操作的方式的信息,包括背景和前景过程以及周期性执行的过程的调度。在不脱离本公开的范围的情况下,还可以或替代地使用网络附接存储装置(nas)(可以通过网络接口访问的存储装置)形式的永久性存储器530。瞬时存储器540可以包括随机存取存储器(ram)和类似的技术,其特征在于存储的内容未保留在系统的开/关功率循环之间。
[0184]
一个或多个数据库250、570可以包括本地文件存储装置,其中文件系统包括数据存储和索引方案、关系数据库、面向对象数据库、对象关系数据库、nosql数据库和/或其它数据库结构,诸如索引记录结构。此类数据库250和/或570可以存储在单个永久性存储器530内,可以存储在一个或多个永久性存储器530上,和/或可以存储在不同计算机上的永久性存储器530中。
[0185]
为清楚起见,用多个逻辑数据库说明系统1000。系统1000可以使用在一个或多个计算机500上和/或在虚拟化计算机系统上实现的一个或多个物理数据库来部署,和/或可以使用聚类技术来实现(例如,使得存储在数据库中的数据的至少一部分物理地存储在两
个或更多个计算机500上)。在一些实施方式中,一个或多个逻辑和/或物理数据库可以在远程设备上实现,并且通过通信网络访问。
[0186]
系统1000进一步包括如上所述的若干程序(例如,上述模块可以由一个或多个计算机500的程序提供)。
[0187]
杀虫组合物的预测和制剂的实验评估及其用途
[0188]
一旦确定预测450,就可以以任何期望的方式使用该预测的结果。例如,在图9中示出的一个示例方法9000中,可以针对测试环境中,例如在体内或在植物中的一种或多种害虫评估预测450,通过在9010处配制含有候选杀虫组合物的组合物(例如,通过组合杀虫化合物、协同化合物和任何期望的制剂组分诸如溶剂、载体、佐剂、稳定剂等)并在9020处将一种或多种害虫暴露于组合物来进行。在9030处,确定组合物作为杀虫剂的功效(例如通过评估害虫的死亡率百分比和/或通过评估达到峰值死亡率所花费的时间来评估组合物在控制或杀死一种或多种害虫中的功效)。
[0189]
作为另一个示例,在图10中示出的方法9100中,预测450可以用于配制杀虫组合物。在9110处,确定预测450是否满足或超过协同相互作用的预定的概率水平,例如以确定是否存在含有杀虫化合物和协同化合物的候选杀虫组合物抵抗一种或多种害虫表现出协同相互作用的高概率。如果预测450满足或超过协同相互作用的预定的概率水平,则在9120处配制含有杀虫化合物和协同化合物以及任何期望的制剂组分,诸如溶剂、载体、佐剂、稳定剂等的杀虫组合物。
[0190]
作为另一个示例,在图11中示出的方法9200中,预测450可用于制造杀虫组合物。在9210处,确定多种杀虫化合物与多种协同化合物之间的协同相互作用的多个预测450。每个预测450对应于所提出的含有至少一种杀虫化合物和至少一种协同化合物的候选杀虫组合物。在9220处,评估多个预测并且基于预测450的期望特征来选择一种所提出的候选杀虫组合物。例如,可以在9220处选择具有满足或超过协同相互作用的预定的概率水平的预测450的所提出的候选杀虫组合物。或者,可以在9220处选择具有高于其它所提出的候选杀虫组合物的其它预测450中的至少一些预测的预测450的所提出的候选杀虫组合物。在步骤9230处,例如通过将组成候选杀虫组合物的杀虫化合物和协同化合物与任何期望的制剂组分(诸如溶剂、载体、佐剂、稳定剂等)混合来生成在9220处选择的候选杀虫组合物。
[0191]
作为另一个示例,在图12中示出的方法9300中,预测450可以用于处理影响非靶生物体的一种或多种害虫。在9310处,确定预测450是否满足或超过协同相互作用的预定的概率水平,例如以确定是否存在含有杀虫化合物和协同化合物的候选杀虫组合物抵抗一种或多种害虫表现出协同相互作用的高概率。如果预测450满足或超过协同相互作用的预定的概率水平,则在9320处,可以将非靶生物体暴露于含有候选杀虫组合物的杀虫组合物。这将导致将影响非靶生物体的一种或多种害虫暴露于杀虫组合物,以改善或消除一种或多种害虫可能对非靶生物体具有的不利作用。
[0192]
作为另一个示例,在图13中示出的方法9400中,预测450可以用于处理影响非靶生物体的一种或多种害虫。在9410处,确定多种杀虫化合物与多种协同化合物之间的协同相互作用的多个预测450。每个预测450对应于所提出的含有至少一种杀虫化合物和至少一种协同化合物的候选杀虫组合物。在9420处,评估多个预测并且基于预测450的期望特征来选择一种所提出的候选杀虫组合物。例如,可以在9420处选择具有满足或超过协同相互作用
的预定的概率水平的预测450的所提出的候选杀虫组合物。或者,可以在9420处选择具有高于其它所提出的候选杀虫组合物的其它预测450中的至少一些预测的预测450的所提出的候选杀虫组合物。在步骤9430处,将非靶生物体暴露于含有在9420处选择的候选杀虫组合物的杀虫组合物。这将导致将影响非靶生物体的一种或多种害虫暴露于杀虫组合物,以改善或消除一种或多种害虫可能对非靶生物体具有的不利作用。
[0193]
示例结果
[0194]
系统1000的实施方式用于生成一组候选杀虫组合物中的化合物对之间的协同相互作用的存在的概率的预测。对于每个预测,系统1000接收杀虫活性化合物和潜在协同化合物的表示。这些化合物表示被接收为smiles字符串并且经由qsar增强以生成特征矢量。(在一些测试中,增强表示包括化合物的图形表示。)通过系统1000的这种实施方式鉴于考虑选择的特征包括芳香性、电负性、极性、亲水性/疏水性和杂化。系统1000包括三个分类器310,每个分类器对杀虫组合物在针对不同害虫应用时的协同功效进行训练;在推断时间未向分类器310提供害虫信息。编码器对一般化学数据集,即tox21进行训练。此实施方式没有接收关于混合物比率的信息。
[0195]
进行包括对于每个预测用候选杀虫组合物(包含杀虫化合物和潜在协同化合物)处理的害虫的体外测试的实验室实验,以评估由系统1000的特定测试实施方式生成的预测的准确性。准确性通过确定每种候选杀虫组合物相对于不具有潜在协同化合物的杀虫化合物抵抗对应害虫观察到的最小抑制浓度(mic)的变化来评估。(特定测试实施方式包括根据图3的示例性实施方案操作的集成分类器300和组合器400。)
[0196]
测试涵盖六种杀虫活性化合物和三种真菌害虫。杀虫化合物中的每种杀虫化合物选自已知具有抵抗三种害虫中的至少一种害虫的杀虫作用的类别。它们在下文中被识别为化合物a-f,并且害虫在下文中被识别为害虫a-c。
[0197]
潜在协同化合物选自由以下组成的组:c4-c10不饱和脂肪酸:10-羟基癸酸、12-羟基十二烷酸、2,2-二乙基丁酸、2-氨基丁酸、2-氨基己酸、2-乙基己酸、2-羟基丁酸、2-羟基辛酸、2-甲基癸酸、2-甲基辛酸、3-氨基丁酸、3-癸烯酸、3-庚烯酸、3-羟基丁酸、3-羟基己酸、3-羟基辛酸、3-甲基丁酸、3-甲基壬酸、3-壬烯酸、3-辛烯酸、4-己烯酸、4-甲基己酸、5-己烯酸、7-辛烯酸、8-羟基辛酸、9-癸烯酸、癸酸、十二烷酸、庚酸、壬酸、辛酸、油酸、山梨酸、反式-2-壬烯酸、反式-2-辛烯酸、反式-2-十一碳烯酸、反式-3-己烯酸。
[0198]
系统1000的测试实施方式生成每种候选杀虫组合物的化合物之间抵抗每种选择的害虫的协同相互作用的存在的概率的预测。如上所述,对系统1000的预测进行离散化,使得将小于或等于0.5(即50%)的概率映射到0(指示没有预测的协同作用),并且将大于0.5的概率映射到1(指示预测的协同作用)。在表1中在“预测”列下呈现二值化结果。在表1中,预测列的值是系统1000的离散化预测。“观察”列的值是在上述实验室实验中观察到的结果,表示为协同作用程度(在这种情况下,逆fici)。例如,值4表示观察到的fici值是1/4。大于1的值是协同的。
[0199]
表1:对选择的害虫生物体的成对协同作用预测测试的结果。
[0200]
[0201]
[0202]
[0203]
[0204]
[0205]
[0206]
[0207]
[0208]
[0209]
[0210]
[0211]
[0212]
[0213]
[0214]
[0215]
[0216]
[0217]
[0218]
[0219][0220]
总体而言,这些测试的结果表明,在至少一些情况下,本文所描述的系统和方法在预测准确性上与经历过的人类化学家相当。
[0221]
结论
[0222]
虽然上文已经讨论许多示例性方面和实施方案,但是本领域技术人员将认识到其某些修改、排列、添加和子组合。因此,旨在将以下所附权利要求书和下文引入的权利要求书解释为包括在其真实实质和范围内的所有此类修改、排列、添加和子组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献