一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

骨架变换模板数据库的建立方法、分子生成方法及装置与流程

2022-11-13 14:23:19 来源:中国专利 TAG:


1.本技术涉及骨架变换技术领域,尤其涉及一种骨架变换模板数据库的建立方法、分子生成方法及装置。


背景技术:

2.骨架变换是指通过计算机辅助搜索到具有不同骨架的活性化合物的方法,是药物化学研究的热门话题。例如,目前的骨架变换方法有基于药效团搜索的骨架变换,基于分子形状搜索的骨架变换,基于化学指纹相似度搜索的骨架变换,基于蛋白结构的分子相似度搜索的骨架变换,以及基于机器学习算法的骨架变换等。利用骨架变换,可以发现新的具有理想活性的分子,有助于将一个复杂的天然产物结构改成一个比较容易合成的片段,或者提高药理性质等。
3.虽然通过骨架变换可以生成大量结构新颖的分子,然而,新的分子的结构合成难度较高,成药性差,导致投入很多的计算资源,但最终符合先导化合物优化要求的分子的数量少。


技术实现要素:

4.为解决或部分解决相关技术中存在的问题,本技术提供一种骨架变换模板数据库的建立方法、分子生成方法及装置,能够有助于获得更易合成及具有潜在成药性的新分子。
5.本技术第一方面提供一种骨架变换模板数据库建立方法,其包括:
6.获取样本先导化合物的骨架变换分子;根据样本先导化合物及骨架变换分子,获取由任意两个不同分子组成的反应组合,其中,所述反应组合包括反应物和产物;分别获取各个所述反应组合对应的化学反应模板,其中,所述化学反应模板包括反应物结构片段和对应的产物结构片段;利用各所述化学反应模板,建立骨架变换模板数据库。
7.在骨架变换模板数据库建立方法中,所述根据样本先导化合物及骨架变换分子,获取由任意两个不同分子组成的反应组合,包括:
8.分别将同一样本先导化合物和对应的各骨架变换分子采用smiles字符串进行表示,生成对应的字符串数据集;分别将同一字符串数据集中的每两个分子按照预设格式进行关联,形成对应的反应组合,并获得反应组合数据集。
9.在骨架变换模板数据库建立方法中,所述分别获取各个所述反应组合对应的化学反应模板,包括:
10.在对应的所述反应组合中,分别将反应物的原子与产物的原子进行映射和编号,获得反应物和产物的映射编号数据集;根据所述映射编号数据集,确定所述反应物中化学环境发生变化的原子;以所述反应物中的化学环境发生变化的原子为反应中心,将所述反应中心以及距离所述反应中心在预设半径的结构作为反应物结构片段,并获得在产物中对应的产物结构片段;根据所述反应物结构片段和所述产物结构片段,生成对应的化学反应模板。
11.在骨架变换模板数据库建立方法中,所述将所述反应中心以及距离所述反应中心在预设半径内的结构作为反应物结构片段,包括:若所述反应中心和/或距离所述反应中心在预设半径内的结构中包含位于第一目标基团的原子,则将所述反应中心、距离所述反应中心在预设半径内的结构以及所述第一目标基团作为反应物结构片段。
12.在骨架变换模板数据库建立方法中,所述根据所述反应物结构片段和所述产物结构片段,生成对应的化学反应模板,包括:
13.将所述反应物结构片段中的所述第一目标基团替换为第一预设基团,得到新的反应物结构片段;利用所述新的反应物结构片段和所述产物结构片段,生成对应的化学反应模板。
14.在骨架变换模板数据库建立方法中,所述方法还包括:若所述产物结构片段中包含第二目标基团,将所述第二目标基团替换为第二预设基团,得到新的产物结构片段;
15.所述利用所述新的反应物结构片段和所述产物结构片段,生成对应的化学反应模板,包括:利用所述新的反应物结构片段和所述新的产物结构片段,生成对应的化学反应模板。
16.在骨架变换模板数据库建立方法中,所述根据所述反应物结构片段和所述产物结构片段,生成对应的化学反应模板,包括:
17.若所述产物结构片段中包含第二目标基团,将所述第二目标基团替换为第二预设基团,得到新的产物结构片段;利用所述反应物结构片段和所述新的产物结构片段,生成对应的化学反应模板。
18.本技术第二方面提供一种骨架变换模板数据库,其根据上述任一实施方式所述骨架变换模板数据库的建立方法构建获得。
19.本技术第三方面提供一种分子生成方法,其包括:
20.获取待优化的目标分子;根据上述骨架变换模板数据库,获取与所述目标分子匹配的化学反应模板;分别根据匹配的各所述化学反应模板,将所述目标分子生成对应的优化分子。
21.在上述分子生成方法中,所述根据骨架变换模板数据库,获取与所述目标分子匹配的化学反应模板,包括:将所述目标分子与所述骨架变换模板数据库中的各反应物结构片段进行匹配,确定所述目标分子中对应的待替换的子结构片段和对应的化学反应模板。
22.在上述分子生成方法中,所述分别根据各所述化学反应模板,将所述目标分子生成对应的优化分子,包括:根据对应的化学反应模板,将所述目标分子中的子结构片段替换为对应的产物结构片段,生成对应的优化分子。
23.本技术第四方面提供一种骨架变换模板数据库的建立装置,其包括:
24.第一获取模块,用于获取样本先导化合物的骨架变换分子;
25.组合生成模块,用于根据样本先导化合物及骨架变换分子,获取由任意两个不同分子组成的反应组合,其中,所述反应组合包括反应物和产物;
26.模板生成模块,用于分别获取各个所述反应组合对应的化学反应模板,其中,所述化学反应模板包括反应物结构片段和对应的产物结构片段;
27.数据库构建模块,用于利用各所述化学反应模板,建立骨架变换模板数据库。
28.本技术第五方面提供一种分子生成装置,其包括:
29.第二获取模块,用于获取待优化的目标分子;
30.处理模块,用于根据上述骨架变换模板数据库,获取与所述目标分子匹配的化学反应模板;
31.分子生成模块,用于分别根据匹配的各所述化学反应模板,将所述目标分子生成对应的优化分子。
32.本技术第六方面提供一种电子设备,包括:
33.处理器;以及
34.存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的骨架变换模板数据库的建立方法或分子生成方法。
35.本技术第七方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的骨架变换模板数据库的建立方法或分子生成方法。
36.本技术提供的技术方案可以包括以下有益效果:
37.通过获取样本先导化合物以及样本先导化合物的骨架变换分子,并通过两两排列组合获得多个反应组合,在已知的分子结构上获取化学反应模板以组成模板数据库,基于经验获得的化学反应模板可以提高优化后的新分子的可靠性,有利于提高获得有活性、易合成的、成药性高的分子的成功率。
38.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
39.通过结合附图对本技术示例性实施方式进行更详细地描述,本技术的上述以及其他目的、特征和优势将变得更加明显,其中,在本技术示例性实施方式中,相同的参考标号通常代表相同部件。
40.图1是本技术示出的骨架变换模板数据库的建立方法的流程示意图;
41.图2是本技术示出的骨架变换模板数据库的建立方法的另一流程示意图;
42.图3是本技术示例的样本先导化合物及其骨架变换分子的分子结构图;
43.图4是根据图3中的其中一个反应组合的具有映射编号的分子结构图;
44.图5是图4中的反应组合提取的化学反应模板;
45.图6是本技术示出的分子生成方法的流程示意图;
46.图7是本技术示例的目标分子的分子结构图;
47.图8是图7中的目标分子进行骨架变换后的多个优化分子;
48.图9是本技术示出的骨架变换模板数据库的建立装置的结构示意图;
49.图10是本技术示出的骨架变换模板数据库的建立装置的另一结构示意图;
50.图11是本技术示出的分子生成装置的结构示意图;
51.图12是本技术示出的电子设备的结构示意图。
具体实施方式
52.下面将参照附图更详细地描述本技术的实施方式。虽然附图中显示了本技术的实
施方式,然而应该理解,可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
53.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
54.应当理解,尽管在本技术可能采用术语“第一”、“第三”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第三信息,类似地,第三信息也可以被称为第一信息。由此,限定有“第一”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
55.相关技术中,目前的骨架变换方法虽然可以生成大量结构新颖的分子,但是新的分子的结构合成难度较高,成药性差。
56.针对上述问题,本技术提供一种骨架变换模板数据库的建立方法、分子生成方法及装置,能够生成更容易合成及具有潜在成药性的新分子。
57.以下结合附图详细描述本技术的技术方案。
58.图1是本技术示出的骨架变换模板数据库的建立方法的流程示意图。
59.参见图1,本技术示出的一种骨架变换模板数据库的建立方法,其包括:
60.s110,获取样本先导化合物的骨架变换分子。
61.其中,可以从已知来源,例如从公开的各类文献中收集获取先导化合物的骨架变换案例,将这些已知的先导化合物和对应的已知具有活性的骨架变换分子作为样本数据。也就是说,这些骨架变换分子是基于对应的先导化合物的至少部分结构片段作出优化而来,骨架变换分子的活性相比对应的样本先导化合物的活性更好或者相近,具有较好的参考性。
62.s120,根据样本先导化合物及骨架变换分子,获取由任意两个不同分子组成的反应组合,其中,反应组合包括反应物和产物。
63.当样本先导化合物的数量为一个以上时,每一个样本先导化合物分别具有各自的骨架变换分子。基于此,针对单个样本先导化合物,在样本先导化合物和对应的骨架变换分子中,任意选择其中的两个不同的分子组成一个反应组合。可以理解,单个反应组合中仅有一个反应物和对应的一个产物,反应物和产物互不相同,且均选自于样本先导化合物及骨架变换分子之中。
64.可选地,为了多维度地获取更丰富的反应规则,将样本先导化合物和对应的骨架变换分子全部进行有顺序地两两配对,形成对应的反应组合。例如,假设样本先导化合物a具有两个骨架变换分子b和c,按照预设格式两两进行配对组合,可以获得6个反应组合,按照一种预设格式进行表示,包括a》》b、b》》a、a》》c、c》》a、b》》c及c》》b。其中,反应组合“a》》b”中的a为反应物,b为对应的产物,表示由a生成(或转换成)b。可选地,预设格式还可以是其他格式,例如a-b、a

b、a to b、a*b等,于此不作限制,通过设置便于计算机读取的预设格
式,以用于明确表示每个反应组合中的反应物和产物。
65.s130,分别获取各个反应组合对应的化学反应模板,其中,化学反应模板包括反应物结构片段和对应的产物结构片段。
66.针对每个反应组合,可以在反应物生成产物的反应式中,提取反应物中的化学环境发生变换的结构片段作为反应物结构片段,并从产物中提取与反应物结构片段对应的产物结构片段,从而获得由反应物结构片段和对应的产物结构片段组成的化学反应模板。
67.可选地,针对同一反应组合,反应物中发生化学环境变化的结构片段可能在一个以上。对于在结构上不连续的结构片段,可以分别获取各自对应的产物结构片段,从而生成各自独立的化学反应模板,即同一反应组合中对应生成的化学反应模板的数量可以是一个以上。
68.s140,利用各化学反应模板,建立骨架变换模板数据库。
69.通过将上述步骤获得的各化学反应模板可以直接进行存储,也可以进行处理,例如转换统一的格式、数据压缩、加密等,再将处理后的各化学反应模板集中存储,获得对应的骨架变换模板数据库。可以理解,骨架变换模板数据库可以根据新增的化学反应模板进行更新。根据骨架变换模板数据库中的化学反应模板,可用于对各目标分子进行骨架替换的预测,即将目标分子中的结构片段根据匹配的化学反应模板变换为对应的产物结构片段,从而获得新的分子。这样的设计,基于可靠的样本数据来源所生成的化学反应模板,使得生成的新分子更有潜力,更容易合成,提高这些新分子作为先导化合物的可能性,从而具有更可靠的成药性,提高研发效率,节约研发费用。
70.从该示例可知,本技术的骨架变换模板数据库的建立方法,通过获取样本先导化合物以及样本先导化合物的骨架变换分子,并通过两两排列组合获得多个反应组合,在已知的分子结构上获取化学反应模板以组成模板数据库,基于经验获得的化学反应模板可以提高优化后的新分子的可靠性,有利于提高获得有活性、易合成的、成药性高的分子的成功率。
71.图2是本技术示出的骨架变换模板数据库的建立方法的流程示意图。
72.参见图2,本技术示出的一种骨架变换模板数据库的建立方法,其包括:
73.s210,获取样本先导化合物及对应的骨架变换分子。
74.本步骤可参考步骤s110的相关描述,从各类渠道获取已知的先导化合物及对应的骨架变换分子。通过已知可靠的样本数据,有利于提高模板数据库的可参考性。
75.s220,对样本先导化合物及骨架变换分子全部进行两两配对,获得多个具有预设格式的反应组合,其中,每个反应组合包括反应物和产物。
76.可以理解,不同来源获取的样本先导化合物及骨架变换分子具有不同的格式。为了便于后续步骤提取化学反应模板,在一实施方式中,分别将同一样本先导化合物和对应的各骨架变换分子采用smiles字符串进行表示,生成对应的字符串数据集;分别将同一字符串数据集中的每两个分子按照预设格式进行关联,形成对应的反应组合,并获得反应组合数据集。
77.具体地,在从已知文献中获得样本先导化合物和对应的骨架替换分子后,可以将样本先导化合物及其对应的骨架变换分子分别转换为smiles字符串进行表示,以便形成统一的格式。进一步地,可以将同一个样本先导化合物及其对应的骨架变换分子的smiles字
符串形成对应的字符串数据集。可选地,将单个字符串数据集或多个字符串数据集在同一个文件进行存储,形成对应的文本数据集。例如可以采用csv文件格式进行存储,减少占用存储空间,存储格式于此仅举例说明。
78.如图3所示,针对从公开文献中获得样本先导化合物a(乌帕替尼(upadacitinib))及其活性较好的3个骨架变换分子b、c和d,可以分别转换为smiles字符串,例如smiles a、smiles b、smiles c、smiles d,再将这四个smiles字符串通过分隔符例如“.”进行表示,例如形成“smilesa.smilesb.smilesc.smilesd”的字符串数据集。可选地,可以将多个字符串数据集存储于同一个csv文件中,或分别存储于各自的csv文件中,于此仅举例说明。
79.进一步地,将同一个字符串数据集中的每两个分子全部进行有顺序地两两配对。为了提高处理效率,可以通过python读取csv文件中的每个字符串数据集。具体地,例如在上述字符串数据集中,以“.”为分隔符,将对应的字符串数据集放到列表中,通过for循环,对列表中的4个smiles字符串进行两两组合,分别用例如“》》”或“《《”等字符进行关联,即可获得12个具有统一预设格式的反应组合,各反应组合形成对应的反应组合数据集,例如a》》b、b》》a、a》》c、c》》a、a》》d、d》》a、b》》c、c》》b、b》》d、d》》b、c》》d、d》》c。当然,预设格式于此仅举例说明,不作限制。可选地,可以将同一样本先导化合物的反应组合存储在另一csv文件中,以区别于上述字符串数据集的csv文件。
80.s230,在对应的反应组合中,分别将反应物的原子与产物的原子进行映射和编号,获得映射编号数据集。
81.本步骤中,为了便于后续步骤确认反应物中的化学环境发生变化的原子,可以根据相关技术对反应物和产物的各原子进行映射和编号。例如,可以根据atom mapping算法、python rxn mapper算法等相关算法进行原子映射,通过将反应物和产物进行匹配,使相同位置的重原子可以相互映射并具有相同的编号,否则反之。
82.具体地,例如,通过python读取步骤s220生成的反应组合数据集的csv文件。例如,通过python调用rxnmapper中的get_attention_guided_atom_maps方法,或者调用java的reaction decoder tool api对smiles中的原子进行映射,生成带有映射编号的数据集。
83.如图4所示,即为根据图3中的分子组成的一组反应组合“b》》d”通过atom mapping算法得到的有mapping编号的分子图。其中,反应物(即骨架变换分子b)和产物(即骨架变换分子d)的各重原子均具有对应的映射编号。
84.s240,根据映射编号数据集,确定反应物中化学环境发生变化的原子;以反应物中的化学环境发生变化的原子为反应中心,将反应中心以及距离反应中心在预设半径内的结构作为反应物结构片段,并获得在产物中对应的产物结构片段;根据反应物结构片段和产物结构片段,生成对应的化学反应模板。
85.其中,根据映射编号数据集,即可通过相关技术例如rdkit中的相关方法,识别出反应物中的化学环境发生变化的原子。以反应物中发生化学环境变化的原子作为反应中心,并将反应中心和距离反应中心预设半径内的原子,作为反应物中参与反应的结构片段,即反应物结构片段。或者,当预设半径内有原子位于重要基团内时,可以将该原子所属基团一并纳入反应物结构片段。其中,预设半径可以根据实际需求进行设置,如1埃、2埃等。相应地,根据反应物结构片段和映射编号数据集,确定在产物中对应的产物结构片段。产物结构片段的获取方法可以参见上述反应物结构片段的获取方法,在此不再赘述。
86.具体的,例如根据相关技术中的smarts编写规则,即可根据编写算法自动生成化学反应模板。具体的,smarts编写规则至少可以包括:反应物和产物中的化学键信息(例如单键、双键、三键、苯环等)及原子信息;其中,原子信息包括各重原子序号、每个重原子相连的化学键数量和类型、重原子电荷、反应物和产物对应的编号及反应物和产物的手性信息等。也就是说,根据smart编写规则中的内容,可以通过调用rdkit中的allchem.molfragmenttosmiles,在反应物和产物中提取对应的结构片段,生成化学反应模板。
87.可以理解,一个反应物结构片段和对应的一个产物结构片段,即可组成对应的化学反应模板。如图5所示,图5是图4中的反应组合提取的化学反应模板。
88.在一实施方式中,若反应中心和/或距离反应中心在预设半径内的结构中包含位于第一目标基团的原子,则将反应中心、距离反应中心在预设半径内的结构以及第一目标基团作为反应物结构片段。其中,第一目标基团可以是预设的重要基团,例如c(=o)cl,o=c([o,n])-[*]等。当反应中心位于第一目标基团内时,或者反应中心不属于第一目标基团,但其预设半径内的结构中包含第一目标基团内的原子时,即可将第一目标基团作为反应物结构片段的一部分。
[0089]
为了进一步丰富骨架变换模板数据库,可以基于已有的化学反应模板进行更新,新增更多的化学反应模板。在一实施方式中,将反应物结构片段中的第一目标基团替换为第一预设基团,得到新的反应物结构片段;利用新的反应物结构片段和产物结构片段,生成对应的化学反应模板。也就是说,在确定反应物结构片段具有第一目标基团时,在生成原反应物结构片段和原产物结构片段组成的化学反应模板的同时,还可以将原反应物结构片段中的第一目标基团替换为第一预设基团,形成新的反应物结构片段,并组合原产物结构片段,生成新的化学反应模板,从而丰富骨架变换模板数据库,继而可以提高生成的新分子的多样性。以上述第一目标基团是c(=o)cl为例,可替换的第一预设基团例如可以是c(=o)[cl,i,br,f],即第一目标基团中的cl元素可以替换为i、br、或f元素;以第一目标基团是o=c([o,n])-[*]为例,第一预设基团可以为羧基,酰胺和酯等。这样可以使得替换后的反应模板可以尽可能多地覆盖一些原子类型,且基于该骨架变换模板数据库做分子生成时,可以更容易匹配到反应模板。
[0090]
同理,为了使骨架变换模板数据库更加丰富,以提高生成分子的多样性,在一实施方式中,若产物结构片段中包含第二目标基团,将第二目标基团替换为第二预设基团,得到新的产物结构片段;利用反应物结构片段和新的产物结构片段,生成对应的化学反应模板。也就是说,针对已生成的化学反应模板,可以在保持反应物结构片段不变的前提下,如果产物结构片段中包含第二目标基团,则利用第二预设基团将第二目标基团进行替换,获得新的产物结构片段,从而根据原有的反应物结构片段和新的产物结构片段组合形成新的化学反应模板。同理,第二目标基团例如也包括c(=o)cl、第二预设基团例如可以是c(=o)[cl,i,br,f],于此仅举例说明,不作限制。
[0091]
进一步地,为了使骨架变换模板数据库更加丰富,在一实施方式中,利用新的反应物结构片段和新的产物结构片段,生成对应的化学反应模板。也就是说,针对原有的化学反应模板,若原反应物结构片段中包含第一目标基团,可以将第一目标基团替换为第一预设基团,得到新的反应物结构片段。同时,若原产物结构片段中包含第二目标集团,可以将第
二目标基团替换为第二预设基团,得到新的产物结构片段,从而根据新的反应物结构片段和新的产物结构片段组成新的化学反应模板。这样的设计,使模板数据库具有更多的化学反应模板,从而提高反应模板的匹配率和新分子生成的多样性。
[0092]
其中,反应物结构片段中可以不止一个目标基团,多个目标基团可以相同或部分不同或全部不同,每个目标基团可以提前设置至少一个对应的预设基团用于替换,相同的目标基团可以对应设置相同或不同的预设基团。当反应物结构片段中目标基团有多个时,每次替换可以只针对一个目标基团,也可以同时针对多个目标基团或所有目标基团,在此不作限定。产物结构片段中目标基团的替换原理同上,在此不再赘述。
[0093]
s250,将各化学反应模板进行处理,建立骨架变换模板数据库。
[0094]
通过收集化学反应模板,即可建立骨架变换模板数据库。其中,可以根据不同的存储格式,将各化学反应模板进行格式转换,从而使骨架变换模板数据库具有更多可供计算机读取的格式类型。
[0095]
根据骨架变换模板数据库,可以使待优化的目标分子参考其中的化学反应模板进行优化,获得可供参考的新分子。
[0096]
从该示例可知,本技术的骨架变换模板数据库的建立方法,可以建立具有参考价值的模板数据库,以用于各种目标分子在进行优化时的骨架变换参考,有利于更高效地获得可供参考及更易合成的新分子。
[0097]
本技术一实施例还提供一种骨架变换模板数据库,可以根据上述实施例中的建立方法建立获得。
[0098]
图6是本技术示出的分子生成方法的流程示意图。
[0099]
参见图6,本技术示出的一种分子生成方法,其包括:
[0100]
s310,获取待优化的目标分子。
[0101]
本步骤中,可以获取任意待优化的分子作为目标分子。为了便于理解,如图7所示,图7所示的目标分子可用于本分子生成方法的测试。
[0102]
s320,根据骨架变换模板数据库,获取与目标分子匹配的化学反应模板。
[0103]
本步骤中,在一具体的实施方式中,将目标分子与骨架变换模板数据库中的各化学反应模板的反应物结构片段进行匹配,确定目标分子中对应的待替换的子结构片段。
[0104]
可以理解,目标分子具有本身的分子结构,可以将目标分子的分子结构与数据库中的化学反应模板中的反应物结构片段进行匹配,当目标分子的至少部分结构与化学反应模板中的反应物结构片段相同或相似(如相似度大于80%)时,即表示匹配成功,从而确定对应的化学反应模板作为目标分子的骨架变换的模板,同时确定了目标分子中待进行骨架变换的子结构片段。需要说明的是,根据各目标分子的本身结构的不同,单个目标分子可能具有一个或多个待替换的子结构片段。也就是说,单个目标分子中可能存在多个子结构片段分别匹配到各自对应的反应物结构片段,从而可以匹配到多个化学反应模板。此外,目标分子中的单个子结构片段可能匹配到多个相同或相似的反应物结构片段,从而可以确定对应的多个化学反应模板。
[0105]
基于不同结构的目标分子的自身结构,在骨架变换模板数据库中可匹配到的化学反应模板的数量不确定。当骨架变换模板数据库中的化学反应模板越丰富时,可供匹配的反应物结构片段越多,目标分子可匹配获得的化学反应模板也越多。
[0106]
具体地,为了便于匹配,可以将目标分子转换为smiles字符串作为输入数据。进一步地,可以通过python调用rdkit中的allchem.reactionfromsmarts方法,将化学反应模板转化为reaction对象,并将输入的目标分子的smiles字符串通过chem.molfromsmiles()转换为mol对象以进行匹配。
[0107]
s330,分别根据匹配的各化学反应模板,将目标分子生成对应的优化分子。
[0108]
在一具体的实施方式中,根据对应的化学反应模板,将目标分子中的子结构片段替换为对应的产物结构片段,生成对应的优化分子。也就是说,根据匹配的化学反应模板,将目标分子中匹配到的子结构片段进行骨架变换,替换为化学反应模板中对应的产物结构片段,继而获得对应的优化分子。
[0109]
如图8所示,图8中的8个分子即为图7中的目标分子进行骨架替换后的优化分子。即表示图7中的目标分子成功匹配到了8个化学反应模板,并根据对应的化学反应模板,将目标分子中匹配到的子结构片段进行骨架变换,替换为化学反应模板中对应的产物结构片段,继而获得对应的优化分子。
[0110]
具体地,可以调用reaction对象的runreactants()方法,将上一步骤的目标分子生成新的骨架变换后的优化分子。
[0111]
从该示例可知,本技术的分子生成方法,基于可靠来源的骨架变换模板数据库,可以更高效且可靠地将目标分子中的部分结构片段,按照匹配的化学反应模板进行骨架变换,获得新的优化分子。
[0112]
与前述应用功能实现方法实施例相对应,本技术还提供了一种骨架变换模板数据库的建立装置、分子生成装置及相应的实施例。
[0113]
图9是本技术示出的骨架变换模板数据库的建立装置的结构示意图。
[0114]
参见图9,本技术示出的骨架变换模板数据库的建立装置40,其包括第一获取模块410、组合生成模块420、模板生成模块430及数据库构建模块440,其中:
[0115]
第一获取模块410用于获取样本先导化合物的骨架变换分子。
[0116]
组合生成模块420用于根据样本先导化合物及骨架变换分子,获取由任意两个不同分子组成的反应组合,其中,反应组合包括反应物和产物。
[0117]
模板生成模块430用于分别获取各个反应组合对应的化学反应模板,其中,化学反应模板包括反应物结构片段和对应的产物结构片段。
[0118]
数据库构建模块440用于利用各化学反应模板,建立骨架变换模板数据库。
[0119]
参见图10,在一具体的实施方式中,组合生成模块420包括格式转换模块421和组合模块422。其中,格式转换模块421用于分别将同一样本先导化合物和对应的各骨架变换分子采用smiles字符串进行表示,生成对应的字符串数据集。组合模块422用于分别将同一字符串数据集中的每两个分子按照预设格式进行关联,形成对应的反应组合,并获得反应组合数据集。
[0120]
在一具体的实施方式中,模板生成模块430包括映射编号模块431和模板提取模块432。其中,映射编号模块431用于在对应的反应组合中,分别将反应物的原子与产物的原子进行映射和编号,获得反应物和产物的映射编号数据集。模板提取模块432用于根据映射编号数据集,确定反应物中化学环境发生变化的原子;以反应物中的化学环境发生变化的原子为反应中心,将反应中心以及距离反应中心在预设半径内的结构作为反应物结构片段,
并获得在产物中对应的产物结构片段;根据反应物结构片段和产物结构片段,生成对应的化学反应模板。
[0121]
进一步地,模板提取模块432用于若反应中心和/或距离反应中心在预设半径内的结构中包含位于第一目标基团的原子,则将反应中心、距离反应中心在预设半径内的结构以及第一目标基团作为反应物结构片段。模板提取模块432用于将反应物结构片段中的第一目标基团替换为第一预设基团,得到新的反应物结构片段;利用新的反应物结构片段和产物结构片段,生成对应的化学反应模板。
[0122]
模板提取模块432用于若产物结构片段中包含第二目标基团,将第二目标基团替换为第二预设基团,得到新的产物结构片段;模板提取模块432用于利用所述新的反应物结构片段和所述新的产物结构片段,生成对应的化学反应模板。和/或,模板提取模块432用于利用所述反应物结构片段和所述新的产物结构片段,生成对应的化学反应模板。
[0123]
从该示例可知,本技术的骨架变换模板数据库的建立装置,可以建立根据可靠数据来源建立用于分子骨架变换的数据库,有助于生成更易合成、具有更可靠的成药性的新分子。
[0124]
图11是本技术示出的分子生成装置的结构示意图。
[0125]
参见图11,本技术示出的分子生成装置50包括第二获取模块510、处理模块520及分子生成模块530,其中:
[0126]
第二获取模块510用于获取待优化的目标分子。
[0127]
处理模块520用于根据骨架变换模板数据库,获取与所述目标分子匹配的化学反应模板。
[0128]
分子生成模块530用于分别根据匹配的各所述化学反应模板,将所述目标分子生成对应的优化分子。
[0129]
具体地,处理模块520包括用于将目标分子与骨架变换模板数据库中的各反应物结构片段进行匹配,确定所述目标分子中对应的待替换的子结构片段和对应的化学反应模板。分子生成模块530用于根据对应的化学反应模板,将所述目标分子中的子结构片段替换为对应的产物结构片段,生成对应的优化分子。
[0130]
从该示例可知,本技术的分子生成装置,可以根据可靠的骨架变换模板数据库对任一目标分子进行骨架变换,根据匹配的化学反应模板生成更易合成、具有更可靠的成药性的新分子,有助于减少不必要的试错,节约研发费用,提高研发效率。
[0131]
关于上述实施例中的各装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
[0132]
图12是本技术示出的电子设备的结构示意图。
[0133]
参见图12,电子设备1000包括存储器1010和处理器1020。
[0134]
处理器1020可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0135]
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(rom)和永久存储装置。其中,rom可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0136]
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
[0137]
此外,根据本技术的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本技术的上述方法中部分或全部步骤的计算机程序代码指令。
[0138]
或者,本技术还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或电子设备等)的处理器执行时,使处理器执行根据本技术的上述方法的各个步骤的部分或全部。
[0139]
以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好的解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献