一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

分子生成方法、装置、分子设计方法、装置和电子设备与流程

2023-02-04 14:25:30 来源:中国专利 TAG:


1.本技术涉及人工智能和计算机仿真技术领域,尤其涉及一种分子生成方法、装置、分子设计方法、装置和电子设备。


背景技术:

2.随着计算机技术和人工智能技术的快速发展,计算机仿真技术被应用到越来越多的场景中,如材料设计、药物设计等。
3.然而,申请人发现相关技术容易出现仿真得到的分子结构与蛋白口袋不匹配的情况。


技术实现要素:

4.为解决或部分解决相关技术中存在的问题,本技术提供一种分子生成方法、装置、分子设计方法、装置和电子设备,能够使得生成的分子结构与蛋白口袋相匹配。
5.本技术的第一个方面提供了一种分子生成方法,包括:s1、获得包括蛋白口袋构象的蛋白分子和与蛋白口袋构象匹配的至少一个起点片段构象,蛋白口袋构象包括至少一个匹配位置,至少一个起点片段构象各自包括起始生长位点;s2、将至少一个起点片段构象中的当前起点片段构象设置于蛋白口袋构象的当前匹配位置,基于当前起点片段构象的起始生长位点确定的生长方向;s3、获得一个生长片段构象,生长片段构象包括连接位点和第一生长位点;s4、在生长方向,将起始生长位点与连接位点连接,得到生长后的起点片段构象;s5、将生长后的起点片段构象作为当前起点片段构象,第一生长位点作为起始生长位点,生长后的起点片段构象的生长方向作为起始生长方向;s6、重复步骤s3-s5 1次或多次,直至满足停止生长条件,得到多次生长后的起点片段构象,多次生长后的起点片段即为候选分子;各生长片段构象各自处于不同的特定空间的内部,特定空间中包括蛋白分子中的部分原子和/或各生长片段所处循环中的当前起点片段构象中的部分原子;当前起点片段构象、生长片段构象、生长后的起点片段构象和多次生长后的起点片段构象,均与蛋白分子之间相互分隔;停止生长条件包括重复次数达到预设次数、多次生长后的起点片段的分子量大于或者等于分子量阈值、多次生长后的起点片段的原子数大于或者等于原子数阈值中的至少一种。
6.本技术的第二个方面提供了一种设计方法,包括:根据上述分子生成方法生成分子结构;基于分子结构进行候选药物设计或者材料设计。
7.本技术的第三个方面提供了一种分子生成装置,包括:构象获得模块、第一生长模块、生长片段构象获得模块、第二生长模块、起点片段构象更新模块和候选分子获得模块。其中,构象获得模块用于获得包括蛋白口袋构象的蛋白分子和与蛋白口袋构象匹配的至少一个起点片段构象,蛋白口袋构象包括至少一个匹配位置,至少一个起点片段构象各自包括起始生长位点;第一生长模块用于将至少一个起点片段构象中的当前起点片段构象设置于蛋白口袋构象的当前匹配位置,基于当前起点片段构象的起始生长位点确定的生长方
向;生长片段构象获得模块用于获得一个生长片段构象,生长片段构象包括连接位点和第一生长位点;其中,各生长片段构象各自处于不同的特定空间的内部,特定空间中包括蛋白分子中的部分原子和/或各生长片段所处循环中的当前起点片段构象中的部分原子;当前起点片段构象、生长片段构象、生长后的起点片段构象和多次生长后的起点片段构象,均与蛋白分子之间相互分隔;第二生长模块用于在生长方向,将起始生长位点与连接位点连接,得到生长后的起点片段构象;起点片段构象更新模块用于将生长后的起点片段构象作为当前起点片段构象,第一生长位点作为起始生长位点,生长后的起点片段构象的生长方向作为起始生长方向;候选分子获得模块如果满足停止生长条件,得到多次生长后的起点片段构象,多次生长后的起点片段即为候选分子;停止生长条件包括重复次数达到预设次数、多次生长后的起点片段的分子量大于或者等于分子量阈值、多次生长后的起点片段的原子数大于或者等于原子数阈值中的至少一种。
8.本技术的第四方面提供了一种设计装置,上述装置包括:分子结构生成模块,用于根据上述分子生成方法生成分子结构;设计模块,用于基于分子结构进行候选药物设计或者材料设计。
9.本技术的第五方面提供了一种电子设备,包括:处理器;存储器,其上存储有可执行代码,当上述可执行代码被处理器执行时,使得处理器执行上述方法。
10.本技术的第六方面还提供了一种计算机可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行上述方法。
11.本技术的第七方面还提供了一种计算机程序产品,包括可执行代码,可执行代码被处理器执行时实现上述方法。
12.本技术提供的分子生成方法、装置、分子设计方法、装置和电子设备,将起点片段构象设置在担保口袋的匹配位置后,在特定空间内进行片段生长,将完成生长得到的片段作为新的起点片段,在新构建的特定空间中进行片段生长,重复生长过程直至满足停止生成条件。由于是以片段构像为基本单位生成分子,生成结果包含分子及其构象信息。这种方法能够保证生成分子与蛋白口袋的形状匹配。
13.此外,本技术某些实施例中,生长片段可以是按照指定规则切分真实存在的类药分子后得到的片段。在进行切分时保留切分位置的邻近原子类型,使得可以基于该邻近原子类型生长分子。这种片段准备方式有效提升生成分子的可合成性,降低出现不适合成药的特征的概率。
14.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
15.通过结合附图对本技术示例性实施方式进行更详细地描述,本技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本技术示例性实施方式中,相同的参考标号通常代表相同部件。
16.图1示意性示出了根据本技术实施例的可以应用分子生成方法、装置、分子设计方法、装置和电子设备的一种示例性系统架构;
17.图2示意性示出了根据本技术实施例的可以应用分子生成方法、装置、分子设计方
法、装置和电子设备的场景示意图;
18.图3示意性示出了根据本技术实施例的分子生成方法的流程图;
19.图4a~图4c示意性示出了根据本技术实施例的特定空间的示意图;
20.图5示意性示出了根据本技术实施例的蛋白分子结构和起点片段构象的结构示意图;
21.图6示意性示出了根据本技术实施例的进行两次生长后的起点片段构象的结构示意图;
22.图7示意性示出了根据本技术实施例的虚原子和临近的实原子的示意图;
23.图8示意性示出了根据本技术实施例的生长方向的示意图;
24.图9a~图9b示意性示出了根据本技术实施例的采样点的示意图;
25.图10示意性示出了根据本技术实施例的基于采样点进行打分的示意图;
26.图11~图13示意性示出了根据本技术实施例的对分子结构进行切分的示意图;
27.图14示意性示出了根据本技术实施例的骨架聚类结果的示意图;
28.图15示意性示出了根据本技术实施例的分子生成方法的逻辑图;
29.图16示意性示出了根据本技术实施例的设计方法的一种流程图;
30.图17示意性示出了根据本技术实施例的分子生成装置的方框图;
31.图18示意性示出了根据本技术实施例的设计装置的方框图;
32.图19示意性示出了根据本技术实施例的一种电子设备的方框图。
具体实施方式
33.下面将参照附图更详细地描述本技术的实施方式。虽然附图中显示了本技术的实施方式,然而应该理解,可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
34.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
35.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
36.应当理解,尽管在本技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
37.在对本技术的技术方案进行描述之前,先对本技术涉及的本领域的部分技术术语进行说明。
38.分子描述符,是将分子表示为计算机程序可以处理的数据结构。
39.类药三规则,从类药五规则中选取的用于筛选片段的三项原则(分子量小于300,clogp《=3,氢键供体与氢键受体数均不高于3)。clogp是指脂水分配系数。
40.碰撞数(也称为冲突数量,clash_number),是指某片段与某口袋产生碰撞或相交的原子数量,碰撞或相交是由于片段上的原子与蛋白口袋原子处于非相离的情况。例如,两个球面相切。球面相切而不能交叠是因为原子之外有电子,如原子与原子之间过于接近是不可行的。
41.邻近口袋表面数(也称为紧密接触数量,close_contact_number),某片段与某口袋产生接触但没有碰撞的原子数量。
42.口袋空间数(也称为体积数量,volume_number),某片段的总数减去与某口袋clash_number与close_contact_number。
43.范德华半径(van der waals radius),是一种原子半径的定义。
44.murcko_scaffold,是一种化合物骨架定义类型,由murcko等人设计,常用于药物的形状、结构分析。
45.蛋白质结合口袋(protein binding pockets)是指蛋白质表面或内部具有适合与配体结合的空腔,口袋周围的氨基酸残基决定了它的形状,位置,物化特性以及功能。口袋的动力学对蛋白质的特异性相互作用至关重要。
46.埃长度计量单位,1埃=0.1纳米。
47.传统医药研发的特点为漫长和失败率高,如将近四分之三的预研药物都会因功效或安全原因导致失败。相比于计算机辅助药物设计等传统方法,人工智能驱动药物研发(aidd)方法近年来逐渐受到认可和应用。
48.例如,在药物研发的早期设计阶段中,针对某个疾病相关的蛋白质靶点,寻找具有优良活性、成药属性及可合成的小分子是一项关键工作。分子生成作为该阶段中能够快速采样得到具有某类特征的分子的技术,在制药行业受到了广泛的关注。
49.在药物研发过程中,申请人发现:相关技术的分子生成方法得到的分子结果,可以是表示二维分子结构的smiles字符串,并不具备特定的构象信息。这导致得到的分子结果容易出现分子与蛋白口袋不匹配的情况。此外,这种二维分子有时也容易存在不适合成药的明显特征,如有毒性、不稳定、不吸收、难合成或者易爆炸等。另外,得到的分子结果即使在结构上属于合理的化学分子,但对于药物设计来说不合理。
50.如何生成符合蛋白质口构象的分子和分子构象是亟待解决的问题。此外,如何使得生成的分子和分子构象是适合成药的分子也是亟待解决的问题。
51.本技术实施例以生长片段构象为基本单位在特定空间中进行分子生长,该特定空间处于蛋白质口袋构象的内部,使得生成的分子包括构象信息,并且能够保证该分子的分子构象与蛋白质口袋构象的形状相匹配。此外,生长片段可以是按照指定规则从真实存在的类药分子切分得到的片段,并且切分时保留切分位置的临近原子类型。这种获得生长片段的方式确保了生成分子的可合成型,并且有效减少出现不适合成药特征的概率。
52.以下将通过图1至图19对本技术实施例的一种分子生成方法、装置、分子设计方法、装置和电子设备进行详细描述。
53.图1示意性示出了根据本技术实施例的可以应用分子生成方法、装置、分子设计方法、装置和电子设备的一种示例性系统架构。需要注意的是,图1所示仅为可以应用本技术
实施例的系统架构的示例,以帮助本领域技术人员理解本技术的技术内容,但并不意味着本技术实施例不可以用于其他设备、系统、环境或场景。
54.参见图1,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
55.用户可以使用终端设备101、102、103通过网络104与其他终端设备和服务器105进行交互,以接收或发送信息等,如发送构象请求、片段库请求、模拟生长请求、打分计算请求和接收片段构象、片段库、生长结果和打分结果等。终端设备101、102、103可以安装有各种通讯客户端应用,例如,药物开发应用、材料设计应用、网页浏览器应用、数据库类应用、仿真模拟类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等应用等。
56.终端设备101、102、103包括但不限于智能台式电脑、平板电脑、膝上型便携计算机等等可以支持上网、建模、分析计算、设计等功能的电子设备。
57.服务器105可以接收发送构象请求、片段库请求、模拟生长请求、打分计算请求等,还可以用于将片段构象、片段库、生长结果和打分结果等发送给终端设备101、102、103。例如,服务器105可以为后台管理服务器、服务器集群等。
58.需要说明的是,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和云端。
59.图2示意性示出了根据本技术实施例的可以应用分子生成方法、装置、分子设计方法、装置和电子设备的场景示意图。
60.参见图2,本技术实施例中,可以在蛋白口袋构象中以生长片段构象的真实生长方向模拟分子生长过程。具体地,以生长片段为基础单元逐次外延生长,直至达到停止生长条件。这样使得通过分子生成方法得到的分子构象与蛋白口袋构象相适配,得到的分子构象是适合成药的分子构象。此外,当生长片段是从真实类药分子中截取的片段,上述分子构象的可生产制造性和成药特征等较好。
61.图3示意性示出了根据本技术实施例的分子生成方法的流程图。
62.如图3所示,该实施例提供了一种分子生成的方法,该方法包括操作s1~操作s6。
63.在操作s1,获得包括蛋白口袋构象的蛋白分子和与蛋白口袋构象匹配的至少一个起点片段构象,蛋白口袋构象包括至少一个匹配位置,至少一个起点片段构象各自包括起始生长位点。
64.蛋白质是生物体内一种极重要的高分子有机物,如占人体干重的54%。蛋白质主要由氨基酸组成,因氨基酸的组合排列不同而组成各种类型的蛋白质。蛋白质是多种药物的受体。
65.蛋白质结合口袋(以下简称蛋白口袋)是指蛋白质表面或内部具有适合与配体结合的空腔。蛋白口袋的动力学对蛋白质的特异性相互作用至关重要。蛋白质结构的柔性(flexibility)与运动(mobility)允许结合口袋的打开、关闭和适应,从而调节配体的结合过程和发挥特定的蛋白质功能。开发的药物分子等如果与蛋白质口袋相匹配,则可以更好地发挥药物作用。
66.在分子水平上,蛋白质口袋通过与小分子结合来抑制或激活特定的生物学功能。例如,可以给定目标蛋白质的三维(3d)蛋白口袋构象以确定匹配的小分子构象。3d蛋白口
袋构象包括蛋白口袋的几何信息。
67.蛋白质活性位点(protein active site)和蛋白质结合位点(binding site)可以是指蛋白质在具有生理活性时,与其他物质相结合并起重要作用的区域。一个活性位点或者结合位点可以与数种起点片段构象分别相结合。例如,与蛋白口袋构象匹配的至少一个起点片段构象可以是基于检测、实验或者经验等来确定的。
68.在一个具体实施例中,可以由用户提供蛋白文件,以及蛋白口袋的起点片段。
69.在操作s2,将至少一个起点片段构象中的当前起点片段构象设置于蛋白口袋构象的当前匹配位置,基于当前起点片段构象的起始生长位点确定的生长方向。
70.在本实施例中可以采用多种仿真建模类软件进行生长过程模拟。如通过建模将至少一个起点片段构象中的当前起点片段构象设置于蛋白口袋构象的当前匹配位置。
71.起点片段构象具有特定的空间结构,这样由于如下所示的多种原因导致,如包括两个原子或基团之间距离小于范德华半径之和时,将产生排斥作用;分子链在晶体中的构象,取决于分子链上所带基团的相互排斥或吸引作用的情况。因此,在将起点片段构象设置于蛋白口袋构象的特定位置后,就可以根据蛋白口袋构象和起点片段构象的匹配位置得到当前起点片段构象的起始生长位点的生长方向。
72.需要说明的是,生长片段构象、起点片段构象和蛋白口袋构象之间是分隔的(即不接触,如距离过小时受到较大的排斥力),但是生长片段构象与起点片段构象之间存在连接关系。
73.在操作s3,获得一个生长片段构象,生长片段构象包括连接位点和第一生长位点。
74.在本实施例中,可以从片段库中选取可能的生长片段,该生长片段可以以特定的生长片段构象与起始生长位点相连接。其中,生长片段构象可以包括针对特定坐标系下生长片段相对于坐标系的姿态信息,如旋转角度等。
75.在操作s4,在生长方向,将起始生长位点与连接位点连接,得到生长后的起点片段构象。
76.将起始生长位点与连接位点连接,得到生长后的起点片段构象可以采用多种相关技术来实现,在此不做限定。
77.在操作s5,将生长后的起点片段构象作为当前起点片段构象,第一生长位点作为起始生长位点,生长后的起点片段构象的生长方向作为起始生长方向。
78.在本实施例中,通过如上方式可以得到基于生长片段的两次生长后的分子构象,该生长后的分子构象可能是最终的分子构象,也可能是中间结果的分子构象。具体要看是否满足了停止生长条件。
79.在操作s6,重复操作s3-s5一次或多次,直至满足停止生长条件,得到多次生长后的起点片段构象,多次生长后的起点片段即为候选分子。
80.在本实施例中,停止生长条件包括重复次数达到预设次数、多次生长后的起点片段的分子量大于或者等于分子量阈值、多次生长后的起点片段的原子数大于或者等于原子数阈值中的至少一种。
81.各生长片段构象各自处于不同的特定空间的内部,特定空间中包括蛋白分子中的部分原子和/或各生长片段所处循环中的当前起点片段构象中的部分原子。当前起点片段构象、生长片段构象、生长后的起点片段构象和多次生长后的起点片段构象,均与蛋白分子
之间相互分隔。这样可以使得生成的分子构象与蛋白口袋构象相适配,降低因发生类似于机械干涉等导致分子构象不能与蛋白口袋相结合。
82.图4a~图4c示意性示出了根据本技术实施例的特定空间的示意图。图4a示出了圆柱体的特定空间。图4b示出了球体的特定空间。图4c示出了立方体的特定空间。
83.需要说明的是,图4a~图4c所示的特定空间仅为示例性说明,不能理解为对本技术的限定。以下主要以圆柱体为例进行示例性说明,圆柱体自身的旋转不会影响整体的位置,并且容易计算;若改为立方体或其他的可能则需要考虑旋转后的蛋白采样信息,复杂度会高一些。例如,每进行一次片段生长,需要构建一个圆柱体作为分子生长所处的特定空间。此外,从使用的角度来说,使用过程中圆柱体的尺寸可以是预设值,不过预设值可调整(调整的原则是能保证可参考信息在里面(起点片段、生长片段)。圆柱体的尺寸越大,可以获得更多的参考信息,更准确,但是尺寸过大可能导致过多的不必要的噪音,具体可能根据实际情况相关,例如,圆柱的高大于或者等于5埃。
84.例如,根据筛出的连接了1个生长片段的整个分子重新确定起始点,然后重复上述步骤进行分子生长,直至达到预设的终止条件,如从最初的起点片段开始,生长了几个生长片段;或整个分子的分子量、整个分子的原子数等。
85.本实施例中以片段构像为基本单位,在虚拟的蛋白口袋中进行分子生成,模拟的生成结果中包含分子及其构象信息。相对于相关技术中分子结果是表示二维分子结构的smiles字符串,本实施例生成的分子构象,能够保证生成分子与蛋白口袋的形状匹配。
86.在某些实施例中,生长片段构象通过如下方式获得:从片段库中获得与起点片段构象相适配的生长片段构象集,从生长片段构象集中按照预设标准获得生长片段构象,预设标准包括:随机选取、匹配程度由高到低、匹配程度由低到高中任意一种。
87.图5示意性示出了根据本技术实施例的蛋白分子结构和起点片段构象的结构示意图。
88.蛋白分子结构包括蛋白口袋,该口袋内可以存在多个结合位点,每个结合位点可以与一种或多种起点片段构象相结合。当起点片段构象结合在蛋白口袋的某个结合位点之后,下一个生长片段的生长方向就被确定下来。
89.图6示意性示出了根据本技术实施例的进行两次生长后的起点片段构象的结构示意图。
90.参见图6,起点片段构象设置在匹配位置后,其生长方向已确定。基于该生长方向构建特定空间,并在该特定空间内模拟生长下一生长片段,得到合适的生长片段构象。此时,生长片段构象的下一生长片段的生长方向已确定。接着,基于该生长方向构建新的特定空间,并在该特定空间内模拟生长下一生长片段,得到合适的生长片段构象。重复上述过程,直至满足停止生长条件。此时,起始片段构象和所有已生长的生长片段构象共同构成与蛋白口袋相适配的分子。
91.在某些实施例中,片段库中的各片段可以是对公司自身开发的数据或者商业数据集中的分子进行分割得到的。例如,数据集可以是zinc15/zinc20等数据集(含千万级别的小分子化合物数据)。
92.数据集中还可以包括类药小分子数据,该类药小分子数据同样可以通过多种途径获得。例如,可为通过公开途径免费获得的所有类药小分子数据的集合,如具备生物活性的
类药小分子数据的chembl数据集等。
93.数据集还可以包括来自于moleculenet以及申请人内部的物理化学性质的数据集。例如,bbbp数据集,包含测得的穿透血脑屏障的分子的数据集。clintox数据集,包括由fda批准的药物和那些由于毒性原因导致临床试验失败的药物的数据。tox21数据集,包括已测量过的化合物对12个不同目标的毒性的数据,包括核受体和应激反应途径的实验测量结果。hiv数据集,包括为实验测定的具有抑制hiv复制能力的小分子的数据。
94.在某些实施例中,对于起点片段之后连的第一个生长片段,是需要从片段库中遍历(优选结合片段库中各个生长片段的具体信息(切分位置信息、临近原子类型等)中筛选出可以进行遍历的候选生长片段),然后用打分函数(仅空间位置考虑)进行筛选,优选还可以进一步用是否存在与当前拟生长片段所处位置与蛋白之间是否存在预设的相互作用进行筛选。
95.以下对从片段库中获得与起点片段构象相适配的生长片段构象集,以及从生长片段构象集中获得生长片段构象的方式进行示例性说明。
96.在某些实施例中,从片段库中获得与起点片段构象相适配的生长片段构象集可以包括如下操作。
97.首先,基于起点片段构象的属性信息从片段库中筛选候选生长片段,属性信息包括切分位置信息或者临近原子类型中至少一种。
98.然后,通过旋转候选生长片段,获得生长片段构象,以构建生长片段构象集。
99.对于每个候选片段与起始片段的连接,因为候选片段是可旋转的,所以需要对候选片段按预设角度旋转一周,每次转动都要进行筛选。所以理论上来说同样的候选片段,可能因为与起点片段连接的不同(旋转)有多个可能的连接方式通过筛选。
100.在某些实施例中,上述方法在获得生长片段构象之后,还可以包括如下操作,从与当前候选生长片段对应的多个生长片段构象中确定目标生长片段构象,以基于目标生长片段构象构建生长片段构象集,目标生长片段构象的稳定性高于非目标生长片段构象。
101.由于围绕单键的旋转而产生的,分子中原子在空间的不同排列方式称为构象(conformation)。一个化合物可以有大量的构象,影响化合物的稳定性、反应活性及反应的选择性。化合物结构的稳定性是指在载荷的作用下维持其原有平衡状态的能力。影响构象稳定性的因素主要包括:扭张力、非键相互作用、偶极-偶极相互作用、立体电子效应、氢键、共轭效应、临位交叉效应等。
102.例如,可以通分子力学(molecular mechanics,简称mm)分析分子结构和稳定性等性质。具体地,在分子中原子间存在化学键,具有标准的键长、键角等,分子内还存在非键相互作用,通过调整分子自身构象来给出原子位置的最佳排布,得到稳定构象。
103.在某些实施例中,片段库包括多个片段类,每个片段类包括至少一个候选生长片段。相应地,从片段库中获得与起点片段构象相适配的生长片段构象集可以包括如下操作。
104.首先,从多个片段类中获得第一预设比例的候选生长片段,生成第一采样片段类,以便通过遍历第一采样片段类,确定多个片段类中包括候选生长片段的目标片段类。其中,第一预设比例可以根据经验或者使用效果而定。如果希望快速生成分子,则可以将第一预设比例设置的低一些,如1%、5%、10%、15%、20%或30%等。如果希望尽量多的生成分子,则可以将第一预设比例设置的高一些,如40%、45%、50%、60%、70%或者80%等。
105.然后,通过遍历目标片段类,得到能够在当前起点片段构象之上逐次外延生长的至少一个生长片段构象,以生成生长片段构象集。
106.本实施例中,通过采样过程,可以有效减少需要遍历的片段类的数量,提升生成分子的效率。
107.在某些实施例中,片段库包括多个片段类,每个片段类包括至少一个候选生长片段。相应地,对于多个片段类中的每个片段类,上述从片段库中获得与起点片段构象相适配的生长片段构象集可以包括如下操作。
108.首先,从片段类中获得第二预设比例的候选生长片段,生成第二采样片段类。其中,第二预设比例可以与第一预设比例相同或不同。
109.然后,遍历第二采样片段类,直至得到与连接位点的临近原子类型相匹配的第三候选生长片段集;分别按照预设步长围绕生长方向旋转第三候选生长片段集中的每个候选生长片段,得到多个第三候选生长片段构象;按照生长方向逐个将第三候选生长片段构象连接至起始生长位点。
110.如果多个第三候选生长片段构象中的至少一个构象位于特定空间的内部,则遍历第二采样片段类所属的片段类,得到与连接位点的临近原子类型相匹配的至少一个第四候选生长片段集;分别按照预设步长围绕生长方向旋转第四候选生长片段得到多个第四候选生长片段构象;将多个第四候选生长片段构象中的位于特定空间内部的构象作为生长片段构象。
111.本实施例中,在根据片段分类获得预设比例片段并重复执行生长,在中止生长完后,再判断是否有符合要求的生长的片段,如果有,再不设比例的将每个片段类(生长片段构象集)中所有匹配的候选片段进行遍历生长、筛选和判断,有效提升了生长分子效率,并且能尽量全面的得到适配分子。
112.其中,从生长片段构象集中按照预设标准获得生长片段构象可以包括如下操作。
113.首先,基于起点片段构象构建特定空间,特定空间以起点片段构象的虚原子的空间位置为空间原点,并且特定空间的空间原点的延伸方向是根据起点片段构象的起始生长位点的生长方向来确定的。
114.图7示意性示出了根据本技术实施例的虚原子和临近的实原子的示意图。
115.参见图7,示出了一个生长片段构象,该生长片段构象具有临近的实原子和基于该实原子的生长方向。虚原子是基于该生长方向上能够与该生长片段构象相连接的原子位置。
116.图8示意性示出了根据本技术实施例的生长方向的示意图。
117.参见图8,蛋白分子结构中包括蛋白口袋,可以在蛋白口袋构象的结合位点(起始位点)设置起点片段构象,这样就可以确定下一个生长片段构象的生长方向,并基于该生长方向构建特定空间。
118.然后,遍历生长片段构象集,得到与起点片段构象相匹配,并且连接至起始生长位点时位于特定空间内部的候选生长片段构象。生长片段构象位于特定空间内部时,与特定空间的外壁之间无交集。
119.在某些实施例中,获得一个生长片段构象可以包括如下操作。
120.首先,通过采样的方式获得候选生长片段构象的原子与蛋白分子、起点片段构象
的原子之间的位置关系。
121.然后,基于位置关系从多个候选生长片段构象中确定生长片段构象。
122.例如,原子之间的位置关系可以包括在特定空间内,起点片段的所有原子、生长片段的所有原子、蛋白分子的所有原子相互之间的位置关系。例如,位置关系通过原子球坐标,以及蛋白口袋内蛋白与生长后的分子特定相互作用的原子间距离信息进行判断。
123.在某些实施例中,通过采样的方式获得候选生长片段构象的原子与蛋白分子、起点片段构象的原子之间的位置关系可以包括:如果满足第一排除条件,或者满足第二排除条件,则通过采样的方式获得候选生长片段构象的原子与蛋白分子、起点片段构象的原子之间的位置关系。
124.例如,第一排除条件包括:候选生长片段构象的所有原子处于特定空间的内部。
125.例如,第二排除条件包括:候选生长片段构象的所有原子处于特定空间的内部,以及以下至少一种:起点片段和候选生长片段共同组成的分子结构的分子量小于或者等于分子量阈值、起点片段和候选生长片段共同组成的分子结构的原子数小于或者等于原子数阈值。
126.在某些实施例中,上述通过采样的方式获得候选生长片段构象的原子与蛋白分子、起点片段构象的原子之间的位置关系可以包括如下操作。
127.首先,通过特定空间中的采样点,获得候选生长片段构象相对于蛋白分子和起点片段构象的打分结果,打分结果与碰撞点参数和临近点参数相关,或者,打分结果与碰撞点参数和临近点参数以及以下至少一种:碰撞点权重参数和临近点权重参数相关。例如,可以设定打分函数计算候选生长片段构象相对于蛋白分子和起点片段构象的打分。
128.然后,基于打分结果表征候选生长片段构象的原子与蛋白分子和起点片段构象的原子之间的位置关系。例如,打分越高,则表明蛋白分子和起点片段构象的原子之间的位置关系越合适,如两者之间没有交叠,如蛋白口袋内的填充率较高。
129.在某些实施例中,通过特定空间中的采样点,获得候选生长片段构象相对于蛋白分子和起点片段构象的打分结果可以包括如下操作。
130.首先,通过特定空间中的采样点,获得候选生长片段构象与蛋白口袋构象之间距离小于预设距离阈值的相邻点数量n1、候选生长片段构象和蛋白口袋构象之间的碰撞点数量n2和特定空间中的采样点中的非空点数量n3。其中,特定空间中的采样点可以是预设的采样点,每个采样点用于对特定空间中的一个子空间进行采样。如确定某个采样点是否同时存在起点生长片段的原子和蛋白质分子的原子,如果是,则确定两者之间相交叠。
131.如果碰撞点数量n2大于零,则打分结果为负数。
132.如果碰撞点数量n2等于零,则打分结果为相邻点数量n1和非空点数量n3的加权求和,其中,相邻点数量n1的第一权重和非空点数量n3的第二权重之间没有除了1以外的共同公约数。
133.例如,对于一个生长片段的多种构象,分别进行打分,保留得分高的构象。若某个生长片段的打分结果均为负值,则不选择该生长片段。
134.例如,生长片段的打分函数可以如式(1)所示:
135.score=w1*n
closecontact
w2*n
volume
ꢀꢀꢀꢀ
式(1)
136.如果n
clash
》0,则score=-50000。其中,w1、w2为权重系数,n
clash
为碰撞点数量,nclosecontact
为邻近口袋的点的数量,n
volume
为剩余非空点数量。例如,w1、w2分别为1、10;1、5;2、1;3、1等等。在一个具体实施例中,通过测试发现w1、w2没有除了1以外的共同公约数较好,例如w1、w2分别是1、2,比w1、w2分别是5、10的效果更好。
137.需要说明的是,打分前需要将生长片段与圆柱空间的坐标对齐,生长片段以连接位点为起点的单键方向应与生长方向一致。对齐后的生长片段虚原子坐标与起点片段实原子坐标一致,起点片段虚原子坐标与生长片段实原子坐标一致。
138.此外,上述打分函数和对打分结果的选取方式仅为示例性举例。还可以依赖其它方法进行打分,例如,基于药效团、圆柱空间的药效团与片段的打分等。此外,对打分结果的选取方式可以是保留分数较高的topn或topn%,在此不做限定。n为正整数。
139.图9a~图9b示意性示出了根据本技术实施例的采样点的示意图。图9a示出了圆柱体形状的特定空间的采样点。图9b示出了立方体形状的特定空间的采样点。
140.在某些实施例中,特定空间包括圆柱形空间,圆柱形空间的p个采样面与生长方向相互垂直,p个采样面各自包括360/n条过圆心的采样边,每条采样边包括m个采样点,其中,p、m和n是大于2的整数,360能被n整除。
141.在某些实施例中,特定空间可以通过如下方式构建。
142.首先,基于起点片段构象的虚原子的生长方向生成第一矢量;
143.然后,以起点片段构象的虚原子为起始点,以垂直于第一矢量的方向生成360/n个第二矢量;
144.接着,对于每个第二矢量,沿着第二矢量的方向,以虚原子为基点,生成m个采样点;
145.然后,沿着第一矢量的方向,按照预设步长平移所有采样点p次,得到特定空间的采样点。
146.图10示意性示出了根据本技术实施例的基于采样点进行打分的示意图。参见图10,在将生长片段构象设置在特定空间后,可以基于特定空间的各采样点的采样结果对生长片段构象进行打分。
147.例如,以虚原子为起点,以生长方向为轴,构建一个底面半径为高为的圆柱体的立体空间,参见图8所示。该特定空间为下一片段的生长位置。
148.首先,在该特定空间中取底面,在该底面以圆柱轴交点为起点,任取一个指向底面边的向量,将该向量按10度角旋转一周,得到36个向量。具体地,对一个初始向量进行360度旋转。其中,10度为人工经验值,理论上只要是能够跟360整除的整数都可以里。例如5度、15度、20度等等。这个旋转角度决定了片段的可旋转范围。其中,值越小,可参考的片段位置越多,计算结果越精确。但是,如果角度过小,则需要更多的计算量。
149.然后,再将该平面上的向量组,按垂直于轴方向,以为步长平移,得到20组向量,最终得到试管刷形状的辐射向量,请一并参见图9a和图10,共得到36*20个辐射向量。图9a仅示出了5组向量。
150.其中,虚拟的圆柱体只是理论上的范围,实际计算时只考虑36*20*20矩阵的信息,这里的过程也是对这个计算三维矩阵的描述。上述以为步长平移中的0.5是人工经验值,理论上是可修改的,值越小越精确,计算量会增加,但不建议高于1。步长的单位可以是
氢原子的半径或直径,当然还可以选取其它单位。考虑到分子/片段与蛋白都是由原子组成的,该方法采用原子球模型,以范德华半径作为原子球半径的定义检测蛋白与片段的空间结构和位置关系。
151.如果两个原子在没有成键的情况下产生接触,则认为这两个原子产生碰撞。同理,如果蛋白、片段、分子中任意一个与蛋白、片段、分子中任意一个,在没有成键的情况下产生接触,则认为这两者发生碰撞。根据以上条件考虑两个原子球是否产生接触来判断是否有碰撞。
152.需要说明的是,本实施例中为了便于统计,实际检测碰撞时只考虑辐射向量方向上的情况。例如,还可能发生非辐射向量方向上的碰撞,这个碰撞处于顶点为10度邻边为10埃的等腰三角形范围中,这个范围的理论误差都处于可侦测的(存在很小的误差是可接受的)。对于每个辐射向量都以为间隔在范围内取20个点(共有36*20*20个点),考虑这些点是否出现碰撞。
153.本技术实施例中,以生长片段构像为基本单位进行分子生成,生成结果包含分子及其构象信息。这种方法能够保证生成分子与蛋白口袋的形状匹配。此外,直接生成对应蛋白口袋位置的分子构像可以省去构像生成和对接环节,有效提高分子设计、筛选效率。
154.在某些实施例中,上述方法还可以包括如下操作,如果至少一个匹配位置中包括未被遍历的匹配位置,则将未被遍历的匹配位置作为更新匹配位置,并且将起点片段构象设置于蛋白口袋构象的更新匹配位置,得到针对连接位点的更新生长方向,以在更新生长方向,将起始生长位点与连接位点连接,得到生长后的起点片段构象。
155.请一并参见图5,起点片段构象除了可以设置在图5中所示的匹配位置,还可以设置在其它匹配位置上。当完成针对一个起点片段构象在某个匹配位置的分子片段的遍历之后,可以将起点片段构象换到另一个匹配位置上,在此进行分子片段的遍历,直至针对该起点片段构象的所有匹配位置都遍历完成。
156.在某些实施例中,上述方法还可以包括操作s21~操作s22。
157.在操作s21,如果至少一个起点片段构象中包括未被遍历的起点片段构象,则将当前的未被遍历的起点片段构象设置于蛋白口袋构象的当前匹配位置,基于当前的未被遍历的起点片段构象的起始生长位点确定生长方向。
158.在操作s22,重复步骤s21、s3-s5 1次或多次,直至满足停止生长条件,得到多次生长后的起点片段构象,多次生长后的起点片段即为候选分子。
159.请一并参见图5,能够与一个蛋白口袋相匹配的起点片段构象可以存在多个。当某个起点片段构象被遍历完成后,可以换一个起点片段构象进行下一轮遍历。
160.通过以上实施例,就可以实现针对特定蛋白口袋的分子生长过程,得到与蛋白口袋相适配的分子。
161.以下对片段库相关信息进行示例性说明。
162.在某些实施例中,上述方法还可以包括如下操作,构建片段库。片段库中的生长片段包括从多个候选分子结构中裁剪获得的片段,生长片段具有切分位置信息和与切分位置信息对应的临近原子类型信息。
163.例如,构建片段库可以包括如下操作。
164.首先,基于可旋转键、分子骨架或者官能团中至少一种分别对多个候选分子结构
进行切分,得到多个候选生长片段。
165.然后,基于多个候选生长片段构建片段库。具体可以采用多种相关技术手段,在此不做限定。
166.图11~图13示意性示出了根据本技术实施例的对分子结构进行切分的示意图。
167.参见图11,两个苯环之间的c-c单键,是可旋转键,可以该c-c单键进行切分,得到两个生长片段。参见图12,基于官能团对氧键进行了切分,将得到的官能团作为生长片段。参见图13,基于官能团对c-c键进行了切分,将得到的两个官能团分别作为生长片段。此外,图13中的左半部分官能团还可以进行切分。
168.在某些实施例中,上述方法在得到多个候选生长片段之后,还可以执行如下操作,根据切分分子得到的起始生长位点和原子类型之间的对应关系,从多个候选生长片段中确定入选生长片段,对应关系是基于切分位置信息和与切分位置信息对应的临近原子类型信息来确定的。
169.相应地,基于多个候选生长片段构建片段库,包括:基于多个入选生长片段构建片段库。
170.例如,从zinc20数据库中下载标记为lead-like的全部分子,约394万个smiles。完成下载后将这些分子按可旋转键切分为片段,切分时需保留片段连接位点的邻近原子信息,以保证片段生长过程中不会出现异常的连接关系。
171.参见图13,c-c单键被切分后,可以确定自由基可以和c原子相连,切分位置是在c4h
11
的第三个c和第四个c之间的单键处。
172.在某些实施例中,基于多个候选生长片段构建片段库的具体方法包括以下至少一种可以包括如下操作。
173.首先,移除包含特定元素的候选生长片段。
174.然后,去除正则化后的重复的候选生长片段。
175.接着,根据切分前的分子结构信息确定候选生长片段的连接位点的起始原子类型。
176.然后,基于分子量、氢键供体的数量和氢键受体的数量对候选生长片段进行过滤。
177.接着,基于专家经验对候选生长片段进行过滤。
178.在某些实施例中,还可以对构象进行压缩,以便进行存储。
179.具体地,上述方法还可以包括如下操作。首先,对于片段库中的每个生长片段,生成生长片段的生长片段构象,并且对生长片段构象进行编码压缩。然后,读取经编码压缩的生长片段,并且对经编码压缩的生长片段进行解码,得到生长片段。
180.本实施例中,在完成筛选后,由于文件大,读取速度慢,对筛选得到的候选生长片段进行编码压缩,以降低存储要求、提高计算速度。在进行压缩后可以有效改善文件占用过大内存的问题,有效提升读取和解码过程的速度,在使用到具体的文件时再对其进行解码。
181.在一个具体实施例中,片段切分完成后进行以下步骤:
182.首先,移除包含p、b、si、sn等元素的片段,这些元素是类药分子不会出现或不常见的元素。
183.然后,去除正则化后的重复片段。
184.接着,根据切分前的分子信息统计每个片段的每个连接位点的起始原子类型。
185.然后,按照ro3过滤,具体地,过滤掉分子量小于300,clogp《=3,氢键供体与氢键受体数均不高于3。
186.接着,基于人工经验的条件进行过滤。例如,七元环作为片段中大环的上限,最多存在五个环,手性中心数量最多存在3个等。
187.然后,生成片段的构像,并压缩。具体地,根据原子球模型,移除超出空间范围的构象。例如,空间范围是底面半径为高为圆柱体空间。
188.需要说明的是,分子的切分方式可以不局限于可旋转键(保留某些类型的单键或切分某些双键等等),片段的尺度/大小没有绝对明确的标准,但是需要保证生长片段的空间体积应该小于特定空间的体积。片段的筛选需要参考分子库的具体情况,筛选条件依赖人工经验以及对分子库的数据分析。
189.以zinc20数据库为例,按照片段起点原子类型划分片段,得到如表1所示的统计结果。
190.表一
191.起点原子类型片段总数c81767n26714o27s219
192.在某些实施例中,还可以进一步对片段库进行归类整理,以增加片段库的可用性。
193.具体地,基于多个候选生长片段构建片段库可以包括如下操作。
194.首先,对多个候选生长片段进行骨架聚类,得到多个片段类。参见图14,上方两个片段存在相同的骨架,因此,可以将这两个生长片段归入同一骨架类别下。例如,可以采用murcko_scaffold计算生长片段对应的分子骨架,计算分子骨架的128位morgan指纹,最后使用kmeans算法将morgan指纹划分为24类。
195.然后,将多个片段类添加到片段库中,或者,对于多个片段类中的每一类,按照预设采样率从片段类中抽取预设比例或者预设数量的片段,并且添加到片段库中。
196.相类似地,在某些实施例中还可以通过如下方式优化片段库。具体地,上述方法在基于多个候选生长片段构建片段库之后,还可以包括如下操作。
197.首先,对多个候选生长片段进行骨架聚类,得到多个片段类。
198.然后,将多个片段类添加到片段库中,或者,对于多个片段类中的每一类,按照预设采样率从片段类中抽取预设比例或者预设数量的片段,并且添加到片段库中。
199.本实施例中,建库的时候标注分类,使得遍历片段库的时候按类选择同样的数量/比例进行遍历,按比例进行可以快速了解基本情况,是否有符合期望的生长片段,如果有,则进行完整的遍历;如果没有,可考虑不进行完整遍历,如换起始片段或换起始片段与蛋白分子的匹配位置,减少无效计算,减少运算资源。
200.需要说明的是,考虑到以c和n为起点的片段数量过高,最终使用骨架聚类(仅对c、n为起点的片段)划分片段,实际使用时对于每个骨架类别都按照采样率(例如10%)随机抽取,这种方式既可以减少片段的数量(减少计算量),也不会错过每一种骨架类型。
201.在某些实施例中,上述方法在生成候选分子之后,还可以包括如下操作,对候选分子进行构象优化。例如,通过构象优化来减小分子构象的势能,使得分子构象更加稳定。
202.本实施例中,对于同一个生长片段,在建库的时候,可以按照构象的不同分别保存,或者仅保存最稳定的构象,或者把多种构象一同保存,以供后续生长连接;对于同一个生长片段,应对不同的构象可能分别与起点片段的连接点进行连接生长、旋转、筛选。
203.本实施例中用于生长的生长片段,至少部分是由真实存在的类药分子按照指定规则切分后得到的,并且切分时保留切分位置的邻近原子类型。这种片段准备方式确保了生成分子的可合成性,避免出现不适合成药的特征。
204.图15示意性示出了根据本技术实施例的分子生成方法的逻辑图。
205.参见图15,在一个具体实施例中,用户提供某个蛋白分子(pdb格式文件)以及在该蛋白分子中的某个匹配位置的起点片段(pdb格式文件)作为输入。根据起点片段的位置确定蛋白口袋的大致匹配位置信息,根据起点片段的虚原子的位置确定生长连接位点,根据虚原子成键方向决定生长方向(临近的真实原子指向虚原子的方向),根据虚原子邻近原子类型决定下一片段起点类型。
206.以虚原子为起点,以生长方向为轴,构建一个底面半径为高为的圆柱空间,作为特定空间。该特定空间为下一生长片段的生长空间。特定空间的构建过程、辐射向量和基于辐射向量确定的采样点如上述相关内容,在此不再详述。
207.确定圆柱空间与辐射向量后,需要根据起点片段的连接原子类型决定生长片段的起点原子类型,其中,对于这一次遍历的片段的起点原子类型均相同。
208.对该生长片段的多种生长片段构象分别进行打分,保留得分最高的构象。若该片段的打分结果均为负值,则不选择该片段。
209.完成片段库的遍历后,选择得分排名前十的生长片段与起点片段合并后作为下一次遍历(生长下一个片段)的起点片段,新的起点片段需要根据剩余的连接位点决定新的生长方向。确定生长方向后采用与前文同样的方法确定圆柱空间与辐射向量并进行片段库遍历。其中,上述得分是生长片段在该次所处角度的得分(基于前述打分函数计算获得);上述得分排名前十,是确定角度后的前十。如果旋转36个角度,则有36个得分,取其中最高得分,最高得分对应的角度为确定的角度(不同的生长片段可能有各自确定的角度,但只通过得分进行比较)。除了选择得分排名前十的片段之外,还可以为topm或top m%,m为正整数。
210.停止生长条件为,完成n次遍历(生长n个片段)或无法进行生长(完成遍历后没有片段被保留)。具体地,停止生长条件可以为没有可用于下一次遍历的片段,达到五层(即连续生长5个片段)。这些条件尤其适合于小尺寸的蛋白口袋(即适用于蛋白的口袋空间较小的情况)。此外,停止生长条件还可以包括如下条件:例如,生长的范围超出预设的范围(空间范围,例如绘制立方体或球体),该空间范围与蛋白、起点片段处于同一坐标系下。例如,分子量大小小于500。例如,原子数量小于100。其中,多个条件之间的关系,可以为满足任意一个条件即满足停止生长条件。
211.当分子生长结束时,还可以进一步对生成的分子构象进行优化,如使用smina软件对生成的分子构象进行优化,弥补圆柱空间探测的误差。
212.本技术另一方面还提供了一种设计方法。图16示意性示出了根据本技术实施例的设计方法的一种流程图。
213.参见图16,上述设计方1600可以包括操作s1610~操作s1620。
214.在操作s1610,根据上述分子生成方法生成分子结构。具体可以参考如上相关实施例,在此不再赘述。
215.在操作s1620,基于分子结构进行候选药物设计或者材料设计。其中,候选药物包括可能上市的药物以及已上市的药物。
216.本实施例采用生成分子方法得到的分子结构进行设计开发,如用于医药开发等,能够有效提升设计效率和成功率。
217.本技术另一方面还提供了一种分子生成装置。
218.图17示意性示出了根据本技术实施例的分子生成装置的方框图。
219.参见图17,该分子生成装置1700可以包括:构象获得模块1710、第一生长模块1720、生长片段构象获得模块1730、第二生长模块1740、起点片段构象更新模块1750和候选分子获得模块1760。
220.其中,构象获得模块用于获得包括蛋白口袋构象的蛋白分子和与蛋白口袋构象匹配的至少一个起点片段构象,蛋白口袋构象包括至少一个匹配位置,至少一个起点片段构象各自包括起始生长位点;
221.第一生长模块用于将至少一个起点片段构象中的当前起点片段构象设置于蛋白口袋构象的当前匹配位置,基于当前起点片段构象的起始生长位点确定的生长方向。
222.生长片段构象获得模块用于获得一个生长片段构象,生长片段构象包括连接位点和第一生长位点;其中,各生长片段构象各自处于不同的特定空间的内部,特定空间中包括蛋白分子中的部分原子和/或各生长片段所处循环中的当前起点片段构象中的部分原子;当前起点片段构象、生长片段构象、生长后的起点片段构象和多次生长后的起点片段构象,均与蛋白分子之间相互分隔。
223.第二生长模块用于在生长方向,将起始生长位点与连接位点连接,得到生长后的起点片段构象。
224.起点片段构象更新模块用于将生长后的起点片段构象作为当前起点片段构象,第一生长位点作为起始生长位点,生长后的起点片段构象的生长方向作为起始生长方向。
225.候选分子获得模块如果满足停止生长条件,得到多次生长后的起点片段构象,多次生长后的起点片段即为候选分子;停止生长条件包括重复次数达到预设次数、多次生长后的起点片段的分子量大于或者等于分子量阈值、多次生长后的起点片段的原子数大于或者等于原子数阈值中的至少一种。
226.在某些实施例中,生长片段构象获得模块包括:生长片段构象集获得单元和生长片段构象获得单元。
227.其中,生长片段构象集获得单元用于从片段库中获得与起点片段构象相适配的生长片段构象集;
228.生长片段构象获得单元用于从生长片段构象集中按照预设标准获得生长片段构象,预设标准包括:随机选取、匹配程度由高到低、匹配程度由低到高中任意一种。
229.在某些实施例中,生长片段构象集获得单元包括:
230.筛选子单元,用于基于起点片段构象的属性信息从片段库中筛选候选生长片段,属性信息包括切分位置信息或者临近原子类型中至少一种;
231.片段旋转子单元,用于通过旋转候选生长片段,获得生长片段构象,以构建生长片段构象集。
232.在某些实施例中,上述装置1700还包括:目标生长片段构象确定模块,用于从与当前候选生长片段对应的多个生长片段构象中确定目标生长片段构象,以基于目标生长片段构象构建生长片段构象集,目标生长片段构象的稳定性高于非目标生长片段构象。
233.在某些实施例中,生长片段构象集获得单元包括:采样片段类生成子单元和目标片段类遍历子单元。
234.第一采样子单元,用于从多个片段类中获得第一预设比例的候选生长片段,生成第一采样片段类,以便通过遍历第一采样片段类,确定多个片段类中包括候选生长片段的目标片段类。
235.第一遍历子单元,用于通过遍历目标片段类,得到能够在当前起点片段构象之上逐次外延生长的至少一个生长片段构象,以生成生长片段构象集。
236.在某些实施例中,生长片段构象获得单元包括:第二采样子单元和第二遍历子单元和生长片段构象确定子单元。
237.其中,第二采样子单元用于从片段类中获得第二预设比例的候选生长片段,生成第二采样片段类;
238.第二遍历子单元用于遍历第二采样片段类,直至得到与连接位点的临近原子类型相匹配的第三候选生长片段集;分别按照预设步长围绕生长方向旋转第三候选生长片段集中的每个候选生长片段,得到多个第三候选生长片段构象;按照生长方向逐个将第三候选生长片段构象连接至起始生长位点;
239.生长片段构象确定子单元用于如果多个第三候选生长片段构象中的至少一个构象位于特定空间的内部,则遍历第二采样片段类所属的片段类,得到与连接位点的临近原子类型相匹配的至少一个第四候选生长片段集;分别按照预设步长围绕生长方向旋转第四候选生长片段得到多个第四候选生长片段构象;将多个第四候选生长片段构象中的位于特定空间内部的构象作为生长片段构象。
240.在某些实施例中,生长片段构象获得单元包括特定空间构建子单元和构象集遍历子单元。
241.特定空间构建子单元,用于基于起点片段构象构建特定空间,特定空间以起点片段构象的虚原子的空间位置为空间原点,并且特定空间的空间原点的延伸方向是根据起点片段构象的起始生长位点的生长方向来确定的。
242.构象集遍历子单元,用于遍历生长片段构象集,得到与起点片段构象相匹配,并且连接至起始生长位点时位于特定空间内部的候选生长片段构象。
243.在某些实施例中,候选生长片段构象是候选生长片段按照预设步长围绕生长方向旋转得到的构象,并且候选生长片段构象与当前起点片段构象相连时位于特定空间的内部。
244.在某些实施例中,生长片段构象获得模块包括:位置关系确定单元和片段构象确定单元。
245.位置关系确定单元用于通过采样的方式获得候选生长片段构象的原子与蛋白分子、起点片段构象的原子之间的位置关系。
246.片段构象确定单元用于基于位置关系从多个候选生长片段构象中确定生长片段构象。
247.在某些实施例中,位置关系确定单元包括打分子单元和位置关系表征子单元。
248.其中,打分子单元用于通过特定空间中的采样点,获得候选生长片段构象相对于蛋白分子和起点片段构象的打分结果,打分结果与碰撞点参数和临近点参数相关,或者,打分结果与碰撞点参数和临近点参数以及以下至少一种:碰撞点权重参数和临近点权重参数相关。
249.位置关系表征子单元用于基于打分结果表征候选生长片段构象的原子与蛋白分子和起点片段构象的原子之间的位置关系。
250.在某些实施例中,特定空间包括圆柱形空间,圆柱形空间的p个采样面与生长方向相互垂直,p个采样面各自包括360/n条过圆心的采样边,每条采样边包括m个采样点,其中,p、m和n是大于2的整数,360能被n整除。
251.在某些实施例中,上述装置1800还包括:匹配位置更新模块。
252.匹配位置更新模块用于如果至少一个匹配位置中包括未被遍历的匹配位置,则将未被遍历的匹配位置作为更新匹配位置,并且将起点片段构象设置于蛋白口袋构象的更新匹配位置,得到针对连接位点的更新生长方向,以在更新生长方向,将起始生长位点与连接位点连接,得到生长后的起点片段构象。
253.在某些实施例中,上述装置1800还包括:片段库构建模块。
254.片段库构建模块用于构建片段库,片段库中的生长片段包括从多个候选分子结构中裁剪获得的片段,生长片段具有切分位置信息和与切分位置信息对应的临近原子类型信息。
255.在某些实施例中,上述装置1800还包括:编码压缩模块和解码模块。
256.编码压缩模块用于对于片段库中的每个生长片段,生成生长片段的生长片段构象,并且对生长片段构象进行编码压缩;
257.解码模块用于读取经编码压缩的生长片段,并且对经编码压缩的生长片段进行解码,得到生长片段。
258.在某些实施例中,上述装置1800还包括:构象优化模块,用于对候选分子进行构象优化。
259.本技术另一方面还提供了一种设计装置。
260.图18示意性示出了根据本技术实施例的设计装置的方框图。
261.参见图18,该预测装置1800可以包括:分子结构生成模块1810和设计模块1820。
262.其中,分子结构生成模块1810,用于根据如上述的分子生成方法生成分子结构。
263.设计模块1820,用于基于分子结构进行候选药物设计或者材料设计。
264.关于上述实施例中的装置1700、1800,其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
265.本技术的另一方面还提供了一种电子设备。
266.图19示意性示出了根据本技术实施例的一种电子设备的方框图。
267.参见图19,电子设备1900包括存储器1910和处理器1920。
268.处理器1920可以是中央处理单元(central processing unit,cpu),还可以是其
他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
269.存储器1910可以包括各种类型的存储单元,例如系统内存、只读存储器(rom)和永久存储装置。其中,rom可以存储处理器1920或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1910可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1910可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
270.存储器1910上存储有可执行代码,当可执行代码被处理器1920处理时,可以使处理器1920执行上文述及的方法中的部分或全部。
271.此外,根据本技术的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本技术的上述方法中部分或全部步骤的计算机程序代码指令。
272.或者,本技术还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本技术的上述方法的各个步骤的部分或全部。
273.以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献