一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的化学分子相关水溶性预测方法与流程

2022-02-25 21:09:33 来源:中国专利 TAG:


1.本发明涉及分子水溶性分析技术领域,更具体地,涉及一种基于深度学习的化学分子相关水溶性预测方法。


背景技术:

2.近年来,深度学习已成功应用于目标检测和图像分割,它为处理大量数据和在科学领域做出有用的预测提供了有用的工具。然而,将深度学习相关框架应用在分子属性预测上仍然是一个具有挑战性的研究问题。由于新实验技术的出现以及可用化合物活性和生物医学数据的显着增加,深度学习在药物发现中的应用也得到了进一步推动,例如包括制药公司药物设计过程中分子相互作用的预测,药物-靶标相互作用预测的探索,化学合成和逆合成途径的探索,以及化学性质的预测等。
3.可以预见的是,深度学习将在未来更多地参与药物发现领域。在药物发现的历史上,水溶性预测这一重要的物理化学分子性质多年来一直受到深入研究。化学信息的各种表示和深度学习架构模型也已应用于溶解度预测问题。根据表示方法的选择取决于不同的模型,最常用的组合包括分子指纹和全连接神经网络、smiles表征和循环神经网络、分子图和图神经网络等。在现有的水溶性预测模型架构中,训练数据集的大小范围从100到10000不等。由于使用的数据集不同,报告的性能差异很大,并且存在许多挑战,例如数据集噪声、分子的复杂空间结构等。
4.综上,搭建一个稳定且健壮的深度学习模型,使得在分子水溶性预测上实现较好的效果,以节省药物研发的时间和经济成本仍然是一个非常值得研究的问题。


技术实现要素:

5.本发明的目的是克服上述现有技术的缺陷,提供一种基于深度学习的化学分子相关水溶性预测方法。
6.根据本发明的第一方面,提供一种基于深度学习的化学分子相关水溶性预测方法。该方法包括以下步骤:
7.构建深度学习模型,其中所述深度学习模型基于双向时间序列预测模型和注意力机制构建,用于学习化学分子结构序列与水溶性属性之间的对应关系;
8.以设定的损失函数最小化为目标训练所述深度学习模型,训练过程以表征化学分子结构的字符序列编码作为输入,以化学分子相关水溶性属性信息作为输出。
9.根据本发明的第二方面,提供一种化学分子相关水溶性预测方法。该方法包括以下步骤:
10.获取表征待测化学分子结构的字符序列编码;
11.将所述字符序列编码输入到根据本发明上述第一方面获得的经训练深度学习模型,获得该化学分子相关水溶性属性信息。
12.与现有技术相比,本发明的优点在于,提供一种基于数据驱动的端到端的深度学
习模型(bcsa),并将其应用到分子水溶性的预测过程中。本发明提供的模型简单且不依赖于额外的辅助知识,也可用于预测其他物理化学和admet特性。
13.通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
14.被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
15.图1是根据本发明一个实施例的端到端深度学习模型的架构示意图;
16.图2是根据本发明一个实施例的验证集和测试集的训练过程中r2的变化示意图;
17.图3是根据本发明一个实施例的四种不同模型的预测效果散点图;
18.图4是根据本发明一个实施例的测试集上的预测结果散点图。
具体实施方式
19.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
20.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
21.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
22.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
23.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
24.简言之,本发明提供的基于深度学习的化学分子相关水溶性预测方法整体上包括深度学习模型的预训练过程和实际预测过程。预训练过程包括以下步骤:构建深度学习模型,所述深度学习模型基于双向时间序列预测模型和注意力机制构建,用于学习化学分子结构序列与水溶性属性之间的对应关系;以设定的损失函数最小化为目标训练所述深度学习模型,训练过程以表征化学分子结构的字符序列编码作为输入,以化学分子相关水溶性属性信息作为输出。其中双向时间序列预测模型可采用双向长短期记忆网络(bilstm)或双向门控循环单元(bigru)等。表征化学分子结构的字符序列可采用smiles格式或其他格式的字符序列,smiles是用ascii字符串明确描述分子结构的规范。为清楚起见,下文以bilstm模型和smiles为例进行说明。
25.在本发明中,利用smiles{weininger,1988#86}分子表征在bilstm和channel attention(通道注意力)和spatial attention(空间注意力)工作的基础上构建了一个bcsa模型架构,并且针对smiles分子表征的不唯一性,又利用smiels增强技术对数据进行扩增,以获得更多有效的标记数据集作为该模型的输入,利用每个扩增分子的平均值作为最终预测结果使得模型具有更强大的泛化能力。然后,又针对同一数据集利用不同的常用
的图神经网络模型与本发明进行比较研究,探索不同的分子表征下本发明所提供模型的性能优势。
26.在下文中,将具体描述数据预处理过程、模型架构以及评估结果。
27.一、分子数据集的表示和预处理
28.在一个实施例中,使用的数据集源自cui{cui,2020#69}等人2020的工作,包含9943种非冗余化合物。分子以smiles(simplified molecular-input line-entry system)的格式呈现。这种符号格式的特点是单行文本和一系列原子和共价键。从形式语言理论的角度来看,将原子和共价键都视为符号标记,而smiles字符串只是一个符号序列。这种表示已被用于预测生化特性,为了编码smiles,本发明使用{schwaller,2018#64}中的正则表达式来标记它们,并且标记用空格分隔。处理结果例如:“c1 c(c)c ccc 1”。接下来,采用类似于word2vec的方法来进行嵌入输入。此外,数据集通过smiles枚举增强扩展数据集,并且smiles字符串用“填充”填充到150个字符的固定长度。超出此长度的多余文本直接丢弃。最后,数据集被随机分成训练集(80%)、验证集(10%)和测试集(10%)。
29.二、深度学习模型架构
30.参见图1所示,深度学习模型主体包括bilstm、通道注意力模块和空间注意力模块,用于学习化学分子结构序列与水溶性属性之间的对应关系。
31.bilstm主要是为了获取smiles的序列信息,本发明利用rnn(循环神经网络)模型在自然语言处理中对序列中远程关系的良好的处理能力,在批处理模式下基于lstm模型的特殊变体bilstm获取smiles序列的上下文信息。bilstm由一个向前处理序列的lstm和一个向后处理序列的lstm组合而成,这使得它不仅可以处理来自过去的特征,也可以处理来自未来的特征。bilstm利用smiles序列编码作为输入未来的特征。bilstm利用smiles序列编码作为输入每个时间步t都会输出向前的隐藏层状态和向后的隐藏层状态bilstm在t时刻隐藏层的输出是两个状态的连接,可表示为:
[0032][0033]
进一步地,bilstm的处理过程可归纳为:
[0034]
c=f(wexi,h
t-1
)
ꢀꢀꢀ
(2)
[0035]
其中f表示一个多层的bilstm,we是嵌入向量的学习权重,简单化表示为:
[0036]
c={h1,h2,

,h
t
}
ꢀꢀꢀ
(3)
[0037]
针对注意力机制,本发明实施例将cbam(convlution block attention module,卷积块注意模块)机制优化嵌入到当前向前传播的序列神经网络模型中,包括两个子模块,一个标记为channel attention map(mc),另一个标记为spatial attention map(ms),分别用于获取不同通道和空间轴上的重点信息,整个注意力输出过程可以被表示为:
[0038][0039]
其中表示元素的点乘。σ表示sigmoid激活函数,c

是最终的输出。
[0040]
具体地,通道注意力模块(channel attention moudle)主要关注smiles字符内容是什么。例如,首先通过平均池化(average-pooling)和最大池化(max-pooling)操作聚合bilstm输出矩阵的空间信息,获得两个不同的空间上下文描述符c
avg
和c
max
,分别表示平均
池化输出信息和最大池化输出信息;将两个描述符分别输入到一个2层共享mlp网络,最后利用求和的方式获得channel attention的输出向量。整个过程被形式化表示为:
[0041]
mc(c)=mlp(avgpool1d(c)) mlp(maxpool1d(c))
[0042]
=w1(σ(w0(c
avg
)) w1(σ(w0(c
max
)))
ꢀꢀꢀ
(5)
[0043]
为了减轻网络的开销,σ例如使用relu激活函数,w0,w1分别是共享mlp(多层感知器)模型第一层和第二层的学习权重。
[0044]
空间注意力模块(spatial attention moudle)主要集中在smiles字符序列信息部分。在一个实施例中,利用了两层核为7的一维卷积网络来实现,具体实现形式化为:
[0045]ms
(c)=conv1d
7,1
(σ(conv1d
7,16
(c)))(6)
[0046]
其中,σ表示relu激活函数,conv1d
7,x
表示一个kernel大小为7,filters为x的1维卷积图层。最终整个注意力网络模块表示为:
[0047][0048]
其中表示点乘,o表示通过avg-pooling操作聚合注意力加权之后的隐藏状态映射向量。
[0049]
在本发明中,回归任务最后一部分是将训练的向量o输送给一个两层的全连接层预测最终的属性值。例如,可利用深度学习研究过程中普遍采用的relu作为中间激活函数,并利用dropout缓解过拟合的发生。在训练过程中,使用mse(均方误差)作为模型训练的损失函数,表示为:
[0050][0051]
其中,n表示训练的数据大小,表示预测值,yi代表实验的真实值。
[0052]
三、关于超参数的选择
[0053]
在本发明提供的模型中,有许多参数影响训练和架构,在不同的参数设置下,模型的性能会有所不同。在一个实施例中,采用贝叶斯优化{bergstra,2011#92}探索超参数最佳选择,以佳选择,以作为最小化目标采集函数,其中表示预测值,yi代表真实值,表示实验真实值均值。在优化时,利用tpe(tree-structured parzen estimator)算法根据过去的结果构建概率模型。在训练集上进行训练,总共生成了100个模型,每个模型训练60个epoch,并加入早停策略(patience=20)加快训练速度。最终利用验证机的最佳预测效果找到训练的最佳超参数如表1所示。最终该模型将进一步在枚举(enumeration)训练集上训练到30个点以期待提高最终精度。
[0054]
表1:超参数选择空间以及最优超参数
[0055][0056][0057]
模型的框架使用pytorch实现并且所有的计算和模型训练都在linux服务器(opensuse):intel(r)xeon(r)platinum 8173m cpu@2.00ghz和nvidiageforce rtx 2080ti graphics card with 11g。
[0058]
四、评估标准
[0059]
在一个实施例中,使用回归任务中常用的四个性能指标来评估所提供的模型,包括:(决定系数)r-squared(r2),spearman,rmse,mae。其中r2,spearman系数度量可以帮助观测整个模型对数据的拟合能力是否良好,计算结果越接近于1,模型拟合效果越好,反之亦然。而rmse,mae误差度量可以帮助衡量预测值与真实值之间的差异,计算结果越接近于0,预测效果越好,反之亦然。
[0060]
五、针对水溶性的验证结果
[0061]
本发明的目的是利用分子smiles序列自编码开发一种深度学习模型,用来探索基于smiles分子序列描述符的深度神经网络对预测分子溶解度的作用。例如,在原始的数据集上包括7955个训练集,996个验证集和995个测试集。利用表1中训练的最佳超参数分别搭建了bilstm模型并在此基础上搭建了bcsa模型。图2显示了曲线的平滑度=0.8时,训练400个epoch过程中验证集和测试集的模型拟合效果r2的变化趋势。从图中可以明显的看出,本发明的模型无论是在验证集(validation sets)还是测试集(test sets)上都比bilstm模型有更强的拟合效果和泛化能力。
[0062]
在深度学习中,样本数量越多,训练出来的效果越好,模型泛化能力越强。由于本发明的模型是基于smiles分子序列编码的,并且不同的分子存在多种不同的smiles字符,即存在多种序列编码,所以数据增强是可行且有必要的。优选地,进一步利用smiles增强技术在原始切分数据集上进行了扩增,分别训练了分子增强20倍(每个分子用20个smiles表示)和40倍(每个分子用40个smiles表示)的bcsa模型,其中结构简单的分子可能会存在重复的smiles。为防止影响训练结果,经过清除重复数据,最终获得的训练集、验证集和测试集分别为(134454:19881:16834)和(239260:30042:39800)的扩增数据。实验中,利用训练过程中验证集r2表现效果最好的模型,利用测试集中扩增分子的均值作为最终预测结果来衡量该模型对分子序列的信息的提取能力,结果参见表2。验证结果表明,增强后的数据模
attention模块提取smiles序列中关于水溶性预测的重点信息部分,并利用贝叶斯优化,使得所提供的模型简单且不依赖于额外的辅助知识(如分子复杂的空间结构)并且可用于其他物理化学和admet特性(吸收、分布、代谢、排泄和毒性特性)的预测。
[0069]
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
[0070]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0071]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0072]
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c 、python等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
[0073]
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0074]
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功
能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
[0075]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
[0076]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
[0077]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献