一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的逆合成预测方法、装置、介质及设备与流程

2022-03-23 00:06:09 来源:中国专利 TAG:


1.本发明涉及逆合成预测技术领域,更具体地说,涉及一种基于深度学习的逆合成预测方法、装置、介质及设备。


背景技术:

2.如今,有机合成已经成为化学领域中最为重要的学科之一,其研究内容遍布材料、能源、生命等各个学科,在社会文明发展与人们日常生活中发挥着极其重要的作用。有机合成是指利用化学方法将单质、简单的无机物或简单的有机物制成比较复杂的有机物的过程。近年来,计算机辅助合成设计(computer-assisted synthetic planning,casp)的技术发展迅速,尤其逆合成设计为化学家们在药物合成方面带来了极大的便利。逆合成设计旨在为某个产物分子找到一系列可商购获得的反应物,逆合成预测即在给定目标有机化合物的基础上,预测其对应的反应物的过程。
3.传统的逆合成预测方法大多数都是基于模板的,基于模板的方法在已有的化学反应的基础上,提取逆合成反应中心模板,然后将产物和已提取的反应中心模板进行匹配,根据匹配到的模板来预测反应物的集合。由于基于模板的方法所提取的模板都是基于已知的化学反应的,总存在一些反应是无法匹配到已经提取的模板的,对于这些反应,模型最终得到的逆合成预测结果通常是不理想的,因此,基于模板的方法存在泛化性不足的问题。
4.近年来,随着人工智能的兴起和发展,应用深度学习的新尝试逐渐进入人们的视野,逆合成预测任务也被视为一个深度学习任务加以研究。利用深度学习进行逆合成预测的方法主要分为两类,一类是基于逆合成分析法的方法,另一类是端到端的方法。基于逆合成分析法的方法将逆合成预测任务分为两步,第一步用一个模型识别出产物的反应中心,然后断开反应中心得到多个合成子;第二步用另一个模型将多个合成子转换成相应的反应物集合。基于逆合成分析法的方法具有一定的可解释性,但实现的过程较为繁琐。端到端的方法将逆合成预测任务视为一个序列到序列的翻译任务,具体来说,产物和反应物都可以表示成一个确定的序列,这种序列称为简化分子线性输入规范(simplified molecular input line entry specification,smiles),因此,可以将逆合成预测任务视为产物smiles序列到反应物smiles序列的转换过程。端到端的方法可以一步实现逆合成预测,但是仅采用smiles序列并不能充分考虑分子的结构信息。
5.综上,目前基于深度学习的逆合成预测方法存在改进空间。


技术实现要素:

6.为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于深度学习的逆合成预测方法、装置、介质及设备;该方法解决了smiles序列不能充分考虑分子结构信息的问题,提高了模型预测结果的准确度。
7.为了达到上述目的,本发明通过下述技术方案予以实现:一种基于深度学习的逆合成预测方法,包括如下步骤:
8.s1步,将目标产物转换为相应的smiles序列;对smiles序列进行结构信息的提取,结构信息包括分子中原子的度信息以及表示分子间原子之间连接状况的邻接矩阵信息;
9.s2步,对度信息进行编码得到度信息编码;对邻接矩阵信息进行编码得到邻接信息编码;
10.s3步,将smiles序列输入transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对smiles序列的编码;transformer模型将编码器的编码结果输入到解码器中进行解码,得到反应物集合的smiles序列;将反应物集合的smiles序列进行转换得到相应的反应物;
11.所述transformer模型是指经过训练和测试处理的transformer模型。
12.优选地,所述s1步中,对smiles序列进行提取:对于度信息,将smiles序列中每个原子的度信息分别设定为与原子相关联的键数量,除原子外的特殊符号的度信息分别设定为
‘0’
;对于邻接矩阵信息,将两个原子之间相连的邻接矩阵信息的对应位置设定为
‘1’
,两个原子之间不相连的邻接矩阵信息的对应位置设定为
‘0’
,其余对应位置设定为

n’。
13.优选地,所述s2步中,将度信息的每个符号当作一个单词,构建出相应的词汇表,通过词汇表将度信息转换成相应的one-hot向量;将one-hot向量转换为相应的度信息编码:
14.d
emb
=dwd15.其中,d的维度为度信息词汇表的长度,wd为可学习的参数矩阵,d
emb
为d对应的度信息编码,维度为smiles序列每个符号的词向量维度。
16.优选地,将邻接矩阵信息的每个符号当作一个单词,构建出相应的词汇表,通过词汇表将邻接矩阵信息转换成相应的one-hot向量;将one-hot向量转换为相应的邻接信息编码,由邻接信息编码构造出head个邻接信息编码矩阵:
17.a
emb
=awa18.其中,a的维度为邻接矩阵信息词汇表的长度,wa为可学习的参数矩阵,a
emb
为a对应的邻接信息编码,维度为transformer编码器中多头自注意力层的注意力头数head。
19.优选地,所述s3步,将度信息编码和smiles序列的词向量进行相加作为transformer模型编码器输入;将邻接信息编码嵌入到transformer模型编码器的多头自注意层,以通过邻接信息来调整smiles序列中原子间的注意力关系。
20.优选地,所述将邻接信息编码嵌入到transformer模型编码器的多头自注意层,是指:将邻接信息编码矩阵和transformer模型编码器的多头自注意层中的注意力系数矩阵进行点乘:
[0021][0022]
其中,qi、ki分别表示第i个注意力头的query矩阵、key矩阵,dk表示key矩阵的维度,ai表示第i个邻接信息编码矩阵。
[0023]
一种基于深度学习的逆合成预测装置,包括:
[0024]
结构信息提取模块,用于将目标产物转换为相应的smiles序列;对smiles序列进行结构信息的提取,结构信息包括分子中原子的度信息以及表示分子间原子之间连接状况
的邻接矩阵信息;
[0025]
信息编码模块,用于对度信息进行编码得到度信息编码;对邻接矩阵信息进行编码得到邻接信息编码;
[0026]
预测模块,用于将smiles序列输入transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对smiles序列的编码;transformer模型将编码器的编码结果输入到解码器中进行解码,得到反应物集合的smiles序列;将反应物集合的smiles序列进行转换得到相应的反应物;所述transformer模型是指经过训练和测试处理的transformer模型。
[0027]
一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述基于深度学习的逆合成预测方法。
[0028]
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述基于深度学习的逆合成预测方法。
[0029]
与现有技术相比,本发明具有如下优点与有益效果:
[0030]
本发明的优点在于针对目前端到端的逆合成预测方法存在的问题,提出一个更契合逆合成预测的transformer模型,通过将度和邻接矩阵两种结构信息嵌入到transformer模型中,来解决smiles序列不能充分考虑分子结构信息的问题,从而提高了模型预测结果的准确度。利用本发明提出的模型来进行合理的逆向合成预测,有助于化学家设计靶向分子的合成路线,可以极大地帮助化学家设计合成新分子的途径。
附图说明
[0031]
图1是本发明基于深度学习的逆合成预测方法的原理示意图;
[0032]
图2是本发明基于深度学习的逆合成预测方法的流程图;
[0033]
图3是本发明基于深度学习的逆合成预测方法的分子结构信息提取示意图;
[0034]
图4是本发明基于深度学习的逆合成预测方法的度信息编码示意图;
[0035]
图5是本发明基于深度学习的逆合成预测方法的邻接信息编码示意图;
[0036]
图6是本发明基于深度学习的逆合成预测方法的transformer模型示意图。
具体实施方式
[0037]
下面结合附图与具体实施方式对本发明作进一步详细的描述。
[0038]
实施例一
[0039]
目前,基于序列到序列模型的逆合成预测方法大多数仅考虑了分子的smiles序列信息,缺乏对分子结构信息的考虑,而分子结构信息在化学反应过程中是十分重要的。针对基于序列到序列模型的逆合成预测方法中存在的smiles序列不能充分考虑分子的结构信息的问题。
[0040]
本实施例提出一种基于深度学习的逆合成预测方法,通过将分子的结构信息嵌入到transformer模型中,解决smiles序列表示存在的问题,提高逆合成预测结果的准确性,其原理如图1所示。
[0041]
逆合成预测方法包括如下步骤,如图2所示:
[0042]
s1步,将目标产物转换为相应的smiles序列;对smiles序列进行结构信息的提取,
结构信息包括分子中原子的度信息以及表示分子间原子之间连接状况的邻接矩阵信息。度信息指的是与该原子相关联的键的数量。邻接矩阵信息反映原子间的连接情况,即分子的拓扑结构信息。
[0043]
度信息和邻接矩阵信息的提取主要使用的是一个rdkit的化学工具库,它可以用于处理smiles序列。对于度信息,将smiles序列中每个原子的度信息分别设定为与原子相关联的键数量;如图3所示的环状分子,每个原子都有2个与其相关联的键,因此每个原子的度信息都设定为
‘2’

[0044]
对于邻接矩阵信息,将两个原子之间相连的邻接矩阵信息的对应位置设定为
‘1’
,两个原子之间不相连的邻接矩阵信息的对应位置设定为
‘0’

[0045]
一般来说,度信息和邻接矩阵信息仅包含原子或者原子间的信息,而smiles序列中还存在一些特殊的符号。因此,为了更好地将度信息和邻接矩阵信息嵌入到transformer模型中,本发明基于分子的smiles序列,对原始的度信息和邻接矩阵信息进行了拓展,如图3所示。除原子外的特殊符号的度信息,如
‘1’


=’等,分别设定为
‘0’
;对于邻接矩阵信息,smiles序列中原子符号之间的邻接信息和从rdkit获取的邻接矩阵信息一一对应,其余对应位置(特殊符号和其它所有符号的邻接信息)则统一用

n’来表示。
[0046]
s2步,对度信息进行编码得到度信息编码,如图4所示;对邻接矩阵信息进行编码得到邻接信息编码,如图5所示。
[0047]
具体地说,将度信息的每个符号当作一个单词,构建出相应的词汇表,如{
‘0’
:0,
‘1’
:1,
‘2’
:2,...},通过词汇表将度信息转换成相应的one-hot向量;假设某一个符号的度信息相应的one-hot向量为d,则将one-hot向量转换为相应的度信息编码:
[0048]demb
=dwd[0049]
其中,d的维度为度信息词汇表的长度,wd为可学习的参数矩阵,d
emb
为d对应的度信息编码,维度为smiles序列每个符号的词向量维度.如图4所示,相同的度信息得到的编码是一样的,度信息
‘2’
得到的编码都为d
emb2
,度信息
‘0’
得到的编码都为d
emb0

[0050]
将邻接矩阵信息的每个符号当作一个单词,构建出相应的词汇表,如{
‘0’
:0,
‘1’
:1,

n’:2}通过词汇表将邻接矩阵信息转换成相应的one-hot向量;假设某一邻接信息相应的one-hot向量为a,则将one-hot向量转换为相应的邻接信息编码,由邻接信息编码构造出为head个邻接信息编码矩阵:
[0051]aemb
=awa[0052]
其中,a的维度为邻接矩阵信息词汇表的长度,wa为可学习的参数矩阵,a
emb
为a对应的邻接信息编码,维度为transformer编码器中多头自注意力层的注意力头数head。如图5所示,用所有邻接信息编码向量的同一维构造一个邻接信息编码矩阵,可以得到head个邻接信息编码矩阵。
[0053]
s3步,transformer模型是谷歌提出的一个自然语言处理(naturelanguageprocessing,nlp)领域的经典模型。transformer模型包含n个编码器和n个解码器。源语言句子经过词嵌入和位置编码后,首先输入n个串联的编码器中,然后将编码的结果分别输入到n个串联的解码器中进行解码,最后根据输出的概率得到目标语言句子。
[0054]
本发明将transformer模型应用于逆合成预测中,结构如图6所示,将smiles序列
输入transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对smiles序列的编码;transformer模型将编码器的编码结果输入到解码器中进行解码,得到反应物集合的smiles序列;将反应物集合的smiles序列进行转换得到相应的反应物。
[0055]
具体地说,将度信息编码和smiles序列的词向量进行相加作为transformer模型编码器输入,使得smiles序列中每个符号的编码信息包含度信息,丰富了smiles序列中每个符号的编码信息。将邻接信息编码嵌入到transformer模型编码器的多头自注意层;具体地说,将邻接信息编码矩阵和transformer模型编码器的多头自注意层中的注意力系数矩阵进行点乘,以通过邻接信息来调整smiles序列中原子间的注意力关系:
[0056][0057]
其中,qi、ki分别表示第i个注意力头的query矩阵、key矩阵,dk表示key矩阵的维度,ai表示第i个邻接信息编码矩阵。
[0058]
注意力头的query矩阵和key矩阵通过对输入p进行线性变换得到:
[0059][0060]
其中,q、k、v分别为注意力头的query矩阵、key矩阵、value矩阵,q、k、v的维度分别为(l,dq),(l,dk),(l,dv);wq、wk、wv为可学习的参数矩阵。
[0061]
transformer模型是指经过训练和测试处理的transformer模型。训练和测试的过程是:将样本进行s1步和s2步处理,得到样本的度信息编码和邻接信息编码;之后将样本的smiles序列、度信息编码和邻接信息编码输入到transformer模型中以进行训练和测试。
[0062]
为验证本发明方法的预测效果,采用测试样本对单纯transformer模型、嵌入度信息编码的transformer模型、嵌入邻接信息编码的transformer模型,以及嵌入度信息编码和邻接信息编码的transformer模型分别进行测试。测试结果表明,单独嵌入度信息编码或邻接信息编码都能提高模型的预测效果,同时嵌入度信息编码和邻接信息编码两种信息比单独嵌入一种信息编码的预测效果要更好。
[0063]
为实现上述基于深度学习的逆合成预测方法,本实施例还提供一种基于深度学习的逆合成预测装置,包括:
[0064]
结构信息提取模块,用于将目标产物转换为相应的smiles序列;对smiles序列进行结构信息的提取,结构信息包括分子中原子的度信息以及表示分子间原子之间连接状况的邻接矩阵信息;
[0065]
信息编码模块,用于对度信息进行编码得到度信息编码;对邻接矩阵信息进行编码得到邻接信息编码;
[0066]
预测模块,用于将smiles序列输入transformer模型编码器中,并利用度信息编码和邻接信息编码来优化对smiles序列的编码;transformer模型将编码器的编码结果输入到解码器中进行解码,得到反应物集合的smiles序列;将反应物集合的smiles序列进行转换得到相应的反应物;所述transformer模型是指经过训练和测试处理的transformer模
型。
[0067]
实施例二
[0068]
本实施例一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于深度学习的逆合成预测方法。
[0069]
实施例三
[0070]
本实施例一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的基于深度学习的逆合成预测方法。
[0071]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献