一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度强化学习的含能化合物分子结构生成方法与流程

2021-11-29 13:37:00 来源:中国专利 TAG:


1.本发明属于含能化合物分子领域,特别是涉及一种基于深度强化学习的含能化合物分子结构生成方法。


背景技术:

2.含能化合物是先进武器装备实现发射和毁伤的动力源和威力源,用于推进剂、炸药等领域的高能量物质。含能化合物具有高能量密度、高感度、自反应性等特点,易引发突发性的意外事故,准确、可靠地设计分子结构,全面预测和评估其特性对降低人员伤害、减少经济损失、提高研发效率具有重要意义。
3.在公告号cn105844028,名称为“一种含能化合物计算机辅助设计系统”的中国发明专利中,公开了采用基于碎片分子组合库生成模块进行分子结构设计的方法,碎片输入模块、结构预筛选模块、物化参数预测模块,用于辅助设计、开发新型含能化合物分子结构。以上公开的专利通过输入碎片分子组合库模块进行分子结构设计的方法,可以获得直接获得输入碎片分子相关的分子结构,但是以上的分子结构设计方法对分子结构组合拼装的难度大、要求高、成本高,不利于新型含能化合物的发现和研发。


技术实现要素:

4.本发明提供一种基于深度强化学习的含能化合物分子结构生成方法,解决分子结构设计方法对分子结构组合拼装的难度大、要求高、成本高,不利于新型含能化合物的发现和研发的技术问题,提供一种高效、低成本的基于深度强化学习分子结构的生成方法,通过对含能化合物的深度学习和强化学习得到学习模型,进一步自动生成含能化合物分子结构,此方法具有操作简单、方便,且特别适合化合物实验样本较少且样本差异性较大的分子结构设计。
5.为解决上述技术问题,本发明提供一种基于深度强化学习的含能化合物分子结构生成方法,包括如下步骤:
6.s1:建立含能化合物和类含能化合物的smiles分子结构数据集并生成分子结构词汇表,通过调用分子结构字典对smiles分子结构进行分词器编码,将smiles分子结构编码成数字序列;
7.s2:将编码后的类含能化合物数字序列化的分子结构通过循环神经网络进行深度学习,调节超参数得到优化的深度学习预训练模型;
8.s3:调用数字序列化的类含能化合物分子结构与深度学习预训练模型进入循环神经网络进行强化学习,调节超参数得到优化的深度强化学习模型;
9.s4:调用深度强化学习模型,调节超参数控制指纹相似度生成新型含能化合物分子结构,通过分子结构标准化得到结构正确的分子结构,并进行模型效果评价。
10.进一步地,所述s1中smiles分子结构由表示元素、键与连接关系的字母组成;所述分子结构词汇表是结合smiles分子结构数据集与smiles分子结构编码规则生成,分子结构
词汇表由35个tokenizer字符组成,调用tokenizer函数将smiles分子结构转化为数字序列的分子结构;所述类含能化合物数字序列化的分子结构长度为136,确保含能化合物和类含能化合物的smiles分子结构数字化序列的唯一性。
11.进一步地,所述s2包括如下步骤:
12.s21:将类含能化合物经数字化序列的分子结构数据集分批次输入循环神经网络进行训练;
13.s22:调整每批次训练的超参数,保留每批次交叉熵损失函数曲线到达平稳状态的模型后作为深度学习预训练模型。
14.进一步地,所述s3包括如下步骤:
15.s31:将类含能化合物经数字化序列的分子结构数据集和深度学习预训练模型输入循环神经网络;
16.s32:调整每次训练的超参数,调整每批次训练的超参数,保留每批次交叉熵损失函数曲线到达平稳状态的模型后作为深度强化学习模型。
17.进一步地,所述s4包括如下步骤:
18.s41:运行强化学习训练模型,批量生成数字序列的分子数据;
19.s42:对批量生成的数字序列数据依次进行数据解码和分子数据标准化;
20.s43:对标准化后的分子数据,过滤无效分子和去除重复分子;
21.s44:当生成的分子数量达到预先设定的分子数量时,保存生成的分子结构数据。
22.进一步地,所述循环神经网络包括嵌入层、门控循环单元、密集连接层和激活函数;类含能化合物数字序列化作为嵌入层的输入,嵌入层的输出作为门控循环单元层的输入,门控循环单元层的输出作为密集连接层的输入,密集连接层的输出作为激活函数的输入,其中嵌入层、门控循环单元层、密集连接层和激活函数依次循环执行。
23.进一步地,所述门控循环单元为三层,所述三层gru的输入输出依次连接,每层有512个神经元组成,每个神经元可由下述公式得出:
24.z
t
=σ(u
z
h
t
‑1 w
z
x
t
b
z
)
25.r
t
=σ(u
r
h
t
‑1 w
r
x
t
b
r
)
[0026][0027][0028]
式中:r
t
,z
t
分别对应gru门结构的选择门、遗忘门和更新门。x
t
为t时刻该层隐藏层的输入,h
t
为第t时刻当前层的输出,h
t
‑1为上一时刻第t

1时刻当前层的输出值作为当前时刻的输入,u,w,v为各层之间的权重系数,b
t
为当前层的偏移量;
[0029]
进一步地,所述密集连接层为线性层,采用softmax函数,具体函数如下:
[0030]
σ(z)=(σ1(z),...,σ
m
(z))
[0031][0032]
式中z为gru层输出;
[0033]
所述激活函数采用sigmoid函数,具体函数如下:
[0034][0035]
式中x为网络单元输入值。
[0036]
进一步地,所述超参数包括学习率、训练步数、批数量,所述学习率取0.001、训练步数取10000、批数量取4000;所述循环神经网络结构,深度学习和深度强化学习使用相同的循环神经网络结构
[0037]
进一步地,所述深度学习训练用数据库包括zinc数据库、chembl数据库、gdb数据库。
[0038]
本发明上述一个或多个技术方案,至少具有如下一种或多种技术效果:
[0039]
本发明提供一种基于深度强化学习的含能化合物分子结构生成方法,包括如下步骤:建立含能化合物和类含能化合物的smiles分子结构数据集并生成分子结构词汇表,通过调用分子结构字典对smiles分子结构进行分词器编码,将smiles分子结构编码成数字序列;将编码后的类含能化合物数字序列化的分子结构通过循环神经网络进行深度学习,调节超参数得到优化的深度学习预训练模型;调用数字序列化的类含能化合物分子结构与深度学习预训练模型进入循环神经网络进行强化学习,调节超参数得到优化的深度强化学习模型;调用深度强化学习模型,调节超参数控制指纹相似度生成新型含能化合物分子结构,通过分子结构标准化得到结构正确的分子结构,并进行模型效果评价。本发明通过对含能化合物的深度学习和强化学习得到学习模型,进一步自动生成含能化合物分子结构,此方法具有操作简单、方便,且特别适合化合物实验样本较少且样本差异性较大的分子结构设计。
附图说明
[0040]
图1、基于深度强化学习的含能化合物分子结构生成方法流程图;
[0041]
图2、基于深度强化学习的循环神经网络示意图;
[0042]
图3、smiles分子结构与数字化序列相互转化示意图;
[0043]
图4、生成训练类含能化合物分子结构的深度学习模型流程图;
[0044]
图5、生成训练含能化合物分子结构的深度强化学习模型流程图;
[0045]
图6、通过深度强化学习模型生成新型含能化合物分子结构的流程图;
[0046]
图7、图8、图9是通过深度强化学习模型自动生成的新型含能化合物分子的三个例子。
具体实施方式
[0047]
本发明实施例提供一种基于深度强化学习的含能化合物分子结构生成方法,解决分子结构设计方法对分子结构组合拼装的难度大、要求高、成本高,不利于新型含能化合物的发现和研发的技术问题,提供一种高效、低成本的基于深度强化学习分子结构的生成方法,通过对含能化合物的深度学习和强化学习得到学习模型,进一步自动生成含能化合物分子结构,此方法具有操作简单、方便,且特别适合化合物实验样本较少且样本差异性较大的分子结构设计。
[0048]
本发明实施例中的技术方案,总体方案如下:
[0049]
s1:建立含能化合物和类含能化合物的smiles分子结构数据集并生成分子结构词汇表,通过调用分子结构字典对smiles分子结构进行分词器编码,将smiles分子结构编码成数字序列;
[0050]
s2:将编码后的类含能化合物数字序列化的分子结构通过循环神经网络进行深度学习,调节超参数得到优化的深度学习预训练模型;
[0051]
s3:调用数字序列化的类含能化合物分子结构与深度学习预训练模型进入循环神经网络进行强化学习,调节超参数得到优化的深度强化学习模型;
[0052]
s4:调用深度强化学习模型,调节超参数控制指纹相似度生成新型含能化合物分子结构,通过分子结构标准化得到结构正确的分子结构,并进行模型效果评价。
[0053]
下面结合本发明实施例中,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部所得实施例。基于本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
[0054]
如图1

6所示,一种基于深度强化学习的含能化合物分子结构生成方法,包括如下步骤:
[0055]
(1)深度学习用类含能化合物分子结构的准备
[0056]
通过zinc、chembl、gdb数据库获取分子量mw<600,氧平衡>

75%(对于c
a
h
b
o
c
n
d
f
e
cl
f
体系,氧平衡计算公式:氧平衡=1600
×
[c

2a

(b

e

f)/2]/mw),c、h、o、n、f、cl元素组成的分子结构,分子结构格式为smiles,共290万个类含能化合物用做深度学习的训练数据。
[0057]
(2)强化学习用含能化合物分子结构的准备
[0058]
通过含能化合物手册、期刊、论文获取结构类型多样的含能化合物分子结构,分子结构格式为smiles,共3000个含能化合物用做强化学习的训练集数据。
[0059]
(3)深度学习训练模型的建立
[0060]
通过由嵌入层(embedding layer)、门控循环单元(gru)、密集连接层(dense layer)和激活函数(softmax function)组成的循环神经网络深度学习类含能化合物smiles分子结构的语法和特征,并调整模型训练的学习率、训练步数,生成交叉熵损失函数值最小的深度学习训练模型;
[0061]
(4)强化学习训练模型的建立
[0062]
把深度学习的模型作为初始点,通过由嵌入层(embedding layer)、门控循环单元(gru)、密集连接层(dense layer)和激活函数(softmax function)组成的循环神经网络强化学习含能化合物smiles分子结构的语法和特征,并调整模型训练的学习率、训练步数等超参数,生成交叉熵损失函数值最小的深度强化学习模型;
[0063]
(5)分子结构生成模块应用
[0064]
调用深度强化学习训练模型,生成数字序列的分子数据;对批量生成的数字序列分子数据依次进行数据解码和分子数据标准化,确保生成的字符序列的唯一性,保证生成的分子为新的分子;对标准化后的分子数据,过滤无效分子和去除重复分子;当生成的分子数量达到预先设定的分子数量时,保存生成的分子数据。
[0065]
(6)分子结构生成模块评估
[0066]
调用深度强化学习分子模型生成10批次(1000个分子/批),深度强化学习分子模
型生成的分子的smiles语法合理性为95.3%~98.6%;采用rdkit的morgan指纹相似度计算,比较1000个生成分子与深度强化学习训练集和深度强化学习训练集之间的平均指纹图谱相似性tc分别为0.90、0.82;tc值分别以0.9和0.8为中心呈正态分布,经过训练之后模型具有两个训练集特征。
[0067]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0068]
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献