一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置与流程

2022-02-20 05:26:37 来源:中国专利 TAG:

技术特征:
1.一种用于有机化合物的化学结构和命名双向自动转化的处理方法,有机物化学结构文件的存储格式包括:简化分子线性输入规范smiles格式、mol2格式、sdf格式和pdb格式;有机物命名方式包括:国际纯粹与应用化学联合会iupac规定的有机物命名法命名、系统命名法命名、俗名和常用名;其特征在于,在所述有机物化学结构文件存储格式为smiles格式、mol2格式、sdf格式或pdb格式的情况下,在所述有机物命名方式为iupac规定的有机物命名法命名的情况下,所述方法包括如下步骤:获取目标有机化合物待转换的化学结构文件;利用预设的化学结构转化工具将非smiles格式的所述化学结构文件转成smiles格式;对所述smiles格式进行处理获得目标第一向量;利用预设的目标转换模型对所述目标第一向量进行转换,获得若干第二向量;基于各第二向量的概率,确定目标第二向量;基于所述目标第二向量确定与所述目标有机化合物结构对应的命名。2.如权利要求1所述的方法,其特征在于,所述方法还包括采用深度学习的方法训练获得所述目标转换模型,具体包括:获取若干样本有机化合物结构的smiles格式以及对应的iupac命名;基于预设的字符-数字映射表,对各smiles格式中的各字符进行转换,获得若干第一样本向量,以作为输入向量;基于所述预设的字符-数字映射表,对各所述iupac命名中的各字符进行转换,获得若干第二样本向量,以作为目标输出向量;基于各所述输入向量以及与各所述输入向量对应的目标输出向量进行模型训练,获得所述目标转换模型。3.如权利要求2所述的方法,其特征在于,所述字符-数字映射表的配置方式,包括:获取若干样本有机化合物的smiles格式,得到第一样本集合;获取各所述样本有机化合物的iupac命名,得到第二样本集合;获取所述第一样本集合中各smiles格式中的字符,得到第一字符集合;获取所述第二样本集合中各iupac命名中的字符,得到第二字符集合;基于所述第一字符集合和所述第二字符集合构建所述字符-数字映射表。4.如权利要求3所述的方法,其特征在于,所述对所述smiles格式进行处理获得目标第一向量,具体包括:基于所述字符-数字映射表对所述目标有机化合物结构的smiles格式中的各字符进行转换,获得第一向量;利用词嵌入方法将所述第一向量转换成词嵌入向量;对所述词嵌入向量中的各偶数位置使用正弦编码,对所述词嵌入向量中的各奇数位置使用余弦编码,获得与各位置对应的位置编码值;将所述词嵌入向量中各位置的词嵌入值与位置编码值相加,获得所述目标第一向量。5.如权利要求3所述的方法,其特征在于,所述基于所述目标第二向量确定与所述目标有机化合物对应的命名,具体包括:基于所述字符-数字映射表对所述目标第二向量中的各数字进行转换,获得与所述目标有机化合物对应的命名。
6.一种用于有机化合物的化学结构和命名双向自动转化的处理方法,有机物化学结构文件的存储格式包括:smiles格式、mol2格式、sdf格式和pdb格式;有机物命名方式包括:iupac规定的有机物命名法命名、系统命名法命名、俗名和常用名;其特征在于,在所述有机物化学结构文件存储格式为smiles格式、mol2格式、sdf格式或pdb格式的情况下,在所述有机物命名方式为iupac规定的有机物命名法命名的情况下,所述方法包括如下步骤:获取目标有机化合物待转换的iupac命名;对所述iupac命名进行处理获得目标第一向量;利用预设的目标转换模型对所述目标第一向量进行转换,获得若干第二向量;基于各第二向量的概率,确定目标第二向量;基于所述目标第二向量确定与所述目标有机化合物对应的smiles格式的化学结构文件;利用预设的化学结构转化工具将smiles格式的化学结构文件转换成目标格式化学结构文件。7.如权利要求6所述的方法,其特征在于,所述方法还包括:采用深度学习的方法训练获得所述目标转换模型,具体包括:获取若干样本有机化合物结构的smiles格式以及对应的iupac命名;基于预设的字符-数字映射表,对各iupac命名中的各字符进行转换,获得若干第一样本向量,以作为输入向量;基于所述预设的字符-数字映射表,对与各所述smiles中的各字符进行转换,获得若干第二样本向量,以作为目标输出向量;基于各所述输入向量以及与各所述输入向量对应的目标输出向量进行模型训练,获得所述目标转换模型。8.如权利要求7所述的方法,其特征在于,所述字符-数字映射表的配置方式,包括:获取若干样本有机化合物的smiles,得到第一样本集合;获取各所述样本有机化合物的iupac命名,得到第二样本集合;获取所述第一样本集合中各smiles中的字符,得到第一字符集合;获取所述第二样本集合中各iupac命名中的字符,得到第二字符集合;基于所述第一字符集合和所述第二字符集合构建所述字符-数字映射表。9.如权利要求8所述的方法,其特征在于,所述对所述命名进行处理获得目标第一向量;具体包括:基于所述字符-数字映射表对所述iupac命名中的各字符进行转换,获得第一向量;利用词嵌入方法将所述第一向量转换成词嵌入向量;对所述词嵌入向量中的各偶数位置使用正弦编码,对所述词嵌入向量中的各奇数位置使用余弦编码,获得与各位置对应的位置编码值;将所述词嵌入向量中各位置的词嵌入值与位置编码值相加,获得所述目标第一向量。10.如权利要求8所述的方法,其特征在于,所述基于所述目标第二向量确定与所述目标有机化合物对应的smiles格式的化学结构文件,具体包括:基于所述字符-数字映射表对所述目标第二向量中的各数字进行转换,获得与所述目标有机化合物对应的smiles格式的化学结构文件。
11.一种用于有机化合物的化学结构和命名转化的处理装置,其特征在于,包括:获取模块,用于获取目标有机化合物待转换的化学结构文件;第一转换模块,用于利用预设的化学结构转化工具将非smiles格式的所述化学结构文件转成smiles格式;处理模块,用于对所述smiles格式进行处理获得目标第一向量;第二转换模块,用于利用预设的目标转换模型对所述目标第一向量进行转换,获得若干第二向量;第一确定模块,用于基于各第二向量的概率,确定目标第二向量;第二确定模块,用于基于所述目标第二向量确定与所述目标有机化合物结构对应的命名。12.一种用于有机化合物的命名和化学结构转化的处理装置,其特征在于,包括:获取模块,用于获取目标有机化合物待转换的iupac命名;处理模块,用于对所述iupac命名进行处理获得目标第一向量;第一转换模块,用于利用预设的目标转换模型对所述目标第一向量进行转换,获得若干第二向量;第一确定模块,用于基于各第二向量的概率,确定目标第二向量;第二确定模块,用于基于所述目标第二向量确定与所述目标有机化合物对应的smiles格式的化学结构文件;第二转换模块,用于利用预设的化学结构转化工具将smiles格式的化学结构文件转换成目标格式化学结构文件。

技术总结
本发明公开了一种用于有机化合物的化学结构和命名双向自动转化的处理方法及装置,在有机物化学结构文件存储格式为SMILES格式、MOL2格式、SDF格式或PDB格式的情况下,在有机物命名方式为IUPAC规定的有机物命名法命名的情况下,所述方法包括:获取目标有机化合物待转换的化学结构文件;利用预设的化学结构转化工具将非SMILES格式的化学结构文件转成SMILES格式;对SMILES格式进行处理获得目标第一向量;利用预设的目标转换模型对目标第一向量进行转换,获得若干第二向量;基于各第二向量的概率,确定目标第二向量;基于目标第二向量确定与所述目标有机化合物结构对应的命名。本发明的处理方法和装置能够使得化学结构与命名之间的转换能够更加方便、快捷,提高了转换效率。换效率。


技术研发人员:蒋华良 郑明月 钟飞盛 陈立凡
受保护的技术使用者:中国科学院上海药物研究所
技术研发日:2020.07.09
技术公布日:2022/1/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献