一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种分子图像缺键识别技术的制作方法

2021-10-30 01:59:00 来源:中国专利 TAG:识别 图像 分子 化学 技术


1.本发明涉及化学领域,具体是一种分子图像缺键识别技术。


背景技术:

2.在化学、药物发现领域内,存在海量期刊、专利等文献资料,如果能够对这些文献资料中的化合物图像,准确地识别、存储,可以方便科研人员进行检索,帮助科研人员进行分析研究,极大地提高科研工作效率。另外,化合物图像以化学分子式字符串的形式存储,为后续人工智能等技术引入到化学研究、药物发现领域,提供数据资源。
3.目前的化合物图像识别领域,并没有针对实际场景下,化合物图像存在缺键等噪声问题的图像识别方案;中国专利cn111860507a基于对抗学习的化合物图像分子结构式提取方法;利用深度学习方法进行化合物图像分子结构式的提取,但是这种方式在处理带噪声的化合物图像时,尤其是图像中化合物分子的化学键存在缺失时,存在着明显的不足。
4.因此,本发明提供了一种分子图像缺键识别技术,以解决上述背景技术中提出的问题。


技术实现要素:

5.本发明的目的在于提供一种分子图像缺键识别技术,以解决上述背景技术中提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种分子图像缺键识别技术,包括以下过程:
7.s1:生成化合物分子式图像:利用rdkit软件工具,把化合物分子式(smiles或者inchi字符串)生成化合物分子式对应的图像,模拟原始化合物图像的风格,在生成图像上叠加噪音,进行风格变换使其无限接近于原始图像的风格;
8.s2:生成图像原子、化学键标注数据集:s1中生成的图像,具有原子坐标信息,及原子之间化学键类型信息;利用这些信息,可以对图像中的原子和化学键进行标注,得到原子及化学键标注集;对该标注集,按照一定的比例进行划分,得到训练集1、测试集1和验证集1;
9.s3:生成环标注集:利用s1中生成的部分图像,对其中的环进行标注,得到环标注集;对改标注集,按照一定的比例进行划分,得到训练集2、测试集2和验证集2;
10.s4:原子、化学键检测识别模型和环检测识别模型:利用目标检测神经网络模型,在训练集1、测试卷1和验证集1上训练原子、化学键检测识别模型;在训练集2、测试集2和验证集2上训练环检测模型;
11.s5:生成化合物分子图:利用s4中训练的原子、化学键识别模型,对化合物图像进行检测识别,化学键作为原子之间的关系,利用识别到的化学键对原子进行连接操作,形成化合物分子图;
12.s6:利用rdkit软件工具进行分子图的校验并生成smiles或者inchi字符串。
13.作为本发明进一步的方案:利用环检测模型,对化合物图像进行检测识别,得到环的检测框以及环的类型用来推理未检测到化学键,从而引入原子间关系的推理能力。
14.作为本发明再进一步的方案:化合物的环类型定义之后,结合环上原子、原子的化合价,以及化学先验知识,可以推理s4中原子、化学键检测识别模型输出的化学键检测结果是否存在缺失。
15.作为本发明再进一步的方案:目标检测模型包括特征提取网络、分类网络、回归网络。
16.作为本发明再进一步的方案:目标检测模型中的特征提取网络,可以用resnet、efficientnet卷积神经网络。
17.有益效果
18.与现有技术相比,本发明的有益效果是:
19.1.环检测辅助推理缺失键引入到化合物分子生产流程中,在原子之间的关系检测中,引入推理能力,提高化合物分子式生成的准确率。
20.2.化合物分子图像,非常复杂,缺少标注数据集,而且标注数据需要专业知识。通过软件生成化合物图像,算法模拟原始图像风格,可以自动生成大量的标注数据。
附图说明
21.图1为本发明中目标检测模型的流程图;
22.图2为本发明中化合物图像分子smiles或者inchi提取算法的流程图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
24.请参阅图1~2,本发明实施例中,一种分子图像缺键识别技术,包括以下过程:
25.s1:生成化合物分子式图像:利用rdkit软件工具,把化合物分子式(smiles或者inchi字符串)生成化合物分子式对应的图像,模拟原始化合物图像的风格,在生成图像上叠加噪音,进行风格变换使其无限接近于原始图像的风格;
26.s2:生成图像原子、化学键标注数据集:s1中生成的图像,具有原子坐标信息,及原子之间化学键类型信息;利用这些信息,可以对图像中的原子和化学键进行标注,得到原子及化学键标注集;对该标注集,按照一定的比例进行划分,得到训练集1、测试集1和验证集1;
27.s3:生成环标注集:利用s1中生成的部分图像,对其中的环进行标注,得到环标注集;对改标注集,按照一定的比例进行划分,得到训练集2、测试集2和验证集2;
28.s4:原子、化学键检测识别模型和环检测识别模型:利用目标检测神经网络模型,在训练集1、测试卷1和验证集1上训练原子、化学键检测识别模型;在训练集2、测试集2和验证集2上训练环检测模型;
29.s5:生成化合物分子图:利用s4中训练的原子、化学键识别模型,对化合物图像进行检测识别,化学键作为原子之间的关系,利用识别到的化学键对原子进行连接操作,形成化合物分子图;
30.s6:利用rdkit软件工具进行分子图的校验并生成smiles或者inchi字符串。
31.本实施例中:利用环检测模型,对化合物图像进行检测识别,得到环的检测框以及环的类型用来推理未检测到化学键,从而引入原子间关系的推理能力。
32.本实施例中:化合物的环类型定义之后,结合环上原子、原子的化合价,以及化学先验知识,可以推理s4中原子、化学键检测识别模型输出的化学键检测结果是否存在缺失。
33.本实施例中:目标检测模型包括特征提取网络、分类网络、回归网络。
34.本实施例中:目标检测模型中的特征提取网络,可以用resnet、efficientnet卷积神经网络。


技术特征:
1.一种分子图像缺键识别技术,包括以下过程:s1:生成化合物分子式图像:利用rdkit软件工具,把化合物分子式(smiles或者inchi字符串)生成化合物分子式对应的图像,模拟原始化合物图像的风格,在生成图像上叠加噪音,进行风格变换使其无限接近于原始图像的风格;s2:生成图像原子、化学键标注数据集:s1中生成的图像,具有原子坐标信息,及原子之间化学键类型信息;利用这些信息,可以对图像中的原子和化学键进行标注,得到原子及化学键标注集;对该标注集,按照一定的比例进行划分,得到训练集1、测试集1和验证集1;s3:生成环标注集:利用s1中生成的部分图像,对其中的环进行标注,得到环标注集;对改标注集,按照一定的比例进行划分,得到训练集2、测试集2和验证集2;s4:原子、化学键检测识别模型和环检测识别模型:利用目标检测神经网络模型,在训练集1、测试卷1和验证集1上训练原子、化学键检测识别模型;在训练集2、测试集2和验证集2上训练环检测模型;s5:生成化合物分子图:利用s4中训练的原子、化学键识别模型,对化合物图像进行检测识别,化学键作为原子之间的关系,利用识别到的化学键对原子进行连接操作,形成化合物分子图;s6:利用rdkit软件工具进行分子图的校验并生成smiles或者inchi字符串。2.根据权利要求1所述的一种分子图像缺键识别技术,其特征在于:利用环检测模型,对化合物图像进行检测识别,得到环的检测框以及环的类型用来推理未检测到化学键,从而引入原子间关系的推理能力。3.根据权利要求1所述的一种分子图像缺键识别技术,其特征在于:化合物的环类型定义之后,结合环上原子、原子的化合价,以及化学先验知识,可以推理s4中原子、化学键检测识别模型输出的化学键检测结果是否存在缺失。4.根据权利要求1所述的一种分子图像缺键识别技术,其特征在于:目标检测模型包括特征提取网络、分类网络、回归网络。5.根据权利要求4所述的一种分子图像缺键识别技术,其特征在于:目标检测模型中的特征提取网络,可以用resnet、efficientnet卷积神经网络。

技术总结
本发明公开了化学领域的一种分子图像缺键识别技术,包括以下过程:S1:生成化合物分子式图像;S2:生成图像原子、化学键标注数据集;S3:生成环标注集;S4:原子、化学键检测识别模型和环检测识别模型;S5:生成化合物分子图;S6:利用rdkit软件工具进行分子图的校验并生成smiles或者inchi字符串;本发明提供一种技术方案,在化合物图像识别的过程中,通过引入对化合物图像中环的检测,提高图像中化合物缺失化学键的推理能力,从而提高化学分子式的识别准确率。别准确率。别准确率。


技术研发人员:裴剑锋 李合敏 徐优俊 张舰航 朱金涛
受保护的技术使用者:英飞智药(苏州)科技有限公司
技术研发日:2021.07.26
技术公布日:2021/10/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜