一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于互信息的材料属性性质关系预测模型建立方法及应用

2022-05-11 15:00:45 来源:中国专利 TAG:


1.本发明属于材料大数据领域,更具体地,涉及一种基于互信息的材料属性性质关系预测模型建立方法及应用。


背景技术:

2.功能材料,即具有某种特定性能的材料,其发现是产业创新的基础,加速新功能材料的发现一直是材料科学的研究热点。传统的基于试错的新材料的发现方法主要依赖于科学家的物理与化学领域内的专业知识,并且这容易受到实验资源的限制。随着材料基因组技术的发展,基于密度泛函理论(dft)的高通量计算,在一定程度上加速了搜索的过程。然而,随着实际问题的规模和材料的复杂性的增加,高通量计算需要昂贵的计算资源和时间。
3.机器学习技术的出现为这一困境带来一个高效的解决方案。与第一性原理计算相比,机器学习技术依赖于学习现有的数据集的潜在表征,而不用去求解计算复杂的量子力学方程。更主要的是机器学习要比第一性原理计算使用的计算资源少几个量级。由于这些优点,机器学习技术成功地发现了许多新型功能材料。但是机器学习技术应用于新材料发现依然存在两个主要问题:其一,数据采集是机器学习的源头,由于机器学习需要从数据中学习模型,因此数据采集的可靠性直接影响到最终模型性能的可靠性,而现有的机器学习方法中,数据往往来自一些计算数据库,如materials project、jarvis等,但是这些计算数据库中存在很多结构不稳定的材料并且一些材料属性的计算误差相对较大,可靠性无法得到有效保证;其二,现有的机器学习方法中,多基于特定任务和特定数据集训练获得机器学习模型,这些模型往往在其它任务上的性能表现很差。
4.发表在学术期刊上的海量文本数据对于材料科学领域是一种可被挖掘的可靠数据集。这些非结构化的文本数据集包含科研工作者对材料科学领域内所有研究领域和全体功能材料的结构、物理化学性质之间的复杂关系项的具体解释。但是传统的机器学习和统计学方法不能直接学习这些复杂的关系项的解释,而且现有的基于科学文献进行材料预测或筛选的方法,仅适用于文献中出现过的材料。因此,如何高效地从这些海量的可靠的文本数据集学习复杂的关系项的解释并且开发一种通用的材料预测和筛选方法是具有重大意义和应用价值的。


技术实现要素:

5.针对现有技术的缺陷和改进需求,本发明提供了一种基于互信息的材料属性性质关系预测模型建立方法及应用,其目的在于,占用较少的计算资源快速预测出所需属性的功能材料,并实现不同属性功能材料的预测,缩短新功能材料发现的周期。
6.为实现上述目的,按照本发明的一个方面,提供了一种基于互信息的材料属性性质关系预测模型建立方法,包括:
7.收集材料科学领域内的科学文献,并进行文本处理,得到描述符集合并将描述符集合中的各描述符转换为向量,得到语料库描述符为用于描述材料属性或性质的
词汇;
8.分别计算语料库中每两个描述符向量之间的互信息,作为对应的材料属性性质关系;
9.建立神经网络模型;神经网络模型以向量化的描述符为输入,用于预测输入的描述符向量与语料库中各向量之间的互信息,作为对应的材料属性性质关系;
10.利用语料库和所计算的互信息对神经网络模型进行训练,得到用于预测材料属性性质关系的预测模型。
11.本发明通过收集材料科学领域内的科学文献构建数据集,保证了数据的可靠性;利用互信息定义在非结构化文本中分布着的材料属性性质的内在关系,可以有效衡量材料的属性与性质之间的关系,但根据科学文献所构建的语料库过于庞大,在实际应用中无法通过遍历的方式计算材料属性与各性质之间的关系,基于此,本发明进一步利用所建立的数据集和所计算的互信息训练神经网络模型,利用神经网络模型学习海量文本数据集中的复杂关系,训练结束后,将材料属性输入所得计算模型,即可从模型输出中提取出材料属性与各性质之间的关系,完成后续的材料预测和材料筛选,此过程占用资源少,计算效率高,并且不依赖于专家的先验知识,通用性高。
12.进一步地,文本处理包括:
13.分句;分词;去除标点符号;去除与材料科学知识无关的停用词。
14.进一步地,文本处理还包括:
15.对材料化学式进行标准化处理;短语识别;
16.并且,用于描述材料属性或性质的词汇,包括单词,以及所识别出的短语。
17.本发明在对科学文献进行文本处理时,除了识别描述材料属性或性质的单词,还会进一步识别用于描述材料属性或性质的短语,用于构建语料库,能够更加深入地挖掘出海量文本数据中的复杂关系,有利于提高模型对于材料属性性质关系的预测精度。
18.进一步地,材料科学领域内的科学文献,包括发表在学术期刊上的与材料科学领域相关的科学文献。
19.发表在学术期刊上的与材料科学领域相关的科学文献,具有极高的可靠性,本发明所收集的材料领域内的科学文献包括这些文献,能够进一步保证模型训练数据的可靠性。
20.进一步地,对神经网络模型进行训练时,采用在线权重更新的方式。
21.由于从海量文本数据构建的语料库十分庞大,本发明采用在线权重更新的方式训练神经网络模型,能够在保证模型训练效果的基础上,有效提高模型的训练效率。
22.进一步地,将各词汇转换为向量的方式为one-hot编码。
23.按照本发明的另一个方面,提供了一种材料属性性质关系预测方法,包括:
24.对于目标材料,获得用于描述其材料属性的词汇v;
25.若则将词汇v转换为对应的词汇向量,并将该词汇向量输入至由本发明提供的基于互信息的材料属性性质关系预测模型建立方法所建立的预测模型,从模型输出中提取出目标材料的材料属性与各性质之间的材料属性性质关系;
26.若则将词汇v拆分为词汇集合s,对于词汇集合s中的每一个词汇,
将其转换为对应的词汇向量,并将该词汇向量输入至由本发明提供的基于互信息的材料属性性质关系预测模型建立方法所建立的预测模型,将词汇集合s中各词汇对应的材料属性性质关系叠加,即进行互信息求和,作为目标材料的材料属性与各性质之间的材料属性性质关系。
27.本发明所提供的基于互信息的材料属性性质关系预测模型建立方法所建立的预测模型,能够快速准确预测出输入的材料属性与各性质之间的关系,本发明所提供的材料属性性质关系预测方法,以该模型为基础,对于已知材料,即材料属性已在科学文献中出现过的材料,将描述该材料属性的词汇向量化之后输入模型,即可快速得到材料属性与各性质之间的关系;对于未知材料,即材料属性未在科学文献中出现过的材料,则基于互信息的计算规则,通过词汇分解的方式,利用语料库中已有的词汇计算分解所得各个词汇对应的关系,再通过简单叠加的方式获得该材料的材料属性与目标性质之间的关系。总的来说,本发明所提供的材料属性性质预测方法,无论是已知材料还是未知材料,都能够在占用较少的计算资源的情况下,快速预测出材料属性与各性质之间的关系。
28.按照本发明的又一个方面,提供了一种材料筛选方法,包括:
29.对于待筛选的多种材料,利用本发明提供的材料属性性质关系预测方法获得各材料的材料属性与各性质之间的材料属性性质关系,并从中提取出各材料与目标性质之间的材料属性性质关系,将材料属性性质关系最强的部分材料筛选出,作为具有目标性质的材料。
30.本发明所提供的材料筛选方法,对于已知材料和未知材料,都能够在占用较少的计算资源的情况下,快速计算得到材料属性与目标性质之间的关系,之后通过简单排序即可快速完成材料筛选。因此,本发明所提供的材料筛选方法,能够在占用较少的计算资源的情况下,快速筛选出所需属性的功能材料。
31.按照本发明的又一个方面,提供了一种材料预测方法,包括:
32.对于待预测材料,利用本发明提供的材料属性性质关系预测方法获得其材料属性与各性质之间的材料属性性质关系,并将其中高于预设的第二阈值的材料属性性质关系所对应的性质预测为所述待预测材料可能具有的性质。
33.本发明所提供的材料预测方法,对于已知材料和未知材料,都能够在占用较少的计算资源的情况下,快速计算得到材料属性与目标性质之间的关系,之后结合阈值判断,即可预测出材料可能具有的性质。因此,本发明所提供的材料预测方法,一方面能够预测出未知材料可能具有的性质,另一方面能够预测出已知材料未被发现的性质。
34.按照本发明的又一个方面,提供了一种计算机可读存储介质,包括存储的计算机程序,所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行本发明提供的基于互信息的材料属性性质关系预测模型建立方法,和/或本发明提供的材料属性性质关系预测方法,和/或本发明提供的材料筛选方法,和/或本发明提供的材料预测方法。
35.总体而言,通过本发明所构思的以上技术方案,通过收集已经发表在学术期刊上地海量与材料科学领域相关的科学文献作为数据集,利用互信息定义在非结构化文本中分布的材料属性性质的内在关系,并基于互信息建立了计算模型。并利用神经网络方法实现该计算模型,最后可通过训练后的计算模型进行不同属性的功能材料的预测与筛选。此模
型能够占用较少的计算资源快速预测出所需属性的功能材料,并且可以基于同一个实现不同属性功能材料的预测,缩短新功能材料发现的周期,并为科研工作者进行实验过程中的材料选择提供指导性意义。
附图说明
36.图1为本发明提供的基于互信息的材料属性性质关系预测模型建立方法;
37.图2为本发明提供的用于计算互信息的神经网络模型的结构示意图;
38.图3为采用本发明提供的材料属性性质关系预测方法计算的computational 2d materials database(c2db)数据库中的二维材料分别与二维光电探测器性质的互信息分数分布图;
39.图4为采用本发明提供的材料属性性质关系预测方法计算的computational 2d materials database(c2db)数据库中的二维材料分别与二维磁性性质的互信息分数分布图;
40.图5为采用本发明提供的材料筛选方法筛选出的前10、前20、前30个材料在2010-2020年被论文报道为二维光电探测器的验证率的走势图;
41.图6为采用本发明提供的材料预测方法预测得到的前30个材料在2017年之后被论文报道为二维磁性材料的材料标记图,其中标记为材料化学式的材料表示在2017年之后被实验报道为具有二维磁性的二维材料。
具体实施方式
42.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
43.在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
44.为了解决现有技术无法从海量的可靠文本数据集学习复杂的关系项的解释,从而完成材料预测和筛选的技术问题,本发明提供了一种基于互信息的材料属性性质关系预测模型建立方法及应用,其整体思路在于:利用材料科学领域内的科学文献构建机器学习模型的训练数据,并利用互信息定义在非结构化文本中分布的材料属性性质的内在关系,建立并训练神经网络模型,使模型在训练过程中能够学习海量文本数据集中的复杂关系,并最终获得可快速预测材料的属性与性质之间的关系的计算模型,基于该模型可以在占用较少计算资源的情况下,快速完成材料筛选和材料预测。
45.在详细解释本发明的技术方案之前,先对相关的技术术语进行如下简要介绍:
46.材料属性:材料结构方面的描述;
47.材料性质:材料功能方面的描述;
48.描述符:用于描述材料属性或材料性质的词汇;
49.功能材料:具有某种特定性能的材料;
50.材料筛选:对于已知材料,筛选出具有特定性质的材料;
51.材料预测:预测材料可能具有的性质,包括两个方面;其一,对于未知材料,预测该材料可能具有的性质;其二,对于已知材料,预测该材料可能具有但尚未被发掘出的性质;
52.互信息:mutual information,是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性;本发明中,利用互信息定义在非结构化文本中分布的材料属性性质的内在关系;互信息的计算公式如下;
[0053][0054]
式中,和表示两个集合,表示集合和集合之间的互信息;和分别表示集合和集合中的元素;和分别代表了和之间的联合概率与各自的边缘概率的乘积。
[0055]
以下为实施例。
[0056]
实施例1:
[0057]
一种基于互信息的材料属性性质关系预测模型建立方法,如图1所示,包括:
[0058]
收集材料科学领域内的科学文献,并进行文本处理,得到描述符集合并将描述符集合中的各描述符转换为向量,得到语料库描述符为用于描述材料属性或性质的词汇;
[0059]
分别计算语料库中每两个描述符向量之间的互信息,作为对应的材料属性性质关系;
[0060]
建立神经网络模型;神经网络模型以向量化的描述符为输入,用于预测输入的描述符向量与语料库中各向量之间的互信息,作为对应的材料属性性质关系;
[0061]
利用语料库和所计算的互信息对神经网络模型进行训练,得到用于预测材料属性性质关系的预测模型。
[0062]
本实施例通过材料科学领域内的科学文献构建数据集,保证了数据的可靠性,并且能够避免对专家先验知识的依赖;作为一种可选的实施方式,本实施例所收集的科学文献,具体是1920-2020年间与材料科学领域相关的约462万篇英语科学文献,相关文献通过elsevier的scopus标准应用程序接口收集;应当说明的是,以其他语言发表的科学文献,也可应用于本发明。
[0063]
收集到相关科学文献后,本实施例对其进行文本预处理的具体方式为:首先采用nltk软件包对收集的文本数据进行分句、分词、去除文本中的一些标点符号和对表达材料科学知识不相关的出现频率较高的停用词,最终海量的文本数据将被处理为一系列用于描述材料的属性或性质的词汇,及描述符;考虑到不同文献中,对于同一材料的化学式可能不一致,本实施例进一步采用pymatgen软件包对描述符中的材料化学式进行标准化处理;此外,考虑到单词可能组合为短语对材料的属性或性质进行描述,本实施例进一步采用gensim软件包对描述符中的短语进行识别,并通过特殊的符号进行连接,以便于后续使用;可选地,本实施例利用特殊符号
“‑”
将这些代表材料领域内专业知识属性的潜在短语结构的词汇连接起来,如“two-dimensional-materials”和“solar-cells”等。
[0064]
经过上述文本处理之后,本实施例所收集到的海量非结构化的文本数据被处理为了用于描述材料的属性或性质的词汇,这些词汇即描述符,包括单词和短语,这些描述符构成了描述符集合为简化处理,作为一种可选的实施方式,本实施例中,将描述符集合中的各个描述符转换为向量时,具体使用one-hot编码,具体地,对于每一个描述符,为其分配一个位置,并使用一个长度为n(n总的描述符个数)的向量表示单个描述符,该向量中,描述符所对应的位置处元素为1,而其他元素均为0;例如,“2d”、“mos
2”和“photodetectors”这三个描述符转换所得的向量如图2所示;经过向量化处理之后,这些稀疏向量构成了矩阵以及语料库
[0065]
基于本发明中关于材料的属性和性质之间关系的定义方式,在获得语料库之后,本实施例会基于上述互信息的计算式,对于语料库中的每两个向量分别计算互信息,作为对应的材料属性性质关系;容易理解的是,互信息值越大,表明材料的属性和性质之间的关系越强。
[0066]
为了在保证模型计算效果的基础上,尽量提高训练效率,作为一种可选的实施方式,如图2所示,本实施例所建立的神经网络模型为三层结构,包括输入层、隐藏层和输出层;输入层的节点数量为n,用于输入长度为n的描述符向量;输出层节点数量为n,且各节点与n个描述符一一对应,输出信息分别为输入的描述符向量与语料库中每个向量之间互信息,作为对应的材料属性性质关系;以表示所建立的神经网络模型,训练时,将各描述符向量输入至神经网络模型在最后一层使用softmax激活函数输出材料与目标属性的相对概率值。相关计算可表示为:
[0067][0068]
公式中m代表一个材料,c代表一种目标性质,代表性质集合,mi(m,c)代表材料和目标属性的互信息值,表示神经网络的输入层参数和输出层参数的内积值;需要说明的是,图2所示的神经网络模型结构,仅为一种可选的实施方式,不应理解为对本发明的唯一限定,其他经训练后可准确完成互信息计算的神经网络模型,也可用于本发明;
[0069]
因为语料库太大,本实施例中,采用在线权重更新的方式进行神经网络的训练;训练结束后,即可得到用于预测材料属性性质关系的预测模型;保存训练后的神经网络模型和神经网络的输入层参数和输出层参数,则在后续应用中,加载相关参数,即可利用该预测模型进行互信息的计算。
[0070]
容易理解的是,随着材料科学领域内的科学文献不断被发表,模型也可以被不断更新训练,具体的训练方法类似,在此将不做复述。
[0071]
实施例2:
[0072]
一种材料属性性质关系预测方法,包括:
[0073]
对于目标材料,获得用于描述其材料属性的词汇v;
[0074]
若即该目标材料为已知材料,则将词汇v转换为对应的词汇向量,并将该词汇向量输入至由上述实施例1提供的基于互信息的材料属性性质关系预测模型建立方法
所建立的预测模型,从模型输出中提取出目标材料的材料属性与各性质之间的材料属性性质关系;
[0075]
若即该目标材料为未知材料,则将词汇v拆分为词汇集合s,对于词汇集合s中的每一个词汇,将其转换为对应的词汇向量,并将该词汇向量输入至由上述实施例1提供的基于互信息的材料属性性质关系预测模型建立方法所建立的预测模型,将词汇集合s中各词汇对应的材料属性性质关系叠加,作为目标材料的材料属性与各性质之间的材料属性性质关系。
[0076]
上述实施例1所建立的预测模型,能够快速准确预测出输入的材料属性与各性质之间的关系,本实施例所提供的材料属性性质关系预测方法,以该模型为基础,对于已知材料,即材料属性已在科学文献中出现过的材料,将描述该材料属性的词汇向量化之后输入模型,即可快速得到材料属性与各性质之间的关系;对于未知材料,即材料属性未在科学文献中出现过的材料,则基于互信息的计算规则,通过词汇分解的方式,利用语料库中已有的词汇计算分解所得各个词汇对应的关系,再通过简单叠加的方式获得该材料的材料属性与目标性质之间的关系。总的来说,本实施例所提供的材料属性性质预测方法,无论是已知材料还是未知材料,都能够在占用较少的计算资源的情况下,快速预测出材料属性与各性质之间的关系。
[0077]
实施例3:
[0078]
一种材料筛选方法,包括:
[0079]
对于待筛选的多种材料,利用本实施例提供的材料属性性质关系预测方法获得各材料的材料属性与各性质之间的材料属性性质关系,并从中提取出各材料与目标性质之间的材料属性性质关系,将材料属性性质关系最强的部分材料筛选出,作为具有目标性质的材料。
[0080]
本实施例所提供的材料筛选方法,对于已知材料和未知材料,都能够在占用较少的计算资源的情况下,快速计算得到材料属性与目标性质之间的关系,之后通过简单排序即可快速完成材料筛选。因此,本实施例所提供的材料筛选方法,能够在占用较少的计算资源的情况下,快速筛选出所需属性的功能材料。
[0081]
实施例4:
[0082]
一种材料预测方法,包括:
[0083]
对于待预测材料,利用本实施例提供的材料属性性质关系预测方法获得其材料属性与各性质之间的材料属性性质关系,并将其中高于预设的第二阈值的材料属性性质关系所对应的性质预测为所述待预测材料可能具有的性质。
[0084]
本实施例所提供的材料预测方法,对于已知材料和未知材料,都能够在占用较少的计算资源的情况下,快速计算得到材料属性与目标性质之间的关系,之后结合阈值判断,即可预测出材料可能具有的性质。因此,本实施例所提供的材料预测方法,一方面能够预测出未知材料可能具有的性质,另一方面能够预测出已知材料未被发现的性质。
[0085]
实施例5:
[0086]
一种计算机可读存储介质,包括存储的计算机程序,所述计算机程序被处理器执行时,控制所述计算机可读存储介质所在设备执行上述实施例1提供的基于互信息的材料属性性质关系预测模型建立方法,和/或上述实施例2提供的材料属性性质关系预测方法,
和/或上述实施例3提供的材料筛选方法,和/或上述实施例4提供的材料预测方法。
[0087]
以下结合一些具体的应用实例,对本发明所能取得的效果做进一步的说明。
[0088]
图3是以二维光电性质为目标性质,采用上述实施例3提供的材料筛选方法计算的computational 2d materials database(c2db)数据库中的二维材料分别与二维光电性质的互信息分数分布图,并筛选出的互信息得分最高的5个材料,这5个材料即分布在图3右上角的mos2、mose2、mote2、wse2、ws2,并且这5个材料都是典型的已被实验报道的二维光电探测器材料。
[0089]
图4是以二维磁性性质为目标性质,采用上述实施例3提供的材料筛选方法计算的computational 2d materials database(c2db)数据库中的二维材料分别与二维磁性性质的互信息分数分布图,并筛选出的互信息得分最高的5个材料,这5个材料即分布在图4右上角的cri3、fe3gete2、mnbi2te4、crsite3、cr2ge2te6分布在图4的右上角,并且这5个材料都是典型且已经被实验证实的二维磁性材料。
[0090]
根据图3和图4所示的结果可知,上述实施例所提供的材料筛选方法可以准确筛选出具有目标性质的材料。
[0091]
图5是采用实施例4提供的材料预测方法得到的互信息得分前10、前20、前30个材料在2010-2020年被论文报道为二维光电探测器的验证率的走势图,可以看到所预测的材料在近10年被报道为二维光电探测器材料的准确率超过60%。
[0092]
图6是采用实施例4提供的材料预测方法预测得到的30个材料在2017年之后被论文报道为二维磁性材料的材料标记图;由于直到2017年,cr2ge2te6和cri3中磁性有序的实验论证第一次解决了长期以来关于二维材料中是否存在磁性有序的疑问,因此在进行验证时选择使用2016年之前的文献进行训练预测。从图中可以看到所预测的材料在近3年被实验报道具有二维磁性的准确率超过50%。
[0093]
以上结果表明,本发明可以准确筛选出具有目标性质的功能材料,也可以准确预测出材料未知的性质。
[0094]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献