材料特性预测系统以及材料特性预测方法与流程

2022-03-19 14:19:44 来源：中国专利 TAG：

1.本发明涉及对材料科学等的实验进行辅助的技术。

背景技术：

2.随着数据分析涉及的统计处理技术的发展，在材料科学中也进行数据分析的需求不断提高。特别是在材料科学领域中，为了高效地进行新材料的开发，已知有基于已知的数据进行接下来的实验的候补的选定的被称为筛选的方法。
3.在专利文献1中，说明了无论材料种类如何都以相同概念对纳米级区域中的知识进行链接而构造化，并利用其而有助于不依赖于材料种类的新材料设计的设计辅助的方法。
4.在专利文献2中，对如下内容进行了说明：使用对构成反应系统的元素固有的量子热力学状态量在统计上进行处理而得到的量子统计值，仅选择构成反应系统的元素数或配合比不同而元素数相同的物质的相同物性值的情况，导出构成该物质的元素数或其以上的数量的多元联立一次方程式并求出其解，由此能够进行具有作为目标的物理化学特性和功能的金属和非金属物质的材料设计。
5.作为筛选的方法，将各种实验的数据输入信息系统并进行机器学习，构建实验结果的预测模型，进行基于模型的预测的筛选。在该预测中，已知有通过回归分析求出将与材料设计有关的各种参数作为自变量，返回材料的特性的函数的方法。
6.现有技术文献
7.专利文献
8.专利文献1：日本特开2003-178102号公报
9.专利文献2：日本特开2004-086892号公报

技术实现要素：

10.发明所要解决的课题
11.在材料开发中，通过提高材料特性的预测的精度，能够更准确地评价针对新材料的候补的预见性，期待可以通过省略不必要的实验来进行高效的材料开发。
12.在回归分析中，将与函数的自变量相当的变量称为说明变量，将与函数的返回值相当的值称为目标变量，但在材料特性的预测中，以材料特性为目标变量，以能够预测该目标变量的方式选择表示材料的特征的说明变量。根据该说明变量如何选择，预测的精度上下浮动，因此以能够应对各种材料特性的预测的方式准备说明变量的变化尤为重要。
13.在专利文献1、专利文献2中，公开了利用过去的数据进行材料特性的预测的尝试。但是，在材料开发中，一般的过程是最初以特定的组成、制造工艺开始开发，对于得到了有效特性的材料，进一步以其关联的组成、制造工艺来执行措施。
14.即，在开发最初的阶段，存在案件初期能够使用的数据极少的问题。在利用过去数据的信息的情况下，作为目标的材料特性按每个案件而不同，因此材料特性一致的数据几
乎仅是用于该案件的数据。另外，即使是以相同的特性为目标的实验，也存在计测方法不同的情况，多数情况下难以直接沿用。
15.本发明的课题在于提供一种有效地利用过去数据来提高材料特性的预测精度的方法。
16.用于解决课题的手段
17.本发明的优选的一个方面是用于对包含多个由材料组成、实验条件和材料特性构成的记录的案件数据进行处理来进行材料特性的预测的系统。该系统具备材料特性预测提示部、案件相互特征量生成部和材料特性预测部。材料特性预测提示部受理第一案件数据的指定，该第一案件数据包含材料特性未知的记录，并成为基于第一预测模型的材料特性的预测对象。案件相互特征量生成部使用第二预测模型，根据第一案件数据的材料组成来预测特征量。材料特性预测部使用第一案件数据的材料组成、实验条件、特征量和已知的材料特性，生成第一预测模型。另外，材料特性预测部将第一案件数据的材料特性未知的记录的材料组成、实验条件、特征量输入到第一预测模型来预测未知的材料特性。
18.材料组成至少为与材料的组成相关的信息，更优选为与材料的结构相关的信息，例如结构式。
19.本发明的优选的另一方面是通过包含输入装置、存储装置和处理器的信息处理装置来预测材料特性的方法。在该方法中，在生成用于根据包含第一特征量的第一数据预测第一材料特性的第一预测模型时，进行以下的步骤。即，执行：第一步骤，准备第二预测模型，该第二预测模型根据第一特征量预测与第一材料特性不同定义的第二材料特性；第二步骤，将第一数据应用于第二预测模型，预测第二材料特性；第三步骤，将第一特征量作为第一说明变量，将第二材料特性作为第二说明变量，将第一材料特性作为目标变量，生成第一预测模型。
20.发明效果
21.可以有效地利用过去数据，使材料特性的预测精度提高。
附图说明
22.图1是表示实施例的构成概略的例子的功能框图。
23.图2是表示实施例的物理实施的结构的例子的框图。
24.图3是表示实施例的使用步骤的例子的概念图。
25.图4是表示实施例的材料db更新处理的例子的流程图。
26.图5是表示实施例的实验数据受理的画面显示的例子的示意图。
27.图6是表示实施例的实验数据的结构的例子的表。
28.图7是表示实施例的材料db的实验数据表的例子的表。
29.图8是示出案件数据的例子的概念图。
30.图9是表示案件间相互特征量的概念的说明图。
31.图10是表示实施例的材料特性预测处理的例子的流程图。
32.图11是表示实施例的材料特性预测显示的例子的示意图。
33.图12是表示实施例的材料特性预测用数据的结构的例子的表。
具体实施方式
34.使用附图对实施方式进行详细说明。但是，本发明并不限定解释为以下所示的实施方式的记载内容。在不脱离本发明的思想或主旨的范围内，本领域技术人员能够容易地理解能够变更其具体结构。
35.在以下说明的发明的结构中，对于相同部分或具有同样功能的部分，有时在不同的附图间共通地使用相同的符号，并省略重复的说明。
36.在存在多个相同或具有同样功能的要素的情况下，有时对相同的标号标注不同的角标来进行说明。但是，在不需要区分多个要素的情况下，有时省略角标进行说明。
37.本说明书等中的“第一”、“第二”、“第三”等表述是为了识别结构要素而标注的，未必限定数量、顺序或其内容。另外，用于识别结构要素的编号被用于每种语境，在一种语境中使用的编号在其他语境中并不一定表示相同的结构。另外，以某个编号识别出的结构要素并不妨碍兼具以其他编号识别的结构要素的功能。
38.在附图等中所示的各结构的位置、大小、形状、范围等，为了容易理解发明，有时不表示实际的位置、大小、形状、范围等。因此，本发明不一定限定于附图等所公开的位置、大小、形状、范围等。
39.[实施例1]
[0040]
《1.系统结构》
[0041]
图1表示实施例1的材料特性预测装置的例子。本实施例的材料特性预测装置101是受理使用者102的操作的装置，具备从使用者接收实验数据的实验数据受理部111、存储有材料的特征及其特性的按案件区分的材料数据库(db：data base)112。在此，案件是指用户能够自由定义的数据的集合，例如是根据生成主体、生成目的不同的实验、开发而得到的数据。
[0042]
另外，材料特性预测装置101具备：材料特性预测部113，其生成预测材料特性的材料特性预测模型，另外，使用材料特性预测模型来预测未计测的材料特性；材料特性预测模型db114，其存储材料特性预测模型。
[0043]
材料特性预测部113使用从材料db112的材料特性值已计测的数据得到的特征量和从案件间相互特征量生成部115得到的特征量，生成材料特性预测模型，预测未知的特性。案件间相互特征量生成部115根据材料db112和材料特性预测模型db114的数据生成新的特征量。材料特性预测提示部116将材料特性预测部113的预测结果提示给使用者102。
[0044]
在本实施例中，材料特性预测装置101由包含输入装置、输出装置、存储装置、处理装置的服务器这样的信息处理装置构成。计算、控制等功能通过由处理装置执行存储在存储装置中的程序来与其他硬件协作实现所确定的处理。在图1中示出了功能块来代替信息处理装置的硬件结构。作为各功能块，有时将计算机等执行的程序、其功能或者实现其功能的单元称为“功能”、“手段”、“部”、“单元”、“模块”等。
[0045]
图2表示实施例1的物理实施的结构的一例。材料特性预测装置101能够使用一般的计算机来实施。即，是包含具有运算性能的处理器201、作为能够高速读写的易失性临时存储区域的dram(dynamic random access memory：动态随机存取存储器)202、作为利用了hdd(硬盘装置)、闪存等的持久的存储区域的存储装置203、用于进行操作的鼠标或键盘等输入装置204、用于对使用者示出动作的监视器205、用于与外部进行通信的串行端口等接
口206的装置。
[0046]
图1的实验数据受理部111、材料特性预测部113、案件间相互特征量生成部115、材料特性预测提示部116能够通过处理器201执行记录在存储装置203中的程序来实现。材料db112、材料特性预测模型db114能够通过处理器201执行在存储装置203中进行数据的蓄积的程序来实现。
[0047]
图2的结构可以由单体的计算机构成，或者，任意的部分也可以由通过网络连接的其他计算机构成。即，也可以由多个计算机构成同样的系统。
[0048]
图3示意性地表示实施例1的系统的利用步骤。实施例1能够执行使用者输入关于材料特性预测的数据的材料数据输入(s310)和确认材料特性预测的结果的预测结果阅览(s320)这2个步骤。
[0049]
材料数据输入(s310)是将存储有进行了实验的材料的数据、以及接下来要进行实验的材料的数据的数据集即实验数据600输入材料特性预测装置101的步骤，材料特性预测装置与其对应地执行材料db更新处理(s311)，由此对保存在内部的信息进行更新。
[0050]
在预测结果阅览(s320)中，材料特性预测装置根据使用者102的需求而执行材料特性预测提示处理(s321)，提示将材料特性预测的结果进行了可视化而得的画面即材料特性预测显示322。
[0051]
《2.材料数据输入处理》
[0052]
图4表示材料db更新处理(s311)的处理步骤的例子。在材料db更新处理(s311)中，最初实验数据接受部111从使用者102接收实验数据600，确定或附加案件id(s401)。然后，按案件更新或追加材料db112(s402)。
[0053]
图5示出了为了在材料db更新处理311的最初的步骤(s401)中从使用者102接收实验数据600而在监视器205上显示的画面的一例。在实施例1中，使用者102预先将实验数据存储在文件中，以在文本框501中指定该文件的位置的形式来交接实验数据600。在被交接的文件中，以公知的(comma separated value)形式记述了表形式的数据，对其进行解释而成为表形式的结果被显示在表画面502中。
[0054]
在图5中，例示了所记述的信息为实验的识别符即“id”、表示实验时的温度的“temp”、表示此时的水溶性的“sol”、表示材料的结构式的字符串“smiles”。在该例子中，水溶性是想要进行预测的材料特性，sol栏为空白的数据表示未实验的条件。此外，该数据的交接是一个例子，作为能够转换为表形式的信息，只要是能够传递包含材料的结构式和材料特性的实验数据的方式，也可以是其他方法。信息显示在表画面502中，通过按钮503保存在材料db112中。
[0055]
图6表示该实验数据600的1个记录的结构例。1个记录对应于通过特定的组成和制备工艺得到的一种材料。在本例中，实验数据600是将材料特性601、例如smiles形式等表示材料的结构式的信息即材料结构式602、表示温度、压力等实验时的条件的实验条件603的信息作为1个记录的信息，实验数据600是将该记录汇集1个或多个而成的数据。这些信息与图5的表画面502的各项目对应，在本实施例中，各项目与哪个要素对应，根据与预定的项目名的对应来判定。关于该对应关系，也可以让使用者102从画面输入等。另外，关于材料特性601，存储通过实验等判明的数值，在未实验的情况下存储为空白。在实验数据600中也可以附加其他案件名等信息。
[0056]
在图4的材料db更新处理(s311)的最初的步骤(s401)中，对上述实验数据600进行解释、整形，并存储为材料db112的实验数据表。
[0057]
图7表示实验数据表的1个记录的信息。该数据包含：以能够唯一地识别实验的方式通过连号等方式标号的实验id701、来源于实验数据600的材料特性601的材料特性702、来源于实验数据600的材料结构式602的材料结构式703、来源于实验条件603的实验条件704。它们也可以对成为各来源的信息进行单位或形式的转换并转换为统一的表现。
[0058]
案件id700是唯一地确定案件的识别编号。在实施例1中，由于假定为1个文件1案件，因此案件id与实质数据文件的文件名对应。案件id700在向材料db112登记时按连号进行附加即可。在文件与案件的对应未确定的情况下，也可以在向材料db112登记时，提示用户“现在要上传的与哪个案件对应？”这一问题，输入对应而进行登记。实验数据表的形式需要与追加量和登录完成的形式相同。材料特性702、实验条件704能够由用户任意地定义，数量也能够自由地设定。
[0059]
《3.案件间相互特征量》
[0060]
本实施例的一个特征在于，通过利用已有案件的数据，即使在数据数少的状况下仍提高材料特性的预测精度。在材料的开发过程中，在初始阶段能够使用的数据极少。在说明具体的实施例之前，对本实施例的概念进行说明。
[0061]
在图8中示出了在按案件区分的材料数据库112中存储的案件数据的例子。如图8所示，在使用其他案件的信息的情况下，通常成为目标的材料特性按每个案件而不同，因此材料特性一致的数据几乎仅是用于该案件的数据。另外，即使是以相同的特性为目的的实验，也存在计测方法不同的情况，多数情况下难以直接沿用。
[0062]
在图8的例子中，过去案件a和过去案件b的实验条件的温度和湿度不同，材料特性在a和b中也不同，因此无法直接互相用于特性预测。在本实施例中，通过将过去的案件的数据用作“用于生成特征量的信息”，能够增加说明变量。在此，将新生成的特征量称为“案件间相互特征量”。
[0063]
在图9中，对将与过去的案件相关的信息用作“用于生成特征量的信息”的过程进行说明。首先，使用过去案件a的数据901，将目标变量设为已知的材料特性a，将说明变量设为结构式，生成(学习)根据结构式预测材料特性a的预测模型902。这可以使用例如回归树、随机森林、支持向量回归、高斯过程回归、神经网络等，通过已知的有监督机器学习来生成。
[0064]
接着，将过去案件b的数据903的结构式应用于预测模型902，预测材料特性a。将材料特性a添加到过去案件b的数据，生成新的数据集904。如果在过去案件a中有与过去案件b相同的结构式，则也可以将过去案件a的材料特性直接添加到新的数据集。该材料特性a相当于案件间相互特征量。
[0065]
如果得到新的数据集904，则将其中材料特性b为已知的数据(项目编号1、2、3)作为训练数据，生成预测材料特性b的预测模型905。此时，说明变量为结构式、实验条件(湿度)、材料特性a，目标变量为材料特性b。预测模型905能够通过已知的有监督机器学习来生成。
[0066]
对生成的预测模型905输入想要预测材料特性b的数据(项目编号4)，得到材料特性b。通过追加材料特性a作为新的特征量(案件间相互特征量)，与直接使用过去案件b的数据的情况相比，能够期待预测精度的提高。特别是在材料特性a和b具有相关性的情况下，被
认为是有效的。
[0067]
在理解上述概念的基础上，对具体的预测结果阅览处理的流程进行说明。
[0068]
《4.预测结果阅览处理》
[0069]
使用图10，对预测结果阅览(s320)时的材料特性预测提示处理(s321)进行说明。在说明中，与图9的概念的对应也引用图9的900系列的参照符号进行说明。
[0070]
首先，材料特性预测提示部116向使用者102提示材料特性预测显示322来接受成为预测特性的对象的实验数据表的指定(s1001)。此时，使用案件id指定存储在材料db112中的实验数据表的内容。在此，假定实验数据已经存储在材料db112中。
[0071]
图11表示在监视器205上显示的、受理来自使用者102的指示的画面、以及将材料特性预测的结果进行了可视化而得的材料特性预测显示322的画面的例子。
[0072]
图中下拉框1101中，实验数据表的内容被显示为候补。若指定案件id并按下预测值更新的按钮1102，则材料特性预测提示部116向材料特性预测部113发送针对该实验数据表(图7)的记录中的材料特性702为空白的部分通过预测值来执行插值的指示，并将其结果显示于画面1103。在图11中，施加下划线的材料特性的数值表示对空白的数据进行了插值。
[0073]
材料特性预测部113接收到执行材料特性预测提示部116的所述插值的指示时，从材料db112取得由案件id700指定的实验数据表的数据(s1002)。另外，在图11的画面1104中，选择为了生成案件间相互特征量而使用的其他案件。材料特性预测部113从材料特性预测模型db114中取得所选择的其他案件的预测模型902(s1003)。
[0074]
在图10的流程的说明中，在处理s1002中取得的数据相当于图9的过去案件b的数据903。另外，在处理s1003中取得的案件的预测模型相当于根据图9的过去案件a的数据901生成的预测模型902。
[0075]
在以上的说明中，假设预测模型902已经生成完毕，通过案件id700从材料特性预测模型db114中调出。在没有符合材料特性预测模型db114的预测模型902的情况下，如图9所示，将过去案件a的数据901的材料结构式作为说明变量，将已知的材料特性作为目标变量来学习并生成预测模型902即可。
[0076]
接着，材料特性预测部113生成材料特性预测用数据(s1004)。该处理相当于将过去案件b的数据903的结构式应用于预测模型902，预测材料特性a，将材料特性a添加到过去案件b的数据，生成新的数据集904。此时，案件间相互特征量生成部115使用在处理s1003中取得的预测模型902来执行材料特性a(案件间相互特征量)的预测。
[0077]
图12表示材料特性预测用数据的1个记录1500的构造。1个记录的内容继承过去案件b的数据903的实验数据表(图7)的案件id700、实验id701、材料特性702、实验条件704。还包含来源于结构式的特征量1201。来源于结构式的特征量根据材料结构式703进行计算。作为根据结构式计算特征量的方法，有指纹法等公知的方法。
[0078]
材料特性预测用数据包含由其他案件的预测模型902生成的特征量1202、1203即案件间相互特征量。在图9的说明中，其他案件为过去案件a中的一件，案件间相互特征量为预测材料特性a中的一种。但是，在其他案件的预测模型902中生成的特征量既可以是一种，也可以是任意的多种。另外，也可以使用多个其他案件。
[0079]
材料特性预测部113从材料特性预测用数据中除去材料特性702为未实测即空白的部分，将除案件id700、实验id701和材料特性702以外的项目作为说明变量，将材料特性
702作为目标变量，执行公知的回归分析，得到预测函数，学习预测模型905(s1005)。所生成的预测模型905与生成了预测模型905的数据的案件id一起存储在材料特性预测模型db114中。
[0080]
该步骤是指，若将预测函数写成y＝f(x1，x2，
···
)，则y为目标变量，x1，x2，
···
为说明变量，以若确定x1，x2，
···
则能够预测y的方式确定f的函数形式。在本实施例的情况下，在使用图12的材料特性预测用数据的情况下，设为[材料特性702]＝f([来源于结构式的特征量1201]，[实验条件704]，[案件[1]的特征量1202]，[案件[2]的特征量1203]
······
)，从而学习回归分析来生成预测模型905。
[0081]
该学习相当于图9的最下层的预测模型905的生成，在图9中，实验条件704为湿度这一种，但以存在数据为前提，实验条件的数量、种类是任意的。作为实验条件，例如有材料的制造条件，但在没有数据的情况下也可以省略。另外，如上所述，在图9中，案件间相互特征量仅表示了预测材料特性a中的一个，但也可以如上述那样存在多个。
[0082]
回归分析的算法可以是公知的算法，可以使用回归树、lasso、随机森林、高斯过程、支持向量回归、神经网络等。此外，在本实施例中，使说明变量增加，但在增加说明变量的情况下，相比于支持向量回归，优选回归树或随机森林。特别是能够通过非线性的随机森林来期待高精度的预测。
[0083]
在这样生成预测模型905之后，材料特性预测部113选择材料特性702为未实测即空白的部分，并使用上述y＝f(x1，x2，
···
)的预测函数计算材料特性702的预测值(s1006)。
[0084]
通过材料特性预测提示部116，在监视器205的画面上如图11所示那样显示计算出的预测值(s1007)。此外，在本实施例中，作为说明变量，仅使用了空间构造特征量和实验条件，但实际上也可以导出其他的某些量(例如分子量、电荷)来使用。
[0085]
在上述的实施例中，在生成其他案件的特征量时，使用了结构式，但只要是案件数据中通用的数据，则也可以使用组成以外的数据。另外，能够直接使用结构式进行预测的方法也是公知的，在该情况下，机制也是同样的。
[0086]
根据以上说明的实施例，通过过去的其他案件中进行的材料特性预测时的数据，生成与本次的预测具有兼容性的模型，经由该模型增加说明变量，由此提高精度。例如，开始研究开发的最初的案件(图9的过去案件b)的数据数量少，但在本实施例中，例如能够利用研发完成且数据量丰富的过去案件(图9的过去案件a)的数据。由此，在进行材料特性预测时，能够克服数据少和精度低的问题。因此，在用于筛选实验计划的预测评价中，能够进行更高精度的预测。其结果是，制定实验计划变得容易，进而能够通过较少的实验次数开发优质材料。例如，能够调查预测特性变好的参数，优先推荐该实验条件。
[0087]
附图标记说明
[0088]
101材料特性预测装置、
[0089]
102使用者、
[0090]
111实验数据受理部、
[0091]
112材料db、
[0092]
113材料特性预测部、
[0093]
114材料特性预测模型db、
[0094]
115案件间相互特征量生成部、
[0095]
116材料特性预测提示部。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种盐酸艾司氯胺酮片剂及其制备方法与流程

材料特性预测系统以及材料特性预测方法与流程

相关文献

最热文献