一种文献挖掘与材料性质预测方法

2022-05-06 07:20:12 来源：中国专利 TAG：

1.本技术涉及材料预测和计算技术领域，具体为一种文献挖掘与材料性质预测方法。

背景技术：

2.一直以来自然语言处理模型(例如word2vec和bert)对有关材料方面的英文文献知识的正确提取得到了有力的证明，且取得了不错的成果，在这一过程中，自然语言处理利用计算机的强大算力深入数万篇文献之中学习词与词之间的关联，利用向量表达单词的含义，经过训练，生成的模型能在一定程度上输出我们需要了解的文献中蕴含的各类知识，以往上百年间的文献得到了充分利用，使得文献中蕴含的知识不至于浪费在庞大的文献数据库中。
3.为了增强自然语言处理对人类文献知识累积的贡献，多语言处理是个很好的选择，中文拥有世界上最多的第一语言使用者，相信中文文献的自然语言处理会对材料科学的研究做出贡献，而太阳能电池材料作为新能源材料，一直以来被人们广泛研究报导，为了加大对新型光伏材料的预测力度，减少高通量实验或高通量计算预测新材料带来的人力、物力和时间成本，需要一种准确性更高的文献挖掘与材料性质预测方法。

技术实现要素：

4.(一)解决的技术问题
5.针对现有技术的不足，本发明提供了一种文献挖掘与材料性质预测方法，该文献挖掘与材料性质预测方法使用word2vec词向量嵌入算法对专业中文文献摘要数据库进行自然语言处理，与对英文文献的自然语言处理相比，我们在对中文的自然语言处理的时候，在分词、自定义词典、停用词典以及模型训练和输出结果处理等方面都做出了一定的改进，在模型成功输出太阳能电池材料预测项后，使用第一性原理辅助计算验证，准确性和有效性更高。
6.(二)技术方案
7.为实现上述目的，本发明提供如下技术方案：一种文献挖掘与材料性质预测方法，包括以下步骤：
8.1)抓取有关化学和材料的中文文献摘要21万篇；
9.2)使用分词测试集测试分词工具，选取最佳分词工具将数据库进行分词；
10.3)使用自定义停用词库和自定义词典将摘要数据库进行预处理，并整理成linesentence格式；
11.4)用两种不同的模型skip-gram和cbow进行词向量嵌入训练，并使用自定义关联词测试集测试不同的word2vec模型；
12.5)选取最优模型进行太阳能电池材料的预测，通过第一性原理去计算辅助验证预测项。
13.优选的，所述抓取有关化学和材料的中文文献摘要21万篇具有为：利用selenium工具库中的web数据抓取模块抓取期刊类中文文献摘要21万篇。
14.优选的，所述使用分词测试集测试分词工具并选取最佳分词工具对中文摘要数据库进行分词具体为：选取三个中文分词软件，其分别为jieba、thulac和pkuseg，利用三篇完整的材料类文献摘要(约500字)进行人为分词，组成测试集测试分词软件对特定种类中文文献摘要的分词能力，比较分词软件的结果和人为分词的结果，经过准确度，召回率和f-score的评判，最终选定pkuseg用作中文文献分词工具。
15.优选的，所述的使用自定义停用词库和自定义词典将摘要数据库进行预处理具体为：将常用的无意义字符包含进停用词库，例如“啊”、“呀”、“的”和“！”等，在分词时自动舍去，同时，选取化学和材料专业的常用专有名词包含进自定义词典参与分词，例如“光伏电池材料”以及“太阳能电池”等，由此专有名词不再被分词工具拆分，而是形成一个整体参与训练。
16.优选的，所述采用两种不同的模型进行词向量嵌入训练，并使用自定义关联词测试集测试不同的word2vec模型具体为：采用skip-gram和cbow两种模型分别训练，模型训练成功后，人为设置了50个关联词和50个非关联词作为测试集测试模型判断关联词的准确度，并绘制混淆矩阵去评判。
17.(三)有益效果
18.与现有技术相比，本发明提供了一种文献挖掘与材料性质预测方法，具备以下有益效果：
19.该文献挖掘与材料性质预测方法，通过使用word2vec词向量嵌入算法对专业中文文献摘要数据库进行自然语言处理，与对英文文献的自然语言处理相比，我们在对中文的自然语言处理的时候，在分词、自定义词典、停用词典以及模型训练和输出结果处理等方面都做出了一定的改进，在模型成功输出太阳能电池材料预测项后，使用第一性原理辅助计算验证，准确性和有效性更高。
附图说明
20.图1为本发明提出的一种文献挖掘与材料性质预测方法的流程示意图；
21.图2为本发明提出的一种文献挖掘与材料性质预测方法中检测三种测试分词工具的结果示意图；
22.图3为本发明提出的一种文献挖掘与材料性质预测方法中评判不同模型判断关联词准确度的示意图；
23.图4为本发明提出的一种文献挖掘与材料性质预测方法中按关联度高低进行排序后的示意图；
24.图5为本发明提出的一种文献挖掘与材料性质预测方法中计算预测项的结果示意图。
具体实施方式
25.下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明
中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.请参阅图1，本发明中的文献挖掘与材料性质预测方法使用word2vec词向量嵌入算法对专业中文文献摘要数据库进行自然语言处理，与对英文文献的自然语言处理相比，我们在对中文的自然语言处理的时候，在分词、自定义词典、停用词典以及模型训练和输出结果处理等方面都做出了一定的改进，在模型成功输出太阳能电池材料预测项后，使用第一性原理辅助计算验证，准确性和有效性更高。
27.具体的，首先，利用selenium工具库中的web数据抓取模块抓取期刊类中文文献摘要21万篇，数据来自中国知网和万方数据库，时间段从2010年-2021年。
28.紧接着，测试分词工具jieba、thulac和pkuseg，选取最佳分词工具将数据库进行分词，利用三篇完整的材料类文献摘要(约500字)进行人为分词，组成测试集测试分词软件对特定种类中文文献摘要的分词能力，比较分词软件的结果和人为分词的结果，经过准确度，召回率和f-score的评判，最终选定pkuseg用作中文文献分词工具。
29.测试结果如图2所示，综合precision、recall和f-score三项指标来看，pkuseg对化学与材料类专业文献语句的分词效果最佳，准确度、召回率和f-score分别为0.5274，0.7813和0.6297，而jieba和thulac工具库则各有长短。
30.然后，使用自定义停用词库和自定义词典将摘要数据库进行预处理，包括将常用的无意义字符包含进停用词库，例如“啊”、“呀”、“的”和“！”等，在分词时自动舍去，同时，选取化学和材料专业的常用专有名词包含进自定义词典参与分词，例如“光伏电池材料”以及“太阳能电池”等，由此专有名词不再被分词工具拆分，而是形成一个整体参与训练，将预处理好后的数据库整理成linesentence格式。
31.再接着，采用两种不同的模型进行词向量嵌入训练，两种模型分别为skip-gram和cbow，并使用自定义关联词测试集测试不同的word2vec模型，自定义关联词为人为设置的50个关联词和50个非关联词，在阈值的设定中，经过对模型输出关联词系数的多次测试，最终设置测试阈值为0.4，大于0.4为相关联词，小于0.4为不关联词，依据准确判断关联词(tp，越多越好)，错误判断关联性词(tn，越少越好)，准确判断非关联性词(fn，越多越好)，错误判断非关联性词(fp，越少越好)，这四种情况绘制混淆矩阵评判不同模型判断关联词的准确度，具体的可参阅图3。
32.图3结果表明，当选择pkuseg作为分词工具时，skip-gram模型的准确度高达84％，其中代表模型判断正确的tp和fn均为42个，代表误差的fp和tn均为8个，此模型判断关联词或非关联词均有较高的准确度，比较均衡(图3a)，cbow模型的准确率低很多，只有74％(图3b)，为了排除cbow的低准确率是由于错误选择了中文分词工具，采用另一种不错的分词工具jieba分词重新处理数据库，使用cbow模型训练，发现模型的准确率仍然只有74％(图3c)，这样，最终选定了skip-gram和pkuseg的组合训练模型，并进行太阳能电池材料预测。
33.然后，选取最优模型进行太阳能电池材料的预测，通过第一性原理去计算辅助验证预测项，在自定义词典中，已经将“太阳能电池”这几个词作为一个整体，分词工具不会对其进行拆分，由此，将“太阳能电池”这个词组输入训练好的模型，让其输出与之最关联的单词，从其中筛选出有关材料的化学式或特有缩写，按关联度高低进行排序，如图4所示。
34.图4的结果表明，word2vec词向量嵌入算法对有关化学与材料的中文文献摘要数
据库进行自然语言处理得到了很好的结果，pkuseg skip-gram的组合成功输出了与太阳能电池最相关的中文材料名称，输出结果符合普遍认知。
35.最后，利用第一性原理(castep)计算预测项的能带，态密度，光学性质等等，作为辅助验证，在参数设置中，使用pbe gga，截止能设置为460ev，使用ts方法，其他设置：convergencetolerance energy 1.0e-6ev/atom，max.forcemax.displacementk点设置为6
×6×
3，分子动力学计算时采用nvt模型，温度设置为500k，时间间隔设置为1fs，有效电子质量和有效空穴质量是分别由能带图谱中导带底和价带顶的曲线二次求导后计算得出的，如图5所示，计算公式为：
[0036][0037]
本发明的有益效果是：整个方法使用word2vec词向量嵌入算法对专业中文文献摘要数据库进行自然语言处理，与对英文文献的自然语言处理相比，我们在对中文的自然语言处理的时候，在分词、自定义词典、停用词典以及模型训练和输出结果处理等方面都做出了一定的改进，在模型成功输出太阳能电池材料预测项后，使用第一性原理辅助计算验证，准确性和有效性更高。
[0038]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于油气管道的知识图谱构建方法及处理器与流程

一种文献挖掘与材料性质预测方法

相关文献

最热文献