一种应用于制造业科学技术文档的命名实体识别模型的制作方法

2022-05-18 15:04:30 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其涉及到一种应用于制造业科学技术文档的命名实体识别模型。

背景技术：

2.随着与制造业相关的科技文献和互联网上可用的数字资源数量呈指数级增长，从制造科学技术文档中搜索和提取有价值的信息具有挑战性。现有的命名实体识别模型在材料科学、生物医学、化学科学、网络安全、维护实践和取证科学等特定领域均有相关研究和应用，但针对制造科学技术文档，研究使用命名实体识别模型并抽取其中有价值的信息尚处于技术语言处理研究和应用的萌芽阶段。
3.现有其他领域的命名实体识别模型的缺陷如下：
4.1)现有的标准命名实体识别模型无法识别特定领域的术语和概念。
5.2)由于不同领域技术文档具有不同的特点，因此针对特定领域开发的命名实体识别模型无法移植到制造业领域。
6.3)现有技术中心缺乏利用已构建的制造业领域的命名实体识别模型对制造科学技术文档进行自动分类的研究。

技术实现要素：

7.本发明的目的是提供一种应用于制造业科学技术文档的命名实体识别模型，其从制造科学技术文档中抽取信息，并利用这些信息对制造科学技术文档按不同制造主题分类，组合深度学习模型、注意力机制、预训练模型和条件随机场等技术，构建命名实体识别模型，该模型能从制造科学技术文档中抽取关键的制造概念和实体，能为专注于制造的研究人员、年轻工程师和非技术专业人员提供快速搜索与制造相关的特定信息。
8.本发明的上述技术目的是通过以下技术方案实现的：
9.一种应用于制造业科学技术文档的命名实体识别模型，包括如下步骤：
10.i.数据收集
11.选取现有目标文本，构成训练命名实体识别模型的原始语料库；
12.ii.数据预处理
13.去除原始语料库中的标点和停用词，执行词形还原，形成语料库对应的词典；人工定义若干种制造文本类别；并为词典中的每一个词分配一个制造文本类别标签；采用定制化的词表提取算法，用bioes格式自动标注原始语料库；
14.iii.命名实体识别模型的网络结构
15.1)词嵌入层scibert，其用于将输入的词转换为固定长度的向量；
16.2)位于词嵌入层scibert之上的bilstm层，其利用文本序列的上下文信息挖掘隐藏特征，其用于编码文本；
17.3)位于bilstm层之上的注意力层，其用于降低实体内部不相关修饰词的权重，界
定实体的边界，避免重要实体抽取的遗漏；
18.4)位于注意力层之上的crf层，其作为网络结构的输出层，用于避免文本序列中的实体被错误标注；
19.iv.命名实体识别模型的训练
20.把第i步得到的原始语料库按70:20:10的比例划分，分别得到训练集、验证集和测试集；命名实体识别模型需要训练的参数包括scibert词嵌入参数、bilstm的权重、注意力机制的权重、转移矩阵a和矩阵e；采用后向传播算法更新每一次训练的参数，每一次训练使用学习率为0.01的随机梯度下降算法sgd和值为5.0的梯度裁剪；用维度为100的单层前向lstm和后向lstm实现bilstm；网络的失活率dropout设置为0.5；共执行20次试验，每一次试验执行100个epoch，每一个epoch执行500次iteration，batch size的大小为256；
21.v.模型预测
22.用第iv步训练好的命名实体识别模型对已准备好的测试集进行命名实体标注；
23.vi.主题识别
24.通过使用已训练好的命名实体识别模型寻找重点命名实体；其方法是：查找给定的段落文本中出现的命名实体的数量；若两个或多个实体的数量相等，将优先考虑段落中第一个识别的实体。
25.进一步的，所述bilstm层利用文本序列的上下文信息挖掘隐藏特征的过程为：bilstm层计算每一个单词t处句子左边的上下文表示以及句子右边的上下文表示然后连接左边和右边的上下文表示得到表示单词t处的上下文信息。
26.进一步的，所述注意力层的表示公式参见式(1)-式(3)；
[0027][0028]
score
ki
＝v
t
tanh(whk uhi b)
ꢀꢀ
(2)
[0029][0030]
其中，α
ki
是结点k和结点i之间的注意力分布，score
ki
是结点k和结点i之间的注意力打分函数；v、w和u是权重矩阵，hk是bilstm右边的上下文表示hi是bilstm左边的上下文表示c是注意力编码。
[0031]
进一步的，所述crf层的原理如下：
[0032]
设x＝{x1，x2，
…
，x
n-1
，xn}是输入的句子向量，注意力机制学得的特征向量为e＝{v1，v2，
…
，v
n-1
，vn}，n是句子中词的个数；对一个预测序列注意力机制学得的特征向量y＝{y1，y2，
…
，yn}，则预测序列的得分计算公式可用公式(4)表示；
[0033][0034]
其中，a是转移矩阵，表示从标签yi转移到标签yj的得分；表示第i个词是标签yi的得分；对于一个序列y，在所有可能的标签序列上的softmax产生的一个概率如
公式(5)所示；
[0035][0036]
命名实体识别模型训练时用公式(6)最大化正确标签序列；
[0037][0038]
其中，y
x
表示句子x的所有可能的标签序列，解码时可获得得分最大的输出序列为最优的y
*
就是从文本中自动标注得到的命名实体。
[0039]
综上所述，本发明具有以下有益效果：
[0040]
本发明在分析制造科学技术文档特征的基础上，有针对性的选用不同的自然语言处理技术，采用层次的方法构建了一种能实现命名实体识别的神经网络模型。
[0041]
与现在的命名实体识别模型相比较，两者的显著差异在于3个方面：
[0042]
1)现有的标准命名实体识别模型无法识别制造领域的术语和概念；
[0043]
2)现有特定领域的命名实体识别模型尚未针对制造科学技术文本中使用的单词/短语的语料库进行测试；
[0044]
3)个别现有的用于制造业领域的命名实体识别模型并未检测应用于制造业文本的分类效果。
[0045]
本发明的命名实体识别模型能从文本中提取信息和生成知识。因此，本发明能解析制造领域中的产品设计文本数据、工程测试文本数据、供应商数据数据、维护记录数据和产品使用数据等各种与制造科学技术相当的文档，能为企业实现各种数据资产互连提供技术基础，是促进企业的数字化转型的关键。
附图说明
[0046]
图1是本发明所述的命名实体识别模型的网络结构图。
具体实施方式
[0047]
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例，进一步阐述本发明。
[0048]
如图1所示，本发明提出的一种应用于制造业科学技术文档的命名实体识别模型，包括如下步骤：
[0049]
i.数据收集
[0050]
从web of science选取2010年到2021年之间与制造科学相关的10种英文期刊，每种期刊选择10000篇论文摘要，共选择10万篇摘要，构成训练命名实体识别模型的原始语料库。
[0051]
ii.数据预处理
[0052]
1)去除数据集中的标点和停用词，执行词形还原，形成语料库对应的词典。
[0053]
2)人工定义12种制造文本类别，它们分别是：材料(mate)、制造过程(manp)，应用(appl)、特性(engf)、机械性能(mechp)、特征(proc)、参数(prop)、机器/设备(maceq)、使能
技术(enat)、概念/原则(conpri)、生物医学(biop)和制造标准(mans)。
[0054]
3)为词典中的每一个词，人工分配一个制造文本类别标签。
[0055]
4)采用定制化的词表提取算法，用bioes格式自动标注原始语料库。
[0056]
iii.命名实体识别模型的网络结构
[0057]
1)词嵌入层scibert。用scibert将输入的每个词转换为固定长度的向量。scibert是一个基于bert结构，训练于科技文本上的预训练模型。
[0058]
2)位于词嵌入层scibert之上的bilstm层，其利用文本序列的上下文信息挖掘隐藏特征，其用于编码文本；bilstm层计算每一个单词t处句子左边的上下文表示以及句子右边的上下文表示然后连接左边和右边的上下文表示得到表示单词t处的上下文信息。
[0059]
3)位于bilstm层之上的注意力层，注意力机制的作用是降低实体内部不相关修饰词的权重，从而界定实体的边界，解决因实体内部出现不相关修饰词而导致重要实体抽取的遗漏问题。
[0060]
所述注意力层的表示公式参见式(1)-式(3)；
[0061][0062]
score
ki
＝v
t
tanh(whk uhi b)
ꢀꢀ
(2)
[0063][0064]
其中，α
ki
是结点k和结点i之间的注意力分布，score
ki
是结点k和结点i之间的注意力打分函数；v、w和u是权重矩阵，hk是bilstm右边的上下文表示hi是bilstm左边的上下文表示c是注意力编码。
[0065]
4)位于注意力层之上的crf层，crf层位于注意力层之上，是网络结构的输出层。由于制造科学技术文档中的命名实体标签之间存在着强依赖关系，因此，增加crf层能避免文本序列中的实体被错误标注。
[0066]
设x＝{x1，x2，
…
，x
n-1
，xn}是输入的句子向量，注意力机制学得的特征向量为e＝{v1，v2，
…
，v
n-1
，vn}，n是句子中词的个数；对一个预测序列注意力机制学得的特征向量y＝{y1，y2，
…
，yn}，则预测序列的得分计算公式可用公式(4)表示；
[0067][0068]
其中，a是转移矩阵，表示从标签yi转移到标签yj的得分；表示第i个词是标签yi的得分；对于一个序列y，在所有可能的标签序列上的softmax产生的一个概率如公式(5)所示；
[0069][0070]
命名实体识别模型训练时用公式(6)最大化正确标签序列；
[0071][0072]
其中，y
x
表示句子x的所有可能的标签序列，解码时可获得得分最大的输出序列为最优的y
*
就是从文本中自动标注得到的命名实体。
[0073]
iv.命名实体识别模型训练
[0074]
把第i步得到的制造文本语料按70:20:10的比例划分，分别得到训练集、验证集和测试集。命名实体识别模型需要训练的参数有：scibert词嵌入参数、bilstm的权重、注意力机制的权重、转移矩阵a和矩阵e等。用后向传播算法更新每一次训练的参数，每一次训练使用学习率为0.01的随机梯度下降算法sgd和值为5.0的梯度裁剪。用维度为100的单层前向lstm和后向lstm实现bilstm。网络的失活率dropout设置为0.5。共执行20次试验，每一次试验执行100个epoch，每一个epoch执行500次iteration，batch size的大小为256。
[0075]
v.模型预测
[0076]
用第iv步训练好的模型对已准备好的测试集进行命名实体标注。
[0077]
vi.主题识别
[0078]
通过使用已训练好的命名实体识别模型寻找重点命名实体(关注“谁”和“什么”)。方法是：查找给定的段落文本中出现的命名实体的数量。如果两个或多个实体的数量相等，将优先考虑段落中第一个识别的实体，这是因为大多数情况下句子问题的开头是主题。
[0079]
本发明针对制造科学技术文档的特征，通过选用不同的自然语言技术，设计了一种神经网络模型用于制造科学技术文档中的命名实体识别。
[0080]
创新之处主要表现在：
[0081]
1)基于预训练模型scibert学得的词嵌入，解决了实体语义的全文多义性和训练数据集有限的情况下提升模型性能的问题；
[0082]
2)注意力机制通过降低实体内部多余的修饰的权重，保证了关键实体的抽取不被遗失；
[0083]
3)crf能为不同标签之间的依赖关系建模型，保证了文本序列标注的正确性。在10万篇制造科学技术文献构成的文档集上验证表明本发明设计的命名实体模型能从制造科学摘要中提取信息，并且分类器在f1值上达到了90％的整体准确率，展示了设计的命名实体识别模型作为制造科学文档的技术语言处理工作流的价值。
[0084]
本发明的命名实体识别模型能从文本中提取信息和生成知识。因此，本发明能解析制造领域中的产品设计文本数据、工程测试文本数据、供应商数据数据、维护记录数据和产品使用数据等各种与制造科学技术相当的文档，能为企业实现各种数据资产互连提供技术基础，是促进企业的数字化转型的关键。
[0085]
在本文中，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”、“竖直”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了表达技术方案的清楚及描述方便，因此不能理解为对本发明的限制。
[0086]
在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。
[0087]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术
人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种快速提取外协成型资料的方法与流程

一种应用于制造业科学技术文档的命名实体识别模型的制作方法

相关文献

最热文献