一种基于自然语言处理的地质表头归并方法及装置

2022-08-13 20:08:29 来源：中国专利 TAG：

1.本发明涉及一种基于自然语言处理的地质表头归并方法及装置，属于自然语言处理应用到地质数据技术领域。

背景技术：

2.今年来，随着计算机技术的不断发展和计算机网络的快速应用，到现在我们的网络中产生了海量的各种形式数据和信息，包括图像，文本，视频等。文本数据相比图像和视频占用的空间更小，上传和下载也更加容易，所以文本数据占据网络资源中的绝大多数，而如何能够准确又快速的找到所需要的文本成为了急需解决的问题，文本分类正是有效解决这问题的方法之一。文本分类是指根据文本类别能够自动将其归类到预定义的类别，这是自然语言处理领域中重要的内容。
3.通过自然语言处理和深度学习的方法来进行地质表头文本分类能避免提取特征时单一性和主观性等，特征提取的任务将交给复杂的模型来进行。地质表头分类可视为序列到类别的模型，典型的任务有命名体识别、情感分类、信息定位等。循环神经网络、长短期记忆门神经网络等模型都能在自然语言处理中发挥充足的作用。
4.地质表头分类是文本分类在地址领域的分支。地质表头文本分类能够帮助地质从业者每日分析大量的与地质表头分析有关的文本，以此来把握行业动态。因此，如何准确快速的将产生的大量地质表头文本自动归类到相应类别对相关从业者展开工作具有十分重要的作用，同时也是亟待解决的问题。

技术实现要素：

5.本发明的目的在于克服现有技术中的不足，提供一种基于自然语言处理的地质表头归并方法及装置，能够统筹地质表头文本数据集的局部和全局文本特征，具备良好的准确性和稳定性，有效提升地质表头文本类别预测的效果。
6.为达到上述目的，本发明是采用下述技术方案实现的：
7.第一方面，本发明提供了一种基于自然语言处理的地质表头归并方法，包括：
8.获取地质表头文本原始数据，对地质表头文本原始数据进行预处理；
9.将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表，再利用所述词表将地质表头文本原始数据转化为词编号序列；
10.将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型，经过所述表头归并模型的嵌入层、lstm层后输出特征向量；
11.使用softmax对所述特征向量计算，得出地质表头文本所属标签类别的概率，输出表头文本的类别预测结果。
12.进一步的，所述对地质表头文本原始数据进行预处理包括文本处理、分词处理、去除停顿、转化为小写字母、去除噪声信息中的一种或多种。
13.进一步的，所述文本处理具体为：建立用于表头数据处理的基于地质表头数据的
地质词汇替换表，用该地质词汇替换表来将地质表头文本原始数据中的地质专业术语词汇的简写和缩写替换为该词汇的全称。
14.进一步的，利用所述词表将地质表头文本原始数据转化为词编号序列，包括：
15.针对地质表头文本原始数据任意文本s，结合所诉的词表t，得到s在词表t的转换下为词编号序列s＝(x1,x2,
···
,xn),其中xi是词。
16.进一步的，通过正则表达式去除掉与表头归并任务无关的噪声信息。
17.进一步的，在lstm层中，以初始词向量为输入，得到长短记忆神经网络处理文本的特征向量，其中，所诉lstm层神经元内部计算包括遗忘门系数f
t
、输入门系数i
t
、输出系数o
t
、输出值h
t
和细胞状态值c
t
的计算，具体为：
18.f
t
＝σ(ωf·
[h
t-1
,x
t
] bf)
[0019]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωf和bf为t时刻所对应遗忘门的权重和偏置，最后通过sigmoid函数所得的遗忘系数f
t
；
[0020]it
＝σ(ωi·
[h
t-1
,x
t
] bi)
[0021]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωi和bi为t时刻所对输入门的权重和偏置，最后通过sigmoid函数所得的输入系数i
t
；
[0022][0023]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωc和bc为t时刻所对应输入数据的权重和偏置，最后通过tanh函数所得的输入数据
[0024][0025]
公式中c
t
为t时刻的细胞状态，等于遗忘系数f
t
乘以t-1时刻的细状态加上输入系数i
t
乘以输入数据c
t
；
[0026]ot
＝σ(ωo·
[h
t-1
,x
t
] bo)
[0027]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωo和bo为t时刻所对应输出门的权重和偏置，最后通过sigmoid函数所得的输入系数o
t
；
[0028]ht
＝o
t
·
tanh(c
t
)
[0029]
公式中h
t
为t时刻的输出，等于输出系数o
t
乘以通过tanh的t时刻的细胞状态c
t
。
[0030]
进一步的，所述使用softmax对所述特征向量计算，得出地质表头文本所属标签类别的概率，包括：
[0031]
将输出的特征向量通过线性全连接层；
[0032]
以线性全连接层的输出作为输入，通过softmax得到文本分类概率分布，然后选取概率值最大的作为最终的地质文本类别输出，其中softmax的计算公式为：
[0033][0034]
其中，k为类别数目，xi是相应类别的全连接输出，以概率值最大所对应的文本类别作为最终的地质表头类别输出；
[0035]
对于词编号序列s＝(x1,x2,
···
,xn)所对应的句子s，计算标签概率的损失函数loss公式为：
[0036][0037]
其中，为softmax函数所得到的归一化标签概率，y为真实的标签类别概率。进一步的，对所述表头归并模型使用学习优化算法,公式如下：
[0038]
lr＝learning_rate
·
α
epoch％10
[0039]
其中，lr为下一轮学习率，α为初始学习率，learning_rate为本轮使用学习率，epoch为当前训练轮数。
[0040]
第二方面，本发明提供一种基于自然语言处理的地质表头归并装置，包括：
[0041]
预处理单元，用于获取地质表头文本原始数据，对地质表头文本原始数据进行预处理；
[0042]
转化单元，用于将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表，再利用所述词表将地质表头文本原始数据转化为词编号序列；
[0043]
特征向量输出单元，用于将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型，经过所述表头归并模型的嵌入层、lstm层后输出特征向量；
[0044]
预测单元，用于使用softmax计算出地质表头文本所属标签类别的概率，输出表头文本的类别预测结果。
[0045]
第三方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。
[0046]
与现有技术相比，本发明所达到的有益效果：
[0047]
本发明提供一种基于自然语言处理的地质表头归并方法及装置，通过对数据集原始数据经行预处理，建立词表将表头原始数据转化为词编号序列，输入到表头归并模型得到特征向量，输出表头文本的类别预测结果，能够统筹地质表头文本数据集的局部和全局文本特征，具备良好的准确性和稳定性，有效提升地质表头文本类别预测的效果。
附图说明
[0048]
图1是本发明实施例提供的一种基于自然语言处理的地质表头归并方法的流程图。
具体实施方式
[0049]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0050]
实施例1
[0051]
本实施例介绍一种基于自然语言处理的地质表头归并方法，包括：
[0052]
获取地质表头文本原始数据，对地质表头文本原始数据进行预处理；
[0053]
将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表，再利用所述词表将地质表头文本原始数据转化为词编号序列；
[0054]
将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型，经过所述表头归并模型的嵌入层、lstm层后输出特征向量；
[0055]
使用softmax对所述特征向量计算，得出地质表头文本所属标签类别的概率，输出表头文本的类别预测结果。
[0056]
如图1所示，本实施例提供的基于自然语言处理的地质表头归并方法，其应用过程具体涉及如下步骤：
[0057]
步骤1：对地质表头文本原始数据进行预处理得到模型所需要的输入数据，其中预处理操作包括分词处理，去除停顿词，转化为小写字母，去除噪声信息；
[0058]
步骤2：将表头文本原始数据转化为包括词编号和词的词表t，再利用词表将表头原始数据转化为词编号序列；
[0059]
步骤3：建立基于长短期记忆神经网络的表头归并模型，把步骤2中的词编号序列输入到表头归并模型，陆续经过模型的嵌入层、lstm层后输出特征向量；
[0060]
步骤4：使用softmax计算出表头文本所属标签类别的概率，直接输出表头文本的类别预测结果；
[0061]
结合图1所示，本实施例对基于lstm的地质表头归并方法做进一步的说明，该方法具体包括：
[0062]
s1文本预处理：对表头文本原始数据进行预处理得到模型所需要的输入数据，其中预处理操作包括分词处理，去除停顿词，转化为小写字母，去除噪声信息；
[0063]
s1.1去除噪声信息
[0064]
对于需要分类的地址表头文本，去除掉与表头归并任务无关的噪声信息，包括：无意义字符、数学符号。通过正则表达式来过滤掉表头文本里的噪声信息；无意义字符库需要通过训练文本来建立。
[0065]
s1.2文本处理
[0066]
基于地质表头数据的专业性，建立了用于表头数据处理基于地质表头数据的词汇替换表，可以用该地质词汇替换表来将地质表头数据中的地质专业术语词汇的简写和缩写替换为该词汇的全称。
[0067]
s1.3分词处理
[0068]
使用分词工具来对去除过噪声信息的表头文本分词，将表头文本转换为分词后对应的分词向量。
[0069]
s1.4去除停顿词
[0070]
对经过分词处理得到的分词向量使用自建的停顿词表对经过分词后的分词向量进行停顿词处理。停顿词指对文本分类任务没有任何帮助的词语，包括：介词、冠词等；
[0071]
s2将表头文本原始数据转化为包括词编号和词的词表，再利用词表将表头原始数据转化为词编号序列；
[0072]
地质表头文本归并模型为使用大量数据使用深度学习得到，大量数据中的每条数据包括进过预处理和词表转换的词编号序列和对应的地质表头类别。
[0073]
s3建立基于长短期记忆神经网络的表头归并模型，把步骤2中的词编号序列输入到表头归并模型，先将词编号序列转换为词向量序列，再将词向量序列输入到表头归并模型里，陆续经过模型的嵌入层、lstm层，提取并输出每一个表头文本的特征向量；
[0074]
s3.1嵌入层
[0075]
以经过词典转化的词编号序列为输入向量，然后对词编号序列进行长切短补操作
满足lstm对输入向量的要求，然后通过模型的词嵌入矩阵得到对应的初始词嵌入向量，从而将进过s2的词编号序列转化成对应的向量化表示。
[0076]
s3.2lstm层
[0077]
长短期记忆网络(long-short term memory,lstm)适合于处理和预测时间序列中间隔和延迟非常长的重要事件。所诉lstm层神经元内部计算包括遗忘门系数f
t
、输入门系数i
t
、输出系数o
t
、输出值h
t
和细胞状态值c
t
等计算；
[0078]ft
＝σ(ωf·
[h
t-1
,x
t
] bf)
[0079]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωf和bf为t时刻所对应遗忘门的权重和偏置，最后通过sigmoid函数所得的遗忘系数f
t
。
[0080]it
＝σ(ωf·
[h
t-1
,x
t
] bi)
[0081]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωi和bi为t时刻所对输入门的权重和偏置，最后通过sigmoid函数所得的输入系数i
t
。
[0082][0083]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωc和bc为t时刻所对应
[0084]
输入数据的权重和偏置，最后通过tanh函数所得的输入数据
[0085][0086]
公式中c
t
为t时刻的细胞状态，等于遗忘系数f
t
乘以t-1时刻的细状态加上输入系数i
t
乘以输入数据c
t
。
[0087]ot
＝σ(ωo·
[h
t-1
,x
t
] bo)
[0088]
公式中h
t-1
为t-1时刻的的输出，x
t
为t时刻的输入，为ωo和bo为t时刻所对应输出门的权重和偏置，最后通过sigmoid函数所得的输入系数o
t
。
[0089]ht
＝o
t
·
tanh(c
t
)
[0090]
公式中h
t
为t时刻的输出，等于输出系数o
t
乘以通过tanh的t时刻的细胞状态c
t
。
[0091]
s4文本类别输出：使用softmax对步骤3所得的表头文本的特征向量计算出表头文本所属标签类别的概率，直接输出表头文本的类别预测结果；
[0092]
s4.1线性全连接层处理
[0093]
将输出的特征向量通过线性全连接层；
[0094]
s4.2softmax分类层处理
[0095]
以s4.1线性全连接层的输出作为输入，通过softmax得到文本分类概率分布，然后选取概率值最大的作为最终的地质文本类别输出。
[0096]
其中softmax的计算公式为其中k为类别数目，xi是相应类别的全连接输出，以概率值最大所对应的文本类别作为最终的地质表头类别输出。
[0097]
对于词编号序列s＝(x1,x2,
···
,xn)所对应的句子，模型整体上计算标签概率的损失函数loss可表示为：
[0098]
[0099]
其中为softmax函数所得到的归一化标签概率，y为真实的标签类别概率。
[0100]
并且模型部分中使用了学习优化算法：
[0101]
lr＝learning_rate
·
α
epoch％10
[0102]
其中lr为下一轮学习率，α为初始学习率，learning_rate为本轮使用学习率，epoch为当前训练轮数。
[0103]
在本实施例中，表头归并模型用于使用将地质表头文本输入向量输入到地质表头归并模型，依次经过模型的嵌入层、lstm层，提取并输出每个地质表头的特征向量，再经过线性全连接层、分类层，通过softmax得到文本分类概率分布，然后选取概率值最大的作为最终的地质文本类别输出。
[0104]
在本实施例中，模型训练模块使用多组数据通过深度学习训练得到的地质表头归并模型，多组数据中的每组数据包括地质表头文本预处理数据和对应的地质文本类别，地质表头文本预处理数据为地质表头文本原始数据集通过文本预处理模块得到的数据。
[0105]
实施例2
[0106]
本实施例提供一种基于自然语言处理的地质表头归并装置，包括：
[0107]
预处理单元，用于获取地质表头文本原始数据，对地质表头文本原始数据进行预处理；
[0108]
转化单元，用于将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表，再利用所述词表将地质表头文本原始数据转化为词编号序列；
[0109]
特征向量输出单元，用于将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型，经过所述表头归并模型的嵌入层、lstm层后输出特征向量；
[0110]
预测单元，用于使用softmax计算出地质表头文本所属标签类别的概率，输出表头文本的类别预测结果。
[0111]
实施例3
[0112]
本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
[0113]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种空中可见光旋翼单目标检测方法、装置、设备及介质与流程

一种基于自然语言处理的地质表头归并方法及装置

相关文献

最热文献