一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于自然语言处理的地质表头归并方法及装置

2022-08-13 20:08:29 来源:中国专利 TAG:

技术特征:
1.一种基于自然语言处理的地质表头归并方法,其特征在于,包括:获取地质表头文本原始数据,对地质表头文本原始数据进行预处理;将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表,再利用所述词表将地质表头文本原始数据转化为词编号序列;将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型,经过所述表头归并模型的嵌入层、lstm层后输出特征向量;使用softmax对所述特征向量计算,得出地质表头文本所属标签类别的概率,输出表头文本的类别预测结果。2.根据权利要求1所述的基于自然语言处理的地质表头归并方法,其特征在于:所述对地质表头文本原始数据进行预处理包括文本处理、分词处理、去除停顿、转化为小写字母、去除噪声信息中的一种或多种。3.根据权利要求2所述的基于自然语言处理的地质表头归并方法,其特征在于:所述文本处理具体为:建立用于表头数据处理的基于地质表头数据的地质词汇替换表,用该地质词汇替换表来将地质表头文本原始数据中的地质专业术语词汇的简写和缩写替换为该词汇的全称。4.根据权利要求1所述的基于自然语言处理的地质表头归并方法,其特征在于:利用所述词表将地质表头文本原始数据转化为词编号序列,包括:针对地质表头文本原始数据任意文本s,结合所诉的词表t,得到s在词表t的转换下为词编号序列s=(x1,x2,

,x
n
),其中x
i
是词。5.根据权利要求1所述的基于自然语言处理的地质表头归并方法,其特征在于:通过正则表达式去除掉与表头归并任务无关的噪声信息。6.根据权利要求1所述的基于自然语言处理的地质表头归并方法,其特征在于:在lstm层中,以初始词向量为输入,得到长短记忆神经网络处理文本的特征向量,其中,所诉lstm层神经元内部计算包括遗忘门系数f
t
、输入门系数i
t
、输出系数o
t
、输出值h
t
和细胞状态值c
t
的计算,具体为:f
t
=σ(ω
f
·
[h
t-1
,x
t
] b
f
)公式中h
t-1
为t-1时刻的的输出,x
t
为t时刻的输入,为ω
f
和b
f
为t时刻所对应遗忘门的权重和偏置,最后通过sigmoid函数所得的遗忘系数f
t
;i
t
=σ(ω
i
·
[h
t-1
,x
t
] b
i
)公式中h
t-1
为t-1时刻的的输出,x
t
为t时刻的输入,为ω
i
和b
i
为t时刻所对输入门的权重和偏置,最后通过sigmoid函数所得的输入系数i
t
;公式中h
t-1
为t-1时刻的的输出,x
t
为t时刻的输入,为ω
c
和b
c
为t时刻所对应输入数据的权重和偏置,最后通过tanh函数所得的输入数据的权重和偏置,最后通过tanh函数所得的输入数据公式中c
t
为t时刻的细胞状态,等于遗忘系数f
t
乘以t-1时刻的细状态加上输入系数i
t
乘以输入数据c
t

o
t
=σ(ω
o
·
[h
t-1
,x
t
] b
o
)公式中h
t-1
为t-1时刻的的输出,x
t
为t时刻的输入,为ω
o
和b
o
为t时刻所对应输出门的权重和偏置,最后通过sigmoid函数所得的输入系数o
t
;h
t
=o
t
·
tanh(c
t
)公式中h
t
为t时刻的输出,等于输出系数o
t
乘以通过tanh的t时刻的细胞状态c
t
。7.根据权利要求1所述的基于自然语言处理的地质表头归并方法,其特征在于:所述使用softmax对所述特征向量计算,得出地质表头文本所属标签类别的概率,包括:将输出的特征向量通过线性全连接层;以线性全连接层的输出作为输入,通过softmax得到文本分类概率分布,然后选取概率值最大的作为最终的地质文本类别输出,其中softmax的计算公式为:其中,k为类别数目,x
i
是相应类别的全连接输出,以概率值最大所对应的文本类别作为最终的地质表头类别输出;对于词编号序列s=(x1,x2,

,x
n
)所对应的句子s,计算标签概率的损失函数loss公式为:其中,为softmax函数所得到的归一化标签概率,y为真实的标签类别概率。8.根据权利要求1所述的基于自然语言处理的地质表头归并方法,其特征在于:对所述表头归并模型使用学习优化算法,公式如下:lr=learning_rate
·
α
epoch%10
其中,lr为下一轮学习率,α为初始学习率,learning_rate为本轮使用学习率,epoch为当前训练轮数。9.一种基于自然语言处理的地质表头归并装置,其特征在于,包括:预处理单元,用于获取地质表头文本原始数据,对地质表头文本原始数据进行预处理;转化单元,用于将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表,再利用所述词表将地质表头文本原始数据转化为词编号序列;特征向量输出单元,用于将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型,经过所述表头归并模型的嵌入层、lstm层后输出特征向量;预测单元,用于使用softmax计算出地质表头文本所属标签类别的概率,输出表头文本的类别预测结果。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1~8任一项所述方法的步骤。

技术总结
本发明公开了一种基于自然语言处理的地质表头归并方法及装置,所述方法包括获取地质表头文本原始数据,对地质表头文本原始数据进行预处理;将所述预处理过的地质表头文本原始数据转化为包括词编号和词的词表,再利用所述词表将地质表头文本原始数据转化为词编号序列;将所述词编号序列输入预先建立的基于长短期记忆神经网络的表头归并模型,经过所述表头归并模型的嵌入层、LSTM层后输出特征向量;使用softmax对所述特征向量计算,得出地质表头文本所属标签类别的概率,输出表头文本的类别预测结果,本发明能够统筹地质表头文本数据集的局部和全局文本特征,具备良好的准确性和稳定性,有效提升地质表头文本类别预测的效果。有效提升地质表头文本类别预测的效果。有效提升地质表头文本类别预测的效果。


技术研发人员:朱永伟 江结林 胡祥奔 崔萌萌 许小龙 胡志臣
受保护的技术使用者:南京信息工程大学
技术研发日:2022.06.10
技术公布日:2022/8/12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献