一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图神经网络的化工制备领域长文本分类方法与流程

2022-03-23 01:48:49 来源:中国专利 TAG:

1.本发明属于自然语言处理领域,涉及一种基于图神经网络的化工制备领域长文本分类方法。


背景技术:

2.近年来,大数据技术与人工智能技术的突破为传统行业注入了新的增长点,对行业发展、研究、决策的影响日益加深。化工行业是我国第二产业的重要支撑,我国也是公认的化工大国,绝大多数化工品产能已居于世界第一。
3.对传统化工行业带来了新的挑战和机遇。一方面,化工行业作为传统碳排放大户减排任务艰巨,但另一方面,化工行业在二氧化碳资源化利用等方面也享有独特优势。因此,化工制备领域的方法选择与路径探究显得尤为关键与紧迫。当前,针对任一化工产品的制备工艺、流程等信息,都可以通过从互联网查找该制品相关专利、查询相关卷宗等方法得到大量的文本数据。将这些文本知识按制备工艺分类变得至关重要。因此,如何将这些海量的数据文本分类,按类别获取到文本进行分析是研究的关键环节。
4.对文本分类问题的研究一直是自然语言处理领域的基本问题之一。从浅层的机器学习到深度学习,研究者一直在关注文本的远程相关性。直到bert (bidirectional encoder representations from transformers)模型出现,通过大量语料训练双向编码生成与上下文语意相关的词向量,成为文本分类等自然语言处理领域下游任务的重要转折。
5.但bert及其改进的预训练模型仍存在两个重要问题,bert限定输入文本的长度为512字符,而在化工制备领域的生产工作中存在大量长度超过512字的长文本,这使得语义预训练模型无法推广到长文本分类任务上,而近几年基于 gnn图神经网络文本分类技术的探索可以很好的捕获长文本结构信息;另外, bert没有中文分词功能,针对每个字进行字嵌入映射到向量空间,而化工制备领域存在大量领域新词,这也会影响bert的向量嵌入学习。
6.因此,本发明设计了一种基于图神经网络的化工制备领域长文本分类方法,通过新词发现算法识别化工领域新词实现领域中文分词,通过节点与节点间多源关系融合实现全局图结构构建,通过图卷积神经网络迭代分类特征,全连接层接入softmax实现文本节点分类。以此来解决化工制备领域的长文本分类问题。


技术实现要素:

7.基于图神经网络在化工制备领域的长文本分类主要包含四个步骤:化工领域新词发现、全局知识图构建、图卷积神经网络获取节点分类信息、输出层。
8.本发明主要针对化工制备领域长文本分类问题中无法有效获取全局语义特征的问题,提出一种基于图神经网络在化工制备领域的长文本分类方法。该方法,基于多维词语特征融合方法和深度学习方法实现化工领域新词发现,对字典词 glove向量嵌入、新词图结构嵌入实现全局知识图节点嵌入,构建节点间句法与顺序的张量图,融合节点间关系特
征实现全局知识图边嵌入,构建全局知识图。利用图卷积神经网络获取节点分类信息,最后全连接层接入softmax对文本节点分类,输出分类结果。方法步骤如下:
9.(1)构建新词词典,利用自定义词典对文本进行专有领域契合地分词。融合词语统计特征和词向量特征,将多维特征作为rnn crf模型输入,提取文本新词。
10.(2)构建多维张量图,将全部文档、分词(包括训练数据、预测数据)作为节点glove初始化,构建全局语法、顺序张量图表示;
11.(3)通过图消息传递机制,将图中的节点、边、全局信息传递迭代更新特征表示;
12.(4)将语法、顺序特征张量图融合得到全局语义图;
13.(5)图卷积神经网络获取节点分类信息,在全局知识图构建完后,将其作为输入,放入图卷积神经网络训练迭代,获取文档节点分类信息,网络全连接层接入softmax作为输出层,输出待预测文档节点的类别信息,得到最终预测结果。
14.附图和附表说明
15.图1为本发明的整体算法结构图。
16.图2为本发明的rnn文本词语特征提取示意图。
17.图3为本发明的语法张量图类别编码对照图。
18.图4为本发明的图消息传递机制迭代嵌入示意图。
具体实施方式
19.下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
20.如图1所示,本发明主要针对化工制备领域长文本分类问题,提出基于图神经网络在化工制备领域的长文本分类方法。利用多维特征融合并结合深度学习方法实现化工领域新词发现,对字典词glove向量嵌入、新词图结构嵌入实现全局知识图节点嵌入,构建节点间句法与顺序的张量图,融合节点间关系特征实现全局知识图边嵌入,构建全局知识图。利用图卷积神经网络获取节点分类信息,利用全连接层接入softmax对文本节点分类。本发明利用多元全局语义图构建与卷积图神经网络的方式来解决化工制备领域长文本分类准确度较低的问题。具体实体方式如下:
21.步骤一:化工领域新词发现
22.为了提高化工领域文本分词的准确率,需要提取出化工领域的新词词典。因为普通的分词工具已有的词典是针对通用领域的,对化工领域专业词汇分词错误率高。因此,提出了一种改进的化工领域文本分词方法,具体过程有如下四步:
23.1.1原始语料预处理
24.中文语法特点较清晰,因此,将大规模化工领域语料文本按逗号、句号等标点符号进行句子划分,并去除特殊符号,减少噪声字符。提取每个句子中所有字符长度不超过5的文本片段作为新词候选词。
25.1.2提取词语特征
26.根据统计模型提取词语词频、词长、互信息和上下文信息熵作为特征,再加上词向量以增加词语特征丰富度
27.本发明采用互信息作为词语特征。互信息是衡量变量间相互依赖的程度,词语互
信息是衡量字符间相互关联的程度。具体如公式(1)所示
[0028][0029]
其中p(x,y)是x和y的联合概率分布函数,而p(x)和p(y)分别是x和y的边缘概率分布函数。
[0030]
本发明采用上下文信息熵来衡量某一字符片段左右字符的不确定性。信息熵越大,则该字符片段单独成词概率越高。具体如公式(2)所示
[0031]
h(x)=-∑
x∈x
p(x)log2p(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0032]
其中p(x)是x的概率分布。
[0033]
1.3融合词语多维特征
[0034]
将多维特征输入rnn crf模型,得到文本中化工领域新词词典。
[0035]
循环神经网络(recurrent neural network,rnn)相比一般的神经网络来说,能够处理序列变化的数据。应用于新词发现领域,该网络能更好地联系上下文信息提取文本中的新词。如图2所示循环神经网络的隐藏层的值不仅仅取决于当前的输入文本,还取决于上一次隐藏层的值s。权重矩阵w就是隐藏层上一次的值作为这一次的输入的权重。
[0036]
条件随机场(conditional random fields,以下简称crf)是马尔科夫随机场的特例。在化工领域新词发现领域中,每个词的标签大概率受到相邻标签的影响。 crf针对新词发现任务,学习相应的标签规则,使最终标签结果在符合当前字符片段的同时,也是整个句子最为合理。
[0037]
1.4新词词典分词
[0038]
将化工领域新词词典添加到分词工具中,得到化工领域文本分词结果。在分词工具jieba中添加用户自定义词典,分词工具会优先考虑用户词典,提高分词结果在专业领域的适用度。使用优化后的分词方法,得到高准确率的化工领域文本分词结果。
[0039]
步骤二:初始多维张量图构建
[0040]
本发明通过以上步骤获取到了化工领域新词信息,实现对化工制备领域长文本分词操作。下来,对某一类化工产品制备领域语料构建全局知识图。全局知识图中节点为语料库中全部文档节点与分词节点,由以下四个步骤构造:
[0041]
2.1初始化节点嵌入
[0042]
全局图中节点采用某一化工产品制备领域语料库中包括训练集和测试集的所有文档节点、分词节点。
[0043]
其中分词节点采用glove进行初始化嵌入到向量空间;字典外的化工领域新词节点初始化为0;文档节点按照顺序进行编码。维数d设为300。由此,得到每个节点维数为300的向量空间表示。
[0044]
2.2多维张量图构建
[0045]
构建全局语法张量图与顺序张量图。语法图与句法图有着相同的节点。其中,文档节点与分词(新词)节点间存在边相同,权重均采用tf-idf词频逆文档频率计算,如公式(3)所示。
[0046]
[0047]
其中i为文档,j为词语(新词),ci表示文档i的总词数,t
ij
表示j在i中出现的次数,cp为语料库中文档总数,cpj为语料库中包含词语j的文档数。
[0048]
下来,构建分词(新词)与分词(新词)节点之间的边:
[0049]gsyn
语法张量图,对于每个文档首先利用ltp解析器提取单词之间语法依赖关系,将各种关系看作是无向的边。计算整个语料库中具有句法依存关系的每对词的次数定义没对词语(句法图节点)间边的权重如公式(4)所示。
[0050][0051]
其中,a
j1j2
表示词语j1与j2之间边的权重,n
syntactic
(w
j1
,w
j2
)表示两个词在语料库所有文档中具有句法依存关系的次数,n
total
(w
j1
,w
j2
)表示两个词在同一文档中在整个语料库中存在的次数,num代表两个词语间句法依存关系的编码,如图 3所示。
[0052]
编码(num)关系类型tag编码(num)关系类型tag0主谓关系sbv7动补关系cmp1动宾关系vob8并列关系coo2间宾关系iob9介宾关系pob3前置宾语fob10左附加lad4兼语dbl11右附加rad5定中关系att12独立结构is6状中关系adv13核心关系hrd
[0053]
图3句法依存关系编码图
[0054]gpmi
顺序张量图,对于每个文档以滑动窗的方式计算词语(新词)节点间的权重如公式(5)所示。
[0055][0056]
其中,w(j1,j2)是包含词语j1和词语j2的滑动窗口数量,w(j)是包含单词j的滑动窗口数量,w是滑动窗口的总数。文中滑动窗口长度设为25。
[0057]
步骤三:图消息传递特征迭代
[0058]
至此,已经完成初始语法张量图g
syn
和顺序张量图g
pmi
的构建。
[0059]
如图4所示,我们采用图消息传递机制通过gnn图神经网络消息传递层层迭代,获取图中融合临近节点与边的的嵌入特征。这一方法更新了句法张量图、顺序张量图的初始向量嵌入,尤其对于新词节点以临近特征表示oov(out ofvocabulary)字典外特征。
[0060]
在本发明中构建了一个层数layer为4的gnn网络传递迭代特征。定义在本发明中构建了一个层数layer为4的gnn网络传递迭代特征。定义是所有节点的集合,是所有边的集合,u是图的全局属性。对于节点v、边e、全局特征u的3个传递更新函数如公式(6)~(8)所示。
[0061]
[0062][0063][0064]
公式(7)接受参数为一个边的集合,利用集合中所有边的信息去调整一个节点的状态。公式(8)分别接受参数为一个边(点)的集合,然后利用集合中所有边(点)的信息去调整全局状态。接入一个全连接层得到更新后的语法张量图g'
syn
与顺序张量图g'
pmi

[0065]
步骤四:张量图融合构建全局语义图
[0066]
本发明采用1
×
1卷积核的方法对语法张量图、顺序张量图进行融合。
[0067]1×
1卷积核方法广泛的应用于图像处理的特征维度变化,是用大小为1
×
1 的滤波器做卷积操作。最早出现在networkinnetwork的论文中,使用其加深加宽网络结构。受图像1
×
1卷积核跨通道特征整合维度变换思想,本发明设置多个1
×
1滤波器,可以随意增减输出的通道数,也就是降维和升维。
[0068]
通过对语法张量图g'
syn
与顺序张量图g'
pmi
的邻接矩阵进行1
×
1卷积核降维整合操作,得到化工制备领域语料构建的全局语义图ge。
[0069]
步骤五:图卷积神经网络获取节点分类信息
[0070]
本发明通过以上步骤,获取到了化工制备领域语料构建的全局语义图ge,下来需要将其作为网络输入,训练预测全局图中未分类文档节点的类别。
[0071]
图神经网络是基于热力学传播转化而来的可微的信息传播模型。进行全局语义图文档节点分类预测的图神经网络是基础的图神经网络gcns的一种变体。
[0072]
gcn图卷积神经网络是传统卷积神经网络(cnn)的一种推广形式,它可以直接对图进行操作。形式上,考虑一个图g=(v,e),其中v是图的节点集,e 是图的边集,x∈rn×n是一个包含所有节点及其特征的矩阵。
[0073]
引入了g的邻接矩阵a及其度矩阵d,其中d
ii
=∑a
ij
。gcn只能通过一层卷积来捕获直接邻居的信息。当多个gcn层叠加时,可以整合较大语义区间的信息。对于单层gcn,节点特征矩阵l
(1)
=r
n*k
,计算如公式(9)所示。
[0074][0075]
其中是归一化对称邻接矩阵,w0∈rm×k是权重矩阵,ρ是激活函数,例如relu函数。
[0076]
本发明将全局语义图ge输入到双层gcn(graph convolutional networks)图卷积网络中,第二层节点的嵌入大小与标签集相同,之后接入softmax层对待分类文档节点进行分类,计算如公式(10)所示。
[0077][0078]
其中,是归一化邻接矩阵,
[0079]
最终利用softmax分类器对图神经网络进行预测输出,得到每个待分类文档节点的类别结果。
[0080]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效
替换,这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献