基于对比学习的GCN-GRU文本分类方法

2022-08-21 18:42:40 来源：中国专利 TAG：

基于对比学习的gcn-gru文本分类方法
技术领域
1.本发明属于人工智能与文本分类领域，具体涉及一种基于对比学习的gcn-gru文本分类方法。

背景技术：

2.随着信息化和大数据时代的到来，互联网上时时刻刻都在产生文本信息。这些文本信息分布于各行各业，从这些实时海量的文本中快速准确挖掘出有价值的信息有广泛的现实意义和应用场景。例如，在社交媒体中，虚假信息时时刻刻在网络传播，快速准确识别出其中的虚假信息有助于稳定社会秩序，为公众树立正确的价值观。因此，对海量文本进行有效的文本分类具有现实意义和广泛的应用场景。
3.文本分类是自然语言处理中最基本的一项任务，其根据文本的内容等特征按照特定的分类体系标准将其划分到预定义的类别中，能大大提高文本处理、文本挖掘的效率。文本分类有广泛的应用场景，例如情感分类、人机对话、主题分类等。文本分类本身也由不同的子任务组成。从类别角度看，文本分类可以分为多类别分类、多标签分类。多类别分类是指分类任务包含两个及以上的类别标签，每个分类样本只对应一个类别标签。多类别分类包含二分类和多分类。多标签分类是分类任务包含两个及以上的类别标签，每个分类样本可以对应到多个类别标签。从分类样本角度看，文本分类可以分为文档级分类、句子级分类、对象级分类。文档分类是指分类对象是一个文档。例如，在新闻分类中，对整个新闻文档进行特征提取来分类。句子级分类是指分类对象是一个短句。例如，在微博等社交媒体平台，对用户发布不超过140字的短博客进行分类。对象级分类是指对句子中的某一个对象分类。例如，在商品评论中，用户会提及到产品不同功能的优劣，对特定的功能评论进行分类就是对象级分类。
4.针对文本分类这一研究课题的解决方案，国内外研究现状主要从三方面展开：(1)基于传统机器学习的方法。该方法主要包括特征提取和文本分类两部分。首先经过人工构造文本特征，然后选择合适的分类器进行分类，常用的分类器有svm、朴素贝叶斯、决策树等。虽然，这种方法相较于人工标注有较大的效率提升，但是人工特征提取仍然会耗费大量时间。(2)基于传统深度学习的方法。随着词向量模型的提出和深度学习的快速发展，出现了很多基于深度学习的文本分类模型。例如，textcnn模型将卷积神经网络首次应用到文本分类任务，利用多个不同大小的卷积核来捕捉句子局部特征信息，提取句子中的关键信息。随后，由于transformer机制的流行，出现了许多基于此的语言模型进行分类任务，例如：gpt和bert。虽然基于深度学习的文本分类方法能有效利用单词的上下文关系，但其假设文本之间相互独立，忽略了文本的全局信息。(3)基于图神经网络的方法。图神经网络将文本或者语料库转化为图结构，单词或者文档视为图中的节点，根据单词和单词或者单词和文本之间的特定联系构成连边。这种方式不再将文本视为单词序列而是单词共现的集合，能有效提取文本全局结构信息，学习更丰富的单词特征，处理更加复杂的文本数据集合。根据图神经网络方法对的构图方法差异，可以将现有图神经网络方法分为语料库级图和文本级
图两种方式。语料库级图将所有单词作为节点放在一个大图上，通过单词对在整个语料库中的共现情况确定连边及权重；文本级图以文本为单位构图，每个文本有其特殊的结构。在当前文本中出现的所有单词作为节点，节点之间的连边由滑动窗口决定，节点对之间的权重由单词对在当前文本中的共现情况决定。语料库级图关注于整个语料库中的全局信息，文本级图关注于当前文本的局部信息。
5.然而，现有基于图神经网络的文本分类方法仅关注于节点的局部信息或者全局信息，难以将局部信息和全局信息很好的结合起来。此外，现有基于方法难以实现对新文本的预测，大大降低了文本分类的效率。

技术实现要素：

6.针对现有技术存在的上述不足，本发明的目的在于提供一种基于对比学习的gcn-gru文本分类方法。
7.为实现以上目的，本发明采用如下技术方案：
8.一种基于对比学习的gcn-gru文本分类方法，包括以下步骤：
9.s1：构建语料库级图学习具有全局结构的节点表示；
10.s2：采用互信息计算单词对之间的权重值；
11.s3：采用词频-逆文档词频计算单词和文本之间的权重值；
12.s4：初始化节点表示；
13.s5：gcn更新节点表示，学习具有全局结构信息的文本表示global(v)；
14.s6：构建gru学习具有局部信息的文本表示local(v)；
15.s7：采用注意力机制将全局结构信息的文本表示和局部语义信息的文本表示融合；
16.s8：训练阶段预测文本标签，对文本进行分类；
17.s9：引入对比学习，将gcn模块的输出作为模型的正例样本，用正例样本约束修正gru的输出，将全局结构信息的文本表示和局部语义信息的文本表示经过一层非线性转换得到两个概率分布，将gcn得到的概率分布p
local
作为数据近似分布，将gru得到的概率分布p
global
作为数据原分布，用p
global
来约束p
local
，使得两者的分布近似一致；d
kl
(p
local
||p
global
)是p
global
约束p
local
计算得到的单向kl散度值，将其作为正则化项加入原始交叉熵损失函数中：
18.l＝loss1 α
·dkl
(p
local
||p
global
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(25)
19.其中，loss1是最初的交叉熵损失函数，d
kl
是正则化项，α是正则化项的参数，取值范围为[0，1]；
[0020]
s10：测试阶段采用gru模块对新文本进行预测。
[0021]
进一步地，步骤s2中，单词对之间权重值的计算公式如下：
[0022][0023]
[0024][0025]
pmi即pointwise mutual information互信息，#d(wi，wj)是语料库中同时包含单词wi和单词wj的文本数量，#d(wi)是语料库中包含单词wi的文本数量，#d是语料库中包含的文本数量。
[0026]
进一步地，步骤s3中，单词和文本之间的权重值的计算公式如下：
[0027][0028][0029]
tf-idf(x)＝tf(x)*idf(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0030]
其中nw代表单词w在某个文章中出现的次数，n代表该文章包含的单词总数；#d代表语料库中包含的文本数量，#dw代表包含单词w的文本数量；此外，a和d分别代表图的邻接矩阵和度矩阵，a
ij
＝{0，1}，0节点和没有连边，1代表节点vi和vj没有连边。
[0031]
进一步地，步骤s4中，单词节点表示从glove词向量获取，文本节点由该文本中所有单词节点表示的平均值初始化。
[0032]
进一步地，步骤s5中，首先采用两层的gcn模块聚合邻居节点信息，更新过程如下所示：
[0033][0034]
其中，σ(x)＝1/(1 e-x
)为sigmoid激活函数，为标准化对称邻接矩阵，wj为当前gcn层的权重矩阵，h
(j)
为第j层gcn的输入，l
(j 1)
为第j层gcn的输出；
[0035]
gcn采用文本节点本身表示和邻居节点表示的加权聚合学习图中文本的嵌入表示；由于不同的单词对文本的重要程度不同，因此引入图注意力层，从而学习到适当的邻居结点权重；采用自注意力机制计算注意力权重e
vu
和邻居节点权重a
vu
，计算过程如下所示：
[0036]evu
＝σ(w
·
[hv||hu])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0037][0038]
其中，v代表当前待更新的节点，u为其中一个邻居节点，nv为节点v的邻居节点集合；hv和hu为节点v和u的向量表示，w为注意力权重矩阵，σ(x)＝1/(1 e-x
)为sigmoid激活函数；最终，通过聚合节点v的邻居节点特征更新节点v的表示如下所示：
[0039][0040]
其中h
′v为第j层gcn输出向量，其聚合了邻居节点的所有重要信息；在经过多层gcn后，聚合全局域信息的文本节点嵌入表示为global(v)。
[0041]
进一步地，步骤s6中，gru是一个局部语义特征提取器，其处理单个文本对象，采用双向的gru来学习上下文信息；gru采用门控机制来传递序列状态信息，其包含重置门r
t
和更新门z
t
两个单元，具体的更新过程如下所示：
[0042]zt
＝σ(wzx
t
u
zht-1
bz)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0043]rt
＝σ(wrx
t
u
rht-1
br)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0044]
[0045]
其中，σ和为激活函数，x
t
和h
t
为模型t时刻的输入信息和隐藏层状态，h
t-1
为模型上一时刻隐藏层状态；wz，wr，wh，uz，ur和uh为权重矩阵；bz，br和bh为偏置，偏置的取值范围为[-1，1]；前向gru从w1到wn处理文本序列，最终得到的隐藏层状态表示为文本嵌入；反向gru从wn到w1处理文本序列，最终得到的隐藏成状态五1表示为文本嵌入；最后，将前向gru和后向gru得到的两个隐藏层状态拼接起来作为包含局部语义特征的文本表示
[0046]
进一步地，步骤s7中，融合过程具体如下：
[0047]
og＝wg·
global(v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0048]
ol＝w
l
·
local(v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0049]
ug＝tanh(w1og b1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0050]ul
＝tanh(w2o
l
b2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0051][0052][0053]
z＝∑a
lol
agog(20)
[0054]
其中，v代表语料库中的一个文本v，og和o
l
是经过线性转化的全局信息文本表示和局部信息文本表示，ag和a
l
是经过注意力机制学习到的全局信息权重和局部信息权重值，z是聚合了全局结构信息和局部语义信息的文本表示，tanh是非线性转换激活函数；wg，w
l
，w1，w2，ug和u
l
是可训练的权重矩阵；b1和b2是偏置项，偏置的取值范围是[-1，1]。
[0055]
进一步地，步骤s8中，训练阶段预测文本标签，具体为：
[0056]y′
＝softmax(wz b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)
[0057]
loss1＝crossentropy(y
′
，y)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0058]
其中，z是经过模型训练得到的文本表示，w是可训练的权重矩阵，b是偏置项，取值范围为[-1，1]；y
′
是最终的预测标签，y是真实标签，loss1是训练过程中的损失值。
[0059]
进一步地，测试阶段，采用gru模块学习到的文本表示对新文本进行分类：
[0060]y″
＝softmax(wz b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(26)
[0061]
此时，z代表采用gru模块学习的文本表示；y
″
为训练阶段最终的分类标签，w为权重矩阵，b为偏置，取值范围为[-1,1]。
[0062]
进一步地，初始化节点的嵌入维度为300。
[0063]
本发明方法从模型角度将全局结构信息和局部语义信息融合进行文本分类。首先，基于图神经网络构建一个全局结构特征提取器，基于词共现和文本单词连接情况构建语料库级别的异构图，采用多层图神经网络以及图注意力机制为邻居节点分配权重并聚合邻居节点信息，多层图神经网络使得节点能够聚合高阶邻域信息，最终学习到具有全局结构信息的文本表示。然后，基于门控循环单元网络构建一个局部语义特征提取器。采用一个双向门控循环单元网络对文本序列进行建模，学习到包含上下文语义和语序信息的文本表示。最后，引入注意力机制学习具有全局信息和局部信息的文本表示，构造交叉熵损失函数。为了实现对新文本的预测，引入对比学习思想，将图神经网络模块的输出作为正例样本
约束门控循环单元网络模块的输出。用kl散度度量两部分输出之间的差异，并将其作为正则化项加入损失函数中。最终，训练完成的门控循环单元网络模块包含了图神经网络的全局结构信息。在测试阶段，采用门控循环单元网络模块进行文本分类，既能学习到融合全局结构信息和局部语义信息的文本表示，也能实现对新文本的预测。
[0064]
本发明方法分别构建全局结构信息提取器和局部语义信息提取器学习融合了全局信息和局部信息的文本表示，而且引入对比学习使得该方法能实现对新文本的预测，解决了现有基于图神经网络文本分类方法存在的全局信息和局部信息难以高效结合的问题和难以实现归纳学习的问题，能有效提高文本分类准确率。
附图说明
[0065]
通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0066]
图1为本发明的流程图；
[0067]
图2为本发明的详细图解；
[0068]
图3展示了四种数据集的数据统计特征。其中，图3(a)为在数据集sst1上的数据特征；图3(b)为在数据集sst2上的数据特征；图3(c)为在数据集ohsumed上的数据特征；图3(d)为在数据集r8上的数据特征；
[0069]
图4展示了本发明在不同gcn层数下的分类准确率。图4(a)为在数据集mr上的分类准确率；图4(b)为在数据集ohsumed上的分类准确率；图4(c)为在数据集r8上的分类准确率。
[0070]
图5展示了3种方法(texting，gcn-gru
kl-，gcn-gru)在训练过程中的损失下降情况。图5(a)为在数据集ohsumed上的损失下降情况；图5(b)为在数据集r8上的损失下降情况。
具体实施方式
[0071]
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0072]
实施例
[0073]
如图1和2所示，基于对比学习的gcn-gru文本分类方法，包括以下步骤：
[0074]
s1：构建语料库级图学习具有全局结构的节点表示。构建语料库级图g＝(e，n)，语料库中所有文本放在一张大图上。其中，e为边集合，n为单词节点集合。图中有两种节点：单词节点和文本节点。单词节点和单词节点之间的连边由单词之间的互信息决定；当文本中包含某单词时，单词和文本之间有连边。
[0075]
s2：采用互信息(pointwise mutual information，pmi)计算单词对之间的权重值：
[0076]
[0077][0078][0079]
#d(wi，wj)是语料库中同时包含单词wi和单词wj的文本数量，#d(wi)是语料库中包含单词wi的文本数量，#d是语料库中包含的文本数量。
[0080]
s3：采用词频-逆文档词频(term frequency inverse document frequency，tf-idf)计算单词和文本之间的权重值：
[0081][0082][0083]
tf-idf(x)＝tf(x)*idf(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0084]
其中nw代表单词w在某个文章中出现的次数，n代表该文章包含的单词总数。#d代表语料库中包含的文本数量，#dw代表包含单词w的文本数量。此外，a和d分别代表图的邻接矩阵和度矩阵，a
ij
＝{0，1}，0节点和没有连边，1代表节点vi和vj没有连边。
[0085]
s4：初始化节点表示。单词节点表示从glove词向量获取，文本节点由该文本中所有单词节点表示的平均值初始化；
[0086]
s5：更新节点表示。首先采用两层的gcn模块聚合邻居节点信息，更新过程如下所示：
[0087][0088]
其中，σ(x)＝1/(1 e-x
)为sigmoid激活函数，为标准化对称邻接矩阵，wj为当前gcn层的权重矩阵，h
(j)
为第j层gcn的输入，l
(j 1)
为第j层gcn的输出。
[0089]
gcn采用文本节点本身表示和邻居节点表示的加权聚合学习图中文本的嵌入表示。由于不同的单词对文本的重要程度不同，因此引入图注意力层，从而学习到适当的邻居结点权重。采用自注意力机制计算注意力权重e
vu
和邻居节点权重a
vu
，计算过程如下所示：
[0090]evu
＝σ(w
·
[hv||hu])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0091][0092]
其中，v代表当前待更新的节点，u为其中一个邻居节点，nv为节点v的邻居节点集合。hv和hu为节点v和u的向量表示，w为注意力权重矩阵，σ(x)＝1/(1 e-x
)为sigmoid激活函数。最终，通过聚合节点v的邻居节点特征更新节点v的表示如下所示：
[0093][0094]
其中h
′v为第j层gcn输出向量，其聚合了邻居节点的所有重要信息。在经过多层gcn后，聚合全局域信息的文本节点嵌入表示为global(v)。
[0095]
s6：构建gru学习具有局部信息的文本表示。gru模块是一个局部语义特征提取器，其处理单个文本对象，采用双向的gru来学习上下文信息。gru采用门控机制来传递序列状态信息，其包含重置门r
t
和更新门z
t
两个单元。具体的更新过程如下所示：
[0096]zt
＝σ(wzx
t
u
zht-1
bz)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0097]rt
＝σ(wrx
t
u
rht-1
br)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0098][0099]
其中，σ和为激活函数，x
t
和h
t
为模型t时刻的输入信息和隐藏层状态，h
t-1
为模型上一时刻隐藏层状态；wz，wr，wh，uz，ur和uh为权重矩阵；bz，br和bh为偏置，偏置的取值范围为[-1，1]；前向gru从w1到wn处理文本序列，最终得到的隐藏层状态表示为文本嵌入；反向gru从wn到w1处理文本序列，最终得到的隐藏成状态表示为文本嵌入；最后，将前向gru和后向gru得到的两个隐藏层状态拼接起来作为包含局部语义特征的文本表示
[0100]
s7：采用注意力机制将全局结构信息的文本表示和局部语义信息的文本表示融合：
[0101]
og＝wg·
global(v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0102]ol
＝w
l
·
local(v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0103]
ug＝tanh(w1og b1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0104]ul
＝tanh(w2o
l
b2)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0105][0106][0107]
z＝∑a
lol
agogꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(20)
[0108]
其中，v代表语料库中的一个文本v，og和o
l
是经过线性转化的全局信息文本表示和局部信息文本表示，ag和a
l
是经过注意力机制学习到的全局信息权重和局部信息权重值，z是聚合了全局结构信息和局部语义信息的文本表示，tanh是非线性转换激活函数；wg，w
l
，w1，w2，ug和u
l
是可训练的权重矩阵；b1和b2是偏置项，偏置的取值范围是[-1，1]。
[0109]
s8：训练阶段预测文本标签。对文本进行分类：
[0110]y′
＝soft max(wz b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)
[0111]
loss1＝crossentropy(y
′
，y)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0112]
其中，z是经过模型训练得到的文本表示，w是可训练的权重矩阵，b是偏置项，取值范围为[-1，1]。y
′
是最终的预测标签，y是真实标签，loss1是训练过程中的损失值。
[0113]
s9：引入对比学习。为了实现对新文本的分类预测，该方法引入对比学习的思想，将gcn模块的输出作为正例样本，用这些正例样本约束修正gru的输出，使得最终学习到的gru模块融合了全局结构信息和局部语义信息。将全局文本表示和局部文本表示经过一层非线性转换得到两个概率分布：
[0114]
p
global
＝soft max(glabal(v))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(23)
[0115]
p
local
＝soft max(local(v))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
[0116]
将gcn得到的概率分布p
local
作为数据近似分布，将gru得到的概率分布p
global
作为数据原分布，用p
global
来约束p
local
，使得两者的分布近似一致。d
kl
(p
local
||p
global
)是p
global
约束p
local
计算得到的单向kl散度值，将其作为正则化项加入原始交叉熵损失函数中：
[0117]
l＝loss1 α
·dkl
(p
local
||p
global
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(25)
[0118]
其中，loss1是最初的交叉熵损失函数，d
kl
是正则化项，α是正则化项的参数，取值范围为[0，1]。
[0119]
s10：测试阶段对新文本预测。测试阶段采用gru模块学习到的文本表示对新文本进行分类：
[0120]y″
＝softmax(wz b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(26)
[0121]
此时，z代表采用gru模块学习的文本表示。y
″
为训练阶段最终的分类标签，w为权重矩阵，b为偏置，取值范围为[-1，1]。
[0122]
表1展示了本实施例使用数据集的规模：
[0123]
表1测试数据集和网络层规模设置
[0124]
数据集文本数量训练集数量测试集数量单词数量标签数量平均长度sst111855854411014683519.17sst29613779218214516219.62mr106627108355418764219.44ohsumed7400335740431415723121.59r87674548521897688865.72r5291006532256888925269.82
[0125]
表2展示了在所有数据集上，不同方法的分类精度。每一种方法都运行10次取平均值，倾斜字体为最高分类精度，加下划线为第二高分类精度。
[0126]
表2所有数据集上的分类精度
[0127] sst1sst2mrohsumedr8r52textcnn0.42300.86080.77750.58440.95170.8759textrnn0.42630.80600.77680.49270.96310.9054fasttext0.36080.84230.75140.57700.96130.9231transformer0.35090.85120.75090.60870.96440.9012bert0.40160.85690.76130.60460.96780.9136textgcn0.40630.85990.76740.68360.97070.9356tensorgcn
‑‑
0.77910.70110.98040.9505textlevelgnn0.46070.87620.76130.69400.97800.9460texting0.46730.88940.79820.70420.98040.9568tsw-gnn0.48510.89030.80260.71360.97840.9501gcn-gru0.47500.88980.80290.71920.98170.9544
[0128]
表3展示了三种方法在不同数据及上的消融实验。方法gcn-gru
g-为移除全局特征提取器，gcn-gru
l-为移除局部特征提取器。gcn-gru与gcn-gru
g-相比，在三个数据集的分类准确率上都有非常明显的提升，gcn-gru
g-去除了全局结构提取器，方法丧失了获取全局结构的能力，仅仅依靠文本的局部序列特征对文本进行建模，无法学习到融合了全局结构信息的文本表示。在ohsumed数据集上，gcn-gru提升十分显著，这也进一步说明了全局结构信息对于特殊领域的文本分类有重要作用。gcn-gru与gcn-gru
l-相比，在三个数据集的分类准确率上都有显著提升，gcn-gru
l-去除了局部特征提取器，方法丧失了获取局部语义特征的
能力，仅仅依靠词共现构建的异构图对文本特征进行建模，方法无法学习到细粒度的文本特征。
[0129]
表3消融实验
[0130]
settingmrohsumedr8gcn-gru0.80290.71820.9817gcn-gru
g-0.77680.49270.9631gcn-gru
l-0.76740.68360.9707
[0131]
表4展示了不同嵌入维度下的分类准确率。分别采用100维，200维和300维的glove向量初始化节点表示，结果表明不同维度的初始节点嵌入对分类效果有一定影响。随着嵌入维度的增加，在三个数据集上的效果都逐渐提升。当嵌入维度为100时，在三个数据集上的表现最差，这主要因为初始嵌入维度较低时，节点中包含的信息有限，难以体现单词中蕴含的丰富语义信息。随着嵌入维度的增加，节点初始嵌入包含的信息越多，能更好的学习节点的表征，从而提高分类效果。
[0132]
表4不同嵌入维度下的分类准确率
[0133]
维度100200300mr0.78920.79620.8029ohsumed0.70890.71340.7192r80.97520.97750.9817
[0134]
图3展示四种数据集的统计特征。sst1和sst2属于社交媒体领域数据，具有短文本和数据稀疏的特征，ohsumed和r8分别为医学领域和新闻领域的数据集，具有长文本和属于特殊领域的特征。对于一个坐标点(x，y)，其代表的含义是全局图中间接相连的文本数量为x的文本有y个。实验结果表明，sst1和sst2具有相似的数据分布特征，这两类数据集中文本间接连接的文本数量分布较平均，且分布跨度较大，即存在部分文本在图中属于孤立节点，不和其它文本产生连接关系。说明这类社交媒体类文本转化为图结构后，文本节点之间的连接比较稀疏，文本与文本之间的相关性低，存在独立文本节点。因此，采用gcn对图进行训练，难以为这类孤立节点提供额外有用的信息。同时，由于图结构的稀疏性，那些存在间接连接的文本节点能够获取的信息也有限。ohsumed和r8数据集的分布与sst1和sst2差异很大。从图中可以看出，文本间接连接的文本数量的分布较为集中，几乎大部分文本都能与其余文本产生间接连接，并且数据分布跨度小，两个数据集中几乎没有孤立的文本节点，ohsumed间接连接的文本数量最小也接近1000。说明这类特殊领域的文本转化为图结构后，文本节点之间的连接密切，不存在孤立的文本节点。对于这类文本和文本之间联系密切的语料库，gcn能够很好的学习全局结构信息，文本之间信息能相互传递，学习更准确的文本表征，从而实现分类性能的提升。
[0135]
图4展示了本发明在不同gcn层数下的分类准确率。图4(a)为在数据集mr上的分类准确率；图4(b)为在数据集ohsumed上的分类准确率；图4(c)为在数据集r8上的分类准确率。横坐标为局部滑动窗口大小，纵坐标为分类准确率。实验结果表明，gcn层数对分类效果有较明显的影响。当gcn层数为2时，在三个数据集上表现最好。这主要是因为双层gcn，节点能获取二阶邻域信息，即文本节点不仅能聚合与其直接连接的单词节点信息也可以与其间接连接的文本节点进行信息传递。当gcn层数为1时，在三个数据集上，分类效果较差。这主
要是因为单层gcn，文本节点只能从与其直接连接的单词节点中获取信息，难以获取更高阶的邻域节点信息，文本和文本之间难以进行信息传递。随着gcn层数不断增加，分类效果并没有明显提升，还会造成较大的计算量和内存开销。因此，选择合适的gcn层数能学习更好的文本表示，从而提升分类效果。
[0136]
图5展示三种方法(texting，去除kl散度的gcn-gru方法gcn-gru
kl-，本发明gcn-gru)在训练过程中的损失值下降情况。图5(a)为在数据集ohsumed上的损失下降情况；图5(b)为在数据集r8上的损失下降情况。横坐标为训练迭代次数，纵坐标为损失值。实验结果表明，texting方法的训练速度更慢，且需要在更多的迭代次数后才能收敛。gcn-gru与gcn-gru
kl-相比，在损失函数中加入了kl散度作为正则项。因此，在训练初期，gcn-gru的损失值更大，而随着迭代次数的增加，gcn-gru比gcn-gru
kl-的收敛速度更快，通常在50个迭代次数内模型就能收敛。通过以上结果可以看出，融合了全局结构信息和局部语义信息的模型训练速度更快。此外，在损失函数上加入kl正则化项不仅能对新文本进行预测，还能加速收敛速度。
[0137]
最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。
[0138]
以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、电子设备和可读存储介质与流程

基于对比学习的GCN-GRU文本分类方法

相关文献

最热文献