一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图卷积网络的多标签文本分类方法与流程

2022-02-22 18:39:34 来源:中国专利 TAG:


1.本发明涉及自然语言处理领域,尤其涉及一种基于图卷积网络的多标签文本分类方法。


背景技术:

2.文本分类是自然语言处理中的基础问题之一,它的一个子问题是多标签文本分类。多标签文本分类的目标是将文本打上一至多个类别标签。多标签文本分类技术,已经被应用在标签推荐、文本情感分析、社交媒体中的文本标记等多个现实应用场景中,有着广阔的应用前景。
3.多标签文本分类问题的一个重要特征是类别标签有着多种关系。一个例子是共现关系,即不同的类别标签可以同时与同一篇文章对应。比如在论文分类中,由于近年来计算语言学的论文通常使用机器学习的方法,因此“计算语言学”和“机器学习”两个类别标签常常和同一篇文章对应,即这两个类别标签之间存在一定程度的共现关系。此外还有层级关系、标签文本的语义相关性等等。如果能有效利用共现关系辅助分类,有助于提升多标签分类系统的分类准确度。
4.多标签文本分类的传统方法是,在分类层中为每个类别标签建立类别表达向量,根据类别表达向量和待分类文本的文本语义向量的内积,预测待分类文本属于某个类别的概率。它的优点是通过类别表达向量充分建模每个类别标签的信息,不足是独立地预测文本属于不同类别的概率,而没有考虑到类别标签之间的关系。
5.申请号为202010868076.1的中国发明专利申请《一种基于图神经网络的多元特征融合中文文本分类方法》,建立以待分类文本和文本中的命名实体为节点的图,通过图神经网络建模这张图得到每个节点的节点表示向量,不足之处是预测文本属于每个类别的概率时仍是独立预测,没有考虑类别标签之间的关系。
6.zhou等人发表在annual meeting of the association for computational linguistics.(计算语言学协会年度会议)会议(2020年第58届)上的,hierarchy-aware global model for hierarchical text classification.《感知层次结构的全局层次文本分类模型》。采用图卷积网络和tree-lstm两种模型计算标签图中的节点向量,随后将节点向量和待分类文本的文本语义向量融合,得到文本特定的节点向量,用于预测文本属于某个类别的概率。其不足在于忽略了类别的类别表达向量,影响模型对每个类别的表示能力。
7.adhikari等人发表在arxiv preprint平台(2019年编号1904.08398)上的docbert:bert for document classification《文章bert:为文本分类设计的bert》,其不足在于忽略了类别之间的关系。
8.对国内外相关专利分析以及相关研究可得出以下结论:目前在多标签文本分类场景下,没有兼顾类别标签间的相关性和类别标签表示有效性的方法。
9.因此,本领域的技术人员致力于开发一种基于图卷积网络的多标签文本分类方法,以兼顾类别标签间的相关性和类别标签表示有效性。


技术实现要素:

10.有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何兼顾类别标签间的相关性和类别标签表示有效性。
11.为实现上述目的,本发明提供了一种基于图卷积网络的多标签文本分类方法,包括以下步骤:
12.步骤1、通过文本编码器提取待分类文本的文本语义向量;
13.步骤2、建立以类别标签为节点的图g;
14.步骤3、将所述图g输入图卷积网络,得到每个所述类别标签的节点表示向量;
15.步骤4、将所述类别标签的所述节点表示向量与额外定义的类别表达向量结合,得到分类层融合权重;
16.步骤5、将所述文本语义向量输入分类层,根据所述步骤4得到的所述分类层融合权重,对文本进行类别预测。
17.进一步地,所述步骤1包括:将分词后的文本输入所述文本编码器,得到所述文本语义向量h。
18.进一步地,在所述步骤3中,所述图卷积网络中的每层图卷积基于所述图g,更新每个所述节点的所述节点表示向量。
19.进一步地,所述图卷积网络的第0层表示向量,是所述文本编码器对类别标签的语言描述,给出的语言表示向量h
l

20.进一步地,每个所述类别标签有自己的类别表达向量所述类别表达向量是模型参数的一部分。
21.进一步地,在所述步骤4中,对于某个类别标签li,其分类层融合权重li由类别标签的所述节点表示向量与所述类别表达向量通过融合机制融合得到。
22.进一步地,所述融合机制包括
23.步骤4.1通过带sigmoid激活函数的线性层f得到[0,1]之间的标量α,表示融合后节点表示向量的比例
[0024][0025]
步骤4.2、利用以下公式计算得到所述分类层融合权重li[0026][0027]
进一步地,所述所述步骤5包括:由所述分类层融合权重li和所述文本语义向量h的内积预测待分类文本属于类别li的概率pi=σ(li·
h)。
[0028]
进一步地,所述方法训练模型时采用的目标函数为
[0029][0030]
其中,yi代表文本是否属于类别li,是则为1;ce()代表交叉熵损失函数,代表基于和所述文本语义向量h的内积预测的待分类文本属于类别li的概率pi=σ(li·
h),λ是人为规定的参数。
[0031]
进一步地,所述仅为辅助训练使用,所述模型输出的预测概率为pi。
[0032]
与现有技术方案相比,本发明的有益技术效果包括:
[0033]
(1)本发明既考虑到了类别标签之间的关系,又考虑了类别标签的类别表达向量,并且采用门机制,根据待分类文本和类别标签的不同,灵活的决定分类层融合权重中,节点表示向量和类别表达向量的占比,增强了模型建模类别标签的充分性。
[0034]
(2)实践证明,相对于只考虑类别标签的类别表达向量或者节点表示向量的算法,本发明有着更好的分类效果。
[0035]
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
[0036]
图1是本发明的一个较佳实施例的模型结构图。
[0037]
图2是本发明的一个较佳实施例的训练流程图。
具体实施方式
[0038]
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
[0039]
接下来介绍如何将本发明用到一个论文摘要分类场景中,该场景中,给定一篇英文论文的摘要,模型需要预测该论文属于某个学科的概率,一篇论文可能属于多个学科。以下给出一个摘要和所属学科的例子:
[0040]
摘要:
[0041]
various hand-crafted features and metric learning methods prevail in the field of personre-identification.compared to these methods,this paper proposes a more general way thatcan learn a similarity metric from image pixels directly.by using a

siamese

deep neuralnetwork,the proposed method can jointly learn the color feature,texture feature and metric in a unified framework.the network has a symmetry structure with two sub-networkswhich are connected by cosine function.to deal with the big variations of person images,binomial deviance is used to evaluate the cost between similarities and labels,which is proved to be robust to outliers.
[0042]
compared to existing researches,a more practical setting is studied in the experiments that is training and test on different datasets(cross dataset person re-identification).both in

intra dataset

and

cross dataset

settings,the superiorities of the proposed method are illustrated on viper and prid.
[0043]
所属学科:
[0044]
计算机视觉和模式识别(computer vision and pattern recognition)
[0045]
机器学习(machine learning)
[0046]
神经和进化计算(neural and evolutionary computing)
[0047]
为了将本发明应用到该场景中,先要在训练集上训练一个文本分类模型,该模型的模型架构如图1所示。训练完成后,该模型会预测一篇待分类文本属于各个类别的概率。
[0048]
接下来先结合图2阐述训练过程。
[0049]
步骤一:文本预处理。对给定的待分类英文文本,进行去除大小写的预处理,并且将文本分词;分词方法由文本分类模型中的文本编码器决定。比如,当文本编码器是bert时,对应的,分词方法是bpe(byte pair encoder,字节对编码算法)。
[0050]
步骤二:构建标签图。本实施例采用类别标签的共现关系建图。共现关系指多个类别标签对应同一篇文本。具体方法为,对两个标签li和lj,计算li出现时lj也出现的条件概率p(lj|li),如果条件概率大于人工规定的阈值,则向图中添加一条由li至lj的边
[0051]
步骤三:文本编码器处理。文本编码器的输入是分词后的文本,输出是整篇文本的文本表示向量。本实施例采用bert为文本编码器,以bert最后一层输出的“[cls]”位置的向量作为文本表示向量。
[0052]
步骤四:图编码器处理。本实施例中,采用图卷积网络作为图编码器。图卷积网络的输入是标签图和每个节点的第0层节点表示向量。标签图以邻接矩阵a表示(若节点i和j相连,则邻接矩阵中第i行第j列元素a
ij
为1,否则为0;在输入图卷积网络之前,需要对类别表达向量进行标准化,标准化过程如下
[0053][0054]
第0层节点表示向量是标签描述的文本表示向量,获取流程如步骤一至步骤三所述。
[0055]
图编码器的输出是每个标签的节点表示。
[0056]
步骤五:门融合机制处理。
[0057]
对于标签i,令它的节点表示向量为类别表达向量文本表示向量为h,则先通过带sigmoid激活函数的线性层f得到[0,1]之间的标量α,表示融合后分类器权重中节点表示向量的比例
[0058][0059]
再通过以下公式得到节点表示向量li[0060][0061]
步骤六:类别概率预测。通过计算li和h的内积pi=σ(li·
h),得到文本属于类别i的概率,其中σ代表sigmoid函数。
[0062]
步骤七:计算损失函数,利用反向传播算法更新模型参数。通过将模型预测的概率和待分类文本的真实类别进行比较,获取损失函数。训练时采用的损失函数基于交叉熵损失函数,交叉熵损失函数可以直观理解为模型预测的概率和真实类别间的一种距离度量,损失函数具体如下
[0063][0064]
其中,yi代表文本是否属于类别li,是则为1,不是则为0;ce()代表交叉熵损失函
数,代表基于和h的内积预测的待分类文本属于类别li的概率pi=σ(li·
h)。需要注意的是,仅为辅助训练使用,模型输出的预测概率为pi。
[0065]
训练过程中,采用梯度反向传播算法更新模型参数。本实施例中,需要更新的参数包括图卷积网络、融合机制中的参数和标签表示向量;采用的优化算法是adam算法。每隔一段时间,评测模型在验证集上的损失函数,重复上述过程直到验证集上损失函数不再下降,保存此时文本编码器,图卷积网络和分类器组成的整体模型,如图1所示。
[0066]
步骤八:类别预测。模型训练完成后,将实施例中给出的文本输入保存的模型,得到文本属于每个类别的概率。模型预测概率前三的类别是:
[0067]
计算机视觉和模式识别(0.869);
[0068]
机器学习(0.572);
[0069]
神经和进化计算(0.366);
[0070]
综上,本发明的核心思想是在传统分类方法中引入类别标签之间的相关性。传统分类方法中有多个互相独立的子分类器,每个子分类器负责预测文本属于某个类别的概率,这样做没有考虑每个类别之间的相关性。而本发明将类别标签之间的相关性建成图,用图中的信息增强传统分类方法。具体做法是,将传统分类器中每个类别标签的类别表达向量,和类别标签的节点表示向量进行融合,生成分类器融合权重。考虑到不同的文章与类别标签对节点表示向量的需求不同,本发明通过采用门机制,动态地决定节点表示向量在分类器融合权重中的比例。这样既保留了传统方法充分建模类别标签信息的优点,又在分类时考虑了类别间的相关性,兼顾了类别标签间的相关性和类别标签表示有效性。
[0071]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献