一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本分类模型的训练方法、文本分类方法及相关设备与流程

2022-07-31 07:34:24 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种文本分类模型的训练、文本分类方法及相关设备。


背景技术:

2.文本分类任务是自然语言处理(natural language processing,nlp)领域中的一个基本任务,能够广泛应用于电子商务、金融等相关业务中。
3.目前传统的文本分类任务都是基于采用基于卷积神经网络 (convolutionalneural network,cnn)和循环神经网络(recurrent neuralnetwork,rnn)等架构的文本分类模型,利用语料集对文本分类模型进行训练以使其具备执行分类任务的能力。但是,这类文本分类模型的性能欠佳,因而在训练过程中收敛速度较慢,并且训练得到的文本分类模型无法快速准确地进行文本分类。
4.因此,当前亟需一种能够提高文本分类模型的收敛速度和识别准确率的方案。


技术实现要素:

5.本技术实施例提供一种文本分类模型的训练、文本分类方法及相关设备,用于提高文本分类模型的收敛速度和识别准确率。
6.为了实现上述目的,本技术实施例采用下述技术方案:
7.第一方面,本技术实施例提供一种文本分类模型的训练方法,包括:
8.基于文档样本集,获取第一关系图的结构信息和特征信息;所述文档样本集包括训练文档样本和预测文档样本,所述第一关系图包括多个节点和节点之间的连接边,所述多个节点包括训练文档样本对应的文档节点、预测文档样本对应的文档节点和所述文档样本集中的文档样本包含的词语对应的词节点;
9.通过文本分类模型中的预训练分类网络基于所述特征信息对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第一分类参考信息;
10.通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第一关系图的语义指导信息;
11.通过所述图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述训练文档样本对应的类别标签,对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第二分类参考信息;
12.基于所述第一分类参考信息、所述第二分类参考信息及所述预测文档样本对应的类别标签,优化所述图神经网络的网络参数。
13.可以看出,本技术实施例中,将文档样本及其中包含的词语分别作为关系图中的节点,将节点之间的关联关系用节点之间的连接边表示,从而将文本分类任务看作是节点分类任务,由于关系图相较于文档样本本身包含的信息更丰富,因而利用关系图进行文本分类模型的训练,使得文本分类模型能够学习到更丰富的知识,有利于提高文本分类模型
的性能。
14.在此基础上,采用包含预训练分类网络和图神经网络的文本分类模型架构,由预训练分类网络学习关系图的特征信息以对预测文档样本进行文本分类处理,由图神经网络学习关系图的特征信息和结构信息,充分利用关系图中节点之间的关联关系、节点的节点表示以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,而后综合预训练分类网络和图神经网络各自得到的分类参考信息以及预测文档样本对应的类别标签,优化图神经网络的网络参数,可以充分融合两个网络的学习能力及分类参考信息,进一步提升文本分类模型的性能。
15.此外,在利用图神经网络进行文本分类处理时,先基于关系图的特征信息和结构信息确定关系图的语义指导信息,进一步利用图神经网络基于关系图的特征信息、结构信息、语义指导信息以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,由于语义指导信息能够反映文档样本及其包含的词语各自的语义,进而能够为预测文档样本的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借训练文档样本对应的文档节点的节点表示去推理预测文档样本对应的文档节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速收敛,也即提高了文本识别模型的收敛速度。
16.第二方面,本技术实施例提供一种文本分类方法,包括:
17.基于目标文档集,获取第二关系图的结构信息和特征信息;所述目标文档集包括待分类文档和已分类文档,所述第二关系图包括多个节点和节点之间的连接边,所述多个节点包括所述待分类文档对应的文档节点、所述已分类文档对应的文档节点和所述目标文档集中的文档包含的词语对应的词节点;
18.通过文本分类模型中的预训练分类网络基于所述特征信息对所述待分类文档进行文本分类处理,得到所述待分类文档的第一分类参考信息;
19.通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第二关系图的语义指导信息;
20.通过所述文本分类模型中的图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述已分类文档所属的类别,对所述待分类文档进行文本分类处理,得到所述待分类文档的第二分类参考信息;
21.基于所述待分类文档的第一分类参考信息和第二分类参考信息,确定所述待分类文档所属的类别。
22.可以看出,本技术实施例中,将待分类文档、已分类文档及各文档包含的词语分别作为关系图中的节点,将节点之间的关联关系用节点之间的连接边表示,从而将文本分类任务看作是节点分类任务,由于关系图相较于文档本身包含的信息更丰富,由文本分类模型基于关系图的特征信息和结构信息执行文本分类任务,使得文本分类模型能够获取到更丰富的知识,有利于提高文本分类准确率;在此基础上,采用包含预训练分类网络和图神经网络的文本分类模型架构,由预训练分类网络学习关系图的特征信息以对待分类文档进行文本分类处理,由图神经网络学习关系图的特征信息和结构信息,充分利用关系图中节点之间的关联关系、节点的节点表示以及已分类文档所属的类别进行文本分类处理,而后综合预训练分类网络和图神经网络各自得到的分类参考信息,确定待分类文档所属的类别,
可以充分融合两个网络的学习能力及预测结果,进一步提高文本分类准确率;此外,在利用图神经网络进行文本分类处理时,先基于关系图的特征信息和结构信息确定关系图的语义指导信息,进一步利用图神经网络基于关系图的特征信息、结构信息、语义指导信息以及已分类文档所属的类别,对未分类文档进行文本分类处理,由于语义指导信息能够反映各个文档及其包含的词语各自的语义,进而能够为待分类文档的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借已分类节点的节点表示去推理未分类节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速得到分类结果,也即提高了文本识别效率。
23.第三方面,本技术实施例提供一种文本分类模型的训练装置,包括:
24.获取单元,用于基于文档样本集,获取第一关系图的结构信息和特征信息;所述文档样本集包括训练文档样本和预测文档样本,所述第一关系图包括多个节点和节点之间的连接边,所述多个节点包括训练文档样本对应的文档节点、预测文档样本对应的文档节点和所述文档样本集包含词语对应的词节点,所述结构信息用于表示所述第一关系图中各个连接边对应的边权重,所述特征信息包括所述第一关系图中各个节点的节点表示;
25.分类单元,用于通过文本分类模型中的预训练分类网络基于所述特征信息对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第一分类参考信息;
26.语义处理单元,用于通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第一关系图的语义指导信息;
27.所述分类单元,用于通过所述文本分类模型中的图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述训练文档样本对应的类别标签,对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第二分类参考信息;
28.优化单元,用于基于所述第一分类参考信息、所述第二分类参考信息及所述预测文档样本对应的类别标签,优化所述图神经网络的网络参数。
29.第四方面,本技术实施例提供一种文本分类装置,包括:
30.获取单元,用于基于目标文档集,获取第二关系图的结构信息和特征信息;所述目标文档集包括待分类文档和已分类文档,所述第二关系图包括多个节点和节点之间的连接边,所述多个节点包括所述待分类文档对应的文档节点、所述已分类文档对应的文档节点和所述目标文档集中的文档包含的词语对应的词节点;
31.分类单元,用于通过文本分类模型中的预训练分类网络基于所述特征信息对所述待分类文档进行文本分类处理,得到所述待分类文档的第一分类参考信息;
32.语义处理单元,用于通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第二关系图的语义指导信息;
33.所述分类单元,用于通过所述文本分类模型中的图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述已分类文档所属的类别,对所述待分类文档进行文本分类处理,得到所述待分类文档的第二分类参考信息;
34.所述分类单元,用于基于所述待分类文档的第一分类参考信息和第二分类参考信息,确定所述待分类文档所属的类别。
35.第五方面,本技术实施例提供一种电子设备,包括:
36.处理器;
37.用于存储所述处理器可执行指令的存储器;
38.其中,所述处理器被配置为执行所述指令,以实现如第一方面或第二方面所述的方法。
39.第六方面,本技术实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或第二方面所述的方法。
附图说明
40.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
41.图1为本技术的一个实施例提供的一种文本分类模型的训练方法的流程示意图;
42.图2为本技术的一个实施例提供的一种第一关系图的结构示意图;
43.图3为本技术的一个实施例提供的一种文本分类模型的结构示意图;
44.图4为不同的文本分类模型的性能比对示意图;
45.图5为本技术的一个实施例提供的一种文本分类方法的流程示意图;
46.图6为本技术的另一个实施例提供的一种文本分类方法的流程示意图;
47.图7为本技术的一个实施例提供的一种文本分类模型的训练装置的结构示意图;
48.图8为本技术的一个实施例提供的一种文本分类装置的结构示意图;
49.图9为本技术的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
50.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.本说明书和权利要求书中的属于“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本技术实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
52.由于标注有类别标签的训练文档样本的数量有限,无法保证基于cnn或 rnn架构的文本分类模型从文档样本中学习到足够有用的特征信息,进而影响文本分类模型的分类准确率,为此,本技术实施例提出了一种文本分类模型的训练方法,利用文档样本集构建相应的关系图,将文档样本集及其中包含的词语分别作为关系图中的节点,将节点之间的关联关系用节点之间的连接边表示,从而将文本分类任务看作是节点分类任务,由于关系图相较于文档样本集中各个文档样本本身包含的信息更丰富,因而利用关系图进行文本分类模型的训练,使得文本分类模型能够学习到更丰富的知识,有利于提高文本分类模型的性能;在此基础上,采用包含预训练分类网络和图神经网络的文本分类模型架构,由预训练分类网络学习关系图的特征信息以对预测文档样本进行文本分类处理,由图神经网络学习关
系图的特征信息和结构信息,充分利用关系图中节点之间的关联关系、节点的节点表示以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,而后综合预训练分类网络和图神经网络各自得到的分类参考信息以及预测文档样本对应的类别标签,优化图神经网络的网络参数,可以充分融合两个网络的学习能力及分类参考信息,进一步提升文本分类模型的性能;此外,在利用图神经网络进行文本分类处理时,先基于关系图的特征信息和结构信息确定关系图的语义指导信息,进一步利用图神经网络基于关系图的特征信息、结构信息、语义指导信息以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,由于语义指导信息能够反映文档样本及其包含的词语各自的语义,进而能够为预测文档样本的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借训练文档样本对应的文档节点的节点表示去推理预测文档样本对应的文档节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速收敛,也即提高了文本识别模型的收敛速度。
53.基于上述的文本分类模型的训练方法,本技术实施例还提出了一种文本分类方法,利用训练得到的文本分类模型能够快速准确地进行文本识别。
54.应理解,本技术实施例提供的文本分类模型的训练方法和文本分类方法均可以由电子设备或安装在电子设备中的软件执行。此处所谓的电子设备可以包括终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
55.以下结合附图,详细说明本技术各实施例提供的技术方案。
56.请参见图1,为本技术的一个实施例提供的一种文本分类模型的训练方法的流程示意图,该方法可以包括如下步骤:
57.s102,基于文档样本集,获取第一关系图的结构信息和特征信息。
58.其中,第一关系图包括多个节点和节点之间的连接边。具体而言,多个节点包括训练文档样本对应的文档节点、预测文档样本对应的文档节点和文档样本集中的文档样本包含的词语对应的词节点。节点之间的连接边用于表示节点之间存在关联关系。第一关系图中节点之间的连接边包括第一类连接边和第二类连接边,第一类连接边用于表示词节点之间的关联关系,第二类连接边表示文档节点与词节点之间的关联关系。
59.本技术实施例中,可通过任意适当的方式建立第一关系图,具体可根据实际需要进行选择,本技术实施例对此不作限定。在一种可选的实现方式中,为准确反映不同文档样本之间的关联关系以及文档样本与词语之间的关联关系,可基于文档样本集中的训练文档样本和预测文档样本,建立第一关系图,具体而言,在上述s102之前,本技术实施例的训练方法还包括:基于文档样本集包含的词语,确定文档样本集对应的词语集,其中,文档样本集包含的词语包括训练文档样本中词语和预测文档样本中词语;接着,针对词语集中的各词语,创建各词语对应的词节点,并在满足第一创建边条件的不同词节点之间创建第一类连接边,其中,如果词语集中的两个词语同时出现在同一文档样本中,则这两个词语各自对应的词节点满足第一创建边条件;如果这两个词语未同时出现在同一文档样本中,则这两个词语各自对应的词节点不满足第一创建边条件;针对文档样本集中的文档样本,创建训练训练文档样本对应的文档节点,以及创建预测文档样本对应的文档节点,并在满足第二
创建边条件的文档节点与词节点之间创建第二类连接边,其中,如果某个文档样本(训练文档样本或者预测文档样本)包含某个词语,则表示该文档样本对应的文档节点和该词语对应的词节点满足第二创建边条件;若某个文档样本不包含某个词语,则表示该文档样本对应的文档节点和该词语对应的词节点不满足第二创建边条件。由此,第一类连接边可以表示所连接的词节点对应的词语存在关联关系,第二类连接边可以表示所连接的文档节点对应的文档样本与词节点对应的词语之间为包含与被包含的关系。
60.例如,文档样本集包含文档样本1、文档样本2和文档样本3这三个文档样本,文档样本1包含词语a,文档样本2包含词语b和词语c,文档样本3 包含词语c和词语d,进一步可确定文档样本集对应的词语集为{a,b,c,d},通过上述实施方式可建立如图2所示的第一关系图,其中,词节点之间的连接虚线表示第一类连接边,词节点与文档节点之间的连接实线表示第二类连接边。需要说明的是,本技术实施例中,文档可以例如包括但不限于句子、段落等。
61.本技术实施例中,第一关系图的结构信息是指用于反映第一关系图的结构特征(比如节点对应的文档样本或词语之间的关联关系)的信息,具体可以包括第一关系图中各个连接边对应的边权重,其中,第一关系图中各个连接边对应的边权重包括第一类连接边的边权重和第二类连接边的边权重。连接边对应的边权重可以反映出连接边所连接的节点之间的关联程度,比如若连接边对应的边权重越大,则表示连接边所连接的节点之间的关联越紧密。
62.在一种可选的实现方式中,考虑到类别相同的文档通常包含相同的词语,比如具有正向情感的文档中通常包含“很好”、“不错”、“喜欢”等具有正向情感的词语,为了使第一关系图的结构信息能够准确反映文档样本与词语之间的关联关系以及不同词语之间的关联关系,以便文本识别模型能够学习不同类别的文档之间的差异性、相同类别的文档之间的共性以及文档中的词语对于文档类别的影响,在上述s102中,获取第一关系图的结构信息具体可实现为:
63.(1)对于词节点之间的第一类连接边而言,基于词语集中任意的第一词语和第二词语各自在文档样本集中出现的概率以及第一词语和第二词语在同一文档样本中出现的概率,确定第一词语和第二词语之间的点互信息(pointmutual information,pmi);基于该点互信息,确定第一词语对应的词节点和第二词语对应的词节点之间的第一类连接边对应的边权重。
64.具体而言,各个词语在文档样本集中出现的概率可以根据各个词语在文档样本中出现的次数与文档样本集对应的词语集包含的词语总数之间的比值确定。第一词语和第二词语在同一文档样本中出现的概率可以根据第一词语和第二词语出现在同一文档样本中的次数与文档样本集对应的词语集包含的词语总数之间的比值确定。进一步,可将第一词语与第二词语之间的点互信息,确定为第一词语对应的词节点和第二词语对应的词节点之间的第一类连接边对应的边权重。
65.两个词语之间的点互信息用于表示两个词语之间的相关性,若两个词语之间的点互信息越大,则表示两个词语之间越相关。第一词语与第二词语之间的点互信息可通过本领域常用的方式确定,比如其中, pmi(i,j)表示第一词语与第二
词语之间的点互信息,p(i)表示第一词语在文档样本集中出现的概率,p(j)表示第二词语在文档样本集中出现的次数,p(i,j) 表示第一词语和第二词语在同一文档样本中出现的概率。
66.(2)对于词节点与文档节点之间的第二类连接边而言,基于词语集中任意一个目标词语在目标文档中出现的概率以及文档样本集中包含目标词语的文档样本数量,确定目标词语对于目标文档样本的重要程度,以及基于该重要程度,确定目标词语对应的词节点与目标文档样本对应的文档节点之间的第二类连接边对应的边权重。
67.具体而言,词语对于文档的重要程度可以采用词频-逆文件频率(termfrequency-inverse document frequency,tf-idf)表示。其中,词语的词频 (tf)表示词语在文档中出现的频率;逆文件频率(idf)表示词语的普遍程度,在本技术实施例中,词语的逆文件频率可以基于包含该词语的文档样本和文档样本集中的文档样本数量确定;进一步,词语的词频与逆文件频率之间的乘积,即可作为词语的词频-逆文件频率。进一步,可将目标词语对于目标文档样本的重要程度,确定为目标词语对应的词节点与目标文档样本对应的文档节点之间的第二类连接边对应的边权重。
68.本技术实施例中,第一关系图的特征信息是指用于反映第一关系图中各个节点的特征的信息,具体可以包括第一关系图中各个节点的节点表示。文档节点的节点表示是指文档节点对应的文档样本的文档特征的表示向量,词节点的节点表示是指词节点对应的词语的词特征的表示向量。第一关系图中各个节点的节点表示可以通过本领域的各种技术手段获取到,本技术实施例对此不作限定。
69.s104,通过文本分类模型中预训练分类网络基于第一关系图的特征信息对预测文档样本进行文本分类处理,得到预测文档样本的第一分类参考信息。
70.如图3所示,本技术实施例中的文本分类模型包括预训练分类网络,其中,预训练分类网络是指预先训练好的、具有文本分类能力的网络。由于第一关系图的特征信息反映了文档样本及其包含的词语各自的特征,通过预训练分类网络,由预训练分类网络基于第一关系图的特征信息对预测文档样本进行文本分类处理,得到预测文档样本的第一分类参考信息。其中,该第一分类参考信息可以包括用于表示预测文档样本的分类结果的特征向量。
71.本技术实施例中,预训练分类网络可以具有任意适当的结构,具体可根据实际需要进行设置,本技术实施例对此不作限定。在一种可选的实现方式中,为提高预训练分类网络的识别准确率,如图3所示,预训练分类网络可以包括语言表示层和全连接层。
72.其中,语言表示层用于对第一关系图的特征信息进行其嵌入处理 (embedding),得到第一关系图中各节点的嵌入向量。为了能够输入全连接层的嵌入向量能够包含丰富的语义信息,也即使词节点的嵌入向量能够较好地反映出词节点对应的词语在文档样本中的含义以及使文档节点的嵌入向量能够较好地反映出文档节点对应的文档样本的真实意图,全连接层可以采用预训练语言模型((bidirectional encoder representations from transformers, bert),其采用基于transformer的双向编码器架构,在对文档样本或词语各自对应的节点的节点表示进行嵌入处理时,不仅考虑文档样本或词语本身,还考虑该文档样本的上下文信息,因而得到的嵌入向量具有更丰富的语义信息,从而有利于全连接层准确识别文档样本所属的类别。
73.为了使预训练分类网络能够在大规模待分类文档上进行分类识别的能力,语言表示层可用于对将第一关系图中各个文档节点的节点表示进行嵌入处理,得到对应的嵌入向量,并第一关系图中词节点的嵌入向量置位零向量,也即其中,x表示语言表示层输出的嵌入向量, n
word
表示第一关系图中的文档节点数量,n
doc
表示第一关系图中的词节点数量, d表示嵌入向量的维度,x
doc
表示文档节点的嵌入向量,0表示词节点的嵌入向量。
74.全连接层作为预训练分类网络的输出层,其用于基于第一关系图中各节点的嵌入向量对文档样本进行分类识别,得到文档样本的第一分类参考信息,也即其中,表示文档样本的第一分类参考信息,l表示预训练分类网络中的层索引,也即属于预训练分类网络中的第几层,x
(l)
表示第一关系图中节点的特征向量,表示全连接层的网络参数,c表示第一关系图中节点的特征向量的维度,e表示文档样本的第一分类参考信息的维度,r表示文档样本集,bert表示全连接层。由此,全连接层可以起到对语言表示层的微调作用,使得语言表示层输出的嵌入向量能够用于下游任务,比如本技术实施例中的文本分类任务。
75.s106,通过文本分类模型中的图神经网络基于第一关系图的特征信息及结构信息,确定第一关系图的语义指导信息。
76.如图3所示,本技术实施例中的文本分类模型还包括图神经网络,其中,图神经网络通过图的网络拓扑结构和节点内容信息执行分类识别任务。在本技术实施例中,通过图神经网络,将第一关系图的结构信息、特征信息以及训练文档样本对应的类别标签输入图神经网络,使得图神经网络能够基于训练文档样本对应的类别标签学习第一关系图中各个节点之间的关联关系和反映节点特征的节点表示,掌握不同文档样本之间的关联关系、文档样本与词语之间的关联关系以及文档样本与词语各自的特征,进而利用训练文档样本的相关信息对预测文档样本进行文本分类处理,得到文档样本的第二分类参考信息。
77.本技术实施例中,为提高分类准确率,图神经网络可以为图卷积网络 (graph convolutional network,gcn)。图卷积网络中包含卷积层,示例地,卷积层可以是图卷积层。图卷积层是一种对图数据进行卷积运算的处理层,其通过学习一个函数映射,针对图中各节点,利用学习到的函数映射将该节点的特征与其邻居节点的特征来生成该节点的新特征,从而实现图中各个节点之间的特征传播,以便利用已分类节点的特征识别未分类节点的类别。在本技术实施例中,卷积层则针对关系图中各个节点,利用该节点的邻居节点的特征来更新该节点的特征以得到该节点的新特征,从而实现关系图中各个节点之间的特征传播,利用训练文档样本对应的文档节点的节点表示及训练文档样本对应的类别标签,识别预测文档样本所属的类别。
78.具体而言,图神经网络中的卷积层可以表示为如下公式(1)和公式(2):
79.[0080][0081]
其中,h
(l 1)
表示卷积层的输出结果,l表示卷积层的层索引,即表示第几层卷积层,gcn表示卷积运算,a表示第一关系图的结构信息的邻接矩阵,它的归一化形式为d表示邻接矩阵的度矩阵,pmi(i,j)表示第i个词语与第j个词语各自对应的词节点之间的第一类连接边对应的变边权重, tf-idf(i,j)表示第i个词语对应的词节点与第j个文档样本对应的文档节点之间的第二类连接边对应的边权重,x
(l)
表示卷积层的输入数据,x∈rv×c,表示第一关系图中的节点数量,c表示卷积层的输入数据的维度,w
(l)
表示卷积层的网络参数,w∈rc×f,f表示卷积层的输出数据的维度,r表示文档样本集,σ表示激活函数。
[0082]
考虑到关系图的结构信息及特征信息的数据量大,图神经网络所要学习的内容繁多,因而收敛速度慢,影响文本分类模型的训练效率,为此,可以通过图神经网络基于第一关系图的特征信息及结构信息,确定第一关系图的语义指导信息,该语义指导信息能够反映文档样本及其包含的词语各自的语义,进而能够为预测文档样本的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借训练文档样本对应的文档节点的节点表示去推理预测文档样本对应的文档节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速收敛,也即提高了文本识别模型的收敛速度。
[0083]
具体而言,第一关系图的语义指导信息可用于表示第一关系图中各个节点的节点表示的对于预测文档样本的语义重要性,由此,使卷积层在执行节点之间特征传播时更聚焦于具有丰富语义信息的重要节点特征,从而提高图神经网络的收敛速度,也即提高文本识别模型的收敛速度,提高文本识别模型的训练效率。
[0084]
在一种可选的实现方式中,第一关系图的语义指导信息可通过在图神经网络中引入对节点重要性的评分机制来确定,第一关系图的特征信息包括第一关系图中各个节点的重要性分值。如图3所示,图神经网络可以包括节点评分层,节点评分层用于基于自注意力机制,通过第一关系图的结构信息和特征信息,确定第一关系图中各节点的重要性分值。可以理解的是,由于注意力机(attention)能够从大量信息中筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,而自注意力机制(self attention)属于注意力机制的一种变体,其能够减少对外部信息的依赖,更擅长捕捉数据或特征的内部相关性,通过自注意力机制捕捉第一关系图中节点之间的关联关系和节点的特征,能够更准确客观地评估各节点的重要性,也就是说,得到的各节点的重要性分值更准确、更客观,有利于第二卷积层能够聚焦于第一关系图中重要节点的特征,从而有利于整个图神经网络在训练过程中快速收敛。
[0085]
更为具体地,为了确保第二卷积层能够聚焦到重要节点的特征上,忽略大多不重要节点的特征,从而进一步提高图神经网络的收敛速度,上述s106 可实现为:利用节点评分层基于自注意力机制,通过第一关系图的结构信息及特征信息,确定第一关系图中各节
点的注意力分值,从第一关系图中选取注意力分值满足预设分值条件的节点,并对选出的节点的注意力分值进行非线性变换处理,得到选出的节点的重要性分值,以及将第一关系图中未选取的节点的重要性分值设置为预设分值。
[0086]
其中,预设分值可以根据实际需要进行设置,示例地,为了忽略不重要节点的特征,预设分值可以设置为0。预设分值条件也可根据实际需要进行设置,示例地,预设分值条件可以设置为注意力分值位于前k位。
[0087]
示例地,节点的注意力分值可通过如下公式(3)确定:
[0088][0089]
其中,s
(l 1)
表示节点的重要性分值,topk表示选出注意力分值最高的k个节点,a表示第一关系图的结构信息对应的邻接矩阵,它的归一化形式为d表示邻接矩阵的度矩阵,w
s(l)
表示节点评分层的网络参数,l表示节点评分层的层索引,即表示第几层节点评分层,x
(l)
表示节点评分层的输入数据,attention表示自注意力机制,attention(a,x
(l)
)表示节点的注意力分值。
[0090]
s108,通过文本分类模型中的图神经网络基于第一关系图的语义指导信息、特征信息、结构信息以及训练文档样本对应的类表标签,对预测文档样本进行文本分类处理,得到预测文档样本的第二分类参考信息。
[0091]
如图3所示,图神经网络还可以包括第一卷积层和第二卷积层,其中,第一卷积层与第二卷积层相连接。相应地,上述s108具体可实现为:
[0092]
步骤a1,利用第一卷积层基于训练文档样本对应的类别标签,对第一关系图的结构信息及特征信息进行卷积处理,得到第一卷积结果。
[0093]
具体而言,第一卷积结果可以表示为:h
(1)
=gcn(a,x
(0)
),其中,h
(1)
表示第一卷积结果,gcn表示卷积处理,a表示第一关系图的结构信息对应的邻接矩阵,x
(0)
包括训练文档样本对应的类别标签和第一关系图的特征信息。
[0094]
步骤a2,将第一卷积结果与第一关系图的语义指导信息进行融合处理,得到融合卷积结果。
[0095]
为了增强具有丰富语义信息的重要节点特征而使其包含更加丰富的信息,可基于第一关系图中各节点的重要性分值与第一卷积结果之间的乘积,确定各节点的候选卷积结果;对第一关系图中各节点的候选卷积结果及第一卷积结果进行融合处理,得到第一关系图中各节点的融合卷积结果。
[0096]
更为具体地,各节点的融合卷积结果可通过如下公式(4)确定:
[0097]z(1)
=(h
(1)
h
(1)
*s
(1)
)/2
ꢀꢀꢀ
(4)
[0098]
其中,z
(1)
表示节点的融合卷积结果,s
(1)
表示节点的重要性分值, s
(1)
=attention(a,x
(0)
),attention表示注意力机制,a表示第一关系图的结构信息对应的邻接矩阵,x
(0)
包括训练文档样本对应的类别标签和第一关系图的特征信息,h
(1)
表示节点的第一卷积结果,h
(1)
*s
(1)
表示节点的候选卷积结果,*表示元素相乘。
[0099]
步骤a3,将融合卷积结果输入至第二卷积层进行卷积处理得到第二分类参考信息。
[0100]
第二分类参考信息可通过公式(5)确定:
[0101][0102]
其中,表示第二分类参考信息,z
(1)
表示节点的融合卷积结果,a表示第一关系图的结构信息对应的邻接矩阵,gcn表示卷积运算。
[0103]
可以理解的是,利用第一卷积层基于训练文档样本对应的类别标签,对第一关系图的结构信息及特征信息进行卷积处理,相当于是利用第一关系图中各节点的邻居节点的节点表示和第一关系图的结构信息,更新各节点的节点表示;而后,将第一卷积结果与第一关系图的语义指导信息进行融合处理,得到融合卷积结果,相当在第一关系图中各节点的节点表示中引入各节点的重要性分值;进一步,将融合卷积结果输入至第二卷积层进行卷积处理得到第二分类参考信息,相当于对各节点的引入重要性分值后的节点表示进行再次更新,使得图神经网络在执行文本分类处理时能够聚焦于第一关系图中重要节点的节点表示,从而有利于整个图神经网络在训练过程中快速收敛。
[0104]
s110,基于第一分类参考信息、第二分类参考信息及预测文档样本对应的类别标签,优化图神经网络的网络参数。
[0105]
其中,图神经网络的网络参数可以例如包括但不限于图神经网络中各网络层包含的神经元数量、不同网络层的神经元之间的连接关系及连接边权重以及各网络层中的神经元对应的偏置等。
[0106]
本技术实施例中,由于预测文档样本的分类参考信息与其类别标签之间的差异,能够反映文本分类模型的分类准确率,且第一分类参考信息和第二分类参考信息分别是由文本分类模型中不同的网络基于关系图的不同信息进行学习和分类得到的,为了充分融合两个网络的学习能力,从而提升文本分类模型的性能,使得文本分类模型能够准确对文本进行分类识别,可综合预测文档样本的第一分类参考信息、第二分类参考信息及预测文档样本对应的类别标签,优化图神经网络的网络参数。
[0107]
考虑到预训练分类网络与图神经网络的数据处理方式不同、网络大小不同,将二者输出的分类参考信息直接结合起来会影响文本分类模型的收敛速度;此外,图神经网络是在整个关系图上进行运算,而预训练分类网络可能无法一次性加载关系图中所有节点的特征,为此,在一种可选的实现方式中,上述s110可以实现为:
[0108]
s1101,获取预训练分类网络对应的第一权重以及图神经网络对应的第二权重。
[0109]
s1102,将文档样本的第一分类参考信息与第一权重进行相乘运算,以及将第二分类参考信息与第二权重进行相乘运算,并将相乘运算的结果进行融合处理。
[0110]
示例地,上述s1102具体可通过公式(6)实现。
[0111][0112]
其中,z表示融合处理的结果,表示文档样本的第一分类参考信息,bert表示预训练分类网络,x
(0)
表示预训练分类网络的输入数据,表示文档样本的第二分类参考信息,gcn表示卷积运算,a表示第一关系图的结构信息对应的邻接矩阵,z
(1)
表示第二卷积层的输入, z∈rv×e,表示文档样本集,表示第一关系图中的节点数量,表示分类参考信息的维度,1-λ表示第一权重,λ表示第二权重,第一权重和第二权重可根据实际需要进行设置,本技术实施例对此不作限定。
[0113]
s1103,基于融合处理的结果,确定预测文档样本的预测类别。
[0114]
具体而言,可将融合处理后的结果中指示的最大分类概率对应的类别,确定为预测文档样本的预测类别。
[0115]
s1104,基于预测文档样本的预测类别、预测文档样本对应的类别标签以及图神经网络对应的预设损失函数,确定图神经网络的预测损失。
[0116]
其中,预测损失用于表示预测文档样本的预测类别与预测文档样本的类别标签之间的偏差。
[0117]
实际应用中,预设损失函数可以根据实际需要进行设置,本技术实施例对此不作限定。
[0118]
s1105,基于所图神经网络的预测损失,优化图神经网络的网络参数。
[0119]
示例地,可采用反向传播算法(back propagation,bp)和预测损失,确定图神经网络中各网络层引起的预测损失;然后,以使预测损失下降为目标,逐层调整图神经网络中各网络层的网络参数。
[0120]
本技术实施例在此示出了上述s110的一种具体实现方式。当然,应理解,上述s110也可以采用其他的方式实现,本技术实施例对此不作限定。
[0121]
需要说明的是,上述过程仅为一次调整过程。实际应用中,可能需要进行多次调整,因而可重复执行上述s102至s110多次,直到满足预设训练停止条件,由此得到最终的图神经网络。其中,预设训练停止条件可以根据实际需要进行设置,例如预测损失小于预设损失阈值、图神经网络收敛、调整次数达到预设次数等至少一个条件,本技术实施例对预设训练停止条件不作限定。
[0122]
在得到最终的图神经网络后,利用mr(movie review)文档测试集、 r8文档测试集以及r52文档测试集,对本技术实施例的文本分类模型、现有的bert模型以及现有的bertgcn进行验证,得到如下表1所示的各个模型的平均分类准确率以及图4所示的各个模型的分类准确率随迭代次数的变化情况其中,图4中的横坐标表示迭代次数(epochs),纵坐标表示模型的分类准确率(accuracy)。
[0123]
表1
[0124][0125]
基于上述表1和图4可以得出,本技术实施例的训练方法,训练过程中获得的语义指导信息对于模型训练具有良好的指导作用,由此训练得到的文本分类模型的性能表现更好。具体而言,本技术实施例训练得到的文本分类模型相较于现有的bert模型和bertgcn模型,在三种文档测试集上都具有更高的平均分类准确率。其次,对于mr文档测试集和r8文档测试集,在10 步(即迭代10次)以内,本技术实施例的文本分类模型相较于其他模型(比如现有的bertgcn),具有更好的收敛效果;对于r52文档测试集,在60步以内,本技术实施例的文本分类模型相较于其他模型(比如现有的bertgcn),具有更好的收敛效果。此外,当设置的迭代次数较大时,本技术实施例的文本分类模型在早停约束停止时,其他模型(比如现有的bertgcn)并未收敛。
[0126]
本技术实施例提供的文本分类模型的训练方法,将文档样本及其中包含的词语分别作为关系图中的节点,将节点之间的关联关系用节点之间的连接边表示,从而将文本分类任务看作是节点分类任务,由于关系图相较于文档样本本身包含的信息更丰富,因而利用关系图进行文本分类模型的训练,使得文本分类模型能够学习到更丰富的知识,有利于提高文本分类模型的性能;在此基础上,采用包含预训练分类网络和图神经网络的文本分类模型架构,由预训练分类网络学习关系图的特征信息以对预测文档样本进行文本分类处理,由图神经网络学习关系图的特征信息和结构信息,充分利用关系图中节点之间的关联关系、节点的节点表示以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,而后综合预训练分类网络和图神经网络各自得到的分类参考信息以及预测文档样本对应的类别标签,优化图神经网络的网络参数,可以充分融合两个网络的学习能力及分类参考信息,进一步提升文本分类模型的性能;此外,在利用图神经网络进行文本分类处理时,先基于关系图的特征信息和结构信息确定关系图的语义指导信息,进一步利用图神经网络基于关系图的特征信息、结构信息、语义指导信息以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,由于语义指导信息能够反映文档样本及其包含的词语各自的语义,进而能够为预测文档样本的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借训练文档样本对应的文档节点的节点表示去推理预测文档样本对应的文档节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速收敛,也即提高了文本识别模型的收敛速度。
[0127]
上述实施例介绍了文本分类模型的训练方法,通过上述方法,可训练针对不同应用场景的文本分类模型,进行模型训练所采用的文档样本集其类别标签可根据实际应用场景进行选择。本技术实施例提供的上述训练方法所适用的应用场景可以例如包括但不限于:电子商务、金融等相关业务中,例如商品正负面评论识别、灌水评论检测、敏感及非法言论检测、欺诈短信识别、购买倾向识别以及金融新闻分类等。以商品正负面评论识别为例,所采用的文档样本可以为历史商品评论,文档样本对应的类别标签则用于表示文档样本的感情倾向,也即属于正面评论或者负面评论。
[0128]
基于本技术上述实施例所示的文本分类模型的训练方法,训练得到的文本分类模型可用于执行文本分类任务。下面对基于文本分类模型的应用过程进行详细说明。本技术实施例还提供一种文本分类方法,能够基于图1所示方法训练出的文本分类模型对待分类文档进行分类识别。图5为本技术的一个实施例提供的一种文档分类方法的流程示意图,该方法可以包括如下步骤:
[0129]
s502,基于目标文档集,获取第二关系图的结构信息和特征信息。
[0130]
其中,目标文档集包括待分类文档和已分类文档。实际应用中,目标文档集中的已分类文档可以是标注有类别标签的文档样本。
[0131]
第二关系图包括多个节点和节点之间的连接边,多个节点包括待分类文档对应的文档节点、已分类文档对应的文档节点和目标文档集中的文档包含的词语对应的词节点,结构信息用于表示第二关系图中各个连接边对应的边权重,特征信息包括第二关系图中各个节点的节点表示。需要说明的是,第二关系图的建立方法与第一关系图的建立方法类似,具体可参见前文对第一关系图的建立过程的描述,在此不再赘述。
[0132]
上述s502的实现方式与图1所示实施例中s102的实现方式类似,具体可参见前文
对图1所示实施例中s102的描述,在此不再赘述。
[0133]
s504,通过文本分类模型中的预训练分类网络基于特征信息对待分类文档进行文本分类处理,得到待分类文档的第一分类参考信息。
[0134]
上述s504的实现方式与图1所示实施例中s104的实现方式类似,具体可参见前文对图1所示实施例中s104的描述,在此不再赘述。
[0135]
s506,通过文本分类模型中的图神经网络基于特征信息和结构信息确定第二关系图的语义指导信息。
[0136]
示例地,如图6所示,o1~o4分别表示目标文档集包含的词语对应的词节点的节点表示,e1~e3分别表示文档节点的节点表示,其中,e1和e2分别为已分类文档对应的文档节点的节点表示,e3为未分类文档对应的文档节点的节点表示,文档节点e1的类别标签c1=1(即该文档节点对应的已分类文档的类别为第一类别),文档节点e2的类别标签c2=2(即该文档节点对应的已分类文档的类别为第二类别)。将第二关系图的特征信息输入图神经网络,经图神经网络中的卷积层进行节点间传递后,可得到第二关系图中各节点的融合卷积结果,其中,o1~o4分别表示词节点的融合卷积结果,e1~e3分别表示文档节点的融合卷积结果;进一步,第二卷积层还基于待分类节点的融合卷积结果对待分类文档进行分类识别,得到待分类文档的第二分类参考信息 c3。
[0137]
上述s506的实现方式与图1所示实施例中s106的实现方式类似,具体可参见前文对图1所示实施例中s106的描述,在此不再赘述。
[0138]
s508,通过文本分类模型中的图神经网络基于第二关系图的语义指导信息、特征信息、结构信息以及已分类文档所属的类别,对待分类文档进行文本分类处理,得到待分类文档的第二分类参考信息。
[0139]
上述s508的实现方式与图1所示实施例中s108的实现方式类似,具体可参见前文对图1所示实施例中s108的描述,在此不再赘述。
[0140]
s510,基于待分类文档的第一分类参考信息和第二分类参考信息,确定待分类文档所属的类别。
[0141]
由于待分类文档的第一分类参考信息和第二分类参考信息分别是由文本分类模型中不同的网络基于第二关系图的不同数据进行分类识别得到的,为了充分融合两个网络的分类识别能力,从而分类预测结果的准确率,可综合待分类文档的第一分类参考信息及第二分类参考信息,确定待分类文档所属的类别。
[0142]
具体而言,可基于第一分类参考信息和第二分类参考信息各自对应的预设权,对待分类文档的第一分类参考信息和第二分类参考信息进行加权求和,得到待分类文档的最终分类参考信息,进而将最终分类参考信息指示的最大分类概率对应的类别,确定为待分类文档所属的类别。
[0143]
本技术实施例提供的文本分类方法,将待分类文档、已分类文档及各文档包含的词语分别作为关系图中的节点,将节点之间的关联关系用节点之间的连接边表示,从而将文本分类任务看作是节点分类任务,由于关系图相较于文档本身包含的信息更丰富,由文本分类模型基于关系图的特征信息和结构信息执行文本分类任务,使得文本分类模型能够获取到更丰富的知识,有利于提高文本分类准确率;在此基础上,采用包含预训练分类网络和图神经网络的文本分类模型架构,由预训练分类网络学习关系图的特征信息以对待分类
文档进行文本分类处理,由图神经网络学习关系图的特征信息和结构信息,充分利用关系图中节点之间的关联关系、节点的节点表示以及已分类文档所属的类别进行文本分类处理,而后综合预训练分类网络和图神经网络各自得到的分类参考信息,确定待分类文档所属的类别,可以充分融合两个网络的学习能力及预测结果,进一步提高文本分类准确率;此外,在利用图神经网络进行文本分类处理时,先基于关系图的特征信息和结构信息确定关系图的语义指导信息,进一步利用图神经网络基于关系图的特征信息、结构信息、语义指导信息以及已分类文档所属的类别,对未分类文档进行文本分类处理,由于语义指导信息能够反映各个文档及其包含的词语各自的语义,进而能够为待分类文档的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借已分类节点的节点表示去推理未分类节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速得到分类结果,也即提高了文本识别效率。
[0144]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0145]
此外,与上述图1所示的文本分类模型的训练方法相对应地,本技术实施例还提供一种文本分类模型的训练装置。请参见图7,为本技术的一个实施例提供的一种文本分类模型的训练装置700的结构示意图,该装置700包括:
[0146]
获取单元710,用于基于文档样本集,获取第一关系图的结构信息和特征信息;所述文档样本集包括训练文档样本和预测文档样本,所述第一关系图包括多个节点和节点之间的连接边,所述多个节点包括训练文档样本对应的文档节点、预测文档样本对应的文档节点和所述文档样本集包含的词语对应的词节点;
[0147]
分类单元720,用于通过文本分类模型中的预训练分类网络基于所述特征信息对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第一分类参考信息;
[0148]
语义处理单元730,用于通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第一关系图的语义指导信息;
[0149]
所述分类单元720,用于通过所述文本分类模型中的图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述训练文档样本对应的类别标签,对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第二分类参考信息;
[0150]
优化单元740,用于基于所述第一分类参考信息、所述第二分类参考信息及所述预测文档样本对应的类别标签,优化所述图神经网络的网络参数。
[0151]
可选地,所述图神经网络包括节点评分层,所述语义指导信息包括所述第一关系图中各个节点的重要性分值;
[0152]
所述语义处理单元具体用于:
[0153]
利用所述节点评分层基于自注意力机制,通过所述结构信息和所述特征信息,确定所述第一关系图中各节点的注意力分值;
[0154]
从所述第一关系图中选取注意力分值满足预设分值条件的节点,并对选出的节点的注意力分值进行非线性变换处理,得到选出的节点的重要性分值;
[0155]
将所述第一关系图中未选取的节点的重要性分值设置为预设分值。
[0156]
可选地,所述图神经网络还包括第一卷积层和第二卷积层,所述第一卷积层与所述第二卷积层相连接;
[0157]
所述分类单元具体用于:
[0158]
利用所述第一卷积层基于所述训练文档样本对应的类别标签,对所述结构信息和所述特征信息进行卷积处理,得到第一卷积结果;
[0159]
将所述第一卷积结果与所述语义指导信息进行融合处理,得到融合卷积结果;
[0160]
将所述融合卷积结果输入至所述第二卷积层进行卷积处理得到第二分类参考信息。
[0161]
可选地,所述优化单元具体用于:
[0162]
获取所述预训练分类网络对应的第一权重,以及所述图神经网络对应的第二权重;
[0163]
将所述第一分类参考信息与所述第一权重进行相乘运算,以及将所述第二分类参考信息与所述第二权重进行相乘运算,并将相乘运算的结果进行融合处理;
[0164]
根据融合处理的结果确定所述预测文档样本的预测类别;
[0165]
基于所述预测文档样本的预测类别、所述预测文档样本对应的类别标签以及所述图神经网络对应的预设损失函数,确定预测损失;
[0166]
基于所述预测损失,优化所述图神经网络的网络参数。
[0167]
可选地,所述第一关系图中节点之间的连接边包括第一类连接边和第二类连接边;
[0168]
所述装置700还包括:
[0169]
创建单元,用于在所述获取单元基于文档样本集获取第一关系图的结构信息和特征信息之前,基于所述文档样本集中的训练文档样本和预测文档样本创建第一关系图;
[0170]
所述基于所述文档样本集中的训练文档样本和预测文档样本创建第一关系图,包括:
[0171]
基于所述文档样本集包含的词语,确定所述文档样本集对应的词语集;所述文档样本集包含的词语包括所述训练文档样本中词语和所述预测文档样本中词语;
[0172]
针对所述词语集中的各词语,创建所述各词语对应的词节点,并在满足第一创建边条件的不同词节点之间创建第一类连接边;
[0173]
针对所述样本集中的文档样本,创建所述各文档样本对应的文档节点,并在满足第二创建边条件的文档节点与词节点之间创建第二类连接边。
[0174]
可选地,所述第一关系图中各个连接边对应的边权重包括第一类连接边的边权重和的第二类连接边的边权重;
[0175]
所述获取单元获取第一关系图的结构信息,包括:
[0176]
基于所述词语集中任意的第一词语和所述第二词语各自在所述文档样本集中出现的概率以及所述第一词语和所述第二词语在同一文档样本中出现的概率,确定所述第一词语和所述第二词语之间的点互信息;
[0177]
基于所述点互信息,确定所述第一词语对应的词节点和所述第二词语对应的词节点之间第一类连接边对应的边权重;
[0178]
基于所述词语集中任意一个目标词语在目标文档样本中出现的频率以及所述样本集中包含所述目标词语的文档样本数量,确定所述目标词语对于所述目标文档样本的重要程度;
[0179]
根据所述重要程度,确定所述目标词语对应的词节点与所述目标文档样本对应的文档节点之间的第二类连接边对应的边权重。
[0180]
可选地,所述预训练分类网络包括:
[0181]
语言表示层,用于对所述特征信息进行嵌入处理,得到所述第一关系图中各节点的嵌入向量;
[0182]
全连接层,用于基于所述第一关系图中各节点的嵌入向量对所述文档样本进行分类识别,得到所述文档样本的第一分类参考信息。
[0183]
显然,本技术实施例提供的文本分类模型的训练装置能够作为图1所示的文本分类模型的训练方法的执行主体,例如,图1所示的文本分类模型的训练方法中步骤s102可由图7所示的训练装置中的获取单元执行,步骤s104 由分类单元执行,步骤s106由语义处理单元执行,步骤s108由分类单元执行,步骤s110由优化单元执行。
[0184]
根据本技术的另一个实施例,图7所示的文本分类模型的训练装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,基于文本分类模型的训练装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
[0185]
根据本技术的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图1所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的训练装置,以及来实现本技术实施例文本分类模型的训练方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于电子设备中,并在其中运行。
[0186]
本技术实施例提供的文本分类模型的训练装置,将文档样本及其中包含的词语分别作为关系图中的节点,将节点之间的关联关系用节点之间的连接边表示,从而将文本分类任务看作是节点分类任务,由于关系图相较于文档样本本身包含的信息更丰富,因而利用关系图进行文本分类模型的训练,使得文本分类模型能够学习到更丰富的知识,有利于提高文本分类模型的性能;在此基础上,采用包含预训练分类网络和图神经网络的文本分类模型架构,由预训练分类网络学习关系图的特征信息以对预测文档样本进行文本分类处理,由图神经网络学习关系图的特征信息和结构信息,充分利用关系图中节点之间的关联关系、节点的节点表示以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,而后综合预训练分类网络和图神经网络各自得到的分类参考信息以及预测文档样本对应的类别标签,优化图神经网络的网络参数,可以充分融合两个网络的学习能力及分类参考信息,进一步提升文本分类模型的性能;此外,在利用图神经网络进行文本分类处理时,先基于关系图的特征信息和结构信息确定关系图的语义指导信息,进一步利用图神经
网络基于关系图的特征信息、结构信息、语义指导信息以及训练文档样本对应的类别标签,对预测文档样本进行文本分类处理,由于语义指导信息能够反映文档样本及其包含的词语各自的语义,进而能够为预测文档样本的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借训练文档样本对应的文档节点的节点表示去推理预测文档样本对应的文档节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速收敛,也即提高了文本识别模型的收敛速度。
[0187]
此外,与上述图5所示的文本分类方法相对应地,本技术实施例还提供一种文本分类装置。请参见图8,为本技术的一个实施例提供的一种文本分类装置800的结构示意图,该装置800包括:
[0188]
获取单元810,用于基于目标文档集,获取第二关系图的结构信息和特征信息;所述目标文档集包括待分类文档和已分类文档,所述第二关系图包括多个节点和节点之间的连接边,所述多个节点包括所述待分类文档对应的文档节点、所述已分类文档对应的文档节点和所述目标文档集中的文档包含的词语对应的词节点;
[0189]
分类单元820,用于通过文本分类模型中的预训练分类网络基于所述特征信息对所述待分类文档进行文本分类处理,得到所述待分类文档的第一分类参考信息;
[0190]
语义处理单元830,用于通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第二关系图的语义指导信息;
[0191]
分类单元820,用于通过所述文本分类模型中的图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述已分类文档所属的类别,对所述待分类文档进行文本分类处理,得到所述待分类文档的第二分类参考信息;
[0192]
分类单元820,用于基于所述待分类文档的第一分类参考信息和第二分类参考信息,确定所述待分类文档所属的类别。
[0193]
显然,本技术实施例提供的文本分类装置能够作为图5所示的文本分类方法的执行主体,例如,图5所示的文本分类方法中步骤s502可由图8所示的分类装置中的获取单元执行,步骤s504、步骤s508以及步骤s510由分类单元执行,步骤s506由语义处理单元执行。
[0194]
根据本技术的另一个实施例,图8所示的文本分类装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些) 单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,基于文本分类装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
[0195]
根据本技术的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图5所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图8中所示的分类装置,以及来实现本技术实施例文本分类方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于电子设备中,并在其中运行。
[0196]
本技术实施例提供的文本分类装置,将待分类文档、已分类文档及各文档包含的
词语分别作为关系图中的节点,将节点之间的关联关系用节点之间的连接边表示,从而将文本分类任务看作是节点分类任务,由于关系图相较于文档本身包含的信息更丰富,由文本分类模型基于关系图的特征信息和结构信息执行文本分类任务,使得文本分类模型能够获取到更丰富的知识,有利于提高文本分类准确率;在此基础上,采用包含预训练分类网络和图神经网络的文本分类模型架构,由预训练分类网络学习关系图的特征信息以对待分类文档进行文本分类处理,由图神经网络学习关系图的特征信息和结构信息,充分利用关系图中节点之间的关联关系、节点的节点表示以及已分类文档所属的类别进行文本分类处理,而后综合预训练分类网络和图神经网络各自得到的分类参考信息,确定待分类文档所属的类别,可以充分融合两个网络的学习能力及预测结果,进一步提高文本分类准确率;此外,在利用图神经网络进行文本分类处理时,先基于关系图的特征信息和结构信息确定关系图的语义指导信息,进一步利用图神经网络基于关系图的特征信息、结构信息、语义指导信息以及已分类文档所属的类别,对未分类文档进行文本分类处理,由于语义指导信息能够反映各个文档及其包含的词语各自的语义,进而能够为待分类文档的文本分类处理任务提供语义指导,这样,不仅使得图神经网络能够在关系图中凭借已分类节点的节点表示去推理未分类节点的节点表示以实现文本分类,还使得图神经网络能够更聚焦于具有丰富语义信息的重要节点表示,因而能够快速得到分类结果,也即提高了文本识别效率。
[0197]
图9是本技术的一个实施例电子设备的结构示意图。请参考图9,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-accessmemory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
[0198]
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、 pci(peripheral component interconnect,外设部件互连标准)总线或 eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0199]
存储器,用于存放计算机程序。具体地,计算机程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0200]
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本分类模型的训练装置。
[0201]
在一个实施例中,处理器,执行存储器所存放的程序,并具体用于执行以下操作:
[0202]
基于文档样本集,获取第一关系图的结构信息和特征信息;所述文档样本集包括训练文档样本和预测文档样本,所述第一关系图包括多个节点和节点之间的连接边,所述多个节点包括训练文档样本对应的文档节点、预测文档样本对应的文档节点和所述文档样本集中的文档样本包含的词语对应的词节点;
[0203]
通过文本分类模型中的预训练分类网络基于所述特征信息对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第一分类参考信息;
[0204]
通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第一关系图的语义指导信息;
[0205]
通过所述图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述训练文档样本对应的类别标签,对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第二分类参考信息;
[0206]
基于所述第一分类参考信息、所述第二分类参考信息及所述预测文档样本对应的类别标签,优化所述图神经网络的网络参数。
[0207]
或者,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本分类装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
[0208]
基于目标文档集,获取第二关系图的结构信息和特征信息;所述目标文档集包括待分类文档和已分类文档,所述第二关系图包括多个节点和节点之间的连接边,所述多个节点包括所述待分类文档对应的文档节点、所述已分类文档对应的文档节点和所述目标文档集中的文档包含的词语对应的词节点;
[0209]
通过文本分类模型中的预训练分类网络基于所述特征信息对所述待分类文档进行文本分类处理,得到所述待分类文档的第一分类参考信息;
[0210]
通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第二关系图的语义指导信息;
[0211]
通过所述文本分类模型中的图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述已分类文档所属的类别,对所述待分类文档进行文本分类处理,得到所述待分类文档的第二分类参考信息;
[0212]
基于所述待分类文档的第一分类参考信息和第二分类参考信息,确定所述待分类文档所属的类别。
[0213]
上述如本技术图1所示实施例揭示的文本分类模型的训练装置执行的方法或者如本技术图5所示实施例揭示的文本分类装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digital signal processor, dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0214]
该电子设备还可执行图1的方法,并实现文本分类模型的训练装置在图1 所示实施例的功能,或者,该电子设备还可执行图5所示的方法,并实现文本分类装置在图5所示实
施例的功能,本技术实施例在此不再赘述。
[0215]
当然,除了软件实现方式之外,本技术的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0216]
本技术实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个计算机程序,该一个或多个计算机程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
[0217]
基于文档样本集,获取第一关系图的结构信息和特征信息;所述文档样本集包括训练文档样本和预测文档样本,所述第一关系图包括多个节点和节点之间的连接边,所述多个节点包括训练文档样本对应的文档节点、预测文档样本对应的文档节点和所述文档样本集中的文档样本包含的词语对应的词节点;
[0218]
通过文本分类模型中的预训练分类网络基于所述特征信息对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第一分类参考信息;
[0219]
通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第一关系图的语义指导信息;
[0220]
通过所述图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述训练文档样本对应的类别标签,对所述预测文档样本进行文本分类处理,得到所述预测文档样本的第二分类参考信息;
[0221]
基于所述第一分类参考信息、所述第二分类参考信息及所述预测文档样本对应的类别标签,优化所述图神经网络的网络参数。
[0222]
该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图5所示实施例的方法,并具体用于执行以下操作:
[0223]
基于目标文档集,获取第二关系图的结构信息和特征信息;所述目标文档集包括待分类文档和已分类文档,所述第二关系图包括多个节点和节点之间的连接边,所述多个节点包括所述待分类文档对应的文档节点、所述已分类文档对应的文档节点和所述目标文档集中的文档包含的词语对应的词节点;
[0224]
通过文本分类模型中的预训练分类网络基于所述特征信息对所述待分类文档进行文本分类处理,得到所述待分类文档的第一分类参考信息;
[0225]
通过所述文本分类模型中的图神经网络基于所述特征信息和所述结构信息确定所述第二关系图的语义指导信息;
[0226]
通过所述文本分类模型中的图神经网络基于所述语义指导信息、所述特征信息、所述结构信息以及所述已分类文档所属的类别,对所述待分类文档进行文本分类处理,得到所述待分类文档的第二分类参考信息;
[0227]
基于所述待分类文档的第一分类参考信息和第二分类参考信息,确定所述待分类文档所属的类别。
[0228]
总之,以上所述仅为本技术的较佳实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0229]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0230]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd
‑ꢀ
rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
[0231]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0232]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献