一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本分类模型的训练及文本分类方法、装置、设备和介质与流程

2022-07-13 05:59:46 来源:中国专利 TAG:


1.本公开涉及人工智能领域,具体涉及深度学习和自然语言处理等技术领域,尤其涉及文本分类模型的训练及文本分类方法、装置、设备和介质。


背景技术:

2.自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。其中,文本分类是自然语言处理工作的一项基础性工作,文本分类利用文字这个信息载体将文本进行整理和归类,被广泛应用在不同领域,比如数字化图书馆、舆情分析、新闻推荐、邮件过滤等领域。
3.为了实现文本的自动分类,在已有的样本文本上构建文本分类模型(又可以称为文本分类器)时,需要对文本分类模型进行训练,从而基于训练好的文本分类模型对待分类文本进行分类。
4.为了提升模型的预测效果,如何对文本分类模型进行训练是非常重要的。


技术实现要素:

5.本公开提供了一种文本分类模型的训练及文本分类方法、装置、设备和介质。
6.根据本公开的一方面,提供了一种文本分类模型的训练方法,包括:
7.获取多个样本文本,并对所述多个样本文本进行聚类,以得到至少一个目标聚簇;
8.根据各所述样本文本所属的目标聚簇,生成各所述样本文本对应的簇标签,其中,所述簇标签用于指示所述样本文本所属的聚簇类别;
9.采用文本分类模型对各所述样本文本进行第一类别预测,得到各所述样本文本对应的预测标签;
10.根据各所述样本文本对应的预测标签和簇标签对所述文本分类模型进行第一训练。
11.根据本公开的另一方面,提供了一种文本分类方法,包括:
12.获取待分类文本;
13.采用经过本公开上述一方面提出的文本分类模型的训练方法所训练的文本分类模型对所述待分类文本进行分类,得到所述待分类文本的分类标签。
14.根据本公开的又一方面,提供了一种文本分类模型的训练装置,包括:
15.获取模块,用于获取多个样本文本;
16.聚类模块,用于对所述多个样本文本进行聚类,以得到至少一个目标聚簇;
17.生成模块,用于根据各所述样本文本所属的目标聚簇,生成各所述样本文本对应的簇标签,其中,所述簇标签用于指示所述样本文本所属的聚簇类别;
18.第一预测模块,用于采用文本分类模型对各所述样本文本进行第一类别预测,得到各所述样本文本对应的预测标签;
19.第二训练模块,用于根据各所述样本文本对应的预测标签和簇标签对所述文本分
类模型进行第一训练。
20.根据本公开的再一方面,提供了一种文本分类装置,包括:
21.获取模块,用于获取待分类文本;
22.分类模块,用于采用经过本公开上述又一方面提出的文本分类模型的训练装置所训练的文本分类模型对所述待分类文本进行分类,得到所述待分类文本的分类标签。
23.根据本公开的又一方面,提供了一种电子设备,包括:
24.至少一个处理器;以及
25.与所述至少一个处理器通信连接的存储器;其中,
26.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述一方面提出的文本分类模型的训练方法,或者,执行本公开上述另一方面提出的文本分类方法。
27.根据本公开的再一方面,提供了一种计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开上述一方面提出的文本分类模型的训练方法,或者,执行本公开上述另一方面提出的文本分类方法。
28.根据本公开的还一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述一方面提出的文本分类模型的训练方法,或者,实现本公开上述另一方面提出的文本分类方法。
29.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
30.附图用于更好地理解本方案,不构成对本公开的限定。其中:
31.图1为文本分类模型所包括的训练阶段示意图;
32.图2为本公开实施例一所提供的文本分类模型的训练方法的流程示意图;
33.图3为本公开实施例二所提供的文本分类模型的训练方法的流程示意图;
34.图4为本公开实施例三所提供的文本分类模型的训练方法的流程示意图;
35.图5为本公开实施例四所提供的文本分类模型的训练方法的流程示意图;
36.图6为本公开所提供的采用聚类阶段和微调finetune阶段对文本分类模型进行训练的流程示意图;
37.图7为本公开实施例五所提供的文本分类模型的训练方法的流程示意图;
38.图8为本公开所提供的采用三阶段训练方法对文本分类模型进行训练的流程示意图;
39.图9为本公开实施例六所提供的文本分类方法的流程示意图;
40.图10为本公开实施例七所提供的文本分类模型的训练装置的结构示意图;
41.图11为本公开实施例八所提供的文本分类装置的结构示意图;
42.图12示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
43.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种
细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
44.自然语言处理中的文本分类技术被大量地应用在不同领域中,但是在构建文本分类模型时需要标注大量的训练样本。然而,训练样本的标注,一方面需要耗费较长的时间,使得模型无法快速启动;另一方面,训练样本的标注需要耗费较高的人力成本,且标注的质量好坏参差不齐。
45.为了解决这类问题,目前可以采用小样本技术,对文本分类模型进行训练,以实现通过采用少量的训练样本对文本分类模型进行训练,即可使得模型拥有较好的学习和概括能力,以应对实际场景中训练样本数量较少的情况。
46.相关技术中,应用于文本分类的小样本技术主要有以下三个方向:
47.第一个方向是数据,通过显式地引入额外的数据做数据增强,从而在搜索空间中进行搜索时,可以通过额外的数据来辅助完成优化问题,利用先验知识增强监督信号。
48.第二个方向是模型,通过先验知识来降低搜索空间,缩小假设空间的大小。
49.第三个方向是算法,引入先验知识来优化搜索策略的算法,即学习一个最优的搜索策略。
50.然而,上述方式存在以下几个方面的缺点:
51.1.数据增强的质量可靠性较低,特别地,在使用相似数据进行训练时,总是会引入较大的噪音;
52.2.基于模型的方式,多采用预训练模型进行小样本改造,但是这种方式在微调finetune阶段的模型预测效果不佳;
53.作为一种示例,文本分类模型包括两个训练阶段,分别为预训练阶段和微调finetune阶段,如图1所示,在预训练阶段,可以通过引入先验知识来提升文本分类的效果,即在预训练阶段通过无监督方式学习到一些信息,从而在微调阶段,可以采用少量的训练文本对文本分类模型进行算法微调以实现文本分类。
54.3.基于算法的方式,多是改善模型的参数或者改善搜索步骤,其应用范围较为局限。
55.针对上述问题,本公开提出一种文本分类模型的训练及文本分类方法、装置、设备和介质。
56.下面参考附图描述本公开实施例的文本分类模型的训练及文本分类方法、装置、设备和介质。
57.图2为本公开实施例一所提供的文本分类模型的训练方法的流程示意图。
58.本公开实施例以该文本分类模型的训练方法被配置于文本分类模型的训练装置中来举例说明,该文本分类模型的训练装置可以应用于任一电子设备中,以使该电子设备可以执行文本分类模型的训练功能。
59.其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
60.如图2所示,该文本分类模型的训练方法可以包括以下步骤:
61.步骤201,获取多个样本文本,并对多个样本文本进行聚类,以得到至少一个目标聚簇。
62.在本公开实施例中,可以获取多个样本文本,其中,样本文本可以从现有的训练集获取,或者,样本文本也可以在线采集,比如可以通过网络爬虫技术在线采集样本文本,或者,样本文本也可以为线下采集,比如可以对纸质的文本内容进行图像采集,之后通过ocr(optical character recognition,光学字符识别)技术,识别图像中的各个字符,以得到样本文本,等等,本公开对此不作限制。
63.其中,样本文本可以为文章,比如小说散文、论文等,或者,也可以为新闻、资讯等,或者,也可以为一段文字,等等,本公开对此并不做限制。
64.在本公开实施例中,可以对获取的多个样本文本进行聚类,比如,可以采用聚类算法,对多个样本文本进行聚类,以得到至少一个目标聚簇。其中,聚类算法可以包括k-means聚类算法(k-means clustering algorithm,k均值聚类算法)、knn(k-nearestneighbor,k最邻近)分类算法等等,本公开对此不做限制。
65.其中,目标聚簇的个数可以为一个,或者也可以为多个,本公开对此不做限制。
66.在本公开实施例的一种可能的实现方式中,在对多个样本文本进行聚类的过程中,可能存在异常的样本文本,比如,异常的样本文本不属于任何一个聚簇,此时,可以剔除该样本文本,使得聚类得到的目标聚簇中的各样本文本较为集中,从而利用样本文本较为集中的各目标聚簇对文本分类模型进行训练,可以使得模型学习到同一目标聚簇中各样本文本中较强的语义特征,忽略异常样本文本带来的干扰。
67.步骤202,根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别。
68.在本公开实施例中,簇标签可以用于指示样本文本所属的聚簇类别,其中,簇标签可以为数字形式的编号,或者也可以为字母形式的编号,或者也可以为字母与数字组合的编号,或者也可以为其他字符串、特殊符号等等,本公开对此不做限制。
69.在本公开实施例中,可以根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,以指示各样本文本所属的聚簇类别。其中,属于同一目标聚簇的各样本文本对应的簇标签相同。
70.比如,聚类得到的目标聚簇的个数为3个,分别为目标聚簇1、目标聚簇2和目标聚簇3,目标聚簇1中各样本文本对应的簇标签均为01,目标聚簇2中各样本文本对应的簇标签均为02,目标聚簇3中各样本文本对应的簇标签均为03。也就是说,簇标签01用于指示样本文本属于目标聚簇1,簇标签02用于指示样本文本属于目标聚簇2,簇标签03用于指示样本文本属于目标聚簇3。
71.再比如,聚类得到的目标聚簇为2个,分别为目标聚簇1和目标聚簇2,目标聚簇1中各样本文本对应的簇标签均为a,目标聚簇2中各样本文本对应的簇标签均为b。也就是说,簇标签a用于指示样本文本属于目标聚簇1,簇标签b用于指示样本文本属于目标聚簇2。
72.作为一种示例,可以将语义相似的样本文本聚类为同一目标聚簇,比如,以样本文本为诗词进行示例,可以将叹春类的诗词聚类为目标聚簇1,将咏夏类的诗词聚类为目标聚簇2,将悲秋类的诗词聚类为目标聚簇3,将悯冬类的诗词聚类为目标聚簇4。
73.例如,生成的目标聚簇1中的各样本文本的对应的簇标签为01,目标聚簇2中的各
样本文本的对应的簇标签为02,目标聚簇3中各样本文本的对应的簇标签为03,目标聚簇4中各样本文本的对应的簇标签为04。
74.需要说明的是,上述对簇标签的举例仅是示例性的,实际应用时,可以根据实际应用需求,对各样本文本对应的簇标签进行设置,本公开对此并不做限制。
75.步骤203,采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签。
76.在本公开实施例中,可以采用文本分类模型对各样本文本进行第一类别预测,即采用文本分类模型对各样本文本所属的聚簇类别进行预测,以得到各样本文本对应的预测标签。
77.举例而言,对多个样本文本进行聚类,得到目标聚簇1和目标聚簇2,其中,目标聚簇1对应的簇标签为02,目标聚簇2对应的簇标签为04,采用文本分类模型对目标聚簇1中的各样本文本进行所属聚簇类别预测,得到的预测标签可以为02,采用本文分类模型对目标聚簇2中的各样本文本2进行所属聚簇类别预测,得到的预测标签可以为04。
78.步骤204,根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。
79.在本公开实施例中,可以根据各样本文本对应的预测标签和簇标签,对文本分类模型进行第一训练。
80.作为一种可能实现方式,针对每个样本文本,当该样本文本对应的预测标签与簇标签之间存在差异时,表明文本分类模型的预测精度不高,此时,为了提升模型预测结果的准确性和可靠性,提升模型的预测精度,可以调整文本分类模型中的模型参数,即在本公开中,可以根据各样本文本对应的预测标签与簇标签之间的差异,对文本分类模型进行第一训练。即,针对每个样本文本,可以根据该样本文本对应的预测标签和簇标签之间的差异,对文本分类模型中的模型参数进行调整。
81.比如,假设样本文本1对应的簇标签为02,样本文本2对应的簇标签为04,可以采用文本分类模型对样本文本1和样本文本2进行所属聚簇类别预测,得到各样本文本对应的预测标签。如果文本分类模型输出的样本文本1对应的预测标签为02、样本文本2对应的预测标签为04,则确定模型预测准确,无需对模型参数进行调整;如果文本分类模型输出的样本文本1对应的预测标签为04、样本文本2对应的预测标签为04,则确定模型预测错误,此时可以根据样本文本1对应的簇标签和预测标签之间的差异,对文本分类模型的模型参数进行调整。
82.作为一种示例,可以根据各样本文本对应的预测标签与簇标签之间的差异,生成第一损失函数,其中,第一损失函数的取值与上述差异成正向关系,即差异越小,第一损失函数的取值越小,反之,差异越大,第一损失函数的取值越大,从而本公开中,可以根据第一损失函数的取值,对文本分类模型进行第一训练,以使第一损失函数的取值最小化。
83.需要说明的是,上述仅以模型第一训练的终止条件为第一损失函数的取值最小化进行示例,实际应用时,也可以设置其它的终止条件,比如终止条件还可以为训练次数达到设定的次数阈值、训练时长大于设定的时长阈值等等,本公开对此并不做限制。
84.本公开实施例的文本分类模型的训练方法,通过获取多个样本文本,并对多个样本文本进行聚类,以得到至少一个目标聚簇;根据各样本文本所属的目标聚簇,生成各样本
文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别;采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签;根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。本公开中,由于聚类可以捕捉到样本文本中显著的语义特征,通过对多个样本文本进行聚类的方式,来生成各样本文本对应的簇标签,并基于该簇标签对文本分类模型进行预训练,可以使得文本分类模型在真实训练之前,有效学习到样本文本中显著的语义信息,从而在利用少量的样本文本对文本分类模型进行真实训练时,可以提升模型表现和性能。
85.为了清楚说明本公开上述实施例中是如何对多个样本文本进行聚类,得到至少一个目标聚簇的,本公开还提出一种文本分类模型的训练方法。
86.图3为本公开实施例二所提供的文本分类模型的训练方法的流程示意图。
87.如图3所示,该文本分类模型的训练方法可以包括以下步骤:
88.步骤301,获取多个样本文本及多个样本文本之间的相似度。
89.需要说明的是,上述获取多个样本文本的解释说明也适用于该实施例,在此不做赘述。
90.在本公开实施例中,样本文本之间的相似度可以为样本文本之间的文本相似度,或者也可以为样本文本之间的语义相似度,本公开对此不做限制。
91.在本公开实施例中,在获取多个样本文本之后,可以获取多个样本文本之间的相似度,比如,可以采用n-gram模型、余弦相似度(cosine similarity)、皮尔森相关系数(pearson correlation coefficient)、欧几里得距离(euclidean distance)、曼哈顿距离(manhattan distance)等算法,计算多个样本文本之间的相似度,本公开对此不做限制。
92.作为一种可能的实现方式,可以对各样本文本进行特征提取,得到各样本文本的特征向量,根据各样本文本的特征向量,计算各样本文本之间的相似度。
93.比如,假设样本文本1为“张三会唱歌和跳舞”,样本文本2为“李四会跳舞和弹琴”,首先,获取样本文本1的子词“张三”、“会”、“唱歌”、“和”、“跳舞”,样本文本2的子词“李四”、“会”、“跳舞”、“和”、“弹琴”;其次,确定出现在样本文本1和样本文本2中的子词所构成的集合为{张三,李四,会,唱歌,跳舞,和,弹琴},则样本文本1对应的特征向量可为(1,0,1,1,1,1,0),样本文本2对应的特征向量可为(0,1,1,0,1,1,1),其中,样本文本对应的特征向量中各数值代表上述集合中对应位置的子词在该样本文本出现的次数。最后,可以根据样本文本1的特征向量与样本文本2的特征向量之间的相似度,确定样本文本1与样本文本2之间的相似度。
94.需要说明的是,实际应用时,也可以根据其他特征提取算法,确定各样本文本对应的特征向量,本公开对此并不做限制。
95.作为一种示例,可以采用余弦相似度算法,计算样本文本1和样本文本2之间的相似度,标记样本文本1对应的特征向量为(x1,x2,x3,x4,x5,x6,x7),样本文本2对应的特征向量为(y1,y2,y3,y4,y5,y6,y7),则样本文本1与样本文本2之间的余弦相似度s可以按照以下公式确定:
[0096][0097]
其中,s的取值范围可以为[-1,1],当s=1时,表征样本文本1与样本文本2完全相似;当s=-1时,表征样本文本1与样本文本2完全不同。
[0098]
作为另一种示例,可以采用欧几里得距离算法,计算样本文本1和样本文本2之间的相似度,标记样本文本1对应的特征向量为(x1,x2,x3,x4,x5,x6,x7),样本文本2对应的特征向量为(y1,y2,y3,y4,y5,y6,y7),则样本文本1与样本文本2之间的欧几里得距离d可以按照以下公式确定:
[0099][0100]
需要说明的是,在采用欧几里得距离、曼哈顿距离等距离度量算法计算多个样本文本之间的相似度时,距离d与相似度s之间是负向关系,也就是说,距离越大,相似度越小,反之,距离越小,相似度越大。
[0101]
步骤302,根据多个样本文本之间的相似度,对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0102]
在本公开实施例中,可以根据多个样本文本之间的相似度,对多个样本文本进行聚类,从而得到至少一个目标聚簇。
[0103]
作为一种可能的实现方式,可以预先设置相似度阈值,从而可以根据多个样本文本之间的相似度(比如文本相似度、语义相似度),对多个样本文本进行聚类,以得到至少一个目标聚簇。其中,属于同一个目标聚簇的各样本文本之间的相似度大于相似度阈值。
[0104]
在本公开实施例的一种可能的实现方式中,在对多个样本文本进行聚类的过程中,可能存在异常的样本文本,比如,异常的样本文本不属于任何一个聚簇,此时,可以剔除该样本文本,使得聚类得到的目标聚簇中的各样本文本较为集中,从而利用样本文本较为集中的各目标聚簇对文本分类模型进行训练,可以使得模型学习到同一目标聚簇中各样本文本中较强的语义特征,忽略异常样本文本带来的干扰。
[0105]
步骤303,根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别。
[0106]
步骤304,采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签。
[0107]
步骤305,根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。
[0108]
步骤303至305的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
[0109]
本公开实施例的文本分类模型的训练方法,通过获取多个样本文本之间的相似度;根据多个样本文本之间的相似度,对多个样本文本进行聚类,以得到至少一个目标聚簇。由此,基于多个样本文本之间的相似度,对多个样本文本进行聚类,可以提升聚类结果
的准确性和可靠性。
[0110]
为了清楚说明本公开任一实施例中,是如何根据多个样本文本之间的相似度,对多个样本文本进行聚类,从而得到至少一个目标聚簇的,本公开还提出一种文本分类模型的训练方法。
[0111]
图4为本公开实施例三所提供的文本分类模型的训练方法的流程示意图。
[0112]
如图4所示,该文本分类模型的训练方法可以包括以下步骤:
[0113]
步骤401,获取多个样本文本及多个样本文本之间的相似度。
[0114]
步骤401的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
[0115]
步骤402,根据设定的第一聚簇个数,采用第一聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚类,以得到第一聚簇个数的初始聚簇。
[0116]
在本公开实施例中,第一聚簇个数可以是预先设定的。
[0117]
在本公开实施例中,第一聚类算法,比如可以为k-means聚类算法、knn分类算法等等,本公开对此不做限制。
[0118]
在本公开实施例中,可以根据设定的第一聚簇个数,采用第一聚类算法,根据各样本文本之间的相似度(比如文本相似度、语义相似度)对多个样本文本进行聚类,从而得到第一聚簇个数的初始聚簇。
[0119]
步骤403,确定各初始聚簇之间的距离。
[0120]
在本公开实施例中,可以确定各初始聚簇之间的距离。
[0121]
作为一种示例,针对每个初始聚簇,可以从该初始聚簇中的各样本文本中,确定该初始聚簇对应的参考样本文本,从而可以计算各初始聚簇的参考样本文本之间的距离,并将各初始聚簇的参考样本文本之间的距离,作为各初始聚簇之间的距离。
[0122]
例如,针对任一个初始聚簇,在确定该初始聚簇对应的参考样本文本时,可以从该初始聚簇中任意选取一个样本文本,并计算选取的样本文本与该初始聚簇中除该选取的样本文本之外的剩余样本文本之间的距离,并计算该选取的样本文本与上述剩余样本文本之间的距离之和,并将距离之和作为该选取的样本文本的权重。从而本公开中,可以根据该初始聚簇中各样本文本对应的权重,从该初始聚簇的各样本文本中,确定该初始聚簇对应的参考样本文本。比如,可以将权重最小的样本文本,作为该初始聚簇的参考样本文本。
[0123]
作为另一种示例,可以确定各初始聚簇的聚簇中心,并计算各初始聚簇的聚簇中心之间的距离,从而可以将各初始聚簇的聚簇中心之间的距离作为各初始聚簇之间的距离。
[0124]
例如,针对任一个初始聚簇,在确定该初始聚簇对应的聚簇中心时,可以确定该初始聚簇中各样本文本的特征向量的均值,并将该初始聚簇中各样本文本的特征向量的均值,作为该初始聚簇的聚簇中心。
[0125]
步骤404,在各初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下,根据聚簇间距离阈值,采用第二聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0126]
在本公开实施例中,聚簇间距离阈值可以是预先设定的。
[0127]
在本公开实施例中,第二聚类算法与第一聚类算法不同,比如当第一聚类算法为k-means聚类算法时,第二聚类算法可以为knn分类算法,当第一聚类算法为knn分类算法
时,第二聚类算法可以为k-means聚类算法,等等,本公开对此不做限制。
[0128]
在本公开实施例中,在计算得到各初始聚簇之间的距离后,可以分别将各初始聚簇之间的距离与设定的聚簇间距离阈值进行比较,若存在至少一个初始聚簇之间的距离小于设定的聚簇间距离阈值的情况,或者,若所有的初始聚簇之间的距离均小于设定的聚簇间距离阈值,则表明采用第一聚类算法进行聚类的效果不佳,此时,为了提高聚类结果的准确性和可靠性,可以根据聚簇间距离阈值,选取第二聚类算法,并采用第二聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0129]
其中,属于同一目标聚簇的各样本文本之间的相似度大于相似度阈值,且,不同目标聚簇之间的距离大于或者等于设定的聚簇间距离阈值。
[0130]
在本公开实施例的一种可能的实现方式中,在各初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下,还可以对第一聚簇个数进行调整(比如增大第一聚簇个数和/或减小第一聚簇个数),从而可以根据调整后的第一聚簇个数和聚簇间距离阈值,采用第一聚类算法再次对多个样本文本进行聚类,以得到调整后的第一聚簇个数的目标聚簇。
[0131]
由此,可以实现根据不同方式,对多个样本文本进行聚类,得到至少一个目标聚簇,不仅可以提升目标聚簇的聚类效果,还可以提升该方法的灵活性和适用性。
[0132]
步骤405,根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别。
[0133]
步骤406,采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签。
[0134]
步骤407,根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。
[0135]
步骤405至407的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
[0136]
本公开实施例的文本分类模型的训练方法,通过根据设定的第一聚簇个数,采用第一聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚类,以得到第一聚簇个数的初始聚簇;确定各初始聚簇之间的距离;在各初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下,根据聚簇间距离阈值,采用第二聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚类,以得到至少一个目标聚簇。由此,在采用第一聚类算法对样本文本进行聚类时,如果第一聚类算法的聚类效果不佳,则可以更换其他聚类算法再次对多个样本文本进行聚类,可以提升目标聚簇的聚类效果。
[0137]
在本公开实施例的一种可能的实现方式中,在对文本分类模型进行第一训练之后,为了提升文本分类模型的分类效果,还可以对文本分类模型进行第二训练。下面结合图5,对第二训练过程进行详细说明。
[0138]
图5为本公开实施例四所提供的文本分类模型的训练方法的流程示意图。
[0139]
如图5所示,该文本分类模型的训练方法可以包括以下步骤:
[0140]
步骤501,获取多个样本文本,并对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0141]
步骤502,根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别。
[0142]
步骤503,采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签。
[0143]
步骤504,根据各样本文本对应的预测标签和簇标签,对文本分类模型进行第一训练。
[0144]
步骤501至504的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
[0145]
步骤505,采用经过第一训练后的文本分类模型对各样本文本进行第二类别预测,得到分类标签。
[0146]
在本公开实施例中,对于不同的文本分类任务而言,分类标签可以不同,其中,文本分类任务可以包括情感分类、是否分类、其他分类等。
[0147]
作为一种示例,以文本分类任务为情感分类进行示例。情感分类的目的是:判断样本文本的情感极性(正向或负向),或判断样本文本中目标实体的情感极性。当情感分类的目的是判断样本文本的情感极性或判断样本文本中目标实体的情感极性时,分类标签(即情感极性)可以为“正向”或“负向”。
[0148]
作为另一种示例,以文本分类任务为是否分类进行示例。是否分类的目的是:给是非问题一个答案。比如,假设是非问题为“昨天参加舞会了吗”,则分类标签(即答案)可以包括三个类别,分别为“是”、“否”或“不确定”。
[0149]
需要说明的是,当文本分类任务为其他分类时,对于其他的句子分类任务、观点分类任务、实体分类任务等,均可以采用与上述类似的方式,确定样本文本对应的分类标签。
[0150]
在本公开实施例中,可以采用经过第一训练后的文本分类模型对各样本文本进行第二类别预测,从而得到各样本文本对应的分类标签。即本公开中,可以采用经过第一训练后的文本分类模型,对各样本文本进行文本分类,得到各样本文本的分类标签。
[0151]
步骤506,根据各样本文本对应的分类标签和标注的真实标签之间的差异,对经过第一训练后的文本分类模型进行第二训练。
[0152]
在本公开实施例中,各样本文本上可以标注有真实标签,其中,真实标签用于指示对应样本文本所属的分类类别。
[0153]
在本公开实施例中,当各样本文本对应的分类标签和标注的真实标签之间存在差异时,表明模型的预测精度不高,因此,为了提升模型的预测精度,即提升模型分类结果的准确性和可靠性,可以对经过第一训练后的文本分类模型进行第二训练。即针对每个样本文本,可以根据该样本文本对应的分类标签和真实标签之间的差异,对文本分类模型中的模型参数进行调整。
[0154]
作为一种示例,可以根据各样本文本对应的分类标签与真实标签之间的差异,生成第二损失函数,其中,第二损失函数的取值与上述差异成正向关系,即差异越小,第二损失函数的取值越小,反之,差异越大,第二损失函数的取值越大,从而本公开中,可以根据第二损失函数的取值,对文本分类模型进行第二训练,以使第二损失函数的取值最小化。
[0155]
需要说明的是,上述仅以模型第二训练的终止条件为第二损失函数的取值最小化进行示例,实际应用时,也可以设置其它的终止条件,比如终止条件还可以为训练次数达到设定的次数阈值、训练时长大于设定的时长阈值等等,本公开对此并不做限制。
[0156]
作为一种示例,以文本分类任务为情感分类进行示例,以下述例子,对适用于情感
分类任务的文本分类模型的第二训练过程进行示例性说明:
[0157]
当情感分类的目的是判断样本文本的情感极性时,分类标签(即情感极性)可以为“正向”或“负向”,假设样本文本为“今天比赛得了奖很开心”,标注的真实标签为“正向”,如果采用经过第一训练后的文本分类模型对该样本文本进行第二类别预测(即文本分类),得到的分类标签为“正向”,则确定模型预测正确,无需对模型参数进行调整;如果采用经过第一训练后的文本分类模型对该样本文本进行第二类别预测,得到的分类标签为“负向”,则确定模型预测错误,此时可以对模型参数进行调整。
[0158]
当情感分类的目的是判断样本数据中目标实体的情感极性时,分类标签(即情感极性)可以为“正向”或“负向”,假设样本文本为“今年地区a的环境较好”,目标实体为“地区a”,标注的真实标签为“正向”,如果采用经过第一训练后的文本分类模型对该样本文本进行第二类别预测,得到的分类标签为“正向”,则确定模型预测正确,无需对模型参数进行调整;如果采用经过第一训练后的文本分类模型对该样本文本进行第二类别预测,得到的分类标签为“负向”,则确定模型预测错误,此时可以对模型参数进行调整。
[0159]
作为另一种示例,以文本分类任务为是否分类进行示例,以下述例子,对适用于是否分类任务的文本分类模型的第二训练过程进行示例性说明:
[0160]
假设是非问题为“昨天参加舞会了吗”,样本文本为“张三昨天准时参加了舞会”,标注的真实标签为“是”,如果采用经过第一训练后的文本分类模型对该样本文本进行第二类别预测,得到的分类标签为“是”,则确定模型预测正确,无需对模型参数进行调整;如果采用经过第一训练后的文本分类模型对该样本文本进行第二类别预测,得到的分类标签为“否”或“不确定”,则确定模型预测错误,此时可以对模型参数进行调整。
[0161]
需要说明的是,当文本分类任务为其他分类时,对于其他的句子分类任务、观点分类任务、实体分类任务等,均可以采用与上述类似的方式,确定样本文本对应的分类标签,从而可以确定分类标签和样本文本对应的真实标签之间是否存在差异,若是,则可以根据上述差异,对经过第一训练的文本分类模型进行第二训练,在此不做赘述。
[0162]
作为一种示例,文本分类模型的第一训练过程,可以称为聚类阶段,第二训练过程可以称为微调finetune阶段,如图6所示,在聚类阶段,文本分类模型可以通过簇标签分类层,对样本文本进行第一类别预测,得到样本文本对应的预测标签,从而可以根据样本文本对应的簇标签和预测标签之间的差异,对文本分类模型进行第一训练。
[0163]
例如,可以使用各样本文本进行一个无监督的聚类阶段,使用聚类算法对各样本文本进行聚类,得到各目标聚簇,根据各样本文本所属的目标聚簇,为各样本文本添加簇标签,然后使用模型学习聚类的簇标签,以使模型学习到一些显著的语义信息。
[0164]
在微调finetune阶段,文本分类模型可以通过真实标签分类层,对样本文本进行第二类别预测,得到样本文本对应的分类标签,从而可以根据样本文本的分类标签和标注的真实标签之间的差异,对文本分类模型进行第二训练。
[0165]
可以理解的是,聚类可以捕捉到样本文本中比较显著的语义特征,通过聚类方式可以得到样本文本的簇标签(或称为辅助标签),利用上述簇标签训练文本分类模型,可以使得文本分类模型在真正训练之前学习到样本文本中显著的语义信息,从而在采用少量的样本文本对文本分类模型进行真实训练(即第二训练)时,可以提升模型的表现。
[0166]
本公开实施例的文本分类模型的训练方法,通过采用经过第一训练后的文本分类
模型对各样本文本进行第二类别预测,得到分类标签;根据各样本文本对应的分类标签和标注的真实标签之间的差异,对经过第一训练后的文本分类模型进行第二训练。由此,采用多个样本文本标注的真实标签,对经过第一训练后的文本分类模型进行第二训练,可以提升文本分类模型的分类效果,即提升文本分类结果的准确性和可靠性。
[0167]
在本公开实施例的一种可能的实现方式中,在对文本分类模型进行第一训练之前,还可以对文本分类模型进行第三训练,以进一步提升模型的表现和性能。下面结合图7,对第三训练过程进行详细说明。
[0168]
图7为本公开实施例五所提供的文本分类模型的训练方法的流程示意图。
[0169]
如图7所示,该文本分类模型的训练方法可以包括以下步骤:
[0170]
步骤701,获取多个样本文本。
[0171]
步骤701的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
[0172]
步骤702,针对多个样本文本中的任一样本文本,对任一样本文本中的至少一个样本字符进行掩码,以得到掩码后的样本文本。
[0173]
在本公开实施例中,对样本字符进行掩码,是指以掩码字符替换样本字符。其中,掩码字符可以为预设的固定字符,或者,掩码字符也可以为随机字符,本公开对此并不做限制。
[0174]
在本公开实施例中,针对多个样本文本中的任一样本文本,可以采用掩码字符,对该任一样本文本中的至少一个样本字符进行掩码处理,从而可以得到掩码后的样本文本。其中,进行掩码处理的样本字符的个数可以为1个,或者也可以为多个,本公开对此不做限制;进行掩码处理的样本文本的个数可以为但不限于为1个,本公开对此也不做限制。
[0175]
作为一种示例,以对样本文本“今天比赛得了奖很开心”进行掩码处理进行示例,假设需要进行掩码处理的样本字符为“赛”,掩码字符为“高”,则掩码后的样本文本可以为“今天比高得了奖很高兴”。
[0176]
需要说明的是,上述示例仅以掩码字符为“高”进行示意性说明,本领域技术人员在实际应用中可以根据实际业务需求,选择对样本字符进行掩码处理时所使用的掩码字符,即本公开实施例对掩码字符不做具体限定。
[0177]
步骤703,采用文本分类模型对掩码后的样本文本进行字符预测,以得到预测文本。
[0178]
在本公开实施例中,可以采用文本分类模型对掩码后的样本文本进行字符预测,从而得到预测文本。也就是说,本公开中,文本分类模型可以采用与机器翻译类似的方式,预测整个文本中的所有字符,得到预测文本。
[0179]
仍以上述例子进行示例,可以将“今天比高得了奖很高兴”输入至文本分类模型,由文本分类模型对“今天比高得了奖很高兴”这整个文本进行字符预测,文本分类模型输出的预测文本可以为“今天跳高得了奖很高兴”和/或“今天比赛得了奖很高兴”。
[0180]
步骤704,根据任一样本文本和对应的预测文本之间的差异,对文本分类模型进行第三训练。
[0181]
在本公开实施例中,可以判断文本分类模型输出的预测文本和任一样本文本之间是否存在差异,当该任一样本文本和对应的预测文本之间存在差异时,表明模型的预测精度不高,因此,为了提升模型的预测精度,可以对文本分类模型中的模型参数进行调整,即
可以对文本分类模型进行第三训练。
[0182]
作为一种示例,可以根据任一样本文本和对应的预测文本之间的差异,生成第三损失函数,其中,第三损失函数的取值与上述差异成正向关系,即差异越小,第三损失函数的取值越小,反之,差异越大,第三损失函数的取值越大,从而本公开中,可以根据第三损失函数的取值,对文本分类模型进行第三训练,以使第三损失函数的取值最小化。
[0183]
需要说明的是,上述仅以模型第三训练的终止条件为第三损失函数的取值最小化进行示例,实际应用时,也可以设置其它的终止条件,比如终止条件还可以为训练次数达到设定的次数阈值、训练时长大于设定的时长阈值等等,本公开对此并不做限制。
[0184]
在本公开实施例的一种可能的实现方式中,还可以采用文本分类模型对掩码后的样本文本中的掩码字符进行预测,以得到至少一个预测字符,从而可以根据至少一个样本字符和至少一个预测字符之间的差异,对文本分类模型进行第三训练。
[0185]
由此,可以实现根据不同方式,对文本分类模型进行第三训练,可以提升该方法的灵活性和适用性。
[0186]
在本公开实施例中,可以将掩码后的样本文本输入至文本分类模型,由文本分类模型对掩码后的样本文本中的掩码字符进行预测,得到至少一个预测字符。也就是说,本公开中,文本分类模型可以只预测掩码(mask)掉的字符,与完形填空的任务类似。
[0187]
其中,预测字符的个数与进行掩码的样本字符的个数相同。
[0188]
从而本公开中,可以根据至少一个样本字符和至少一个预测字符之间的差异,对文本分类模型进行第三训练,即对文本分类模中的模型参数进行调整。
[0189]
作为一种示例,可以根据至少一个样本字符和至少一个预测字符之间的差异,生成第四损失函数,其中,第四损失函数的取值与上述差异成正向关系,即差异越小,第四损失函数的取值越小,反之,差异越大,第四损失函数的取值越大,从而本公开中,可以根据第四损失函数的取值,对文本分类模型进行第三训练,以使第四损失函数的取值最小化。
[0190]
需要说明的是,上述仅以模型第三训练的终止条件为第四损失函数的取值最小化进行示例,实际应用时,也可以设置其它的终止条件,比如终止条件还可以为训练次数达到设定的次数阈值、训练时长大于设定的时长阈值等等,本公开对此并不做限制。
[0191]
仍以上述例子进行示例,可以将“今天比高得了奖很高兴”输入至文本分类模型,由文本分类模型对掩码掉的字符“赛”进行预测,如果文本分类模型输出的预测字符为“赛”,则模型预测准确,无需对模型参数进行调整;如果文本分类模型输出的预测字符为其他字符时,则确定模型预测错误,需要对模型参数进行调整,即对模型进行第三训练。
[0192]
可以理解的是,除了可以对样本文本采用掩码的处理方式,并基于掩码后的样本文本对文本分类模型进行预训练,还可以采用自回归的方法,对文本分类模型进行预训练,即基于样本文本的已有知识,对样本文本进行填充或扩展,本公开对此不做限制。
[0193]
步骤705,对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0194]
步骤706,根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别。
[0195]
步骤705至706的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
[0196]
步骤707,采用经过第三训练的文本分类模型对各样本文本进行第一类别预测,以
得到各样本文本对应的预测标签。
[0197]
在本公开实施例中,可以采用经过第三训练的文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签。
[0198]
由此,在对文本分类模型进行第一训练之前,先对文本分类模型进行第三训练,可以提升模型的表现和性能,从而提升模型的训练效果。
[0199]
步骤708,根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。
[0200]
步骤708的执行过程可以参见本公开任一实施例的执行过程,在此不做赘述。
[0201]
本公开实施例的文本分类模型的训练方法,通过针对多个样本文本中的任一样本文本,对任一样本文本中的至少一个样本字符进行掩码,以得到掩码后的样本文本;采用文本分类模型对掩码后的样本文本进行字符预测,以得到预测文本;根据任一样本文本和对应的预测文本之间的差异,对文本分类模型进行第三训练;采用经过第三训练的文本分类模型对各样本文本进行第一类别预测,以得到各样本文本对应的预测标签。由此,采用掩码的方式对样本文本进行处理,并基于掩码后的样本文本对文本分类模型进行预训练,可以进一步提升模型的表现和性能,从而提升模型的预测效果。
[0202]
作为一种示例,不同于图1中现有的两阶段式(即预训练阶段和微调finetune阶段)训练方法对文本分类模型进行训练,本公开中,可以在预训练阶段和微调finetune阶段之间,增加一个中间阶段,即聚类阶段,如图8所示,本公开可以通过三阶段式(即预训练阶段、聚类阶段和微调finetune阶段)训练方法对文本分类模型进行训练,其中,预训练阶段即为对文本分类模型进行第三训练,聚类阶段即为对文本分类模型进行第一训练,微调finetune阶段即为对文本分类模型进行第二训练。
[0203]
其中,聚类阶段,不需要考虑任务场景或者任务类别,即无需单独针对任务场景或者任务类别进行设计,是一种通用、简单、有效地训练方式。通过对模型进行第一训练,可以使模型学习到文本与簇标签之间的对应关系,即文本与所属聚簇类别之间的对应关系,从而使得模型学习到较强的语义特征,且可以忽略异常点带来的干扰。
[0204]
在使用模型学习到文本所属的聚簇类别后,在微调finetune阶段,只需要模型本身学习到的语义特征能力即可,因此,在微调finetune阶段的真实训练中,无需利用如图6所示的聚类阶段的簇标签分类层,仅需利用样本文本标注的真实标签学习新的分类层(即图6中的真实标签分类层),其中,聚类阶段学习到的簇标签分类层和微调finetune阶段学习到的真实标签分类层可以如图6所示。
[0205]
综上,采用三阶段式训练方法对文本分类模型进行训练,具有以下优点:无需对样本文本进行数据增强,无需使用额外互数据,且不引入噪音;在采用少量的样本文本对模型进行第二训练时,可以提升模型的文本分类效果;无需针对场景、数据或类别进行特殊设计,方式简单便捷,具备较强的通用性。
[0206]
上述为文本分类模型的训练方法所对应的各实施例,本公开还提出一种文本分类模型的应用方法,即文本分类方法。
[0207]
图9为本公开实施例六所提供的文本分类方法的流程示意图。
[0208]
如图9所示,该文本分类方法可以包括以下步骤:
[0209]
步骤901,获取待分类文本。
[0210]
在本公开实施例中,待分类文本可以从现有的测试集获取,或者,待分类文本也可以在线采集,比如可以通过网络爬虫技术,在线采集待分类文本,或者,待分类文本也可以为线下采集,或者,待分类文本也可以为用户输入的文本,等等,本公开实施例对此不做限制。
[0211]
步骤902,采用经过训练的文本分类模型对待分类文本进行分类,得到待分类文本的分类标签。
[0212]
其中,文本分类模型可以是采用上述任一方法实施例训练得到的。
[0213]
在本公开实施例中,可以将待分类文本输入至经过训练的文本分类模型中,由该文本分类模型对待分类文本进行分类,得到该文本分类模型输出的该待分类文本的分类标签。
[0214]
本公开实施例的文本分类方法,通过获取待分类文本;采用经过训练的文本分类模型对待分类文本进行分类,得到待分类文本的分类标签。由此,基于深度学习技术,对待分类文本进行分类,可以提升分类结果的准确性和可靠性。
[0215]
与上述图2至图7实施例提供的文本分类模型的训练方法相对应,本公开还提供一种文本分类模型的训练装置,由于本公开实施例提供的文本分类模型的训练装置与上述图2至图7实施例提供的文本分类模型的训练方法相对应,因此在文本分类模型的训练方法的实施方式也适用于本公开实施例提供的文本分类模型的训练装置,在本公开实施例中不再详细描述。
[0216]
图10为本公开实施例七所提供的文本分类模型的训练装置的结构示意图。
[0217]
如图10所示,该文本分类模型的训练装置1000可以包括:获取模块1001、聚类模块1002、生成模块1003、第一预测模块1004及第一训练模块1005。
[0218]
其中,获取模块1001,用于获取多个样本文本。
[0219]
聚类模块1002,用于对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0220]
生成模块1003,用于根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别。
[0221]
第一预测模块1004,用于采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签。
[0222]
第一训练模块1005,用于根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。
[0223]
在本公开实施例的一种可能的实现方式中,聚类模块1002,具体用于:
[0224]
获取多个样本文本之间的相似度;根据多个样本文本之间的相似度,对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0225]
在本公开实施例的一种可能的实现方式中,聚类模块1002,具体用于:根据设定的第一聚簇个数,采用第一聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚类,以得到第一聚簇个数的初始聚簇;确定各初始聚簇之间的距离;在各初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下,根据聚簇间距离阈值,采用第二聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚类,以得到至少一个目标聚簇。
[0226]
在本公开实施例的一种可能的实现方式中,聚类模块1002,具体用于:根据设定的第一聚簇个数,采用第一聚类算法根据多个样本文本之间的相似度对多个样本文本进行聚
类,以得到第一聚簇个数的初始聚簇;确定各初始聚簇之间的距离;在各初始聚簇之间的距离小于设定的聚簇间距离阈值的情况下,对第一聚簇个数进行调整;根据调整后的第一聚簇个数和聚簇间距离阈值,采用第一聚类算法再次对多个样本文本进行聚类,以得到调整后的第一聚簇个数的目标聚簇。
[0227]
在本公开实施例的一种可能的实现方式中,该文本分类模型的训练装置1000还可以包括:
[0228]
第二预测模块,用于采用经过第一训练后的文本分类模型对各样本文本进行第二类别预测,得到分类标签。
[0229]
第二训练模块,用于根据各样本文本对应的分类标签和标注的真实标签之间的差异,对经过第一训练后的文本分类模型进行第二训练。
[0230]
在本公开实施例的一种可能的实现方式中,该文本分类模型的训练装置1000还可以包括:
[0231]
第一掩码模块,用于针对多个样本文本中的任一样本文本,对任一样本文本中的至少一个样本字符进行掩码,以得到掩码后的样本文本。
[0232]
第三预测模块,用于采用文本分类模型对掩码后的样本文本进行字符预测,以得到预测文本。
[0233]
第三训练模块,用于根据任一样本文本和对应的预测文本之间的差异,对文本分类模型进行第三训练。
[0234]
在本公开实施例的一种可能的实现方式中,该文本分类模型的训练装置1000还可以包括:
[0235]
第二掩码模块,用于针对多个样本文本中的任一样本文本,对任一样本文本中的至少一个样本字符进行掩码,以得到掩码后的样本文本。
[0236]
第四预测模块,用于采用文本分类模型对掩码后的样本文本中的掩码字符进行预测,以得到至少一个预测字符。
[0237]
第四训练模块,用于根据至少一个样本字符和至少一个预测字符之间的差异,对文本分类模型进行第三训练。
[0238]
在本公开实施例的一种可能的实现方式中,第一预测模块1004,具体用于:采用经过第三训练的文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签。
[0239]
本公开实施例的文本分类模型的训练装置,通过获取多个样本文本,并对多个样本文本进行聚类,以得到至少一个目标聚簇;根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别;采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签;根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。本公开中,由于聚类可以捕捉到样本文本中显著的语义特征,通过对多个样本文本进行聚类的方式,来生成各样本文本对应的簇标签,并基于该簇标签对文本分类模型进行预训练,可以使得文本分类模型在真实训练之前,有效学习到样本文本中显著的语义信息,从而在利用少量的样本文本对文本分类模型进行真实训练时,可以提升模型表现和性能。
[0240]
与上述图9实施例提供的文本分类方法相对应,本公开还提供一种文本分类装置,
由于本公开实施例提供的文本分类装置与上述图9实施例提供的文本分类方法相对应,因此在文本分类方法的实施方式也适用于本公开实施例提供的文本分类装置,在本公开实施例中不再详细描述。
[0241]
图11为本公开实施例八所提供的文本分类装置的结构示意图。
[0242]
如图11所示,该文本分类装置1100可以包括:获取模块1101以及分类模块1102。
[0243]
其中,获取模块1101,用于获取待分类文本。
[0244]
分类模块1102,用于采用经过如图10所示的文本分类模型的训练装置所训练的文本分类模型对待分类文本进行分类,得到待分类文本的分类标签。
[0245]
本公开实施例的文本分类装置,通过获取待分类文本;采用经过训练的文本分类模型对待分类文本进行分类,得到待分类文本的分类标签。由此,基于深度学习技术,对待分类文本进行分类,可以提升分类结果的准确性和可靠性。
[0246]
为了实现上述实施例,本公开还提供一种电子设备,该电子设备可以包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开上述任一实施例提出的文本分类模型的训练方法或文本分类方法。
[0247]
为了实现上述实施例,本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开上述任一实施例提出的文本分类模型的训练方法或文本分类方法。
[0248]
为了实现上述实施例,本公开还提供一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序在被处理器执行时实现本公开上述任一实施例提出的文本分类模型的训练方法或文本分类方法。
[0249]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0250]
图12示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0251]
如图12所示,电子设备1200包括计算单元1201,其可以根据存储在rom(read-only memory,只读存储器)1202中的计算机程序或者从存储单元1208加载到ram(random access memory,随机访问/存取存储器)1203中的计算机程序,来执行各种适当的动作和处理。在ram 1203中,还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、rom 1202以及ram 1203通过总线1204彼此相连。i/o(input/output,输入/输出)接口1205也连接至总线1204。
[0252]
电子设备1200中的多个部件连接至i/o接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0253]
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于cpu(central processing unit,中央处理单元)、gpu(graphic processing units,图形处理单元)、各种专用的ai(artificial intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、dsp(digital signal processor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如上述文本分类模型的训练方法或文本分类方法。例如,在一些实施例中,上述文本分类模型的训练方法或文本分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由rom 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。当计算机程序加载到ram 1203并由计算单元1201执行时,可以执行上文描述的文本分类模型的训练方法或文本分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述文本分类模型的训练方法或文本分类方法。
[0254]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、fpga(field programmable gate array,现场可编程门阵列)、asic(application-specific integrated circuit,专用集成电路)、assp(application specific standard product,专用标准产品)、soc(system on chip,芯片上系统的系统)、cpld(complex programmable logic device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0255]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0256]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、ram、rom、eprom(electrically programmable read-only-memory,可擦除可编程只读存储器)或快闪存储器、光纤、cd-rom(compact disc read-only memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0257]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(cathode-ray tube,阴极射线管)或者lcd(liquid crystal display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或
者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0258]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:lan(local area network,局域网)、wan(wide area network,广域网)、互联网和区块链网络。
[0259]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务(virtual private server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0260]
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0261]
根据本公开实施例的技术方案,通过获取多个样本文本,并对多个样本文本进行聚类,以得到至少一个目标聚簇;根据各样本文本所属的目标聚簇,生成各样本文本对应的簇标签,其中,簇标签用于指示样本文本所属的聚簇类别;采用文本分类模型对各样本文本进行第一类别预测,得到各样本文本对应的预测标签;根据各样本文本对应的预测标签和簇标签对文本分类模型进行第一训练。本公开中,由于聚类可以捕捉到样本文本中显著的语义特征,通过对多个样本文本进行聚类的方式,来生成各样本文本对应的簇标签,并基于该簇标签对文本分类模型进行预训练,可以使得文本分类模型在真实训练之前,有效学习到样本文本中显著的语义信息,从而在利用少量的样本文本对文本分类模型进行真实训练时,可以提升模型表现和性能。
[0262]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提出的技术方案所期望的结果,本文在此不进行限制。
[0263]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献