一种多标签文本分类方法与流程

2022-05-18 03:32:02 来源：中国专利 TAG：

1.本发明属于自然语言处理(natural language processing,nlp)技术领域，尤其涉及一种多标签文本分类方法。

背景技术：

2.文本分类问题是自然语言处理领域的一个重要研究方向，随着信息技术的迅速发展，互联网信息平台中数据与日俱增，这其中存在大量有价值的信息，如何快速识别海量信息对应的主题标签对于信息检索、信息推荐领域均有相关应用。多标签文本分类方法是解决文本分类的一种重要方法，近年来，在学术研究和实际应用中备受关注。
3.目前，在多标签文本分类方法中，常用的方法是：假设标签之间是相互独立，然后将其转化为二分类问题，基于机器学习训练多个二分类器进行多标签文本分类。
4.假设标签相互独立、转为二分类问题的多标签文本分类方法，在项目落地使用中仍是一个巨大的挑战。最困难的在于文本类别分布不均衡，多数情况下会呈长尾(long-tailed)分布。重采样与加权是解决类别不平衡时常采用的方法，但在这里并不适用。多标签文本分类除存在类别不平衡外，还存在标签依赖，这就导致在使用重采样时会造成一些普通标签的过采样。因此常规的多标签文本分类方法训练的分类器其精度往往达不到预期。

技术实现要素：

5.本发明提供一种多标签文本分类方法，以解决现有多标签文本分类方法不能有效解决长尾分布，导致文本分类准确度低的问题。
6.为实现上述目的，本发明提供一种多标签文本分类方法，包括：
7.获取文本数据；
8.对获取的文本数据进行处理；
9.获取经过处理的文本数据的特征向量；
10.利用所述特征向量对多分类模型进行监督训练，得到分类器。
11.进一步，所述对获取的文本数据进行处理，具体包括：
12.对文本数据依次进行预清洗、预处理、数据增强和数据集划分。
13.进一步，对文本数据进行预清洗，具体包括：处理文本数据中的无效值和缺失值，以及删除重复信息。
14.进一步，对文本数据进行预处理，具体包括：大写转小写、分词、去除停用词、词性还原、以及去除特殊字符。
15.进一步，对文本数据进行数据增强，具体包括：
16.统计文本数据的尾部标签，对所述尾部标签对应样本进行数据增强，所述尾部标签，是指标签频率小于标签频率中位数的标签。
17.进一步，所述对所述尾部标签对应样本进行数据增强，具体包括：
18.抽取所有包含同一尾部标签的样本，按标点符号分割成句子，组成一个句库；随机抽取所述句库中的n个句子形成一个新的标签为该尾部标签的样本，其中，n为所有组成训练数据样本的平均句子数，从而，增强个数为：标签频率中位数-该尾部标签频率；
19.对所有样本进行标签预处理。
20.进一步，所述对所有样本进行标签预处理，具体包括：
21.将形成的新样本的标签处理为零一矩阵。
22.进一步，所述将所有样本的标签处理为零一矩阵，具体包括：
23.在标签对应位置，以1除以当前样本标签个数，以此作为样本的真实标签值。
24.进一步，所述获取经过处理的文本数据的特征向量，具体包括：
25.使用预训练语言模型scibert获取样本的特征向量。
26.进一步，该方法还包括：
27.将所述分类器预测得到的标签与人工标注的标签进行差异比较，按照crossentropy方法进行反向参数调优；
28.上述方法迭代直到模型收敛，进行结果评估。
29.利用本发明提供的方法在对于多标签文本分类，具有以下优点：
30.1、本发明实质是在文本多分类上进行了改进，所以相较于多标签文本分类，在模型训练时间上会更快速；
31.2、因为在训练前对具有尾部标签的样本进行了数据增强，一定程度上解决了多标签文本分类长尾分布问题，同时也提升了模型预测的准确率。
32.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
33.通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。
34.图1是根据本发明一示例性实施例示出的一种多标签文本分类方法的原理框图；
35.图2是根据本发明一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式
36.下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。
37.在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
38.应当理解，尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信
息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
39.如图1所示，本发明提供一种多标签文本分类方法，下文以样本数据中总共出现10种标签(以a～j大写字母为例)，具体步骤如下：
40.获取文本数据：本发明可根据具体应用场景选取文本数据，如对于学术文章，训练数据可选取文本标题与摘要，将其合并处理作为模型输入；
41.数据处理，包括数据清洗、数据预处理、数据增强和数据集划分。
42.数据清洗：数据预处理包括处理无效值和缺失值，删除重复信息；
43.数据预处理：大写转小写、分词、去除停用词、词性还原、去除特殊字符；
44.数据增强：统计尾部标签(标签频率《标签频率中位数)，对这些尾部标签对应样本进行数据增强。假设{
‘
a’,’b’}标签属于尾部标签，抽取所有包含尾部标签a的样本，按标点符号分割成句子，组成一个句库。随机抽取其中的n(统计组成训练数据样本的平均句子数)个句子形成一个新的标签为a的样本，增强个数为：标签频率中位数-标签a频率。其余标签做类似处理。
45.对于标签为a的样本进行标签预处理，假设样本有5个标签a、b、c、d、e，文本多分类模型在处理样本标签时，会将其处理为独热矩阵，例如分类为a的标签会处理成[1,0,0,0,0]。多标签文本分类时，常规上对分类为a、c的样本标签会处理为[1,0,1,0,0]。在本发明中对分类为a、c的样本标签处理为[0.5,0,0.5,0,0]，即在标签对应位置，以1除以当前样本标签个数，依次作为样本的真实标签值，上述步骤通过对标签进行均值处理，可拉高真实标签对应的概率值，进而提高标签预测的准确率。原因是多分类与常规的多标签分类，实质上是取模型经过softmax后最大概率对应的标签作为样本预测标签，而经过训练后的模型所预测标签对应的概率值会无线接近于1，其它标签对应的概率值区别不大；
[0046]
数据集划分：将上面处理好的数据以一定比例划分为训练集和测试集；
[0047]
特征向量获取：使用预训练语言模型scibert获取样本的特征向量；
[0048]
多分类学习：利用softmax和人工标注标签对多分类模型进行监督训练，得到分类器；
[0049]
监督式调优：预测得到的标签与人工标注的标签进行差异比较，按照crossentropy方法进行反向参数调优。
[0050]
模型结果：上述方法迭代直到模型收敛，进行结果评估。
[0051]
本发明的技术关键点在于：
[0052]
1、对多标签样本数据进行数据增强；
[0053]
2、使用文本多分类法直接实现多标签文本分类；
[0054]
3、对真实标签进行均值处理，可拉高真实标签对应的概率值，提高标签预测的准确率。
[0055]
利用本发明提供的方法在对于多标签文本分类，具有以下优点：
[0056]
1、本发明实质是在文本多分类上进行了改进，所以相较于多标签文本分类，在模
型训练时间上会更快速；
[0057]
2、因为在训练前对具有尾部标签的样本进行了数据增强，一定程度上解决了多标签文本分类长尾分布问题，同时也提升了模型预测的准确率；
[0058]
图2是根据本发明一示例性实施例示出的一种计算设备的结构示意图。
[0059]
参见图2，计算设备200包括存储器210和处理器220。
[0060]
处理器220可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0061]
存储器210可以包括各种类型的存储单元，例如系统内存、只读存储器(rom)和永久存储装置。其中，rom可以存储处理器220或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器210可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(dram，sram，sdram，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器210可以包括可读和/或写的可移除的存储设备，例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom，双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0062]
存储器210上存储有可执行代码，当可执行代码被处理器220处理时，可以使处理器220执行上文述及的方法中的部分或全部。
[0063]
此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。
[0064]
或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。
[0065]
上文中已经参考附图详细描述了本发明的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。另外，可以理解，本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0066]
本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模
块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
[0067]
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0068]
以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种多标签文本分类方法与流程

相关文献

最热文献