信息分类方法、装置、电子设备及存储介质与流程

2022-06-12 01:46:38 来源：中国专利 TAG：

1.本发明涉及信息处理技术领域，尤其涉及一种信息分类方法、装置、电子设备及存储介质。

背景技术：

2.现有技术中，信息分类技术大多基于深度神经网络，利用深度神经网络对文本信息分类时需要大量的有标注的数据，获得大量的标注数据需要高昂的经济开销和密集的人力重复劳作，并且也难以确保标注的准确性。

技术实现要素：

3.本发明的实施例提供了一种信息分类方法、装置、电子设备及存储介质，可以使用少量标注样本进行信息分类，并且能够提高信息业分类准确性。
4.第一方面，本发明的实施例提供了一种信息分类方法，所述分类方法包括：
5.获取具有描述信息的信息文本；
6.将所述信息文本输入预先训练好的bert模型中，得到id数字标签；其中，所述bert分类模型是通过对比学习进行训练得到的；
7.将所述id数字标签通过预建的标签字典转化为分类结果。
8.可选地，所述bert分类模型的对比学习训练方法包括：
9.获取具有描述信息的训练样本，并将按预设格式拼接成学习文本；
10.对所述学习文本进行预处理；
11.将预处理过的学习文本转化为可输入模型的特征向量样本；
12.将所述特征向量样本重复两次输入到预设的带dropout的bert模型，使用预设的损失函数进行监督训练；
13.迭代所述bert模型得到所述bert分类模型。
14.可选地，对所述学习文本进行预处理包括：
15.将所述学习文本截断为预设字节长度，并建立标签字典，将文字标签转换为数字标签；将每条文本开头插入第一标注符号，结尾插入第二标注符号，使得每条文本序列以第一标注符号开头，以第二标注符号结尾。
16.可选地，所述预先训练好的bert模型包括：
17.bert预训练模型和分类器，bert预训练模型包括12层transformer，其中，所述transformer包括用于获取序列特征的多头注意力层、用于非线性变换的前馈网络层和两个残差连接及标准化层；每一层transformer网络的输出直接作为下一层transformer网络的输入；在最后一层transformer网络接所述分类器。
18.可选地，在所述多头注意力层和前馈网络层后各接一个标准化层，并使用残差连接，所述前馈网络层位于多头注意力层之后。
19.可选地，预设的损失函数为交叉熵损失函数及模型之间的对称kl散度损失函数的
加权和。
20.可选地，
21.所述交叉熵损失函数为：
[0022][0023]
其中，p
θ
(y|x)表示带dropout的分类模型；
[0024]
模型之间的对称kl散度损失函数为：
[0025][0026]
其中，p
θ
(y|x)表示带dropout的分类模型，kl散度；
[0027]
最终损失函数为两个损失函数的加权和；
[0028][0029]
第二方面，本发明的实施例提供了一种信息分类装置，所述分类装置包括：
[0030]
获取模块，用于获取具有描述信息的信息文本；
[0031]
标签转化模块，用于将所述信息文本输入预先训练好的bert模型中，得到id数字标签；其中，所述bert分类模型是通过对比学习进行训练得到的；
[0032]
分类模块，用于将将所述id数字标签通过预建的标签字典转化为分类结果。
[0033]
第三方面，本发明的实施例提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如第一方面任一项所述的方法。
[0034]
第四方面，本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。
[0035]
本发明提供了一种信息分类方法、装置、电子设备及存储介质，所述分类方法通过获取具有描述信息的信息文本；将所述信息文本输入预先训练好的bert模型中，得到id数字标签；其中，所述bert分类模型是通过对比学习进行训练得到的；将所述id数字标签通过预建的标签字典转化为分类结果；通过对比学习利用少量具有类别标签的样本文本作为输入对初始分类模型进行训练，大大减轻了对大量的、具有准确标注的数据的依赖，减轻了人力标注的重复劳作，可以在少量具有标注的数据下实现快速学习，数据成本低，分类结果准确。
[0036]
应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。
附图说明
[0037]
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0038]
图1示出了本发明的实施例的一种信息分类系统应用环境的示意图；
[0039]
图2示出了本发明的实施例的一种信息分类方法的流程图；
[0040]
图3示出了本发明的实施例的预先训练好的bert分类模型的结构示意图；
[0041]
图4示出了本发明的实施例的bert分类模型的对比学习训练方法的流程图；
[0042]
图5示出了本发明的实施例的一种信息分类装置的结构示意图；
[0043]
图6示出了本发明实施例的一种电子设备的结构图。
具体实施方式
[0044]
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。
[0045]
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0046]
由于对信息分类时需要大量的有标注的数据，获得大量的标注数据需要高昂的经济开销和密集的人力重复劳作，并且也难以确保标注的准确性。
[0047]
请参阅图1，图1是本发明实施例提供的一种应用环境的示意图，如图1所示，该应用环境至少包括分类终端01，本说明书实施例中，分类终端01可以包括台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中，智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然，分类终端01并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软件。具体的，例如，分类终端01可以提供给用户的网页页面。分类终端的服务器02可以包括一个或多个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器可以包括有网络通信单元、处理器和存储器等等。
[0048]
本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本技术方案一种应用场景，并不构成对本技术方案应用场景的限定，其他的应用环境还可以包括比图1中所示更多或更少的终端设备，例如图1中仅示出1个终端设备，可以理解的，该分类系统还可以包括一个或多个其他服务，具体此处不作限定。
[0049]
需要说明的是，本发明实施例描述的仅仅是为了更加清楚的说明本发明实施例的技术方案，并不构成对本发明实施例提供的技术方案的限定。
[0050]
图2示出了本发明的实施例的一种信息分类方法，所述分类方法包括：
[0051]
s20、获取具有描述信息的信息文本；
[0052]
本实施中的描述信息为信息资源的主题内容、形式特征、物质形态等，例如可以包括，产品信息、核心技术信息等等，信息文本中的字符可以为中文字符，也可以为英文字符，或者，还可以为数字等任意类型的字符，对信息文本中字符的类型不作具体限定。需要说明
的是，对于信息文本可以是任意领域的文本，对信息文本的内容和所属领域不做限定。例如，可以实时或者定期从各网站、论坛、自媒体平台等获取信息文本，或者，也可以接收用户输入的信息文本。
[0053]
s40、将所述信息文本输入预先训练好的bert模型中，得到id数字标签；其中，所述bert分类模型是通过对比学习进行训练得到的；
[0054]
输入预先训练好的bert模型中的信息文本是经过预处理的，将所述学习文本截断为预设字节长度，并建立标签字典，将标签转换为数字标签；可以将每条文本开头插入第一标注符号，结尾插入第二标注符号，使得每条文本序列以第一标注符号开头，以第二标注符号结尾。例如，将所有文本序列截断为预设长度的多条文本，例如长度为256字节，将每条文本开头插入[cls]，结尾插入[sep]，使得每条文本序列以[cls]开头，以[sep]结尾。
[0055]
最后将处理后的文本序列转换为可以输入模型的特征向量；将所述特征向量输入预先训练好的bert分类模型中，得到行业id数字标签；
[0056]
图3示出了本发明的实施例的预先训练好的bert分类模型的结构示意图；如图3所示，所述预先训练好的bert模型包括：
[0057]
bert预训练模型和分类器，bert预训练模型包括12层transformer，其中，所述transformer包括用于获取序列特征的多头注意力层、用于非线性变换的前馈网络层和两个残差连接及标准化层；每一层transformer网络的输出直接作为下一层transformer网络的输入；在最后一层transformer网络接所述分类器；在所述多头注意力层和前馈网络层后各接一个标准化层，并使用残差连接，所述前馈网络层位于多头注意力层之后。
[0058]
图4示出了本发明的实施例的bert分类模型的对比学习训练方法的流程图；如图4所示，所述bert分类模型的对比学习训练方法包括：
[0059]
s401、获取具有描述信息的训练样本，并将按预设格式拼接成学习文本；
[0060]
s402、对所述学习文本进行预处理；预处理是将所有文本序列截断为预设长度的多条文本，例如长度为256字节，将每条文本开头插入[cls]，结尾插入[sep]，使得每条文本序列以[cls]开头，以[sep]结尾。
[0061]
s403、将预处理过的学习文本转化为可输入模型的特征向量样本；具体地，对文本序列数据进行embedding向量化表示，得到cls特征向量。
[0062]
s404、将所述特征向量样本重复两次输入到预设的带dropout的bert模型，使用预设的损失函数进行监督训练；
[0063]
s405、迭代所述bert模型得到所述bert分类模型。
[0064]
s60、将所述id数字标签通过标签字典转化为信息分类结果。
[0065]
具体地，通过id数字标签在标签字典找到相对应的分类的信息，将所述id数字标签转化为信息分类结果。
[0066]
本实施例提供了一种信息分类方法，所述分类方法通过获取具有描述信息的信息文本；将所述信息文本输入通过对比学习训练好的bert分类模型中，得到id数字标签；将所述id数字标签通过标签字典转化为信息分类结果；通过对比学习利用少量具有类别标签的样本文本作为输入对初始分类模型进行训练，大大减轻了对大量的、具有准确标注的数据的依赖，减轻了人力标注的重复劳作，可以在少量具有标注的数据下实现快速学习，数据成本低，分类结果准确。
[0067]
下面以一较优的具体实施例对本发明的有益效果进行说明：
[0068]
本实施例的信息分类是基于企业行业信息分类，具体是根据企业的主营产品、核心技术方向这2个维度信息分类，涉及如何将这些企业描述信息文本分类到行业标签。本实施例中，将企业描述信息按格式拼接成文本，格式：主营：产品1、产品2...产品n；技术：技术1、技术2...技术n。
[0069]
将所有文本序列进行预处理，例如，将所有文本序列截断为最大长度256，并建立行业标签字典，将所有行业标签转换为数字标签，如下表所示。
[0070]
行业标签数字标签蔬菜、食用菌及园艺作物种植0金属制日用品制造1通用仪器仪表制造2橡胶制品业3塑料制品业4。。。。。。软件开发471日用化学产品制造472
[0071]
将每条文本开头插入[cls]，结尾插入[sep]，使得每条文本序列以[cls]开头，以[sep]结尾，最后将预处理后的文本序列转换为可以输入模型的特征向量。
[0072]
构建分类模型，分类模型由bert预训练模型和分类器构成，bert预训练模型主要由12层transformer组成，其中transformer包括用于获取序列特征的多头注意力层、用于非线性变换的前馈网络层和两个残差连接及标准化层。在多头注意力层和前馈网络层后各接一个标准化层，并使用残差连接，前馈网络层位于多头注意力层之后，每一层transformer网络的输出直接作为下一层transformer网络的输入。在最后一层transformer网络接一个分类器。
[0073]
将每条文本重复地输入到预设的网络模型2次，并设置预设的网络模型的dropout概率，使用预设的损失函数进行监督训练，迭代bert分类模型，获得到达的企业行业的分类预设准确度的带dropout的bert分类模型。
[0074]
预设的损失函数分为两部分，损失1是常规的交叉熵，另一损失2是两个模型之间的对称kl散度；
[0075]
其中，交叉熵损失函数为：
[0076][0077]
其中，p
θ
(yx)表示带dropout的分类模型；
[0078]
两个模型之间的对称kl散度损失函数为：
[0079][0080]
其中，p
θ
(y|x)表示带dropout的分类模型，kl散度；
[0081]
最终损失函数就是两个损失函数的加权和；
[0082][0083]
在常规交叉熵的基础上，加了一项强化模型鲁棒性正则项。
[0084]
对比学习是同一个样本通过不同的数据扩增手段得到的结果视为正样本对，而batch内的所有其他样本视为负样本，然后通过loss来缩小正样本的距离、拉大负样本的距离；分类问题每个样本的loss是交叉熵，对比学习的loss分为两部分，一部分是常规的交叉熵，另一部分为两个模型之间的对称kl散度，目的是不同dropout的模型输出尽可能一致，最终loss为两个loss的加权和。
[0085]
对比学习在常规交叉熵的基础上，加了一项强化模型鲁棒性正则项，通过增加一个正则项，使得不同的dropout下模型的输出基本一致，因此能降低这种不一致性，促进“模型平均”与“权重平均”的相似性，从而使得简单关闭dropout的效果等价于多dropout模型融合的结果，提升模型最终性能。
[0086]
通过获取具有企业描述信息的信息文本；将所述信息文本输入通过对比学习训练好的bert分类模型中，得到行业id数字标签；将所述行业id数字标签通过企业标签字典转化为企业行业的分类结果；通过对比学习利用少量具有行业类别标签的样本文本作为输入对初始分类模型进行训练，大大减轻了对大量的、具有准确标注的数据的依赖，减轻了人力标注的重复劳作，可以在少量具有标注的数据下实现快速学习，数据成本低，提高了行业分类结果准确性。
[0087]
基于同一发明构思，本发明实施例还提供了一种信息分类装置，可以用于实现上述实施例中所描述的信息分类方法，如下面实施例所述。由于该信息分类装置解决问题的原理与信息分类方法相似，因此信息分类装置的实施可以参见一种信息分类方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
[0088]
图5示出了本发明的实施例的一种信息分类装置，如图5所示，所述分类装置包括：
[0089]
获取模块20，用于获取具有描述信息的信息文本；
[0090]
标签转化模块40，用于将所述信息文本输入预先训练好的bert模型中，得到id数字标签；其中，所述bert分类模型是通过对比学习进行训练得到的；
[0091]
分类模块60，用于将所述id数字标签通过预建的标签字典转化为分类结果。
[0092]
本实施例提供了一种信息分类装置，所述分类装置通过获取模块20获取获取具有描述信息的信息文本；标签转化模块40将所述将所述信息文本输入预先训练好的bert模型中，得到id数字标签；分类模块60将将所述id数字标签通过预建的标签字典转化为分类结果；通过对比学习利用少量具有类别标签的样本文本作为输入对初始分类模型进行训练，大大减轻了对大量的、具有准确标注的数据的依赖，减轻了人力标注的重复劳作，可以在少量具有标注的数据下实现快速学习，数据成本低，信息分类结果准确。
[0093]
本发明实施例还提供了一种计算机电子设备，图6示出了可以应用本发明实施例的电子设备的结构示意图，如图6所示，该计算机电子设备包括，中央处理单元(cpu)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中，还存储有系统操作所需的
各种程序和数据。cpu 601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0094]
以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。
[0095]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0096]
作为另一方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述信息分类装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入电子设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明的一种信息分类方法。
[0097]
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于VSCode集成开发环境快速制作RPM或DEB软件包的方法及插件工具与流程

信息分类方法、装置、电子设备及存储介质与流程

相关文献

最热文献