类别分析方法、装置、设备及存储介质与流程

2021-12-07 21:13:00 来源：中国专利 TAG：

1.本技术实施例涉及互联网技术领域，尤其涉及一种类别分析方法、装置、设备及存储介质。

背景技术：

2.随着科学技术的不断发展，足不出户便可购到所需商品的网络购物方式变得越来越流行，为人们的生活带来了极大的便利。同时，这也给某些商家提供了在网上销售非法商品和/或风险商品的可乘之机，存在电商平台被监管的风险。
3.现有技术中，电商平台中商品类别的分析主要依赖于专职检测员的人工排查。具体的，专职检测员对电商平台中每天新增的商品进行类别分析，以避免非法商品上架或减少风险商品的上架概率。
4.在实现本发明过程中，发明人发现现有技术中至少存在如下问题：由于电商平台中每天要上架海量的商品，这时需要投入大量的人力分析这些商品的类别，存在分析效率低，人力资源浪费的问题。

技术实现要素：

5.本技术实施例提供一种类别分析方法、装置、设备及存储介质，用以解决现有对象类别分析方法中存在的分析效率低，人力资源浪费的问题。
6.第一方面，本技术实施例提供一种类别分析方法，包括：
7.获取待识别对象的文本数据；
8.基于预设的词向量表，确定所述文本数据对应的词序列向量；
9.将所述词序列向量输入到预先训练的机器分类模型中进行处理，得到所述待识别对象对应的类别概率分布；
10.根据所述类别概率分布，确定所述待识别对象所属的类别。
11.在第一方面的一种可能设计中，所述基于预设的词向量表，确定所述文本数据对应的词序列向量，包括：
12.对所述文本数据进行分词处理，得到所述文本数据对应的至少一个词语；
13.根据所述至少一个词语，查询预设的词向量表，确定每个词语在所述词向量表中的编码信息；
14.根据所述至少一个词语在所述词向量表中的编码信息，得到所述文本数据对应的词序列向量。
15.在第一方面的另一种可能设计中，所述机器分类模型包括：相互连接的自注意处理层和神经网络层；
16.所述将所述词序列向量输入到预先训练的机器分类模型中进行处理，得到所述待识别对象对应的类别概率分布，包括：
17.利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合，得到所述
词序列向量的自注意结果；
18.利用所述神经网络层对所述自注意结果进行信息提取和信息处理，得到所述待识别对象对应的类别概率分布。
19.可选的，所述利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合，得到所述词序列向量的自注意结果，包括：
20.利用所述预设自注意处理层中的至少三个网络模型分别对所述词序列向量进行处理，得到至少三个词序列矩阵，所述至少三个网络模型的类型均相同但参数均不同；
21.根据所述至少三个词序列矩阵中的至少两个词序列矩阵，计算各序列矩阵中词向量的相关性，得到词相关性矩阵；
22.根据所述词相关性矩阵和所述至少三个词序列矩阵中的目标词序列矩阵，计算所述词序列向量的自注意结果，所述目标词序列矩阵与所述至少两个词序列矩阵均不同。
23.可选的，所述神经网络层包括：前馈网络层、池化层和全连接层；
24.所述利用所述神经网络层对所述自注意结果进行信息提取和信息处理，得到所述待识别对象对应的类别概率分布，包括：
25.利用所述前馈网络层对所述自注意结果进行处理，得到所述词序列向量对应的更新词序列向量；
26.利用所述池化层对所述更新词序列向量进行特征提取，得到所述文本数据对应的表征词序列向量；
27.利用所述全连接层对所述表征词序列向量进行维度加权求和以及归一化处理，得到所述待识别对象对应的类别概率分布。
28.在第一方面的再一种可能设计中，所述方法还包括：
29.获取已标注对象类别的文本数据集，所述文本数据集包括预设对象类别分别对应的多条文本数据；
30.基于预设的分词规则，对所述文本数据集中的每条文本数据进行分词处理，得到所述文本数据集对应的词语集合；
31.根据所述文本数据集对应的词语集合和外界输入的术语，生成所述词向量表，所述词向量表中的每个词语具有唯一的编码。
32.可选的，所述方法还包括：
33.根据所述词向量表，确定所述文本数据集中每条文本标注数据对应的词序列标注向量；
34.将每条文本标注数据对应的词序列标注向量作为预设网络的输入、所述文本标注数据对应的已标注对象类别作为输出，对所述预设网络进行训练，得到所述机器分类模型。
35.第二方面，本技术实施例提供一种类别分析装置，包括：获取模块、第一处理模块、第二处理模块和确定模块；
36.所述获取模块，用于获取待识别对象的文本数据；
37.所述第一处理模块，用于基于预设的词向量表，确定所述文本数据对应的词序列向量；
38.所述第二处理模块，用于将所述词序列向量输入到预先训练的机器分类模型中进行处理，得到所述待识别对象对应的类别概率分布；
39.所述确定模块，用于根据所述类别概率分布，确定所述待识别对象所属的类别。
40.在第二方面的一种可能设计中，所述第一处理模块，具体用于：
41.对所述文本数据进行分词处理，得到所述文本数据对应的至少一个词语；
42.根据所述至少一个词语，查询预设的词向量表，确定每个词语在所述词向量表中的编码信息；
43.根据所述至少一个词语在所述词向量表中的编码信息，得到所述文本数据对应的词序列向量。
44.在第二方面的另一种可能设计中，所述机器分类模型包括：相互连接的自注意处理层和神经网络层；
45.所述第二处理模块，具体用于：
46.利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合，得到所述词序列向量的自注意结果；
47.利用所述神经网络层对所述自注意结果进行信息提取和信息处理，得到所述待识别对象对应的类别概率分布。
48.可选的，所述第二处理模块，用于利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合，得到所述词序列向量的自注意结果，具体为：
49.所述第二处理模块，具体用于：
50.利用所述预设自注意处理层中的至少三个网络模型分别对所述词序列向量进行处理，得到至少三个词序列矩阵，所述至少三个网络模型的类型均相同但参数均不同；
51.根据所述至少三个词序列矩阵中的至少两个词序列矩阵，计算各序列矩阵中词向量的相关性，得到词相关性矩阵；
52.根据所述词相关性矩阵和所述至少三个词序列矩阵中的目标词序列矩阵，计算所述词序列向量的自注意结果，所述目标词序列矩阵与所述至少两个词序列矩阵均不同。
53.可选的，所述神经网络层包括：前馈网络层、池化层和全连接层；
54.所述第二处理模块，用于利用所述神经网络层对所述自注意结果进行信息提取和信息处理，得到所述待识别对象对应的类别概率分布，具体为：
55.所述第二处理模块，具体用于：
56.利用所述前馈网络层对所述自注意结果进行处理，得到所述词序列向量对应的更新词序列向量；
57.利用所述池化层对所述更新词序列向量进行特征提取，得到所述文本数据对应的表征词序列向量；
58.利用所述全连接层对所述表征词序列向量进行维度加权求和以及归一化处理，得到所述待识别对象对应的类别概率分布。
59.在第二方面的再一种可能设计中，所述获取模块，还用于获取已标注对象类别的文本数据集，所述文本数据集包括预设对象类别分别对应的多条文本数据；
60.所述第一处理模块，还用于：
61.基于预设的分词规则，对所述文本数据集中的每条文本数据进行分词处理，得到所述文本数据集对应的词语集合；
62.根据所述文本数据集对应的词语集合和外界输入的术语，生成所述词向量表，所
述词向量表中的每个词语具有唯一的编码。
63.可选的，所述第二处理模块，还用于：
64.根据所述词向量表，确定所述文本数据集中每条文本标注数据对应的词序列标注向量；
65.将每条文本标注数据对应的词序列标注向量作为预设网络的输入、所述文本标注数据对应的已标注对象类别作为输出，对所述预设网络进行训练，得到所述机器分类模型。
66.第三方面，本技术实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面以及各可能设计所述的方法。
67.第四方面，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行第一方面以及各可能设计所述的方法。
68.本技术实施例提供的类别分析方法、装置、设备及存储介质，通过获取待识别对象的文本数据，基于预设的词向量表，确定该文本数据对应的词序列向量，进而将该词序列向量输入到预先训练的机器分类模型中进行处理，得到待识别对象对应的类别概率分布，最后根据该类别概率分布，确定待识别对象所属的类别。该技术方案，采用nlp算法代替黑灰商品检测员检测，实现了商品类别的自动识别，不需要人员参与，降低了人工成本，提高了检测效率。
附图说明
69.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
70.图1是本技术提供的类别分析方法的应用场景示意图；
71.图2为本技术提供的类别分析方法实施例一的流程示意图；
72.图3为本技术提供的类别分析方法实施例二的流程示意图；
73.图4为本技术提供的类别分析方法实施例三的流程示意图；
74.图5为本技术提供的类别分析方法实施例四的流程示意图；
75.图6为本技术实施例提供的类别分析装置实施例的结构示意图；
76.图7为本技术实施例提供的用于执行类别分析方法的电子设备实施例的结构示意图。
77.通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
78.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
79.首先对本技术实施例所涉及的名词进行解释：
80.黑灰商品：黑色商品和灰色商品。其中，黑色商品指的国家法律不允许售卖的商品，如电子烟，野生保护生动物等。灰色商品是容易引起工商投诉、纠纷的商品，如物联网卡等。
81.transformer模型：是一种基于自注意(attention)机制的模型结构，其在自然语言处理(natural language processing，nlp)领域中被广泛使用，可以应用于机器翻译、问答系统、文本摘要和语音识别等等方向。transformer基于该attention机制能够结合上下文信息，得到更丰富的语义信息。
82.卷积神经网络(convolutional neural networks，cnn)：是一类包含卷积计算且具有深度结构的前馈神经网络(feedforward neural networks)，是深度学习(deep learning)的代表算法之一，其包括输入层、隐含层和输出层，其中，隐含层包括卷积层、池化层和全连接层。
83.结巴分词工具(jieba.load_userdict)：结巴分词的工具类方法，可以添加自定义词典。
84.relu：是一种非线性激活函数，
85.softmax函数：又称归一化指数函数，(可应用于多分类)，目的是将多分类的结果以概率的形式展现出来。softmax函数的第一步是将模型的预测结果转化到指数函数上，这样保证了概率的非负性，第二步是将转化后的结果除以所有转化后结果(各种预测结果概率之和等于1)之和，即转化后结果占总数的百分比，即得到近似的概率。
86.示例性的，图1是本技术提供的类别分析方法的应用场景示意图。如图1所示，该应用场景可以包括：至少一个终端设备(图1示出了三个终端设备，分别为终端设备111、终端设备112、终端设备113)、网络12和服务器13。其中，每个终端设备与服务器13均可以通过网络12进行通信。可选的，图1所示的应用场景还可以包括与服务器13连接的数据存储设备14。
87.示例性的，在图1所示的应用场景中，服务器13既可以从网络12上获取待识别对象的文本数据，并将其存储至数据存储设备14中，以便在后续对文本数据进行聚类分析时直接使用，服务器13还可以通过网络12接收用户通过终端设备发出的文本数据集，对该文本数据集对应的对象进行识别后，并将处理结果存储至数据存储设备14中。
88.在本实施例中，数据存储设备14可以存储大量用于类别分析的文本数据集，也可以存储服务器13的处理结果，服务器13可以基于数据存储设备14中的待识别对象的文本数据，执行类别分析方法的程序代码，以确定待识别对象所属的类别。
89.需要说明的是，附图1仅是本技术实施例提供的一种应用场景的示意图，本技术实施例不对图1中包括的设备进行限定，也不对图1中设备之间的位置关系进行限定，例如，在图1中，数据存储设备14相对服务器13可以是外部存储器，在其它情况下，也可以将数据存储设备14置于服务器13中。
90.在实际应用中，由于终端设备也是具有数据处理能力的处理设备，因而，上述图1所示应用场景中的服务器也可以通过终端设备实现。在本技术的实施例中，可以将具有类别分析能力的服务器和终端设备统称为电子设备。可选的，本技术实施例以类别分析方法
的执行主体为电子设备进行解释说明。
91.示例性的，本技术实施例的一种具体应用场景可以如下：
92.随着科技的发展，互联网给人们的生活带来了翻天覆地的变化，尤其电商互联网，让人们足不出户就可以买到世界各地的商品，为人们的生活带来了极大的便利。同时，这也给了许多某些商家带来了可乘之机，通过在网上销售黑灰商品(黑灰商品：黑色商品指的国家法律不允许售卖的商品，如电子烟，野生保护生动物；灰色商品：容易引起工商投诉、纠纷的商品，如物联网卡)以获取暴利。
93.在实际应用中，建立良好的电商平台生态环境，降低平台商品违法及被监管风险，是电商平台必须要担起的责任。当下对应黑灰商品的管控：对每天上架的商品进行黑灰排查，将黑色商品进行拦截下架，对灰色商品进行限制广告投放、限制营销活动提报，从而降低非法商品和/或风险商品被售卖的现象。
94.现阶段，对于电商平台中上线的黑灰商品的检测，主要借助于专职的黑灰检测员，黑灰检测员对电商平台上每天新增的商品进行检测，对检测出来的黑灰商品进行标注被进行特定的处理。但是，由于入驻电商平台的商家很多，且每个商家每天可能要发布海量的商品，这样电商平台就需要投入大量的劳动力去检测这些商品，存在检测方式效率低，人力资源大的问题。
95.为了解决上述问题，本技术技术方案的发明构思如下：在实际应用中，发明人发现预训练词向量是许多自然语言理解模型的关键组成部分，在输入层时，将其嵌入到模型中可以有效的提高模型的性能。此外，基于attention机制的模型在自然语言理解领域大放异彩，从智能问答、机器翻译、语音识别到图像字幕等一系列任务中取得了巨大的成功，因而，演变得到了transformer网络结构模型。基于此，为了解决电商平台黑灰商品检测效率低下，人力资源投入过大的问题，本技术的发明人想到是否可以基于transformer和cnn的模型结构的性质对商品标题数据进行挖掘，以判断该商品是否为黑灰商品。
96.基于上述技术构思，本技术实施例提供了一种类别分析方法，通过获取待识别对象的文本数据，基于预设的词向量表，确定该文本数据对应的词序列向量，进而将该词序列向量输入到预先训练的机器分类模型中进行处理，得到待识别对象对应的类别概率分布，最后根据该类别概率分布，确定待识别对象所属的类别。该技术方案，采用nlp算法代替黑灰商品检测员检测，实现了商品类别的自动识别，不需要人员参与，降低了人工成本，提高了检测效率。
97.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
98.图2为本技术提供的类别分析方法实施例一的流程示意图。如图2所示，该类别分析方法可以包括步骤：
99.s201、获取待识别对象的文本数据。
100.在本技术的实施例中，对于给定的某个服务平台(例如电商网站)，当某个对象有类别识别需求时，电子设备可以从服务平台或存储对象文本数据的存储位置获取待识别对象的文本数据。通常情况下，一条文本数据可以用于描述一个待识别对象。
101.示例性的，在电商平台的应用场景中，待识别对象的文本数据可以指商品标题数
据，通过分析该商品标题数据可以确定出该商品的类别。
102.可以理解的是，电子设备还可以同时获取多个待识别对象的多条文本数据，然后再依次对每条文本数据进行处理。
103.s202、基于预设的词向量表，确定该文本数据对应的词序列向量。
104.可选的，电子设备在获取到待识别对象的文本数据后，可以首先对该文本数据进行分词处理，然后确定每个词语在预设的词向量表中的编码信息，得到该文本数据对应的词向量，最后根据预设方法对词向量进行池化处理，得到文本数据对应的词序列向量。
105.可选的，关于该步骤的具体实现原理可以参见下述图3所示实施例的记载，此处不再赘述。
106.s203、将该词序列向量输入到预先训练的机器分类模型中进行处理，得到待识别对象对应的类别概率分布。
107.在本技术的实施例中，电子设备上加载有预先训练的机器分类模型，该机器分类模型是利用多个不同类别对象的文本标注数据对预设网络进行训练得到的，其输入是多个不同类别对象的文本标注数据，输出是对象所属类别的概率信息。
108.具体的，当电子设备获取到待识别对象的文本数据对应的词序列向量时，将该词序列向量输入到该机器分类模型中，利用该机器分类模型对词序列向量进行信息融合、信息提取和信息处理，最终可以输出待识别对象对应的类别概率分布。
109.示例性的，该机器分类模型可以根据训练时确定的可能类别数量，确定出待识别对象在属于每个类别时的概率信息。
110.关于该步骤的具体实现原理可以参见下述图4所示实施例的记载，此处不再赘述。
111.s204、根据上述类别概率分布，确定待识别对象所属的类别。
112.在本技术的实施例中，电子设备根据上述类别概率分布可以确定出待识别对象属于每个类别的概率。在实际应用中，在待识别对象可能所属的类别确定后，所有可能所属类别的概率总和等于1。因而，可以对比待识别对象可能所属类别的所有概率大小，将概率最大的类别确定为待识别对象所属的类别。
113.示例性的，假设待识别对象为商品，商品的分类包括正常商品、黑色商品和灰色商品，则该商品属于正常商品、黑色商品和灰色商品的概率之和等于1。因而，对于某个待识别商品，若该商品属于正常商品的概率为0.6，属于灰色商品的概率为0.3，属于黑色商品的概率为0.1，则确定该待识别商品的类别为正常商品。
114.本技术实施例提供的类别分析方法，通过获取待识别对象的文本数据，基于预设的词向量表，确定该文本数据对应的词序列向量，再将该词序列向量输入到预先训练的机器分类模型中进行处理，得到该待识别对象对应的类别概率分布，最后根据该类别概率分布，确定待识别对象所属的类别。该技术方案中，在检测过程中，基于预先训练的机器分类模型能够自动实现对象的类别分析，不需要人员参与，提高了检测效率，降低了人工成本。
115.在上述实施例的基础上，图3为本技术提供的类别分析方法实施例二的流程示意图。如图3所示，在本实施例中，上述s202可以通过如下步骤实现：
116.s301、对上述文本数据进行分词处理，得到该文本数据对应的至少一个词语。
117.在本技术的实施例中，电子设备中可以预先存储有预设的分词规则，这样电子设备在获取到待识别对象的文本数据后，便可以基于该预设的分词规则对文本数据进行分词
处理，得到该文本数据对应的至少一个词语。
118.可选的，该分词规则可以包括垂直领域不分词、文本分词等。示例性的，在本实施例中，电子设备首先针对垂直领域的专业词汇进行识别，例如，若文本数据中存在医用词汇“脂溢性脱发”、“玫瑰糠疹”、“身份阅读器”、“hpv疫苗”、“道教符咒”等等，且这些词汇在很大程度上可以对文本的语义进行了区分。所以，在对文本数据进行分词时，确定对一些指定的词汇不进行分词，对文本数据中除了指定的不分词的文本，按照词语的语义进行分词处理。
119.可选的，本技术实施例中，电子设备可以利用结巴分词工具添加累积的专业词汇以实现垂直领域词语不分词的目的。
120.可选的，在本技术的实施例中，在该步骤s301之前，该电子设备还可以为文本数据进行如下处理：
121.对文本数据进行预处理，删除该文本数据出现的预设属性内容，该预设属性内容至少包括如下内容中的一种：停用词、注释词、符号。
122.可选的，停用词通常并不是句子的关键词，不仅会占用大量的计算存储资源，而且在很大程度上也会造成语义的混淆，例如“你”、“我”、“的”“了”、“过”等之类无意义的字词，因而，在对文本进行分词之前可以去掉这些词语。
123.在本实施例中，该符合可能是单独的符号，例如“&”、“％”等，也可能是各种符号和数字、字母组成的内容，例如，链接等。注释词可以是用于解释某个词语的单词，也可以是某些数字等与文本内容的相关程度较低的内容，因而可以将其删除。
124.s302、根据上述至少一个词语，查询预设的词向量表，确定每个词语在所述词向量表中的编码信息。
125.在本技术的实施例中，预设的词向量表是基于开源的预训练词向量和语料库得到的，每个词向量具有唯一的编码信息。示例性的，该词向量表的列数量与语料库的维度相同，该词向量表的行数量与参与词向量表建立的训练数据对应的词语集合包含的词语个数一致。因而，在本实施例中，每个词语对应于一个行向量。
126.可选的，对于上述文本数据对应的至少一个词语，首先查询预设的词向量表，确定出每个词语在所述词向量表中的编码信息(即索引信息)。可选的，对于文本数据中未曾在词向量表中出现的词语，则用随机词语“null”补齐，对应的编码信息为空向量。
127.s303、根据至少一个词语在词向量表中的编码信息，得到该文本数据对应的词序列向量。
128.可选的，电子设备根据每个词语在词向量表中的编码信息，可以首先确定每个词语对应的词向量，然后，按照预先设定的词序列长度，确定出该文本数据对应的次序序列向量。
129.示例性的，假设词向量表的列数量为300，设定的词序列长度为s，则对于大于s个词的文本数据，则根据文本数据的前s个词语分别对应的词向量，确定该文本数据对应的词序列向量。对于小于s个词的文本数据，将直接词语的末端用随机词语“pos”补齐，随机词语“pos”对应的编码信息为空向量。因而，可以得到大小为s*300的词序列向量。
130.示例性的，表1为文本数据对应的词序列向量的分布表。如表1所示，对于文本数据对应的s个词语，通过查询预训练词向量，可以分别确定出每个词语对应的词向量，根据所
有词语对应的词向量，确定出该文本数据对应的词序列向量。
131.表1文本数据对应的词序列向量的分布表
[0132][0133]
可以理解的是，在本实施例中，随机词语“pos”和随机词语“null”均用于表示空向量，其区别仅在于表示在什么情况下增加的。
[0134]
示例性的，在本技术的实施例中，上述步骤s302和s303具体可以采用嵌入层(embedding)网络实现，通过将分词后的文本数据输入到该嵌入层网络中可以得到该文本数据对应的词序列向量。
[0135]
本技术实施例提供的类别分析方法，通过对文本数据进行分词处理，得到该文本数据对应的至少一个词语，然后查询预设的词向量表，确定每个词语在词向量表中的编码信息，最后根据至少一个词语在所述词向量表中的编码信息，得到文本数据对应的词序列向量。该技术方案中，利用预设的词向量表确定文本数据对应的词序列向量，丰富了词向量语义表征能力，能够提升模型的性能，为后续对待识别对象进行分类奠定了基础。
[0136]
在上述任一实施例的基础上，图4为本技术提供的类别分析方法实施例三的流程示意图。在本实施例中，上述机器分类模型可以包括：相互连接的自注意处理层和神经网络层。示例性的，自注意处理层采用transformer模型，神经网络层采用cnn模型，因而，该机器分类模型可以是一种transformer cnn的模型结构，其融合了transformer和cnn的优点，能够更好的提升模型的效果。
[0137]
具体的，如图4所示，上述s203可以通过如下步骤实现：
[0138]
s401、利用自注意处理层对词序列向量包括的词向量进行信息融合，得到词序列向量的自注意结果。
[0139]
在本技术的实施例中，自注意处理层是基于attention机制的transformer模型，其对词序列向量中每个词向量进行处理时，可以考虑到该词向量的上下文信息，将该词序列向量表征的语义信息进行信息融合，并采用attention机制得到词序列向量的自注意结果。
[0140]
示例性的，该步骤s401可以通过如下步骤实现：
[0141]
a1、利用预设自注意处理层中的至少三个网络模型分别对词序列向量进行处理，得到至少三个词序列矩阵。
[0142]
其中，至少三个网络模型的类型均相同但参数均不同。
[0143]
示例性的，该自注意处理层可以包括至少三个网络模型，该三个网络模型可以是具有相同类型但参数不同的独立模型，也可以是具有相互依赖关系的多个模型，例如，后一个模型是在上一个模型的基础上添加网络层形成的。本技术实施例并不对自注意处理层中每个网络模型的实现方式进行限定。可选的，本实施例中的至少三个网络模型可以看作是词序列向量的至少三个权重矩阵。
[0144]
可选的，假设预设自注意处理层包括三个网络模型，对应的模型参数分别是w
k
和b
k
、w
q
和b
q
、w
v
和b
v
。其中，w
k
、w
q
、w
v
分别是三个模型的参数矩阵，b
k
、b
q
、b
v
分别是三个模型中的偏移量。通常情况下，上述三个网络模型中任意两个网络模型的参数中具有至少一个参数不同。
[0145]
可以理解的是，w
k
、w
q
、w
v
的行数量与e的列数量一致，通常情况下，w
k
、w
q
、w
v
与e均是相同维度的矩阵。
[0146]
例如，上述每个网络模型对应的函数可以用线性整流函数relu表示，relu函数用公式表征，因而，利用w
k
和b
k
对词序列向量e中单个词向量各个维度加权求和，重新做特征提取，可以转换为词序列矩阵k(也可以称为新的词序列向量)，即k＝relu(ew
k
b
k
)。
[0147]
同理，利用w
q
和b
q
对词序列向量e中单个词向量各个维度加权求和，可以转换为词序列矩阵q(也可以称为新的词序列向量)，即q＝relu(ew
q
b
q
)。利用w
v
和b
v
对词序列向量e中单个词向量各个维度加权求和，可以转换为词序列矩阵v(也可以称为新的词序列向量)，即v＝relu(ew
v
b
v
)。
[0148]
a2、根据至少三个词序列矩阵中的至少两个词序列矩阵，计算各序列矩阵中词向量的相关性，得到词相关性矩阵。
[0149]
在本技术的实施例中，在确定出至少三个词序列矩阵中的至少两个词序列矩阵，可以通过对两两词序列矩阵进行点积运算，得到词相关性矩阵。
[0150]
示例性的，对于上述词序列矩阵k、q、v，首先q，k
t
做点积运算，计算词序列矩阵k、q中的两词向量之间的相关性，得到词相关性矩阵s*s。
[0151]
示例性的，电子设备还可以利用softmax函数对词相关性矩阵s*s做归一化处理，得到归一化的词相关性矩阵。可以理解的是，在该归一化的词相关性矩阵中，元素值越大，表明两个词向量越相关。
[0152]
a3、根据该词相关性矩阵和至少三个词序列矩阵中的目标词序列矩阵，计算词序列向量的自注意结果，该目标词序列矩阵与至少两个词序列矩阵均不同。
[0153]
可选的，在本技术的实施例中，上述词相关性矩阵是对至少三个词序列矩阵中的至少两个词序列矩阵进行相关性运算得到的，为了得到词序列向量的自注意结果，可以按照词相关性矩阵中词向量之间的相关性对至少三个词序列矩阵中的目标词序列矩阵进行信息融合，得到词序列向量的自注意结果。
[0154]
示例性的，对于上述词序列矩阵k、q、v，在得到词相关性矩阵s*s之后，可以利用词序列矩阵v对相关性矩阵s*s中的各个词向量进行加权求和，从而得到attention结果a，相当于attention结果a中的某一单词向量a
i
是由其他词向量加权得到的，该单词向量a
i
相当于经过词序列向量中所有的词向量表征得到，融合了其他词向量的信息，具有丰富的语义
信息。可选的，基于词序列矩阵k、q、v得到attention结果a的公式如下所示：
[0155][0156]
其中，d为词序列矩阵的维度。示例性的，对于s*300的词序列向量，d的取值为300。
[0157]
s402、利用神经网络层对自注意结果进行信息提取和信息处理，得到待识别对象对应的类别概率分布。
[0158]
可选的，神经网络层是有cnn中某几个层进行训练得到的，其主要用于对自注意结果进行信息提取和信息处理，以保证输出待识别对象对应的类别概率分布。
[0159]
示例性的，在本技术的实施例中，该神经网络层包括：前馈网络层、池化层和全连接层。相应的，该步骤s402可以通过如下步骤实现：
[0160]
b1、利用前馈网络层对自注意结果进行处理，得到词序列向量对应的更新词序列向量。
[0161]
示例性的，电子设备主要在前馈网络层添加残差项以提高该神经网络层在训练时的收敛速度。可选的，该残差项可以用relu(aw
c
b
c
)表示，即，该前馈网络层的模型参数为w
c
和b
c
，且该w
c
和b
c
可以是与上述网络模型的参数类型一致且参数值不同的矩阵。可以理解的是，w
c
和b
c
的维度与a的维度一致。
[0162]
可选的，利用前馈网络层计算得到更新词序列向量y2的计算公式为：y2＝relu(aw
c
b
c
) a。由于在计算过程中，增加了relu(aw
c
b
c
)这个加法项，因而，训练过程中，反向传播时可以有效抑制梯度消失，对矩阵a中的变量求解的时候，可以提升收敛速度。
[0163]
b2、利用池化层对更新词序列向量进行特征提取，得到文本数据对应的表征词序列向量。
[0164]
可选的，在本实施例中，利用池化层可以对前馈网络层输出的更新词序列向量y2做信息提取，在每个词向量的维度选取取值最大的特征作为该维度的特征，即分别在每个词对应的行向量中选择元素值最大的值最为该行的取值，从而得到该文本数据对应的表征词序列向量y1。公式如下所示：其中，i表示词向量个数变量，s为词向量的个数，y
i2
表示更新词序列向量y2中的第i个词向量。
[0165]
示例性的，该池化层相当于一层滤波器，提取出前馈网络层输出的特征明显的信息，有效的过滤掉噪声信息，以保证模型的性能。
[0166]
b3、利用全连接层对表征词序列向量进行维度加权求和以及归一化处理，得到待识别对象对应的类别概率分布。
[0167]
在本实施例中，与传统的神经网络模型类似，在池化层之后接一层全连接矩阵，将池化层输出结果y1的各维度加权求和，得到各类别对应的词序列向量公式为其中，w0为全连接层的参数矩阵，b0为全连接层的偏置项。
[0168]
此外，利用softmax函数将各类别对应的词序列向量转换类别概率分布。该softmax函数是一种归一化指数函数，主要应用于多分类。
[0169]
示例性的，全连接层输出类别k的预测概率计算公式如下：
[0170][0171]
其中，p
k
为类别k的预测概率，为类别k对应的词序列向量，n为词序列向量中属于类别k的词向量个数。
[0172]
本技术实施例提供的类别分析方法，利用机器分类模型的自注意处理层对词序列向量包括的词向量进行信息融合，得到词序列向量的自注意结果，利用神经网络层对自注意结果进行信息提取和信息处理，得到待识别对象对应的类别概率分布。该技术方案中，采用自注意处理层和神经网络层对待识别对象的文本数据对应词序列向量进行分析，能够得到准确的待识别对象的类别概率分布，提升了对象类别检测的效率。
[0173]
在上述任一实施例的基础上，图5为本技术提供的类别分析方法实施例四的流程示意图。如图5所示，在本实施例中，该方法还可以包括如下步骤：
[0174]
s501、获取已标注对象类别的文本数据集，该文本数据集包括预设对象类别分别对应的多条文本数据。
[0175]
在本技术的实施例中，电子设备在执行上述实施例的方案之前，首先需要生成词向量表和训练机器分类模型。因而，电子设备需要获取大量的已标注对象类别的文本数据集，进而基于该文本数据集进行后续处理。
[0176]
可选的，该文本数据集是电子设备自身对获取到的多个对象的文本数据进行标注确定的，也可以是在其他设备中标注的且传输至该电子设备的，还可以是人工标注的。本技术实施例并不对已标注对象类别的文本数据集的具体来源方式进行限定，其可以根据实际情况确定，此处不再赘述。
[0177]
示例性的，对于电商平台中的商品，商品标题文本数据被标注后可以分别具有黑色商品、灰色商品、正常商品等三个类别的标签。
[0178]
s502、基于预设的分词规则，对文本数据集中的每条文本数据进行分词处理，得到文本数据集对应的词语集合。
[0179]
在本技术的实施例中，电子设备可以针对获取到的所有已标注对象类别的文本数据，例如，商品标题数据，采用结巴分词工具做分词处理。可选的，分词前，还可以对文本数据做一些简单的数据处理，例如，删除文本数据中的特殊符号、标点符号等这些与对象类别判别无关的噪声信息。
[0180]
可选的，电子设备将文本数据集中每条文本数据对应的词语均归集到预设集合中，其次将该预设集合中的重复词语删除，得到文本数据集对应的词语集合。
[0181]
s503、根据该文本数据集对应的词语集合和外界输入的术语，生成词向量表，词向量表中的每个词语具有唯一的编码。
[0182]
可选的，在对文本数据进行分词的过程中，还可以添加外界输入的术语，例如，垂直领域的专业词汇、业务自定义词汇，例如，身份阅读器、hpv疫苗，道教符咒等，这样该术语中的所有词作为一个整体进行考虑，故在使用过程中，如果输入的文本数据中含有这些词，则可以将其分成一个词汇，从而保证分词成功。
[0183]
相应的，电子设备可以将外界输入的术语添加至文本数据集对应的词语集合中，
得到预设目标集合，然后在基于预设词料库的维度，确定出词向量表的大小。该词向量表的行数为预设目标集合中词语的个数，该该词向量表的列数为语料库的维度大小。
[0184]
进一步的，电子设备按照预设目标集合中词语排列的先后顺序给每个词语进行编码，确定出每个词语在词向量表中的位置编码信息，在该词向量表中，每个词语对应唯一的标识。
[0185]
可选的，电子设备可以在网络上开源的预训练词向量中寻找预设目标集合中每个词语对应的词向量。其中，对于预训练词向量中没有的词语，可以采用随机赋值的方式对其初始化，例如，将其初始化为“null”。
[0186]
示例性的，开源的预训练词向量的语料库为百度百科，其含有500多万个词汇，向量维度为300，每个词向量都融入了丰富的语义信息。因而，假设由上述文本数据集得到的预设目标集合含有v
b
个词，那么生成的词向量表是一个v
b
*300的矩阵。从上至下，每一行代表一个词向量，按照词语的编码排列。
[0187]
进一步的，参照图5所示，该方法还可以包括如下步骤：
[0188]
s504、根据上述词向量表，确定该文本数据集中每条文本标注数据对应的词序列标注向量。
[0189]
在本技术的实施例中，在机器分类模型训练的过程中，可以分别针对文本数据集中的每条文本标注数据进行处理，因而，能够确定出该文本数据集中每条文本标注数据对应的词序列标注向量。
[0190]
s505、将每条文本标注数据对应的词序列标注向量作为预设网络的输入、该文本标注数据对应的已标注对象类别作为输出，对预设网络进行训练，得到机器分类模型。
[0191]
可选的，在本技术的实施例中，预设网络可以包括至少两个部分，一部分是具有自注意机制的自注意处理层，另一部分是包括前馈网络层、池化层和全连接层的神经网络层。在训练的过程中，该自注意处理层和神经网络层是作为一个整体训练的。关于预设网络中各个层的具体参数可以训练过程中进行更新和优化，各个层的具体参数与上述图4所示实施例中的类似，此处不再赘述。
[0192]
示例性的，在本技术的实施例中，可以采用交叉熵损失函数，运用随机梯度下降法对预设网络的损失函数进行优化，以确定预设网络中各层的参数信息。
[0193]
可选的，在实际应用中，机器分类模型的交叉熵损失函数公式为：其中，y
k
为文本数据集中携带有标注对象标签的文本数据；k为文本数据y
k
上被标注的对象类别；n为对象类别被标注为k的数量；p
k
为文本数据y
k
经过预设网络后被分类为k的概率。所以，将每条文本标注数据对应的词序列标注向量作为预设网络的输入、该文本标注数据对应的已标注对象类别作为输出，通过调整预设网络的参数，使得预设网络输出的对象类别与标注的类别一致，调整之后的预设网络即为机器分类模型。
[0194]
示例性的，在电商平台中，针对商品标题数据堆商品进行分类，可以将其分为3个类别，分别为：黑色商品，灰色商品，正常商品。
[0195]
本技术实施例提供的类别分析方法，基于预设的分词规则，对文本数据集中的每条文本数据进行分词处理，得到文本数据集对应的词语集合，根据文本数据集对应的词语集合和外界输入的术语，生成词向量表，再确定文本数据集中每条文本标注数据对应的词序列标注向量，最后将每条文本标注数据对应的词序列标注向量作为预设网络的输入、文
本标注数据对应的已标注对象类别作为输出，对预设网络进行训练，得到机器分类模型。该技术方案中，通过训练机器分类模型，为后续实现自动化的类别分析奠定了基础。
[0196]
由上述各实施例可知，本技术实施例提供了一种transformer cnn的模型结构，采用开源的预训练词向量，并在特定分类任务上微调词向量，能够提升了词向量的表征能力，通过模型组合的方式使得模型的性能得到改善，大大提高了对象类别检测的准确率。
[0197]
可以理解的是，本技术实施例选取了cnn的池化层与transformer融合的架构，在实际应用中，还可以加入卷积层，以提高模型的抽象信息提取能力，但是，若增加卷积层会降低模型的计算响应速度和增加复杂度，因而，本技术的实施例为了提高模型的响应速度和简化模型的复杂度，未增加卷积层。
[0198]
此外，本技术的实施例只设计了一层的transformer，还可以多叠加几层来提取出词的表征能力。但是在电商平台商品分类的实际场景中，考虑到商品标题数据有限，模型过于复杂容易产生过渡拟合，也会消耗太多硬件存储计算资源，因而，本技术采用了一层的transformer。
[0199]
本技术实施例采用预训练好的词向量对embedding层进行初始化，结合随机赋值的方式对embedding层的变量矩阵初始化，能够在模型训练时对embedding层的变量其微调，便可满足实际需求，提高了生成词向量表的性能。
[0200]
下述为本技术设备实施例，可以用于执行本技术方法实施例。对于本技术设备实施例中未披露的细节，请参照本技术方法实施例。
[0201]
图6为本技术实施例提供的类别分析装置实施例的结构示意图。参照图6所示，该类别分析装置可以包括：获取模块601、第一处理模块602、第二处理模块603和确定模块604。
[0202]
其中，获取模块601，用于获取待识别对象的文本数据；
[0203]
第一处理模块602，用于基于预设的词向量表，确定所述文本数据对应的词序列向量；
[0204]
第二处理模块603，用于将所述词序列向量输入到预先训练的机器分类模型中进行处理，得到所述待识别对象对应的类别概率分布；
[0205]
确定模块604，用于根据所述类别概率分布，确定所述待识别对象所属的类别。
[0206]
在本技术实施例的一种可能设计中，第一处理模块602，具体用于：
[0207]
对所述文本数据进行分词处理，得到所述文本数据对应的至少一个词语；
[0208]
根据所述至少一个词语，查询预设的词向量表，确定每个词语在所述词向量表中的编码信息；
[0209]
根据所述至少一个词语在所述词向量表中的编码信息，得到所述文本数据对应的词序列向量。
[0210]
在本技术实施例的另一种可能设计中，所述机器分类模型包括：相互连接的自注意处理层和神经网络层；
[0211]
第二处理模块603，具体用于：
[0212]
利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合，得到所述词序列向量的自注意结果；
[0213]
利用所述神经网络层对所述自注意结果进行信息提取和信息处理，得到所述待识
别对象对应的类别概率分布。
[0214]
可选的，第二处理模块603，用于利用所述自注意处理层对所述词序列向量包括的词向量进行信息融合，得到所述词序列向量的自注意结果，具体为：
[0215]
第二处理模块603，具体用于：
[0216]
利用所述预设自注意处理层中的至少三个网络模型分别对所述词序列向量进行处理，得到至少三个词序列矩阵，所述至少三个网络模型的类型均相同但参数均不同；
[0217]
根据所述至少三个词序列矩阵中的至少两个词序列矩阵，计算各序列矩阵中词向量的相关性，得到词相关性矩阵；
[0218]
根据所述词相关性矩阵和所述至少三个词序列矩阵中的目标词序列矩阵，计算所述词序列向量的自注意结果，所述目标词序列矩阵与所述至少两个词序列矩阵均不同。
[0219]
可选的，所述神经网络层包括：前馈网络层、池化层和全连接层；
[0220]
第二处理模块603，用于利用所述神经网络层对所述自注意结果进行信息提取和信息处理，得到所述待识别对象对应的类别概率分布，具体为：
[0221]
第二处理模块603，具体用于：
[0222]
利用所述前馈网络层对所述自注意结果进行处理，得到所述词序列向量对应的更新词序列向量；
[0223]
利用所述池化层对所述更新词序列向量进行特征提取，得到所述文本数据对应的表征词序列向量；
[0224]
利用所述全连接层对所述表征词序列向量进行维度加权求和以及归一化处理，得到所述待识别对象对应的类别概率分布。
[0225]
在本技术实施例的另一种可能设计中，获取模块601，还用于获取已标注对象类别的文本数据集，所述文本数据集包括预设对象类别分别对应的多条文本数据；
[0226]
第一处理模块602，还用于：
[0227]
基于预设的分词规则，对所述文本数据集中的每条文本数据进行分词处理，得到所述文本数据集对应的词语集合；
[0228]
根据所述文本数据集对应的词语集合和外界输入的术语，生成所述词向量表，所述词向量表中的每个词语具有唯一的编码。
[0229]
可选的，第二处理模块603，还用于：
[0230]
根据所述词向量表，确定所述文本数据集中每条文本标注数据对应的词序列标注向量；
[0231]
将每条文本标注数据对应的词序列标注向量作为预设网络的输入、所述文本标注数据对应的已标注对象类别作为输出，对所述预设网络进行训练，得到所述机器分类模型。
[0232]
本技术实施例提供的装置，可用于执行图2至图5所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。
[0233]
需要说明的是，应理解以上设备的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有
信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0234]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0235]
图7为本技术实施例提供的用于执行类别分析方法的电子设备实施例的结构示意图。如图7所示，该电子设备可以包括：处理器71、存储器72、通信接口73和系统总线74，存储器72和通信接口73通过系统总线74与处理器71连接并完成相互间的通信，存储器72用于存储计算机执行指令，通信接口73用于和其他设备进行通信，处理器71执行计算机执行指令时实现如上述图2至图5所示实施例的方案。
[0236]
在该图7中，上述的处理器71可以是通用处理器，包括中央处理器cpu、网络处理器(network processor，np)等；还可以是数字信号处理器dsp、专用集成电路asic、现场可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0237]
存储器72可能包含随机存取存储器(random access memory，ram)，也可能包括只读存储器(read-only memory，ram)，还可能包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0238]
通信接口73用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。
[0239]
系统总线74可以是外设部件互连标准(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0240]
可选的，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行如上述图2至图5所示实施例的方法。
[0241]
可选的，本技术实施例还提供一种运行指令的芯片，所述芯片用于执行上述图2至图5所示实施例的方法。
[0242]
本技术实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，至少一个处理器可以从所述计算机可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述图2至图5所示实
施例的方法。
[0243]
本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。
[0244]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

类别分析方法、装置、设备及存储介质与流程

相关文献

最热文献