一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

资源类型识别方法以及装置与流程

2022-05-31 17:06:23 来源:中国专利 TAG:


1.本说明书实施例涉及机器学习技术领域,特别涉及一种资源类型识别方法。


背景技术:

2.随着机器学习技术的发展,通过机器学习训练得到的分类模型进行目标资源的类型识别,可以实现效率更高的效果,因而被广泛利用。
3.相关技术中,通常直接将目标资源的描述文本例如商品标题,直接输入上述分类模型,获得目标资源的类型识别结果。
4.但是,上述方式仅能获得单一的类型识别结果,而目标资源很可能具有多种类型,导致上述方式获得的类型识别结果不够全面的问题。因此,需要提供更加全面的方案。


技术实现要素:

5.有鉴于此,本说明书实施例提供了一种资源类型识别方法。本说明书一个或者多个实施例同时涉及一种资源类型识别装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
6.根据本说明书实施例的第一方面,提供了一种资源类型识别方法,包括:获取目标资源的描述文本,对所述描述文本进行语义分析,得到所述描述文本对应的语义向量;基于所述语义向量,对所述描述文本进行多次分类识别,获得所述目标资源的类型序列,其中,每一次所述分类识别还基于上一次分类识别的识别结果,所述类型序列包括多个具有层级关系的类别。
7.根据本说明书实施例的第二方面,提供了一种资源类型识别装置,包括:语义分析模块,被配置为获取目标资源的描述文本,对所述描述文本进行语义分析,得到所述描述文本对应的语义向量;类型识别模块,被配置为基于所述语义向量,对所述描述文本进行多次分类识别,获得所述目标资源的类型序列,其中,每一次所述分类识别还基于上一次分类识别的识别结果,所述类型序列包括多个具有层级关系的类别。
8.根据本说明书实施例的第三方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述资源类型识别方法的步骤。
9.根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述资源类型识别方法的步骤。
10.根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述资源类型识别方法的步骤。
11.本说明书一个实施例实现了获取目标资源的描述文本,对描述文本进行语义分
析,得到描述文本对应的语义向量;基于语义向量,对描述文本进行多次分类识别,获得目标资源的类型序列,其中,每一次分类识别还基于上一次分类识别的识别结果,类型序列包括多个具有层级关系的类别。这样,通过基于语义向量以及上一次分类识别的识别结果,对描述文本进行多次类型识别,可以保证能够得到包含多种类型的类型序列。在此基础上,结合上一次分类识别的识别结果进行下一次分类识别,可以保证下一次类型识别结果既符合语义向量与类型的映射关系,还符合上一次类型识别结果与下一次类型识别结果间的层级关系。因此,可以保证类型序列包括多个具有层级关系的类别。
附图说明
12.图1是本说明书一个实施例提供的一种资源类型识别方法的流程图;图2是本说明书一个实施例提供的一种资源类型识别方法中,分类模型的训练过程流程图;图3是本说明书一个实施例提供的一种资源类型识别方法中,分类模型的结构示例图;图4是本说明书一个实施例提供的一种资源类型识别方法的第一种应用场景示例图;图5是本说明书一个实施例提供的一种资源类型识别方法的第二种应用场景示例图;图6是本说明书一个实施例提供的一种资源类型识别装置的结构示意图;图7是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
13.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
14.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
15.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
16.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
17.自然语言处理(nlp,natural language processing):是与自然语言的计算机处理有关的所有技术的统称,目的是使计算机能够理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。
18.seq2seq:一种编码器-解码器(encoder-decoder)结构的网络,该网络的输入是一个序列,输出也是一个序列。在encoder中,将序列转换成一个固定长度的向量,然后通过decoder将该向量转换成目标序列输出。
19.transformer模型:一种自然语言处理中的模型架构。该模型的核心层是一个多头注意力机制。多头注意力机制就是使用多个注意力机制进行单独计算,以获取更多层面的语义信息,然后将各个注意力机制获取的结果进行拼接组合,得到最终的结果。其中,注意力机制(attention mechanism)是在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小,从而基于该贡献大小对输入数据进行选择,得到能够用于达到任务目标的输入数据。
20.rnn(recurrent neural network)模型:用于处理序列数据的循环神经网路。rnn之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一次隐藏层的输出。
21.bilstm(bi-directional long short-term memory)模型:由前向lstm与后向lstm组合而成。前向lstm与后向lstm在自然语言处理任务中通常被用于获取上下文信息。其中,lstm的全称是long short-term memory,它是rnn(recurrent neural network)的一种。lstm由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。
22.多层感知机(mlp,multilayer perceptron)也叫人工神经网络(ann,artificial neural network),除了输入输出层,它中间可以有多个隐层,最简单的mlp只含一个隐层,即三层的结构;隐层与输入层是全连接的,假设输入层用向量x表示,则隐层的输出就是 f (w1x b1),w1是权重(也叫连接系数),b1是偏置,函数f 可以是常用的sigmoid函数或者tanh函数。
23.电子商务:简称电商,是指在互联网(internet)、内部网(intranet)和增值网(van,value added network)上以电子交易方式进行交易活动和相关服务活动,使传统商业活动各环节的电子化、网络化。
24.term:指标题title或问题query中的单个词语word。
25.类目:发布商品的数据架构体系,通常是一个层次结构,如服装类目下有男装类型和女装类型。
26.在本说明书中,提供了一种资源类型识别方法,本说明书同时涉及一种资源类型识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
27.参见图1,图1示出了根据本说明书一个实施例提供的一种资源类型识别方法的流程图,具体包括以下步骤。
28.s102,获取目标资源的描述文本,对描述文本进行语义分析,得到描述文本对应的语义向量。
29.在具体应用中,目标资源可以包括待进行类型识别的资源,例如,待进行类型识别的商品、文章、存储空间等等。目标资源的描述文本为描述目标资源特质的文本,例如,商品的标题、文章的标题、存储空间的名称等等。因此,目标资源的描述文本可以用于实现对目
标资源的类型识别。并且,描述文本是自然语言的文本,具体可以是英文或者中文等语种的文本。因此,为了通过目标资源的描述文本实现对目标资源的类型识别,可以对描述文本进行自然语言领域的语义分析,得到描述文本对应的语义向量。
30.其中,示例性的,可以对描述文本序列化得到描述文本对应的语义向量。或者,示例性的,可以对描述文本进行分词,基于分词结果进行语义分析,得到描述文本对应的向量。并且,与简单的序列化相比,基于分词结果进行的语义分析可以结合描述文本中各词语的上下文,从而保证获得更加准确的语义向量。为了便于理解和合理布局,后续以可选实施例的形式对第二种情况进行具体说明。或者,示例性的,可以通过词向量技术处理描述文本,得到描述文本对应的语义向量。其中,词向量技术是指将词转化为稠密向量,相似的词对应的词向量也相近。在自然语言处理应用中,词向量可以作为深度学习模型的特征进行输入。因此,最终模型的效果在很大程度上取决于词向量的效果。一般来说,字词表示有两种方式:独热(one-hot)编码及分布式表示。one-hot是指向量中只有一个维度的值为1,其余维度为0,这个维度代表了当前词。分布式表示(word embedding)指的是将词转化为一种分布式表示,又称词向量,分布式表示将词表示成一个定长的稠密向量。
31.s104,基于语义向量,对描述文本进行多次分类识别,获得目标资源的类型序列,其中,每一次分类识别还基于上一次分类识别的识别结果,类型序列包括多个具有层级关系的类别。
32.在具体应用中,语义向量可以看作序列,本实施例获得的类型识别结果为包括多个具有层级关系的类别的类型序列。并且,描述文本通常具有不同的长度。因此,为了应对不同长度的描述文本,本实施例具体可以通过seq2seq结构的网络实现,例如transformer模型、rnn模型如bilstm模型等等。这样,可以在encoder中将序列转换成一个固定长度的向量,然后通过decoder将该向量转换成目标序列输出。并且,分类识别的次数取决于语义向量,对不同的语义向量可以进行次数不同的多次分类识别。具体的,在一种可选的实施方式中,上述基于语义向量,对描述文本进行多次分类识别,获得目标资源的类型序列,具体可以包括如下步骤:将语义向量输入预先训练得到的分类模型,获得目标资源的类型序列,其中,分类模型为基于样本资源的描述文本的样本语义向量以及类型标记序列,对样本资源的描述文本进行多次分类识别的训练得到的,其中,每一次分类识别还基于上一次分类识别的预测类型。
33.这样,通过训练,分类模型学习到也就是记录有不同语义向量就行分类识别的次数,从而实现对描述文本更加全面的分类识别。示例性的,在训练过程中,可以按照类型标记序列中元素的个数,对预训练的分类模型输出的预测类型标记结束标识,例如“end”,在检测到结束标识的情况下,停止针对样本资源的描述文本的分类识别。例如,类型标记序列中元素的个数为3个,那么,在针对样本资源的描述文本的多次分类识别中统计识别次数,当识别次数为3次时,在输出的预测类型上标记结束标识。这样,训练得到的分类模型通过训练记录了描述文本的语义向量与识别次数的关系,从而可以对不同的语义向量可以进行次数不同的多次分类识别。为了便于理解和合理布局,后续以可选实施例的形式对分类模型的训练步骤进行具体说明。
34.另外,在上述多次分类识别中,进行第一次分类识别时没有针对目标资源的描述
文本的上一次分类识别的识别结果,则可以将此时的上一次分类识别的识别结果看作0,也就是此时仅基于描述文本的。
35.本说明书一个实施例实现了通过基于语义向量以及上一次分类识别的识别结果,对描述文本进行多次类型识别,可以保证能够得到包含多种类型的类型序列。在此基础上,结合上一次分类识别的识别结果进行下一次分类识别,可以保证下一次类型识别结果既符合语义向量与类型的映射关系,还符合上一次类型识别结果与下一次类型识别结果间的层级关系。因此,可以保证类型序列包括多个具有层级关系的类别。
36.图2是本说明书一个实施例提供的一种资源类型识别方法中,分类模型的训练过程流程图,分类模型的训练,具体可以包括如下步骤。
37.s202,获取样本资源的描述文本的样本语义向量以及类型标记序列。
38.在具体应用中,获取样本资源的描述文本的样本语义向量可以通过seq2seq结构的编码器实现,为了便于理解和合理布局,后续以可选实施例的形式进行具体说明。并且,获取样本资源的描述文本的类型标记序列的方式,可以是多种的。示例性的,可以直接人工对样本资源的描述文本标记类型标记序列。或者,示例性的,可以利用预设类型树获得类型标记序列。为了便于理解和合理布局,后续以可选实施例的形式对第二种示例进行具体说明。
39.s204,将样本语义向量、以及上一次分类识别的预测类型输入预训练的分类模型,获得本次类识别的预测类型,在多次分类识别完成后,获得样本资源的描述文本的预测类型序列。
40.在具体应用中,本说明书实施例提供的模型可以称为层级式分类模型或者分层分类模型(hcamthierachical classification as machine translation)模型。示例性的,如图3本说明书一个实施例提供的一种资源类型识别方法中,分类模型的结构示例图所示:该模型可以包括输入层、seq2seq结构的网络层、输出层。具体的,输入层用于将目标资源的描述文本处理为序列例如语义向量,并将语义向量输入至seq2seq结构的网络层。seq2seq结构的网络层对该语义向量进行多次分类识别,并且,每次分类识别还基于上一次分类识别的识别结果例如上一次的预测类型,从而得到多种具有层级关系的类别,并通过输出层将多种具有层级关系的类别以序列的形式输出,得到类型序列。因此,预训练的分类模型可以是seq2seq结构的多种模型。例如transformer模型、rnn模型如bilstm模型等等模型。
41.示例性的,输入层也就是编码器可以是n层的transformer模型,seq2seq结构的网络层和输出层形成的解码器,可以是n层的transformer模型。解码器的输出即为类型识别结果,在解码器进行第i次类型识的时候,可以将语义向量以及前i-1次类型识别结果也就是token作为输入,通过mlp得到隐藏状态hidden state,再通过softmax得到output的token。其中,softmax用于实现归一化,token即词语word在字典里对应的数字下标,然后用该数字下标去查询表中查找得到该词对应的词向量(词嵌入)就是embedding,最后一个词的词向量可以作为描述文本的语义向量。
42.s206,比较预测类型序列与类型标记序列,基于比较结果调整预训练的分类模型的模型参数,并返回执行获取样本资源的描述文本的样本语义向量以及类型标记序列的步骤。
43.在具体应用中,可以通过交叉熵的方式,对预测类型序列中的各预测类别,与类型
标记序列中的类型标记进行逐一比较,得到多个比较结果例如损失值,对多个损失值进行加权即得到比较结果。这样,本实施例可以将交叉熵引入计算语言学消歧领域,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除,也就是将预训练的分类模型的模型参数调整至达到预设训练停止条件的准确程度。
44.s208,在达到预设训练停止条件的情况下,获得训练后的分类模型。
45.其中,预设训练停止条件可以是多种的,例如预先训练停止条件可以是比较结果例如损失值达到预设阈值,或者,训练轮数达到预设轮数,例如10轮等等。
46.通过本实施例训练得到的分类模,也就是分类模型,可以实现通过基于语义向量以及上一次分类识别的识别结果,对描述文本进行多次类型识别,可以保证能够得到包含多种类型的类型序列。在此基础上,结合上一次分类识别的识别结果进行下一次分类识别,可以保证下一次类型识别结果既符合语义向量与类型的映射关系,还符合上一次类型识别结果与下一次类型识别结果间的层级关系。因此,可以保证类型序列包括多个具有层级关系的类别。
47.在一种可选的实施方式中,上述层级关系为父子关系;相应地,上述获取样本资源的描述文本的样本语义向量以及类型标记序列,具体可以包括如下步骤:获取样本资源的描述文本,对样本资源的描述文本进行分词,基于分词结果对样本资源的描述文本进行语义分析,获得样本语义向量;获取叶子结点中包含样本资源的描述文本的预设类型树,基于预设类型树中叶子结点的查找路径上的各结点,获得样本语义向量的类型标记序列。
48.在具体应用中,样本资源的描述文本和样本语义向量的类型标记序列可以作为一个训练样本,具体的数据格式可以为对pair [长文本,category-level-1 category-level-2 category-level-3 category-level-4]、其中,长文本为样本资源的描述文本,例如商品标题,category-level-1 category-level-2 category-level-3 category-level-4分别是第1层级到第4层级的类别标识category id。并且,对样本资源的描述文本进行分词,基于分词结果对样本资源的描述文本进行语义分析,获得样本语义向量,具体可以包括:通过编码器encoder将输入序列也就是分词结果压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码,获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量c。或者,也可以对最后一个隐含状态做一个变换得到语义向量,还可以将输入序列的所有隐含状态做一个变换得到语义变量。
[0049]
并且,对于不同语种的描述文本,可以采用不同的分词方式。示例性的,对于描述文本为英文的情况,由于英语的基本组成单位就是词,所以可以根据空格拆分单词(split)、排除停止词(stop word)、提取词干(stemming),从而得到分词结果。具体的,英语的句子基本上是由标点符号、空格和词构成,那么只要根据空格和标点符号将词语分割成数组即可。停止词,是指英文单词:stopword,例如英文单词a,the,or等使用频率很多的字或词,常为冠词、介词、副词或连词等。在进行分词时这些词语被排除在外,不纳入分词结果。提取词干是西方语言特有的处理,比如说英文单词有单数复数的变形,关于-ing和-ed的变形,但是获取语义时可以作为同一个单词。比如 apple和apples,doing和done是同一
个词,提取词干的目的就是还原成最基本的词。另外,可以将所有的大小写统一。经过上面三个步骤基本上一个英文句子就处理完了。对于描述文本为中文的情况,中文分词是计算机根据语义模型,自动将汉字序列切分为符合人类语义理解的词汇。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。例如结巴分词等分词模型,可以用于进行中文分词。
[0050]
本实施例中,基于分词结果进行的语义分析可以结合描述文本中各词语的上下文,从而保证获得更加准确的语义向量。并且,对样本语义向量的类型标记序列,通过预测类型树获得,可以保证类型标记序列中各类型标记间的层级关系为父子关系,从而保证训练得到的分类模型可以学习到语义向量与多种类型的映射关系,以及多种类型间的父子关系。这样,通过分类模型对目标资源的描述文本对应的语义向量进行分类识别,可以保证获得的类型序列中各类别为父子关系,也就是符合上述预设类型树中的父子关系。
[0051]
示例性的,预设类型树为专家针对各资源设计的商品类目树。这样,不同叶子类目之间是通过层次化的树型结构建立联系。因此,利用树形的层次结构可以有效提升商品类目的预测效果。例如,输入商品标题“手机壳”,分类识别的结果可以包括按照该树形的层次结构排序的类型序列:电子产品、电子产品配件、手机配件、手机壳。这样,通过将已有的商品类目树中层次结构用于分类模型中,可以实现对层级结构的直接利用,减少对数据量庞大的商品类目树的遍历造成的效率过低的问题。并且,无需额外构建存在父子关系的类型标签序列,可以实现分类识别更加便捷的效果。
[0052]
在一种可选的实施方式中,上述获取目标资源的描述文本,具体可以包括如下步骤:响应于包含描述文本的查询请求,获取目标资源的描述文本,其中,查询请求还包含查询场景类型;相应地,在上述获得目标资源的类型序列之后,本说明书实施例提供的资源类型识别方法,还可以包括如下步骤:确定与查询场景类型对应的目标获取方式;利用目标获取方式处理目标资源的类型序列,获得查询请求的多种查询结果。
[0053]
在具体应用中,获取目标资源的描述文本的时机可以是多种的,例如按照预设分类周期定时进行,或者,通过本实施例的方式,响应于包含描述文本的查询请求进行。并且,针对不同的查询场景类型,可以对类型序列进行不同的处理,以适用于多样化的应用场景,以及保证基于类型序列获得的查询结果可以更加准确。其中,查询场景类型可以按照所查询的目标内容的差异划分。具体的,查询请求中的查询指令不同,则查询场景类型不同。例如,所查询的目标内容为关于描述文本的检索结果,则查询指令可以为搜索指令,查询场景类型为检索场景。所查询的目标内容为目标资源的类型,则查询指令可以为分类指令,查询场景类型为类型标注场景。对于查询场景类型的划分可以根据具体应用需求设置,本实施例对此不作限制。
[0054]
并且,确定与查询场景类型对应的目标获取方式,具体可以是多种的。示例性的,可以从预先建立的查询场景类型与获取方式的对应关系中,查找查询场景类型对应的目标获取方式。或者,示例性的,可以直接查找具有查询场景类型的目标获取方式。任何可以确定与查询场景类型对应的目标获取方式均可用于本说明书,本实施例对此不作限制。
[0055]
在一种可选的实施方式中,上述查询场景类型包括:检索场景或者类型标注场景;相应地,上述利用目标获取方式处理目标资源的类型序列,获得查询请求的多种查询结果,具体可以包括如下步骤:针对检索场景,查找目标资源的类型序列中各元素分别对应的信息,获得查询请求的多种查询结果;针对类型标注场景,将目标资源的类型序列中各元素标记为目标资源的类型标签,获得查询请求的多种查询结果。
[0056]
在具体应用中,检索场景是指基于目标资源的描述文本确定检索条件,检索符合该检索条件的信息的场景。其中,检索条件具体可以为上述类型序列。这样,可以针对检索场景,查找目标资源的类型序列中各元素分别对应的信息,获得查询请求的多种查询结果。在一种可选的实施方式中,上述目标资源的类型序列中各元素存在父子关系;相应地,上述查找目标资源的类型序列中各元素分别对应的信息,具体可以包括如下步骤:从预先建立的索引树中查找与目标资源的类型序列匹配的目标索引,读取目标索引对应的信息。
[0057]
在具体应用中,针对检索场景,可以预先建立索引树,例如将商品类目树作为索引树。在此基础上,可以将该索引树中的各节点作为具有该节点中类目的商品的索引。这样,在用户进行商品搜索的场景中,从预先建立的索引树中查找与目标资源的类型序列匹配的目标索引,读取目标索引对应的信息,可以保证返回尽可能丰富的搜索结果。例如,用户输入玫瑰花,目标索引可以包括:植物、花、鲜花、鲜切花、玫瑰花,从而搜索结果中可以包括:花苗、人造花、盆栽花例如月季、鲜切花例如鲜切百合、各种玫瑰花等等。这样,搜索结果可以更加丰富多样。并且,本实施例中类型序列直接作为索引,可以通过类型直接读取索引对应的信息,提高查询效率。
[0058]
并且,类型标注场景是指对目标资源进行类型标注的场景。因此,可以针对类型标注场景,将目标资源的类型序列中各元素标记为目标资源的类型标签,获得查询请求的多种查询结果。其中,将目标资源的类型序列中各元素标记为目标资源的类型标签,具体可以是在目标资源的描述文本中添加类型标签,或者在目标资源的属性信息中添加类型标签,这都是合理的,本实施例对此不作限制。这样,可以实现对目标资源的更加丰富、全面地类型标注,有利于后续基于类型标注结果进行应用的准确度,例如基于类型标注结果进行目标资源的分类展示等等。
[0059]
下述结合附图4和附图5,以本说明书提供的资源类型识别方法的两种应用场景为例,对上述资源类型识别方法进行进一步说明。其中,图4示出了本说明书一个实施例提供的一种资源类型识别方法的第一种应用场景示例图,具体包括以下步骤:用户通过登录的客户端发送分类请求至数据服务平台,数据服务平台调用预测模块对分类请求携带的目标资源的描述文本进行特征构造:获得描述文本对应的语义向量,进而基于语义向量对描述文本进行多次分类识别,获得目标资源的类型序列,其中,每一次分类识别于上一次分类识别的识别结果,类型序列包括多个具有层级关系的类别。在此基础上,预测模块将类型序列作为分类请求对应的分类结果,返回至用户登录的客户端。这样,用户即可以利用接收到的类型序列进行资源信息发布、资源搜索等等处理。例如,在商品信息中添加类型序列中的各类别,以增加被用户搜索命中的概率等等。另外,基于语义向
量对描述文本进行多次分类识别,获得目标资源的类型序列的过程,可以通过分类模型实现。并且,该分类模型利用数据库中的样本资源的描述文本的样本语义向量以及类型标记序列,对样本资源的描述文本进行多次分类识别的训练得到的,其中,每一次分类识别还基于上一次分类识别的预测类型。
[0060]
图5示出了本说明书一个实施例提供的一种资源类型识别方法的第二种应用场景示例图,具体包括以下步骤:用户通过登录的客户端发送查询请求至数据服务平台,数据服务平台调用预测模块对查询请求携带的目标资源的描述文本进行特征构造:获得描述文本对应的语义向量,进而基于语义向量对描述文本进行多次分类识别,获得目标资源的类型序列,其中,每一次分类识别于上一次分类识别的识别结果,类型序列包括多个具有层级关系的类别。在此基础上,查询结果获取模块基于类型序列获得查询请求对应的查询结果,并返回查询结果至用户登录的客户端。与图4类似的,基于语义向量对描述文本进行多次分类识别,获得目标资源的类型序列的过程,可以通过分类模型实现。并且,该分类模型利用数据库中的样本资源的描述文本的样本语义向量以及类型标记序列,对样本资源的描述文本进行多次分类识别的训练得到的,其中,每一次分类识别还基于上一次分类识别的预测类型。
[0061]
示例性的,用户输入问题query例如查询请求、以及商品侧的item。item理解广泛应用到卖家商品发品,搜索召回,搜索相关性等场景里,在item理解问题中,商品类目预测是比较重要的一个核心任务。商品类目预测是将商品映射到类目的树形结构的叶子结点上。根据类目预测的结果,可以把各商品进行结构化的组合。以此,无论是提高卖家发布商品的效率还是用于商品搜索都可以更加高效、准确。例如,经过在电商商品类目预测任务上进行验证,在100万的训练集上与单一类型的分类相比,本说明书实施例提供的分类模型可以提升acc 1%。其中,acc即为准确率,具体指在分类识别中,利用训练后的分类模型对测试集进行分类识别,得到的识别结果中分类正确的记录个数占总记录个数的比例。测试集中包含类型标签,因此,可以用于确定识别结果中分类正确或者不正确的记录的个数,记录也就是识别结果。
[0062]
在具体应用中,上述图4和图5所示的数据服务平台的形式可以是多种的。示例性的,数据服务平台可以是一个计算设备或者计算设备集群。并且,在一种情况中,上述客户端可以指运维人员的客户端也就是运维人员进行目标项目运维的计算设备,例如台式计算机、便捷式计算机、移动终端等等。其中,目标项目是指针对目标资源的项目,例如目标资源为商品,目标项目可以为电商项目。这样,数据服务平台可以是运维人员进行目标项目运维的计算设备。此时,上述客户端与数据服务平台间的信息交互可以为该计算设备内部的信息交互。另外,在一种情况中,上述数据服务平台可以进行分类模型的训练,将训练得到的分类模型发送至客户端,由客户端利用该分类模型进行分类识别,获得类型序列。在此基础上,查询结果的获取可以包括:客户端发送至少包含类型序列的查询请求至数据服务平台,数据服务平台调用查询结果获取模块基于类型序列获得查询结果,并反馈至客户端。
[0063]
本说明书一个实施例实现了通过基于语义向量以及上一次分类识别的识别结果,对描述文本进行多次类型识别,可以保证能够得到包含多种类型的类型序列。在此基础上,结合上一次分类识别的识别结果进行下一次分类识别,可以保证下一次类型识别结果既符合语义向量与类型的映射关系,还符合上一次类型识别结果与下一次类型识别结果间的层
级关系。因此,可以保证类型序列包括多个具有层级关系的类别。
[0064]
与上述方法实施例相对应,本说明书还提供了资源类型识别装置实施例,图6示出了本说明书一个实施例提供的一种资源类型识别装置的结构示意图。如图6所示,该装置包括:语义分析模块602,被配置为获取目标资源的描述文本,对描述文本进行语义分析,得到描述文本对应的语义向量;类型识别模块604,被配置为基于语义向量,对描述文本进行多次分类识别,获得目标资源的类型序列,其中,每一次分类识别还基于上一次分类识别的识别结果,类型序列包括多个具有层级关系的类别。
[0065]
本说明书一个实施例实现了通过基于语义向量以及上一次分类识别的识别结果,对描述文本进行多次类型识别,可以保证能够得到包含多种类型的类型序列。在此基础上,结合上一次分类识别的识别结果进行下一次分类识别,可以保证下一次类型识别结果既符合语义向量与类型的映射关系,还符合上一次类型识别结果与下一次类型识别结果间的层级关系。因此,可以保证类型序列包括多个具有层级关系的类别。
[0066]
在一种可选的实施方式中,类型识别模块604,进一步被配置为:将语义向量输入预先训练得到的分类模型,获得目标资源的类型序列,其中,分类模型为基于样本资源的描述文本的样本语义向量以及类型标记序列,对样本资源的描述文本进行多次分类识别的训练得到的,其中,每一次分类识别还基于上一次分类识别的预测类型。
[0067]
在一种可选的实施方式中,上述资源类型识别装置还包括:分类模型的训练模块,被配置为:获取样本资源的描述文本的样本语义向量以及类型标记序列;将样本语义向量、以及上一次分类识别的预测类型输入预训练的分类模型,获得本次类识别的预测类型,在多次分类识别完成后,获得样本资源的描述文本的预测类型序列;比较预测类型序列与类型标记序列,基于比较结果调整预训练的分类模型的模型参数,并返回执行获取样本资源的描述文本的样本语义向量以及类型标记序列的步骤;在达到预设训练停止条件的情况下,获得训练后的分类模型。
[0068]
在一种可选的实施方式中,层级关系为父子关系;相应地,分类模型的训练模块,进一步被配置为:获取样本资源的描述文本,对样本资源的描述文本进行分词,基于分词结果对样本资源的描述文本进行语义分析,获得样本语义向量;获取叶子结点中包含样本资源的描述文本的预设类型树,基于预设类型树中叶子结点的查找路径上的各结点,获得样本语义向量的类型标记序列。
[0069]
在一种可选的实施方式中,语义分析模块602,进一步被配置为:响应于包含描述文本的查询请求,获取目标资源的描述文本,其中,查询请求还包含查询场景类型;相应地,上述资源类型识别装置还包括:查询结果获取模块,被配置为:确定与查询场景类型对应的目标获取方式;
利用目标获取方式处理目标资源的类型序列,获得查询请求的多种查询结果。
[0070]
在一种可选的实施方式中,查询场景类型包括:检索场景或者类型标注场景;相应地,查询结果获取模块,进一步被配置为:针对检索场景,查找目标资源的类型序列中各元素分别对应的信息,获得查询请求的多种查询结果;针对类型标注场景,将目标资源的类型序列中各元素标记为目标资源的类型标签,获得查询请求的多种查询结果。
[0071]
在一种可选的实施方式中,目标资源的类型序列中各元素存在父子关系;相应地,查询结果获取模块,进一步被配置为:从预先建立的索引树中查找与目标资源的类型序列匹配的目标索引,读取目标索引对应的信息。
[0072]
上述为本实施例的一种资源类型识别装置的示意性方案。需要说明的是,该资源类型识别装置的技术方案与上述的资源类型识别方法的技术方案属于同一构思,资源类型识别装置的技术方案未详细描述的细节内容,均可以参见上述资源类型识别方法的技术方案的描述。
[0073]
图7示出了根据本说明书一个实施例提供的一种计算设备的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
[0074]
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(pstn,public switched telephone network)、局域网(lan,local area network)、广域网(wan,wide area network)、个域网(pan,personal area network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,network interface controller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wireless local area networks)无线接口、全球微波互联接入(wi-max,worldwide interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
[0075]
在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0076]
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
[0077]
其中,处理器720用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述资源类型识别方法的步骤。
[0078]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的资源类型识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述资源类型识别方法的技术方案的描述。
[0079]
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述资源类型识别方法的步骤。
[0080]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的资源类型识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述资源类型识别方法的技术方案的描述。
[0081]
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述资源类型识别方法的步骤。
[0082]
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的资源类型识别方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述资源类型识别方法的技术方案的描述。
[0083]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0084]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
[0085]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
[0086]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0087]
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献