一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

物品标识的特征提取方法、装置、设备及存储介质与流程

2021-12-07 20:23:00 来源:中国专利 TAG:


1.本发明实施例涉及计算机应用技术领域,尤其涉及一种物品标识的特征提取方法、装置、设备及存储介质。


背景技术:

2.针对于电子商务平台上的物品,通常情况下,每个物品都具有各自唯一的可以代表整个物品的物品标识(identification,id),该物品标识中蕴含的信息不仅仅只是id本身,还可能是相应的物品在该电子商务平台内部的各种信息,因此物品标识是很多应用场景中的重要参考因素。
3.为了更好地利用物品标识,可以对物品标识进行特征提取得到标识特征,而目前主要采用的针对于物品标识的特征提取方案是硬编码技术,比如one

hot编码、hash编码等等。
4.在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:现有的特征提取方案存在维度爆炸和信息挖掘不充分的问题。


技术实现要素:

5.本发明实施例提供了一种物品标识的特征提取方法、装置、设备及存储介质,解决了现有的特征提取方案中存在的维度爆炸和信息挖掘不充分的问题。
6.第一方面,本发明实施例提供了一种物品标识的特征提取方法,可以包括:
7.获取各用户对于各物品的历史访问数据,对各个历史访问数据进行切分,分别得到每个用户的用户访问序列,其中,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列;
8.根据各用户访问序列构建各物品标识的图网络,对图网络中的各物品标识进行采样,并根据采样结果生成第一训练样本;
9.将第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果分别提取出各物品标识的标识特征。
10.第二方面,本发明实施例还提供了一种物品标识的特征提取装置,可包括:
11.用户访问序列得到模块,用于获取各用户对于各物品的历史访问数据,对各历史访问数据进行切分,分别得到每个用户的用户访问序列,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列;
12.第一训练样本生成模块,用于根据各用户访问序列构建各物品标识的图网络,对图网络中的各物品标识进行采样,根据采样结果生成第一训练样本;
13.标识特征提取模块,用于将第一训练样本输入至未经训练的图神经网络中,根据图神经网络的训练结果分别提取出各物品标识的标识特征。
14.第三方面,本发明实施例还提供了一种物品标识的特征提取设备,可包括:
15.一个或多个处理器;
16.存储器,用于存储一个或多个程序;
17.当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明任意实施例所提供的物品标识的特征提取方法。
18.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明任意实施例所提供的物品标识的特征提取方法。
19.本发明实施例的技术方案,通过对各用户对于各物品的历史访问数据进行切分的方式得到每个用户的用于表示该用户对各物品的物品标识的访问顺序的用户访问序列,即用户访问序列中蕴含有各物品标识间的关联关系;进而根据各用户访问序列构建各物品标识的图网络的方式将各物品标识关联起来,那么在对图网络中的各物品标识进行采样后可以生成第一训练样本,每组第一训练样本中可以包括存在关联关系的物品标识;将第一训练样本输入至未经训练的图神经网络中,基于该图神经网络对存在关联关系的各物品标识进行深入挖掘,由此根据图神经网络的训练结果可以分别提取出各物品标识的标识特征。上述技术方案,基于图神经网络深入挖掘各物品标识间的关联关系,并且将其压缩为有限维度的可以被理解的标识特征,由此达到了降低维度并且高效利用物品标识的效果。
附图说明
20.图1是本发明实施例一中的一种物品标识的特征提取方法的流程图;
21.图2a是本发明实施例一中的一种物品标识的特征提取方法中用户访问序列的示意图;
22.图2b是本发明实施例一中的一种物品标识的特征提取方法中的图网络的示意图;
23.图3是本发明实施例二中的一种物品标识的特征提取方法的流程图;
24.图4是本发明实施例三中的一种物品标识的特征提取方法的流程图;
25.图5是本发明实施例三中的一种物品标识的特征提取方法中的图神经网络的示意图;
26.图6是本发明实施例四中的一种物品标识的特征提取方法的流程图;
27.图7是本发明实施例四中的一种物品标识的特征提取方法中物品排序模型的网络结构的示意图;
28.图8是本发明实施例五中的一种物品标识的特征提取装置的结构框图;
29.图9是本发明实施例六中的一种物品标识的特征提取设备的结构示意图。
具体实施方式
30.下面结合附图和实施例对本发明作进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
31.在介绍本发明实施例之前,先对本发明实施例的应用场景进行示例性说明:随着电子商务的迅速发展和移动互联网的广泛普及,网上购物已经成为消费者的常用购物选择。为了促进消费者购买更多的商品,电子商务平台会给消费者推送最适合他的商品。在此基础上,由于商品标识中蕴含有商品在电子商务平台内部的各种信息,因此更好地构建出
商品标识的标识特征对于电子商务平台准确推送出适合于消费者的商品至关重要。
32.实施例一
33.图1是本发明实施例一中提供的一种物品标识的特征提取方法的流程图。本实施例可以适用于对物品标识进行特征提取的情况,尤其适用于基于图神经网络对物品标识进行特征提取的情况。该方法可以由本发明实施例提供的物品标识的特征提取装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在物品标识的特征提取设备上,该设备可以是各种用户终端或服务器。
34.参见图1,本发明实施例的方法具体包括如下步骤:
35.s110、获取各用户对于各物品的历史访问数据,对各个历史访问数据进行切分,分别得到每个用户的用户访问序列,其中,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列。
36.其中,物品是电子商务平台上的可以被用户获取的物品,在实际应用中,示例性的,其可以是购物网站上的可以被消费者购买的商品。每个物品都具有各自的物品标识,该物品标识是物品的唯一标识信息,其可以是随机设置的、或是基于某些策略设置的信息。需要说明的是,即使是随机设置的物品标识,各个物品标识之间实际上也存在一些隐藏的联系,这些联系可以通过本发明实施例所述的特征提取方法挖掘得到。也就是说,通过本发明实施例所述的特征提取方法可以从其余维度比如用户行为维度等等挖掘出那些从表面上无法直接得到的并不局限于物品标识本身的深层次的联系。
37.为了证明上述观点,示例性的,参见图2a,这是同一用户和/或不同用户在电子商务平台上访问过的物品的示意图。从图2a中可以得知,用户1(即u1)依次访问了物品d、物品a和物品b,即用户1依次访问了物品d、物品a和物品b分别对应的物品标识。用户2和用户3的情况类似,在此不再重复介绍。由此可知,这些物品之间必然蕴含着的一定的关联关系,比如用户1在搜索“xx品牌手机”后,访问了物品d、物品a和物品b,其并未访问物品c、物品e和物品f,实际上物品d、物品a和物品b都是xx品牌下的物品,自然这些物品在类目上是相似的,这说明这些物品之间存在关联关系,即这些物品对应的物品标识之间存在关联关系。
38.历史访问数据可以是在当前时间点前的预设时间段内各用户对各物品进行访问操作时的数据,该操作可以是点击操作、浏览操作、加购操作、购买操作、评论操作等等,在此未做具体限定。示例性的,上述示例中阐述的什么用户访问了什么物品就是一个历史访问数据。
39.由于各历史访问数据是每个用户的全部的历史访问数据,为了挖掘得到各物品或是说各物品相应的物品标识间的关联关系,以用户为单位,可以对每个用户的全部的历史访问数据进行切分,由此在将至少一个历史访问数据以访问顺序为依据构成序列时,可以分别得到每个用户的用户访问序列,即某用户的用户访问序列可以是该用户对各物品的物品标识的访问顺序的序列。示例性的,参见图2a,其中的虚线表示出了不同的用户访问序列,比如物品d的物品标识、物品a的物品标识和物品b的物品标识构成了用户1的用户访问序列,物品b的物品标识和物品e的物品标识构成了用户2的用户访问序列;物品d的物品标识、物品e的物品标识和物品f的物品标识构成了用户2的另一个用户访问序列;用户3的用户访问序列的情况类似,在此不再赘述。
40.在实际应用中,可选的,对各历史访问数据进行切分的实现方式有多种,比如在不
同的应用场景中采用相应的预设切分因素对各历史访问数据进行切分,该预设切分因素可以是访问词、访问时间、访问地点、访问设备、访问页面等,如将同一用户在预设时间间隔的且位于同一访问页面下的各历史访问数据切分出来构成该用户的用户访问序列,再如将同一用户在同一访问设备上的且基于同一访问词下的各历史访问数据切分出来构成该用户的用户访问序列,等等,在此未做具体限定。需要说明的是,上述访问时间的考虑保证了用户访问序列是用户发生在一段时间内的历史访问数据,由此保证了位于同一用户访问序列的历史访问数据不会出现很大的偏差。上述同一访问页面下的各历史访问数据可以是某用户在进入某广告页面、某直播页面后访问物品时的数据。由上可知,用户访问序列可以是在至少一个维度下具有同一性的物品标识的序列。
41.s120、根据各用户访问序列构建各物品标识的图网络,对图网络中的各物品标识进行采样,并根据采样结果生成第一训练样本。
42.其中,由于用户访问序列是用户对各物品的物品标识的访问顺序的序列,那么根据每个用户的全部的用户访问序列可以构建得到图网络,该图网络可以认为是基于用户访问物品的行为形成的网络结构,其以物品或者说相应的物品标识为网络节点、以物品和物品之间的访问顺序或是说相应的物品标识和物品标识之间的访问顺序为边构成的网络结构。示例性的,基于图2a所示的用户访问序列可以构建出图2b所示的图网络,那么从网络节点d开始遍历,其下一网络节点可能是a、e,类似的,网络节点e的下一网络节点可能是c、f。
43.进一步的,对图网络中的各物品标识进行采样,如从一个物品标识采样到另一个物品标识、再采样到另一个物品标识,由此可以得到包含至少一个物品标识的采样样本,为了便于清楚阐述,该物品标识在采样样本中可以称为样本标识,即采样样本中的各样本标识之间存在先后采样顺序。示例性的,如图2b所示,一条采样样本可以是d

a

b

e

f。实际应用中,示例性的,上述图网络的构建过程和物品标识的采样过程可以通过图神经网络下的一些技术实现,如deepwalk、line、node2vec、sdne等等。上述采样样本也可以称为采样结果,根据该采样结果可以生成第一训练样本,其生成过程可以与实际应用场景有关。示例性的,为了找到存在关联性的物品标识,可以将某物品标识和在采样结果中与该物品标识紧邻的物品标识作为第一训练样本,其中,物品标识可以作为实际输入且与该物品标识紧邻的物品标识可以作为期望输出。
44.s130、将第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果分别提取出各物品标识的标识特征。
45.其中,图神经网络(graph neural networks,gnn)可以是基于word2vec下的skip

gram或是cbow、或是fasttext、transformed等等构成的网络结构。由于第一训练样本是由各物品标识构成的样本,那么将多组第一训练样本输入至未经训练的图神经网络后,根据该图神经网络的训练结果可以分别提取出各物品标识的标识特征。需要说明的是,随着时间推移,历史访问数据在不断地发生变化,那么为了保证标识特征的实时准确性,可以基于预先时间间隔重复执行上述各步骤,由此提高了标识特征的精准度。
46.需要说明的是,上述技术方案是基于图神经网络的标识特征的提取方案,由于图神经网络是一种机器学习模型,其基于机器学习模型学习出物品标识的标识特征,既能解决维度爆炸的问题,又能进一步挖掘物品标识间的内在联系,这样阐述的原因在于,一方面,通过神经网络技术将物品标识压缩表示为有限维度的标识特征,由此解决了维度爆炸
的问题,提高了相应的特征提取设备的运行效率;另一方面,基于图神经网络深入挖掘物品标识之间的关联关系,并将它们进一步加工成可以被理解的标识特征,由此实现了物品标识的高效利用。
47.本发明实施例的技术方案,通过对各用户对于各物品的历史访问数据进行切分的方式得到每个用户的用于表示该用户对各物品的物品标识的访问顺序的用户访问序列,即用户访问序列中蕴含有各物品标识间的关联关系;进而根据各用户访问序列构建各物品标识的图网络的方式将各物品标识关联起来,那么在对图网络中的各物品标识进行采样后可以生成第一训练样本,每组第一训练样本中可以包括存在关联关系的物品标识;将第一训练样本输入至未经训练的图神经网络中,基于该图神经网络对存在关联关系的各物品标识进行深入挖掘,由此根据图神经网络的训练结果可以分别提取出各物品标识的标识特征。上述技术方案,基于图神经网络深入挖掘各物品标识间的关联关系,并且将其压缩为有限维度的可以被理解的标识特征,由此达到了降低维度并且高效利用物品标识的效果。
48.实施例二
49.图3是本发明实施例二中提供的一种物品标识的特征提取方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,对图网络中的各物品标识进行采样,可包括:针对图网络内各物品标识中的当前标识,分别确定当前标识到各物品标识中除当前标识之外的候选标识的概率;根据各概率从各候选标识中采样出当前标识的下一标识,将下一标识归属到当前标识所在的采样样本中;将下一标识更新为当前标识,如果采样样本中的样本标识的数量小于预设数量阈值,则重复执行分别确定当前标识到各物品标识中除当前标识之外的候选标识的概率的步骤;将采样样本作为采样结果。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
50.参见图3,本实施例的方法具体可以包括如下步骤:
51.s210、获取各用户对于各物品的历史访问数据,对各个历史访问数据进行切分,分别得到每个用户的用户访问序列,并根据各用户访问序列构建各物品标识的图网络,其中,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列。
52.s220、针对图网络内各物品标识中的当前标识,分别确定当前标识到各物品标识中除当前标识之外的候选标识的概率;根据各概率从各候选标识中采样出当前标识的下一标识,将下一标识归属到当前标识所在的采样样本中。
53.其中,在对图网络中的各物品标识进行采样时,可以从当前标识采样到该当前标识的下一标识,在采样过程中,可以分别确定当前标识到各物品标识中除当前标识之外的各候选标识的概率,进而根据各概率从各候选标识中采样出下一标识,比如将最大的概率对应的候选标识作为下一标识,然后可以将下一标识归属到当前标识所在的采样样本中,此时该采样样本中可以包括依次采样得到的至少两个物品标识。
54.在此基础上,可选的,针对各所述物品标识中除所述当前标识之外的每个候选标识,可以通过如下公式确定从当前标识到候选标识的概率p(v
j
|v
i
):
55.56.其中,v
i
是当前标识,v
j
是候选标识,m
ij
是v
i
到v
j
的边的权重,是v
i
的全部的出边的集合,∈是包含于,即表示存在从v
i
到v
j
的边的情况,e
ij
是v
i
到v
j
的边,ε是图网络中全部的边的集合,是未包含于,即表示未存在从v
i
到v
j
的边的情况。在此基础上,上述权重可以通过多种方式确定,比如从v
i
到v
j
的历史访问数据有o条,全部的历史访问数据有p条,那么m
ij
=o/p,此时的权重相当于出现频率。
57.s230、将下一标识更新为当前标识,如果采样样本中的样本标识的数量小于预设数量阈值,则重复执行分别确定当前标识到各物品标识中除当前标识之外的候选标识的概率的步骤;将采样样本作为采样结果。
58.其中,将下一标识更新为当前标识,为了控制每条采样样本中样本标识的数量,如果该条采样样本中的样本标识的数量小于预设数量阈值,则可以重复执行上述步骤继续采样,否则可以停止采样,将此时的采样样本作为采样结果。当然,在样本标识的数量未超过预设数量阈值,但是不再存在当前标识的下一标识时,也可以停止采样,并将此时的采样样本作为采样结果。示例性的,若预设数量阈值是30,由此得到的采样样本可以是(物品标识1

>物品标识2

>
…‑
>物品标识30),即采样样本可以是依次采样得到的30个物品标识。
59.s240、将第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果分别提取出各物品标识的标识特征。
60.本发明实施例的技术方案,通过遍历图网络中的每个物品标识,将任一个物品标识作为起始点,根据该物品标识到其余物品标识的概率实现下一个物品标识的采样,以此类推,由此采样得到了包括多个存在关联关系的物品标识的采样样本,这是后续有效生成第一训练样本的重要保证。
61.实施例三
62.图4是本发明实施例三中提供的一种物品标识的特征提取方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,每组第一训练样本包括采样结果中的样本标识、以及在样本标识的预设采样窗口内的上下文标识;将第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果分别提取出各物品标识的标识特征,包括:将多组第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果得到图神经网络中的输入权重矩阵;针对每个物品标识,从输入权重矩阵中提取出与物品标识对应的一组权重,并将权重作为物品标识的标识特征。其中,上述各实施例相同或相应的术语的解释在此不再赘述。
63.参见图4,本实施例的方法具体可以包括如下步骤:
64.s310、获取各用户对于各物品的历史访问数据,对各个历史访问数据进行切分,分别得到每个用户的用户访问序列,其中,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列。
65.s320、根据各用户访问序列构建各物品标识的图网络,对图网络中的各物品标识进行采样,并根据采样结果生成第一训练样本,每组第一训练样本包括采样结果中的样本标识、以及在样本标识的预设采样窗口内的上下文标识。
66.其中,样本标识是采样结果中的某个物品标识,上下文标识是样本标识的预设采样窗口内的物品标识,示例性的,假设某采样结果是物品标识1

>物品标识2

>
…‑
>物品标
识30,样本标识是物品标识3且预设采样窗口是2,那么上下文标识可以是物品标识1、物品标识2、物品标识4和物品标识5。在实际应用中,可选的,样本标识可以作为实际输入且上下文标识可以作为期望输出,这使得第一训练样本中的样本标识和上下文标识间是存在关联关系的物品标识。
67.s330、将多组第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果得到图神经网络中的输入权重矩阵。
68.其中,将多组第一训练样本输入至未经训练的图神经网络,该图神经网络可以根据样本标识预测出与其相邻的相邻标识,该相邻标识可以是与样本标识直接相邻的物品标识,也可以是与该样本标识间接相邻的物品标识;进而,图神经网络将该相邻标识和上下文标识进行对比,并根据对比结果调整该图神经网络中的各种超参数,由此在网络收敛之后可以得到该图神经网络的输入权重矩阵,该输入权重矩阵可以是一个由多行多列的权重构成的矩阵。实际应用中,可选的,该图神经网络可以是基于word2vec下的skip

gram构成的网络结构,如图5所示,其中的input matrix是输入权重矩阵。
69.s340、针对每个物品标识,从输入权重矩阵中提取出与物品标识对应的一组权重,并将权重作为物品标识的标识特征。
70.其中,针对每个物品标识,可以从输入权重矩阵中提取出与物品标识对应的一组权重,该组权重可以是输入权重矩阵中的某行权重或是某列权重,进而将该组权重作为该物品标识的标识特征。示例性的,如果物品标识是n,那么可以将该输入权重矩阵中的第n行权重作为该物品标识的标识特征,这样一来,无论物品标识本身的维度是多少,由此得到的标识特征的维度可以是输入权重矩阵的列数,该列数的数量是有限的,由此解决了维度爆炸的问题。
71.在此基础上,可选的,由于各物品标识可能并非是连续的编码,那么为了充分利用输入权重矩阵中的每个权重,在获取各用户对于各物品的历史访问数据之前,可以先对各物品标识进行映射,得到编码连续的映射结果,然后根据映射结果分别更新相应的物品标识,由此可以得到编码连续的物品标识。举例说明,假设各物品标识分别是005、008和0015,对它们进行映射得到编码连续的001、002和003,由此可以将输入权重矩阵中的第1行权重作为001(即005)的标识特征、第2行权重作为002(即008)的标识特征、并且将第3行权重作为003(即015)的标识特征。
72.本发明实施例的技术方案,通过基于包含采样结果中的样本标识、以及在样本标识的预设采样窗口内的上下文标识的第一训练样本对未经训练的图神经网络进行训练,针对每个物品标识,可以将该物品标识在训练完成后的图神经网络中的输入权重矩阵对应的一组权重作为该物品标识的标识特征,由于一组权重的维度是有限的,由此解决了维度爆炸的问题。
73.实施例四
74.图6是本发明实施例四中提供的一种物品标识的特征提取方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中,可选的,在根据图神经网络的训练结果分别提取出各物品标识的标识特征之后,还可以包括:获取各用户中的目标用户的目标特征、以及各物品中与目标用户关联的召回物品的召回特征;将目标特征和召回特征输入至已训练完成的物品排序模型中,并根据物品排序模型的输出结果对各召回物品进行展
示。其中,与上述各实施例相同或相应的术语的解释在此不再赘述。
75.参见图6,本实施例的方法具体可以包括如下步骤:
76.s410、获取各用户对于各物品的历史访问数据,对各个历史访问数据进行切分,分别得到每个用户的用户访问序列,其中,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列。
77.s420、根据各用户访问序列构建各物品标识的图网络,对图网络中的各物品标识进行采样,并根据采样结果生成第一训练样本。
78.s430、将第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果分别提取出各物品标识的标识特征。
79.s440、获取各用户中的目标用户的目标特征、以及各物品中与目标用户关联的召回物品的召回特征;将目标特征和召回特征输入至已训练完成的物品排序模型中,并根据物品排序模型的输出结果对各召回物品进行展示。
80.其中,目标用户可以是在上文所述的当前时间点后于电子商务平台上进行了某些访问操作的用户,当目标用户进行了某些访问操作后,该电子商务平台可以针对该访问操作从各物品中召回一些与该访问操作关联的召回物品,示例性的,比如目标用户在电子商务平台上基于某个搜索词进行搜索后,该电子商务平台可以从各物品中召回一些与该搜索词关联的召回物品。需要说明的是,不同的目标用户针对于同一召回物品的兴趣度仍是存在差异的,那么为了使得目标用户能够尽快看到自己感兴趣的召回物品,可以将目标用户的目标特征、以及各物品中与目标用户关联的召回物品的召回特征输入至已训练完成的物品排序模型中,该目标特征可以是目标用户的用户特征,该召回特征可以是召回物品的标识特征,且该物品排序模型可以根据该目标特征和各召回特征确定出目标用户对各召回物品进行访问操作的概率,当然,该访问操作的具体类型与模型训练过程中的第二训练样本有关,比如点击、浏览、加购、购买、评论等。由此,根据物品排序模型的输出结果可以确定目标用户对各召回物品的兴趣度,再根据该兴趣度对各召回物品进行展示,比如将用户更感兴趣的召回物品展示在前面。示例性的,该物品排序模型的网络结构可以如图7所示,其中最底层的输入特征只展示了稀疏特征(即标识特征),其他的数值型特征如目标特征等等暂未具体标注在最底层。通过embedding层对每个召回特征进行处理得到dense embedding特征,然后经过多层神经网络进行梯度传递,并通过后向传播算法优化整个物品排序模型。
81.在此基础上,可选的,上述物品排序模型可以通过如下步骤预先训练得到:获取各用户中历史用户的历史特征、各物品中的样本物品的样本特征、以及历史用户对样本物品的访问操作;将历史特征、样本特征以及访问操作作为一组第二训练样本,并基于多组第二训练样本对原始排序模型进行训练,得到物品排序模型。其中。历史用户是在当前时间点之前于电子商务平台上进行了某些访问操作的用户,历史特征是该历史用户的用户特征,样本特征是样本物品的物品标识的标识特征,访问操作是历史用户对样本物品进行访问时的某操作,示例性的,假设应用场景是点击,那么访问操作可以是点击或是未点击。历史特征和样本特征可以是实际输入且访问操作可以是期望输出,由此,基于多组第二训练样本可以对原始排序模型进行训练,得到可以输出目标用户对各召回物品的进行访问的概率的物品排序模型。
82.需要说明的是,上述技术方案可以应用于多种应用场景中,比如为了便于用户使
用优惠券而进行各种凑单物品的展示,再如针对广告、推荐、搜索等等场景下的召回物品的展示,等等,在此未做具体限定。
83.本发明实施例的技术方案,通过将学习得到的各标识特征输入到物品排序模型中,标识特征的有效利用提高了物品排序模型的排序效果,这有助于帮助用户快速找到符合自己兴趣的物品,达到了优化用户的物品获取体验的效果。
84.实施例五
85.图8为本发明实施例五提供的物品标识的特征提取装置的结构框图,该装置用于执行上述任意实施例所提供的物品标识的特征提取方法。该装置与上述各实施例的物品标识的特征提取方法属于同一个发明构思,在物品标识的特征提取装置的实施例中未详尽描述的细节内容,可以参考上述物品标识的特征提取方法的实施例。参见图8,该装置具体可包括:用户访问序列得到模块510、第一训练样本生成模块520和标识特征提取模块530。其中,
86.用户访问序列得到模块510,用于获取各用户对于各物品的历史访问数据,对各历史访问数据进行切分,分别得到每个用户的用户访问序列,其中,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列;
87.第一训练样本生成模块520,用于根据各用户访问序列构建各物品标识的图网络,对图网络中的各物品标识进行采样,根据采样结果生成第一训练样本;
88.标识特征提取模块530,用于将第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果分别提取出各物品标识的标识特征。
89.可选的,用户访问序列得到模块510,具体可以包括:
90.数据切分单元,用于基于预设切分因素对各历史访问数据进行切分,其中,预设切分因素包括下述中的至少一个:访问词、访问时间、访问地点、访问设备和访问页面。
91.可选的,第一训练样本生成模块520,具体可以包括:
92.概率确定单元,用于针对图网络内各物品标识中的当前标识,分别确定当前标识到各物品标识中除当前标识之外的候选标识的概率;
93.下一标识归属单元,用于根据各概率从各候选标识中采样出当前标识的下一标识,将下一标识归属到当前标识所在的采样样本中;
94.重复执行单元,用于将下一标识更新为当前标识,如果采样样本中的样本标识的数量小于预设数量阈值,则重复执行分别确定当前标识到各物品标识中除当前标识之外的候选标识的概率的步骤;
95.采样结果得到单元,用于将采样样本作为采样结果。
96.在此基础上,可选的,概率确定单元,具体可以包括:
97.概率确定子单元,用于针对各物品标识中除当前标识之外的每个候选标识,通过如下公式确定当前标识到候选标识的概率p(v
j
|v
i
):
[0098][0099]
其中,v
i
是当前标识,v
j
是候选标识,m
ij
是v
i
到v
j
的边的权重,是v
i
的全部的
出边的集合,e
ij
是v
i
到v
j
的边,ε是图网络中全部的边的集合。
[0100]
可选的,每组第一训练样本包括采样结果中的样本标识、以及在样本标识的预设采样窗口内的上下文标识,标识特征提取模块530,可以包括:
[0101]
输入权重矩阵得到单元,用于将多组第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果得到图神经网络中的输入权重矩阵;
[0102]
标识特征提取单元,用于针对每个物品标识,从输入权重矩阵中提取出与物品标识对应的一组权重,并将权重作为物品标识的标识特征。
[0103]
可选的,在上述装置的基础上,该装置还可包括:
[0104]
物品标识映射模块,用于对各物品标识进行映射得到编码连续的映射结果,并根据映射结果分别更新相应的物品标识。
[0105]
可选的,上述物品标识的特征提取装置,还可以包括:
[0106]
召回特征获取模块,用于获取各用户中的目标用户的目标特征、以及各物品中与目标用户关联的召回物品的召回特征;
[0107]
召回物品展示模块,用于将目标特征和召回特征输入至已训练完成的物品排序模型中,并根据物品排序模型的输出结果对各召回物品进行展示。
[0108]
在此基础上,可选的,物品排序模型可以通过如下模块预先训练完成:
[0109]
访问操作获取模块,用于获取各用户中历史用户的历史特征、各物品中的样本物品的样本特征、以及历史用户对样本物品的访问操作;
[0110]
物品排序模型得到模块,用于将历史特征、样本特征以及访问操作作为一组第二训练样本,基于多组第二训练样本对原始排序模型进行训练,得到物品排序模型。
[0111]
本发明实施例五提供的物品标识的特征提取装置,通过用户访问序列得到模块对各用户对于各物品的历史访问数据进行切分的方式得到每个用户的用于表示该用户对各物品的物品标识的访问顺序的用户访问序列,即用户访问序列中蕴含有各物品标识间的关联关系;进而第一训练样本生成模块根据各用户访问序列构建各物品标识的图网络的方式将各物品标识关联起来,那么在对图网络中的各物品标识进行采样后可以生成第一训练样本,每组第一训练样本中可以包括存在关联关系的物品标识;标识特征提取模块将第一训练样本输入至未经训练的图神经网络中,基于该图神经网络对存在关联关系的各物品标识进行深入挖掘,由此根据图神经网络的训练结果可以分别提取出各物品标识的标识特征。上述装置,基于图神经网络深入挖掘各物品标识间的关联关系,并且将其压缩为有限维度的可以被理解的标识特征,由此达到了降低维度并且高效利用物品标识的效果。
[0112]
本发明实施例所提供的物品标识的特征提取装置可执行本发明任意实施例所提供的物品标识的特征提取方法,具备执行方法相应的功能模块和有益效果。
[0113]
值得注意的是,上述物品标识的特征提取装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0114]
实施例六
[0115]
图9为本发明实施例六提供的一种物品标识的特征提取设备的结构示意图,如图9所示,该设备包括存储器610、处理器620、输入装置630和输出装置640。设备中的处理器620
的数量可以是一个或多个,图9中以一个处理器620为例;设备中的存储器610、处理器620、输入装置630和输出装置640可以通过总线或其它方式连接,图9中以通过总线650连接为例。
[0116]
存储器610作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的物品标识的特征提取方法对应的程序指令/模块(例如,物品标识的特征提取装置中的用户访问序列得到模块510、第一训练样本生成模块520和标识特征提取模块530)。处理器620通过运行存储在存储器610中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的物品标识的特征提取方法。
[0117]
存储器610可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器610可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器610可进一步包括相对于处理器620远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0118]
输入装置630可用于接收输入的数字或字符信息,以及产生与装置的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
[0119]
实施例七
[0120]
本发明实施例七提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种物品标识的特征提取方法,该方法包括:
[0121]
获取各用户对于各物品的历史访问数据,对各历史访问数据进行切分,分别得到每个用户的用户访问序列,其中,用户访问序列是用于表示用户对各物品的物品标识的访问顺序的序列;
[0122]
根据各用户访问序列构建各物品标识的图网络,对图网络中的各物品标识进行采样,并根据采样结果生成第一训练样本;
[0123]
将第一训练样本输入至未经训练的图神经网络中,并根据图神经网络的训练结果分别提取出各物品标识的标识特征。
[0124]
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的物品标识的特征提取方法中的相关操作。
[0125]
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。依据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0126]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行
了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献