一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种跨网站商品对齐方法及装置与流程

2022-11-16 07:11:52 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种跨网站商品对齐方法及装置。


背景技术:

2.在电商运营中,往往需要知道商品在全网当中的比价结果,有了比价结果,就掌握了“定价权”。在进行跨网商品比价的时候,需要将各个电商网站的商品进行对齐。以往的商品比价系统,一般采用搜索的方式,按照商品的属性值检索出对应的商品;或是采用的计算文本相似度的方式,计算两个商品的描述及属性信息之间的文本相似度,然后筛选出相似度较高的候选商品。
3.现有技术存在以下缺陷。首先,需要先进行属性对齐,人工工作量大。如a电商网站叫“颜色”的商品属性,在b网站可能叫“颜色分类”。其次,不同网站属性取值有差异,如不加以处理,会漏掉很多匹配结果。此外,难以自动确定用于比价的关键属性,如手机当中的“颜色”、“处理器型号”等等。这些关键属性如果需要人工确定的话,也需要耗费大量的人工工作。因为属性种类较多,基于文本相似度的模型需要大量的训练数据才有可能使得关键属性相同的商品排在候选结果的前面。以上问题导致跨网站商品对齐任务的工作量较大,且商品对齐的准确性较低。


技术实现要素:

4.本发明提供一种跨网站商品对齐方法及装置,用以解决现有技术中跨网站商品对齐任务的工作较量大,时间长,且商品对齐的准确性较低的问题。
5.本发明提供一种跨网站商品对齐方法,包括:
6.获取至少两个网站的商品信息,其中,所述商品信息包括商品单品和所述商品单品对应的商品属性值;
7.根据所述商品信息构建商品图谱;其中,将所述商品单品和所述商品属性值作为所述商品图谱的商品节点和属性节点,所述商品单品与所述商品属性值之间的关系作为所述商品图谱的边;
8.基于所述商品图谱,计算所述商品节点之间的相似度;
9.将所述相似度与预设的相似度阈值进行比较,若所述相似度大于所述相似度阈值,则将所述商品节点对应的商品单品作为对齐商品。
10.根据本发明提供的一种跨网站商品对齐方法,所述基于所述商品图谱,计算所述商品节点之间的相似度包括:
11.基于所述商品图谱,利用图神经网络模型得到所述商品节点和所述属性节点的图谱向量表示;
12.根据所述商品节点的图谱向量表示,计算所述商品节点之间的余弦相似度;
13.其中,所述图神经网络模型是基于样本商品图谱训练得到。
14.根据本发明提供的一种跨网站商品对齐方法,所述基于所述商品图谱,利用图神
经网络模型得到所述商品节点和所述属性节点的图谱向量表示包括:
15.利用文本编码器对所述商品节点对应的商品单品的名称和所述属性节点对应的商品属性值进行语义编码,将编码结果作为所述商品节点和所述属性节点的文本向量表示;
16.将所述文本向量表示输入所述图神经网络模型,得到所述商品节点和所述属性节点的图谱向量表示。
17.根据本发明提供的一种跨网站商品对齐方法,所述图神经网络模型由多层神经网络组成;
18.将所述文本向量表示输入所述图神经网络模型,得到所述商品节点和所述属性节点的图谱向量表示,包括:
19.对于第一层神经网络:将所述商品节点和所述属性节点的文本向量表示输入至第一层神经网络,根据每个商品节点或属性节点的文本向量表示以及所述商品节点或所述属性节点的邻接节点的文本向量表示,输出每个所述商品节点或所述属性节点的第一层向量表示;其中,每个所述商品节点或所述属性节点的邻接节点通过所述商品图谱确定;
20.对于除去第一层神经网络的其他层神经网络:将每个所述商品节点或所述属性节点的上一层向量表示及其邻接节点的上一层向量表示输入至当前层神经网络,输出每个所述商品节点或所述属性节点的当前层向量表示;
21.将最后一层神经网络输出的每个所述商品节点的当前层向量表示作为所述商品节点的图谱向量表示,将最后一层神经网络输出的所述属性节点的当前层向量表示作为所述属性节点的图谱向量表示。
22.根据本发明提供的一种跨网站商品对齐方法,所述将每个所述商品节点或所述属性节点的上一层向量表示及其邻接节点的上一层向量表示输入至当前层神经网络,输出每个所述商品节点或所述属性节点的当前层向量表示,包括:
23.确定输入至当前层神经网络的每个所述商品节点或所述属性节点的邻接节点的权重值;
24.根据所述每个所述商品节点或所述属性节点的邻接节点的权重值,将所述邻接节点的上一层向量表示进行加权处理,得到所述邻接节点的集成向量表示;
25.将所述邻接节点的集成向量表示与输入至当前层神经网络的所述商品节点或所述属性节点的前一层向量表示进行处理,生成并输出每个所述商品节点或所述属性节点的当前层向量表示。
26.根据本发明提供的一种跨网站商品对齐方法,所述获取所述邻接节点的权重值包括:
27.获取邻接节点的属性类别;
28.计算所述属性类别与所述商品节点或所述属性节点的前一层向量表示的余弦相似度;
29.将所述余弦相似度进行归一化作为所述邻接节点的权重值。
30.根据本发明提供的一种跨网站商品对齐方法,所述图神经网络模型的训练方法包括:
31.获取样本商品单品的样本商品图谱,其中,所述样本商品单品包括样本对齐商品,
将所述样本商品单品和所述样本商品单品对应的样本商品属性值作为所述样本商品图谱的样本商品节点和样本属性节点,所述样本商品单品与所述样本商品属性值之间的关系作为所述样本商品图谱的边;
32.确定所述样本商品节点和样本属性节点中的采样节点及其文本向量表示;
33.将所述采样节点的文本向量表示输入至初始化的图神经网络模型中,输出所述采样节点的图谱向量表示;
34.根据所述采样节点的图谱向量表示,计算所述样本对齐商品对应的采样节点之间的余弦相似度;
35.调整所述图神经网络的参数,以使所述余弦相似度小于设定阈值。
36.根据本发明提供的一种跨网站商品对齐方法,所述确定所述样本商品节点和样本属性节点中的采样节点及其文本向量表示,包括:
37.获取所述样本对齐商品在样本商品图谱中的子图;
38.利用所述文本编码器对所述子图中的目标样本节点进行语义编码,输出所述目标样本节点的文本向量表示;
39.根据所述目标样本节点的文本向量表示,计算所述样本对齐商品对应的商品节点与所述目标样本节点的余弦相似度,作为所述目标样本节点的采样权重;
40.将所述目标样本节点的采样权重与预设的采样阈值进行比较,若采样权重大于所述采样阈值,则将对应的目标样本节点作为重要节点;
41.将所述样本对齐商品对应的商品节点及其重要节点作为采样节点,并确定所述采样节点的文本向量表示。
42.根据本发明提供的一种跨网站商品对齐方法,所述商品属性信息包括品牌属性值、品类属性值、型号属性值;
43.所述根据所述商品信息构建商品图谱包括:
44.根据所述品牌属性值,统计网站中所述品牌属性值相同的商品单品的数量;
45.将所述数量与预设的分组阈值进行比较;
46.若所述数量不超过所述分组阈值,根据所述品牌属性值相同的商品单品的商品信息构建所述商品图谱;
47.若所述数量超过所述分组阈值,在所述品牌属性值相同的商品单品中,将品类属性值相同的商品单品或型号属性值相同的商品单品划分为一组,根据每组商品单品的商品信息构建所述商品图谱。
48.根据本发明提供的一种跨网站商品对齐方法,所述根据所述商品信息构建商品图谱包括:
49.根据所述商品信息选择目标商品单品;
50.利用搜索引擎查找与所述目标商品单品对应的相关商品单品,根据所述目标商品单品的商品信息和所述相关商品单品的商品信息构建所述商品图谱。
51.根据本发明提供的一种跨网站商品对齐方法,所述商品属性值包括型号属性值和颜色属性值;
52.得到所述对齐商品后,所述方法还包括:
53.获取所述对齐商品的型号属性值和颜色属性值;
54.根据所述型号属性值和所述颜色属性值,过滤所述对齐商品中型号属性值或颜色属性值不一致的商品。
55.本发明还提供一种跨网站商品对齐装置,包括:
56.商品图谱模块,用于获取至少两个网站的商品信息,其中,所述商品信息包括商品单品和所述商品单品对应的商品属性值;
57.根据所述商品信息构建商品图谱;其中,将所述商品单品和所述商品属性值作为所述商品图谱的商品节点和属性节点,所述商品单品与所述商品属性值之间的关系作为所述商品图谱的边;
58.商品对齐模块,用于基于所述商品图谱,计算所述商品节点之间的相似度;
59.将所述相似度与预设的相似度阈值进行比较,若所述相似度大于所述相似度阈值,则将所述商品节点对应的商品单品作为对齐商品。
60.根据本发明提供的一种跨网站商品对齐装置,所述商品对齐模块还用于:
61.基于所述商品图谱,利用图神经网络模型得到所述商品节点和所述属性节点的图谱向量表示;
62.根据所述商品节点的图谱向量表示,计算所述商品节点之间的余弦相似度;
63.其中,所述图神经网络模型是基于样本商品图谱训练得到。
64.根据本发明提供的一种跨网站商品对齐装置,所述商品对齐模块还用于:
65.利用文本编码器对所述商品节点对应的商品单品的名称和所述属性节点对应的商品属性值进行语义编码,将编码结果作为所述商品节点和所述属性节点的文本向量表示;
66.将所述文本向量表示输入所述图神经网络模型,得到所述商品节点和所述属性节点的图谱向量表示。
67.根据本发明提供的一种跨网站商品对齐装置,所述图神经网络模型由多层神经网络组成;
68.所述商品对齐模块还用于:
69.对于第一层神经网络:将所述商品节点和所述属性节点的文本向量表示输入至第一层神经网络,根据每个商品节点或属性节点的文本向量表示以及所述商品节点或所述属性节点的邻接节点的文本向量表示,输出每个所述商品节点或所述属性节点的第一层向量表示;其中,每个所述商品节点或所述属性节点的邻接节点通过所述商品图谱确定;
70.对于除去第一层神经网络的其他层神经网络:将每个所述商品节点或所述属性节点的上一层向量表示及其邻接节点的上一层向量表示输入至当前层神经网络,输出每个所述商品节点或所述属性节点的当前层向量表示;
71.将最后一层神经网络输出的每个所述商品节点的当前层向量表示作为所述商品节点的图谱向量表示,将最后一层神经网络输出的所述属性节点的当前层向量表示作为所述属性节点的图谱向量表示。
72.根据本发明提供的一种跨网站商品对齐装置,所述商品对齐模块还用于:
73.确定输入至当前层神经网络的每个所述商品节点或所述属性节点的邻接节点的权重值;
74.根据所述每个所述商品节点或所述属性节点的邻接节点的权重值,将所述邻接节
点的上一层向量表示进行加权处理,得到所述邻接节点的集成向量表示;
75.将所述邻接节点的集成向量表示与输入至当前层神经网络的所述商品节点或所述属性节点的前一层向量表示进行处理,生成并输出每个所述商品节点或所述属性节点的当前层向量表示。
76.根据本发明提供的一种跨网站商品对齐装置,所述商品对齐模块还用于:
77.获取邻接节点的属性类别;
78.计算所述属性类别与所述商品节点或所述属性节点的前一层向量表示的余弦相似度;
79.将所述余弦相似度进行归一化作为所述邻接节点的权重值。
80.根据本发明提供的一种跨网站商品对齐装置,所述商品对齐模块还包括模型训练模块,用于:
81.获取样本商品单品的样本商品图谱,其中,所述样本商品单品包括样本对齐商品,将所述样本商品单品和所述样本商品单品对应的样本商品属性值作为所述样本商品图谱的样本商品节点和样本属性节点,所述样本商品单品与所述样本商品属性值之间的关系作为所述样本商品图谱的边;
82.确定所述样本商品节点和样本属性节点中的采样节点及其文本向量表示;
83.将所述采样节点的文本向量表示输入至初始化的图神经网络模型中,输出所述采样节点的图谱向量表示;
84.根据所述采样节点的图谱向量表示,计算所述样本对齐商品对应的采样节点之间的余弦相似度;
85.调整所述图神经网络的参数,以使所述余弦相似度小于设定阈值。
86.根据本发明提供的一种跨网站商品对齐装置,所述商品对齐模块还包括节点采样模块,用于:
87.获取所述样本对齐商品在样本商品图谱中的子图;
88.利用所述文本编码器对所述子图中的目标样本节点进行语义编码,输出所述目标样本节点的文本向量表示;
89.根据所述目标样本节点的文本向量表示,计算所述样本对齐商品对应的商品节点与所述目标样本节点的余弦相似度,作为所述目标样本节点的采样权重;
90.将所述目标样本节点的采样权重与预设的采样阈值进行比较,若采样权重大于所述采样阈值,则将对应的目标样本节点作为重要节点;
91.将所述样本对齐商品对应的商品节点及其重要节点作为采样节点,并确定所述采样节点的文本向量表示。
92.根据本发明提供的一种跨网站商品对齐装置,所述商品属性信息包括品牌属性值、品类属性值、型号属性值;
93.所述商品图谱模块还包括商品品牌划分模块,用于:
94.根据所述品牌属性值,统计网站中所述品牌属性值相同的商品单品的数量;
95.将所述数量与预设的分组阈值进行比较;
96.若所述数量不超过所述分组阈值,根据所述品牌属性值相同的商品单品的商品信息构建所述商品图谱;
97.若所述数量超过所述分组阈值,在所述品牌属性值相同的商品单品中,将品类属性值相同的商品单品或型号属性值相同的商品单品划分为一组,根据每组商品单品的商品信息构建所述商品图谱。
98.根据本发明提供的一种跨网站商品对齐装置,所述商品图谱模块还包括搜索相关商品模块,用于:
99.根据所述商品信息选择目标商品单品;
100.利用搜索引擎查找与所述目标商品单品对应的相关商品单品,根据所述目标商品单品的商品信息和所述相关商品单品的商品信息构建所述商品图谱。
101.根据本发明提供的一种跨网站商品对齐装置,所述商品属性值包括型号属性值和颜色属性值;
102.得到所述对齐商品后,所述装置还包括规则后处理模块,用于:
103.获取所述对齐商品的型号属性值和颜色属性值;
104.根据所述型号属性值和所述颜色属性值,过滤所述对齐商品中型号属性值或颜色属性值不一致的商品。
105.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述跨网站商品对齐方法的步骤。
106.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述跨网站商品对齐方法的步骤。
107.本发明提供的跨网站商品对齐方法及装置,通过获取至少两个网站的商品信息,基于商品信息中的商品单品及其对应的商品属性值构建商品图谱,商品图谱中包含商品单品基于不同属性值的关联关系,根据所述商品图谱,计算商品单品之间的相似度,以确定相似度较高的商品单品组合为对齐商品。该方法与基于商品属性值检索相似商品或基于商品描述、属性值的文本相似度得到对齐商品的方法相比,减少了处理商品属性值的工作量,可以不受限于网站属性取值的差异性,不需要人工确定用于对齐的关键属性,同时根据商品图谱获取到更深层次的商品单品的关联信息用于商品对齐,可以得到较准确的商品对齐结果。
附图说明
108.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
109.图1是本发明提供的跨网站商品对齐方法的流程示意图;
110.图2是本发明提供的商品图谱实例的示意图;
111.图3是本发明提供的同品牌数据筛选的流程示意图;
112.图4是本发明提供的基于搜索引擎筛选的流程示意图;
113.图5是本发明提供的计算商品节点之间相似度的流程示意图;
114.图6是本发明提供的利用图神经网络模型得到商品节点和属性节点的图谱向量表
示的流程示意图;
115.图7是本发明提供的将文本向量表示输入图神经网络模型,得到商品节点和所述属性节点的图谱向量表示的流程示意图;
116.图8是本发明提供的将每个商品节点或属性节点的上一层向量表示及其邻接节点的上一层向量表示输入至当前层神经网络,输出每个商品节点或属性节点的当前层向量表示的流程示意图;
117.图9是本发明提供的获取所述邻接节点的权重值的流程示意图;
118.图10本发明提供的训练图神经网络模型的流程示意图;
119.图11本发明提供的确定所述样本商品节点和样本属性节点中的采样节点及其文本向量表示的流程示意图;
120.图12本发明提供的基于商品图谱实例进行图神经网络模型训练的示意图;
121.图13本发明提供的规则后处理的流程示意图;
122.图14是本发明提供的跨网站商品对齐装置的结构示意图;
123.图15是本发明提供的电子设备的结构示意图。
具体实施方式
124.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
125.首先,对说明书中出现的专业技术术语进行解释。
126.商品单品:即商品库存量单位(stock keeping unit,sku),是物理上不可分割的最小存货单元。
127.图:一种对一组对象及其关系进行建模的数据结构,对象作为图的节点,对象间的关系作为图的边,此处图谱的含义与图相同。
128.子图:节点集和边集分别是某一图的节点集的子集和边集的子集的图。
129.图神经网络模型(graph neural network,gnn):研究神经网络在图上应用的模型的统称。
130.图1为本发明提供的跨网站商品对齐方法的流程示意图,如图1所示,该方法包括:
131.步骤110,获取至少两个网站的商品信息,其中,所述商品信息包括商品单品和所述商品单品对应的商品属性值。
132.具体地,通过爬虫软件获取网站页面中的商品信息,或者访问商品数据库直接提取商品信息,商品信息包括最基本的商品单品名称和商品单品对应的商品属性值,对于在商品页面中独立标识的商品属性值或者数据库中特定属性类别的属性值,可以直接进行提取,而对于商品描述文本中的多个商品属性值,则需要根据不同属性类别进行识别与切分。
133.比如,手机a为商品单品,手机a通常会有对应的属性信息描述,如手机a为c品牌,x型号,蓝色,水滴屏,其中c、x、蓝色、水滴屏是手机a的属性值,c对应手机a的品牌属性,x对应手机a的型号属性,蓝色对应手机a的颜色属性,水滴屏对应手机a的屏幕类型属性。
134.步骤120,根据所述商品信息构建商品图谱;其中,将所述商品单品和所述商品属
性值作为所述商品图谱的商品节点和属性节点,所述商品单品与所述商品属性值之间的关系作为所述商品图谱的边。
135.基于获取的上述网站的商品信息构建商品图谱,图2为商品图谱实例的示意图,如图2所示,商品节点包括手机a、手机b、手机c、手机d,属性节点包括墨玉蓝、水滴屏、品牌a、型号1、蓝色,手机商品单品与其对应的属性值通过属性的边连接起来,比如手机a与型号1通过型号属性连接,品牌a与手机a通过品牌属性连接,墨玉蓝与手机a通过颜色属性连接,水滴屏与手机a通过屏幕类型属性连接。
136.由于商品信息数据量较大,在构建商品图谱之前,需要获取的网站的商品信息进行初步筛选,以减少候选商品的数量。可选的筛选方式有以下两种,图3为同品牌数据筛选的流程示意图,如图3所示,包括:
137.步骤310,根据所述品牌属性值,统计网站中所述品牌属性值相同的商品单品的数量。
138.步骤320,将所述数量与预设的分组阈值进行比较。
139.步骤330,若所述数量不超过所述分组阈值,根据所述品牌属性值相同的商品单品的商品信息构建所述商品图谱。
140.步骤340,若所述数量超过所述分组阈值,在所述品牌属性值相同的商品单品中,将品类属性值相同的商品单品或型号属性值相同的商品单品划分为一组,根据每组商品单品的商品信息构建所述商品图谱。
141.此过程通过简单的商品召回策略,对网站中同品牌、同品牌且型号相同或同品牌且品类相同的商品单品划分为一组候选商品,进行后续商品节点的向量表示学习,从而减少候选商品的数量,进一步降低向量表示学习的计算量。
142.图4为基于搜索引擎筛选的流程示意图,如图4所示,包括:
143.步骤410,根据所述商品信息选择目标商品单品。
144.步骤420,利用搜索引擎查找与所述目标商品单品对应的相关商品单品,根据所述目标商品单品的商品信息和所述相关商品单品的商品信息构建所述商品图谱。
145.通过搜索引擎检索相关商品单品构建候选商品集合,缩小了用于商品对齐的候选商品的范围,进而减少了向量表示学习的计算量。
146.步骤130,基于所述商品图谱,计算所述商品节点之间的相似度。
147.具体地,基于上述步骤构建的商品图谱包含商品单品的属性信息,以及商品单品基于不同属性的关联关系,根据所述信息,可以通过简单统计商品单品相同属性值的数量等方法利用图谱的结构信息挖掘相似度,或者学习商品图谱中商品节点的向量表示,将商品图谱的全部语义信息融合到所述向量表示中,基于所述向量表示计算商品节点的相似度。具体来说,可以使用skip-gram语言模型和无监督特征学习的方法,将单词序列扩展到图,即用商品节点代替单词,用随机游走抽取的图谱路径作为商品节点上下文,学习商品节点的向量表示,也可以预先定义图谱的元结构,基于元结构挖掘图谱信息,进而得到商品节点的向量表示,其中元结构是由商品节点类型和属性节点类型构建的路径或子图。根据通过上述方法得到的商品节点的向量表示计算商品节点之间的相似度。此外,基于向量表示计算商品节点相似度有多种实现方式,包括:皮尔逊相关系数、欧几里得距离、jaccard系数、余弦相似度、曼哈顿距离等。
148.基于图2所示的商品图谱实例,能够计算手机a、手机b、手机c、手机d之间的相似度。
149.步骤140将所述相似度与预设的相似度阈值进行比较,若所述相似度大于所述相似度阈值,则所述商品节点对应的商品单品为对齐商品。
150.基于商品图谱计算得到的相似度较高的商品单品为对齐商品的可能性较大,将所述所有相似度超过预设相似度阈值的商品确定为对齐商品,可以进一步将所述对齐商品按照相似度进行排序,将排序靠前的商品作为比价商品。
151.本发明提供的跨网站商品对齐方法,通过获取各个网站的商品信息,基于商品信息中的商品单品及其对应的商品属性值构建商品图谱,商品图谱中包含商品单品基于不同属性值的关联关系,根据所述商品图谱,计算商品单品之间的相似度,以确定相似度较高的商品单品组合为对齐商品。该方法与基于商品属性值检索相似商品或基于商品描述、属性值的文本相似度得到对齐商品的方法相比,减少了处理商品属性值的工作量,可以不受限于网站属性取值的差异性,不需要人工确定用于对齐的关键属性,从而缩短了处理时间,同时根据商品图谱获取到更深层次的商品单品的关联信息用于商品对齐,可以得到较准确的商品对齐结果。
152.基于上述实施例,图5为计算商品节点之间的相似度的流程示意图,如图5所示,步骤130具体包括:
153.步骤510,基于所述商品图谱,利用图神经网络模型得到所述商品节点和所述属性节点的图谱向量表示。
154.需要说明的是,图神经网络划分为五大类别,分别是卷积神经网络、图注意力网络、图自编码器、图生成网络和图时空网络。其中,可以将构建的商品图谱输入图卷积神经网络,学习一个函数映射,通过该函数映射使图中的商品节点可以聚合自身的特征与其邻居特征来生成商品节点的新表示。除了使用卷积神经网络,还可以在商品图谱中应用注意力机制,包括如下三种方式:聚集特征信息时将注意力权重分配给不同的邻居节点;根据注意力权重将多个模型进行融合;使用注意力权重引导随机游走。另外,图自动编码器利用多层感知机获取商品节点的向量表示,其中解码器用于重建商品节点的邻域统计信息。
155.步骤520,根据所述商品节点的图谱向量表示,计算所述商品节点之间的余弦相似度;其中,所述图神经网络模型是基于样本商品图谱训练得到。
156.利用图神经网络挖掘商品图谱的结构信息,得到节点的向量表示,进而计算节点间的相似度,相比于基于属性值的文本相似度确定节点的相似度的方法,其执行效率和准确度较高。
157.基于上述实施例,图6为利用图神经网络模型得到商品节点和属性节点的图谱向量表示的流程示意图,如图6所示,步骤510具体包括:
158.步骤610,利用文本编码器对所述商品节点对应的商品单品的名称和所述属性节点对应的商品属性值进行语义编码,将编码结果作为所述商品节点和所述属性节点的文本向量表示。
159.需要说明的是,对齐商品的商品名称或商品属性值通常很相近,而文本编码器可以提取文本的重要语义特征,过滤掉文本中的不必要信息,实现商品单品名称或商品属性值的模糊匹配。
160.步骤620,将所述文本向量表示输入所述图神经网络模型,得到所述商品节点和所述属性节点的图谱向量表示。
161.将文本编码器生成的文本向量表示输入图神经网络模型,即将商品单品在商品图谱中与属性值或其他商品单品的关联关系融合至商品单品的自身信息中,使商品节点的向量表示包含自身文本语义信息和商品图谱的结构信息,进而实现商品单品的准确对齐。
162.基于上述实施例,所述图神经网络模型由多层神经网络组成,图7是将文本向量表示输入图神经网络模型,得到商品节点和所述属性节点的图谱向量表示的流程示意图,如图7所示,步骤620具体包括:
163.步骤710,对于第一层神经网络:将所述商品节点和所述属性节点的文本向量表示输入至第一层神经网络,根据每个商品节点或属性节点的文本向量表示以及所述商品节点或所述属性节点的邻接节点的文本向量表示,输出每个所述商品节点或所述属性节点的第一层向量表示;其中,每个所述商品节点或所述属性节点的邻接节点通过所述商品图谱确定;
164.步骤720,对于除去第一层神经网络的其他层神经网络:将每个所述商品节点或所述属性节点的上一层向量表示及其邻接节点的上一层向量表示输入至当前层神经网络,输出每个所述商品节点或所述属性节点的当前层向量表示;
165.步骤730,将最后一层神经网络输出的每个所述商品节点的当前层向量表示作为所述商品节点的图谱向量表示,将最后一层神经网络输出的所述属性节点的当前层向量表示作为所述属性节点的图谱向量表示。
166.其中,邻接节点是指在商品图谱中与当前节点通过属性边直接相连的节点,本发明使用图神经网络模型将邻接节点携带的图谱结构信息和文本语义信息融合到当前节点的向量表示中得到新的向量表示,使新的向量表示所包含的信息更加丰富。
167.基于上述实施例,图8为将每个商品节点或属性节点的上一层向量表示及其邻接节点的上一层向量表示输入至当前层神经网络,输出每个商品节点或属性节点的当前层向量表示的流程示意图,如图8所示,步骤720具体包括:
168.步骤810,确定输入至当前层神经网络的每个所述商品节点或所述属性节点的邻接节点的权重值。
169.进一步地,图9为获取所述邻接节点的权重值的流程示意图,如图9所示,步骤810具体包括:
170.步骤910,获取邻接节点的属性类别。
171.步骤920,计算所述属性类别与所述商品节点或所述属性节点的前一层向量表示的余弦相似度。
172.步骤930,将所述余弦相似度进行归一化作为所述邻接节点的权重值。
173.其中,属性类别是商品图谱中连接商品节点与属性节点的边。由上述步骤可知当前节点的不同邻接节点的权重值是不同的,而不同邻接节点对于当前节点的重要程度主要取决于邻接节点的属性类别,对于当前节点来说,有些属性是关键属性,而另一些是非关键属性,所以需要确定不同属性类别对应的向量表示,计算该向量值与当前节点的向量表示的余弦相似度,作为当前节点与对应邻接节点的相似度。
174.而且,对于处于不同神经网络层的同一节点,其与某个邻接节点的权重值是变化
的,需要计算属性类别与新得到的节点在上一层的向量表示之间的余弦相似度。
175.步骤820,根据所述每个所述商品节点或所述属性节点的邻接节点的权重值,将所述邻接节点的上一层向量表示进行加权处理,得到所述邻接节点的集成向量表示。
176.步骤830,将所述邻接节点的集成向量表示与输入至当前层神经网络的所述商品节点或所述属性节点的前一层向量表示进行处理,生成并输出每个所述商品节点或所述属性节点的当前层向量表示。
177.其中,不同的邻接节点对应不同的权重值,因为对于商品图谱中的节点来说,其邻接节点的重要性各不相同。现有技术采用人工选取关键属性或为不同的类型邻接节点赋予不用的权重值,但是此种方式具有一定的主观性,而本发明基于图神经网络训练得到不同类型邻接节点的权重值,可以反映网站商品信息的特点,使节点的向量表示学习的准确度提升。
178.基于上述实施例,图10为训练图神经网络模型的流程示意图,如图10所示,包括:
179.步骤1010,获取样本商品单品的样本商品图谱,其中,所述样本商品单品包括样本对齐商品,将所述样本商品单品和所述样本商品单品对应的样本商品属性值作为所述样本商品图谱的样本商品节点和样本属性节点,所述样本商品单品与所述样本商品属性值之间的关系作为所述样本商品图谱的边。
180.步骤1020,确定所述样本商品节点和样本属性节点中的采样节点及其文本向量表示。
181.步骤1030,将所述采样节点的文本向量表示输入至初始化的图神经网络模型中,输出所述采样节点的图谱向量表示。
182.步骤1040,根据所述采样节点的图谱向量表示,计算所述样本对齐商品对应的采样节点之间的余弦相似度。
183.步骤1050,调整所述图神经网络的参数,以使所述余弦相似度小于设定阈值。
184.因为商品图谱较大,在全量图谱数据上进行整体训练往往不可行,需要对图谱进行采样,获得每个节点的相关节点的子图。然后在相关子图上计算图神经网络表示来实现模型的训练和预测。本发明采用两层图神经网络,每个节点对应的子图也从一阶邻接节点和二阶邻接节点的采样中取得。其中,一阶邻接节点是直接与特定节点相连的节点,二阶节点是与特定节点的一阶节点直接相连的其他节点。对于商品图谱中的每个商品节点,其一阶邻接节点是商品单品的属性值,二阶邻接节点为有共同属性值的一些商品单品,在节点采样时,应当尽可能保留图谱中重要关系信息,进行有选择地采样。
185.基于上述实施例,图11为确定所述样本商品节点和样本属性节点中的采样节点及其文本向量表示的流程示意图,步骤1120具体包括:
186.步骤1110,获取所述样本对齐商品在样本商品图谱中的子图。
187.步骤1120,利用所述文本编码器对所述子图中的目标样本节点进行语义编码,输出所述目标样本节点的文本向量表示。
188.步骤1130,根据所述目标样本节点的文本向量表示,计算所述样本对齐商品对应的商品节点与所述目标样本节点的余弦相似度,作为所述目标样本节点的采样权重。
189.步骤1140,将所述目标样本节点的采样权重与预设的采样阈值进行比较,若采样权重大于所述采样阈值,则将对应的目标样本节点作为重要节点。
190.步骤1150,将所述样本对齐商品对应的商品节点及其重要节点作为采样节点,并确定所述采样节点的文本向量表示。
191.具体地,基于上述步骤可以实现属性类别的自动学习,图12为基于商品图谱实例进行图神经网络模型训练的示意图。将基于上述方法训练得到的属性类别用于生成节点的向量表示,使向量表示包含图谱的结构信息和文本语义信息,应当可以准确找到对齐商品。比如,由于手机a与手机b有两个相同的属性值,而手机a与手机c仅有一个相同的属性值,与手机d没有相同的属性值,则基于商品图谱计算得到的商品节点的向量表示的相似度也应当符合此基本规律。
192.采用上述采样策略执行节点采样,可以保证在有限采样节点保留图谱中全部重要的关系信息,提高图神经网络模型在商品图谱上训练的效率。
193.基于上述实施例,所述商品属性值包括型号属性值和颜色属性值,得到所述对齐商品后,还需要对对齐商品进行规则后处理,图13为规则后处理的流程示意图,包括:
194.步骤1310,获取所述对齐商品的型号属性值和颜色属性值。
195.步骤1320,根据所述型号属性值和所述颜色属性值,过滤所述对齐商品中型号属性值或颜色属性值不一致的商品。
196.基于商品图谱获得对齐商品的结果往往存在一定的错误,为增加准确率,可以通过规则再过滤一部分明显错误的结果。
197.下面对本发明提供的跨网站商品对齐装置进行描述,下文描述的装置与上文描述的发现方法可相互对应参照。
198.图14为本发明提供的跨网站商品对齐装置的结构示意图,如图14所示,该装置包括:
199.商品图谱模块1410,用于获取至少两个网站的商品信息,其中,所述商品信息包括商品单品和所述商品单品对应的商品属性值;
200.根据所述商品信息构建商品图谱;其中,将所述商品单品和所述商品属性值作为所述商品图谱的商品节点和属性节点,所述商品单品与所述商品属性值之间的关系作为所述商品图谱的边;
201.商品对齐模块1420,用于基于所述商品图谱,计算所述商品节点之间的相似度;
202.将所述相似度与预设的相似度阈值进行比较,若所述相似度大于所述相似度阈值,则将所述商品节点对应的商品单品作为对齐商品。
203.基于上述实施例,所述商品属性信息包括品牌属性值、品类属性值、型号属性值;
204.所述商品图谱模块还包括商品品牌划分模块,用于:
205.根据所述品牌属性值,统计网站中所述品牌属性值相同的商品单品的数量;
206.将所述数量与预设的分组阈值进行比较;
207.若所述数量不超过所述分组阈值,根据所述品牌属性值相同的商品单品的商品信息构建所述商品图谱;
208.若所述数量超过所述分组阈值,在所述品牌属性值相同的商品单品中,将品类属性值相同的商品单品或型号属性值相同的商品单品划分为一组,根据每组商品单品的商品信息构建所述商品图谱。
209.基于上述实施例,所述商品图谱模块还包括搜索相关商品模块,用于:
210.根据所述商品信息选择目标商品单品;
211.利用搜索引擎查找与所述目标商品单品对应的相关商品单品,根据所述目标商品单品的商品信息和所述相关商品单品的商品信息构建所述商品图谱。
212.基于上述实施例,所述商品对齐模块还用于:
213.基于所述商品图谱,利用图神经网络模型得到所述商品节点和所述属性节点的图谱向量表示;
214.根据所述商品节点的图谱向量表示,计算所述商品节点之间的余弦相似度;
215.其中,所述图神经网络模型是基于样本商品图谱训练得到。
216.基于上述实施例,所述商品对齐模块还用于:
217.利用文本编码器对所述商品节点对应的商品单品的名称和所述属性节点对应的商品属性值进行语义编码,将编码结果作为所述商品节点和所述属性节点的文本向量表示;
218.将所述文本向量表示输入所述图神经网络模型,得到所述商品节点和所述属性节点的图谱向量表示。
219.基于上述实施例,所述图神经网络模型由多层神经网络组成;
220.所述商品对齐模块还用于:
221.对于第一层神经网络:将所述商品节点和所述属性节点的文本向量表示输入至第一层神经网络,根据每个商品节点或属性节点的文本向量表示以及所述商品节点或所述属性节点的邻接节点的文本向量表示,输出每个所述商品节点或所述属性节点的第一层向量表示;其中,每个所述商品节点或所述属性节点的邻接节点通过所述商品图谱确定;
222.对于除去第一层神经网络的其他层神经网络:将每个所述商品节点或所述属性节点的上一层向量表示及其邻接节点的上一层向量表示输入至当前层神经网络,输出每个所述商品节点或所述属性节点的当前层向量表示;
223.将最后一层神经网络输出的每个所述商品节点的当前层向量表示作为所述商品节点的图谱向量表示,将最后一层神经网络输出的所述属性节点的当前层向量表示作为所述属性节点的图谱向量表示。
224.基于上述实施例,所述商品对齐模块还用于:
225.确定输入至当前层神经网络的每个所述商品节点或所述属性节点的邻接节点的权重值;
226.根据所述每个所述商品节点或所述属性节点的邻接节点的权重值,将所述邻接节点的上一层向量表示进行加权处理,得到所述邻接节点的集成向量表示;
227.将所述邻接节点的集成向量表示与输入至当前层神经网络的所述商品节点或所述属性节点的前一层向量表示进行处理,生成并输出每个所述商品节点或所述属性节点的当前层向量表示。
228.基于上述实施例,所述商品对齐模块还用于:
229.获取邻接节点的属性类别;
230.计算所述属性类别与所述商品节点或所述属性节点的前一层向量表示的余弦相似度;
231.将所述余弦相似度进行归一化作为所述邻接节点的权重值。
232.基于上述实施例,所述商品对齐模块还包括模型训练模块,用于:
233.获取样本商品单品的样本商品图谱,其中,所述样本商品单品包括样本对齐商品,将所述样本商品单品和所述样本商品单品对应的样本商品属性值作为所述样本商品图谱的样本商品节点和样本属性节点,所述样本商品单品与所述样本商品属性值之间的关系作为所述样本商品图谱的边;
234.确定所述样本商品节点和样本属性节点中的采样节点及其文本向量表示;
235.将所述采样节点的文本向量表示输入至初始化的图神经网络模型中,输出所述采样节点的图谱向量表示;
236.根据所述采样节点的图谱向量表示,计算所述样本对齐商品对应的采样节点之间的余弦相似度;
237.调整所述图神经网络的参数,以使所述余弦相似度小于设定阈值。
238.基于上述实施例,所述商品对齐模块还包括节点采样模块,用于:
239.获取所述样本对齐商品在样本商品图谱中的子图;
240.利用所述文本编码器对所述子图中的目标样本节点进行语义编码,输出所述目标样本节点的文本向量表示;
241.根据所述目标样本节点的文本向量表示,计算所述样本对齐商品对应的商品节点与所述目标样本节点的余弦相似度,作为所述目标样本节点的采样权重;
242.将所述目标样本节点的采样权重与预设的采样阈值进行比较,若采样权重大于所述采样阈值,则将对应的目标样本节点作为重要节点;
243.将所述样本对齐商品对应的商品节点及其重要节点作为采样节点,并确定所述采样节点的文本向量表示。
244.基于上述实施例,所述商品属性值包括型号属性值和颜色属性值;
245.得到所述对齐商品后,所述装置还包括规则后处理模块,用于:
246.获取所述对齐商品的型号属性值和颜色属性值;
247.根据所述型号属性值和所述颜色属性值,过滤所述对齐商品中型号属性值或颜色属性值不一致的商品。
248.本发明提供的跨网站商品对齐装置,通过获取至少两个网站的商品信息,基于商品信息中的商品单品及其对应的商品属性值构建商品图谱,商品图谱中包含商品单品基于不同属性值的关联关系,根据所述商品图谱,计算商品单品之间的相似度,以确定相似度较高的商品单品组合为对齐商品。该方法与基于商品属性值检索相似商品或基于商品描述、属性值的文本相似度得到对齐商品的方法相比,减少了处理商品属性值的工作量,可以不受限于网站属性取值的差异性,不需要人工确定用于对齐的关键属性,从而缩短了处理时间,同时根据商品图谱获取到更深层次的商品单品的关联信息用于商品对齐,可以得到较准确的商品对齐结果。
249.图15示例了一种电子设备的实体结构示意图,如图15所示,该电子设备可以包括:处理器(processor)1510、通信接口(communications interface)1520、存储器(memory)1530和通信总线1540,其中,处理器1510,通信接口1520,存储器1530通过通信总线1540完成相互间的通信。处理器1510可以调用存储器1530中的逻辑指令,以执行跨网站商品对齐方法,该方法包括:获取至少两个网站的商品信息,其中,所述商品信息包括商品单品和所
述商品单品对应的商品属性值;根据所述商品信息构建商品图谱;其中,将所述商品单品和所述商品属性值作为所述商品图谱的商品节点和属性节点,所述商品单品与所述商品属性值之间的关系作为所述商品图谱的边;基于所述商品图谱,计算所述商品节点之间的相似度;将所述相似度与预设的相似度阈值进行比较,若所述相似度大于所述相似度阈值,则将所述商品节点对应的商品单品作为对齐商品。
250.此外,上述的存储器1530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
251.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的跨网站商品对齐方法,该方法包括:获取至少两个网站的商品信息,其中,所述商品信息包括商品单品和所述商品单品对应的商品属性值;根据所述商品信息构建商品图谱;其中,将所述商品单品和所述商品属性值作为所述商品图谱的商品节点和属性节点,所述商品单品与所述商品属性值之间的关系作为所述商品图谱的边;基于所述商品图谱,计算所述商品节点之间的相似度;将所述相似度与预设的相似度阈值进行比较,若所述相似度大于所述相似度阈值,则将所述商品节点对应的商品单品作为对齐商品。
252.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的跨网站商品对齐方法,该方法包括:获取至少两个网站的商品信息,其中,所述商品信息包括商品单品和所述商品单品对应的商品属性值;根据所述商品信息构建商品图谱;其中,将所述商品单品和所述商品属性值作为所述商品图谱的商品节点和属性节点,所述商品单品与所述商品属性值之间的关系作为所述商品图谱的边;基于所述商品图谱,计算所述商品节点之间的相似度;将所述相似度与预设的相似度阈值进行比较,若所述相似度大于所述相似度阈值,则将所述商品节点对应的商品单品作为对齐商品。
253.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
254.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指
令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
255.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献