一种基于图谱关系挖掘的产品配置推荐方法及系统与流程

2022-05-21 09:27:34 来源：中国专利 TAG：

1.本发明涉及一种基于图谱关系挖掘的产品配置推荐方法及系统，属于推荐系统及机器学习技术领域。

背景技术：

2.产品配置是指基于用户需求或应用场景，实现产品核心物料、组件的自动化、智能化配置。华为、中兴等企业已经建立较为完备的5g产品配置线，快速地满足客户多场景、定制化的需求，为企业技术标准化、生产库存、研发管理提供数字化支撑。实现产品自动化、智能化配置，已经成为企业数字化转型的关键能力指标。
3.推荐系统是一种信息过滤系统，利用机器学习等技术，预测用户对物品的偏好并进行推荐。经典的推荐算法如协同过滤、fm算法等，均是通过分析用户的历史行为和偏好，为用户推荐物品等。推荐系统一般包括召回和排序两个阶段。其中，召回是从海量数据中，取出与用户特征有关联的数据，即缩小数据的比较范围。在此基础上，采用排序算法，实现精准的用户特征和行为特征的相似性计算，并按照相似性进行排序。
4.本文研究的产品配置，包括“产品、物料、组件”三级。产品和物料之间是一对多关系，物料和组件之间是多对多关系。用户采购产品以后，会对特定型号的产品进行定制，即在标准型号产品的基础上，增删物料、组件，满足客户的定制化需求。从这个角度来看，产品配置的本质是基于采购历史的产品配置行为，为用户推荐可行的产品配置数据。
5.近年来，将知识图谱应用于推荐算法来解决推荐系统的冷启动、数据稀疏等问题已成为热点。但是，利用知识图谱进行推荐还有许多问题亟待解决。知识图谱只有达到一定程度的规模时才能体现出在推荐系统中的作用，但是引入一定规模的知识图谱会提高推荐系统的复杂度，典型的其他问题还包括知识图谱中特征的挖掘等。

技术实现要素：

6.本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于图谱关系挖掘的产品配置推荐方法及系统。
7.为解决上述技术问题，本发明提供一种基于图谱关系挖掘的产品配置推荐方法，包括：
8.获取客户-产品-物料实体信息，输入到预先基于企业业务数据库构建的训练好的fm模型，输出产品配置结果；
9.所述基于企业业务数据库构建的训练好的fm模型的构建，包括：
10.利用实际业务数据库完成产品、物料、组件的知识抽取并完成图谱构建；对构建的图谱通过图谱路径分析完成构成产品的物料和组件的召回；利用fp-growth算法在召回结果的基础上离线计算产品配置的频次，代入更新产品、物料、组件的关系，得到关系优化后的知识图谱；
11.基于关系优化后的知识图谱通过fm模型进行训练，完成产品配置推荐方法的模型
训练，得到基于企业业务数据库构建的训练好的fm模型。
12.进一步的，所述利用实际业务数据库完成产品、物料、组件的知识抽取并完成图谱构建，包括：
13.获取企业生产运营的结构化数据、半结构化数据和非结构化数据进行数据，对半结构化数据和非结构化数据进行实体抽取和关系抽取，根据结构化数据与抽取到的实体和关系采用自顶向下的模式进行建模，得到包括地区、客户、产品、物料、组件5类本体的本体模型，根据本体模型建立产品-物料-组件产品知识图谱。
14.进一步的，所述对构建的图谱通过图谱路径分析完成构成产品的物料和组件的召回，包括：
15.根据构建的产品-物料-组件产品知识图谱中地区、客户、产品、物料、组件实体之间的关系，构建特定的元路径；
16.对于不同的客户、产品实体，基于元路径不同的权重进行路径挖掘，召回关联的实体、关联实体的层次关系；
17.计算不同元路径下客户产品实体之间的语义相似性，召回语义相似性超过50％的关联实体；
18.将关联的实体、关联实体的层次关系和语义相似性超过50％的关联实体相合并，完成构成产品的物料和组件的召回。
19.进一步的，所述利用fp-growth算法离线计算产品配置的频次，代入更新产品、物料、组件的关系，包括：
20.基于客户物料信息建立的频繁树挖掘出最大项集m
max
，共有k项，m
max
＝{m1,m2,
…
,mk}，mk表示第k个物料；
21.根据最大项集m
max
计算客户产品配置的置信度和相似度，置信度为产品知识图谱中元路径的权重，相似度为不同路径下客户产品实体之间的语义相似性；
22.将客户与产品、物料作为实体，客户产品配置的相似度与置信度作为物料实体的属性，将产品配置的相似度与置信度结果更新到知识图谱中对知识图谱进行关系优化。
23.进一步的，所述计算客户产品配置的置信度和相似度，包括：
24.客户产品配置的置信度的计算公式为：
25.p(y|x)＝p(xy)/p(x)
26.x表示每个客户的某个产品项集，y表示每个客户的某个产品的物料项集，p(xy)表示项集x和y同时出现的概率，p(x)表示项集x出现的概率，p(y|x)表示在同一个客户同一种产品的情况下，物料组合的项集的条件概率；
27.对于任意一个客户其他物料项集，客户产品配置的相似度计算公式为：
[0028][0029]
其中，c
max
指m
max
中所有物料实体的组件的并集，中所有物料实体的组件的并集，指第k个物料mk包含的所有组件集合，计算每一个其他物料项集的物料实体组成组件的并集mi表示客户第i个其他物料项集，其中i＝1,2,3,
…
,n。
[0030]
进一步的，所述基于关系优化后的知识图谱通过fm模型进行训练，完成产品配置
推荐方法的模型训练，得到基于企业业务数据库构建的训练好的fm模型，包括：
[0031]
将知识图谱中客户与不同产品物料的实体属性作为fm模型的输入x，x的每一行表示一种客户与不同产品物料的组合的所有特征，即一个样本，每一列表示所有样本的同一个特征；
[0032]
fm模型表示为：
[0033][0034]
式中，w0、wi、w
ij
为fm模型的训练参数，xi表示输入x中的第i列，即客户与产品物料的第i个特征，xj表示输入x中的第j列，即客户与产品物料的第j个特征，n表示特征数量，特征包括相似度和置信度两个特征，xixj表示两个矩阵对应位置进行点乘；
[0035]
对fm模型引入矩阵分解，最终fm最终模型为：
[0036][0037]
式中，vi表示xi的隐向量，vj表示xj的隐向量，v
i,f
表示隐向量vi的第f个元素，v
j,f
表示隐向量vj的第f个元素，k表示隐向量长度；
[0038]
利用随机梯度下降法训练fm最终模型，通过梯度的不断更新，当导数结果为0时，得到的w0、wi、w
ij
就是fm最终模型的最优参数，根据最优参数确定训练好的fm模型。
[0039]
一种基于图谱关系挖掘的产品配置推荐系统，包括：
[0040]
处理模块，用于获取客户-产品-物料实体信息，输入到预先基于企业业务数据库构建的训练好的fm模型，输出产品配置结果；
[0041]
所述处理模块，还用于利用实际业务数据库完成产品、物料、组件的知识抽取并完成图谱构建；对构建的图谱通过图谱路径分析完成构成产品的物料和组件的召回；利用fp-growth算法在召回结果的基础上离线计算产品配置的频次，代入更新产品、物料、组件的关系，得到关系优化后的知识图谱；基于关系优化后的知识图谱通过fm模型进行训练，完成产品配置推荐方法的模型训练，得到基于企业业务数据库构建的训练好的fm模型。
[0042]
一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。
[0043]
一种计算设备，包括，
[0044]
一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
[0045]
本发明所达到的有益效果：
[0046]
知识图谱包含了丰富的实体信息，使推荐系统具有准确性、多样性、可解释性优势，利用知识图谱的图计算，基于关系型图数据库实现关联路径分析。而本文基于知识图谱进行物料召回，可以缓解冷启动问题，可以实现产品相关物料和组件的最大程度召回，且召回的范围可控。
[0047]
传统的fm算法行为表征颗粒度粗，仅通过“有/无”来表征个体行为，可以解决特征组合下的数据稀疏的问题，但受限于计算复杂度，一般也只考虑一阶交叉，泛化能力不强。利用fp-tree挖掘现有的产品配置的关系权重，实现个体行为特征的精细化、归一化表示，可以实现fm算法的性能提升。
[0048]
fp-growth算法通过离线计算产品配置的频次，带入更新“产品、物料、组件”的关系，在通过知识图谱召回物料和组件的同时，直接带出相关的权重进行排序计算，无需单独查表。且由于知识图谱召回性能的提升(召回数据集较小)，计算时间可以掌控。
附图说明
[0049]
图1为本发明的模型训练总体流程和原理图；
[0050]
图2为本发明中产品知识图谱本体构建示意图。
具体实施方式
[0051]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。
[0052]
如图1-2所示，本发明所提供的一种基于图谱关系挖掘的产品配置推荐方法包括以下步骤：
[0053]
步骤1.依托企业业务数据库完成产品、物料、组件的知识抽取和图谱构建；
[0054]
采用自顶向下的模式构建产品知识图谱，即首先通过人工整理出产品知识图谱的实体关系模型图，后利用整理出的实体关系模型图进行产品知识图谱的构建。获取企业生产运营的结构化数据、半结构化数据和非结构化数据进行数据，对半结构化数据和非结构化数据进行实体抽取和关系抽取，根据结构化数据与抽取到的实体和关系采用自顶向下的模式进行建模，得到如图2所示的包括地区、客户、产品、物料、组件5类实体的本体模型，实体间关系包括属于关系、包含关系、订购关系、组成关系等。地区本体包括所有合作客户的所属省份、国家等地区实体，地区名称、地区编码作为地区实体的属性。客户本体包括企业合作的具体客户实体，客户的名称、编码等作为客户实体的属性。产品本体包括生产中心生产的所有产品实体，产品的型号、名称作为产品的属性。物料本体包括组成产品的各种物料实体，包括各种装置等，物料的编号、描述、基本数量等作为物料的属性。组件本体包括所有组成物料的组件实体，如各种插件、板件、机箱等组件实体，组件的编号、描述、数量等作为组件实体的属性。完成实体和关系抽取，建立“产品、物料、组件”产品知识图谱。
[0055]
步骤2.通过图谱路径分析完成构成产品的物料和组件的召回；
[0056]
采用基于路径的方法进行图谱召回。根据构建的产品-物料-组件产品知识图谱中地区、客户、产品、物料、组件实体之间的关系，构建特定的元路径meta-path。对于不同的客户、产品实体，基于元路径不同的权重进行路径挖掘，召回关联的实体、关联实体的层次关系；计算不同元路径下客户产品实体之间的语义相似性，召回语义相似性超过50％的关联实体；将关联的实体、关联实体的层次关系和语义相似性超过50％的关联实体相合并，完成构成产品的物料和组件的召回，进而提升召回效果。
[0057]
步骤3.利用fp-growth算法离线计算产品配置的频次，代入更新“产品、物料、组件”的关系；
[0058]
基于客户物料信息建立的频繁树fp-tree挖掘出最大项集m
max
共有k项：m
max
＝{m1,m2,
…
,mk}，mk表示第k个物料；根据最大项集m
max
计算客户产品配置的置信度和相似度，置信度为产品知识图谱中元路径的权重，相似度为不同路径下客户产品实体之间的语义相似性；将客户与产品、物料作为实体，客户产品配置的相似度与置信度作为物料实体的属性，将规则关联到知识图谱中对知识图谱进行关系优化。客户产品配置的相似度计算公式为：将规则关联到知识图谱中对知识图谱进行关系优化。客户产品配置的相似度计算公式为：其中，c
max
指m
max
中所有物料实体的组件的并集，即：指第k个物料包含的所有组件集合。计算每一个其他物料项集的物料实体组成组件的并集mi表示客户第i个其他物料项集，其中i＝1,2,3,
…
,n。
[0059]
步骤4.优化fm算法，基于
[0060]
关于物料实体的置信度，x和y是不相交的两个项集，即置信度表示项集y出现在包含项集x的事务中的频繁程度，即在出现项集x的情况下，项集x推导出项集y的条件概率：
[0061]
p(y|x)＝p(xy)/p(x)
[0062]
本文将每个客户的某个产品作为这里的项集x，y表示每个客户的某个产品的物料项集。p(x)表示项集x出现的概率，p(xy)表示项集x和y同时出现的概率。这里得到的置信度即是在同一个客户同一种产品的情况下，物料组合的项集的条件概率。
[0063]
知识图谱通过fm模型进行训练，完成产品配置推荐方法的模型训练，从而精细化产品配置行为，提升fm算法准确率。
[0064]
将知识图谱中客户与不同产品物料的实体属性作为fm模型的输入x，x的每一行表示一种客户与不同产品物料的组合的所有特征，即一个样本，每一列表示所有样本的同一个特征；
[0065]
举例说明如下：有客户a，客户a的产品物料有a、产品物料b、产品物料c，则输入x如下所示：
[0066][0067]
上式中x的第一行第一列表示客户a与产品物料a的相似度，第一行第二列表示客户a与产品物料a的置信度，以此类推，x中的第二行第三行分别是客户a与产品物料b和产品物料c的相似度与置信度两个特征。
[0068]
fm模型表示为：
[0069][0070]
式中，w0、wi、w
ij
为fm模型的训练参数，xi表示输入x中的第i列，即客户与产品物料的第i个特征，xj表示输入x中的第j列，即客户与产品物料的第j个特征，n表示特征数量，特征包括相似度和置信度两个特征，xixj表示两个矩阵对应位置进行点乘；
[0071]
对fm模型引入矩阵分解，所有的二次交叉项系数w
ij
可以组成一个对称矩阵w，则矩
阵w可以分解为w＝v
t
v，vj(v的第j列)即xj(第j维特征)的隐向量。类似的，表示二次交叉项系数w
ij
等于xi对应的隐向量与xj对应的隐向量的内积。
[0072][0073]
简化过程如下：
[0074][0075]
化简后的fm最终模型为：
[0076][0077]
式中，v
i,f
表示隐向量vi的第f个元素，v
j,f
表示隐向量vj的第f个元素，k表示矩阵vi的行数；
[0078]
利用随机梯度下降法sgd训练fm最终模型，通过梯度的不断更新，当导数结果为0时，得到的w0、wi、w
ij
就是fm最终模型的最优参数，根据最优参数确定训练好的fm模型。
[0079]
fm模型各个参数的梯度如下：
[0080][0081]
以客户c为例，产品配置推荐结果如表1所示，根据相似度排序，得到相似度最高的几种产品配置结果。
[0082]
表1
[0083][0084]
相应的本发明还提供一种基于图谱关系挖掘的产品配置推荐系统，包括：
[0085]
处理模块，用于获取客户-产品-物料实体信息，输入到预先基于企业业务数据库构建的训练好的fm模型，输出产品配置结果；
[0086]
所述处理模块，还用于利用实际业务数据库完成产品、物料、组件的知识抽取并完成图谱构建；对构建的图谱通过图谱路径分析完成构成产品的物料和组件的召回；利用fp-growth算法在召回结果的基础上离线计算产品配置的频次，代入更新产品、物料、组件的关系，得到关系优化后的知识图谱；基于关系优化后的知识图谱通过fm模型进行训练，完成产品配置推荐方法的模型训练，得到基于企业业务数据库构建的训练好的fm模型。
[0087]
相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述的方法中的任一方法。
[0088]
相应的本发明还提供一种计算设备，包括，
[0089]
一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
[0090]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0091]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0092]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0093]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
[0094]
以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种智能调度算法智能计算出最佳车辆分配方案及路径的制作方法

一种基于图谱关系挖掘的产品配置推荐方法及系统与流程

相关文献

最热文献