一种基于零售场景的高价值数据挖掘方法及装置与流程

2022-05-26 17:13:20 来源：中国专利 TAG：

1.本技术涉及商品包装领域，具体而言，涉及一种基于零售场景的高价值数据挖掘方法及装置。

背景技术：

2.目前，在零售场景中品牌方通常会上传图片给提供商，以使提供商通过深度学习算法识别图片中的sku并返回给品牌方，从而完成品牌方的智能渠道核查。然而，在零售行业中无论是竞品还是本品，包装推陈出新较快。而这就直接导致了提供商在不断接收新包装时不可避免地对识别模型造成负面影响。在现有方案中，品牌方会提前通知ai根据人工收集的新品数据重新训练识别模型，从而使得识别模型具有识别新包装商品的能力。但是，在实践中发现，该种方法仍需要通过人工筛选新品数据，从而导致人力成本较高且效率较低；另外该种方法中ai只是处于被动地位，无法有效地进行主动识别，从而使得现有方法无法胜任自动可持续化的场景当中。

技术实现要素：

3.本技术实施例的目的在于提供一种基于零售场景的高价值数据挖掘方法及装置，能够避免人工对新品数据筛选，从而实现主动、自动、可持续化的新品数据挖掘，进而降低人力成本并提高挖掘效率。
4.本技术实施例第一方面提供了一种基于零售场景的高价值数据挖掘方法，包括：
5.获取零售商品图片；
6.通过预设的多个分类模型对所述零售商品图片进行分类，得到与所述多个分类模型一一对应的多个最大类别概率；
7.判断所述多个最大类别概率是否皆小于预设类别概率；
8.当所述多个最大类别概率皆小于所述预设类别概率时，确定所述零售商品图片为高价值数据。
9.进一步地，所述方法还包括：
10.当所述多个最大类别概率皆大于等于所述预设类别概率时，获取与所述多个分类模型一一对应的多个同类类别概率；所述多个同类类别概率对应于相同的分类类别；
11.判断所述多个同类类别概率的平均差是否大于等于预设的平均差阈值；
12.当所述多个同类类别概率的平均差大于等于所述平均差阈值时，确定所述零售商品图片为高价值数据。
13.进一步地，所述方法还包括：
14.当所述多个同类类别概率的平均差小于所述平均差阈值时，根据每个分类模型确定所述零售商品图片的类中心和类半径；
15.根据预设的计算公式、所述零售商品图片、所述类中心、所述类半径和预设参数进行计算，得到计算结果；
16.当所述计算结果表示所述零售商品图片的特征距离大于等于预设距离时，确定所述零售商品图片为高价值数据；所述预设距离为所述类半径与预设参数的乘积。
17.进一步地，所述类中心的确定公式为：
18.其中，
19.μi表示类中心；
20.i
ij
表示训练集中分类类别为i的第j张图像；
21.e表示额分类模型中卷积层模块；
22.e(i
ij
)表示分类类别为i的第j张图像的特征值；
23.ni表示所述训练集中分类类别为i的图像数量。
24.进一步地，所述类半径的确定公式为：
25.其中，
26.di表示类半径；
27.μi表示类中心；
28.e表示额分类模型中卷积层模块；
29.e(i
ij
)表示分类类别为i的第j张图像的特征值；
30.||e(i
ij
)-μi||表示分类类别为i的第j张图像的特征距离，所述特征距离为向量二范数。
31.进一步地，所述计算公式为：
32.||e(i
pd
)-μi||≥c2di；其中，
33.i
pd
表示零售商品图片；
34.||e(i
pd
)-μi||表示零售商品图片的特征距离，所述特征距离为向量二范数；
35.c2di表示预设距离；
36.di表示类半径；
37.c2表示预设参数。
38.进一步地，所述方法还包括：
39.对所述高价值数据进行标注，得到标注数据；
40.根据所述标注数据对所述分类模型进行迭代训练，得到新的分类模型。
41.本技术实施例第二方面提供了一种基于零售场景的高价值数据挖掘装置，所述基于零售场景的高价值数据挖掘装置包括：
42.获取单元，用于获取零售商品图片；
43.分类单元，用于通过预设的多个分类模型对所述零售商品图片进行分类，得到与所述多个分类模型一一对应的多个最大类别概率；
44.判断单元，用于判断所述多个最大类别概率是否皆小于预设类别概率；
45.确定单元，用于当所述多个最大类别概率皆小于所述预设类别概率时，确定所述零售商品图片为高价值数据。
46.本技术实施例第三方面提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本技术实
施例第一方面中任一项所述的基于零售场景的高价值数据挖掘方法。
47.本技术实施例第四方面提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本技术实施例第一方面中任一项所述的基于零售场景的高价值数据挖掘方法。
附图说明
48.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
49.图1为本技术实施例提供的一种基于零售场景的高价值数据挖掘方法的流程示意图；
50.图2为本技术实施例提供的一种基于零售场景的高价值数据挖掘装置的结构示意图；
51.图3为本技术实施例提供的一种零售商品图片分类类别的确定流程；
52.图4为本技术实施例提供的一种分类模型的结构示意图。
具体实施方式
53.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
54.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
55.实施例1
56.请参看图1，图1为本实施例提供了一种基于零售场景的高价值数据挖掘方法的流程示意图。其中，该基于零售场景的高价值数据挖掘方法包括：
57.s101、获取零售商品图片。
58.本实施例中，零售商品图片尚不确定是否为高价值数据。
59.s102、通过预设的多个分类模型对零售商品图片进行分类，得到与多个分类模型一一对应的多个最大类别概率。
60.本实施例中，如果有三个分类模型，命名该三个分类模型为分类模型1、分类模型2、分类模型3。此时，分类模型1可以给出对对应于第一类别的类别概率p1、对应于第二类别的类别概率p2和对应于第三类别的类别概率p3；分类模型2可以给出对对应于第一类别的类别概率p4、对应于第二类别的类别概率p5和对应于第三类别的类别概率p6；分类模型3可以给出对对应于第一类别的类别概率p7、对应于第二类别的类别概率p8和对应于第三类别的类别概率p9。
61.本实施例中，多个最大类别概率可以为p2、p6、p8。其中，p2是比p1、p3大，所以被提出；p6比p5、p4大，所以被提出；p8比p7、p9大，所以被提出。
62.s103、判断多个最大类别概率是否皆小于预设类别概率，若是，则执行步骤s109；若否，则执行步骤s104。
63.本实施例中，多个最大类别概率的皆小于预设类别概率，则认为该零售商品图片为高价值图片。其原因是，暂无分类模型能够有效识别出该零售商品图片。
64.本实施例中，预设类别概率取0.42可以取得较好效果。
65.在本实施例中，该方法可以对应n个类别，则分类概率一般为n维向量。
66.s104、获取与多个分类模型一一对应的多个同类类别概率；多个同类类别概率对应于相同的分类类别。
67.s105、判断多个同类类别概率的平均差是否大于等于预设的平均差阈值，若是，则执行步骤s109；若否，则执行步骤s106。
68.本实施例中，假设商品类别为类别i，3个分类模型预测该类别的概率分别为p1、p2、p3，那么算数平均值则为：
[0069][0070]
此时，如果|p1
i-ui| |p2
i-ui| |p3
i-ui|≥c1，则认为该零售商品图片为高价值数据，实践中c1取值可以为0.5。
[0071]
s106、根据每个分类模型确定零售商品图片的类中心和类半径。
[0072]
本实施例中，类中心的确定公式为：
[0073]
其中，
[0074]
μi表示类中心：
[0075]iij
表示训练集中分类类别为i的第j张图像；
[0076]
e表示额分类模型中卷积层模块：
[0077]
e(i
ij
)表示分类类别为i的第j张图像的特征值；
[0078]
ni表示训练集中分类类别为i的图像数量。
[0079]
本实施例中，类半径的确定公式为：
[0080]
其中，
[0081]di
表示类半径；
[0082]
μi表示类中心；
[0083]
e表示额分类模型中卷积层模块；
[0084]
e(i
ij
)表示分类类别为i的第j张图像的特征值；
[0085]
||e(i
ij
)-μi||表示分类类别为i的第j张图像的特征距离，特征距离为向量二范数。
[0086]
本实施例中，将训练集中的图片经过分类模型中的卷积层得到训练集的图像embedding，计算训练集类别的以下特征：
[0087]
类中心μi：其中i
ij
表示训练集中类别i中第j张图像，e表示分类中卷积层模块，e(i
ij
)表示类别i中第j张图像的embedding，ni表示训练集中类别i的图像数量；
[0088]
类半径di：其中|| ||表示向量二范数。
[0089]
在本实施例中，上述计算可在模型完成训练后计算得到。在提供服务期间，针对每个分类模型，预测该商品图片为类别i，如果均存在||e(i
pd
)-μi||≥c2di，(其中i
pd
表示商品图片)，则该商品图片为高价值数据。实践中c2取为1.2。
[0090]
s107、根据预设的计算公式、零售商品图片、类中心、类半径和预设参数进行计算，得到计算结果。
[0091]
本实施例中，计算公式为：
[0092]
||e(i
pd
)-μi|≥c2di；其中，
[0093]ipd
表示零售商品图片；
[0094]
||e(i
pd
)-μi||表示零售商品图片的特征距离，特征距离为向量二范数；
[0095]
c2di表示预设距离；
[0096]di
表示类半径；
[0097]
c2表示预设参数。
[0098]
本实施例中，c2可以取为1.2
[0099]
s108、判断计算结果是否表示零售商品图片的特征距离大于等于预设距离，若是，则执行步骤s109；若否，则结束本流程。
[0100]
本实施例中，预设距离为类半径与预设参数的乘积。
[0101]
本实施例中，预设参数为c2。
[0102]
s109、确定零售商品图片为高价值数据。
[0103]
本实施例中，高价值数据为高价值图片，高价值用于表示能够识别新品的数据。
[0104]
s110、对高价值数据进行标注，得到标注数据。
[0105]
本实施例中，可以理解的是上述对高价值数据进行标注的工作量远远小于手工挑选新包装商品的工作量。
[0106]
s111、根据标注数据对分类模型进行迭代训练，得到新的分类模型。
[0107]
请参阅图3，图3示出了一种零售商品图片分类类别的确定流程。该流程中，先获取零售图片，然后通过ai识别识别商品框并对商品框进行裁剪得到无框图片，再进一步对无框图片进行分类，得到多个分类模型的多个类别概率，并计算均值，确定最高的概率为商品类别。
[0108]
请参阅图4，图4示出了一种分类模型的结构示意图。图4中，分类模型主要由卷积层得到图像embedding(通常为512维向量)，然后将embedding送入全连接层再经过softmax层之后得到n维向量，从而得到类别概率。
[0109]
本实施例中，该方法的执行主体可以为计算机、服务器等计算装置，对此本实施例中不作任何限定。
[0110]
在本实施例中，该方法的执行主体还可以为智能手机、平板电脑等智能设备，对此本实施例中不作任何限定。
[0111]
可见，实施本实施例所描述的基于零售场景的高价值数据挖掘方法，能够以较小的代价进行在线计算从而实时地挑选出高价值图片，然后再对高价值图片进行标注便可以使用标注后的数据训练分类模型，从而使得线上模型可以主动地发现新品并快速、低成本地获取新品识别能力，进而优化用户体验。
[0112]
实施例2
[0113]
请参看图2，图2为本实施例提供的一种基于零售场景的高价值数据挖掘装置的结构示意图。如图2所示，该基于零售场景的高价值数据挖掘装置包括：
[0114]
获取单元210，用于获取零售商品图片；
[0115]
分类单元220，用于通过预设的多个分类模型对零售商品图片进行分类，得到与多个分类模型一一对应的多个最大类别概率；
[0116]
判断单元230，用于判断多个最大类别概率是否皆小于预设类别概率；
[0117]
确定单元240，用于当多个最大类别概率皆小于预设类别概率时，确定零售商品图片为高价值数据。
[0118]
作为一种可选的实施方式，获取单元210，还用于当多个最大类别概率皆大于等于预设类别概率时，获取与多个分类模型一一对应的多个同类类别概率；多个同类类别概率对应于相同的分类类别；
[0119]
判断单元230，还用于判断多个同类类别概率的平均差是否大于等于预设的平均差阈值；
[0120]
确定单元240，还用于当多个同类类别概率的平均差大于等于平均差阈值时，确定零售商品图片为高价值数据。
[0121]
作为一种可选的实施方式，该基于零售场景的高价值数据挖掘装置还包括：
[0122]
确定单元240，还用于当多个同类类别概率的平均差小于平均差阈值时，根据每个分类模型确定零售商品图片的类中心和类半径；
[0123]
计算单元250，用于根据预设的计算公式、零售商品图片、类中心、类半径和预设参数进行计算，得到计算结果；
[0124]
确定单元240，还用于当计算结果表示零售商品图片的特征距离大于等于预设距离时，确定零售商品图片为高价值数据；预设距离为类半径与预设参数的乘积。
[0125]
作为一种可选的实施方式，类中心的确定公式为：
[0126]
其中，
[0127]
μi表示类中心；
[0128]iij
表示训练集中分类类别为i的第j张图像；
[0129]
e表示额分类模型中卷积层模块；
[0130]
e(i
ij
)表示分类类别为i的第i张图像的特征值；
[0131]
ni表示训练集中分类类别为i的图像数量。
[0132]
作为一种可选的实施方式，类半径的确定公式为：
[0133]
其中，
[0134]di
表示类半径；
[0135]
μi表示类中心∶
[0136]
e表示额分类模型中卷积层模块；
[0137]
e(i
ij
)表示分类类别为i的第j张图像的特征值；
[0138]
||e(i
ij
)-μi||表示分类类别为i的第j张图像的特征距离，特征距离为向量二范数。
[0139]
作为一种可选的实施方式，计算公式为：
[0140]
||e(i
pd
)-μi||≥c2di；其中，
[0141]ipd
表示零售商品图片；
[0142]
||e(i
pd
)-μi||表示零售商品图片的特征距离，特征距离为向量二范数；
[0143]
c2di表示预设距离；
[0144]di
表示类半径；
[0145]
c2表示预设参数。
[0146]
作为一种可选的实施方式，基于零售场景的高价值数据挖掘装置还包括：
[0147]
标注单元260，用于对高价值数据进行标注，得到标注数据；
[0148]
训练单元270，用于根据标注数据对分类模型进行迭代训练，得到新的分类模型。
[0149]
本技术实施例中，对于基于零售场景的高价值数据挖掘装置的解释说明可以参照实施例1中的描述，对此本实施例中不再多加赘述。
[0150]
可见，实施本实施例所描述的基于零售场景的高价值数据挖掘装置，能够以较小的代价进行在线计算从而实时地挑选出高价值图片，然后再对高价值图片进行标注便可以使用标注后的数据训练分类模型，从而使得线上模型可以主动地发现新品并快速、低成本地获取新品识别能力，进而优化用户体验。
[0151]
本技术实施例提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本技术实施例1中的基于零售场景的高价值数据挖掘方法。
[0152]
本技术实施例提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本技术实施例1中的基于零售场景的高价值数据挖掘方法。
[0153]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0154]
另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0155]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而
前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0156]
以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0157]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。
[0158]
需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于零售场景的高价值数据挖掘方法及装置与流程

相关文献

最热文献