目标商品识别方法及其装置、设备、介质、产品与流程

2022-08-13 13:49:26 来源：中国专利 TAG：

1.本技术涉及电商信息技术领域，尤其涉及一种目标商品识别方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术：

2.电商平台中卖家用户为了衬托上架商品的效果，通常为上架商品配套其他搭配物品，上架商品的商品图片中便不仅包含上架商品还包含其他搭配物品。例如上架商品是衣服，其他搭配物品可能是裤子、帽子、鞋子等；上架商品是置物架，其他搭配物品可能是家居电器、书本、摆件等。因而无法单纯通过商品图片确定对应的上架商品。
3.电商平台中常需从包含目标商品的商品图片中识别出该目标商品相对应的图像，用于实现其他下游任务，例如实现商品相似匹配、商品图像展示等。如果无法快速从商品图片中获取对应的目标商品的图像，将影响实现相关下游任务的效率，可能导致无法实现相关功能，导致用户体验下降。
4.传统的解决方案，常采用多目标识别方法，从商品图片中识别出各个物品，其中包括所述的上架商品及其搭配物品，然后根据各个物品进行分类预测，确定出其中属于所述商品相对象的图像。这种方式需要经过两阶段处理，两个阶段分别需要采用不同的模型来实施，且不同模型均需对图像进行图像预处理之类的操作，过程繁琐，效率相对较低，更为麻烦的是两阶段的相关模型一般需要分别采用对应的数据集进行训练，训练成本较高。
5.有鉴于此，本技术人试图探索可以从包含目标商品的商品图片中快速识别出该目标商品的其他方式。

技术实现要素：

6.本技术的首要目的在于解决上述问题至少之一而提供一种目标商品识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
7.为满足本技术的各个目的，本技术采用如下技术方案：
8.适应本技术的目的之一而提供的一种目标商品识别方法，包括如下步骤：
9.获取目标商品的商品信息中的商品标题及商品图片；
10.提取所述商品图片和商品标题的深层语义信息；
11.将所述商品标题的深层语义信息融合至所述商品图片的深层语义信息，以根据所述商品标题的深层语义信息突显出所述目标商品在所述商品图片的深层语义信息中的图像特征，获得图文融合特征信息；
12.将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品。
13.进一步的实施例中，提取所述商品图片和商品标题的深层语义信息的步骤中，包括如下步骤：
14.预处理所述商品图片，将预处理后的商品图片输入至预先训练至收敛的图像特征
提取模型，获得相应的深层语义信息，用于表征所述商品图片的图像特征；
15.预处理所述商品标题，将预处理后的商品标题输入至预先训练至收敛的文本特征提取模型，获得相应的深层语义信息，用于表征所述商品标题的文本特征。
16.深化的实施例中，预处理所述商品标题的步骤中，包括如下步骤：
17.过滤所述商品标题中的无效字符；
18.对过滤后的商品标题进行分词，获得其中的关键词，所述关键词包括目标商品的产品词和/或品牌词，完成对所述商品标题的预处理。
19.进一步的实施例中，将所述商品标题的深层语义信息融合至所述商品图片的深层语义信息，以根据所述商品标题的深层语义信息突显出所述目标商品在所述商品图片的深层语义信息中的图像特征，获得图文融合特征信息的步骤中，包括如下步骤：
20.采用多模态特征交互融合模块融合所述商品标题的深层语义信息和所述商品图片的深层语义信息，获得初步融合特征信息，所述初步融合特征信息中显著表征所述目标商品的图像的特征；
21.将所述初步融合特征信息与所述商品图片的深层语义信息结合，获得图文融合特征信息；
22.较佳的实施例中，采用多模态特征交互融合模块融合所述商品标题的深层语义信息和所述商品图片的深层语义信息，获得初步融合特征信息的步骤中，包括如下步骤：
23.以所述商品图片的深层语义信息构造查询向量，以所述商品标题的深层语义信息构造键向量和值向量，输入注意力层；
24.由所述注意力层将所述查询向量与所述键向量进行交互并归一化，获得权重矩阵；
25.由所述注意力层将所述值向量匹配所述权重矩阵获得初步融合特征信息。
26.进一步的实施例中，将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品的步骤中，包括如下步骤：
27.采用预先训练至收敛的目标检测模型根据所述图文融合特征信息检测所述商品图片中的目标商品，获得相应的检测区域；
28.求取包围所述检测区域的最小面积的矩形框，以其框选出目标商品作为识别结果。
29.扩展的实施例中，将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品的步骤之后，还包括如下步骤：
30.根据所述框选出目标商品的矩形框从所述商品图片中截取出目标商品的图像，将其关联目标商品的唯一标识码存储于商品数据库；
31.响应商品推荐请求，根据目标商品的唯一标识码检索商品数据库获取目标商品的图像，匹配与其相似的推荐商品；
32.应答所述商品推荐请求，推送所述推荐商品。
33.适应本技术的目的之一而提供的一种目标商品识别装置，包括：图文获取模块、语义提取模块、特征融合模块以及目标识别模块，其中，图文获取模块，用于获取目标商品的商品信息中的商品标题及商品图片；语义提取模块，用于提取所述商品图片和商品标题的深层语义信息；特征融合模块，用于将所述商品标题的深层语义信息融合至所述商品图片
的深层语义信息，以根据所述商品标题的深层语义信息突显出所述目标商品在所述商品图片的深层语义信息中的图像特征，获得图文融合特征信息；目标识别模块，用于将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品。
34.进一步的实施例中，所述语义提取模块，包括：图像特征提取子模块，用于预处理所述商品图片，将预处理后的商品图片输入至预先训练至收敛的图像特征提取模型，获得相应的深层语义信息，用于表征所述商品图片的图像特征；文本特征提取子模块，用于预处理所述商品标题，将预处理后的商品标题输入至预先训练至收敛的文本特征提取模型，获得相应的深层语义信息，用于表征所述商品标题的文本特征。
35.深化的实施例中，所述图像特征提取子模块，包括：字符过滤单元，用于过滤所述商品标题中的无效字符；文本分词单元，用于对过滤后的商品标题进行分词，获得其中的关键词，所述关键词包括目标商品的产品词和/或品牌词，完成对所述商品标题的预处理。
36.进一步的实施例中，所述特征融合模块，包括：语义融合子模块，用于采用多模态特征交互融合模块融合所述商品标题的深层语义信息和所述商品图片的深层语义信息，获得初步融合特征信息，所述初步融合特征信息中显著表征所述目标商品的图像的特征；信息结合子模块，用于将所述初步融合特征信息与所述商品图片的深层语义信息结合，获得图文融合特征信息；
37.较佳的实施例中，所述语义融合子模块，包括：向量输入单元，用于以所述商品图片的深层语义信息构造查询向量，以所述商品标题的深层语义信息构造键向量和值向量，输入注意力层；权重提取单元，用于由所述注意力层将所述查询向量与所述键向量进行交互并归一化，获得权重矩阵；特征生成单元，用于由所述注意力层将所述值向量匹配所述权重矩阵获得初步融合特征信息。
38.进一步的实施例中，所述目标识别模块，包括：目标检测单元，用于采用预先训练至收敛的目标检测模型根据所述图文融合特征信息检测所述商品图片中的目标商品，获得相应的检测区域；框选识别单元，用于求取包围所述检测区域的最小面积的矩形框，以其框选出目标商品作为识别结果。
39.扩展的实施例中，所述目标识别模块之后，还包括：截取存储模块，用于根据所述框选出目标商品的矩形框从所述商品图片中截取出目标商品的图像，将其关联目标商品的唯一标识码存储于商品数据库；响应请求模块，用于响应商品推荐请求，根据目标商品的唯一标识码检索商品数据库获取目标商品的图像，匹配与其相似的推荐商品；应答请求模块，用于应答所述商品推荐请求，推送所述推荐商品。
40.本技术的技术方案存在多方面优势，包括但不限于如下各方面：
41.首先，本技术利用商品标题的深层语义信息突显出目标商品在商品图片的深层语义信息中的图像特征，提供指示商品图片中目标商品的关键信息，使得根据该关键信息即可进行针对单个对象的识别，快速精准地从商品图片中识别目标商品；
42.其次，采用多模态特征融合，融合商品标题的深层语义信息和商品图片的深层语义信息，进而根据融合特征便可识别出目标商品，可以简化用于实现识别的模型架构及其训练步骤，即是采用一个数据集即可一并训练相关模型，训练成本较低，训练过程相对简便，而且，可以理解，本技术实现的目标商品识别通过单个阶段即可实现识别，其执行效率相对较高。
communications service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；pda(personal digital assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(global positioning system，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是pda、mid(mobile internet device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。
61.本技术所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。
62.需要指出的是，本技术所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本技术的网络部署方式的实施方式。
63.本技术的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。
64.本技术中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。
65.本技术所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本技术的技术方案所调用即可。
66.本领域技术人员对此应当知晓：本技术的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本技术所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。
67.本技术即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本技术的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。
68.本技术的一种目标商品识别方法，可被编程为计算机程序产品，部署于服务器中运行而实现，例如在本技术的电商平台应用场景中，一般部署在服务器中实施，藉此可以通
过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
69.本技术采用本技术实现的目标识别模型以实现目标商品识别的功能，所述目标识别模型为集成模型，其中包含用于提取商品图片对应的深层语义信息的神经网络模型、用于提取商品标题对应的深层语义信息的神经网络模型、用于识别商品图像中的目标商品的神经网络模型。
70.请参阅图1，本技术的目标商品识别方法在其典型实施例中，包括如下步骤：
71.适应本技术的目的之一而提供的一种目标商品识别方法，包括如下步骤：
72.步骤s1100、获取目标商品的商品信息中的商品标题及商品图片；
73.在电商平台的应用场景中，可以每一个商品作为一个相对独立的单个信息单元进行处理，由电商平台的线上店铺的商家用户负责发布、维护以及更新，且可提供给消费者用户进行浏览和下单等。所述的线上店铺可以是独立站点，独立站点独立维护自身线上店铺的商品的商品数据库，可以通过安装本技术实现的计算机程序产品来对商品图片中的目标商品做出识别。每个商品均有其对应的商品信息用于描述该商品，所述商品信息通常包含商品标题及商品图片。
74.所述目标商品为上架商品，由电商平台的线上店铺的商家用户负责目标商品的上架发布及销售。
75.所述商品图片，通常用于展示目标商品，图片中包含目标商品，或还包含为了衬托出目标商品的效果而配套目标商品的其他搭配物品，例如，当目标商品为裙子时，其商品图片之一可以是模特穿上裙子以及与裙子配套搭配的鞋子、衣服、首饰、外套，以展示裙子的效果；当目标商品为置物架时，其商品图片之一可以是置物架以及与置物架配套搭配的书本、家居电器、摆件，以展示置物架的效果。也即所述的商品图片，可能存在除了目标商品以外的其他内容，而这些内容中，也可能出现当前目标商品之外的其他商品。
76.所述的商品标题，为关联所述目标商品存储的且始于以文本形式提供的商品描述信息。在用途上，所述商品标题一般以简练的语言表达准确描述所述目标商品的名称、品牌、材质、功能、用途、卖点等等任意具体信息；
77.一种实施例中，可以从线上店铺的商品数据库中，根据目标商品的唯一标识码获取对应的商品信息，所述唯一标识码为软件工程人员为区分电商平台的各个目标商品而设定的唯一标识，以便于存储及调用目标商品的商品信息。
78.当线上店铺的上架用户需要上架发布某一目标商品时，在电商平台相应的商品发布页面中录入所述目标商品对应的商品信息，然后提交到后台服务器以便将相应的商品信息关联目标商品对应的唯一标识码存储于商品数据库中。
79.步骤s1200、提取所述商品图片和商品标题的深层语义信息；
80.可以采用多种经预先训练至收敛的图像特征提取模型对所述商品图片进行图像特征提取，提取出商品图片中表征目标商品及其对应的其他配套物品的视觉特征相对应的深层语义信息。所述图像特征提取模型一般包括基于cnn实现的适于对图片进行深层语义特征提取的神经网络模型，例如resnet、efficientnet等，可由本领域技术人员灵活选用。
81.可以采用多种经预先训练至收敛的文本特征提取模型对所述商品标题进行文本特征提取，提取出商品标题中表征目标商品的文本特征对应的深层语义信息。所述文本特
征提取模型一般包括基于rnn实现的适于对文本进行深层语义特征提取的神经网络模型，例如bert、lstm、electra等，可由本领域技术人员灵活选用。
82.步骤s1300、将所述商品标题的深层语义信息融合至所述商品图片的深层语义信息，以根据所述商品标题的深层语义信息突显出所述目标商品在所述商品图片的深层语义信息中的图像特征，获得图文融合特征信息；
83.一种实施例中，在如图2所示的注意力层200中对所述商品标题的深层语义信息和所述商品图片的深层语义信息进行自注意力机制对应的特征交互，使得所述商品标题的深层语义信息与所述商品图片的深层语义信息在特征层面实现深度交互，从而实现商品图片与商品标题在深层语义层面的深度融合，获得注意层输出的初步图文融合特征信息，可以理解，由于实施了深度融合，将商品标题的深层语义信息融合到商品图片的深层语义信息中，商品标题在文本语义上对目标商品有指示作用，因此，使得该初步图文融合特征信息中已经参考所述商品标题的文本语义而显著表征所述目标商品的图像的特征，后续部分实施例将对此自注意力机制对应的特征交互进一步的揭示，此处暂且不表。进一步，请参阅图3，结合所述初步融合特征信息和所述商品图片的深层语义信息300，获得图文融合特征信息，所述结合可采用矩阵相加的方式，不难理解，由于初步融合特征信息中显著表征所述目标商品的图像的特征，使得所述图文融合特征可以用于识别目标商品。
84.步骤s1400、将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品。
85.对所述商品图片中的目标商品进行检测，以识别出所述目标商品，可采用预先训练至收敛状态的目标检测模型来实施。所述目标检测模型一般采用基于深度学习的模型实现，例如rcnn系列、yolo系列以及ssd(single shot multibox detector，一步式多框检测器)系列。rcnn系列是基于区域检测的代表性算法，yolo是基于区域提取的代表性算法，ssd是在前两个系列的基础上改进获得的算法。
86.rcnn系列通常包括r-cnn、sppnet、fastr-cnn、fasterr-cnn等不同具体模型，yolo系列也有多个版本可以采用。诸如此类的目标检测模型，均适于从给定的图片中识别出目标图像区域，从而可以根据目标图像区域获得相应的目标图像。
87.一种实施例中，可采用yolo-v5作为目标检测模型，接入分类器，采用足量的训练样本对其进行微调训练，所述训练样本为商品图片，其中包含目标商品及为其配套的其他搭配物品，每个训练样本对应其中的各个目标商品均提供相应的训练标签，以便监督模型训练，使其习得能够从给定的商品图片中准确识别出目标商品对应的区域的能力。
88.因此，将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，模型根据该图文融合特征信息，由于该图文融合特征信息已经融合了商品标题相对应的语义信息，因而，可以在该语义信息的作用下，从所述商品图片中检测出目标商品相对应的图像区域，输出目标商品在商品图片的坐标信息。进一步，根据所述目标检测模型输出的坐标信息，从所述商品图片中相应裁剪出目标商品的坐标信息对应的目标商品的图像，从而实现从商品图片中识别出目标商品。
89.根据本技术揭晓的典型实施例，可以看出，本技术具有多方面的优势，至少包括：
90.首先，本技术利用商品标题的深层语义信息突显出目标商品在商品图片的深层语义信息中的图像特征，提供指示商品图片中目标商品的关键信息，使得根据该关键信息即
可进行针对单个对象的识别，快速精准地从商品图片中识别目标商品；
91.其次，采用多模态特征融合，融合商品标题的深层语义信息和商品图片的深层语义信息，进而根据融合特征便可识别出目标商品，可以简化用于实现识别的模型架构及其训练步骤，即是采用一个数据集即可一并训练相关模型，训练成本较低，训练过程相对简便，而且，可以理解，本技术实现的目标商品识别通过单个阶段即可实现识别，其执行效率相对较高。
92.此外，本技术实现的目标商品识别功能，可应用于电商平台中相关的多种下游任务，例如商品相似匹配、商品分类、商品标签等等，而且，可以理解，由于可以针对性提取目标商品的图像，有助于准确提供下游任务所需的图像。
93.请参阅图4，进一步的实施例中，步骤s1200、提取所述商品图片和商品标题的深层语义信息的步骤中，包括如下步骤：
94.步骤s1210、预处理所述商品图片，将预处理后的商品图片输入至预先训练至收敛的图像特征提取模型，获得相应的深层语义信息，用于表征所述商品图片的图像特征；
95.为了便于后续模型提取商品图片对应的图像特征，对所述商品图片进行预处理，对商品图片的长和宽进行相同比例放大，所述比例可由本领域技术人员根据先验知识或实验数据灵活变通设置。
96.一种实施例中，所述图像特征提取模型为resnet50，将预处理后的商品图片输入至预先训练至收敛的resnet50，由resnet50的主干块(stemblock)及4个残差块(bottleneck blocks)逐步提取商品图片对应的图像特征，其中浅层阶段(stage)提取商品图片中目标商品及为其配套的其他搭配物品对应的细节、边缘等基础特征，进而在深层阶段提取深层语义特征以及高级逻辑特征，最终获得最后阶段即res5 stage输出的深层语义信息，如图3中300所示。
97.步骤s1220、预处理所述商品标题，将预处理后的商品标题输入至预先训练至收敛的文本特征提取模型，获得相应的深层语义信息，用于表征所述商品标题的文本特征。
98.一般而言商品标题中的文本格式比较繁杂，可能包含换行符、多余标点符号、多余的空白字符等等，这些字符对于商品标题本身的语义没有太大的影响，反而会干扰后续语义提取的精准度，因此，为了提升后续模型提取深层语义信息准确性，可对商品标题进行格式预处理，示例性举例，所述预处理可包括：把换行符替换成空格符号；将2个以上的空白字符串替换成只保留一个空白字符；将2个以上的标点符号替换成只保留一个等等。格式预处理的方式按需采用，本技术领域人员可根据实际业务情况进行灵活变通实施。
99.一种实施例中，所述文本特征提取模型为bert，将预处理后的商品标题输入至预先训练至收敛的bert，提取商品标题中表征目标商品的商品品类的文本对应的文本特征，例如商品标题为“手工钉珠胸花套装优雅女士裙”，其中表征目标商品的商品品类的文本即为“女士裙”，获得相应的深层语义信息。
100.本实施例中，通过预训练至收敛的图像特征提取模型及文本特征提取模型，实现智能化快速精准地相对应提取商品图片和商品标题相对应的深层语义信息。
101.请参阅图5，深化的实施例中，步骤s1220、预处理所述商品标题的步骤中，包括如下步骤：
102.步骤s1221、过滤所述商品标题中的无效字符；
103.一般而言，所述商品标题中通常包含目标商品的商品品类的文本，以及目标商品的效果、功能、质地、用材等等修饰文本，可以理解，对于实现本技术的目标商品识别，所述修饰文本为无效字符，因此，可过滤商品标题中的该无效字符，以便于后续模型提取相应的文本特征。一种实施例中，可通过人工或人工智能方式预先采集所述修饰文本对应的文本归集成无效字符词典，进而将所述商品标题对应的文本与无效字符词典中的修饰文本对应的文本作精准匹配和/或模糊匹配，继而根据匹配结果确定商品标题中的无效字符，将其删除以实现对商品标题的过滤。
104.步骤s1222、对过滤后的商品标题进行分词，获得其中的关键词，所述关键词包括目标商品的产品词和/或品牌词，完成对所述商品标题的预处理。
105.一种实施例中，采用分词器basictokenizer和wordpiecetokenizer对过滤后的商品标题进行分词，先通过basictokenizer得到一个分得比较粗的token列表，然后再对每个token进行一次wordpiecetokenizer，从而获得其中的关键词，完成对所述商品标题的预处理。
106.本实施例中，通过过滤商品标题中的无效字符，使得后续模型提取相应的文本特征时，需要处理的文本更少，干扰也更小，从而能够提升模型的执行效率和精准度。
107.请参阅图6，进一步的实施例中，步骤s1300、将所述商品标题的深层语义信息融合至所述商品图片的深层语义信息，以根据所述商品标题的深层语义信息突显出所述目标商品在所述商品图片的深层语义信息中的图像特征，获得图文融合特征信息的步骤中，包括如下步骤：
108.步骤s1310、采用多模态特征交互融合模块融合所述商品标题的深层语义信息和所述商品图片的深层语义信息，获得初步融合特征信息，所述初步融合特征信息中显著表征所述目标商品的图像的特征；
109.多模态特征交互融合模块如图2所示，具体而言，在注意力层200中对所述商品标题的深层语义信息采用相同两个的卷积层提取出相应的两个相同的特征信息，并且对所述商品图片的深层语义信息采用另外两个相同的卷积层提取出相应的两个相同的特征信息。进一步，对提取出的所述商品图片的深层语义信息对应的其中一个特征信息与提取出的所述商品标题的深层语义信息对应的两个相同的特征信息进行自注意力机制对应的特征交互，使得所述商品标题的深层语义信息与所述商品图片的深层语义信息在特征层面实现深度交互，从而实现商品图片与商品标题在深层语义层面的深度融合，获得注意力层输出的初步融合图文融合特征信息，可以理解，由于实施了深度融合，将商品标题的深层语义信息融合到商品图片的深层语义信息中，商品标题在文本语义上对目标商品有指示作用，因此，使得该初步图文融合特征信息中已经参考所述商品标题的文本语义而显著表征所述目标商品的图像的特征，后续部分实施例将对此自注意力机制对应的特征交互进一步的揭示，此处暂且不表。
110.可选的实施例中，请参阅图2，进一步，可采用一层卷积层提取出所述初步图文融合特征信息对应的特征信息201，将其与提取出的所述商品图片的深层语义信息对应的其另一特征信息202进行矩阵点乘，不难理解，在矩阵点乘之后，初步图文融合特征信息中表征商品图片中的目标商品的图像的特征被进一步特征显化，获得特征显化的初步图文融合特征信息。所述矩阵点乘为两个相同维度的矩阵进行两者中的特征数据按位对应相乘，即
特征信息201对应的矩阵中的第一行第一列的特征数据与特征信息202对应的矩阵中的第一行第一列的特征数据相乘，特征信息201对应的矩阵中的第一行第二列的特征数据与特征信息202对应的矩阵中的第一行第二列的特征数据相乘，特征信息201对应的矩阵中的第二行第一列的特征数据与特征信息202对应的矩阵中的第二行第一列的特征数据相乘，以此类推。
111.步骤s1320、将所述初步融合特征信息与所述商品图片的深层语义信息结合，获得图文融合特征信息；
112.结合所述初步融合特征信息和所述商品图片的深层语义信息如图3中300所示，获得图文融合特征信息，所述结合可采用矩阵相加的方式，不难理解，由于初步融合特征信息中显著表征所述目标商品的图像的特征，使得所述图文融合特征可以用于识别目标商品的图像。
113.本实施例中，通过自注意力机制对应的特征交互使得所述商品图片的深层语义信息中对应目标商品的图像的特征被显化，使得图文融合特征信息中表征商品图片中目标商品的图像的特征被突显而成为显著特征，有助于提升后续模型对商品图片中的目标商品的识别的精准度。
114.请参阅图7，较佳的实施例中，步骤s1310、采用多模态特征交互融合模块融合所述商品标题的深层语义信息和所述商品图片的深层语义信息，获得初步融合特征信息的步骤中，包括如下步骤：
115.步骤s1311、以所述商品图片的深层语义信息构造查询向量，以所述商品标题的深层语义信息构造键向量和值向量，输入注意力层；
116.请参阅图2，在注意力层(attention)200中，将所述商品图片的深层语义信息及商品标题的深层语义信息作为注意力层的输入，以相应的卷积层即权重矩阵wq提取商品图片的深层语义信息获得相应的查询向量(query)，以相应的两个卷积层即权重矩阵wk、wv提取商品标题的深层语义信息获得相应的键向量(key)以及值向量(value)。所述权重矩阵wq、wk、wv均为可学习权重，。
117.步骤s1312、由所述注意力层将所述查询向量与所述键向量进行交互并归一化，获得权重矩阵；
118.继续参阅图2，在所述注意力层200中，将所述查询向量与所述键向量对应的转置矩阵进行矩阵相乘操作，获得一个实现所述商品图片的深层语义信息与商品标题的深层语义信息的特征交互的乘积矩阵，该乘积矩阵为hw*t的尺度，采用softmax函数对其进行激活输出之后，获得的权重矩阵是对商品图片的深层语义信息与商品标题的深层语义信息进行深度交互之后的语义信息，本质上也是根据所述商品标题的深层语义信息实现对所述商品图片的深层语义信息中的显著特征即商品图片中目标商品的图像的特征进行突出的提权结果。
119.步骤s1313、由所述注意力层将所述值向量匹配所述权重矩阵获得初始特征；
120.继续参阅图2，在所述注意力层200中，将经softmax函数激活输出的尺度为hw*t的权重矩阵，再与所述值向量对应的转置矩阵也即所述的尺度为t*ci的文本特征再进行矩阵相乘运算，获得尺度为hw*ci的乘积矩阵，即为将所述商品图片的深层语义信息与商品标题的深层语义信息进行自注意力机制对应的特征交互获得的初步融合特征信息。
121.本实施例中，所述初步融合特征信息是在根据所述商品图片的深层语义信息与商品标题的深层语义信息进行交互之后获得的所述权重矩阵基础上乘上商品标题的深层语义信息对应匹配了相应的权重wv的值向量获得的，再次对商品图片的深层语义信息深度融合商品标题的深层语义信息，使得初步融合特征信息中显著表征所述目标商品的图像的特征。
122.请参阅图8，进一步的实施例中，步骤s1400、将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品的步骤中，包括如下步骤：
123.步骤s1410、采用预先训练至收敛的目标检测模型根据所述图文融合特征信息检测所述商品图片中的目标商品，获得相应的检测区域；
124.一种实施例中，所述目标检测模型为maskrcnn，将所述图文融合特征信息输入值预先训练至收敛的maskrcnn中，从所述商品图片中检测出目标商品的图像对应的检测区域。
125.步骤s1420、求取包围所述检测区域的最小面积的矩形框，以其框选出目标商品作为识别结果。
126.求取包围所述检测区域的最小面积的矩形框，使得该矩形框以矩形完整包含所述检测区域中的目标商品的图像，且包含非目标商品的图像的区域对应的面积最小，获得该最小面积的矩形框及其对应在所述商品图片中的位置信息，通常所述位置信息为矩形框对应的四个顶点的坐标。进一步，根据该矩形框框选出商品图片中的目标商品的图像作为识别结果。
127.本实施例中，通过求取包围所述检测区域的最小面积的矩形框，以其框选出目标商品作为识别结果，使得提升识别结果的精准度。
128.请参阅图9，扩展的实施例中，步骤s1400将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品的步骤之后，还包括如下步骤：
129.步骤s1500、根据所述框选出目标商品的矩形框从所述商品图片中截取出目标商品的图像，将其关联目标商品的唯一标识码存储于商品数据库；
130.根据所述框选出目标商品的矩形框对应在所述商品图片中的位置信息从所述商品图片中截取出目标商品的图像，将该目标商品的图像关键目标商品的唯一标识码存储与商品数据库中，以备后续调用。
131.步骤s1600、响应商品推荐请求，根据目标商品的唯一标识码检索商品数据库获取目标商品的图像，匹配与其相似的推荐商品；
132.可以理解，电商平台中部分电商页面需要加载推荐商品，因而触发生成商品推荐请求推送至电商平台的服务器，服务器接收该请求并对其进行响应，根据目标商品的唯一标识码检索商品数据库获取目标商品的图像，将其与商品数据库中与该目标商品属于同一商品品类的商品对应的目标商品的图像进行图片相似度匹配，匹配相似度超过阈值的商品作为推荐商品，所述阈值可由本领域技术人员按业务所需设置，所述商品品类一般由电商平台而设定，线上店铺的商家用户在其发布商品时通常需要选定发布商品对应的商品品类，因此，电商平台中的商品都有其对应的商品品类。
133.步骤s1700、应答所述商品推荐请求，推送所述推荐商品。
134.进一步，应答所述商品推荐请求，推送所述推荐商品至相应的电商页面，由电商页
面接收该推荐商品将其加载显示。
135.本实施例中，由于为电商平台中的商品的商品图片都截取出其对应的目标商品的图像，使得据此进行商品推荐的精准度得以保障，实现精准推荐。
136.请参阅图10，适应本技术的目的之一而提供的一种目标商品识别装置，是对本技术的目标商品识别方法的功能化体现，该装置包括：图文获取模块1100、语义提取模块1200、特征融合模块1300以及目标识别模块1400，其中，图文获取模块1100，用于获取目标商品的商品信息中的商品标题及商品图片；语义提取模块1200，用于提取所述商品图片和商品标题的深层语义信息；特征融合模块1300，用于将所述商品标题的深层语义信息融合至所述商品图片的深层语义信息，以根据所述商品标题的深层语义信息突显出所述目标商品在所述商品图片的深层语义信息中的图像特征，获得图文融合特征信息；目标识别模块1400，用于将所述图文融合特征信息输入至预先训练至收敛的目标检测模型，识别出所述目标商品。
137.进一步的实施例中，所述语义提取模块1200，包括：图像特征提取子模块，用于预处理所述商品图片，将预处理后的商品图片输入至预先训练至收敛的图像特征提取模型，获得相应的深层语义信息，用于表征所述商品图片的图像特征；文本特征提取子模块，用于预处理所述商品标题，将预处理后的商品标题输入至预先训练至收敛的文本特征提取模型，获得相应的深层语义信息，用于表征所述商品标题的文本特征。
138.深化的实施例中，所述图像特征提取子模块，包括：字符过滤单元，用于过滤所述商品标题中的无效字符；文本分词单元，用于对过滤后的商品标题进行分词，获得其中的关键词，所述关键词包括目标商品的产品词和/或品牌词，完成对所述商品标题的预处理。
139.进一步的实施例中，所述特征融合模块1300，包括：语义融合子模块，用于采用多模态特征交互融合模块融合所述商品标题的深层语义信息和所述商品图片的深层语义信息，获得初步融合特征信息，所述初步融合特征信息中显著表征所述目标商品的图像的特征；信息结合子模块，用于将所述初步融合特征信息与所述商品图片的深层语义信息结合，获得图文融合特征信息；
140.较佳的实施例中，所述语义融合子模块，包括：向量输入单元，用于以所述商品图片的深层语义信息构造查询向量，以所述商品标题的深层语义信息构造键向量和值向量，输入注意力层；权重提取单元，用于由所述注意力层将所述查询向量与所述键向量进行交互并归一化，获得权重矩阵；特征生成单元，用于由所述注意力层将所述值向量匹配所述权重矩阵获得初步融合特征信息。
141.进一步的实施例中，所述目标识别模块1400，包括：目标检测单元，用于采用预先训练至收敛的目标检测模型根据所述图文融合特征信息检测所述商品图片中的目标商品，获得相应的检测区域；框选识别单元，用于求取包围所述检测区域的最小面积的矩形框，以其框选出目标商品作为识别结果。
142.扩展的实施例中，所述目标识别模块1400之后，还包括：截取存储模块，用于根据所述框选出目标商品的矩形框从所述商品图片中截取出目标商品的图像，将其关联目标商品的唯一标识码存储于商品数据库；响应请求模块，用于响应商品推荐请求，根据目标商品的唯一标识码检索商品数据库获取目标商品的图像，匹配与其相似的推荐商品；应答请求模块，用于应答所述商品推荐请求，推送所述推荐商品。
143.为解决上述技术问题，本技术实施例还提供计算机设备。如图11所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种目标商品识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本技术的目标商品识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图11中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
144.本实施方式中处理器用于执行图10中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本技术的目标商品识别装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
145.本技术还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本技术任一实施例的目标商品识别方法的步骤。
146.本领域普通技术人员可以理解实现本技术上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等计算机可读存储介质，或随机存储记忆体(random access memory，ram)等。
147.本技术领域技术人员可以理解，本技术中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本技术中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本技术中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
148.以上所述仅是本技术的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：移动端的兼容性测试方法及装置与流程

目标商品识别方法及其装置、设备、介质、产品与流程

相关文献

最热文献