数据处理方法、设备及存储介质与流程

2022-08-13 13:46:11 来源：中国专利 TAG：

1.本技术实施例涉及计算机技术领域，尤其涉及一种数据处理方法、设备及存储介质。

背景技术：

2.对于具体的物件而言，一方面，其可以通过文本来描述，另一方面，也可以通过图像来描述。但是，物件图像中通常除了包含目标物件之外，可能还包括其他物件；文件文本中除了包含描述该物件的中心词之外，通常也堆砌有大量冗余词。例如：在电商平台中，对商品的展示，可以通过商品图像和商品文本标题共同呈现，但通常目标商品图像中还包含有其他商品，目标商品文本标题中也包含其他非中心词。如目标商品为短裤，其对应的文本标题则可能为“拼接工装短裤”，上述文本标题中的“短裤”即为中心词，而“拼接”和“工装”为非中心词。
3.为了更好地理解物件，通常需要基于物件图像进行物件主体选择，即：在物件图像中标注出物件所在位置；从整个物件文本标题中进行中心词提取。还就电商场景而言，商品理解是电商平台的基础能力，对于后续的商品展示、商品搜索具有重要影响。
4.相关技术中，通常是采用两种相互独立的方案，分别进行物件主体选择和中心词提取任务。这种方式，无论是物件主体选择的准确性还是中心词提取的准确性，均较低。也就是说，上述方式，对于物件的理解能力较差。

技术实现要素：

5.有鉴于此，本技术实施例提供一种数据处理方法、设备及存储介质，以至少部分解决上述问题。
6.根据本技术实施例的第一方面，提供了一种数据处理方法，包括：
7.获取目标图像的初始图像特征向量和目标文本的初始文本特征向量；其中，所述初始图像特征向量包括：初始图像语义向量；所述初始文本特征向量包括：所述目标文本中各词元的初始词向量；
8.基于所述初始文本特征向量对所述初始图像特征向量进行调整，得到调整后图像特征向量，并基于所述初始图像特征向量对所述初始文本特征向量进行调整，得到调整后文本特征向量；
9.根据所述调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到所述目标图像中目标物件的位置信息；根据所述调整后文本特征向量中各调整后词向量进行命名实体识别，提取所述目标文本中的中心词。
10.根据本技术实施例的第二方面，提供了一种数据处理方法，应用于服务器设备，包括：
11.接收客户端设备发送的包含商品的目标图像和用于描述所述商品的属性信息的目标文本；
12.获取所述目标图像的初始图像特征向量和所述目标文本的初始文本特征向量；其中，所述初始图像特征向量包括：初始图像语义向量；所述初始文本特征向量包括：所述目标文本中各词元的初始词向量；
13.基于所述初始文本特征向量对所述初始图像特征向量进行调整，得到调整后图像特征向量，并基于所述初始图像特征向量对所述初始文本特征向量进行调整，得到调整后文本特征向量；
14.根据所述调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到所述目标图像中的商品位置信息；根据所述调整后文本特征向量中各调整后词向量进行命名实体识别，提取所述目标文本中的中心词；
15.对应存储所述目标图像、所述商品位置信息、所述中心词以及所述商品的商品信息。
16.根据本技术实施例的第三方面，提供了一种数据处理装置，包括：
17.初始特征向量获取模块，用于获取目标图像的初始图像特征向量和目标文本的初始文本特征向量；其中，所述初始图像特征向量包括：初始图像语义向量；所述初始文本特征向量包括：所述目标文本中各词元的初始词向量；
18.第一调整模块，用于基于所述初始文本特征向量对所述初始图像特征向量进行调整，得到调整后图像特征向量，并基于所述初始图像特征向量对所述初始文本特征向量进行调整，得到调整后文本特征向量；
19.结果得到模块，用于根据所述调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到所述目标图像中目标物件的位置信息；根据所述调整后文本特征向量中各调整后词向量进行命名实体识别，提取所述目标文本中的中心词。
20.根据本技术实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的数据处理方法对应的操作。
21.根据本技术实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的数据处理方法。
22.根据本技术实施例提供的数据处理方法、设备及存储介质，在获取到图像模态层面的初始图像特征向量，以及文本模态层面的初始文本特征向量之后，对初始图像特征向量和初始文本特征向量进行了垮模态交互调整，具体地：对于图像模态层面的图像特征向量而言，其调整过程参考了文本模态层面的初始文本特征向量中包含的关键信息，使得调整后图像特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息；对应地，对于文本模态层面的文本特征向量而言，其调整过程也参考了图像模态层面的初始图像特征向量中包含的关键信息，使得调整后文本特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息。进而，基于上述调整后图像特征向量进行目标物件位置回归，回归结果的准确性更高；基于上述调整后文本特征向量进行命名实体识别，识别结果的准确性也更高。
附图说明
23.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
24.图1为根据本技术实施例一的一种数据处理方法的步骤流程图；
25.图2为图1所示实施例中的一种场景示例的示意图；
26.图3为根据本技术实施例二的一种数据处理方法的步骤流程图；
27.图4为图3所示实施例中的一种场景示例的示意图；
28.图5为根据本技术实施例三的一种数据处理方法的步骤流程图；
29.图6为根据本技术实施例四的一种数据处理装置的结构框图；
30.图7为根据本技术实施例五的一种电子设备的结构示意图。
具体实施方式
31.为了使本领域的人员更好地理解本技术实施例中的技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术实施例一部分实施例，而不是全部的实施例。基于本技术实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本技术实施例保护的范围。
32.下面结合本技术实施例附图进一步说明本技术实施例具体实现。
33.实施例一
34.参照图1，图1为根据本技术实施例一的一种数据处理方法的步骤流程图。具体地，本实施例提供的数据处理方法包括以下步骤：
35.步骤102，获取目标图像的初始图像特征向量和目标文本的初始文本特征向量；其中，初始图像特征向量包括：初始图像语义向量；初始文本特征向量包括：目标文本中各词元的初始词向量。
36.目标图像为包含有目标物件的图像，目标图像对应的图像语义向量为表征整个目标图像包含的图像信息的向量，初始时，图像语义向量可以为预设的初始图像语义向量；目标文本为用于描述目标文件的文本，该文本中可以包含多个词元，每个词元对应一个初始词向量。
37.进一步地，本技术实施例中可以通过如下方式获取上述初始图像特征向量和初始文本特征向量：
38.获取包含目标物件的目标图像、预设的初始图像语义向量，以及用于描述目标物件的目标文本；
39.对所目标图像进行分块处理，得到多个图像块；对各图像块进行线性变换，得到各图像块的初始块向量；对目标文本进行分词处理，得到多个词元；对各词元进行词嵌入操作，得到各词元的初始词向量。
40.步骤104，基于初始文本特征向量对初始图像特征向量进行调整，得到调整后图像特征向量，并基于初始图像特征向量对初始文本特征向量进行调整，得到调整后文本特征向量。
41.具体地，针对初始图像特征向量而言，也即针对初始图像语义向量而言，可以基于其与初始文本特征向量中包括的各词元的初始词向量之间的相似度，确定初始图像语义向量的调整权重值，再基于得到的初始图像语义向量的调整权重值，调整初始图像语义向量，得到调整后图像语义向量，也即：得到调整后图像特征向量。
42.针对初始文本特征向量而言，针对其中的每个初始词向量，可以基于该初始词向量与初始图像特征向量间的相似度，确定该初始词向量的调整权重值，并基于该初始词向量的调整权重值调整该初始词向量，得到调整后词向量；其中，调整后文本特征向量包括各调整后词向量。
43.上述过程中，在对每种类型的初始向量(初始图像语义向量或者初始词向量)进行调整时，均可以将对应的调整权重值与初始向量的乘积，作为初始向量对应的调整后向量(调整后图像语义向量或者调整后词向量)。
44.进一步地，初始图像特征向量中还包括：目标图像中各图像块的初始块向量。对应词，基于初始图像特征向量与各初始词向量之间的相似度，确定初始图像特征向量的调整权重值，并基于调整权重值调整初始图像特征向量，得到调整后图像特征向量，则可以包括：
45.分别计算初始图像语义向量与各初始词向量的相似度并求和，作为初始图像语义向量的调整权重值；再基于初始图像语义向量的调整权重值，调整初始图像语义向量得到调整后图像语义向量；
46.针对每个初始块向量，分别计算该初始块向量与各初始词向量的相似度并求和，作为该初始块向量的调整权重值；再基于该初始块向量的调整权重值，调整该初始块向量得到调整后块向量。
47.针对每个初始词向量，基于该初始词向量与初始图像特征向量间的相似度，确定该初始词向量的调整权重值，则对应地可以包括：
48.针对每个初始词向量，分别计算该初始词向量与各初始块向量的相似度，作为第一相似度；计算该初始词向量与初始图像语义向量的相似度，作为第二相似度；计算第一相似度和第二相似度之和，该初始词向量的调整权重值。
49.本技术实施例中，对于计算两个向量间的相似度的具体方式不做限定，可以根据实际情况选择合适的方式。例如：为便于计算，可以直接将两个向量之间的点积作为该两个向量之间的相似度，也可以采用两个向量之间的距离(如欧式距离、曼哈顿距离、切比雪夫距离等)作为两个向量之间的相似度，以提高计算的准确度，等等。
50.步骤106，根据调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到目标图像中目标物件的位置信息；根据调整后文本特征向量中各调整后词向量进行命名实体识别，提取目标文本中的中心词。
51.进行坐标回归时，可以采用任意现有的坐标回归方式进行，例如：传统的坐标回归算法，或者，用于实现坐标回归的回归网络，等等。
52.命名实体识别(named entity recoginition,ner)旨在将一串文本中的实体识别出来，并标注出它所指代的类型。本技术实施例中，主要用于对目标文本的各分词进行标注，从而确定出其中的中心词这一实体，本技术实施例中，对于具体的实体识别方式不做限定，可以参见相关实体识别技术进行，此处不再赘述。
53.参见图2，图2为本技术实施例一对应的场景示意图，以下，将参考图2所示的示意图，以一个具体场景示例，对本技术实施例进行说明：
54.获取到一张包含目标物件“短裤”的目标图像，和包含用于描述“短裤”的目标文本：“拼接工装短裤”；获取初始的图像语义向量(初始图像语义向量)i1，同时对目标图像进行分块处理，得到多个图像块，对各图像块进行线性变换得到各图像块的初始的块向量i2、
……
、in；对目标文本进行分词处理，得到多个词元，对各词元进行词嵌入操作，得到各词元的初始词向量t1、
……
、tn，其中，n为大于1的自然数(本技术实施例中，对于图像块的数量及分词处理得到的词元的数量均不作限定，并且，图像块的数量可能大于词元的数量，也可能小于词元的数量)；基于初始文本特征向量对初始图像特征向量进行调整，得到调整后图像特征向量，并基于初始图像特征向量对初始文本特征向量进行调整，得到调整后文本特征向量，具体地：针对i1(也即[reg])，可以分别计算其与t1、
……
、tn的相似度(i1·
t1、
……
、i1·
tn)并求和，进而将相似度之和作为i1的调整权重值，将初始图像语义向量调整为调整后图像语义向量；针对i2、
……
、in中的任一项，也可以分别计算其与t1、
……
、tn的相似度并求和，进而将相似度之和作为调整权重值，进而将各初始块向量调整为调整后块向量；针对t1、
……
、tn中的任一项，也可以分别计算其与i1、
……
、in的相似度并求和，进而将相似度之和作为调整权重值，进而将各初始词向量调整为调整后词向量；基于调整后图像语义向量[reg]进行坐标回归，得到目标图像中目标物件的位置信息(x，y，w，h)，其中，x，y分别表示目标物件对应的检测框左上角的坐标，w，h分别代表上述检测框的宽度和高度；根据调整后文本特征向量中各调整后词向量进行命名实体识别，得到各分词的标签，其中，分词“拼接”和“工装”的标签均为“o”，表征其为除中心词之外的其他词，也就是说，其不是中心词；分词“短”和“裤”的标签分别为“b”和“i”，表征“短”为中心词的起始位置，“裤”为中心词的中间位置，也就是说，最终提取出的中心词为“短裤”。
[0055]
根据本技术实施例提供的数据处理方法，在获取到图像模态层面的初始图像特征向量，以及文本模态层面的初始文本特征向量之后，对初始图像特征向量和初始文本特征向量进行了垮模态交互调整，具体地：对于图像模态层面的图像特征向量而言，其调整过程参考了文本模态层面的初始文本特征向量中包含的关键信息，使得调整后图像特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息；对应地，对于文本模态层面的文本特征向量而言，其调整过程也参考了图像模态层面的初始图像特征向量中包含的关键信息，使得调整后文本特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息。进而，基于上述调整后图像特征向量进行目标物件位置回归，回归结果的准确性更高；基于上述调整后文本特征向量进行命名实体识别，识别结果的准确性也更高。
[0056]
本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、pc机等。
[0057]
实施例二
[0058]
参照图3，图3为根据本技术实施例二的一种数据处理方法的步骤流程图。具体地，本实施例提供的数据处理方法包括以下步骤：
[0059]
步骤302，获取目标图像的初始图像特征向量和目标文本的初始文本特征向量；其中，初始图像特征向量包括：初始图像语义向量和目标图像中各图像块的初始块向量；初始
文本特征向量包括：目标文本中各词元的初始词向量。
[0060]
进一步地，本技术实施例中可以通过如下方式获取上述初始图像特征向量和初始文本特征向量：
[0061]
获取包含目标物件的目标图像、预设的初始图像语义向量，以及用于描述目标物件的目标文本；
[0062]
对所目标图像进行分块处理，得到多个图像块；对各图像块进行线性变换，得到各图像块的初始块向量；对目标文本进行分词处理，得到多个词元；对各词元进行词嵌入操作，得到各词元的初始词向量。
[0063]
步骤304，基于各初始块向量对初始图像语义向量进行调整，得到过渡图像语义向量。
[0064]
具体地，可以基于初始图像语义向量与各初始块向量间的相似度，确定初始图像特征向量的过渡权重值，并基于过渡权重值调整初始图像特征向量，得到过渡图像特征向量。
[0065]
进一步地，可以分别计算初始图像语义向量与各初始块向量间的相似度并求和，作为初始图像特征向量的过渡权重值，并基于过渡权重值调整初始图像特征向量，得到过渡图像特征向量。
[0066]
本技术实施例中，对于两个向量间相似度的计算方式不做限定，可以根据实际情况进行选择。
[0067]
步骤306，针对每个初始块向量，基于其余初始块向量和初始图像语义向量对该初始块向量进行调整，得到过渡块向量。
[0068]
步骤304和步骤306中，可以通过用于图像处理的自注意力模块执行，例如：该模块可以为基于注意力机制的任意的神经网络模型(如基于transformer的神经网络模型)，等等。
[0069]
具体地，针对每个初始块向量，可以基于该初始块向量与其余初始块向量间的相似度，以及，该初始块向量与初始图像语义向量间的相似度，确定该初始块向量的过渡权重值，并基于该初始块向量的过渡权重值，调整初始块向量得到过渡块向量。
[0070]
进一步地，可以分别计算该初始块向量与其余初始块向量间的块间相似度，以及，该初始块向量与初始图像语义向量间的相似度，再将上述块间相似度和该初始块向量与初始图像语义向量间的相似度之和，作为该初始块向量的过渡权重值，并基于该初始块向量的过渡权重值，调整初始块向量得到过渡块向量。
[0071]
本技术实施例中，对于两个向量间相似度的计算方式不做限定，可以根据实际情况进行选择。
[0072]
步骤308，针对每个初始词向量，基于其余初始词向量对该初始词向量进行调整，得到过渡词向量。
[0073]
本步骤可以通过用于文本处理的自注意力模块执行，例如：该模块可以为基于注意力机制的任意的神经网络模型(如基于transformer的神经网络模型)，等等。
[0074]
具体地，针对每个初始词向量，可以基于该初始词向量与其余初始词向量间的相似度，确定该初始词向量的过渡权重值，并基于该初始词向量的过渡权重值，调整该初始词向量得到过渡词向量。
[0075]
进一步地，可以分别计算该初始词向量与其余初始词向量间的相似度，再将计算得到的各相似度求和，作为该初始词向量的过渡权重值，并基于该初始词向量的过渡权重值，调整该初始词向量得到过渡词向量。
[0076]
本技术实施例中，对于两个向量间相似度的计算方式不做限定，可以根据实际情况进行选择。
[0077]
步骤310，基于过渡文本特征向量对过渡图像特征向量进行调整，得到调整后图像特征向量，并基于过渡图像特征向量对过渡文本特征向量进行调整，得到调整后文本特征向量。
[0078]
其中，过渡图像特征向量包括过渡图像语义向量和过渡块向量；过渡文本特征向量包括各初始词向量对应的过渡词向量。
[0079]
具体地，针对过渡图像特征向量而言，也即针对过渡图像语义向量或者各过渡块向量而言，可以基于其与过渡文本特征向量中包括的各词元的过渡词向量之间的相似度，确定过渡图像语义向量或者各过渡块向量的调整权重值，再基于得到调整权重值，调整过渡图像语义向量或者各过渡块向量，得到调整后图像语义向量或者调整后块向量，也即：得到调整后图像特征向量。
[0080]
针对过渡文本特征向量而言，针对其中的每个过渡词向量，可以基于该过渡词向量与过渡图像特征向量间的相似度，确定该过渡词向量的调整权重值，并基于该过渡词向量的调整权重值调整该过渡词向量，得到调整后词向量；其中，调整后文本特征向量包括各调整后词向量。
[0081]
上述过程中，在对每种类型的过渡向量进行调整时，均可以将对应的调整权重值与过渡向量的乘积，作为过渡向量对应的调整后向量。
[0082]
进一步地，基于过渡图像特征向量与各过渡词向量之间的相似度，确定过渡图像特征向量的调整权重值，并基于调整权重值调整过渡图像特征向量，得到调整后图像特征向量，则可以包括：
[0083]
分别计算过渡图像语义向量与各过渡词向量的相似度并求和，作为过渡图像语义向量的调整权重值；再基于过渡图像语义向量的调整权重值，调整过渡图像语义向量得到调整后图像语义向量；
[0084]
针对每个过渡块向量，分别计算该过渡块向量与各过渡词向量的相似度并求和，作为该过渡块向量的调整权重值；再基于该过渡块向量的调整权重值，调整该过渡块向量得到调整后块向量。
[0085]
针对每个过渡词向量，基于该过渡词向量与过渡图像特征向量间的相似度，确定该过渡词向量的调整权重值，则对应地可以包括：
[0086]
针对每个过渡词向量，分别计算该过渡词向量与各过渡块向量的相似度，作为第三相似度；计算该过渡词向量与过渡图像语义向量的相似度，作为第四相似度；计算第三相似度和第四相似度之和，该过渡词向量的调整权重值。
[0087]
本技术实施例中，对于计算两个向量间的相似度的具体方式不做限定，可以根据实际情况选择合适的方式。例如：为便于计算，可以直接将两个向量之间的点积作为该两个向量之间的相似度，也可以采用两个向量之间的距离(如欧式距离、曼哈顿距离、切比雪夫距离等)作为两个向量之间的相似度，以提高计算的准确度，等等。
[0088]
步骤312，对调整后图像特征向量和调整后文本特征向量进行融合处理，得到融合后图像特征向量和融合后文本特征向量。
[0089]
本技术实施例中，对于具体的融合策略不做限定。例如：可以采用直接将调整后图像特征向量和调整后文本特征向量相加的方式进行融合处理，也可以再次基于调整后图像特征向量，对调整后文本特征向量进行处理，基于调整后文本特征向量，对调整后图像特征向量进行处理，等等。
[0090]
本步骤中，可以通过用于图像-文本融合处理的注意力模块执行，例如：该模块可以为基于注意力机制的任意的神经网络模型(如基于transformer的神经网络模型)，等等。
[0091]
步骤314，根据融合后图像特征向量中的融合后图像语义向量进行坐标回归，得到目标图像中目标物件的位置信息。
[0092]
步骤316，根据融合后文本特征向量中各融合后词向量进行命名实体识别，提取目标文本中的中心词。
[0093]
参见图4，图4为本技术实施例二对应的场景示意图，以下，将参考图4所示的示意图，以一个具体场景示例，对本技术实施例进行说明：
[0094]
图4是在图2得到调整后文本特征向量之前和之后，分别增加了一次向量调整操作和一次向量融合操作。
[0095]
其中，增加的向量调整操作具体为：在图2获得了初始图像语义向量、初始块向量之后，先基于图像内部的自注意力机制(图像自注意力模块)，对上述初始向量进行了第一次调整，从而得到了过渡图像语义向量i1’
，过渡块向量i2’
、
……
、i
n’；在图2获得了初始词向量之后，先基于文本内部的自注意力机制(文本自注意力模块)，对上述初始词向量进行了第一次调整，从而得到了过渡词向量t1’
、t2’
、
……
、t
n’，再采用注意力机制，基于过渡文本特征向量对过渡图像特征向量进行调整，得到调整后图像特征向量，并基于过渡图像特征向量对过渡文本特征向量进行调整，得到调整后文本特征向量，具体地：针对i1’
(也即[reg])，可以分别计算其与t1’
、
……
、t
n’的相似度(i1’
·
t1’
、
……
、i1’
·
t
n’)并求和，进而将相似度之和作为i1’
的调整权重值，将过渡图像语义向量调整为调整后图像语义向量；针对i2’
、
……
、i
n’中的任一项，也可以分别计算其与t1’
、
……
、t
n’的相似度并求和，进而将相似度之和作为调整权重值，进而将各过渡块向量调整为调整后块向量；针对t1’
、
……
、t
n’中的任一项，也可以分别计算其与i1’
、
……
、i
n’的相似度并求和，进而将相似度之和作为调整权重值，进而将各过渡词向量调整为调整后词向量。
[0096]
其中，增加的向量融合操作具体为：在得到调整后图像特征向量和调整后文本特征向量之后，可以将调整后图像特征向量和调整后文本特征向量输入图像-文本融合模块，对调整后图像特征向量和调整后文本特征向量进行融合处理，从而得到融合后图像特征向量和融合后文本特征向量。
[0097]
之后，再基于融合后图像特征向量中的融合后图像语义向量([reg])进行坐标回归，得到目标物件“短裤”在目标图像中的位置信息；基于融合后词向量进行命名实体识别，提取出目标文本的中心词“短裤”。
[0098]
根据本技术实施例提供的数据处理方法，在获取到图像模态层面的初始图像特征向量，以及文本模态层面的初始文本特征向量之后，对初始图像特征向量和初始文本特征向量进行了垮模态交互调整，具体地：对于图像模态层面的图像特征向量而言，其调整过程
参考了文本模态层面的初始文本特征向量中包含的关键信息，使得调整后图像特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息；对应地，对于文本模态层面的文本特征向量而言，其调整过程也参考了图像模态层面的初始图像特征向量中包含的关键信息，使得调整后文本特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息。进而，基于上述调整后图像特征向量进行目标物件位置回归，回归结果的准确性更高；基于上述调整后文本特征向量进行命名实体识别，识别结果的准确性也更高。
[0099]
同时，在得到初始图像特征向量和初始文本特征向量之后，一方面，先基于图像内部的自注意力机制对初始图像特征向量进行了调整得到了过渡图像特征向量，基于文本内部的自注意力机制对初始文本特征向量进行了调整，得到了过渡文本特征向量；才对图像模态层面的过渡图像特征向量和文本模态层面的过渡文本特征向量进行调整，得到调整后图像特征向量和调整后文本特征向量；另一方面，在得到调整后图像特征向量和调整后文本特征向量之后，并不是直接基于调整后图像特征向量进行坐标回归，以及，基于调整后文本特征向量进行命名实体识别，而是，先对调整后图像特征向量和调整后文本特征向量进行了再次融合，再基于融合后图像特征向量进行坐标回归，以及，基于融合后文本特征向量进行命名实体识别，因此，本技术实施例可以进一步提升坐标回归以及命名实体识别的准确性。
[0100]
本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、pc机等。
[0101]
实施例三
[0102]
参照图5，图5为根据本技术实施例三的一种数据处理方法的步骤流程图。该实施例的应用场景可以是：商家用户通过电商平台客户端设备向电商平台的服务端设备发送包含其商品的目标图像和用于描述其商品的目标文本；由服务端设备对上述目标图像和目标文本进行数据处理，从而确定出目标图像中的商品位置信息，以及，提取出目标文本中的中心词；之后，针对每个商品，将目标图像、商品位置信息、中心词以及该商品的商品信息(如：商品购买链接，商品详情链接等)对应存储在服务端设备中，以便向购买者提供图搜或者问搜功能。具体地：当购买者通过客户端设备向服务端设备发送待匹配图像或者待匹配文本时，服务端设备可以通过对上述待匹配图像与预先存储的目标图像，或者，上述待匹配文本与预先存储的中心词的匹配，向购买者返回其想要购买的商品信息。
[0103]
具体地，本实施例提供的数据处理方法包括以下步骤：
[0104]
步骤502，接收客户端设备发送的包含商品的目标图像和用于描述商品的属性信息的目标文本。
[0105]
步骤504，获取目标图像的初始图像特征向量和目标文本的初始文本特征向量。
[0106]
其中，初始图像特征向量包括：初始图像语义向量；初始文本特征向量包括：目标文本中各词元的初始词向量。
[0107]
步骤506，基于初始文本特征向量对初始图像特征向量进行调整，得到调整后图像特征向量，并基于初始图像特征向量对初始文本特征向量进行调整，得到调整后文本特征向量。
[0108]
步骤508，根据调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到
目标图像中的商品位置信息；根据调整后文本特征向量中各调整后词向量进行命名实体识别，提取目标文本中的中心词。
[0109]
本技术实施例中，步骤504-步骤508的具体实现方式，可以参照实施例一或者实施例二中相应步骤的描述，此处不再赘述。
[0110]
步骤510，对应存储目标图像、商品位置信息、中心词以及商品的商品信息。
[0111]
具体地，商品信息，可以包括：商品的图像、商品的名称、或者商品的信息链接，例如：购买链接、详情链接，等等。
[0112]
可选地，在其中一些实施例中，方法还包括：
[0113]
接收客户端设备发送的待匹配图像；
[0114]
针对已存储的各商品的目标图像，按照对应的商品位置信息从各目标图像中截取商品图像；
[0115]
从各商品图像中确定与待匹配图像相匹配的匹配商品图像；
[0116]
向客户端设备返回与匹配商品图像所属的目标图像对应的商品信息。
[0117]
具体地，在服务端设备对应存储了各商品的目标图像、商品位置信息、中心词以及商品信息之后，购买者可以通过向服务端设备发送图像(待匹配图像)，从服务端设备获取待匹配图像中包含的购买者可能想要购买的商品的商品信息，即实现“图搜”的功能。
[0118]
可选地，在其中一些实施例中，方法还包括：
[0119]
接收客户端设备发送的待匹配文本；
[0120]
从已存储的各中心词中确定与待匹配文本相匹配的匹配中心词；
[0121]
向客户端设备返回与匹配中心词对应的商品信息。
[0122]
具体地，在服务端设备对应存储了各商品的目标图像、商品位置信息、中心词以及商品信息之后，购买者还可以通过向服务端设备发送文本(待匹配文本)，从服务端设备获取待匹配文本对应的购买者想要购买商品的商品信息，即实现“文搜”的功能。
[0123]
根据本技术实施例提供的数据处理方法，在获取到图像模态层面的初始图像特征向量，以及文本模态层面的初始文本特征向量之后，对初始图像特征向量和初始文本特征向量进行了垮模态交互调整，具体地：对于图像模态层面的图像特征向量而言，其调整过程参考了文本模态层面的初始文本特征向量中包含的关键信息，使得调整后图像特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息；对应地，对于文本模态层面的文本特征向量而言，其调整过程也参考了图像模态层面的初始图像特征向量中包含的关键信息，使得调整后文本特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息。进而，基于上述调整后图像特征向量进行商品位置回归，回归结果的准确性更高；基于上述调整后文本特征向量进行命名实体识别，识别结果的准确性也更高。
[0124]
实施例四
[0125]
参照图6，图6为根据本技术实施例四的一种数据处理装置的结构框图。本技术实施例提供的数据处理装置包括：
[0126]
初始特征向量获取模块602，用于获取目标图像的初始图像特征向量和目标文本的初始文本特征向量；其中，初始图像特征向量包括：初始图像语义向量；初始文本特征向量包括：目标文本中各词元的初始词向量；
[0127]
第一调整模块604，用于基于初始文本特征向量对初始图像特征向量进行调整，得到调整后图像特征向量，并基于初始图像特征向量对初始文本特征向量进行调整，得到调整后文本特征向量；
[0128]
结果得到模块606，用于根据调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到目标图像中目标物件的位置信息；根据调整后文本特征向量中各调整后词向量进行命名实体识别，提取目标文本中的中心词。
[0129]
可选地，在其中一些实施例中，第一调整模块604，具体用于：
[0130]
基于初始图像特征向量与各初始词向量之间的相似度，确定初始图像特征向量的调整权重值，并基于调整权重值调整初始图像特征向量，得到调整后图像特征向量；
[0131]
针对每个初始词向量，基于该初始词向量与初始图像特征向量间的相似度，确定该初始词向量的调整权重值，并基于该初始词向量的调整权重值调整该初始词向量，得到调整后词向量；其中，调整后文本特征向量包括各调整后词向量。
[0132]
可选地，在其中一些实施例中，初始图像特征向量还包括：目标图像中各图像块的初始块向量；
[0133]
第一调整模块604，在执行基于初始图像特征向量与各初始词向量之间的相似度，确定初始图像特征向量的调整权重值，并基于调整权重值调整初始图像特征向量，得到调整后图像特征向量的步骤时，具体用于：
[0134]
分别计算初始图像语义向量与各初始词向量的相似度并求和，作为初始图像语义向量的调整权重值；基于初始图像语义向量的调整权重值，调整初始图像语义向量得到调整后图像语义向量；
[0135]
针对每个初始块向量，分别计算该初始块向量与各初始词向量的相似度并求和，作为该初始块向量的调整权重值；基于该初始块向量的调整权重值，调整该初始块向量得到调整后块向量。
[0136]
可选地，在其中一些实施例中，初始图像特征向量还包括：目标图像中各图像块的初始块向量；数据处理装置，还包括：
[0137]
第二调整模块，用于在获取目标图像的初始图像特征向量和目标文本的初始文本特征向量之后，基于各初始块向量对初始图像语义向量进行调整，得到过渡图像语义向量；针对每个初始块向量，基于其余初始块向量和初始图像语义向量对该初始块向量进行调整，得到过渡块向量；针对每个初始词向量，基于其余初始词向量对该初始词向量进行调整，得到过渡词向量；
[0138]
第一调整模块604，具体用于：基于过渡文本特征向量对过渡图像特征向量进行调整，得到调整后图像特征向量，并基于过渡图像特征向量对过渡文本特征向量进行调整，得到调整后文本特征向量；其中，过渡图像特征向量包括过渡图像语义向量和过渡块向量；过渡文本特征向量包括各初始词向量对应的过渡词向量。
[0139]
可选地，在其中一些实施例中，结果得到模块606，具体用于：
[0140]
对调整后图像特征向量和调整后文本特征向量进行融合处理，得到融合后图像特征向量和融合后文本特征向量；
[0141]
根据融合后图像特征向量中的融合后图像语义向量进行坐标回归，得到目标图像中目标物件的位置信息；根据融合后文本特征向量中各融合后词向量进行命名实体识别，
提取目标文本中的中心词。
[0142]
本技术实施例的数据处理装置用于实现前述方法实施例一或实施例二中相应的数据处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本技术实施例的数据处理装置中的各个模块的功能实现均可参照前述方法实施例一或实施例二中的相应部分的描述，在此亦不再赘述。
[0143]
实施例五
[0144]
参照图7，示出了根据本技术实施例五的一种电子设备的结构示意图，本技术具体实施例并不对电子设备的具体实现做限定。
[0145]
如图7所示，该电子设备可以包括：处理器(processor)702、通信接口(communications interface)704、存储器(memory)706、以及通信总线708。
[0146]
其中：
[0147]
处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
[0148]
通信接口704，用于与其它电子设备或服务器进行通信。
[0149]
处理器702，用于执行程序710，具体可以执行上述数据处理方法实施例中的相关步骤。
[0150]
具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。
[0151]
处理器702可能是cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本技术实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
[0152]
存储器706，用于存放程序710。存储器706可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
[0153]
程序710具体可以用于使得处理器702执行以下操作：获取目标图像的初始图像特征向量和目标文本的初始文本特征向量；其中，初始图像特征向量包括：初始图像语义向量；初始文本特征向量包括：目标文本中各词元的初始词向量；基于初始文本特征向量对初始图像特征向量进行调整，得到调整后图像特征向量，并基于初始图像特征向量对初始文本特征向量进行调整，得到调整后文本特征向量；根据调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到目标图像中目标物件的位置信息；根据调整后文本特征向量中各调整后词向量进行命名实体识别，提取目标文本中的中心词。
[0154]
或者，
[0155]
程序710具体可以用于使得处理器702执行以下操作：接收客户端设备发送的包含商品的目标图像和用于描述所述商品的属性信息的目标文本；获取所述目标图像的初始图像特征向量和所述目标文本的初始文本特征向量；其中，所述初始图像特征向量包括：始图像语义向量；所述初始文本特征向量包括：所述目标文本中各词元的初始词向量；基于所述初始文本特征向量对所述初始图像特征向量进行调整，得到调整后图像特征向量，并基于所述初始图像特征向量对所述初始文本特征向量进行调整，得到调整后文本特征向量；根据所述调整后图像特征向量中的调整后图像语义向量进行坐标回归，得到所述目标图像中的商品位置信息；根据所述调整后文本特征向量中各调整后词向量进行命名实体识别，提取所述目标文本中的中心词；对应存储所述目标图像、所述商品位置信息、所述中心词以及
所述商品的商品信息。
[0156]
程序710中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。
[0157]
通过本实施例的电子设备，在获取到图像模态层面的初始图像特征向量，以及文本模态层面的初始文本特征向量之后，对初始图像特征向量和初始文本特征向量进行了垮模态交互调整，具体地：对于图像模态层面的图像特征向量而言，其调整过程参考了文本模态层面的初始文本特征向量中包含的关键信息，使得调整后图像特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息；对应地，对于文本模态层面的文本特征向量而言，其调整过程也参考了图像模态层面的初始图像特征向量中包含的关键信息，使得调整后文本特征向量重点表征与上述关键信息相关的信息，而忽略或者过滤掉与上述关键信息关联度较低的信息。进而，基于上述调整后图像特征向量进行目标物件位置回归，回归结果的准确性更高；基于上述调整后文本特征向量进行命名实体识别，识别结果的准确性也更高。
[0158]
本技术实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一数据处理方法对应的操作。
[0159]
需要指出，根据实施的需要，可将本技术实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本技术实施例的目的。
[0160]
上述根据本技术实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，ram、rom、闪存等)，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的数据处理方法。此外，当通用计算机访问用于实现在此示出的数据处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的数据处理方法的专用计算机。
[0161]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术实施例的范围。
[0162]
以上实施方式仅用于说明本技术实施例，而并非对本技术实施例的限制，有关技术领域的普通技术人员，在不脱离本技术实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本技术实施例的范畴，本技术实施例的专利保护范围应由权利要求限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：物联网设备的查询方法、装置、计算机设备及存储介质与流程

数据处理方法、设备及存储介质与流程

相关文献

最热文献