图像检索方法、模型训练方法、装置、设备、介质及产品与流程

2022-06-22 14:55:53 来源：中国专利 TAG：

技术特征：
1.一种图像检索方法，包括：获取待检索图像；基于多个训练任务联合训练获得的视觉检索模型，提取所述待检索图像的视觉特征；基于多个损失函数联合训练获得的语义检索模型，提取所述待检索图像的语义特征；将所述视觉特征与所述语义特征进行特征拼接，以获得所述待检索图像的目标特征；基于所述目标特征，从图像库中查找与所述待检索图像满足图像相似条件的目标图像。2.根据权利要求1所述的方法，所述获取待检索图像，包括：接收用户设备发送的图像检索请求；响应于所述图像检索请求，获取所述待检索图像。3.根据权利要求1或2所述的方法，其中，所述基于训练获得的视觉检索模型，提取所述待检索图像的视觉特征，包括：获取多个训练任务联合训练获得的所述视觉检索模型的第一编码器；将所述待检索图像输入所述第一编码器，利用所述第一编码器计算获得所述待检索图像的所述视觉特征。4.根据权利要求1-3任一项所述的方法，其中，所述基于训练获得的语义检索模型，提取所述待检索图像的语义特征，包括：获取多个损失函数联合训练获得的所述语义检索模型的第二编码器；将所述待检索图像输入所述第二编码器，利用所述第二编码器计算获得所述待检索图像的所述语义特征。5.根据权利要求1-4任一项所述的方法，其中，所述基于所述目标特征，从图像库中查找与所述待检索图像满足图像相似条件的目标图像包括：确定所述图像库中多个候选图像；基于所述视觉检索模型提取多个所述候选图像分别对应的候选视觉特征；基于所述语义检索模型提取多个所述候选图像分别对应的候选语义特征；将每个所述候选图像的候选视觉特征和候选语义特征进行特征拼接，获得多个所述候选图像分别对应的候选特征；根据多个所述候选图像分别对应的候选特征，查找与所述目标特征满足特征相似条件的目标特征，以获得所述目标特征对应的候选图像为所述目标图像。6.根据权利要求5所述的方法，其中，所述根据多个所述候选图像分别对应的候选特征，查找与所述目标特征满足特征相似条件的目标特征，包括：对多个所述候选图像分别对应的候选特征进行空间聚类，获得多个空间节点形成的空间树、所述空间节点对应图像类别以及空间特征；父空间节点的图像类别为其子空间节点的图像类别的父类别；每个空间节点对应图像类别包括至少一个候选图像分别对应的候选特征；基于所述空间树中多个空间节点分别对应的空间特征，确定与所述目标特征满足空间相似条件的目标空间节点；从所述目标空间节点的至少一个候选图像分别对应的候选特征中确定与所述目标特征满足特征相似条件的目标特征。
7.根据权利要求6所述的方法，其中，所述基于所述空间树中多个空间节点分别对应的空间特征，确定与所述目标特征满足空间相似条件的目标空间节点，包括：从所述空间树的根节点开始，依次计算每个空间节点的空间特征与所述目标特征的特征距离；若确定任一个空间节点的所述特征距离小于距离阈值，则确定所述空间节点为与所述目标特征满足空间相似条件的目标空间节点。8.一种视觉检索模型的训练方法，包括：基于视觉相似度聚类算法，将图像库中多个候选图像进行视觉聚类处理，获得至少一个视觉类别；生成包含第一编码器以及多个训练任务的待训练的视觉检索模型；确定至少一个第一训练数据；所述第一训练数据包括标记有视觉真值的第一训练图像以及第二训练图像；将至少一个所述第一训练数据输入所述待训练的视觉检索模型，以多个所述训练任务对所述视觉检索模型整体产生的第一损失值满足第一误差条件为训练目标，训练获得所述视觉检索模型的视觉模型参数；其中，所述视觉模型参数对应的视觉检索模型的第一编码器用于提取待检索图像的视觉特征；所述视觉特征用于从图像库中查找目标图像。9.根据权利要求8所述的方法，其中，所述多个训练任务包括：分类任务以及相似度量任务；所述生成包含第一编码器以及多个训练任务的待训练的视觉检索模型，包括：基于至少一个所述视觉类别，构建所述视觉检索模型的分类任务；基于相似度量模型，构建所述视觉检索模型的相似度量任务，以获得所述分类任务以及所述相似度量任务对应的多个训练任务；基于神经网络算法，构建所述视觉检索模型的所述第一编码器；确定所述第一编码器以及所述多个训练任务构成的待训练的所述视觉检索模型。10.根据权利要求8或9所述的方法，其中，所述将至少一个所述第一训练数据输入所述待训练的视觉检索模型，以多个所述训练任务对所述视觉检索模型整体产生的第一损失值满足第一误差条件为训练目标，训练获得所述视觉检索模型的视觉模型参数，包括：对所述待训练的视觉检索模型进行参数初始化，获得所述视觉模型参数对应的第一模型参数；将至少一个所述第一训练数据依次输入所述第一模型参数对应的视觉检索模型的第一编码器，提取至少一个所述第一训练数据分别对应的第一训练特征；基于至少一个所述第一训练数据分别对应的第一训练特征和视觉真值，计算至少一个所述第一训练数据在所述分类任务对应的分类误差以及在所述相似度量任务对应的相似度量误差；将所述分类误差与所述相似度量误差进行加权，获得训练产生的第一损失值；若确定所述第一损失值满足第一误差条件，则确定所述第一模型参数为所述视觉检索模型的视觉模型参数。11.根据权利要求10所述的方法，还包括：
若确定所述第一损失值不满足第一误差条件，则更新所述视觉检索模型的第一模型参数，返回至所述将至少一个所述第一训练数据依次输入所述第一模型参数对应的视觉检索模型的第一编码器的步骤继续执行。12.根据权利要求10或11所述的方法，其中，所述基于至少一个所述第一训练数据分别对应的第一训练特征和视觉真值，计算至少一个所述第一训练数据在所述分类任务对应的分类误差以及在所述相似度量任务对应的相似度量误差，包括：将所述第一训练数据的第一训练特征输入所述分类任务，以获得至少一个所述第一训练数据分别对应的分类结果；所述分类结果为从至少一个所述视觉类别中确定的目标视觉类别；基于至少一个所述第一训练数据分别对应的目标视觉类别和视觉类别真值，计算获得所述分类误差；将所述第一训练数据的第一训练特征输入所述相似度量任务，获得所述相似度量任务对所述第一训练数据中第一训练图像以及第二训练图像的相似度量结果，以获得至少一个所述训练数据分别对应的相似度量结果；基于至少一个所述第一训练数据分别对应的相似度量结果和相似度量真值，计算获得所述相似度量误差。13.一种语义检索模型的训练方法，包括：基于语义类别挖掘算法，将图像库中多个候选图像进行语义类别挖掘，获得至少一个语义类别；生成包含第二编码器以及目标训练任务的待训练的语义检索模型；所述目标训练任务对应多个损失函数；确定至少一个第二训练数据；所述第二训练数据包括标记有语义类别真值的第三训练图像；将至少一个所述第二训练数据输入所述待训练的语义检索模型，以基于多个所述损失函数对所述语义检索模型进行整体损失计算获得的第二损失值满足第二误差条件为训练目标，训练获得所述语义检索模型的语义模型参数；其中，所述语义模型参数对应的语义检索模型中的第二编码器用于提取待检索图像的语义特征；所述语义特征用于从图像库中查找目标图像。14.根据权利要求13所述的方法，其中，所述生成包含第二编码器以及目标训练任务的待训练的语义检索模型，包括：基于至少一个所述语义类别，构建语义检索模型的目标训练任务；所述目标训练任务对应多个损失函数；基于神经网络算法，构建所述语义检索模型的第二编码器；确定所述第二编码器所述目标训练任务构成的所述语义检索模型。15.根据权利要求13或14所述的方法，其中，所述将至少一个所述第二训练数据输入所述待训练的语义检索模型，以基于多个所述损失函数对所述语义检索模型进行整体损失计算获得的第二损失值满足第二误差条件为训练目标，训练获得所述语义检索模型的语义模型参数，包括：对所述待训练的语义检索模型进行参数初始化，获得所述语义模型参数对应的第二模
型参数；将至少一个所述第二训练数据依次输入所述第二模型参数对应的语义检索模型的第二编码器，提取至少一个所述第二训练数据分别对应的第二训练特征；基于至少一个所述第二训练数据分别对应的第二训练特征和语义类别真值，计算至少一个所述第二训练数据在所述目标训练任务对应的语义识别误差和中心损失误差；将所述语义识别误差与所述中心损失误差进行加权，获得训练产生的第二损失值；若确定所述第二损失值满足第二误差条件，则确定所述第二模型参数为所述语义检索模型的语义模型参数。16.根据权利要求15所述的方法，其中，所述目标训练任务包括基于至少一个所述语义类别的语义分类任务；所述基于至少一个所述第二训练数据分别对应的第二训练特征和语义类别真值，计算至少一个所述第二训练数据在所述目标训练任务对应的语义识别误差和中心损失误差，包括：将所述第二训练数据的第二训练特征输入所述目标训练任务对应的语义分类任务，获得所述第二训练数据对应的目标语义类别，以获得至少一个所述第二训练数据分别对应的目标语义类别；基于误差损失函数，对至少一个所述第二训练数据分别对应的目标语义类别和语义类别真值进行误差计算，获得所述语义识别误差；基于中心损失函数，对至少一个所述第二训练数据分别对应的目标语义类别和语义类别真值进行误差计算，获得所述中心损失误差。17.一种图像检索装置，包括：图像获取单元，用于获取待检索图像；第一提取单元，用于基于多个训练任务联合训练获得的视觉检索模型，提取所述待检索图像的视觉特征；第二提取单元，用于基于多个损失函数联合训练获得的语义检索模型，提取所述待检索图像的语义特征；第一拼接单元，用于将所述视觉特征与所述语义特征进行特征拼接，以获得所述待检索图像的目标特征；目标查找单元，用于基于所述目标特征，从图像库中查找与所述待检索图像满足图像相似条件的目标图像。18.根据权利要求17所述的装置，其中，所述图像获取单元，包括：请求接收模块，用于接收用户设备发送的图像检索请求；图像获取模块，用于响应于所述图像检索请求，获取所述待检索图像。19.根据权利要求17或18所述的装置，其中，所述第一提取单元，包括：第一获取模块，用于获取多个训练任务联合训练获得的所述视觉检索模型的第一编码器；第一输入模块，用于将所述待检索图像输入所述第一编码器，利用所述第一编码器计算获得所述待检索图像的所述视觉特征。20.根据权利要求17-19任一项所述的装置，其中，所述第二提取单元，包括：第二获取模块，用于获取多个损失函数联合训练获得的所述语义检索模型的第二编码
器；第二输入模块，用于将所述待检索图像输入所述第二编码器，利用所述第二编码器计算获得所述待检索图像的所述语义特征。21.根据权利要求17-20任一项所述的装置，其中，所述目标查找单元，包括：候选确定模块，用于确定所述图像库中多个候选图像；第一提取模块，用于基于所述视觉检索模型提取多个所述候选图像分别对应的候选视觉特征；第二提取模块，用于基于所述语义检索模型提取多个所述候选图像分别对应的候选语义特征；第一拼接模块，用于将每个所述候选图像的候选视觉特征和候选语义特征进行特征拼接，获得多个所述候选图像分别对应的候选特征；特征匹配模块，用于根据多个所述候选图像分别对应的候选特征，查找与所述目标特征满足特征相似条件的目标特征，以获得所述目标特征对应的候选图像为所述目标图像。22.根据权利要求21所述的装置，其中，所述特征匹配模块，包括：空间聚类子模块，用于对多个所述候选图像分别对应的候选特征进行空间聚类，获得多个空间节点形成的空间树、所述空间节点对应图像类别以及空间特征；父空间节点的图像类别为其子空间节点的图像类别的父类别；每个空间节点对应图像类别包括至少一个候选图像分别对应的候选特征；空间匹配子模块，用于基于所述空间树中多个空间节点分别对应的空间特征，确定与所述目标特征满足空间相似条件的目标空间节点；特征确定子模块，用于从所述目标空间节点的至少一个候选图像分别对应的候选特征中确定与所述目标特征满足特征相似条件的目标特征。23.根据权利要求22所述的装置，其中，所述空间匹配子模块具体用于：从所述空间树的根节点开始，依次计算每个空间节点的空间特征与所述目标特征的特征距离；若确定任一个空间节点的所述特征距离小于距离阈值，则确定所述空间节点为与所述目标特征满足空间相似条件的目标空间节点。24.一种视觉检索模型的训练装置，包括：类别聚类单元，用于基于视觉相似度聚类算法，将图像库中多个候选图像进行视觉聚类处理，获得至少一个视觉类别；第一生成单元，用于生成包含第一编码器以及多个训练任务的待训练的视觉检索模型；第一确定单元，用于确定至少一个第一训练数据；所述第一训练数据包括标记有视觉真值的第一训练图像以及第二训练图像；所述视觉真值包括基于至少一个所述视觉类别确定的视觉类别真值以及相似度量真值；第一训练单元，用于将至少一个所述第一训练数据输入所述待训练的视觉检索模型，以多个所述训练任务对所述视觉检索模型整体产生的第一损失值满足第一误差条件为训练目标，训练获得所述视觉检索模型的视觉模型参数；其中，所述视觉模型参数对应的视觉检索模型的第一编码器用于提取待检索图像的视觉特征；所述视觉特征用于从图像库中查找目标图像。
25.根据权利要求24所述的装置，其中，所述多个训练任务包括：分类任务以及相似度量任务；所述第一生成单元，包括：第一构建模块，用于基于至少一个所述视觉类别，构建所述视觉检索模型的分类任务；第二构建模块，用于基于相似度量模型，构建所述视觉检索模型的相似度量任务，以获得所述分类任务以及所述相似度量任务对应的多个训练任务；第一编码模块，用于基于神经网络算法，构建所述视觉检索模型的所述第一编码器；第一确定模块，用于确定所述第一编码器以及所述多个训练任务构成的待训练的所述视觉检索模型。26.根据权利要求24或25所述的装置，其中，所述第一训练单元，包括：第一初始化模块，用于对所述待训练的视觉检索模型进行参数初始化，获得所述视觉模型参数对应的第一模型参数；第一训练模块，用于将至少一个所述第一训练数据依次输入所述第一模型参数对应的视觉检索模型的第一编码器，提取至少一个所述第一训练数据分别对应的第一训练特征；第一误差模块，用于基于至少一个所述第一训练数据分别对应的第一训练特征和视觉真值，计算至少一个所述第一训练数据在所述分类任务对应的分类误差以及在所述相似度量任务对应的相似度量误差；第一加权模块，用于将所述分类误差与所述相似度量误差进行加权，获得训练产生的第一损失值；第一确定模块，用于若确定所述第一损失值满足第一误差条件，则确定所述第一模型参数为所述视觉检索模型的视觉模型参数。27.根据权利要求26所述的装置，其中，所述第一训练单元，还包括第二确定模块，用于若确定所述第一损失值不满足第一误差条件，则更新所述视觉检索模型的第一模型参数，返回至所述将至少一个所述第一训练数据依次输入所述第一模型参数对应的视觉检索模型的第一编码器的步骤继续执行。28.根据权利要求26或27所述的装置，其中，所述第一误差模块，包括：第一训练子模块，用于将所述第一训练数据的第一训练特征输入所述分类任务，以获得至少一个所述第一训练数据分别对应的分类结果；所述分类结果为从至少一个所述视觉类别中确定的目标视觉类别；分类误差子模块，用于基于至少一个所述第一训练数据分别对应的目标视觉类别和视觉类别真值，计算获得所述分类误差；相似度量子模块，用于将所述第一训练数据的第一训练特征输入所述相似度量任务，获得所述相似度量任务对所述第一训练数据中第一训练图像以及第二训练图像的相似度量结果，以获得至少一个所述训练数据分别对应的相似度量结果；误差计算子模块，用于基于至少一个所述第一训练数据分别对应的相似度量结果和相似度量真值，计算获得所述相似度量误差。29.一种语义检索模型的训练装置，包括：类别挖掘单元，用于基于语义类别挖掘算法，将图像库中多个候选图像进行语义类别挖掘，获得至少一个语义类别；第二生成单元，用于生成包含第二编码器以及目标训练任务的待训练的语义检索模
型；所述目标训练任务对应多个损失函数；第二确定单元，用于确定至少一个第二训练数据；所述第二训练数据包括标记有语义类别真值的第三训练图像；第二训练单元，用于将至少一个所述第二训练数据输入所述待训练的语义检索模型，以基于多个所述损失函数对所述语义检索模型进行整体损失计算获得的第二损失值满足第二误差条件为训练目标，训练获得所述语义检索模型的语义模型参数；其中，所述语义模型参数对应的语义检索模型中的第二编码器用于提取待检索图像的语义特征；所述语义特征用于从图像库中查找目标图像。30.根据权利要求29所述的装置，其中，所述第二生成单元，包括：基于至少一个所述语义类别，构建语义检索模型的目标训练任务；所述目标训练任务对应多个损失函数；基于神经网络算法，构建所述语义检索模型的第二编码器；确定所述第二编码器以及所述目标训练任务构成的所述语义检索模型。31.根据权利要求28或29所述的装置，其中，所述第二训练单元，包括：第二初始化模块，用于对所述待训练的语义检索模型进行参数初始化，获得所述语义模型参数对应的第二模型参数；第二训练模块，用于将至少一个所述第二训练数据依次输入所述第二模型参数对应的语义检索模型的第二编码器，提取至少一个所述第二训练数据分别对应的第二训练特征；第二误差模块，用于基于至少一个所述第二训练数据分别对应的第二训练特征和语义类别真值，计算至少一个所述第二训练数据在所述目标训练任务对应的语义识别误差和中心损失误差；第二加权模块，用于将所述语义识别误差与所述中心损失误差进行加权，获得训练产生的第二损失值；第二确定模块，用于若确定所述第二损失值满足第二误差条件，则确定所述第二模型参数为所述语义检索模型的语义模型参数。32.根据权利要求31所述的装置，其中，所述目标训练任务包括基于至少一个所述语义类别的语义分类任务；所述第二误差模块，包括：第二分类子模块，用于将所述第二训练数据的第二训练特征输入所述目标训练任务对应的语义分类任务，获得所述第二训练数据对应的目标语义类别，以获得至少一个所述第二训练数据分别对应的目标语义类别；语义识别子模块，用于基于误差损失函数，对至少一个所述第二训练数据分别对应的目标语义类别和语义类别真值进行误差计算，获得所述语义识别误差；中心损失子模块，用于基于中心损失函数，对至少一个所述第二训练数据分别对应的目标语义类别和语义类别真值进行误差计算，获得所述中心损失误差。33.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7、8-12或者13-16中任一项所述
的方法。34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7、8-12或者13-16中任一项所述的方法。35.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-7、8-12或者13-16中任一项所述方法的步骤。

技术总结
本公开提供了图像检索方法、模型训练方法、装置、设备、介质及产品，涉及图像处理领域，尤其涉及深度学习领域。具体实现方案为：获取待检索图像；基于多个训练任务联合训练获得的视觉检索模型，提取所述待检索图像的视觉特征；基于多个损失函数联合训练获得的语义检索模型，提取所述待检索图像的语义特征；将所述视觉特征与所述语义特征进行特征拼接，以获得所述待检索图像的目标特征；基于所述目标特征，从图像库中查找与所述待检索图像满足图像相似条件的目标图像。本公开技术方案提高图像检索准确度。检索准确度。检索准确度。

技术研发人员：付程晗范学峰高菲李国洪
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2022.03.14
技术公布日：2022/6/21

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：快照文件的数据块读取方法、装置、设备及存储介质与流程

图像检索方法、模型训练方法、装置、设备、介质及产品与流程

相关文献

最热文献