一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多层掩码Transformer的服装兼容性预测方法

2023-02-19 23:26:47 来源:中国专利 TAG:

技术特征:
1.一种基于多层掩码transformer的服装兼容性预测方法,其特征在于,包括以下步骤:步骤s1、收集服装数据集;步骤s2、将服装数据集中的单品服装图像和描述文本数据输入视觉语义嵌入模块,建立服装图像和描述文本的关联性,并判断服装图像和描述文本是否匹配,若匹配则输入步骤s3的多层掩码模块内;若不匹配,则回到视觉语义嵌入模块继续匹配;步骤s3、将服装数据集内服装图像和描述文本匹配的所有单品输入多层掩码模块,计算单品间的相关性;步骤s4、将服装数据集中的多套服装套装输入服装兼容性预测模型对模型进行训练,得到训练好的服装兼容性预测模型;步骤s5、利用训练好的服装兼容性预测模型对兼容性进行预测。2.根据权利要求1所述的基于多层掩码transformer的服装兼容性预测方法,其特征在于,所述步骤s2中通过视觉语义嵌入模块判断图像和文本是否匹配的方法包括以下步骤s2a至步骤s2c:步骤s2a、通过resnet-50卷积模块提取服装数据集中单品的服装图像特征;步骤s2b、通过one-hot编码模块提取服装数据集中所有单品的描述文本特征;步骤s2c、将服装图像特征和描述文本特征输入同一向量空间内,建立服装图像特征和描述文本特征的关联性,根据服装图像特征和描述文本特征在向量空间的距离,判断服装图像和描述文本是否匹配。3.根据权利要求2所述的基于多层掩码transformer的服装兼容性预测方法,其特征在于,所述步骤s2c包括以下步骤s2c-1至步骤s2c-3:步骤s2c-1、用i表示一件单品的服装图像,t表示描述该单品的描述文本,则服装图像与描述文本的集合的计算公式如下:其中,s为服装图像与描述文本的集合,i为一件单品的服装图像,t为该单品的描述文本,(i
n
,t
n
)为正对,(i
n
,t
m≠n
)为负对,n为数量,n为总数;步骤s2c-2、设是根据服装图像i的服装图像特征向量,(t;θ
φ
)是描述文本t的描述文本特征向量,其中,和θ
φ
分别表示服装图像和描述文本的相应映射的模型参数,通过线性投影将服装图像特征向量和描述文本特征向量映射到同一维度的空间,其计算公式如下:式如下:其中,i为一件单品的服装图像,t为该单品的描述文本,f和g分别是服装图像和描述文本特征空间,(i
n
,t
n
)为正对,(i
n
,t
m≠n
)为负对,n为数量,w
f
和表示服装图像的相应映射的模型参数,w
g
和θ
φ
表示描述文本的相应映射的模型参数;步骤s2c-3、定义一个相似度函数s(i,t)以及预设范围值来判断服装图像和描述文本
对是否匹配,若相似度函数s(i,t)在预设范围值内则服装图像和描述文本匹配;若相似度函数s(i,t)不在预设范围内则服装图像和描述文本不匹配;规定和为同一维度,则嵌入空间中的相似函数定义为内积表示,其计算公式如下:其中,i为一件单品的服装图像,t为该单品的描述文本,f和g分别是服装图像和描述文本的特征空间,w
f
和表示服装图像的相应映射的模型参数,w
g
和θ
φ
表示描述文本的相应映射的模型参数。4.根据权利要求1所述的基于多层掩码transformer的服装兼容性预测方法,其特征在于,所述步骤s3中多层掩码模块计算单品间的相关性的方法包括以下步骤s3a至步骤s3c:步骤s3a、任意输入一个服装套装o,并随机遮盖掉第i件单品,获得关于这个单品的上下文表示,从而得到向量f
a
,再随机遮盖掉第j件单品,获得关于这个单品的上下文表示,从而得到向量f
b
;步骤s3b、通过transformer编码器提取a和b的全局特征,计算公式如下:g
a
=encoder(f
a
×
mask
i
)g
b
=encoder(f
b
×
mask
j
)其中,g
a
表示a全局特征,g
b
表示b全局特征;步骤s3c、通过计算全局特征的相关矩阵r(g
a
,g
b
)的大小来判断两件单品的相关性,r越大则表明相关性越高,第i件单品相对于第j件单品的相关性r,其计算公式如下:r=g
a
×
g
b
其中,g
a
表示a全局特征,g
b
表示b全局特征。5.根据权利要求1所述的基于多层掩码transformer的服装兼容性预测方法,其特征在于,所述步骤s4包括以下步骤步骤s4a、输入一组包含n个单品的服装套装;步骤s4b、设它们同一层面的特征的集合为y={y1,y2,...,y
n
},其中y
i
是第i个单品的特征向量(i=1、2

n),将任意两个单品的相关性表示为矩阵形式,其计算公式如下:其中,m为比较矩阵,m
ij
表示y
i
和y
j
之间的相关性(i=1、2

n)(j=1、2

n);步骤s4c、对u个不同层面的特征比较时,有u个不同的比较矩阵{m1,m2,...,m
u
},得到所有比较关系h,计算公式如下:其中,u表示层面的数量,h表示比较关系;步骤s4d、通过三层感知机和激活函数来计算兼容性分数s,计算公式如下:s=relu(w2relu(w1relu[m1;m2;...;m
u
] b) k))其中,s代表兼容性分数,relu表示激活函数,m为比较矩阵,b表示第2层感知机的参数,
k表示第3层感知机的参数,w2和w1表示服装图像和描述文本的相应映射的模型参数;步骤s4e、使用sigmoid函数将输出的兼容性分数s映射到0到1之间,计算公式如下:采用二元交叉熵作为损失函数,其计算公式如下:l
clf
=y
×
logσ(s) (1-y)
×
log(1-σ(s))其中,l
clf
表示二元交叉熵的损失值,sigmoid(x)表示输出单元上的激活函数,x表示输入的服装图像和描述文本,y表示二元标签0或者1;步骤s4f、通过最小化损失值l
clf
对服装兼容性预测模型进行训练,得到训练好的服装兼容性预测模型。

技术总结
本发明涉及一种基于多层掩码Transformer的服装兼容性预测方法,包括如下步骤:收集服装数据集;构建MLMT网络模型,在分层比较关系之上,使用多层掩码展示单品间的风格特征表达,通过Transformer编码器融合套装的整体特征,并使用多层感知机来判断服装兼容性得分。本发明通过多层掩码模型计算相关性和Transformer编码提取全局特征可以使得兼容性预测效果更加准确。预测效果更加准确。预测效果更加准确。


技术研发人员:汤俊伟 徐微 邢欢 胡博超 胡新荣 何儒汉 彭涛 张弛
受保护的技术使用者:武汉纺织大学
技术研发日:2022.10.19
技术公布日:2023/2/6
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献