一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语义分割模型的训练方法、视频语义分割方法及装置与流程

2022-07-02 07:32:48 来源:中国专利 TAG:

技术特征:
1.一种语义分割模型的训练方法,包括:获取训练样本集,其中,所述训练样本集中的训练样本包括至少一个样本视频流和所述样本视频流的像素级标注结果;利用初始语义分割模型对所述样本视频流中视频帧之间的空时上下文进行建模,得到所述样本视频流的上下文表征;基于所述样本视频流的上下文表征和所述样本视频流的像素级标注结果,计算时序对比损失;基于所述时序对比损失更新所述初始语义分割模型的参数,得到训练后的语义分割模型。2.根据权利要求1所述的方法,其中,所述初始语义分割模型包括特征提取网络和建模网络;以及所述利用初始语义分割模型对所述样本视频流中视频帧之间的空时上下文进行建模,得到所述样本视频流的上下文表征,包括:利用所述特征提取网络提取所述样本视频流中视频帧的特征,得到所述样本视频流的级联特征;利用所述建模网络对所述级联特征进行建模,得到所述样本视频流的上下文表征。3.根据权利要求2所述的方法,其中,所述利用所述特征提取网络提取所述样本视频流中视频帧的特征,得到所述样本视频流的级联特征,包括:利用所述特征提取网络分别提取所述样本视频流中所有视频帧的特征;基于时序维度将所述所有视频帧的特征进行级联,得到所述样本视频流的级联特征。4.根据权利要求2所述的方法,其中,所述利用所述建模网络对所述级联特征进行建模,得到所述样本视频流的上下文表征,包括:利用所述建模网络在时序和空间维度上将所述级联特征划分为至少一个网格组;基于自注意力机制生成每个网格组的上下文表征;对所述每个网格组的上下文表征进行处理,得到所述样本视频流对应的上下文表征。5.根据权利要求4所述的方法,其中,所述对所述每个网格组的上下文表征进行处理,得到所述样本视频流对应的上下文表征,包括:对所述每个网格组的上下文表征进行池化操作;基于池化后的每个网格组的上下文表征和每个网格组的位置索引,得到所述样本视频流对应的上下文表征。6.根据权利要求1所述的方法,其中,所述基于所述时序对比损失更新所述初始语义分割模型的参数,得到训练后的语义分割模型,包括:基于所述时序对比损失、利用反向传播算法更新所述初始语义分割模型的参数,得到训练后的语义分割模型。7.一种视频语义分割方法,包括:获取目标视频流;将所述目标视频流输入至预先训练的语义分割模型,输出得到所述目标视频流的语义分割结果,其中,所述语义分割模型采用如权利要求1-6中任一项所述的方法训练得到。8.一种语义分割模型的训练装置,包括:
第一获取模块,被配置成获取训练样本集,其中,所述训练样本集中的训练样本包括至少一个样本视频流和所述样本视频流的像素级标注结果;建模模块,被配置成利用初始语义分割模型对所述样本视频流中视频帧之间的空时上下文进行建模,得到所述样本视频流的上下文表征;计算模块,被配置成基于所述样本视频流的上下文表征和所述样本视频流的像素级标注结果,计算时序对比损失;更新模块,被配置成基于所述时序对比损失更新所述初始语义分割模型的参数,得到训练后的语义分割模型。9.根据权利要求8所述的装置,其中,所述初始语义分割模型包括特征提取网络和建模网络;以及所述建模模块包括:提取子模块,被配置成利用所述特征提取网络提取所述样本视频流中视频帧的特征,得到所述样本视频流的级联特征;建模子模块,被配置成利用所述建模网络对所述级联特征进行建模,得到所述样本视频流的上下文表征。10.根据权利要求9所述的装置,其中,所述提取子模块包括:提取单元,被配置成利用所述特征提取网络分别提取所述样本视频流中所有视频帧的特征;级联单元,被配置成基于时序维度将所述所有视频帧的特征进行级联,得到所述样本视频流的级联特征。11.根据权利要求9所述的装置,其中,所述建模子模块包括:划分单元,被配置成利用所述建模网络在时序和空间维度上将所述级联特征划分为至少一个网格组;生成单元,被配置成基于自注意力机制生成每个网格组的上下文表征;处理单元,被配置成对所述每个网格组的上下文表征进行处理,得到所述样本视频流对应的上下文表征。12.根据权利要求11所述的装置,其中,所述处理单元包括:池化子单元,被配置成对所述每个网格组的上下文表征进行池化操作;得到子单元,被配置成基于池化后的每个网格组的上下文表征和每个网格组的位置索引,得到所述样本视频流对应的上下文表征。13.根据权利要求8所述的装置,其中,所述更新模块包括:更新子模块,被配置成基于所述时序对比损失、利用反向传播算法更新所述初始语义分割模型的参数,得到训练后的语义分割模型。14.一种视频语义分割装置,包括:第二获取模块,被配置成获取目标视频流;输出模块,被配置成将所述目标视频流输入至预先训练的语义分割模型,输出得到所述目标视频流的语义分割结果,其中,所述语义分割模型采用如权利要求1-6中任一项所述的方法训练得到。15.一种电子设备,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

技术总结
本公开提供了一种语义分割模型的训练方法、视频语义分割方法及装置,涉及深度学习和计算机视觉等人工智能技术领域。该方法包括:获取训练样本集,其中,训练样本集中的训练样本包括至少一个样本视频流和样本视频流的像素级标注结果;利用初始语义分割模型对样本视频流中视频帧之间的空时上下文进行建模,得到样本视频流的上下文表征;基于样本视频流的上下文表征和样本视频流的像素级标注结果,计算时序对比损失;基于时序对比损失更新初始语义分割模型的参数,得到训练后的语义分割模型。基于本公开提供的视频语义分割方法提高了视频语义分割的效率和准确性。频语义分割的效率和准确性。频语义分割的效率和准确性。


技术研发人员:伍天意 朱欤 郭国栋
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2022.04.13
技术公布日:2022/7/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献