采用语义分割模型对视频进行目标分割的方法、装置与流程

2021-10-30 02:28:00 来源：中国专利 TAG：人工智能深度可用场景视觉

技术特征：
1.一种采用语义分割模型对视频进行目标分割的方法，其中，所述语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络；所述方法包括：将当前视频帧和在前视频帧依次输入所述第一特征提取网络，得到特征图序列；将在前视频帧的目标分割信息依次输入所述第二特征提取网络，得到分割特征序列；将所述当前视频帧和在前视频帧依次输入所述时间编码网络，得到时间特征序列；基于所述特征图序列、所述分割特征序列和所述时间特征序列，采用所述特征融合网络获得融合特征序列；以及将所述融合特征序列输入所述分割网络，获得所述当前视频帧的目标分割信息。2.根据权利要求1所述的方法，其中，所述语义分割模型还包括位置编码网络；所述方法还包括：将所述当前视频帧和在前视频帧依次输入所述位置编码网络，获得位置特征序列；采用所述特征融合网络获得融合特征序列包括；将所述特征图序列、所述分割特征序列、所述时间特征序列和所述位置特征序列输入所述特征融合网络，获得在通道维度进行拼接的融合特征序列。3.根据权利要求1所述的方法，其中，所述分割网络包括编码解码子网络和分割子网络；获得所述当前视频帧的目标分割信息包括：将所述融合特征序列输入所述编码解码子网络，获得实例特征序列；以及将所述实例特征序列输入所述分割子网络，得到所述当前视频帧的目标分割信息。4.根据权利要求3所述的方法，其中，所述编码解码子网络包括编码层和解码层；所述方法还包括：将起始帧和起始帧的实际目标分割信息作为预定特征提取模型的输入，获得参考特征数据；获得实例特征序列包括：将所述融合特征序列输入所述编码层，得到编码特征序列；以及将所述编码特征序列和所述参考特征数据输入所述解码层，得到所述实例特征序列。5.根据权利要求3所述的方法，其中，所述编码解码子网络采用transformer模型获得所述实例特征序列。6.根据权利要求1所述的方法，其中，得到时间特征序列包括：基于时间顺序，将所述当前视频帧和在前视频帧依次输入所述时间编码网络，使所述时间编码网络基于输入的各视频帧相对于起始帧的时间信息，采用正弦波编码方法得到所述各视频帧的时间特征。7.根据权利要求1所述的方法，其中，所述特征融合网络包括第一融合子网络和第二融合子网络；采用所述特征融合网络获得融合特征序列包括：将所述特征图序列和所述分割特征序列输入所述第一融合子网络，得到图像特征序列；以及将所述图像特征序列和所述时间特征序列输入所述第二融合子网络，获得在通道维度进行融合的融合特征序列。8.一种采用语义分割模型对视频进行语义分割的装置，其中，所述语义分割模型包括
第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络；所述装置包括：特征图获得模块，用于将当前视频帧和在前视频帧依次输入所述第一特征提取网络，得到特征图序列；分割特征获得模块，用于将在前视频帧的目标分割信息依次输入所述第二特征提取网络，得到分割特征序列；时间特征获得模块，用于将所述当前视频帧和在前视频帧依次输入所述时间编码网络，得到时间特征序列；融合特征获得模块，用于基于所述特征图序列、所述分割特征序列和所述时间特征序列，采用所述特征融合网络获得融合特征序列；以及目标分割模块，用于将所述融合特征序列输入所述分割网络，获得所述当前视频帧的目标分割信息。9.根据权利要求8所述的装置，其中，所述语义分割模型还包括位置编码网络；所述装置还包括：位置特征获得模块，用于将所述当前视频帧和在前视频帧依次输入所述位置编码网络，获得位置特征序列；其中，所述融合特征获得模块用于将所述特征图序列、所述分割特征序列、所述时间特征序列和所述位置特征序列输入所述特征融合网络，获得在通道维度进行拼接的融合特征序列。10.根据权利要求8所述的装置，其中，所述分割网络包括编码解码子网络和分割子网络；所述目标分割模块包括：编解码子模块，用于将所述融合特征序列输入所述编码解码子网络，获得实例特征序列；以及目标分割子模块，用于将所述实例特征序列输入所述分割子网络，得到所述当前视频帧的目标分割信息。11.根据权利要求10所述的装置，其中，所述编码解码子网络包括编码层和解码层；所述装置还包括：参考特征获得模块，用于将起始帧和起始帧的实际目标分割信息作为预定特征提取模型的输入，获得参考特征数据；所述编解码子模块包括：编码单元，用于将所述融合特征序列输入所述编码层，得到编码特征序列；以及解码单元，用于将所述编码特征序列和所述参考特征数据输入所述解码层，得到所述实例特征序列。12.根据权利要求10所述的装置，其中，所述编码解码子网络采用transformer模型获得所述实例特征序列。13.根据权利要求8所述的装置，其中，所述时间特征获得模块用于：基于时间顺序，将所述当前视频帧和在前视频帧依次输入所述时间编码网络，使所述时间编码网络基于输入的各视频帧相对于起始帧的时间信息，采用正弦波编码方法得到所述各视频帧的时间特征。
14.根据权利要求8所述的装置，其中，所述特征融合网络包括第一融合子网络和第二融合子网络；所述融合特征获得模块包括：第一融合子模块，用于将所述特征图序列和所述分割特征序列输入所述第一融合子网络，得到图像特征序列；以及第二融合子模块，用于将所述图像特征序列和所述时间特征序列输入所述第二融合子网络，获得在通道维度进行融合的融合特征序列。15.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～7中任一项所述的方法。16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～7中任一项所述的方法。17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～7中任一项所述的方法。

技术总结
本公开提供了一种采用语义分割模型对视频进行目标分割的方法、装置、设备和介质。涉及人工智能领域，具体涉及计算机视觉和深度学习技术，可用于智慧城市和智能云场景下。语义分割模型包括第一特征提取网络、第二特征提取网络、时间编码网络、特征融合网络和分割网络。方法包括：将当前视频帧和在前视频帧依次输入第一特征提取网络，得到特征图序列；将在前视频帧的目标分割信息依次输入第二特征提取网络，得到分割特征序列；将当前视频帧和在前视频帧依次输入时间编码网络，得到时间特征序列；基于特征图序列、分割特征序列和时间特征序列，采用特征融合网络获得融合特征序列；以及将融合特征序列输入分割网络，获得当前视频帧的目标分割信息。标分割信息。标分割信息。

技术研发人员：张健
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.07.26
技术公布日：2021/10/29

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于LightGBM的风电机组齿轮箱油温故障预警方法与流程

采用语义分割模型对视频进行目标分割的方法、装置与流程

相关文献

最热文献