一种宠物视频拍摄装置、视频生成方法、装置系统与流程

2022-02-19 15:14:54 来源：中国专利 TAG：

1.本发明涉及视频拍摄和生成领域，更具体地说，它涉及一种宠物视频拍摄装置、生成方法、装置及系统。

背景技术：

2.随着人们的生活水平越来越高，越来越多的人选择饲养宠物，并将宠物作为家庭的一份子。很多的宠物主，喜欢分享宠物的视频，分享宠物的各种呆萌瞬间。但大部分时间，宠物主由于上班等原因，不能在家随时录制视频，因此会错过很多宠物有趣的时光。为了解决上述问题，部分家庭会安装安防摄像头，用于长期监控宠物在家的行为。但是监控视频一方面需要回放才能发现有趣的视频，另一方面也需要宠物主将这些视频片段拼接才能上传，十分不方便。

技术实现要素：

3.本发明的目的是提供一种宠物视频生成方法、装置、系统及拍摄装置，达到自动生成宠物视频的目的。
4.本发明的上述技术目的是通过以下技术方案得以实现的：一种宠物视频生成方法，包含如下步骤：获取视频脚本，视频脚本包含背景音乐、分镜；所述分镜具有至少一个镜头，所述镜头具有镜头信息；发送镜头信息至拍摄装置；接收拍摄装置拍摄的视频素材，该视频素材是依据镜头信息拍摄；当该视频脚本中所有镜头均对应有视频素材后，根据视频脚本合成视频。
5.本发明中的镜头信息，指镜头的拍摄要求。将视频脚本所需要的分镜中的每个镜头给出相应的拍摄要求，再将拍摄要求发送至拍摄装置。拍摄装置可以根据镜头信息中的拍摄要求拍摄相应的视频。当每个镜头均具有对应的视频素材后，依据视频脚本合成视频。通过上述方案，可以实现自动的视频合成目的。对于宠物主来讲，无须再进行枯燥的选材，繁琐的合成步骤，仅需要选择或者编辑喜欢的视频脚本，最终就可以获得理想的视频文件。
6.进一步的，镜头信息包括镜号、最短持续帧数、画面描述、运镜方式中至少一项。
7.本发明中的视频脚本，包括至少一个分镜，优选的还包括背景音乐、过渡特效、滤镜、字幕等视频元素中的至少一项。
8.分镜是指同一事件的连续画面，例如表现宠物吃饭的一段视频。
9.镜头是指在同一个分镜中，不同角度、不同镜头类型、不同运镜方式等产生的不同画面。例如，从不同角度拍摄的宠物吃饭同一时段的画面，又比如，一个镜头是广角镜头拍摄宠物的吃饭时候的画面，在同一时段，另一个是变焦井筒，拍摄该该宠物吃饭的画面。
10.镜号指分镜中对镜头的编号。
11.每个镜头具有至少一帧图像，最短持续帧指该镜头需要的最少帧数。
12.画面描述指对画面内容的表述，例如画面中是什么宠物、宠物在做什么行为、宠物占画面的比例。
13.运镜方式指镜头的拍摄方式，例如，由远及近、由近及远等。
14.将视频脚本中的各个元素进行拆分，有利于将上述操作变化为计算机可执行的程序。
15.进一步的，所述视频素材具有标签信息，所述标签信息包括镜号、帧数、画面描述、运镜方式中至少一项。
16.视频素材的标签信息与脚本信息一致，有利于将视频信息根据视频脚本合成目标视频。
17.进一步的，还包括将视频合成完毕信息或合成后的视频发送至用户的步骤。
18.本发明还提供一种宠物视频拍摄装置为摄像头，摄像头具有识别装置和通讯装置，所述识别装置可用于识别宠物类型、宠物行为类型、宠物身体部位、宠物表情中的至少一项；
19.通讯装置用于接收镜头信息和发送视频素材；接收到镜头信息后，摄像头依据镜头信息进行视频拍摄；拍摄视频后，通讯装置发送添加有标签信息的视频素材；所述视频素材用于视频合成模块依据视频脚本合成视频。
20.通过识别装置，识别宠物的类型、行为、身体部位等，有利于对视频加入更加精确的标签，同时丰富了标签类型，有利于后续自动化处理。
21.进一步的，所述的镜头信息包括镜号、最短持续帧数、画面描述、运镜方式中至少一项。
22.进一步的，所述标签信息包括镜号、帧数、画面描述、运镜方式中至少一项。
23.视频标签信息与脚本要求的镜头信息一致，有利于实现计算机调取视频素材，进而实现自动化处理。
24.本发明还提供一种宠物视频生成装置，包括脚本获取模块、存储模块、通讯模块、视频合成模块；脚本获取模块用于获取视频脚本，视频脚本包含背景音乐、分镜；所述分镜具有至少一个镜头，所述镜头具有镜头信息；通讯模块可用于发送镜头信息至拍摄装置，接收拍摄装置拍摄的视频素材；视频合成模块用于当该视频脚本中所有镜头均对应有视频素材后，根据视频脚本合成视频。
25.视频生成装置，可以是服务器，也可以是计算机、平板电脑等设备。
26.本发明还提供一种宠物视频自动生成系统，包括服务器，所述服务器具有脚本获取模块、存储模块、通讯模块、视频合成模块；脚本获取模块用于获取视频脚本，视频脚本包含背景音乐、分镜；所述分镜具有至少一个镜头，所述镜头具有镜头信息；通讯模块可用于发送镜头信息至拍摄装置，接收拍摄装置拍摄的视频素材；视频合成模块用于当该视频脚本中所有镜头均对应有视频素材后，根据视频脚本合成视频。
27.进一步的，还包括视频拍摄装置，所述视频拍摄装置为摄像头，摄像头具有识别装置和通讯装置，所述识别装置可用于识别宠物类型、宠物行为类型、宠物身体部位、宠物表情中的至少一项；通讯装置用于接收镜头信息和发送视频素材；接收到镜头信息后，摄像头依据镜头信息进行视频拍摄；拍摄视频后，通讯装置发送添加有标签信息的视频素材。
28.将识别装置部署于拍摄装置，可以减轻服务器需要承担的计算压力。
附图说明
29.图1是本发明方法流程图
30.图2是实施例1摄像头示意图
31.图3是giou的惩罚内容为最小化阴影区域的面积
32.图4是聚焦步进表
具体实施方式
33.为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。
34.需说明的是，当部件被称为“固定于”或“设置于”另一个部件，它可以直接在另一个部件上或者间接在该另一个部件上。当一个部件被称为是“连接”另一个部件，它可以是直接或者间接连接至该另一个部件上，该“连接”不限定固定连接或活动连接，具体连接方式应根据所要解决的具体技术问题来判断。
35.需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
36.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
37.实施例1：
38.本实施例提供一种宠物视频拍摄装置，具体来讲拍摄装置为摄像头。摄像头具有宠物识别功能，可以识别宠物类型、宠物品种、宠物行为等。包括广角镜头、变焦镜头、控制装置、识别装置、调整装置、报警装置、通讯装置、存储装置：
39.控制装置为中央处理器(cpu)。识别装置为ai处理器，例如本实施例采用tup，在其他可能的实施例中也可以是能够实现ai功能的gpu、fpga、asic等，识别模块中具有识别模型。调整装置为云台至少具有水平旋转和俯仰两个自由度，水平旋转通过cpu控制水平方向电机实现，俯仰通过cpu控制垂直方向电机实现；云台具备拟人化运动跟踪轨迹特性，使得拍摄的视频更接近人工手持摄像设备拍摄风格。报警装置为扩音器，在cpu的控制下可以实现声音的播放。通讯装置，可以是3g、4g、5g、wifi等通讯设备，用于上传视频，发送报警短信、画面实时传送等功能。存储装置，用于存储视频，系统文件等。广角镜头用于获取广角画面和拍摄广角视频；变焦镜头用于获取宠物细节画面和拍摄细节视频；
40.广角镜头、变焦镜头、cpu、tpu、扩音器、通讯装置、存储装置，均部署在云台上。广角镜头和变焦镜头平行安装，在云台的带动下，可以实现水平和俯仰角度的旋转，可以获取更大范围的视频图像。在控制装置的控制下，广角镜头和变焦镜头可以同时录制视频。
41.在其他可能的实施例中，摄像头上有外部接口，例如usb、vga、hdmi等，由于电脑、手机等；供电脑、手机直接下载视频或修改程序。
42.所述识别装置可用于识别宠物类型、宠物行为类型、宠物身体部位、宠物表情中的
至少一项；
43.通讯装置用于接收镜头信息和发送视频素材；接收到镜头信息后，摄像头依据镜头信息进行视频拍摄；拍摄视频后，通讯装置发送添加有标签信息的视频素材；所述视频素材用于视频合成模块依据视频脚本合成视频。镜头信息包括镜号、最短持续帧数、画面描述、运镜方式中至少一项。标签信息包括镜号、帧数、画面描述、运镜方式中至少一项。
44.摄像机在镜头信息的指导下拍摄视频素材，并将拍摄好的视频素材添加标签。在本实施例中，主要的难点在于画面描述部分和运镜部分。本实施例针对宠物视频录制而设置，因此画面的描述主要集中于宠物类型、宠物行为类型、宠物身体部位、宠物表情。
45.简单来讲，本摄像头具备宠物识别功能和运镜的功能，识别功能是通过识别模型识别识别宠物类型，例如猫、狗、鹦鹉等；宠物品种，例如金毛、泰迪、波斯猫等；宠物身体部位，例如嘴、鼻子、头、身体等；宠物行为类型，例如打呵欠、吃饭、睡觉、发呆、坐、卧等。
46.运镜功能是指，可以由远及近，由近及远拍摄画面，也可以根据要求使宠物占据画面一定比例。
47.识别模型通过深度学习获得，具体方法如下：
48.宠物类型及行为识别训练
49.训练模型基于yolov5的宠物检测算法，方法如下：
50.开数据集coco、open
‑
images
‑
dataset、kaggle、oxford
‑
iit、stanford dogs dataset、自采集数据，图片总数超200000张，并且包含60个不同品种的猫和120个不同品种狗图片数据增加了图片数据的多样性。将所有图片按照一定比例分随机为训练集和验证集。
51.将所有数据使用labelimg工具，标记好检测对象的位置和大小信息，并且记录类别，每张图片生成对应的标记文件。
52.为了增加模型的抗干扰能力，还单独增加了indoors数据集中不同场景的室内数和自己采集的不包含宠物的图片数据30000张作为负样本。
53.将所有标注好的图片和负样本送入模型的输入端，因为图片大小不同，而yolov5需要使用统一的规格才能生成特征层，需要在输入之前对图片做预处理自适应缩放，即先按照yolov5所需要的输入尺寸缩放，较短边crop(填充)成黑色的正方形，满足512像素*512像素的输入规格。并且yolov5通过mosaic(马赛克)的方式将多张图片随机缩放、裁剪、组合拼接组成一张图片，增强了数据的多样性，丰富了训练数据。
54.将经过预处理的数据输入网络。生成由focus结构，图片切片和一系列的处理后的三个大小不同的特征层。再将三个特征层分别输入neck部分经过一系列的神经网络单元后产生三个特征层并输出给输出端。
55.yolov5的网络输出端根据三个特征层，给出边界框(模型初始的预测，一个种类包含多个边界框)和置信度(表示边界框里有检测对象的自信程度和边界框是否将整个物体的所有特征包括进来的自信程度)。然后，采用nms(非极大值抑制)方法，删掉重复的边界框，具体步骤是，先根据置信度得分进行排序，选择置信度最高的边界框添加到最终的输出列表，将其从边界框从列表中删除，计算所有边界框的面积，计算置信度最高的边界框与其他候选框的iou(交并比：是指两个框的交集部分面积与两个框的并集面积比值，表示两个框的相交程度)。删除iou大于设定阈值的边界框，重复上述过程直到边界框列表为空。剩下
的边界框便是预测框，再将其与手动标记的框进行对比，并采用giou损失函数(损失函数映射了预测框与真实框的差距，通过损失函数可以不断调整模型的权重，缩小预测框与真实框的差距)计算损失。再利用损失函数做反向传播从而调整yolov5模型的权重。
56.giou损失详解如下：
57.1、giou
58.giou的目标相当于在损失函数中加入了一个ground truth和预测框构成的闭包的惩罚，它的惩罚项是闭包减去两个框的并集后的面积在闭包中的比例越小越好，如图3所示，闭包是虚线矩形c，我们要最小化阴影部分的面积除以闭包的面积。
[0059][0060]
其中，a是ground truth(真实框)，b是预测框，c是两个区域的闭包(在giou loss中，闭包取的是包围这两个矩形区域的平行于坐标轴的最小矩形)。
[0061]
2、giou损失函数
[0062]
l
giou
＝1
‑
giou
[0063]
重复上述过程使yolov5逐渐收敛，并且通过验证集的测试不断调整参数，即使得越小越好，让训练得到的模型泛化能力和精度提升。
[0064]
本方法利用yolov5网络的one
‑
stage检测方法，能够精确地给出物体的类别概率和位置，识别速度快，在我们的平台上512像素*512像素的输入能做到小于40(毫秒每帧)，对摄像头控制提供了有效依据；在跟踪到宠物后，可以用跟踪框的历史轨迹来分析宠物的运动状态(运动或者静止)或者用跟踪框来做进一步的多分类来识别宠物站立、躺下、跳跃、打斗等细微的动作状态。
[0065]
s02：宠物面部表情识别
[0066]
基于yolov5
‑
face的检测算法，能够精准的检测宠物的正脸和landmarks(关键点：眼睛、鼻子、嘴角)。
[0067]
开数据集oxford
‑
iit、自采集数据，图片总数超100000张。将所有图片按照一定比例分随机为训练集和验证集。
[0068]
将所有数据使用labelme工具，标记好检测对象的头部位置和大小信息，并且记录类别；五个landmarks(左眼睛、右眼睛、鼻尖、左嘴角、右嘴角)的坐标信息，每张图片生成对应的标记文件包含类别，头部位置，landmarks三部分信息。
[0069]
为了增加模型的抗干扰能力，还单独增加了其他动物(例如：老虎、兔子、狮子等非我们需要识别的猫狗)和自己采集的不包含宠物的图片数据2000张作为负样本，用来增强训练数据的多样性。
[0070]
将所有标注好的图片和负样本送入模型的输入端，因为图片大小不同，而yolov5
‑
face需要使用统一的规格才能生成特征层，需要在输入之前对图片做预处理自适应缩放，即先按照yolov5
‑
face所需要的输入尺寸缩放,较短边crop(填充)成黑色的正方形，项目检测流程是先定位了跟踪对象，在跟踪对象没有剧烈运动的情况下用变焦镜头zoom in(放大)来检测识别宠物的正脸的，所以网络输入选用了320像素*320像素的输入规格，这样能够得到更高的效率。
[0071]
yolov5
‑
face网络是在yolov5的基础上优化得来的，训练步骤基本上和yolov5一
致不做过多阐述。
[0072]
通过yolov5
‑
face,我们能够得到宠物正脸的位置和类别，以及landmarks信息，我们在landmarks的基础上获取到的眼睛，嘴巴坐标知道位置信息。对眼睛局部图像做睁眼、闭眼二分类能够识别宠物是否睡觉；通过对嘴巴坐标信息，对嘴巴做局部二分类，判断宠物是否张嘴能判断是否打哈切等行为状态；还可以嘴巴的局部图像做多分类，获取是否吐舌头等细微的表情识别。
[0073]
运镜功能通过如下方法实现：
[0074]
实现本方法需要使用预先标定好的聚焦步进表。聚焦步进表反应倍率、zoom步数、focus步数、以及目标距离的关系(如图4所示给某款电动变焦镜头，聚焦步进表部分的示例；不同变焦镜头对应不同表格，可以通过有限测试进行标定)。
[0075]
首先调用自动对焦模块使得目标整体清晰。获得zoom步数和focus步数；通过查阅聚焦步进表获得目标大致距离。
[0076]
之后根据目标检测框大小与整幅画面的比例(面积比)，判断比值是否在阈值范围内(t1
‑
t2)，如果小于t1表示目标距离较远，控制镜头进行zoom in操作，获得由远及近的拍摄效果。反之距离较近执行zoom out，获得由近及远的拍摄效果。直至比值处于阈值范围内。
[0077]
在这个过程中为了获取清晰的图像，还需要进行同时执行focus操作。在镜头推拉的过程中，实施查阅聚焦步进表，并执行对应的zoom步进和focus步进，可以得到清晰的图像。
[0078]
本实施例摄像头录制视频方法如下：
[0079]
获取广角镜头画面，识别是否存在宠物，如否则调整摄像头摄像方位后继续识别，如是则判断宠物是否处于移动状态；判断宠物处于移动状态，则调整摄像头对宠物进行跟踪。
[0080]
判断宠物处于非移动状态，则调整摄像头使宠物位于变焦镜头画面中部，将变焦镜头与宠物进行对焦。
[0081]
识别宠物行为类型，判断行为类型是否满足拍摄要求，如是则镜头开始录制视频。判断行为类型是否满足拍摄要求，主要依据镜头信息给出的条件。录制方法也是依据镜头信息来进行控制云台、广角镜头和变焦镜头来录制。需要说明的是，广角镜头和变焦镜头可以同时录制同一时段的宠物的视频，也可以单独录制，根据视频脚本中镜头信息来判定。
[0082]
对录制的视频素材加入标签信息，并将带有标签信息的视频素材发送至服务器用于视频合成。
[0083]
实施例2
[0084]
本实施例提供一种宠物视频生成方法，该方法可以由宠物视频生成装置来执行，该装置可以采用软件和/或硬件的方式实现，该装置可以配置于终端设备中，例如典型的是计算机、手机等。该方法具体包括如下步骤：
[0085]
s1获取视频脚本，视频脚本包含背景音乐、分镜；所述分镜具有至少一个镜头，所述镜头具有镜头信息；镜头信息包括镜号、最短持续帧数、画面描述、运镜方式中至少一项。最短持续帧用于指导视频拍摄时长。
[0086]
在其他可能的实施例中还包含字幕、过渡特效、滤镜等信息。
[0087]
在一种可能的实施例中，用户对分镜进行排列、编号，构建分镜列表，输入每个镜头信息，由计算机生成可用于执行的视频脚本。例如在excel表格中输入脚本信息的内容，通过程序生成用于执行的计算机代码。又例如通过计算机编写应用程序，用户在应用程序中根据提示数据脚本所需要的脚本信息生成用于执行的视频脚本计算机代码。本实施例附图给出的脚本信息为示例信息，也可以根据需求对脚本信息进行调整，在本发明构思下的调整，均在本专利的保护范围。
[0088]
在一种可能的实施例中，脚本信息通过计算机程序对样片进行分析获得，样片可以来自于其他创作者，也可以来自于用户自身拍摄得较为理想的视频。例如，当社交平台出现较为热门的宠物视频短片，计算机程序对该样片进行分析：
[0089]
将样片输入镜头分割模型(例如经深度学习后的神经网络模型)进行镜头分割处理，将视频短片分割为若干个镜头，对分镜排序并进行编号，获得分镜列表；确定每个分镜的画面帧数；单个分镜具有至少一个镜头。
[0090]
分镜的识别可以计算视频中每相邻两视频帧图像之间的差异，如果差异达到预定阈值，则认为该相邻两张视频帧来源于两个分镜，以此为分界点，将视频拆分为若干分镜。
[0091]
将分镜输入镜头分析模型(例如经深度学习后的神经网络模型)对画面信息进行分析获得每个镜头的信息，例如画面帧数、运镜方式、角度、机位等一种或多种信息；
[0092]
将每个镜头输入镜头识别模型(例如经深度学习后的神经网络模型)对画面信息进行分析获得滤镜信息、画面描述、等信息。
[0093]
将上述信息转化为可执行的视频脚本计算机程序。
[0094]
s2发送镜头信息至拍摄装置；
[0095]
s3接收拍摄装置拍摄的视频素材，该视频素材是依据镜头信息拍摄；
[0096]
步骤s2和s3可以参考实施例1中的方法。
[0097]
s4当该视频脚本中所有镜头均对应有视频素材后，根据视频脚本合成视频。具体步骤如下
[0098]
s41将分镜的镜头信息与视频素材库中的视频素材进行对比，选择满足镜头信息的视频素材。
[0099]
视频素材库中的视频来自于本步骤s3。
[0100]
s42建立视频素材与分镜的对应关系；
[0101]
当分镜的信息匹配到合适的视频素材，即素材信息满足分镜信息的要求，建立视频素材与分镜的对应关系。每个分镜对应至少一段视频素材。
[0102]
s43当每个分镜对应一个视频素材后，进行视频合成。具体操作步骤如下：
[0103]
s431根据视频脚本将个镜头画面拼接为一个分镜，再将分镜拼接为一个完整的视频。
[0104]
s432根据视频脚本过渡特效、字幕、背景音乐、滤镜等，为视频加入过渡特效、字幕、背景音乐、滤镜等。
[0105]
s5将合成的视频或合成完毕信息发送给用户。
[0106]
在一种可能的实施例中提供了一种宠物视频生成装置，该装置可以是计算机、服务器等设备，包括脚本获取模块、存储模块、通讯模块、视频合成模块；
[0107]
脚本获取模块可用于执行实施例2中s1步骤；
[0108]
通讯模块可用于执行实施例2中s2、s3以及s5步骤；
[0109]
视频合成模块用于执行实施例2中s4步骤。
[0110]
实施例3
[0111]
本实施例提供了一种宠物视频自动生成系统，包括服务器和摄像头
[0112]
所述服务器具有脚本获取模块、存储模块、通讯模块、视频合成模块；
[0113]
脚本获取模块用于获取视频脚本，视频脚本包含背景音乐、分镜；所述分镜具有至少一个镜头，所述镜头具有镜头信息；
[0114]
通讯模块可用于发送镜头信息至拍摄装置，接收拍摄装置拍摄的视频素材；该视频素材是依据镜头信息拍摄；
[0115]
视频合成模块用于当该视频脚本中所有镜头均对应有视频素材后，根据视频脚本合成视频。
[0116]
摄像头具有识别装置和通讯装置，所述识别装置可用于识别宠物类型、宠物行为类型、宠物身体部位、宠物表情中的至少一项；
[0117]
摄像头具有广角镜头和变焦镜头。
[0118]
本实施例中的服务器和摄像头可以参考实施例1和实施例2。
[0119]
本实施例实施步骤如下：
[0120]
s1服务器获取视频脚本，并对视频脚本中的信息进行分析，获取镜头信息；
[0121]
s2服务器将镜头信息发送至摄像头；
[0122]
s3摄像头依据镜头信息录制视频，由于摄像头具有双镜头，因此可以同时录制广角视频和变焦视频。
[0123]
s4摄像头将录制完毕的视频发送给服务器。
[0124]
s5服务器依据视频脚本完成视频合成。
[0125]
本方案主要优点：
[0126]
1、解放了用户的双手，用户安置摄像头、选择视频脚本之后就直接可以放松，只需等待视频生成即可，不需要自己操作设备甚至录制视频送入剪辑软件。
[0127]
2、由于摄像头可以模拟运镜，也避免了用户不会进行风格化拍摄的问题。
[0128]
3、全天候素材拍摄以及快速成片，相对于用户来说，不可能花费太多精力去捕捉宠物精彩瞬间。
[0129]
本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：网络接入方法、装置、设备及存储介质与流程

一种宠物视频拍摄装置、视频生成方法、装置系统与流程

相关文献

最热文献