一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种从脚本到电影的生成方法及装置与流程

2022-07-02 03:55:51 来源:中国专利 TAG:


1.本发明涉及计算机图形技术领域,尤其涉及一种从脚本到电影的生成方法和装置。


背景技术:

2.在传统电影行业中,脚本创作(即创作电影脚本)和电影制作是完全独立的过程。新生的写电影(write-a-movie)技术根据电影脚本自动生成视频,大幅提高电影制作效率。然而,自动生成的视频往往不能充分反应电影脚本的内容。
3.本发明提供了一种从脚本到电影(script-to-movie)的生成方法,所述方法结合了新颖的评估机制,所述方法将电影脚本视觉呈现的可理解性和电影摄影指南的合规性结合在一起。因此,将从脚本到电影的生成过程映射为优化问题,以提高自动生成的视频的质量。同时,在所述优化问题的求解中加入了动态编程,以降低计算复杂度,缩短电影制作时间。


技术实现要素:

4.本发明的一个方面提供了一种在计算机设备上的从脚本到电影的生成方法。所述方法包括:获取电影脚本,根据所述电影脚本生成视频,优化生成的所述视频直到满足通过条件;以及输出优化后的视频。
5.本发明的另一方面提供了一种从脚本到电影的生成装置。所述装置包括存储程序指令的存储器,以及与所述存储器耦合的处理器,所述处理器用于执行所述程序指令以:获取电影脚本,根据所述电影脚本生成视频,优化生成的所述视频直到满足通过条件;以及输出优化后的视频。
6.所述的装置,其中,所述处理器还用于:
7.根据所述电影脚本生成第一动作列表;
8.根据所述第一动作列表中的动作生成舞台表演;和
9.使用摄影机拍摄所述舞台表演的视频。
10.所述的装置,其中,所述处理器还用于:
11.评估所述视频的总审美失真值,所述视频由摄影机从所述舞台表演拍摄;
12.根据所述视频生成第二动作列表,所述视频由摄影机从所述舞台表演拍摄;
13.确定所述第一动作列表和所述第二动作列表之间的保真度误差e;和
14.迭代优化摄影机设置和角色表演,以最小化总审美失真度d,从而满足所述通过条件,其中所述通过条件包括满足所述保真度误差e小于或等于预先设置的保真度误差阈值the或最小化迭代次数的计数达到预先设置的计数阈值。
15.所述的装置,其中:
16.所述第一动作列表和所述第二动作列表中的各动作具有属性,所述属性包括主体、动作、对象、动作持续时间、主体开始位置、主体结束位置、主体情绪和动作风格。
17.所述的装置,其中:
18.所述第一动作列表由按时间顺序排列的动作列表表示{ai|i=1,2,

,n};和
19.所述第二动作列表由按时间顺序排列的动作列表{a
′i|i=1,2,

,n}表示;
20.其中,ai表示第i个动作对象,所述动作对象包括在舞台表演的场景中一个或多个虚拟角色的信息;a
′i是第i个动作对象,所述动作对象包括在舞台表演的场景中一个或多个虚拟角色的信息;n是所述舞台表演的多个场景中多个角色执行的动作对象的总数。
21.所述的装置,其中:
22.所述舞台表演用{p
t
|t=1,2,

,t}表示,其中p
t
为时间t时角色的舞台表演,t为总表演时间;和
23.对应ai的所述舞台表演由表示,其中是动作ai的持续时间,和是从所述动作列表{ai|i=1,2,

,n}导出的固定值。
24.本发明的其他方面还包括本领域技术人员从本发明说明书、权利要求书和附图中理解的内容。
附图说明
25.以下附图是基于本发明公开的实施例,仅用于说明目的的示例,并不旨在限制本发明的范围。
26.图1示出了根据本发明实施例的从脚本到电影的生成设备的功能示意图。
27.图2示出了根据本发明实施例的从脚本到电影的生成设备的结构示意图。
28.图3示出了根据本发明实施例的从脚本到电影的生成方法的流程图;
29.图4a和图4b示出了根据本发明实施例的摄影机放置位置的示意图;
30.图5示出了根据本发明实施例的另一从脚本到电影的生成设备的功能示意图。
具体实施方式
31.现在将详细参考在附图中示出的本发明实施例。在下文中,将参考附图描述本发明的实施例。在可能的情况下,在附图中将使用相同的附图标记来指代相同或相似的部件。显然,所描述的实施例是本发明的部分实施例,而不是全部实施例。基于所公开的实施例,本领域普通技术人员可以得出与本发明相一致的其他实施例,均在本发明保护的范围内。
[0032]“写电影(write-a-movie)”技术是一种适应性的自增强的电影自动生成框架,所述“写电影”技术从电影脚本中自动生成视频。本发明提供了一种从脚本到电影的生成设备,所述从脚本到电影的生成设备利用了自然语言处理、计算机电影摄影和视频理解等方面的最新进展。所述从脚本到电影的生成设备的自动工作流程大大减少了从脚本到电影的生成过程所需的时间和知识。通过结合新型混合客观评估机制,视频生成过程已映射到旨在生成更好质量视频的优化问题,所述新型混合客观评估机制同时考虑电影脚本视觉呈现的可理解性和电影摄影指南的合规性。动态编程可以解决优化问题并作为获得具有最有效计算复杂度的最优解。因此,本发明所述的从脚本到电影的生成设备大大加快了电影制作过程。
[0033]
在传统电影行业中,脚本创作和电影制作是完全独立的过程。随着最近人工智能
技术的发展,电影制作过程的很大一部分可以通过计算机来完成。将脚本写作和电影制作结合起来,可以为所有相关方带来直接的好处。脚本作者可以在提交之前可视化他们的产品并进行编辑。制片人可以通过查看预可视化版本来筛选电影脚本,而不需要阅读数百页的电影脚本。所述从脚本到电影的生成设备需要满足两个质量要求。一方面,输出的电影保持了对电影脚本的合理保真。另一方面,输出的电影遵循具有电影美学的电影规则。
[0034]
因此,需要一种机制来评估生成的视频对相应电影脚本的保真度,并在评估出的保真度低于可接受的标准时,将反馈传递给动画和电影摄影过程以进一步改进。因此,计算机电影摄影过程需要考虑的不仅有美学,还有在电影脚本保真这一角度上的感知能力。虽然当今最先进的视频理解能力还无法满足准确评估生成的视频对电影脚本的保真度,但评估某些类型的电影是足够的,这些类型的电影的场景复杂性较低和动作识别难度较小。
[0035]
在本发明的实施例中,所述从脚本到电影的生成设备自动将电影脚本转换为电影,例如动画电影。从脚本到电影的生成设备包括仲裁机制,所述仲裁机制得到视频理解技术和自然语言理解技术的支持,所述视频理解技术将生成的所述视频转换为已执行动作的列表,所述自然语言理解技术将所述电影脚本转换为预期动作的列表,因此可以确定能否理解生成的视频和对电影脚本的保真度。然后将评估结果反馈给舞台表演以改进生成的视频的质量。此外,将美学和保真度要求结合在一个统一的评估框架中,并将视频质量改进过程映射为优化问题,所述优化问题为通过调整摄影机设置和角色动作设置以达到所需的视频质量。设计所述优化问题为可以通过动态编程解决以降低计算复杂度。
[0036]
图1为根据本发明实施例从脚本到电影的生成设备的功能示意图。如图1所示,将脚本(即电影脚本)输入到动作列表生成过程中以生成按时间顺序排列的动作列表。所述动作列表包括由{ai|i=1,2,

,n}表示的预期动作的列表,其中ai表示第i个动作对象,所述动作对象包括在舞台表演的场景中一个或多个虚拟角色的信息;n是所述舞台表演的多个场景中多个角色执行的动作对象的总数。所述动作列表{ai|i=1,2,

,n}是动作对象的集合,用于在舞台表演过程中生成角色表演,并按时间顺序排列,彼此不重叠。例如所述角色是动画电影中的虚拟角色。在部分实施例中,多个角色同时执行动作对象,使得一个动作对象在同一场景中包含多个角色。例如两个人在打架,或者一个母亲正在拥抱她的女儿。
[0037]
在部分实施例中,所述动作列表{ai|i=1,2,

,n}中的每个动作包括属性,例如主体、动作、对象、动作持续时间、主体开始位置、主体结束位置、主体情绪和动作风格等。所述主体开始位置是所述动作开始时的主体位置。所述主体结束位置是所述动作结束时的主体位置。主体情绪的默认值为中性。所述动作风格的默认值为中性(即没有偏好风格)。用户可以从以下内容选择一种动作风格:自我动作(当摄影机对焦于主体时)、多动作(当摄影机同时对焦于主体和对象时)和环境动作(当摄影机对焦于主体周围的环境时,例如动作周围的视图)。
[0038]
参考图1,将所述动作列表{ai|i=1,2,

,n}输入到舞台表演过程中生成视频。在舞台表演过程中,将输入的动作列表{ai|i=1,2,

,n}转化为相应的舞台表演数据,所述舞台表演数据用{p
t
|t=1,2,

,t}表示,其中p
t
为时间t时角色的舞台表演,t为总表演时间。3d场景中的舞台表演数据{p
t
|t=1,2,

,t}是连续的。然而,由于计算能力的限制,将连续信息转换为离散信息以进行摄影机优化。每个时间单位(例如半秒)将舞台表演数据记录为p
t
中的一个元素。在本说明书中,舞台表演、舞台表演数据和角色表演可以互换使用。
[0039]
对于所述动作列表{ai|i=1,2,

,n}中的每个动作,对应的表演数据由表示,其中是动作ai的持续时间,和是从所述动作列表{ai|i=1,2,

,n}导出的固定值。在部分实施例中,不同的动作对象彼此重叠。例如两个事件同时发生,且都需要向观众展示。在各种场景中,所有摄影机都从各个角度拍摄所有角色的所有视图。然后摄影机优化过程计算最佳摄影机路径以拍摄角色表演。所述摄影机优化过程将所述舞台表演数据{p
t
|t=1,2,

,t}作为输入,计算每个时间t的最佳摄影机设置,所述最佳摄影机设置由{c
t
|t=1,2,

,t}表示。在部分实施例中,摄影机设置包括摄影机路径和摄影机参数中的至少一个。对从时间t到t的离散数据执行摄影机优化过程。所述摄影机设置{c
t
|t=1,2,

,t}代表从时间t到t的每个时隙的所有允许的摄影机选择,并且对于每个时隙,在所述摄影机优化过程中只能选择一个摄影机。
[0040]
在部分实施例中,所述摄影机优化过程识别具有最小失真度d的摄影机路径。基于从所述电影摄影指南导出的成本函数计算所述失真度d。然后基于优化后的摄影机设置生成与所述舞台表演数据{p
t
|t=1,2,

,t}对应的视频,所述视频由{f
t
|t=1,2,

,t}表示。
[0041]
因为所述摄影机优化过程仅从美学角度最小化误差,所以本发明所述从脚本到电影的生成设备还考虑生成的视频对电影脚本的保真度。一方面,需要在客观测量中评估所述保真度。另一方面,需要将对所述保真度的测量纳入所述摄影机优化过程,以最大限度地减少审美失真。因此在生成的视频满足通过条件之后对生成的所述视频进行评估并输出,所述通过条件确保输出的视频的质量。如果生成的视频的审美或保真度确定为不可接受,对所述摄影机优化过程或所述舞台表演过程进行一次或多次迭代,以生成具有调整后的摄影机设置和/或调整后的角色表演的另一视频。
[0042]
在部分实施例中,当摄影机识别为是导致生成的视频不满足通过条件的原因时,最大化与识别的所述摄影机相关联的相应成本,以此作为所述摄影机优化过程或所述舞台表演过程的后续迭代。换言之,将识别的所述摄影机从拍摄舞台表演的摄影机中剔除。
[0043]
在部分实施例中,视频理解过程将候选视频{f
t
|t=1,2,

,t}作为输入以生成另一动作列表,所述另一动作列表包括已执行动作的列表。由所述视频理解过程识别的所述动作列表由{a
′i|i=1,2,

,n}表示,其中a
′i是第i个动作对象,所述动作对象包括在舞台表演的场景中一个或多个虚拟角色的信息;n是所述舞台表演的多个场景中多个角色执行的动作对象的总数。然后,仲裁过程比较所述动作列表{ai|i=1,2,

,n}和所述动作列表{a
′i|i=1,2,

,n}之间的动作相似度以获得保真度误差e。所述保真度误差e用于量化视觉感知与文本含义之间的一致性,所述视觉感知为生成的视频的视觉感知,所述文本含义为电影脚本的文本含义。与此同时,在评估候选视频{f
t
|t=1,2,

,t}时所述仲裁过程还考虑总审美失真度d。如果所述候选视频{f
t
|t=1,2,

,t}给出的所述总审美失真度d和所述保真度误差e不合格时,将考虑更大范围的摄影机的可接受设置和角色动作表演的可接受设置,以重新进行优化计算,然后重新进行仲裁。重复迭代,直到所述候选视频{f
t
|t=1,2,

,t}合格或迭代计数达到预先设置的计数阈值。
[0044]
在部分实施例中,在比较了所述动作列表{ai|i=1,2,

,n}和所述动作列表{a
′i|i=1,2,

,n}之间的动作相似度之后,所述动作列表{a
′i|i=1,2,

,n}中的所有动作按照动作相似度进行排序。在需要优化所述舞台表演的情况下,从排序列表中选择相似度最
高的动作进行重制。
[0045]
图5示出了本发明实施例的另一从脚本到电影的生成设备的功能示意图。图5所示的从脚本到电影的生成设备与图1所示的从脚本到电影的生成设备相似。区别在于是否省略了视频理解过程和仲裁过程。具体的实施方式可以参照之前的描述,在此不再赘述。
[0046]
在本发明的实施例中,所述从脚本到电影的生成设备利用自然语言处理、计算电影摄影和视频理解等方面的最新进展来显著减少从脚本到电影的生成过程所需的时间和知识。通过结合新型混合客观评估机制,视频生成过程已映射为旨在生成更高质量的视频的优化问题,所述新型混合客观评估机制同时考虑电影脚本视觉呈现的可理解性和电影摄影指南的合规性。动态编程可以解决优化问题并作为获得具有最有效计算复杂度的最优解。因此本发明所述从脚本到电影的生成设备大大加快了电影制作过程。
[0047]
图2示出了本发明部分实施例所述从脚本到电影的生成设备的结构示意图。如图2所示,计算设备200包括处理器202、存储介质204、显示器206、通信模块208、数据库210和外围设备212,以及将设备耦合在一起的一个或多个总线214。可以省略某些设备并且可以包括其他设备。
[0048]
所述处理器202可以是任何合适的处理器或多个处理器。此外,所述处理器202可以包括用于多线程或并行处理的多核。所述处理器202可以执行计算机程序指令或程序模块的序列以执行各种进程,例如在图形用户界面上请求用户输入导演提示、生成/渲染动画视频、翻译用于编辑优化动画视频的导演提示等。所述存储介质204可以包括内存模块,如只读存储器(rom)、随机存取存储器(ram)、闪存模块、可擦写存储器,以及大容量存储器如只读光盘(cd-rom)、u盘(u-disk)、硬盘等。当处理器202运行所述存储介质204时,所述存储介质204可以存储用于实现各种过程的计算机程序指令或程序模块。
[0049]
此外,所述通信模块208可以包括用于通过通信网络建立连接的网络设备。所述数据库210可以包括一个或多个数据库,所述数据库用于存储某些数据(例如图像、视频、动画材料等)并对存储的数据进行操作,例如检索数据库和取回数据。
[0050]
所述显示器206可以包括任何适当类型的计算机显示设备或电子设备显示器(例如基于阴极射线显像管(crt)或液晶(lcd)的设备、触摸屏、发光二极管(led)显示器等)。所述外围设备212可以包括各种传感器和其他输入/输出(i/o)设备,例如扬声器、摄影机、运动传感器、键盘、鼠标等。
[0051]
在操作中,所述计算设备200可以执行一系列动作以实现所公开的自动电影摄影方法和框架。所述计算设备200可以运行终端或服务器,或两者的组合。这里所使用的终端可以指任何合适的具有一定计算能力的用户终端,所述计算能力包括收集用户输入的导演提示、显示预览视频、对视频进行编辑优化。例如终端可以是个人计算机(pc)、工作站计算机、服务器计算机、手持计算设备(平板)、移动终端(手机或智能手机)或任何其他用户端计算设备。本文所述服务器可以指配置为提供某些服务器功能的一台或多台服务器计算机,所述服务器功能包括确定用于拍摄动画视频的摄影机设置、基于所述摄影机设置生成所述动画视频、通过在图像模型中查找具有最小成本函数的路径来编辑所述动画视频。所述服务器还可以包括一个或多个处理器以并行执行计算机程序。所述终端和/或所述服务器可以配置为为上述动作和操作提供结构和功能。在部分实施例中,部分动作可以在所述服务器上执行,而其他部分动作可以在所述终端上执行。
[0052]
本发明还提供了一种从脚本到电影的生成方法。图3示出了本发明部分实施例所述从脚本到电影的生成方法的流程图。所述方法可以由如图2中所示的计算设备200实现。如图3所示,所述方法包括以下步骤。
[0053]
s302,获取电影脚本。
[0054]
具体地,所述电影脚本用于生成与所述电影脚本对应的视频。
[0055]
s304,根据所述电影脚本生成视频。
[0056]
具体地,根据所述电影脚本生成视频包括根据所述电影脚本生成第一动作列表,根据所述第一动作列表中的每个动作生成舞台表演,以及使用一个或多个摄影机拍摄所述舞台表演的所述视频。在部分实施例中,所述第一动作列表是按时间顺序排列的动作列表,包括旨在展示所述电影脚本的视觉呈现的动作。所述第一动作列表由{ai|i=1,2,

,n}表示,其中ai表示第i个动作对象,所述动作对象包括在舞台表演的场景中一个或多个虚拟角色的信息;n是所述舞台表演的多个场景中多个角色执行的动作对象的总数。
[0057]
在部分实施例中,所述舞台表演用{p
t
|t=1,2,

,t}表示,所述舞台表演基于所述第一动作列表{ai|i=1,2,

,n}中的每个动作生成的,其中p
t
为时间t时角色的舞台表演,t为总表演时间。在部分实施例中,对应于每个动作ai的舞台表演用表示,其中是动作ai的持续时间,和是从所述第一动作列表{ai|i=1,2,

,n}导出的固定值。
[0058]
在部分实施例中,一个或多个摄影机拍摄来自所述舞台表演{p
t
|t=1,2,

,t}的候选视频{f
t
|t=1,2,

,t}。在所述舞台表演中,一个或多个摄影机按计划部署并与各角色绑定。
[0059]
s306,优化生成的所述视频直到满足通过条件。可以根据所述视频的审美评估和保真度评估来执行优化过程。
[0060]
具体地,优化生成的所述视频直到满足通过条件包括评估所述视频的总审美失真度d,所述视频由一个或多个所述摄影机从所述舞台表演拍摄;基于所述视频生成第二动作列表,所述视频由一个或多个所述摄影机从所述舞台表演拍摄;确定所述第一动作列表和所述第二动作列表之间的保真度误差e,并迭代优化摄影机设置和角色表演以最小化所述总审美失真度d,从而满足通过条件。所述通过条件包括满足所述保真度误差e小于或等于预先配置的保真度误差阈值the或者最小化迭代的计数达到预先配置的计数阈值。
[0061]
在部分实施例中,评估所述候选视频{f
t
|t=1,2,

,t}的所述总审美失真度d,所述候选视频由一个或多个摄影机从所述舞台表演{p
t
|t=1,2,

,t}拍摄。
[0062]
在部分实施例中,所述总审美失真度d包括在摄影机设置{c
t
|t=1,2,

,t}中角色k的角色可见性v(c
t
)。所述角色可见性v(c
t
)通过计算来评估,rk是当前视频帧中所述角色k的大小与当前视频帧总大小的比值。rk表示观众在视频帧中注意到所述角色k的容易程度。当多个角色出现在摄影机c
t
的视野中时,所述摄影机c
t
将与之绑定的角色视为最重要的角色。i(c
t
,k)由所述摄影机c
t
和所述角色k决定,对不同角色和不同摄影机的组合赋予不同的权重,i(c
t
,k)表示所述摄影机c
t
和所述角色k之间的相关性。i(c
t
,k)为低值表示角色k是对所述摄影机c
t
而言更重要的角色,即i(c
t
,k)的值越低则代表角色k对所述摄影机c
t
的重要性更高。
[0063]
在部分实施例中,所述总审美失真度d还包括角色动作a(c
t
)。所述角色动作a(c
t
)描述角色k是否在时间t时行动。观众更有可能注意到运动中的角色。如果角色k在时间t时正在行动,则更有可能选择与所述角色k绑定的摄影机c
t
。例如a(c
t
)可以根据以下公式得到:
[0064]
在部分实施例中,所述总审美失真度d还包括对于摄影机c
t
的摄影机设置所述摄影机设置通过计算来评估,其中代表摄影机位置,代表拍摄方向,代表时间t时的动作对象,以及φc()代表所述摄影机设置的失真成本函数。
[0065]
不同的摄影机设置在电影制作中服务于不同的目的。例如当角色执行一般动作时,最常使用中景镜头。当角色执行特定动作时例如环视镜头、远景镜头、周围环境镜头和人物视图镜头通常是更好的选择。另一方面,不同的动作可能需要摄影机从不同的方向拍摄。例如步行动作和跑步动作可以从角色的正面和背面拍摄,并且失真度最小。然而与从角色的正面和侧面拍摄相比,从角色的背面拍摄时,说话动作可能会有更严重地失真。因此,所述摄影机设置的失真度取决于时间t时从动作对象(即ai)导出的动作类型,以及从摄影机c
t
导出的摄影机位置p和拍摄方向d。
[0066]
在部分实施例中,所述总审美失真度d还包括屏幕连续性s(c
t
,c
t-1
),所述屏幕连续性s(c
t
,c
t-1
)包括当前视频帧中各单独角色的位置变化的总结。所述屏幕连续性s(c
t
,c
t-1
)是通过计算来评估,其中p(k,c
t
)表示由摄影机c
t
拍摄的当前视频帧中角色k的位置,p(k,c
t-1
)表示由摄影机c
t-1
拍摄的当前视频帧中角色k的位置;如果角色k出现在所述摄影机c
t
的视图中,v(k,c
t
)=1,否则v(k,c
t
)=0;φs()是对角色位置变化的惩罚,是关于角色位置p(k,c
t
)和角色位置p(k,c
t-1
)之间距离的非线性函数。
[0067]
视频中的视觉-空间连续性可以防止视频观看者感到失真。例如电影摄影指南包括180度规则(180-degree rule)。所述角色位置变化的最小惩罚为0,并且随着角色位置p(k,c
t
)和角色位置p(k,c
t-1
)之间距离增加而增加。当角色k仅出现在一个视频帧中时,应用最大惩罚1。
[0068]
在部分实施例中,所述总审美失真度d还包括移动连续性m(c
t
,c
t-1
),所述移动连续性m(c
t
,c
t-1
)包括角色移动方向变化,所述角色移动方向变化是由在摄影机c
t
的视图变化之前或之后的角色动作引起的。所述移动连续性m(c
t
,c
t-1
)是通过计算来评估的,其中m(k,c
t
)表示由摄影机c
t
拍摄的当前视频帧中的角色运动方向向量,m(k,c
t-1
)表示由摄影机c
t-1
拍摄的当前视频帧中的角色运动方向向量;φm()是角色运动方向变化的惩罚,是关于角色移动方向向量m(k,c
t
)与角色移动方向向量m(k,c
t-1
)之差的非线性函数。随着运动方向向量之间夹角变大,所述惩罚会增加。当角色k只出现在一个视频帧中时,应用最大惩罚1。
[0069]
在部分实施例中,总审美失真度d还包括镜头持续时间失真
所述镜头持续时间失真通过计算来评估,其中是为每个场景设置的平均镜头持续时间,q是允许的最长镜头持续时间,φu()是对于视频帧的镜头持续时间的惩罚,所述视频帧在[t-q,

,t]范围内改变了摄影机。
[0070]
镜头持续时间与观众注意力的集中程度密切相关。一般来说,镜头持续时间越短,视频中的内容更激烈,越容易吸引观众的注意力。在部分实施例中,为镜头持续时间分布中的每个场景配置平均镜头持续时间在部分其他实施例中,从现有电影习得的镜头持续时间配置用于镜头持续时间分布中的各种场景。
[0071]
在汇总各种失真度之后,所述总审美失真度在汇总各种失真度之后,所述总审美失真度在汇总各种失真度之后,所述总审美失真度ω0、ω1、ω2、ω3和ω4是0和1之间的值,是每个失真度分量的权重。
[0072]
在部分实施例中,根据舞台表演生成第二动作列表。具体而言,一个或多个摄影机从所述舞台表演{p
t
|t=1,2,

,t}中拍摄候选视频{f
t
|t=1,2,

,t}。然后,根据所述候选视频{f
t
|t=1,2,

,t}生成所述第二动作列表。所述第二动作列表是按时间顺序排列的动作列表,包括已执行动作的列表,所述第二动作列表由{a
′i|i=1,2,

,n}表示,其中a
′i是第i个动作对象,所述动作对象包括在舞台表演的场景中一个或多个虚拟角色的信息;n是所述舞台表演的多个场景中多个角色执行的动作对象的总数。
[0073]
在部分实施例中,确定所述第一动作列表和所述第二动作列表之间的保真度误差e,并且优化摄影机设置和角色表演以最小化所述总审美失真度d,使得满足所述通过条件(例如所述保真度误差e小于或等于预先设置的保真度误差阈值the)。
[0074]
具体地,比较所述第一动作列表和所述第二动作列表之间的动作相似性,以获得保真度误差e。所述保真度误差e用于量化视觉感知与文本含义之间的一致性,所述视觉感知为生成的视频的视觉感知,所述文本含义为电影脚本的文本含义。同时,在评估所述候选视频{f
t
|t=1,2,

,t}时也考虑所述总审美失真度d。当满足所述保真度误差e小于或等于预先设置的保真度误差阈值the时,所述候选视频{f
t
|t=1,2,

,t}合格。如果所述候选视频{f
t
|t=1,2,

,t}给出的所述总审美失真度d和所述保真度误差e不合格时,将考虑更大范围的摄影机的可接受设置和角色动作表演的可接受设置,以重新进行优化计算,然后重新计算所述保真度误差e。重复迭代,直到所述候选视频{f
t
|t=1,2,

,t}合格或迭代计数达到预先设置的计数阈值。
[0075]
在部分实施例中,生成的所述视频和所述电影脚本之间的所述保真度误差e可以通过第一动作列表和第二动作列表之间的差异来近似和评估,其中所述第二动作列表通过视频理解过程从所述候选视频导出。所述视频理解过程读取所述候选视频并输出从所述候选视频中识别出的动作列表。一般来说,所述视频理解过程可以完成地和人类一样好,且动作列表生成过程可以彻底理解电影脚本。那么使用动作列表差异比较来逼近所述保真度误差e是可行的。所述保真度误差主要由角色表演或摄影机拍摄过程造成。在前一种情况下,所述角色表演不会触发人类的自然直觉来反映所述电影脚本中的特定动作。在后一种情况下,缺失与所述电影脚本中的特定含义相匹配的视图。在实际应用中,可能会在所述视频理
解过程和所述动作列表生成过程中出错。然而,在本发明的实施例中,没有考虑所述视频理解过程和所述动作列表生成过程中出错的情况。
[0076]
在部分实施例中,动作差异di用来表示两个相关的动作ai和a
′i在文本描述上的差异。仲裁过程通过使用glove(global vectors for word representation)词嵌入模型生成两种描述的向量形式,然后计算两个向量的差为成两种描述的向量形式,然后计算两个向量的差为其中g()是glove词嵌入模型。因此所述保真度误差e可以用等式描述。通过定义函数w()为:当时间t等于ai的开始时间,w(t)=d
t
,否则w(t)=0,则上式可转化为
[0077]
在部分实施例中,优化所述摄影机设置以最小化总审美失真度d。具体来说,针对不同的镜头尺寸、不同的轮廓角度和不同的摄影机高度对摄影机的放置位置进行了优化。将多个虚拟摄影机放置在每个绑定的角色的周围。每个摄影机都保持与绑定的所述角色的相对位置。
[0078]
在三维空间中定位摄影机以拍摄满足二维约束的视频是一个7自由度(7-degree-of-freedom)的问题,包括摄影机的位置、方向和焦距(即镜头尺寸)。在实际应用中,7维优化可能会消耗大量的计算能力。为了在不失一般性的情况下简化问题,根据经典电影的摄影机位置,将7自由度无限搜索空间缩减为可数的离散摄影机设置。
[0079]
在部分实施例中,仅考虑使用具有最多两个角色的摄影机,因为在视图中具有更多角色的镜头通常可以由多个单角色镜头代替。考虑具有环面模型的两个角色的镜头。图4a和图4b示出了本发明部分实施例的摄影机放置位置的示意图。在舞台表演过程中保持与绑定的角色的相对位置的摄影机称为视点(point of view,pov)摄影机。所述pov摄影机跟随绑定的角色的头部运动。
[0080]
在部分实施例中,如图4a所示,在所述舞台表演过程中,每个角色都与34个摄影机绑定。每个摄影机都标有索引号。34台摄影机包括1个pov摄影机(索引号0)、3个特写镜头(close-up shot,cs)摄影机(索引号1-3)、20个中景(medium shot,ms)摄影机(索引号4-23)、2个环境中景(environment medium shot,ms-s))摄影机(索引号24-25)、4台全景(full shot,fs)摄影机(索引号26-29)和4个远景(long shot,ls)摄影机(索引号30-33)。每个摄影机的轮廓角度(即拍摄方向)在图4a中由单独的虚线箭头指示。在34个摄影机中,8个ms摄影机(索引4-11)和2个ms-s摄影机部署在角色的视线高度(如图4b所示),相对位置如图4a所示(即在0
°
、60
°
、90
°
、120
°
、180
°
、-120
°
、-90
°
、-60
°
的虚线箭头所指);6个ms摄影机(索引12-17)部署在角色的高角度(如图4b所述),相对位置如图4a所示(即在60
°
、90
°
、120
°
、-120
°
、-90
°
,-60
°
的虚线箭头所指);另外6个ms摄影机(索引18-23)部署在角色的低角度(如图4b所述),相对位置如图4a所示(即在0
°
、60
°
、90
°
、120
°
、180
°
、-120
°
、-90
°
、-60
°
的虚线箭头所指)。设置为观察角色前方环境的2个ms-s摄影机具有如图4a所示的轮廓角度。
[0081]
在部分实施例中,使用拉格朗日乘数法(lagrange multiple method)来放宽识别的误差约束,使得可以使用最短路径算法(shortest path algorithm)解决问题。拉格朗日成本函数为j
λ
(c
t
,a
t
)=d λ
·
e,其中λ为拉格朗日乘数。如果存在λ
*
使得且e=the。那么{c
*t
,a
*t
}是方程
的最优解,使得因此求解上述方程的任务转换为一个更简单的任务,即找到最小化拉格朗日成本函数j
λ
(c
t
,a
t
)的无约束问题的最优解并选择合适的拉格朗日乘数来满足所述约束。
[0082]
在部分实施例中,将zk=(ck,ak)和成本函数g
t
(z
t-q
,

,z
t
)定义为最小化的保真度误差e和总审美失真度d,最多到包括第k个视频帧,其中z
k-q
,

,z
t
是第(k-q)个视频帧到第k个视频帧的决策向量。因此g
t
(z
t-q
,

,z
t
)表示所有视频帧的保真度误差e和总审美失真度d的和的最小值,因此
[0083]
在部分实施例中,用于导出有效算法的关键观察是以下事实:对第(k-q-1)个视频帧到第(k-1)个视频帧给定q 1个决策向量z
k-q-1
,

,z
k-1
,给定成本函数g
k-1
(z
k-q-1
,

,z
k-1
),对下一个决策向量zk的选择独立于对先前的决策向量z1,z2,

,z
k-q-2
的选择。这意味着成本函数可以递归地表示为
[0084]
s308,输出优化后的所述视频。
[0085]
具体地,对所述视频进行本发明所述的优化处理后,提高了优化后的所述视频的质量。输出优化后的所述视频以结束所述从脚本到电影的过程。
[0086]
上述成本函数的递归表达式使得优化过程的未来步骤独立于所述未来步骤的过去步骤,这是动态编程的基础。这一问题可以转换为在有向无环图(directed acyclic graph,dag)中寻找最短路径的图形理论问题。所述算法的计算复杂度为o(t
×
|z|
q 1
)(其中z是所述动作列表{ai|i=1,2,

,n}中描述的所有动作在所述舞台表演{p
t
|t=1,2,

,t}中可用表演的总数,|z|是z的基数),所述计算复杂度直接取决于q的值。在大多数情况下,q是较小的数,因此所述算法比具有指数计算复杂度的穷举搜索算法高效得多。
[0087]
在本发明的实施例中,所述从脚本到电影的生成方法利用自然语言处理、计算电影摄影和视频理解等方面的最新进展来显著减少从脚本到电影的生成过程所需的时间和知识。通过结合新型混合客观评估机制,视频生成过程已映射为旨在生成更好质量视频的优化问题,所述新型混合客观评估机制同时考虑电影脚本视觉呈现的可理解性和电影摄影指南的合规性。动态编程可以解决优化问题并作为获得具有最有效计算复杂度的最优解。因此,本发明所述的从脚本到电影的生成方法大大加快了电影制作过程。
[0088]
在说明书中以具体的例子来说明本发明的原理和实现方式。实施例的描述旨在帮助理解本发明的方法和核心发明思想。同时,本领域普通技术人员可以根据本发明的实施例对本技术的具体实施方式和范围进行改变或修改。因此不应将说明书的内容解释为对本
发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献