基于模板化编辑的AI数字人对PPT的交互控制方法及装置

2022-07-14 00:51:21 来源：中国专利 TAG：

基于模板化编辑的ai数字人对ppt的交互控制方法及装置
技术领域
1.本发明涉及人工智能技术领域，尤其涉及一种基于模板化编辑的ai数字人对ppt的交互控制方法及装置。

背景技术：

2.现有的ai虚拟主播、虚拟形象产品，操作流程为主播视频采集-》数据处理-》模型训练-》形象输出；制作输出阶段基于训练好的主播形象，根据输入的文稿、语音，加上可选的主播情绪，背景图片、视频，站姿、坐姿等进行视频生成输出，然而当前的ai数字人视频生成系统中，数据是单向流动的，只能输入图片和视频做为背景与ai数字人进行合成，无法在合成过程中对3d图片、视频、3d模板等背景素材进行同步控制，尤其是ppt内容的同步标示，导致所生成的ai数字人视频交互功能欠缺，影响了所生成的ai数字人视频的应用功能。因此，现有的技术方法存在无法在合成ai数字人视频过程中对ppt背景素材进行同步控制的问题。

技术实现要素：

3.本发明实施例提供了一种基于模板化编辑的ai数字人对ppt的交互控制方法、装置、设备及介质，旨在解决现有技术方法中所存在的无法在合成ai数字人视频过程中对ppt背景素材进行同步控制的问题。
4.第一方面，本发明实施例提供了一种基于模板化编辑的ai数字人对ppt的交互控制方法，所述方法包括：
5.导入媒体素材元素并按照特定的逻辑关系及状态变化需求生成与所述媒体素材元素对应的属性连接、属性仿真及组合动画；
6.根据所输入的设置参数设置ppt页面的显示区域和显示方式，以及ai数字人与所述属性连接、属性仿真及组合动画的结合方式，从而生成对应的播放模板；
7.在所述播放模板中导入ppt文件，提取与所述ppt文件中每一ppt页面对应的页面信息，所述页面信息包含每一ppt页面对应的页面图片及讲稿文字内容；
8.建立所述讲稿文字内容与ppt页面的2d映射关系；
9.发送讲稿文字内容到ai数字人推理模型，以生成与渲染合成帧对应的ai数字人视频帧、ai数字人语音帧和字幕帧；
10.根据所设置的ai数字人与所述属性连接、属性仿真及组合动画的结合方式，在所述播放模板的ai数字人显示区域显示ai数字人视频帧；
11.根据所设置的ppt页面的显示区域和显示方式，在所述播放模板的ppt显示区域按所述显示方式对所述页面图片进行显示；
12.根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标，生成当前ai数字人语音帧对应文字内容的提示图示；
13.根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt
页面的区域坐标渲染绘制圆形亮点进行激光笔标识以渲染生成图像帧；
14.渲染合成的图像帧与当前ai数字人语音帧同步输出到视频板卡、录制到文件或生成网络推流输出。
15.第二方面，本发明实施例提供了一种基于模板化编辑的ai数字人对ppt的交互控制装置，其包括：
16.媒体素材元素属性获取单元，用于导入媒体素材元素并按照特定的逻辑关系及状态变化需求生成与所述媒体素材元素对应的属性连接、属性仿真及组合动画；
17.播放模板生成单元，用于根据所输入的设置参数设置ppt页面的显示区域和显示方式，以及ai数字人与所述属性连接、属性仿真及组合动画的结合方式，从而生成对应的播放模板；
18.页面信息提取单元，用于在所述播放模板中导入ppt文件，提取与所述ppt文件中每一ppt页面对应的页面信息，所述页面信息包含每一ppt页面对应的页面图片及讲稿文字内容；
19.映射关系构建单元，用于建立所述讲稿文字内容与ppt页面的2d映射关系；
20.推理生成单元，用于发送讲稿文字内容到ai数字人推理模型，以生成与渲染合成帧对应的ai数字人视频帧、ai数字人语音帧和字幕帧；
21.ai数字人视频帧显示单元，用于根据所设置的ai数字人与所述属性连接、属性仿真及组合动画的结合方式，在所述播放模板的ai数字人显示区域显示ai数字人视频帧；
22.页面图片显示单元，用于根据所设置的ppt页面的显示区域和显示方式，在所述播放模板的ppt显示区域按所述显示方式对所述页面图片进行显示；
23.提示图示生成单元，用于根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标，生成当前ai数字人语音帧对应文字内容的提示图示；
24.图像帧渲染单元，用于根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标渲染绘制圆形亮点进行激光笔标识以渲染生成图像帧；
25.输出单元，用于渲染合成的图像帧与当前ai数字人语音帧同步输出到视频板卡、录制到文件或生成网络推流输出。
26.第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于模板化编辑的ai数字人对ppt的交互控制方法。
27.第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于模板化编辑的ai数字人对ppt的交互控制方法。
28.本发明实施例提供了一种基于模板化编辑的ai数字人对ppt的交互控制方法、装置、设备及介质。确定媒体素材元素之间的属性连接关系，根据所设置的显示区域及显示方式组合生成播放模板，从ppt文件中提取页面信息，并构建讲稿文字内容与ppt页面的2d映射关系，根据讲稿文字内容进行推理生成ai数字人视频帧、ai数字人语音帧和字幕帧，分别将ai数字人视频帧及页面图片添加至播放模板进行显示，根据2d映射关系在ppt页面相应
显示区域添加提示图示及激光笔标识以渲染生成图像帧，将图像帧与ai数字人语音帧同步输出。通过上述方法，可从ppt文件提取页面信息并构建对应的2d映射关系，根据2d映射关系在ppt页面的相应显示区域添加提示图示及激光笔标识，以实现在合成ai数字人视频过程中对ppt背景素材进行同步控制，从而大幅提升ai数字人视频的应用功能。
附图说明
29.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
30.图1为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制方法的流程示意图；
31.图2为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制方法的子流程示意图；
32.图3为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制方法的另一流程示意图；
33.图4为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制方法的另一子流程示意图；
34.图5为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制方法的又一子流程示意图；
35.图6为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制方法的再一子流程示意图；
36.图7为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制装置的示意性框图；
37.图8为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
38.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
39.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
40.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
41.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
42.请参阅图1，图1为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互
控制方法的流程示意图；该基于模板化编辑的ai数字人对ppt的交互控制方法应用于用户终端或管理服务器中，该基于模板化编辑的ai数字人对ppt的交互控制方法通过安装于用户终端或管理服务器中的应用软件进行执行；用户终端可用于执行基于模板化编辑的ai数字人对ppt的交互控制方法以根据用户输入的参数信息及ppt文件生成对应的视频板卡、录制到文件或生成网络推流输出，用户终端可以是台式电脑、笔记本电脑、平板电脑或手机等终端设备，管理服务器即是用于执行基于模板化编辑的ai数字人对ppt的交互控制方法以获取用户终端上传的参数信息及ppt文件生成对应的视频板卡、录制到文件或生成网络推流输出的服务器端，如企业内部所构建的服务器端。如图1所示，该方法包括步骤s101～s110。
43.s101、导入媒体素材元素并按照特定的逻辑关系及状态变化需求生成与所述媒体素材元素对应的属性连接、属性仿真及组合动画。
44.具体的，用户可通过模板制作单元导入各种媒体素材元素，媒体素材元素包括图片、视频、flash、网页、流媒体、3d模型、动画、声音等，按照特定的逻辑关系及状态变化需求生成各种媒体素材元素的各种属性连接、属性仿真及组合动画。
45.s102、根据所输入的设置参数设置ppt页面的显示区域和显示方式，以及ai数字人与所述属性连接、属性仿真及组合动画的结合方式，从而生成对应的播放模板。
46.用户还可通过模板制作单元设置参数，即可根据所输入的设置参数设置ppt页面的显示区域和方式(如开窗或者全屏)，以及ai数字人与图文元素的合成方式(如画中画、全屏等)，从而生成对应的播放模板，图文元素即上述属性连接、属性仿真及组合动画。
47.s103、在所述播放模板中导入ppt文件，提取与所述ppt文件中每一ppt页面对应的页面信息，所述页面信息包含每一ppt页面对应的页面图片及讲稿文字内容。
48.可在渲染合成单元中打开前述制作得到的播放模板，用户可在上述播放模板中导入ppt文件，ppt文件中包含多个ppt页面，可从ppt文件中分别获取每一ppt页面的页面图片，并尝试提取每一ppt页面的讲稿文字内容。。
49.在一实施例中，如图2所示，步骤s103包括子步骤s131和s132。
50.s131、生成与所述ppt文件中每一页面对应的页面图片。
51.例如，可对ppt文件中的ppt页面进行截图以获取对应的页面图片。
52.s132、提取所述ppt文件中每一页面的讲稿文字内容。
53.如对于文本方式的ppt页面，可直接读取该页面中的文内内容得到对应的讲稿文字内容；如对于以图片方式嵌入的ppt页面，可采用ocr(optical character recognition，光学字符识别)识别技术从ppt页面中提取得到对应的讲稿文字内容，或者采用手工录入的方式获取对应的讲稿文字内容。
54.s104、建立所述讲稿文字内容与ppt页面的2d映射关系。
55.具体的，可构建两个虚拟窗口，一个窗口显示讲稿文字内容，另一个窗口显示ppt页面图片，在讲稿文字窗口中按标点符号分隔选择一段文字集合，并在ppt页面窗口选择对应文字集合的显示区域坐标，从而建立讲稿文字到ppt页面的2d映射关系。
56.s105、发送讲稿文字内容到ai数字人推理模型，以生成与渲染合成帧对应的ai数字人视频帧、ai数字人语音帧和字幕帧。
57.可将获取到的讲稿文字内容发送至预先训练好的ai数字人推理模型进行推理，从
而生成对应的ai数字人视频、ai数字人语音和字幕，并基于ai数字人视频、ai数字人语音和字幕分别获取对应的ai数字人视频帧、ai数字人语音帧和字幕帧。
58.在一实施例中，如图3所示，步骤s105之前包括步骤s1501。
59.s151、根据预置的ai模型生成与蓝箱中采集的目标对象的音视频数据对应的ai数字人推理模型，所述ai数字人推理模型包括每一所述目标对象对应的多个组合形象以及与每一所述组合形象对应的蓝背景预览视频；所述ai数字人推理模型中包含2d ai数字人和/或3d ai数字人。
60.具体的，可在蓝箱中采集每一目标对象的音视频数据，“蓝箱”是视频拍摄的外置场景，蓝箱可以是红、绿、蓝或其他单一颜色，可基于目标对象的音视频数据的特征对ai模型进行训练，从而训练得到的ai数字人推理模型，ai数字人推理模型中可包含ai数字人形象库。
61.具体的，采集目标对象的视音频数据，基于ai数字人技术平台，生成目标对象的ai数字人推理模型，对于2d ai数字人推理模型的训练过程包括：采集目标对象在蓝箱中的视音频，基于ai数字人技术平台，生成目标对象的2d ai数字人形象；采集对应的目标对象蓝箱视频抠像参数；生成ai数字人形象预览视频；结合目标对象id号，生成包含2d ai数字人形象的ai数字人推理模型。对于3d ai数字人推理模型的训练过程包括：多角度拍摄目标对象视频或者3d扫描目标对象并采集目标对象的音频，基于ai数字人技术平台，生成目标对象的3d ai数字人形象；生成ai数字人形象预览视频；结合目标对象id号，生成包含ai数字人形象的ai数字人推理模型。针对目标对象，训练生成的一组ai数字人形象即可形成目标对象的ai数字人形象，该ai数字人形象可存储于ai数字人推理模型的ai数字人形象库，方便基于id号检索使用。
62.ai数字人形象的具体类型包含2d真人及3d真人，ai数字人形象库中可存储有2d ai数字人形象和/或3d ai数字人形象，其中，2d ai数字人形象中包含但不限于2d ai数字人形象、数字人id、对应的蓝箱视频抠像参数、预览视频，3d ai数字人形象中包含但不限于3d ai数字人形象、数字人id、预览视频。
63.具体的，每一目标对象可对应多个组合形象，组合形象中包含姿势、肢体动作及表情，也即是组合形象由一种特定的姿势、一种特定的肢体动作及一种特定的表情组合而成，例如，姿势为坐姿或站姿等，肢体动作如抬手指示、点头等，表情为微笑、严肃等。如目标对象(真人)可以在蓝箱中分段录制无损压缩视频，视频分辨率可选1280x720p、1920x1080p或者3840x2160p；其中头部区域要求分辨率不小于192*192像素；按站立、坐立两种姿势，微笑、惊讶等表情，抬手指示等手部动作进行组合录制视频。
64.每一组合形象对应一段音视频，则可提取每一段音视频对应的形象特征，并提取每一段音视频对应的音频特征，将同一段音视频的形象特征及音频特征输入ai模型进行训练，将形象特征及音频特征作为输入、将对应的音视频作为训练目标，通过获取训练过程中所输出的视频帧及音频与训练目标之间的损失值，对ai模型中的参数值进行反馈调节，从而实现对ai模型进行训练，则每一目标对象的组合形象可对应训练得到一个ai数字人推理模型，每一ai数字人推理模型可分别生成相应的蓝背景预览视频，也即是以蓝色作为背景，基于ai数字人推理模型输出的一段视频帧及音频作为ai数字人形象所生成的预览视频，如预览视频的时长可以是10秒、15秒或30秒，在ai数字人形象的每一蓝背景预览视频中添加
对象形象标注，对象形象标注可用于对蓝背景预览视频进行分类标识，方便后期制作过程中快速查找。
65.还可从多个角度拍摄目标对象的视频进行三维建模或者通过三维扫描方法构建目标对象的三维模型形象；此方法直接构建了目标对象的三维模型形象，在ai推理时除了生成蓝背景ai数字人视频外，还可直接生成面部表情数据及骨骼数据以构建基于ai数字人3d模型的ai数字人推理模型，并通过该ai数字人推理模型进行视频的渲染合成。
66.可针对所输入的讲稿文字内容进行智能识别，以获取与讲稿文字内容对应的情绪特征、肢体动作特征等信息，将讲稿文字内容、情绪特征及肢体动作特征等信息发送到ai推理单元推理生成ai数字人数据；ai数字人数据包含：1)蓝背景ai数字人视频，或ai数字人3d表情数据、ai数字人3d肢体动作数据等；2)文稿文本对应的语音数据。
67.在一实施例中，如图4所示，步骤s105包括子步骤s151、s152、s153和s154。
68.s151、根据讲稿文字内容中的文本信息，从ai数字人推理模型中推理出符合文本信息的蓝背景ai数字人视频。
69.在一实施例中，步骤s151具体包括：根据讲稿文字内容中的文本信息，从ai数字人推理模型中推理出符合文本信息中字符的口型、情绪及肢体动作的视频进行组合，以生成蓝背景ai数字人视频。
70.具体的，可从ai数字人推理模型的ai数字人形象库中选择一个ai数字人形象，并根据讲稿文字内容、情绪及肢体动作等内容，从ai数字人推理模型中推理出该ai数字人形象且符合文字内容中字符的口型、情绪及肢体动作的视频进行组合，以生成与该ai数字人形象对应的蓝背景ai数字人视频。
71.在一实施例中，步骤s151还可以具体包括：根据讲稿文字内容中的文本信息，从ai数字人推理模型中推理出符合文本信息中字符的口型及情绪的面部表情数据、并从ai数字人推理模型中推理出符合文本信息中肢体动作的骨骼模型数据；根据所述面部表情数据还原得到ai数字人的面部视频、根据所述骨骼模型数据还原得到ai数字人的肢体动作视频，以组合生成蓝背景ai数字人视频。
72.具体的，可从ai数字人推理模型的ai数字人形象库中选择一个ai数字人形象，根据讲稿文字内容、情绪，从ai数字人推理模型中推理出该ai数字人形象且符合文字内容中字符的口型以及情绪的面部表情数据，面部表情数据即是对ai数字人面部的变化特征进行记录的数据，根据面部表情数据即可还原得到ai数字人的面部视频，可根据播出条目文稿中的肢体动作，从ai数字人推理模型中推理出该ai数字人形象且符合肢体动作的骨骼模型数据，骨骼模型数据即是对ai数字人的肢体动作变化特征进行记录的数据，根据骨骼模型数据即可还原得到ai数字人的肢体动作视频。
73.此外，还可对讲稿文字内容中的关键字进行匹配解析，以从中获取对应的控制指令，所述控制指令用于对ppt的标注、动画播放、文字显示或视频播放进行播放控制。
74.s152、根据讲稿文字内容中的文本信息及ai数字人推理模型中的音频特征进行语音合成得到ai数字人语音。
75.具体的，可从ai数字人推理模型的ai数字人形象库中选择一个ai数字人形象，根据讲稿文字内容中的文本信息及该ai数字人形象的音频特征进行语音合成得到与该ai数字人形象对应的ai数字人语音。
76.s153、根据讲稿文字内容进行段落拆分得到字幕。
77.可对讲稿内容进行段落拆分，如按最大字符数量将讲稿文字内容拆分成包含多个文字片段的字幕，每一文字片段中所包含的字符数量均不大于最大字符数量。如最大字符数量为30，以“，”、“；”、“。”等标点符号作为拆分节点对讲稿内容进行段落，得到包含对应多个文字片段的字幕。
78.s154、根据ai数字人视频、ai数字人语音和字幕的时间戳获取与渲染合成帧对应的ai数字人视频帧、ai数字人语音帧和字幕帧。
79.具体的，ai数字人视频及ai数字人语音的时间长度相等，字幕中每一文字片段均与ai数字人视频或ai数字人语音中的某一时间点相对应，一段视频由多个视频帧组合而成，一段语音由多个语音帧组合而成，可将字幕中文字片段与相应视频内容或相应语音内容对应的时间点作为该文字片段的时间戳，基于时间戳进行拆分，得到与当前渲染合成帧对应的ai数字人视频帧、ai数字人语音帧和字幕帧。
80.s106、根据所设置的ai数字人与所述属性连接、属性仿真及组合动画的结合方式，在所述播放模板的ai数字人显示区域显示ai数字人视频帧。
81.根据ai数字人与播放模板中属性连接、属性仿真及组合动画的结合方式，将ai数字人视频帧插入至播放模板的ai数字人显示区域，并按指定方式显示ai数字人视频帧。
82.s107、根据所设置的ppt页面的显示区域和显示方式，在所述播放模板的ppt显示区域按所述显示方式对所述页面图片进行显示。
83.根据播放模板中所设置的ppt页面的显示区域和显示方式，将ppt页面图片插入至播放模板的ppt显示区域，并按照指定显示方式对ppt页面图片进行显示。
84.s108、根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标生成当前ai数字人语音帧对应文字内容的提示图示。
85.在一实施例中，如图5所示，步骤s108包括子步骤s181和s182。
86.s181、根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标，并根据3d渲染的相机参数确定ppt页面在3d空间的几何顶点参数；s182、通过3d映射将与所述ai数字人语音帧对应的提示图示覆盖到相应ppt页面图片，实现ai数字人语音与对应ppt讲稿文字的同步标示。
87.具体的，可基于投影矩阵实现2d空间与3d空间的映射，从而构建3d渲染的相机参数，播放模板所显示的ppt页面图片及ai数字人视频帧在相机端即对应呈现为2d空间，ppt页面图片及ai数字人视频帧与虚拟的相机端之间的3d位置关系即可构建形成3d空间，相机参数包含相机在3d空间内的摄像机的位置、朝向等参数，相机参数决定摄像机在3d空间中如何取景并决定如何把摄像机取景画面显示到屏幕。可根据ai数字人语音生成对应的提示图示，可先基于讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标，根据相机参数确定ppt页面在3d空间的几何顶点参数(也即ppt页面四个顶角的三维坐标参数)，通过3d映射的方式将相应提示图示覆盖在对应的ppt页面图片上，从而实现基于ai数字人语音与对应ppt讲稿文字的同步标示。
88.s109、根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标渲染绘制圆形亮点进行激光笔标识以渲染生成图像帧。
89.在一实施例中，如图6所示，步骤s109包括子步骤s191、s192和s193。
90.s191、根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标，计算出每个字幕文字在ppt页面的2d坐标；s192、通过3d渲染的相机参数及ppt页面在3d空间的几何顶点参数将字幕文字的2d坐标转换为3d坐标；s193、通过3d渲染的相机参数将字幕文字的3d坐标转换为屏幕坐标；在该坐标处渲染绘制圆形亮点实现在ppt页面中进行激光笔标识。
91.可基于投影矩阵实现2d空间与3d空间的映射，并获取3d渲染的相机参数，具体方式同上述步骤。可根据讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标，并进一步获取每个字幕文字在ppt页面的2d坐标，通过2d空间与3d空间的映射，将ppt页面在3d空间的几何顶点参数将字幕文字的2d坐标转换为3d坐标，具体的，可根据相机参数获取对应的视图矩阵，通过视图矩阵及投影矩阵将字幕文字在2d空间的几何坐标位置映射到3d场景中，得到与2d空间的几何坐标位置对应的3d坐标，然后在将字幕文字的3d坐标转换为屏幕坐标，也即是通过视图矩阵和投影矩阵将3d场景坐标映射到2d屏幕坐标，这样实现ppt页面的2d坐标到屏幕坐标的转换，然后在该屏幕坐标上显示一个圆形亮斑，也即是在相应坐标出渲染绘制圆形亮点，在视频中即呈现一个可在ppt页面中进行移动的圆形亮斑，从而实现在ppt页面中进行激光笔标识，也即是模拟现实应用中激光笔的功能。
92.s110、渲染合成的图像帧与当前ai数字人语音帧同步输出到视频板卡、录制到文件或生成网络推流输出。
93.可将渲染合成的图像帧与当前ai数字人语音帧进行组合，并同步输出到视频板卡，或者是同步录制生成视频文件，还可以同步生成网络推流输出(如视频直播流)。
94.在本发明实施例所提供的基于模板化编辑的ai数字人对ppt的交互控制方法中，确定媒体素材元素之间的属性连接关系，根据所设置的显示区域及显示方式组合生成播放模板，从ppt文件中提取页面信息，并构建讲稿文字内容与ppt页面的2d映射关系，根据讲稿文字内容进行推理生成ai数字人视频帧、ai数字人语音帧和字幕帧，分别将ai数字人视频帧及页面图片添加至播放模板进行显示，根据2d映射关系在ppt页面相应显示区域添加提示图示及激光笔标识以渲染生成图像帧，将图像帧与ai数字人语音帧同步输出。通过上述方法，可从ppt文件提取页面信息并构建对应的2d映射关系，根据2d映射关系在ppt页面的相应显示区域添加提示图示及激光笔标识，以实现在合成ai数字人视频过程中对ppt背景素材进行同步控制，从而大幅提升ai数字人视频的应用功能。
95.本发明实施例还提供一种基于模板化编辑的ai数字人对ppt的交互控制装置，该基于模板化编辑的ai数字人对ppt的交互控制装置可配置于用户终端或管理服务器中，该基于模板化编辑的ai数字人对ppt的交互控制装置用于执行前述的基于模板化编辑的ai数字人对ppt的交互控制方法的任一实施例。具体地，请参阅图7，图7为本发明实施例提供的基于模板化编辑的ai数字人对ppt的交互控制装置的示意性框图。
96.如图7所示，基于模板化编辑的ai数字人对ppt的交互控制装置100包括媒体素材元素属性获取单元101、播放模板生成单元102、页面信息提取单元103、映射关系构建单元104、推理生成单元105、ai数字人视频帧显示单元106、页面图片显示单元107、提示图示生成单元108、图像帧渲染单元109和输出单元110。
97.媒体素材元素属性获取单元101，用于导入媒体素材元素并按照特定的逻辑关系
及状态变化需求生成与所述媒体素材元素对应的属性连接、属性仿真及组合动画。
98.播放模板生成单元102，用于根据所输入的设置参数设置ppt页面的显示区域和显示方式，以及ai数字人与所述属性连接、属性仿真及组合动画的结合方式，从而生成对应的播放模板。
99.页面信息提取单元103，用于在所述播放模板中导入ppt文件，提取与所述ppt文件中每一ppt页面对应的页面信息，所述页面信息包含每一ppt页面对应的页面图片及讲稿文字内容。
100.映射关系构建单元104，用于建立所述讲稿文字内容与ppt页面的2d映射关系。
101.推理生成单元105，用于发送讲稿文字内容到ai数字人推理模型，以生成与渲染合成帧对应的ai数字人视频帧、ai数字人语音帧和字幕帧。
102.ai数字人视频帧显示单元106，用于根据所设置的ai数字人与所述属性连接、属性仿真及组合动画的结合方式，在所述播放模板的ai数字人显示区域显示ai数字人视频帧。
103.页面图片显示单元107，用于根据所设置的ppt页面的显示区域和显示方式，在所述播放模板的ppt显示区域按所述显示方式对所述页面图片进行显示。
104.提示图示生成单元108，用于根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标，生成当前ai数字人语音帧对应文字内容的提示图示。
105.图像帧渲染单元109，用于根据所述讲稿文字内容与ppt页面的2d映射关系获取字幕帧对应文字内容在ppt页面的区域坐标渲染绘制圆形亮点进行激光笔标识以渲染生成图像帧。
106.输出单元110，用于渲染合成的图像帧与当前ai数字人语音帧同步输出到视频板卡、录制到文件或生成网络推流输出。
107.在本发明实施例所提供的基于模板化编辑的ai数字人对ppt的交互控制装置应用上述基于模板化编辑的ai数字人对ppt的交互控制方法，确定媒体素材元素之间的属性连接关系，根据所设置的显示区域及显示方式组合生成播放模板，从ppt文件中提取页面信息，并构建讲稿文字内容与ppt页面的2d映射关系，根据讲稿文字内容进行推理生成ai数字人视频帧、ai数字人语音帧和字幕帧，分别将ai数字人视频帧及页面图片添加至播放模板进行显示，根据2d映射关系在ppt页面相应显示区域添加提示图示及激光笔标识以渲染生成图像帧，将图像帧与ai数字人语音帧同步输出。通过上述方法，可从ppt文件提取页面信息并构建对应的2d映射关系，根据2d映射关系在ppt页面的相应显示区域添加提示图示及激光笔标识，以实现在合成ai数字人视频过程中对ppt背景素材进行同步控制，从而大幅提升ai数字人视频的应用功能。
108.上述基于模板化编辑的ai数字人对ppt的交互控制装置可以实现为计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。
109.请参阅图8，图8是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于模板化编辑的ai数字人对ppt的交互控制方法以根据输入的参数信息及ppt文件生成对应的视频板卡、录制到文件或生成网络推流输出的用户终端或管理服务器。
110.参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网
络接口505，其中，存储器可以包括存储介质503和内存储器504。
111.该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于模板化编辑的ai数字人对ppt的交互控制方法，其中，存储介质503可以为易失性的存储介质或非易失性的存储介质。
112.该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。
113.该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于模板化编辑的ai数字人对ppt的交互控制方法。
114.该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
115.其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于模板化编辑的ai数字人对ppt的交互控制方法中对应的功能。
116.本领域技术人员可以理解，图8中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。
117.应当理解，在本发明实施例中，处理器502可以是中央处理单元(central processing unit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
118.在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于模板化编辑的ai数字人对ppt的交互控制方法中所包含的步骤。
119.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
120.在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的
划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。
121.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
122.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
123.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
124.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基站选址数据处理方法、装置、电子设备及存储介质与流程

基于模板化编辑的AI数字人对PPT的交互控制方法及装置

相关文献

最热文献