视频合成方法、装置、计算机设备和存储介质与流程

2022-04-25 03:19:02 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别是涉及一种视频合成方法、装置、计算机设备和存储介质。

背景技术：

2.随着计算机以及互联网技术的发展，出现了多媒体技术，多媒体技术是指通过计算机对文字、数据、图形、图像、动画、声音等多种媒体信息进行综合处理和管理，使用户可以通过多种感官与计算机进行实时信息交互的技术。越来越多的场景中，利用多媒体技术对多媒体数据进行处理，例如可以利用多媒体技术合成包括多种媒体数据的视频。
3.目前，互联网中的多媒体数据越来越多，在对多媒体数据进行处理之前，需要人工的从多种多样的媒体数据中筛选出所需要的媒体数据，再利用多媒体技术将人工筛选出的多种媒体数据进行处理。
4.然而，人工筛选媒体数据需要消耗较多的时间，导致多媒体数据的处理效率较低。

技术实现要素：

5.基于此，有必要针对上述技术问题，提供一种能够提高处理多媒体数据的效率的视频合成方法、装置、计算机设备、存储介质和计算机程序产品。
6.一方面，本技术提供了一种视频合成方法。所述方法包括：获取目标对象的内容描述文本信息；所述内容描述文本信息是对所述目标对象所表达的内容进行描述的文本信息；对所述内容描述文本信息进行语义特征提取得到文本语义特征；获取候选的视频内容特征；所述候选的视频内容特征是对候选的视频片段的画面内容进行语义特征提取得到的；基于所述文本语义特征和所述候选的视频内容特征之间的匹配度，确定与所述内容描述文本信息相匹配的视频片段，得到目标视频片段；基于所述内容描述文本信息以及所述目标视频片段，合成所述目标对象对应的对象视频；其中，所述对象视频包括所述目标视频片段中的目标画面内容，所述对象视频中的所述目标画面内容在播放时，对应展示所述内容描述文本信息。
7.另一方面，本技术还提供了一种视频合成装置。所述装置包括：信息获取模块，用于获取目标对象的内容描述文本信息；所述内容描述文本信息是对所述目标对象所表达的内容进行描述的文本信息；特征提取模块，用于对所述内容描述文本信息进行语义特征提取得到文本语义特征；特征获取模块，用于获取候选的视频内容特征；所述候选的视频内容特征是对候选的视频片段的画面内容进行语义特征提取得到的；视频获取模块，用于基于所述文本语义特征和所述候选的视频内容特征之间的匹配度，确定与所述内容描述文本信息相匹配的视频片段，得到目标视频片段；视频合成模块，用于基于所述内容描述文本信息以及所述目标视频片段，合成所述目标对象对应的对象视频；其中，所述对象视频包括所述目标视频片段中的目标画面内容，所述对象视频中的所述目标画面内容在播放时，对应展示所述内容描述文本信息。
8.在一些实施例中，所述候选的视频内容特征为多个；所述内容描述文本信息包括多个文本信息片段；所述特征提取模块，还用于对于每个所述文本信息片段，对所述文本信息片段进行语义特征提取，得到所述文本信息片段的片段语义特征；将各个所述片段语义特征确定为所述文本语义特征。
9.在一些实施例中，所述候选的视频内容特征为多个；所述视频获取模块，还用于分别确定每个所述片段语义特征与每个所述候选的视频内容特征之间的匹配度；基于每个所述片段语义特征与每个所述候选的视频内容特征之间的匹配度，确定与各个所述文本信息片段分别相匹配的视频片段，得到目标视频片段。
10.在一些实施例中，所述目标视频片段为多个，每个所述目标视频片段匹配于一个所述文本信息片段；所述视频获取模块，还用于对于每个所述文本信息片段，确定所述文本信息片段的片段语义特征与每个所述候选的视频内容特征的匹配度；基于所述文本信息片段的片段语义特征与每个所述候选的视频内容特征的匹配度，从各个所述候选的视频内容特征中，筛选得到与所述文本信息片段的片段语义特征相匹配的视频内容特征；获取所述相匹配的视频内容特征所对应的视频片段，得到与所述文本信息片段相匹配的目标视频片段。
11.在一些实施例中，所述视频获取模块，还用于获取与所述文本信息片段相邻的文本信息片段，得到所述文本信息片段的相邻文本信息片段；计算所述相邻文本信息片段的片段语义特征与所述文本信息片段的片段语义特征之间的差异，得到特征差异信息；将所述特征差异信息与所述片段语义特征进行特征融合，得到融合语义特征；基于所述融合语义特征，确定所述文本信息片段的片段语义特征与每个所述候选的视频内容特征的匹配度。
12.在一些实施例中，所述特征提取模块，还用于对所述文本信息片段进行分词处理，得到多个词片段；对于每个所述词片段，对所述词片段进行语义特征提取，得到所述词片段的词语义特征；对各个所述词片段的词语义特征进行特征融合，得到所述文本信息片段的片段语义特征。
13.在一些实施例中，所述装置还包括特征生成模块，所述候选的视频内容特征通过所述特征生成模块生成得到；所述特征生成模块，用于对于所述候选的视频片段中的每个视频帧，对所述视频帧进行语义特征提取，得到帧语义特征；将各个所述帧语义特征进行特征融合得到所述候选的视频内容特征。
14.在一些实施例中，所述目标视频片段为多个，所述内容描述文本信息包括多个文本信息片段，每个所述目标视频片段匹配于一个所述文本信息片段；所述视频合成模块，还用于按照所述文本信息片段在所述内容描述文本信息中的排序，对所述文本信息片段匹配的目标视频片段依次进行拼接，并按照各所述目标视频片段的播放时间确定相匹配的所述文本信息片段的展示时间，以合成所述目标对象对应的对象视频。
15.在一些实施例中，所述目标对象为目标文本对象；所述内容描述文本信息，是所述目标文本对象所描述的内容的摘要描述信息；所述对象视频，是用于对所述目标文本对象进行介绍的视频。
16.在一些实施例中，所述视频合成模块，还用于将所述内容描述文本信息转换为音频数据；基于所述内容描述文本信息、所述目标视频片段和所述音频数据，合成所述目标对
象对应的对象视频；其中，所述对象视频的所述目标画面内容在播放时，对应展示所述内容描述文本信息以及对应播放所述音频数据。
17.在一些实施例中，所述视频合成模块，还用于获取候选音频，确定所述候选音频的音频风格；确定所述内容描述文本信息的内容风格，将音频风格与所述内容描述文本信息的内容风格相匹配的候选音频，确定为目标音频；基于所述内容描述文本信息、所述目标视频片段和所述目标音频，合成所述目标对象对应的对象视频；其中，所述对象视频播放时，对应展示所述内容描述文本信息以及对应播放所述目标音频。
18.另一方面，本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频合成方法的步骤。
19.另一方面，本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频合成方法的步骤。
20.另一方面，本技术还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述视频合成方法的步骤。
21.上述视频合成方法、装置、计算机设备、存储介质和计算机程序产品，获取目标对象的内容描述文本信息，对内容描述文本信息进行语义特征提取得到文本语义特征，获取候选的视频内容特征，确定与文本语义特征相匹配的视频内容特征，并获取相匹配的视频内容特征所对应的视频片段，得到目标视频片段，基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频，对象视频包括目标视频片段中的目标画面内容，对象视频中的目标画面内容在播放时，对应展示内容描述文本信息。由于内容描述文本信息是对目标对象所表达的内容进行描述的文本信息，候选的视频内容特征是对候选的视频片段中所表达的内容进行语义特征提取得到的，则当候选的视频内容特征与文本语义特征匹配时，内容描述文本信息与视频片段所表达的内容匹配即相似度较高，从而自动的确定了相互匹配的文本信息以及视频，提高了筛选多媒体数据的效率，从而提高了对多媒体数据的处理的效率。
附图说明
22.图1为一些实施例中视频合成方法的应用环境图；
23.图2为一些实施例中视频合成方法的流程示意图；
24.图3为一些实施例中视频合成界面的示意图；
25.图4为一些实施例中文本特征提取网络的结构图；
26.图5为一些实施例中文本特征提取网络的结构图；
27.图6为一些实施例中编码器的结构图；
28.图7为一些实施例中的残差网络的结构图；
29.图8为一些实施例中的特征融合网络的结构图；
30.图9为一些实施例中的对象视频的效果图；
31.图10为一些实施例中视频合成方法的流程示意图；
32.图11为一些实施例中合成视频的原理图；
33.图12为一些实施例中计算匹配度的原理图；
34.图13为一些实施例中视频合成装置的结构框图；
35.图14为一些实施例中计算机设备的内部结构图；
36.图15为一些实施例中计算机设备的内部结构图。
具体实施方式
37.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
38.本技术提供的视频合成方法，可以应用于如图1所示的应用环境中。该应用环境中包括终端102和服务器104。其中，终端102通过网络与服务器104进行通信。
39.具体地，终端102可以向服务器104发送视频合成请求，视频合成请求用于请求生成目标对象对应的对象视频，对象视频包括目标视频片段中的目标画面内容，对象视频中的目标画面内容在播放时，对应展示内容描述文本信息，服务器104可以响应于视频合成请求，获取目标对象的内容描述文本信息，内容描述文本信息是对目标对象所表达的内容进行描述的文本信息，对内容描述文本信息进行语义特征提取得到文本语义特征，获取候选的视频内容特征，候选的视频内容特征是对候选的视频片段的画面内容进行语义特征提取得到的，基于文本语义特征和候选的视频内容特征之间的匹配度，确定与内容描述文本信息相匹配的视频片段，得到目标视频片段，基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频，对象视频包括目标视频片段中的目标画面内容，对象视频中的目标画面内容在播放时，对应展示内容描述文本信息。服务器104可以将合成的目标对象对应的对象视频返回终端102。终端102可以播放目标对象对应的对象视频。
40.其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、智能电视、车载终端和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。
41.可以理解，上述应用场景仅是一种示例，并不构成对本技术实施例提供的视频合成方法的限定，本技术实施例提供的方法还可以应用在其他应用场景中，例如本技术提供的视频合成方法可以是由终端102执行的，终端102可以将合成的目标对象对应的对象视频上传至服务器104，服务器104可以存储目标对象对应的对象视频，也可以将目标对象对应的对象视频转发至其他设备。
42.本技术提供的视频合成方法，可以应用于网络媒体领域中，例如网络媒体领域中可以利用本技术提供的视频合成方法对视频或文本进行处理。
43.本技术提供的视频合成可以是基于人工智能的，例如，本技术中，可以是利用匹配度检测模型确定与文本语义特征与候选的视频内容特征的匹配度，从而确定与文本语义特征相匹配的视频内容特征的。匹配度检测模型是基于人工智能的模型，例如为训练好的神经网络模型，用于确定文本的语义特征与候选的视频内容特征之间的匹配度。
44.其中，人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智
能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
45.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
46.机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
47.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
48.本技术实施例提供的方案涉及人工智能的人工神经网络等技术，具体通过如下实施例进行说明：
49.在一些实施例中，如图2所示，提供了一种视频合成方法，该方法可以由服务器或终端执行，也可以由终端和服务器共同执行，本技术实施例中，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：
50.步骤202，获取目标对象的内容描述文本信息；内容描述文本信息是对目标对象所表达的内容进行描述的文本信息。
51.其中，目标对象可以包括图像、视频、文本中的至少一种，其中，文本包括但不限于是小说、诗句、词句、歌词、文章、网页中的文字、图片中的文字、视频中的文字或教科书中的文字。内容描述文本信息可以是目标对象中所记载的内容，也可以是目标对象的简单介绍的文本信息。例如，以目标对象为小说为例，内容描述文本信息可以包括小说名称、小说中的段落、小说的摘要、小说的简介等中的至少一个。目标对象的内容描述文本信息可以是服务器中预先存储的，也可以是服务器从其他设备获取的。
52.具体地，目标对象可以是待合成对象视频的对象，对象视频包括目标视频片段中的目标画面内容，目标画面内容是指视频中的视频帧呈现出的内容。对象视频中的目标画面内容在播放时，对应展示内容描述文本信息，对象视频可作为对目标对象所表达的内容进行介绍的视频，终端可以展示视频合成界面，视频合成界面包括内容描述文本信息填充区域，内容描述文本信息填充区域用于获取目标对象的内容描述文本信息，当终端接收到视频合成操作时，响应于视频合成操作，获取内容描述文本信息填充区域中填充的目标对象的内容描述文本信息，向服务器发送视频合成请求，视频合成请求中携带内容描述文本信息，服务器可以响应于视频合成请求，查询得到与内容描述文本信息所表达的内容匹配的视频片段，基于查询到的视频片段进行视频合成，得到目标对象对应的对象视频，将目标对象对应的对象视频返回至终端，终端可以将接收到的目标对象对应的对象视频展示在视
频合成界面中，例如，视频合成界面中可以包括视频展示区域，终端可以将接收到的目标对象对应的对象视频展示在视频展示区域中。其中，视频合成界面中还可以展示有视频合成控件，视频合成操作可以是对视频合成控件的触发操作，触发操作包括但不限于是鼠标的点击操作或触摸操作。
53.在一些实施例中，视频合成界面中还包括对象标识获取区域，对象标识获取区域用于获取对象标识，对象标识用于唯一识别对象。终端可以响应于视频合成操作，获取内容描述文本信息填充区域中填充的目标对象的内容描述文本信息、以及获取对象标识获取区域中填充的目标对象的对象标识，向服务器发送视频合成请求，视频合成请求中可以包括内容描述文本信息以及对象标识，服务器可以响应于视频合成请求，查询得到与内容描述文本信息所表达的内容匹配的视频片段，基于查询到的视频片段进行视频合成，得到目标对象对应的对象视频，合成的对象视频中可以包括内容描述文本信息或对象标识中的至少一个。
54.举例说明，如图3中的(a)所示，视频合成界面302中展示了对象标识获取区域304、内容描述文本信息填充区域306以及视频合成控件308，对象标识获取区域304中填充的是一首古诗的名称即“悯农”，内容描述文本信息填充区域306中填充的是古诗“悯农”这首诗中的内容即“春种一粒粟，秋收万颗子。四海无闲田，农夫犹饿死。”。当终端接收到对视频合成控件308的点击操作时，终端响应于点击操作，生成包括“悯农”以及“春种一粒粟，秋收万颗子。四海无闲田，农夫犹饿死。”的视频合成请求，将该视频合成请求发送至服务器。服务器响应于视频合成请求，生成古诗“悯农”对应的对象视频，将对象视频返回终端，终端展示古诗“悯农”对应的对象视频，以对古诗“悯农”进行介绍。如图3中的(b)所示，视频合成界面302中展示了视频展示区域310，并在视频展示区域310中展示了介绍古诗“悯农”的视频，介绍古诗“悯农”的视频即为服务器为古诗“悯农”合成的对象视频。
55.步骤204，对内容描述文本信息进行语义特征提取得到文本语义特征。
56.其中，文本语义特征是对内容描述文本信息的语义进行特征提取所得到的特征，可以是直接对内容描述文本信息进行语义的特征提取得到的特征，也可以是对内容描述文本信息进行切分，得到多个文本信息片段，再对各个文本信息片段的语义进行特征提取所得到的特征。文本信息的语义是指文本信息所表达的含义。
57.具体地，服务器可以直接对内容描述文本信息进行语义特征的提取，得到文本语义特征。或者，服务器可以将内容描述文本信息划分为多个文本信息片段，对于每个文本信息片段，服务器可以对该文本信息片段进行语义特征的提取，得到该文本信息片段的片段语义特征。基于各个文本信息片段的片段语义特征确定文本语义特征，例如，服务器可以将各个片段语义特征确定为文本语义特征，即文本语义特征可以包括各个片段语义特征，或者，服务器可以对各个片段语义特征进行特征融合，将融合所得到的特征确定为文本语义特征。
58.在一些实施例中，服务器可以对内容描述文本信息进行切分，得到多个文本信息片段，例如，服务器可以确定切分字符，将内容描述文本信息中的字符与切分字符进行对比，将对比一致的字符在内容描述文本信息中的位置确定为切分位置，在内容描述文本信息中的切分位置处，将内容描述文本信息进行切分，得到多个文本信息片段。切分字符包括但不限于是逗号、句号或分号中的至少一种。服务器还可以获取已训练的语义分割模型，利
用语义分割模型对内容描述文本信息进行切分，得到多个文本信息片段。语义分割模型用于根据语义对信息进行分割，分割出的各个文本信息片段具有一定的语义。
59.在一些实施例中，服务器可以利用已训练的文本特征提取网络提取文本信息的语义特征。文本特征提取网络可以是人工神经网络，包括但不限于是word2vec网络或bert网络中的任意一种。其中，bert为bidirectional encoder representations from transformers的缩写，中文代表：基于transformer的双向编码器表示，bert也可以称为双向的transformer的encoder(编码器)。bert是一个语言表示模型(language representation model)。如图4所示，展示了一个bert的网络结构图，分类标识可以为[cls]，[cls]表示提取出的特征可以用于分类任务，cls为classification(分类)的缩写。图4中的512为输入(input)数据的长度，“help prince mayuko”为输入数据中的部分数据，12为编码器的层数。bert为基于语义理解的深度双向预训练transformer。bert被设计成一个深度双向模型，使得神经网络更有效地从第一层本身一直到最后一层捕获来自目标词的左右上下文的信息。它是一个语言表征模型，能实现语言表征目标训练，通过深度双向transformer模型达到语义理解的目的。
[0060]
其中，bert应用于nlp(natural language processing，自然语言处理)领域中，提高了nlp领域的多个方向的精度。bert的本质上是通过在语料的基础上运行自监督学习方法，为单词学习一个好的特征表示。自监督学习是指在没有人工标注的数据上运行的监督学习。在nlp任务中，可以使用bert的特征表示作为任务的词嵌入特征(embedding)。bert提供了一个供其他任务迁移学习的模型。bert可以根据任务微调或者固定之后作为特征提取器。bert的网络架构使用的是多层transformer结构，通过attention机制将任意位置的两个单词的距离转换为1。如图5所示，展示了一个bert的网络结构图。其中，编码器可以是transformer block(transformer模块)，输入特征1-输入特征n为一个句子的特征序列，输入特征1可以用e1表示，输入特征2可以用e2表示，输入特征n可以用en表示，e为embedding的缩写。输出特征1-输出特征n为隐藏层输出的结果，输出特征1可以用t1表示，输出特征2可以用t2表示，输入特征n可以用tn表示。transformer是一个encoder(编码器)-decoder(解码器)的结构，由若干个编码器和解码器堆叠形成。如图6所示，展示了transformer的网络结构。图6中展示了编码器以及解码器的结构。编码器包括多头注意力模块(multi-head attention)，还包括求和以及归一化模块(add&norm)、前馈神经网络(feed forward)，用于将输入语料转化成特征向量。解码器的输入为编码器的输出以及已经预测的结果，解码器包括掩码多头注意力模块(masked multi-head attention)、多头注意力模块(multi-head attention)以及一个全连接组成，用于输出最后结果的条件概率。编码器以及解码器中还包括求和以及归一化模块、前馈神经网络。“n
×”
中的n表示编码器或解码器中包括n个相同的模块。
[0061]
在一些实施例中，已训练的文本特征提取网络可以是已训练的匹配度检测模型中的网络。匹配度检测模型用于确定文本语义特征与视频内容特征之间的匹配度。其中，视频内容特征是对视频片段的画面内容进行语义特征提取所得到的特征。匹配度检测模型中还可以包括匹配度计算网络，匹配度计算网络是计算匹配度的网络，服务器可以将内容描述文本信息输入到匹配度检测模型中，利用匹配度检测模型中的文本特征提取网络对内容描述文本信息进行语义特征的提取，得到文本语义特征，将文本语义特征以及视频内容特征
输入到匹配度计算网络中，计算得到文本语义特征与视频内容特征之间的匹配度。
[0062]
步骤206，获取候选的视频内容特征；候选的视频内容特征是对候选的视频片段的画面内容进行语义特征提取得到的。
[0063]
其中，候选的视频内容特征可以是服务器中预先储存的，也可以是服务器从其他设备获取的，或者是服务器通过对候选的视频片段的画面内容进行语义特征提取所得到的特征。候选的视频内容特征可以为一个或者多个。多个是指至少两个。候选的视频片段可以是服务器中预先存储的，也可以是服务器从其他设备获取的。候选的视频片段为一个或者多个。每个候选的视频片段对应一个候选的视频内容特征。候选的视频片段对应的候选的视频内容特征，是对该视频片段的画面内容进行语义特征的提取所得到的特征。候选的视频内容特征用于反映候选的视频片段所表达的语义，即所表达的含义。候选的视频内容特征可以包括候选的视频片段中包括的事物的特征，事物可以是有生命或者无生命的，包括但不限于是人、动物、植物或建筑物中的至少一种。从而候选的视频内容特征可以表征候选的视频片段中所包括的事物的类型。
[0064]
具体地，服务器可以利用已训练的视频特征提取网络，对候选的视频片段的画面内容进行语义特征的提取，得到该候选的视频片段的视频内容特征，将得到的视频内容特征确定为候选的视频内容特征。视频特征提取网络可以是匹配度检测模型中的网络，也可以是独立于匹配度检测模型的网络。视频特征提取网络可以是人工神经网络，包括但不限于是resnet(残差网络，residual network)或node2vec中的任意一种，例如可以是resnet50或resnet101中的任意一种。相比于resnet50模型，node2vec所占用的硬件资源以及计算资源较少。残差网络指的是在传统卷积神经网络中加入残差学习(residual learning)的思想，解决了深层网络中梯度弥散和精度下降(训练集)的问题，使网络能够越来越深，在保证精度的同时控制了速度。
[0065]
其中，残差网络应用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分，典型的网络有resnet50或resnet101，50以及101指的是层数。resnet50分为5个阶段(stage)，其中stage0的结果比较简单，可以视其为对输入(input)的预处理，后4个stage都由bottleneck(瓶颈层)组成，结构较为相似。stage1包括3个bottleneck，stage2-stage4分别包括4、6、3个bottleneck。如图7所示，展示了resnet50的架构图。图中，(3,244,244)分别指的是输入(input)的通道(channel)数、高(height)和宽(width)，即(c,h,w)。当输入的高度和宽度相等时，用(c,w,w)表示。c指的是输入的通道数，h指的输入的高，w指的是输入的宽。此处的“输入”指的是输入数据。阶段0中，“卷积层:7
×
7,64，/2bn,激活函数”中的“7
×
7”为卷积核的大小，64为卷积核的数量，“/2”指的是卷积核的步长为2。bn为是batch normalization(批量标准化)的缩写。激活函数例如可以是relu。“最大池化层:3
×
3,/2”中的“3
×
3”指的是最大池化成的核(kernel)的大小，“/2”指的是核的步长为2。(64,56,56)是阶段0输出的通道数、高和宽。瓶颈层1的输入与输出的通道数不同。瓶颈层2的输入与输出通道数相同。“卷积层:1
×
1,c1，/sbn,激活函数”中的“1
×
1”为卷积核的大小，c1为卷积层通道数，s代表步长。其中，卷积层是指卷积神经网络(convolutional neural network，cnn)，卷积神经网络可以用conv表示。卷积神经网络是一种前馈神经网络，其人工神经元可以响应一部分覆盖范围内的周围单元，可以用于图像处理。卷积神经网络由一个或多个卷积层和顶端的全连接层组成，也可以包括关联权重和池化层(pooling layer)。
[0066]
在一些实施例中，候选的视频片段中包括多个视频帧，服务器可以对视频片段中的各个视频帧进行语义特征的提取，得到各个视频帧的帧语义特征，基于各个视频帧的帧语义特征确定候选的视频片段的视频内容特征，即得到候选的视频内容特征。例如，服务器可以对各个帧语义特征进行特征融合，得到候选的视频内容特征。其中，特征融合包括特征拼接或特征相加中的至少一种。
[0067]
在一些实施例中，服务器可以利用已训练的帧特征提取网络对视频帧进行语义特征的提取，得到帧语义特征。帧特征提取网络可以是人工神经网络，包括但不限于是残差网络或node2vec中的任意一种。帧特征提取网络可以是匹配度检测模型中的网络，也可以是独立于匹配度检测模型的网络。
[0068]
在一些实施例中，服务器可以利用已训练的特征融合网络，对视频片段的各个视频帧的帧语义特征进行特征融合，得到候选的视频片段的视频内容特征，即得到候选的视频内容特征。特征融合网络可以是人工神经网络，包括但不限于是单向lstm(long short-term memory,长短期记忆)网络或双向lstm网络中的任意一种。其中，lstm是一种rnn(recurrent neural network，循环神经网络)。双向lstm网络可以表示为blstm。
[0069]
在一些实施例中，服务器可以按照视频帧在视频片段中的排序，对各个帧语义特征进行排列，得到帧语义特征序列，视频帧在视频片段中的排序越靠前，则视频帧的帧语义特征在帧语义特征序列中的排序越靠前。服务器可以基于帧语义特征在帧语义特征序列中的排序(即位置)，对各个帧语义特征进行特征融合，得到候选的视频内容特征。以特征融合网络为双向lstm网络为例，特征融合网络的架构图如图8所示，图8中，帧语义特征序列为特征融合网络的输入数据，视频内容特征为特征融合网络的输出数据，将帧语义特征序列输入到特征融合网络中进行特征融合，融合得到视频内容特征。
[0070]
步骤208，基于文本语义特征和候选的视频内容特征之间的匹配度，确定与内容描述文本信息相匹配的视频片段，得到目标视频片段。
[0071]
其中，文本语义特征和候选的视频内容特征之间的匹配度，用于反映文本语义特征与该候选的视频内容特征之间的相似程度，匹配度越大，则越相似。目标视频片段是指与内容描述文本信息相匹配的视频片段。例如，内容描述文本信息为“和对方拜堂成亲”，则与内容描述文本信息相匹配的视频片段可以是体现“红色嫁衣”、“古装”以及“拜堂”的视频。目标视频片段可以为一个或多个。
[0072]
具体地，候选的视频内容特征可以为多个，对于每个候选的视频内容特征，服务器可以确定文本语义特征与该候选的视频内容特征之间的匹配度，从而得到每个候选的视频内容特征与文本语义特征之间的匹配度，从各个候选的视频内容特征中确定匹配度满足匹配度较大条件的视频内容特征，得到对象视频内容特征，基于对象视频内容特征对应的视频片段，确定与内容描述文本信息相匹配的视频片段，即得到目标视频片段。其中，匹配度较大条件可以包括匹配度最大或匹配度大于匹配度阈值中的至少一种。匹配度阈值可以预设，或者根据需要设置。例如，服务器可以将匹配度最大的候选的视频内容特征确定为对象视频内容特征。
[0073]
在一些实施例中，服务器可以计算文本语义特征与候选的视频内容特征之间的相似度，基于计算出的相似度确定文本语义特征与候选的视频内容特征之间的匹配度，匹配度与相似度成正相关关系。例如，服务器可以将相似度确定为匹配度。其中相似度例如可以
是余弦相似度。正相关关系指的是：在其他条件不变的情况下，两个变量变动方向相同，一个变量由大到小变化时，另一个变量也由大到小变化。可以理解的是，这里的正相关关系是指变化的方向是一致的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。例如，可以设置当变量a为10至20时，变量b为100，当变量a为20至30时，变量b为120。这样，a与b的变化方向都是当a变大时，b也变大。但在a为10至20的范围内时，b可以是没有变化的。
[0074]
在一些实施例中，服务器可以将内容描述文本信息划分为多个文本信息片段，文本语义特征包括各个文本信息片段的片段语义特征，对于每个文本信息片段的片段语义特征，服务器可以确定每个候选的视频内容特征与该片段语义特征之间的匹配度，基于候选的视频内容特征与该片段语义特征之间的匹配度，从各个候选的视频片段中筛选得到与该片段语义特征的文本信息片段相匹配的视频片段，例如，可以将匹配度最大的候选的视频内容特征所对应的视频片段，或者将匹配度大于匹配度阈值的候选的视频内容特征所对应的视频片段，确定为与该片段语义特征的文本信息片段相匹配的视频片段，从而得到分别与各个文本信息片段相匹配的视频片段，基于分别与各个文本信息片段相匹配的视频片段，确定目标视频片段。服务器可以将分别与各个文本信息片段相匹配的视频片段中的一个、多个或者全部，确定为目标视频片段。举例说明，内容描述文本信息划分为2个文本信息片段，分别为文本信息片段1和文本信息片段2，与文本信息片段1相匹配的视频片段为视频片段1，与文本信息片段2相匹配的视频片段为视频片段2，则可以将视频片段1或视频片段2中的至少一个确定为目标视频片段，例如，可以将视频片段1以及视频片段2均确定为目标视频片段，即得到2个目标视频片段，分别为视频片段1和视频片段2。
[0075]
在一些实施例中，服务器可以对各个文本信息片段的片段语义特征进行特征融合，将融合的特征作为文本语义特征，基于文本语义特征和候选的视频内容特征之间的匹配度，确定与内容描述文本信息相匹配的视频片段，得到目标视频片段。
[0076]
步骤210，基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频；其中，对象视频包括目标视频片段中的目标画面内容，对象视频中的目标画面内容在播放时，对应展示内容描述文本信息。
[0077]
其中，对象视频是基于内容描述文本信息以及目标视频片段合成的视频。目标画面内容是指目标视频片段中的画面内容。
[0078]
具体地，内容描述文本信息可以划分得到多个文本信息片段，目标视频片段可以为多个，每个目标视频片段与一个文本信息片段相匹配，即目标视频片段与文本信息片段一一相匹配。服务器在合成对象视频的过程中，可以将各个目标视频片段进行拼接，并将与目标视频片段相匹配的文本信息片段确定为该目标视频片段同时展示的文本，例如，文本信息片段可以采用字幕或弹幕的形式展示。
[0079]
在一些实施例中，服务器合成对象视频后，可以将对象视频发送至终端，终端可以播放对象视频，在播放对象视频的过程中，在播放目标视频片段中的画面的同时，展示目标视频片段相匹配的文本信息片段。
[0080]
在一些实施例中，服务器可以将内容描述文本信息转换成音频数据，在播放对象视频中的画面的同时，播放内容描述文本信息的音频数据。或者，服务器可以分别对各个文本信息片段转换为音频片段，在展示文本信息片段的过程中，播放该文本信息片段的音频片段。
[0081]
举例说明，以目标对象为小说为例进行说明，内容描述文本信息例如为小说的简介信息，如图9所示，展示了合成的对象视频的效果图，图9展示了为小说《结婚吧》生成的对象视频，小说的简介信息包括“和对方拜堂成亲，成为幸福一家人”。图9中展示的画面中包括一男一女，并且女生穿着嫁衣，画面的内容与“和对方拜堂成亲，成为幸福一家人”所表达的内容是匹配的。若简介信息中还包括“春暖花开”，随着视频的播放，画面进行切换，切换为与“春暖花开”匹配的画面，例如该画面中可以包括花朵，并展示“春暖花开”这句话。
[0082]
上述视频合成方法中，获取目标对象的内容描述文本信息，对内容描述文本信息进行语义特征提取得到文本语义特征，获取候选的视频内容特征，确定与文本语义特征相匹配的视频内容特征，并获取相匹配的视频内容特征所对应的视频片段，得到目标视频片段，基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频，对象视频包括目标视频片段中的目标画面内容，对象视频中的目标画面内容在播放时，对应展示内容描述文本信息。由于内容描述文本信息是对目标对象所表达的内容进行描述的文本信息，候选的视频内容特征是对候选的视频片段中所表达的内容进行语义特征提取得到的，因此，当候选的视频内容特征与文本语义特征匹配时，内容描述文本信息与视频片段所表达的内容匹配即相似度较高，从而自动的确定了相互匹配的文本信息以及视频，提高了筛选多媒体数据的效率，从而提高了对多媒体数据的处理的效率。并且，上述视频合成方法，实现了基于目标对象的内容描述文本信息以及视频片段自动生成目标对象的对象视频，从而实现了自动为对象生成视频的方案，提高了生成视频的效率。
[0083]
在一些实施例中，内容描述文本信息包括多个文本信息片段；对内容描述文本信息进行语义特征提取得到文本语义特征包括：对每个文本信息片段进行语义特征提取，得到每个文本信息片段的片段语义特征；将各个片段语义特征确定为文本语义特征。
[0084]
具体地，服务器可以对内容描述文本信息进行切分，得到多个文本信息片段，对于每个文本信息片段，服务器可以对文本信息片段进行语义特征提取，得到文本信息片段的片段语义特征，根据各个文本信息片段分别对应的片段语义特征得到文本语义特征。例如，服务器可以将各个文本信息片段分别对应的片段语义特征，确定为文本语义特征，即文本语义特征包括各个文本信息片段的片段语义特征。
[0085]
本实施例中，根据各个文本信息片段分别对应的片段语义特征得到文本语义特征，从而使得得到的文本语义特征包含了各个文本信息片段的片段语义特征，提高了文本语义特征的表达力和准确度。
[0086]
在一些实施例中，候选的视频内容特征为多个；基于文本语义特征和候选的视频内容特征之间的匹配度，确定与内容描述文本信息相匹配的视频片段，得到目标视频片段的步骤包括：分别确定每个片段语义特征与每个候选的视频内容特征之间的匹配度；基于每个片段语义特征与每个候选的视频内容特征之间的匹配度，确定与各个文本信息片段分别相匹配的视频片段，得到目标视频片段。
[0087]
其中，文本语义特征包括各个文本信息片段的片段语义特征。与文本信息片段相匹配的视频片段可以为一个或多个。
[0088]
具体地，服务器可以确定片段语义特征与候选的视频内容特征之间的匹配度，得到特征匹配度，特征匹配度为片段语义特征与候选的视频内容特征之间的匹配度。对于每一片段语义特征，基于该片段语义特征分别与各个候选的视频内容特征之间的特征匹配
度，从各个候选的视频片段中，筛选出与该片段语义特征相匹配的视频内容特征。例如，服务器可以按照特征匹配度从大到小的顺序，对各个候选的视频内容特征进行排列，得到视频内容特征序列，特征匹配度越大，候选的视频内容特征在视频内容特征序列的排序越靠前。服务器可以从视频内容特征序列中，确定排序在排序阈值之前的视频内容特征，作为与该片段语义特征相匹配的视频内容特征。排序阈值可以预设或根据需要设置，例如可以为第二或第三。服务器可以还确定最大的特征匹配度，将最大的特征匹配度对应的视频内容特征，确定为与该片段语义特征相匹配的视频内容特征。
[0089]
在一些实施例中，服务器可以得到各个片段语义特征分别对应的匹配内容特征，其中，片段语义特征对应的匹配内容特征是指与该片段语义特征相匹配的视频内容特征，服务器可以基于各个匹配内容特征分别对应的视频片段，得到与文本信息片段相匹配的目标视频片段。例如，服务器可以将各个匹配内容特征分别对应的视频片段分别确定为目标视频片段，或者从各个匹配内容特征分别对应的视频片段中筛选出一个或多个视频片段，分别作为目标视频片段，其中，筛选可以是随机筛选的，也可以是基于特征匹配度筛选的，例如，对于每一匹配内容特征，服务器可以将该匹配内容特征分别与各个片段语义特征之间的匹配度进行加权计算，将计算的结果确定为该匹配内容特征的加权匹配度，从而得到每个匹配内容特征的加权匹配度，基于加权匹配度从各个匹配内容特征中筛选得到目标视频片段，例如可以将最大的加权匹配度对应的匹配内容特征的视频片段确定为目标视频片段，或者将加权匹配度大于加权匹配度阈值的匹配内容特征的视频片段确定为目标视频片段。加权匹配度阈值可以预设或根据需要设置。
[0090]
举例说明，有2段文本信息片段，分别为文本信息片段1和文本信息片段2，文本信息片段1的片段语义特征为a1，a1对应的匹配内容特征为b1，文本信息片段2的片段语义特征a2，a2对应的匹配内容特征为b2，则对于b1，将b1与a1的匹配度以及b1与a2的匹配度进行加权计算，得到b1的加权匹配度c1，对于b2，将b2与a1的匹配度以及b2与a2的匹配度进行加权计算，得到b2的加权匹配度c2，将c1和c2中较大的一个所对应的匹配内容特征的视频片段确定为目标视频片段。
[0091]
本实施例中，基于每个片段语义特征与每个候选的视频内容特征之间的匹配度，确定与各个文本信息片段分别相匹配的视频片段，得到目标视频片段，从而在确定目标视频片段的过程中充分考虑了各个文本信息片段的语义特征，提高了目标视频片段的准确度。
[0092]
在一些实施例中，目标视频片段为多个，每个目标视频片段匹配于一个文本信息片段；基于每个片段语义特征与每个候选的视频内容特征之间的匹配度，确定与各个文本信息片段分别相匹配的视频片段，得到目标视频片段包括：对于每个文本信息片段，确定文本信息片段的片段语义特征与每个候选的视频内容特征的匹配度；基于文本信息片段的片段语义特征与每个视频内容特征的匹配度，从各个候选的视频内容特征中，筛选得到与文本信息片段的片段语义特征相匹配的视频内容特征；获取相匹配的视频内容特征所对应的视频片段，得到与文本信息片段相匹配的目标视频片段。
[0093]
具体地，每个文本信息片段匹配一个目标视频片段。对于每一文本信息片段，服务器可以计算该文本信息片段的片段语义特征分别与每个候选的视频内容特征的匹配度，例如，有2个候选的视频内容特征，分别为b1和b2，则对于片段语义特征a1，计算a1与b1的匹配
度，以及计算a1与b2的匹配度，得到a1的各个特征匹配度，根据特征匹配度筛选得到与该片段语义特征相匹配的视频内容特征，从而得到各个片段语义特征的相匹配的视频内容特征，将各个片段语义特征的相匹配的视频内容特征分别作为对象视频特征。
[0094]
本实施例中，获取相匹配的视频内容特征所对应的视频片段，得到与文本信息片段相匹配的目标视频片段，从而将与文本信息片段匹配的视频片段，确定为目标视频片段，提高了目标视频片段与文本的语义特征的匹配程度。
[0095]
在一些实施例中，确定文本信息片段的片段语义特征与每个候选的视频内容特征的匹配度包括：获取与文本信息片段相邻的文本信息片段，得到文本信息片段的相邻文本信息片段；计算相邻文本信息片段的片段语义特征与文本信息片段的片段语义特征之间的差异，得到特征差异信息；将特征差异信息与片段语义特征进行特征融合，得到融合语义特征；基于融合语义特征，确定文本信息片段的片段语义特征与每个候选的视频内容特征的匹配度。
[0096]
其中，相邻指的是在内容描述文本信息中的位置是相邻的，相邻文本信息片段可以包括在前文本信息片段或者在后文本信息片段中的至少一种。在前文本信息片段是指位于文本信息片段之前、且与文本信息片段相邻的文本信息片段。在后文本信息片段是指位于文本信息片段之后、且与文本信息片段相邻的文本信息片段。特征差异信息是指片段语义特征之间的差异。
[0097]
具体地，服务器可以按照文本信息片段在内容描述文本信息中的位置，对各个文本信息片段进行排列，得到文本信息片段序列，文本信息片段在内容描述文本信息中的位置越靠前，则文本信息片段在文本信息片段序列中的排序越靠前。对于每一个文本信息片段，服务器可以从文本信息片段序列中，获取排列在该文本信息片段之前且与该文本信息片段相邻的文本信息片段，作为该文本信息片段的在前文本信息片段。服务器可以从文本信息片段序列中，获取排列在该文本信息片段之后且与该文本信息片段相邻的文本信息片段，作为该文本信息片段的在后文本信息片段，将在前文本信息片段或者在后文本信息片段中的至少一个确定为文本信息片段的相邻文本信息片段。
[0098]
在一些实施例中，特征融合可以包括特征拼接或特征相加中的至少一个，例如，服务器可以将特征差异信息与片段语义特征进行特征拼接，将拼接的结果作为该片段语义特征的融合语义特征。
[0099]
在一些实施例中，服务器可以计算融合语义特征与候选的视频内容特征之间的匹配度，将融合语义特征与候选的视频内容特征之间的匹配度，确定为融合语义特征对应的片段语义特征与候选的视频内容特征之间的匹配度。
[0100]
本实施例中，基于融合语义特征，确定文本信息片段的片段语义特征与每个候选的视频内容特征的匹配度，由于融合语义特征是基于相邻文本信息片段的片段语义特征以及片段语义特征确定的，故融合语义特征涵盖了相邻的文本信息片段的信息，是的得到的匹配度即考虑了文本信息片段的特征又参考了相邻的文本信息片段的特征，使得计算得到的匹配度更加合理。
[0101]
在一些实施例中，对文本信息片段进行语义特征提取，得到文本信息片段的片段语义特征包括：对文本信息片段进行分词处理，得到多个词片段；对于每个词片段，对词片段进行语义特征提取，得到词片段的词语义特征；对各个词片段的词语义特征进行特征融
合，得到文本信息片段的片段语义特征。
[0102]
其中，词片段是指由词构成的片段，每个词可以包括一个或多个汉字，每个词也可以包括一个或多个英文单词。每个词片段可以包括一个词或多个词。词语义特征是对词片段进行语义特征的提取所得到的特征。
[0103]
具体地，服务器可以获取词库，基于词库对文本信息片段进行分词处理，得到多个词片段，词库中包括多个词，服务器可以将文本信息片段中的与词库中的词相同的部分划分为一个词片段，从而得到多个词片段。
[0104]
在一些实施例中，服务器可以将词片段输入到文本特征提取网络中进行语义特征的提取，得到词片段的词语义特征。
[0105]
在一些实施例中，服务器得到各个词片段的词语义特征，对各个词语义特征进行统计运算，将统计运算的结果作为文本信息片段的片段语义特征。其中，统计运算包括但不限于是均值运算、最值运算或加权计算中的任意一种。例如，可以对各个词语义特征进行加权计算，将加权计算的结果作为文本信息片段的片段语义特征。
[0106]
在一些实施例中，服务器可以获取已训练的特征融合网络，将各个词片段的词语义特征输入到特征融合网络进行特征融合，得到文本信息片段的片段语义特征。例如，服务器可以按照词片段在文本信息片段中的位置，对各个词片段的词语义特征进行排列，得到词语义特征序列，词片段在文本信息片段中的位置越靠前，则词片段的词语义特征在词语义特征序列中的排序越靠前。将词语义特征序列输入到特征融合网络进行特征融合，得到文本信息片段的片段语义特征。
[0107]
本实施例中，对文本信息片段进行分词处理，得到多个词片段，对于每个词片段，对词片段进行语义特征提取，得到词片段的词语义特征，对各个词片段的词语义特征进行特征融合，得到文本信息片段的片段语义特征，在确定片段语义特征的过程中充分考虑了文本信息片段中的各个词，提高了片段语义特征的准确度。
[0108]
在一些实施例中，候选的视频内容特征通过如下步骤得到：对于候选的视频片段中的每个视频帧，对视频帧进行语义特征提取，得到帧语义特征；将各个帧语义特征进行特征融合得到候选的视频内容特征。
[0109]
具体地，特征融合包括特征拼接或特征相加中的任意一种。例如，服务器可以对各个帧语义特征进行加权计算，得到候选的视频内容特征。
[0110]
在一些实施例中，服务器可以按照视频帧在视频片段中的排序，对各个帧语义特征进行排列，得到帧语义特征序列，视频帧在视频片段中的排序越靠前，则视频帧的帧语义特征在帧语义特征序列中的排序越靠前。服务器可以基于帧语义特征在帧语义特征序列中的排序(即位置)，对各个帧语义特征进行特征融合，得到候选的视频内容特征。例如，服务器可以基于帧语义特征在帧语义特征序列中的排序，确定各个帧语义特征的权重，利用权重对各个帧语义特征进行加权计算，得到候选的视频内容特征。
[0111]
本实施例中，对于候选的视频片段中的每个视频帧，对视频帧进行语义特征提取，得到帧语义特征，将各个帧语义特征进行特征融合得到候选的视频内容特征，在确定候选的视频内容特征的过程中充分考虑了各个视频帧，提高了候选的视频内容特征的准确度。
[0112]
在一些实施例中，目标视频片段为多个，内容描述文本信息包括多个文本信息片段，每个目标视频片段匹配于一个文本信息片段；基于内容描述文本信息以及目标视频片
段，合成目标对象对应的对象视频包括：按照文本信息片段在内容描述文本信息中的排序，对文本信息片段匹配的目标视频片段依次进行拼接，并按照各目标视频片段的播放时间确定相匹配的文本信息片段的展示时间，以合成目标对象对应的对象视频。
[0113]
其中，播放时间是指播放目标视频片段的时间，展示时间是指展示文本信息片段的时间。文本信息片段在内容描述文本信息中的位置越靠前，则文本信息片段的展示时间越靠前，且文本信息片段匹配的目标视频片段的播放时间越靠前。文本信息片段的展示时间与文本信息片段匹配的目标视频片段的播放时间相同。
[0114]
具体地，服务器可以按照文本信息片段在内容描述文本信息中的排序，对文本信息片段匹配的目标视频片段依次进行拼接，并按照各目标视频片段的播放时间确定相匹配的文本信息片段的展示时间，以合成目标对象对应的对象视频。例如，服务器可以将文本信息片段作为与其匹配的目标视频片段的字幕，合成对象视频。在播放对象视频时，以字幕的形式展示文本信息片段。服务器也可以将文本信息片段作为与其匹配的目标视频片段的弹幕，合成对象视频。在播放对象视频时，以弹幕的形式展示文本信息片段。
[0115]
在一些实施例中，服务器可以利用视频合成工具合成对象视频。视频合成工具用于合成视频。例如可以为ffmpeg。其中，ffmpeg为一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多code都是从头开发的。
[0116]
本实施例中，按照文本信息片段在内容描述文本信息中的排序，对文本信息片段匹配的目标视频片段依次进行拼接，并按照各目标视频片段的播放时间确定相匹配的文本信息片段的展示时间，以合成目标对象对应的对象视频，从而自动的将匹配的文本与视频片段进行合成，提高了合成多媒体数据的效率。
[0117]
在一些实施例中，目标对象为目标文本对象；内容描述文本信息，是目标文本对象所描述的内容的摘要描述信息；对象视频，是用于对目标文本对象进行介绍的视频。
[0118]
其中，目标文本对象是指文本形式的对象，包括但不限于是小说、诗、技术类的文章等中的至少一种。例如，目标文本对象为小说。目标文本对象所描述的内容包括但不限于是与场景相关的内容、与故事情节相关的内容、与人物角色相关的内容、与地点相关的内容等中的至少一种。摘要描述信息是对目标文本对象所描述的内容进行概述的信息，摘要描述信息中可以包括目标文本对象中的人物、地点、故事情节、故事发生的时间或气候等中的至少一种。对象视频可以作为对目标文本对象进行介绍的视频，例如当目标文本对象为小说时，对象视频可以为宣传或介绍小说的视频，也可以称为小说宣传视频。
[0119]
在一些实施例中，服务器可以获取候选音频集合，候选音频集合中包括多个候选音频，服务器可以从候选音频集合中选取一个或多个候选音频，基于选取出的候选音频、内容描述文本信息、目标视频片段，合成目标对象对应的对象视频。目标对象对应的对象视频播放时，播放选取出的候选音频。其中，服务器可以根据候选音频的热度选取候选音频，例如，可以选取出热度最大的候选音频。
[0120]
本实施例中，目标对象为目标文本对象，内容描述文本信息，是目标文本对象所描述的内容的摘要描述信息，对象视频，是用于对目标文本对象进行介绍的视频，从而自动的生成了用于对目标文本对象进行介绍的视频，提高了多媒体数据的处理效率。
[0121]
在一些实施例中，基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频；其中，所述对象视频包括所述目标视频片段中的目标画面内容，所述对象视频中的所述目标画面内容在播放时，对应展示所述内容描述文本信息包括：将内容描述文本信息转换为音频数据；基于内容描述文本信息、目标视频片段和音频数据，合成目标对象对应的对象视频；其中，对象视频的目标画面内容在播放时，对应展示内容描述文本信息以及对应播放音频数据。
[0122]
具体地，服务器可以将内容描述文本信息进行语音转换，将内容描述文本信息转换为音频数据。服务器可以利用视频合成工具，对内容描述文本信息、目标视频片段以及音频数据进行处理，合成目标对象对应的对象视频。
[0123]
在一些实施例中，每个目标视频片段匹配于一个文本信息片段，服务器可以分别对各个文本信息片段进行语音转换，得到各个文本信息片段分别对应的音频片段，利用视频合成工具，对各个文本信息片段、各个目标视频片段以及各个音频片段进行处理，合成目标对象对应的对象视频。例如，在合成视频的过程中，对于每个文本信息片段，服务器可以将文本信息片段的展示时间、文本信息片段的音频片段的播放时间、文本信息片段所匹配的目标视频片段的播放时间设置为同一时间。
[0124]
在一些实施例中，服务器可以将合成的对象视频发送至终端，终端可以播放对象视频，在播放对象视频时，当播放到目标视频片段中的画面时，展示该目标视频片段匹配的文本信息片段，并播放匹配的文本信息片段的音频片段。
[0125]
本实施例中，将内容描述文本信息转换为音频数据，基于内容描述文本信息、目标视频片段和音频数据，合成目标对象对应的对象视频，从而采用文字、视频以及音频的方式对目标对象进行介绍，调高了对象视频的表达能力。
[0126]
在一些实施例中，基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频；其中，所述对象视频包括所述目标视频片段中的目标画面内容，所述对象视频中的所述目标画面内容在播放时，对应展示所述内容描述文本信息包括：获取候选音频，确定候选音频的音频风格；确定内容描述文本信息的内容风格，将音频风格与内容描述文本信息的内容风格相匹配的候选音频，确定为目标音频；基于内容描述文本信息、目标视频片段和目标音频，合成目标对象对应的对象视频；其中，对象视频播放时，对应展示内容描述文本信息以及对应播放目标音频。
[0127]
其中，候选音频可以是预先存储在服务器中，也可以是服务器从其他设备获取的。音频风格用于表征音频所表达的情感类型。内容风格用于表征内容描述文本信息所表达的情感类型。情感类型包括但不限于是平静、激动、欢快等中的至少一种，目标音频是指音频风格与内容风格一致的候选音频。候选音频可以为多个。
[0128]
具体地，服务器可以将内容风格与候选音频的音频风格进行对比，当对比一致时，将候选音频确定为目标音频。服务器可以将目标音频作为对象视频中的背景音乐。
[0129]
本实施例中，将音频风格与内容描述文本信息的内容风格相匹配的候选音频，确定为目标音频，基于内容描述文本信息、目标视频片段和目标音频，合成目标对象对应的对象视频，从而用音频强化了内容描述文本信息所要表达的情感，提高了对象视频的表达能力。
[0130]
本技术还提供一种应用场景，该应用场景应用上述的视频合成方法。该应用场景
为生成小说宣传视频的场景，具体地，如图10所示，该视频合成方法在该应用场景的应用如下：
[0131]
步骤1002，终端向服务器发送视频合成请求，视频合成请求中携带小说的摘要描述信息。
[0132]
步骤1004，服务器对摘要描述信息进行切分，得到多个文本信息片段，分别对各个文本信息片段进行语义特征提取，得到各个文本信息片段分别对应的片段语义特征。
[0133]
如图11所示，展示了一个合成视频的原理图。图中，文本特征生成网络也可以称为文本的embedding网络，视频特征生成网络也可以称为视频的embedding网络。视频生成模块也可以称为小说视频生成模块。图11中，小说的摘要描述信息被切分为n个文本信息片段，服务器可以将文本信息片段，输入到文本特征生成网络中，生成各个文本信息片段分别对应的片段语义特征，即n个片段语义特征。片段语义特征i为文本信息片段i的片段语义特征，1≤i≤n。
[0134]
其中，文本特征生成网络可以包括文本特征提取网络以及文本特征融合网络。文本特征提取网络例如可以是bert网络，文本特征融合网络例如可以是双向的lstm网络。服务器可以对文本信息片段进行分词处理，得到多个词片段，将词片段输入到文本特征提取网络中提取得到词片段的词语义特征。将各个词片段的词语义特征排列成词语义特征序列，将词语义特征序列输入到文本特征融合网络中进行融合，得到文本信息片段的片段语义特征。例如，可以将bert网络输出的embedding序列输入到双向的lstm中，然后提取其前向输出的隐藏状态和后向输出的隐藏状态，拼接成为最终的文本embedding向量即片段语义特征。
[0135]
步骤1006，服务器从候选的视频内容特征库中，确定分别与每个片段语义特征相匹配的视频内容特征。
[0136]
其中，候选的视频内容特征可以是利用视频特征生成网络生成的，视频特征生成网络可以为resnet50网络模型。例如，通过resnet网络结构能够将视频库中的视频片段中的图片分别生成embedding向量，然后将视频映射成一个embedding向量序列。然后将embedding向量序列输入到双向lstm网络进行对embedding序列进行长段时信息融合，生成一个embedding向量，生成的embedding向量为视频内容特征，将生成的embedding向量存入视频内容特征库中，视频库中的视频片段与视频内容特征库中视频内容特征一一对应。使用embedding做匹配，通过提取文本的embedding和视频的embedding，然后组建视频片段的embedding库，使得每个视频片段都能够更加离散化，有自己的embedding id(标识)，自动化的生产能够扩充视频的embedding库。其中，视频库可以是存储在服务器的数据库中的。
[0137]
resnet50网络中使用cnn结构搭建整体模型，同时为了解决网络深度加深但梯度消失或者权重更新随着层数而衰减的现象，在该网络中使用了残差连接结构，该机制能够让梯度进行跳跃链接，同时能够让每个小模块的input(输入)和output(输出)信息进行直连，让网络模块的output能够更直接的直观感受到input中原始特征性质。
[0138]
服务器可以利用匹配模块，计算片段语义特征与候选的视频内容特征之间的匹配度，根据匹配度确定与片段语义特征相匹配的视频内容特征。匹配模块指的是用于将文本与视频进行匹配的网络，用于计算文本的语义特征与视频内容特征之间的匹配度。如图12所示，展示了匹配模块，匹配模块包括全连接层(fully connected layers，fc)。将片段语
义特征和候选的视频内容特征同时输入到全连接层中进行维度的变换，生成变换维度后的片段语义特征以及变换维度后的视频内容特征，其中，片段语义特征以及候选的视频内容特征可以分别对应有一个全连接层，全连接层用于将片段语义特征的维度与视频内容特征的维度转换为同一个维度，从而可以将变换维度后的片段语义特征与变换维度后的视频内容特征进行点乘计算(即内积运算)，即进行余弦相似度(也可以称为空间余弦距离)的计算，得到余弦相似度，将余弦相似度作为匹配度。余弦相似度也可以称为余弦距离。匹配度可以直接量化到0到1的概率。
[0139]
其中，文本特征生成网络、视频特征生成网络以及匹配模块可以是联合训练得到的，文本特征提取网络、视频特征提取网络以及匹配模块可以为匹配度检测模型中的网络或模块。
[0140]
步骤1008，对于每个文本信息片段，服务器从视频库中获取文本信息片段的片段语义特征相匹配的视频内容特征所对应的视频片段，作为与文本信息片段相匹配的视频片段。
[0141]
其中，视频内容特征库中包括多个候选的视频内容特征。视频库中包括各个候选的视频内容特征分别对应的视频片段，即视频库中包括多个候选的视频片段。如图11所示，服务器从视频库中选取n个视频片段，视频片段i为文本信息片段i相匹配的视频片段。
[0142]
步骤1010，服务器基于各个文本信息片段以及与各个文本信息片段相匹配的视频片段，合成小说宣传视频，并将文本信息片段作为小说宣传视频中相匹配的视频片段的字幕。
[0143]
如图11所示，将各个文本信息片段以及与各个文本信息片段相匹配的视频片段，输入到视频生成模块中，生成小说宣传视频。例如，服务器可以将视频片段进行拼接并通过加字幕的方式将每个视频片段与文本信息片段相对应，然后resize(调整尺寸)成为竖屏视频，最终生成小说宣发视频或小说宣传视频。例如，根据文本信息片段和与各个文本信息片段相匹配的视频片段，拼接混剪然后套入视频模版生成最终的小说宣传视频。
[0144]
步骤1012，服务器将小说宣传视频返回终端。
[0145]
步骤1014，终端播放小说宣传视频，播放视频片段中的画面的同时，展示与该视频片段相匹配的文本信息片段。
[0146]
上述视频合成方法中，进行多模态的网络匹配，实现自动化的文本搭配视频，提高匹配的速度，自动化了小说视频的生产，提高了生产小说视频的效率。提供了一种全自动的文本与视频匹配方案，节省了成本与制作时间，可以让整个链路工业化生产。使用多模态融合的模型进行文本与视频的匹配，提高了匹配的准确度。通过建立视频片段的embedding库，同时建立embedding与视频片段的映射，能够让每次匹配的过程中，文本与库中全量视频进行匹配搜索，大范围的搜索匹配可以大幅度的提升文本与最终确定视频的匹配度，提高视频生成效果。
[0147]
其中，多模态可以是描述同一对象的多媒体数据。例如，互联网环境下，描述某一特定对象的视频、图片、语音、文本等信息。多模态还可以指来自不同传感器的同一类媒体数据。例如可以是医学影像学中不同的检查设备所产生的图像数据，包括但不限于是b超(b-scan ultrasonography)、计算机断层扫描(ct)、核磁共振等。多模态还可以是物联网背景下不同传感器所检测到的同一对象数据等。多模态的信息具有不同的数据结构特点、表
示形式的表意符号与信息。
[0148]
应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0149]
基于同样的发明构思，本技术实施例还提供了一种用于实现上述所涉及的视频合成方法的视频合成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频合成装置实施例中的具体限定可以参见上文中对于视频合成方法的限定，在此不再赘述。
[0150]
在一些实施例中，如图13所示，提供了一种视频合成装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：信息获取模块1302、特征提取模块1304、特征获取模块1306、视频获取模块1308和视频合成模块1310，其中：
[0151]
信息获取模块1302，用于获取目标对象的内容描述文本信息；内容描述文本信息是对目标对象所表达的内容进行描述的文本信息；
[0152]
特征提取模块1304，用于对内容描述文本信息进行语义特征提取得到文本语义特征；
[0153]
特征获取模块1306，用于获取候选的视频内容特征；候选的视频内容特征是对候选的视频片段的画面内容进行语义特征提取得到的；
[0154]
视频获取模块1308，用于目标视频片段基于文本语义特征和候选的视频内容特征之间的匹配度，确定与内容描述文本信息相匹配的视频片段，得到目标视频片段；
[0155]
视频合成模块1310，用于基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频；其中，对象视频包括目标视频片段中的目标画面内容，对象视频中的目标画面内容在播放时，对应展示内容描述文本信息。
[0156]
上述视频合成装置，获取目标对象的内容描述文本信息，对内容描述文本信息进行语义特征提取得到文本语义特征，获取候选的视频内容特征，确定与文本语义特征相匹配的视频内容特征，并获取相匹配的视频内容特征所对应的视频片段，得到目标视频片段，基于内容描述文本信息以及目标视频片段，合成目标对象对应的对象视频，对象视频包括目标视频片段中的目标画面内容，对象视频中的目标画面内容在播放时，对应展示内容描述文本信息。由于内容描述文本信息是对目标对象所表达的内容进行描述的文本信息，候选的视频内容特征是对候选的视频片段中所表达的内容进行语义特征提取得到的，因此，当候选的视频内容特征与文本语义特征匹配时，内容描述文本信息与视频片段所表达的内容匹配即相似度较高，从而自动的确定了相互匹配的文本信息以及视频，提高了筛选多媒体数据的效率，从而提高了对多媒体数据的处理的效率。
[0157]
在一些实施例中，内容描述文本信息包括多个文本信息片段；特征提取模块，还用于对于每个文本信息片段，对文本信息片段进行语义特征提取，得到文本信息片段的片段
语义特征；将各个片段语义特征确定为文本语义特征。
[0158]
在一些实施例中，候选的视频内容特征为多个；视频获取模块，还用于分别确定每个片段语义特征与每个候选的视频内容特征之间的匹配度；基于每个片段语义特征与每个候选的视频内容特征之间的匹配度，确定与各个文本信息片段分别相匹配的视频片段，得到目标视频片段。
[0159]
在一些实施例中，目标视频片段为多个，每个目标视频片段匹配于一个文本信息片段；视频获取模块，还用于对于每个文本信息片段，确定文本信息片段的片段语义特征与每个候选的视频内容特征的匹配度；基于文本信息片段的片段语义特征与每个候选的视频内容特征的匹配度，从各个候选的视频内容特征中，筛选得到与文本信息片段的片段语义特征相匹配的视频内容特征；获取相匹配的视频内容特征所对应的视频片段，得到与文本信息片段相匹配的目标视频片段。
[0160]
在一些实施例中，视频获取模块，还用于获取与文本信息片段相邻的文本信息片段，得到文本信息片段的相邻文本信息片段；计算相邻文本信息片段的片段语义特征与文本信息片段的片段语义特征之间的差异，得到特征差异信息；将特征差异信息与片段语义特征进行特征融合，得到融合语义特征；基于融合语义特征，确定文本信息片段的片段语义特征与每个候选的视频内容特征的匹配度。
[0161]
在一些实施例中，特征提取模块，还用于对文本信息片段进行分词处理，得到多个词片段；对于每个词片段，对词片段进行语义特征提取，得到词片段的词语义特征；对各个词片段的词语义特征进行特征融合，得到文本信息片段的片段语义特征。
[0162]
在一些实施例中，该装置还包括特征生成模块，候选的视频内容特征通过特征生成模块生成得到；特征生成模块，用于对于候选的视频片段中的每个视频帧，对视频帧进行语义特征提取，得到帧语义特征；将各个帧语义特征进行特征融合得到候选的视频内容特征。
[0163]
在一些实施例中，目标视频片段为多个，内容描述文本信息包括多个文本信息片段，每个目标视频片段匹配于一个文本信息片段；视频合成模块，还用于按照文本信息片段在内容描述文本信息中的排序，对文本信息片段匹配的目标视频片段依次进行拼接，并按照各目标视频片段的播放时间确定相匹配的文本信息片段的展示时间，以合成目标对象对应的对象视频。
[0164]
在一些实施例中，目标对象为目标文本对象；内容描述文本信息，是目标文本对象所描述的内容的摘要描述信息；对象视频，是用于对目标文本对象进行介绍的视频。
[0165]
在一些实施例中，视频合成模块，还用于将内容描述文本信息转换为音频数据；基于内容描述文本信息、目标视频片段和音频数据，合成目标对象对应的对象视频；其中，对象视频的目标画面内容在播放时，对应展示内容描述文本信息以及对应播放音频数据。
[0166]
在一些实施例中，视频合成模块，还用于获取候选音频，确定候选音频的音频风格；确定内容描述文本信息的内容风格，将音频风格与内容描述文本信息的内容风格相匹配的候选音频，确定为目标音频；基于内容描述文本信息、目标视频片段和目标音频，合成目标对象对应的对象视频；其中，对象视频播放时，对应展示内容描述文本信息以及对应播放目标音频。
[0167]
关于视频合成装置的具体限定可以参见上文中对于视频合成方法的限定，在此不
再赘述。上述视频合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0168]
在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频合成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0169]
在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图15所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output，简称i/o)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储内容描述文本信息、文本语义特征、候选的视频内容特征、候选的视频片段、片段语义特征等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频合成方法。
[0170]
本领域技术人员可以理解，图14和图15中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0171]
在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0172]
在一些实施例中，还提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0173]
在一个实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0174]
需要说明的是，本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关
国家和地区的相关法律法规和标准。例如，本技术中涉及到的目标对象、内容描述文本信息、视频片段等数据都是在充分授权的情况下获取的。
[0175]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
[0176]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0177]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

视频合成方法、装置、计算机设备和存储介质与流程

相关文献

最热文献