信息生成方法及装置与流程

2022-11-23 10:29:36 来源：中国专利 TAG：

1.本说明书实施例涉及视频处理技术领域，特别涉及信息生成方法及装置。

背景技术：

2.近年来通过直播、短视频等形式进行营销的方式迅速升温，各个直播、短视频平台产生了大量的直播、短视频内容，同时以图文形式进行分享营销的种草文也深受大家喜爱，比如一些分享网站存在大量种草文案，但是产出一份种草图文需要博主进行精心选图、配图，并对图片标注品牌、款式等，同时还需要编辑文案进行解说，效率低下，因此，亟需一种解决以上问题的方法。

技术实现要素：

3.有鉴于此，本说明书施例提供了一种信息生成方法。本说明书一个或者多个实施例同时涉及一种信息生成装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的生成图文信息效率低下的缺陷。
4.根据本说明书实施例的第一方面，提供了一种信息生成方法，包括：
5.获取输入视频，并提取所述输入视频中的视频帧以及音频数据；
6.对所述视频帧进行处理以确定目标视频帧，以及对所述音频数据进行处理获得文本信息；
7.基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息；
8.对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息。
9.根据本说明书实施例的第二方面，提供了一种信息生成装置，包括：
10.提取模块，被配置为获取输入视频，并提取所述输入视频中的视频帧以及音频数据；
11.处理模块，被配置为对所述视频帧进行处理以确定目标视频帧，以及对所述音频数据进行处理获得文本信息；
12.确定模块，被配置为基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息；
13.生成模块，被配置为对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息。
14.根据本技术实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述信息生成方法的步骤。
15.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，所述计算机指令被处理器执行时实现所述信息生成方法的步骤。
16.本说明书提供的信息生成方法，通过获取输入视频，并提取所述输入视频中的视
频帧以及音频数据；对所述视频帧进行处理以确定目标视频帧，以及对所述音频数据进行处理获得文本信息；基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息；对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息；实现了自动化生成输入视频对应的图文信息，提高了图文生成的效率，并释放了人力资源。
附图说明
17.图1是本说明书一个实施例提供的一种信息生成方法的流程图；
18.图2是本说明书一个实施例提供的一种信息生成方法中实例分割结果的示意图；
19.图3是本说明书一个实施例提供的一种信息生成方法中目标视频帧的示意图；
20.图4是本说明书一个实施例提供的一种信息生成方法中背景替换的示意图；
21.图5是本说明书一个实施例提供的一种信息生成方法的整体流程图；
22.图6是本说明书一个实施例提供的一种信息生成方法中模型训练的处理流程图；
23.图7是本说明书一个实施例提供的一种信息生成装置的结构示意图；
24.图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
25.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。
26.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
27.应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
28.首先，对本说明书一个或多个实施例涉及的名词术语进行解释。
29.种草文：通过图文描述的形式把商品、使用感受等推荐分享给其他人的一种内容营销文案。
30.关键帧：从视频中按一定规则抽取的关键图片。
31.多模态：处理的数据呈现多种表现形式，比如包括音频、视频、图片、文本，从多种数据形式中转化获取最终需要格式的数据和内容。
32.时序对正：对视频中获取的关键图片、音频中提取的文本在时间上进行对齐。
33.实例分割：机器自动从图像中用目标检测方法框出不同实例，再用语义分割方法在不同实例区域内进行逐像素标记。
34.sdk(software development kit，软件开发工具包)：被软件开发工程师用于为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件的开发工具的集合。
35.ffmgeg：一种关键帧提取工具。
36.mask r-cnn是一个网络架构，主要完成了目标个体的语义分割。
37.mask(掩码)：可以理解为位图，用于表示哪个像素要处理，哪些不必处理。
38.音轨：在音序器软件中展示的一条一条的平行“轨道”。每条音轨分别定义了该条音轨的属性，如音轨的音色，音色库，通道数，输入/输出端口，音量等。
39.bert(bidirectional encoder representations from transformer)模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示，然后将文本的语义表示在特定nlp任务中作微调，最终应用于该nlp任务。
40.在本说明书中，提供了一种信息生成方法，本说明书同时涉及一种信息生成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。
41.图1示出了根据本说明书一个实施例提供的一种信息生成方法的流程图，具体包括以下步骤：
42.步骤102：获取输入视频，并提取所述输入视频中的视频帧以及音频数据。
43.为了方便通过图文形式对视频或直播中的内容进行分享或其他使用，本技术提供了通过对海量直播、短视频内容利用多模态处理技术从视频中抽取转换核心配图，从音频中转化抽取生成文字解说，并将配图和文字解说进行时序对正，最终自动生成图文信息(比如草图文)的方案。具体的，本技术是通过对输入视频(比如直播、短视频内容)自动化生成图文信息，避免了通过人工的方式对视频中的图像或文字进行选取以及编辑，也提高了生成图文信息的效率。
44.实际应用中，该输入视频，可以是任意类型、任意时长或任意格式的视频，比如：电影视频、直播视频、教学视频等，在此不做限制。该视频中包含多模态数据，比如图像数据(视频帧)以及音频数据等。
45.步骤104：对所述视频帧进行处理以确定目标视频帧，以及对所述音频数据进行处理获得文本信息。
46.具体的，由于一个输入视频中包含的视频帧可能很多，其中，一部分相邻视频帧的图像内容是相同的或类似的，为了避免对同一种场景的图像重复进行使用(比如分享)，且避免使用的图像不满足图像要求，通常需要对输入视频中的视频帧进行处理，即从视频帧中确定出满足使用需求的目标视频帧。
47.此外，为了方便以文字的形式对视频中的语音进行使用，还需要对输入视频中音频数据进行处理，从而获得音频数据中满足使用需求的文本信息。具体实施时，可以采用自动语音识别(automatic speech recognition，asr)技术等方式，将音频数据转换为文本信息。
48.具体实施时，所述对所述视频帧进行处理以确定目标视频帧，具体采用如下方式实现：
49.从所述视频帧中抽取关键帧，并对所述关键帧进行处理以确定目标视频帧。
50.其中，关键帧可以是包含特定信息(比如某物体、或某人物、或某场景等)的视频帧，也可以是满足清晰度、视频帧等，在此不做限制，此外，还可以通过ffmgeg工具获取场景
变化大的视频帧，实际应用中，若前后两个相邻视频帧的差异大于阈值，就抽取该相邻视频帧中后一视频帧作为关键帧。
51.从视频帧中抽取关键帧之后，可能抽取到的关键帧的数量仍然不少，且抽取的关键帧中还包括了不满足使用需求的视频帧，因此，需要进一步对抽取的关键帧进行处理以确定目标视频帧，从而保障目标视频帧的质量以及可用性。
52.本技术实施例，先抽取关键帧，再从关键帧中确定目标视频帧，减少了对目标视频帧的确定范围，提高了目标视频帧的确定效率。
53.进一步的，本技术实施例提供的一种可选实施方式中，所述对所述关键帧进行处理以确定目标视频帧，具体采用如下方式实现：
54.对所述关键帧进行实体分割，确定所述关键帧中包含的各个对象的对象区域；
55.对所述关键帧进行显著性检测获得所述关键帧的显著性区域；
56.基于所述对象区域以及所述显著性区域，从所述关键帧中确定目标视频帧。
57.具体的，可以对关键帧进行实体分割，并通过实体分割确定视频帧中包含实体(比如物体、人物等对象)的区域，即对象区域。
58.具体的，实体分割可以采用mask r-cnn模型，即实例分割模型实现，而确定的对象区域可以通过掩码进行表示，则对象区域也即掩码区域。进一步的，可以利用自动化标注工具对图片进行标注，生成图片的mask(掩码)和实例标签作为标注数据，并将图片和对应区域的实例标签作为训练样本对，输入初始创建的实例分割模型，对初始创建的实例分割模型进行模型训练。训练完成后，在应用过程中，将关键帧输入训练完成的实例分割模型进行实例分割，即可获得实例分割模型的输出为几个可能区域(包含实例的区域，通过白色线条进行标识)的mask和语义标签，比如person(人)、chair(椅子)、bottle(瓶子)，具体如下图2所示。而通过输出的mask，即可确定包含实例(实体)的区域，也即对象区域。此外，还可以对抽取的关键帧进行显著性检测，其中，显著性检测，可以理解为通过智能算法模拟人的视觉特点，提取图像中的显著区域(即人类感兴趣的区域)，也即显著性区域。
59.进一步的，在确定关键帧中各个实例的对象区域以及显著性区域的基础上，可以根据对象区域大小、分布等信息，和/或，显著性区域的大小、分布等信息，确定该关键帧是否为目标视频帧。这样可以获取到真正包含商品、物体的图像，过滤掉无核心显著实体的图片，可以使所筛选出的目标视频帧中包含明显的对象区域，以便使目标视频帧更符合使用需求，比如直播时主播一个瞬间不在镜头内直播间背景的图片，实例分割后获取到的实体对象也是无用的，无显著需要关心的目标实体(目标对象)，可通过显著性检测过滤掉。
60.需要说明的是，对关键帧进行实例分割以及对关键帧进行显著性检测这两个步骤之间的执行顺序，并不做限制。
61.此外，还可以直接根据对象区域确定目标视频帧，比如可以通过对象区域的位置、大小、形状等从关键帧中筛选包含核心物体的图像部分(对象区域)的目标视频帧，具体的如图3所示，矩形框中的人和上衣适用于种草文，而大量的背景(比如物体a、物体b、物体c、物体d)无意义，则可以根据各个对象区域的位置从干扰较多(对象区域较多)的视频帧中筛选出，存在对象区域处于关键帧中间位置，且该对象区域在关键帧中占比达到占比阈值的目标视频帧。此外，还可以通过关键帧中对象区域的数量对关键帧进行筛选，比如，从关键帧中筛选对象区域的数量小于三个的目标视频帧，在此不做限制。
62.进一步的，本技术实施例提供的一种可选实施方式中，所述基于所述对象区域以及所述显著性区域，从所述关键帧中确定目标视频帧，具体采用如下方式实现：
63.确定所述对象区域与所述显著性区域的重叠区域；
64.基于所述重叠区域在所述关键帧中的占比信息和/或位置信息，从所述关键帧中确定目标视频帧。
65.具体的，由于对象区域为关键帧中包含的实体(比如物体、人物等)的区域，而显著性区域为关键帧中显著的区域，则通过将对象区域与显著性区域求交集，则可以获得两种区域的重叠区域，则根据重叠区域在关键帧中的占比信息(比如重叠区域的大小为关键帧大小的30％，则占比信息为30％)，和/或，位置信息(比如重叠区域在关键帧中的中心位置、上部、左侧等)从关键帧中确定目标视频帧，保障了目标视频帧为：重叠区域是关键帧中最显著的区域的视频帧，提高了目标视频帧的可用性。
66.进一步的，在确定目标视频帧之后，还可以确定目标视频帧中包含的目标对象的对象信息，以便根据对象信息，更有针对性地对目标视频帧进行使用，本技术实施例提供的一种可选实施方式中，所述对所述视频帧进行处理以确定目标视频帧之后，还包括：
67.将所述目标视频帧与预存对象图像进行相似度比对；
68.基于对比结果，确定所述目标视频帧中包含的目标对象的对象信息；
69.其中，所述预存对象图像，可以理解为针对使用场景预先存储的包含对象的图像，具体实施时，该预存对象图像可以为至少一个，则通过将所述目标视频帧与预存对象图像进行相似度比对，可以确定目标视频帧中包含的对象是否与预存对象图像中的对象是同一个对象。
70.进一步的，相似度对比的对比结果，可以是一致或不一致，实际应用中，可以通过将目标视频帧与至少一个预存对象图像依次进行相似度对比，获得相似度，并将相似度与预设相似度阈值进行比较，若获得的相似度大于等于相似度阈值，则对比结果为一致，若获得的相似度小于相似度阈值，则对比结果为不一致，在对比结果为一致的情况下，则确定目标视频帧中包含的对象与预存对象图像中的对象是同一个对象，可以将预存对象图像中对象的对象信息，作为目标视频帧中目标对象的对象信息；在对比结果为不一致的情况下，则表明该目标视频帧中包含的对象与预存对象图像中的对象不是同一个对象，则可以将该目标视频帧丢弃，或不做操作即可。
71.其中，对象信息，可以为对象名称、对象标识、对象颜色，和/或对象品牌等信息，在此不做限制。此外，本技术实施例提供的一种可选实施方式中，所述对所述视频帧进行处理以确定目标视频帧，具体采用如下方式实现：
72.将所述视频帧与预存对象图像进行相似度比对；
73.基于对比结果，确定所述视频帧中的目标对象；
74.基于所述目标对象的对象信息对所述视频帧进行筛选以确定目标视频帧。
75.其中，所述预存对象图像，可以理解为针对使用场景预先存储的包含对象的图像，具体实施时，该预存对象图像可以为至少一个，则通过将所述视频帧与预存对象图像进行相似度比对，可以确定视频帧中包含的对象是否与预存对象图像中的对象是同一个对象。
76.进一步的，相似度对比的对比结果，可以是一致或不一致，实际应用中，可以通过将视频帧与至少一个预存对象图像依次进行相似度对比，获得相似度，并将相似度与预设
相似度阈值进行比较，若获得的相似度大于等于相似度阈值，则对比结果为一致，若获得的相似度小于相似度阈值，则对比结果为不一致，在对比结果为一致的情况下，则确定视频帧中包含的对象与预存对象图像中的对象是同一个对象，可以将预存对象图像中对象的对象信息，作为视频帧中目标对象的对象信息；在对比结果为不一致的情况下，则表明该视频帧中包含的对象与预存对象图像中的对象是不是同一个对象，则可以将该视频帧丢弃，或不做操作即可。
77.其中，对象信息，可以为对象名称、对象标识、对象颜色，和/或对象品牌等信息，在此不做限制。
78.本技术实施例，基于对象信息对视频帧进行筛选，保障了目标视频帧中包含满足使用需求所需要的信息。
79.再进一步的，为了使目标视频帧更加贴合使用场景以及使目标视频帧更加美观，本技术实施例提供的一种可选实施方式中，所述基于所述目标对象的对象信息对所述视频帧进行筛选以确定目标视频帧，具体采用如下方式实现：
80.基于所述目标对象的对象区域，对所述视频帧进行背景替换；
81.根据预设美学特征，对替换后的视频帧进行筛选确定所述目标视频帧。
82.对目标对象所在的对象区域之外的图像区域进行背景替换，这时由于目标对象所处的场景可能与目标视频帧的使用场景不符，因此，可以通过背景替换，使目标视频帧更加美观适宜。具体的，背景替换的具体实现过程可以是先对目标对象的对象区域进行抠图，再利用图像合成sdk，为目标对象的对象区域加入背景，具体可以如图4所示，图4(a)为抠图后结果，图4(b)为添加背景后的结果。
83.进一步的，在对目标视频帧进行背景替换后，还可以利用美学方式(比如预设美学特征)，对替换后的目标视频帧进行筛选，可以筛选出质量比较好的图片，使筛选后的目标视频帧更加富有美感，其中，预设美学特征，可以是前后景之间的颜色差异、纹理差异、显著区域的位置关系等特征，在此不做限制。
84.此外，在视频帧中可能包含多个目标对象，因此，可以将这些目标对象作为一个整体进行背景替换，可以在这多个目标对象中按照预设替换规则，确定一个目标对象，对视频帧中确定的目标对象进行背景替换，在此不做限制。
85.需要说明的是，本技术实例中确定目标视频帧的各种方式，以及对确定后的目标视频帧的后续处理方式，可以通过叠加或组合的方式配合执行，比如，基于所述目标对象的对象区域，对所述视频帧进行背景替换，可以组合在上述从视频帧中抽取关键帧的处理方式，基于所述目标对象的对象区域，对关键帧进行背景替换，则目标对象的对象区域，可以将目标视频帧中的重叠区域中所包含的对象确定为目标对象，并基于该目标对象的对象区域进行背景替换。
86.实际应用中，在获得目标视频帧之后，可能目标视频帧的数量还是较多，因此，可以继续对目标视频帧进行筛选，从而进一步保障目标视频帧的质量，本技术实施例提供的一种可选实施方式中，所述对替换后的视频帧进行筛选以确定目标视频帧之后，包括：
87.基于所述目标视频帧中目标对象的占比信息和/或位置信息，确定所述目标视频帧的图像类型；
88.从所述目标视频帧中筛选图像类型为第一类型的目标视频帧。
89.具体的，在上述确定目标视频帧中的目标对象之后，可以根据目标对象所在的对象区域的大小占关键帧大小的比例，和/或，位置信息(比如该对象区域在关键帧中的中心位置、上部、左侧等)，确定目标视频帧的图像类型。
90.其中，图像类型，可以分为第一类型(比如：可用类型、重要类型等)、第二类型(比如：不可用类型、不重要类型等)等，在此不做限制。
91.具体实施时，可以采用分类模型对筛选出来的图片(目标视频帧)再次进行打标过滤，选出适合某使用场景(比如种草文)的图片，具体的，可以通过将图片(比如视频帧)以及根据占比信息和/或位置信息对该图片所标注的可用、不可用信息作为训练样本对，进行模型训练，获得分类模型；将目标视频帧输入训练完成的分类模型进行分类，则可以获得分类模型输出的针对目标视频帧分为可用或不可用的标签信息(类型)。
92.在对目标视频帧进行分类之后，将图像类型为第一类型的目标视频帧筛选出来作为目标视频帧，进一步减少了目标视频帧的数量，也增加了目标视频帧的使用质量。除以上对输入视频中的视频帧进行处理之外，还需要针对音频数据进行处理，本技术实施例提供的一种可选实施方式中，所述对所述音频数据进行处理获得文本信息，具体采用如下方式实现：
93.对所述音频数据进行文本识别获得初始文本信息；
94.根据所述对象信息，对所述初始文本信息进行筛选，获得文本信息。
95.实际应用中，在将音频数据通过语音识别技术获得初始文本信息之后，可以进一步对文本信息进行筛选，比如：通过有效性分类的方式进行筛选，具体实施时，可以采用预先训练好的albert等分类模型根据对象信息，对初始文本信息中的每个断句进行打标分类(比如有效、无效)。
96.具体的，可以将包含该对象信息的文本分类为有效状态，也可以将包含对象信息中预设有效信息(比如对象功能、对象名称等)的文本分类为有效状态，并将包含对象信息中预设无效信息(比如对象形状、对象颜色等)的文本分类为无效状态等，在此不做限制。
97.此外，在输入视频为直播卖货、图文信息的使用场景为种草场景的情况下，可以将与客户闲聊或多人对话的文本信息，确定为无效状态。将针对目标对象(产品)的对象描述、目标对象的使用场景，和/或目标对象的细节解说等文本信息确定为有效状态。
98.进一步的，还可以对有效状态的文本信息进行顺滑处理，这是由于文本信息中可能存在不通顺的语句，因此，需要对文本信息进行文本顺滑，具体的，可以采用文本顺滑模型(比如预先训练好的bert模型)，用于对文本信息进行文本顺滑，比如删除自动语音识别(asr)结果中的不顺滑的词，从而得到更自然和通顺的句子，即顺滑后的文本信息，增加了图文信息中文本信息的针对性以及可读性。
99.比如，在输入视频为直播卖货、图文信息的使用场景为种草的情况下，对bert模型进行训练时，模型训练的输入可以是主播过滤(有效性过滤)后的话术文本以及挖掘的对应商品的种草文。在训练完成后，对训练后的bert模型输入主播过滤后的话术文本，则可以获得bert模型输出的改写后的种草文文本。
100.步骤106：基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息。
101.其中，所述目标视频帧在所述输入视频中对应的时间，可以理解为目标视频帧在
输入视频中的推移时间，比如，输入视频时长为3分钟，而目标视频帧在输入视频中的展示时间为第2分钟，则目标视频帧在输入视频中对应的时间为2分钟，类似的，文本信息在输入视频中对应的时间，可以理解为文本信息所属的音频数据在输入视频中的推移时间。
102.实际应用中，基于这两个时间，可以将目标视频帧与文本信息进行时序对齐，并在时序对齐后，确定针对该目标视频帧的目标文本信息。
103.具体实施时，本技术实施例提供的一种可选实施方式中，所述基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息，包括：
104.基于第i个目标视频帧以及第i 1个目标视频帧在所述输入视频中对应的时间，确定目标时间区间；
105.基于所述文本信息在所述输入视频中对应的时间，确定所述时间区间内的文本信息；
106.将所述时间区间内的文本信息确定为所述第i个目标视频帧对应的目标文本信息。
107.其中，i为正整数，i的最小值为1，最大值为目标视频帧的数量，则第i个目标视频帧可以理解为在将目标视频帧在输入视频中对应的时间进行排序后，相邻的两个目标视频帧中推移时间靠前的视频帧；第i 1个目标视频帧，则可以理解为上述相邻的两个目标视频帧中推移时间靠后的视频帧。
108.需要说明的是，由于对输入视频中的视频帧进行了筛选，因此相邻的两个目标视频帧(第i个目标视频帧以及第i 1个目标视频帧可能并非是原输入视频中相邻的视频帧，本技术实施例，将在这两帧目标视频帧之间的时间区间(即目标时间区间)内文本信息，都作为相邻两个目标视频帧中前一个目标视频帧(即第i个目标视频帧)对应的目标文本信息，更大程度上保留了文本信息针对目标视频帧的描述，有利于下述生成图文信息的完备性。
109.步骤108：对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息。
110.具体的，在获得目标视频帧以及目标文本信息的基础上，可以对这些目标视频帧以及目标文本信息按照预设的规则进行组合，生成图文信息。具体的，预设的规则，可以是先将目标视频帧组合，再将目标文本信息进行组合，最后再将这两个组合进行组合，或将每个目标视频帧对应的目标文本信息先分别进行组合，再一起组合等，在此不做限制。
111.在上述根据目标对象的对象信息对视频帧进行筛选以确定目标视频帧的基础上，相应地，对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息，具体采用如下方式实现：
112.根据所述对象信息对所述目标视频帧进行分组，生成至少一个分组；
113.将每个分组的目标视频帧与对应的目标文本信息进行结合，生成每个分组的图文信息。
114.具体的，在上述确定目标视频帧中目标对象的对象信息之后，可以根据对象信息对目标视频帧进行分组，这是由于根据不同的对象信息，可以生成不同的图文信息，以便于用户有针对性地对目标对象进行了解，提升了用户的阅读体验。
115.比如，在对象信息为商品库中商品的商品标识的情况下，根据商品标识对目标视
频帧进行分组，并将每个分组的目标视频帧与对应的目标文本信息进组合(结合)，生成每种商品的图文信息。
116.实际应用中，由于目标视频帧的使用场景、展示特点等可能有所区别，因此，在生成图文信息之前，需要确定目标视频帧的图片描述类型，本技术实施例提供的一种可选实施方式中，所述对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息之前，还包括：
117.对所述目标视频帧进行图像分类，确定所述目标视频帧对应的图片描述类型；
118.相应地，所述对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息，包括：
119.根据预设数量，从每种图片描述类型对应的目标视频帧中筛选类型视频帧；
120.通过将所述类型视频帧与对应的目标文本信息进行结合，生成图文信息。
121.其中，图片描述类型，可以是视频帧中展示的场景的场景类型(比如室内、室外等)、包含的对象的展示类型(比如侧面展示、正面展示等)等，在此不做限制。
122.所述对目标视频帧进行图像分类，确定目标视频帧对应的图片描述类型，可以采用图像分类算法对目标视频帧进行筛选，具体的，可以采用预先采集的关键帧图片，以及关键帧图片对应的标签(比如商品整体展示、细节展示、商品使用效果)作为训练样本对，对初始创建的使用图像分类算法的分类模型进行训练，获得训练完成的分类模型。
123.训练完成后，将目标视频帧输入该分类模型，获得分类模型输出的图片描述类型(比如：商品整体展示类型、细节展示类型、商品使用效果类型等)。
124.进一步的，在确定目标视频帧对应的图片描述类型之后，在每种图片描述类型的目标视频帧较多的情况下，可以从每种图片描述类型对应的目标视频帧中筛选预设数量(比如2、3等)的视频帧(即类型视频帧)，并进一步将所述类型视频帧与所述目标文本信息进行结合，生成图文信息。
125.比如，以生成种草文为例，根据图片(目标视频帧)的场景来选取相同场景对应的文本内容做匹配，则将每个商品根据图片描述类型标签分为商品展示、商品细节、商品使用效果等，针对每种图片描述类型选出1-2张图片，另外因为一个直播视频会比较长，商品会有多个，种草文一篇不适合太多商品一起，所以根据图片对应的物体标识(item_id)切分图片组，一组包含3-4个商品，加上这3-4个商品图片对应的文本生成一篇种草文，最终输出一个直播视频对应的多篇种草文。
126.具体实施时，本技术实施例提供的一种可选实施方式中，对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息，具体采用如下方式实现：
127.将所述目标视频帧以及所述目标文本信息输入图文信息生成模型，获得所述图文信息生成模型输出的图文信息。
128.其中，所述图文信息生成模型是预先训练完成的，通过图文信息生成模型对目标视频帧目标文本信息进行处理，从而获得图文信息生成模型输出的图文信息，以提高图文信息的生成效率。
129.如图5所示，离线的图文信息生成模型的训练流程具体如下：
130.基于规则筛选适合生成图文信息的视频，比如直播视频、短视频等。使用筛选后的视频进行图文信息生成模型的训练，并将训练完成的图文信息生成模型进行模型部署，部
署至线上服务。
131.图文信息生成模型上线后的在线流程具体如下：
132.图文信息生成模型提供在线服务，将输入视频输入图文信息生成模型(调用在线服务接口)，图文信息生成模型对输入视频进行上述步骤102-步骤106的处理，确定目标视频帧以及目标文本信息，并对确定的目标视频帧以及目标文本信息进行图文生成，生成图文信息。
133.实际应用中，为了进一步提高图文信息生成模型的图文信息生成效果，还可以通过预先收集参考视频，对参考视频进行上述步骤102-步骤106的处理，确定参考视频中的参考视频帧以及参考文本信息，通过参考视频帧以及参考文本信息对所述图文信息生成模型进行更新，生成更新后的图文信息生成模型。
134.综上所述，本说明书提供的信息生成方法，通过获取输入视频，并提取所述输入视频中的视频帧以及音频数据；对所述视频帧进行筛选确定目标视频帧，以及对所述音频数据进行文本识别获得文本信息；基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息；对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息，实现了自动化生成视频对应的图文信息，提高了图文生成的效率，并释放了人力资源。
135.下述结合附图6，以本说明书提供的信息生成方法在实际场景中的应用为例，对所述信息生成方法进行进一步说明。其中，图6示出了本说明书一个实施例提供的一种信息生成方法中模型训练的处理流程图，具体包括以下步骤：
136.步骤602：视频关键帧抽取。
137.具体的，关键帧抽取是对进行模型训练的样本视频中的视频帧进行关键帧提取，该候选视频，可以理解为上述方法实施例中的图5中筛选出的视频。
138.步骤604：关键帧筛选。
139.具体的，关键帧筛选，可以参考上述方法实施例中对关键帧进行处理以确定目标视频帧。
140.步骤606：目标区域分割。
141.具体的，可以基于mask r-cnn的实例分割对关键帧中的目标区域(包含对象的对象区域)进行分割，获得至少一个对象区域。
142.步骤608：显著性检测。
143.具体的，可以对关键帧进行显著性检测，或对上述存在对象区域的关键帧进行显著性检测，获得显著性区域。
144.步骤610：背景替换。
145.具体的，可以关键帧中的对象区域以及显著性区域求交集，获得两个区域的重叠区域，并基于重叠区域确定目标对象的对象区域，对该对象区域之外的图像区域进行背景替换。
146.步骤612：美学特征筛选。
147.具体的，美学特征筛选是指通过美学特征对背景替换后的视频帧进行筛选，从而筛选出质量比较好的目标视频帧。
148.步骤614：图片过滤。
149.具体的，可以根据图片(目标视频帧)中目标对象的占比信息和/或位置信息，对图片(目标视频帧)进行过滤。
150.步骤616：图片打标。
151.具体的，对图片打标，是指对过滤后的图片(目标视频帧)添加可用或不可用的标签，从而获得添加可用标签的目标视频帧。
152.步骤618：图片分组。
153.具体的，图片分组是根据目标对象的对象信息对图片进行分组生成的。
154.以上为对候选视频中的视频帧的处理。
155.步骤620：音轨提取。
156.具体的，是指从上述模型训练的候选视频中提取音轨，具体的，音轨，可以理解为上述信息生成方法实施例中的音频数据。
157.步骤622：asr转写。
158.具体的，通过asr将音轨转写为初始文本信息。
159.步骤624：无效文本过滤。
160.具体的，对上述转写生成的初始文本信息根据目标对象的对象信息进行有效性过滤，获得有效的文本信息。
161.步骤626：文本改写。
162.具体的，文本改写可以理解为通过模型对上述过滤后的文本信息(有效的文本信息)进行顺滑处理，获得文本信息。
163.步骤628：文本分组。
164.具体的，文本分组是将顺滑后的文本信息根据对象信息进行分组生成的。
165.步骤630：时序对正。
166.将上述步骤618生成的图片分组与步骤628生成的文本分组，按照图片在候选视频中对应的时间以及文本分组中文本在候选视频中对应的时间进行时序对正，确定图片分组和文本分组之间的对应关系，并进一步根据对应的图片分组和文本分组，生成样本图文信息。
167.步骤632：将上述样本视频以及样本图文信息作为训练样本对进行模型训练，生成图文信息生成模型。
168.综上所述，本说明书提供的信息生成方法中的模型训练，通过获取样本视频，并提取所述样本视频中的视频帧以及音频数据；对所述视频帧进行筛选确定目标视频帧，以及对所述音频数据进行文本识别获得文本信息；基于所述目标视频帧在所述样本视频中对应的时间以及所述文本信息在所述样本视频中对应的时间，确定与所述目标视频帧对应的目标文本信息；对所述目标视频帧以及所述目标文本信息进行处理，生成样本图文信息；基于所述样本视频以及所述样本图文信息进行模型训练，获得图文信息生成模型，实现了对图文信息生成模型的训练，以便通过训练完成的图文信息生成模型自动化生成视频对应的图文信息，提高了图文生成的效率，并释放了人力资源。
169.与上述信息生成方法实施例相对应，本说明书还提供了信息生成装置实施例，图7示出了本说明书一个实施例提供的一种信息生成装置的结构示意图。如图7所示，该装置包括：
170.提取模块702，被配置为获取输入视频，并提取所述输入视频中的视频帧以及音频数据；
171.处理模块704，被配置为对所述视频帧进行处理以确定目标视频帧，以及对所述音频数据进行处理获得文本信息；
172.确定模块706，被配置为基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息；
173.生成模块708，被配置为对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息。
174.可选地，所述处理模块704，进一步被配置为：
175.从所述视频帧中抽取关键帧，并对所述关键帧进行处理以确定目标视频帧。
176.可选地，所述对所述关键帧进行处理以确定目标视频帧，包括：
177.确定区域子模块，被配置为对所述关键帧进行实体分割，确定所述关键帧中包含的各个对象的对象区域；
178.检测子模块，被配置为对所述关键帧进行显著性检测获得所述关键帧的显著性区域；
179.确定目标视频帧子模块，被配置为基于所述对象区域以及所述显著性区域，从所述关键帧中确定目标视频帧。
180.可选地，所述确定目标视频帧子模块，包括：
181.确定重叠区域单元，被配置为确定所述对象区域与所述显著性区域的重叠区域；
182.确定目标视频帧单元，被配置为基于所述重叠区域在所述关键帧中的占比信息和/或位置信息，从所述关键帧中确定目标视频帧。
183.可选地，所述处理模块704，包括：
184.对比子模块，被配置为将所述视频帧与预存对象图像进行相似度比对；
185.确定对象子模块，被配置为基于对比结果，确定所述视频帧中的目标对象；
186.筛选目标视频帧子模块，被配置为基于所述目标对象的对象信息对所述视频帧进行筛选以确定目标视频帧。
187.可选地，所述筛选目标视频帧子模块，进一步被配置为：
188.基于所述目标对象的对象区域，对所述视频帧进行背景替换；
189.根据预设美学特征，对替换后的视频帧进行筛选以确定目标视频帧。
190.可选地，所述信息生成装置，还包括：
191.确定类型模块，被配置为基于所述目标视频帧中目标对象的占比信息和/或位置信息，确定所述目标视频帧的图像类型；
192.筛选视频帧模块，被配置为从所述目标视频帧中筛选图像类型为第一类型的目标视频帧。
193.可选地，所述处理模块704，进一步被配置为：
194.对所述音频数据进行文本识别获得初始文本信息；
195.根据所述对象信息，对所述文本信息进行筛选，获得文本信息。
196.相应地，所述生成模块708，进一步被配置为：
197.根据所述对象信息对所述目标视频帧进行分组，生成至少一个分组；
198.将每个分组的目标视频帧与对应的目标文本信息进行结合，生成每个分组的图文信息。
199.可选地，所述信息生成装置，还包括：
200.确定描述类型模块，被配置为对所述目标视频帧进行图像分类，确定所述目标视频帧对应的图片描述类型；
201.相应地，所述生成模块708，进一步被配置为：
202.根据预设数量，从每种图片描述类型对应的目标视频帧中筛选类型视频帧；
203.通过将所述类型视频帧与对应的目标文本信息进行结合，生成图文信息。
204.可选地，所述确定模块706，进一步被配置为：
205.基于第i个目标视频帧以及第i 1个目标视频帧在所述输入视频中对应的时间，确定目标时间区间；
206.基于所述文本信息在所述输入视频中对应的时间，确定所述时间区间内的文本信息；
207.将所述时间区间内的文本信息确定为所述第i个目标视频帧对应的目标文本信息。
208.可选地，所述生成模块708，进一步被配置为：
209.将所述目标视频帧以及所述目标文本信息输入图文信息生成模型，获得所述图文信息生成模型输出的图文信息。
210.综上所述，本说明书提供的信息生成方法，通过获取输入视频，并提取所述输入视频中的视频帧以及音频数据；对所述视频帧进行筛选确定目标视频帧，以及对所述音频数据进行文本识别获得文本信息；基于所述目标视频帧在所述输入视频中对应的时间以及所述文本信息在所述输入视频中对应的时间，确定与所述目标视频帧对应的目标文本信息；对所述目标视频帧以及所述目标文本信息进行处理，生成图文信息。实现了自动化生成视频对应的图文信息，提高了图文生成的效率，并释放了人力资源。
211.上述为本实施例的一种信息生成装置的示意性方案。需要说明的是，该信息生成装置的技术方案与上述的信息生成方法的技术方案属于同一构思，信息生成装置的技术方案未详细描述的细节内容，均可以参见上述信息生成方法的技术方案的描述。
212.图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。
213.计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
214.在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于
示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
215.计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
216.其中，处理器820用于执行计算机指令，所述处理器执行所述计算机指令时实现所述信息生成方法或所述信息生成方法的步骤。
217.上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的信息生成方法或信息生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述信息生成方法或信息生成方法的技术方案的描述。
218.本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，所述计算机指令被处理器执行时实现所述信息生成方法或所述信息生成方法的步骤。
219.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的信息生成方法或信息生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述信息生成方法或信息生成方法的技术方案的描述。
220.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
221.所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
222.需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。
223.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
224.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有
详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：建模方法、装置、计算机设备及存储介质与流程

信息生成方法及装置与流程

相关文献

最热文献