基于视频的内容生成方法、装置及电子设备与流程

2022-04-27 09:26:44 来源：中国专利 TAG：

1.本公开涉及图像处理技术领域，尤其涉及自然语言处理、图像识别、光学字符识别等领域，具体涉及基于视频的内容生成方法、装置及电子设备。

背景技术：

2.在互联网中，存在着大量的视频素材，但是视频素材的阅读会耗费大量的时间。因此，如何基于视频生成可快速阅读的内容是亟需解决的问题。

技术实现要素：

3.本公开提供了一种基于视频的内容生成方法和装置。
4.根据本公开的一方面，提供了一种基于视频的内容生成方法，包括：
5.将视频进行切帧处理，以获取所述视频中包含的图片序列；
6.对所述图片序列中的每个所述图片进行文字识别，以确定每个所述图片中包含的文本信息及所述文本信息在所述图片中的位置；
7.根据每个所述图片中包含的文本信息和/或所述文本信息在所述图片中的位置，确定所述视频中包含的关键图片；
8.根据所述图片序列中包含的图片的顺序，将各个所述图片中包含的文本信息进行融合，以生成文本内容；
9.根据所述关键图片中包含的文本信息在所述文本内容中的位置，将所述关键图片插入所述文本内容中，以生成与所述视频对应的目标内容。
10.根据本公开的另一方面，提供了一种基于视频的内容生成装置，包括：
11.切帧模块，用于将视频进行切帧处理，以获取所述视频中包含的图片序列；
12.识别模块，用于对所述图片序列中的每个所述图片进行文字识别，以确定每个所述图片中包含的文本信息及所述文本信息在所述图片中的位置；
13.确定模块，用于根据每个所述图片中包含的文本信息和/或所述文本信息在所述图片中的位置，确定所述视频中包含的关键图片；
14.生成模块，用于根据所述图片序列中包含的图片的顺序，将各个所述图片中包含的文本信息进行融合，以生成文本内容；
15.所述生成模块，还用于根据所述关键图片中包含的文本信息在所述文本内容中的位置，将所述关键图片插入所述文本内容中，以生成与所述视频对应的目标内容。
16.根据本公开的另一方面，提供了一种电子设备，包括：
17.至少一个处理器；以及
18.与所述至少一个处理器通信连接的存储器；其中，
19.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所述的方法。
20.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储
介质，其中，所述计算机指令用于使所述计算机执行根据上述实施例所述的方法。
21.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述实施例所述方法的步骤。
22.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案，不构成对本公开的限定。其中：
24.图1为本公开实施例提供的一种基于视频的内容生成方法的流程示意图；
25.图2为本公开实施例提供的另一种基于视频的内容生成方法的流程示意图；
26.图3为本公开实施例提供的另一种基于视频的内容生成方法的流程示意图；
27.图4为本公开实施例提供的另一种基于视频的内容生成装置的过程示意图；
28.图5为本公开实施例提供的另一种基于视频的内容生成装置的流程示意图；
29.图6是用来实现本公开实施例的基于视频的内容生成方法的电子设备的框图。
具体实施方式
30.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
31.nlp(natural language processing，自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向，nlp研究的内容包括但不限于如下分支领域：文本分类、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、命名实体识别、文本生成、文本分析(词法、句法、语法等)、语音识别与合成等。
32.图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。现阶段图像识别技术一般分为人脸识别与商品识别，人脸识别主要运用在安全检查、身份核验与移动支付中；商品识别主要运用在商品流通过程中，特别是无人货架、智能零售柜等无人零售领域。
33.ocr(optical character recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是ocr最重要的课题，icr(intelligent character recognition)的名词也因此而产生。衡量一个ocr系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。
34.下面参考附图，对本公开实施例的基于视频的内容生成方法、装置、电子设备和存储介质进行详细说明。
35.图1为本公开实施例提供的一种基于视频的内容生成方法的流程示意图。
36.如图1所示，该方法包括：
37.步骤101，将视频进行切帧处理，以获取视频中包含的图片序列。
38.其中，图片序列可以包含多张按时间顺序排列的图片，本公开对此不作限制。
39.本公开中，用户可以上传视频对应的url，服务端在获取视频url后，即可基于视频url获取到视频。或者，用户还可以直接将视频上传到服务端。本公开对此不作限制。服务端在获取到视频后，即可利用任意视频处理软件，对视频进行切帧处理。
40.可以理解的是，服务端对视频进行切帧处理后，即可获取视频对应的多张图片，然后，可以将多张图片按照在视频中的时间顺序进行保存，或者可以按照多张图片按照在视频中的时间顺序对图片进行编号后再保存，从而即可确定视频对应的一个图片序列。
41.本公开中，可以一秒内切两帧视频中的图像，从而在保证获取的图片序列，能够包含视频中所有的内容信息的同时，降低图片序列的冗余。
42.步骤102，对图片序列中的每个图片进行文字识别，以确定每个图片中包含的文本信息及文本信息在图片中的位置。
43.本公开中，可以利用ocr识别技术，识别出图片中的文字信息，及文字信息在图片中的位置。
44.其中，每个图片中包含的文本信息可以包含字幕、弹幕以及与视频内容类型相关的信息，比如视频对应的栏目名称等类型的文本信息，本公开对此不作限制。
45.可以理解的是，通常在视频图像中，字幕、弹幕及栏目名称在视频中的位置不同，一般情况下，字幕在视频图像的下方位置，栏目名称在视频图像的左上角位置，弹幕在视频图像的上半部分。由此，可以通过文本信息所在的位置，确定文本信息的类型。
46.步骤103，根据每个图片中包含的文本信息和/或文本信息在图片中的位置，确定视频中包含的关键图片。
47.本公开中，关键图片可以为对理解视频的内容有重要作用的图片，比如，用户关注的内容所在的图片，或者内容情节有变化的图片。一般情况下，当内容情节发生变化时，弹幕文本信息会随之变化。因此，可以根据图片中是否出现弹幕文本信息，确定是否为关键图片。从而，可以有效地确定关键图片，进而可以提高关键图片所包含的信息量。
48.本公开中，可以将相邻的图片中包含的弹幕文本信息进行对比，在弹幕文本信息发生变化时，可以确定此弹幕文本信息对应的图片为关键图片。
49.可选的，可以在任一图片中包含的文本信息在图片中的预设位置的情况下，确定任一图片为关键图片。
50.比如，在某一图片的弹幕位置出现弹幕文本信息，且其前一张图片未包含弹幕文本信息，或者该图片为图片序列中的第一张图片时，可以确定该图片为关键图片。
51.可选的，在多个相邻的图片中包含的弹幕文本信息相同的情况下，可以确定多个相邻的图片中的任一图片为关键图片。
52.步骤104，根据图片序列中包含的图片的顺序，将各个图片中包含的文本信息进行融合，以生成文本内容。
53.本公开中，服务端在获取每张图片对应的文本信息后，可以按照文本信息对应的图片顺序，将字幕文本信息进行拼接，以生成视频对应的文本内容。
54.可选的，还可以将每相邻的两个字幕文本信息输入预设的网络模型，以根据网络
模型的输出，确定字幕两个文本信息间的标点符号的类型。然后基于每相邻的两个字幕文本信息间的标点符号的类型，将各个图片中包含的字幕文本信息进行融合，以生成文本内容。
55.其中，网络模型可以为知识和语义信息融合模型(enhanced representation through knowledge integration，ernie)等任一自然语言处理模型。可以通过标注了标点符号的视频字幕文本数据集，对模型进行训练，以获取用于预测相邻字幕文本间的标点符号的网络模型。
56.本公开中，基于预设的网络模型，确定两个字幕文本信息间的标点符号的类型后，可以按照字幕文本信息对应的图片的顺序，将各图片中的字幕文本信息进行拼接。在拼接的过程中，如果相邻两个字幕文本信息之间存在标点符号，可以将标点符号插入到两字字幕文本信息之间，从而提高了文本内容的可读性。
57.步骤105，根据关键图片中包含的文本信息在文本内容中的位置，将关键图片插入文本内容中，以生成与视频对应的目标内容。
58.本公开中，首先可以确定每张关键图片中的字幕文本信息在文本内容中的位置，然后，可以将关键图片，插入到其所包含的字幕文本信息所在位置之后，从而即可生成与视频对应的图文内容。其中，图文内容即为视频对应的目标内容。
59.本公开中，在关键图片前后，内容情节可能发生变化，因此，可以根据关键图片将文本内容进行分段，以增加文本内容的可读性。
60.可选的，可以根据关键图片将文本内容进行分段，并将关键图片插入到相应的分段位置中，以生成视频对应的目标内容。
61.比如，首先确定关键图片中包含的字幕文本信息在文本内容的位置，之后，可以在此位置前进行分段，然后，可以将关键图片插入到所对应字幕文本信息位置的后面。由此，可以实现对文本内容进行合理的分段，从而有利于增加文本内容的可读性。
62.可选的，在关键图片中不包含字幕信息时，可以根据图片序列中关键图片所对应的顺序，将关键图片插入文本内容中，以生成与视频对应的目标内容。比如，某一关键图片中不包含字幕信息，可以确定图片序列中此关键图片的前一张图片，所包含的字幕文本信息在文本内容中的位置，然后，可以在此位置之后进行分段，并将此关键图片插入到此分段位置。
63.可选的，还可以按照图片序列中包含的图片的顺序，将各字幕文本信息及关键图片进行融合，以生成文本内容。
64.比如，可以按照各条字幕文本信息对应的图片的顺序，及各关键图片的顺序，将字幕文本信息和关键图片进行拼接，以生成目标内容。此外，当任一关键图片中包含字幕文本信息，此字幕文本信息对应的图片的顺序即为对应关键图片的顺序，此时可以将关键图片放在字幕文本信息之后。
65.本公开中，将视频进行切帧处理，以获取视频中包含的图片序列后，可以对图片序列中的每个图片进行文字识别，以确定每个图片中包含的文本信息及文本信息在图片中的位置，之后，可以根据每个图片中包含的文本信息和/或文本信息在图片中的位置，确定视频中包含的关键图片，然后，再根据图片序列中包含的图片的顺序，将各个图片中包含的文本信息进行融合，以生成文本内容，并根据关键图片中包含的文本信息在文本内容中的位
置，将关键图片插入文本内容中，以生成与视频对应的目标内容。由此，通过将视频内容，转化为图文内容，不仅丰富了内容素材，提高了视频内容的可读性，而且为节省用户阅读素材的时间提供了条件。
66.图2为本公开实施例提供的一种基于视频的内容生成方法的流程示意图。
67.如图2所示，该方法包括：
68.步骤201，将视频进行切帧处理，以获取视频中包含的图片序列。
69.步骤202，对图片序列中的每个图片进行文字识别，以确定每个图片中包含的文本信息及文本信息在图片中的位置。
70.步骤203，根据每个图片中包含的文本信息和/或文本信息在图片中的位置，确定视频中包含的关键图片。
71.本公开中，步骤201-步骤203的具体实现过程，可参见上述实施例的详细描述，在此不再赘述。
72.步骤204，对关键图片进行人脸识别，以确定关键图片中是否存在人脸区域及人脸区域的清晰度。
73.本公开中，关键图片中可能存在包含人脸的图片，当包含人脸的图片清晰度低时，对图文内容的可读性影响较大。因此，可以删除包含人脸的清晰度较低的关键图片，以保证图文内容的可读性。
74.本公开中，可以基于人脸识别技术，对关键图片进行人脸识别，以确定关键图片中是否存在人脸区域及人脸区域的清晰度。
75.步骤205，在关键图片中未包含人脸区域的情况下，保留关键图片。
76.本公开中，在对关键图片进行人脸识别后，可以将未包含人脸区域的关键图片进行保留，以保证关键图片的丰富性。
77.步骤206，在关键图片中包含人脸区域、且人脸区域的清晰度大于或等于阈值的情况下，保留关键图片。
78.其中，阈值可以根据对图片清晰度的要求，预先设置在系统中。
79.本公开中，当关键图片中包含人脸区域时，可以将此人脸区域的清晰度与预设的阈值进行比较，在清晰度大于等于阈值的情况下，可以保留关键图片。由此，可以保证图文内容中关键图片的清晰度，从而提高了图文内容的可读性。
80.步骤207，在关键图片中包含人脸区域、且人脸区域的清晰度小于阈值的情况下，丢弃关键图片。
81.本公开中，当关键图片中包含人脸区域时，可以将此人脸区域的清晰度与预设的阈值进行比较，在清晰度小于阈值的情况下，可以丢弃关键图片。由此，可以保证图文内容中关键图片的清晰度，从而提高了图文内容的可读性。
82.需要说明的是，在实际使用时，上述步骤205-207可以并行执行，或者也可以按其它顺序执行，比如先执行206和207，再执行205等等，本公开对此不做限定。
83.步骤208，根据图片序列中包含的图片的顺序，将各个图片中包含的文本信息进行融合，以生成文本内容。
84.步骤209，根据关键图片中包含的文本信息在文本内容中的位置，将关键图片插入文本内容中，以生成与视频对应的目标内容。
85.本公开中，步骤208-步骤209的具体实现过程，可参见上述实施例的详细描述，在此不再赘述。
86.本公开中，在确定关键图片后，可以对图片进行人脸识别，以确定关键图片中是否存在人脸区域及人脸区域的清晰度。在关键图片中未包含人脸区域的情况下，保留关键图片。在关键图片中包含人脸区域、且人脸区域的清晰度大于或等于阈值的情况下，保留关键图片。在关键图片中包含人脸区域、且人脸区域的清晰度小于阈值的情况下，丢弃关键图片。由此，可以保证图文内容中关键图片的清晰度，从而提高了图文内容的可读性。
87.图3为本公开实施例提供的一种基于视频的内容生成方法的流程示意图。
88.如图3所示，该方法包括：
89.步骤301，将视频进行切帧处理，以获取视频中包含的图片序列。
90.步骤302，对图片序列中的每个图片进行文字识别，以确定每个图片中包含的文本信息及文本信息在图片中的位置。
91.本公开中，步骤301-步骤302的具体实现过程，可参见上述实施例的详细描述，在此不再赘述。
92.步骤303，将每个图片中包含的文本信息进行去重处理，以获取待融合的文本信息。
93.本公开中，相邻图片中的字幕文本信息可能存在重复的现象，因此可以对字幕文本信息进行去重，以保证文本内容的可读性。
94.本公开中，可以对相邻的两个文本信息计算编辑距离，在编辑距离小于等于2时，可以确定的两个文本信息相同，然后可以删除两个文本信息中任一文本信息。
95.步骤304，确定每相邻的两个文本信息间的语义关联度。
96.可以理解的是，每个标点符号对应的使用语境不同，标点符号前和标点符号后的语义的关联程度也不同。比如，句号一般表示一句话已结束，接下来为新一句话的开始，因此，句号前后两个句子的语义上关联程度较低。逗号一般表示一个短的停顿，但逗号前后两个句子的语义存在较大联系。因此，可以根据相邻的两个文本信息间的语义关联度，确定对应的标点符号的类型。
97.本公开中，可以基于语义分析技术，确定相邻的两个字幕文本信息间的语义关联度。
98.步骤305，根据语义关联度及两个文本信息对应的两个图片间的时间间隔，确定每相邻的两个文本信息间的标点符号的类型。
99.本公开中，在图片序列中，每个图片都对应一个切帧时间，因此，可以根据两个文本信息对应的图片的切帧时间，确定两个文本信息之间时间间隔。
100.此外，在图片序列中，可能存在不包含字幕信息的图片，因此，相邻两个字幕文本信息之间的时间间隔可能不同。不同的时间间隔，其语义转变程度可能不同。比如，当两个字幕文本信息之间的时间间隔较长时，可以认为语义存在较大转变，当两个字幕文本信息之间的时间间隔较短时，可以认为语义转变较小。当语义转变较大时，两个字幕文本信息之间可以存在一个较长的停顿，当语义转变较小，两个字幕文本信息之间可以存在一个较短的停顿。因此，可以根据两个字幕文本信息之间的时间间隔，确定每相邻的两个文本信息间的标点符号的类型。
101.比如，当两个字幕文本信息之间的时间间隔为3秒以上时，可以在两个字幕文本信息之间添加句号，当两个字幕文本信息之间的时间间隔为0-1秒时，可以不添加标点符号，当两个字幕文本信息之间的时间间隔为1-3秒时，可以添加逗号。
102.本公开中，可以根据两个字幕文本信息之间的语义关联度，确定标点符号的类型。比如，两个字幕文本信息之间的语义关联度较低时，可以确定对应的标点符号为句号。或者，两个字幕文本信息之间的语义关联度较低，且前一句语义为疑问语境时，可以确定对应的标点符号为问号。
103.步骤306，基于每相邻的两个文本信息间的标点符号的类型，将各个图片中包含的文本信息进行融合，以生成文本内容。
104.本公开中，可以按照字幕文本信息对应的图片的顺序，将各图片中的字幕文本信息进行拼接。在拼接的过程中，如果相邻两个字幕文本信息之间存在标点符号，可以将标点符号插入到两字字幕文本信息之间。从而有利于提高对文本内容分句的合理性，进而提高了文本内容的可读性。
105.本公开中，当两文本信息之间只存在基于语义关联度确定的标点符号，或者根据时间间隔确定的标点符号时，可以直接将此标点符号确定为两个文本信息之间标点符号。当两文本信息之间同时存在根据语义关联度确定的标点符号，和根据时间间隔确定的标点符号时，可以确定根据时间间隔确定的标点符号，为两文本信息之间的标点符号。
106.步骤307，根据图片序列中包含的图片的顺序，将各个图片中包含的文本信息进行融合，以生成文本内容。
107.步骤308，根据关键图片中包含的文本信息在文本内容中的位置，将关键图片插入文本内容中，以生成与视频对应的目标内容。
108.本公开中，步骤307-步骤308的具体实现过程，可参见上述实施例的详细描述，在此不再赘述。
109.本公开中，在确定每个图片中包含的文本信息及文本信息在图片中的位置后，可以将每个图片中包含的文本信息进行去重处理，以获取待融合的文本信息，之后，确定每相邻的两个文本信息间的语义关联度，并根据语义关联度及两个文本信息对应的两个图片间的时间间隔，确定每相邻的两个文本信息间的标点符号的类型，然后，再基于每相邻的两个文本信息间的标点符号的类型，将各个图片中包含的文本信息进行融合，以生成文本内容。由此，有利于提高对文本内容分句的合理性，进而提高了文本内容的可读性。
110.为了便于理解，下面结合图4，对本公开中的基于视频的内容生成方法的过程进行说明。图4为本公开实施例提供的一种基于视频的内容生成方法的过程示意图。如图4所示，在将视频进行切帧处理，以获取视频中包含的图片序列后，可以对图片序列中的每个图片进行文字识别，以确定每个图片中包含的文本信息及文本信息在图片中的位置。之后，可以根据每个图片中包含的文本信息，确定字幕列表，并可以利用自然语言处理技术，对相邻两个字幕进行语义判别，以确定相邻两字幕之间的标点符号。或者，还可以根据相邻两字幕之间的编辑距离，对字幕列表进行去重处理，以确定视频对应的文本内容。在确定文本内容的同时，还可以根据每个图片中包含的文本信息和/或文本信息在图片中的位置，确定视频中包含的关键图片，并可以对关键图片进行人脸识别，从而可以基于人脸区域的清晰度，去除包含人脸区域的清晰度较低的关键图片。在确定关键图片和文本内容之后，可以根据各关
键图片及文本内容中各字幕文本信息所对应图片的顺序，将关键图片及文本内容中各字幕文本信息进行融合，以生成与视频对应的目标内容。由此，在实现基于视频生成图文内容的同时，提高了图文内容的可读性。
111.为了实现上述实施例，本公开实施例还提出一种基于视频的内容生成装置。图5为本公开实施例提供的一种基于视频的内容生成装置的结构示意图。
112.如图5所示，该基于视频的内容生成装置500包括：切帧模块510、识别模块520、确定模块530、生成模块540。
113.切帧模块510，用于将视频进行切帧处理，以获取所述视频中包含的图片序列；
114.识别模块520，用于对所述图片序列中的每个所述图片进行文字识别，以确定每个所述图片中包含的文本信息及所述文本信息在所述图片中的位置；
115.确定模块530，用于根据每个所述图片中包含的文本信息和/或所述文本信息在所述图片中的位置，确定所述视频中包含的关键图片；
116.生成模块540，用于根据所述图片序列中包含的图片的顺序，将各个所述图片中包含的文本信息进行融合，以生成文本内容；
117.所述生成模块540，还用于根据所述关键图片中包含的文本信息在所述文本内容中的位置，将所述关键图片插入所述文本内容中，以生成与所述视频对应的目标内容。
118.在本公开实施例一种可能的实现方式中，上述确定模块530，具体用于：
119.在多个相邻的图片中包含的文本信息相同的情况下，确定所述多个相邻的图片中的任一图片为关键图片；
120.或者，在任一图片中包含的文本信息在所述图片中的预设位置的情况下，确定所述任一图片为关键图片。
121.在本公开实施例一种可能的实现方式中，上述识别模块520，还用于：
122.对所述关键图片进行人脸识别，以确定所述关键图片中是否存在人脸区域及所述人脸区域的清晰度；
123.在所述关键图片中未包含人脸区域的情况下，保留所述关键图片；
124.在所述关键图片中包含人脸区域、且所述人脸区域的清晰度大于或等于阈值的情况下，保留所述关键图片；
125.在所述关键图片中包含人脸区域、且所述人脸区域的清晰度小于所述阈值的情况下，丢弃所述关键图片。
126.在本公开实施例一种可能的实现方式中，上述生成模块540，还用于：
127.将每个所述图片中包含的文本信息进行去重处理，以获取待融合的文本信息。
128.在本公开实施例一种可能的实现方式中，上述生成模块540，具体用于：
129.将每相邻的两个文本信息输入预设的网络模型，以根据所述网络模型的输出，确定所述两个文本信息间的标点符号的类型；
130.基于每相邻的两个文本信息间的标点符号的类型，将各个所述图片中包含的文本信息进行融合，以生成所述文本内容。
131.在本公开实施例一种可能的实现方式中，上述生成模块540，具体用于：
132.确定每相邻的两个文本信息间的语义关联度；
133.根据所述语义关联度及所述两个文本信息对应的两个图片间的时间间隔，确定每
相邻的两个文本信息间的标点符号的类型；
134.基于每相邻的两个文本信息间的标点符号的类型，将各个所述图片中包含的文本信息进行融合，以生成所述文本内容。
135.需要说明的是，前述基于视频的内容生成方法实施例的解释说明，也适用于该实施例的装置，故在此不再赘述。
136.本公开中，将视频进行切帧处理，以获取视频中包含的图片序列后，可以对图片序列中的每个图片进行文字识别，以确定每个图片中包含的文本信息及文本信息在图片中的位置，之后，可以根据每个图片中包含的文本信息和/或文本信息在图片中的位置，确定视频中包含的关键图片，然后，再根据图片序列中包含的图片的顺序，将各个图片中包含的文本信息进行融合，以生成文本内容，并根据关键图片中包含的文本信息在文本内容中的位置，将关键图片插入文本内容中，以生成与视频对应的目标内容。由此，通过将视频内容，转化为图文内容，不仅丰富了内容素材，提高了视频内容的可读性，而且为节省用户阅读素材的时间提供了条件。
137.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
138.图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
139.如图6所示，设备600包括计算单元601，其可以根据存储在rom(read-only memory，只读存储器)602中的计算机程序或者从存储单元608加载到ram(random access memory，随机访问/存取存储器)603中的计算机程序，来执行各种适当的动作和处理。在ram 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。i/o(input/output，输入/输出)接口605也连接至总线604。
140.设备600中的多个部件连接至i/o接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
141.计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于cpu(central processing unit，中央处理单元)、gpu(graphic processing units，图形处理单元)、各种专用的ai(artificial intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、dsp(digital signal processor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如基于视频的内容生成方法。例如，在一些实施例中，对基于视频的内容生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计
area network，局域网)、wan(wide area network，广域网)、互联网和区块链网络。
147.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务(virtual private server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
148.根据本公开的实施例，本公开还提供了一种计算机程序产品，当计算机程序产品中的指令处理器执行时，执行本公开上述实施例提出的基于视频的内容生成方法。
149.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
150.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：网络系统、信息处理装置以及信息处理方法与流程

基于视频的内容生成方法、装置及电子设备与流程

相关文献

最热文献