视频文本生成方法、装置、设备及存储介质与流程

2021-11-09 21:27:00 来源：中国专利 TAG：

1.本发明涉及自然语言处理领域，尤其涉及一种视频文本生成方法、装置、设备及存储介质。

背景技术：

2.随着移动互联网的高速发展，在线教育变得越来越普及。在线教育的教学通常以视频为主，视频的内容通常为教师在白板授课的内容，对课件进行音频讲解的内容等，其中视频的有效信息通常以音频、图像的形式存在，而以文本形式存在的内容很少，由于在线教育视频的时长较长，难以有效提取针对在线教育视频的文本数据。
3.现有方案是通过光学字符识别去识别文本文字，在课程视频播放的过程中，获取视频课程中关键帧的字幕截图，通过光学字符识别截图中的文字，然后生成视频课程文本，但是通过光学字符识别截图中的文字会存在大量重复的文字以及一些不清晰的字幕无法准确识别，即现有方案的准确率低。

技术实现要素：

4.本发明提供了一种视频文本生成方法、装置、设备及存储介质，用于提高视频文本生成的准确率。
5.本发明第一方面提供了一种视频文本生成方法，所述视频文本生成方法包括：获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧；计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧；调用预置的文字识别模型分别对每个所述标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据；提取所述目标视频的音频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据；对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据。
6.可选的，在本发明第一方面的第一种实现方式中，所述获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧，包括：从预置的视频数据库中查找待处理的目标视频；按照预设目标值对所述目标视频进行分帧，得到多个原始视频帧；基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个初始视频帧。
7.可选的，在本发明第一方面的第二种实现方式中，所述计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧，包括：调用预置的包含关系函数对多个初始视频帧进行计算，得到多个初始视频帧之间的包含关系；获取每一初始视频帧的条目，得到每一视频帧对应的目标条目；基于每一视频帧对应的目标条目和所述包含关系，对所述多个视频帧进行去重，得到多个标准视频帧。
8.可选的，在本发明第一方面的第三种实现方式中，所述调用预置的文字识别模型
分别对每个所述标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息，包括：通过预置的文字识别模型分别对所述多个标准视频帧进行文本框标注，得到每一标准视频帧对应的文本框；通过预置的文字识别模型对每一标准视频帧对应的文本框进行文本提取，得到每一标准视频帧对应的文字信息。
9.可选的，在本发明第一方面的第四种实现方式中，所述对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据，包括：通过预置的语言模型对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据；对所述初始文本数据进行去除重复内容，得到无重复文本数据；对所述无重复文本数据进行分类，得到标准文本数据。
10.可选的，在本发明第一方面的第五种实现方式中，所述提取所述目标视频的音频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据，包括：通过预置的自动语音识别模型对所述目标视频进行音频提取，得到目标音频数据；将所述目标音频数据进行文本转换，得到多个短句文本；对所述多个短句文本进行拼接，得到语音文本数据。
11.可选的，在本发明第一方面的第六种实现方式中，所述对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据，包括：获取所述语音文本数据对应的时间戳，并根据所述时间戳中的时间信息对所述标准文本数据和所述语音文本数据进行拼接，得到拼接文本数据；基于预置的段落信息，对所述拼接文本数据进行去重，得到目标文本数据。
12.本发明第二方面提供了一种视频文本生成装置，所述视频文本生成装置包括：获取模块，用于获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧；去重模块，用于计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧；提取模块，用于调用预置的文字识别模型分别对每个所述标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；处理模块，用于对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据；转换模块，用于提取所述目标视频的音频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据；融合模块，用于对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据。
13.可选的，在本发明第二方面的第一种实现方式中，所述获取模块具体用于：从预置的视频数据库中查找待处理的目标视频；按照预设目标值对所述目标视频进行分帧，得到多个原始视频帧；基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个初始视频帧。
14.可选的，在本发明第二方面的第二种实现方式中，所述去重模块具体用于：调用预置的包含关系函数对多个初始视频帧进行计算，得到多个初始视频帧之间的包含关系；获取每一初始视频帧的条目，得到每一视频帧对应的目标条目；基于每一视频帧对应的目标条目和所述包含关系，对所述多个视频帧进行去重，得到多个标准视频帧。
15.可选的，在本发明第二方面的第三种实现方式中，所述提取模块还包括：标注单元，用于通过预置的文字识别模型分别对所述多个标准视频帧进行文本框标注，得到每一标准视频帧对应的文本框；文本提取单元，用于通过预置的文字识别模型对每一标准视频
帧对应的文本框进行文本提取，得到每一标准视频帧对应的文字信息。
16.可选的，在本发明第二方面的第四种实现方式中，所述处理模块具体用于：通过预置的语言模型对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据；对所述初始文本数据进行去除重复内容，得到无重复文本数据；对所述无重复文本数据进行分类，得到标准文本数据。
17.可选的，在本发明第二方面的第五种实现方式中，所述转换模块具体用于：通过预置的自动语音识别模型对所述目标视频进行音频提取，得到目标音频数据；将所述目标音频数据进行文本转换，得到多个短句文本；对所述多个短句文本进行拼接，得到语音文本数据。
18.可选的，在本发明第二方面的第六种实现方式中，所述融合模块具体用于：获取所述语音文本数据对应的时间戳，并根据所述时间戳中的时间信息对所述标准文本数据和所述语音文本数据进行拼接，得到拼接文本数据；基于预置的段落信息，对所述拼接文本数据进行去重，得到目标文本数据。
19.本发明第三方面提供了一种视频文本生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频文本生成设备执行上述的视频文本生成方法。
20.本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的视频文本生成方法。
21.本发明提供的技术方案中，通过预置的文字识别模型分别对多个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对初始文本数据进行标准化处理，得到标准文本数据，标准化处理可以有效去除初始文本中的重复文字并保留语义特征；提取目标视频的音频数据，得到目标音频数据，并对目标音频数据进行文本转换，得到语音文本数据；对语音文本数据和标准文本数据进行文本融合，得到目标文本数据，文本融合可以有效提升目标视频文字信息的完整度，进而提高视频文本生成的准确率。
附图说明
22.图1为本发明实施例中视频文本生成方法的一个实施例示意图；
23.图2为本发明实施例中视频文本生成方法的另一个实施例示意图；
24.图3为本发明实施例中视频文本生成装置的一个实施例示意图；
25.图4为本发明实施例中视频文本生成装置的另一个实施例示意图；
26.图5为本发明实施例中视频文本生成设备的一个实施例示意图。
具体实施方式
27.本发明实施例提供了一种视频文本生成方法、装置、设备及存储介质，用于提高视频文本生成的准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意
图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
28.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中视频文本生成方法的第一个实施例包括：
29.101、获取待处理的目标视频，并对目标视频进行预处理，得到多个初始视频帧；
30.可以理解的是，本发明的执行主体可以为视频文本生成装置，还可以是服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
31.具体的，服务器从预置的视频数据库中查找待处理的目标视频，预置的数据库中包括多个课程视频。服务器进行预处理的具体过程包括：服务器对目标视频进行分帧处理，得到目标视频对应的多个初始视频帧。
32.需要说明的是，目标视频是由多个连续的静止画面组成的，这些连续的静止画面被称为视频帧。
33.102、计算多个初始视频帧之间的包含关系，并根据包含关系对多个初始视频帧进行去重，得到多个标准视频帧；
34.具体的，服务器计算多个初始视频帧之间的包含关系，得到多个初始视频帧之间的包含关系，服务器根据多个初始视频帧之间的包含关系，对多个初始视频帧进行去重，得到多个标准视频帧。
35.需要说明的是，包含关系是指多个不重复初始视频帧之间是否被完整包含，若是被完整包含，则服务器进行替换，得到多个标准视频帧，若不被完整包含，则不对初始视频帧进行处理。
36.103、调用预置的文字识别模型分别对每个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；
37.具体的，服务器通过预置的文字识别模型分别对每个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息。
38.需要说明的是，预置的文字识别模型可以为光学字符识别模型(optical character recognition,ocr)，光学字符识别模型是对文本内容进行识别，对标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息，此外，文字信息还需要进行再次核验并将核验通过的文字信息作为每一标准视频帧对应的文字信息。
39.104、对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对初始文本数据进行标准化处理，得到标准文本数据；
40.具体的，服务器进行拼接时是服务器依次将相邻标准视频帧对应的文字信息拼接为一个整体文本，得到初始文本数据。例如：当相邻两个标准视频帧对应的文本信息分别为
“
乘车去a市”和“参加比赛”，服务器对相邻两个标准视频帧对应的文本信息进行拼接，得到初始文本数据为“乘车去a市参加比赛”。服务器进行标准化处理主要是对初始文本数据中的重复内容进行去除。
41.105、提取目标视频的音频数据，得到目标音频数据，并对目标音频数据进行文本转换，得到语音文本数据；
42.具体的，服务器通过预置的自动语音识别模型对目标视频进行音频提取，得到目标音频数据，服务器通过自动语音识别模型将目标音频数据转换为文本，得到目标音频数据对应的语音文本数据。
43.需要说明的是，自动语音识别模型(automatic speech recognition，asr)是一种将说话人的语音转换为文本的模型，通过对目标视频中的音频数据进行文本处理，实现“音频数据”到“文本数据”的转换。
44.106、对语音文本数据和标准文本数据进行文本融合，得到目标文本数据。
45.需要说明的是，语音文本数据中存在标准文本数据以外的语气词，语气词例如：嗯、啊等，这些语气词会造成语音文本数据不符合正常语法规范，无法直接成为目标文本数据，因此服务器对语音文本数据进行切词、删除语气词和/或停用词等干扰词。
46.具体的，服务器对标准文本数据和语音文本数据进行拼接，服务器对拼接后的标准文本数据和语音文本数据进行去重，得到目标文本数据。
47.进一步地，服务器将目标文本数据存储于区块链数据库中，具体此处不做限定。
48.本发明实施例中，通过预置的文字识别模型分别对多个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息，预置的文字识别模型可以有效提高视频帧中的文字识别准确率，通过文字识别模型的文本处理可以有效提升目标视频对应文字信息的完整度，进而提高视频文本生成的准确率。
49.请参阅图2，本发明实施例中视频文本生成方法的第二个实施例包括：
50.201、获取待处理的目标视频，并对目标视频进行预处理，得到多个初始视频帧；
51.具体的，服务器从预置的视频数据库中查找待处理的目标视频；服务器按照预设目标值对目标视频进行分帧，得到多个原始视频帧；服务器基于预置变化率函数对多个原始视频帧进行变化率计算，得到目标变化率；服务器根据目标变化率对多个原始视频帧进行动态调整，得到多个初始视频帧。
52.需要说明的是，服务器计算目标变化率，目标变换率用u表示，首先服务器分别计算当前原始视频帧的处理条目m和上一原始视频帧的条目n，服务器计算余弦相似度、词向量值及杰卡德相似度，服务器对余弦相似度，词向量值，杰卡德相似度进行平均计算，得到计算结果，服务器将计算结果作为目标变换率u。服务器进行动态调整具体过程包括：当连续两个目标变化率u均大于0.9时，则服务器设置预设目标值为v为2v；当出现连续两个u<0.9，则服务器设置预设目标值v为v/2，若出现其他情况，服务器保持预设目标值v不变。
53.202、计算多个初始视频帧之间的包含关系，并根据包含关系对多个初始视频帧进行去重，得到多个标准视频帧；
54.具体的，服务器调用预置的包含关系函数对多个初始视频帧进行计算，得到多个初始视频帧之间的包含关系；服务器获取每一初始视频帧的条目，得到每一视频帧对应的目标条目；服务器基于每一视频帧对应的目标条目和包含关系，对多个视频帧进行去重，得
到多个标准视频帧。
55.其中，预置的包含关系函数为：s＝1
‑
|am
–
an|/max(|am|，|an|)，其中，s为包含关系，am是当前原始视频帧对应的条目，an是下一原始视频帧对应的条目，m表示第m帧，n表示第n帧。服务器计算am
–
an，当am
–
an>0.85时，则确定n被m完整包含，服务器将最后一帧替换为m；当am
–
an<0.85，则认为m被n完整包含，则不做任何处理；若出现其他情况，则服务器插入第m帧作为新帧，得到多个标准视频帧。
56.203、通过预置的文字识别模型分别对多个标准视频帧进行文本框标注，得到每一标准视频帧对应的文本框；
57.需要说明的是，预置的文字识别模型可以为光学字符识别模型(optical character recognition,ocr)，光学字符识别是在文本检测的基础上，对文本内容进行识别，光学字符识别模型首先定位多个标准视频帧中的文字区域，然后通过文本框标注出文字区域。
58.204、通过预置的文字识别模型对每一标准视频帧对应的文本框进行文本提取，得到每一标准视频帧对应的文字信息；
59.其中，服务器进行文本提取具体过程为：服务器首先将问框中的文本进行字符分割，得到多个字符，服务器对多个字符进行字符识别，识别得到初始文字信息，初始文字信息需要根据上下文信息进行后处理和校对，得到每一标准视频帧对应的文字信息。
60.205、对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对初始文本数据进行标准化处理，得到标准文本数据；
61.具体的，服务器通过预置的语言模型对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据；服务器对初始文本数据进行去除重复内容，得到无重复文本数据；服务器对无重复文本数据进行分类，得到标准文本数据。
62.其中，服务器进行去除重复内容具体过程包括：服务器首先计算重复数据，通过计算每一标准视频帧对应的文本框出现的页数，服务器对于在85％的标准视频帧中出现的文本信息，则默认是页眉页脚，服务器对页面页脚直接进行删除。然后服务器还对连续重复数据进行去重：对于每个内容，寻找其最大连续上升序列，获取每个内容连续出现的片段，服务器计算连续片段的最大覆盖，服务器求一个时间点，覆盖了尽可能多的连续片段，在覆盖的端点出计算连续出现的内容，服务器删除除了该覆盖点，在当前连续片段中其他地方出现的内容。最后服务器对字幕进行计算具体包括：分别计算文本框的位置、距离页面尾端距离及和其他文本的距离，服务器进行去除重复内容，得到标准文本数据。
63.206、提取目标视频的音频数据，得到目标音频数据，并对目标音频数据进行文本转换，得到语音文本数据；
64.具体的，服务器通过预置的自动语音识别模型对目标视频进行音频提取，得到目标音频数据；服务器将目标音频数据进行文本转换，得到多个短句文本；服务器对多个短句文本进行拼接，得到语音文本数据。
65.其中，服务器通过多个样本音频对预置的初始自动语音识别模型进行训练，得到训练好的自动语音识别模型。服务器通过自动语音识别模型对目标音频进行处理，得到目标音频对应的音素信息，服务器将音素信息与预置的字和/或词进行对应匹配，得到目标音频数据。服务器提取目标音频数据中的多个短句文本然后拼接得到语音文本数据。
66.207、对语音文本数据和标准文本数据进行文本融合，得到目标文本数据。
67.具体的，服务器获取语音文本数据对应的时间戳，服务器根据时间戳中的时间信息对标准文本数据和语音文本数据进行拼接，得到拼接文本数据；服务器基于预置的段落信息，对拼接文本数据进行去重，得到目标文本数据。
68.其中，服务器计算在目标视频中获取到的文本并在搜索时返回语音文本数据的时间戳。服务器提取时间戳对应的时间信息对标准文本数据和语音文本数据进行拼接，得到拼接文本数据，服务器在拼接完成之后删除掉重复的语句并保留段落信息。
69.需要说明的是，目标文本数据用于网络搜索视频课程，即用户输入关键字，服务器对关键字进行检索，检索到目标文本数据，将目标文本数据对应的视频作为目标视频。
70.进一步地，服务器将目标文本数据存储于区块链数据库中，具体此处不做限定。
71.本发明实施例中，通过预置的文字识别模型分别对多个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息，预置的文字识别模型可以有效提高视频帧中的文字识别准确率，通过文字识别模型的文本处理可以有效提升目标视频对应文字信息的完整度，进而提高视频文本生成的准确率。
72.上面对本发明实施例中视频文本生成方法进行了描述，下面对本发明实施例中视频文本生成装置进行描述，请参阅图3，本发明实施例中视频文本生成装置第一个实施例包括：
73.获取模块301，用于获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧；
74.去重模块302，用于计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧；
75.提取模块303，用于调用预置的文字识别模型分别对每个所述标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；
76.处理模块304，用于对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据；
77.转换模块305，用于提取所述目标视频的音频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据；
78.融合模块306，用于对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据。
79.本发明实施例中，通过预置的文字识别模型分别对多个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息，预置的文字识别模型可以有效提高视频帧中的文字识别准确率，通过文字识别模型的文本处理可以有效提升目标视频对应文字信息的完整度，进而提高视频文本生成的准确率。
80.请参阅图4，本发明实施例中视频文本生成装置第二个实施例包括：
81.获取模块301，用于获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧；
82.去重模块302，用于计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧；
83.提取模块303，用于调用预置的文字识别模型分别对每个所述标准视频帧进行信
息提取，得到每一标准视频帧对应的文字信息；
84.处理模块304，用于对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据；
85.转换模块305，用于提取所述目标视频的音频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据；
86.融合模块306，用于对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据。
87.可选的，获取模块301具体用于：
88.从预置的视频数据库中查找待处理的目标视频；按照预设目标值对所述目标视频进行分帧，得到多个原始视频帧；基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个初始视频帧。
89.可选的，去重模块302具体用于：
90.调用预置的包含关系函数对多个初始视频帧进行计算，得到多个初始视频帧之间的包含关系；获取每一初始视频帧的条目，得到每一视频帧对应的目标条目；基于每一视频帧对应的目标条目和所述包含关系，对所述多个视频帧进行去重，得到多个标准视频帧。
91.可选的，提取模块303包括：
92.标注单元3031，用于通过预置的文字识别模型分别对所述多个标准视频帧进行文本框标注，得到每一标准视频帧对应的文本框；
93.文本提取单元3032，用于通过预置的文字识别模型对每一标准视频帧对应的文本框进行文本提取，得到每一标准视频帧对应的文字信息。
94.可选的，处理模块304具体用于：
95.通过预置的语言模型对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据；对所述初始文本数据进行去除重复内容，得到无重复文本数据；对所述无重复文本数据进行分类，得到标准文本数据。
96.可选的，转换模块305具体用于：
97.通过预置的自动语音识别模型对所述目标视频进行音频提取，得到目标音频数据；将所述目标音频数据进行文本转换，得到多个短句文本；对所述多个短句文本进行拼接，得到语音文本数据。
98.可选的，所述融合模块306具体用于：
99.获取所述语音文本数据对应的时间戳，并根据所述时间戳中的时间信息对所述标准文本数据和所述语音文本数据进行拼接，得到拼接文本数据；基于预置的段落信息，对所述拼接文本数据进行去重，得到目标文本数据。
100.本发明实施例中，通过预置的文字识别模型分别对多个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息，预置的文字识别模型可以有效提高视频帧中的文字识别准确率，通过文字识别模型的文本处理可以有效提升目标视频对应文字信息的完整度，进而提高视频文本生成的准确率。
101.上面图3和图4从模块化功能实体的角度对本发明实施例中的视频文本生成装置进行详细描述，下面从硬件处理的角度对本发明实施例中视频文本生成设备进行详细描
述。
102.图5是本发明实施例提供的一种视频文本生成设备的结构示意图，该视频文本生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对视频文本生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在视频文本生成设备500上执行存储介质530中的一系列指令操作。
103.视频文本生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，图5示出的视频文本生成设备结构并不构成对视频文本生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
104.本发明还提供一种视频文本生成设备，所述视频文本生成设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述视频文本生成方法的步骤。
105.本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述视频文本生成方法的步骤。
106.进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
107.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
108.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
109.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
110.以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于数字化设计的变电站逻辑模型移交方法与流程

视频文本生成方法、装置、设备及存储介质与流程

相关文献

最热文献