一种基于用户输入文本的配音视频生成方法及系统与流程

2022-03-26 14:34:43 来源：中国专利 TAG：

1.本发明涉及电子技术领域，特别涉及一种基于用户输入文本的配音视频生成方法及系统。

背景技术：

2.随着多媒体技术和互联网技术的迅速发展，视频这一种媒体类型逐渐成为人们生活、教育以及娱乐等各个方面都不可或缺的信息载体，同时也涌现了一大批热衷于自制视频的视频制作爱好者，而传统的视频制作方法过于复杂，配音需要专业配音员或者专业的设备，无法满足大众制作视频的配音需求。因此，如何降低视频制作的门槛以及成本，为广大视频制作爱好者提供一种便利且低成本的视频制作方法成为目前需要解决的问题。

技术实现要素：

3.为了解决相关技术中存在的视频制作门槛和成本高的技术问题，本发明提供了一种基于用户输入文本的配音视频生成方法及系统。
4.本发明实施例第一方面公开了一种基于用户输入文本的配音视频生成方法，所述方法包括：获取用户输入的文本；对所述文本进行预处理，并按照预设的字幕格式要求将预处理后的文本转换为字幕；确定目标配音场景；在所述目标配音场景下，基于所述字幕生成语音；对所述字幕和所述语音进行同步化处理，得到语音与字幕实时匹配的目标配音视频。
5.作为一种可选的实施方式，在本发明实施例第一方面中，所述按照预设的字幕格式要求将预处理后的文本转换为字幕，包括：对预处理后的文本进行内容摘要分析、句子语义分析、标签提取、标签的关联关系判断以及基于标点符号的拆分处理最后得到字幕。
6.作为一种可选的实施方式，在本发明实施例第一方面中，所述确定目标配音场景，包括：根据用户场景选择信息和/或系统场景选择信息，获取场景选择结果；根据所述场景选择结果，确定目标配音场景。
7.作为一种可选的实施方式，在本发明实施例第一方面中，所述对所述字幕和所述语音进行同步化处理，得到语音与字幕实时匹配的目标配音视频，包括：利用语音的时间使用算法对字幕的显示时间进行处理，以使处理后的字幕与所述语音实时匹配；将所述处理后的字幕和所述语音合成目标配音视频。
8.本发明实施例第二方面公开了一种基于用户输入文本的配音视频生成系统，包括：获取单元，用于获取用户输入的文本；预处理单元，用于对所述文本进行预处理；转换单元，用于按照预设的字幕格式要求将预处理后的文本转换为字幕；确定单元，用于确定目标配音场景；生成单元，用于在所述目标配音场景下，基于所述字幕生成语音；同步化处理单元，用于对所述字幕和所述语音进行同步化处理，得到语音与字幕实时匹配的目标配音视频。
9.作为一种可选的实施方式，在本发明实施例第二方面中，所述转换单元按照预设的字幕格式要求将预处理后的文本转换为字幕的方式具体为：对预处理后的文本进行内容摘要分析、句子语义分析、标签提取、标签的关联关系判断以及基于标点符号的拆分处理最后得到字幕。
10.作为一种可选的实施方式，在本发明实施例第二方面中，所述确定单元，包括：获取子单元，用于根据用户场景选择信息和/或系统场景选择信息，获取场景选择结果；确定子单元，用于根据所述场景选择结果，确定目标配音场景。
11.作为一种可选的实施方式，在本发明实施例第二方面中，所述同步化处理单元，包括：时间处理子单元，用于利用语音的时间使用算法对字幕的显示时间进行处理，以使处理后的字幕与所述语音实时匹配；合成子单元，用于将所述处理后的字幕和所述语音合成目标配音视频。
12.本发明实施例第三方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于用户输入文本的配音视频生成方法。
13.本发明实施例第四方面公开一种电子设备，所述电子设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如前所述的方法。
14.本发明的实施例提供的技术方案可以包括以下有益效果：本发明所提供的方法包括如下步骤，获取用户输入的文本，对该文本进行预处理，并按照预设的字幕格式要求将预处理后的文本转换为字幕；确定目标配音场景，在该目标配音场景下，基于字幕生成语音；对字幕和语音进行同步化处理，得到字幕与语音实时匹配的目标配音视频。
15.此方法下，能够获取用户输入的文本，将输入文本转换为视频字幕，进而在目标配音场景下利用字幕生成语音，同步化处理字幕和语音，最终得到字幕和语音实时匹配的配音视频。相比现有技术视频制作需要专业配音员或者专业的设备，本发明能够有效降低视频制作的门槛以及成本，为广大视频制作爱好者提供一种便利且低成本的视频制作方法。
16.应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本
发明。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。
18.图1是根据一示例性实施例示出的一种基于用户输入文本的配音视频生成方法的流程图；图2是根据一示例性实施例示出的一种基于用户输入文本的配音视频生成系统的框图；图3是根据一示例性实施例示出的另一种基于用户输入文本的配音视频生成系统的框图。
具体实施方式
19.这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
20.图1是根据一示例性实施例示出的一种基于用户输入文本的配音视频生成方法的流程图。如图1所示，此方法包括以下步骤。
21.步骤101、系统获取用户输入的文本。
22.本发明实施例中，系统可以通过与系统预先连接的输入设备、社交软件、文本编辑软件等获取用户输入的文本。
23.步骤102、系统对文本进行预处理，并按照预设的字幕格式要求将预处理后的文本转换为字幕。
24.作为一种可选的实施方式，上述的按照预设的字幕格式要求将预处理后的文本转换为字幕，可以包括：对预处理后的文本进行内容摘要分析、句子语义分析、标签提取、标签的关联关系判断以及基于标点符号的拆分处理最后得到字幕。
25.本发明实施例中，用户输入的文本内容进行杂质清理，以完成对文本的预处理；然后分析预处理后的文本内容摘要、句子语义，并提取标签和判断标签的关联关系、再结合标点符号情况进行对文本内容按照字幕的格式要求（如每行字数、每页显示行数）进行分页分行拆分，转为视频的字幕。
26.步骤103、系统确定目标配音场景。
27.作为一种可选的实施方式，上述的确定目标配音场景，可以包括：根据用户场景选择信息和/或系统场景选择信息，获取场景选择结果；根据场景选择结果，确定目标配音场景。
28.本发明实施例中，按照场景分为多种机器人配音（如新闻播放、财经主播、小说），用户可以按照自己需要的场景选择合作的配音或者由系统分析其文本内容选择最合适的场景配音。
29.步骤104、系统在目标配音场景下，基于字幕生成语音。
30.本发明实施例中，系统可以根据最终确定的场景选择结果，通过机器人配音程序按照上下文分拆好的字幕进行语义分析，标点符号等条件进行模仿真人的发音，最终形成语音文件。
31.步骤105、系统对字幕和语音进行同步化处理，得到字幕与语音实时匹配的目标配音视频。
32.作为一种可选的实施方式，上述的对字幕和语音进行同步化处理，得到语音与字幕实时匹配的目标配音视频，可以包括：利用语音的时间使用算法对字幕的显示时间进行处理，以使处理后的字幕与语音实时匹配；将处理后的字幕和语音合成目标配音视频。
33.本发明实施例中，当语音生成后，需要按照语音的时间使用算法计算字幕的显示时间，该时间使用算法考虑中文词组、数字、英文等内容的配音播放速度是不同的，细分了各种文字组合情况。在该时间使用算法处理后得到的配音视频，可以实现语音和字幕同步播放。
34.可见，实施图1所描述的基于用户输入文本的配音视频生成方法，能够获取用户输入的文本，将输入文本转换为视频字幕，进而在目标配音场景下利用字幕生成语音，同步化处理字幕和语音，最终得到字幕和语音实时匹配的配音视频。相比现有技术视频制作需要专业配音员或者专业的设备，本发明能够有效降低视频制作的门槛以及成本，为广大视频制作爱好者提供一种便利且低成本的视频制作方法。
35.图2是根据一示例性实施例示出的一种基于用户输入文本的配音视频生成系统的框图。如图2所示，该系统包括：获取单元201，用于获取用户输入的文本，并将其提供给预处理单元202。
36.预处理单元202，用于对文本进行预处理，并将预处理后的文本提供给转换单元203。
37.转换单元203，用于按照预设的字幕格式要求将预处理后的文本转换为字幕，将该字幕提供给生成单元205并触发确定单元204启动。
38.作为一种可选的实施方式，上述转换单元203按照预设的字幕格式要求将预处理后的文本转换为字幕的方式具体可以为：对预处理后的文本进行内容摘要分析、句子语义分析、标签提取、标签的关联关系判断以及基于标点符号的拆分处理最后得到字幕。
39.确定单元204，用于确定目标配音场景，并触发生成单元205启动。
40.生成单元205，用于在目标配音场景下，基于字幕生成语音，并提供给同步化处理单元206。
41.同步化处理单元206，用于对字幕和语音进行同步化处理，得到字幕与语音实时匹配的目标配音视频。
42.可见，实施图2所描述的系统，能够获取用户输入的文本，将输入文本转换为视频字幕，进而在目标配音场景下利用字幕生成语音，同步化处理字幕和语音，最终得到字幕和语音实时匹配的配音视频。相比现有技术视频制作需要专业配音员或者专业的设备，本发
明能够有效降低视频制作的门槛以及成本，为广大视频制作爱好者提供一种便利且低成本的视频制作方法。
43.图3是根据一示例性实施例示出的另一种基于用户输入文本的配音视频生成系统的框图。其中，图3所示的系统是由图2所示的系统进一步进行优化得到的。与图2所示的基于用户输入文本的配音视频生成系统相比较，在图3所示的基于用户输入文本的配音视频生成系统中，上述确定单元204，可以包括：获取子单元2041，用于根据用户场景选择信息和/或系统场景选择信息，获取场景选择结果。
44.确定子单元2042，用于根据场景选择结果，确定目标配音场景。
45.作为一种可选的实施方式，上述同步化处理单元206，可以包括：时间处理子单元2061，用于利用语音的时间使用算法对字幕的显示时间进行处理，以使处理后的字幕与语音实时匹配。
46.合成子单元2062，用于将处理后的字幕和语音合成目标配音视频。
47.可见，实施图3所描述的系统，能够获取用户输入的文本，将输入文本转换为视频字幕，进而在目标配音场景下利用字幕生成语音，同步化处理字幕和语音，最终得到字幕和语音实时匹配的配音视频。相比现有技术视频制作需要专业配音员或者专业的设备，本发明能够有效降低视频制作的门槛以及成本，为广大视频制作爱好者提供一种便利且低成本的视频制作方法。
48.本发明还提供一种电子设备，该电子设备包括：处理器；存储器，该存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时，实现如前所示的基于用户输入文本的配音视频生成方法。
49.在一示例性实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如前所示的基于用户输入文本的配音视频生成方法。
50.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：防范非法攻击行为的方法、装置和计算可读存储介质与流程

一种基于用户输入文本的配音视频生成方法及系统与流程

相关文献

最热文献