朗读视频生成方法、装置、电子设备、介质及程序产品与流程

2022-09-03 06:43:08 来源：中国专利 TAG：

1.本公开涉及计算机应用技术领域，特别是涉及一种朗读视频生成方法、装置、电子设备、介质及程序产品。

背景技术：

2.随着计算机技术和终端技术的快速发展，终端的应用越来越普遍，给人们的工作和生活带来了很多便利。
3.当前，很多用户存在较强的朗读欲。朗读作为一种把文字转化为有声语言的创作活动，其具有较多优点，比如，能够帮助朗读者快速理解文字内涵，从而获得思想熏陶，还有，声情并茂的诵读有助于情感的传递，从而抒发各种情愫，如思念、孤独、痛苦、幸福等情愫。
4.用户有朗读需求时，多是需要自己通过网络搜索或者编写等方式获取到朗读文本等素材对象，然后再借助于录像设备等进行录制，并将素材对象与录制视频进行组合才能得到朗读视频，操作很不方便，朗读视频的生成效率较低。

技术实现要素：

5.本公开的目的是提供一种朗读视频生成方法、装置、电子设备、介质及程序产品，以提高朗读视频生成的便利性和生成效率，提升朗读者的朗读体验。
6.为解决上述技术问题，本公开提供如下技术方案：
7.根据本公开实施例的第一方面，提供一种朗读视频生成方法，包括：
8.获取朗读触发账号对应的当前情感倾向；
9.根据所述当前情感倾向，确定目标素材对象；
10.在接收到视频录制指令的情况下，基于所述目标素材对象录制生成朗读视频。
11.在本公开的一种具体实施方式中，所述目标素材对象包括目标朗读文本、目标配乐中至少一种；所述根据所述当前情感倾向，确定目标素材对象，包括：
12.将素材库中素材情感标签与所述当前情感倾向匹配的至少一个素材，确定为素材候选集；
13.展示所述素材候选集；
14.响应于对所述素材候选集中任一素材的选择指令，确定目标素材对象。
15.在本公开的一种具体实施方式中，在所述将素材库中素材情感标签与所述当前情感倾向匹配的至少一个素材，确定为素材候选集之前，所述方法还包括：
16.将所述素材库中的每个素材，输入到预先训练获得的情感分析模型中进行情感分析处理；
17.根据所述情感分析模型的输出结果，确定所述素材库中的每个素材的素材情感标签；
18.其中，所述情感分析模型为基于预先获得的素材样本训练得到，所述素材样本预
先标记有情感倾向标签。
19.在本公开的一种具体实施方式中，在所述目标素材对象包括目标朗读文本的情况下，所述将素材库中素材情感标签与所述当前情感倾向匹配的至少一个素材，确定为素材候选集，包括：
20.响应于所述朗读触发账号的输入操作，获取朗读文本关键字；
21.将素材库中素材情感标签匹配所述当前情感倾向、且包含所述朗读文本关键字的至少一个朗读文本，确定为素材候选集。
22.在本公开的一种具体实施方式中，所述目标素材对象包括目标朗读文本和目标配乐，所述在接收到视频录制指令的情况下，基于所述目标素材对象录制生成朗读视频，包括：
23.在接收到视频录制指令的情况下，调用图像采集设备和音频采集设备，基于所述目标朗读文本录制朗读视频；
24.在录制所述朗读视频的过程中，或者在录制所述朗读视频完成之后，在所述朗读视频中添加所述目标配乐。
25.在本公开的一种具体实施方式中，所述方法还包括：
26.确定目标朗读背景；
27.在基于所述目标素材对象录制朗读视频的过程中，在所述朗读视频中添加所述目标朗读背景；或者，在基于所述目标素材对象录制朗读视频完成之后，将所述朗读视频中的朗读背景替换为所述目标朗读背景。
28.在本公开的一种具体实施方式中，所述确定目标朗读背景，包括：
29.将所述朗读触发账号上传的图片确定为目标朗读背景；或者，
30.展示预先获得的图片库；
31.根据接收到的基于所述图片库中至少一张图片的选择指令，确定目标朗读背景。
32.在本公开的一种具体实施方式中，在所述基于所述目标素材对象录制生成朗读视频之后，所述方法还包括：
33.在接收到发布指令的情况下，确定所述朗读视频的视频描述信息；
34.发布包括所述视频描述信息的所述朗读视频。
35.在本公开的一种具体实施方式中，所述方法还包括：
36.在发布所述朗读视频的过程中，发起与所述目标素材对象匹配的目标话题。
37.在本公开的一种具体实施方式中，所述方法还包括：
38.在发布的所述朗读视频的设定位置添加朗读控件，所述朗读控件用于链接至触发朗读功能的界面。
39.根据本公开实施例的第二方面，提供一种朗读视频生成装置，包括：
40.当前情感倾向获取模块，被配置为执行获取朗读触发账号对应的当前情感倾向；
41.目标素材对象确定模块，被配置为执行根据所述当前情感倾向，确定目标素材对象；
42.朗读视频录制生成模块，被配置为执行在接收到视频录制指令的情况下，基于所述目标素材对象录制生成朗读视频。
43.在本公开的一种具体实施方式中，所述目标素材对象包括目标朗读文本、目标配
乐中至少一种；所述目标素材对象确定模块，被配置为执行：
44.将素材库中素材情感标签与所述当前情感倾向匹配的至少一个素材，确定为素材候选集；
45.展示所述素材候选集；
46.响应于对所述素材候选集中任一素材的选择指令，确定目标素材对象。
47.在本公开的一种具体实施方式中，所述装置还包括素材情感标签确定模块，被配置为执行：
48.在所述将素材库中素材情感标签与所述当前情感倾向匹配的至少一个素材，确定为素材候选集之前，将所述素材库中的每个素材，输入到预先训练获得的情感分析模型中进行情感分析处理；
49.根据所述情感分析模型的输出结果，确定所述素材库中的每个素材的素材情感标签；
50.其中，所述情感分析模型为基于预先获得的素材样本训练得到，所述素材样本预先标记有情感倾向标签。
51.在本公开的一种具体实施方式中，所述目标素材对象确定模块，被配置为执行：
52.在所述目标素材对象包括目标朗读文本的情况下，响应于所述朗读触发账号的输入操作，获取朗读文本关键字；
53.将素材库中素材情感标签匹配所述当前情感倾向、且包含所述朗读文本关键字的至少一个朗读文本，确定为素材候选集。
54.在本公开的一种具体实施方式中，所述目标素材对象包括目标朗读文本和目标配乐，所述朗读视频录制生成模块，被配置为执行：
55.在接收到视频录制指令的情况下，调用图像采集设备和音频采集设备，基于所述目标朗读文本录制朗读视频；
56.在录制所述朗读视频的过程中，或者在录制所述朗读视频完成之后，在所述朗读视频中添加所述目标配乐。
57.在本公开的一种具体实施方式中，所述装置还包括目标朗读背景确定模块，被配置为执行：
58.确定目标朗读背景；
59.所述朗读视频录制生成模块，被配置为执行：
60.在基于所述目标素材对象录制朗读视频的过程中，在所述朗读视频中添加所述目标朗读背景；或者，在基于所述目标素材对象录制朗读视频完成之后，将所述朗读视频中的朗读背景替换为所述目标朗读背景。
61.在本公开的一种具体实施方式中，所述目标朗读背景确定模块，被配置为执行：
62.将所述朗读触发账号上传的图片确定为目标朗读背景；或者，
63.展示预先获得的图片库；
64.根据接收到的基于所述图片库中至少一张图片的选择指令，确定目标朗读背景。
65.在本公开的一种具体实施方式中，所述装置还包括朗读视频发布模块，被配置为执行：
66.在所述基于所述目标素材对象录制生成朗读视频之后，在接收到发布指令的情况
下，确定所述朗读视频的视频描述信息；
67.发布包括所述视频描述信息的所述朗读视频。
68.在本公开的一种具体实施方式中，所述装置还包括目标话题发起模块，被配置为执行：
69.在发布所述朗读视频的过程中，发起与所述目标素材对象匹配的目标话题。
70.在本公开的一种具体实施方式中，所述装置还包括朗读控件添加模块，被配置为执行：
71.在发布的所述朗读视频的设定位置添加朗读控件，所述朗读控件用于链接至触发朗读功能的界面。
72.根据本公开实施例的第三方面，提供一种电子设备，包括：
73.处理器；
74.用于存储所述处理器可执行指令的存储器；
75.其中，所述处理器被配置为执行所述指令，以实现第一方面所述的朗读视频生成方法。
76.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面所述的朗读视频生成方法。
77.根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，且适于由处理器读取并执行，以使得具有所述处理器的电子设备执行如第一方面所述的朗读视频生成方法。
78.应用本公开实施例所提供的技术方案，获取到朗读触发账号对应的当前情感倾向后，根据当前情感倾向，确定目标素材对象，在接收到视频录制指令的情况下，基于目标素材对象录制生成朗读视频，生成的朗读视频所基于的目标素材对象是根据朗读触发账号对应的当前情感倾向确定的，与朗读者当前的情感较为匹配，使得朗读者能够更好的表达自己的情感，而且，在接收到视频录制指令的情况下，自动录制生成朗读视频，提高了朗读视频生成的便利性和生成效率，提升了朗读者的朗读体验。
79.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
80.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
81.图1为本公开实施例中一种朗读视频生成方法的实施流程图；
82.图2为本公开实施例中添加朗读背景的一种示意图；
83.图3为本公开实施例中朗读视频生成总体过程示意图；
84.图4为本公开实施例中一种朗读视频生成装置的结构示意图；
85.图5为本公开实施例中一种电子设备的结构示意图。
具体实施方式
86.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
87.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
88.本公开的核心是提供一种朗读视频生成方法，该方法可以应用于朗读平台。朗读平台的客户端可以安装在终端上，用于与朗读者交互，可以为朗读者提供朗读入口，使朗读者使用朗读触发账号通过朗读入口进入到朗读界面。朗读平台的服务器可以部署在云端，用于与客户端协作进行目标素材对象的确定、朗读视频的录制生成以及后续处理等。朗读平台获取到朗读触发账号对应的当前情感倾向后，可以根据当前情感倾向，确定目标素材对象。朗读者可以发出视频录制指令，朗读平台在接收到视频录制指令时，可以基于目标素材对象自动录制生成朗读视频。生成的朗读视频所基于的目标素材对象是根据朗读触发账号对应的当前情感倾向确定的，与朗读者当前的情感较为匹配，使得朗读者能够更好的表达自己的情感，而且，在接收到视频录制指令的情况下，自动录制生成朗读视频，提高了朗读视频生成的便利性和生成效率，提升了朗读者的朗读体验。
89.参见图1所示，为本公开实施例所提供的一种朗读视频生成方法的实施流程图，该方法可以包括以下步骤：
90.s110：获取朗读触发账号对应的当前情感倾向。
91.朗读者在进行朗读时，多是希望表达自己当前的情感。在朗读者有朗读需求时，朗读者可以通过朗读触发账号登录朗读平台，朗读平台可以先获取朗读触发账号对应的当前情感倾向。具体的，朗读平台可以通过朗读者对情感控件的操作获取朗读者的当前情感倾向。
92.举例而言，朗读平台可以通过客户端的人机交互界面显示情感信息输入框控件，朗读者通过情感信息输入框控件可以输入相应情感信息，朗读平台根据该情感信息确定朗读触发账号对应的当前情感倾向。比如，朗读者通过情感信息输入框控件输入的情感信息为：“高兴”，则朗读平台根据该情感信息可以确定朗读者使用的朗读触发账号对应的当前情感倾向为正向。
93.或者，朗读平台可以通过客户端的人机交互界面显示情感倾向选择框控件，朗读者通过情感倾向选择框控件可以选择相应的情感倾向，据此可以确定朗读触发账号对应的当前情感倾向。比如，朗读者通过情感倾向选择框控件选择“负向”，则可以确定朗读者使用的朗读触发账号对应的当前情感倾向为负向。
94.朗读触发账号对应的当前情感倾向可以分为正向、中向、负向三种，当然根据实际情况，还可以设定为更多种。
95.s120：根据当前情感倾向，确定目标素材对象。
96.获取到朗读触发账号对应的当前情感倾向后，进一步可以根据当前情感倾向，确
定目标素材对象，目标素材对象可以包括目标朗读文本、目标配乐等。确定的目标素材对象的素材情感标签与朗读触发账号对应的当前情感倾向相匹配。
97.可以预先建立一个素材库，素材库中包括多个素材，在素材库包括的多个素材中选择出与当前情感倾向相匹配的素材，确定为目标素材对象。
98.确定出的目标素材对象是根据朗读触发账号对应的当前情感倾向确定的，与朗读者当前的情感较为匹配，使得朗读者能够更好的表达自己的情感。
99.朗读平台的客户端可以将获取到的朗读触发账号对应的当前情感倾向发给服务器，服务器根据当前情感倾向，确定目标素材对象。服务器的处理能力更强，客户端与服务器交互，可以快速确定目标素材对象。
100.朗读平台的客户端还可以在本地根据朗读触发账号对应的当前情感倾向，确定目标素材对象，这样不需要与服务器交互，可以减少对网络的依赖。
101.s130：在接收到视频录制指令的情况下，基于目标素材对象录制生成朗读视频。
102.获取到朗读触发账号对应的当前情感倾向，并根据当前情感倾向，确定目标素材对象后，朗读者可以通过客户端提供的录制控件发出视频录制指令，并基于目标素材对象进行朗读。朗读平台的客户端在接收到视频录制指令的情况下，可以调用终端的图像采集设备和音频采集设备录制生成朗读视频。
103.应用本公开实施例所提供的方法，获取到朗读触发账号对应的当前情感倾向后，根据当前情感倾向，确定目标素材对象，在接收到视频录制指令的情况下，基于目标素材对象录制生成朗读视频，生成的朗读视频所基于的目标素材对象是根据朗读触发账号对应的当前情感倾向确定的，与朗读者当前的情感较为匹配，使得朗读者能够更好的表达自己的情感，而且，在接收到视频录制指令的情况下，自动录制生成朗读视频，提高了朗读视频生成的便利性和生成效率，提升了朗读者的朗读体验。
104.在本公开的一个实施例中，目标素材对象可以包括目标朗读文本、目标配乐中至少一种；根据当前情感倾向，确定目标素材对象，可以包括以下步骤：
105.步骤一：将素材库中素材情感标签与当前情感倾向匹配的至少一个素材，确定为素材候选集；
106.步骤二：展示素材候选集；
107.步骤三：响应于对素材候选集中任一素材的选择指令，确定目标素材对象。
108.为方便描述，将上述三个步骤结合起来进行说明。
109.目标素材对象可以包括目标朗读文本、目标配乐中至少一种，如可以包括目标朗读文本，或者包括目标配乐，或者包括目标朗读文本和目标配乐。
110.在本公开实施例中，可以预先建立一个素材库，素材库中包括多个素材，可以预先采集得到这些素材，并预先确定每个素材的素材情感标签。
111.在获取到朗读触发账号对应的当前情感倾向后，可以将素材库中每个素材的素材情感标签与当前情感倾向进行比较，将素材库中素材情感标签与当前情感倾向匹配的至少一个素材，确定为素材候选集。素材候选集中包括的一个或多个素材，每个素材的素材情感标签均与朗读触发账号对应的当前情感倾向相匹配。比如，如果朗读触发账号对应的当前情感倾向为正向，则素材候选集中每个素材的素材情感标签为正向标签。
112.确定出素材候选集后，可以展示素材候选集，即将素材候选集包括的素材展示给
朗读者。朗读者可以根据实际需求在素材候选集中选择一个素材。朗读平台响应于对素材候选集中任一素材的选择指令，可以确定目标素材对象。
113.素材库中包括的素材的素材情感标签有多种，先将素材库中素材情感标签与当前情感倾向匹配的至少一个素材确定为素材候选集，展示出来，再响应于对素材候选集中任一素材的选择指令，确定出目标素材对象，可以保证确定出的目标素材对象的素材情感标签与当前情感倾向相匹配，使得确定出的目标素材对象更容易符合朗读者的情感表达需要。
114.在目标素材对象包括目标朗读文本的情况下，素材库可以对应文本库，相应的，素材情感标签对应文本情感标签，素材候选集对应朗读文本候选集，在获取到朗读触发账号对应的当前情感倾向后，可以将文本库中文本情感标签与当前情感倾向匹配的至少一个朗读文本，确定为朗读文本候选集，展示朗读文本候选集，响应于朗读文本候选集中任一朗读文本的选择指令，确定目标朗读文本。
115.在目标素材对象包括目标配乐的情况下，素材库可以对应音乐库，相应的，素材情感标签对应音乐情感标签，素材候选集对应配乐候选集，在获取到朗读触发账号对应的当前情感倾向后，可以将音乐库中音乐情感标签与当前情感倾向匹配的至少一首音乐，确定为配乐候选集，展示配乐候选集，响应于配乐候选集中任一音乐的选择指令，确定目标配乐。
116.在本公开的一个实施例中，在将素材库中素材情感标签与当前情感倾向匹配的至少一个素材，确定为素材候选集之前，该方法还可以包括以下步骤：
117.第一个步骤：将素材库中的每个素材，输入到预先训练获得的情感分析模型中进行情感分析处理；
118.第二个步骤：根据情感分析模型的输出结果，确定素材库中的每个素材的素材情感标签；
119.其中，情感分析模型为基于预先获得的素材样本训练得到，素材样本预先标记有情感倾向标签。
120.为方便描述，将上述两个步骤结合起来进行说明。
121.在本公开实施例中，可以预先训练获得情感分析模型。具体的，可以先构建情感分析初始模型，并通过数据采集、编写制作等方式预先获得素材样本，并对每个素材样本标记情感倾向标签。
122.可以利用素材样本对情感分析初始模型进行迭代训练。对于任意一个素材样本，将该素材样本输入到情感分析初始模型中，通过情感分析初始模型进行情感分析处理，根据情感分析初始模型的输出结果及该素材样本的情感倾向标签，确定预测损失，基于预测损失调整情感分析初始模型的参数。在基于素材样本对情感分析初始模型进行训练的过程中，如果情感分析初始模型的预测准确率达到设定的准确率阈值、或者预测损失停止下降、或者迭代次数达到设定的次数阈值，则可以结束训练，将当前的情感分析初始模型确定为情感分析模型，用于实际的情感分析处理。
123.素材库中包括多个素材，可以将素材库中的每个素材，输入到情感分析模型中进行情感分析处理，然后根据情感分析模型的输出结果，可以确定素材库中的每个素材的素材情感标签。具体的，针对素材库中每个素材，可以根据情感分析模型的输出结果，确定该
素材的每种情感倾向的概率，基于最大概率的情感倾向，确定该素材的素材情感标签。
124.通过预先训练获得的情感分析模型可以对素材库中每个素材的素材情感标签进行准确确定，进而在进行素材候选集的确定时，可以基于素材库中每个素材的素材情感标签和当前情感倾向的匹配结果准确确定素材候选集。
125.需要说明的是，在目标素材对象包括目标朗读文本和目标配乐的情况下，可以基于文本样本和音乐样本联合训练得到情感分析模型，还可以分别基于文本样本和音乐样本训练得到不同的情感分析模型。比如，基于文本样本训练得到文本情感分析模型，基于音乐样本训练得到音乐情感分析模型。相应的，可以将文本库中的每个朗读文本，输入到预先训练获得的文本情感分析模型中进行情感分析处理，根据文本情感分析模型的输出结果，确定文本库中的每个朗读文本的文本情感标签。可以将音乐库中的每首音乐，输入到预先训练获得的音乐情感分析模型中进行情感分析处理，根据音乐情感分析模型的输出结果，确定音乐库中的每首音乐的音乐情感标签。
126.在本公开的一个实施例中，可以通过以下步骤确定文字库包括的每个朗读文本的文本情感标签：
127.针对文字库包括的每个朗读文本，根据当前朗读文本的关键词，确定当前朗读文本的文本情感标签。
128.在本公开实施例中，可以预先设定每个情感倾向对应的关键词。针对文字库包括的每个朗读文本，提取出当前朗读文本的关键词后，将当前朗读文本的关键词分别与每个情感倾向对应的关键词进行匹配，基于匹配度最高的情感倾向，确定当前朗读文本的文本情感标签。当前朗读文本为当前操作所针对的朗读文本。
129.根据文字库中每个朗读文本的关键词，可以准确确定出每个朗读文本的文本情感标签，进而可以提高目标朗读文本的确定准确性。
130.在本公开的一个实施例中，在目标素材对象包括目标朗读文本的情况下，将素材库中素材情感标签与当前情感倾向匹配的至少一个素材，确定为素材候选集，可以包括以下步骤：
131.步骤一：响应于朗读触发账号的输入操作，获取朗读文本关键字；
132.步骤二：将素材库中素材情感标签匹配当前情感倾向、且包含朗读文本关键字的至少一个朗读文本，确定为素材候选集。
133.为方便描述，将上述两个步骤结合起来进行说明。
134.在本公开实施例中，获取到朗读触发账号对应的当前情感倾向后，可以进一步将素材库中素材情感标签与当前情感倾向匹配的至少一个素材，确定为素材候选集。
135.具体的，在目标素材对象包括目标朗读文本的情况下，可以基于当前情感倾向，在素材库中查找具有与当前情感倾向匹配的素材情感标签的朗读文本，将查找到的朗读文本的集合确定为朗读文本候选集。
136.但是，考虑到将查找到的所有朗读文本都加入到朗读文本候选集中，可能会使得朗读文本候选集中朗读文本数量较大，将其展示给朗读者后，不方便朗读者快速从中确定目标朗读文本。所以，可以响应于朗读触发账号的输入操作，获取到朗读文本关键字。朗读文本关键字是朗读者通过朗读触发账号输入的关键字，与朗读者的朗读意愿更相符。对于素材库中每个朗读文本，可以确定该朗读文本的素材情感标签与当前情感倾向是否匹配，
如果匹配，则进一步可以确定该朗读文本是否包含朗读文本关键字，如果包含朗读文本关键字，则可以将该朗读文本加入到素材候选集中。即将素材库中素材情感标签匹配当前情感倾向、且包含朗读文本关键字的至少一个朗读文本，确定为素材候选集。
137.这样可以有效控制素材候选集中朗读文本的数量，且使得素材候选集包括的每个朗读文本的素材情感标签与当前情感倾向相匹配的同时，每个朗读文本还包含与朗读者的朗读意愿相符的朗读文本关键字，方便朗读者快速确定出目标朗读文本。
138.在本公开的一个实施例中，目标素材对象可以包括目标朗读文本和目标配乐，在接收到视频录制指令的情况下，基于目标素材对象录制生成朗读视频，可以包括以下步骤：
139.第一个步骤：在接收到视频录制指令的情况下，调用图像采集设备和音频采集设备，基于目标朗读文本录制朗读视频；
140.第二个步骤：在录制朗读视频的过程中，或者在录制朗读视频完成之后，在朗读视频中添加目标配乐。
141.为方便描述，将上述两个步骤结合起来进行说明。
142.在本公开实施例中，在获取到朗读触发账号对应的当前情感倾向，并根据当前情感倾向，确定目标素材对象之后，在目标素材对象包括目标朗读文本和目标配乐的情况下，如果接收到视频录制指令，则可以调用图像采集设备和音频采集设备，基于目标朗读文本录制朗读视频。具体的，可以调用图像采集设备对朗读者朗读目标朗读文本进行图像采集，调用音频采集设备对朗读者朗读目标朗读文本进行音频采集，融合采集到的图像和音频，得到朗读视频。图像采集设备可以是终端的摄像头，还可以是终端外接的摄像装置，音频采集设备可以终端的录音机，还可以是终端外接的录音装置。
143.在录制朗读视频的过程中，或者在录制朗读视频完成之后，可以在朗读视频中添加目标配乐。具体的，可以根据朗读触发账号的配乐添加指令，确定添加目标配乐的时机。在朗读视频中添加目标配乐，可以使得最后获得的朗读视频具有较好的视听感。
144.在本公开的一个实施例中，该方法还可以包括以下步骤：
145.步骤一：确定目标朗读背景；
146.步骤二：在基于目标素材对象录制朗读视频的过程中，在朗读视频中添加目标朗读背景；或者，在基于目标素材对象录制朗读视频完成之后，将朗读视频中的朗读背景替换为目标朗读背景。
147.为便于描述，将上述两个步骤结合起来进行说明。
148.在本公开实施例中，可以确定目标朗读背景。对于目标朗读背景的确定可以在目标素材对象的确定之前、之后、或同时进行。
149.具体的，可以将朗读触发账号上传的图片确定为目标朗读背景。朗读平台的客户端可以为朗读者提供图片上传控件，朗读者使用朗读触发账号通过图片上传控件可以将实时拍照得到的图片或者本地保存的图片上传到朗读平台。朗读平台接收到朗读触发账号上传的图片后，将其确定为目标朗读背景。将朗读触发账号上传的图片确定为目标朗读背景，更符合用户的期望。如图2所示，朗读者可以在相册的本地图片1、本地图片2、
……
、本地图片m中选择一张图片上传，将其上传的图片作为目标朗读背景。
150.还可以展示预先获得的图片库，根据接收到的基于图片库中至少一张图片的选择指令，确定目标朗读背景。
151.在本公开实施例中，可以通过数据采集或者制作变换等方式获得若干张图片，建立图片库。可以将预先获得的图片库输出展示给朗读者。可以在同一个界面全部或分页展示，还可以按照类别分项展示。
152.朗读者可以根据个人喜好在图片库中选择一张图片，发出相应的选择指令。
153.根据接收到的基于图片库中至少一张图片的选择指令，可以确定目标朗读背景。如图2所示，朗读者可以在展示的图片库的图片1、图片2、
……
、图片n 中选择至少一张图片，将其选择的图片作为目标朗读背景。
154.为朗读者提供图片库供朗读者选择，更方便朗读者选择出目标朗读背景。
155.在本公开实施例中，还可以为采集到的图片进行质量评分，如可以根据图片美感或清晰度等进行质量评分，然后将质量评分大于设定的分数阈值的图片加入到图片库中，即图片库包括的图片的质量评分均大于设定的分数阈值。分数阈值可以根据实际情况进行设定和调整。
156.可以利用深度学习网络，提取图片中与质量相关的语音层次特征，学习并预测图片的质量评分。
157.图片库包括的图片的质量评分均大于设定的分数阈值，使得图片库中的图片均画面优美、颜色和谐，可以为朗读者带来美的感受。
158.确定出目标朗读背景后，可以在基于目标素材对象录制朗读视频的过程中，在朗读视频中添加目标朗读背景。这样可以使得生成的朗读视频具有较好的画面感。如图2所示，可以对采集到的图像进行识别，区分出前景部分和背景部分，将背景部分替换为目标朗读背景。
159.还可以在基于目标素材对象录制朗读视频完成之后，将朗读视频中的朗读背景替换为目标朗读背景。具体的，可以在接收到朗读触发账号的背景替换指令时，将朗读视频中的朗读背景替换为目标朗读背景。
160.目标朗读背景可以是一张图片还可以多张图片，如果目标朗读背景是一张图片，则在朗读视频中添加目标朗读背景后，朗读视频所展现的朗读背景均为该图片，如果目标朗读背景是多张图片，则在朗读视频中添加目标朗读背景后，朗读视频所展现的朗读背景为多张图片的交替显示。当然，目标朗读背景可以是静态的，还可以是动态的。
161.图片库可以在朗读平台的服务器端保存，客户端在需要进行目标朗读背景的确定时，通过服务器获取到图片库进行展示。图片库在服务器端保存，方便实时更新，使得客户端总能获取到最新的图片库。
162.图片库还可以在客户端本地保存，这样在需要进行目标朗读背景的确定时，客户端不需要与服务器交互，可以减少对网络的依赖。
163.如图3所示，在检测到朗读者有朗读需求时，朗读平台可以获取朗读触发账号对应的当前情感倾向，根据当前情感倾向分别确定出目标朗读文本和目标配乐，并在确定出目标朗读背景之后，在基于目标朗读文本录制朗读视频的过程中，添加目标朗读背景和目标配乐，使得最后生成的朗读视频同时具备较好的画面感和较好的视听感，提升朗读者的朗读体验。
164.在本公开的一个实施例中，在基于目标素材对象录制生成朗读视频之后，该方法还可以包括以下步骤：
165.第一个步骤：在接收到发布指令的情况下，确定朗读视频的视频描述信息；
166.第二个步骤：发布包括视频描述信息的朗读视频。
167.为方便描述，将上述两个步骤结合起来进行说明。
168.在本公开实施例中，在获取到朗读触发账号对应的当前情感倾向，根据当前情感倾向，确定目标素材对象，并在接收到视频录制指令，基于目标素材对象录制生成朗读视频之后，朗读者可以根据实际情况确定是否发布该朗读视频，如果确定发布，则可以通过发布控件发出相应的发布指令。
169.在接收到发布指令的情况下，可以确定朗读视频的视频描述信息，视频描述信息可以包括视频封面、视频简介等描述信息。可以根据朗读触发账号输入或选择的相关信息进行确定。确定出朗读视频的视频描述信息后，进一步可以发布包括视频描述信息的朗读视频，分享给其他用户观看。
170.在发布朗读视频的过程中，可以发起与目标素材对象匹配的目标话题。比如，目标素材对象包括的目标朗读文本是关于母亲的文本，则发起的目标话题可以是“献给我的母亲”等关于母亲的话题。发起与目标素材对象匹配的目标话题，有助于提高发布的朗读视频的被关注度。
171.还可以在发布的朗读视频的设定位置添加朗读控件，朗读控件用于链接至触发朗读功能的界面。这样其他用户在观看朗读视频时，通过朗读控件可以进入具有朗读功能的界面，如朗读视频生成界面，方便用户快速进行朗读视频的录制生成，提升朗读者的朗读体验。设定位置可以是朗读视频的左下角或右下角等位置。
172.相应于上面的方法实施例，本公开实施例还提供了一种朗读视频生成装置，下文描述的朗读视频生成装置与上文描述的朗读视频生成方法可相互对应参照。
173.参见图4所示，该装置可以包括以下模块：
174.当前情感倾向获取模块410，被配置为执行获取朗读触发账号对应的当前情感倾向；
175.目标素材对象确定模块420，被配置为执行根据当前情感倾向，确定目标素材对象；
176.朗读视频录制生成模块430，被配置为执行在接收到视频录制指令的情况下，基于目标素材对象录制生成朗读视频。
177.应用本公开实施例所提供的装置，获取到朗读触发账号对应的当前情感倾向后，根据当前情感倾向，确定目标素材对象，在接收到视频录制指令的情况下，基于目标素材对象录制生成朗读视频，生成的朗读视频所基于的目标素材对象是根据朗读触发账号对应的当前情感倾向确定的，与朗读者当前的情感较为匹配，使得朗读者能够更好的表达自己的情感，而且，在接收到视频录制指令的情况下，自动录制生成朗读视频，提高了朗读视频生成的便利性和生成效率，提升了朗读者的朗读体验。
178.在本公开的一种具体实施方式中，目标素材对象包括目标朗读文本、目标配乐中至少一种；目标素材对象确定模块420，被配置为执行：
179.将素材库中素材情感标签与当前情感倾向匹配的至少一个素材，确定为素材候选集；
180.展示素材候选集；
181.响应于对素材候选集中任一素材的选择指令，确定目标素材对象。
182.在本公开的一种具体实施方式中，装置还包括素材情感标签确定模块，被配置为执行：
183.在将素材库中素材情感标签与当前情感倾向匹配的至少一个素材，确定为素材候选集之前，将素材库中的每个素材，输入到预先训练获得的情感分析模型中进行情感分析处理；
184.根据情感分析模型的输出结果，确定素材库中的每个素材的素材情感标签；
185.其中，情感分析模型为基于预先获得的素材样本训练得到，素材样本预先标记有情感倾向标签。
186.在本公开的一种具体实施方式中，目标素材对象确定模块420，被配置为执行：
187.在目标素材对象包括目标朗读文本的情况下，响应于朗读触发账号的输入操作，获取朗读文本关键字；
188.将素材库中素材情感标签匹配当前情感倾向、且包含朗读文本关键字的至少一个朗读文本，确定为素材候选集。
189.在本公开的一种具体实施方式中，目标素材对象包括目标朗读文本和目标配乐，朗读视频录制生成模块430，被配置为执行：
190.在接收到视频录制指令的情况下，调用图像采集设备和音频采集设备，基于目标朗读文本录制朗读视频；
191.在录制朗读视频的过程中，或者在录制朗读视频完成之后，在朗读视频中添加目标配乐。
192.在本公开的一种具体实施方式中，装置还包括目标朗读背景确定模块，被配置为执行：
193.确定目标朗读背景；
194.朗读视频录制生成模块430，被配置为执行：
195.在基于目标素材对象录制朗读视频的过程中，在朗读视频中添加目标朗读背景；或者，在基于目标素材对象录制朗读视频完成之后，将朗读视频中的朗读背景替换为目标朗读背景。
196.在本公开的一种具体实施方式中，目标朗读背景确定模块，被配置为执行：
197.将朗读触发账号上传的图片确定为目标朗读背景；或者，
198.展示预先获得的图片库；
199.根据接收到的基于图片库中至少一张图片的选择指令，确定目标朗读背景。
200.在本公开的一种具体实施方式中，装置还包括朗读视频发布模块，被配置为执行：
201.在基于目标素材对象录制生成朗读视频之后，在接收到发布指令的情况下，确定朗读视频的视频描述信息；
202.发布包括视频描述信息的朗读视频。
203.在本公开的一种具体实施方式中，装置还包括目标话题发起模块，被配置为执行：
204.在发布朗读视频的过程中，发起与目标素材对象匹配的目标话题。
205.在本公开的一种具体实施方式中，装置还包括朗读控件添加模块，被配置为执行：
206.在发布的朗读视频的设定位置添加朗读控件，朗读控件用于链接至触发朗读功能
的界面。
207.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
208.相应于上面的方法实施例，本公开实施例还提供了一种电子设备，包括：
209.处理器；
210.用于存储处理器可执行指令的存储器；
211.其中，处理器被配置为执行指令，以实现上述的朗读视频生成方法。
212.如图5所示，为电子设备的组成结构示意图，电子设备可以包括：处理器 10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。
213.在本公开实施例中，处理器10可以为中央处理器(central processing unit， cpu)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
214.处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行朗读视频生成方法的实施例中的操作。
215.存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本公开实施例中，存储器11中至少存储有用于实现以下功能的程序：
216.获取朗读触发账号对应的当前情感倾向；
217.根据当前情感倾向，确定目标素材对象；
218.在接收到视频录制指令的情况下，基于目标素材对象录制生成朗读视频。
219.在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如交互功能、视频录制功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如情感倾向数据、朗读视频数据等。
220.此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。
221.通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。
222.当然，需要说明的是，图5所示的结构并不构成对本公开实施例中电子设备的限定，在实际应用中电子设备可以包括比图5所示的更多或更少的部件，或者组合某些部件。
223.相应于上面的方法实施例，本公开实施例还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述的朗读视频生成方法。
224.此外，需要说明的是：本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该电子设备执行前文所对应实施例中朗读视频生成方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本公开所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本公开方法实施例的描述。
225.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
226.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：区域检测方法及其相关装置、设备和介质

朗读视频生成方法、装置、电子设备、介质及程序产品与流程

相关文献

最热文献