角色配音方法、装置、存储介质及电子设备与流程

2022-03-26 16:29:04 来源：中国专利 TAG：

1.本发明涉及配音技术领域，具体涉及一种角色配音方法、装置、存储介质及电子设备。

背景技术：

2.目前，小说、电视剧剧本都会根据旁白、角色进行拆分，然后分配给对应的配音师，配音师在阅读整个作品，理解各个角色的定位和情感的前提下，根据自身经验和特有的音色完成配音工作，最后将各个角色的配音进行整合梳理形成有声读物，或者与演员融合形成电视剧作品。
3.特别是有声读物市场巨大，但是优秀的配音师却非常稀少，并且合适角色的配音师更是稀缺。此外，优秀的配音师通常排期较为紧凑，难以接洽工作排期，并且配音费用比较昂贵。而换由不适合的人担任配音，这也导致配音水准参差不齐，严重影响整体作品呈现和市场竞争力。在日益竞争激烈的当下，市场成长的同时，用户要求也在不断提高，力求获得更完美的用户体验和视听盛宴。如何能够为作品提供适合的角色配音是一个亟待解决的技术问题。

技术实现要素：

4.为此，本发明提供一种角色配音方法、装置、存储介质及电子设备，解决作品配音困难，难以匹配作品角色，影响用户体验的问题。
5.为了实现上述目的，本发明提供如下技术方案：第一方面，提供一种角色配音方法，包括以下步骤：
6.构建音色库、角色类型知识图谱、音色类型知识图谱和音色类型搭配知识图谱；
7.将待配音作品根据配音场次进行划分，每个所述配音场次包括角色的对话文本、背景描述和旁白，并形成台本；
8.通过所述角色类型知识图谱对所述台本中的角色进行角色类型匹配，确定所述台本中角色的角色类型；
9.通过所述音色类型知识图谱对所述台本中的角色进行音色类型匹配，确定所述台本中角色的音色类型；
10.通过所述音色类型搭配知识图谱对所述台本中角色的角色类型和音色类型进行搭配，确定所述台本中角色的配音方案。
11.作为角色配音方法的优选方案，通过采样和录制方式，收集给定音色的原始音频，对所述原始音频进行分类形成所述音色库。
12.作为角色配音方法的优选方案，所述角色类型知识图谱中，通过文本描述的方式表达给定角色类型的性格或外形；
13.所述文本描述包括角色外观描述、角色对话描述和角色行为描述。
14.作为角色配音方法的优选方案，所述音色类型知识图谱中，给定角色类型具有符
合角色类型定位的音色类型；
15.所述音色类型搭配知识图谱中，给定角色类型搭配有至少两个音色类型。
16.作为角色配音方法的优选方案，通过tts语音合成算法将所述台本中的每个角色的对话文本转化为音频；
17.根据所述台本中角色对话顺序，从所述音色库中选择音色类型校验每个角色tts合成音频。
18.作为角色配音方法的优选方案，根据所述台本中角色分别导出对应的音频文件，将音频文件用于影视后期合成。
19.第二方面，本发明提供一种角色配音装置，包括：
20.基础构建模块，用于构建音色库、角色类型知识图谱、音色类型知识图谱和音色类型搭配知识图谱；
21.台本生成模块，用于将待配音作品根据配音场次进行划分，每个所述配音场次包括角色的对话文本、背景描述和旁白，并形成台本；
22.角色匹配模块，用于通过所述角色类型知识图谱对所述台本中的角色进行角色类型匹配，确定所述台本中角色的角色类型；
23.音色匹配模块，用于通过所述音色类型知识图谱对所述台本中的角色进行音色类型匹配，确定所述台本中角色的音色类型；
24.配音搭配模块，用于通过所述音色类型搭配知识图谱对所述台本中角色的角色类型和音色类型进行搭配，确定所述台本中角色的配音方案。
25.作为角色配音装置的优选方案，所述基础构建模块中，通过采样和录制方式，收集给定音色的原始音频，对所述原始音频进行分类形成所述音色库；
26.所述角色类型知识图谱中，通过文本描述的方式表达给定角色类型的性格或外形；
27.所述文本描述包括角色外观描述、角色对话描述和角色行为描述；
28.所述音色类型知识图谱中，给定角色类型具有符合角色类型定位的音色类型；
29.所述音色类型搭配知识图谱中，给定角色类型搭配有至少两个音色类型。
30.作为角色配音装置的优选方案，还包括音频生成模块，用于通过tts语音合成算法将所述台本中的每个角色的对话文本转化为音频。
31.作为角色配音装置的优选方案，还包括音频校对模块，用于根据所述台本中角色对话顺序，从所述音色库中选择音色类型校验每个角色tts合成音频。
32.作为角色配音装置的优选方案，还包括音频导出模块，用于根据所述台本中角色分别导出对应的音频文件，将音频文件用于影视后期合成。
33.第三方面，提供一种非暂态计算机可读存储介质，所述计算机可读存储介质中存储有角色配音方法的程序代码，所述程序代码包括用于执行第一方面或其任意可能实现方式的角色配音方法的指令。
34.第四方面，提供一种电子设备，包括：存储器和处理器；所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令执行第一方面或其任意可能实现方式的角色配音方法。
35.本发明具有如下优点：通过构建音色库、角色类型知识图谱、音色类型知识图谱和
音色类型搭配知识图谱；将待配音作品根据配音场次进行划分，每个配音场次包括角色的对话文本、背景描述和旁白，并形成台本；通过角色类型知识图谱对台本中的角色进行角色类型匹配，确定台本中角色的角色类型；通过音色类型知识图谱对台本中的角色进行音色类型匹配，确定台本中角色的音色类型；通过音色类型搭配知识图谱对台本中角色的角色类型和音色类型进行搭配，确定台本中角色的配音方案。本发明能够为出品方节约大量的时间、人力成本，快速完成作品角色配音；此外可实现作品音色快速切换，节省了返工的成本，最大程度保证了作品的竞争力和适应性。
附图说明
36.为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。
37.本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。
38.图1为本发明实施例1提供的角色配音方法流程示意图；
39.图2为本发明实施例2提供的角色配音装置示意图。
具体实施方式
40.以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
41.实施例1
42.参见图1，本发明实施例1提供一种角色配音方法，包括以下步骤：
43.s1、构建音色库、角色类型知识图谱、音色类型知识图谱和音色类型搭配知识图谱；
44.s2、将待配音作品根据配音场次进行划分，每个所述配音场次包括角色的对话文本、背景描述和旁白，并形成台本；
45.s3、通过所述角色类型知识图谱对所述台本中的角色进行角色类型匹配，确定所述台本中角色的角色类型；
46.s4、通过所述音色类型知识图谱对所述台本中的角色进行音色类型匹配，确定所述台本中角色的音色类型；
47.s5、通过所述音色类型搭配知识图谱对所述台本中角色的角色类型和音色类型进行搭配，确定所述台本中角色的配音方案。
48.本实施例中，步骤s1中，通过采样和录制方式，收集给定音色的原始音频，对所述原始音频进行分类形成所述音色库。
49.具体的，可以预先收集不同音色的优秀配音师的原始音频，通过对原始音频进行分类形成音色库。比如原始音频可以采集和录制女童声音、青少年女声、老年妇女声音、男童声音、青少年男声和老年男声，通过采集不同的或多个人员的女童声音、青少年女声、老年妇女声音、男童声音、青少年男声和老年男声作为原始音频保存在音色库中。
50.本实施例中，所述角色类型知识图谱中，通过文本描述的方式表达给定角色类型的性格或外形；
51.所述文本描述包括角色外观描述、角色对话描述和角色行为描述。
52.具体的，每一个角色可以都有对应的外观描述，角色对话描述和角色行为描述，通过采用关键词或关键语句的形式描述角色的外观，比如对于女童或男童角色，可以有可爱、生气、撒娇等关键词描述，对于青少年女性或青少年男性，可以有相应年龄阶段的对话行为描述，比如恋爱或哭泣或开心或愤怒。对于老年人可以采用沉着、稳重或意味深长等关键词描述角色。通过这些文本描述能够反应角色的基本形象和性格，进而可以快速匹配最接近的角色类型，例如女童、男童、少女或老年人等。
53.本实施例中，所述音色类型知识图谱中，给定角色类型具有符合角色类型定位的音色类型；
54.所述音色类型搭配知识图谱中，给定角色类型搭配有至少两个音色类型。
55.具体的，当确认角色类型后，通过音色类型知识图谱可以在音色库中匹配音色类型。例如小女孩可以是女童音、少女音等类型，小男孩可以是男童音、少男音等类型。同一个角色类型可以匹配出若干最佳搭配方案，例如女童音和大叔音搭配，体现出配音效果。
56.具体的，本实施例中涉及的知识图谱，本质上是一种语义网络，用图的形式描述客观事物。知识图谱是一个具有本体特征的语义网络，可以看成是按照本体模式组织数据的知识库，以知识图谱为基础进行搜索，可以根据查询的内容进行语义搜索，查找需要找的本体或者本体的信息。
57.具体的，角色类型知识图谱是根据角色类型构建的知识图谱，音色类型知识图谱是根据音色类型构建的知识图谱，而音色类型搭配知识图谱是根据角色和音色类型搭配构建的知识图谱。
58.本实施例中，通过tts语音合成算法将所述台本中的每个角色的对话文本转化为音频；
59.根据所述台本中角色对话顺序，从所述音色库中选择音色类型校验每个角色tts合成音频。
60.具体的，tts语音合成能够把文本转化为声音，能将任意文字信息实时转化为标准流畅的语音朗读出来。tts语音合成包括语音处理、韵律处理和声学处理。语音处理可以模拟人对自然语言的理解过程，文本规整、词的切分、语法分析和语义分析，使计算机对输入的文本能完全理解，并给出后所需要的各种发音提示。韵律处理为合成语音规划出音段特征，如音高、音长和音强等，使合成语音能正确表达语意，听起来更加自然。声学处理根据语音处理和韵律处理的结果输出语音，即合成语音。
61.具体的，通过tts语音合成方法，可以将台本中每一个角色的对话文本转化为音频，达到mos 5.0水准。mos直接对产生的话音质量(包括gsm、cdma、固话等)进行主观评定和分析，评分范围是1到5分，mos 5.0水准具体如下：
62.(1)5(优)，不察觉失真；
63.(2)4(良)，刚察觉失真，但不讨厌；
64.(3)3(中)，察觉失真，稍微讨厌；
65.(4)2(差)，讨厌，但不令人反感；
66.(5)1(劣)，极其讨厌，令人反感。
67.根据台本角色对话顺序校验每个角色的tts合成音频，可以参照mos 5.0水准，如果感觉不合适，由于每一个音色类型都采集了多个音色用于选择，可以在音色库重新选择，直至达到理想的配音效果。
68.本实施例中，根据所述台本中角色分别导出对应的音频文件，将音频文件用于影视后期合成。通过与背景音乐、音效的融合形成成熟的作品，比如有声读物或电视剧。
69.综上所述，本发明通过构建音色库、角色类型知识图谱、音色类型知识图谱和音色类型搭配知识图谱；将待配音作品根据配音场次进行划分，每个配音场次包括角色的对话文本、背景描述和旁白，并形成台本；通过角色类型知识图谱对台本中的角色进行角色类型匹配，确定台本中角色的角色类型；通过音色类型知识图谱对台本中的角色进行音色类型匹配，确定台本中角色的音色类型；通过音色类型搭配知识图谱对台本中角色的角色类型和音色类型进行搭配，确定台本中角色的配音方案。通过tts语音合成算法将台本中的每个角色的对话文本转化为音频；根据台本中角色对话顺序，从音色库中选择音色类型校验每个角色tts合成音频。根据台本中角色分别导出对应的音频文件，将音频文件用于影视后期合成。本发明能够为出品方节约大量的时间、人力成本，快速完成作品角色配音；此外可实现作品音色快速切换，节省了返工的成本，最大程度保证了作品的竞争力和适应性。
70.实施例2
71.参见图2，本发明实施例2还提供一种角色配音装置，包括：
72.基础构建模块1，用于构建音色库、角色类型知识图谱、音色类型知识图谱和音色类型搭配知识图谱；
73.台本生成模块2，用于将待配音作品根据配音场次进行划分，每个所述配音场次包括角色的对话文本、背景描述和旁白，并形成台本；
74.角色匹配模块3，用于通过所述角色类型知识图谱对所述台本中的角色进行角色类型匹配，确定所述台本中角色的角色类型；
75.音色匹配模块4，用于通过所述音色类型知识图谱对所述台本中的角色进行音色类型匹配，确定所述台本中角色的音色类型；
76.配音搭配模块5，用于通过所述音色类型搭配知识图谱对所述台本中角色的角色类型和音色类型进行搭配，确定所述台本中角色的配音方案。
77.本实施例中，所述基础构建模块1中，通过采样和录制方式，收集给定音色的原始音频，对所述原始音频进行分类形成所述音色库；
78.所述角色类型知识图谱中，通过文本描述的方式表达给定角色类型的性格或外形；
79.所述文本描述包括角色外观描述、角色对话描述和角色行为描述；
80.所述音色类型知识图谱中，给定角色类型具有符合角色类型定位的音色类型；
81.所述音色类型搭配知识图谱中，给定角色类型搭配有至少两个音色类型。
82.本实施例中，还包括音频生成模块6，用于通过tts语音合成算法将所述台本中的每个角色的对话文本转化为音频。
83.本实施例中，还包括音频校对模块7，用于根据所述台本中角色对话顺序，从所述音色库中选择音色类型校验每个角色tts合成音频。
84.本实施例中，还包括音频导出模块8，用于根据所述台本中角色分别导出对应的音频文件，将音频文件用于影视后期合成。
85.需要说明的是，上述装置各硬件之间的信息交互、执行过程等内容，由于与本技术实施例1中的方法实施例基于同一构思，其带来的技术效果与本技术方法实施例相同，具体内容可参见本技术前述所示的方法实施例中的叙述，此处不再赘述。
86.实施例3
87.本发明实施例3提供一种非暂态计算机可读存储介质，所述计算机可读存储介质中存储有角色配音方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的角色配音方法的指令。
88.计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘(solid state disk、ssd))等。
89.实施例4
90.本发明实施例4提供一种电子设备，包括：存储器和处理器；
91.所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行实施例1或其任意可能实现方式的角色配音方法。
92.具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。
93.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
94.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示
出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
95.虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于声纹模型的声纹数据的标注方法与流程

角色配音方法、装置、存储介质及电子设备与流程

相关文献

最热文献