电子装置及其操作方法与流程

2022-06-01 19:03:17 来源：中国专利 TAG：

1.本公开涉及一种用于提供文本到语音(tts)服务的电子装置及其操作方法。更具体地，本公开涉及一种用于提供输出具有类似于特定人的语音的音频信号的服务的电子装置及其操作方法。

背景技术：

2.人工智能(ai)系统是能够实现人类级别智能的计算机系统，并且不同于现有的基于规则的智能系统，是指机器自主地学习、做出确定并变得更智能的系统。识别率可以增加且用户偏好可以与ai系统的迭代次数成比例地被更准确地理解，并且因此，现有的基于规则的智能系统已经逐渐被基于深度学习的ai系统替代。
3.ai技术包括机器学习(或深度学习)和使用机器学习的元素技术。
4.机器学习是指自主地对输入数据的特征进行分类/学习的算法技术，并且元素技术是指使用诸如深度学习的机器学习算法的技术，并且包括诸如语言理解、视觉理解、推断/预测、知识表示和操作控制的技术领域。
5.可应用ai技术的各个领域的示例如下所描述。语言理解是指用于识别和应用/处理人类的语言/字符的技术，并且包括自然语言处理、机器翻译、对话系统、查询和响应、语音识别/合成等。视觉理解是指用于如人类视觉那样来识别和处理对象的技术，并且包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解、图像增强等。推断/预测是指用于确定信息并在逻辑上执行推断和预测的技术，并且包括基于知识/概率的推断、优化预测、基于偏好的规划、推荐等。知识表示是指用于将人类经验信息自动处理成知识数据的技术，并且包括知识构建(数据生成/分类)、知识管理(数据利用)等。操作控制是指用于车辆的自主驾驶和机器人的运动控制的技术，并且包括运动控制(例如，导航、防撞和驾驶控制)、操纵控制(例如，动作控制)等。
6.当前，连同能够通过使用ai技术来执行多种功能的电子装置的开发一起，正在开发用于提供tts服务的电子装置。tts是用于将文本转换成音频并输出音频的语音合成技术。
7.为了提供用于输出用户期望的具有类似于特定人的语音的音频的tts服务，电子装置需要预先学习通过记录特定人的语音而获得的语音数据。
8.另外，需要一种提供这样的tts服务的方法，该tts服务用于输出具有类似于特定人的语音的音频并且甚至在通过记录特定人的语音而获得的少量语音数据用于预先训练时也具有优良的发音、韵律和音质。
9.上述信息仅作为背景信息提供，以帮助理解本公开。对于上述任何一个是否可以作为本公开的现有技术应用，没有做出确定，也没有做出断言。

技术实现要素：

10.技术方案
11.本公开的各种方面在于至少解决上述问题和/或缺点，并且至少提供下述优点。因此，本公开的一方面在于提供一种用于提供文本到语音(tts)服务的电子装置及其操作方法。
附图说明
12.从结合附图所作的以下描述，本公开的某些实施例的上述和其它方面、特征和优点将变得更加显而易见，在附图中：
13.图1是用于简要地描述根据本公开的实施例的电子装置的操作的示例的图；
14.图2是用于描述根据本公开的实施例的预训练模型和目标模型的训练的图；
15.图3是用于描述根据本公开的实施例的预训练模型和目标模型的结构的图；
16.图4是用于描述根据本公开的实施例的文本到语音(tts)模型生成模块的结构的图；
17.图5是根据本公开的实施例的电子装置的操作方法的流程图；
18.图6是用于描述根据本公开的实施例的目标语音数据的数据特征的示例的表；
19.图7是用于描述根据本公开的实施例的确定目标语音数据的学习步骤的数量的方法的示例的表；
20.图8是用于描述根据本公开的实施例的目标语音数据的学习步骤的数量的示例的表；
21.图9是用于描述根据本公开的实施例的确定预训练模型的方法的示例的流程图；
22.图10是用于描述根据本公开的实施例的选择预训练模型的示例的流程图；
23.图11是用于描述根据本公开的实施例的选择预训练模型的示例的流程图；
24.图12是用于描述根据本公开的实施例的存储在存储器中的预训练模型的示例的表；
25.图13是用于描述根据本公开的实施例的选择预训练模型的示例的表；
26.图14是用于描述根据本公开的实施例的生成预训练模型的示例的流程图；
27.图15是用于描述根据本公开的实施例的生成预训练模型的详细方法的示例的流程图；
28.图16是用于描述根据本公开的实施例的生成预训练模型的详细方法的示例的流程图；
29.图17是用于描述根据本公开的实施例的基于预训练模型来确定初始学习率和衰减方法的示例的流程图；
30.图18是用于描述根据本公开的实施例的设置初始学习率和衰减方法的示例的流程图；
31.图19是用于描述根据本公开的实施例的用于获得目标语音数据的用户界面的示例的图；
32.图20是用于描述根据本公开的实施例的获得目标语音数据的示例的图；
33.图21是用于描述根据本公开的实施例的获得目标语音数据的示例的图；
34.图22是用于描述根据本公开的实施例的获得目标语音数据的示例的图；
35.图23是用于描述根据本公开的实施例的用于在生成tts模型时设置用户的优先级
的用户界面的示例的图；
36.图24是用于描述根据本公开的实施例的用于检查生成tts模型的结果的用户界面的示例的图；
37.图25是用于描述根据本公开的实施例的用于测试tts模型的用户界面的示例的图；
38.图26是用于描述根据本公开的实施例的用于选择tts模型的重新生成的用户界面的示例的图；
39.图27是用于描述根据本公开的实施例的电子装置和服务器的操作的图；
40.图28是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图；
41.图29是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图；
42.图30是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图；
43.图31是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图；
44.图32是用于描述根据本公开的实施例的电子装置和服务器的操作的示例的流程图；
45.图33是根据本公开的实施例的电子装置的框图；
46.图34是根据本公开的实施例的电子装置的详细框图；以及
47.图35是根据本公开的实施例的服务器的框图。
48.在所有附图中，相似的附图标记将被理解为指代相似的部分、部件和结构。
具体实施方式
49.提供参考附图的以下描述是为了帮助全面理解如由权利要求书及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解，但这些应仅被视为示例性的。因此，本领域的普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文中描述的各种实施例进行各种改变和修改。另外，为了清楚和简洁起见，可以省略对众所周知的功能和构造的描述。
50.在以下描述和权利要求中使用的术语和词语不限于书目含义，而是仅由发明人使用以使得能够清楚和一致地理解本公开。因此，对于本领域的技术人员来说显而易见的是，提供本公开的各种实施例的以下描述仅出于说明目的，而不是出于限制如由所附权利要求书及其等同物限定的本公开的目的。
51.应当理解，单数形式“一个”、“一种”和“所述”包括复数指代物，除非上下文另有明确规定。因此，例如，对“部件表面”的引用包括对一个或更多此类表面的引用。
52.诸如“第一”和“第二”的术语可以用于指定各种元件，但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。
53.贯穿本公开，表达“a、b或c中的至少一者”指示仅a；仅b；仅c；a和b两者；a和c两者；b和c两者；a、b和c全部；或其变型。
54.以下描述中的术语仅用于解释本公开的具体实施例，而并非意图限制本公开的范围。单数形式“一个”、“一种”和“所述”也旨在包括复数形式，除非上下文另有明确地指示。贯穿说明书，当一个元件被称为“连接到”另一元件时，该元件可以“直接连接到”另一元件或经由介于中间的元件“电连接到”另一元件。当在本文中使用时，术语“包含(comprises)”和/或“包含(comprising)”或者“包括(includes)”和/或“包括(including)”指定所述元件的存在，但是不排除一个或更多其它元件的存在或添加。
55.定冠词“所述”或其它指示词可以指示单数形式和复数形式两者。除非上下文另有明确地指示，否则可以按适当次序执行根据本公开的实施例的方法中包括的操作。描述操作的次序不限制本公开的范围。
56.本说明书的各个部分处的短语“本公开的实施例”并不始终指本公开的同一实施例。
57.本公开的实施例可以被表示为功能块和各种处理步骤。一些或所有功能块可以由被配置为执行某些功能的各种数量的硬件和/或软件元件来实现。例如，本公开的功能块可以由用于某些功能的一个或更多微处理器或电路元件实现。又例如，本公开的功能块可以使用各种编程或脚本语言来实现。功能块可以使用由一个或更多处理器执行的算法来实现。此外，本公开可以采用用于电子设置、信号处理和/或数据处理的已知技术。诸如“机构”、“元件”、“装置”和“配置”的术语可以被广泛使用，而不限于机械和物理配置。
58.另外，在附图中示出的元件之间的连接线或连接构件仅展示功能连接和/或物理或电路连接的示例。在实际装置中，元件之间的连接可以由可替换或附加的各种功能连接、物理连接或电路连接表示。
59.现在将详细参考本公开的实施例，其示例在附图中示出。
60.根据本公开的实施例，“预训练模型”可以指已经基于非特定说话者(例如，“a”)的话语预先学习了语音数据的模型。
61.根据本公开的实施例，“目标模型”可以指通过根据基于特定说话者(例如，“b”)的话语的语音数据通过将预训练模型用作初始状态另外地训练预训练模型来生成的经训练模型，其中该预训练模型已经基于非特定说话者(例如，“a”)的话语预先学习了语音数据。
62.根据本公开的实施例，目标语音数据可以是要被学习以生成目标模型的语音数据，并且是指基于具有将用来提供tts服务的语音的、特定说话者的话语获得的语音数据。
63.根据本公开的实施例，数据特征可以是语音数据的特征，并且包括数据量、声学特征、说话者特征或内容特征中的至少一者。
64.根据本公开的实施例，学习步骤的数量可以指用于通过将目标语音数据用作训练数据来训练预训练模型的步骤的数量。
65.根据本公开的实施例，预训练模型的预学习步骤的数量可以指预训练模型预先学习非特定说话者的语音数据的步骤的数量。
66.根据本公开的实施例，学习率可以指指示在经训练模型学习训练数据时在当前学习步骤中学习的数据被反映到整个神经网络的权重值的程度的参数。学习率可以指用于确定整个神经网络的权重值因当前学习步骤而被调整的程度的参数。
67.图1是用于简要地描述根据本公开的实施例的电子装置100的操作的示例的图。
68.根据本公开的实施例，电子装置100可以提供文本到语音(tts)服务。tts是用于将
文本转换成音频并输出音频的语音合成技术。
69.根据本公开的实施例，为了提供tts服务，也就是说，为了生成通过将输入文本转换成音频信号而获得的输出数据并且输出具有类似于例如特定说话者b的语音的音频信号，电子装置100需要预先学习基于说话者b的话语获得的语音数据。
70.参考图1，电子装置100可以通过将基于特定说话者b的话语获得的语音数据13(例如，10分钟的持续时间)用作训练数据来训练模型。电子装置100可以通过使用基于说话者b的语音数据训练的模型来输出具有类似于说话者b的语音的音频信号15。
71.根据本公开的实施例，经训练模型可以是用于获得某文本作为输入数据并且输出音频信号作为输出数据的tts模型，并且包括使用诸如深度学习的机器学习算法的人工智能(ai)模型。
72.一般来说，当提供少量(例如，30分钟持续时间)的要学习的目标语音数据时，尽管可以通过基于目标语音数据另外地训练预训练模型来降低发音错误率，但大量的学习步骤可能导致基于训练生成的目标模型的高发音错误率。这是因为，当学习步骤的数量增加时，预训练模型的预先训练效果逐渐地消失，并且仅集中于少量目标数据的训练被迭代。因此，代替通过使用少量目标语音数据来无条件地迭代大量的学习步骤，可能需要一种确定最佳数量的学习步骤并对其进行迭代的方法。
73.根据本公开的实施例，通过确定最佳数量的学习步骤并且基于少量目标数据通过最佳数量的学习步骤来训练预训练模型，尽管使用少量的训练数据，但发音错误率可以不增加。
74.根据本公开的实施例，通过经由最佳数量的学习步骤(其基于将由电子装置100学习的目标语音数据的数据量来确定)来训练预训练模型，可以生成在发音、韵律、语调、音质等方面具有优良性能的目标模型。
75.根据本公开的实施例，发音错误率可以指发音的不准确度。发音错误率可以指话语偏离标准发音规则的程度。例如，发音错误率可以包括基于词语的发音错误率和基于话语的发音错误率。发音错误率(％)可以被计算为所有说出的词语之中的异常地说出的词语的百分比(例如，(异常地说出的词语/所有说出的词语)
×
100或(异常话语/所有话语)
×
100)。
76.根据本公开的实施例，韵律可以指声音的强度、音高、长度等。韵律可以通过输出音频信号听起来是否像特定语言的自然话语来确定。
77.根据本公开的实施例，语调可以指声音的相对音高变化。
78.根据本公开的实施例，音质可以指示声学特征并且是指音频输出的准确度或清晰度。
79.根据本公开的实施例，当少量(少于或等于预设值)地提供基于特定说话者的话语获得的语音数据(即，训练数据)时，电子装置100可以提供这样的tts服务，该tts服务用于通过基于少量的训练数据通过适当数量的学习步骤训练模型来输出类似于特定说话者的语音并且在发音、韵律、音质等方面优良的音频信号。
80.根据本公开的实施例，与当训练数据的数据量对应于例如30秒时的情况相比，当训练数据的数据量对应于例如2小时时，电子装置100可以生成这样的经训练模型，该经训练模型在特定范围内在经训练模型的输出数据的发音错误率、韵律、音质等方面表现出类
似性能。根据本公开的实施例，当训练数据的数据量较小(例如，30秒)时，可以获得类似于当训练数据的数据量对应于2小时时的情况的训练结果。下面将参考附图详细地描述根据本公开的实施例的基于特定说话者的话语来确定少量语音数据的适当数量的学习步骤并且通过所确定数量的学习步骤来训练模型的方法。
81.同时，可以考虑例如经训练模型的适用领域、训练的目的或装置的计算机性能来构造经训练模型。经训练模型可以是例如基于神经网络的模型。例如，经训练模型可以使用深度神经网络(dnn)、递归神经网络(rnn)或双向递归深度神经网络(brdnn)，但不限于此。
82.根据本公开的实施例，电子装置100在图1中被展示为智能电话，但不限于此。根据本公开的实施例，电子装置100可以是用于提供tts服务的电子装置，并且被实现为各种电子装置，例如ai扬声器、聊天机器人、对话系统、会话代理、接待机器人、无人自助服务终端、可穿戴装置、平板pc、膝上型计算机、头戴式显示器(hmd)、电子书阅读器、个人数字助理(pda)以及便携式多媒体播放器(pmp)。
83.图1仅示出本公开的实施例，并且本公开不限于此。
84.现在将参考附图详细地描述本公开的实施例。
85.图2是用于描述根据本公开的实施例的预训练模型和目标模型的训练的图。
86.根据本公开的实施例，“经训练模型”可以是被训练来获得作为输入数据的某文本并生成通过将输入数据转换成音频信号而获得的输出数据的tts模型，并且根据所使用的训练数据而指代“预训练模型”或“目标模型”。
87.根据本公开的实施例，“预训练模型”可以指已经基于非特定说话者(例如，“a”)的话语预先学习了语音数据的模型。
88.根据本公开的实施例，“目标模型”可以指通过使用预训练模型作为初始状态、通过根据基于特定说话者(例如，“b”)的话语的语音数据另外地训练已经预先学习了基于非特定说话者a的话语所得的语音数据而生成的经训练模型。
89.参考图2，在步骤1中，电子装置100可以通过使用基于非特定说话者a的话语所得的音频数据wav1以及与音频数据wav1对应并包括与音频数据wav1具有相同含义的文本的文本数据text1作为训练数据、通过经由一定数量的训练步骤(例如，1000k)对未训练的初始状态模型进行训练来生成预训练模型#1。
90.在步骤2中，电子装置100可以通过将基于特定说话者b的话语所得的音频数据wav2以及与音频数据wav2对应并包括与音频数据wav2具有相同含义的文本的文本数据text2作为训练数据、通过经由一定数量的训练步骤(例如，100k)另外地训练在步骤1中被预先训练的模型#1来生成目标模型。
91.根据本公开的实施例，电子装置100可以通过将预训练模型#1用作初始状态、通过根据基于特定说话者b的话语的数据另外地训练预训练模型#1来生成目标模型，其中该预训练模型#1已经预先学习了基于非特定说话者(例如，“a”)的话语所得的数据。
92.根据本公开的实施例，为了根据步骤1和步骤2生成目标模型，通过迭代最佳数量的学习步骤，即便在提供少量的基于特定说话者b的话语的数据时也可以生成用于输出类似于特定说话者b的语音且具有低发音错误率的音频信号的目标模型。因此，电子装置100可以通过使用所生成的目标模型来提供用于输出具有类似于特定说话者(例如，“b”)的语音的音频信号的tts服务。
93.根据本公开的实施例，学习步骤的数量可以指用于通过将目标语音数据用作训练数据来训练预训练模型的步骤的数量。
94.根据本公开的实施例，预训练模型的预学习步骤的数量可以指预训练模型预先学习非特定说话者的语音数据的步骤的数量。
95.例如，1k学习步骤可以意味着音频数据和对应于音频数据的文本数据中包括的所有语句被学习1000次。
96.例如，1k学习步骤可以意味着音频数据和对应于音频数据的文本数据中包括的每32个语句(即，批量大小)被学习1000次。
97.同时，电子装置100可以通过监督式学习将训练数据用作输入值来训练模型。
98.另外，电子装置100可以将所生成的预训练模型和目标模型存储在电子装置100的存储器1700(参见图34)中。
99.根据本公开的实施例，电子装置100可以将所生成的预训练模型和目标模型存储在通过有线或无线网络连接到电子装置100的外部装置(未示出)中。
100.图3是用于描述根据本公开的实施例的预训练模型和目标模型的结构的图。
101.根据本公开的实施例，“预训练模型”或“目标模型”可以是用于获得某文本作为输入数据并且生成通过将输入数据转换成音频信号而获得的输出数据的tts模型。
102.参考图3，“预训练模型”和“目标模型”可以是以相同结构进行配置的tts模型。例如，“预训练模型”和“目标模型”可以以包括文本编码器模块、音频编码器模块、注意模块、音频解码器模块和ssrn模块的结构进行配置。
103.根据本公开的实施例，“预训练模型”#1可以是预先学习了基于非特定说话者(例如，“a”)的话语的语音数据的模型。当获得某文本作为输入数据时，预训练模型#1可以输出被转换成类似于非特定说话者a的语音的音频信号。
104.根据本公开的实施例，“目标模型”可以是通过将预训练模型#1用作初始状态、通过根据基于特定说话者(例如，“b”)的话语的语音数据训练预训练模型#1而获得的模型。当获得某文本作为输入数据时，目标模型可以输出被转换成类似于特定说话者b的语音的音频信号。
105.根据本公开的实施例，“目标模型”可以是通过将“预训练模型”#1用作初始状态、通过根据基于特定说话者“b”的话语的语音数据另外地训练“预训练模型”#1而获得的模型。
106.根据本公开的实施例，经训练模型可以包括多个神经网络层。多个神经网络层中的每一个可以具有多个权重值，并且通过前一层的计算结果和多个权重值之间的计算来执行神经网络计算。可以基于经训练模型的训练结果来优化多个神经网络层的多个权重值。例如，可以细化多个权重值，以减小或最小化由经训练模型在训练过程期间获得的损失值或成本值。
107.根据本公开的实施例，作为通过将预训练模型#1用作初始状态、基于特定说话者b的语音数据来另外地训练预训练模型#1的结果，目标模型可以具有从预训练模型#1的多个神经网络层的多个权重值细化的值。
108.图4是用于描述根据本公开的实施例的tts模型生成模块1740的结构的图。
109.根据本公开的实施例，电子装置100的存储器1700(参见图33和图34)可以包括tts
模型生成模块1740。根据本公开的实施例，tts模型生成模块1740可以被实现为至少一个软件模块(或包括指令的至少一个程序模块)。
110.根据本公开的实施例，电子装置100的处理器1300(参见图33和图34)可以通过调用tts模型生成模块1740中包括的至少一个软件模块来执行操作。
111.根据本公开的实施例，tts模型生成模块1740可以包括预训练模型存储设备1701、数据特征分析模块1702、学习步骤数量确定模块1703、预训练模型确定模块1704、预训练模型生成模块1705和训练模块1706。
112.根据本公开的实施例，预训练模型存储设备1701可以存储一个或更多预训练模型(例如，预训练模型#1、#2和#3)。例如，预训练模型可以是预先学习了基于具有不同性别、音调、语调和发音的说话者的话语所得的语音数据的模型。
113.根据本公开的实施例，预训练模型存储设备1701可以存储由预训练模型(例如，预训练模型#1、#2和#3)预先学习的语音数据。
114.根据本公开的实施例，一个或更多预训练模型(例如，预训练模型#1、#2和#3)可以存储在外部装置(未示出)中。根据本公开的实施例，由预训练模型(例如，预训练模型#1、#2和#3)预先学习的语音数据可以存储在外部装置(未示出)中。
115.根据本公开的实施例，数据特征分析模块1702可以基于特定说话者的话语输入来获得目标语音数据。根据本公开的实施例，数据特征分析模块1702可以分析目标语音数据的数据特征。
116.根据本公开的实施例，目标语音数据可以是要被学习以生成目标模型的语音数据，并且是指基于特定说话者的话语而获得的语音数据，其中该特定说话者具有将用来提供tts服务的语音。
117.根据本公开的实施例，数据特征可以是语音数据的特征，并且包括数据量、声学特征、说话者特征或内容特征中的至少一者。
118.例如，作为目标语音数据的数据特征，数据特征分析模块1702可以分析出数据量对应于5分钟的持续时间，并且说话者是以中等节奏说韩国语的中年男性。
119.根据本公开的实施例，学习步骤数量确定模块1703可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
120.学习步骤数量确定模块1703可以基于目标语音数据的数据特征中的至少一者与用于预训练模型的预先训练的语音数据的数据特征中的至少一者之间的相似度来确定目标语音数据的学习步骤的数量。
121.根据本公开的实施例，学习步骤数量确定模块1703可以确定学习步骤的数量以最小化在训练过程期间由经训练模型获得的损失值。
122.根据本公开的实施例，预训练模型确定模块1704可以选择从存储在预训练模型存储设备1701中的一个或更多预训练模型(例如，#1、#2和#3)之中确定预训练模型的方法。
123.根据本公开的实施例，预训练模型确定模块1704可以从存储在预训练模型存储设备1701中的一个或更多预训练模型之中选择预训练模型，或者基于存储在预训练模型存储设备1701中的两个或更多预训练模型通过调用预训练模型生成模块1705来新生成预训练模型。预训练模型生成模块1705可以通过使用用于两个或更多所存储的预训练模型的预先训练的语音数据来新生成预训练模型。
124.根据本公开的实施例，预训练模型确定模块1704可以基于由数据特征分析模块1702分析的、目标语音数据的数据特征来从存储在预训练模型存储设备1701中的一个或更多预训练模型之中选择用于学习目标语音数据的预训练模型。
125.根据本公开的实施例，预训练模型确定模块1704可以基于由学习步骤数量确定模块1703确定的学习步骤的数量来从存储在预训练模型存储设备1701中的一个或更多预训练模型之中选择用于学习目标语音数据的预训练模型。
126.根据本公开的实施例，预训练模型确定模块1704可以将所选择的预训练模型确定为用于学习目标语音数据的预训练模型。
127.根据本公开的实施例，当预训练模型确定模块1704选择基于存储在预训练模型存储设备1701中的两个或更多预训练模型来新生成预训练模型的方法时，可以调用预训练模型生成模块1705。
128.根据本公开的实施例，预训练模型生成模块1705可以基于由数据特征分析模块1702分析的、目标语音数据的数据特征来从存储在预训练模型存储设备1701中的多个预训练模型之中选择第一经训练模型和第二经训练模型。预训练模型生成模块1705可以基于由数据特征分析模块1702分析的、目标语音数据的数据特征来确定用于第一经训练模型的训练的第一语音数据与用于第二经训练模型的训练的第二语音数据之间的组合比。预训练模型生成模块1705可以基于所确定的组合比来组合第一语音数据和第二语音数据。预训练模型生成模块1705可以通过将所组合的语音数据用作训练数据来生成预训练模型。
129.预训练模型生成模块1705可以基于由数据特征分析模块1702分析的、目标语音数据的数据特征来确定所组合的语音数据的学习步骤的数量。预训练模型生成模块1705可以基于所确定的学习步骤的数量通过将所组合的语音数据用作训练数据来生成预训练模型。
130.根据本公开的实施例，预训练模型确定模块1704可以将由预训练模型生成模块1705生成的预训练模型确定为用于学习目标语音数据的预训练模型。
131.根据本公开的实施例，训练模块1706可以基于目标语音数据根据由学习步骤数量确定模块1703确定的学习步骤的数量来训练由预训练模型确定模块1704确定的预训练模型。
132.根据本公开的实施例，训练模块1706可以通过将预训练模型用作初始状态、通过基于目标语音数据另外地训练由预训练模型确定模块1704确定的预训练模型来生成目标模型。
133.同时，tts模型生成模块1740中包括的至少一个软件模块(或包括指令的至少一个程序模块)可以存储在非暂时性计算机可读介质中。在这种情况下，至少一个软件模块可以由操作系统(os)或由某一应用提供。替代地，至少一个软件模块的一部分可以由os提供，而另一部分可以由某一应用提供。
134.tts模型生成模块1740的至少一个软件模块可以被包括在一个电子装置中，但本公开的实施例不限于此，并且至少一个软件模块可以单独地被包括在不同的电子装置中。
135.根据本公开的实施例，tts模型生成模块1740的至少一个软件模块可以以用于ai的专用硬件芯片的形式生产，或者生产为通用处理器(例如，中央处理单元(cpu)或应用处理器)或专用图形处理器(例如，图形处理单元(gpu))的一部分，并且安装在上述各种电子装置中。
136.图5是根据本公开的实施例的电子装置100的操作方法的流程图。图6是用于描述根据本公开的实施例的目标语音数据的数据特征的示例的表。图7是用于描述根据本公开的实施例的确定目标语音数据的学习步骤的数量的方法的示例的表。图8是用于描述根据本公开的实施例的目标语音数据的学习步骤的数量的示例的表。
137.现在将结合图6至图8描述图5的流程图。
138.图5示出用于生成用于在电子装置100提供tts服务时输出具有类似于特定说话者的语音的音频信号的目标模型的操作。
139.参考图5，在操作s501中，电子装置100可以基于特定说话者的话语输入来获得目标语音数据。
140.根据本公开的实施例，目标语音数据可以是基于具有要在电子装置100输出从输入文本转换而来的音频信号时使用的语音的特定说话者的话语而获得的语音数据。
141.根据本公开的实施例，电子装置100可以基于特定说话者通过麦克风1620(参见图34)的话语输入来获得目标语音数据。电子装置100可以基于从通过电子装置100的广播接收器1530(参见图34)或外部装置的广播接收器(未示出)接收的广播内容提取的、特定说话者的话语输入来获得目标语音数据。电子装置100可以基于从在呼叫连接期间存储的语音数据提取的、特定说话者的话语输入来获得目标语音数据。
142.根据本公开的实施例，电子装置100可以获得预先存储在电子装置100的存储器1700(参见图34)中的目标语音数据。电子装置100可以通过通信器1500(例如，收发器)(参见图34)从外部服务器获得目标语音数据。
143.在图5的操作s502中，电子装置100可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
144.根据本公开的实施例，目标语音数据的学习步骤的数量可以指用于通过将目标语音数据用作训练数据来训练预训练模型的步骤的数量。
145.根据本公开的实施例，数据特征可以是语音数据的特征，并且包括数据量、声学特征、说话者特征或内容特征中的至少一者。根据本公开的实施例，数据量可以指基于特定说话者的话语输入记录的语音数据的持续时间。例如，数据量可以按时间单位(例如，30秒或1小时)来计算。根据本公开的实施例，声学特征可以是语音数据中包括的音频信号的特征，并且是指与音质相关的特征。例如，声学特征可以包括采样率(fs)、带宽(bw)、信噪比(snr)和混响时间(rt)，但不限于此。
146.根据本公开的实施例，说话者特征可以是说出语音数据中包括的语音的说话者的特征，并且是指与话语相关的特征。例如，说话者特征可以包括性别(gend)、语言(lang)、基本频率/音高(f0/音高(pitch))和语速(节奏(tempo))，但不限于此。
147.根据本公开的实施例，内容特征可以指语音数据中包括的内容的类型。例如，内容特征可以包括新闻内容、儿童卡通内容和教育内容，但不限于此。
148.图6示出目标语音数据的数据特征之中的声学特征和说话者特征的示例。
149.图6示出预存储的表的示例，该预存储的表示出对应于目标语音数据的数据特征之中的声学特征(例如，fs、bw、snr和rt)和说话者特征(例如，gend、lang、f0/音高和节奏)的数据特征值(例如，二进制值)。
150.根据本公开的实施例，可从每种类型的目标语音数据分析的数据特征可以包括图
6所示的数据特征的至少一部分，并且还可以包括图6中未示出的数据特征。
151.参考图6的表，例如，在目标语音数据wav2(参见附图标记610)的声学特征之中，24kfs的采样率(fs)对应于数据特征值10(参见附图标记611)，11khz的bw对应于数据特征值01(参见附图标记612)，55db的snr对应于数据特征值11(参见附图标记613)，并且0.5s的rt对应于数据特征值10(参见附图标记614)。在目标语音数据wav2(参见附图标记610)的说话者特征之中，指示女童(f_kid)的性别(gend)对应于数据特征值11(参见附图标记615)，指示韩国语(kr)的语言(lang)对应于数据特征值00(参见附图标记616)，由基本频率/音高(f0/音高)指示的频率特征对应于数据特征值11(参见附图标记617)，并且120％的语速(节奏)对应于数据特征值11(参见附图标记618)。
152.根据本公开的实施例，参考图6的预存储的表，电子装置100可以计算出1001111011001111(参见附图标记620)作为目标语音数据wav2的数据特征值。
153.根据本公开的实施例，电子装置100可以通过使用某一学习步骤数量确定算法基于目标语音数据的数据特征值来确定目标语音数据的学习步骤的数量。
154.图7是用于描述基于目标语音数据的数据特征来确定目标语音数据的学习步骤的数量的方法的示例的表。
155.根据本公开的实施例，电子装置100可以基于目标语音数据的数据特征来确定目标语音数据的学习步骤的数量。
156.根据本公开的实施例，电子装置100可以基于目标语音数据的数据特征中的至少一者与用于预训练模型的预先训练的语音数据的数据特征中的至少一者之间的相似度来确定目标语音数据的学习步骤的数量。
157.根据本公开的实施例，电子装置100可以基于目标语音数据的数据量、目标语音数据的snr、rt、或指示目标语音数据与用于所确定的预训练模型的预先训练的语音数据之间的相似度的与预先的距离(distance to pre)中的至少一者通过使用图7的表来确定目标语音数据的学习步骤的数量。
158.根据本公开的实施例，如图7的表所示，用于基于数据特征来确定学习步骤的数量的数据可以以表的形式存储在电子装置100的存储器或外部装置的存储器中。
159.根据本公开的实施例，用于基于数据特征来确定学习步骤的数量的数据可以以算法的形式存储在电子装置100的存储器或外部装置的存储器中。
160.根据本公开的实施例，目标语音数据的学习步骤的数量可以被计算为根据目标语音数据的数据量(hrs)的步骤数量(q'ty)(a)与以下各者中的至少一者的乘积：根据snr的乘数(b)、根据rt的乘数(c)、根据与预先的距离的乘数(d)或根据内容类型的乘数(e)。
161.例如，参考图7的表，当目标数据的数据量对应于1hr至10hrs时，步骤数量(q'ty)可以被计算为数据量(hrs)
×
75k(参见附图标记701)。
162.例如，当snr是40db至55db时，学习步骤的数量可以被计算为(根据数据量的步骤数量)
×
1.25(参见附图标记702)。例如，当snr大于55db时，学习步骤的数量可以被计算为(根据数据量的步骤数量)
×
1(参见附图标记706)。
163.例如，当rt是0.5s至1.5s时，学习步骤的数量可以被计算为(根据数据量的步骤数量)
×
1.25(参见附图标记703)。例如，当rt少于0.5s时，学习步骤的数量可以被计算为(根据数据量的步骤数量)
×
1(参见附图标记707)。
164.例如，当与预先的距离是50％至75％时，学习步骤的数量可以被计算为(根据数据量的步骤数量)
×
1(参见附图标记704)。
165.根据本公开的实施例，与预先的距离可以指目标语音数据的数据特征中的至少一者与用于对用于学习目标语音数据的预训练模型进行预先训练的语音数据的数据特征中的至少一者之间的相似度(即，距离)。
166.例如，与预先的距离可以指示目标语音数据的声学特征之中的snr与用于预训练模型的预先训练的语音数据的声学特征之中的snr之间的相似度。例如，与预先的距离可以指示目标语音数据的说话者特征之中的性别和语言与用于预训练模型的预先训练的语音数据的说话者特征之中的性别和语言之间的相似度。
167.例如，当内容类型的相似度是50％至75％时，学习步骤的数量可以被计算为(根据数据量的步骤数量)
×
1(参见附图标记705)。
168.根据本公开的实施例，内容类型指示目标语音数据中包括的内容的类型，例如新闻内容、儿童卡通内容或教育内容。根据内容类型的乘数(e)可以指目标语音数据的内容与用于对用于学习目标语音数据的预训练模型进行预先训练的语音数据的内容之间的类型相似度。
169.作为示例，现在将参考图7的表来描述目标语音数据具有对应于2hrs的数据量(参见附图标记701)、50db的snr(参见附图标记702)、0.5sec的rt(参见附图标记703)、60％的与预先的距离(参见附图标记704)和60％的内容相似度(参见附图标记705)的情况。根据目标语音数据的数据量(2hrs)的步骤数量(q'ty)(a)是2hrs
×
75k(参见附图标记701)，根据snr的乘数(b)是
×
1.25，根据rt的乘数(c)是
×
1.25，根据与预先的距离的乘数(d)是
×
1，并且根据内容类型的乘数(e)是
×
1。因此，目标语音数据的学习步骤的数量可以被计算为(a)
×
(b)
×
(c)
×
(d)
×
(e)，即，2hrs
×
75k
×
1.25
×
1.25
×1×
1＝234.375k。
170.图7仅示出示例，并且本公开不限于此。
171.图8示出基于目标语音数据的包括数据量在内的数据特征确定的、目标语音数据的学习步骤的数量的示例。可以参考图7的表来确定图8中的目标语音数据的学习步骤的数量。
172.例如，对于目标语音数据wav2(参见附图标记801)，由于图7的表示出根据对应于2hrs的数据量的步骤数量(q'ty)(a)是hrs
×
75k(参见附图标记701)、根据60db的snr的乘数(b)是
×
1(参见附图标记706)并且根据0.3s的rt的乘数(c)是
×
1(参见附图标记707)，因此，目标语音数据wav2的学习步骤的数量可以被计算为(a)
×
(b)
×
(c)，即，2hrs
×
75k
×1×
1＝150k(参见附图标记802)。
173.在图5的操作s503中，电子装置100可以通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练被预先训练为将文本转换成音频信号的预训练模型而生成目标模型。
174.根据本公开的实施例，为了生成目标模型，电子装置100可以确定用于学习目标语音数据的预训练模型。根据本公开的实施例，电子装置100可以从存储在存储器1700中的一个或更多预训练模型之中选择用于学习目标语音数据的预训练模型。替代地，电子装置100可以基于存储在存储器1700中的两个或更多预训练模型来新生成用于学习目标语音数据的预训练模型。电子装置100可以通过使用用于所存储的两个或更多预训练模型的预先训
练的语音数据来新生成预训练模型。下面将参考图15描述其详细方法。
175.根据本公开的实施例，电子装置100可以通过将预训练模型用作初始状态通过基于目标语音数据另外地训练所确定的预训练模型来生成目标模型。
176.在图5的操作s504中，电子装置100可以通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据。
177.根据本公开的实施例，输入文本可以指用于提供tts服务的文本。电子装置100可以获得基于用户输入获得的文本、从预先存储的内容提取的文本或作为执行应用的结果生成的文本中的至少一者作为输入文本。
178.根据本公开的实施例，电子装置100可以通过将所获得的输入文本输入到目标模型来生成通过将输入文本转换成音频信号而获得的输出数据。
179.在图5的操作s505中，电子装置100可以输出所生成的输出数据。
180.根据本公开的实施例，电子装置100可以通过声音输出器1230(参见图34)来输出具有类似于由目标模型学习的特定说话者的语音的音频信号。
181.图5至图8仅示出本公开的实施例，并且本公开不限于此。
182.图9是用于描述根据本公开的实施例的确定预训练模型的方法的示例的流程图。
183.参考图9，在操作s901中，根据本公开的实施例的电子装置100的预训练模型确定模块1704(参见图4)可以选择用于确定预训练模型的方法。
184.根据本公开的实施例，预训练模型确定模块1704(参见图4)可以从一个或更多预先存储的预训练模型之中选择预训练模型以学习目标语音数据(操作s902)。替代地，预训练模型确定模块1704(参见图4)可以基于多个预先存储的预训练模型来生成预训练模型以学习目标语音数据(操作s903)。
185.根据本公开的实施例，一个或更多预训练模型可以存储在预训练模型存储设备1701(参见图4)中。
186.根据本公开的实施例，选择预先存储的预训练模型(操作s902)的方法可以提供快速结果，因为需要少量的计算。
187.根据本公开的实施例，生成预训练模型(操作s903)的方法可能不会提供快速结果，因为需要大量的计算来新生成用于学习目标语音数据的最佳预训练模型，但可以提供与目标语音具有高相似度的结果。
188.根据本公开的实施例，电子装置100可以基于用户的选择来设置或改变用于确定预训练模型的方法。
189.例如，用户可以选择并设置用于接收快速服务结果的选项。在这种情况下，电子装置100可以通过以下来提供快速结果：从预先存储的预训练模型之中选择适当的预训练模型，并且通过将预训练模型用作初始状态基于目标语音数据来训练所选择的预训练模型。
190.例如，用户可以选择并设置用于接收与目标语音具有高相似度的服务结果的选项。在这种情况下，电子装置100可以通过以下来提供与目标语音具有高相似度的结果：通过使用用于两个或更多预先存储的预训练模型的预先训练的语音数据来新生成最佳预训练模型，并且通过将预训练模型用作初始状态基于目标语音数据来训练所生成的预训练模型。
191.根据本公开的实施例，预训练模型确定模块1704(参见图4)可以基于电子装置100
的硬件(hw)资源来选择用于确定预训练模型的方法。
192.例如，在确定可能无法适当地执行大量计算时，电子装置100的处理器1300(参见图34)可以选择用于从预先存储的预训练模型之中选择用于学习目标语音数据的预训练模型的方法。在确定可以适当地执行大量计算时，电子装置100的处理器1300(参见图34)可以选择用于基于预先存储的预训练模型来新生成用于学习目标语音数据的预训练模型的方法。
193.例如，电子装置100可以优先地通过使用从预先存储的预训练模型之中选择预训练模型的方法来提供快速服务结果，并且另外地通过使用基于预先存储的预训练模型而新生成预训练模型的方法来提供与目标语音具有高相似度的结果。
194.图9仅示出本公开的实施例，并且本公开不限于此。
195.图10是用于描述根据本公开的实施例的选择预训练模型的示例的流程图。图11是用于描述根据本公开的实施例的选择预训练模型的示例的流程图。图12是用于描述根据本公开的实施例的存储在存储器中的预训练模型的示例的表。图13是用于描述根据本公开的实施例的选择预训练模型的示例的表。
196.现在将结合图12和图13描述图10和图11的流程图。
197.参考图10，在操作s1001中，电子装置100可以基于目标语音数据的数据特征从存储在存储器1700中的一个或更多预训练模型之中选择预训练模型以学习目标语音数据。
198.例如，当目标语音数据是通过记录女童b的语音获得的数据时，可以通过将预训练模型用作初始状态来提高学习效率，其中该预训练模型已经预先学习了女童的、具有与目标语音数据类似的数据特征的语音数据。
199.参考图12，电子装置100的预训练模型存储设备1701(参见图4)可以存储一个或更多预训练模型。图12示出根据每个预训练模型的标识符(id)而存储的数据的示例。
200.例如，根据每个预先存储的模型的id，可以存储与由预训练模型预先学习的语音数据的声学特征(例如，fs和bw)、说话者特征(例如，gend、lang、f0/音高和节奏)和预学习步骤的数量有关的数据。
201.图13示出目标语音数据wav2的数据特征和学习步骤的数量的示例。例如，可以由电子装置100来分析所获得的目标语音数据wav2的声学特征(例如，fs和bw)和说话者特征(例如，gend、lang、f0/音高和节奏)。
202.根据本公开的实施例，电子装置100可以选择能够基于目标语音数据的所分析的数据特征(参见图13)与由预训练模型预先学习的语音数据的数据特征(参见图12)之间的比较来提高学习目标语音数据的效率的预训练模型。
203.在图10的步骤s1002中，电子装置100可以通过将目标语音数据用作训练数据来训练所选择的预训练模型而生成目标模型。
204.图11示出根据本公开的实施例的基于目标语音数据的学习步骤的数量来选择预训练模型的示例。
205.参考图11，在操作s1101中，电子装置100可以基于目标语音数据的学习步骤的数量从存储在存储器中的一个或更多预训练模型之中选择预训练模型以学习目标语音数据。
206.参考图13，根据本公开的实施例，可以由电子装置100基于目标语音数据wav2的数据特征中的至少一者来确定目标语音数据wav2的学习步骤的数量。
207.根据本公开的实施例，电子装置100可以基于图13中的目标语音数据wav2的学习步骤的数量来从预先存储的预训练模型之中选择预训练模型(参见图12)。
208.参考图11，在步骤s1102中，电子装置100可以通过将目标语音数据用作训练数据来训练所选择的预训练模型而生成目标模型。
209.图10至图13示出本公开的进一步的实施例，并且本公开不限于此。
210.图14是用于描述根据本公开的实施例的生成预训练模型的示例的流程图。
211.参考图14，在操作s1401中，电子装置100可以基于存储在存储器中的多个预训练模型来生成预训练模型以学习目标语音数据。
212.根据本公开的实施例，代替仅使用预先存储在存储器中的预训练模型，电子装置100可以基于多个预先存储的预训练模型来生成新的预训练模型以基于目标语音数据更适当地被训练。下面将参考图15描述其详细方法。
213.在图14的步骤s1402中，电子装置100可以通过将目标语音数据用作训练数据来训练所生成的预训练模型而生成目标模型。
214.根据本公开的实施例，电子装置100可以通过将预训练模型用作初始状态基于目标语音数据另外地训练所生成的预训练模型。
215.图15是用于描述根据本公开的实施例的生成预训练模型的详细方法的示例的流程图。
216.参考图15，在操作s1501中，电子装置100可以基于目标语音数据的数据特征从存储在存储器中的多个预训练模型之中选择第一经训练模型和第二经训练模型。
217.根据本公开的实施例，电子装置100可以基于目标语音数据的数据特征与由存储在存储器中的多个预训练模型预先学习的语音数据的数据特征之间的比较来选择已经预先学习了具有类似特征的语音数据的多个预训练模型。
218.在图15的操作s1502中，电子装置100可以基于目标语音数据的数据特征来确定用于第一经训练模型的训练的第一语音数据与用于第二经训练模型的训练的第二语音数据之间的组合比。在图15的操作s1503中，电子装置100可以基于组合比来组合第一语音数据和第二语音数据。
219.例如，在将7比3的比率确定为用于第一经训练模型的训练的第一语音数据与用于第二经训练模型的训练的第二语音数据之间的组合比之后，电子装置100可以按70％的第一语音数据与30％的第二语音数据的比率来组合第一语音数据和第二语音数据。
220.在图15的步骤s1504中，电子装置100可以通过将所组合的语音数据用作训练数据来生成预训练模型。
221.例如，电子装置100可以通过使用包括70％的第一语音数据和30％的第二语音数据的训练数据训练未训练的初始状态模型来生成预训练模型。
222.图16是用于描述根据本公开的实施例的生成预训练模型的详细方法的示例的流程图。
223.参考图16，在操作s1601中，电子装置100可以基于目标语音数据的数据特征来确定所组合的语音数据的学习步骤的数量。
224.例如，电子装置100可以基于目标语音数据的数据特征来确定在图15的操作s1503中组合的、包括70％的第一语音数据和30％的第二语音数据的训练数据的学习步骤的数
量。
225.在图16的操作s1602中，电子装置100可以基于所确定的学习步骤的数量通过将所组合的语音数据用作训练数据来生成预训练模型。
226.例如，电子装置100可以通过以下来生成预训练模型：使用包括70％的第一语音数据和30％的第二语音数据的训练数据、经由在操作s1601中确定的学习步骤的数量来训练未训练的初始状态模型。
227.图14至图16仅示出本公开的实施例，并且本公开不限于此。
228.图17是用于描述根据本公开的实施例的基于预训练模型来确定初始学习率和衰减方法的示例的流程图。
229.根据本公开的实施例，电子装置100可以基于预训练模型的预学习步骤的数量通过将目标语音数据用作训练数据来确定用于训练预训练模型的初始学习率。
230.根据本公开的实施例，学习率可以指指示在经训练模型学习训练数据时在当前学习步骤中学习的数据被反映到整个神经网络的权重值的程度的参数。学习率可以指用于确定整个神经网络的权重值因当前学习步骤而被调整的程度的参数。例如，权重值可以在学习率高时在每一学习步骤极大地变化，并且可以在学习率低时在每一学习步骤细微变化。
231.根据本公开的实施例，学习率可以设置为每当学习步骤迭代时进行衰减。根据本公开的实施例的衰减方法可以指每当学习步骤迭代时使学习率衰减的方法。例如，衰减方法可以指使学习率以某一比率衰减的方法，或者使学习率在每个学习周期不同地衰减的方法。
232.根据本公开的实施例，初始学习率可以指在模型的初始学习步骤中设置的学习率。根据本公开的实施例，最终学习率可以指在模型的最终学习步骤中设置的学习率。
233.参考图17，在操作s1701中，电子装置100可以确定预训练模型。
234.如上面关于图9至图16所述，根据本公开的实施例，预训练模型确定模块1704(参见图4)可以从一个或更多预先存储的预训练模型之中选择预训练模型以学习目标语音数据(操作s902)，或者基于多个预先存储的预训练模型来生成预训练模型以学习目标语音数据(操作s903)。
235.在图17的操作s1702中，电子装置100可以基于所确定的预训练模型的预学习步骤的数量来确定目标语音数据的初始学习率或学习率衰减方法中的至少一者。
236.根据本公开的实施例，电子装置100可以基于所确定的预训练模型的预学习步骤的数量来确定目标语音数据的初始学习率。
237.例如，当所确定的预训练模型是通过200k学习步骤被预先训练的模型并且最终学习率是1时，以及当基于目标语音数据来另外地训练所确定的预训练模型时，电子装置100可以基于预训练模型的最终学习率来将目标语音数据的初始学习率确定为1。
238.根据本公开的实施例，电子装置100可以基于所确定的预训练模型的预学习步骤的数量来确定目标语音数据的学习率衰减方法。根据本公开的实施例，当基于目标语音数据来另外地训练所确定的预训练模型时，电子装置100可以维持用于预训练模型的预先训练的学习率衰减方法。
239.在图17的操作s1703中，电子装置100可以训练所确定的预训练模型。
240.根据本公开的实施例，电子装置100可以通过基于所确定的初始学习率、通过将目
标语音数据用作训练数据来训练预训练模型而生成目标模型。
241.根据本公开的实施例，电子装置100可以通过基于所确定的学习率衰减方法、通过将目标语音数据用作训练数据来训练所确定的预训练模型而生成目标模型。
242.图18是用于描述根据本公开的实施例的设置初始学习率和衰减方法的示例的流程图。
243.参考图18，在操作s1801中，电子装置100可以确定预训练模型。
244.如上面关于图9至图16所述，根据本公开的实施例，预训练模型确定模块1704(参见图4)可以从一个或更多预先存储的预训练模型之中选择用于学习目标语音数据的预训练模型(操作s902)，或者基于多个预先存储的预训练模型来生成用于学习目标语音数据的预训练模型(操作s903)。
245.在图18的操作s1802中，电子装置100可以基于预设标准来设置目标语音数据的初始学习率或学习率衰减方法中的至少一者。
246.根据本公开的实施例，电子装置100可以基于预设标准来设置用于通过将目标语音数据用作训练数据来训练预训练模型的初始学习率。
247.根据本公开的实施例，电子装置100可以将初始学习率设置为在预设范围内小于所确定的预训练模型的最终学习率的值。在这种情况下，与初始学习率被设置为预训练模型的最终学习率的情况相比，所生成的目标模型可以生成具有更低发音错误率的输出数据。
248.例如，当所确定的预训练模型是通过200k学习步骤被预训练的模型并且最终学习率是1时，以及当基于目标语音数据来另外地训练所确定的预训练模型时，电子装置100可以将目标语音数据的初始学习率设置为0.4。因此，可以生成用于生成具有更低发音错误率的输出数据的目标模型。
249.根据本公开的实施例，为了生成具有低得多的发音错误率(即，在发音准确性方面具有高性能)的目标模型，电子装置100可以将初始学习率设置为在预设范围内小于所确定的预训练模型的最终学习率的值。
250.例如，电子装置100可以基于生成在发音准确性方面具有高性能的目标模型的预设优先级来将初始学习率设置为在预设范围内小于所确定的预训练模型的最终学习率的值。
251.例如，电子装置100可以基于用于请求生成在发音准确性方面具有高性能的目标模型的用户输入来将初始学习率设置为在预设范围内小于所确定的预训练模型的最终学习率的值。
252.根据本公开的实施例，在确定所确定的预训练模型的预先训练的步骤的数量小于预设阈值时，电子装置100可以将目标语音数据的初始学习率设置为在预设范围内小于预训练模型的最终学习率的值。这是因为，当预训练模型的预学习步骤的数量相当少时，根据预学习步骤的数量的最终学习率被估计为相当大的值。
253.根据本公开的实施例，电子装置100可以将初始学习率设置为在预设范围内大于所确定的预训练模型的最终学习率的值。在这种情况下，与初始学习率被设置为预训练模型的最终学习率的情况相比，所生成的目标模型可以生成与目标语音具有更高相似度的输出数据。
254.例如，当所确定的预训练模型是通过1000k学习步骤被预训练的模型并且最终学习率是0.4时，以及当基于目标语音数据来另外地训练所确定的预训练模型时，电子装置100可以将目标语音数据的初始学习率设置为1。因此，可以生成用于生成与目标语音具有高相似度的输出数据的目标模型。
255.根据本公开的实施例，为了生成在与目标语音的相似度方面具有高性能的目标模型，电子装置100可以将初始学习率设置为在预设范围内大于所确定的预训练模型的最终学习率的值。
256.例如，电子装置100可以基于生成在与目标语音的相似度方面具有高性能的目标模型的预设优先级来将初始学习率设置为在预设范围内大于所确定的预训练模型的最终学习率的值。
257.例如，电子装置100可以基于用于请求生成在与目标语音的相似度方面具有高性能的目标模型的用户输入来将初始学习率设置为在预设范围内大于所确定的预训练模型的最终学习率的值。
258.根据本公开的实施例，在确定出所确定的预训练模型的预先训练的步骤的数量大于预设阈值时，电子装置100可以将目标语音数据的初始学习率设置为在预设范围内大于预训练模型的最终学习率的值。这是因为，当预训练模型的预学习步骤的数量相当大时，根据预学习步骤的数量的最终学习率被估计为相当小的值。
259.根据本公开的实施例，电子装置100可以将学习率设置为每当学习步骤迭代时就根据预设衰减方法进行衰减。
260.根据本公开的实施例，电子装置100可以基于预设标准来设置目标语音数据的学习率衰减方法。根据本公开的实施例，电子装置100可以将衰减方法设置为与所确定的预训练模型的学习率相比在预设范围内更快地衰减。根据本公开的实施例，电子装置100可以在每个学习周期不同地设置衰减方法。因此，与维持预训练模型的学习率衰减方法时的情况相比，所生成的目标模型可以生成具有更低发音错误率的输出数据。
261.例如，当经由总共200k学习步骤通过使学习率在每100k学习步骤衰减50％来预先训练所确定的预训练模型时，为了基于目标语音数据来另外地训练预训练模型，电子装置100可以将学习率设置为每10k学习步骤衰减50％。例如，电子装置100可以将学习率设置为在初始10k学习步骤的学习周期中每10k学习步骤衰减50％，并且在后续学习周期中每10k学习步骤衰减10％。
262.根据本公开的实施例，电子装置100可以将衰减方法设置为与所确定的预训练模型的学习率相比在预设范围内更慢地衰减。电子装置100可以在每个学习周期不同地设置衰减方法。因此，与维持预训练模型的学习率衰减方法的情况相比，所生成的目标模型可以生成与目标说话者具有更高相似度的输出数据。
263.例如，当经由总共200k学习步骤通过使学习率在每100k学习步骤衰减50％来预先训练所确定的预训练模型时，为了基于目标语音数据来另外地训练预训练模型，电子装置100可以将学习率设置为每200k学习步骤衰减50％。例如，电子装置100可以将学习率设置为在初始10k学习步骤的学习周期中每200k学习步骤衰减50％，并且在后续学习周期中每200k学习步骤衰减10％。
264.例如，为了基于目标语音数据来另外地训练预训练模型，电子装置100可以将学习
率设置为在初始特定范围的学习周期中增加(即，在负方向上衰减)并且在后续学习周期中衰减。
265.例如，为了基于目标语音数据来另外地训练预训练模型，电子装置100可以设置学习率，以此方式使得学习率增加(即，在负方向上衰减)的周期和学习率衰减的周期交替。
266.根据本公开的实施例，衰减方法可以使用某一算法或程序来计算，并且不限于上述示例。
267.在图18的操作s1803中，电子装置100可以训练所确定的预训练模型。
268.根据本公开的实施例，电子装置100可以通过基于所设置的初始学习率通过将目标语音数据用作训练数据来训练预训练模型而生成目标模型。
269.根据本公开的实施例，电子装置100可以通过基于所设置的学习率衰减方法通过将目标语音数据用作训练数据来训练预训练模型而生成目标模型。
270.根据本公开的实施例，电子装置100可以设置与所确定的学习步骤的总数量之中的第一学习周期对应的第一初始学习率以及与在第一学习周期之后的第二学习周期对应的第二初始学习率。
271.例如，为了通过总共2000k学习步骤来训练预训练模型，电子装置100可以设置第一学习周期(例如，初始100k学习步骤)的第一初始学习率，并且设置第二学习周期(例如，后续学习步骤)的在预设范围内衰减的第二初始学习率。
272.图17和图18仅仅用于描述示例，并且本公开不限于此。
273.图19至图26示出根据本公开的实施例的电子装置100的用户界面的示例。
274.例如，可以通过执行应用来生成这样的tts模型(即，目标模型)，该目标模型用于通过使用类似于用户期望的目标语音(例如，诸如名人或父亲的特定说话者的语音)的语音来提供tts服务。
275.图19、图20和图23至图26示出用于生成目标模型的应用的启动屏幕的示例。
276.参考图19，根据本公开的实施例，为了获得目标语音数据，电子装置100可以显示用于选择诸如“输入语音(input voice)”191或“打开语音文件(open voice file)”192的菜单的用户界面。
277.根据本公开的实施例，当基于用户输入选择了“输入语音”191时，电子装置100可以通过麦克风1620(参见图34)来获得用户说出的语音。
278.参考图20，电子装置100可以显示用于引导用户的话语的屏幕201。电子装置100可以通过麦克风1620(参见图34)来获得用户说出的语音。
279.例如，电子装置100可以提供某些语句示例来供用户阅读，并且通过麦克风1620(参见图34)来获得用户说出的语音，但不限于此。
280.根据本公开的实施例，当基于用户输入在图19的用户界面上选择了“打开语音文件”192时，电子装置100可以获得预先存储在存储器1700(参见图34)中的语音数据。
281.根据本公开的实施例，电子装置100可以通过通信器1500(参见图34)从外部装置(未示出)接收目标语音数据。
282.根据本公开的实施例，电子装置100可以基于从在呼叫连接期间存储的语音数据提取的、特定说话者的话语输入来获得目标语音数据。
283.参考图21，当连接与预设的特定人的电话呼叫时，电子装置100可以提供用于记录
与特定人的呼叫的通知消息(例如，“记录呼叫”211)或通知声音。
284.例如，电子装置100可以响应于在呼叫期间接收到预设用户输入而记录呼叫。
285.根据本公开的实施例，电子装置100可以基于从通过电子装置100的广播接收器1530(参见图34)或外部显示装置300的广播接收器(未示出)接收的广播内容提取的、特定说话者的话语输入来获得目标语音数据。
286.参考图22，当预设的特定人的语音被包括在广播内容中时，外部显示装置300可以存储特定人的语音数据221并且将所存储的语音数据221传输到电子装置100。
287.例如，外部显示装置300可以执行图像识别以识别广播内容中包括的人脸，并且当预设的特定人被包括在广播内容中时，存储特定人的语音数据221并且将所存储的语音数据221传输到电子装置100。
288.例如，响应于在显示广播内容时接收到预设用户输入，外部显示装置300可以存储广播内容的语音数据221并且将所存储的语音数据221传输到电子装置100。
289.例如，当预设的特定人被包括在视频中或响应于在再现视频时接收到预设用户输入，外部显示装置300可以存储视频的语音数据221并且将所存储的语音数据221传输到电子装置100。
290.例如，当内容包括字幕数据时，外部显示装置300可以将语音数据221和对应于语音数据221的字幕数据传输到电子装置100。语音数据221和对应于语音数据221的字幕数据可以被用作训练数据。
291.图23是用于描述根据本公开的实施例的用于在生成tts模型时生成用户的优先级的用户界面的示例的图。
292.参考图23，电子装置100可以显示优先级设置屏幕231，该优先级设置屏幕231包括：例如，i)发音准确性，ii)语音相似度，以及iii)快速结果。
293.根据本公开的实施例，电子装置100可以根据基于用户输入设置的优先级来选择生成最佳匹配用户期望的优先级的tts模型的方法。
294.例如，当接收到用于设置发音准确性的优先级的用户输入时，电子装置100可以确定所获得的目标语音数据的包括数据量的数据特征，并且在必要时显示用于引导语音数据的附加输入的屏幕。例如，电子装置100可以通过显示用于询问是否可提供通过记录特定人的语音而获得的其它数据的用户界面或通过在可能时显示用于引导目标说话者的直接话语输入的用户界面来另外地获得目标语音数据。
295.例如，当接收到用于设置语音相似度的优先级的用户输入时，电子装置100可以通过增加目标语音数据的学习步骤的数量来学习目标语音数据。
296.例如，当接收到用于设置快速结果的优先级的用户输入时，电子装置100可以将确定预训练模型的方法确定为选择预先存储在存储器中的预训练模型中的一者的方法(参见图9的操作s902)。
297.图24是用于描述根据本公开的实施例的用于检查生成tts模型的结果的用户界面的示例的图。
298.图24示出由电子装置100用来向用户通知tts模型的生成已完成的屏幕的示例。
299.例如，当接收到用于选择“目标语音”241的用户输入时，电子装置100可以通过声音输出器1230(参见图34)来再现目标语音数据。
300.例如，当接收到用于选择“检查结果”242的用户输入时，电子装置100可以通过声音输出器1230(参见图34)来再现所生成的tts模型的输出数据。
301.图25是用于描述根据本公开的实施例的用于测试tts模型的用户界面的示例的图。
302.图25示出向用户提供的用于测试从所生成的tts模型输出的语音的用户界面的示例。
303.例如，电子装置100可以显示用于接收某文本输入的区域251。当在显示的区域251上输入文本时，电子装置100可以通过将输入文本输入到所生成的tts模型来生成输出数据。
304.例如，当接收到用于选择“检查结果”252的用户输入时，电子装置100可以通过声音输出器1230(参见图34)来输出所生成的输出数据。
305.图26是用于描述根据本公开的实施例的用于选择tts模型的重新生成的用户界面的示例的图。
306.例如，参考图26，当接收到用于选择“保存tts模型”261的用户输入时，电子装置100可以将所生成的tts模型存储在存储器1700(参见图34)中。
307.例如，当接收到用于选择“重新生成tts模型”262的用户输入时，电子装置100可以重新生成tts模型。
308.电子装置100可以显示优先级设置屏幕263，该优先级设置屏幕263包括：例如i)发音准确性，ii)语音相似度，以及iii)快速结果。
309.如上文关于图23所述，电子装置100可以根据基于用户输入设置的优先级来重选用于生成最佳匹配用户期望的优先级的tts模型的方法，并且重新生成tts模型。
310.例如，当接收到用于设置语音相似度的优先级的用户输入时，电子装置100可以通过增加目标语音数据的学习步骤的数量来另外地学习目标语音数据。
311.在这种情况下，电子装置100可以显示用于向用户通知例如与目标语音的语音相似度可以增加但发音准确性可能降低的屏幕。
312.例如，电子装置100可以响应于接收到用于接受语音相似度可以增加但发音准确性可能降低的用户输入而通过另外地学习目标语音数据来重新生成tts模型。
313.图19至图26仅示出本公开的实施例，并且本公开不限于此。
314.图27是用于描述根据本公开的实施例的电子装置100和服务器200的操作的图。
315.根据本公开的实施例，电子装置100可以通过通信网络将数据传输到外部服务器200和从外部服务器200接收数据。
316.尽管在图1至图26中描述了由电子装置100执行的操作，但本公开不限于此。例如，至少一些操作可以由电子装置100执行，至少一些操作可以由外部服务器200在电子装置100的请求下执行，并且电子装置100可以从外部服务器200接收操作结果。
317.图28至图32示出由电子装置100和服务器200执行以提供tts服务的操作的示例。
318.本文中将不重复上文关于图1至图26详细地提供的描述。
319.图28是用于描述根据本公开的实施例的电子装置100和服务器200的操作的示例的流程图。
320.图28示出服务器200存储预训练模型并且在电子装置100的请求下生成目标模型
的示例。
321.在图28的操作s2801中，服务器200可以存储一个或更多预训练模型。
322.根据本公开的实施例，服务器200可以生成并存储预训练模型。根据本公开的实施例，服务器200可以接收并存储由另一装置(未示出)生成的预训练模型。
323.在图28的操作s2802中，电子装置100可以获得目标语音数据。
324.在图28的操作s2803中，电子装置100可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
325.在图28的操作s2804中，电子装置100可以向服务器200传输目标语音数据、关于学习步骤的数量的信息和关于预训练模型的信息。
326.根据本公开的实施例，电子装置100可以请求服务器200来生成tts模型以提供具有类似于目标语音数据的语音的tts服务。
327.根据本公开的实施例，电子装置100可以基于目标语音数据的数据特征和/或学习步骤的数量来确定关于预训练模型的信息，并且将所确定的关于预训练模型的信息提供到服务器200。
328.根据本公开的实施例，关于预训练模型的信息可以包括用于选择适合于学习目标语音数据的预训练模型的标准信息。例如，电子装置100可以向服务器200提供用于基于目标语音数据的数据特征之中的说话者特征来确定这样的预训练模型的标准信息，其中该预训练模型已经基于性别和语言与目标语音数据的说话者相同且年龄相似的说话者的话语预先学习了语音数据。
329.在图28的操作s2805中，服务器200可以通过基于学习步骤的数量通过将目标语音数据用作训练数据来训练预训练模型而生成目标模型。
330.根据本公开的实施例，为了生成目标模型，服务器200最初可以基于从电子装置100接收的、关于预训练模型的信息来确定用于学习目标语音数据的预训练模型。根据本公开的实施例，服务器200可以通过从所存储的预训练模型之中选择预训练模型或通过基于所存储的预训练模型生成新的预训练模型来确定预训练模型。
331.根据本公开的实施例，服务器200最初可以基于从电子装置100接收的关于学习步骤的数量的信息通过基于目标语音数据来训练所确定的预训练模型而生成目标模型。
332.在图28的操作s2806中，服务器200可以将目标模型传输到电子装置100。
333.在图28的操作s2807中，电子装置100可以通过使用目标模型来生成通过将输入文本转换成音频信号而获得的输出数据。在图28的操作s2808中，电子装置100可以输出所生成的输出数据。
334.根据本公开的实施例，电子装置100可以通过接收由服务器200生成的目标模型来向用户提供tts服务。
335.图29是用于描述根据本公开的实施例的电子装置100和服务器200的操作的示例的流程图。
336.图29示出服务器200存储预训练模型并且在电子装置100的请求下确定目标语音数据的学习步骤的数量并生成目标模型的示例。
337.在图29的操作s2901中，服务器200可以存储一个或更多预训练模型。
338.在图29的操作s2902中，电子装置100可以获得目标语音数据。
339.在图29的操作s2903中，电子装置100可以将目标语音数据传输到服务器200。
340.根据本公开的实施例，电子装置100可以请求服务器200来生成用于提供具有类似于目标语音数据的语音的tts服务的tts模型。
341.在图29的操作s2904中，服务器200可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
342.在图29的操作s2905中，服务器200可以通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练预训练模型而生成目标模型。
343.根据本公开的实施例，为了生成目标模型，服务器200最初可以基于目标语音数据的数据特征来确定用于学习目标语音数据的预训练模型。根据本公开的实施例，服务器200可以通过从所存储的预训练模型之中选择预训练模型或通过基于所存储的预训练模型来生成新的预训练模型而确定预训练模型。
344.根据本公开的实施例，服务器200可以基于所确定的学习步骤的数量、通过基于目标语音数据通过将预训练模型用作初始状态另外地训练所确定的预训练模型来生成目标模型。在图29的操作s2906中，服务器200可以将目标模型传输到电子装置100。
345.在图29的操作s2907中，电子装置100可以通过使用目标模型来生成通过将输入文本转换成音频信号而获得的输出数据。在图29的操作s2908中，电子装置100可以输出所生成的输出数据。
346.根据本公开的实施例，电子装置100可以通过接收由服务器200生成的目标模型来向用户提供tts服务。
347.图30是用于描述根据本公开的实施例的电子装置100和服务器200的操作的示例的流程图。
348.图30示出服务器200存储预训练模型并且在电子装置100的请求下获得目标语音数据、确定学习步骤的数量并生成目标模型的示例。
349.在图30的操作s3001中，服务器200可以存储一个或更多预训练模型。
350.在图30的操作s3002中，电子装置100可以将关于目标语音数据的信息传输到服务器200。
351.根据本公开的实施例，电子装置100可以请求服务器200来基于关于目标语音数据的信息生成用于提供具有与目标语音类似的语音的tts服务的tts模型。
352.根据本公开的实施例，关于目标语音数据的信息可以是说话者信息，并且包括特定人的姓名或者说话者的性别、年龄和语言。
353.例如，关于目标语音数据的信息可以包括特定人的姓名，例如名人的姓名。
354.根据本公开的实施例，电子装置100可以基于用户输入来获得关于目标语音数据的信息。作为执行某一应用的结果，电子装置100可以获得关于目标语音数据的信息。
355.在图30的操作s3003中，服务器200可以获得目标语音数据。
356.根据本公开的实施例，服务器200可以基于关于目标语音数据的信息(例如，名人的姓名)来获得目标语音数据。
357.根据本公开的实施例，服务器200可以将语音数据的多个片段存储在存储器2700(参见图35)中。服务器200可以基于关于目标语音数据的信息来从外部装置(未示出)获得语音数据。
358.例如，服务器200可以预先将所存储的语音数据列表提供到电子装置100，并且从电子装置100接收关于目标语音数据的信息。服务器200可以基于关于目标语音数据的信息来获得目标语音数据，并且生成用于提供具有与目标语音类似的语音的tts服务的目标模型。
359.在图30的操作s3004中，服务器200可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
360.在图30的操作s3005中，服务器200可以通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练预训练模型而生成目标模型。
361.根据本公开的实施例，为了生成目标模型，服务器200最初可以基于目标语音数据的数据特征来确定用于学习目标语音数据的预训练模型。根据本公开的实施例，服务器200可以通过从所存储的预训练模型之中选择预训练模型或通过基于所存储的预训练模型来生成新的预训练模型而确定预训练模型。
362.根据本公开的实施例，服务器200可以基于所确定的学习步骤的数量、通过基于目标语音数据通过将预训练模型用作初始状态另外地训练所确定的预训练模型来生成目标模型。
363.在图30的操作s3006中，服务器200可以将所生成的目标模型传输到电子装置100。
364.在图30的操作s3007中，电子装置100可以通过使用目标模型来生成通过将输入文本转换成音频信号而获得的输出数据。在图30的操作s3008中，电子装置100可以输出所生成的输出数据。
365.根据本公开的实施例，电子装置100可以通过接收由服务器200生成的目标模型来向用户提供tts服务。
366.图31是用于描述根据本公开的实施例的电子装置100和服务器200的操作的示例的流程图。
367.图31示出服务器200存储预训练模型并且在电子装置100的请求下获得目标语音数据、生成目标模型并将输出数据提供到电子装置100的示例。
368.在图31的操作s3101中，服务器200可以存储一个或更多预训练模型。
369.在图31的操作s3102中，电子装置100可以将输入文本和关于目标语音数据的信息传输到服务器200。操作s3102可以对应于图30的操作s3002。
370.根据本公开的实施例，电子装置100可以通过将输入文本和关于目标语音数据的信息传输到服务器200来请求服务器200基于关于目标语音数据的信息、利用与目标语音类似的语音针对输入文本提供tts服务。在图31的操作s3103中，服务器200可以获得目标语音数据。操作s3103可以对应于图30的操作s3003。在图31的操作s3104中，服务器200可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
371.在图31的操作s3105中，服务器200可以通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练预训练模型而生成目标模型。
372.在图31的操作s3106中，服务器200可以通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据。
373.在图31的操作s3107中，服务器200可以将所生成的输出数据传输到电子装置100。
374.在图31的操作s3108中，电子装置100可以输出输出数据。
375.根据本公开的实施例，电子装置100可以通过服务器200来提供tts服务。电子装置100可以从服务器200接收包括具有与目标语音类似的语音的音频信号的输出数据，并且通过声音输出器1230(参见图34)来输出输出数据。
376.图32是用于描述根据本公开的实施例的电子装置100和服务器200的操作的示例的流程图。
377.图32示出服务器200通过使用具有与电子装置100请求的目标语音类似的语音的音频信号来向电子装置100的问题提供答复的示例。
378.在图32的操作s3201中，服务器200可以存储一个或更多预训练模型。
379.在图32的操作s3202中，电子装置100可以将关于目标语音数据的信息传输到服务器200。操作s3202可以对应于图30的操作s3002。在图32的操作s3203中，服务器200可以获得目标语音数据。操作s3203可以对应于图30的操作s3003。
380.在图32的操作s3204中，服务器200可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
381.在图32的操作s3205中，服务器200可以通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练预训练模型而生成目标模型。操作s3205可以对应于图30的操作s3005。在图32的操作s3206中，电子装置100可以将问题数据传输到服务器200。
382.根据本公开的实施例，电子装置100可以基于用户的语音命令或用户输入的文本来生成问题数据，并且从服务器200请求对问题数据的答复。
383.在图32的操作s3207中，服务器200可以生成对应于问题数据的答复文本。
384.根据本公开的实施例，服务器200可以通过使用搜索引擎或经由外部装置(未示出)来获得答复文本。
385.在图32的操作s3208中，服务器200可以通过使用目标模型来生成通过将答复文本转换成音频信号而获得的输出数据。
386.在图32的操作s3209中，服务器200可以将输出数据传输到电子装置100。
387.在图32的操作s3210中，电子装置100可以输出输出数据。
388.根据本公开的实施例，电子装置100可以通过使用具有与目标语音类似的语音的音频信号来输出对问题数据的答复。
389.图27至图32仅示出本公开的实施例，并且本公开不限于此。
390.图33是根据本公开的实施例的电子装置100的框图。图34是根据本公开的实施例的电子装置100的详细框图。
391.参考图33，根据本公开的实施例的电子装置100可以包括处理器1300和存储器1700中的tts模型生成模块1740。然而，图33中示出的所有元件并非都是电子装置100的必要元件。电子装置100可以包括与图33所示的那些相比更多或更少数量的元件。
392.例如，参考图34，除了存储器1700和处理器1300之外，根据本公开的实施例的电子装置100还可以包括用户输入器1100、输出器1200、通信器1500和音频/视频(a/v)输入器1600。
393.用户输入器1100是指由用户用来输入用于控制电子装置100的数据的装置。例如，用户输入器1100可以包括按键、圆顶开关、触摸板(例如，电容式覆盖物、电阻式覆盖物、红外光束、表面声波、一体式应变计或压电式触摸板)、转轮或滚轮开关，但不限于此。用户输
入器1100可以连接到麦克风1620以接收用于控制电子装置100的语音输入。
394.输出器1200可以输出音频信号、视频信号或振动信号，并且可以包括显示器1210和声音输出器1230。
395.显示器1210输出在电子装置100中处理的信息。
396.根据本公开的实施例，显示器1210可以显示用于生成tts模型的用户界面和/或应用的启动屏幕。
397.同时，当显示器1210和触摸板是分层的以配置触摸屏时，显示器1210不仅可以用作输出装置，而且可以用作输入装置。显示器1210可以包括以下各者中的至少一者：液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维(3d)显示器或电泳显示器。
398.显示器1210可以包括发光装置(未示出)。发光装置可以包括例如发光二极管和显示面板，但不限于此。
399.声音输出器1230输出从通信器1500接收或者存储在存储器1700中的声音数据。
400.根据本公开的实施例，声音输出器1230可以输出用于提供tts服务的音频信号。
401.根据本公开的实施例，声音输出器1230可以输出由目标模型生成的音频信号。
402.处理器1300总体上控制电子装置100的整体操作。例如，处理器1300可以执行存储在存储器1700中的程序，以控制用户输入器1100、输出器1200、通信器1500和a/v输入器1600。
403.处理器1300可以控制电子装置100的操作以执行上文关于图1至图32所述的电子装置100的功能。
404.处理器1300可以包括一个或更多处理器。在这种情况下，一个或更多处理器中的每一者可以是通用处理器(例如，中央处理单元(cpu)、应用处理器(ap)或数字信号处理器(dsp))、专用图形处理器(例如，图形处理单元(gpu)或视觉处理单元(vpu))、或者专用ai处理器(例如，神经处理单元(npu))。一个或更多处理器根据预定义的运算规则或存储在存储器中的ai模型来控制输入数据的处理。替代地，当一个或更多处理器是专用ai处理器时，专用ai处理器可以被设计成专门用于处理特定ai模型的硬件结构。
405.根据本公开的实施例，处理器1300可以基于特定说话者的话语输入来获得目标语音数据。处理器1300可以基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量。
406.根据本公开的实施例，处理器1300可以确定预训练模型。
407.根据本公开的实施例，处理器1300可以通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练被预先训练为将文本转换成音频信号的预训练模型而生成目标。
408.根据本公开的实施例，处理器1300可以通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据，并且输出所生成的输出数据。
409.根据本公开的实施例，处理器1300可以基于目标语音数据的数据特征与用于预训练模型的预先训练的语音数据的数据特征之间的相似度来确定目标语音数据的学习步骤的数量。
410.根据本公开的实施例，作为确定预训练模型的方法，处理器1300可以选择或新生
成预训练模型。
411.处理器1300可以基于目标语音数据的数据特征从存储在存储器中的一个或更多预训练模型之中选择用于学习目标语音数据的预训练模型。
412.处理器1300可以基于所确定的学习步骤的数量从存储在存储器中的一个或更多预训练模型之中选择用于学习目标语音数据的预训练模型。
413.根据本公开的实施例，处理器1300可以基于存储在存储器中的多个预训练模型来生成用于学习目标语音数据的预训练模型。
414.处理器1300可以基于目标语音数据的数据特征来从存储在存储器中的多个预训练模型之中选择第一经训练模型和第二经训练模型，基于目标语音数据的数据特征来确定用于第一经训练模型的训练的第一语音数据和用于第二经训练模型的训练的第二语音数据之间的组合比，并且基于组合比来组合第一语音数据和第二语音数据。处理器1300可以通过将所组合的语音数据用作训练数据来生成预训练模型。
415.处理器1300可以基于目标语音数据的数据特征来确定所组合的语音数据的学习步骤的数量，并且基于所组合的语音数据的学习步骤的数量通过将所组合的语音数据用作训练数据来生成预训练模型。
416.根据本公开的实施例，处理器1300可以确定预训练模型，基于所确定的预训练模型的预学习步骤的数量来确定目标语音数据的初始学习率或学习率衰减方法中的至少一者，并且通过将目标语音数据用作训练数据来训练所确定的预训练模型。
417.根据本公开的实施例，处理器1300可以确定预训练模型，基于预设标准来设置目标语音数据的初始学习率或学习率衰减方法中的至少一者，并且通过将目标语音数据用作训练数据来训练所确定的预训练模型。通信器1500可以包括用于使得电子装置100能够与外部装置通信的一个或更多元件。例如，通信器1500可以包括短程无线通信器1510、移动通信器1520和广播接收器1530。
418.短程无线通信器1510可以包括蓝牙通信器、蓝牙低功耗(ble)通信器、近场通信(nfc)通信器、无线局域网(wlan)(或无线保真(wi-fi))通信器、zigbee通信器、红外数据协会(irda)通信器、wi-fi直连(wfd)通信器、超宽带(uwb)通信器或ant 通信器，但不限于此。
419.移动通信器1520在移动通信网络中将无线信号发射到基站、外部装置或服务器中的至少一者或者从其接收无线信号。在本文中，基于语音呼叫信号、视频呼叫信号或文本/多媒体消息的发射和接收，无线信号可以包括各种类型的数据。
420.广播接收器1530通过广播信道从外部接收广播信号和/或广播信息。广播信道可以包括卫星信道和地面信道。根据实现方式，电子装置100可以不包括广播接收器1530。
421.a/v输入器1600用于输入音频信号或视频信号，并且可以包括例如相机1610和麦克风1620。
422.相机1610可以在视频呼叫模式或相机模式下通过使用图像传感器来获得诸如静止图像或视频的图像帧。通过图像传感器捕获的图像可以通过处理器1300或单独的图像处理器(未示出)进行处理。
423.在相机1610中处理的图像帧可以存储在存储器1700中或者通过通信器1500传输到外部装置。根据配置，相机1610可以包括两个或更多相机。
424.麦克风1620接收外部声音信号，并且将其处理成电子语音数据。例如，麦克风1620
可以从外部装置或扬声器接收声音信号。麦克风1620可以使用各种噪声消除算法来消除在接收外部声音信号时产生的噪声。
425.根据本公开的实施例，麦克风1620可以基于特定说话者的话语来接收声音信号。
426.存储器1700可以存储用于处理器1300的处理和控制操作的程序，并且存储输入到电子装置100或从电子装置100输出的数据。
427.存储器1700可以包括来自以下各者之中的至少一种类型的存储介质：快闪存储器、硬盘、微型多媒体卡、存储卡(例如，安全数字(sd)或极速数字(xd)存储卡)、随机存取存储器(ram)、静态ram(sram)、只读存储器(rom)、电可擦除可编程rom(eeprom)、可编程rom(prom)、磁存储器、磁盘和光盘。
428.存储在存储器1700中的程序可以被分类成多个模块，例如，用户界面(ui)模块1710、触摸屏模块1720、通知模块1730和tts模型生成模块1740。
429.ui模块1710可以为每个应用提供连接到电子装置100的专用ui或图形用户界面(gui)。
430.触摸屏模块1720可以检测用户在触摸屏上的触摸手势，并且将关于触摸手势的信息传输到处理器1300。根据本公开的实施例的触摸屏模块1720可以识别并分析触摸代码。触摸屏模块1720可以被配置为包括控制器的单独硬件。
431.通知模块1730可以生成用于通知电子装置100的事件已发生的通知信号。在电子装置100中发生的事件的示例可以包括日程、语音命令的执行完成和按键信号输入。通知模块1730可以通过显示器1210以视频信号的形式或通过声音输出器1230以音频信号的形式输出通知信号。
432.上文关于图4详细地描述了tts模型生成模块1740，并且此处将不重复描述。
433.图35是根据本公开的实施例的服务器200的框图。
434.根据本公开的实施例的服务器200可以包括上文关于图33和图34描述的元件中的至少一些。
435.参考图35，根据本公开的实施例的服务器200可以包括存储器2700、通信器2500(例如，收发器)和处理器2300(例如，至少一个处理器)。然而，图35中示出的所有元件并非都是服务器200的必要元件。服务器200可以包括与图35所示的那些相比更多或更少数量的元件。
436.处理器2300总体上控制服务器200的整体操作。例如，处理器2300可以执行存储在存储器2700中的程序以控制整体操作。
437.根据本公开的实施例，上文关于图1至图34描述的电子装置100的操作中的至少一些可以由服务器200的处理器2300执行。
438.处理器2300可以包括一个或更多处理器。在这种情况下，一个或更多处理器中的每一者可以是通用处理器(例如，cpu、ap或dsp)、专用图形处理器(例如，gpu或vpu)、或者专用ai处理器(例如，npu)。一个或更多处理器根据预定义的运算规则或存储在存储器中的ai模型来控制输入数据的处理。替代地，当一个或更多处理器是专用ai处理器时，专用ai处理器可以被设计成专门用于处理特定ai模型的硬件结构。
439.根据本公开的实施例，服务器200的存储器2700可以存储用于处理器2300的处理和控制操作的程序，并且存储输入到服务器200或从服务器200输出的数据。
440.存储器2700可以包括来自以下各者之中的至少一种类型的存储介质：快闪存储器、硬盘、微型多媒体卡、存储卡(例如，sd或xd存储卡)、ram、sram、rom、eeprom、prom、磁存储器、磁盘和光盘。
441.根据本公开的实施例，通信器2500可以包括用于使得服务器200能够与外部装置通信的一个或更多元件。例如，通信器2500可以包括短程无线通信器(未示出)、移动通信器(未示出)和广播接收器(未示出)。
442.短程无线通信器可以包括蓝牙通信器、ble通信器、nfc通信器、wlan(或wi-fi)通信器、zigbee通信器、irda通信器、wfd通信器、uwb通信器或ant 通信器，但不限于此。
443.移动通信器在移动通信网络中将无线信号发射到基站、外部装置或服务器中的至少一者或者从它们接收无线信号。在本文中，基于语音呼叫信号、视频呼叫信号或文本/多媒体消息的发射和接收，无线信号可以包括各种类型的数据。
444.广播接收器通过广播信道从外部接收广播信号和/或广播信息。广播信道可以包括卫星信道和地面信道。根据实现方式，服务器200可以不包括广播接收器。
445.同时，本公开的前述实施例可以被编写为在计算机上可执行的程序，并且由用于通过使用计算机可读介质来操作程序的通用数字计算机实现。本公开的前述实施例中使用的数据结构可以经由多种手段记录在计算机可读介质上。本公开的前述实施例可以以包括可由计算机执行的指令的记录介质(例如，由计算机执行的程序模块)的形式来实现。例如，通过软件模块或算法实现的方法可以作为可由计算机执行的计算机可读代码或程序命令存储在计算机可读介质中。
446.计算机可读介质可以是计算机可访问的任意记录介质，并且其示例可以包括易失性、非易失性、可拆卸和不可拆卸介质。计算机可读介质的示例包括磁存储介质(例如，只读存储器(rom)、软盘和硬盘)和光学记录介质(例如，光盘-rom(cd-rom)和数字多功能盘(dvd))，但不限于此。计算机可读介质可以包括计算机存储介质和通信介质。
447.多个计算机可读记录介质可以分布在网络联接的计算机系统上，并且存储在分布式记录介质中的数据(例如，程序指令和代码)可以由至少一个计算机执行。
448.本文中描述的特定实现方式仅对应于本公开的实施例，并且不以任何方式限制本公开的范围。为了简洁起见，本文中可以不提供对已知的电子配置、控制系统、软件和系统的其它功能方面的描述。
449.尽管已经参考本公开的实施例特别地示出并描述了本公开，但本领域的普通技术人员将理解，可以在不脱离本公开的范围的情况下在其中做出形式和细节的各种改变。因此，应理解，本公开的前述实施例在所有方面都是说明性的，而不是限制本公开。例如，被描述为单一元件的每个元件可以以分布式方式实现，并且同样地，被描述为分布式元件的元件可以以组合方式实现。
450.本文中使用的所有示例和术语仅仅是用于本公开的详细描述，并且除非在权利要求中限定，否则本公开的范围不受那些示例和术语限制。
451.此外，除非元件被特定地描述为“必要的”或“关键的”，否则没有元件对于本公开的实现来说是必要的。
452.本领域的普通技术人员将理解，在不脱离本公开的范围的情况下，可以修改本公开的实施例。
453.应理解，可以在本公开的实施例中进行形式和细节上的各种改变，并且本公开的实施例涵盖落入本公开的范围内的所有修改、等同物和替代方案。因此，本公开的前述实施例应仅在描述性意义上考虑，而非出于限制的目的。
454.本公开的范围不是由本公开的详细描述限定，而是由所附权利要求限定，并且来源于由权利要求书及其等同物限定的范围的所有变化将被解释为包括在本公开的范围内。
455.如本文所使用，术语
“……
单元”或“模块”表示用于执行至少一个功能或操作的实体，并且可以使用硬件、软件或硬件和软件的组合来实现。
[0456]“单元”或“模块”也可以被实现为存储在可寻址存储介质中且可由处理器执行的程序。
[0457]
例如，术语“单元”或“模块”可以被实现为元件(例如，软件元件、面向对象的软件元件、类元件和任务元件)、进程、函数、属性、过程、子例程、程序代码段、驱动程序、固件、微码、电路、数据、数据库、数据结构、表、阵列或变量。
[0458]
如本文所使用，表述“a可以包括a1、a2和a3中的一者”广泛地意味着可以包括在元件a中的元件的示例是a1、a2或a3。
[0459]
表述不将可以包括在元件a中的元件限于a1、a2或a3。因此，应注意，表述没有被限制性地解释为将除了a1、a2和a3外的元件从可以被包括在a中的元件的示例排除。
[0460]
表述意味着a可以包括a1、包括a2或包括a3。表述不意味着始终在某一集合内选择性地确定a中包括的元件。例如，应注意，表述没有被限制性地解释为将元件a中包括的元件限于从包括a1、a2和a3的集合选择的a1、a2或a3。
[0461]
虽然已参考本公开的各种实施例示出并描述了本公开，但所属领域的技术人员将理解，在不脱离如由所附权利要求书及其等同物限定的本公开的精神和范围的情况下，可以在本公开中进行各种形式和细节的改变。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：演奏解析方法、演奏解析装置以及程序与流程

电子装置及其操作方法与流程

相关文献

最热文献