电子装置及其操作方法与流程

2022-06-01 19:03:17 来源：中国专利 TAG：

技术特征：
1.一种电子装置的操作方法，所述操作方法包括：基于特定说话者的话语输入来获得目标语音数据；基于所述目标语音数据的数据特征来确定所述目标语音数据的学习步骤的数量，其中所述数据特征包括数据量；通过基于所确定的学习步骤的数量、利用所述目标语音数据作为训练数据来训练被预先训练为将文本转换成音频信号的预训练模型而生成目标模型；通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据；以及输出所生成的输出数据。2.如权利要求1所述的操作方法，其中，生成所述目标模型包括：基于所述目标语音数据的数据特征从存储在存储器中的一个或更多预训练模型之中选择用于学习所述目标语音数据的预训练模型。3.如权利要求1所述的操作方法，其中，生成所述目标模型包括：基于所确定的学习步骤的数量，从存储在存储器中的一个或更多预训练模型之中选择用于学习所述目标语音数据的预训练模型。4.如权利要求1所述的操作方法，其中，生成所述目标模型包括：基于存储在存储器中的多个预训练模型，生成用于学习所述目标语音数据的预训练模型。5.如权利要求4所述的操作方法，其中，生成所述预训练模型包括：基于所述目标语音数据的数据特征，从存储在所述存储器中的所述多个预训练模型之中选择第一经训练模型和第二经训练模型；基于所述目标语音数据的数据特征，确定用于所述第一经训练模型的训练的第一语音数据与用于所述第二经训练模型的训练的第二语音数据之间的组合比；基于所述组合比来组合所述第一语音数据和所述第二语音数据；以及通过将所组合的语音数据用作训练数据来生成所述预训练模型。6.如权利要求5所述的操作方法，其中，生成所述预训练模型包括：基于所述目标语音数据的数据特征，确定所述所组合的语音数据的学习步骤的数量；以及基于所述所组合的语音数据的学习步骤的数量，通过将所述所组合的语音数据用作训练数据来生成所述预训练模型。7.如权利要求1所述的操作方法，其中，所述目标语音数据的数据特征还包括：所述目标语音数据的声学特征、所述目标语音数据的说话者特征或所述目标语音数据的内容特征中的至少一者。8.如权利要求1所述的操作方法，其中，确定所述目标语音数据的学习步骤的数量包括：基于所述目标语音数据的数据特征中的至少一者与用于所述预训练模型的预先训练的语音数据的数据特征中的至少一者之间的相似度来确定所述目标语音数据的学习步骤的数量。9.如权利要求1所述的操作方法，其中，生成所述目标模型包括：
确定所述预训练模型；基于所确定的预训练模型的预学习步骤的数量来确定所述目标语音数据的初始学习率或学习率衰减方法中的至少一者；以及通过将所述目标语音数据用作训练数据来训练所确定的预训练模型。10.如权利要求1所述的操作方法，其中，生成所述目标模型包括：确定所述预训练模型；基于预设标准来设置所述目标语音数据的初始学习率或学习率衰减方法中的至少一者；以及通过将所述目标语音数据用作训练数据来训练所确定的预训练模型。11.如权利要求1所述的操作方法，其中，使用所生成的输出数据的发音错误率、韵律或音质中的至少一者来确定所生成的目标模型的性能。12.如权利要求1所述的操作方法，其中，获得所述目标语音数据包括以下至少之一：通过麦克风基于所述特定说话者的话语输入来获得语音数据；基于从广播内容提取的、所述特定说话者的话语输入来获得语音数据；基于从在呼叫连接期间存储的语音数据提取的、所述特定说话者的话语输入来获得语音数据；获得预先存储在存储器中的语音数据；或者通过通信器从外部服务器获得所述目标语音数据。13.如权利要求1所述的操作方法，还包括：获得基于用户输入获得的文本、从预先存储的内容提取的文本或作为执行应用的结果生成的文本中的至少一者，作为所述输入文本。14.一种电子装置，包括：存储器，存储一个或更多指令；以及至少一个处理器，联接到所述存储器，并且配置为执行存储在所述存储器中的所述一个或更多指令以：基于特定说话者的话语输入来获得目标语音数据，基于所述目标语音数据的数据特征来确定所述目标语音数据的学习步骤的数量，其中所述数据特征包括数据量，通过基于所确定的学习步骤的数量、通过将所述目标语音数据用作训练数据来训练被预先训练为将文本转换成音频信号的预训练模型而生成目标模型，通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据，以及输出所生成的输出数据。15.如权利要求14所述的电子装置，其中，所述至少一个处理器还配置为执行所述一个或更多指令以：基于所述目标语音数据的数据特征，从存储在存储器中的一个或更多预训练模型之中选择用于学习所述目标语音数据的预训练模型。

技术总结
提供了一种用于提供文本到语音(TTS)服务的电子装置及其操作方法。该电子装置的操作方法包括：基于特定说话者的话语输入来获得目标语音数据；基于目标语音数据的包括数据量在内的数据特征来确定目标语音数据的学习步骤的数量；通过基于所确定的学习步骤的数量通过将目标语音数据用作训练数据来训练被预先训练为将文本转换成音频信号的预训练模型而生成目标模型；通过使用所生成的目标模型来生成通过将输入文本转换成音频信号而获得的输出数据；以及输出所生成的输出数据。以及输出所生成的输出数据。以及输出所生成的输出数据。

技术研发人员：闵庚甫崔胜渡洪斗和
受保护的技术使用者：三星电子株式会社
技术研发日：2020.10.29
技术公布日：2022/5/31

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：演奏解析方法、演奏解析装置以及程序与流程

电子装置及其操作方法与流程

相关文献

最热文献