生成针对用户的语音模型的制作方法

2022-06-25 12:54:08 来源：中国专利 TAG：

技术特征：
1.一种方法，包括：由包括神经网络的编码器从用户接收多个音频样本；由解码器从所述编码器接收值序列；以及由所述解码器使用所述值序列以及所述用户的一个或多个说话者嵌入来建立对应于所述用户的所述多个音频样本的语音模型。2.根据权利要求1所述的方法，还包括：将所述语音模型建立为机器学习模型；以及使用所述语音模型和来自所述用户的输入文本生成针对所述用户的合成音频输出。3.根据权利要求1所述的方法，还包括：接收来自所述用户的输入文本；标识针对所述用户的所述语音模型和所述用户的所述一个或多个说话者嵌入中的至少一个说话者嵌入；以及使用所述语音模型和所述一个或多个说话者嵌入中的至少一个说话者嵌入，将所述输入文本转换为合成音频输出，以对所述用户的语音进行建模。4.根据权利要求1所述的方法，还包括：由所述解码器使用所述一个或多个说话者嵌入和来自所述用户的一个或多个后续的音频样本，来训练针对所述用户的所述语音模型。5.根据权利要求1所述的方法，还包括：由所述解码器将所述用户的所述一个或多个说话者嵌入应用于所述值序列，以生成调节信号；以及由所述解码器将所述调节信号提供给多个残差层，以建立所述语音模型。6.根据权利要求1所述的方法，还包括：由所述编码器经由所述编码器的所述神经网络的至少一个卷积块的至少一个卷积层，来修改所述多个音频样本的采样率。7.根据权利要求1所述的方法，还包括：将来自所述用户的一个或多个后续的音频样本提供给所述解码器的神经网络的第一残差层和第二残差层；以及将所述一个或多个说话者嵌入提供给所述解码器的所述神经网络的所述第一残差层和所述第二残差层，其中来自所述第一残差层的输出被提供给所述第二残差层的输入，以训练针对所述用户的所述语音模型。8.根据权利要求1所述的方法，其中，所述解码器包括神经网络，所述神经网络包括至少两个完全连接的残差层和归一化函数。9.根据权利要求1所述的方法，还包括：由所述解码器将归一化函数应用于所述解码器的神经网络的多个残差层的输出，以建立所述语音模型。10.一种设备，包括：编码器，使用至少一个处理器被实现，所述编码器被配置为：从用户接收多个音频样本；以及将所述多个音频样本提供给所述编码器的神经网络，以生成对应于来自所述神经网络的一个或多个卷积层的输出的值序列；以及解码器，使用所述至少一个处理器被实现，所述解码器被配置为：从所述编码器接收所述值序列；以及
使用所述值序列以及所述用户的一个或多个说话者嵌入，来建立对应于所述用户的所述多个音频样本的语音模型。11.根据权利要求10所述的设备，其中，所述设备还被配置为实现权利要求2至9中的任一项的方法。12.一种非瞬态计算机可读介质，所述非瞬态计算机可读介质存储指令，所述指令在由一个或多个处理器执行时，使所述一个或多个处理器：从用户接收多个音频样本；将所述多个音频样本提供给神经网络，以生成对应于来自所述神经网络的一个或多个卷积层的输出的值序列；以及使用所述值序列和所述用户的一个或多个说话者嵌入，建立对应于所述用户的所述多个音频样本的语音模型。13.根据权利要求12所述的非瞬态计算机可读介质，还包括指令，所述指令在被所述一个或多个处理器执行时，还使所述一个或多个处理器实现权利要求2至9中的任一项的方法。

技术总结
本文公开了一种生成针对用户的语音模型的系统、方法和设备。一种设备可以包括编码器和解码器，以生成用于将文本转换为音频输出的语音模型，该音频输出类似于发送相应文本的人的语音。编码器可以包括神经网络，并且可以从用户接收多个音频样本。编码器可以生成值序列并将该值序列提供给解码器。解码器可以使用值序列以及用户的一个或多个说话者嵌入来建立对应于用户的多个音频样本的语音模型。对应于用户的多个音频样本的语音模型。对应于用户的多个音频样本的语音模型。

技术研发人员：L
受保护的技术使用者：脸谱科技有限责任公司
技术研发日：2020.10.14
技术公布日：2022/6/24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于校正小提琴演奏托位的肩部支架结构及方法

生成针对用户的语音模型的制作方法

相关文献

最热文献