使用组合的韵律信息经由神经网络生成声学序列的制作方法

2022-03-18 12:03:06 来源：中国专利 TAG：

技术特征：

1.一种系统，包括处理器，所述处理器用以：

接收语言学序列和韵律信息偏移；

经由经训练的韵律信息预测器，基于所述语言学序列来生成组合的韵律信息，所述组合的韵律信息包括多个观察，其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合；以及

经由经训练的神经网络，基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。

2.根据权利要求1所述的系统，其中所述处理器可操作以：基于从未标记训练数据所提取的观察到的韵律信息来训练所述韵律信息预测器。

3.根据权利要求1所述的系统，其中所述处理器可操作以：基于嵌入的语言学序列来训练所述韵律信息预测器，所述嵌入的语言学序列是由利用所述观察到的韵律信息所训练的系统生成的。

4.根据前述权利要求中任一项所述的系统，其中所述处理器可操作以：基于从训练期间的记录所提取的观察到的频谱来训练所述神经网络，所述神经网络包括序列到序列神经网络，所述序列到序列神经网络包括韵律信息编码器、语言学编码器和声学解码器。

5.根据前述权利要求中任一项所述的系统，其中所述处理器可操作以：基于所述韵律信息偏移来修改所述多个观察，以用特定的预定方式来调整所述声学序列的韵律。

6.根据前述权利要求中任一项所述的系统，其中所述处理器可操作以：经由语言学编码器，基于所述语言学序列来生成嵌入的语言学序列。

7.根据前述权利要求中任一项所述的系统，其中所述韵律分量包括配速分量、音高分量、响度分量或其任何组合。

8.一种计算机实现的方法，包括：

接收语言学序列和韵律信息偏移；

经由经训练的韵律信息预测器，基于所述语言学序列并且与所述语言学序列对齐地生成组合的韵律信息，所述组合的韵律信息包括多个观察，其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合；以及

经由经训练的神经网络，基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。

9.根据权利要求8所述的计算机实现的方法，包括：

经由经训练的编码器，基于所述语言学序列来生成嵌入的语言学序列；以及

通过求和或连结来组合所述多个观察并且对所述多个观察进行编码以生成嵌入的韵律信息，并且将所述嵌入的韵律信息与所述嵌入的语言学序列连结。

10.根据权利要求8所述的计算机实现的方法，包括基于所述韵律信息偏移来修改所述多个观察。

11.根据权利要求10所述的计算机实现的方法，其中修改所述多个观察包括将所述韵律信息偏移添加到对应观察。

12.根据权利要求8至11中任一项所述的计算机实现的方法，其中所述多个观察在话语级被评估。

13.根据权利要求8至11中任一项所述的计算机实现的方法，其中所述多个观察在不同的时间跨度上局部地和分层地被评估。

14.根据权利要求8至13中任一项所述的计算机实现的方法，包括基于所述声学序列来生成音频。

15.一种用于自动控制韵律的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有随其体现的程序代码，其中所述计算机可读存储介质本身不是瞬态信号，所述程序代码由处理器可执行以使所述处理器：

接收语言学序列和韵律信息偏移；

基于所述语言学序列来生成组合的韵律信息，所述组合的韵律信息包括多个观察，其中所述多个观察包括评估预定时间段内的韵律分量的统计测量的线性组合；以及

基于所述组合的韵律信息、所述韵律信息偏移和所述语言学序列来生成声学序列。

16.根据权利要求15所述的计算机程序产品，还包括由所述处理器可执行以用于以下的程序代码：基于所述语言学序列来生成嵌入的语言学序列，以及对齐、组合和嵌入所述多个观察以生成所述嵌入的韵律信息，并且将所述嵌入的韵律信息与所述嵌入的语言学序列连结。

17.根据权利要求15所述的计算机程序产品，还包括由所述处理器可执行以基于所述韵律信息偏移来修改所述多个观察的程序代码。

18.根据权利要求15所述的计算机程序产品，还包括由所述处理器可执行以将所述韵律信息偏移添加到所述韵律信息的对应观察的程序代码。

19.根据权利要求15所述的计算机程序产品，还包括由所述处理器可执行以基于从未标记训练数据所提取的观察到的韵律信息来训练所述韵律信息预测器的程序代码。

20.根据权利要求15至19中任一项所述的计算机程序产品，还包括由所述处理器可执行以基于所述声学序列来生成音频的程序代码。

21.一种计算机程序，包括程序代码装置，当所述程序在计算机上运行时，所述程序代码装置适于执行根据权利要求8至14中任一项所述的方法。

技术总结
示例系统包括处理器，用于接收语言学序列和韵律信息偏移。该处理器可以经由经训练的韵律信息预测器，基于语言学序列来生成包括多个观察的组合的韵律信息。观察的数目包括评估预定时间段内的韵律分量的统计测量的线性组合。该处理器可以，经由经训练的神经网络，基于组合的韵律信息、韵律信息偏移和语言学序列来生成声学序列。

技术研发人员：V·谢赫特曼;
受保护的技术使用者：国际商业机器公司;
技术研发日：2020.09.07
技术公布日：2022.03.18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于注意力的端到端语音识别的大间隔跟踪的制作方法

使用组合的韵律信息经由神经网络生成声学序列的制作方法

相关文献

最热文献