一种连读变调边界的预测方法、装置、设备和存储介质与流程

2022-06-11 22:29:30 来源：中国专利 TAG：

1.本技术涉及语音处理技术领域，特别是涉及一种连读变调边界的预测方法、装置、设备和存储介质。

背景技术：

2.连读变调是指两个及以上音节在连读时受到前后音节的影响，声调发生变化，表现为单字声调不同的现象。在语音合成的前端文本处理过程中，预测出连读变调边界的位置，可以在语音合成时根据相应的连读变调位置给出正确的声调预测，提高声调的正确率，进而提高合成语音的可懂度。
3.现有的连读变调预测一般是通过收集词条，通过分词算法构建连读变调边界预测模型，利用贪心算法对输入文本进行预测，得到边界预测结果。现有方法需要人工收集大量词条，人工成本较高，耗时较长，且预测的准确率低。

技术实现要素：

4.本技术主要解决的技术问题是提供一种连读变调边界的预测方法、装置、设备和存储介质，能够提高连读变调边界预测的准确率。
5.为解决上述技术问题，本技术第一方面提供了一种连读变调边界的预测方法，该方法包括：提取预测文本的预测文本字调特征；预测文本包括多个字符以及与每个字符对应的字调，预测文本字调特征表示预测文本中各个字符的独立特征；对预测文本字调特征进行融合转换，得到预测字符融合特征，预测字符融合特征表示预测文本中各个字符与其他字符的关系特征；对预测字符融合特征进行计算，得到预测文本的预测连读变调边界。
6.为解决上述技术问题，本技术第二方面提供了一种连读变调边界的预测装置，该预测装置包括：提取模块，该提取模块用于提取预测文本的预测文本字调特征；预测文本包括多个字符以及与每个字符对应的字调，预测文本字调特征表示预测文本中各个字符的独立特征；融合模块，该融合模块用于对预测文本字调特征进行融合转换，得到预测字符融合特征，预测字符融合特征表示预测文本中各个字符与其他字符的关系特征；计算模块，该计算模块用于对预测字符融合特征进行计算，得到预测文本的预测连读变调边界。
7.为解决上述技术问题，本技术第三方面提供了一种连读变调边界的预测设备，该预测设备包括相互耦接的存储器和处理器，存储器存储有程序指令；处理器用于执行存储器中存储的程序指令，以实现上述第一方面所述的方法。
8.为解决上述技术问题，本技术第四方面提供了一种计算机可读存储介质，该计算机可读存储介质用于存储程序指令，所述程序指令能够被执行以实现上述第一方面所述的方法
9.本技术的有益效果是：区别于现有技术的情况，本技术通过融合多个字符以及每个字符对应的字调的预测文本字调特征，得到预测字符融合特征，进而对预测字符融合特征进行计算，得到预测文本的预测连读变调边界。融合字符和字调两种模态的特征，可以提
高预测结果的准确度。
附图说明
10.图1是本技术连读变调边界的预测方法一实施方式的流程示意图；
11.图2是本技术预测模型的训练方法一实施方式的流程示意图；
12.图3是本技术提供的预测模型的框架结构；
13.图4是本技术预测模型的训练方法另一实施方式的流程示意图；
14.图5是本技术提供的连读变调边界的预测装置一实施方式的框架示意图；
15.图6是本技术提供的连读变调边界的预测设备一实施方式的框架示意图；
16.图7是本技术计算机可读存储介质一实施方式的框架示意图。
具体实施方式
17.下面结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
18.需要说明的是，本技术实施例中有涉及“第一”、“第二”等的描述，该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
19.请参阅图1，图1是本技术连读变调边界的预测方法一实施方式的流程示意图，该方法包括：
20.s110：提取预测文本的预测文本字调特征。
21.在一实施方式中，预测文本包括多个字符以及与每个字符对应的字调，例如，预测文本为“沿6途6没8找6到5第6一7百7货5”，其中，数字表示字符对应的字调，即“沿”对应的字调为6。
22.预测文本字调特征表示预测文本中各个字符的独立特征。在一实施方式中，提取预测文本的预测文本字调特征，包括：对预测文本进行one-hot编码，获取字符编码，对字符编码进行嵌入，获取预测文本的预测文本字调特征。
23.具体地，可以由预测模型提取预测文本的预测文本字调特征。将预测文本输入预测模型中，对预测文本包含的字符及其对应的字调进行编码，在一具体实施方式中，可对预测文本包含的字符和字调进行one-hot编码，将预测文本转化为向量。进一步获取预测文本包含的字符特征，在一具体实施方式中，可以通过bert对文本的字符编码进行embedding，获取预测文本的预测文本字调特征。其中，预测文本字调特征包含预测文本中若干字符的特征及其字符对应的字调的特征。可以理解地，在其它实施方式中，也可以由其它模型提取预测文本的预测文本字调特征，将提取的特征发送给预测模型进行连读变调边界的预测。
24.在提取预测文本的预测文本字调特征之前，可以采用人工标注的方式，标注预测文本包含的若干字符对应的字调的类别，字调的类别即为字符对应的字调。在一具体实施方式中，字调的类别可以根据调类与调值的映射关系得到。调类与调值的映射关系可以为
{6：23，5：34，1：53，7：55，8：12}等，例如，字符“沿”的调值为23，则根据调类与调值的映射关系可知，沿对应的字调即为6。
25.s120：对预测文本字调特征进行融合转换，得到预测字符融合特征。
26.对步骤s110得到的预测文本字调特征进行融合转换，使得模型可以根据转换后的预测字符融合特征得到预测连读变调边界。在一实施方式中，采用seq2seq attention方法对预测文本字调特征进行融合转换，得到预测字符融合特征。在其它实施方式中，也可以采用其它方法进行融合转换，在此不做限定。
27.s130：对预测字符融合特征进行计算，得到预测文本的预测连读变调边界。
28.预测模型可以基于预测字符融合特征进行计算，得到预测文本的预测连读变调边界。在一实施方式中，预测模型可以计算若干字符边界为预测连读变调边界的概率，若干个概率组成概率向量，并设置阈值，若计算出的概率大于阈值，则表示字符边界为预测连读变调边界。例如，输入的预测文本为“沿6途6没8找6到5”，设置的阈值为0.5，计算得到的概率向量为[0.2，0.7，0.6，0.4，0.3]，则可以知道，字符“途”和字符“没”的边界以及字符“没”和字符“找”的边界为预测连读变调边界。
[0029]
在另一实施方式中，预测模型也可以直接得到预测文本的边界向量，通过边界向量判断预测连读变调边界。其中，边界向量中，若字符边界为预测连读变调边界，则用1表示；若不是，则用0表示。例如，输入的预测文本为“沿6途6没8找6到5”，得到的边界向量为[0，1，1，0，0]，则字符“途”和字符“没”之间以及字符“没”和字符“找”之间为预测连读变调边界。
[0030]
上述方法通过融合多个字符以及每个字符对应的字调的预测文本字调特征，得到预测字符融合特征，进而对预测字符融合特征进行计算，得到预测文本的预测连读变调边界。融合字符和字调两种模态的特征，可以提高预测结果的准确度。
[0031]
上述所述的预测方法可以由预测模型执行，在一实施方式中，预测模型包含编码层、解码层和目标层，上述步骤s110可以在预测模型的编码层进行，步骤s120和步骤s130可在预测模型的解码层进行。在对预测文本进行连读变调边界预测之前，可以对预测模型进行训练，使得预测结果更加准确。请结合参阅图2和图3，图2是本技术预测模型的训练方法一实施方式的流程示意图；图3是本技术提供的预测模型的框架结构。该训练方法包括：
[0032]
s210：提取训练文本的训练文本字调特性。
[0033]
在一实施方式中，训练文本包括多个字符、每个字符对应的字调，以及标准连读变调边界。训练文本字调特性可以包括字符特征、每个字符对应的字调特征以及标准边界向量。将训练文本输入预测模型中，如图3所示，预测模型可以包含编码层、解码层以及目标层三个部分，可以采用编码层提取训练文本的训练文本字调特性。具体地，可将训练文本输入预测模型中，对训练文本包含的字符及字调进行编码，在一具体实施方式中，可对训练文本包含的字符和字调进行one-hot编码，将训练文本转化为编码向量。进一步可以通过bert对文本的编码向量进行embedding，获取训练文本的训练文本字调特征。其中，训练文本字调特征包含训练文本中若干字符的特征及其字符对应的字调的特征。可以理解地，在其它实施方式中，也可以由其它模型提取训练文本的预测文本字调特征，将提取的特征发送给预测模型进行连读变调边界的预测。
[0034]
标准边界向量可以通过目标层得到，目标层可以将标注有标准连读变调边界的训
练样本转化为标准边界向量。在一实施方式中，对于训练样本中的纯文本，预测模型的目标层可以根据字符边界是否为连读变调边界，将其转化为1或0。如训练样本的纯文本为“沿途/没/找到/第一/百货/”，其中“/”即表示为连读变调边界，预测模型可以将其转化为边界向量[0，1，1，0，1，0，1，0，1]。
[0035]
s220：对训练文本字调特性进行融合转换，得到训练字符融合特征。
[0036]
对训练文本字调特性进行融合转换的步骤可以由预测模型的编码中层执行，具体地，将步骤s210得到的字符特征以及每个字符对应的字调特征进行融合，在一实施方式中，采用seq2seq attention方法对训练文本字调特征进行融合转换，得到训练字符融合特征。将字符特征和字调特征进行融合可以使得预测模型能充分学习到字符以及字调特征在语义环境下的变调规律。
[0037]
s230：对训练字符融合特征进行计算，得到训练文本的训练连读变调边界。
[0038]
在一实施方式中，预测模型的编码层可以对训练字符融合特征进行计算，得到训练文本的概率向量，概率向量用于表示训练文本中若干字符的边界为训练连读变调边界的概率，基于概率向量，得到训练文本的训练连读变调边界。在一具体实施方式中，可以设置一个阈值，若某个字符对应的概率值大于阈值，则认为该字符的边界为训练连读变调边界。
[0039]
s240：基于训练连读变调边界和标准连读变调边界计算损失函数。
[0040]
在一实施方式中，可以基于标准边界向量和训练边界向量计算损失函数，计算损失函数可以在预测模型的目标层进行，训练边界向量可以通过对标注有标准连读变调边界的训练文本进行转化得到。
[0041]
s250：根据损失函数训练预测模型。
[0042]
根据损失函数的结果，调整预测模型的参数直至训练结束。
[0043]
请参阅图4，图4是本技术预测模型的训练方法另一实施方式的流程示意图。该训练方法包括：
[0044]
s410：提取训练文本的训练文本字调特性。
[0045]
在一实施方式中，可以采用预测模型的编码层直接提取训练文本的训练文本字调特性，将训练文本输入预测模型，预测模型对训练文本包含的字符和字调进行one-hot编码，获取训练文本的字符编码；对训练文本的字符编码进行embedding，获得训练文本的文本字调特性。
[0046]
s420：对训练文本字调特性进行融合转换，得到训练字符融合特征。
[0047]
在一实施方式中，预测模型的解码层可以采用seq2seq attention方法对训练文本字调特征进行融合转换，得到训练字符融合特征。
[0048]
s430：对训练字符融合特征进行计算，得到训练文本的训练基频序列向量和训练连读变调边界。
[0049]
在一实施方式中，预测模型的解码层对训练字符融合特征进行计算，根据计算结果，预测训练基频序列向量和训练连读变调边界。其中，训练基频序列向量用于表示训练文本中若干字符在变调规律下基频值的变化。进一步的，在得到连读变调边界之前，预测模型可以先得到训练文本中若干字符的边界为训练连读变调边界的训练概率向量，基于训练概率向量确定训练连读变调边界。在一具体实施方式中，可以设置一个阈值，若某个字符对应的概率值大于阈值，则认为该字符的边界为训练连读变调边界。例如，输入的预测文本为“沿6途6没8找6到5”，设置的阈值为0.5，计算得到的概率向量为[0.2，0.7，0.6，0.4，0.3]，则可以知道，字符“途”和字符“没”的边界以及字符“没”和字符“找”的边界为预测连读变调边界。
[0050]
s440：分析训练文本对应的训练音频，得到训练文本的标准音频序列向量。
[0051]
在一实施方式中，预测模型的目标层可以提取训练音频的基频数据，得到训练文本的标准音频序列向量。在一具体实施方式中，可以采用时域法，设定提取的时间间隔，提取训练音频的基频，得到标准音频序列向量。其中，提取的时间间隔可以为2s、3s、4s等，在此不做限定。
[0052]
s450：基于训练连读变调边界和标准连读变调边界计算第一损失函数。
[0053]
在一实施方式中，可以基于训练连读变调边界的训练概率向量和训练文本的训练边界向量计算第一损失函数，其中，训练边界向量是通过预测模型对标注了连读变调边界的训练文本进行转化得到的。在一具体实施方式中，若得到的训练概率向量为pb、训练边界向量为gb，则计算的第一损失可以为loss1＝crossentropyloss(pb，gb)。
[0054]
s460：基于训练基频序列向量和标准音频序列向量计算第二损失函数。
[0055]
在一实施方式中，标准音频序列向量为gf，训练基频序列向量pf，由于序列与序列之间的长度可能不一致，可通过时间序列的损失函数dtw计算第二损失loss2＝dwtloss(pf，gf)。
[0056]
s470：根据第一损失函数和第二损失函数训练预测模型。
[0057]
在一实施方式中，可以对第一损失函数和第二损失函数进行加权求和，得到总损失函数，基于总损失函数训练预测模型。在一具体实施方式中，总损失可以为loss＝alpha1*loss1 alpha2*loss2，其中，alpha1和alpha2为实验的超参数。
[0058]
上述方式，通过计算两个损失函数，基于两个损失函数训练预测模型，可以提高预测模型的预测连读变调边界的准确度。
[0059]
请参阅图5，图5是本技术提供的连读变调边界的预测装置一实施方式的框架示意图。
[0060]
连读变调边界的预测装置50包括：提取模块51，融合模块52，计算模块53。提取模块51用于提取预测文本的预测文本字调特征；预测文本包括多个字符以及与每个字符对应的字调，预测文本字调特征表示预测文本中各个字符的独立特征；融合模块52用于对预测文本字调特征进行融合转换，得到预测字符融合特征，预测字符融合特征表示预测文本中各个字符与其他字符的关系特征；计算模块53用于对预测字符融合特征进行计算，得到预测文本的预测连读变调边界。
[0061]
其中，上述步骤由预测模型执行，预测模型的训练步骤包括：提取训练文本的训练文本字调特性；训练文本包括多个字符、每个字符对应的字调，以及标准连读变调边界；对训练文本字调特性进行融合转换，得到训练字符融合特征；对训练字符融合特征进行计算，得到训练文本的训练连读变调边界；基于训练连读变调边界和标准连读变调边界计算损失函数；根据损失函数训练预测模型。
[0062]
其中，对训练字符融合特征进行计算，得到训练文本的训练连读变调边界，包括：对训练字符融合特征进行计算，得到训练文本的训练基频序列向量和训练连读变调边界；训练步骤还包括：分析训练文本对应的训练音频，得到训练文本的标准音频序列向量；基于
训练连读变调边界和标准连读变调边界计算损失函数，根据损失函数训练预测模型，包括：基于训练连读变调边界和标准连读变调边界计算第一损失函数；基于训练基频序列向量和标准音频序列向量计算第二损失函数；根据第一损失函数和第二损失函数训练预测模型。
[0063]
其中，根据第一损失函数和第二损失函数训练预测模型，包括：对第一损失函数和第二损失函数进行加权求和，得到总损失函数；基于总损失函数训练预测模型。
[0064]
其中，对预测文本字调特征进行融合转换，得到预测字符融合特征；对训练文本字调特性进行融合转换，得到训练字符融合特征，均包括：采用seq2seq attention方法对文本字调特征进行融合转换，得到字符融合特征。
[0065]
其中，提取预测文本的预测文本字调特征，提取训练文本的训练文本字调特性，均包括：对预测文本或训练文本进行one-hot编码，获取字符编码；对字符编码进行嵌入，获取预测文本字调特征或训练文本字调特性。
[0066]
其中，对预测字符融合特征进行计算，得到预测文本的预测连读变调边界；对训练字符融合特征进行计算，得到训练文本的训练连读变调边界，均包括：对字符融合特征进行计算，得到每个字符的连读变调边界概率；基于每个字符的连读变调边界概率得到预测文本的预测连读变调边界。
[0067]
请参阅图6，图6是本技术提供的连读变调边界的预测设备一实施方式的框架示意图。
[0068]
连读变调边界的预测设备60包括相互耦接的存储器61和处理器62，存储器61中存储有程序指令，处理器62用于执行程序指令以实现上述任一方法实施例中的步骤。具体地，连读变调边界的预测设备60可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。
[0069]
具体而言，处理器62用于控制其自身以及存储器61以实现上述任一方法实施例中的步骤。处理器62还可以称为cpu(central processing unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。
[0070]
请参阅图7，图7是本技术计算机可读存储介质一实施方式的框架示意图。计算机可读存储介质70存储有程序指令71，程序指令71被处理器执行时，用以实现上述任一方法实施例中的步骤。
[0071]
计算机可读存储介质70具体可以为u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。
[0072]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以
结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0073]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0074]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0075]
以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：目标检测方法、装置、电子设备及计算机可读存储介质与流程

一种连读变调边界的预测方法、装置、设备和存储介质与流程

相关文献

最热文献