农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种合成语音的评测方法、装置和设备与流程

2021-08-06 18:27:00 来源：中国专利 TAG：语音合成装置评测方法

本申请涉及语音处理技术领域，特别是涉及一种合成语音的评测方法、装置和设备。

背景技术：

语音合成系统能够使终端具有类似于人一样的说话能力，即，通过机械、电子等方法产生与文本对应的人造语音(即合成语音)，播放人造语音使得用户获知该文本的内容，给用户带来了便利。随着语音合成系统的发展，用户对语音合成系统的要求也越来越高。

针对语音合成系统的评测是语音合成系统的关键一环，目前对语音合成系统的评测，通常由评测者人工对语音合成系统所生成的合成语音的主观感受进行评分，例如平均意见分数(英文：meanopinionscore，简称：mos)评测方法、abtest方法等。但是，由评测者人工评测的方法，要想可靠的完成对语音合成系统的评测，不仅需要耗费大量的人力和时间成本，而且依赖评测者的主观感受很可能导致不同评测过程的评测标准不够统一。

基于此，亟待提供一种能够客观和高效的对合成语音进行评测的方法，从而使得语音合成系统尽可能的满足用户的需求。

技术实现要素：

本申请实施例提供了一种合成语音的评测方法、装置和设备，能够客观和高效的完成对语音合成系统所生成的合成语音进行评测，从而提高了语音合成系统的更新效率，使得语音合成系统快速满足用户的需求成为可能。

第一方面，本申请实施例提供了一种合成语音的评测方法，首先，基于第一合成语音获得第二文本信息，该第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本；接着，根据第二文本信息和第一文本，确定第一评测结果和第二评测结果，其中，第一评测结果用于指示第二文本中包括的文字和第一文本包括的文字的差异情况，第二评测结果用于指示第一合成语音的发音情况；然后，根据第一评测结果和第二评测结果，确定该语音合成系统的目标评测结果。

第二方面，本申请实施例还提供了一种合成语音的评测装置，该装置可以包括：第一获得单元、第一确定单元和第二确定单元。其中，第一获得单元，用于基于第一合成语音获得第二文本信息，第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本；第一确定单元，用于根据第二文本信息和第一文本，确定第一评测结果和第二评测结果，其中，第一评测结果用于指示第二文本中包括的文字和第一文本包括的文字的差异情况，第二评测结果用于指示第一合成语音的发音情况；第二确定单元，用于根据第一评测结果和第二评测结果，确定语音合成系统的目标评测结果。

第三方面，本申请实施例还提供了一种电子设备，该电子设备包括：处理器和存储器；其中，所述存储器，用于存储指令或计算机程序；所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行以上第一方面提供的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行以上第一方面提供的方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例提供了一种合成语音的评测方法，对于第一文本被待评测的语音合成系统处理得到的第一合成语音，合成语音的评测装置可以基于第一合成语音获得第二文本信息，该第二文本信息可以包括第二文本以及该第二文本中所包括的各个文字的发音属性(如各个文字包括的音素的发音时长)，该第二文本为第一合成语音转换文本后获得的文本；接着，根据该第二文本信息和第一文本，确定第一评测结果和第二评测结果，其中，第一评测结果用于指示第二文本中包括的文字和第一文本包括的文字的差异情况，第二评测结果用于指示第一合成语音的发音情况；从而，根据第一评测结果和第二评测结果，确定该语音合成系统的目标评测结果。可见，该方法中合成语音的评测装置能够对语音合成系统生成的合成语音进行客观、准确的分析，获得反映该语音合成系统综合情况的评测结果，无需由评测人工对合成语音进行人工评测，不仅能够节约合成语音评测过程中的时间和人力成本，而且使得对语音合成系统合成的语音的评测更加客观和准确，从而使得语音合成系统进行高效的更新成为可能。

附图说明

图1为本申请实施例提供的一种合成语音的评测方法的流程示意图；

图2为本申请实施例提供的另一种合成语音的评测方法的流程示意图；

图3为本申请实施例提供的又一种合成语音的评测方法的流程示意图；

图4为本申请实施例提供的再一种合成语音的评测方法的流程示意图；

图5为本申请实施例提供的还一种合成语音的评测方法的流程示意图；

图6为本申请实施例提供的另一种合成语音的评测方法的流程示意图；

图7为本申请实施例提供的一种合成语音的评测装置的结构示意图；

图8为本申请实施例提供的一种电子设备的基本结构的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，并非对本申请的限定。另外，还需要说明的是，为便于描述，附图中仅示出了与本申请相关的部分，并非全部结构。

语音合成系统，通过tts(英文：texttospeech，中文：从文本到语音)技术，让终端等机器能够说话，使得不方便阅读文本的用户通过听该文本对应的合成语音，获知文本的内容，给用户带来了便利。为了给用户带来优质的使用体验，需要对语音合成系统合成语音的质量进行评测。

目前，对语音合成系统的评测，无论是mos评测方法还是abtest方法，通常都是由评测者凭借主观感受对语音合成系统所生成的合成语音进行人工评分。但是，由评测者人工对语音合成系统进行评测，需要耗费大量的人力和时间成本，而且可能出现评测标准不统一的问题。

基于此，本申请实施例提供了一种合成语音的评测方法，执行该方法的合成语音的评测装置能够客观和高效的对语音合成系统所产生的合成语音进行评测。该方法例如可以包括：基于第一合成语音获得第二文本信息，其中，该第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性(如发音时长)，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本；接着，根据第二文本信息和第一文本，确定第一评测结果和第二评测结果，其中，第一评测结果用于指示第二文本中包括的文字和第一文本包括的文字的差异情况，第二评测结果用于指示第一合成语音的发音情况；那么，即可根据第一评测结果和第二评测结果，确定语音合成系统的目标评测结果。可见，通过该方法，无需测评人员对合成语音进行人工评测，合成语音的评测装置即可客观和高效的完成对语音合成系统所生成的合成语音的评测，不仅节约了合成语音评测所需的人力和时间成本，也避免了评测人员评测标准不统一造成的评测结果不合理的问题，从而提高了语音合成系统的更新效率，使得语音合成系统快速满足用户的需求成为可能。

需要说明的是，实现本申请实施例的主体可以为具有本申请实施例提供的合成语音评测功能的插件、客户端或服务器，其中插件或客户端可以承载于终端，该终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接相互交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。

为便于理解本申请实施例提供的合成语音的评测方法的具体实现，下面将结合附图进行说明。

需要说明的是，下文的实施例中以执行主体为客户端(或者称为合成语音的评测装置)为例进行说明。

参见图1，该图为本申请实施例提供的一种合成语音的评测方法流程示意图，如果需要对语音合成系统进行评测，则，可以执行本申请实施例提供的该方法。如图1所示，该方法可以包括下述s101～s103：

s101，基于第一合成语音获得第二文本信息，第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本。

第一文本，是指经过待评测的语音合成系统进行语音合成处理的文本，具体可以是该语音合成系统处理的任意一个文本。例如，第一文本可以是语音合成系统进行处理的文章或小说中的一个词语、一个句子或一个自然段。

第一合成语音，是指语音合成系统对第一文本进行处理所获得的语音。例如，第一文本是“我们是好朋友”这六个文字，那么，第一合成语音可以为一条“我们是好朋友”的语音。

可以理解的是，对该语音合成系统的评测，可以认为是以第一文本作为准确无误的标准，评测其对应的第一合成语音是否出现偏差的过程。其中，语音合成系统的稳定性可以是用户对语音合成系统的基本需求。那么，为了评测语音合成系统的稳定性，可以先执行s101以获得第一合成语音对应的第二文本信息。

其中，第二文本信息，可以包括第二文本以及第二文本所包括的文字的发音属性。其中，发音属性例如可以是文字中包括音素的发音时长，文字的音素可以包括文字的生母和文字的韵母。例如，第二文本信息包括的第二文本可以为：“我们是女子月月友”这八个文字，第二文本信息包括的第二文本所包括文字的发音属性可以包括：“我”的两个音素“w”和“o”的发音时长、“们”的两个音素“m”和“en”的发音时长、“是”的两个音素“sh”和“i”的发音时长、“女”的两个音素“n”和“v”的发音时长、“子”的两个音素“z”和“i”的发音时长、“月”的两个音素“y”和“e”的发音时长、“月”的两个音素“y”和“e”的发音时长、以及“友”的两个音素“y”和“ou”的发音时长。需要说明的是，对于包括介母的文字，介母通常不作为该文字的音素，例如，“天”的音素可以包括“t”和“an”，而不考虑“i”。

具体实现时，s101可以包括：合成语音的评测装置基于语音识别(英文：automaticspeechrecognition，简称：asr)算法，将第一合成语音转换为第二文本，并获得该第二文本中所包括的文字的发音属性，从而，将第二文本以及第二文本中所包括的文字的发音属性记作第二文本信息。

s102，根据第二文本信息和第一文本，确定第一评测结果和第二评测结果，其中，第一评测结果用于指示第二文本中包括的文字和第一文本包括的文字的差异情况，第二评测结果用于指示第一合成语音的发音情况。

在一种可能的实现方式中，为了评测语音合成系统在合成第一合成语音的过程中，是否出现了错读、漏读或多读等异常情况，可以对第一合成语音进行非强制对齐的语音识别，即，s102中确定第一评测结果的部分。

作为一个示例，s101中确定第一评测结果的过程，例如可以包括：合成语音的评测装置根据第二文本和第一文本，采用动态规划算法，确定第一评测结果。

其中，动态规划算法的输入可以是第一文本和第二文本，输出为第一评测结果。该动态规划算法的原理可以是：将第一文本和第二文本进行最大程度的对齐，判断第一文本和第二文本所包括文字之间的差异，并进行统计和分数计算，获得第一评测结果。第一评测结果，例如可以是能够反映第二文本中包括的文字和第一文本包括的文字的差异情况的分数，可以是一个反映第二文本和第一文本包括的文字的整体差异情况的分数，也可以包括一个反映第二文本和第一文本包括的文字的整体差异情况的分数以及若干个反映第一文本和第二文本的文字差异的评测项的分数。

例如，第一文本为“我们是好朋友”这六个文字，第二文本可以为：“我们是女子月月友”这八个文字，那么，经过动态规划算法，将“我们是”和“友”对齐，之后的“好朋”和“女子月月”为错读，经过s102获得的第一评测结果可以为67分；或者，经过s102获得的第一评测结果可以包括：总分：89分、多读：100分、错读：67分和漏读：100分，其中，总分可以为各个体现文字差异情况的评测项的分数的平均值或加权平均值。

在另一种可能的实现方式中，为了评测语音合成系统所合成的第一合成语音中，是否出现了长时间的停顿、不合理的发音时长、语音提前停止等发音异常情况，可以对第一合成语音进行强制对齐的语音识别，即，s102中确定第二评测结果的部分。

作为一个示例，s101中确定第二评测结果的过程，例如可以包括：合成语音的评测装置根据第二文本中所包括的各个文字的发音属性和第一文本，确定第二评测结果。

第二评测结果，例如可以是能够反映第一合成语音的发音情况的分数，可以是一个反映第一合成语音的整体发音情况的分数，也可以包括一个反映第一合成语音的整体发音情况的分数以及若干个反映第一合成语音的发音情况的评测项的分数。

例如，第一文本为“我们是好朋友”这六个文字，第一合成语音为“我们是女子月月友”的语音，那么，第二文本信息中第二文本所包括的文字的发音属性可以为：“我(w：100毫秒、o：5毫秒)们(m：4毫秒、en：10秒)是(sh：3毫秒、i：2毫秒)女(n：3毫秒、v：2毫秒)子(z：2毫秒、i：3毫秒)月(y：4毫秒、e：50秒)月(y：4毫秒、e：40秒)友(y：4毫秒、ou：3毫秒)”，那么，两个“月”存在长时间停顿的异常情况，“我”的“w”存在发音时长不合理的问题，经过s102获得的第二评测结果可以为50分；或者，经过s102获得的第二评测结果可以包括：总分：80分、长时间的停顿：60分、不合理的发音时长：80分、语音提前停止：100分，其中，总分可以为各个体现发音情况的评测项的分数的平均值或加权平均值。

需要说明的是，对于获得第二评测结果的过程中，合成语音的评测装置可以预设各种发音异常的预设时长，例如，预设一个文字的一个音素的发音时长大于或等于500毫秒，则，认为该文字存在发音时长不合理的情况；又例如，预设一个文字的第二个音素或不发音标记(如标点符号)的发音时长大于或等于3秒，则，认为该文字存在长时间停顿的情况；再例如，预设第一合成语音对应的第二文本和第一文本的开始部分匹配，但第二文本的结尾部分和第一文本的中间部分匹配，第二文本的结尾部分与第一文本的结尾部分不配，则，认为该第一合成语音存在提前停顿的情况，例如，第一文本为“我们是好朋友”，第二文本为“我们是”，则，认为第一合成语音存在提前停顿的问题。

s103，根据第一评测结果和第二评测结果，确定语音合成系统的目标评测结果。

需要说明的是，如果只针对语音合成系统的稳定性进行评测，那么，在s102之后，执行该s103即可完成对该语音合成系统的评测。

作为一个示例，该目标评测结果可以是第一评测结果和第二评测结果的平均值或加权平均值。例如，经过s102获得的第一评测结果包括：总分：89分、多读：100分、错读：67分和漏读：100分，第二评测结果包括：总分：80分、长时间的停顿：60分、不合理的发音时长：80分、语音提前停止：100分，那么，目标评测结果可以为：89分和80分的平均值84.5分；或者，第一评测结果和第二评测结果的权重比例为7:3，那么，目标评测结果也可以为：(89*7 80*3)/(7 3)＝86.3分。

作为另一个示例，为了让用户能够通过目标评测结果了解到更多的信息，该目标评测结果可以包括：综合评测结果、第一评测结果和第二评测结果，其中，综合评测结果可以为第一评测结果和第二评测结果的平均值或加权平均值。例如，经过s102获得的第一评测结果包括：总分：89分、多读：100分、错读：67分和漏读：100分，第二评测结果包括：总分：80分、长时间的停顿：60分、不合理的发音时长：80分、语音提前停止：100分，那么，目标评测结果可以如下表1所示：

表1

这样，用户能够通过各个评测项的分数以及综合评测结果，了解该语音合成系统的整体情况、薄弱环节以及优势环节，为后续优化该语音合成系统提供了方向。

在一些可能的实现方式中，还可以根据目标评测结果，有针对性的更新语音合成系统，例如，针对分数较低的错读以及长时间停顿的问题，优化该语音合成系统中实现这两部分的程序或模块。

可见，通过本申请实施例提供的合成语音的评测方法，合成语音的评测装置能够对语音合成系统生成的合成语音进行客观、准确的分析，获得反映该语音合成系统稳定性等方面情况的评测结果，无需由评测人工对合成语音进行人工评测，不仅能够节约合成语音评测过程中的时间和人力成本，而且使得对语音合成系统合成的语音的评测更加客观和准确，从而使得语音合成系统进行高效的更新成为可能。

参见图2，该图为本申请实施例提供的另一种合成语音的评测方法流程示意图，如果需要对语音合成系统进行稳定性和音色方面的评测，则，可以执行本申请实施例提供的该方法。如图2所示，该方法可以包括下述s201～s206：

s201，基于第一合成语音获得第二文本信息，第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本。

s202，根据第二文本信息和第一文本，确定第一评测结果和第二评测结果，其中，第一评测结果用于指示第二文本中包括的文字和第一文本包括的文字的差异情况，第二评测结果用于指示第一合成语音的发音情况。

需要说明的是，s201～s202的具体实现方式以及达到的效果，可以参见上述方法中s101～s102的相关描述，在此不再赘述。

s203，获得所述第一文本对应的目标语音，该目标语音为目标用户提供的所述目标用户阅读第一文本的语音。

需要说明的是，本申请实施例中对s203和s201～s202执行的先后顺序不进行限定。

可以理解的是，如果希望语音合成系统所合成的第一合成语音的音色效果符合目标用户发音特点，则，基于目标用户的自愿行为，获得目标用户的语音，将其设置为该语音合成系统的一个角色，使得该语音合成系统获得的合成语音听起来像目标用户朗读的语音。其中，目标用户可以为用户设置的喜欢或感兴趣的用户。

目标语音，是指在语音合成系统设置目标用户后，目标用户根据自己的意愿阅读阅读第一文本产生的语音。如果语音合成系统的音色方面表现优秀，则，第一合成语音和目标语音的发音特点应该是相同或及其相似的。

s204，分别提取第一合成语音和目标语音的音色特征向量。

s205，根据目标语音的音色特征向量和第一合成语音的音色特征向量，确定第三评测结果，第三评测结果用于表征目标语音和第一合成语音的音色相似度。

具体实现时，可以基于说话人识别算法，提取第一合成语音的音色特征向量和目标语音的音色特征向量，并基于两个音色特征向量确定目标语音和第一合成语音的相似度，记作第三评测结果。

s206，根据第一评测结果、第二评测结果和第三评测结果，确定目标评测结果。

作为一个示例，该目标评测结果可以是第一评测结果、第二评测结果和第三评测结果的平均值或加权平均值。

作为另一个示例，该目标评测结果也可以包括：综合评测结果、第一评测结果、第二评测结果和第三评测结果，例如，目标评测结果可以如下表2所示：

表2

在一些可能的实现方式中，还可以根据目标评测结果，有针对性的更新语音合成系统，优化该语音合成系统中功能较差(即得分较低)部分的程序或模块。

可见，通过本申请实施例提供的合成语音的评测方法，合成语音的评测装置能够对语音合成系统生成的合成语音进行客观、准确的分析，获得反映该语音合成系统稳定性和音色方面情况的评测结果，无需由评测人工对合成语音进行人工评测，不仅能够节约合成语音评测过程中的时间和人力成本，而且使得对语音合成系统合成的语音的评测更加客观和准确，从而使得语音合成系统进行高效的更新成为可能。

参见图3，该图为本申请实施例提供的一种合成语音的评测方法流程示意图，如果需要对语音合成系统进行稳定性和音色方面的评测，且为了评测结果更加准确，则，以针对第一文本的多条合成语音的评测，实现对该语音合成系统更加准的评测。如图3所示，该方法中以第一文本对应的第一合成语音和第二合成语音为例进行描述，该方法可以包括下述s301～s306：

s301，基于第一合成语音获得第二文本信息，基于第二合成语音获得第三文本信息，第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本，第三文本信息包括第三文本以及第三文本中所包括的各个文字的发音属性，第二合成语音为待评测的语音合成系统对第一文本处理得到的另一个语音，第三文本为第二合成语音转换文本后获得的文本。

s302，根据第二文本信息和第一文本确定第七评测结果和第八评测结果，根据第三文本信息和第一文本确定第九评测结果和第十评测结果，并且根据第七评测结果和第九评测结果确定第一评测结果，根据第八评测结果和第十评测结果确定第二评测结果。

其中，第七评测结果用于指示第二文本中包括的文字与第一文本包括的文字的差异情况，第八评测结果用于指示第一合成语音的发音情况，第九评测结果用于指示第三文本中包括的文字与第一文本包括的文字的差异情况，第十评测结果用于指示第二合成语音的发音情况。第一评测结果用于指示第二文本中包括的文字、第三文本中包括的文字分别与第一文本包括的文字的差异的综合情况，第二评测结果用于指示第一合成语音以及第二合成语音的发音的综合情况。

s303，获得所述第一文本对应的目标语音，并获得语音合成系统针对第一文本合成的第二合成语音，所述目标语音为目标用户提供的该目标用户阅读所述第一文本产生的语音。

s304，分别提取第一合成语音、第二合成语音和目标语音的音色特征向量。

需要说明的是，s301～s302的具体实现方式以及达到的效果，可以参见上述方法中s101～s102的相关描述；s303的具体实现方式以及达到的效果，可以参见上述方法中s101以及s203的相关描述；s304的具体实现方式以及达到的效果，可以参见上述方法中s204的相关描述，在此不再赘述。

s305，根据目标语音的音色特征向量、第一合成语音的音色特征向量和第二合成语音的音色特征向量，确定第四评测结果和第五评测结果，第四评测结果用于表征目标语音与第一合成语音、第二合成语音的音色相似度，第五评测结果用于表征第一合成语音和第二合成语音之间的音色一致性。

具体实现时，s305中根据目标语音的音色特征向量、第一合成语音的音色特征向量和第二合成语音的音色特征向量，确定第四评测结果，例如可以包括：根据目标语音的音色特征向量和第一合成语音的音色特征向量确定第一合成语音和目标语音的音色相似度；根据目标语音的音色特征向量和第二合成语音的音色特征向量确定第二合成语音和目标语音的音色相似度；接着，根据所确定的两个音色相似度确定第四评测结果，其中，第四评测结果可以是两个音色相似度的平均值或加权平均值。

具体实现时，s305中根据目标语音的音色特征向量、第一合成语音的音色特征向量和第二合成语音的音色特征向量，确定第五评测结果，例如可以包括：根据第一合成语音的音色特征向量和第二合成语音的音色特征向量确定第一合成语音和第二合成语音的音色相似度，记作第五评测结果。需要说明的是，如果包括第四合成语音，则，还可以计算第一合成语音的音色特征向量和第五合成语音的音色特征向量确定第一合成语音和第五合成语音的音色相似度，以及，计算第二合成语音的音色特征向量和第五合成语音的音色特征向量确定第二合成语音和第五合成语音的音色相似度，从而，基于所计算的三个音色相似度确定第五评测结果。需要说明的是，第五评测结果也可以作为反映针对第一文本的多个合成语音的音色一致性的参数。

s306，根据第一评测结果、第二评测结果、第四评测结果和第五评测结果，确定目标评测结果。

作为一个示例，该目标评测结果可以是第一评测结果、第二评测结果、第四评测结果和第五评测结果的平均值或加权平均值。

作为另一个示例，该目标评测结果也可以包括：综合评测结果、第一评测结果、第二评测结果、第四评测结果和第五评测结果，例如，目标评测结果可以如下表3所示：

表3

在一些可能的实现方式中，还可以根据目标评测结果，有针对性的更新语音合成系统，优化该语音合成系统中功能较差(即得分较低)部分的程序或模块。

可见，通过本申请实施例提供的合成语音的评测方法，合成语音的评测装置能够对语音合成系统生成的合成语音进行客观、准确的分析，获得反映该语音合成系统稳定性和音色方面情况的评测结果，无需由评测人工对合成语音进行人工评测，不仅能够节约合成语音评测过程中的时间和人力成本，而且使得对语音合成系统合成的语音的评测更加客观和准确，从而使得语音合成系统进行高效的更新成为可能。

参见图4，该图为本申请实施例提供的一种合成语音的评测方法流程示意图，如果需要对语音合成系统进行稳定性和音质方面的评测，则，可以执行本申请实施例提供的该方法。如图4所示，该方法可以包括下述s401～s404：

s401，基于第一合成语音获得第二文本信息，第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本。

s402，根据第二文本信息和第一文本，确定第一评测结果和第二评测结果，其中，第一评测结果用于指示第二文本中包括的文字和第一文本包括的文字的差异情况，第二评测结果用于指示第一合成语音的发音情况。

需要说明的是，s401～s402的具体实现方式以及达到的效果，可以参见上述方法中s101～s102的相关描述，在此不再赘述。

s403，检测第一合成语音的第一信噪比。

其中，合成语音的评测装置可以通过信噪检测工具，对第一合成语音进行检测，获得第一合成语音的第一信噪比。

s404，根据第一评测结果、第二评测结果和第一信噪比，确定目标评测结果。

作为一个示例，该目标评测结果可以是第一评测结果、第二评测结果和第一信噪比的平均值或加权平均值。

作为另一个示例，该目标评测结果也可以包括：综合评测结果、第一评测结果、第二评测结果和第一信噪比，例如，目标评测结果可以如下表4所示：

表4

其中，第一信噪比可以通过预设的换算方式，被换算为与其他评测项分制相同的参数值，作为目标评测结果中的一个参数或参与目标评测结果计算的参数。

在一些可能的实现方式中，还可以根据目标评测结果，有针对性的更新语音合成系统，优化该语音合成系统中功能较差(即得分较低)部分的程序或模块。

可见，通过本申请实施例提供的合成语音的评测方法，合成语音的评测装置能够对语音合成系统生成的合成语音进行客观、准确的分析，获得反映该语音合成系统稳定性和音质方面情况的评测结果，无需由评测人工对合成语音进行人工评测，不仅能够节约合成语音评测过程中的时间和人力成本，而且使得对语音合成系统合成的语音的评测更加客观和准确，从而使得语音合成系统进行高效的更新成为可能。

参见图5，该图为本申请实施例提供的一种合成语音的评测方法流程示意图，如果需要对语音合成系统进行稳定性和音质方面的评测，且为了评测结果更加准确，则，以针对第一文本的多条合成语音的评测，实现对该语音合成系统更加准的评测。如图5所示，该方法中以第一文本对应的第一合成语音和第三合成语音为例进行描述，该方法可以包括下述s501～s505：

s501，基于第一合成语音获得第二文本信息，基于第三合成语音获得第四文本信息，第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本，第四文本信息包括第四文本以及第四文本中所包括的各个文字的发音属性，第三合成语音为待评测的语音合成系统对第一文本处理得到的又一个语音，第四文本为第三合成语音转换文本后获得的文本。

s502，根据第二文本信息和第一文本确定第七评测结果和第八评测结果，根据第四文本信息和第一文本确定第九评测结果和第十评测结果，并且根据第七评测结果和第九评测结果确定第一评测结果，根据第八评测结果和第十评测结果确定第二评测结果。

其中，第七评测结果用于指示第二文本中包括的文字与第一文本包括的文字的差异情况，第八评测结果用于指示第一合成语音的发音情况，第九评测结果用于指示第四文本中包括的文字与第一文本包括的文字的差异情况，第十评测结果用于指示第三合成语音的发音情况。第一评测结果用于指示第二文本中包括的文字、第四文本中包括的文字分别与第一文本包括的文字的差异的综合情况，第二评测结果用于指示第一合成语音以及第三合成语音的发音的综合情况。

需要说明的是，第三合成语音可以和第二合成语音为同一条语音，也可以是不同的语音。

s503，检测第一合成语音的第一信噪比，并检测第三合成语音的第二信噪比。

需要说明的是，s501～s502的具体实现方式以及达到的效果，可以参见上述方法中s101～s102的相关描述；s304的具体实现方式以及达到的效果，可以参见上述方法中s403的相关描述，在此不再赘述。

s504，根据第一信噪比和第二信噪比，确定第六评测结果。

其中，第六评测结果可以是第一信噪比和第二信噪比的平均值或加权平均值。

s505，根据第一评测结果、第二评测结果和第六评测结果，确定目标评测结果。

作为一个示例，该目标评测结果可以是第一评测结果、第二评测结果和第六评测结果的平均值或加权平均值。

作为另一个示例，该目标评测结果也可以包括：综合评测结果、第一评测结果、第二评测结果和第六评测结果，例如，目标评测结果可以如下表5所示：

表5

在一些可能的实现方式中，还可以根据目标评测结果，有针对性的更新语音合成系统，优化该语音合成系统中功能较差(即得分较低)部分的程序或模块。

可见，通过本申请实施例提供的合成语音的评测方法，合成语音的评测装置能够对语音合成系统生成的合成语音进行客观、准确的分析，获得反映该语音合成系统稳定性和音质方面情况的评测结果，无需由评测人工对合成语音进行人工评测，不仅能够节约合成语音评测过程中的时间和人力成本，而且使得对语音合成系统合成的语音的评测更加客观和准确，从而使得语音合成系统进行高效的更新成为可能。

参见图6，该图为本申请实施例提供的一种合成语音的评测方法流程示意图，如果需要对语音合成系统进行稳定性、音色和音质方面的评测，且为了评测结果更加准确，则，以针对第一文本的多条合成语音的评测，实现对该语音合成系统更加准的评测。如图6所示，该方法中以第一文本对应的第一合成语音、第二合成语音和第三合成语音为例进行描述，该方法可以包括下述s601～s607：

s601，基于第一合成语音获得第二文本信息，基于第二合成语音获得第三文本信息，基于第三合成语音获得第四文本信息。

其中，第二文本信息包括第二文本以及第二文本中所包括的各个文字的发音属性，第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，第二文本为第一合成语音转换文本后获得的文本。第三文本信息包括第三文本以及第三文本中所包括的各个文字的发音属性，第二合成语音为待评测的语音合成系统对第一文本处理得到的另一个语音，第三文本为第二合成语音转换文本后获得的文本。第四文本信息包括第四文本以及第四文本中所包括的各个文字的发音属性，第三合成语音为待评测的语音合成系统对第一文本处理得到的又一个语音，第四文本为第三合成语音转换文本后获得的文本。

需要说明的是，第一合成语音、第二合成语音和第三合成语音可以为语音合成系统针对第一文本合成的三条不同的语音。

s602，根据第二文本信息和第一文本确定第七评测结果和第八评测结果，根据第三文本信息和第一文本确定第九评测结果和第十评测结果，根据第四文本信息和第一文本确定第十一评测结果和第十二评测结果，并且根据第七评测结果、第九评测结果和第十一评测结果确定第一评测结果，根据第八评测结果、第十评测结果和第十二评测结果确定第二评测结果。

其中，第七评测结果用于指示第二文本中包括的文字与第一文本包括的文字的差异情况，第八评测结果用于指示第一合成语音的发音情况，第九评测结果用于指示第三文本中包括的文字与第一文本包括的文字的差异情况，第十评测结果用于指示第二合成语音的发音情况，第十一评测结果用于指示第四文本中包括的文字与第一文本包括的文字的差异情况，第十二评测结果用于指示第三合成语音的发音情况。第一评测结果用于指示第二文本中包括的文字、第三文本汇总包括的文字以及第四文本中包括的文字分别与第一文本包括的文字的差异的综合情况，第二评测结果用于指示第一合成语音、第二合成语音以及第三合成语音的发音的综合情况。

s603，检测第一合成语音的第一信噪比，检测第二合成语音的第二信噪比，并检测第三合成语音的第三信噪比。

s604，根据第一信噪比、第二信噪比和第三信噪比，确定第六评测结果。

s605，获得所述第一文本对应的目标语音，并提取第一合成语音、第二合成语音、第三合成语音和目标语音的音色特征向量。

s606，根据目标语音的音色特征向量、第一合成语音的音色特征向量、第二合成语音的音色特征向量和第三合成语音的音色特征向量，确定第四评测结果和第五评测结果，其中，第四评测结果用于表征目标语音与第一合成语音、第二合成语音以及第三合成语音的音色相似度，第五评测结果用于表征第一合成语音、第二合成语音和第三合成语音两两之间的音色一致性。

s607，根据第一评测结果、第二评测结果、第四评测结果、第五评测结果和第六评测结果，确定目标评测结果。

需要说明的是，上述s603～s604和s605～s606执行的先后顺序在本申请实施例中不作限定。

需要说明的是，s601～s602的具体实现方式以及达到的效果，可以参见上述方法中s101～s102、s301～s302或s501～s502的相关描述；s603～s604的具体实现方式以及达到的效果，可以参见上述方法中s504～s505的相关描述；s605～s606的具体实现方式以及达到的效果，可以参见上述方法中s303～s305的相关描述，在此不再赘述。

作为一个示例，该目标评测结果可以是第一评测结果、第二评测结果、第四评测结果、第五评测结果和第六评测结果的平均值或加权平均值。

作为另一个示例，该目标评测结果也可以包括：综合评测结果、第一评测结果、第二评测结果、第四评测结果、第五评测结果和第六评测结果，例如，目标评测结果可以如下表6所示：

表6

在一些可能的实现方式中，还可以根据目标评测结果，有针对性的更新语音合成系统，优化该语音合成系统中功能较差(即得分较低)部分的程序或模块。

可见，通过本申请实施例提供的合成语音的评测方法，合成语音的评测装置能够对语音合成系统生成的合成语音进行客观、准确的分析，获得反映该语音合成系统稳定性、音色和音质方面情况的评测结果，无需由评测人工对合成语音进行人工评测，不仅能够节约合成语音评测过程中的时间和人力成本，而且使得对语音合成系统合成的语音的评测更加全面、客观和准确，从而使得语音合成系统进行高效的更新成为可能。

相应的，本申请实施例还提供了一种合成语音的评测装置700，参见图7。该装置700可以包括：第一获得单元701、第一确定单元702和第三确定单元703。其中：

第一获得单元701，用于基于第一合成语音获得第二文本信息，所述第二文本信息包括第二文本以及所述第二文本中所包括的各个文字的发音属性，所述第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，所述第二文本为所述第一合成语音转换文本后获得的文本。

第一确定单元702，用于根据所述第二文本信息和所述第一文本，确定第一评测结果和第二评测结果，其中，所述第一评测结果用于指示所述第二文本中包括的文字和所述第一文本包括的文字的差异情况，所述第二评测结果用于指示所述第一合成语音的发音情况。

第二确定单元703，用于根据所述第一评测结果和所述第二评测结果，确定所述语音合成系统的目标评测结果。

下面参考图8，其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端，也可以包括服务器设备。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备可以包括处理装置(例如中央处理器、图形处理器等)801，其可以根据存储在只读存储器(rom)802中的程序或者从存储装置808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。在ram803中，还存储有电子设备操作所需的各种程序和数据。处理装置801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。

通常，以下装置可以连接至i/o接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从rom802被安装。在该计算机程序被处理装置801执行时，执行本公开实施例的方法中限定的上述功能。

根据本公开的一个或多个实施例，合成语音的评测方法可以包括：

基于第一合成语音获得第二文本信息，所述第二文本信息包括第二文本以及所述第二文本中所包括的各个文字的发音属性，所述第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，所述第二文本为所述第一合成语音转换文本后获得的文本；

根据所述第二文本信息和所述第一文本，确定第一评测结果和第二评测结果，其中，所述第一评测结果用于指示所述第二文本中包括的文字和所述第一文本包括的文字的差异情况，所述第二评测结果用于指示所述第一合成语音的发音情况；

根据所述第一评测结果和所述第二评测结果，确定所述语音合成系统的目标评测结果。

在一种可能的实现方式中，所述根据所述第二文本信息和所述第一文本，确定第一评测结果，包括：

根据所述第二文本和所述第一文本，采用动态规划算法，确定所述第一评测结果。

在一种可能的实现方式中，所述根据所述第二文本信息和所述第一文本，确定第二评测结果，包括：

根据所述第二文本中所包括的各个文字的发音属性和所述第一文本，确定所述第二评测结果。

在一种可能的实现方式中，所述方法还包括：

获得所述第一文本对应的目标语音，所述目标语音为目标用户提供的所述目标用户阅读所述第一文本采集到的语音；

分别提取所述第一合成语音和所述目标语音的音色特征向量；

根据所述目标语音的音色特征向量和所述第一合成语音的音色特征向量，确定第三评测结果，所述第三评测结果用于表征所述目标语音和所述第一合成语音的音色相似度。

在一种可能的实现方式中，所述根据所述第一评测结果和所述第二评测结果，确定所述语音合成系统的目标评测结果，包括：

根据所述第一评测结果、所述第二评测结果和所述第三评测结果，确定所述目标评测结果。

在一种可能的实现方式中，所述方法还包括：

获得所述语音合成系统针对所述第一文本合成的第二合成语音；

提取所述第二个合成语音的音色特征向量；

根据所述目标语音的音色特征向量、所述第一合成语音的音色特征向量和所述第二合成语音的音色特征向量，确定第四评测结果和第五评测结果，所述第四评测结果用于表征所述目标语音与所述第一合成语音、所述第二合成语音的音色相似度，所述第五评测结果用于表征所述第一合成语音和所述第二合成语音之间的音色一致性。

在一种可能的实现方式中，所述根据所述第一评测结果和所述第二评测结果，确定所述语音合成系统的目标评测结果，包括：

根据所述第一评测结果、所述第二评测结果、所述第四评测结果和所述第五评测结果，确定所述目标评测结果。

在一种可能的实现方式中，所述方法还包括：

检测所述第一合成语音的第一信噪比。

在一种可能的实现方式中，所述根据所述第一评测结果和所述第二评测结果，确定所述语音合成系统的目标评测结果，包括：

根据所述第一评测结果、所述第二评测结果和所述第一信噪比，确定所述目标评测结果。

在一种可能的实现方式中，所述方法还包括：

获得所述语音合成系统针对所述第一文本合成的第三合成语音；

检测所述第三合成语音的第二信噪比；

根据所述第一信噪比和所述第二信噪比，确定第六评测结果。

在一种可能的实现方式中，所述根据所述第一评测结果和所述第二评测结果，确定所述语音合成系统的目标评测结果，包括：

根据所述第一评测结果、所述第二评测结果和所述第六评测结果，确定所述目标评测结果。

在一种可能的实现方式中，所述目标评测结果包括所述语音合成系统的综合评测结果、所述第一评测结果和所述第二评测结果。

在一种可能的实现方式中，所述方法还包括：

根据所述目标评测结果更新所述语音合成系统。

根据本公开的一个或多个实施例，合成语音的评测装置可以包括：第一获得单元、第一确定单元和第三确定单元。其中：第一获得单元，用于基于第一合成语音获得第二文本信息，所述第二文本信息包括第二文本以及所述第二文本中所包括的各个文字的发音属性，所述第一合成语音为待评测的语音合成系统对第一文本处理得到的语音，所述第二文本为所述第一合成语音转换文本后获得的文本。

第一确定单元，用于根据所述第二文本信息和所述第一文本，确定第一评测结果和第二评测结果，其中，所述第一评测结果用于指示所述第二文本中包括的文字和所述第一文本包括的文字的差异情况，所述第二评测结果用于指示所述第一合成语音的发音情况。

第二确定单元，用于根据所述第一评测结果和所述第二评测结果，确定所述语音合成系统的目标评测结果。

在一种可能的实现方式中，所述第一确定单元，具体用于：

根据所述第二文本和所述第一文本，采用动态规划算法，确定所述第一评测结果。

在一种可能的实现方式中，所述第一确定单元，具体用于：

根据所述第二文本中所包括的各个文字的发音属性和所述第一文本，确定所述第二评测结果。

在一种可能的实现方式中，所述装置还包括：第二获得单元、第一提取单元和第三确定单元。其中：

第二获得单元，用于获得所述第一文本对应的目标语音，所述目标语音为目标用户提供的所述目标用户阅读所述第一文本的语音；

第一提取单元，用于分别提取所述第一合成语音和所述目标语音的音色特征向量；

第三确定单元，用于根据所述目标语音的音色特征向量和所述第一合成语音的音色特征向量，确定第三评测结果，所述第三评测结果用于表征所述目标语音和所述第一合成语音的音色相似度。

在一种可能的实现方式中，所述第二确定单元，具体用于：

根据所述第一评测结果、所述第二评测结果和所述第三评测结果，确定所述目标评测结果。

在一种可能的实现方式中，所述装置还包括：第三获得单元、第二提取单元和第四确定单元。其中：

第三获得单元，用于获得所述语音合成系统针对所述第一文本合成的第二合成语音；

第二提取单元，用于提取所述第二个合成语音的音色特征向量；

第四确定单元，用于根据所述目标语音的音色特征向量、所述第一合成语音的音色特征向量和所述第二合成语音的音色特征向量，确定第四评测结果和第五评测结果，所述第四评测结果用于表征所述目标语音与所述第一合成语音、所述第二合成语音的音色相似度，所述第五评测结果用于表征所述第一合成语音和所述第二合成语音之间的音色一致性。

在一种可能的实现方式中，所述第二确定单元，具体用于：

根据所述第一评测结果、所述第二评测结果、所述第四评测结果和所述第五评测结果，确定所述目标评测结果。

在一种可能的实现方式中，所述装置还包括：第一检测单元。该第一检测单元，用于：检测所述第一合成语音的第一信噪比。

在一种可能的实现方式中，所述第二确定单元，具体用于：

根据所述第一评测结果、所述第二评测结果和所述第一信噪比，确定所述目标评测结果。

在一种可能的实现方式中，所述装置还包括：第四获得单元、第二检测单元和第五确定单元。其中：

第四获得单元，用于获得所述语音合成系统针对所述第一文本合成的第三合成语音；

第二检测单元，用于检测所述第三合成语音的第二信噪比；

第五确定单元，用于根据所述第一信噪比和所述第二信噪比，确定第六评测结果。

在一种可能的实现方式中，所述第二确定单元，具体用于：

根据所述第一评测结果、所述第二评测结果和所述第六评测结果，确定所述目标评测结果。

在一种可能的实现方式中，所述目标评测结果包括所述语音合成系统的综合评测结果、所述第一评测结果和所述第二评测结果。

在一种可能的实现方式中，所述装置还包括：更新单元。该更新单元，用于根据所述目标评测结果更新所述语音合成系统。

根据本公开的一个或多个实施例，电子设备可以包括：处理器和存储器；其中，所述存储器，用于存储指令或计算机程序；所述处理器，用于执行所述存储器中的所述指令或计算机程序，以使得所述电子设备执行以上图1-图6任一实施例提供的方法。

根据本公开的一个或多个实施例，计算机可读存储介质可以包括指令，当其在计算机上运行时，使得计算机执行以上图1-图6任一实施例提供的方法。

本申请实施例中提到的“第一合成语音”、“第一文本”等名称中的“第一”只是用来做名字标识，并不代表顺序上的第一。该规则同样适用于“第二”等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-onlymemory，rom)/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例和设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的优选实施方式，并非用于限定本申请的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于多个单唤醒词模型的多唤醒词防误识别方法与流程

一种合成语音的评测方法、装置和设备与流程

相关文章

最热文献