语音合成方法及装置与流程

2021-10-22 21:48:00 来源：中国专利 TAG：语音合成装置方法

1.本技术涉及语音合成技术领域，尤其涉及一种语音合成方法及装置。

背景技术：

2.语音合成，是一种能根据文字生成语音的技术。目前的语音合成技术主要是基于情感和说话方的语音合成技术。基于情感和说话方的语音合成模型的构建，需要大量经过情感标注和说话方标注的文本以及文本对应的语音。其中，对文本的情感标注和说话方标注，由人工来完成，标注成本高，标注效率差，导致语音合成模型的准确度差。

技术实现要素：

3.本技术的目的旨在至少在一定程度上解决上述技术问题之一。
4.为此，本技术的第一个目的在于提出一种语音合成方法，该方法可自动识别出文本中句子的属性特征，并根据句子的属性特征生成具有属性特征的语音，进而进行语音合成，提高了语音合成的准确度和效率，同时，降低了语音合成的成本。
5.本技术的第二个目的在于提出一种语音合成装置。
6.本技术的第三个目的在于提出另一种语音合成装置。
7.本技术的第四个目的在于提出一种非临时性计算机可读存储介质。
8.为达上述目的，本技术第一方面实施例提出了一种语音合成方法，包括：获取待进行语音合成的文本；针对所述文本中的每个句子，将所述句子输入预设的属性识别模型，获取所述句子的属性特征；所述属性特征包括：说话方标识，和/或，情感类型；根据所述句子以及所述句子的属性特征，生成具有所述属性特征的语音；对所述文本中各个句子对应的语音进行合成处理，得到合成语音。
9.本技术实施例的语音合成方法，通过获取待进行语音合成的文本；针对所述文本中的每个句子，将所述句子输入预设的属性识别模型，获取所述句子的属性特征；所述属性特征包括：说话方标识，和/或，情感类型；根据所述句子以及所述句子的属性特征，生成具有所述属性特征的语音；对所述文本中各个句子对应的语音进行合成处理，得到合成语音。该方法可自动识别出文本中句子的属性特征，并根据句子的属性特征生成具有属性特征的语音，进而进行语音合成，提高了语音合成的准确度和效率，同时，降低了语音合成的成本。
10.为达上述目的，本技术第二方面实施例提出了一种语音合成装置，该装置包括：获取模块，用于获取待进行语音合成的文本；输入模块，用于针对所述文本中的每个句子，将所述句子输入预设的属性识别模型，获取所述句子的属性特征；所述属性特征包括：说话方标识，和/或，情感类型；生成模块，用于根据所述句子以及所述句子的属性特征，生成具有所述属性特征的语音；处理模块，用于对所述文本中各个句子对应的语音进行合成处理，得到合成语音。
11.本技术实施例的语音合成装置，通过获取待进行语音合成的文本；针对所述文本中的每个句子，将所述句子输入预设的属性识别模型，获取所述句子的属性特征；所述属性
特征包括：说话方标识，和/或，情感类型；根据所述句子以及所述句子的属性特征，生成具有所述属性特征的语音；对所述文本中各个句子对应的语音进行合成处理，得到合成语音。该装置可实现自动识别出文本中句子的属性特征，并根据句子的属性特征生成具有属性特征的语音，进而进行语音合成，提高了语音合成的准确度和效率，同时，降低了语音合成的成本。
12.为达上述目的，本技术第三方面实施例提出了另一种语音合成装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上所述的语音合成方法。
13.为了实现上述目的，本技术第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的语音合成方法。
14.本技术附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本技术的实践了解到。
附图说明
15.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：
16.图1为根据本技术一个实施例的语音合成方法的流程示意图；
17.图2为根据本技术另一个实施例的语音合成方法的流程示意图；
18.图3为根据本技术一个实施例的语音合成装置的结构示意图；
19.图4为根据本技术另一个实施例的语音合成装置的结构示意图；
20.图5为根据本技术一个实施例的另一种语音合成装置的结构示意图。
具体实施方式
21.下面详细描述本技术的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本技术，而不能理解为对本技术的限制。
22.下面参考附图描述本技术实施例的语音合成方法及装置。
23.图1为本技术实施例提供的一种语音合成方法的流程示意图。如图1所示，该语音合成方法包括以下步骤：
24.步骤101，获取待进行语音合成的文本。
25.在本技术实施例中，待进行语音合成的文本可为需要进行语音合成的文本，需要进行语音合成的文本可从小说或者剧本中进行截取，或者从网络中下载以获取。
26.步骤102，针对文本中的每个句子，将句子输入预设的属性识别模型，获取句子的属性特征；属性特征包括：说话方标识，和/或，情感类型。
27.在本技术实施例中，针对文本中的每个句子，将句子输入预设的属性识别模型，可获取句子的属性特征，其中，属性特征可包括：说话方标识，和/或，情感类型；比如，说话方标识可为文本的不同角色的说话人的标识，可用数字表示，如：speaker_id＝1，情感类型可为文本中包含的情感，如：喜悦、悲伤、惊叹、愤怒等。属性识别模型可包括但不限于说话方识别子模型和情感识别子模型。
28.作为一种示例，针对文本中的每个句子，将句子输入说话方识别子模型，可获取句子的说话方标识；针对文本中的每个句子，将句子输入情感识别子模型，可获取句子的情感类型。其中，需要说明的是，说话方识别模型的数量可为多个，其中，每个说话方识别子模型可对应一个说话方标识，用于识别句子的说话方标识是否为说话方识别子模型对应的说话方标识；情感识别子模型的数量可为多个，每个情感识别子模型可对应一种情感类型，用于识别句子的情感类型是否为情感识别子模型对应的情感类型。
29.举例而言，例如，将“太好了，黄木偶高兴地说”分别输入到说话方识别子模型和情感识别子模型中，可获取该句子的说话方标识为“黄木偶”，情感类型为“喜悦”。
30.需要理解的是，在针对文本中的每个句子，将句子输入预设的属性识别模型，获取句子的属性特征之前，可先获取预设的属性识别模型。可选地，获取第一训练数据，第一训练数据中的每个训练样本包括：训练文本以及对应的属性特征；采用第一训练数据对初始的属性识别模型进行训练，得到预设的属性识别模型。
31.作为一种示例，对大量的文本数据进行标注，标注信息可包括：句子的情感类型和说话方标识。例如：“太好了”，黄木偶高兴地说。文本标注结果为：说话方标识为“黄木偶”，情感类型为“喜悦”，内容为“太好了”，接着，将大量标注的文本数据作为训练数据，对初始的属性识别模型进行训练，得到预设的属性识别模型。比如，采用大量标注的文本数据对神经网络模型进行训练，将经过训练的神经网络模型作为预设的属性识别模型。
32.步骤103，根据句子以及句子的属性特征，生成具有属性特征的语音。
33.可选地，如图2所示，可将句子输入与其属性特征对应的语音合成模型中，生成具有属性特征的语音，具体实现过程如下：
34.步骤201，获取与句子的属性特征对应的语音合成模型。
35.可以理解，将句子输入与句子的属性特征对应的语音合成模型，获取具有属性特征的语音之前，可先获取与句子的属性特征对应的语音合成模型。可选地，针对属性特征，获取与属性特征对应的第二训练数据，第二训练数据中的每个训练样本包括：训练文本的属性特征，以及训练文本对应的语音；采用第二训练数据对初始的语音合成模型进行训练，得到与属性特征对应的语音合成模型。
36.举例而言，比如，预先对大量的文本数据进行标注，标注信息可包括：句子的情感类型和说话方标识。其中，说话方标识可用数字表示，说话方标识的数量可至少为2个；情感类型可使用预定义的n(大于或等于2)中类型，比如，可包括：喜悦、悲伤、惊叹、愤怒等。接着，将标注好的文本数据以及文本数据对应的语音作为第二训练数据，将第二训练数据输入到初始的语音合成模型中进行训练，可得到与属性特征对应的语音合成模型。比如，将第二训练数据输入至神经网络模型中进行训练，将经过训练的神经网络模型作为与属性特征对应的语音合成模型。
37.步骤202，将句子输入与句子的属性特征对应的语音合成模型，获取具有属性特征的语音。
38.接着，将句子输入到与该句子的属性特征对应的语音合成模型中，可获取具有属性特征的语音。其中，具有属性特征的语音可包括语音对应的说话方标识和情感类型。
39.步骤104，对文本中各个句子对应的语音进行合成处理，得到合成语音。
40.在本技术实施例中，可对文本中各个句子对应的语音进行合成，得到合成语音。比
如根据文本中故事情景将语音组成对话形式，可得到对应的合成语音。
41.本技术实施例的语音合成方法，通过获取待进行语音合成的文本；针对文本中的每个句子，将句子输入预设的属性识别模型，获取句子的属性特征；属性特征包括：说话方标识，和/或，情感类型；根据句子以及句子的属性特征，生成具有属性特征的语音；对文本中各个句子对应的语音进行合成处理，得到合成语音。该方法可自动识别出文本中句子的属性特征，并根据句子的属性特征生成具有属性特征的语音，进而进行语音合成，提高了语音合成的准确度和效率，同时，降低了语音合成的成本。
42.与上述几种实施例提供的语音合成方法相对应，本技术的一种实施例还提供一种语音合成装置，由于本技术实施例提供的语音合成装置与上述几种实施例提供的语音合成方法相对应，因此在前述语音合成方法的实施方式也适用于本实施例提供的语音合成装置，在本实施例中不再详细描述。图3为根据本技术一个实施例的语音合成装置的结构示意图。如图3所示，该语音合成装置包括：获取模块310、输入模块320、生成模块330、处理模块340。
43.其中，获取模块，用于获取待进行语音合成的文本；输入模块，用于针对文本中的每个句子，将句子输入预设的属性识别模型，获取句子的属性特征；属性特征包括：说话方标识，和/或，情感类型；生成模块，用于根据句子以及句子的属性特征，生成具有属性特征的语音；处理模块，用于对文本中各个句子对应的语音进行合成处理，得到合成语音。
44.作为本技术实施例的一种可能实现方式，如图4所示，在图3所示基础上，语音合成装置还包括：训练模块350。
45.其中，获取模块310，还用于获取第一训练数据，第一训练数据中的每个训练样本包括：训练文本以及对应的属性特征；训练模块350，用于采用第一训练数据对初始的属性识别模型进行训练，得到预设的属性识别模型。
46.作为本技术实施例的一种可能实现方式，属性识别模型包括：说话方识别子模型和情感识别子模型；输入模块320具体用于，针对文本中的每个句子，将句子输入说话方识别子模型，获取句子的说话方标识；和/或，针对文本中的每个句子，将句子输入情感识别子模型，获取句子的情感类型。
47.作为本技术实施例的一种可能实现方式，说话方识别子模型的数量为多个，每个说话方识别子模型对应一个说话方标识，用于识别句子的说话方标识是否为说话方识别子模型对应的说话方标识；情感识别子模型的数量为多个，每个情感识别子模型对应一种情感类型，用于识别句子的情感类型是否为情感识别子模型对应的情感类型。
48.作为本技术实施例的一种可能实现方式，生成模块330具体用于，获取与句子的属性特征对应的语音合成模型；将句子输入与句子的属性特征对应的语音合成模型，获取具有属性特征的语音。
49.作为本技术实施例的一种可能实现方式，生成模块330具体还用于，针对属性特征，获取与属性特征对应的第二训练数据，第二训练数据中的每个训练样本包括：训练文本的属性特征，以及训练文本对应的语音；采用第二训练数据对初始的语音合成模型进行训练，得到与属性特征对应的语音合成模型。
50.本技术实施例的语音合成装置，通过获取待进行语音合成的文本；针对所述文本中的每个句子，将所述句子输入预设的属性识别模型，获取所述句子的属性特征；所述属性
特征包括：说话方标识，和/或，情感类型；根据所述句子以及所述句子的属性特征，生成具有所述属性特征的语音；对所述文本中各个句子对应的语音进行合成处理，得到合成语音。该装置可实现自动识别出文本中句子的属性特征，并根据句子的属性特征生成具有属性特征的语音，进而进行语音合成，提高了语音合成的准确度和效率，同时，降低了语音合成的成本。
51.为了实现上述实施例，本技术还提出另一种语音合成装置，图5为本技术实施例提供的另一种语音合成装置的结构示意图。该语音合成装置包括：
52.存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
53.处理器1002执行所述程序时实现上述实施例中提供的语音合成方法。
54.进一步地，语音合成装置还包括：
55.通信接口1003，用于存储器1001和处理器1002之间的通信。
56.存储器1001，用于存放可在处理器1002上运行的计算机程序。
57.存储器1001可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
58.处理器1002，用于执行所述程序时实现上述实施例所述的语音合成方法。
59.如果存储器1001、处理器1002和通信接口1003独立实现，则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(industry standard architecture，简称为isa)总线、外部设备互连(peripheral component，简称为pci)总线或扩展工业标准体系结构(extended industry standard architecture，简称为eisa)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
60.可选的，在具体实现上，如果存储器1001、处理器1002及通信接口1003，集成在一块芯片上实现，则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
61.处理器1002可能是一个中央处理器(central processing unit，简称为cpu)，或者是特定集成电路(application specific integrated circuit，简称为asic)，或者是被配置成实施本技术实施例的一个或多个集成电路。
62.为了实现上述实施例，本技术实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例的语音合成方法。
63.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
64.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性
或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
65.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本技术的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本技术的实施例所属技术领域的技术人员所理解。
66.在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
67.应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。
68.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
69.此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
70.上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限制，本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种基于空洞卷积神经网络的端到端语种识别分类方法与流程
下一篇：电子设备及其控制方法与流程

语音合成方法及装置与流程

相关文献

最热文献