用于语音合成的词典生成、语音合成方法和装置、系统与流程

2021-06-08 09:52:00 来源：中国专利 TAG：语音合成词典语音装置生成

1.本发明涉及语音服务技术领域，特别涉及用于语音合成的词典生成、语音合成方法和装置、系统。

背景技术：

2.行业词典是以最小语言单位表示的某一行业的术语和习惯用语的集合，例如导航行业词典、旅游行业词典等。在语音合成应用中，针对不同领域的语音合成，通常会用到各领域的行业词典，来提高语音合成的准确率。
3.随着语音合成应用的业务场景越来越多，而每个业务场景都存在很多领域专属词，例如银行领域的"出息日"、运营商领域的"大王卡"、金融领域的"重仓子基金"，且这些领域每隔一段时间就会创造出新的业务词汇。因此，在语音合成过程中为了准确合成语音，生成不同领域的行业词典并及时更新是很有必要的，如果某个场景对应领域的行业词典不能得到及时更新，将会直接影响语音合成的准确性和流畅性，导致语音合成的停顿、不自然甚至发音错误。
4.而现有技术主要是通过人工搜索的方式来形成和更新行业词典，成本高、效率低，且更新速度慢，无法满足语音合成业务中对行业词典更新速度和及时性的需求。

技术实现要素：

5.鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用于语音合成的词典生成、语音合成方法和装置、系统。
6.第一方面，本发明实施例提供一种用于语音合成的词典生成方法，包括：
7.从源文本中抽取候选词；
8.从所述候选词中筛选出词条；
9.若所述词条在词典中没有对应的音频数据，生成所述词条的音频数据，并将所述词条和音频数据加入所述词典。
10.在一些可选的实施例中，所述从源文本中抽取候选词之前，还包括：将所述源文本中的非第一目标语言的文字翻译成第一目标语言的文字。
11.在一些可选的实施例中，所述方法还包括：当所述非第一目标语言的文字没有对应的第一目标语言的文字时，将该非第一目标语言的文字确定为词条。
12.在一些可选的实施例中，将所述词条和音频数据加入所述词典之后，还包括：将所述词典中的词条翻译成第二目标语言的词条；和/或，将所述词条的音频数据转换成第三目标语言的音频数据。
13.在一些可选的实施例中，所述从源文本中抽取候选词包括：
14.针对所述源文本中的文本段，基于n-gram模型从所述文本段中抽取右邻词和左邻词，作为候选词。
15.在一些可选的实施例中，所述基于n-gram模型从所述文本段中抽取右邻词和左邻
词，包括：
16.依次以所述文本段从左到右的每个文字为首字，从左到右抽取所述首字右侧的n个文字，与所述首字组成右邻词；当抽取到的所述首字右侧的文字个数小于n时，将抽取到的所有文字与所述首字组成右邻词；
17.依次以所述文本段从右到左的每个文字为首字，从右到左抽取所述首字左侧的n个文字，与所述首字组成左邻词；当抽取到的所述首字左侧的文字个数小于n时，将抽取到的所有文字与所述首字组成左邻词。
18.在一些可选的实施例中，所述从所述候选词中筛选出词条包括：
19.将从所述源文本中的全部文本段抽取的左邻词和右邻词分别构成为左邻词集合和右邻词集合；
20.确定所述候选词的针对所述左邻词集合的左邻词信息熵、针对所述右邻词集合的右邻词信息熵、互信息和位置成词概率；
21.当所述左邻词信息熵、所述右邻词信息熵、所述互信息和所述位置成词概率分别大于相应的预定阈值时，将所述候选词确定为词条。
22.在一些可选的实施例中，所述确定所述候选词的针对所述左邻词集合的左邻词信息熵、针对所述右邻词集合的右邻词信息熵，包括：
23.根据所述候选词在所述左邻词集合中的出现概率确定所述候选词的左邻词信息熵，根据所述候选词在所述右邻词集合中的出现概率确定所述候选词的右邻词信息熵。
24.在一些可选的实施例中，确定所述候选词的互信息，包括：
25.将所述左邻词集合和右邻词集合合并为总集合；
26.根据所述候选词、构成所述候选词的左分词和右分词分别在所述总集合中的出现概率，确定所述候选词的互信息。
27.在一些可选的实施例中，确定所述候选词的位置成词概率，包括：
28.将所述候选词中每个文字在已有词典中的位置概率的最小值确定为所述候选词的位置成词概率。
29.在一些可选的实施例中，所述生成所述词条的音频数据前，还包括：
30.将所述左邻词集合和右邻词集合合并为总集合；
31.剔除在所述总集合中的出现概率小于预定概率阈值的词条；
32.所述生成所述词条的音频数据，包括：
33.生成剔除后剩余词条的音频数据。
34.在一些可选的实施例中，所述从源文本中抽取候选词前，还包括对所述源文本进行至少下述一项正则化处理：
35.将所述源文本中的符号转化成对应的文字或删除；
36.将所述源文本中的阿拉伯数字转化成对应的文字；
37.将所述源文本中的英文字符转化成对应的文字或删除；
38.将所述源文本中的标点符号转化成预设的间隔符。
39.在一些可选的实施例中，所述源文本包含有银行领域、通信运营商领域、或金融领域的相关用语。
40.第二方面，本发明实施例提供一种语音合成方法，包括：
41.获取待转换文本，根据词典将所述待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
42.第三方面，本发明实施例提供一种银行领域用的语音合成方法，包括：
43.获取包含银行领域用语的待转换文本，根据词典将所述待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
44.第四方面，本发明实施例提供一种通信运营商领域用的语音合成方法，包括：
45.获取包含通信运营商领域用语的待转换文本，根据词典将所述待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
46.第五方面，本发明实施例提供一种金融领域用的语音合成方法，包括：
47.获取包含金融领域用语的待转换文本，根据词典将所述待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
48.第六方面，本发明实施例提供一种语音导航方法，包括：根据词典将获取到的导航输出文本转换成语音，并播放所述语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
49.第七方面，本发明实施例提供一种语音客服方法，包括：
50.根据获取到的用户输入信息生成回复信息，根据词典将所述回复信息转换成语音，并播放所述语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
51.第八方面，本发明实施例提供一种用于语音合成的词典生成装置，包括：
52.抽取模块，用于从源文本中抽取候选词；
53.筛选模块，用于从所述抽取模块抽取的候选词中筛选出词条；
54.生成模块，用于若所述筛选模块筛选的词条在词典中没有对应的音频数据，生成所述词条的音频数据，并将所述词条和音频数据加入所述词典。
55.第九方面，本发明实施例提供一种语音合成装置，包括：
56.获取模块，用于获取待转换文本；
57.转换模块，根据词典将所述获取模块获取的待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
58.第十方面，本发明实施例提供一种语音合成系统，包括端和服务端；
59.所述前端设置有上述用于语音合成的词典生成装置，所述服务端设置有上述语音合成装置。
60.第十一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机指令，当该指令被处理器执行时实现上述用于语音合成的词典生成方法或语音合成方法。
61.本发明实施例提供的上述技术方案的有益效果至少包括：
62.1、本发明实施例提供的用于语音合成的词典生成方法，从源文本中抽取候选词；从候选词中筛选出词条；若词条在词典中没有对应的音频数据，生成词条的音频数据，并将词条和音频数据加入词典。能够根据获取到的源文本快速、自动的生成用于语音合成的词典，无需人工对源文本进行任何预处理，生成词典的成本低，效率高，且覆盖面更全，能够满足语音合成过程中对词典更新速度、广度和及时性的需求。
63.2、本发明实施例提供的语音合成方法，获取到待转换文本后，及时获取最新的词典，根据词典将待转换文本转换成语音，使得转换的语音发音正确、停顿流畅自然。
64.本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
65.下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
66.附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：
67.图1为本发明实施例一中用于语音合成的词典生成方法的流程图；
68.图2为本发明实施例二中用于语音合成的词典生成的具体实现流程图；
69.图3为本发明实施例三中用于语音合成的词典生成的具体实现流程图；
70.图4为本发明实施例四中语音合成方法的流程图；
71.图5为本发明实施例中用于语音合成的词典生成装置的结构示意图；
72.图6为本发明实施例中语音合成装置的结构示意图；
73.图7为本发明实施例中语音合成系统的结构示意图。
具体实施方式
74.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
75.为了解决现有技术中存在的通过人工搜索的方式更新行业词典成本高、效率低，无法满足语音合成业务中对行业词典更新速度和及时性的需求的问题，本发明实施例提供一种用于语音合成的词典生成方法，能够快速、自动的更新用于语音合成的词典，成本低，效率高，能够满足语音合成过程中对词典更新速度和及时性的需求。
76.实施例一
77.本发明实施例一提供一种用于语音合成的词典生成方法，其流程如图1所示，包括如下步骤：
78.步骤s11：从源文本中抽取候选词。
79.其中，所述源文本是指包含各种语音合成场景中相关领域用语的文本，例如：银行领域、通信运营商领域、金融领域中的书籍、报刊、杂志、宣传册、网络文章等。获取到源文本后，首先需要从源文本中抽取可能的词条作为候选词。词条为构成词典的基本单元，语音合成时，首先将需要语音合成的待转换文本根据词典拆分成词条，再根据每个词条的音频数据合成语音。
80.在一个实施例中，可以是，针对源文本中的文本段，基于n-gram模型从源文本段中抽取右邻词和左邻词，作为候选词。
81.具体的，上述文本段可以是基于预处理后的源文本中的指定符号间的文本段。例如，将源文本中的标点符号都替换成指定符号，将指定符号之间的文字作为一个文本段。
82.步骤s12：从候选词中筛选出词条。
83.在一个实施例中，可以以候选词的左邻词信息熵、右邻词信息熵、互信息和位置成词概率为条件筛选词条。具体的，先将从源文本中的全部文本段抽取的左邻词和右邻词分别构成为左邻词集合和右邻词集合；确定候选词的针对左邻词集合的左邻词信息熵、针对右邻词集合的右邻词信息熵、互信息和位置成词概率；当候选词的左邻词信息熵、右邻词信息熵、互信息和位置成词概率分别大于相应的预定阈值时，将候选词确定为词条。
84.步骤s13：若词条在词典中没有对应的音频数据，生成词条的音频数据，并将词条和音频数据加入词典。
85.将筛选出的新的词条和音频数据一一对应的关联起来，填加进当前词典中，实现了用于语音合成的词典的更新。
86.本发明实施例提供的用于语音合成的词典生成方法，从源文本中抽取候选词；从候选词中筛选出词条；若词条在词典中没有对应的音频数据，生成词条的音频数据，并将词条和音频数据加入词典。能够根据获取到的源文本快速、自动的生成用于语音合成的词典，无需人工对源文本进行任何预处理，生成词典的成本低，效率高，且覆盖面更全，能够满足语音合成过程中对词典更新速度、广度和及时性的需求。
87.实施例二
88.本发明实施例二提供一种用于语音合成的词典生成的具体实现方法，其流程如图2所示，包括如下步骤：
89.步骤s201：对源文本进行正则化处理。
90.对源文本进行至少下述一项正则化处理：
91.1、将源文本中的符号转化成对应的文字或删除。
92.例如把￥123.3正则化为一百二十三点三元。
93.2、将源文本中的阿拉伯数字转化成对应的文字。
94.3、将源文本中的英文字符转化成对应的文字或删除；
95.4、将源文本中的标点符号转化成预设的间隔符。
96.对源文本进行正则化处理，保证源文本中包含的内容都是某一类的文字，例如都是汉字，为后面的处理提供文本基础。
97.步骤s202：将源文本拆分成多个文本段。
98.具体的，可以是将源文本中的指定符号之间的部分确定为一个文本段。也可以是将一行文本确定为一个文本段，也可以是其他的方法，具体文本段的确定方法本实施例不做限定。
99.步骤s203：基于n-gram模型从文本段中抽取右邻词和左邻词。
100.首先确定n的取值，一般情况下，n取某一固定的数值，在精度要求特别高的时候n可以同时取几个数值。n取某一固定的数值时计算量小，但可能有些词条没有被抽取成候选词，故最终没有被筛选为词条；n同时取几个数值可以保证最终得到的词典覆盖面更广，但是加大了计算量。
101.中文一个词的粒度一般控制在4个字以内(1个字，2个字，3个字,4个字)，所以n取5基本可以保证词典的覆盖度了。可选的，n也可以根据实际需求灵活的设置为其他的数值。
102.右邻词的抽取可以是，依次以文本段从左到右的每个文字为首字，从左到右抽取所述首字右侧的n个文字，与首字组成右邻词；当抽取到的首字右侧的文字个数小于n时，将
抽取到的所有文字与首字组成右邻词。
103.左邻词的抽取可以是，依次以文本段从右到左的每个文字为首字，从右到左抽取首字左侧的n个文字，与首字组成左邻词；当抽取到的首字左侧的文字个数小于n时，将抽取到的所有文字与首字组成左邻词。由于抽取到的词是倒置的，所以需要将抽取到的词倒置得到左邻词。
104.例如，针对文本段“确保全面协议得到完整”，基于5-gram模型从文本段中抽取到的右邻词分别为：确保全面协议、保全面协议得、全面协议得到、面协议得到完、协议得到完整、议得到完整、得到完整、到完整、完整和整；
105.基于5-gram模型从文本段中抽取到的左邻词分别为：整完到得议协、完到得议协面、到得议协面全、得议协面全保、议协面全保确、协面全保确、面全保确、全保确、保确和确，由于抽取到的上述左邻词是倒置的，所以需要将抽取到的词倒置得到最终的左邻词。
106.步骤s204：将从源文本中的全部文本段抽取的左邻词和右邻词分别构成为左邻词集合和右邻词集合，将左邻词集合和右邻词集合合并为总集合。
107.步骤s205：确定候选词的针对左邻词集合的左邻词信息熵、针对右邻词集合的右邻词信息熵。
108.具体的，可以是，根据候选词在左邻词集合中的出现概率确定候选词的左邻词信息熵，根据候选词在右邻词集合中的出现概率确定候选词的右邻词信息熵。
109.信息熵能够反映知道一个事件的结果后平均会带来多大的信息量。如果某个结果的发生概率为p，当知道它确实发生了，得到的信息量即某个结果的信息熵可以定义为log(p)。p越小，得到的信息量就越大。
110.步骤s206：确定候选词的互信息。
111.具体的，可以是，根据候选词、构成候选词的左分词和右分词分别在总集合中的出现概率，确定候选词的互信息。
112.候选词的左分词由候选词的从最左端开始的某一个或者是多个文字构成，对应的，候选词除去左分词剩下的部分即为右分词。以候选词为“一一个向部”为例，左分词为“一”时，右分词为“一个向部”；左分词为“一一”时，右分词为“个向部”；左分词为“一一个”时，右分词为“向部”；左分词为“一一个向”时，右分词为“部”。
113.将候选词在总集合中的出现概率，与候选词的左分词、对应右分词在总集合中的出现概率的乘积的比值中的最小值，确定为候选词的互信息。
114.还是以候选词为“一一个向部”为例，p(x)表示x在总集合中的出现概率，则候选词“一一个向部”的互信息为：的互信息为：和中的最小值。
115.上述x为出现在总集合中的候选词之一，若x不是某一出现在总集合中的候选词，则不在考虑范围之内，例如候选词中没有“个向部”，则候选词“一一个向部”的互信息只取和三者中的最小值。
116.步骤s207：确定候选词在总集合中的出现概率的位置成词概率。
117.具体的，可以是，将候选词中每个文字在已有词典中的位置概率的最小值确定为候选词的位置成词概率。
118.即位置成词概率的确定基于已有的带词频的词典。位置概率等于一个字出现在词首(s)、词中(m)或词尾(e)的次数/一个字出现的总次数。比如候选词“电影院”的位置成词概率，先分别取“电”在词首的概率(直接在指定的带词频的词典中查询即可得到，指指定词典中电字在词首的词的个数与指定词典中词的总个数的比值)，“影”在词中的概率，“院”在词尾的概率，再取三者最小值。
119.上述步骤s205～步骤s207没有先后顺序，可以先执行其中任何一步或两步，也可以同时执行。
120.步骤s208：当候选词的左邻词信息熵、右邻词信息熵、互信息和位置成词概率分别大于相应的预定阈值时，将候选词确定为词条。
121.步骤s209：剔除在总集合中的出现概率小于预定概率阈值的词条。
122.步骤s210：若剔除后剩余词条在词典中没有对应的音频数据，生成剩余词条的音频数据。
123.步骤s211：将剩余词条和音频数据加入词典。
124.实施例三
125.本发明实施例三提供另一种用于语音合成的词典生成的具体实现方法，其流程如图3所示，包括如下步骤：
126.步骤s301：对源文本进行正则化处理。
127.对源文本进行至少下述一项正则化处理：
128.将源文本中的符号转化成对应的文字或删除，将源文本中的阿拉伯数字转化成对应的文字，将源文本中的英文字符转化成对应的文字或删除，将源文本中的标点符号转化成预设的间隔符。
129.步骤s302：将源文本中的非第一目标语言的文字翻译成第一目标语言的文字。
130.例如，第一目标语言为中文，则将源文本中的非中文文字，例如英文、日文等文字翻译成中文文字。
131.在一个实施例中，还可以包括，若将源文本中的非第一目标语言的文字翻译成第一目标语言的文字失败，即非第一目标语言的文字没有对应的第一目标语言的文字时，将该非第一目标语言的文字确定为词条。同时，将源文本中的该文字转换成步骤301中所述的预设的间隔符。
132.例如，假设第一目标语言是汉语，源文本中的“mountain people mountain sea”，“give you some color see see”等文字显然不是汉语，但它们也不是标准的英语，只是按照中文表达方式自创的英语，无法使用普通的翻译工具翻译成汉语。但在日常生活中大部分中国人也能看听懂，因此可以直接将其确定为词条并生成相应的音频数据加入词典。
133.上述步骤301和步骤s302没有先后顺序，可以先执行其中任何一步，也可以同时执行。
134.步骤s303：将源文本拆分成多个文本段。
135.步骤s304：基于n-gram模型从文本段中抽取右邻词和左邻词。
136.步骤s305：将源从文本中的全部文本段抽取的左邻词和右邻词分别构成为左邻词集合和右邻词集合，将左邻词集合和右邻词集合合并为总集合。
137.步骤s306：确定候选词的针对左邻词集合的左邻词信息熵、针对右邻词集合的右邻词信息熵。
138.步骤s307：确定候选词的互信息。
139.步骤s308：确定候选词在总集合中的出现概率的位置成词概率。
140.上述步骤s306～步骤s308没有先后顺序，可以先执行其中任何一步或两步，也可以同时执行。
141.步骤s309：当候选词的左邻词信息熵、右邻词信息熵、互信息和位置成词概率分别大于相应的预定阈值时，将候选词确定为词条。
142.步骤s310：剔除在总集合中的出现概率小于预定概率阈值的词条。
143.步骤s311：若剔除后剩余词条在词典中没有对应的音频数据，生成剩余词条的音频数据。
144.步骤s312：将剩余词条和音频数据加入词典。
145.上述步骤中与实施例二中的步骤相同的部分，具体执行方法同实施例二，此处不做赘述。
146.步骤s313：将词典中的词条翻译成第二目标语言的词条；和/或，将词条的音频数据转换成第三目标语言的音频数据。
147.例如，步骤s301～步骤s312生成的词典的词条是中文、音频数据是汉语，当第二目标语言为英语，即词条的目标语言为英语时，将词典中的词条从中文翻译成英文；当第三目标语言为法语、即音频数据的目标语言为法语时，则将词典中的汉语音频数据转换成法语的音频数据；当第二目标语言为英语，且第三目标语言为法语时，则将词典中的词条从中文翻译成英文，并将词典中的汉语音频数据转换成法语的音频数据。
148.上述实施例中的词条，可以是只包含一种语言的词条，也可以是包含多种语言的词条，例如每个词条即包含英文文本，也包含中文文本，这样生成的词典既可以应用于英文文本，也可以应用于中文文本，还可以应用于同时包含英文和中文的文本。
149.可选的，上述实施例中的音频数据，可以是只包含一种语言的音频数据，也可以是包含多种语言的音频数据，例如，每个词条对应的音频数据，既有中文的也有英文的，这样在利用生成的词典进行语音合成时，即可以生成汉语的语音，也可以生成英语的语音，具体生成哪种语音，可以是根据用户的具体需求来定。
150.例如当词典中的词条为汉语、音频数据为汉语时，词典适用于汉语的待转换文本，且最后利用该词典合成的语音为汉语；当词典中的词条为英语、音频数据为汉语时，词典适用于英语的待转换文本，且最后利用该词典合成的语音为汉语；当词典中的词条为英语和汉语两种文本、音频数据为汉语时，词典既适用于英语的待转换文本，也适用于汉语的待转换文本，同时也适用于英语和汉语混合的待转换本文，且最后利用该词典合成的语音为汉语。
151.实施例四
152.本发明实施例四提供一种语音合成方法，其流程如图4所示，包括如下步骤：
153.步骤s41：获取待转换文本。
154.即获取需要合成语音的待转换文本。
155.步骤s42：根据词典将待转换文本转换成语音。
156.将待转换文本转换成语音所依据的词典是按照上述用于语音合成的词典生成方法生成的。
157.本发明实施例三提供的语音合成方法，获取到待转换文本后，及时获取最新的词典，根据词典将待转换文本转换成语音，使得转换的语音发音正确、停顿流畅自然。
158.基于本发明的发明构思，本发明实施例还提供一种银行领域用的语音合成方法，包括：
159.获取包含银行领域用语的待转换文本，根据词典将所述待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
160.基于本发明的发明构思，本发明实施例还提供一种通信运营商领域用的语音合成方法，包括：
161.获取包含通信运营商领域用语的待转换文本，根据词典将所述待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
162.基于本发明的发明构思，本发明实施例还提供一种金融领域用的语音合成方法，包括：
163.获取包含金融领域用语的待转换文本，根据词典将所述待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
164.基于本发明的发明构思，本发明实施例还提供一种语音导航方法，包括：
165.根据词典将获取到的导航输出文本转换成语音，并播放所述语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
166.基于本发明的发明构思，本发明实施例还提供一种语音客服方法，包括：
167.根据获取到的用户输入信息生成回复信息，根据词典将所述回复信息转换成语音，并播放所述语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
168.可选的，上述实施例中用于语音合成的词典生成方法生成的词典，也可以应用于其他的场景中，具体场景本实施例不做限定。
169.基于本发明的发明构思，本发明实施例还提供一种用于语音合成的词典生成装置，其结构如图5所示，包括：
170.抽取模块51，用于从源文本中抽取候选词；
171.筛选模块52，用于从抽取模块51抽取的候选词中筛选出词条；
172.生成模块53，用于若筛选模块52筛选的词条在词典中没有对应的音频数据，生成所述词条的音频数据，并将所述词条和音频数据加入所述词典。
173.基于本发明的发明构思，本发明实施例还提供一种语音合成装置，其结构如图6所示，包括：
174.获取模块61，用于获取待转换文本；
175.转换模块62，根据词典将获取模块61获取的待转换文本转换成语音，所述词典是按照上述用于语音合成的词典生成方法生成的。
176.基于本发明的发明构思，本发明实施例还提供一种语音合成系统，其结构如图7所示，包括前端71和服务端72；
177.前端71设置有上述用于语音合成的词典生成装置，服务端72设置有上述语音合成装置。
178.关于上述实施例中的装置和系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
179.基于本发明的发明构思，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机指令，当该指令被处理器执行时实现上述用于语音合成的词典生成方法或语音合成方法。
180.基于同一发明构思，本发明实施例还提供一种服务器，包括：存储器、处理器及存储于存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述用于语音合成的词典生成方法或语音合成方法。
181.除非另外具体陈述，术语比如处理、计算、运算、确定、显示等等可以指一个或更多个处理或者计算系统、或类似设备的动作和/或过程，所述动作和/或过程将表示为处理系统的寄存器或存储器内的物理(如电子)量的数据操作和转换成为类似地表示为处理系统的存储器、寄存器或者其他此类信息存储、发射或者显示设备内的物理量的其他数据。信息和信号可以使用多种不同的技术和方法中的任何一种来表示。例如，在贯穿上面的描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子或者其任意组合来表示。
182.应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。
183.在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。
184.本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。
185.结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、移动磁盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。该asic可以位于用户终端中。当然，处理器和存储介质也可以作为分立组件存在于用户终端中。
186.对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内，也可以实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。
187.上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音风格的迁移方法、装置、可读介质和电子设备与流程

用于语音合成的词典生成、语音合成方法和装置、系统与流程

相关文章

最热文献