一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

自动阅读语音合成方法、装置、设备及存储介质与流程

2022-09-04 08:41:03 来源:中国专利 TAG:


1.本发明涉及到语音合成领域,具体为一种自动阅读语音合成方法、装置、设备及存储介质。


背景技术:

2.贷款服务平台中的经纪人为了提高展业效率,同时为了能更好更便捷的服务客户,会有一些展业赋能工具用来进行贷款展业,例如,拓展业务的文章等,以此来扩展展业手段,提高贷款经纪人的市场竞争能力。如今的贷款业务平台,推广的文章均是由用户进行文字阅读,占用客户部分时间。如何高效便捷的让客户阅读展业文章是需要解决的问题。


技术实现要素:

3.本发明的主要目的为提供一种自动阅读语音合成方法、装置、设备及存储介质,旨在解决客户进行文字阅读,占用客户部分时间的技术问题。
4.本发明提出一种自动阅读语音合成方法,所述方法的步骤包括:
5.采集指定人朗读第一文本时产生的第一音频数据,其中,所述第一文本为预设的标准文本;
6.基于所述第一文本与第一音频数据建立所述指定人的第一语料库;其中,所述第一语料库中包括所述指定人的音色特征与所述第一文本中各字、词语的发音;
7.获取发送给客户的第二文本,并提取所述第二文本的语言特征参数,其中,所述语言特征参数包括所述第二文本中各字、词语的发音以及语气变化;
8.基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据。
9.进一步地,所述提取所述第二文本的语言特征参数的步骤之前,包括:
10.对所述第二文本进行规范化处理;
11.将所述第二文本进行切分,获取所述第二文本中各字、词语的边界。
12.进一步地,所述获取发送给客户的第二文本,并提取所述第二文本的语言特征参数的步骤,包括:
13.对所述第二文本进行分析,获取所述第二文本的中出现的各文字、特殊字符、以及各种多音字的读音方式,确定所述第二文本的各字、词语读音;
14.根据所述第二文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。
15.进一步地,所述基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据的步骤之前,包括:
16.遍历所述第一语料库,判断所述第二文本中所有的各字、词语是否均能在所述语料库检索到;
17.若否,提取所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语;
18.遍历预设置的第二语料库,在所述第二语料库中提取所述第二文本中未在所述第
一语料库中遍历到的所有的各字、词语,并将所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语加入到所述第一语料库中。
19.进一步地,所述基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据的步骤,包括:
20.基于所述第一音频数据计算得到所述第一音频数据的梅尔倒普系数;
21.将所述梅尔倒普系数输入声码器结合所述第一语料库与所述语言特征参数进行拼接合成得到第二文本的第二音频数据。
22.进一步地,对所述语音信号数据进行预加重、分帧、加窗和傅立叶变换得到所述语音信号数据的频谱;
23.将所述频谱通过梅尔滤波器组得到梅尔频谱;
24.将所述梅尔频谱进行倒谱分析,对所述梅尔频谱进行取对数处理、做逆变换处理得到梅尔频率倒谱系数。
25.进一步地,所述将所述梅尔频谱进行倒谱分析,对所述梅尔频谱进行取对数处理、做逆变换处理得到梅尔频率倒谱系数的公式为:
[0026][0027]
其中,n为梅尔频率倒谱系数的个数,m为梅尔滤波器个数,k为第几个滤波器,x

为第k个滤波器的输出功率。
[0028]
进一步地,一种自动阅读语音合成装置,所述装置包括:
[0029]
采集模块,用于采集指定人朗读第一文本时产生的第一音频数据,其中,所述第一文本为预设的标准文本;
[0030]
建立模块,用于基于所述第一文本与第一音频数据建立所述指定人的第一语料库;其中,所述第一语料库中包括所述指定人的音色特征与所述第一文本中各字、词语的发音;
[0031]
获取提取模块,用于获取发送给客户的第二文本,并提取所述第二文本的语言特征参数,其中,所述语言特征参数包括所述第二文本中各字、词语的发音以及语气变化;
[0032]
合成模块,用于基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据。
[0033]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现自动阅读语音合成方法中任一项所述的方法。
[0034]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现自动阅读语音合成方法中任一项所述的方法。
[0035]
与现有技术相比,本发明的有益效果是:通过采集指定人在进行朗读第一文本时的第一音频数据,进而获取音色特征并且基于第一文本与第一音频数据建立指定人的语料库。获取想要读取的第二文本,对第二文本进行文本分析提取第二文本的语言特征参数,基于第一语料库与语言特征参数进行语音合成自动阅读朗读第二文本,让客户可以不通过通过终端屏幕进行观看阅读,可以通过自动朗读的方式听取第二文本,提高了客户的阅读效率。
附图说明
[0036]
图1是本发明一实施例的自动阅读语音合成方法的步骤示意图;
[0037]
图2是本发明一实施例的自动阅读语音合成方法的步骤示意图;
[0038]
图3是本发明一实施例的自动阅读语音合成方法的步骤示意图;
[0039]
图4是本发明一实施例的自动阅读语音合成方法的步骤示意图;
[0040]
图5是本发明一实施例的自动阅读语音合成方法的步骤示意图;
[0041]
图6是本发明一实施例的自动阅读语音合成方法的步骤示意图;
[0042]
图7是本发明一实施例的自动阅读语音合成装置的结构示意框图;
[0043]
图8为本发明一实施例的计算机设备的结构示意框图。
[0044]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0045]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0046]
参照图1,本技术实施例中提供一种自动阅读语音合成方法,所述方法的步骤包括:
[0047]
s100:采集指定人朗读第一文本时产生的第一音频数据,其中,所述第一文本为预设的标准文本;
[0048]
s200:基于所述第一文本与第一音频数据建立所述指定人的第一语料库;其中,所述第一语料库中包括所述指定人的音色特征与所述第一文本中各字、词语的发音;
[0049]
s300:获取发送给客户的第二文本,并提取所述第二文本的语言特征参数,其中,所述语言特征参数包括所述第二文本中各字、词语的发音以及语气变化;
[0050]
s500:基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据。
[0051]
对于s100,在本实施例中,以贷款服务平台为例,贷款服务平台的经纪人想要更好的服务客户,会经常发一些与贷款服务相关的文章给客户。但是,客户经常会没有空闲的时间阅读文章,而使得无法更好地服务客户和拓展业务。贷款服务平台选取一名指定人,指定人为贷款服务平台的经纪人,并且选取关于贷款服务相关的第一文本。在特定的条件之下,让指定人朗读贷款服务平台提供的第一文本,并通过电子仪器记录指定人在进行朗读第一文本时的第一音频数据,并且记录一定时间的阅读时长。最后保存指定人进行朗读第一文本时的第一音频数据。
[0052]
对于s200,对于上述步骤中采集记录的指定人的第一音频数据,将记录地指定人的第一音频数据输入到声码器中,通过声码器进一步分析获取指定人的音色特征。音色特征包括指定人的音高、长度、音调等特征。由于音色是不同声音表现在波形方面总是有与众不同的特性,不同的物体振动都有不同的特点,因此获取指定人所独有的音色特征。获取指定人读取第一文本所采集的第一音频数据,对第一音频数据进行分析获取第一文本中各字、词语、短语等一系列的发音,并且建立第一语料库,第一语料库中包括指定人的音色特征与获取的第一文本中各字、词语等一系列的发音。
[0053]
对于s300,选择与贷款服务平台的指定人相关联的第二文本,第二文本是需要推荐发给客户的文本。将获取的第二文本输入到隐马尔可夫模型。采用隐马尔可夫模型法并根据统计学或人工神经网络方面的知识并用大量己经存在的数据去训练第二文本,将训练得到的模型用于文本分析。基于对第二文本的文本分析,获取第二文本的语言特征参数,其中,第二文本的语言特征参数包括第二文本中各字、词语的发音以及语气变化。文本分析主要知道要发什么音、怎么发音并将发音的方式;发音的声调,音节是长还是短是重还是轻是高还是低,到哪儿应该停顿以及停顿的长短。在第二文本中,语言特征参数中所还包含的语气变化是非常重要的情感特征,其中,情感特征包括开心、高兴、生气、悲伤等情绪。其中对语气变化处理是至关重要的。在语音合成中,从第二文本中语气变化直接决定着所合成语音的自然度,并且对于合成语音的可懂度也有很大的影响。在发音过程中,语气变化是表征语音情感状态最典型的特征,语气变化用来体现不同情感状态下语气的变化,主要包括语音的语调、停顿、节奏等。在语音合成中,对语气变化进行分析以及对语气变化的修改,以此符合所想要的语气。语气变化的修改参数包括:基频、时长、能量。基频,也叫基音频率,即基音振动的频率,反映的是语音音调的高低。在自然语音中,人的音色与声调变化都是由基频来决定的。语气变化对声调高低有很大影响,所以基频能够有效的反映语气变化中的情感特征,例如人在愤怒的时候说话,音调更高;而在悲伤的时候,音调则会降低。通过分析软件提取分析基频得到基频曲线。在分析基频相关参数的基础上,运用语音修改算法来调整基频参数。对基频均值的调整是按照合成情感语音的基频值与对应基频值之间的比例关系进行调整。时长,即说一句话所用的时间长短,反映的是说话人语速的快慢。通过调整音频的速度调整语速来改变时长。能量反映的是说话人声音的强度,语气变化使得声音的强度也有着很大的影响,例如表达愤怒的时候,声音的强度比较高,能量更强;而表达悲伤、困倦等激活度较低的语气时,声音的强度则比较低。一般用短时能量来表示声音的强度。能量调整,主要是通过调节语气变化信号的震动幅度即音强来改变能量的大小。
[0054]
对于s500,波形拼接合成语音是将语料库中包含合适的语音基元进行拼接。基于第二文本中语言特征参数,然后从第一语料库中挑选合适的语音单元,如字,音节,半音节,音素等;最后,将提取出的语音单元按照拼接规则合成合适的语音。使得能够合成朗读第二文本的语音并且是基于指定人的音色特征语音。
[0055]
参照图2,在本实施例中,所述提取所述第二文本的语言特征参数的步骤之前,包括:
[0056]
s310:对所述第二文本进行规范化处理;
[0057]
s320:将所述第二文本进行切分,获取所述第二文本中各字、词语的边界。
[0058]
对于s310,第二文本进行规范化处理也是对非标准词标准化,因为汉语文本中通常包含着很多的非标准词,通过找出标准的汉语词,接着再找出非标准词,对标准的汉语词和非标准词的汉语词进行标记来进行非标准词的汉语词到标准的汉语词的正规化。非标准词又分为基本非标准词和歧义非标准词。基本非标准词是不会引起歧义的非标准词,歧义非标准词容易引起歧义需要利用多方面的信息来判断它要表达的意思。对于基本非标准词可以直接进入标准词生成模块生成标准词,而歧义非标准词首先要进行消歧再进入标准词生成模块生成标准词。
[0059]
对于s320,对第二文本的切分也就是对第二文本进行分词。首先对输入的第二文
本进行分析,划定出第二文本句子的边界以及短语和词的边界。因为现在常用的分词算法都是以句子为划分对象,而不是以整篇文本作为划分对象,对于纯汉语文本来说,能确定句子边界的标志有句号,逗号,顿号、感叹号、问号等等。
[0060]
参照图3,在本实施例中,所述获取发送给客户的第二文本,并提取所述第二文本的语言特征参数的步骤,包括:
[0061]
s330:对所述第二文本进行分析,获取所述第二文本中出现的各文字、特殊字符、以及各种多音字的读音方式,确定所述第二文本的各字、词语读音;
[0062]
s340:根据所述第二文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。
[0063]
对于s330,完成在对第二文本切分和规范化处理之后,进而获取第二文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。其中,特殊字符包括一些特殊的英文、希腊文字。任何事物都有其两面性,比如多音字在给汉语带来灵活性,同时也给汉语语音合成带来了一定的困难,比如在字音转换模块中一字多音给字音转换过程带来了困难。由于多音字构词能力很强并且构成的词汇的形式也很多样化,这就保证了大部分多音字总是跟别的汉字一起构成词汇两个或两个以上汉字组成的词汇。所以针对多音字的这种特点,依词判音的方式可以很好的解决多音字的读音方式。
[0064]
对于s340,第二文本进行切分、规范化处理等一些列操作之后,第二文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及不同音的轻重方式。
[0065]
参照图4,在本实施例中,所述基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据的步骤之前,包括:
[0066]
s410:遍历所述第一语料库,判断所述第二文本中所有的各字、词语是否均能在所述语料库检索到;
[0067]
s420:若否,提取所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语;
[0068]
s430:遍历预设置的第二语料库,在所述第二语料库中提取所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语,并将所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语加入到所述第一语料库中。
[0069]
对于s410,在合成所述第二文本的第二音频数据之前,会对第一语料库进行遍历判断第二文本中的所有文字是否都在第一语料库中所保存。
[0070]
对于s420,如果遍历得知第二文本中有文字不在第一语料库中出现,则将未出现的文字进行提取并且保存在一个列表中。
[0071]
对于s430,获取上述步骤保存的在列表中的所有第二文本中未在第一语料库中出现的字、词语。遍历预设置的第二语料库,第二语料库是从互联网上获取的公开的大型语料库,从第二语料库提取未在第一语料库中出现的字、词语并将获取的字、词语加入到第一语料库。
[0072]
参照图5,在本实施例中,所述基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据的步骤,包括:
[0073]
s510:基于所述第一音频数据计算得到所述第一音频数据的梅尔倒普系数;
[0074]
s520:将所述梅尔倒普系数输入声码器结合所述第一语料库与所述语言特征参数
进行拼接合成得到第二文本的第二音频数据。
[0075]
对于s510,梅尔倒普系数是将人耳的听觉感知特性和语音的产生机制相结合,是基于人耳的听觉特性,由于更好的反映了人耳的听觉系统的非线性特性,在语音合成中,在抗噪声性能和提高系统的识别率方面具有优势。基于第一音频数据转换与计算得到第一音频数据的梅尔倒普系数。
[0076]
对于s520,将第一音频数据的梅尔倒普系数输入到声码器,结合所述第一语料库与语言特征参数进行拼接合成得到第二文本的第二音频数据,使得第二文本的文字能够以指定人的声音展示,并将输出的第二音频数据进行保存。
[0077]
参照图6,在本实施例中,所述基于所述第一音频数据计算得到所述第一音频数据的梅尔倒普系数的步骤包括:
[0078]
s511:对所述第一音频数据进行预加重、分帧、加窗和傅立叶变换得到所述第一音频数据的频谱;
[0079]
s512:将所述频谱通过梅尔滤波器组得到梅尔频谱;
[0080]
s513:将所述梅尔频谱进行倒谱分析,对所述梅尔频谱进行取对数处理、做逆变换处理得到梅尔频率倒谱系数。
[0081]
对于s511,人耳对不同频率的声波有不同的听觉敏感度。从200hz到5000hz的语音信号对语音的清晰度影响较大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,对指定人的第一音频数据应用预加重滤波器以放大高频。因此在大多数情况下,第一音频数据是非平稳的,需要将信号分成短时帧。将第一音频数据分割成帧后,再对每个帧乘以一个窗函数,以增加帧左端和右端的连续性。再对每一帧做傅里叶变换,最后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式的频谱。
[0082]
对于s512,频谱通过梅尔滤波器组得到梅尔频谱。频谱表示频率与能量的关系。频谱往往是很大的一张图,为了得到合适大小的声音特征,往往把频谱通过梅尔滤波器组变换为梅尔频谱。梅尔滤波器组就像人类的听觉感知系统,人耳只关注某些特定的频率分量。梅尔滤波器对不同频率信号的灵敏度是不同的,只让特定频率的信号通过。通过求出频谱平方,并用滤波器进行滤波,由于每一个频谱用在人耳中时叠加的,因此将每个滤波器频带内的能量进行叠加。
[0083]
对于s513,将每个滤波器的输出取对数得到相应频带的对数功率谱,并进行反离散余弦变换,等到梅尔频率倒谱系数。
[0084]
在本实施例中,所述将所述梅尔频谱进行倒谱分析,对所述梅尔频谱进行取对数处理、做逆变换处理得到梅尔频率倒谱系数的公式为:
[0085][0086]
其中,n为梅尔频率倒谱系数的个数,m为梅尔滤波器个数,k为第几个滤波器,x

为第k个滤波器的输出功率。
[0087]
参照图7,本技术还提出了一种自动阅读语音合成装置,所述装置包括:
[0088]
采集模块100,用于采集指定人朗读第一文本时产生的第一音频数据,其中,所述第一文本为预设的标准文本;
[0089]
建立模块200,用于基于所述第一文本与第一音频数据建立所述指定人的第一语料库;其中,所述第一语料库中包括所述指定人的音色特征与所述第一文本中各字、词语的发音;
[0090]
处理获取模块300,用于对所述第二文本进行规范化处理;将所述第二文本进行切分,获取所述第二文本中各字、词语的边界;
[0091]
获取提取模块400,用于获取发送给客户的第二文本,并提取所述第二文本的语言特征参数,其中,所述语言特征参数包括所述第二文本中各字、词语的发音以及语气变化;
[0092]
遍历提取模块500,用于遍历所述第一语料库,判断所述第二文本中所有的各字、词语是否均能在所述语料库检索到;若否,提取所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语;遍历预设置的第二语料库,在所述第二语料库中提取所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语,并将所述第二文本中未在所述第一语料库中遍历到的所有的各字、词语加入到所述第一语料库中;
[0093]
合成模块600,用于基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据。
[0094]
对于采集模块100,以贷款服务平台为例,贷款服务平台的经纪人想要更好的服务客户,会经常发一些与贷款服务相关的文章给客户。但是,客户经常会没有空闲的时间阅读文章,而使得无法更好地服务客户和拓展业务。贷款服务平台选取一名指定人,指定人为贷款服务平台的经纪人,并且选取关于贷款服务相关的第一文本。在特定的条件之下,让指定人朗读贷款服务平台提供的第一文本,并通过电子仪器记录指定人在进行朗读第一文本时的第一音频数据,并且记录一定时间的阅读时长。最后保存指定人进行朗读第一文本时的第一音频数据。
[0095]
对于建立模块200,对于上述步骤中采集记录的指定人的第一音频数据,将记录地指定人的第一音频数据输入到声码器中,通过声码器进一步分析获取指定人的音色特征。音色特征包括指定人的音高、长度、音调等特征。由于音色是不同声音表现在波形方面总是有与众不同的特性,不同的物体振动都有不同的特点,因此获取指定人所独有的音色特征。获取指定人读取第一文本所采集的第一音频数据,对第一音频数据进行分析获取第一文本中各字、词语、短语等一系列的发音,并且建立第一语料库,第一语料库中包括指定人的音色特征与获取的第一文本中各字、词语等一系列的发音。
[0096]
对于处理获取模块300,第二文本进行规范化处理也是对非标准词标准化,因为汉语文本中通常包含着很多的非标准词,通过找出标准的汉语词,接着再找出非标准词,对标准的汉语词和非标准词的汉语词进行标记来进行非标准词的汉语词到标准的汉语词的正规化。非标准词又分为基本非标准词和歧义非标准词。基本非标准词是不会引起歧义的非标准词,歧义非标准词容易引起歧义需要利用多方面的信息来判断它要表达的意思。对于基本非标准词可以直接进入标准词生成模块生成标准词,而歧义非标准词首先要进行消歧再进入标准词生成模块生成标准词。对第二文本的切分也就是对第二文本进行分词。首先对输入的第二文本进行分析,划定出第二文本句子的边界以及短语和词的边界。因为现在常用的分词算法都是以句子为划分对象,而不是以整篇文本作为划分对象,对于纯汉语文本来说,能确定句子边界的标志有句号,逗号,顿号、感叹号、问号等等。
[0097]
对于处理获取模块300还包括:分析确定子模块。第二文本进行规范化处理也是对
非标准词标准化,因为汉语文本中通常包含着很多的非标准词,通过找出标准的汉语词,接着再找出非标准词,对标准的汉语词和非标准词的汉语词进行标记来进行非标准词的汉语词到标准的汉语词的正规化。非标准词又分为基本非标准词和歧义非标准词。基本非标准词是不会引起歧义的非标准词,歧义非标准词容易引起歧义需要利用多方面的信息来判断它要表达的意思。对于基本非标准词可以直接进入标准词生成模块生成标准词,而歧义非标准词首先要进行消歧再进入标准词生成模块生成标准词。对第二文本的切分也就是对第二文本进行分词。首先对输入的第二文本进行分析,划定出第二文本句子的边界以及短语和词的边界。因为现在常用的分词算法都是以句子为划分对象,而不是以整篇文本作为划分对象,对于纯汉语文本来说,能确定句子边界的标志有句号,逗号,顿号、感叹号、问号等等。
[0098]
对于获取提取模块400,选择与贷款服务平台的指定人相关联的第二文本,第二文本是需要推荐发给客户的文本。将获取的第二文本输入到隐马尔可夫模型。采用隐马尔可夫模型法并根据统计学或人工神经网络方面的知识并用大量己经存在的数据去训练第二文本,将训练得到的模型用于文本分析。基于对第二文本的文本分析,获取第二文本的语言特征参数,其中,第二文本的语言特征参数包括第二文本中各字、词语的发音以及语气变化。文本分析主要知道要发什么音、怎么发音并将发音的方式;发音的声调,音节是长还是短是重还是轻是高还是低,到哪儿应该停顿以及停顿的长短。在第二文本中,语言特征参数中所还包含的语气变化是非常重要的情感特征,其中,情感特征包括开心、高兴、生气、悲伤等情绪。其中对语气变化处理是至关重要的。在语音合成中,从第二文本中语气变化直接决定着所合成语音的自然度,并且对于合成语音的可懂度也有很大的影响。在发音过程中,语气变化是表征语音情感状态最典型的特征,语气变化用来体现不同情感状态下语气的变化,主要包括语音的语调、停顿、节奏等。在语音合成中,对语气变化进行分析以及对语气变化的修改,以此符合所想要的语气。语气变化的修改参数包括:基频、时长、能量。基频,也叫基音频率,即基音振动的频率,反映的是语音音调的高低。在自然语音中,人的音色与声调变化都是由基频来决定的。语气变化对声调高低有很大影响,所以基频能够有效的反映语气变化中的情感特征,例如人在愤怒的时候说话,音调更高;而在悲伤的时候,音调则会降低。通过分析软件提取分析基频得到基频曲线。在分析基频相关参数的基础上,运用语音修改算法来调整基频参数。对基频均值的调整是按照合成情感语音的基频值与对应基频值之间的比例关系进行调整。时长,即说一句话所用的时间长短,反映的是说话人语速的快慢。通过调整音频的速度调整语速来改变时长。能量反映的是说话人声音的强度,语气变化使得声音的强度也有着很大的影响,例如表达愤怒的时候,声音的强度比较高,能量更强;而表达悲伤、困倦等激活度较低的语气时,声音的强度则比较低。一般用短时能量来表示声音的强度。能量调整,主要是通过调节语气变化信号的震动幅度即音强来改变能量的大小。
[0099]
对于遍历提取模块500,在合成所述第二文本的第二音频数据之前,会对第一语料库进行遍历判断第二文本中的所有文字是否都在第一语料库中所保存。如果遍历得知第二文本中有文字不在第一语料库中出现,则将未出现的文字进行提取并且保存在一个列表中。获取上述步骤保存的在列表中的所有第二文本中未在第一语料库中出现的字、词语。遍历预设置的第二语料库,第二语料库是从互联网上获取的公开的大型语料库,从第二语料库提取未在第一语料库中出现的字、词语并将获取的字、词语加入到第一语料库。
[0100]
对于合成模块600,波形拼接合成语音是将语料库中包含合适的语音基元进行拼接。基于第二文本中语言特征参数,然后从第一语料库中挑选合适的语音单元,如字,音节,半音节,音素等;最后,将提取出的语音单元按照拼接规则合成合适的语音。使得能够合成朗读第二文本的语音并且是基于指定人的音色特征语音。
[0101]
本技术实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自动阅读语音合成方法。采集指定人朗读第一文本时产生的第一音频数据,其中,所述第一文本为预设的标准文本;基于所述第一文本与第一音频数据建立所述指定人的第一语料库;其中,所述第一语料库中包括所述指定人的音色特征与所述第一文本中各字、词语的发音;获取发送给客户的第二文本,并提取所述第二文本的语言特征参数,其中,所述语言特征参数包括所述第二文本中各字、词语的发音以及语气变化;基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据。
[0102]
本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现自动阅读语音合成方法,所述方法的步骤包括:采集指定人朗读第一文本时产生的第一音频数据,其中,所述第一文本为预设的标准文本;基于所述第一文本与第一音频数据建立所述指定人的第一语料库;其中,所述第一语料库中包括所述指定人的音色特征与所述第一文本中各字、词语的发音;获取发送给客户的第二文本,并提取所述第二文本的语言特征参数,其中,所述语言特征参数包括所述第二文本中各字、词语的发音以及语气变化;基于所述第一语料库与所述语言特征参数,合成所述第二文本的第二音频数据。
[0103]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0104]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0105]
以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献