一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音处理方法、系统、设备及存储介质与流程

2022-07-10 04:21:36 来源:中国专利 TAG:


1.本发明涉及语音处理技术领域,尤其涉及一种语音处理方法、系统、设备及存储介质。


背景技术:

2.用户通过移动设备进行语音录制、语音通话时,由于收音环境存在噪声、发音不清晰、说话断续等情况,收录的声音可能出现人声不突出、难以分辨、停顿频繁,令听话人的听觉感受不佳。目前业界对语音的处理专注于降噪、回声消除等语音增强方案,目的在于减少环境音对人声的影响,并已经有了十足的发展,然而,这种处理主要专注于还原一个干净的录音环境,缺少对说话人声音的优化,忽视了听话人的听觉感受。人的发音有各自的发音特点,如语速快慢、停顿习惯、音量变化等,目前业内正缺少此类针对听话人的听感进行优化的方案。


技术实现要素:

3.本发明提供一种语音处理方法、系统、设备及存储介质,其主要目的在于对用户录制语音进行优化,有效提高听话人的听觉感受。
4.第一方面,本发明实施例提供一种语音处理方法,包括:
5.对初始用户录制语音进行压限处理,获取压限后的用户录制语音;
6.对压限后的用户录制语音进行不完全降噪处理,获取降噪后的用户录制语音;
7.对降噪后的用户录制语音进行消歧,获取消歧后的用户录制语音;
8.根据所述初始用户录制语音的平均音素数量,调整消歧后的用户录制语音中预先分帧的每一帧语音中的因素个数,获取调整后的每一帧语音;
9.根据所述初始用户录制语音的平均音量大小,对调整后的每一帧语音的音量进行平衡处理,获取平衡化后的每一帧语音,并输出平衡化后的每一帧语音。
10.优选地,所述对压限后的用户录制语音进行不完全降噪处理,获取降噪后的用户录制语音,包括:
11.对压限后的用户录制语音进行降噪,使得降噪后的用户录制语音中噪声能量在压限后的用户录制语音中的噪声能量的预设比例范围之内。
12.优选地,所述对初始用户录制语音进行压限处理,获取压限后的用户录制语音,之前包括:
13.对原始用户录制语音进行静音检测,移除所述原始用户录制语音中的空白语音,获取静音检测后的用户录制语音,并将静音检测后的用户录制语音重新作为所述初始用户录制语音。
14.优选地,所述平均音素数量通过如下方式获得:
15.获取所述初始用户录制语音中的所有音素数量;
16.根据所述初始用户录制语音的时长和所有音素数量,获取所述平均音素数量。
17.优选地,所述根据所述初始用户录制语音的平均音素数量,调整消歧后的用户录制语音中预先分帧的每一帧语音中的因素个数,获取调整后的每一帧语音,具体包括:
18.根据所述平均因素数量,对消歧后的用户录制语音中预先分帧的每一帧语音中因素个数进行调整,使得调整后的每一帧语音的音素数量均在预设音素范围之内,获取调整后的每一帧语音。
19.优选地,所述根据所述初始用户录制语音的平均音量大小,对调整后的每一帧语音的音量进行平衡处理,获取平衡化后的每一帧语音,包括:
20.根据所述初始用户录制语音的平均音量,获取最大音量和最小音量;
21.压缩调整后的每一帧语音中大于所述最大音量的音量,放大每一帧语音中小于所述最小音量的音量;
22.获取平衡化后的每一帧语音。
23.优选地,所述对降噪后的用户录制语音进行消歧,获取消歧后的用户录制语音,包括:
24.将降噪后的用户录制语音输入到消歧神经网络中,获取消歧后的用户录制语音。
25.第二方面,本发明实施例提供一种语音处理系统,包括:
26.压限模块,用于对初始用户录制语音进行压限处理,获取压限后的用户录制语音;
27.降噪模块,用于对压限后的用户录制语音进行不完全降噪处理,获取降噪后的用户录制语音;
28.消歧模块,用于对降噪后的用户录制语音进行消歧,获取消歧后的用户录制语音;
29.分帧模块,用于根据所述初始用户录制语音的平均音素数量,调整消歧后的用户录制语音中预先分帧的每一帧语音中的因素个数,获取调整后的每一帧语音;
30.平衡模块,用于根据所述初始用户录制语音的平均音量大小,对调整后的每一帧语音的音量进行平衡处理,获取平衡化后的每一帧语音,并输出平衡化后的每一帧语音。
31.第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音处理方法的步骤。
32.第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音处理方法的步骤。
33.本发明提出的一种语音处理方法、系统、设备及存储介质,通过压限处理,将用户录制语音中的音量控制在一定范围之内,不会出现爆音或者音量消失的情况;然后对用户录制语音进行消歧,消除用户录制语音中的停顿词,使得用户录制语音听起来更加平滑;并且根据平均音素数量、平均音量大小对用户录制语音进行分帧和平衡处理,使得用户录制语音更加顺畅,提升了听话人的听觉感受,且平均因素数量和平均音量大小的计算可以与压限、消歧和平衡并行处理,从而提高了计算效率。通过本方法,可以让用户获得更加智能更加纯净的用户录制语音,并且迁移了录音室收音人后期的处理方案,将关键操作自动化,节省追求降噪效果的成本,并且用户可以更容易录制出表达清晰的语音,从而无需因为卡顿、音量问题而重复语音录制过程。
附图说明
34.图1为本发明实施例提供的一种语音处理方法的应用场景示意图;
35.图2为本发明实施例提供的一种语音处理方法的流程示意图;
36.图3为本发明实施例中提供的一种平均音素数量的获取步骤流程示意图;
37.图4为本发明实施例中平衡音量的方法流程示意图;
38.图5为本发明实施例提供的一种语音处理系统的结构示意图;
39.图6为本发明实施例提供的一种计算机设备的结构示意图。
40.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
41.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
42.图1为本发明实施例提供的一种语音处理方法的应用场景示意图,如图1所示,用户在客户端上传该用户录制语音,客户端接收到该用户录制语音后,将该用户录制语音发送给服务端,服务端接收到该用户录制语音后,执行该一种语音处理方法,对用户录制语音进行处理,得到平均化后的每帧语音。
43.需要说明的是,服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。客户端可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。客户端和服务端可以通过蓝牙、usb(universal serial bus,通用串行总线)或者其他通讯连接方式进行连接,本发明实施例在此不做限制。
44.图2为本发明实施例提供的一种语音处理方法的流程示意图,如图2所示,该方法包括:
45.s210,对初始用户录制语音进行压限处理,获取压限后的用户录制语音;
46.首先对初始用户录制语音进行压限处理,所谓的压限处理是指把用户录制语音的音量范围缩小,以录歌曲为例进行说明,歌曲的有些地方音量很小,有些地方音量会很大,为了让音量很小的地方更容易听清楚,就要提高音量,但是提高音量会导致原来音量很大的地方过大,甚至爆音。因此,通过压限处理,既可以提高音量小的部分,又可以控制音量大的部分。
47.压限是指压缩和限幅,此处的压缩和文件压缩是两回事,但压缩和限幅的意思差不多,压缩和限幅的区别在于限幅比压缩的幅度更大,压缩比大于10:1则成为限幅,常用的限幅方法是把超出0db的输入信号一律截至0db,这样压缩比是正无穷,因此属于限幅。
48.在具体实施过程中,先获取预设采样点处该用户录制语音的原始音量大小,然后在原始音量大小的基础上增加某个音量增量,以抬高用户录制语音中的最小音量,在抬高音量的基础上,对该用户录制语音进等比例缩小,以使得用户录制语音在合适的动态音量范围之内,此过程称之为压限。
49.需要说明的是,本发明实施例中的初始用户录制语音可以是刚刚采集的、刚刚录制的用户语音,也可以是对刚刚录制的用户语音进行初步处理后的语音,比如进行滤波处理、去噪处理等等后的语音。
50.s220,对压限后的用户录制语音进行不完全降噪处理,获取降噪后的用户录制语音;
51.接着对压限后的用户录制语音进行不完全降噪处理,并不是对压限后的用户录制语音进行完全降噪处理,所谓不完全降噪处理是指部分降噪,并不会完全消除压限后的用户录制语音中的噪声,而是会保留部分噪声,具体保留多少可以根据实际情况进行确定。
52.本发明实施例中为了语音最终能有舒适的听感,不追求彻底的降噪,将降噪程度控制在估算噪声声量的60%左右,以减小失真程度为前提,让人听得更加舒适。
53.s230,对降噪后的用户录制语音进行消歧,获取消歧后的用户录制语音;
54.由于降噪后的用户录制语音中存在很多停顿词,多过的停顿词会干扰语音,通过深度学习网络可以移除多余的语气词,使得一段降噪后的用户录制语音听上去更加平滑,这里的停顿词是指语音中的“呃”、“唔”等人在说话停顿中的习惯性用词,消除这些停顿词不会造成语义的变更,因此本发明实施例中对降噪后的用户录制语音进行消歧,可以使得对该降噪后的用户录制语音的听感更加优越。
55.本发明实施例中通过消歧神经网络对用户录制语音进行消歧,具体方法为利用样本对神经网络进行训练,得到训练后的消歧神经网络,然后将降噪后的用户录制语音输入到该消歧神经网络中,得到消歧后的用户录制语音。
56.s240,根据所述初始用户录制语音的平均音素数量,调整消歧后的用户录制语音中预先分帧的每一帧语音中的因素个数,获取调整后的每一帧语音;
57.为了避免语速忽快忽慢对听感造成影响,本发明实施例中采用平均音素数量来对该初始用户录制语音做均衡处理,先对初始用户录制语音中的音素个数进行检测,由此可算出每分钟的音素平均值,该音素平均值表示的是单位时间内该用户录制语音中所包含的音素个数。
58.通过该平均因素数量,调整消歧后的用户录制语音中预先分帧语音中的音素个数,预先分帧语音中音素较少的向其中插入音素,音素较多的向其中删除一些音素。这样可以保证调整后的分帧语音中每帧的音素数量在预设音素范围之内,每帧语音的音素数量相对比较平均,这样就不会让听者有忽快忽慢的感受。
59.s250,根据所述初始用户录制语音的平均音量大小,对调整后的每一帧语音的音量进行平衡处理,获取平衡化后的每一帧语音,并输出平衡化后的每一帧语音。
60.然后再根据初始用户录制语音的平均音量大小,对调整后的每一帧语音的音量进行平衡处理,该平均音量大小可以是初始用户录制语音中所有音量的平均值,也可以是根据多次试验得出了比较合适、用户听感较舒服时对应的音量大小,具体可以根据实际情况进行确定。
61.本发明实施例中以平均音量大小为依据,提升每帧音量中的过小音量,也就是提高响度,压缩过大音量,避免信号过强出现削波失真。为了进行这一步处理,需要对语音进行分帧,并进行预计算,最终将语速和音量调整到一个平衡的范围内。
62.本发明提出的一种语音处理方法,将初始用户录制语音中的音量控制在一定范围之内,不会出现破音或者音量消失的情况,得到压限后的用户录制语音;然后对降噪后的用户录制语音进行消歧,消除用户录制语音中的停顿词,使得用户录制语音听起来更加平滑;并且根据平均音素数量、平均音量大小对消歧后的用户录制语音进行分帧和平滑处理,使得语音听起来更加顺畅,提升了用户的听觉感受。通过本方法,可以让用户获得更加智能更加纯净的用户录制语音,并且迁移了录音室收音人后期的处理方案,将关键操作自动化,节
省追求降噪效果的成本,并且用户可以更容易录制出表达清晰的语音,从而无需因为卡顿、音量问题而重复语音录制过程。
63.在上述实施例的基础上,优选地,所述对压限后的用户录制语音进行不完全降噪处理,获取降噪后的用户录制语音,包括:
64.对压限后的用户录制语音进行降噪,使得降噪后的用户录制语音中噪声能量在压限后的用户录制语音中的噪声能量的预设比例范围之内。
65.首先,对该压限后的用户录制语音进行预处理得到预处理过的语音信号,具体步骤为:对该压限后的用户录制语音进行加窗处理,将连续的语音信号拆分成语音帧,对每一帧语音信号进行快速傅里叶变换fft,将时域信号转换到频域,使用传统的频域信号处理方法对每一帧频域信号进去噪处理,将上述去噪处理结果进行反傅里叶变换,将频域信号转换为时域信号得到预处理后的语音帧,对前一步骤中得到预处理后的语音帧进行合成,得到的信号为预处理过的语音信号。
66.再使用语音端点检测技术vad对上一步中预处理过的语音信号进行端点检测,根据信号的短时能量和过零率,确定该段语音信号的有效起点和终点;根据前一步中检测到语音信号的有效起点和终点,剪裁整个语音信号;将前一步骤中裁剪后的语音信号转换为预定格式的带噪语音信号,预定格式包括预定频率、预定量化级和预定调制方法;将前一步骤中预定格式的带噪语音信号切片成固定长度。
67.vad也就是语音端点检测技术,是voiceactivity detection的缩写。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始点和结束点,因为语音中含有很长的静音,也就是把静音和实际语音分离开来,因为是语音数据的原始处理,所以vad是语音信号处理过程的关键技术之一。
68.vad算法主要用了2个models来对语音建模,并且分成噪声类和语音类。通过比较似然比的方法来确定是否是语音。其中有三个模式可以选择,每个模式算法是一样的,只是相关阈值不同。
69.最后将前一步骤中的带噪语音信号切片作为深度降噪模型的输入,通过深度降噪模型,得到干净的语音信号。基于神经网络模型的深度降噪模型的训练包括以下步骤:
70.(1)采集带噪语音样本,将带噪语音样本依次上述步骤后得到干净语音样本,根据带噪样本的vad结果剪裁对应的干净语音样本;
71.(2)将干净语音样本和带噪语音样本都执行上述步骤得到干净语音样本切片和带噪语音样本切片;
72.(3)将上述处理好的带噪语音样本切片作为神经网络的输入,将对应干净语音样本切片作为神经网络输出,训练神经网络得到基于神经网络模型的深度降噪模型。
73.在上述实施例的基础上,优选地,所述对用户录制语音进行压限处理,获取压限后的用户录制语音,之前包括:
74.对原始用户录制语音进行静音检测,移除所述原始用户录制语音中的空白语音,获取静音检测后的用户录制语音,并将静音检测后的用户录制语音重新作为所述初始用户录制语音。
75.需要说明的是,本发明实施例中的原始用户录制语音是指刚采集的、刚录制的用户语音,也可以是对刚刚录制的用户语音进行初步处理后的语音,比如进行滤波处理、去噪
处理等等后的语音,原始用户录制语音经过静音检测后,得到初始用户录制语音。
76.具体进行静音检测方法为:
77.1、提取原始用户录制语音中的时域特征,该时域特征包括但不限于帧能量和过零率,对原始用户录制语音的每个录音帧进行加窗,并从录音音频中逐个选取其中一个录音帧,将被选取的录音帧映射为语音时域图,统计语音时域图的峰值、幅值和过零率,根据峰值和幅值计算目标帧的帧能量,将帧能量和过零率汇集为被选取的录音帧的时域特征。
78.详细地,可通过汉明窗的方式对所述语音信息进行分帧加窗,得到多个录音帧,可实现利用信号的局部稳定性,提高对语言学习进行分析的精确度。
79.具体地,可利用matplotlib.pyplot包中的pcolormesh函数(预设第一函数)将目标录音帧映射为语音时域图,并通过数理统计,获取语音时域图的峰值、幅值均值和过零率,进而根据幅值计算帧能量。
80.(2)获取该用户的录音环境参数,利用该录音环境参数对预设的静音检测模型进行赋值,利用赋值后的静音检测模型筛选出时域特征中的无人声特征,删除用户录制语音中无人声特征对应的录音帧,得到多个录音段,所有录音段合起来即为静音检测后的用户录制语音。
81.本发明实施例中,可获取用于预先存储的录音环境参数,并利用录音环境参数对预设的静音检测模型进行赋值,以提高该静音检测模型对用户的用户录制语音中的录音帧进行筛选的精确度。
82.详细地,录音环境参数包括任何可对用户产生该用户录制语音时的环境中的影响因素,例如,银行行员所佩戴的胸牌对该行员与客户的对话进行录音时的录音时间,该网点的客流量大小,该行员的职位等信息。
83.本发明实施例中,可利用录音环境参数对预设的静音检测模型进行赋值,以提高静音检测模型对录音音频的适应性,进而提高利用静音检测模型对录音音频中的录音帧进行筛选的精确度。
84.详细地,静音检测模型为具有静音检测功能的人工智能模型,本发明实施例中,利用录音环境参数对预设的静音检测模型进行赋值,包括:
85.提取预设的静音检测模型的配置文件;
86.将录音环境参数编译为参数字段;
87.将参数字段写入配置文件,并利用写入参数字段后的配置文件对静音检测模型进行配置。
88.详细地,可利用具有数据抓取功能的java语句从所述静音检测模型中提取配置文件,配置文件记载有静音检测模型的各项参数配置信息。
89.具体地,可利用预设的编译器将录音环境参数编译为参数字段,以实现对录音环境参数的结构化处理,进而将参数字段写入配置文件,利用含有该参数字段的配置文件对静音检测模型进行配置,实现利用录音环境参数对静音检测模型的赋值,其中,编译器包括但不限于:gnu compiler collection编译器、llvm clang编译器。
90.进一步地,利用赋值后的静音检测模型筛选出时域特征中的无人声特征,包括:
91.利用静音检测模型将录音音频中每个录音帧的时域特征进行多重映射,得到每个时域特征对应的映射特征;
92.分别计算每个时域特征对应的映射特征与预设静音特征之间的距离值,汇集距离值小于预设距离阈值的映射特征对应的时域特征为无人声特征。
93.详细地,可通过静音检测模型中预设的映射函数将录音音频中每个录音帧的时域特征进行预设次数的映射,得到每个时域特征对应的映射特征,映射函数包括但不限于高斯函数、map函数。
94.本发明实施例中会检测语音中过长的停顿,并加入静音检测机制,对语音段中的频率进行检测,根据人声频率范围500hz~3000hz进行对比,将不满足频谱范围的语音空白段进行移除,让语音的表达更顺畅。
95.具体地,预设静音特征为预先设定的,不具有人声的音频对应的音频特征。
96.在上述实施例的基础上,优选地,所述平均音素数量通过如下方式获得:
97.获取所述初始用户录制语音中的所有音素数量;
98.根据所述初始用户录制语音的时长和所有音素数量,获取所述平均音素数量。
99.图3为本发明实施例中提供的一种平均音素数量的获取步骤流程图,如图3所示,该步骤包括:
100.s310,获取所述初始用户录制语音中的所有音素数量;
101.本发明实施例中需要统计初始用户录制语音中的所有因素数量,一般来说,一个拼音字母就是一个音素,但是zh、ch、sh、ng、er分别算一个因素;iu、ui、un分别算三个因素,因为中间的拼音字母被省写了;yu、wu、yi分别算一个因素,因为y和w都是加进去的。
102.按照该规则,统计出该初始用户录制语音中的所有音素数量。
103.s320,根据所述初始用户录制语音的时长和所有音素数量,获取所述平均音素数量。
104.利用所有因素数量,除以该初始用户录制语音的总时长,即可得到平均因素数量。
105.在上述实施例的基础上,优选地,所述根据所述初始用户录制语音的平均音素数量,调整消歧后的用户录制语音中预先分帧的每一帧语音中的因素个数,获取调整后的每一帧语音,具体包括:
106.根据所述平均因素数量,对消歧后的用户录制语音中预先分帧的每一帧语音中因素个数进行调整,使得调整后的每一帧语音的音素数量均在预设音素范围之内,获取调整后的每一帧语音。
107.具体地,根据该平均音素数量,对消歧后的用户录制语音中预先分帧的每一帧语音中音素个数进行调整,具体方法是统计预先分帧中每一帧语音中音素个数,然后根据平均音素数量,去调整每一帧语音的音素数量,如果每一帧语音的音素数量过多,而该帧语音的下一帧音素数量过少,则可以调整该帧语音和下一帧语音之间分隔点的位置,从而减少该帧语音的音数数量,增加下一帧语音的音数数量。
108.另外,本发明实施例中的预先分帧语音是按照时间进行划分的,也可以是按照其规则进行划分,本发明实施例在此不做具体的限定。
109.在上述实施例的基础上,优选地,所述根据所述初始用户录制语音的平均音量大小,对调整后的每一帧语音的音量进行平衡处理,获取平衡化后的每一帧语音,包括:
110.根据所述初始用户录制语音的平均音量,获取最大音量和最小音量;
111.压缩调整后的每一帧语音中大于所述最大音量的音量,放大每一帧语音中小于所
述最小音量的音量;
112.获取平衡化后的每一帧语音。
113.图4为本发明实施例中平衡音量的方法流程图,如图4所示,该步骤包括:
114.s410,根据所述初始用户录制语音的平均音量,获取最大音量和最小音量;
115.首先获取初始用户录制语音的平均音量,该平均音量可以是该初始用户录制语音的平均音量,以该平均音量为基础,在该平均音量的基础上,增加预设音量大小,得到最大音量,减小预设音量大小,得到最小音量,该最大音量表示该初始用户录制语音中可容许的最大音量数值,该最小音量表示该初始用户录制语音中可容许的最小音量数值。
116.s420,压缩调整后的每一帧语音中大于所述最大音量的音量,放大每一帧语音中小于所述最小音量的音量;
117.对每一帧语音进行采样,获取采样点对应的音量,并将采样点对应的音量与最大音量进行比较,如果该采样点的音量大于该最大音量,则对该音量进行压缩,如果该采样点的音量小于该最小音量,则对该音量进行放大,如果可以将该帧语音数据中的音量调整到比较平稳的状态。
118.s430,获取平衡化后的每一帧语音。
119.按照同样的方法对每一帧语音进行同样的处理,得到平均化后的每一帧语音。
120.在上述实施例的基础上,优选地,所述对降噪后的用户录制语音进行消歧,获取消歧后的用户录制语音,包括:
121.将降噪后的用户录制语音输入到消歧神经网络中,获取消歧后的用户录制语音。
122.本发明实施例中,通过神经网络对用户录制语音进行消歧处理,该消歧神经网络是利用样本和标签对其进行训练得到的。
123.图5为本发明实施例提供的一种语音处理系统的结构示意图,如图5所示,该系统500包括压限模块510、降噪模块520、消歧模块530、分帧模块540和平衡模块550,其中:
124.压限模块510,用于对初始用户录制语音进行压限处理,获取压限后的用户录制语音;
125.降噪模块520,用于对压限后的用户录制语音进行不完全降噪处理,获取降噪后的用户录制语音;
126.消歧模块530,用于对降噪后的用户录制语音进行消歧,获取消歧后的用户录制语音;
127.分帧模块540,用于根据所述初始用户录制语音的平均音素数量,调整消歧后的用户录制语音中预先分帧的每一帧语音中的因素个数,获取调整后的每一帧语音;
128.平衡模块550,用于根据所述初始用户录制语音的平均音量大小,对调整后的每一帧语音的音量进行平衡处理,获取平衡化后的每一帧语音,并输出平衡化后的每一帧语音。
129.本实施例为与上述方法对应的系统实施例,其具体实施过程与上述方法实施例相同,详情请参考上述方法实施例,本系统实施例在此不再赘述。
130.在上述实施例的基础上,优选地,所述降噪模块包括降噪单元,其中:
131.所述降噪单元用于对压限后的用户录制语音进行降噪,使得降噪后的用户录制语音中噪声能量在压限后的用户录制语音中的噪声能量的预设比例范围之内。
132.在上述实施例的基础上,优选地,还包括静音检测模块,其中:
133.所述静音检测模块用于对原始用户录制语音进行静音检测,移除所述原始用户录制语音中的空白语音,获取静音检测后的用户录制语音,并将静音检测后的用户录制语音重新作为所述初始用户录制语音。
134.在上述实施例的基础上,优选地,还包括音素统计模块和音素计算模块,其中:
135.所述音素统计模块用于获取所述初始用户录制语音中的所有音素数量;
136.所述音素计算模块用于根据所述初始用户录制语音的时长和所有音素数量,获取所述平均音素数量。
137.在上述实施例的基础上,优选地,所述分帧模块包括分帧调整单元,其中:
138.所述分帧调整单元用于根据所述平均因素数量,对消歧后的用户录制语音中预先分帧的每一帧语音中因素个数进行调整,使得调整后的每一帧语音的音素数量均在预设音素范围之内,获取调整后的每一帧语音。
139.在上述实施例的基础上,优选地,所述平衡模块包括平均单元、平衡单元和获取单元,其中:
140.所述平均单元用于根据所述初始用户录制语音的平均音量,获取最大音量和最小音量;
141.所述平衡单元用于压缩调整后的每一帧语音中大于所述最大音量的音量,放大每一帧语音中小于所述最小音量的音量;
142.所述获取单元用于获取平衡化后的每一帧语音。
143.在上述实施例的基础上,优选地,所述消歧模块包括消歧单元,其中:
144.所述消歧单元用于将降噪后的用户录制语音输入到消歧神经网络中,获取消歧后的用户录制语音。
145.上述语音处理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
146.图6为本发明实施例提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行用户处理方法过程中生成或获取的数据,如用户录制语音。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音处理方法。
147.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的语音处理方法的步骤。或者,处理器执行计算机程序时实现语音处理系统这一实施例中的各模块/单元的功能。
148.在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中语音处理方法的步骤。或者,该计算机程序被处理器执行时实现上述语音处理系统这一实施例中的各模块/单元的功能。
149.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
150.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
151.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献