一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音信号处理方法、装置、设备及存储介质与流程

2021-11-26 21:30:00 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,特别涉及一种语音信号处理方法、装置、设备及存储介质。


背景技术:

2.随着移动通讯技术和互联网技术的快速发展,各类具备通信功能的应用程序应运而生,用户与用户之间可以通过终端安装的这类应用程序进行语音通话。为了使位于不同网络的终端之间能够语音对接,通话链路中会出现多次编解码,也即是级联编码。然而,级联编码的次数越多,语音信号的损伤越严重,导致语音双方听不清对方的说话内容,即语音可懂度下降。
3.相关技术解决上述问题的方案通常是:对经过级联编码后的语音信号进行共振峰搜索,然后从搜索到的共振峰中提取出受损语音信号的共振峰,并对这类共振峰以相同的增强幅值进行提升,以实现对受损语音信号进行补偿。
4.然而,语音信号在经过级联编码后,处于不同频率的语音信号的受损程度往往是不一致的,而上述方案采用的是相同的增强幅值,也即不同受损程度的语音信号得到的补偿是一致的,这会使得受损语音信号的增强效果不稳定,无法有效地提升语音质量。


技术实现要素:

5.本技术实施例提供了一种语音信号处理方法、装置、设备及存储介质,有效提升了语音质量,进而增强了语音可懂度。该技术方案如下:
6.一方面,提供了一种语音信号处理方法,该方法包括:
7.将待处理语音信号由时域变换至频域,获取频域上各个频点的第一功率谱和相位信息;其中,该待处理语音信号为初始语音信号或受损语音信号,该初始语音信号是指未经过级联编码处理的语音信号,该受损语音信号是指经过该级联编码处理后得到的语音信号;
8.获取该各个频点的频带增益值,基于该各个频点的第一功率谱和频带增益值,确定该各个频点的第二功率谱;
9.基于该各个频点的相位信息和第二功率谱,生成符合语音播放条件的目标语音信号。
10.另一方面,提供了一种语音信号处理装置,该装置包括:
11.获取模块,用于将待处理语音信号由时域变换至频域,获取频域上各个频点的第一功率谱和相位信息;其中,该待处理语音信号为初始语音信号或受损语音信号,该初始语音信号是指未经过级联编码处理的语音信号,该受损语音信号是指经过该级联编码处理后得到的语音信号;
12.确定模块,用于获取该各个频点的频带增益值,基于该各个频点的第一功率谱和频带增益值,确定该各个频点的第二功率谱;
13.生成模块,用于基于该各个频点的相位信息和第二功率谱,生成符合语音播放条件的目标语音信号。
14.在一种可选地实现方式中,响应于该待处理语音信号为该受损语音信号,该装置还包括:
15.处理模块,用于在将该待处理语音信号由时域变换至频域之前,对该初始语音信号进行该级联编码处理,得到该受损语音信号。
16.在一种可选地实现方式中,该装置还包括训练模块,该训练模块用于:
17.获取语音样本在频域上各个频点的第三功率谱,该第三功率谱是通过将该语音样本由时域变换至频域得到的;
18.将该语音样本对应的第三功率谱输入初始神经网络,得到该第三功率谱对应的预测频带增益值;
19.基于该语音样本的预测频带增益值和目标频带增益值,构建损失函数;
20.基于该损失函数,不断调整该初始神经网络的网络参数,直至满足预设条件,得到该目标神经网络;
21.其中,该目标频带增益值是基于该第三功率谱和该语音样本对应的第四功率谱得到的,该第四功率谱是通过对该语音样本进行该级联编码处理后,再将该语音样本由时域变换至频域得到的。
22.在一种可选地实现方式中,该目标频带增益值为该第三功率谱与该第四功率谱之比的平方根值。
23.在一种可选地实现方式中,该确定模块还用于:
24.将该各个频点的第一功率谱输入该第一全连接层,经过该第一全连接层对该各个频点的第一功率谱进行特征提取,得到特征向量;
25.将该特征向量输入该门控循环单元层,经过该门控循环单元层中的更新门和重置们,对该特征向量之间的相关性和有效信息进行提取,得到输出向量;
26.将该输出向量输入该第二全连接层,经过该第二全连接层将该输出向量整合为该各个频点的频带增益值。
27.在一种可选地实现方式中,该获取模块还用于:
28.对该待处理语音信号依次进行分帧处理和加窗处理;
29.对经过分帧处理和加窗处理后的该待处理语音信号进行快速傅里叶变换;基于得到的变换结果,确定频域上该各个频点的第一功率谱和相位信息。
30.在一种可选地实现方式中,该级联编码处理包括m次编解码处理,其中,m为大于1的正整数,该处理模块还用于:
31.对该初始语音信号进行m次编解码处理,得到该受损语音信号;
32.其中,上一次编解码处理的输出作为下一次编解码处理的输入;对于任意一次编解码处理,该编解码处理包括一次编码处理和一次解码处理,且该编码处理的输出作为该解码处理的输入。
33.另一方面,提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器用于存储至少一条计算机程序,该至少一段计算机程序由该处理器加载并执行以实现本技术实施例中的语音信号处理方法中所执行的操作。
34.另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现如本技术实施例中语音信号处理方法中所执行的操作。
35.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的语音信号处理方法。
36.对于待处理语音信号,本技术实施例首先获取这类语音信号在频域上各个频点的第一功率谱和相位信息,然后通过获取各个频点对应的频带增益值,实现对第一功率谱进行增强,得到各个频点的第二功率谱,进而实现根据各个频点的第二功率谱和相位信息来生成符合语音播放条件的目标语音信号。由于该种处理方式有针对性地对各个频点的功率谱均进行了增强,使得语音信号的增强效果更加稳定,有效提升了语音质量,进而增强了语音可懂度;而且,无论待处理语音信号先前是否经过级联编码处理,均可以采用该种处理方式对这类语音信号进行增强,适用范围广。
附图说明
37.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1是根据本技术实施例提供的语音信号处理方法的实施环境示意图;
39.图2是根据本技术实施例提供的一种语音信号处理方法流程图;
40.图3是根据本技术实施例提供的一种语音信号处理方案的示意图;
41.图4是根据本技术实施例提供的另一种语音信号处理方法流程图;
42.图5是根据本技术实施例提供的另一种语音信号处理方法流程图;
43.图6是根据本技术实施例提供的另一种语音信号处理方案的示意图;
44.图7是根据本技术实施例提供的另一种语音信号处理方法流程图;
45.图8是根据本技术实施例提供的另一种语音信号处理方法流程图;
46.图9是根据本技术实施例提供的一种语音处理装置的结构示意图;
47.图10是根据本技术实施例提供的一种终端的结构示意图;
48.图11是根据本技术实施例提供的一种服务器的结构示意图。
具体实施方式
49.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
50.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
51.本技术中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。
52.这些术语只是用于将一个元素与另一个元素区别开。例如,在不脱离各种示例的范围的情况下,第一功率谱能够被称为第二功率谱,并且类似地,第二功率谱也能够被称为第一功率谱。第一功率谱和第二功率谱都可以是功率谱,并且在某些情况下,可以是单独且不同的功率谱。
53.其中,至少一个是指一个或一个以上,例如,至少一个频点可以是一个频点、两个频点、三个频点等任意大于等于一的整数个频点。而多个是指两个或者两个以上,例如,多个频点可以是两个频点、三个频点等任意大于等于二的整数个频点。
54.下面对本技术实施例提供的语音信号处理方案可能用到的技术进行介绍。
55.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
56.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
57.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
58.下面对本技术实施例提供的语音信号处理方案可能用到的关键术语或缩略语进行介绍。
59.基于ip的语音传输(voice over internet protocol,voip):一种语音通话技术,经由网际协议(internet protocol,ip)来达成语音通话,也就是经由互联网来进行通信。其他非正式的名称有ip电话(ip telephony)、互联网电话(internet telephony)、宽带电话(broadband telephony)以及宽带电话服务(broadband phone service)。voip可用于包括voip电话、智能手机、个人计算机在内的诸多互联网接入设备,通过蜂窝网络、无线网络进行通话及发送短信。
60.快速傅里叶变换(fast fourier transform,fft):一种快速计算序列的离散傅里叶变换或其逆变换的方法。傅里叶分析将信号从原始域(通常是时间域或空间域)转换到频域的表示或者逆过来转换。相应地,将信号从频域转换到原始域称为逆快速傅里叶变换(inver fast fourier transform,ifft)。
61.频域:描述信号在频率方面特性时用到的一种坐标系。在电子学、控制系统工程和统计学中,频域图显示了在一个频率范围内每个给定频带内的信号量。频域表示还可以包括每个正弦曲线的相位信息,以便能够重新组合频率分量以恢复原始时间信号。
62.功率谱:功率谱密度函数的简称,它定义为单位频带内的信号功率。它表示了信号功率随着频率的变化情况,即信号功率在频域的分布状况。功率谱表示了信号功率随着频率的变化关系。
63.门控循环单元(gated recurrent unit,gru):一种变形的循环神经网络(recurrent neural network,rnn)结构,不仅有效解决了传统rnn的梯度弥散和梯度爆炸问题,并且对于隐藏状态的学习也更加快速,其结构相比于长短期记忆网络(long short

term memory,lstm)更加简单,训练速度更快。
64.级联编码:对于存在多次编码(至少两次)的系统,对各级编码,看成一个整体编码,称为级联码。级联码将编码过程分为几级完成,可以满足信道纠错对编码长度的要求,获得和长码接近甚至相同的纠错能力和高编码增益。而且,随之增加的编译码复杂度并不是很大。也即是,如果一个系统包括多次编码,这多次编码就认为是级联编码。在相关传输网络中,级联码可以平衡编码增益性能和编译码复杂度,因此得到广泛应用。级联码能够通过两次或者更多次编码方法组合的形式来实现。
65.下面对本技术实施例提供的语音信号处理方法涉及的实施环境进行介绍。
66.参考图1,图1是根据本技术实施例提供的语音信号处理方法的实施环境示意图。该实施环境包括:终端101和服务器102。
67.终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。可选地,终端101是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端101能够安装和运行有应用程序。可选地,该应用程序是社交类应用程序、在线会议类应用程序或者语音通话类应用程序等。示意性地,终端101是用户使用的终端,终端101中运行的应用程序内登录有用户的用户账号。例如,在终端101上运行有社交类应用程序,该社交类应用程序提供语音通话功能,用户与用户之间能够通过该社交类应用程序进行语音通话。
68.服务器102能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为终端101运行的应用程序提供后台服务。
69.可选地,在进行语音信号处理的过程中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102或终端101分别能够单独承担计算工作。
70.可选地,终端101泛指多个终端中的一个,本实施例仅以终端101来举例说明。本领域技术人员能够知晓,上述终端101的数量能够更多。比如上述终端101为几十个或几百个,或者更多数量,此时上述语音信号处理方法的实施环境还包括其他终端。本技术实施例对终端的数量和设备类型不加以限定。
71.可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因
特网、但也能够是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超级文本标记语言(hyper text markup language,html)、可扩展标记语言(extensible markup language,xml)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocol security,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
72.示意性地,本技术实施例提供的语音信号处理方法的应用场景包括但不限于如下示例的几种场景:
73.场景一、不同网络间互融应用场景
74.随着voip业务的推广,不同网络间互融应用日益增多。例如,经互联网的ip电话与经公共交换电话网络(public switched telephone network,pstn)的固定电话互通,ip电话与无线网络的手机互通,等等。不同网络的语音采用的是不同的语音编解码,如无线全球移动通信系统(global system for mobile communication,gsm)网络采用amr

nb编码,固定电话采用g.711编码,ip电话采用g.729等编码,由于各网络终端支持的语音编码格式不一致,必然导致通话链路出现级联编码。在这种场景下,采用本技术提供的语音信号处理方法,能够对采集到的初始语音信号进行增强,或,对经过级联编码处理后的受损语音信号进行增强,使得最终播放的语音信号更接近采集到的初始语音信号,能够有效提升该应用场景下的语音质量,进而增强了语音可懂度。
75.场景二、多人语音通话场景
76.目前,终端上运行的许多应用程序均能够提供多人语音通话的功能,例如群组音视频通话以及在线音视频会议等等。在这种多人语音通话场景下,由于各通话方的语音信号从各个终端经过采集编码压缩后,发送至混音服务器进行混音处理时必须经过一次解码和一次编码的过程,这也属于一种级联编码处理,语音信号也会因此而受损,导致语音质量下降。采用本技术提供的语音信号处理方法,能够对各通话方的初始语音信号进行增强,或,对经过级联编码处理后的受损语音信号进行增强,使得最终播放的语音信号更接近采集到的初始语音信号,能够有效提升该应用场景下的语音质量,进而增强了语音可懂度。
77.场景三、直播场景
78.随着互联网技术的发展和直播业务的广泛应用,人们能够通过不同类型的终端来观看直播,由于不同终端的编码格式存在差异,需要对直播中的语音信号进行转码处理,而这种转码处理也属于一种级联编码处理,导致直播中的语音信号会因此而受损,影响直播质量。采用本技术提供的语音信号处理方法,能够对直播过程中的初始语音信号进行增强,或,对经过级联编码处理后的受损语音信号进行增强,使得最终播放的语音信号更接近采集到的初始语音信号,能够有效提升该应用场景下的语音质量,进而增强了语音可懂度。
79.本技术实施例提供了一种语音信号处理方法,其中,待处理语音信号既可以是未经过级联编码处理的初始语音信号,也可以是经过级联编码处理的受损语音信号。通常,由于人耳对声音能量比较敏感,处于不同频带的语音信号给人耳的听感上的差异是较大的,
级联编码处理对声音的主观损伤最直接表现在对频域子带的损伤。例如,初始语音信号在经过多次级联编码处理后高频部分的信号明显被衰减较多,导致声音听感模糊不清、声音的辨识度较低。本技术实施例充分利用了上述特征,采用目标神经网络,学习级联编码处理对待处理语音信号造成的损伤问题,并通过该目标神经网络,获取待处理语音信号在频域上各个频点的频带增益值,实现对频域子带的语音信号进行增强,达到提升语音质量以进一步增强语音可懂度的目的,更为具体的描述请参见下述实施例。
80.图2是根据本技术实施例提供的一种语音信号处理方法流程图。其中,该语音信号处理方法的执行主体为计算机设备,示意性地,该计算机设备为图1中的终端101或服务器102,本技术实施例对此不作限定。下面参见图2,以本技术实施例应用于终端为例进行说明,如图2所示,该语音信号处理方法包括以下步骤:
81.201、将待处理语音信号由时域变换至频域,获取频域上各个频点的第一功率谱和相位信息;其中,该待处理语音信号为初始语音信号或受损语音信号,该初始语音信号是指未经过级联编码处理的语音信号,该受损语音信号是指经过该级联编码处理后得到的语音信号。
82.在本技术实施例中,待处理语音信号可以为某一说话人的语音信号,还可以为某一场景中接收到的语音信号。例如,终端通过麦克风实时采集说话人的语音信号。又例如,终端在直播场景或在线会议场景下接收到语音信号。本技术实施例对于待处理语音信号的获取方式不作限定。
83.可选地,级联编码处理包括m次编解码处理,其中,m为大于1的正整数。其中,上一次编解码处理的输出作为下一次编解码处理的输入;对于任意一次编解码处理,该编解码处理包括一次编码处理和一次解码处理,且该编码处理的输出作为该解码处理的输入。
84.示意性地,以不同网络间互融应用场景为例,在将待处理语音信号经过实际链路环节时,需要经过多次编解码处理,例如,支持g.729的ip电话与gsm手机互通,则上述级联编码处理包括两次编解码处理:g.729编码处理 g.729解码处理 amr

nb编码处理 amr

nb解码处理。本技术实施例对于级联编码处理的次数以及类型不作限定。
85.可选地,终端将待处理语音信号由时域变换至频域,获取频域上各个频点的第一功率谱和相位信息,包括但不限于如下步骤2011和步骤2012。
86.2011、对该待处理语音信号依次进行分帧处理和加窗处理。
87.其中,待处理语音信号是一系列有序信号,在宏观上是不平稳的,而在微观上却是平稳的,即待处理语音信号具有短时平稳性(比如10ms至30ms内可以认为待处理语音信号近似不变)。基于这个特性可以将待处理语音信号分为一些短段进行处理,其中,每一个短段便可称为一帧,即音频帧。示意性地,一个音频帧的播放时长可以为16ms、46.64ms或128ms等,本技术实施例对此不作限定。
88.可选地,终端在对待处理语音信号进行分帧处理时,为了确保相邻音频帧之间的过渡平滑性和连续性,还需保证帧与帧之间存在重叠,其中,相邻两帧之间的重叠部分称为帧移。
89.可选地,终端在对待处理语音信号进行加窗处理时,可以使用10ms或20ms的分析窗,其中,窗函数可以选用汉宁窗、汉明窗或矩形窗等,本技术实施例对此不作限定。即,在进行加窗后会形成多个分析窗,每次可以仅对一个分析窗内的待处理语音信号进行处理。
此处,应当理解的是,加窗处理使得待处理语音信号有周期性,以减少待处理语音信号在后续fft中的语音能量泄露。
90.2012、对经过分帧处理和加窗处理后的待处理语音信号进行fft;基于得到的变换结果,确定频域上各个频点的第一功率谱和相位信息。
91.其中,对经过分帧处理和加窗处理后的待处理语音信号,终端按照fft点数为n(n为正整数)、频点数为k(k为正整数),对该待处理语音信号进行n点fft,得到fft变换结果,也即是频谱图。之后,终端可以根据该频谱图中各个频点对应的振幅,来计算各个频点的功率谱值,并得到各个频点的相位信息。在本技术实施例中,将各个频点的功率谱值称为第一功率谱。
92.示意性地,取fft点数n为256点,k为129。即,终端对该待处理语音信号的某一音频帧进行256点fft,能够得到129个频点的功率谱值。需要说明的是,fft点数和频点数可以根据实际需要来设置,本技术实施例对此不作限定。
93.通过上述步骤201,终端对待处理语音信号进行了频域转换,并得到各个频点的第一功率谱和相位信息,为后续获取各个频点的频带增益值提供了基础。
94.202、获取该各个频点的频带增益值,基于该各个频点的第一功率谱和频带增益值,确定该各个频点的第二功率谱。
95.在本技术实施例中,频带增益值为各个频点的第一功率谱所需的增强幅值,也可以理解为对各个频点的第一功率谱进行增强所需的增益值。其中,增强在本质上可以理解为对待处理语音信号进行增强,以提升语音质量。第二功率谱是通过对各个频点的第一功率谱进行增强后得到的。
96.示意性地,频带增益值还能够用于衡量各个频点所对应的语音信号的受损程度,即某一频点的频带增益值越高,说明该频点对应的语音信号的受损程度越严重。
97.可选地,终端将各个频点的第一功率谱与频带增益值之积,作为各个频点的第二功率谱。例如,某一频点的第一功率谱为30db/hz,终端获取到该频点对应的频带增益值为1.10,则该频点的第二功率谱为33db/hz。
98.需要说明的是,上述对于频带增益值的举例仅为示意性地,在一些实施例中,该频带增益值还可以表示为百分数形式,例如,该频带增益值为110%等,本技术实施例对此不作限定。
99.可选地,终端通过深度学习的方式来获取各个频点的频带增益值,示意性地,本步骤202可替换为如下步骤2021和步骤2022。
100.2021、将各个频点的第一功率谱输入目标神经网络,得到各个频点的频带增益值;其中,该目标神经网络包括顺序连接的第一全连接层、门控循环单元gru层和第二全连接层。
101.其中,目标神经网络为基于深度学习的神经网络。可选地,该目标神经网络采用四层网络结构,具有如下特点:该目标神经网络的输入层采用全连接层,也即是第一全连接层;输出层采用全连接层,也即是第二全连接层;中间隐藏层为两层,采用gru层,各隐藏层之间顺序连接。
102.示意性地,在本技术实施例中,将第一全连接层和gru层的神经元数设置为64;将第二全连接层的神经元数设置为129。在另一些实施例中,将第一全连接层和第二全连接层
的神经元数设置为129,将gru层的神经元数设置为64。本技术实施例对此不作限定。
103.示意性地,在本技术实施例中,将第一全连接层的激活函数设置为tanh函数;将gru层的激活函数设置为relu以及sigmoid函数;将第二全连接层的激活函数设置为sigmoid函数。本技术实施例对于目标神经网络中各层网络的激活函数类型不作限定。
104.需要说明的是,该目标神经网络的结构可以根据实际情况进行灵活调整。其中,调整方式包括但不限于:调整各层之间的连接方式,改变每一层的特征输入维数、神经元数、隐层类型以及激活函数类型等等。本技术实施例对此不作限定。
105.下面对本步骤2021进行详细阐述,包括如下步骤2021

1至步骤2021

3。
106.2021

1、将各个频点的第一功率谱输入第一全连接层,经过第一全连接层对各个频点的第一功率谱进行特征提取,得到特征向量。
107.其中,第一全连接层作为目标神经网络的输入层,能够通过特征提取函数,对各个频点的第一功率谱进行特征提取。该特征向量用于表征第一功率谱的功率谱特征。
108.2021

2、将特征向量输入gru层,经过gru层中的更新门和重置门,对特征向量之间的相关性和有效信息进行提取,得到输出向量。
109.其中,gru是一种常用的门控循环神经网络,其输入为当前时刻的输入与上一时刻的隐藏状态,即输出向量会受到当前时刻t和前t

1个时刻的信息的影响,t大于1。gru层包括两个门函数:更新门和重置门,其中,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多;重置门控制前一状态有多少信息被写入到当前的输出向量上,重置门越小,前一状态的信息被写入的越少。
110.由于语音信号属于时序特征,因此终端将各个频点的特征向量输入gru层后,该gru层能够对各个频点的特征向量之间的相关性和有效信息进行提取,从而得到输出向量。示意性地,gru层将当前频点对应的特征向量,与之前保留的上一个频点的输出向量进行组合,经过更新门和重置门的处理,产生一个当前频点的输出向量,如此反复一直迭代下去。
111.通过gru层的更新门和重置门,能够决定哪些特征向量最终能作为gru层的输出向量。这两个门控机制能够保存长期序列中的信息,且不会随时间而清除或因为与预测不相关而移除,保证了目标神经网络的可靠性。
112.2021

3、将输出向量输入第二全连接层,经过第二全连接层将输出向量整合为各个频点的频带增益值。
113.其中,第二全连接层作为输出层,该层中每个神经元与前一层的所有神经元进行全连接,基于这种全连接的方式,第二全连接层能够对gru层输出的输出向量进行整合,最终得到各个频点的频带增益值。
114.2022、将各个频点的第一功率谱与各个频点的频带增益值之积,作为各个频点的第二功率谱。
115.通过上述步骤2021和步骤2022,终端通过基于深度学习的目标神经网络,针对性地获取各个频点的频带增益值,使得语音信号的增强效果更加稳定。
116.203、基于该各个频点的相位信息和第二功率谱,生成符合语音播放条件的目标语音信号。
117.在本技术实施例中,语音播放条件是指语音信号的语音质量达到预设要求。终端基于各个频点的相位信息和第二功率谱,按照ifft点数为n、频点数为k,进行n点ifft,得到
ifft变换结果,也即是生成目标语音信号。由于fft与ifft为互逆的两种变换方式,在上述步骤201中,已经对fft的实施方式进行了介绍,故在此不再对ifft的实施方式进行赘述。
118.其中,本步骤203包括如下两种情况:
119.情况一、终端响应于待处理语音信号为初始语音信号,本步骤203可替换为如下步骤2031和步骤2032。
120.2031、基于各个频点的相位信息和第二功率谱,生成中间语音信号。
121.2032、对该中间语音信号进行级联编码处理,得到目标语音信号。
122.情况二、终端响应于待处理语音信号为受损语音信号,终端在执行上述步骤201之前,执行如下步骤“对初始语音信号进行级联编码处理,得到受损语音信号”,然后终端再顺序执行上述步骤201至步骤203。
123.可选地,上述步骤“对初始语音信号进行级联编码处理,得到受损语音信号”还能够替换为“对初始语音信号进行m次编解码处理,得到受损语音信号”。
124.可选地,终端在执行上述步骤2021前,通过大量的语音样本对目标神经网络进行训练,最终得到上述目标神经网络。示意性地,上述步骤2021还包括对目标神经网络的训练过程,包括如下步骤2021

4至步骤2021

7。
125.2021

4、获取语音样本在频域上各个频点的第三功率谱,该第三功率谱是通过将语音样本由时域变换至频域得到的。
126.其中,语音样本包括但不限于:某一说话人的语音信号、某一段视频中的语音信号以及某一特定场景下采集到的语音信号,等等。通常,语音样本的数量通常为多个,通过大量的语音样本对目标神经网络进行训练,能够使得最终训练得到的目标神经网络具有良好的普适性和鲁棒性。
127.在本步骤2021

4中,终端对语音样本依次进行分帧处理、加窗处理以及fft,得到fft变换结果,实现了对语音样本的频域转换,得到了语音样本在频域上各个频点的第三功率谱。
128.2021

5、将语音样本对应的第三功率谱输入初始神经网络,得到第三功率谱对应的预测频带增益值。
129.其中,语音样本中包括标注有第三功率普对应的目标频带增益值的语音信号。终端基于该初始神经网络的网络参数,获取该第三功率谱对应的预测频带增益值。
130.2021

6、基于语音样本的预测频带增益值和目标频带增益值,构建损失函数。
131.其中,目标频带增益值是基于第三功率谱和语音样本对应的第四功率谱得到的,该第四功率谱是通过对语音样本进行级联编码处理后,再将语音样本由时域变换至频域得到的。
132.可选地,终端构建损失函数的方式包括但不限于:采用语音样本的预测频带增益值和目标频带增益值之间的差值来构建损失函数、采用语音样本的预测频带增益值和目标频带增益值之间的比值来构建损失函数、采用语音样本的预测频带增益值和目标频带增益值之间的乘积值来构建损失函数,等等。
133.另外,本技术实施例中的损失函数可以是神经网络训练常用的各种损失函数,例如绝对值损失函数、余弦相似度损失函数、平方损失函数、交叉熵损失函数等,本技术实施例对此不作限定。
134.可选地,目标频带增益值为第三功率谱与第四功率谱之比的平方根值。示意性地,参考下述公式(1):
135.目标频带增益值=sqrt(e_org(i)/e_deg(i))
ꢀꢀ
(1)
136.式中,sqrt为平方根函数;e_org(i)表示语音样本经过fft进行频域变换后的每个音频帧的第i个频点的原始语音功率谱,也即是第三功率谱;e_deg(i)表示语音样本经过级联编码处理以及fft进行频域变换后的每个音频帧的第i个频点的降级语音功率谱,也即是第四功率谱。
137.2021

7、基于该损失函数,不断调整初始神经网络的网络参数,直至满足预设条件,得到目标神经网络。
138.其中,预设条件为损失值(也称误差值)小于设定阈值,该设定阈值可以根据实际需求进行设定,比如根据目标神经网络的取值精度进行设置,本技术对此不做限制。另外,响应于损失函数不满足预设条件,调整当前神经网络的网络参数,然后再次从上述步骤2021

4开始执行,直至损失函数符合预设条件时停止训练,得到目标神经网络。
139.需要说明的是,上述目标神经网络的训练过程还可以包括其他步骤或其他可选地实现方式,本技术对此不作限定。
140.另外,本技术实施例的目标神经网络并不局限于上述类型,其他凡是基于机器学习或深度学习且为了得到各个频点的频带增益值的网络,均可以作为本技术实施例的目标神经网络。
141.对于待处理语音信号,本技术实施例首先获取这类语音信号在频域上各个频点的第一功率谱和相位信息,然后通过获取各个频点对应的频带增益值,实现对第一功率谱进行增强,得到各个频点的第二功率谱,进而实现根据各个频点的第二功率谱和相位信息来生成符合语音播放条件的目标语音信号。由于该种处理方式有针对性地对各个频点的功率谱均进行了增强,使得语音信号的增强效果更加稳定,有效提升了语音质量,进而增强了语音可懂度;而且,无论待处理语音信号先前是否经过级联编码处理,均可以采用该种处理方式对这类语音信号进行增强,适用范围广。
142.需要说明的是,上述图2所示的语音信号处理方法涵盖了两种语音信号处理方案,一种是待处理语音信号为初始语音信号时的语音信号处理方法,另一种是待处理语音信号为受损语音信号时的语音信号处理方法。下面基于两种具体实施方式,来对本技术提供的两种语音信号处理方案分别进行示意性说明。
143.第一种、待处理语音信号为初始语音信号时的语音信号处理方案。
144.首先,参考图3,图3是根据本技术实施例提供的一种语音信号处理方案的示意图。如图3所示,终端对初始语音信号进行深度学习预处理,然后对深度学习预处理后的初始语音信号进行级联编码处理,最终得到目标语音信号。其中,深度学习预处理也即是终端通过目标神经网络,获取与该初始语音信号对应的频带增益值,然后对该初始语音信号进行增强的处理过程。
145.接着,参考图4,图4是根据本技术实施例提供的另一种语音信号处理方法流程图。下面结合图4,对这种语音信号处理方案进行详细阐述。如图4所示,首先,终端对初始语音信号进行fft,得到该初始语音信号在频域上各个频点的功率谱和相位信息;然后,终端将各个频点的功率谱输入目标神经网络,经过该目标神经网络对该功率谱进行处理后,得到
与各个频点对应的频带增益值,其中,该目标神经网络包括两个全连接层和两个gru层;接着,终端将各个频点的功率谱与各个频点对应的频带增益值相乘,得到增强后的各个频点的功率谱;最后,终端基于各个频点的相位信息和增强后的各个频点的功率谱,经过ifft得到预处理语音信号后,对该预处理语音信号进行级联编码处理,最终得到目标语音信号,其中,预处理语音信号也即是上述实施例中所示的中间语音信号。
146.最后,参考图5,图5是根据本技术实施例提供的另一种语音信号处理方法流程图。如图5所示,该语音信号处理方法包括如下步骤501至步骤504。
147.501、将初始语音信号由时域变换至频域,获取频域上各个频点的第一功率谱和相位信息;其中,该初始语音信号是指未经过级联编码处理的语音信号。
148.502、获取各个频点的频带增益值,基于各个频点的第一功率谱和频带增益值,确定各个频点的第二功率谱。
149.503、基于各个频点的相位信息和第二功率谱,生成中间语音信号。
150.504、对该中间语音信号进行级联编码处理,得到符合语音播放条件的目标语音信号。
151.需要说明的是,通过对初始语音信号进行深度学习预处理后能够得到预处理语音信号,这种预处理语音信号在经过级联编码处理后能够得到更为接近初始语音信号的语音信号,也即是能够还原到较好音质,有效提升了级联编码应用场景下的语音质量,进而增强了语音可懂度。
152.第二种、待处理语音信号为受损语音信号时的语音信号处理方案。
153.首先,参考图6,图6是根据本技术实施例提供的另一种语音信号处理方案的示意图。如图6所示,终端先对初始语音信号进行级联编码处理,得到受损语音信号,这种受损语音信号也称为降级语音信号;然后终端对该受损语音信号进行深度学习修复,最终得到目标语音信号。其中,深度学习修复也即是终端通过目标神经网络,获取与该受损语音信号对应的频带增益值,然后对该受损语音信号进行增强的处理过程。
154.接着,参考图7,图7是根据本技术实施例提供的另一种语音信号处理方法流程图。下面结合图7,对这种语音信号处理方案进行详细阐述。如图7所示,首先,终端对初始语音信号进行级联编码处理,得到受损语音信号;然后,终端对受损语音信号进行fft,得到该受损语音信号在频域上各个频点的功率谱和相位信息;然后,终端将各个频点的功率谱输入目标神经网络,经过该目标神经网络对该功率谱进行处理后,得到与各个频点对应的频带增益值,其中,该目标神经网络包括两个全连接层和两个gru层;接着,终端将各个频点的功率谱与各个频点对应的频带增益值相乘,得到增强后的各个频点的功率谱;最后,终端基于各个频点的相位信息和增强后的各个频点的功率谱,经过ifft后得到目标语音信号。
155.最后,参考图8,图8是根据本技术实施例提供的另一种语音信号处理方法流程图。如图8所示,该语音信号处理方法包括如下步骤801至步骤804。
156.801、对初始语音信号进行级联编码处理,得到受损语音信号,其中,该初始语音信号是指未经过级联编码处理的语音信号,该受损语音信号是指经过级联编码处理后得到的语音信号。
157.802、将该初始语音信号由时域变换至频域,获取频域上各个频点的第一功率谱和相位信息。
158.803、获取该各个频点的频带增益值,基于该各个频点的第一功率谱和频带增益值,确定该各个频点的第二功率谱。
159.804、基于各个频点的相位信息和第二功率谱,生成符合语音播放条件的目标语音信号。
160.需要说明的是,通过对受损语音信号进行深度学习修复后,得到的语音信号是与初始语音信号更为接近的语音信号,也即是能够还原到较好音质,有效提升了级联编码应用场景下的语音质量,进而增强了语音可懂度。
161.综上,对于待处理语音信号,本技术实施例首先获取这类语音信号在频域上各个频点的第一功率谱和相位信息,然后通过获取各个频点对应的频带增益值,实现对第一功率谱进行增强,得到各个频点的第二功率谱,进而实现根据各个频点的第二功率谱和相位信息来生成符合语音播放条件的目标语音信号。由于该种处理方式有针对性地对各个频点的功率谱均进行了增强,使得语音信号的增强效果更加稳定,有效提升了语音质量,进而增强了语音可懂度;而且,无论待处理语音信号先前是否经过级联编码处理,均可以采用该种处理方式对这类语音信号进行增强,适用范围广。
162.图9是根据本技术实施例提供的一种语音信号处理装置的结构示意图。该装置用于执行上述语音信号处理方法执行时的步骤,参见图9,该语音信号处理装置包括:获取模块901、确定模块902以及生成模块903。
163.获取模块901,用于将待处理语音信号由时域变换至频域,获取频域上各个频点的第一功率谱和相位信息;其中,该待处理语音信号为初始语音信号或受损语音信号,该初始语音信号是指未经过级联编码处理的语音信号,该受损语音信号是指经过该级联编码处理后得到的语音信号;
164.确定模块902,用于获取该各个频点的频带增益值,基于该各个频点的第一功率谱和频带增益值,确定该各个频点的第二功率谱;
165.生成模块903,用于基于该各个频点的相位信息和第二功率谱,生成符合语音播放条件的目标语音信号。
166.在一种可选地实现方式中,响应于该待处理语音信号为初始语音信号,该生成模块903还用于:
167.基于该各个频点的相位信息和第二功率谱,生成中间语音信号;
168.对该中间语音信号进行该级联编码处理,得到该目标语音信号。
169.在一种可选地实现方式中,响应于该待处理语音信号为该受损语音信号,该装置还包括:
170.处理模块,用于在将该待处理语音信号由时域变换至频域之前,对该初始语音信号进行该级联编码处理,得到该受损语音信号。
171.在一种可选地实现方式中,该确定模块902用于:
172.将该各个频点的第一功率谱输入目标神经网络,得到该各个频点的频带增益值;其中,该目标神经网络包括顺序连接的第一全连接层、门控循环单元层和第二全连接层;
173.将该各个频点的第一功率谱与频带增益值之积,作为该各个频点的第二功率谱。
174.在一种可选地实现方式中,该装置还包括训练模块,该训练模块用于:
175.获取语音样本在频域上各个频点的第三功率谱,该第三功率谱是通过将该语音样
本由时域变换至频域得到的;
176.将该语音样本对应的第三功率谱输入初始神经网络,得到该第三功率谱对应的预测频带增益值;
177.基于该语音样本的预测频带增益值和目标频带增益值,构建损失函数;
178.基于该损失函数,不断调整该初始神经网络的网络参数,直至满足预设条件,得到该目标神经网络;
179.其中,该目标频带增益值是基于该第三功率谱和该语音样本对应的第四功率谱得到的,该第四功率谱是通过对该语音样本进行该级联编码处理后,再将该语音样本由时域变换至频域得到的。
180.在一种可选地实现方式中,该目标频带增益值为该第三功率谱与该第四功率谱之比的平方根值。
181.在一种可选地实现方式中,该确定模块902还用于:
182.将该各个频点的第一功率谱输入该第一全连接层,经过该第一全连接层对该各个频点的第一功率谱进行特征提取,得到特征向量;
183.将该特征向量输入该门控循环单元层,经过该门控循环单元层中的更新门和重置们,对该特征向量之间的相关性和有效信息进行提取,得到输出向量;
184.将该输出向量输入该第二全连接层,经过该第二全连接层将该输出向量整合为该各个频点的频带增益值。
185.在一种可选地实现方式中,该获取模块901还用于:
186.对该待处理语音信号依次进行分帧处理和加窗处理;
187.对经过分帧处理和加窗处理后的该待处理语音信号进行快速傅里叶变换;基于得到的变换结果,确定频域上该各个频点的第一功率谱和相位信息。
188.在一种可选地实现方式中,该级联编码处理包括m次编解码处理,其中,m为大于1的正整数,该处理模块还用于:
189.对该初始语音信号进行m次编解码处理,得到该受损语音信号;
190.其中,上一次编解码处理的输出作为下一次编解码处理的输入;对于任意一次编解码处理,该编解码处理包括一次编码处理和一次解码处理,且该编码处理的输出作为该解码处理的输入。
191.对于待处理语音信号,本技术实施例首先获取这类语音信号在频域上各个频点的第一功率谱和相位信息,然后通过获取各个频点对应的频带增益值,实现对第一功率谱进行增强,得到各个频点的第二功率谱,进而实现根据各个频点的第二功率谱和相位信息来生成符合语音播放条件的目标语音信号。由于该种处理方式有针对性地对各个频点的功率谱均进行了增强,使得语音信号的增强效果更加稳定,有效提升了语音质量,进而增强了语音可懂度;而且,无论待处理语音信号先前是否经过级联编码处理,均可以采用该种处理方式对这类语音信号进行增强,适用范围广。
192.需要说明的是:上述实施例提供的语音信号处理装置在处理语音信号时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音信号处理装置与语音信号处理方法实施例属于
同一构思,其具体实现过程详见方法实施例,这里不再赘述。
193.本技术实施例提供的语音信号处理方法,计算机设备能够配置为终端或者服务器,也即该方法能够由终端作为执行主体来执行,也能够由服务器作为执行主体来进行执行。当然,还能够由终端和服务器之间的交互来执行,如终端向服务器发送待处理语音信号并请求获取目标语音信号,服务器基于接收到的请求,对该待处理语音信号进行语音信号处理,得到目标语音信号后反馈给终端。需要说明的是,本技术实施例对于终端与服务器之间的交互方式不作限定。
194.在示例性实施例中,还提供了一种计算机设备。以计算机设备为终端为例,图10示出了本技术一个示例性实施例提供的终端1000的结构示意图。该终端1000可以是:智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
195.通常,终端1000包括有:处理器1001和存储器1002。
196.处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
197.存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1001所执行以实现本技术中方法实施例提供的语音信号处理方法。
198.在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。
199.外围设备接口1003可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
200.射频电路1004用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
201.显示屏1005用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在终端1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light

emitting diode,有机发光二极管)等材质制备。
202.摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
203.音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
204.定位组件1008用于定位终端1000的当前地理位置,以实现导航或lbs(location based service,基于位置的服务)。定位组件1008可以是基于美国的gps(global positioning system,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
205.电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
206.在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
207.加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
208.陀螺仪传感器1012可以检测终端1000的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3d动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
209.压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
210.指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商logo时,指纹传感器1014可以与物理按键或厂商logo集成在一起。
211.光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
212.接近传感器1016,也称距离传感器,通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。
213.本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
214.以计算机设备为服务器为例,图11是根据本技术实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(central processing units,cpu)1101和一个或一个以上的存储器1102,其中,该存储器1102中存储有至少一条计算机程序,该至少一条计算机程序由处理器1101加载并执行以实现上述各个方法实施例提供的语音信号处理方法。当然,该服务器还能够具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用于实现设备功能的部件,在此不做赘述。
215.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质应用于计算机设备,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现上述实施例的语音信号处理方法中计算机设备所执行的操作。
216.本技术实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的语音信号处理方法。
217.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
218.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献