语音信息处理方法、装置、电子设备及存储介质与流程

2021-08-27 13:36:00 来源：中国专利 TAG：语音电子设备识别装置情绪

本公开涉及语音情绪识别领域及金融领域，具体涉及一种语音信息处理方法、装置、电子设备及存储介质。

背景技术：

随着网络技术的日益发达，金融风险也随之增大，尤其是针对老年人，其识别金融风险和转账隐患的能力较弱，经常出现被欺骗，而将大量金额转入他人账户名下的情况。为保护客户权益，银行在客户进行大笔金额转账时，可以进行风险防控，核对用户身份，触发风控模型，通过语音电话再三确认是否将大笔金额转入他人名下，待得到肯定回复后，才会将钱款汇入用户指定对方账户名下。

然而，当前风控防范仍旧存在一些缺陷，例如，银行柜员提醒用户注意风险，用户可能对银行柜员的善意提醒置若罔闻，认为银行柜员是在干扰自己的私事，执意汇款给他人。又例如，当前，阻止客户转账的决定权在柜员手中，但是柜员的业务水平参差不齐，难以在相同的标准下执行客户转账保护。也可能受客户情绪的影响，柜员判断失误导致错误发生。

公开内容

有鉴于此，本公开提供一方面提供一种语音信息处理方法，包括：获取语音信息，对所述语音信息进行预处理；对预处理后的所述语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种；将所述特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，所述深度神经网络包括依次连接的卷积层及全连接层；对所述分类特征进行识别，得到语音情感分类结果。

根据本公开的实施例，所述对所述语音信息进行预处理包括：将所述语音信息转化为数字信号；对所述数字信号进行预加重处理，以提高所述数字信号的高频频谱；通过窗函数对预加重后的数字信号进行分割，得到多帧数字信号。

根据本公开的实施例，所述对预处理后的所述语音信息进行特征提取包括：设置帧移动步长；通过所述窗函数及所述帧移动步长计算每一帧数字信号的短时能量。

根据本公开的实施例，所述窗函数包括汉明窗函数。

根据本公开的实施例，所述对所述数字信号进行预加重处理包括：将所述数字信号输入预设倍频程的数字滤波器进行滤波，以提高所述数字信号的高频频谱。

根据本公开的实施例，所述对预处理后的所述语音信息进行特征提取包括：对预处理后的所述语音信息进行傅里叶变换，计算所述语音信息的能量谱；根据所述能量谱计算所述语音信息的响应；根据所述响应计算所述美尔频率倒谱系数。

根据本公开的实施例，所述根据所述响应计算所述美尔频率倒谱系数包括：对所述响应求解对数；对所述对数进行反离散余弦变换，计算所述美尔频率倒谱系数。

根据本公开的实施例，所述对所述分类特征进行识别包括：将所述分类特征输入svm网络进行识别，得到语音情感分类结果。

根据本公开的实施例，所述语音信息包括转账确认的通话内容；所述语音信息处理方法还包括：根据语音情感分类结果确认是否进行转账。

根据本公开的实施例，所述语音信息处理方法还包括：在转账结束后，对转账结果进行回访，根据回访数据优化所述深度神经网络。

本公开另一方面提供一种语音信息处理装置，包括：预处理模块，用于获取语音信息，对所述语音信息进行预处理；特征提取模块，用于对预处理后的所述语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种；分类模块，用于将所述特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，所述深度神经网络包括依次连接的卷积层及全连接层；识别模块，用于对所述分类特征进行识别，得到语音情感分类结果。

根据本公开的实施例，所述预处理模块包括：转化单元，用于将所述语音信息转化为数字信号；预加重单元，用于对所述数字信号进行预加重处理，以提高所述数字信号的高频频谱；分割单元，用于通过窗函数对预加重后的数字信号进行分割，得到多帧数字信号。

根据本公开的实施例，所述特征提取模块包括：设置单元，用于设置帧移动步长；第一计算单元，用于通过所述窗函数及所述帧移动步长计算每一帧数字信号的短时能量。

根据本公开的实施例，所述窗函数包括汉明窗函数。

根据本公开的实施例，所述预加重单元对所述数字信号进行预加重处理包括：将所述数字信号输入预设倍频程的数字滤波器进行滤波，以提高所述数字信号的高频频谱。

根据本公开的实施例，所述特征提取模块包括：第二计算单元，用于对预处理后的所述语音信息进行傅里叶变换，计算所述语音信息的能量谱；第三计算单元，用于根据所述能量谱计算所述语音信息的响应；第四计算单元，用于根据所述响应计算所述美尔频率倒谱系数。

根据本公开的实施例，所述第四计算单元根据所述响应计算所述美尔频率倒谱系数包括：对所述响应求解对数；对所述对数进行反离散余弦变换，计算所述美尔频率倒谱系数。

根据本公开的实施例，所述识别模块对所述分类特征进行识别包括：将所述分类特征输入svm网络进行识别，得到语音情感分类结果。

根据本公开的实施例，所述语音信息包括转账确认的通话内容；所述语音信息处理装置还包括：确认模块，用于根据语音情感分类结果确认是否进行转账。

根据本公开的实施例，所述语音信息处理装置还包括：优化模块，用于在转账结束后，对转账结果进行回访，根据回访数据优化所述深度神经网络。

本公开的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

图1示意性示出了根据本公开实施例的语音信息处理方法及装置的系统架构100；

图2示意性示出了根据本公开实施例的语音信息处理方法的流程图；

图3示意性示出了根据本公开实施例的深度神经网络结构的结构图；

图4示意性示出了根据本公开实施例的语音信息预处理方法的流程图；

图5示意性示出了根据本公开一实施例的特征提取方法的流程图；

图6示意性示出了根据本公开实施例的语音情感与平均能量的关系曲线图；

图7示意性示出了根据本公开一实施例的特征提取方法的流程图；

图8示意性示出了根据本公开一实施例的对分类特征进行识别的方法的流程图；

图9示意性示出了根据本公开有一实施例的语音信息处理的方法的流程图；

图10示意性示出了根据本公开有一实施例的语音信息处理的方法的流程图；

图11示意性示出了根据本公开一实施例的语音信息处理装置的框图；

图12示意性示出了根据本公开又一实施例的信息处理装置的框图；

图13示意性示出了根据本公开又一实施例的信息处理装置的框图；

图14示意性示出了根据本公开一实施例的预处理模块的框图；

图15示意性示出了根据本公开一实施例的特征提取模块的框图；

图16示意性示出了根据本公开又一实施例的特征提取模块的框图；

图17示意性示出了根据本公开又一实施例的特征提取模块的框图；

图18示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本公开的实施例提供一种语音信息处理方法，包括：获取语音信息，对语音信息进行预处理。对预处理后的语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种。将特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，深度神经网络包括依次连接的卷积层及全连接层。对分类特征进行识别，得到语音情感分类结果。

图1示意性示出了根据本公开实施例的语音信息处理方法及装置的系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括存储单元101，网络102及服务器103。网络102用于在存储单元101和服务器103之间提供通信链路。

存储单元101例如可以是硬件或者软件实现，例如利用半导体、磁性介质等技术制成的存储数据的电子设备(例如硬盘)，或者数据库。存储单元101上存储有待处理的语音信息。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。服务器103可以是能够通过从存储单元获取语音数据，并对语音数据进行处理的服务器。根据本公开实施例，在语音处理的过程中，服务器103通过网络102获取存储单元101上存储的语音信息，对语音信息进行预处理，对预处理后的语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种，将特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，深度神经网络包括依次连接的卷积层及全连接层，对分类特征进行识别，得到语音情感分类结果。

需要说明的是，本公开实施例所提供的语音信息处理方法可以由服务器103执行。相应地，本公开实施例所提供的语音信息处理装置可以设置于服务器103中。或者，本公开实施例所提供的语音信息处理方法也可以由不同于服务器103且能够与存储单元101和/或服务器103通信的服务器或服务器集群执行。相应地，本公开实施例所提供的语音信息处理装置也可以设置于不同于服务器103且能够与存储单元101和/或服务器103通信的服务器或服务器集群中。或者，本公开实施例所提供的语音信息处理方法也可以部分由服务器103执行，部分由存储单元101执行。相应的，本公开实施例所提供的语音信息处理装置也可以部分设置于服务器103中，部分设置于存储单元101中。

应该理解，图1中的存储单元、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的存储单元、网络和服务器。

本公开实施例提供的语音信息处理方法，可以应用于金融服务领域，以银行为例，由于老年人识别金融风险的和转账隐患的能力较弱，当老年人在柜面或其他方式进行大额转账时，触发风控模型后，银行业务人员会和老年人进行语音交流，会对老年人当时的语气情绪进行监控与分析，辨别老年人转账的动机和情绪，若发现老年人语气情绪正常，转账用钱确实属实，则将钱款汇入老年人指定对方账户名下，若一旦发现老年人情绪激动，语气语义模棱两可，含糊其辞，则不会汇入对方名下，及时制止风险。基于本公开实施例提供的语音信息处理方法，通过对银行业务人员与客户之间的通话内容进行处理，可以快速准确地对语音内容进行情感识别，得到语音情感分类结果，以便准确地根据语音情感分类结果判断是否允许转账。

应当理解是，本公开实施例提供的语音信息处理方法不仅限于应用于金融服务技术领域，上述描述只是示例性的，对于其涉及语音情感分类识别的领域，例如通信诈骗相关领域等，都可以应用本公开实施例的语音信息处理方法进行语音情感分类。

图2示意性示出了根据本公开实施例的语音信息处理方法的流程图。

如图2所示，该语音信息处理方法例如可以包括操作s201～s204。

在操作s201，获取语音信息，对语音信息进行预处理。

在操作s202，对预处理后的语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种。

在操作s203，将特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，深度神经网络包括依次连接的卷积层及全连接层。

在操作s204，对分类特征进行识别，得到语音情感分类结果。

本公开实施例中，语音信息可以包括转账确认的通话内容。预处理过程是为了便于后续更好地进行特征提取及语音情感分类识别。

本公开实施例中，对特征进行分类的深度神经网络包括依次连接的卷积层及全连接层，该神经网络结构如图3所示，输入和输出之间例如设置多层卷积层及与之连接的多层全连接层，构成显著性特征提取的卷积神经网络。传统的卷积神经网络在池化层后将一维变量直接输入softmax分类器中进行分类，这种分类方法比较适合图像识别，因为图像特征间的连续性较强。在实现本公开构思的过程中，申请人发现：对于语音信号来说，一维向量间的特征联系不明显，使用池化层易丢失特征，造成结果偏差。因此，本公开实施例对传统的卷积神经网络进行改进，得到如图3所示的深度神经网络，在对特征进行分类时，不进行池化处理，直接对特征进行卷积运算，然后输入全连接层进行特征分类，以提高语音情感分类识别的准确性。

本公开实施例提供的语音信息处理方法，通过提取短时能量和美尔频率倒谱系数中的至少一种特征，能够更准确地表征语音信息包含的语音情感，以便后续更好地进行语音分类。进一步地，记忆设计的仅包括卷积层及全连接层的深度神经网络对短时能量和美尔频率倒谱系数进行分类，以得到语音情感的分类特征，可提高语音情感分类识别的准确性。

下面以大笔金额转账交易为例，结合附图对图2所示的语音信息处理方法进行进一步详细介绍。

图4示意性示出了根据本公开实施例的语音信息预处理方法的流程图。

如图4所示，该预处理方法例如可以包括操作s401～操作s403。

在操作s401，将语音信息转化为数字信号。

本公开实施例中，在进行大笔金额转账时，通过电话对本次交易进行确认，记录电话确认的实时通话内容作为待处理的语音信息，对待处理的语音信息为i。可以采用低通滤波、采样和量化的方式将模拟语音信号转化为数字信号。

在操作s402，对数字信号进行预加重处理，以提高数字信号的高频频谱。

本公开实施例中，通过研究发现：语音信号随着频率升高而幅值降低，高频端的幅值一般明显低于低频端。为了方便后续处理，可以提高高频段的幅值，提高高频段幅值的方法可以为预加重方法。其中，预加重可以指对信号数字化之后，用一个具有预设倍频程(例如6db)的数字滤波器来提升信号的高频频谱。经过预加重之后，语音信号的频谱将变得平坦，有利于后续的处理。

在操作s403，通过窗函数对预加重后的数字信号进行分割，得到多帧数字信号。

本公开实施例中，通过研究发现：语音信号是一种非平稳信号，但是发音器官的震动比起声音的震动要缓慢的多，在极短时间内(例如30毫秒以内)，可以认为语音信号是平稳的。因此，在对语音信息进行处理时，可以将语音信息分为一小段一小段来处理。具体可以的分割过程可以通过窗函数来实现，每一次分割后的数据称为一帧，这样，连续的语音信息i就变为了平稳的帧信号i1、i2、i3、……、in，帧与帧之间有一定的重叠，这样能保证声音信号平滑的过渡。

本公开实施例中，具体的窗函数可以选择汉明窗进行，汉明窗的主瓣比较宽，旁瓣峰值较小，有利于分析声音中的主要特征。汉明窗的函数可以为：

其中，w(n)表示汉明窗的函数，n表示语音信息分割的帧信号的总帧数，n表示第n帧信号的序号。

基于本公开实施例提供的语音信息预处理方法，通过对语音信号进行预加重处理，使得语音信号的频谱变得平坦，有利于后续的处理。通过将语音信号分割为多帧信号，平稳的帧信号有利于提升后续的特征提取及分类的准确性。

图5示意性示出了根据本公开一实施例的特征提取方法的流程图。

该特征提取方法可用于提取语音信息包含的短时能量。本公开实施例通过研究发现：不同的情感中包含的语音能量具有明显的不同，通过提取声音的短时能量，能有效的描述声音的情感变化。短时能量和语音的振幅有最直接的正比例关系。语音信号的振幅大，其中包含的短时能量就大，反之则短时能量小。对于高强度的情感语音，诸如兴奋等正面情绪或者生气等负面情绪，信号都具有较大的幅值。而平静等低强度的语音信号的幅值一般较小。通过对历史语音信息进行语音分析，得到情绪与平均能量的关系曲线图，如图6所示，从图6可以明显的看出，愤怒情绪的平均能量最大，高兴情绪的平均能量次之。

如图5所示，该方法例如可以包括操作s501～操作s502。

在操作s501，设置帧移动步长。

本公开实施例中，基于前述记载的窗函数，对语音信息中包含的短时能量进行提取。具体地，设置帧移动步长，则利用窗函数对语音信号分帧后得到的第n帧语音信号in(m)可以为：

in(m)＝w(m)i(n m)，0≤m≤n-1，m＝0，t，2t…

其中，n表示语音信息分割的帧信号的总帧数，n表示第n帧信号的序号，t为帧移动步长。

在操作s502，通过窗函数及帧移动步长计算每一帧数字信号的短时能量。

本公开实施例中，第n帧语音信号的短时能量x′1可以通过下式计算：

本公开实施例中，短时语音的情感能量分布在一定程度上能够辅助区分可用转账时当时心理活动状态。一般意义上而言，在情绪波动较大的情况下做出的抉择通常都不是最适合的。因此，银行会选择这些情绪波动进行干预。但是基于短时情绪波动的干预方法误差较大，没有彻底解决客户易受金融诈骗的问题。因此，本公开实施例中还可提取语音信息中的美尔频率倒谱系数。

图7示意性示出了根据本公开一实施例的特征提取方法的流程图。

该特征提取方法可用于提取语音信息包含的美尔频率倒谱系数(mfcc)。mel频率倒谱系数是一种模仿人耳听力特性提取的特征参数，能够很好地表征语音的特性。mel频率是指一组模仿人耳的滤波器组，其与实际频率的换算关系如下：

mel(f)＝2595*lg(1 f/700)

其中，f为实际频率。

本公开实施例中，针对于分帧处理后的每一帧语音信号i1、i2、i3、……、in，均可以采用图7所示的方法进行mfcc特征提取，得到mfcc特征值。

如图7所示，该方法例如可以包括操作s701～操作s703。

在操作s701，对预处理后的语音信息进行傅里叶变换，计算语音信息的能量谱。

本公开实施例中，对每一帧语音信号in进行快速傅里叶变换，求取语音信号的能量谱函数。

在操作s702，根据能量谱计算语音信息的响应。

本公开实施例中，可以将语音信的能量谱函数输入美尔滤波器，以计算语音信号的响应。

在操作s703，根据响应计算美尔频率倒谱系数。

本公开实施例中，可以对美尔滤波器输出的响应结果求解对数，然后对对数进行反离散余弦变换(dct)，计算美尔频率倒谱系数。

本公开实施例中，通过提取语音信息中的美尔频率倒谱系数，结合提取的短时能量特征对语音信号包含的语音情感进行分类，进一步提高语音情感分类的准确性。

应当理解，对语音信息进行特征提取时，可根据实际应用需求选择需要提取的特征，例如仅仅提取语音信息中的短时能量，或仅仅提取语音信息中的美尔频率倒谱系数，或同时提取语音信息中的短时能量和美尔频率倒谱系数。

图8示意性示出了根据本公开一实施例的对分类特征进行识别的方法的流程图。

如图8所示，该方法例如可以包括操作s801。

在操作s801，将语音情感的分类特征输入svm网络进行识别，得到语音情感分类结果。

本公开实施例中，svm网络及支持向量机网络，svm网络允许决策边界很复杂，即使数据只有几个特征。它在低维数据和高维数据(即很少特征和很多特征)上都表现都很好。基于svm网络，能够很好地识别语音情感的分类结果。

图9示意性示出了根据本公开有一实施例的语音信息处理的方法的流程图。

如图9所示，该语音信息处理的方法包括操作s201、操作s202、操作s203、操作s204及操作s901。

在操作s201，获取语音信息，对语音信息进行预处理。

在操作s202，对预处理后的语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种。

在操作s203，将特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，深度神经网络包括依次连接的卷积层及全连接层。

在操作s204，对分类特征进行识别，得到语音情感分类结果。

在操作s901，根据语音情感分类结果确认是否进行转账。

本公开实施例中，语音情感分类例如可以包括平静或者非平静(愤怒、高兴，厌倦等)。若情感为高兴、厌倦、伤心、愤怒等非平静状态时，则对客户的大额转账行为进行阻止；若为平静状态时，则对客户的大额转账行为进行允许。

图10示意性示出了根据本公开有一实施例的语音信息处理的方法的流程图。

如图10所示，所述语音信息处理的方法包括操作s201、操作s202、操作s203、操作s204、操作s901及操作s1001。

在操作s201，获取语音信息，对语音信息进行预处理。

在操作s202，对预处理后的语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种。

在操作s203，将特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，深度神经网络包括依次连接的卷积层及全连接层。

在操作s204，对分类特征进行识别，得到语音情感分类结果。

在操作s901，根据语音情感分类结果确认是否进行转账。

在操作s1001，对转账结果进行回访，根据回访数据优化深度神经网络。

本公开实施例中，可以对转账客户的家人或朋友进行回访，对行动结果确认，根据确认的结果，进一步优化用于特征分类的深度神经网络，进行持久优化。

基于该优化方法，可进一步提高语音情感分类经过的准确性，进而提高转账确认结果的准确性。

图11示意性示出了根据本公开一实施例的语音信息处理装置的框图。

如图11所示，语音信息处理装置1100例如可以包括预处理模块1110、特征提取模块1120、分类模块1130、以及识别模块1140。

预处理模块1110，用于获取语音信息，对语音信息进行预处理。

特征提取模块1120，用于对预处理后的语音信息进行特征提取，其中，提取的特征包括短时能量和美尔频率倒谱系数中的至少一种。

分类模块1130，用于将特征输入深度神经网络进行分类，得到语音情感的分类特征，其中，深度神经网络包括依次连接的卷积层及全连接层。

识别模块1140，用于对分类特征进行识别，得到语音情感分类结果。

图12示意性示出了根据本公开又一实施例的信息处理装置的框图。

如图12所示，该语音信息处理装置1100可用于转账确认，对应的语音信息包括转账确认的通话内容，该语音信息处理装置1100例如还可以包括确认模块1150。

确认模块1150，用于根据语音情感分类结果确认是否进行转账。

图13示意性示出了根据本公开又一实施例的信息处理装置的框图。

如图13所示，该语音信息处理装置1100例如还可以包括优化模块1160。

优化模块1160，用于在转账结束后，对转账结果进行回访，根据回访数据优化深度神经网络。

图14示意性示出了根据本公开一实施例的预处理模块的框图。

如图14所示，预处理模块1110例如可以包括转化单元1111、预加重单元1112以及分割单元1113。

转化单元1111，用于将语音信息转化为数字信号。

预加重单元1112，用于对数字信号进行预加重处理，以提高数字信号的高频频谱。

分割单元1113，用于通过窗函数对预加重后的数字信号进行分割，得到多帧数字信号。

图15示意性示出了根据本公开一实施例的特征提取模块的框图。

如图15所示，特征提取模块1120例如可以包括设置单元1121以及第一计算单元1122。

设置单元1121，用于设置帧移动步长。

第一计算单元1122，用于通过窗函数及帧移动步长计算每一帧数字信号的短时能量。

图16示意性示出了根据本公开又一实施例的特征提取模块的框图。

如图16所示，特征提取模块1120例如可以包括第二计算单元1123、第三计算单元1124以及第四计算单元1125。

第二计算单元1123，用于对预处理后的所述语音信息进行傅里叶变换，计算所述语音信息的能量谱；

第三计算单元1124，用于根据所述能量谱计算所述语音信息的响应；

第四计算单元1125，用于根据所述响应计算所述美尔频率倒谱系数。

图17示意性示出了根据本公开又一实施例的特征提取模块的框图。

如图17所示，特征提取模块1120例如可以包括设置单元1121、第一计算单元1122、第二计算单元1123、第三计算单元1124以及第四计算单元1125。

设置单元1121，用于设置帧移动步长。

第一计算单元1122，用于通过窗函数及帧移动步长计算每一帧数字信号的短时能量。

第二计算单元1123，用于对预处理后的所述语音信息进行傅里叶变换，计算所述语音信息的能量谱；

第三计算单元1124，用于根据所述能量谱计算所述语音信息的响应；

第四计算单元1125，用于根据所述响应计算所述美尔频率倒谱系数。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，预处理模块1110、特征提取模块1120、分类模块1130、以及识别模块1140、确认模块1150、优化模块1160中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，预处理模块1110、特征提取模块1120、分类模块1130、以及识别模块1140、确认模块1150、优化模块1160中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，预处理模块1110、特征提取模块1120、分类模块1130、以及识别模块1140、确认模块1150、优化模块1160中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中语音信息处理装置部分与本公开的实施例中语音信息处理方法部分是相对应的，其具体实施细节及带来的技术效果也是相同的，在此不再赘述。

图18示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图18示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图18所示，根据本公开实施例的电子设备1800包括处理器1801，其可以根据存储在只读存储器(rom)1802中的程序或者从存储部分1808加载到随机访问存储器(ram)1803中的程序而执行各种适当的动作和处理。处理器1801例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))，等等。处理器1801还可以包括用于缓存用途的板载存储器。处理器1801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在ram1803中，存储有电子设备1800操作所需的各种程序和数据。处理器1801、rom1802以及ram1803通过总线1804彼此相连。处理器1801通过执行rom1802和/或ram1803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom1802和ram1803以外的一个或多个存储器中。处理器1801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1800还可以包括输入/输出(i/o)接口1805，输入/输出(i/o)接口1805也连接至总线1804。电子设备1800还可以包括连接至i/o接口1805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1806；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1807；包括硬盘等的存储部分1808；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1809。通信部分1809经由诸如因特网的网络执行通信处理。驱动器1810也根据需要连接至i/o接口1805。可拆卸介质1811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1810上，以便于从其上读出的计算机程序根据需要被安装入存储部分1808。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1809从网络上被下载和安装，和/或从可拆卸介质1811被安装。在该计算机程序被处理器1801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的rom1802和/或ram1803和/或rom1802和ram1803以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：无声语音识别方法、装置、介质、耳机及电子设备与流程

语音信息处理方法、装置、电子设备及存储介质与流程

相关文章

最热文献