一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音关键词的识别方法及识别电路

2022-05-11 10:13:01 来源:中国专利 TAG:


1.本发明涉及语音关键词识别技术领域,尤其涉及一种语音关键词的识别方法及识别电路。


背景技术:

2.语音的关键词识别技术(keywords spotting,kws)是在一段语音中,识别出一个或多个特定的关键词。以如今常见的关键词唤醒物联网设备为例,在一段复杂的语音中,往往只有小段语音包含关键词信号。因此若kws模块能以极低的功耗保持常开,在准确地识别到语音关键词后,再唤醒后续庞大的处理系统,便可以节约大量功耗。
3.一个kws系统由前端的特征提取和后端的分类模型两部分构成。特征提取部分,常用的特征参数包括梅尔频率倒谱系数(mel frequency cepstral coefficients,mfcc)、短时能量和过零率等,其中mfcc由于更加符合人耳听觉、特征更完备而被广泛应用于语音信号处理的各领域中。
4.如图1所示,目前现有的mfcc计算方法的电路实现都是在数字域中,语音信号通过放大器放大后,使用模数转换器(analog to digital converter,adc)转换到数字域下,用数字模块实现特征的具体计算。然而,高精度adc意味着需要大量功耗,现有技术中缺乏一种方法省去高频高精度的adc功耗和面积,更好满足低功耗的设计需求。
5.以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本技术的新颖性和创造性。


技术实现要素:

6.本发明为了解决现有的问题,提供一种语音关键词的识别方法及识别电路。
7.为了解决上述问题,本发明采用的技术方案如下所述:
8.一种语音关键词的识别方法,在模拟域下计算语音信号的梅尔频率倒谱系数,包括如下步骤:s1:麦克风输出的信号经过低噪声放大器得到放大后的信号;s2:利用帕萨瓦尔定理将所述放大后的信号在时域中经过平方器进行平方,得到平方后的信号;s3:采用一组梅尔频率内呈线性的滤波器组对所述平方后的信号进行带通滤波,得到滤波后的信号;s4:对所述滤波后的信号进行积分得到积分后的信号;s5:采用对数运算电路对所述积分后的信号实现对数运算;s6:对数运算得到的结果进行离散余弦变换得到所述语音信号的梅尔频率倒谱系数。
9.优选地,利用帕萨瓦尔定理将所述放大后的信号在时域中经过平方器进行平方,得到平方后的信号,再对所述平方后的信号进行积分:
[0010][0011]
其中,x(t)是原信号,x(ω)是傅里叶变换后的信号,t是时域单位,ω是频域单位。
[0012]
优选地,所述滤波器组是带通滤波器,其传输函数h(s)表示为:
[0013][0014]
其中,a、b、c、d是系数,s是复频域单位。
[0015]
优选地,对所述对数运算得到的结果进行离散余弦变换包括:将所述对数运算得到的结果根据系数矩阵转换为电流再相加,所述系数矩阵:
[0016][0017]
其中,a、b、c、d、e、f、g是参数。
[0018]
本发明提供一种语音关键词的识别电路,用于实现如上任一所述的语音关键词的识别方法,包括:放大单元,用于将所述麦克风输出的信号经过低噪声放大器得到放大后的信号;平方单元,用于利用帕萨瓦尔定理将所述放大后的信号在时域中经过平方器进行平方,得到平方后的信号;滤波单元,用于对所述平方后的信号进行滤波得到滤波后的信号;积分单元,用于对所述滤波后的信号进行积分得到积分后的信号;对数运算单元,采用对数运算电路对所述积分后的信号实现对数运算;离散余弦变换单元,用于对数运算得到的结果进行离散余弦变换得到所述语音信号的梅尔频率倒谱系数。
[0019]
优选地,所述平方单元包括6个场效应晶体管分别为m1-m6,场效应晶体管m1和场效应晶体管m2作为差分输入对管,所述场效应晶体管m1和所述场效应晶体管m2的漏极与场效应晶体管m3和场效应晶体管m4的漏极相连;所述场效应晶体管m3的栅漏相连并连接场效应晶体管m5的栅极,场效应晶体管m4的栅漏相连并连接场效应晶体管m6栅极。
[0020]
优选地,所述积分单元包括放大器a1、电容c1、开关s1和电阻r1;其中,所述放大器的两个输入端中正端输入接地,负端输入和所述滤波后的信号中间连接电阻,负端输入与输出端之间并联开关s1和电容c1;所述开关s1用于对所述滤波后的信号进行分帧处理,所述电容c1将输入的电流信号转换成电压信号。
[0021]
优选地,所述对数运算单元包括放大器a2、电阻r2、二极管d1;所述积分后的信号与所述电阻r2一端相连,所述电阻r2另一端连接到所述放大器a2负端输入,所述放大器a2负端和输出端之间并联所述二极管d1,所述放大器a2正端输入接地。
[0022]
优选地,所述对数运算单元的计算公式为:
[0023]
[0024]
其中,i是积分后的电压信号通过电阻r2转换成的电流,v是对数运算后的电压结果,is是二极管d1的饱和电流,v
t
是二极管d1的热电压,e是自然常数。
[0025]
优选地,所述离散余弦变换单元包括8*8个电压转换成电流的计算矩阵,所述计算矩阵按照如下系数矩阵排列:
[0026][0027]
设计分别计算7个参数大小的7种计算单元,用于在电路中实现计算参数a、b、c、d、e、f、g。
[0028]
本发明的有益效果为:提供一种语音关键词的识别方法及识别电路,通过在模拟域下计算语音信号的梅尔频率倒谱系数,有效降低了整体电路功耗,具有较高的可行意义。
附图说明
[0029]
图1是本发明实施例中现有的梅尔频率倒谱系数计算方法的电路实现示意图。
[0030]
图2是本发明实施例中一种语音关键词的识别方法的示意图。
[0031]
图3是本发明实施例中一种语音关键词的识别流程示意图。
[0032]
图4是本发明实施例中一种常见的跨导电容带通滤波器实例示意图。
[0033]
图5是本发明实施例中平方单元的电路示意图。
[0034]
图6是本发明实施例中积分单元的电路示意图。
[0035]
图7是本发明实施例中对数运算单元的电路示意图。
[0036]
图8是本发明实施例中离散余弦变换单元的电路示意图。
[0037]
图9是本发明实施例中全连接网络的结构示意图。
具体实施方式
[0038]
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0039]
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接既可以是用于固定作用也可以是用于电路连通作用。
[0040]
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必
须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0041]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0042]
如图2所示,一种语音关键词的识别方法,在模拟域下计算语音信号的梅尔频率倒谱系数,包括如下步骤:
[0043]
s1:麦克风输出的信号经过低噪声放大器得到放大后的信号;
[0044]
s2:利用帕萨瓦尔定理将所述放大后的信号在时域中经过平方器进行平方,得到平方后的信号;
[0045]
s3:采用一组梅尔频率内呈线性的滤波器组对所述平方后的信号进行带通滤波,得到滤波后的信号;
[0046]
s4:对所述滤波后的信号进行积分得到积分后的信号;
[0047]
s5:采用对数运算电路对所述积分后的信号实现对数运算;
[0048]
s6:对数运算得到的结果进行离散余弦变换得到所述语音信号的梅尔频率倒谱系数。
[0049]
本发明提供的语音关键词的识别方法,在在模拟域下计算语音信号的梅尔频率倒谱系数,通过仿真验证,有很高的关键词识别率。
[0050]
如图3所示,一种语音关键词的识别流程示意图,如下进行详细说明。
[0051]
在一种具体的实施例中,麦克风输出信号通常较小,一般在微伏量级,直接对其进行特征计算难度很大;因此先通过低噪声放大器,将其根据幅值情况放大20db~40db后再进行平方等特征计算,会更便于计算。麦克风输出的信号第一步经过低噪声放大器(low noise amplifier,lna),得到放大后的信号。
[0052]
利用帕萨瓦尔定理将所述放大后的信号在时域中经过平方器进行平方,得到平方后的信号,再对所述平方后的信号进行积分:
[0053][0054]
其中,x(t)是原信号,x(ω)是傅里叶变换后的信号,t是时域单位,ω是频域单位。
[0055]
帕萨瓦尔定理表明,信号的能量在时域和频域中相等。因此在时域利用平方器,并在频域滤波,即可代替传统的傅里叶变换。
[0056]
在步骤s3中,为了更符合人耳听觉规律,mfcc采用了非线性的梅尔频域,其与线性频率关系为:
[0057][0058]
其中,f
mel
是梅尔频率,f
hz
是通用的线性频率。
[0059]
在本发明的一种实施例中,所述滤波器组是带通滤波器,其传输函数h(s)表示为:
[0060][0061]
其中,a、b、c、d是系数,s是复频域单位。
[0062]
如图4所示,本发明提供一种常见的跨导电容带通滤波器实例,实现对于频率信号的带通滤波。此滤波器通过m7、m8两个mos管提供两个跨导,与电容c2和c3构成两个极点,实现带通滤波的功能。
[0063]
人耳的有效听觉频率约在100hz~4000hz左右,在此频段内的声音可被人类清晰听到。因此在设计带通滤波器时,充分考虑到人耳的有效频段,在此频段内分别设定滤波器个数为16个、12个、8个和4个等,并根据梅尔频率和线性频率的关系设定中心频点。将此结果在软件中仿真,输入语音数据进行关键词识别,得到如表1中所示的准确率。发现在滤波器个数为8时,既能保证高准确率,同时滤波器的个数减少意味着功率的降低。所以本发明充分结合软件分析仿真,折中考虑后设定滤波器个数为8。
[0064]
表1仿真结果示意图
[0065][0066][0067]
在步骤s4中,积分的目的是计算得到能量,在时域中,能量常作为语音信号的特征。本发明在能量的基础上,在每帧时间结束后将能量计算置零。这样确保了帧与帧之间的计算互不干扰,使得计算结果更准确。
[0068]
在步骤s5中,通过对数将乘性信号转换为加性信号,分离低频的包络信号和高频的细节信号。
[0069]
本发明在能量的基础上,首先设定一帧为32ms,在每帧时间结束后将能量计算置零。这样确保了帧与帧之间的计算互不干扰,使得计算结果更准确。同时加入对数计算部分,通过对数将乘性信号转换为加性信号,分离低频的包络信号和高频的细节信号。
[0070]
在步骤s6中,使用离散余弦变换(discrete cosine transform,dct)计算电路。dct是特殊的离散傅里叶变换,且dct有更好的能量聚集度。目前dct多用于图像处理中,由于图像中像素多,dct可以有效压缩数据量。在此应用在语音特征计算中,得到与语音信号相对应的计算公式,且不同于图像信号的二维,语音信号是一维的。将对数结果进行dct操作,通过dct变换将信号的聚集度增加。一维dct的计算公式为:
[0071][0072]
其中,x是输入,x是输出,n和k的取值均为0至n-1的整数,n为输入的数据个数。
[0073]
最后计算出的结果即为mfcc结果,能够作为语音信号特征值。
[0074]
在本发明的一种实施例中,对所述对数运算得到的结果进行离散余弦变换包括:
[0075]
将所述对数运算得到的结果根据系数矩阵转换为电流再相加,所述系数矩阵:
[0076][0077]
其中,a、b、c、d、e、f、g是参数。
[0078]
本发明还提供一种语音关键词的识别电路,用于实现如上任一所述的语音关键词的识别方法,包括:
[0079]
放大单元,用于将所述麦克风输出的信号经过低噪声放大器得到放大后的信号;
[0080]
平方单元,用于利用帕萨瓦尔定理将所述放大后的信号在时域中经过平方器进行平方,得到平方后的信号;
[0081]
滤波单元,用于对所述平方后的信号进行滤波得到滤波后的信号;
[0082]
积分单元,用于对所述滤波后的信号进行积分得到积分后的信号;
[0083]
对数运算单元,采用对数运算电路对所述积分后的信号实现对数运算;
[0084]
离散余弦变换单元,用于对数运算得到的结果进行离散余弦变换得到所述语音信号的梅尔频率倒谱系数。
[0085]
如图5所示,所述平方单元包括6个场效应晶体管即mos管分别为m1-m6,mos管m1和mos管m2作为差分输入对管,所述mos管m1和所述mos管m2的漏极与mos管m3和mos管m4的漏极相连;所述mos管m3的栅漏相连并连接mos管m5的栅极,mos管m4的栅漏相连并连接mos管m6栅极。
[0086]
本发明优化了平方器,仅需6个mos管则可计算平方。m1和m2形成的电流可通过电流镜实现相加,抵消除平方项以外的一次项。这样计算出的结果仅包含所需的二次平方项以及常数项,实现了全平方的功能。
[0087]
如图6所示,积分器单元基于放大器的闭环应用实现。所述积分单元包括放大器a1、电容c1、开关s1和电阻r1;
[0088]
其中,所述放大器的两个输入端中正端输入接地,负端输入和所述滤波后的信号中间连接电阻,负端输入与输出端之间并联开关s1和电容c1;
[0089]
所述开关s1用于对所述滤波后的信号进行分帧处理,所述电容c1将输入的电流信号转换成电压信号。
[0090]
如图7所示,对数运算单元基于放大器的闭环应用和二极管实现。所述对数运算单元包括放大器a2、电阻r2、二极管d1;
[0091]
所述积分后的信号与所述电阻r2一端相连,所述电阻r2另一端连接到所述放大器a2负端输入,所述放大器a2负端和输出端之间并联所述二极管d1,所述放大器a2正端输入接地。
[0092]
在本发明的一种实施例中,对数运算单元的计算公式为:
[0093][0094]
其中,i是积分后的电压信号通过电阻r2转换成的电流,v是对数运算后的电压结果,is是二极管d1的饱和电流,v
t
是二极管d1的热电压,e是自然常数。因此电压结果v与电流i呈现出了以自然对数e为底的对数形式。
[0095]
如图8所示,在一维离散余弦变换中,如果系数个数为8,则计算公式可简化为:
[0096]
x8×1=d8×8·
x8×1[0097]
其中,x是输入,x是输出,d是系数矩阵。
[0098]
所述离散余弦变换单元包括8*8个电压转换成电流的计算矩阵,所述计算矩阵按照如下系数矩阵排列:
[0099][0100]
设计分别计算7个参数大小的7种计算单元,用于在电路中实现计算参数a、b、c、d、e、f、g。因此根据d的数值,构建出计算网络。将输入电压通过对应系数阻值的伪电阻,转换成电流后,再通过并联实现电流相加,即可完成dct的计算。
[0101]
继续如图8所示,计算得到的8个电流值i1~i8即为一帧信号的mfcc系数,将8个特征值应用于神经网络中,通过神经网络训练,能够有效实现语音关键词的判断。
[0102]
如图9所示,在此所选择的神经网络是全连接网络,输入为一帧语音的8个mfcc特征值,中间为隐层,共有12个节点。输出为2个节点,分别代表了是否为关键词。在网络训练后,识别10db信噪比下1个关键词的概率达到93.53%。
[0103]
如表2所示,在180nm工艺下进行仿真,测量所有特征计算模块总共仅需437.1na,vdd为0.8v,总功耗为349.7nw。而在数字域下实现,在2019年j.giraldo等人计算了数字域的mfcc,特征提取部分功耗为7.328μw。所以本发明有效降低了整体电路功耗,具有较高的可行意义。
[0104]
表2实验结果
[0105]
[0106]
本技术实施例还提供一种控制装置,包括处理器和用于存储计算机程序的存储介质;其中,处理器用于执行所述计算机程序时至少执行如上所述的方法。
[0107]
本技术实施例还提供一种存储介质,用于存储计算机程序,该计算机程序被执行时至少执行如上所述的方法。
[0108]
本技术实施例还提供一种处理器,所述处理器执行计算机程序,至少执行如上所述的方法。
[0109]
所述存储介质可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdramenhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,sync link dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
[0110]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0111]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0112]
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0113]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读
存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0114]
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0115]
本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
[0116]
本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
[0117]
本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
[0118]
以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献