一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于内建传感器欠采样数据的通用语音信息恢复装置及方法与流程

2021-09-07 21:18:00 来源:中国专利 TAG:传感 采样 内建 语音 装置


1.本发明公开了一种基于内建传感欠采样数据的通用语音信息恢复装置及方法。


背景技术:

2.随着智能手机助手的发展,声音在人机交互中越来越普及,甚至逐渐成为了盲人、老人、儿童等特殊人群的首选。因此,越来越多的物联网设备和移动设备部署了语音助手。例如,在移动设备上,有苹果的siri,谷歌的google assistant和三星的bixby;在智能音箱上,有亚马逊的alexa和谷歌的google home;在传统的个人电脑设备上,有苹果的apple siri和微软的microsoft cortana。有研究表明,到2023年,全球语音助手的市值将达到78亿美元左右。然而,由于语音交互的个性化服务性质,在人机交互过程中,语音中通常会嵌入一些敏感的信息,例如用于认证的口头密码和聊天时的语音内容。而智能设备在使用扬声器播放这些语音的时候,不可避免地会泄露其中的敏感信息。本发明利用手机内建的加速度计、陀螺仪和磁力计,来采集扬声器播放语音时泄露的震动信号和磁场信号,并恢复其中隐含的语音信息。
3.现有技术的缺点:
4.手机扬声器在播放语音时,可以使用手机内建的传感器(加速度计、陀螺仪、磁力计)来采集扬声器泄露的信号。而从低分辨率的传感器数据中恢复出高分辨率语音信息主要有两种途径,第一种是使用语音超分辨率技术,将低带宽的传感器信号转化成高带宽的语音信号。但是传感器数据的带宽极其狭窄且存在严重的混叠,语音超分辨率技术无法有效地恢复其中的语音信息。第二种是使用基于学习(机器学习、深度学习)的语音恢复技术,然而这种方法有两大缺点,其一,不可避免地引入了传感器数据的采集和标记工作,并且需要耗费大量的时间进行模型训练。其二,基于学习的传感器数据语音恢复模型在迁移到不同的主体、环境和设备时,性能会显著下降
5.本发明提出一种模型驱动的传感器数据的语音信息恢复装置,省去了模型训练的过程,能够有效地从传感器数据中恢复隐匿的语音信息,并且保持足够高的鲁棒性。


技术实现要素:

6.本发明针对现有技术的不足之处做出了改进,提供了一种基于内建传感器欠采样数据的通用语音信息恢复装置及方法,本发明是通过以下技术方案来实现的:
7.本发明公开了一种基于内建传感欠采样数据的通用语音信息恢复装置,装置包括信号预处理模块、基频估计模块、频谱重建模块和频谱语音转换模块,信号预处理模块、基频估计模块、频谱重建模块和频谱语音转换模块依次连接。
8.作为进一步地改进,本发明所述的信号预处理模块:用于采集手机加速度计、陀螺仪和磁力计的数据,并将采集到的传感器数据送入高通滤波器;基频估计模块:用于估计传感器数据中隐含的语音信号的基频;频谱重建模块:用于重建高频段的谐波、及校正低频段的异常谐波,将低分辨率的频谱恢复成高分辨率的频谱;频谱语音转换模块:用于使用
griffin

lim算法将恢复出来的高分辨率频谱转换成人耳可听的语音信号。
9.本发明还公开了一种采用基于内建传感欠采样数据的通用语音信息恢复装置的恢复方法,其特征在于:
10.1)通过信号预处理模块,采集手机加速度计z轴、陀螺仪y轴、磁力计z轴的数据,再将采集到的传感器数据送入一个高通滤波器,以滤除无意义的低频噪声;
11.2)通过基频估计模块,利用基于混叠的基频估计算法来估计基频大小,算法能够同时考虑语音信号中的正常谐波与信号欠采样时产生的异常谐波,估计传感器数据中隐含的语音信号的基频;
12.3)根据估计的基频,通过频谱重建模块,重建高频段的谐波和校正低频段的异常谐波,将低分辨率的频谱恢复成高分辨率的频谱;
13.4)通过频谱语音转换模块,使用griffin

lim算法将恢复出来的高分辨率频谱转换成人耳可听的语音信号。
14.作为进一步地改进,本发明所述的步骤2)中,基频估计模块,使用短时傅里叶变换,将滤波处理后的传感器时域信号转换为幅度频谱m(t,f),当原始信号的频率大于传感器采样率的一半时,传感器实际采集的信号会因为欠采样而产生混叠,信号欠采样前后频率变化的关系为:
[0015][0016]
f是原始频率,sr是采样率,a(f)是变化后的频率;
[0017]
使用基于混叠的谐波相加法来衡量频率f是基频的可能性h(f):
[0018][0019]
其中,m(t,f)是传感器数据的幅度频谱,t为帧号,f为频率,k为谐波的阶数,n为频率低于的最高阶谐波的阶数,m代表频率低于1250hz的最高阶谐波的阶数。
[0020]
作为进一步地改进,本发明由于频率变化,幅度频谱m(t,f)中存在对应语音信号中的正常谐波和欠采样生成的异常谐波。
[0021]
作为进一步地改进,本发明所述的h(f)中,前一项累加了频谱中的正常谐波的能量,后一项累加了欠采样生成的异常谐波的能量,频谱中每一帧的基频f
p
为根据h(f)越大,f是基频可能性的越大的特点频谱中每一帧的基频f
p
为同时考虑频谱中的正常谐波和为欠采样生成的异常谐波这两个部分能够提高基频估计的准确性,其中85hz到255hz代表大部分成年人说话时的基频范围。
[0022]
作为进一步地改进,步骤3)中,通过频谱重建模块重构传感器信号的频谱,通过混叠校正的超分辨率算法扩展传感器幅度频谱的带宽,记重建后的幅度频谱为m
new
(t,f)(初始为一个零矩阵),原始幅度频谱为m
old
(t,f),具体步骤为:
[0023]
a、算法遍历原始频谱m
old
(t,f)的每一帧,在每一轮遍历中,先利用基频估计模块估计出基频f
p
的大小,再根据基频与谐波频率的整倍数关系,得到各个谐波的频率kf
p

[0024]
b、算法重建频谱,对于频率处于0hz到之间的频谱,语音谐波的频率为将m
old
(t,kf
p
)直接赋值给m
new
(t,kf
p
);(以保留低频段的正常语音谐波,并且去除低频段的混叠。)对于频率处于到f
end
hz之间的频谱,语音谐波的频率为f
end
为重建频谱的最高频率;
[0025]
c、根据欠采样时频率变化的关系来估计这一部分谐波(频率为到f
end
hz)所在的位置以及能量的大小,原始正常语音谐波的频率为kf
p
hz,由于欠采样,其频率以公式(1)转变成a(kf
p
)hz;
[0026]
d、用已知的混叠谐波频谱m
old
(t,a(kf
p
))来替换未知的正常谐波频谱m
new
(t,kf
p
),在完成对m
old
(t,f)中每一帧t的遍历后,系统生成了重建后的幅度频谱m
new
(t,f)。
[0027]
作为进一步地改进,本方面所述的步骤4)中,频谱语音转换模块基于重建频谱m
new
(t,f),使用griffin

lim算法从中恢复出人耳可听的语音信号,算法通过n次迭代从重建频谱m
new
(t,f)中估计出语音信号。
[0028]
作为进一步地改进,本发明所述的步骤4)的具体步骤为:
[0029]
e、griffin

lim算法随机生成一个相位频谱p0,再利用逆短时傅里叶变换将相位频谱p0和幅度频谱m
new
(t,f)转化为语音信号x0;
[0030]
f、对语音信号x0做一次短时傅里叶变换,得到相位频谱p1和幅度频谱由于幅度频谱与重建频谱m
new
(t,f)存在一定的区别,算法只保留相位频谱p1,并将p1送入下一次迭代过程;
[0031]
gf、griffin

lim算法通过n次的迭代不断修正相位频谱p
i
,直到生成的幅度频谱与重建频谱m
new
(t,f)足够相似,griffin

lim算法利用给定的重建频谱m
new
(t,f)生成了对应的语音信号。
[0032]
本发明的有益效果如下:
[0033]
本发明构建了一个无需训练的传感器数据隐匿信息恢复装置,不仅能够恢复带宽极窄且严重混叠的传感器数据中的语音信息,还解决了基于学习的模型迁移性比较差的问题。手机内建传感器在不同的场景下采集的数据有不同的特点,具体来说,手机内建传感器捕捉到的扬声器语音信号可能来自不同的用户,并且具有不同的文本内容;手机内建传感器采集数据时可能处在不同的环境下,环境中的噪声和布置会影响传感器收集到的数据的质量;不同品牌和型号的手机内建传感器采集的数据会有不同的特点。这三种情况都会导致手机内建传感器采集的数据没有一个统一的特征,从而使得数据驱动的机器学习和深度学习方法很难训练出一个鲁棒性高的模型来恢复传感器数据中隐含的语音信息。而本发明从传感器数据的内在特征与语音信号的特点出发,无需使用数据集进行模型训练,直接构
造了一个语音信息恢复系统,且能够适应用户、环境和设备的变化,有效地从手机内建传感器中恢复出隐匿的语音信号。
[0034]
在频谱重建模块中,本发明使用混叠校正的超分辨率算法扩展原始传感器数据幅度频谱的带宽。原始传感器数据频谱的带宽为(传感器采样率的一半),本发明不仅在高频段(到1000hz)上重建了缺失的语音谐波频谱,而且消除了低频段(0hz到)上存在的混叠,使得重建的频谱与原始的语音频谱更加相似,从而提高了语音信息恢复的质量。本发明能够取得比较低的lsd,与传统语音超分辨率方法相比,能够更有效的恢复低分辨率传感器数据中的语音信息。另外,本发明能够在不同的设备上有效的运行,且去除用户交互对于传感器测量数据的干扰,实现有效的语音信息恢复。
[0035]
由于欠采样的传感器数据存在严重的混叠,导致传感器数据中不仅存在正常谐波,还存在异常的混叠谐波(高频的语音谐波欠采样成低频的异常谐波),很难从中找到正确的语音基频。因此,在基频估计模块中,本发明使用基于混叠的基频估计算法来估计基频的大小,即使用来衡量t时刻f是基频的可能性大小,并用来确定基频。其中将正常谐波的能量累加,将异常谐波的能量累加。这样不仅考虑到了正常的语音谐波,也考虑到了异常的混叠谐波,提高了基频估计的准确性。这一精确的基频估计结果能够有效的提高语音恢复的质量。
附图说明
[0036]
图1为本发明的系统框图;
[0037]
图2为不同场景下加速度计对扬声器泄露的语音信号的响应对比图;
[0038]
图3为磁力计信号,真实语音信号和重建语音信号的幅度频谱图;
[0039]
图4为本发明的总体性能对比图;
[0040]
图5为本发明对于不同使用主体的性能对比图;
[0041]
图6为本发明对于不同文本内容的性能对比图;
[0042]
图7为本发明在不同设备上的性能对比图;
[0043]
图8为本发明在不同环境下的性能对比图;
[0044]
图9为本发明在不同的交互方式下的性能对比图。
具体实施方式
[0045]
本发明公开了一种基于内建传感欠采样数据的通用语音信息恢复装置及方法,图1为本发明的系统框图,包括了4个部分,即信号预处理模块、基频估计模块、频谱重建模块和频谱语音转换模块,信号预处理模块、基频估计模块、频谱重建模块和频谱语音转换模块依次连接。
[0046]
在信号预处理中,首先采集手机加速度计z轴、陀螺仪y轴、磁力计z轴的数据,接着
将采集到的传感器数据送入一个高通滤波器,以滤除无意义的低频噪声。在基频估计中,利用基于混叠的基频估计算法来估计基频大小,该算法能够同时考虑语音信号中的正常谐波与信号欠采样时产生的异常谐波。根据估计的基频,在频谱重建中,不仅能重建高频段的谐波,而且还能校正低频段的异常谐波。最终将低分辨率的频谱恢复成高分辨率的频谱。在频谱语音转换中,系统会使用griffin

lim算法将恢复出来的高分辨率频谱转换成人耳可听的语音信号。
[0047]
信号预处理的整个过程为:在手机扬声器播放语音信号时,采集手机加速度计的z轴、陀螺仪的y轴、磁力计的z轴的数据。由于用户使用手机时的行为可能会干扰传感器的测量,系统将采集到的传感器信号送入一个截止频率是80hz的高通滤波器,以滤除无意义低频噪声,并保留扬声器播放语音时泄露的信号。图2为不同场景下加速度计对扬声器泄露的语音信号的响应对比图,展示了手机使用扬声器播放单音信号时,手机内建加速度计的测量值。其中图2(a)和2(b)分别是手机处于桌面和手持状态下手机内建加速度计的测量值,在手持状态下,用户手部的运动严重干扰了加速度的测量值,从而掩盖了扬声器播放语音时泄露的信号。图2(c)展示了经过高通滤波器之后的加速度计信号,可见扬声器泄露的信号成功的被分离出来。
[0048]
然后,用基频估计模块来估计传感器数据中隐含的语音信号的基频。使用短时傅里叶变换,将滤波处理后的传感器时域信号转换为幅度频谱m(t,f)。由于手机内建传感器的采样率远低于语音信号的实际频率,所以传感器实际采集的信号会因为欠采样而产生混叠。而信号欠采样前后频率变化的关系可以描述成:
[0049]
具体来说,一个原始频率是f的信号,以采样率sr欠采样后,信号的频率会变成a(f)。考虑到这种频率变化,幅度频谱m(t,f)中不仅存在对应语音信号中的正常谐波,还存在欠采样生成的异常谐波。所以本系统使用基于混叠的谐波相加法来衡量频率f是基频的可能性h(f)。h(f)可以表示成:
[0050]
其中m(t,f)是传感器数据的幅度频谱,t代表帧号,f代表频率。k代表谐波的阶数。n代表频率低于的最高阶谐波的阶数,m代表频率低于1250hz的最高阶谐波的阶数。h(f)的前一项包括了频谱中的正常谐波,后一项包括了因为欠采样而产生的,频率发生非线性变化的异常谐波,同时考虑这两个部分能够提高基频估计的准确性。根据h(f)越大,t时刻f是基频的可能性越大的特点,频谱中每一帧的基频f
p
可以表示为其中85hz到255hz代表大部分成年人说话时的基频范围。
[0051]
在基频估计的基础上,系统进一步重构传感器信号的频谱,语音超分辨率技术利用基频与谐波之间的关系来扩展窄带信号。然而,由于欠采样引起的混叠,语音超分辨率技术无法直接用于从低分辨率传感器信号中恢复出人耳可听的语音。因此,本系统使用了一种混叠校正的超分辨率算法,能够扩展传感器幅度频谱的带宽。记重建后的幅度频谱为m
new
(t,f)(初始为一个零矩阵),原始幅度频谱为m
old
(t,f)。该算法包括高频段的谐波重建与低
频段的混叠消除。首先算法会遍历原始频谱m
old
(t,f)的每一帧,在每一轮遍历中,先利用基频估计模块估计出基频f
p
的大小,再根据基频与谐波频率的整倍数关系,得到各个谐波的频率kf
p
。接着,算法会重建频谱,对于频率处于0hz到之间的频谱,sr为传感器采样率,语音谐波的频率为算法只保留这一频带上语音谐波所在的频段,即m
old
(t,kf
p
)处的频谱,具体来说,系统将m
old
(t,kf
p
)直接赋值给m
new
(t,kf
p
),以保留低频段的正常语音谐波,并且去除低频段的混叠。对于频率处于到f
end
hz之间的频谱,f
end
代表重建频谱的最高频率),语音谐波的频率为装置根据欠采样时频率变化的关系来估计这一部分谐波所在的位置以及能量的大小。具体来说,原始正常语音谐波的频率为kf
p
hz,由于欠采样,其频率以公式(1)转变成a(kf
p
)hz。接下来系统用已知的混叠谐波频谱m
old
(t,a(kf
p
))来替换未知的正常谐波频谱m
new
(t,kf
p
)。在完成对m
old
(t,f)中每一帧t的遍历后,系统生成了重建后的幅度频谱m
new
(t,f)。在本发明中,如果传感器数据的带宽能达到250hz,重建频谱的带宽f
end
就能达到1000hz。
[0052]
基于重建频谱m
new
(t,f),系统使用griffin

lim算法从中恢复出人耳可听的语音信号。该算法会通过一次次的迭代从重建频谱m
new
(t,f)中估计出语音信号。griffin

lim算法首先随机生成一个相位频谱p0,再利用逆短时傅里叶变换将相位频谱p0和幅度频谱m
new
(t,f)转化为语音信号x0。之后,再对语音信号x0做一次短时傅里叶变换,得到相位频谱p1和幅度频谱由于幅度频谱与重建频谱m
new
(t,f)存在一定的区别,算法只保留相位频谱p1,并将p1送入下一次迭代过程。以此类推,griffin

lim算法通过一次次的迭代不断修正相位频谱p
i
,直到生成的幅度频谱与重建频谱m
new
(t,f)足够相似。在经过一定次数的迭代之后,griffin

lim算法利用给定的重建频谱m
new
(t,f)生成了对应的语音信号。
[0053]
本发明构建了一个无需训练的传感器数据隐匿信息恢复装置,不仅能够恢复带宽极窄且严重混叠的传感器数据中的语音信息,还解决了基于学习的模型迁移性比较差的问题。本发明能够适应用户、环境和设备的变化,有效地从手机内建传感器中恢复出隐匿的语音信号。
[0054]
为了验证本发明的有效性,在三个手机(华为p40,小米10,oppo find x2)上分别部署了本发明。在手机扬声器播放语音时,直接采集这三部手机运动传感器(包括加速度计和陀螺仪)的测量数据,其中华为p40、小米10、oppo find x2的运动传感器的采样率分别是500hz、397hz、418hz。由于手机内建磁力计的采样率过低(100hz),还将一个采样率为500hz,型号为mmc3416xpj的磁力计附着在手机表面,以采集扬声器播放语音时泄露的磁场。采集到的传感器数据会被送入后端的隐匿信息恢复装置,以恢复语音信号。选择对数频谱距离(lsd)来衡量恢复的系统恢复的语音频谱与对应的真实语音频谱之间差异,lsd可以表示为:
[0055][0056]
其中,和x分别是重建的语音信号和原始的语音信号,和x分别是重建的语音信号和原始的语音信号的对数能量频谱。lsd数值越小,说明语音恢复的质量越好。图3为磁力计信号,真实语音信号和重建语音信号的幅度频谱图,图3(a)和图3(b)分别展示了磁力计数据的原始频谱和对应的真实语音频谱(低于1000hz)。可见,磁力计数据的原始频谱的带宽只有真实语音频谱带宽的且存在着严重的混叠。图3(c)展示了本发明从磁力计数据中重建的语音频谱,可见重建的语音频谱不仅在高频段上重建了谐波的结构,而且消除了低频段上存在的混叠。
[0057]
首先比较了本发明和已有的两种语音超分辨率技术(频谱折叠和频谱平移)的性能。图4为本发明的总体性能对比图,展示了本发明与这两种语音超分辨率技术的性能比较情况。可见,本发明能够取得比较低的lsd。具体来说,对于磁力计、加速度计和陀螺仪,本发明能够以29.5%,32.1%和13.5%的优势领先于频谱折叠和频谱平移的方法。这表明,与传统语音超分辨率方法相比,本发明能够更有效的恢复低分辨率传感器数据中的语音信息。
[0058]
为了验证本发明的迁移性,在不同的场景下部署了本发明。
[0059]
当扬声器播放的语音来自不同的主体时,图5为本发明对于不同使用主体的性能对比图,展示了本发明的性能。可见,针对来自不同主体(20个)的语音,lsd没有发生比较明显的变化。具体来说,对于磁力计、加速度计和陀螺仪数据,lsd的标准差分别为0.09、0.11和0.21。这体现了本发明对于来自不同主体的语音的鲁棒性。在扬声器播放的语音包含不同的文本时,图6为本发明对于不同文本内容的性能对比图,展示了本发明的性能,可见,针对不同文本内容(10种)的语音,lsd也没有发生比较明显的变化,具体来说,对于磁力计、加速度计和陀螺仪数据,lsd的标准差分别为0.16、0.12和0.01。这体现了本发明对于不同语音文本的鲁棒性。
[0060]
当本发明部署的手机型号不同时,图7为本发明在不同设备上的性能对比图,展示了本发明的性能。可见,对于从加速度计和磁力计上采集到的数据,lsd都低于1.5,这代表本发明能够在不同的设备上有效的运行。由于陀螺仪的灵敏度要低于加速度计和磁力计,所以从陀螺仪数据恢复出的语音频谱的lsd比较高。
[0061]
当本发明部署在不同的环境时,图8为本发明在不同环境下的性能对比图,展示了本发明的性能,可见,在不同的环境(噪声强度为45.3dbspl下的实验室,噪声强度为48.9dbspl下的宿舍,噪声强度为74.6dbspl的食堂)下,lsd仍然比较接近且比较低,具体来说,对于磁力计、加速度计、陀螺仪数据,lsd的极差分别是0.101、0.051和0.311。这代表本发明能够有效的运行在不同的环境下。在不同的用户交互场景下,图9为本发明在不同的交互方式下的性能对比图,展示了本发明的性能。可见,在桌面场景(用户把手机放在桌面上)、手持场景(用户拿着手机)、敲击场景(用户持续地敲击屏幕)下,本发明仍然能够取得相似的lsd,具体来说,对于磁力计和加速度计数据,lsd的极差都低于0.1。这代表本发明能够去除用户交互对于传感器测量数据的干扰,实现有效的语音信息恢复。
[0062]
本发明可改变为多种方式对本领域的技术人员是显而易见的,这样的改变不认为脱离本发明的范围,所有这样的对所述领域的技术人员显而易见的修改,将包括在本权利要求的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜