一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于麦克风阵列的语音欺骗攻击检测系统与方法与流程

2022-03-09 02:08:48 来源:中国专利 TAG:


1.本发明属于语音接口活体检测的技术领域,具体地,一种基于麦克风阵列的语音欺骗攻击检测系统与方法。通过对智能音箱接收的多声道语音信号进行分析,可以判定信号是由真实用户产生或电子设备产生,能够抵御欺骗攻击,保护语音接口的安全性。


背景技术:

2.如今,搭载了智能语音接口的智能音箱作为主流智能家居平台(如亚马逊alexa、谷歌home)的枢纽,方便了用户的生活。例如,只要处在智能音箱的声音接收范围内,用户便可以远程控制家用电器或查询信息。然而,由于语音信号的广播属性,攻击者可以执行诸如重放攻击、对抗样本攻击、“海豚音攻击”等多种多样的语音欺骗攻击。
3.由于真实语音指令是由用户嘴部运动产生,而语音欺骗指令是由电子扬声器设备播放,因此,人类和电子设备间的不同特性可以用来执行语音活体检测。语音活体检测分为两种类型:基于双因素认证的活体检测与仅依赖语音信号的被动式活体检测。目前已有针对于双因素认证的活体检测展开研究。然而,为了捕捉真实用户的活体特征,许多双因素认证系统需要用户携带专门的传感器(如加速度传感器、磁力计)。基于无线感知的双因素认证系统虽然无需用户携带设备,但需要在智能家居环境中部署物联网设备以采集无线信号的信道状态信息,这些都给用户带来了额外的工作负担。
4.本发明所研究的被动式检测只考虑语音接口所采集的音频数据。它的主要原理是真人与电子扬声器发音方式之间存在显著的不同—真人发音涉及声带振动和嘴部运动而电子扬声器发音仅依赖即振膜的振动,这种发音方式的差异将导致收集到的音频频谱存在细微但显着的差异。目前,基于单声道音频和双声道音频的被动式检测方案已经提出,但仍然存在这众多的缺陷和不足,难以满足智能家居场景对于活体检测的需要。部分被动式验证方案利用单声道音频频谱中的次低音低频区域或人类的语音区域作为活体检测因素。但这些区域的特征容易随着声音传播信道的变化而变化。部分活体检测方案从双通道音频中提出的独特的特征—“场纹(fieldprint)”作为活体检测的特征。然而,该方案需要用户保持固定方式以确保场纹的鲁棒性。因此,该方案难以部署在许多实际场景中(例如,用户步行或手势变化)。需要一种具有以下优点的新型被动活体检测方案:
5.(1)无需依赖设备:仅依靠智能音箱收集的音频执行被动检测。
6.(2)对环境变化具有弹性:对声音传播路径变化与用户的运动具有鲁棒性。
7.(3)高精度:与现有方案相比,精度要更高。
8.所以,设计一种基于麦克风阵列的被动式活体检测方法具有很大的潜力。
9.发明专利公开号cn111639519a公开了一种活体检测方法及装置,其采用麦克风阵列对被测箱体内活体进行判断和检测,是一种基于生物和图形匹配的活体检测方法。本发明关注于音频的来源,用于区分音频来源于机器伪造还是真人发出的,与该专利的任务和检测方法都具有根本性的差异。仅仅对被测箱体内活体进行检测不能抵抗重放攻击等语音欺骗攻击,具有不安全等特点。
10.发明专利公开号cn112581978a公开了一种声音事件检测定位的机制,关注于声音来源的方向和距离的精确定位。通过频域的处理手段,实现对声音事件声源方位的精确定位。本发明不着重关注定位与方向,任务在于对声源的产生进行区分,判断智能音箱接收到的语音命令是来源于真实用户还是机器伪造,是对于语音重放攻击的一种防御手段。


技术实现要素:

11.为了实现无设备、鲁棒的被动活体检测,本发明提出了一种基于麦克风阵列的活体检测系统,利用已经被主流智能音箱广泛采用的麦克风阵列(例如,amazon echo 3rd gen和google home max均有6个麦克风),有效防御由电子设备产生的语音欺骗攻击。由于麦克风阵列中不同的麦克风具有不同的位置,这将显著增强收集的音频的多样性。利用音频多样性,本发明可以提取更多与目标用户相关的活体信息,这有望显着提高活体检测的鲁棒性和准确性。
12.本发明的技术解决方案如下:
13.一种基于麦克风阵列的语音欺骗攻击检测系统,其特点在于,包括:
14.数据采集模块,利用麦克风阵列收集语音指令,并保存为多声道语音;
15.预处理模块,用于对每个声道的语音信号进行时域与频域分析,以及语音信号的方向检测;
16.特征提取模块,用于计算多个麦克风音频频谱之间的标准差,并转化为基于频谱的阵列指纹f
sap
,根据来自不同麦克风的音频频谱宏观特征差异,提取基于不同声道频谱分布的指纹f
sdp
,结合线性预测倒谱系数lpcc,基于多声道线性预测倒谱系数的指纹f
lpc
,构建阵列指纹x=[f
sap
,f
sdp
,f
lpc
];
[0017]
攻击检测模块,针对s3构建的阵列指纹,选择前馈反向传播神经网络来执行二分类任务,实现对用户真人声音和机器产生的重放语音的有效区分,完成检测。
[0018]
一种基于麦克风阵列的语音欺骗攻击检测方法,其特点在于,包括:
[0019]
s1.采样:对n个麦克风以采样率fs、采样时间t,进行采样,并将采集到的语音样本记为v,音频数据维度为m
×
n,其中m=fs*t,,m为采样时间t内获得的采样样本数;
[0020]
s2.预处理:对语音样本v进行多声道信号频率分析以及语音信号的方向检测;
[0021]
s3.特征提取:计算多个麦克风音频频谱之间的标准差,并转化为基于频谱的阵列指纹f
sap
,根据来自不同麦克风的音频频谱宏观特征差异,提取基于不同声道频谱分布的指纹f
sdp
,结合线性预测倒谱系数lpcc,基于多声道线性预测倒谱系数的指纹f
lpc
,构建阵列指纹x=[f
sap
,f
sdp
,f
lpc
];
[0022]
s4.攻击检测:针对s3构建的阵列指纹,选择前馈反向传播神经网络来执行二分类任务,即对于已有的特征数据进行标注,划分为训练集和测试集,将阵列指纹输入神经网络分类器进行分类,在测试集上获得0和1的预测结果,0对应真人声音,1对应机器产生的重放声音,从而实现对用户真人声音和机器产生的重放语音的有效区分,完成检测。
[0023]
本发明针对由多声道采集的音频,定义了“阵列指纹”这一新型特征。具体来说,阵列指纹利用不同声道数据之间的相关性来消除由空气信道和用户位置变化等因素引起的声音失真。本发明提出的利用智能扬声器的圆形麦克风阵列在智能家居环境中执行被动活体检测的工作。
[0024]
所述的数据采集模块为实现清晰高保真的多声道数据采集,需要依赖于含有语音接口的开放式开发板,并设定合适的采样率进行音频的收集工作。
[0025]
对于采集到的数据进行预处理等工作,保证数据的高可用性,需要进行多声道信号频率分析和音源方向检测,寻找可用于分辨的关键特征以及对音源的大体位置进行判断。
[0026]
本发明特征提取主要选择了三种代表性特征:基于频谱的阵列指纹(spectrogram array fingerprint,f
sap
)基于频谱分布的指纹(spectrogram distribution fingerprint,f
sdp
)和基于多声道lpcc系数的特征(channel lpcc feature,f
lpc
)。通过对采集到的音频频谱本身、以及不同麦克风频谱之间的差异(即阵列指纹)进行观察,本发明进行特征的提取和捕获。通过对三种特征的组合,形成最终的特征向量,用于后续的分类和判断。同时在特征提取时,本发明兼顾了时间开销等因素,全过程地保证了低时延高准确的智能家居活体检测。
[0027]
所述的分类模型,需要在从麦克风阵列收集到的多声道语音信号生成特征向量后,选择一个前馈反向传播神经网络来执行活体检测。采用轻量级神经网络,因为它可以实现对决策的快速响应,这对于智能家居环境中的设备至关重要。
[0028]
与现有技术相比,本发明的有益效果:
[0029]
(1)新型的被动式检测系统。通过部署本发明的阵列活体检测系统可以阻止语音欺骗攻击。本发明仅通过仅使用从智能扬声器收集的音频,不需要用户携带任何设备或执行其他操作。
[0030]
(2)高鲁棒性的检测特征。本发明通过对被动检测背后的原理进行了理论分析,并提出了一个具有高鲁棒性的活体检测特征:阵列指纹。这种新颖的功能既提高了效率,又拓宽了被动活体检测的应用场景。
[0031]
(3)在具体应用时,本发明在面向多个因素(例如,距离、方向、欺骗设备、背景噪声)时仍然能够保证活体检测任务的有效性和可用性。具体而言,基于阵列的特点和有效的特征选择保证了本方案与已有方法相比的优越性。
[0032]
(4)发明专利cn111639519a的目标仅限于对箱子内部是否存在生物等活性物体进行检测,无法识别对于语音欺骗指令的防御。本发明提出了一种基于麦克风阵列的对语音重放攻击的防御手段,可以实现对声音来源性质的具体判断,有效区分是机器伪造还是人声发出的。
[0033]
(5)发明专利cn112581978a仅能够利用麦克风阵列对于音源的位置与行为进行识别,无法识别音源是来自真实用户还是电子设备,无法对语音欺骗指令进行防御。本发明提出的一种基于麦克风阵列的对语音重放攻击的防御手段,具有轻量级,易于部署等特点,不需要对声音事件进行精确的定位和位置匹配,而是从频谱特征中分析出声源的种类,是来源于机器伪造还是人声发出。本发明具有特征稳定,检测简便等优势。
附图说明
[0034]
图1本发明流程框图
[0035]
图2圆形麦克风阵列示意图
具体实施方式
[0036]
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
[0037]
本发明实施提供了一种被动式基于麦克风阵列的活体检测方案,可以在智能家居中部署使用,包括如下步骤:
[0038]
步骤一,进行数据采集,使用在流行的智能音箱,如亚马逊echo和谷歌home,的内置麦克风阵列来收集语音音频。更一般的来说,利用带有语音接口的开发板即可完成对音频数据的采集工作。
[0039]
步骤二,进行数据的预处理,首先使用短时傅里叶变换,快速傅里叶变换,信号分割等信号处理方法实现对多声道信号的频域分析。通过预处理方法可以提高采集数据的可用性。
[0040]
步骤三,数据预处理后,本发明进行进一步特征提取,获得了三种代表性特征:基于频谱的阵列指纹、基于频谱分布的指纹和基于多声道lpcc系数的特征,为最终分类和检测做好准备。
[0041]
步骤四,从麦克风阵列收集到的多声道语音信号生成特征向量后,本发明部署了一个轻量级前馈反向传播神经网络来执行活体检测,可以实现对决策的快速响应。
[0042]
下面结合附图对本发明实施所提供的技术方案进行进一步的详细描述。
[0043]
如图1所示,本发明的研究方法和分析步骤包括数据采集模块、预处理模块、特征提取模块和攻击检测模块。详细步骤如下:
[0044]
本发明首先采用带有语音接口的开发板进行数据采集工作,利用其与商用智能音箱相似的设备,实现对数据的有效采集。具体而言,针对于含n个麦克风的智能音箱,以fs的采样率进行采样,采集数据时间定义为t,获取数据后将采集到的语音样本记为vm×n,其中m=fs*t,音频数据的维度为m
×
n。将收集到的v传送到数据预处理的模块中。
[0045]
在预处理过程中,音频的身份(即真实用户或语音欺骗设备)隐藏在采集到的多声道音频的频谱图中。因此,在特征提取之前,需要对每个通道的信号进行频率分析。此外,为了更好的利用多声道的特征,本发明对音频的方向进行检测。首先要进行多声道信号频率分析,由于时频域中的音频频谱图包含用于进一步活体检测的关键特征。本发明首先执行短时傅立叶变换以获得每个通道音频信号的二维频谱图。对于包含m个样本的第i个通道的音频vi,应用汉宁窗将信号分成若干块。在信号分割时采取滑动窗口法,每个窗口长度和活动大小应设为适宜长度。最后,对每个块执行4096点的快速傅立叶变换,并获得频谱图si。预处理过程中另外一项任务是执行音源方向检测,针对收集的音频vm×n,需要计算音源的方向,以更好的利用多声道特征。首先,采用截止频率为100hz的高通滤波器处理vm×n的每一个声道上的音频信号v
′i。接着,对于第i个麦克风mi的滤波后信号,以计算对其误差ei=mean((v

(:,i-1)-v

(:,i))2)。最后,从计算的结果中,找到对其误差最小的麦克风,视为距离音源最近的麦克风。
[0046]
在特征提取过程中,基于正常语音和欺骗伪造语音的音频频谱差异,即采集到的音频频谱本身,以及不同麦克风频谱之间的差异(即阵列指纹),本发明提出了三种有代表
性的特征选择,基于频谱的阵列指纹、基于频谱分布的指纹和基于多声道lpcc系数的特征。
[0047]
基于频谱的阵列指纹从扬声器的声音传播模型入手,主要解决了以下三个问题:如何对智能音箱场景中的声音传播进行建模,并回答为什么现有特征在此类场景中性能不佳?如何从多声道语音样本中提取对用户的位置和麦克风阵列的布局具有鲁棒性的活体检测特征(即阵列指纹)?阵列指纹是否能有效的应对环境因素的影响,并稳健的执行活体检测?
[0048]
如图2所示,根据阵列麦克风圆形布局的特点,阵列指纹定义如下:
[0049]af
=std(log[y1,y2,...,yn])
[0050] =std(c-α(s(f,t))
·
lg(e)
·
[d1,d2,...,dn])
[0051] =-α(s(f,t))
·
lg(e)
·
std([d1,d2,...,dk])
[0052] =af(s(f,t),|σd)
[0053]
其中yk代表第k个麦克风所采集的音频vk。音源所在的位置(l,0)。音源到第k个麦克风的距离为dk。s(f,t)为音源处的音频,包含了音频为真实用户或欺骗设备的身份信息。c为传输信道的衰减。af的公式表明,该特征与由源音频s(f,t)和距离的标准差σd=std([d1,d2,...,dn])所决定。从图2中dk的定义,经过推导,可以看出σd基本为一个恒定的值。基于已定义的阵列指纹,进一步改进获得了基于频谱的阵列指纹,为了减少计算开销,对于大小为ms
×
ns的频谱sk,只保留频率小于截止频率f
sap
的部分。在这项研究中,经验性地将f
sap
设置为5khz。调整大小后的频谱表示为spec=[spec1,spec2,...,speck],其中speck=sk(:m
spec
,:),m
spec
由f
sap
与ms共同决定,在本发明中设为426。之后将获得的spec转化为大小为mg×
ng的网格矩阵gk。再根据定义的阵列指纹公式得到基于频谱的阵列指纹初始特征fg(i,j)=std([g1(i,j),g2(i,j),...,gn(i,j)]),经过五点移动平均和归一化去除多余噪声后,可获得最终的基于频谱的阵列指纹f
sap

[0054]
本发明提出的第二个代表性特征是基于不同声道频谱分布的指纹,频谱自身的分布特性同样提供了与音源背后身份相关的有用信息。因此提取了基于频谱分布的指纹f
sdp
用于活体检测。来自真人和欺骗设备的频谱有很大不同。因此,利用来自不同声道的音频的频率幅值强度的chk,去平均值并将其长度重新采样为n
ch
,以作为f
sdp
的第一个分量。同时,对于相同的音频,不同声道的ch的幅度和分布略有不同。本发明对频谱进行切片分割,并计算累积分布函数获得对应的索引矩阵μ。最终得到其平均值和标准差作为频谱图特征的一部分,即为后两个分量。因此基于频谱分布的指纹可以记为
[0055]
本发明提出的第三个代表性特征是基于多声道线性预测倒谱系数(lpcc)系数的特征。因此保留表征给定音频信号的lpcc可以进一步提高检测性能。对于智能音箱第k个麦克风mk收集的音频信号yk(t),为了计算阶数为p的lpcc,本发明首先计算其线性预测编码(lpc)。得到lpc参数后,计算根据迭代公式计算可以得到最后一维的特征lpcc系数。对于来自不同声道的lpcc,本发明计算它们的平均值作为最后一组特征f
lpc
。最终生成得到最终的特征向量x=[f
sap
,f
sdp
,f
lpc
]。
[0056]
在特征提取后,需要进行分类以达到本发明活体检测的任务目的,本发明提出使用神经网络来执行分类任务。具体而言,选择一个前馈反向传播神经网络来执行活体检测。
该神经网络是一个轻量级的网络,仅包含三个具有线性整流激活函数的隐藏层(三层大小分别为64、32、16)。经过64、32个节点层后的随即失活(dropout)被设置为20%,输出层为1个sigmoid函数的激活节点。采用轻量级神经网络的原因是可以实现对决策的快速响应,这对于智能家居环境中的设备至关重要。
[0057]
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献