一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于声谱图分割的拼接音频检测和定位方法和系统

2022-07-30 15:14:25 来源:中国专利 TAG:


1.本发明涉及一种篡改音频检测方法,具体涉及一种基于声谱图分割的拼接音频检测和定位方法及其在数字音频取证领域的应用,该方法属于信息安全技术领域中的多媒体隐私保护领域。


背景技术:

2.音频篡改的方法主要分为复制粘贴(copy-move)和拼接(splicing)。其中音频复制粘贴操作是截取一段音频中的一个小音频片段,将截取后的音频片段粘贴到同一段音频的另一个位置,从而构造一个新的音频片段;音频拼接技术是在音频开头、中间或结尾插入另一段音频形成一个新的音频片段;两种音频篡改的方法主要用于改变音频的原始内容、以达到制作虚假的音频的目的;音频篡改检测定位主要采用背景噪声不一致性、语音特征相似度等特性结合机器学习的方法对待测音频文件进行判决是否被篡改。
3.随着在线音频编辑处理工具的广泛使用,在没有感知痕迹的情况下创建篡改的音频变得更加容易。音频拼接可分为音频中间或结尾插入另一段音频构造一个新的音频片段:前者将小段的音频插入到完整音频的中间的某一个点,形成新的音频;后者将小段的音频拼接到完整音频的末端,形成一个新的音频。音频的复制粘贴和音频的拼接降低了音频的司法证据的可靠性,不利于知识产权的保护。此外,这些拼接的音频可以用来传播假新闻,对社会产生负面影响。因此,检测音频录音是否被拼接的能力是音频取证界非常感兴趣的一项任务。
4.在过去的几十年里,人们对音频拼接检测和定位进行了各种各样的研究。按照检测的原理,大致可以将拼接音频的检测分为三类:基于背景噪声的检测,基于enf的检测,和基于深度学习的检测。首先,由于音频拼接操作导致噪声水平的不一致性,研究人员发展了基于音频信号局部噪声水平的音频拼接检测方法,如:使用谱熵方法(spectral entropy,se)确定每个音节的长度,计算每个音节的背景噪声的方差,然后通过比较每个音节的背景噪声的方差的相似性判断是否存在一个异源拼接篡改的音频(参考文献:meng,x.,li,c.,tian,l.:detecting audio splicing forgery algorithm based on local noise level estimation.in:2018 5th international conference on systems and informatics(icsai).pp.861-865.ieee 2018);采用参数优化的噪声估计算法提取可疑语音的噪声信号,计算估计噪声信号的mel频率特征的统计量,从而判定检测拼接迹(参考文献:yan,d.,dong,m.,gao,j.:exposing speech transsplicing forgery with noise level inconsistency.security and communication networks 2021),然而,当拼接的音频片段之间的信噪比接近甚至相同时,基于噪声级的音频拼接检测方法的性能会急剧下降。此外,基于将一段音频插入另一段音频记录中会导致电网频率(electric network frequency,enf)信号的异常变化这一事实,通过分析enf信号来检测拼接音频是一种很好的方法。一些研究人员提出了一个小波滤波器后的enf信号来突出不正常enf变化,并在监督学习框架下使用自回归系数来训练分类器,来判断拼接的音频片段(参考文献:lin,x.,kang,x.:
supervised audio tampering detection using an autoregressive model.in:2017ieee international conference on acoustics,speech and signal processing(icassp).pp.2142-2146.ieee 2017);之后一些研究者利用多个enf特征作为卷积神经网络的输入特征向量来检测拼接音频(参考文献:mao,m.,xiao,z.,kang,x.,li,x.,xiao,l.:electric network frequency based audio forensics using convolutional neural networks.in:ifip international conference on digital forensics.pp.253-270.springer 2020),然而于法律的限制,获取电力系统的并发参考数据集受到了很大的限制,这使得基于enf的音频拼接检测方法实用性受到了挑战。目前,卷积神经网络(convolutional neural networks,cnn)已被引入到音频拼接检测领域,将卷积神经网络引入到音频拼接检测中,直接将音频片段的声谱图输入卷积神经网络,训练基于卷积神经网络的分类器进行拼接语音的检测(参考文献:yan,d.,dong,m.,gao,j.:exposing speech trans-splicing forgery with noise level inconsistency.security and communication networks 2021),然而,基于神经网络的方法只能推断给定的音频是否被拼接,不能对拼接片段进行定位。基于以上概述,虽然一些音频拼接检测和定位方法已经取得了有效的性能,但仍需要新的技术来提高检测和定位性能。据我们所知和文献综述,编码器-解码器体系结构尚未用于音频拼接检测和定位的研究。
5.经过专利查询,在本发明领域内已有的相关专利申请情况如下:
6.专利申请号为cn111564163a的中国专利“一种基于rnn的多种伪造操作语音检测方法”公开了一种基于循环神经网络的多种伪造语音检测的方法。该方法基于线性频谱系数和音频帧之间的依赖关系,利用循环神经网络(recurrent neural network,rnn)学习频谱系数的内在特征,从而有效提高了伪造语音检测的正确率。由于该发明并不涉及对音频的拼接篡改检测的操作,故该方法与本发明的设计思路和具体实现方式明显不同。


技术实现要素:

7.本发明的目的在于,通过对音频的声谱图进行准确分割,进而精确判定特定长度块的音频是否为拼接的音频块,在此基础上最终设计出具有高正确率的音频拼接检测和定位方法。
8.本发明相比其他拼接音频检测定位的方法,采用了视觉领域图像场景风格的技术,并定义了音频拼接篡改定位的最小定位区域长度(the smallest localization region,l
slr
)、元素比值(the ratio,ρ)和最终判定阈值(threshold,t)三个变量,最终根据全卷积网络(fully convolution network,fcn)输出的二值掩蔽图像(binary output mask)来计算某个最小定位区域块是否为拼接的音频块。可见,本发明提出的方法有别于以往任意音频拼接检测和定位的方法,特别适用于对大规模、时长大的音频的检测定位场景。
9.根据调研,目前现有的音频拼接检测和定位方法具有以下三点局限性:首先,由于音频拼接操作导致噪声水平的不一致性方法,当拼接段之间的信噪比接近甚至相同时,基于噪声级的音频拼接检测方法的性能会急剧下降;其次,基于分析电网频率信号来检测拼接音频的方法,由于法律的限制,获取电力系统的并发参考数据集受到了很大的限制,这使得基于enf的音频拼接检测方法实用性受到了挑战;最后,基于神经网络的拼接音频检测方法,该类方法只能推断给定的音频是否被拼接,不能对拼接的音频片段进行定位。
10.具体来说,本发明采用的技术方案如下:
11.一种基于声谱图分割的拼接音频检测和定位方法,包括以下步骤:
12.1)检测片段划分:按照音频拼接篡改定位的最小定位区域长度l
slr
,将待测音频划分成若干个待检测的音频片段sg,每个音频片段由连续的采样点组成,且每个音频片段的长度为l
slr

13.2)预处理:提取音频片段sg的声谱图特征fg,并根据网络输入的大小将t个音频片段sg组成一个拼接成的音频片段s
′g,并将相应的声谱图特征fg拼接成一个待输入网络中的声谱图特征f
′g。
14.3)计算二值预测掩模:将拼接成的声谱图特征f
′g,输入到训练好的aslnet(audio splicing detection and localization network,aslnet,拼接音频检测和定位网络)网络中,计算拼接成的音频片段s
′g对应的二值预测掩模,其中二值预测掩模中1表示拼接的样点,0表示原始的样点。
15.4)计算元素比值ρ:根据步骤3)的计算结果,计算每个音频片段sg的二值预测掩模中样点为拼接样点(元素为1)的个数占总的样点的个数的比例ρ。
16.5)拼接片段判断:根据步骤4)的计算结果,比较ρ和预先设置的判定阈值t值的大小,进而判断该片段sg是否为拼接的片段,其中当ρ》t时,该片段为拼接片段,反之,为原始片段。
17.6)对于划分的n个音频片段s
′g,执行步骤2)至5),依次判断该待测音频的所有片段sg是否是拼接的片段。
18.现对本发明提出的aslnet网络的设计和训练,声谱图特征fg的提取和比例ρ的定义与计算做如下详细说明。
19.[1]声谱图特征fg和二进制的真实掩模提取:
[0020]
本发明从音频片段sg中提取梅尔频谱系数(mel-frequency cepstral coefficients,mfcc)特征作为声谱图特征,声谱图特征的提取流程如图1所示。详细的mfcc萃取过程是:首先,利用预加权模块强增信号在高频率处的能量,并利用长度为2048个样本、重叠512个样本的周期汉明窗计算预加权的信号的短时傅里叶变换(short-time fourier transform,stft)。然后,利用梅尔滤波器(mel-filter)将能量映射到梅尔频率刻度,并取对数来制作功率图。最后,使用离散余弦变换计算包含重要能量的变换后的系数,即梅尔频谱系数。
[0021]
对于最小定位单位为16000个采样点的音频片段(即l
slr
=16000),选取前24个系数作为静态mfcc特征,计算动态系数和加速度系数,并将其连接到静态系数之后,形成72个特征向量。因此,mfcc特征矩阵的形状为72
×
32,其中72是系数的数量,32是帧的数量。此外,为了训练解码器网络,为每个mfcc特征矩阵设计了一个二值真实掩模(ground truth mask),二值真实掩模由0或1元素组成,其大小为72
×
32。对于原始音频段,对应的二值真实掩模中的每个元素都为0,而对于拼接的音频段,对应的二值真实掩模中的每个元素都为1。本发明中,长度l
slr
可以根据实际应用中用户想要定位的音频片段的长度进行设置。
[0022]
[2]aslnet网络的设计和训练:
[0023]
基于声谱图分割的拼接音频检测和定位方法的整体流程图如图2所示,其中全卷积网络是整个流程的核心;全卷积网络结构是当前语义分割算法常用的网路结构,由编码
器-解码器组成。编码器执行卷积和下采样以捕获上下文信息,而解码器负责反卷积和上采样以预测像素级的类标签。很多的编码器-解码器体系结构已经提出(fcn,u-net和segnet)并成功运用于图像像素分割领域。本发明的aslnet的基本网络架构为修改的fcn-vgg16,该架构由vgg16编码器和带残差结构的解码器组成。vgg16编码器的目标是捕获声学特征的上下文表示,而解码器的目标是将中间特征映射转换为二值预测掩模。
[0024]
如图3所示,将vgg块堆叠起来构建vgg16编码器,其中每个vgg块由两到三个卷积块组成,然后是一个max-pooling层,总共有13个卷积层和5个max-pooling层;卷积块由卷积层、批处理归一化层和线性单元(relu)激活函数组成。对于所有卷积层,采用相同的核大小3
×
3,卷积步长为1;此外,填充大小为1,以保持每个卷积层后的输出大小相同。max-pooling层的大小为2
×
2,步长为2,用于在每个vgg块后将分辨率减半。解码器的目的是利用vgg16编码器提取的基本信息重构二值真实掩模,解码器由两个转置卷积层和一个softmax激活函数组成。第一次转置卷积的核大小为4
×
4,步长为2;第二次转置卷积的核大小为32
×
32,步长为16。此外,利用从第四个vgg块到第一个转置卷积的跳跃连接,将低层学到的特征聚合到高层。最终softmax激活函数用于计算元素来自拼接音频段的概率。为了训练aslnet网络,首先确定输入网络的数据大小,然后将多个音频片段的mfcc矩阵和相应的二值真实掩模分别拼接到一起,作为aslnet网络的输入和标签。
[0025]
[3]比例ρ的定义与计算:
[0026]
本方法根据aslnet网络输出的二值预测掩模来判断一个小块的音频是否是拼接音频,正如二值真实掩模中的元素定义一样,对于原始音频段,对应的二值真实掩模中的每个元素都为0,而对于拼接的音频段,对应的二值真实掩模中的每个元素都为1。因此,本方法根据二值预测掩模,来计算掩模中拼接样点元素的个数占总体元素个数的比例ρ,具体的ρ计算公式如下:
[0027][0028]
其中,num表示集合中元素的个数。根据上述公式计算的ρ与预先设定的阈值t进行比较,来判断音频块sg是否是拼接样本,具体公式如下的假设:
[0029][0030]
一种采用上述方法的基于声谱图分割的拼接音频检测和定位系统,其包括:
[0031]
检测片段划分模块,用于按照音频拼接篡改定位的最小定位区域长度l
slr
,将待测音频划分成若干个待检测的音频片段sg;
[0032]
预处理模块,用于提取音频片段sg的声谱图特征fg,并根据网络输入的大小将t个音频片段sg拼接成一个音频片段s
′g,并将相应的声谱图特征fg拼接成一个待输入网络中的声谱图特征f
′g;
[0033]
计算二值预测掩模模块,用于将拼接成的声谱图特征f
′g输入到训练好的拼接音频检测和定位网络中,计算拼接成的音频片段s
′g对应的二值预测掩模;
[0034]
计算元素比值模块,用于计算每个音频片段sg的二值预测掩模中样点为拼接样点的个数占总的样点的个数的比例ρ;
[0035]
拼接片段判断模块,用于比较ρ和预先设置的判定阈值t值的大小,进而判断该音频片段sg是否为拼接的片段;对于划分的n个音频片段s
′g,依次判断待测音频的所有音频片段sg是否是拼接的片段。
[0036]
本发明的基于声谱图分割的拼接音频检测和定位方法对相关技术领域的有益效果如下:
[0037]
1)能够有提高检测和定位的正确率。由于视觉领域图像目标分割技术已经发展的很成熟,有很多先进的网络结构能够达到很高识别的正确率;将这些先进的网络结构应用于音频的声谱图中进行定位也可以取得很高的正确率。
[0038]
2)能够在一定程度上直观的展示定位的区域。经过aslnet网络输出的二值预测掩模图,可以很好的显示音频块sg声谱图特征中被拼接中的元素的比例,由于元素的比例和音频的采样点有一定的对应关系,所以可以定位到音频的原始波形图中,并且二维的图像定位展示可以更好地显示出篡改的可能性大小。
[0039]
3)能够在一定程度上有效缓解数据集失配的问题。同一音频片段内部有自身的特性,训练出来的aslnet网络可以学习到一段完整音频的内在特性,其实现并不依赖于特定的训练数据集,因此本发明具有较大的适用范围,能对未知的音频数据集进行有效分析。
[0040]
4)具备可扩展性。本发明在对小片段长度为l
slr
、全卷积网络结构、最终判定阈值(threshold,t)等参数可以根据实际的环境的需求进行调整,从而扩展定制出不同的基于声谱图分割的拼接音频检测和定位方法,以应用于不同的语音拼接检测和定位分析场景。
附图说明
[0041]
图1是本发明中音频声谱图系数特征提取流程图;
[0042]
图2是本发明的拼接音频检测定位流程图;
[0043]
图3是本发明的encoder-decoder全卷积网络示意图;
[0044]
图4是本发明的网络迭代后检测结果示意图。
具体实施方式
[0045]
下面通过具体实施实例,并结合附图2对本发明作进一步描述。
[0046]
本发明提出的基于声谱图分割的拼接音频检测和定位方法,具体操作细节如下:
[0047]
1)检测片段划分:按照音频拼接篡改定位的最小定位区域长度l
slr
,将待测音频划分成若干个待检测的音频片段sg,每个音频片段由连续的采样点组成,且每个音频片段的长度为l
slr

[0048]
2)预处理:提取音频片段sg的声谱图特征fg,并根据网络输入的大小将t个音频片段sg组成一个拼接成的音频片段s
′g,并将相应的声谱图特征fg拼接成一个待输入网络中的声谱图特征f
′g。
[0049]
3)计算二值预测掩模:将拼接成的声谱图特征f
′g,输入到训练好的aslnet网络中,计算拼接成的音频片段s
′g对应的二值预测掩模,其中二值预测掩模中1表示拼接的样点,0表示原始的样点。
[0050]
4)计算元素比值ρ:根据步骤3)的计算结果,计算每个音频片段sg的二值预测掩模中样点为拼接样点(元素为1)的个数占总的样点的个数的比例ρ。
[0051]
5)拼接片段判断:根据步骤4)的计算结果,比较ρ和预先设置的判定阈值t值的大小,进而判断该片段sg是否为拼接的片段,其中当ρ》t时,该片段为拼接片段,反之,为原始片段。
[0052]
6)对于划分的n个音频片段s
′g,执行步骤2)至5),依次判断该待测音频的所有片段sg是否是拼接的片段。
[0053]
从以上具体实施方式可以看出:首先,本发明主要通过视觉领域的全卷积网络实现对音频声谱图的伪造区域的标定,从而实现音频原始波形的拼接定位的功能,其实现并不依赖于特定背景噪声和enf信号;其次,根据不同的实际应用场景,可以通过改变最小定位区域创长度l
slr
和预先设置的t的值从而生成不同长度定位区间和不同置信度的检测结果。因此,本发明具有较广泛的适用范围和较强的灵活性。
[0054]
为了突出说明本发明提出的是一种有效的拼接音频检测和定位方法,采用以下实验配置进行拼接音频检测定位实验:
[0055]
1)制作两个拼接样本数据集:2秒长的音频数据集(cnset2s)和3s长的音频数据集(cnset3s);首先,将fmfcc-a语料库的音频片段切成1秒、2秒和3秒的音频片段。其中2秒音频剪辑和3秒的音频剪辑作为cnset2s和cnset3s数据集的原始样本,分别有44,727和44,669个音频片段。然后,随机选择两个非同源的1秒音频片段,并将它们连接为一个拼接的音频片段(即:拼接位置在另一个音频片段的末端)。随机制作了86,073个2秒的拼接的音频片段来构建cnset2s。此外,随机选择一个1秒的音频片段和一个2秒的音频片段,将1秒的音频片段插入到2秒音频片段中间,随机制作了85,865个3秒拼接音频片段后,完全生产了cnset3s。
[0056]
2)数据集划分:将cnset2s和cnset3s分别按照6:2:2的比例,划分为训练数据集、验证数据集和测试数据集,分别用于网络模型的训练,模型的选择,和模型性能的预测。
[0057]
3)参数提取:首先本实验中,定义最小定位区域创长度l
slr
=16000,也就是16000个采样点作为最小定位区间,用于每次提取mfcc特征系数,得到72
×
32音频片段的声谱矩阵,并且制备训练集合验证集中的每个音频片段对应的二值真实掩模矩阵;
[0058]
4)对比拼接音频检测方法:由于jadhav是目前基于神经网络的拼接音频检测,故将其与本发明进行对比(参考文献:jadhav,s.,patole,r.,rege,p.:audio splicing detection using convolutional neural network.in:2019 10th international conference on computing,communication and networking technologies(icccnt).pp.1-5.ieee 2019)。
[0059]
5)训练和检测:利用训练集和验证集对本方法aslnet网络和jadhav方法中的网络进行训练和调优,设置每个batch设置为64个音频,并且模型在训练集进行一个epoch后,在验证集上进行一次验证,循环200个epoch,选取验证集中取得最好结果的模型作为最终的模型,用于测试集上的测试;测试阶段,将提取好的验证集上音频片段的声谱图特征mfcc矩阵输入到训练好的网络模型中,得到相应的预测的二值mask。
[0060]
6)对得到的二值预测掩模计算其中等于1的的元素的个数占所有元素个数的比例ρ,并将ρ与预先的定义的阈值t作对比,判定该音频片段是否是拼接的片段,从而计算模型的真阳率,真阴率和正确率,对实验重复10次,对所得数据取平均值,作为模型的最终结果。
[0061]
按照以上实验配置,所得拼接音频检测和定位结果如表1所示,可以看出,本发明
能够有效检测拼接音频的片段,当提升阈值t时,本法发明的真阳性率有明显的升高,从而,减少漏检的样本数;此外,将本发明和jadhav方法拼接音频检测和定位结果如表2所示,可以看出的本发明的检测效果显著优于jadhav方法,故本发明十分适用于对安全等级要求较高的拼接音频检测和定位场景。
[0062]
表1.采用不同阈值t时本发明检测结果
[0063][0064]
表2.采用jadhav方法和本发明对拼接音频检测结果
[0065][0066]
基于同一发明构思,本发明的另一实施例提供一种采用上述方法的基于声谱图分割的拼接音频检测和定位系统,其包括:
[0067]
检测片段划分模块,用于按照音频拼接篡改定位的最小定位区域长度l
slr
,将待测音频划分成若干个待检测的音频片段sg;
[0068]
预处理模块,用于提取音频片段sg的声谱图特征fg,并根据网络输入的大小将t个音频片段sg拼接成一个音频片段s
′g,并将相应的声谱图特征fg拼接成一个待输入网络中的声谱图特征f
′g;
[0069]
计算二值预测掩模模块,用于将拼接成的声谱图特征f
′g输入到训练好的拼接音频检测和定位网络中,计算拼接成的音频片段s
′g对应的二值预测掩模;
[0070]
计算元素比值模块,用于计算每个音频片段sg的二值预测掩模中样点为拼接样点的个数占总的样点的个数的比例ρ;
[0071]
拼接片段判断模块,用于比较ρ和预先设置的判定阈值t值的大小,进而判断该音频片段sg是否为拼接的片段;对于划分的n个音频片段s
′g,依次判断该待测音频的所有音频片段sg是否是拼接的片段。
[0072]
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
[0073]
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如rom/
ram、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
[0074]
本发明的其它实施方式:对于步骤2)的预处理,涉及到的声谱图特征,可以被代替为,音频波形、生图谱的统计特征、或者音频的任意声学特征。
[0075]
对于步骤3)的二值预测掩模,涉及的aslnet网络,可以被替换为任意编码-解码结构的网络,比如:u-net和segnet等。
[0076]
对于步骤4)计算元素比值ρ,比例ρ不一定是样点的个数的比例,可以被代替为加权的比例,或者任何一种代表比重的量。
[0077]
对于步骤5)的拼接片段判断,不一定通过与阈值比较得到最终结果,可以被代替为任意决策方式,比如:训练二值分类器。
[0078]
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求所述为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献