基于电网频率相位时序表征的数字音频篡改被动检测方法及装置

2022-07-31 08:54:16 来源：中国专利 TAG：

技术特征：
1.一种基于电网频率相位时序表征的数字音频篡改被动检测方法，其特征在于，包括对待检测音频数据进行处理得到电网频率(enf)成分，基于dft1变换对enf成分处理得到enf相位根据待检测最长时长音频计算出帧数与帧长，并对enf相位进行分帧处理获取相位时序表征；利用神经网络从enf相位时序表征中获取enf时序信息，经过拟合后分类。2.根据权利要求1所述的一种基于电网频率相位时序表征的数字音频篡改被动检测方法，其特征在于，对原始语音信号进行处理得到电网频率(enf)成分，具体包括：下采样将信号重采样频率定为1000hz或者1200hz；使用10000阶的线性零相位fir滤波器进行窄带滤波，中心频率在enf标准处，带宽为0.6hz，通带波纹0.5db,阻带衰减为100db。3.根据权利要求1所述的一种基于电网频率相位时序表征的数字音频篡改被动检测方法，其特征在于，获取enf相位包括：步骤2.1、计算enf信号x
enfc
[n]在点n处的近似一阶导数x
′
enfc
[n]＝f
d
(x
enfc
[n]-x
enfc
[n-1])
ꢀꢀꢀꢀ
(1)其中f
d
(*)表示近似求导操作，x
enfc
[n]表示enf成分第n个点的值；步骤2.2、对x
enfc
[n]和x
′
enfc
[n]进行分帧加窗，帧长为10个标准enf频率周期帧移为1个标准enf频率周期用汉宁窗w(n)对x
enfc
[n]和x
′
enfc
[n]进行加窗x
n
[n]＝x
enf
[n]w(n)
ꢀꢀꢀꢀ
(2)x
′
n
[n]＝x
′
enfc
[n]w(n)
ꢀꢀꢀꢀ
(3)其中汉宁窗l为窗长；步骤2.3、每帧信号x
n
[n]和x
′
n
[n]分别执行n点离散傅里叶变换(dft)得到x(k)、x
′
(k)；步骤2.4、令k
peak
为|x(k)|的峰值的索引；k
peak
用于求解步骤2.5、由enf信号的估计频率f
dft
，可以求出enf相位特征，可以求出enf相位特征步骤2.6、再估算dft1变换的enf相位重新令k
peak
为|x
′
(k)|的峰值的索引；并将|x
′
(k)|乘一个尺度系数f(k)得到dft0[k]＝x(k)，dft1[k]＝f(k)|x
′
(k)|；因此估计频率值为
步骤2.7、k
peak
应是最接近的整数(f
d
为重采样频率)，这样才是一个合理的频率值；可将表示为其中对于θ的值，由x
′
(k)进行线性插值求得，令floor[a]表示小于a的最大整数，ceil[b]表示大于b的最小整数；由于因此在(k
low
,θ
low
)＝arg[x
′
(k
low
)]和(k
high
,θ
high
)＝arg[x
′
(k
high
)]进行线性插值可以逼近点求出的值与上式中的θ的值保持一致；步骤2.8、用以上方法求出的具有两个可能的值，因此使用作为参考，选择中最接近的值作为最终的4.根据权利要求1所述的一种基于电网频率相位时序表征的数字音频篡改被动检测方法，其特征在于，步骤3中，计算enf相位时序表征的具体方法包括：步骤3.1、获取待检测音频数据中的最长时长音频数据；步骤3.2、对最长时长音频，dft变换获取相位步骤3.3、设置帧长m并根据计算出帧数步骤3.4、对所有音频数据；计算出帧移overlap＝m-floor(length(φ)/n)；步骤3.5、由于存在无法整除的情况，将分帧分为两个部分步骤3.5、由于存在无法整除的情况，将分帧分为两个部分帧的帧移比帧小1；k＝length(φ)-(m-overlap)
×
n步骤3.6、enf相位时序表征为5.根据权利要求1所述的一种基于电网频率相位时序表征的数字音频篡改被动检测方法，其特征在于，步骤4中，网络模型部分包括：步骤4.1、采用两个双向的长短期记忆神经网络bi-lstm模块对enf相位时序表征进行训练,并输出每个时间步的状态；每个bi-lstm模块包含一层双向lstm层、一层layernormalization层与激活函数leakyrelu；步骤4.2、将bi-lstm网络输出的每个时间步状态特征进行拟合并分类；采用两个全连接层对特征充分拟合(神经元数量分别为1024、256，激活函数为relu)；在两个全连接层之
间添加dropout层(dropout rate＝0.2)，以防止过拟合；最后，通过全连接层(神经元数量为2，激活函数为softmax)作为输出层；步骤4.3、最后输出层得到的概率可得出待测语音是否被篡改，计算所有测试语音正确识别是否被篡改的概率，即系统的识别率。6.一种基于电网频率相位时序表征的数字音频篡改被动检测装置，采用权利要求1至5任意一项所述方法，其特征在于，包括第一模块：对待检测音频数据进行处理得到电网频率(enf)成分，基于dft1变换对enf成分处理得到enf相位对enf相位进行分帧处理获取相位时序表征；第二模块：利用神经网络从enf相位时序表征中获取enf时序信息，经过拟合后分类。

技术总结
本发明涉及一种基于电网频率相位时序表征的数字音频篡改被动检测方法及装置，首先对待检测音频数据进行处理得到电网频率(ENF)成分，基于DFT1变换对ENF成分处理得到ENF相位根据待检测最长时长音频计算出帧数与帧长，并对ENF相位进行分帧处理获取相位时序表征；利用神经网络从ENF相位时序表征中获取ENF时序信息，经过拟合后分类。本发明能够有效提升系统的识别性能提高了模型泛化能力，优化了系统结构，提高了相应设备源识别产品的竞争力。竞争力。竞争力。

技术研发人员：曾春艳杨尧王志锋万相奎胡胜冯世雄孔帅余琰夏诗言崔浩
受保护的技术使用者：湖北工业大学
技术研发日：2022.04.26
技术公布日：2022/7/29

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型训练方法、语音到语音翻译方法、装置及介质与流程

基于电网频率相位时序表征的数字音频篡改被动检测方法及装置

相关文献

最热文献