基于双域深度特征和注意力机制的语音裁剪痕迹定位方法

2022-04-24 21:20:24 来源：中国专利 TAG：

1.本发明涉及多媒体信息安全中的音频取证技术领域，尤其涉及基于双域深度特征和注意力机制的语音裁剪痕迹定位方法。

背景技术：

2.近年来，数字音频编辑软件的出现使得一些不具备语音信号处理知识的用户也能够轻易地处理数字音频，因此数字音频编辑软件吸引了一大批用户。而通过这些便利的音频编辑软件，不法分子能够轻易地删除一段录音中的部分单词，从而生成语义完全不同的伪造语音。这些伪造语音极有可能会被用做法庭举证，或者在社会大众之间进行传播，从而引发一系列安全问题。
3.现有技术中，没有很好的方法检测一段可疑录音上是否存在裁剪痕迹，并对裁剪区域进行定位。
4.因此，现有技术还有待于改进和发展。

技术实现要素：

5.本发明的主要目的在于提供一种基于双域深度特征和注意力机制的语音裁剪痕迹定位方法、系统、终端及计算机可读存储介质，本发明针对被音频编辑软件裁剪后所产生的自适应滤波，提供了一种基于双域深度特征和多头注意力机制的裁剪语音中自适应滤波痕迹的定位方法，来对经过音频编辑软件裁剪后的语音进行篡改定位。
6.为实现上述目的，本发明第一方面提供一种基于双域深度特征和注意力机制的语音裁剪痕迹定位方法，所述基于双域深度特征和注意力机制的语音裁剪痕迹定位方法包括如下步骤：
7.s1.获取需要进行裁剪痕迹检测定位的语音信号，对所述语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数；
8.s2.通过训练的基于一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征；
9.s3.通过训练的基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征；
10.s4.通过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合，得到每一语音帧的融合深度特征；
11.s5.通过训练的基于多头注意力机制的定位模块，捕捉所述融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。
12.可选的，上述对所述语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数的步骤包括：
13.将压缩的语音信号解压为波形信号；
14.对所述波形信号进行分帧处理，得到多个语音帧；
15.计算每一语音帧的离散余弦变换，得到对应的离散余弦变换系数。
16.可选的，上述通过训练的基于一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征的步骤包括：
17.预先构造一基于一维卷积神经网络的特征提取子网络，其网络结构包括一个卷积核被初始化为[-1，2，-1]的高通滤波层以及五个卷积模块；
[0018]
训练时，在所述基于一维卷积神经网络的特征提取子网络的顶部设置一个分类器以及一个回归器同时对网络进行训练，其中所述分类器由两个全连接层、一个bn层、一个relu激活函数以及一个softmax函数组成，所述回归器则由一个全连接层以及一个sigmoid激活函数组成；
[0019]
并通过下述损失函数对网络进行训练：
[0020]
lossa＝loss1 α*loss2，
[0021]
其中，所述loss1为输入的语音帧的类别与分类器预测的类别之间的交叉熵，而loss2为输入语音帧与重构输出的均方差，α是一个可调节的权值；
[0022]
基于训练完成的所述基于一维卷积神经网络的特征提取子网络，获取每一语音帧的512维时域深度特征。
[0023]
可选的，上述通过训练的基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征的步骤包括：
[0024]
预先构造一基于胶囊网络的特征提取子网络，其网络结构包括一个卷积核被初始化为[-1，2，-1]的高通滤波层、6个1
×
d稠密连接块、一个胶囊块以及一个全连接层，其中，d∈{1,3,5,7,9,13}；
[0025]
训练时，在所述基于胶囊网络的特征提取子网络顶部设置一个分类器搭配二分类的交叉熵对网络进行训练，其中，所述分类器由1个bn层、1个relu激活函数、一个全连接层以及一个softmax激活函数组成；
[0026]
基于训练完成的所述基于胶囊网络的特征提取子网络，通过所述稠密连接块捕捉不同邻域范围内的离散余弦变换系数的幅值变化，并将输出作为所述胶囊块的输入；
[0027]
通过所述胶囊块的特征提取，输出一个1
×
16的特征向量，再通过全连接层将所述特征向量映射为每一语音帧的512维频域深度特征。
[0028]
可选的，上述通过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合，得到每一语音帧的融合深度特征的步骤包括：
[0029]
预先构造一含有512个节点的全连接层的特征融合全连接层；
[0030]
训练时，将一个由一个bn层、一个relu激活函数、一个带有两个神经元的全连接层以及一个softmax函数组成的分类器连接到特征融合全连接层的输出端，并通过交叉熵对所述特征融合全连接层进行训练；
[0031]
将一维卷积神经网络的特征提取子网络提取的512维时域深度特征和基于胶囊网络的特征提取子网络提取的512维频域深度特征，拼接成一个1024维的特征向量；
[0032]
基于训练完成的特征融合全连接层，将1024维的特征向量转换并输出为1
×
512维的融合深度特征。
[0033]
可选的，上述通过训练的基于多头注意力机制的定位模块，捕捉所述融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位的步骤包括：
[0034]
预先构造一基于多头注意力机制的定位模块，包括一个嵌入层、一个位置编码层、一个丢弃层、n个多头注意力模块、一个全连接层以及一个softmax函数；
[0035]
训练时，通过加权的交叉熵对定位模块进行训练，其损失函数如下：
[0036][0037]
其中，m表示训练数据中所有语音帧的数量，ym表示数据的真实标签，表示所述定位模块的预测概率，权值λ通过计算原始训练集中原始语音帧的数量与篡改语音帧的数量的比值得到；
[0038]
基于训练完成的所述基于多头注意力机制的定位模块，获取连续t帧的融合深度特征进行计算，输出维度为t
×
2的判决矩阵，其中，每帧的2维判决矩阵分别表示当前帧属于原始帧的概率以及属于篡改帧的概率；
[0039]
根据所述判决矩阵，输出每一语音帧为原始帧和/或篡改帧的概率值；
[0040]
基于所述概率值，得到所有篡改帧的定位。
[0041]
本发明第二方面提供一种基于深度特征和注意力机制的语音裁剪痕迹定位系统，其特征在于，所述基于深度特征和注意力机制的语音裁剪痕迹定位系统包括：
[0042]
语音信号获取和预处理模块，用于获取需要进行裁剪痕迹检测定位的语音信号，对所述语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数；
[0043]
时域深度特征获取模块，用于通过训练的基于一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征；
[0044]
频域深度特征获取模块，用于通过训练的基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征；
[0045]
双域特征融合模块，用于过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合，得到每一语音帧的融合深度特征；
[0046]
自适应滤波痕迹定位模块，用于通过训练的基于多头注意力机制的定位模块，捕捉所述融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。
[0047]
本发明第三方面提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度特征和注意力机制的语音裁剪痕迹定位程序，所述基于深度特征和注意力机制的语音裁剪痕迹定位程序被所述处理器执行时实现上述任一项所述的基于双域深度特征和注意力机制的语音裁剪痕迹定位方法的步骤。
[0048]
本发明第四方面提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于深度特征和注意力机制的语音裁剪痕迹定位程序，所述基于深度特征和注意力机制的语音裁剪痕迹定位程序被处理器执行时实现上述任一项所述的基于双域深度特征和注意力机制的语音裁剪痕迹定位方法的步骤。
[0049]
本发明提出了一种基于双域深度特征和多头注意力机制的裁剪语音中自适应滤波痕迹的定位方法，采用经过训练的基于一维卷积神经网络的特征提取子网络(wave-convolutional-net)和基于胶囊网络的特征提取子网络(dct-capsule-net)提取语音帧的双域深度特征，然后采用经过训练的基于多头注意力机制的定位模块(ma-localization-net)对裁剪语音中的自适应滤波痕迹进行定位。与现有技术相比，本发明不仅能够有效地
对那些由固定手机终端所录制且被固定音频编辑软件所裁剪过的语音片段中的自适应滤波痕迹进行定位，也能够鲁棒地定位那些由未知手机终端所录制且被未知的音频编辑软件所裁剪过的语音片段上的自适应滤波痕迹进行定位。通过本发明的方法，可以很快检测一段可疑录音上是否存在裁剪痕迹，还可进一步并对裁剪区域进行定位，为录音是否有裁剪痕迹提供了有效的检测方法。
附图说明
[0050]
图1是本发明基于双域深度特征和注意力机制的语音裁剪痕迹定位方法的的流程图。
[0051]
图2是本发明基于双域深度特征和注意力机制的语音裁剪痕迹定位方法的示意图。
[0052]
图3是本发明实施例中2000个经过音频编辑软件adobe audition 3.0裁剪的语音信号的中被自适应滤波的样本点的个数的统计直方图。
[0053]
图4是本发明实施图1中步骤s1的具体流程示意图。
[0054]
图5是本发明实施例中随机选择4000个经过音频编辑软件自适应滤波的语音帧，以及对应的4000个原始语音帧的差分信号的相邻两个样本点的幅值差的分布直方图。
[0055]
图6是本发明实施例中基于一维卷积神经网络的特征提取子网络的网络结构示意图。
[0056]
图7是本发明实施例中不同类型语音帧的部分离散余弦变换系数的分布直方图。
[0057]
图8是本发明实施例中基于胶囊网络的特征提取子网络的网络结构示意图。
[0058]
图9是本发明实施例中基于多头注意力机制的定位模块的结构示意图。
[0059]
图10是本发明实施例中mha模块的结构示意图。
[0060]
图11是本发明实施例中sa块的网络结构示意图。
[0061]
图12是本发明基于深度特征和注意力机制的语音裁剪痕迹定位系统的较佳实施例的原理示意图。
[0062]
图13是本发明终端的较佳实施例的运行环境示意图。
具体实施方式
[0063]
为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0064]
近年来，数字音频编辑软件的出现使得一些不具备语音信号处理知识的用户也能够轻易地处理数字音频，因此数字音频编辑软件吸引了一大批用户。通过这些便利的音频编辑软件，不法分子能够轻易地删除一段录音中的部分单词，从而生成语义完全不同的伪造语音。这些伪造语音极有可能会被用做法庭举证，或者在社会大众之间进行传播，从而引发一系列安全问题。
[0065]
在现有技术中，检测裁剪语音中的自适应滤波痕迹是多媒体取证领域中的一维滤波语音信号检测的问题。但检测裁剪语音中的自适应滤波痕迹比检测普通滤波语音信号更加复杂。语音被音频编辑软件裁剪后，音频编辑软件会对语音信号缝合边界附近数十个点
进行自适应滤波，而具体实施的滤波操作以及窗口大小又均是未知的，导致难以检测语音是否经过裁剪，以及难以对裁剪位置进行定位。此外，伪造语音中仅有数十个样本点会经过自适应滤波，这大大增加了检测的难度。
[0066]
可见，在现有技术中没有很好的方法检测一段可疑录音上是否存在裁剪痕迹，并对裁剪区域进行定位。
[0067]
本发明提出了一种基于双域深度特征和多头注意力机制的裁剪语音中自适应滤波痕迹的定位方法，采用经过训练的wave-convolutional-net提取语音信息的时域深度特征，采用经过训练的dct-capsule-net提取语音信息的频域深度特征，采用经过训练fc-fusion-net融合时频双域深度特征，然后采用经过训练的ma-localization-net捕捉不同帧的深度特征之间的上下文相关性从而完成对裁剪语音中的自适应滤波痕迹的定位。与现有的方法相比，本发明不仅能够有效地对那些由固定手机终端所录制且被固定音频编辑软件所裁剪过的语音片段中的自适应滤波痕迹进行定位，也能够鲁棒地定位那些由未知手机终端所录制且被未知的音频编辑软件所裁剪过的语音片段上的自适应滤波痕迹进行定位。通过本发明的方法，可以很快检测一段可疑录音上是否存在裁剪痕迹，还可进一步并对裁剪区域进行定位，为录音是否有裁剪痕迹提供了有效的检测方法。
[0068]
示例性方法
[0069]
如图1以及图2所示，本发明实施例提供一种基于双域深度特征和多头注意力机制的裁剪语音中自适应滤波痕迹的定位方法，具体的，所述方法包括如下步骤：
[0070]
步骤s1、获取需要进行裁剪痕迹检测定位的语音信号，对所述语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数。
[0071]
在本实施例中，首先获取需检测的音频文件，该音频文件可以是m4a或mp3等格式压缩的录音文件。再将该音频文件解压缩为波形信号，对波形信号进行分帧处理，得到多个语音帧。最后计算该波形信号中每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数，为后续计算获取该语音帧的时域和频域深度特征做准备。
[0072]
步骤s2、通过训练的基于一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征。
[0073]
在本实施例中，预先构建和训练一维卷积神经网络的特征提取子网络，并将各语音帧输入训练完成的基于一维卷积神经网络的特征提取子网络中，提取与每一语音帧对应的时域深度特征。
[0074]
步骤s3、通过训练的基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征。
[0075]
在本实施例中，预先构建和训练基于胶囊网络的特征提取子网络，并将各语音帧的离散余弦变换系数输入训练完成的基于胶囊网络的特征提取子网络中，提取与每一语音帧对应的频域深度特征。
[0076]
步骤s4、通过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合，得到每一语音帧的融合深度特征。
[0077]
在本实施例中，预先构建和训练特征融合全连接层，再将所述时域深度特征和频域深度特征进行拼接并输入训练完成的特征融合全连接层中，计算得到每一语音帧的融合深度特征。
[0078]
步骤s5、通过训练的基于多头注意力机制的定位模块，捕捉所述融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。
[0079]
在本实施例中，预先构建和训练基于多头注意力机制的定位模块，通过将各帧融合深度特征输入训练完成的所述定位模块中，判断各帧为篡改帧的概率，并基于上述概率，对裁剪语音中的自适应滤波痕迹即篡改帧进行定位。
[0080]
在下述实施例中，将对本发明方法进行进一步的具体说明。
[0081]
首先，如图3所示，为2000个经过音频编辑软件adobe audition 3.0裁剪的语音信号的中被自适应滤波的样本点的个数的统计直方图。从图3中能够发现，经过adobe audition 3.0裁剪，语音信号只有11到99个样本点会被滤波。因此为了更好地在语音信号众多样本点中检测数十个被滤波的样本点，先对语音信号进行分帧，然后再逐一检测每一帧是否为自适应滤波帧。
[0082]
在一种应用场景中，获取需要进行裁剪痕迹检测定位的语音信号，对所述语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数。
[0083]
具体的，如图4所示，上述步骤s1包括：
[0084]
步骤s11、将压缩的语音信号解压为波形信号；
[0085]
步骤s12、对所述波形信号进行分帧处理，得到多个语音帧；
[0086]
步骤s13、计算每一语音帧的离散余弦变换，得到对应的离散余弦变换系数。
[0087]
举例说明，首先获取压缩的m4a或mp3格式的音频文件，将接收到的音频文件解压缩成波形信号x[k]，然后对x[k]进行分帧处理得到语音帧。再将所述语音帧的帧长以及帧移分别用l和m来表示，分帧后总的帧数表示为n，则第i个语音帧中的第l个样本点yi[l]表示为：
[0088]
yi[l]＝x[(i-1)m l]
ꢀꢀꢀꢀ
(1)
[0089]
其中，l∈{0,1,
…
,l-1}，i∈{0,1,
…
,n-1}。
[0090]
最后，计算每帧语音的离散余弦变换，得到离散余弦变换系数。
[0091]
进一步的，本实施例还分析了经过自适应滤波语音帧以及原始语音帧的时域统计差异。随机选择4000个经过音频编辑软件自适应滤波的语音帧，以及它们所对应的4000个原始语音帧。其中每帧均含有30个样本点。如图5所示，展示了这些帧的差分信号的相邻两个样本点的幅值差的分布直方图。从图5中能够发现，经过滤波的篡改帧的差分信号相邻两个样本点之间的幅值差会集中在0附近。这意味着经过软件自适应滤波，语音帧相邻样本点之间的相关性会更强。因此在本实施例，将使用时域语音帧作为网络输入，让模型去捕捉不同类型的帧之间的样本点相关性的差异。
[0092]
即在一种应用场景中，通过训练的基于一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征。
[0093]
具体的，上述步骤s2包括：
[0094]
预先构造一基于一维卷积神经网络的特征提取子网络，其网络结构包括一个卷积核被初始化为[-1，2，-1]的高通滤波层以及五个卷积模块；
[0095]
训练时，在所述基于一维卷积神经网络的特征提取子网络的顶部设置一个分类器以及一个回归器同时对网络进行训练，其中所述分类器由两个全连接层(fc)、一个bn层、一
个relu激活函数以及一个softmax函数组成，所述回归器则由一个全连接层以及一个sigmoid激活函数组成；
[0096]
并通过下述损失函数对网络进行训练：
[0097]
lossa＝loss1 α*loss2，
[0098]
其中，所述loss1为输入的语音帧的类别与分类器预测的类别之间的交叉熵，而loss2为输入语音帧与重构输出的均方差，α是一个可调节的权值；
[0099]
基于训练完成的所述基于一维卷积神经网络的特征提取子网络，获取每一语音帧的512维时域深度特征。
[0100]
举例说明，请参阅图6，预先设计基于一维卷积神经网络的特征提取子网络(wave-convolutional-net)。预先构建wave-convolutional-net的结构，包括一个卷积核被初始化为[-1，2，-1]的用于捕捉相邻样本点的幅值变化情况高通滤波层(high-pass initialized convolutional，hp-conv)以及5个用于提取深度特征的卷积模块。其中，每个卷积模块都由一个卷积层，一个批量归一化层(batch normalization，bn)以及一个relu激活函数组成，此外还在第一个、第二个以及第四个卷积模块中使用了最大池化层来进行下采样，而在第五个卷积模块中，则使用了全局平均池化层来进行下采样处理。
[0101]
进一步的，在上述wave-convolutional-net的顶部使用一个分类器以及一个回归器来同时训练网络，以便网络能够提取到对检测语音上缝合痕迹的有利特征。其中，所述分类器由两个全连接层、一个bn层、一个relu激活函数以及一个softmax函数组成，而回归器则由一个全连接层以及一个sigmoid激活函数组成。训练wave-convolutional-net时，总的损失函数为：
[0102]
lossa＝loss1 α*loss2
ꢀꢀꢀꢀ
(2)
[0103]
其中，loss1为输入的语音帧的类别与分类器预测的类别之间的交叉熵，loss2为输入语音帧与重构输出的均方差，α是一个可调节的权值。
[0104]
在训练结束后，分类器以及回归器都会被移除。训练完毕的wave-convolutional-net将用于提取每一语音帧的512维的时域深度特征。
[0105]
进一步的，本实施例还分析了滤波语音帧和原始语音帧的频域能量分布的差异。如图7所示，展示了不同类型语音帧的部分离散余弦变换系数的分布直方图。从图中能够发现，即使经过了音频编辑软件的自适应滤波，滤波语音帧中引入的高频分量依旧没有完全被消除。因此在本实施例中，使用语音信号频域的离散余弦变换系数作为网络的输入，让模型去捕捉滤波语音帧和原始语音帧的频域能量分布的差异。
[0106]
在一种应用场景中，通过训练的基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征。
[0107]
具体的，上述步骤s3包括：
[0108]
预先构造一基于胶囊网络的特征提取子网络，其网络结构包括一个卷积核被初始化为[-1，2，-1]的高通滤波层、6个1
×
d稠密连接块、一个胶囊块以及一个全连接层，其中，d∈{1,3,5,7,9,13}；
[0109]
训练时，在所述基于胶囊网络的特征提取子网络顶部设置一个分类器搭配二分类的交叉熵对网络进行训练，其中，所述分类器由1个bn层、1个relu激活函数、一个全连接层以及一个softmax激活函数组成；
[0110]
基于训练完成的所述基于胶囊网络的特征提取子网络，通过所述稠密连接块捕捉不同邻域范围内的离散余弦变换系数的幅值变化，并将输出作为所述胶囊块的输入；
[0111]
通过所述胶囊块的特征提取，输出一个1
×
16的特征向量，再通过全连接层将所述特征向量映射为每一语音帧的512维频域深度特征。
[0112]
举例说明，如图8所示，预先设计基于胶囊网络的特征提取子网络(dct-capsule-net)。预先构造dct-capsule-net的网络结构，将胶囊网络设计为特征提取器。dct-capsule-net使用1
×
l维的离散余弦变换(dct)系数作为输入，然后输出一个1
×
512维的特征向量，其网络结构由1个与wave-convolutional-net中定义相同的hp-conv层、6个1
×
d(d∈{1,3,5,7,9,13})稠密连接块(1
×
d dense blocks)、一个胶囊块(capsule block)，以及一个全连接层组成。
[0113]
其中，上述1
×
d dense blocks的结构图如图8右上角所示，这些1
×
ddense blocks主要用于捕捉不同邻域范围的离散余弦变换系数的幅值变化。每个1
×
d dense blocks都由三个稠密连接的卷积组以及一个用于最终融合各个卷积组提取到的特征的卷积层构成。这些稠密块的输出会被拼接在一起作为胶囊块capsule block的输入。而胶囊块经过特征的提取，会输出一个1
×
16的特征向量，然后一个全连接层会将这个特征向量映射为另一个维度与wave-convolutional-net输出维度相同的深度特征向量。
[0114]
其中，上述胶囊块capsule block的结构图如图8下方所示，在本实施例的胶囊块中，胶囊块会先沿着频率的方向，将输入l
×
384分割为l个维度为1
×
384的原始胶囊矢量ui(i∈{1,2,
…
,l})。由于本实施例是沿着频率方向对胶囊块的输入进行分割的，因此每个原始胶囊都表示从信号相应的dct频率的不同邻域范围内所提取的特征。在得到每个原始胶囊之后，使用压缩激活函数(squash activation function)将每个原始胶囊矢量的模值压缩至0到1之间，其压缩过程为：
[0115][0116]
每一个压缩后的胶囊矢量都将通过专有的全连接层转换为低层胶囊矢量(low-level capsule-vector)其表达式为：
[0117][0118]
其中，wi为第i个低沉胶囊矢量的仿射变换矩阵，而压缩后的高层胶囊矢量v则可以通过以下公式获得：
[0119][0120]
其中，s表示高层胶囊矢量。ci表示第i个低层胶囊矢量与高层胶囊矢量的归化耦合系数，它可以通过以下式子计算得到：
[0121][0122]
其中，bi则表示第i个低层胶囊矢量耦合到高层胶囊矢量s的对数先验概率，它
通常被初始化为0，然后通过以下公式来进行迭代更新：
[0123][0124]
进一步的，在上述dct-capsule-net的顶部，使用了一个由1个bn层、1个relu激活函数、一个全连接层以及一个softmax激活函数组成的分类器搭配二分类的交叉熵来对dct-capsule-net进行训练。
[0125]
训练完成后，本实施例将上述dct-capsule-net的512维输出将作为在每一语音帧离散余弦变换频域上提取的频域深度特征。
[0126]
在一种应用场景中，通过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合，得到每一语音帧的融合深度特征。
[0127]
具体的，上述步骤s4包括：
[0128]
预先构造一含有512个节点的全连接层的特征融合全连接层；
[0129]
训练时，将一个由一个bn层、一个relu激活函数、一个带有两个神经元的全连接层以及一个softmax函数组成的分类器连接到所述特征融合全连接层的输出端，并通过交叉熵对所述特征融合全连接层进行训练；
[0130]
将一维卷积神经网络的特征提取子网络提取的512维时域深度特征和基于胶囊网络的特征提取子网络提取的512维频域深度特征，拼接成一个1024维的特征向量；
[0131]
基于训练完成的特征融合全连接层，将1024维的特征向量转换并输出为1
×
512维的融合深度特征。
[0132]
举例说明，在提取完上述语音帧的时域深度特征和频域深度特征后，对双域深度特征进行融合。具体的，将wave-convolutional-net提取的512维时域深度特征和dct-capsule-net提取的512维频域深度特征拼接成一个1024维的特征向量，然后通过一个含有512个节点的全连接层的fc-fusion-layer将其转换并输出为1
×
512的特征矢量。
[0133]
在训练过程中，将一个由一个bn层、一个relu激活函数、一个带有两个神经元的全连接层以及一个softmax函数组成的分类器连接到fc-fusion-layer的输出端，并通过交叉熵来训练fc-fusion-net。
[0134]
当fc-fusion-net训练完成后，通过分类器来获取fc-fusion-net对极短语音帧的分类结果，也可以通过提取fc-fusion-net的输出来获取所述1
×
512维的深度特征。
[0135]
在一种应用场景中，通过训练的基于多头注意力机制的定位模块，捕捉所述融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。
[0136]
具体的，上述步骤s5包括：
[0137]
预先构造一基于多头注意力机制的定位模块，包括一个嵌入层、一个位置编码层、一个丢弃层、n个多头注意力模块、一个全连接层以及一个softmax函数；
[0138]
训练时，通过加权的交叉熵对定位模块进行训练，其损失函数如下：
[0139][0140]
其中，m表示训练数据中所有语音帧的数量，ym表示数据的真实标签，表示所述定位模块的预测概率，权值λ通过计算原始训练集中原始语音帧的数量与篡改语音帧的数量的比值得到；
[0141]
基于训练完成的所述基于多头注意力机制的定位模块，获取连续t帧的融合深度特征进行计算，输出维度为t
×
2的判决矩阵，其中，每帧的2维判决矩阵分别表示当前帧属于原始帧的概率以及属于篡改帧的概率；
[0142]
根据所述判决矩阵，输出每一语音帧为原始帧和/或篡改帧的概率值；
[0143]
基于所述概率值，得到所有篡改帧的定位。
[0144]
举例说明，如图9所示，预先设计基于多头注意力机制的定位模块，包括预先构造ma-localization-net的网络结构。所述ma-localization-net使用连续t帧的深度特征(即维度为t
×
512的特征矩阵)作为输入，然后输出t帧的判决结果(即维度为t
×
2的判决矩阵)。其中，每帧的2维判决结果分别表示当前帧属于原始帧的概率以及属于篡改帧的概率。根据输出概率值，若当前时刻输出为[0,1]，则当前帧被判断为滤波帧；若当前时刻输出为[1,0]，则当前帧被判断为原始帧。最终根据获取的概率值，可对所有判断为篡改帧的语音帧进行定位，得到语音的裁剪位置。
[0145]
本实施例中的ma-localization-net由一个嵌入层、一个位置编码层、一个丢弃层(dropout)、n个多头注意力(multi-head attention，mha)模块、一个全连接层以及一个softmax函数组成。其中嵌入层会对输入不足t帧的特征矩阵进行补零至t帧。位置编码层则采用不同频率的正弦和余弦函数来对输入序列添加时序上的位置信息。在本实施例中使用表示输入位置编码层中第t帧的第k维上面的特征，则位置编码层的相应输出为：
[0146][0147]
进一步的，mha模块的结构如图10所示。在mha模块中，每一个mha模块都由一个ma(multi-head attention，ma)块、一个包含1024个节点的全连接层、一个包含512个节点的全连接层以及两个网络层标准化(layer normalization，ln)层组成。此外，在mha模块中还有一些用于促使梯度回传的残差连接。ma块的输入首先会通过三个并行的全连接层，其中每个全连接层的节点数为512，每个全连接层的输出会被分割生成h组的q(query)、k(key)以及v(value)矢量，其中每个矢量的维度都为d(d＝512/h)，然后每一组的q、k、v矢量都将经过缩放点乘注意力块(scaled dot-product attention，sa)来进行注意力权值的计算以及上下文特征的自适应融合。
[0148]
其中，sa块的网络结构如图11所示，每组第i个sa块的输出为：
[0149][0150]
由于在ma-localization-net前面中，嵌入层会对那些输入不足t帧的语音补零，因此，在sa块中，会屏蔽掉那些通过补零方式获得的语音帧，以免它们影响sa对实际语音帧中的上下文信息的提取。
[0151]
进一步的，对于一个篡改语音，由于自适应滤波痕迹只会存在数十个样本点中，所
以篡改帧的数量会远远少于原始帧的数量，这意味着在训练时，原始语音帧的样本跟篡改语音帧的样本是不平衡的，为了使模型更好地训练，使用加权的交叉熵来训练ma-localization-net，其损失函数lossw表达式如下：
[0152][0153]
其中，m表示训练数据中所有语音帧的数量，ym表示数据的真实标签，表示ma-localization-net的预测概率，而权值λ可以通过计算原始训练集中原始语音帧的数量与篡改语音帧的数量的比值来获得。需注意的是，ma-localization-net可以联合上述双域深度特征提取、融合拼接的模块一起训练，成为一个端到端的模型，但是为了降低训练复杂度，在本实施例中独立训练各个模块。
[0154]
此外，本实施例中提出的ma-localization-net可以检测不同长度的语音，但是在训练时，为了节省训练时间，都是用包含100个语音帧的语音片段来训练模型，而测试阶段，会将分帧后的语音片段分割成多个不重叠的语音短片段依次输入模型进行测试。每个短片段都含有100帧，而对于分割后，不足100帧的片段，也直接输入模型进行测试。
[0155]
在进一步的实施例中，以65台不同的手机录制语音为例，验证说明本方法对于经过音频编辑软件裁剪的语音中的自适应滤波痕迹的定位性能：
[0156]
首先，构造以下数据库：
[0157]
1.对于65台不同的手机录制语音，将65台手机用r1到r65进行标记。如下表1展示了不同录音设备所对应的手机模型。每一台手机录制10分钟以上。然后对将每段录音解压，并进行静音移除，得到录音的非静音片段。接下来将每一个非静音片段都分割为150毫秒的短片段，其中相邻两个短片段之间的重叠时长为125毫秒，将得到的片段称为一次解压缩的原始语音片段，然后使用adobe audition 3.0裁剪掉每个150毫秒的一次解压缩原始语音片段最中间50％的样本点，得到一次解压缩的篡改语音片段。最后分别将一次解压缩原始语音片段以及一次解压缩篡改语音片段进行压缩，并解压，分别得到二次解压的原始语音片段和篡改语音片段。由于在生成的数据中，有m4a和mp3两种压缩格式的数据，因此使用m4a的数据训练一个模型，用于测试m4a的待测语音，使用mp3的数据训练一个模型，用于测试mp3的待测语音。
[0158]
表1
[0159][0160]
2.设定实验场景：为了验证本发明的有效性和鲁棒性，按照不同要求将得到的数据分成5种不同的实验场景。其中在场景0中，训练数据和测试数据来源相同。而从场景1到
场景4中，逐渐增多训练数据和测试数据来源不匹配的因素，以模拟现实场景中测试数据与训练数据分布不同的情形。其中在场景1中，训练数据和测试数所使用的设备不同，但他们设备的品牌以及模型相同；在场景2中，训练数据和测试时局所使用的设备以及模型均不同；在场景3中训练数据和测试数据所使用的设备、模型、以及品牌均不同；在场景4中，训练数据和测试数据所使用的设备、模型、品牌以及所使用的音频编辑软件均不同。表2展示了在不同场景中训练数据和测试数据的不匹配因素。
[0161]
表2
[0162][0163]
3.设置评价指标：在本实施例中，定义伪造语音为正样本、原始语音为负样本。使用真正率(tpr)、真负率(tnr)、g-mean、auc、以及平衡准确率(ba)来评估模型性能。
[0164]
其次，验证本发明中不同结构的ma-localization-net的定位性能：
[0165]
表3展示了不同结构的ma-localization-net的定位性能从表中发现当n＝6,h＝16时，无论是m4a的模型还是mp3的模型均能取得最佳性能。因此在最终ma-localization-net的结构中，使用n＝6,h＝16的网络结构。
[0166]
表3
[0167][0168]
再次，验证本发明中设置不同帧长l对模型的定位性能的影响：
[0169]
表4展示了不同帧长l对模型定位性能的影响。从表中能发现当设置l＝50时，模型能够取得最佳性能。从表中还可以知道，即使是设置l＝30,模型依旧能够取得很高的平衡准确率。这说明在实际应用这，本发明能够有效地对那些仅含有极短自适应滤波痕迹的裁剪语音进行篡改定位。在后续实验中，将l设置为50。
[0170]
表4
[0171][0172]
最后，验证本发明在不同场景中的定位性能：
[0173]
表5展示了本发明所提出的模型在不同场景下的定位性能。从表中能够发现，在场景0、场景1、以及场景2中，模型的性能都差不多，而在场景3以及场景4中会下降得较多。但是在场景3和场景4中，本发明依旧能够取得超过88％的平衡准确率。这表明本发明能够鲁
棒地对不同场景下的裁剪伪造语音进行篡改定位。此外在实际应用中，可以通过收集更多场景3以及场景4的数据来训练模型，从而提升模型的泛化能力。
[0174]
表5
[0175][0176]
综上所述，本发明针对现实场景中音频编辑软件裁剪后的伪造语音，设计了一个基于双域深度特征和多头注意力机制的裁剪语音中自适应滤波痕迹的定位方法，所述方法包括：获取语音信号，对语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数；通过一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征；通过基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征；通过特征融合全连接层对每一语音帧的双域深度特征进行拼接融合，得到每一语音帧的融合深度特征；通过基于多头注意力机制的定位模块，捕捉融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。可见通过本方法，不仅可对已知存在有裁剪痕迹的可疑录音进行裁剪区域的定位，还可用于对未知录音是否经过裁剪处理进行检测。
[0177]
进一步的，如图12所示，基于上述基于双域深度特征和注意力机制的语音裁剪痕迹定位方法，本发明还相应提供了一种基于深度特征和注意力机制的语音裁剪痕迹定位系统，其中，所述基于深度特征和注意力机制的语音裁剪痕迹定位系统包括：
[0178]
语音信号获取和预处理模块121，用于获取需要进行裁剪痕迹检测定位的语音信号，对所述语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数；
[0179]
时域深度特征获取模块122，用于通过训练的基于一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征；
[0180]
频域深度特征获取模块123，用于通过训练的基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征；
[0181]
双域特征融合模块124，用于过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合，得到每一语音帧的融合深度特征；
[0182]
自适应滤波痕迹定位模块125，用于通过训练的基于多头注意力机制的定位模块，捕捉所述融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。
[0183]
进一步地，如图13所示，基于上述基于双域深度特征和注意力机制的语音裁剪痕迹定位方法和系统，本发明还相应提供了一种终端，所述终端包括处理器10、存储器20及显示器30。图13展示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。
[0184]
所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。进一步地，所述存储器20还可以既包括所述终端
的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于深度特征和注意力机制的语音裁剪痕迹定位程序40，该基于深度特征和注意力机制的语音裁剪痕迹定位程序40可被处理器10所执行，从而实现本技术中基于双域深度特征和注意力机制的语音裁剪痕迹定位方法。
[0185]
所述处理器10在一些实施例中可以是一中央处理器(central processing unit,cpu)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于双域深度特征和注意力机制的语音裁剪痕迹定位方法等。
[0186]
所述显示器30在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。
[0187]
在一实施例中，当处理器10执行所述存储器20中基于深度特征和注意力机制的语音裁剪痕迹定位程序40时实现以下步骤：
[0188]
s1.获取需要进行裁剪痕迹检测定位的语音信号，对所述语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数；
[0189]
s2.通过训练的基于一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征；
[0190]
s3.通过训练的基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征；
[0191]
s4.通过训练的特征融合全连接层对每一语音帧的时域深度特征和频域深度特征进行拼接融合，得到每一语音帧的融合深度特征；
[0192]
s5.通过训练的基于多头注意力机制的定位模块，捕捉所述融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。
[0193]
本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于深度特征和注意力机制的语音裁剪痕迹定位程序，所述基于深度特征和注意力机制的语音裁剪痕迹定位程序被处理器执行时实现如上所述的基于双域深度特征和注意力机制的语音裁剪痕迹定位方法的步骤。
[0194]
综上所述，本发明针对现实场景中音频编辑软件裁剪后的伪造语音，设计了一个基于双域深度特征和多头注意力机制的裁剪语音中自适应滤波痕迹的定位方法，所述方法包括：获取语音信号，对语音信号解压缩以及分帧处理，并计算每一语音帧的离散余弦变换，得到每一语音帧的离散余弦变换系数；通过一维卷积神经网络的特征提取子网络，提取每一语音帧的时域深度特征；通过基于胶囊网络的特征提取子网络，提取每一语音帧离散余弦变换域的频域深度特征；通过特征融合全连接层对每一语音帧的双域深度特征进行拼接融合，得到每一语音帧的融合深度特征；通过基于多头注意力机制的定位模块，捕捉融合深度特征的上下文信息，对裁剪语音中的自适应滤波痕迹进行定位。实现快速检测一段可疑录音上是否存在裁剪痕迹，并对裁剪区域进行定位。
[0195]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排
他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
[0196]
当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
[0197]
应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音信号处理方法、装置及计算机设备与流程

基于双域深度特征和注意力机制的语音裁剪痕迹定位方法

相关文献

最热文献