一种层级分类的生成音频溯源方法及存储介质、计算机设备与流程

2021-10-09 03:51:00 来源：中国专利 TAG：溯源层级图像处理语音生成

1.本发明涉及语音处理和图像处理领域，具体涉及一种层级分类的生成音频溯源方法。

背景技术：

2.目前的生成语音检测网络的输出只有真伪二分类结果，然而在实际公安、法院取证的背景下，人们不仅关心音频本身的真实有效性，还需要知道如果音频为合成或者录音等虚假的，其生成来源是什么。然而针对音频的多分类溯源的研究目前仍为空白。
3.生成语音鉴别为对输入的语音判检测是否为生成语音，输出检测的二分类检测结果。目前的检测方案主要是基于两方面的改进：更具区分度的声学特征和更有效的分类器，尽管近年来端到端结构的模型不再区分特征提取模块与分类器，但是目前主流研究还是采用特征提取与分类器架构。在分类器层面，大部分研究均为选择某种神经网络进行二分类训练，如残差神经网络（resnet）,轻量级卷积神经网络（lightcnn）等，只关注对于语音真伪的判别。然而在取证等实际应用场景下，人们不光关注音频的真实性，还需要知道虚假音频的来源（也就是用哪些合成方法生成的虚假语音/由哪家公司的技术生成的音频/哪种型号的录音设备录制的等等）。
4.公开号为cn113299315a，提供一种无需原始数据存储的持续性学习生成语音特征的方法，包括：采集音频数据，提取音频声学特征，得到线性倒谱系数特征；应用所述线性倒谱系数特征对深度学习网络模型进行训练，得到源域模型；在源域模型的训练损失函数基础上加入了正则化损失，约束模型参数优化的方向，应用新采集的音频数据对所述源域模型进行模型参数更新，得到目标域模型。
5.强调的是模型持续更新过程，即用新数据去更新原始模型，同时使得模型具有对旧有知识的记忆，主要的创新点在模型的持续性学习，是模型训练更新过程的创新，同时其学习的是生成语音的特征，然后进行分类任务，输入音频然后得到音频真实/生成分类结果。公开号为cn113314148a，提供基于原始波形的轻量级神经网络生成语音鉴别方法和系统，包括：按固定采样率对音频文件进行采样，得到所述音频文件的原始波形点，再将所述原始波形点切分为原始音频帧，得到原始音频帧序列；第一层为固定的一维卷积层，所述一维卷积层之后为常规模块和降维模块相互堆叠的结构，再之后是平均池化层，所述平均池化层之后为全连接层来构建搜索网络；将所述原始音频帧序列输入搜索网络，分别搜索常规模块和降维模块中每个神经元之间的最优操作连接，得到最优模型结构；应用所述原始音频帧序列训练搜索到的所述最优模型结构，得到训练好的搜索网络。强调的是模型训练生成的过程，通过网络结构搜索的方法，以原始音频作为网络的输出，使用一个网络既作为特征提取，又作为分类器，设计一个端到端的网络结构，同时使用网络搜索的方法来去除手工网络的冗余，主要的创新点是模型结构的生成，模型完成的依然是输入音频，进行真实/生成语音的分类判别。
6.而本技术重点解决的技术问题是在于生成语音的溯源，而不是真实/生成两者的
鉴别。
7.现有技术缺点：只有真实/生成二分类结果，不够详尽，没有给出生成来源类型，无法进行音频的溯源，无法对司法取证提供判别依据，频溯源对于司法取证有重要意义，若只有真实/生成二分类结果，不够详尽，没有给出生成来源类型，无法进行音频的溯源，在论证音频证据的有效性上，其说服力会大大减弱。

技术实现要素：

8.有鉴于此，本发明第一方面提供一种层级分类的生成音频溯源方法，包括：s1：提取训练音频的声学特征；s2：将所述训练音频的声学特征输入二分类模型，进行二分类模型训练，得到训练后的二分类模型；s3：将生成的训练音频依据其生成的方法打上不同标签，再将生成的训练音频的声学特征输入多分类模型进行训练，得到训练后的多分类模型；s4：提取测试音频的声学特征，将所述测试音频的声学特征输入所述训练后的二分类模型，进行真实/生成语音的判别，如果判别为真实，则预测终止，如果判别为生成，则将生成的测试音频的声学特征输入所述训练后的多分类模型预测其生成来源类型。
9.在一些具体的实施例中，所述提取训练音频的声学特征的具体方法包括：将训练音频进行采样的到原始波形点，然后进行预加重、分帧、加窗、快速傅里叶变换、通过线性滤波器组、取对数和进行离散余弦变换，得到音频的60维lfcc
‑
线性系数倒谱特征。
10.在一些具体的实施例中，所述加窗的窗口长度为25帧。
11.在一些具体的实施例中，所述快速傅里叶变换为512维fft
‑
快速傅里叶变。
12.在一些具体的实施例中，所述二分类模型采用lightcnn网络。
13.在一些具体的实施例中，所述二分类模型训练150轮，选择自适应矩估计（adam）优化器，初始学习率设为0.001，批数据大小为128。
14.在一些具体的实施例中，所述多分类模型采用resnet18 网络。
15.在一些具体的实施例中，所述多分类模型训练100轮，选择adam优化器，初始学习率设为0.001，批数据大小为128。
16.本发明第二方面提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，实现上述第一方面所述的层级分类的生成音频溯源方法的步骤。
17.本发明第三方面提供一种计算机设备，包括处理器和存储器，其中，所述存储器，用于存放计算机程序；所述处理器，用于执行存储在所述存储器上的计算机程序时，实现上述第一方面所述的层级分类的生成音频溯源方法的步骤。
18.本技术实施例提供的上述技术方案与现有技术相比具有如下优点：为取证提供判别依据，在判别为生成音频的基础上，进一步给出生成来源类型的判据，从而进行音频取证。
附图说明
19.图1为本发明实施例提供的层级分类的生成音频溯源方法的流程图；
图2为本发明实施例提供的生成音频溯源方法预测过程图。
具体实施方式
20.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
21.实施例1：如图1所示本申的实施例提供一种层级分类的生成音频溯源方法，s1：提取训练音频的声学特征；s2：将训练音频的声学特征输入二分类模型，进行二分类模型训练，得到训练后的二分类模型；s3：将生成的训练音频依据其生成的方法打上不同标签，再将生成的训练音频的声学特征输入多分类模型进行训练，得到训练后的多分类模型；s4：提取测试音频的声学特征，将测试音频的声学特征输入训练后的二分类模型，进行真实/生成语音的判别，如果判别为真实，则预测终止，如果判别为生成，则将生成的测试音频的声学特征输入训练后的多分类模型预测其生成来源类型。
22.在一些具体的实施例中，提取训练音频的声学特征的具体方法包括：将训练音频进行采样的到原始波形点，然后进行预加重、分帧、加窗、快速傅里叶变换、通过线性滤波器组、取对数和进行离散余弦变换，得到音频的60维lfcc
‑
线性系数倒谱特征。
23.在一些具体的实施例中，加窗的窗口长度为25帧。
24.在一些具体的实施例中，快速傅里叶变换为512维fft
‑
快速傅里叶变换。
25.在一些具体的实施例中，二分类模型采用lightcnn网络。
26.在一些具体的实施例中，二分类模型训练150轮，选择adam
‑
自适应矩估计的优化器，初始学习率设为0.001，批数据大小为128。
27.在一些具体的实施例中，多分类模型采用resnet18 网络。
28.在一些具体的实施例中，多分类模型训练100轮，选择adam
‑
自适应矩估计的优化器，初始学习率设为0.001，批数据大小为128。
29.实施例2：如图1所示，在一些具体是应用场下，采用实施例1所述的方案，具体提供一种层级分类的生成音频溯源方法的实施例，具体方法和步骤如下：s1：提取训练音频的声学特征，具体方法包括：将训练音频进行采样的到原始波形点，然后进行预加重、分帧、加窗、快速傅里叶变换、通过线性滤波器组、取对数和进行离散余弦变换，得到音频的60维lfcc特征，窗口长度为25帧，512维fft；s2：将所述训练音频的声学特征输入二分类模型，进行二分类模型训练，得到训练后的二分类模型；所述二分类模型采用lightcnn网络，二分类模型训练150轮，选择adam优化器，初始学习率设为0.001，批数据大小为128；s3：将生成的训练音频依据其生成的方法打上不同标签，再将生成的训练音频的声学特征输入多分类模型进行训练，得到训练后的多分类模型；所述多分类模型采用
resnet18 网络，多分类模型训练100轮，选择adam优化器，初始学习率设为0.001，批数据大小为128；s4：如图2所示，提取测试音频的声学特征，将所述测试音频的声学特征输入所述训练后的二分类模型，进行真实/生成语音的判别，如果判别为真实，则预测终止，如果判别为生成，则将生成的测试音频的声学特征输入所述训练后的多分类模型预测其生成来源类型。
30.实施例3:本发明还提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，实现上述第一方面实施例所述的层级分类的生成音频溯源方法的步骤。
31.实施例4:本发明另外还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器，用于存放计算机程序；所述处理器，用于执行存储在所述存储器上的计算机程序时，实现上述第一方面实施例所述的层级分类的生成音频溯源方法的步骤。
32.在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
33.应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
34.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。
35.对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
36.本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组
合。
37.本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如fpga（现场可编程门阵列）或asic（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。
38.适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（pda）、移动音频或视频播放器、游戏操纵台、全球定位系统（gps）接收机、或例如通用串行总线（usb）闪存驱动器的便携式存储设备，仅举几例。
39.适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如eprom、eeprom和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及cd rom和dvd
‑
rom盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
40.虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。
41.类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。
42.由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。
43.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种层级分类的生成音频溯源方法及存储介质、计算机设备与流程

相关文章

最热文献