一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于聚焦损失函数的指导型声学事件检测模型训练方法与流程

2022-02-22 17:20:04 来源:中国专利 TAG:


1.本发明涉及人工智能技术与声学事件检测技术领域,具体涉及基于聚焦 损失函数的指导型声学事件检测模型训练方法。


背景技术:

2.随着人工智能与深度神经网络的快速发展以及相关技术应用的兴起,智 能语音技术已逐渐被应用到人们的日常生活中,包括音频场景分类,声学事 件检测,异常音频检测,网络音视频的应用需求也越来越多。其中,声学事 件检测技术是模仿人类辨识声学事件的能力,利用音频信号处理和深度学习 技术完成对声学事件的识别与分类,如说话声、洗碗声、闹铃声和宠物叫声 等。
3.声学事件检测(aed)是指预测发生在音频片段中的声学事件的类别以 及识别这些事件的开始和偏移时间戳。aed可应用于许多领域,如智能家居、 健康监测系统、无人驾驶、多媒体检索以及复杂场景下的语音识别等。如, 在远程音视频会议中,声学事件检测技术可以对会议人员所处环境中的声学 事件做出分辨,所检测出的声学信息可辅助语音增强技术、语音分离技术等 改善音视频通话的质量;在智慧城市安防以及城市巡检工作中,声学事件检 测技术可辅助分析环境中的声学信息,分辨是否存在潜在危险并及时做出警 报或执行其他辅助措施;在工业设备异常声音检测中,声学事件检测技术能 及时监控工业设备的工作状态,避免设备长期异常而导致的重大损失。
4.简言之,声学事件检测技术无论在民用还是国防等方面都有着大量的应 用前景与空间。但当前的检测技术依旧存在着数据、技术等方面的难点,值 得我们去探索与研究。如,对于任意的一段音频片段,由于缺乏关于该音频 片段中所包含事件的先验知识,所以从弱标签数据中获得准确的持续时间是 困难的。在探究声学事件检测算法过程中,主要发现存在四点问题:
5.1、大规模训练数据的详细数据标签标注成本高、耗时且人为引入误差 复杂。因此探索利用大量无标签的训练数据以较少的弱标签数据来提高aed 系统性能成为新的方向。
6.2、部分待测目标事件自身差异性较大,即在一段音频片段中部分目标 事件持续时间或长或短,系统难以捕获准确的时间戳信息;
7.3、训练集中多类目标事件分布不均衡,导致所训模型检测性能不平衡, 对部分事件难以检测其类别以及准确的时间戳信息;
8.4、在实际应用中,不同环境下同一类别的数据存在域不平衡问题以及 多类事件重叠问题,声学事件检测系统性能仍然不佳,难以达到实际应用所 需要的精准度。


技术实现要素:

9.本发明提供一种基于聚焦损失函数的指导型声学事件检测模型训练方 法,能够解决上述技术问题。
10.本发明解决上述技术问题的技术方案如下:
11.基于聚焦损失函数的指导型声学事件检测模型训练方法,包括:
12.从音频数据训练集中提取声学特征;音频数据训练集包括:强标签数据 集、弱标签数据集和无标签数据集;
13.搭建指导型声学事件检测模型并根据声学特征解决声学事件检测任务 和声学事件分类任务;指导型声学事件检测模型包括:复杂教师模型、轻量 化学生模型和分类器部分;
14.常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件 检测模型。
15.在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
16.划分常规学习阶段和聚焦学习阶段。
17.在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,划分常规学习阶段和聚焦学习阶段包括:
18.根据指导型声学事件检测模型预测后验概率计算指导型声学事件检测 模型的误差,确定划分常规学习阶段和聚焦学习阶段的分界点。
19.在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
20.确定每次迭代训练中输入指导型声学事件检测模型的小批量数据集中 所包含强标签数据集、弱标签数据集和无标签数据集数据占比,作为一个小 批量数据集输入指导型声学事件检测模型中进行训练。
21.在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,复杂教师模型包括:5个双层卷积神经网络模块和两层额外的双 向门控循环神经网络层,两层额外的双向门控循环神经网络层用于提取卷积 神经网络模块的时间信息;
22.轻量化学生模型包括:3个单层卷积神经网络模块、两层额外的双向门 控循环神经网络层;
23.其中,每个卷积神经网络模块包括:卷积层、批量归一化模块和relu 激活函数;
24.分类器部分包括:声学事件检测任务分支和声学事件分类任务分支声学 事件检测任务分支包括:具有较大隐藏状态的全连接层和sigmoid激活函数; 声学事件分类任务分支包括:注意力模块。
25.在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,声学事件检测任务分支用于得到帧级别检测后验概率;
26.声学事件分类任务分支用于得到声学事件级别的分类后验概率。
27.在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,方法还包括:
28.在常规学习阶段,指导型声学事件检测模型整体的损失函数由四部分组 成,具体包括:复杂教师模型与轻量化学生模型的弱标签损失l
weak
,复杂教 师模型与轻量化学生模型的强标签损失l
strong
,复杂教师模型指导轻量化学生 模型的一致性损失轻量化学生模型微调复杂教师模型的一致性损失 常规学习阶段模型用于产生相对稳定
的复杂教师模型与轻量化学生 模型;
29.在聚焦学习阶段,使用聚焦损失函数代替交叉熵损失函数,增加指导型 声学事件检测模型对困难类别的惩罚力度。
30.在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在常规学习阶段,指导型声学事件检测模型整体的损失函数由以 下公式组成:
[0031][0032]
其中,分别是声学时间分类损失函数 和声学事件检测损失函数,表示使用复杂教师模型预测目标事件的后 验概率指导轻量化学生模型训练;随着训练的进行,复杂教师模型趋于稳定,表示轻量化学生模型使用较小权重ρ来微调复杂教师模型;
[0033]
较小权重ρ的计算方式为:
[0034][0035]
其中,x根据当前训练轮数与总训练轮数相关。
[0036]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在聚焦学习阶段使用聚焦损失函数代替交叉熵损失函数,增加指 导型声学事件检测模型对困难类别的惩罚力度,包括:
[0037]
计算聚焦损失,其中,聚焦损失函数的定义如下:
[0038][0039]
其中,ξ是控制第i个声学事件级别的分类后验概率、第j个目标声学 事件类别惩罚项的尺度因子,m表示在每个小批量数据集中带有弱标签和强 标签的音频片段的总数量,c表示目标声学事件类别的数量,
[0040]
计算相应的聚焦损失使用聚焦损失分别替 换来执行聚焦学习,
[0041][0042]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,从音频数据训练集中提取声学特征包括:
[0043]
从强标签数据集、弱标签数据集和无标签数据集中分别提取对数梅尔频 谱图作为声学特征。
[0044]
本发明的有益效果是:从音频数据训练集中提取声学特征;音频数据训 练集包括:强标签数据集、弱标签数据集和无标签数据集;搭建指导型声学 事件检测模型并根据声学特征解决声学事件检测任务和声学事件分类任务; 指导型声学事件检测模型包括:复杂教师模型、轻量化学生模型和分类器部 分;常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学事件检 测模型,本技术实施例使得指导型声学事件检测模型能充分学习不同数据类 型中所包含的特征信息,同时将复杂教师模型所学习的特征信息蒸馏到轻量 化的学生模型中,减少了参数量,加快了模型收敛速度,依据任务特点设计 针对性损
失函数对模型适应性惩罚的训练策略,在不同训练阶段有针对性学 习简单样本与困难样本,改善了指导型声学事件检测模型对复杂类别事件的 检测性能,提高了声学事件检测的鲁棒性。
附图说明
[0045]
图1为本发明实施例提供的基于聚焦损失函数的指导型声学事件检测模 型训练方法图。
具体实施方式
[0046]
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本 发明,并非用于限定本发明的范围。
[0047]
为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图 和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是 本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅 仅用于解释本公开,而非对本技术的限定。基于所描述的本技术的实施例, 本领域普通技术人员所获得的所有其他实施例,都属于本技术保护的范围。
[0048]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0049]
图1为本发明实施例基于聚焦损失函数的指导型声学事件检测模型训练 方法图一。
[0050]
基于聚焦损失函数的指导型声学事件检测模型训练方法,结合图1,包括 s101、s102和s103三个步骤:
[0051]
s101:从音频数据训练集中提取声学特征;音频数据训练集包括:强标 签数据集、弱标签数据集和无标签数据集;
[0052]
具体的,本技术实施例中,强标签数据集是带有目标声学事件时 间戳的有限强标注集d-s、弱标签数据集是仅带有多个事件标签没有 时间戳的少量弱标注集d-w和大量未标注的训练数据集d-u,从音频 数据训练集中提取声学特征提取声学特征即对数梅尔频谱图。下文介 绍提取声学特征即对数梅尔频谱图的过程。
[0053]
具体的,首先对音频数据训练集进行预处理操作,预处理操作包括:预 加重、分帧、加窗,接着对每一帧信号进行傅里叶变换,然后将此时的频域 特征通过一组梅尔频率滤波器频段的能量值进行叠加,得到数值表示该频带 的特征值,最后进行取对数操作即得到对数梅尔频谱图。
[0054]
s102:搭建指导型声学事件检测模型并根据声学特征解决声学事件检测 任务和声学事件分类任务;指导型声学事件检测模型包括:复杂教师模型、 轻量化学生模型和分类器部分;
[0055]
具体的,本技术实施例中的复杂教师模型和轻量化学生模型都是由卷积 循环神经网络所构成,卷积神经网络模块包含多个不同的卷积层以及相匹配 的下采样层,获得网络输入特征的高级特征表示;循环神经网络用于根据前 阶段卷积神经网络所输出的高级
特征表示进一步获取时间维度特征信息。
[0056]
指导型声学事件检测模型复杂教师模型与轻量化学生模型中卷积神经 网络模块数量不同,下文详细介绍。
[0057]
应理解,本技术中的指导型声学事件检测模又称指导型学习方式的半监 督学习网络,指导型学习方式主要基于两组相似模型结构的网络框架,称之 为复杂教师模型与轻量化学生模型。
[0058]
s103:常规学习阶段和聚焦学习阶段的两阶段训练方式训练指导型声学 事件检测模型。
[0059]
具体的,本技术实施例中,通过在常规学习阶段计算复杂教师模型与学 生模型之间的一致性损失函数,使得复杂教师模型在后期的迭代训练中对轻 量化学生模型具有指导训练的作用,同时,随着训练的进行,当指导型声学 事件检测模型逐渐收敛时,轻量化学生模型通过加权一致性损失函数对复杂 教师模型做出微调,进一步优化复杂教师模型,提高了音频数据的利用率, 并减轻了大量人工标记所带来的时间成本以及标签错误成本。
[0060]
在聚焦学习阶段通过自适应聚焦损失函数使得指导型声学事件检测模 型在训练过程可以针对性学习,对难以分类即分类输出后验概率小事件的损 失赋予比易于分类事件损失更高的权重,自动使得指导型声学事件检测模型 在下一次训练迭代中增加指导型声学事件检测模型对难以检测事件的特征 信息的学习,并且在每个训练周期中进行动态调整。随着指导型声学事件检 测模型的收敛,聚焦损失的学习方式会逐步提高指导型声学事件检测模型整 体的检测性能。
[0061]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
[0062]
划分常规学习阶段和聚焦学习阶段。
[0063]
具体的,本技术实施例中,通过划分常规学习阶段和聚焦学习阶段,聚 焦学习阶段,可以在训练基于聚焦损失函数的指导型声学事件检测模型期间 自动降低简单事件的惩罚贡献,使得训练快速地将聚焦损失函数的指导型声 学事件检测模型聚焦在难以分类的事件上。在模型的下一次训练迭代中进一 步增加对类别困难样本的关注度,并且在每个训练周期中进行动态调整。
[0064]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,划分常规学习阶段和聚焦学习阶段包括:
[0065]
根据指导型声学事件检测模型预测后验概率计算指导型声学事件检测 模型的误差,确定划分常规学习阶段和聚焦学习阶段的分界点。
[0066]
具体的,本技术实施例中在基于聚焦损失函数的指导型声学事件检测模 型的训练过程中,通过常规学习阶段和聚焦学习阶段两阶段模型训练策略, 能够很好的提高模型检测的鲁棒性。
[0067]
首先,计算指导型声学事件检测模型的误差函数,即
[0068][0069]
其中,e
valid
表示测试集上的误差,t表示迭代次数,t

表示当前迭代次数。
[0070]
gl(t)为泛化损失,表示在当前迭代周期t中,泛化误差相比较目前的最 低误差的
一个增长率较高的泛化损失,表明基于聚焦损失函数的指导型声学 事件检测模型是否趋于稳定,为了避免当训练的速度很快过早进入聚焦学习 阶段,设计一个k周期,当训练错误降低很慢的时候逐渐进入聚焦学习阶段:
[0071][0072]etrain
是训练集数据上的误差,glk(t)表示当前的指定迭代周期内的平均训 练错误比该期间最小的训练错误大多少。当训练过程不稳定的时候,glk(t)结 果可能很大,其中训练错误会变大。为此,本技术实施例以泛化损失和进展 的作为阶段划分的主要条件:
[0073][0074]
所以,常规学习阶段和聚焦学习阶段训练策略划分方法表示为:
[0075][0076]
其中,e
t
表示当前迭代次数,α为控制参数,实验中设置为0.1,β为 阶段划分因子,实验中设为0.005。
[0077]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法还包括:
[0078]
确定每次迭代训练中输入指导型声学事件检测模型的小批量数据集中 所包含强标签数据集、弱标签数据集和无标签数据集数据占比,作为一个小 批量数据集输入指导型声学事件检测模型中进行训练。
[0079]
具体的,音频数据训练集所包含的三类标签类型的训练数据子集分布是 不平衡的,为了使得输入指导型声学事件检测模型的每个小批量数据集中所 包含相对平衡的数据分布,对三种不同类型的数据按比例选取,示例性的, 如小批量数据集为48,其中强标签数据集d-s、弱标签数据集d-w、无标签 数据集d-u占比分别为12,12,24。由于音频数据训练集中数据类型的多样 性,为了在训练初期指导型声学事件检测模型有相对较好的初始化,设计在 每个小批量数据集中,强标签数据d-s特征首先送入指导型声学事件检测模 型模型,其次是弱标签数据,最后为无标签数据,有利于加快指导型声学事 件检测模型收敛,提高训练速度。
[0080]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,复杂教师模型包括:5个双层卷积神经网络模块和两层额外的双 向门控循环神经网络层,两层额外的双向门控循环神经网络层用于提取卷积 神经网络模块的时间信息;轻量化学生模型包括:3个单层卷积神经网络模 块、两层额外的双向门控循环神经网络层;其中,每个卷积神经网络模块包 括:卷积层、批量归一化模块和relu激活函数;分类器部分包括:声学事 件检测任务分支和声学事件分类任务分支声学事件检测任务分支包括:具有 较大隐藏状态的全连接层和sigmoid激活函数;声学事件分类任务分支包括: 注意力模块。
[0081]
具体的,本技术实施例中的复杂教师模型有5个双层卷积神经网络模块 块,与之相匹配的下采样层具有更大的时间压缩比例,从而可以用于更好的 音频分类任务;轻量化
学生模型包含3个单层卷积神经网络模块,与之相匹 配的采样层没有时间压缩比例,确保了音频数据中时间维度信息的完整性, 从而用于更好的事件边界检测。与传统的均值-教师模型中的的两个完全相 同的网络结构相比,轻量级的学生模型不仅可以学习不同的特征信息,而且 可以减少模型参数,提高训练效率。
[0082]
此外,为了更好的捕获音频特征中所包含的时间信息,在卷积神经网络 模块之后添加两层双向门控循环神经网络层,以提取卷积神经网络模块表示 的时间信息,从而更好地进行音频事件检测。
[0083]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,声学事件检测任务分支用于得到帧级别检测后验概率;
[0084]
声学事件分类任务分支用于得到声学事件级别的分类后验概率。
[0085]
具体的,本技术实施例中,对于指导型声学事件检测模型的分类器部分, 将声学事件检测任务和分类任务分成两个独立的分支,声学事件检测任务分 支使用一个具有较大隐藏状态的全连接层,然后通过全连接层以及sigmoid 激活函数,即得到帧级别检测后验概率;在音频分类分支中,卷积神经网络 模块和双向门控循环神经网络层的输出被连接作为“线性”层的输入特征, 随后是注意力模块,通过注意力模块后即得到声学事件级别的分类后验概 率。
[0086]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,上述方法还包括:
[0087]
在常规学习阶段,指导型声学事件检测模型整体的损失函数由四部分组 成,具体包括:复杂教师模型与轻量化学生模型的弱标签损失l
weak
,复杂教 师模型与轻量化学生模型的强标签损失l
strong
,复杂教师模型指导轻量化学生 模型的一致性损失轻量化学生模型微调复杂教师模型的一致性损失 常规学习阶段模型用于产生相对稳定的复杂教师模型与轻量化学生 模型;
[0088]
在聚焦学习阶段,使用聚焦损失函数代替交叉熵损失函数,增加指导型 声学事件检测模型对困难类别的惩罚力度。
[0089]
具体的,本技术实施例中,在每次迭代训练过程中,通过最小化复杂的 教师模型与轻量级的学生模型之间的一致性损失函数,使得轻量级的学生模 型与复杂的教师模型的预测结果输出特征趋于一致性。
[0090]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在常规学习阶段,指导型声学事件检测模型整体的损失函数由以 下公式组成:
[0091][0092]
其中,分别表示声学时间分类损失函 数和声学事件检测损失函数,表示使用复杂教师模型预测目标事件的 后验概率指导轻量化学生模型训练;随着训练的进行,复杂教师模型趋于稳 定,表示轻量化学生模型使用较小权重ρ来微调复杂教师模型;
[0093]
较小权重ρ的计算方式为:
[0094][0095]
其中,x根据当前训练轮数与总训练轮数相关。
[0096]
在一些实施例中,上述基于聚焦损失函数的指导型声学事件检测模型训 练方法中,在聚焦学习阶段使用聚焦损失函数代替交叉熵损失函数,增加指 导型声学事件检测模型对困难类别的惩罚力度,包括:
[0097]
计算聚焦损失,其中,聚焦损失函数的定义如下:
[0098][0099]
其中,ξ是控制第i个声学事件级别的分类后验概率、第j个目标声学 事件类别惩罚项的尺度因子,m表示在每个小批量数据集中带有弱标签和强 标签的音频片段的总数量,c表示目标声学事件类别的数量,
[0100]
计算相应的聚焦损失使用聚焦损失分别替 换来执行聚焦学习,
[0101][0102]
通过实施自适应聚焦损失和基于指导型学习的两阶段训练方式,有效的 解决了训练数据中的类不平衡问题,以及多个目标事件之间的不同难度级别 事件学习程度将在模型训练期间被动态地调整和聚焦。在常规学习阶段,易 于分类的声学事件之间的区分通过使用l
s1
惩罚方式可以很好的学习,并且它 产生了相对稳定的复杂教师模型与轻量化学生模型;在聚焦学习阶段,随着 训练的进行,自适应聚焦损失可以在训练期间自动降低简单事件的贡献,这 使得训练快速地将模型聚焦在难以分类的事件上。通过使用两阶段训练策 略,聚焦损失函数和交叉熵损失函数被很好地磨合,极大提高整个指导型声 学事件检测系统的性能。
[0103]
f1得分,是统计学中用来衡量分类模型精确度的一种指标。它同时兼顾 了分类模型的精确率和召回率,f1得分可以看作是模型精确率和召回率的一 种加权平均,它的最大值是1,最小值是0。其计算方式为:
[0104][0105]
将本技术方法进行验证,声学事件分类f1得分达到81.2%,声学事件检 测的f1得分达到49.8%,声音事件检测的f1得分相比19年基线系统相对提 升24.5%。聚焦损失函数的指导型声学事件检测模型性能的进一步改进,采 用本方法能够极大提升声学事件检测系统检测的准确度,依据不同事件的声 学特性,能够准确并迅速的确定相应的声学事件类型,提高声学事件检测的 识别性能。
[0106]
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施 例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味 着处于本技术的范围之内并且形成不同的实施例。
[0107]
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实 施例中没有详述的部分,可以参见其他实施例的相关描述。
[0108]
虽然结合附图描述了本技术的实施方式,但是本领域技术人员可以在不 脱离本技术的精神和范围的情况下做出各种修改和变型,这样的修改和变型 均落入由所附权利要求所限定的范围之内以上,仅为本发明的具体实施方 式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在 本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或 替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利 要求的保护范围为准。
[0109]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各 种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献