一种改善婴儿哭声检测模型效果的数据增强方法及其系统与流程

2021-09-28 20:32:00 来源：中国专利 TAG：哭声音频处理婴儿模型改善

1.本发明涉及音频处理技术领域，特别涉及一种改善婴儿哭声检测模型效果的数据增强方法及其系统。

背景技术：

2.当今社会涉及婴儿看护的行业方兴未艾，而雇佣保姆、育儿嫂等看护人员的昂贵成本也令很多普通家庭较难承受。一些需要聘请看护婴儿的年轻父母工作也越来越忙碌，对婴儿又缺乏照顾的经验。而交给老人看护婴儿，由于老人年纪和身体等原因，也会出现婴儿哭闹未被及时护理、睡觉踢被子、婴儿身体不适未能及时获知等问题。因此，智能婴儿看护的出现成为一种趋势，如何能够准确有效的实现婴儿哭声检测成为越来越被关注的问题。而在现有技术中，音频样本数据常用处理方法包括：1，裁剪、旋转、添加噪声、改变音调等。2，任意遮挡或者屏蔽语音频谱图。
3.然而，现有技术中存在以下的缺陷：
4.1、裁剪、旋转、加噪声等虽然增加了样本规模，但是对原始样本数据变化比较小，样本丰富性增加有限，和真实场景的样本有较大差别。改变声音样本音调对婴儿哭声检测应用并不适应，因为婴儿还未掌握语言使用，婴儿情绪的表达很大程度体现在发出声音的频率上，因此改变音调导致频率变化会模糊声音片段中的情绪信息，而这在对婴儿“说话”和哭声的区分中至关重要。
5.2、遮挡或屏蔽频谱图会丢失关键信息片段，如哭声短促、不连贯的样本。
6.此外，现有技术中的常用术语如下：
7.1、机器视觉：计算机通过光学装置模拟人眼的视觉功能捕获客观事物或者场景的图像，通过分析图像信息从中提取关键特征，进而进行测量或判断，是人工智能发展领域一个重要的分支。
8.2、神经网络：模仿生物神经网络结构和功能的数学模型，通过学习训练样本数据的内在规律，获得分析或者表达样本数据的能力，可应用于目标检测、场景分类、文字识别等多种应用领域。
9.3、深度学习：训练神经网络的过程和方法。
10.4、过拟合：深度神经网络由于其模型复杂度比浅层网络具有更强的表达能力，但参数更多，需要更多的训练样本。如果训练样本规模较小会导致模型过于集中地学习训练样本数据的规律但泛化能力比较弱，表现为对与训练样本数据分布相似的数据推理结果很好，但对其他样本数据推理能力比较差。
11.5、数据增强：通过对原始训练样本进行处理，生成有别于原始训练样本的虚拟样本，从而扩充样本规模，增加样本多样性，是提高神经网络泛化能力，改善由训练样本导致过拟合问题至关重要的手段。
12.6、语音频谱图：通过傅里叶变换得到的声音频域信息。
13.7、混合增强：是在图像处理领域常用的方法，通过线性插值生成新的样本和标签
数据，扩充样本数据规模。

技术实现要素：

14.为了解决上述问题，本发明的目的在于：
15.1、本发明提出将用于机器视觉领域的混合增强思想应用于婴儿哭声检测应用，该方法在不破坏哭声样本关键信息的情况下扩充哭声训练样本规模，改善过拟合问题。
16.2、使得收集的婴儿哭声训练样本与真实场景样本更接近，提高检测模型泛化能力。
17.具体地，本发明提供一种改善婴儿哭声检测模型效果的数据增强方法，所述方法包括以下步骤：
18.s1，收集声音样本作为训练数据；
19.s2，将收集到的声音样本分类，分为正样本和负样本，所述正样本为安静环境下的婴儿哭声数据，所述负样本为除了婴儿哭声之外的声音数据；
20.s3，对所述正样本哭声数据和所述负样本声音数据中的每一类语音数据分别添加与之对应的标签；
21.s4，利用混合增强方法通过线性插值样本和标签获得新的虚拟样本和标签，以增加样本数据。
22.所述的步骤s3中分别添加与之对应的标签，进一步包括：假设x
i
表示被叠加样本数据，label_x
i
表示对应的样本标签，y
j
表示叠加的样本数据，label_y
j
表示对应的标签。
23.所述的步骤s4进一步包括：
24.线性插值得到的虚拟样本g
k
以及对应的标签label_g
k
如下：
25.g
k
＝γ*x
i
(1-γ)*y
j
[0026][0027]
γ＝rand(0.7，1.0)
[0028]
其中，样本x
i
和y
j
有部分重合，γ取[0.7,1.0]之间的随机值。
[0029]
一种改善婴儿哭声检测模型效果的数据增强系统，包括收集单元、分类单元和利用混合增强方法的数据处理单元，所述系统采用上述的任一所述方法实现。
[0030]
由此，本技术的优势在于：将混合增强手段用于婴儿哭声检测应用，通过混合增强手段丰富样本数据并贴合真实场景，通过简单的方法及其系统就解决了实际场景多种多样使得收集能够覆盖这些场景的哭声样本非常困难，而且复杂环境下采集的样本标注困难的问题。成本低廉，升级维修简便。
附图说明
[0031]
此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，并不构成对本发明的限定。
[0032]
图1是本发明方法的示意流程图。
[0033]
图2是本发明系统的示意框图。
具体实施方式
[0034]
为了能够更清楚地理解本发明的技术内容及优点，现结合附图对本发明进行进一步的详细说明。
[0035]
如图1所示，本发明涉及一种改善婴儿哭声检测模型效果的数据增强方法，所述方法包括以下步骤：
[0036]
s1，收集声音样本作为训练数据；
[0037]
s2，将收集到的声音样本分类，分为正样本和负样本，所述正样本为安静环境下的婴儿哭声数据，所述负样本为除了婴儿哭声之外的声音数据；
[0038]
s3，对所述正样本哭声数据和所述负样本声音数据中的每一类语音数据分别添加与之对应的标签；
[0039]
s4，利用混合增强方法通过线性插值样本和标签获得新的虚拟样本和标签，以增加样本数据。
[0040]
所述的步骤s3中分别添加与之对应的标签，进一步包括：假设x
i
表示被叠加样本数据，label_x
i
表示对应的样本标签，y
j
表示叠加的样本数据，label_y
i
表示对应的标签。
[0041]
所述的步骤s4进一步包括：
[0042]
线性插值得到的虚拟样本g
k
以及对应的标签label_g
k
如下：
[0043]
g
k
＝γ*x
i
(1-γ)*y
j
[0044][0045]
γ＝rand(0.7，1.0)
[0046]
其中，样本x
i
和y
i
有部分重合，γ取[0.7,1.0]之间的随机值。
[0047]
所述负样本至少包括以下的一类或几类：除所述婴儿哭声之外的声音样本、公共环境声音样本、以及静音。
[0048]
所述负样本优选为正常情况下室内外生活和工作环境数据。
[0049]
所述的方法还可以包括：
[0050]
s5，将训练数据送入神经网络训练模型，利用深度神经网络算法，对所述样本训练集中的语音数据进行训练，获取婴儿哭声的声学检测模型。
[0051]
如图2所示，一种改善婴儿哭声检测模型效果的数据增强系统，包括收集单元，用于收集声音样本作为训练数据；分类单元，用于将收集到的声音样本分类，分为正样本和负样本，所述正样本为安静环境下的婴儿哭声数据，所述负样本为除了婴儿哭声之外的声音数据；以及利用混合增强方法的数据处理单元，用于对所述正样本哭声数据和所述负样本声音数据中的每一类语音数据分别添加与之对应的标签；并利用混合增强方法通过线性插值样本和标签获得新的虚拟样本和标签以增加样本数据，所述系统采用上述的任一所述方法实现。
[0052]
一般来说训练样本的样本数据规模越大，质量越高学习到的模型效果越好，泛化能力越强，然而实际情况下获取要足够多能够覆盖全部真实场景的样本数据面临很多问题，更多情况是用一个较小规模的训练样本数据来学习模型，因此如何通过数据增强方法获取更多高质量的样本数据至为重要。
[0053]
基于深度神经网络的婴儿哭声检测模型训练需要收集大量的婴儿哭声数据作为
正样本数据，但婴儿本身不可控以及婴儿发生哭声的实际场景多种多样使得收集能够覆盖这些场景的哭声样本非常困难，而且复杂环境下采集的样本标注困难，因此本技术收集的正样本为安静环境下的婴儿哭声数据，负样本为正常情况下室内外生活和工作环境数据，然后通过混合增强手段丰富样本数据并贴合真实场景。
[0054]
混合增强是常用于图像数据增强的一种方法，通过线性插值样本和标签获得新的虚拟样本和标签，用于婴儿哭声样本增强是一种非常有效的手段。假设x
i
表示被叠加样本数据，label_x
i
表示对应的样本标签，y
j
表示叠加的样本数据，label_y
j
表示对应的标签，插值得到的虚拟样本g
k
以及标签label_g
k
如下：
[0055]
g
k
＝γ*x
i
(1-γ)*y
j
[0056][0057]
γ＝rand(0.7，1.0)
[0058]
其中，样本x
i
和y
j
有部分重合，γ取[0.7,1.0]之间的随机值，下限0.7为经验值，可以更多的保留关键信息片段。
[0059]
通过混合增强可以模拟以下几种场景：
[0060]
(1)样本x
i
和y
j
均是正样本，样本g
k
模拟多人哭声，丰富正样本多样性；
[0061]
(2)样本x
i
是正样本，y
j
为负样本，样本g
k
模拟发生y
j
情况下婴儿哭声的场景，丰富正样本多样性；
[0062]
(3)样本x
i
和y
j
均为负样本，样本g
k
模拟复杂负样本场景。
[0063]
特别的，如上(2)正负样本叠加时，叠加样本y
j
不包含与正样本极为接近的难分类样本数据，如婴儿牙牙学语，否则会导致误检率变高；(3)负负样本叠加时，若x
i
和y
j
均为难分类负样本可以加强模型学习对该类样本的分类能力，降低误检概率；以上插值方法还可以用于样本多次叠加，叠加次数视被叠加样本质量决定。
[0064]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音可视化方法、装置、投影设备及计算机可读存储介质与流程

一种改善婴儿哭声检测模型效果的数据增强方法及其系统与流程

相关文章

最热文献