智能识别婴儿哭声类别的方法及装置与流程

2021-06-15 21:49:00 来源：中国专利 TAG：哭声识别装置婴儿语音识别

本发明涉及语音识别技术领域，尤其涉及一种智能识别婴儿哭声类别的方法及装置。

背景技术：

随着语音识别技术的发展，将语音识别应用到越来越多的领域，比如识别婴儿各种类别的哭声，以确定婴儿对应的各种状况。针对婴儿哭声的识别，一般采用的方法为：采用语音采集技术采集哭声，将采集得到的哭声与已设置的婴儿哭声相匹配，确定是否为婴儿哭声，再将确认的婴儿哭声与已设置的哭声类别相匹配，匹配成功后，就可以确认采集的哭声对应的哭声类别，最终确认婴儿哭声的具体含义。但是，由于婴儿个体之间存在差异，相同哭声表达的不同的需求，特别是在婴儿发声异常时，如声音沙哑、有异物，此时采集的音频信息明显无法判断出婴儿的哭声类别；因此，采用语音识别技术识别婴儿哭声时，准确度和精准度不高，导致用户体验度不高。

技术实现要素：

有鉴于此，本发明实施例提供了一种智能识别婴儿哭声类别的方法及装置，用以解决通过语音识别判断婴儿哭声，存在准确性低的技术问题。

本发明采用的技术方案是：

本发明提供了一种智能识别婴儿哭声类别的方法，所述方法包括：

s20：至少获取婴儿啼哭时声音的音频特征和与婴儿声带振动相对应的振动频谱；

s21：对所述音频特征和所述振动频谱进行特征融合，输出融合后的融合特征；

s22：将所述融合特征输入预置的神经网络，输出与哭泣状态对应的编码特征向量；

s23：根据所述编码特征向量，输出所述哭泣状态的哭声类别。

优选地，所述s20包括：

s201：获取婴儿哭声对应的音频信号；

s202：利用梅尔滤波器对所述音频信号进行特征提取，得到所述音频特征；

其中，所述音频特征为梅尔频率倒谱系数mfcc特征。

优选地，所述s20包括：

s203：获取婴儿啼哭时与声带振动相对应的电信号；

s204：根据所述音频信号中各帧音频的时间长度对所述电信号进行分段，得到多个连续的电信号片段；

s205：对多个连续的所述电信号片段进行短时傅里叶变换，输出所述振动频谱。

优选地，所述s21包括：

s211：对各帧音频的mfcc特征和各所述电信号片段的所述振动频谱进行主成分分析法降维处理，输出降维后的所述音频信号中各帧音频的mfcc特征和各所述电信号片段；

s212：对降维后的各帧音频的所述mfcc特征与各帧音频对应的电信号的所述振动频谱进行特征融合，得到各所述融合特征。

优选地，所述s212包括：

s2121：获取所述振动频谱的频率变化阈值，以及与各帧音频相对应的振动频谱的振动频率；

s2122：利用所述频率变化阈值对各所述振动频率进行分段，得到多个连续的频率段；

s2123：将各所述频率段对应的振动频谱与各频率段分别对应的所有帧音频的mfcc特征进行特征融合，得到与各频率段对应的所述融合特征。

优选地，所述s22包括：

s221：获取所述神经网络的特征矩阵容量；

s222：将所述融合特征与卷积核进行卷积计算，输出与各所述电信号片段对应的编码特征向量；

s223：根据所述特征矩阵容量和各所述编码特征向量，得到当前特征矩阵中的各所述编码特征向量。

优选地，所述s23包括：

s231：获取哭声类别阈值；

s232：对比当前所述编码特征向量对应的第一哭声类别和前一所述编码特征向量对应的第二哭声类别，输出类别对比结果；

s233：若所述对比结果为相同，则进行计数加1；否则，计数清0；

s234：当计数的值等于所述哭声类别阈值时，输出所述哭声类别。

本发明还提供了一种智能识别婴儿哭声类别的装置，包括：

参数获取模块：用于至少获取婴儿啼哭时声音的音频特征和与婴儿声带振动相对应的振动频谱；

特征融合模块：用于对所述音频特征和所述振动频谱进行特征融合，输出融合后的融合特征；

神经网络模块：用于将所述融合特征输入预置的神经网络，输出与哭泣状态对应的编码特征向量；

类别输出模块：用于根据所述编码特征向量，输出所述哭泣状态的哭声类别。

本发明还提供了一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现上述任一项所述的方法。

本发明还提供了一种介质，其上存储有计算机程序指令，当所述计算机程序指令被处理器执行时实现上述任一项所述的方法。

综上所述，本发明的有益效果如下：

本发明提供的一种智能识别婴儿哭声类别的方法及装置，获取婴儿哭声对应的音频特征和声带的振动频谱；通过对音频特征和振动频谱进行特征融合，将融合后的融合特征经过预置的神经网络转换为对应的编码特征向量；从而输出各哭上类别对应的概率，得到哭声类别；通过获取声带振动产生的音频特征结合振动特征，提高哭声识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，这些均在本发明的保护范围内。

图1为本发明实施方式一的实施例1中婴儿哭声类别识别方法的流程示意图；

图2为本发明实施方式一的实施例1中获取振动频谱的流程示意图；

图3为本发明实施方式一的实施例1中通过傅里叶变换获取振动频谱的流程示意图；

图4为本发明实施方式一的实施例1中通过归一化处理电信号获取振动频谱的流程示意图；

图5为本发明实施方式一的实施例1中相似度判断输出哭声类别的流程示意图；

图6为本发明实施方式一的实施例1中哭声检测的流程示意图；

图7为本发明实施方式一的实施例2中结合声带振动和姿态识别婴儿哭声类别的方法的流程示意图；

图8为本发明实施方式一的实施例2中获取音频特征的流程示意图；

图9为本发明实施方式一的实施例2中获取声带振动的振动频谱的流程示意图；

图10为本发明实施方式一的实施例2中获取融合特征的流程示意图；

图11为本发明实施方式一的实施例2中振动频谱与音频融合的流程示意图；

图12为本发明实施方式一的实施例2中获取编码特征向量的流程示意图；

图13为本发明实施方式一的实施例2中根据哭声阈值获取哭声类别的流程示意图；

图14为本发明实施方式一的实施例3中多特征融合识别婴儿哭声类别的方法的流程示意图；

图15为本发明实施方式一的实施例3中获取姿态的运动特征的流程示意图；

图16为本发明实施方式一的实施例3中通过数据库中的标准运动特征值确定运动特征的流程示意图；

图17为本发明实施方式一的实施例3中获取振动频谱的流程示意图；

图18为本发明实施方式一的实施例3中通过梅尔滤波器获取音频特征的流程示意图；

图19为本发明实施方式一的实施例3中多特征融合的流程示意图；

图20为本发明实施方式一的实施例3中以振动频率进行多特征融合的流程示意图；

图21为本发明实时方式二的实施例4中可持续优化摄像头效果的装置的结构示意图；

图22为本发明实时方式二的实施例5中智能摄像头样本置信度阈值选择装置的结构框图；

图23为本发明实时方式二的实施例6中智能摄像头模型自训练的装置的结构示意图；

图24为本发明实施方式三中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如果不冲突，本发明施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。

实施方式一

实施例1

请参见图1，图1为本发明实施例1中婴儿哭声类别识别方法的流程示意图；所述方法包括：

s10：获取婴儿啼哭时与婴儿声带振动相对应的电信号；

具体的，当确定婴儿啼哭时，获取声带振动产生的电信号，该电信号可以为声带的振动参数转换得到的电信号，也可以是，光学图像信号转换得到的电信号；该振动信号为连续的，且非平稳的；需要说明的是：可以通过压电式传感器采集声带振动，也可以通过其他光学元器件获取声带振动参数，如：红外线、雷达波、摄像头采集的视频等。

s11：根据所述电信号输出婴儿啼哭时声带振动对应的振动频谱；

具体的，实时获取音频信息，将音频信息输入声音检测模型进行声音识别，其中，声音检测模型为门控制循环神经网络(gru)；当检测出音频信息中包含婴儿哭声时，则获取婴儿哭泣时声带振动对应的电信号，该电信号为非平稳电信号；对电信号进行短时傅里叶变换，输出振动频谱。

在一实施例中，请参见图2，所述s11包括：

s111：对所述电信号按预设时长进行分段，得到多个连续的电信号片段；

具体的，声带振动的电信号为关于时间的连续信号；以等时间间隔将振动信号分为多个电信号片段；在一应用实施例中，电信号为压电式传感器检测的非平稳电信号。

s112：对多个连续的所述电信号片段进行短时傅里叶变换，输出所述振动频谱；

在一实施例中，请参见图3，所述s112包括：

s1121：获取窗函数；

s1122：根据公式对多个连续的所述电信号片段进行短时傅里叶变换，输出与各所述电信号片段对应的所述振动频谱；

其中，x为采集的信号对应的振动频谱，x为采集的时域信号，f为频率，窗函数为w(t-τ)，τ为窗口移动变量，t为时间。

具体的，在傅里叶变化中加入窗函数，防止频谱泄露；可以提高振动频谱的准确性。

在一实施例中，在所述s1031中，所述窗函数为：

其中，a，b均为常数，n为窗函数变量，n为大于1的正整数。

在一实施例中，请参见图4，所述s112包括：

s1123：获取所述电信号中的各峰值，且从各峰值中找出最大峰值；

s1124：利用各所述峰值除以所述最大峰值对所述电信号进行归一化处理，得到所述振动频谱；

其中，峰值为电信号的波峰值和/或波谷值。

具体的，不同哭声对应的需求不同，采集婴儿哭泣时声带振动产生的电信号值，提取所有电信号值中各波峰和/或波谷，然后对采集的各周期内的波峰值和波谷值进行归一化处理，得到电信号的振动频谱；保证数据的稳定性。

s12：将所述振动频谱与数据库各标准振动频谱进行对比，输出与该所述振动频谱对应的哭声类别。

在一实施例中，请参见图5，所述s12包括：

s121：获取各哭声类别对应的阈值；

具体的，对经过神经网络判断的哭声类别设置是否输出的阈值，将符合阈值要求的哭声类别进行输出，将不符合阈值要求的哭声类别舍去，不输出。

s122：根据公式对所述振动频谱与各所述标准振动频谱进行对比，输出多个相似度值构成的相似度值组；

具体的，将采集的电信号对应的振动频谱与数据库中的标准振动频谱进行对比，得到此时哭声与各哭声类别的相似度值，将所有相似度值作为一个相似度值组。

s123：从所述相似度值组中找出最大相似度值对应的哭声类别；

具体的，从相似度值组中找出最大相似度值，然后将最大相似度值对应的哭声类别作为本次结果。

s124:将所述最大相似度值与表征所述最大相似度值对应的哭声类别的阈值进行对比，输出哭声类别；

其中，x为振动频谱，y为数据库中的标准振动频谱，xi为振动频谱的第i个信号片段的值，yi为标准振动频谱的第i个信号片段的值；μx和μy分别为x中各电信号片段和y中各电信号片段的均值，σx和σy分别为x中各电信号片段和y中各电信号片段的标准差，q为采集声带振动对应的电信号长度。

具体的，将最大相似度值对应的哭声类别作为本次待输出的哭声类别，然后用该待输出的哭声类别对应的阈值与最大相似度进行对比，若大于阈值，则将该相似度对应的哭声类别进行输出，若小于阈值，则不输出任何哭声类别，可以理解为此振动频谱无效；在一应用实施例中，可以对最大相似度值大于哭声类别阈值进行计数，若连续k次最大相似度值均大于哭声类别阈值，则输出该哭声类别；若后一最大相似度值对应的哭声类别不同，则计数清零；若计数过程中出现最大相似度值小于哭声类别阈值，则计数清零；通过累加方式，可以提高检测的准确性。

在一实施例中，请参见图6，在所述s10之前还包括：

s1：获取检测到的音频信号；

具体的，当检测到声音后，获取各帧音频；如：以频率16khz、量化进度为16bit、每512个采样点作为一帧，每帧重叠256个采样点，也就是帧长32ms、帧移16ms进行采集，得到各帧音频。

s2：对所述音频信号进行处理，提取所述音频信号的mfcc特征；

具体的，对采集的每一帧音频进行傅里叶变换得到音频信号的带宽，确定目标带宽；再由梅尔滤波器组按目标带宽进行滤波处理，得到梅尔频率倒谱系数，然后进行对数变换进行放大，使得特征更加明显；利用离散余弦变化提取梅尔频率倒谱系数的离散值作为梅尔频率倒谱系数(mfcc)特征。

s3：将所述mfcc特征输入预设的婴儿哭声识别模型，确定所述婴儿当前是否在啼哭。

具体的，将mfcc特征输入婴儿哭声识别模型，判断音频信号是否为婴儿哭声；若是婴儿哭声，则开启婴儿哭声检测，根据哭声检测结果，得到哭声类别。

采用本实施例的婴儿哭声类别识别方法，通过获取婴儿哭泣时声带振动的电信号，将该电信号转换为对应的振动频谱，将振动频谱与数据库的标准振动频谱进行对比；得到与振动频谱对应的哭声类别。利用婴儿声带振动的振动频谱判断婴儿哭声类型；能够准确检测婴儿个体差异造成的发声差异，或婴儿声音沙哑等异常时造成的哭声异常，提高婴儿哭声类别识别的准确性。

实施例2

在实施例1中，通过声带振动对应的振动参数，来确定婴儿哭声的哭声类别，由于婴儿声带处于发育初期，声带振动的差异小，采集的振动参数准确性低，最终影响哭声类别检测的准确性。因此本发明实施例2在实施例1的基础上对婴儿哭声产生的音频信号也进行进一步分析；请参见图7，所述方法包括：

s20：至少获取婴儿啼哭时声音的音频特征和与婴儿声带振动相对应的振动频谱；

具体的，婴儿啼哭时，至少采集包含有哭声的音频信号和对应的声带的振动参数；通过对音频信号进行处理得到音频特征，以及对振动参数进行处理，得到振动频谱，采集婴儿啼哭时的信息还可以是姿体动作的运动特征值、呼吸频率、面部颜色信息、面部温度信息等。

在一实施例中，请参见图8，所述s20包括：

s201：获取婴儿哭声对应的音频信号；

s202：利用梅尔滤波器对所述音频信号进行特征提取，得到所述音频特征；

其中，所述音频特征为梅尔频率倒谱系数mfcc特征。

具体的，以频率16khz、量化进度为16bit、每512个采样点作为一帧，每帧重叠256个采样点，也就是帧长32ms、帧移16ms进行采集，得到各帧音频；对采集的每一帧音频进行傅里叶变换，从而将音频信号由时域信号转变为频域信号和音频信号的带宽，确定目标带宽；再由梅尔滤波器组按目标带宽进行滤波处理，得到梅尔频率倒谱系数，然后进行对数变换进行放大，使得特征更加明显；利用离散余弦变化提取梅尔频率倒谱系数的离散值作为梅尔频率倒谱系数(mfcc)特征。

在一实施例中，请参见图9，所述s20包括：

s203：获取婴儿啼哭时与声带振动相对应的电信号；

具体的，当确定婴儿啼哭时，采集声带振动对应的振动参数和/或声带振动对应的光学图像信号，然后得到声带振动的电信号；振动参数和光学图像信号的获取方式至少包括以下之一：图像传感器、红外线、雷达波和压电式传感器。

s204：根据所述音频信号中各帧音频的时间长度对所述电信号进行分段，得到多个连续的电信号片段；

具体的，声带振动的电信号为关于时间的连续信号；以与音频信号中各帧音频对应的时间长度将电信号分为多个片段；其中，声带振动产生的初始电信号为非平稳信号。

s205：对多个连续的所述电信号片段进行短时傅里叶变换，输出所述振动频谱；

s21：对所述音频特征和所述振动频谱进行特征融合，输出融合后的融合特征；

在一实施例中，请参见图10，所述s21包括：

具体的，采用主成分分析法降维处理，可以有效提取信号中的关键成分，降低数据的复杂程度；需要说明的是：降维处理为对整个音频信号的mfcc特征和对应的振动频谱的统一处理，或者为对每一帧音频和每一帧音频对应的电信号的振动频谱进行单独处理。

s212：对降维后的各帧音频的所述mfcc特征与各帧音频对应的电信号的所述振动频谱进行特征融合，得到各所述融合特征。

具体的，采用主成分分析法降维处理，可以有效提取音频信号中各帧音频的关键成分，降低数据的复杂程度；然后由各帧音频的mfcc特征中的关键成分与各帧音频对应的各电信号片段的关键成分进行特征融合，可以消除数据中的冗余信息，提高数据准确性。

在一实施例中，请参见图11，所述s212包括：

s2121：获取所述振动频谱的频率变化阈值，以及与各帧音频相对应的振动频谱的振动频率；

具体的，获取振动频谱与各帧音频对应的振动频率，设置相邻帧的振动频率的频率变化阈值。

s2122：利用所述频率变化阈值对各所述振动频率进行分段，得到多个连续的频率段；

具体的，对比相邻帧音频对应的振动频谱中的振动频率，判断振动频率变化与频率变化阈值的关系，若与相邻帧音频对应的振动频率变化大于频率变化阈值，则该相邻的两帧音频属于不同的频率段，若与相邻帧音频对应的振动频率变化小于等于频率变化阈值，则该相邻的两帧音频属于同一频率段，从而将振动频谱划分为多个连续的频率段。

s2123：将各所述频率段对应的振动频谱与各频率段分别对应的所有帧音频的mfcc特征进行特征融合，得到与各频率段对应的所述融合特征。

具体的，根据各频率段的长度，将音频信息分为对应的各段音频，然后将与各频率段的振动频谱对应的各帧音频的mfcc特征进行特征融合，从而保证在同一哭声需求下，提高声音异常的检测准确性，如：婴儿情绪激动、长时间大声哭泣导致声音嘶哑，在此过程中，振动频谱对应的所有振动频率划入同一频率段，然后进行特征融合，保证融合特征的可靠性，提高检测准确性。

s22：将所述融合特征输入预置的神经网络，输出与哭泣状态对应的编码特征向量；

具体的，将获取的振动频谱输入神经网络，振动频谱与卷积核进行卷积计算；将卷积后的特征转化为一个一维向量输出；然后再由门控循环神经网络(gru)，得到该编码特征向量，该编码特征向量为一维向量。

在一实施例中，请参见图12，所述s22包括：

s221：获取所述神经网络的特征矩阵容量；

具体的，特征矩阵容量为用于判定某一时刻婴儿哭声表征的哭声类别所需要的特征数量；也就是说，神经网络根据特征矩阵中的所有编码特征向量输出对应的哭声类别；当特征矩阵中的编码特征向量更新后，神经网络将输出一个新的哭声类别。

s222：将所述融合特征与卷积核进行卷积计算，输出与各所述电信号片段对应的编码特征向量；

s223：根据所述特征矩阵容量和各所述编码特征向量，得到当前特征矩阵中的各所述编码特征向量。

具体的，将各融合特征依次与卷积核进行卷积计算，输出各编码特征向量；，在一个融合特征进入特征矩阵前，将特征矩阵的最后一行删除，其余行整体下移一行，最新的融合特征进入特征矩阵的第一行；通过卷积计算，将该二维的融合特征变形为一个一维向量；然后通过门控制循环神经网络(gru)将该一维向量庄边为一个编码特征向量；同时，编码特征的最后一行编码特征向量删除，其余行编码特征向量整体下移，将得到的编码特征向量置于第一行；从而完成编码特征向量的更新；对更新后的所有编码特征向量进行加权平均，输出最后的编码特征向量，然后经过激活函数输出各哭声类别对应的概率。

s23：根据所述编码特征向量，输出所述哭泣状态的哭声类别。

在一实施例中，请参见图13，所述s23包括：

s231：获取哭声类别阈值；

具体的，对每一次输出的哭声类别进行统计，并设置同一哭声类别连续出现的哭声类别阈值，当达到阈值后则以该哭声类别进行输出。

s232：对比当前所述编码特征向量对应的第一哭声类别和前一所述编码特征向量对应的第二哭声类别，输出类别对比结果；

s233：若所述对比结果为相同，则进行计数加1；否则，计数清0；

s234：当计数的值等于所述哭声类别阈值时，输出所述哭声类别。

具体的，将前一哭声类别和当前哭声类别进行对比，若相邻两次输出的哭声类别为同一类别，则内部计数器进行计数加1；若相邻两次哭声类别不同，则对计数器的计数值清零，当同一哭声类别连续出现的次数达到哭声类别阈值，则以该哭声类别作为本次哭声类别输出。

在一实施例中，所述哭声类别至少包括以下之一：饥饿、疼痛、开心和不适。

在一实施例中，预置的神经网络包括至少一个场景的子神经网络，场景至少包括以下之一：各季节对应的黑夜、白天、户外、晴天、阴天、雨天、室内等。

在一实施例中，所述s22包括：

s224：获取婴儿哭泣时对应的时间信息和环境信息；

具体的，婴儿哭泣时，参看此时的时间，如：早餐时间、上午、午餐时间、下午、晚餐时间和夜间等，环境信息至少包括以下之一：室内、户外、晴天、雨天等。

s225：根据所述时间信息和所述环境信息，确定对应的所述子神经网络作为目标神经网络；

具体的，根据婴儿哭泣的时间段和哭泣时所处的环境，确定对容和特征进行卷积计算的子神经网络，将该子神经网络记为目标神经网络。

s226：利用所述目标神经网络对所述融合特征进行卷积计算，输出与哭泣状态对应的编码特征向量。

采用本实施例的智能识别婴儿哭声类别的方法，获取婴儿哭声对应的音频特征和声带的振动频谱；通过对音频特征和振动频谱进行特征融合，将融合后的融合特征经过预置的神经网络转换为对应的编码特征向量；从而输出各哭上类别对应的概率，得到哭声类别；通过获取声带振动产生的音频特征结合振动特征，提高哭声识别的准确性。

实施例3

在实施例1和实施例2中，通过声带振动对应的振动参数哭声的音频信号，来确定婴儿哭声的哭声类别，由于婴儿声带处于发育初期，声带发育不完善，声带的振动和哭声对于需求的表达存在范围小，使得可以匹配的样本受限，最终导致错误判断；因此在实施例1的基础上引入了婴儿的啼哭状态对应的姿态信息进行进一步改进；请参见图14，所述方法包括；

s30：获取婴儿啼哭时声音的音频特征、姿态动作对应的动作特征和与声带振动对应的振动频谱；

具体的，检测到婴儿啼哭时，获取包括哭声的视频流，以及婴儿声带振动的振动参数；提取视频流中的音频特征、动作特征；以及声带振动对应的振动频谱；其中，动作特征包括肢体动作和面部微表情；采集婴儿啼哭时的信息还可以是姿体动作的运动特征值、呼吸频率、面部颜色信息、面部温度信息等。

在一实施例中，请参见图15，所述s30包括：

s301：获取婴儿啼哭时的视频流；

s302：提取所述视频流中各帧图像的运动特征值；

具体的，将视频流拆分为多帧图像；由多个连续的图像构成一个动作；提取各动作在各帧图像的运动特征值；在一应用实施例中，对视频流中的各帧图像采用卡尔曼滤波方法进行滤波处理，消除图像的背景干扰，然后提取图像中的运动特征值；采用卡尔曼滤波方法可以消除图像之间的背景变换慢，且主要为光影变化；提高检测效率和检测结果的准确性。

需要说明的是：以频率16khz、量化进度为16bit、每512个采样点作为一帧，每帧重叠256个采样点，也就是帧长32ms、帧移16ms进行采集，得到各帧图像。

s303：将各所述运动特征值与动作行为数据库进行对比，将各帧图像的运动特征值转换为所述动作行为数据库中的对应的所述运动标准特征值，得到所述运动特征。

具体的，将各动作在各帧图像中的运动特征值与运动行为数据库进行对比，输出动作行为数据库中与各动作匹配的运动特征值作为各动作的实际运动特征值，将该值作为各动作的动作特征；利用动作行为数据库的运动特征值表征实际采集的各动作的动作特征值，可以保证特征融合的数据稳定性。

在一实施例中，请参见图16，所述s303包括：

s3031：收集婴儿多个动作对应的图像样本集；

s3032：提取所述图像样本集中各图像的运动特征值；

具体的，对各动作的各帧图像记性运动特征提取，得到各帧图像的运动特征值；根据各帧图像的运动特征值，输出该动作的运动特征值的变化区间。

s3033：对各动作的所述运动特征值与各类别的哭声状态进行关联；输出动作行为数据库；

具体的，获取各动作对应的哭声信息，对各动作的运动特征值取值范围与对应的哭声信息进行关联，建立动作行为数据库。

s3034：将各所述运动特征值与动作行为数据库进行对比，输出所述运动标准特征值，得到所述运动特征。

在一实施例中，请参见图17，所述s30包括：

s304：获取婴儿啼哭时声带振动产生的电信号；

具体的，当确定婴儿啼哭时，采集声带振动对应的振动参数和/或声带振动对应的光学图像信号，然后得到声带振动的电信号；振动参数和光学图像信号的获取方式参见实施例1，此处不再赘述。

s305：根据各帧图像的时间长度对所述电信号进行分段，得到多个连续的电信号片段；

具体的，声带振动的电信号为关于时间的连续信号；以与音频信号中各帧对应的时间长度将电信号分为多个片段；该电信号为非平稳信号。

s306：对多个连续的所述电信号片段进行短时傅里叶变换，输出所述振动频谱。

在一实施例中，请参见图18，所述s30包括：

s307：获取婴儿哭泣时声音的音频信号；

s308：利用梅尔滤波器对所述音频信号进行特征提取，得到所述音频特征；

其中，所述音频特征为梅尔频率倒谱系数mfcc特征。

具体的，对各帧音频信号进行短时傅里叶变换处理，从而将音频信号由时域信号转变为频域信号，在通过傅里叶变换得到频域信号的音频信号后，对各帧音频信号由梅尔滤波器组进行滤波处理，以及对数变换和离散余弦变换后，提取梅尔频率倒谱系数mfcc特征。

s31：对所述音频特征、所述动作特征和所述振动频谱进行特征融合，输出融合后的融合特征；

在一实施例中，请参见图19，所述s31包括：

s311：对各帧音频的mfcc特征、各帧图像的所述动作特征和各所述电信号片段的所述振动频谱进行主成分分析法降维处理，输出降维后的各帧音频的mfcc特征、各帧图像的所述动作特征和各所述电信号片段的所述振动频谱；

具体的，采用主成分分析法降维处理，可以有效提取信号中的关键成分，降低数据的复杂程度；需要说明的是：降维处理为对整个音频信号的mfcc特征、视频流的动作特征和对应的振动频谱的统一处理，或者为对每一帧音频、每一帧音频对应的电信号的振动频谱、与每一帧音频对应的图像进行单独处理。

s312：对降维后的各帧对应图像的所述运动特征、对应音频信号的mfcc特征和对应电信号的振动频谱进行特征融合，得到各所述融合特征。

具体的，采用主成分分析法降维处理，可以有效提取信号中的关键成分，降低数据的复杂程度；然后由各帧的mfcc特征中的关键成分、各帧图像对应的动作特征和对应的各电信号片段的关键成分进行特征融合，可以消除数据中的冗余信息，提高数据准确性。

在一实施例中，请参见图20，所述s31包括：

s313：获取所述振动频谱的频率变化阈值，以及与各帧音频信息相对应的振动频谱的振动频率；

具体的，获取振动频谱与各帧音频信息对应的振动频率，设置相邻帧的振动频率的频率变化阈值。

s314：利用所述频率变化阈值对各所述振动频率进行分段，得到多个连续的频率段；

具体的，对比相邻帧音频对应的振动频率，判断振动频率变化与频率变化阈值的关系，若与相邻帧音频对应的振动频率变化大于频率变化阈值，则该相邻的两帧音频属于不同的频率段，若与相邻帧音频对应的振动频率变化小于等于频率变化阈值，则该相邻的两帧音频属于同一频率段，从而将振动频谱划分为多个连续的频率段。

s315：将各所述频率段对应的振动频谱、所有帧图像对应的所述动运动特征、以及所有帧音频的mfcc特征进行特征融合，得到与各频率段对应的所述融合特征。

具体的，将各频率段的振动频谱与对应的各帧音频的mfcc特征、对应的各帧图像的所述动运动特征、进行特征融合，从而保证在同一哭声需求下，提高声音异常的检测准确性，如：婴儿情绪激动、长时间大声哭泣导致声音嘶哑，在此过程中，振动频谱对应的所有振动频率划入同一频率段，由于在这一频率段中对应的声音信息存在异常哭声，通过对应时间段婴儿的面部、肢体等的运动特征，进行多特征融合，实现运动特征对哭声的加权，保证融合特征的可靠性，提高检测准确性；又如：夜间婴儿突然大声哭泣，并伴随大幅度的肢体动作，但持续时间短，此时通过运动特征的加权，使得融合特征具有的属性是偏向于婴儿属于噩梦情景，因此将该融合特征输入神经网络进行卷积计算后，输出的哭声类别中噩梦概率最大，监护人可以进行安抚等动作。

s32：将所述融合特征输入预置的神经网络，输出与哭泣状态对应的编码特征向量；

在一实施例中，所述s32包括：

s321：获取所述神经网络的特征矩阵容量；

s322：将所述融合特征与卷积核进行卷积计算，输出与各所述电信号片段对应的编码特征向量；

s323：根据所述特征矩阵容量和各所述编码特征向量，得到当前特征矩阵中的各所述编码特征向量。

具体的，将各融合特征依次与卷积核进行卷积计算，输出各编码特征向量；请参见图x，在一个融合特征进入特征矩阵前，将特征矩阵的最后一行删除，其余行整体下移一行，最新的融合特征进入特征矩阵的第一行；通过卷积计算，将该二维的融合特征变形为一个一维向量；然后通过门控制循环神经网络(gru)将该一维向量庄边为一个编码特征向量；同时，编码特征的最后一行编码特征向量删除，其余行编码特征向量整体下移，将得到的编码特征向量置于第一行；从而完成编码特征向量的更新；对更新后的所有编码特征向量进行加权平均，输出最后的编码特征向量，然后经过激活函数输出各哭声类别对应的概率；对比各哭声类别的概率，输出哭声类别。

s33：根据所述编码特征向量，输出所述哭泣状态的哭声类别。

采用本实施例的多特征融合识别婴儿哭声类别的方法，通过融合婴儿哭泣时的音频特征、声带振动特征和姿态特征，对融合后的融合特征输入神经网络进行婴儿哭声类别分析，输出对应的哭声类别；通过结合婴儿哭泣时的姿态特征，可以弥补声音信号和声带振动频谱对哭声判别的极限，用姿态特征来强化婴儿的需求，可以减低错误判断，提高哭声检测准确性。

实施方式二

实施例4

本发明实施例4基于实施例1至实施例3的方法对应还提供了一种婴儿哭声类别识别装置，请参见图21，包括：

信号采集模块：用于获取婴儿啼哭时与婴儿声带振动相对应的电信号；

信号处理模块：用于根据所述电信号输出婴儿啼哭时声带振动对应的振动频谱；

哭声类别模块：用于将所述振动频谱与数据库各标准振动频谱进行对比，输出与该所述振动频谱对应的哭声类别。

采用本实施例的婴儿哭声类别识别装置，通过获取婴儿哭泣时声带振动的电信号，将该电信号转换为对应的振动频谱，将振动频谱与数据库的标准振动频谱进行对比；得到与振动频谱对应的哭声类别。利用婴儿声带振动的振动频谱判断婴儿哭声类型；能够准确检测婴儿个体差异造成的发声差异，或婴儿声音沙哑等异常时造成的哭声异常，提高婴儿哭声类别识别的准确性。

需要说明的是，该装置还包括实施例1至实施例3记载的其余技术方案，此处不再赘述。

实施例5

在实施例4中，通过声带振动对应的振动参数，来确定婴儿哭声的哭声类别，由于婴儿声带处于发育初期，声带振动的差异小，采集的振动参数准确性低，最终影响哭声类别检测的准确性；因此在实施例4的基础上引入了哭声的音频信号进行进一步改进；请参见图22，包括：

参数获取模块：用于至少获取婴儿啼哭时声音的音频特征和与婴儿声带振动相对应的振动频谱；

特征融合模块：用于对所述音频特征和所述振动频谱进行特征融合，输出融合后的融合特征；

神经网络模块：用于将所述融合特征输入预置的神经网络，输出与哭泣状态对应的编码特征向量；

类别输出模块：用于根据所述编码特征向量，输出所述哭泣状态的哭声类别。

采用本实施例的智能识别婴儿哭声类别的装置，获取婴儿哭声对应的音频特征和声带的振动频谱；通过对音频特征和振动频谱进行特征融合，将融合后的融合特征经过预置的神经网络转换为对应的编码特征向量；从而输出各哭上类别对应的概率，得到哭声类别；通过获取声带振动产生的音频特征结合振动特征，提高哭声识别的准确性。

需要说明的是，该装置还包括实施例4记载的其余技术方案，此处不再赘述。

实施例6

在实施例4和实施例5中，通过声带振动对应的振动参数哭声的音频信号，来确定婴儿哭声的哭声类别，由于婴儿声带处于发育初期，声带发育不完善，声带的振动和哭声对于需求的表达存在范围小，使得可以匹配的样本受限，最终导致错误判断；因此在实施例4和实施例5的基础上引入了婴儿哭泣时对应的姿态信息进行进一步改进；请参见图23，包括：

特征采集模块：用于获取婴儿啼哭时声音的音频特征、姿态动作对应的动作特征和与声带振动对应的振动频谱；

融合特征输出模块：用于对所述音频特征、所述动作特征和所述振动频谱进行特征融合，输出融合后的融合特征；

编码特征输出模块：用于将所述融合特征输入预置的神经网络，输出与哭泣状态对应的编码特征向量；

哭声类别输出模块：用于根据所述编码特征向量，输出所述哭泣状态的哭声类别。

采用本实施例的多特征融合识别婴儿哭声类别的装置，通过融合婴儿哭泣时的音频特征、声带振动特征和姿态特征，对融合后的融合特征输入神经网络进行婴儿哭声类别分析，输出对应的哭声类别；通过结合婴儿哭泣时的姿态特征，可以弥补声音信号和声带振动频谱对哭声判别的极限，用姿态特征来强化婴儿的需求，可以减低错误判断，提高哭声检测准确性。

需要说明的是，该装置还包括实施例4和/或实施例5记载的其余技术方案，此处不再赘述。

实施方式三：

本发明提供了一种电子设备和存储介质，如图24所示，包括至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令。

具体地，上述处理器可以包括中央处理器(cpu)，或者特定集成电路(applicationspecificintegratedcircuit，asic)，或者可以被配置成实施本发明实施例的一个或多个集成电路，电子设备至少包括以下之一：摄像头、具有摄像头的移动设备、具有摄像头的穿戴设备。

存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(harddiskdrive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性固态存储器。在特定实施例中，存储器包括只读存储器(rom)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例方式一中任意一种婴儿哭声类别识别方法、智能识别婴儿哭声类别的方法、多特征融合识别婴儿哭声类别的方法。

在一个示例中，电子设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

综上所述，本发明实施例提供了一种婴儿哭声类别识别方法、智能识别婴儿哭声类别的方法、多特征融合识别婴儿哭声类别的方法、装置、设备及存储介质。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

智能识别婴儿哭声类别的方法及装置与流程

相关文章

最热文献