一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于随机森林算法的运动物体识别方法、装置和系统与流程

2022-04-27 08:05:27 来源:中国专利 TAG:


1.本公开涉及智能识别技术领域,尤其涉及一种基于随机森林算法的运动物体识别方法、装置和系统。


背景技术:

2.监控设备被广泛安装应用于监控社区中的行人,公路上的车流,自然保护区的动物例如珍贵的鸟类等。这些应用中人和车的识别,比较关注和成熟,但在自然保护区中动物等珍惜物种的监测却并不成熟。当前,主要是动物的监控识别,是通过视频图像数据,利用深度学习中卷积随机森林算法来开展。
3.现有运动物体(特别是动物)识别主要是通过深度学习中卷积随机森林算法来识别图像,但是图像处理时存在一些问题,最主要的是精度不高,算法速度慢,主要原因是对全图进行卷积,对背景复杂的影响需要检测大量与目标不相干的物体,造成算法冗余,而且误判严重。第二,这些算法需要大量的人工提供样本图片,这是极其困难的,目前主要是利用网络上的数据库,但是这没有统一的图片标准,和监控设备采样的数据存在差距,如果直接从采样设备中采取样本,人工成本和时间成本过高,而且人个体自己的差异难以消除,这也势必降低准确度。第三,这些算法监控往往是对个体的检测,也没有考虑到其行为特征和行为与时空环境的关系。
4.鉴于此,有必要提供一种运动物体识别方案,能够提高对运动物体的识别速度和精度。


技术实现要素:

5.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
6.本公开实施例提供了一种基于随机森林算法的运动物体识别方法、装置和系统,基于随机森林算法以实现对运动物体的准确识别。
7.第一方面,本公开实施例提供了一种基于随机森林算法的运动物体识别方法,包括:
8.步骤s100,获取运动物体的样品数据,所述样品数据包括运动物体的图像、运动物体的声音信号和运动物体的所处环境时空特征数据;
9.步骤s200,根据所述运动物体的图像确定运动物体的图像特征;根据所述运动物体的声音信号确定运动物体的声音特征;根据所述运动物体的所处环境时空特征数据确定运动物体的第一所处环境时空特征;
10.步骤s300,将所述运动物体的图像特征、运动物体的声音特征和运动物体的第一所处环境时空特征作为特征集,生成对运动物体进行识别的随机森林模型;其中,所述随机森林模型记为运动物体识别模型;
11.步骤s400,根据所述运动物体识别模型对实时采集的运动物体进行类别识别。
12.进一步,
13.所述步骤s200中,所述根据所述运动物体的图像确定运动物体的图像特征,包括:
14.步骤s211,获取运动物体的图像,具体为:通过摄像机对固定区域进行拍摄得到视频图像,通过直方图分布方式对视频图像中的每一帧进行分析,查询峰值点像素值,根据运动物体所在的值域,判断出背景图像帧和存在运动物体的图像帧,以所述背景图像帧和存在运动物体的图像帧的集合作为运动物体的图像;
15.步骤s212,从运动物体的图像中提取运动物体的图像特征集;其中,运动物体的图像特征集包括:运动物体的个体轮廓特征、运动物体的个体大小特征、运动物体的个体色彩特征、运动物体的个体纹理特征、运动物体的群体特征和运动物体的第二所处环境时空特征。
16.进一步,本基于随机森林算法的运动物体识别方法还包括运动物体的样本图片的提取,具体为:根据直方图分布方式从运动物体的图像中挑选出运动物体的图像帧和背景图像帧,将运动物体的图像帧和背景图像帧进行相减,得到只保留运动物体的图像,通过联通区域算法提取运动物体的边缘,确定运动物体在图像中的所在位置,利用边缘包围对所述运动图像的图像帧进行包围,通过对所述运动物体的图像帧进行剪切的方式,将所述边缘包围的图像剪切出来,得到运动物体的样本图片。
17.进一步,从运动物体的图像中提取运动物体的图像特征集的具体方法包括:
18.从运动物体的图像中提取运动物体的个体轮廓特征的具体方法包括:通过直方图分布方式判断出背景图像帧和存在运动物体的图像帧,通过将存在运动物体的图像帧和背景图帧进行相减,得到运动物体的轮廓图,通过联通区域从所述轮廓图中获取轮廓,通过链码和形状数对轮廓进行表示,得到与轮廓的边界最吻合的多边形,以所述多边形作为运动物体的个体轮廓特征;
19.从运动物体的图像中提取运动物体的大小特征的具体方法包括:对摄像机进行标定,根据摄像机的成像几何参数对运动物体的图像进行三维重构得到三维体,构建运动物体的二维图像像素位置与三维体的对应关系,根据运动物体的二维图像像素位置与三维体的对应关系计算得到运动物体的实际大小,得到运动物体的大小特征,具体通过公式表示为:
[0020][0021]
其中,i表示为像素,xi表示为像素位置,f(xi)表示为运动物体的二维图像像素位置与三维体的对应关系;d(xi)表示为摄像机的成像几何参数,n表示为运动物体的图像的像素量;
[0022]
从运动物体的图像中提取运动物体的色彩特征的具体方法包括:对运动物体的图像进行色彩划分,划分出多个色彩区间;统计每个色彩区间的像素数,计算出所述色彩区间所占据的面积,计算得到运动物体的色彩特征,具体通过公式表示为:
[0023][0024]
sj=npj
·
g;
[0025]
其中,j表示为色彩区间,k表示为运动物体的图像所进行色彩划分得到的色彩区
间的数量,j≤k,npj表示为第j个色彩区间中的像素数,g表示为单位像素的单位映射面积,sj表示为第j个色彩区间的映射面积,f()表示为色彩区间的映射面积的映射函数;
[0026]
从运动物体的图像中提取运动物体的个体纹理特征的具体方法包括:将运动物体的图像划分出多个子块,设置不同方向和尺度的gabor滤波器形成gabor滤波器组,通过gabor滤波器组对每一个子块进行滤波,将滤波后的子块进行整合得到运动物体的个体纹理特征;
[0027]
从运动物体的图像中提取运动物体的群体特征的具体方法包括:
[0028]
通过运动物体的个体色彩特征区分出不用的运动物体,将相同的运动物体进行保留,标记出每一个运动物体的质心位置,并设置散点,对散点根据设定的连线规则进行连线得到散点模型,以所述散点模型作为运动物体的群体特征;
[0029]
运动物体的第二所处环境时空特征包括以下至少一种:季节特征、天气特征、水源特征、植被特征;
[0030]
从运动物体的图像中提取运动物体的第二所处环境时空特征的具体方法包括:
[0031]
所述季节特征通过背景图像帧进行提取,具体包括:通过背景图像帧中的落叶确定季节特征;
[0032]
所述天气特征通过背景图像帧进行提取,具体包括:通过背景图像帧中的能见的天空颜色确定天气特征;
[0033]
所述水源特征通过背景图像帧进行提取,具体包括:通过背景图像帧中能见的河流水源的深浅度和颜色确定水源特征;
[0034]
所述植被特征通过背景图像帧进行提取,具体包括:通过背景图像帧中能见的植被的枝叶密度和颜色确定植被特征。
[0035]
进一步,所述散点模型包括飞行模型或者栖息模型。
[0036]
进一步,所述步骤s200中,所述根据所述运动物体的声音信号确定运动物体的声音特征数据,包括:
[0037]
步骤s221,将所述运动物体的声音信号中高频部分的能量进行预加重,得到处理后的声音信号;
[0038]
步骤s222,对处理后的声音信号进行采样,得到采样点序列,将采样点序列中每n个采样点集合成为一帧,其中,在相邻帧之间设置重叠区域,所述重叠区域的采样点为m,得到声音帧信号s[n],m的值为n的1/2或1/3,
[0039]
对每一帧进行加窗处理,具体通过公式表达为:
[0040]
y[n]=w[n]s[n];
[0041]
其中,y[n]表示为加窗处理后的声音信号,w[n]表示为矩形窗;n表示为采样点;
[0042]
加窗使用边缘平滑降到0的汉明窗,所述汉明窗的表达式为:
[0043][0044]
l表示为帧,其为n个采样点的时间长度,n为预先定义的数值;
[0045]
步骤s223,对加窗处理后的声音信号进行快速傅里叶变换得到各帧的频谱,具体通过公式表达为:
[0046][0047]
k表示为频带数,z表示为;
[0048]
并对各帧的频谱取模平方得到声音信号的功率谱;
[0049]
步骤s224,将功率谱的频率对应到mel刻度上,得到mel频谱,具体通过公式表达为:
[0050][0051]
mel(f)表示为mel频谱,f表示为频率;
[0052]
步骤s225,对mel频谱进行离散余弦变换,得到倒谱系数,具体通过公式表达为:
[0053][0054]
其中,l指的是mfcc阶数,通常12阶就可以代表声学特征,l等于12,m指的是三角滤波器的个数;
[0055]
步骤s226,对倒谱系数进行差分计算,得到声音信号中每一帧的mfcc特征,将所述声音信号中每一帧的mfcc特征作为运动物体的声音特征数据;其中,所述mfcc特征共26个维度,所述26个维度包括:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分。
[0056]
进一步,运动物体的第一所处环境时空特征包括以下至少一种:季节特征、天气特征、水源特征、植被特征;所述运动物体的第一所处环境时空特征从天气预报网和当地地理数据库中得到。。
[0057]
进一步,所述步骤s300中,生成对运动物体进行识别的随机森林模型具体包括:
[0058]
步骤s310,对所述特征集进行有放回地的采样,除去重复采样的样本,得到新特征集;
[0059]
步骤s320,从所述新特征集中划分得到测试集,并利用bootstrap对所述新特征集进行重采样,随机产生多个训练集;
[0060]
步骤s330,生成每个训练集对应的决策树;
[0061]
步骤s340,在决策树内部节点中的每个非叶子节点上选择属性前,从全部属性中随机抽取部分属性作为当前节点的分裂属性集,并以所述部分属性中最好的分裂方式对该节点进行分裂;
[0062]
步骤s350,每棵树都完整生长,而不进行裁剪;
[0063]
步骤s360,对于测试集样本,利用每个决策树进行测试,得到测试集样本对应的类别;
[0064]
步骤s370,采用投票的方法,将全部决策树中输出最多的类别作为测试集样本所属的类别;
[0065]
步骤s380,重复执行步骤s310至步骤s370,直至确定测试集中每个样本所属的类别,得到运动物体识别模型。
[0066]
第二方面,本公开实施例还提供了一种基于随机森林算法的运动物体识别装置,
所述基于随机森林算法的运动物体识别装置包括:
[0067]
样品数据获取模块,用于获取运动物体的样品数据,所述样品数据包括运动物体的图像、运动物体的声音信号和运动物体所处环境的时空特征数据;
[0068]
特征数据确定模块,用于根据所述运动物体的图像确定运动物体的图像特征数据;根据所述运动物体的声音信号确定运动物体的声音特征数据;
[0069]
运动物体识别模型建立模块,用于将所述运动物体的图像特征、运动物体的声音特征和运动物体的第一所处环境时空特征作为特征集,生成对运动物体进行识别的随机森林模型;其中,所述随机森林模型记为运动物体识别模型;
[0070]
类别识别模块,用于根据所述运动物体识别模型对实时采集的运动物体进行类别识别。
[0071]
第三方面,本公开实施例还提供了一种基于随机森林算法的运动物体识别系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的一种基于随机森林算法的运动物体识别方法。
[0072]
第四方面,本公开实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如第一方面所述的一种基于随机森林算法的运动物体识别方法。
[0073]
本公开的有益效果为:通过获取运动物体的样品数据,所述样品数据包括运动物体的图像、运动物体的声音信号和运动物体所处环境的时空特征数据;根据所述运动物体的图像确定运动物体的图像特征数据;根据所述运动物体的声音信号确定运动物体的声音特征数据;将所述运动物体的图像特征数据、运动物体的声音特征数据和运动物体所处环境的时空特征数据作为特征集;采用随机森林算法对所述特征集进行训练,得到运动物体识别模型;根据所述运动物体识别模型对实时采集的运动物体进行类别识别。
[0074]
通过运动物体的图像、运动物体的声音信号和运动物体所处环境的时空特征,这三个维度来对生成运动物体的识别模型,并根据识别模型来对运动物体的准确识别。本技术方案相对于现有技术,具有多维度,可以提升识别的精确度。
[0075]
本公开的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0076]
附图用来提供对本公开技术方案的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开的技术方案,并不构成对本公开技术方案的限制。
[0077]
图1是本公开一个实施例提供的一种基于随机森林算法的运动物体识别方法的流程图;
[0078]
图2是本公开一个实施例提供的基于随机森林算法的运动物体识别装置的结构示意图;
[0079]
图3是本公开一个实施例提供的基于随机森林算法的运动物体识别系统的结构图。
具体实施方式
[0080]
为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本公开,并不用于限定本公开。
[0081]
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0082]
如图1所示,图1是本公开一个实施例提供的一种基于随机森林算法的运动物体识别方法的流程图,在该方法中,包括但不限于有以下步骤:
[0083]
步骤s100,获取运动物体的样品数据,所述样品数据包括运动物体的图像、运动物体的声音信号和运动物体的所处环境时空特征数据;
[0084]
步骤s200,根据所述运动物体的图像确定运动物体的图像特征;根据所述运动物体的声音信号确定运动物体的声音特征;根据所述运动物体的所处环境时空特征数据确定运动物体的第一所处环境时空特征;
[0085]
步骤s300,将所述运动物体的图像特征、运动物体的声音特征和运动物体的第一所处环境时空特征作为特征集,生成对运动物体进行识别的随机森林模型;其中,所述随机森林模型记为运动物体识别模型;
[0086]
步骤s400,根据所述运动物体识别模型对实时采集的运动物体进行类别识别。
[0087]
在一个改进的实施例中,所述步骤s200中,所述根据所述运动物体的图像确定运动物体的图像特征,包括:
[0088]
步骤s211,获取运动物体的图像,具体为:通过摄像机对固定区域进行拍摄得到视频图像,通过直方图分布方式对视频图像中的每一帧进行分析,查询峰值点像素值,根据运动物体所在的值域,判断出背景图像帧和存在运动物体的图像帧,以所述背景图像帧和存在运动物体的图像帧的集合作为运动物体的图像;
[0089]
通过利用直方图分布方式对视频图像中的每一帧进行分析,可以从大量的图像中快速的获取需要的目标图像,方便对图像进行筛选。而且,利用运动物体所在的值域,则可以快速对判断出背景图像帧和存在运动物体的图像帧,进一步方便图像的筛选。相对于现有技术,该步骤具有较强的筛选能力和判断能力,可以快速找到背景图像帧和存在运动物体的图像帧。最终得到运动的图像。
[0090]
步骤s212,从运动物体的图像中提取运动物体的图像特征集;其中,运动物体的图像特征集包括:运动物体的个体轮廓特征、运动物体的个体大小特征、运动物体的个体色彩特征、运动物体的个体纹理特征、运动物体的群体特征和运动物体的第二所处环境时空特征。
[0091]
在一个改进的实施例中,本基于随机森林算法的运动物体识别方法,还包括运动物体的样本图片的提取,具体为:根据直方图分布方式从运动物体的图像中挑选出运动物体的图像帧和背景图像帧,将运动物体的图像帧和背景图像帧进行相减,得到只保留运动物体的图像,通过联通区域算法提取运动物体的边缘,确定运动物体在图像中的所在位置,利用边缘包围对所述运动图像的图像帧进行包围,通过对所述运动物体的图像帧进行剪切
的方式,将所述边缘包围的图像剪切出来,得到运动物体的样本图片。通过得到运动物体的样本图片可以得到运动物体的具体信息。
[0092]
运动物体的图像特征集的提取包括以下步骤:
[0093]
需要说明的是,固定摄像机拍摄的是固定的区域,其动态变化的是进入镜头内的生物个体或群体,以此判断图片中是否有运动物体的存在,例如鸟类,鸟类的羽毛色彩和固定背景有这很大的区别,因此直方图分布会有很大改变,具有鸟类的直方图会出现相应的峰值,这是没有鸟类图片背景图所没有的,利用这种区别可以判定图像中是否有鸟类的存在,即读取图片的直方图,查询峰值点像素值,根据鸟类色彩所在的值域(m,n),峰值q确定图像中是否存在落在该值域内的像素点,若存在则判断为图像中出现鸟类。
[0094]
判断出有鸟图片和无鸟背景后,根据图像相减法,可以去除背景,保留鸟类,即用有鸟图片减去背景图,这样获得的只保留鸟类的图片;再利用连通域算法提取出鸟类的边缘,确定其在图像所在的位置,利用边缘包围,在图像中剪切出鸟类运动物体的图像。
[0095]
运动物体的个体轮廓特征(bj)的提取:
[0096]
通过直方图分布方式判断出背景图像帧和存在运动物体的图像帧,通过将存在运动物体的图像帧和背景图帧进行相减,得到运动物体的轮廓图,通过联通区域从所述轮廓图中获取轮廓,通过链码和形状数对轮廓进行表示,得到与轮廓的边界最吻合的多边形,以所述多边形作为运动物体的个体轮廓特征。
[0097]
通过联通区域获得的轮廓。用最小周长多边形(minimum-peimeter polygen,mpp)表示边界。
[0098]
图像边界特征描述(链码和形状数):链码:通过指定长度与方向的直线段的连接序列来表示边界。任选一个像素点作为参考点,与其连接的像素分别在不同的位置上赋予方向值,典型地,这一表示建立在线段的4连接或8连接上。采用1阶差分来表示对90
°
的旋转不敏感。两个相邻4方向链码数字i与j的差分链码数字d4定义为:d4=mod((j-i 4),4),0≤i,j≤3;两个相邻8方向链码数字i与j的差分链码数字d8定义为:d8=mod((j-i 8),8),0≤i,j≤8;
[0099]
形状数:是基于链码的一种边界形状的描述。形状数定义为最小数量级的差分码。形状数的阶数即链码数。定义形状数的步骤:第一,选取长短比最接近原边界的矩形以及相应坐标;第二,将矩形进行等间隔划分;第三,得到与边界最吻合的多边形。
[0100]
运动物体的大小特征(dx)的提取:
[0101]
从运动物体的图像中提取运动物体的大小特征的具体方法包括:对摄像机进行标定,根据摄像机的成像几何参数对运动物体的图像进行三维重构得到三维体,构建运动物体的二维图像像素位置与三维体的对应关系,根据运动物体的二维图像像素位置与三维体的对应关系计算得到运动物体的实际大小,得到运动物体的大小特征,具体通过公式表示为:
[0102][0103]
其中,i表示为像素,xi表示为像素位置,f(xi)表示为运动物体的二维图像像素位置与三维体的对应关系;d(xi)表示为摄像机的成像几何参数,n表示为运动物体的图像的像素量;
[0104]
运动物体的色彩特征(sc)的提取:
[0105]
对运动物体的图像进行色彩划分,划分出多个色彩区间;统计每个色彩区间的像素数,计算出所述色彩区间所占据的面积,计算得到运动物体的色彩特征,具体通过公式表示为:
[0106][0107]
sj=npj·
g;
[0108]
其中,j表示为色彩区间,k表示为运动物体的图像所进行色彩划分得到的色彩区间的数量,j≤k,npj表示为第j个色彩区间中的像素数,g表示为单位像素的单位映射面积,sj表示为第j个色彩区间的映射面积,f()表示为色彩区间的映射面积的映射函数。
[0109]
在对运动物体的色彩区分中,采用划分色彩区间的方式,利用统计色彩区间的像素数所占据的面积,可以很好的反应出运动物体的特征,方便对运动物体进行准确的评价。
[0110]
在一些实施例中,运动物体例如鸟类羽毛具有独特的颜色,许多鸟类根据性别,年龄,季节和其他因素有不同颜色的羽毛。而且鸟类有些特殊的标记点,这些都是区分鸟类的重要依据。具体包括:
[0111]
1.色彩分度;
[0112]
对裁剪的鸟类图块进行色彩划分,把256x3的rgb图像色彩划分成n个区间。每个区间表示其鸟类的某个色彩成分。
[0113]
2.色彩区域面积计算;
[0114]
统计每个区间的像素数npj,计算出该区间的面积sj=npj·g[0115]
3.色彩特征变量模型;
[0116][0117]
从运动物体的图像中提取运动物体的个体纹理特征(wl)的具体方法包括:将运动物体的图像划分出多个子块,设置不同方向和尺度的gabor滤波器形成gabor滤波器组,通过gabor滤波器组对每一个子块进行滤波,将滤波后的子块进行整合得到运动物体的个体纹理特征。
[0118]
具体包括:
[0119]
1、选取gabor滤波器组的方向数和尺度数。滤波器组的选取是至关重要的一步,既包括滤波器组的布局还要考虑单个滤波器参数的设计。
[0120]
2、设置最高数字频率和最低数字频率。
[0121]
3、确定各个滤波器的中心坐标,横轴以及纵轴方向的标准差。
[0122]
4、得到不同方向和尺度的gabor滤波器以后,对图像滤波。由于滤波后输出的图像信息中只有能量信息而不包括位置信息,因此将图像划分为多个子块进行滤波。
[0123]
需要说明的是,gabor滤波器有着与生物视觉系统相近的特点,它具有易于调谐的方向和径向频率带宽以及易于调谐的中心频率的优势,可以在频域和时域同时达到最佳分辨率。
[0124]
从运动物体的图像中提取运动物体的群体特征(nq)的具体方法包括:
[0125]
通过运动物体的个体色彩特征区分出不用的运动物体,将相同的运动物体进行保
留,标记出每一个运动物体的质心位置,并设置散点,对散点根据设定的连线规则进行连线得到散点模型,以所述散点模型作为运动物体的群体特征。
[0126]
本步骤考虑到了运动物体的群体特征,通过对于运动物体的群体特征进行识别,相对于现有技术,该识别效率更高。
[0127]
其中,所述散点模型包括飞行模型(成直线型/夹角型等)或者栖息模型(离散型,通过熵度来计算)。
[0128]
运动物体的第二所处环境时空特征包括以下至少一种:季节特征、天气特征、水源特征、植被特征;
[0129]
从运动物体的图像中提取运动物体的第二所处环境时空特征的具体方法包括:
[0130]
所述季节特征通过背景图像帧进行提取,具体包括:通过背景图像帧中的落叶确定季节特征;
[0131]
所述天气特征通过背景图像帧进行提取,具体包括:通过背景图像帧中的能见的天空颜色确定天气特征;
[0132]
所述水源特征通过背景图像帧进行提取,具体包括:通过背景图像帧中能见的河流水源的深浅度和颜色确定水源特征;
[0133]
所述植被特征通过背景图像帧进行提取,具体包括:通过背景图像帧中能见的植被的枝叶密度和颜色确定植被特征。
[0134]
在一个改进的实施例中,步骤s200中,所述根据所述运动物体的声音信号确定运动物体的声音特征数据,包括:
[0135]
步骤s221,将所述运动物体的声音信号中高频部分的能量进行预加重,得到处理后的声音信号;
[0136]
本步骤考虑到了运动物体的声音特征,通过对于运动物体的声音特征进行识别,相对于现有技术,该识别效率更高。
[0137]
需要说明的是,mfcc特征提取的第一步是增加声音高频部分的能量。对于声音信号的频谱来说,往往低频部分的能量高于高频部分的能量,每经过10倍hz,频谱能量就会衰减20db,为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,此外为使高频部分的能量和低频部分能量有相似的幅度,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,则需要提升高频部分的能量。加强高频部分的能量能使声学模型更好的利用高频共振峰,从而提高识别准确率。
[0138]
声音高频部分能量的预加重可以通过一个一阶高通滤波器实现,在时域,如果输入信号是x[n],并且系数μ的值介于0.9-1.0之间,在一实施例中,取μ=0.97,滤波器表示为y[n]=x[n]-μx[n-1];在频域则表示为:h(z)=1-μz-1

[0139]
步骤s222,对处理后的声音信号进行采样,得到采样点序列,将采样点序列中每n个采样点集合成为一帧,其中,在相邻帧之间设置重叠区域,所述重叠区域的采样点为m,得到声音帧信号s[n],m的值为n的1/2或1/3,对每一帧进行加窗处理,具体通过公式表达为:
[0140]
y[n]=w[n]s[n];
[0141]
其中,y[n]表示为加窗处理后的声音信号,w[n]表示为矩形窗;n表示为采样点;加窗使用边缘平滑降到0的汉明窗,所述汉明窗的表达式为:
[0142][0143]
l表示为帧,其为n个采样点的时间长度,n为预先定义的数值。
[0144]
通常情况下n的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了m个取样点,通常m的值约为n的1/2或1/3。通常语音识别所采用语音信号的采样频率为8khz或16khz,以8khz来说,若帧长度为256个采样点,则对应的时间长度是256/8000
×
1000=32ms。
[0145]
需要说明的是,日常生活中的声音一般是非平稳信号,其统计特性不是固定不变的,但在一段相当短的时间内,可以认为信号是平稳的,这就是加窗。窗由三个参数来描述:窗长(单位毫秒)、偏移和形状。每一个加窗的声音信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界的距离叫帧移。
[0146]
步骤s223,对加窗处理后的声音信号进行快速傅里叶变换得到各帧的频谱,具体通过公式表达为:
[0147][0148]
k表示为频带数,z表示为采样点的总数量,x[k]表示为快速傅里叶变换;
[0149]
并对各帧的频谱取模平方得到声音信号的功率谱;
[0150]
步骤s224,将功率谱的频率对应到mel刻度上,得到mel频谱,具体通过公式表达为:
[0151][0152]
mel(f)表示为mel频谱,f表示为频率;
[0153]
步骤s225,对mel频谱进行离散余弦变换,得到倒谱系数,具体通过公式表达为:
[0154][0155]
其中,l指的是mfcc阶数,通常12阶就可以代表声学特征,l等于12,m指的是三角滤波器的个数;
[0156]
步骤s226,对倒谱系数进行差分计算,得到声音信号中每一帧的mfcc特征,将所述声音信号中每一帧的mfcc特征作为运动物体的声音特征数据;其中,所述mfcc特征共26个维度,所述26个维度包括:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分。
[0157]
计算dft常用的一个算法是快速傅里叶变换(fft),它非常高效但是一般要求n是2的幂。
[0158]
需要说明的是,fft的结果包含此帧信号在每一频带的能量信息。但是,人耳听觉对不同频带的敏感度是不同的,人耳对高频不如低频敏感,这一分界线大约是1000hz,在提取声音特征时模拟人耳听觉这一性质可以提高识别性能。在mfcc中的做法是将fft输出的
频率对应到mel(梅尔)刻度上。一mel是一个音高单位,在音高上感知等距的声音可以被相同数量的mel数分离。
[0159]
需要说明的是,尽管可以用mel频谱本身作为声音特征,但使用倒谱有其优点并且可以提高识别性能。抛开预加重和mel刻度转换,倒谱的定义可以看做是频谱对数的频谱,即将标准幅度谱的幅度值先取对数,然后形象化对数谱使其看起来像声音波形。频谱是将时域信号变换为频域信号,倒谱则是将频域信号又变换回时域信号;在波形上,倒谱与频谱有相似的波形,即如果频谱在低频处有个峰值,则倒谱在低倒谱系数上也有峰值,如果频谱在高频处有个峰值,则倒谱在高倒谱系数上也有峰值。所以如果是为了检测音元,可以用低倒谱系数;如果是检测音高,则可以用高倒谱系数。倒谱系数的优点是其不同系数的变化是不相关的,意味着高斯声学模型(高斯混合模型gmm)无需表现所有mfcc特征的协方差,因而大大减少了参数数量。
[0160]
在步骤s226中,具体地,某一帧的能量定义为某一帧样本点的平方和,对于一个加窗信号x,其从样本点t1到样本点t2的能量为:
[0161][0162]
实际应用中也可以将上式取以10为底的对数值,再乘以10。若要加入其他声音特征如音高、过零率及共振峰等也可以在这一阶段加入。
[0163]
以上提取的特征每一帧单独考虑,是静态的,而实际声音是连续的,帧与帧之间是有联系的,因而需要增加特征来表示这种帧间的动态变化,这通常通过计算每一帧13个特征(12个倒谱特征加上1个能量)的一阶差分甚至二阶差分来实现。一个简单计算差分的方法就是计算当前帧前后各一帧的13个特征的差值:
[0164][0165]
如果不考虑二阶差分,最终每一帧的mfcc特征为26维度:12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分。
[0166]
本公开提供的实施例中,利用直方图识别法搜寻图片模板,差分法去除背景,获得运动物体(特别是动物)样品,从而自动化获取识别物标准样品,代替人工取样,提高效率。利用多要素(大小/轮廓/色彩/纹理/声音/物体行为特征/物体所处的环境等)来识别。利用随机森林算法提高识别精度。去除复杂背景,简化样品,提高运算速度。
[0167]
在一个改进的实施例中,运动物体的第一所处环境时空特征包括以下至少一种:季节特征、天气特征、水源特征、植被特征;所述运动物体的第一所处环境时空特征从天气预报网和当地地理数据库中得到。本步骤考虑到了运动物体的所处环境时空特征,运动物体的所处环境时空特征包括:运动物体的第一所处环境时空特征和运动物体的第二所处环境时空特征。通过增加对于运动物体所在的时空特征进行识别,提高识别效率。
[0168]
以鸟类为例,运动物体所处环境时空特征hg包括:
[0169]
季节特征se:鸟类生活迁徙具有季节特征,季节的判断根据时间来判断。
[0170]
天气特征we:包括降水,气温,气压,天气特征通过气象数据提取得到。
[0171]
水源特征wa:在河流,水塘处的摄像设备监测到鸟类的栖息情况,根据饮水清洁程度来观察鸟类。
[0172]
植被特征wo:栖息地的主要植被和分层特点,与鸟类生活的密切相关。
[0173]
根据上述的特征建立时空栖息地数据库及栖息地鸟类活动关系。
[0174]
hg=g(se,we,wa,wo,et)。
[0175]
在一个改进的实施例中,步骤s300中,所述采用随机森林算法对所述特征集进行训练,得到运动物体识别模型,包括:
[0176]
步骤s310,对所述特征集进行有放回地的采样,除去重复采样的样本,得到新特征集;
[0177]
具体地,设特征集s中含有s个不同的样本{x1,x2,

,xs},若每次有放回地从特征集s中抽取一个样本,一共抽取s次,形成新特征集s
*
,则新特征集s
*
中不包含某个样本xi(i=1,2,

,s)的概率为:
[0178][0179]
当s

∞时,有
[0180]
因此,虽然新特征集s
*
的样本总数与原特征集s的样本总数相等(都为s),但是新特征集s
*
中可能包含了重复的样本(有放回抽取),则除去重复的样本,新特征集s
*
中仅包含了原特征集s中约1-0.368x100%=63.2%的样本。
[0181]
步骤s320,从所述新特征集中划分得到测试集,并利用bootstrap对所述新特征集进行重采样,随机产生多个训练集;
[0182]
步骤s330,生成每个训练集对应的决策树;
[0183]
步骤s340,在决策树内部节点中的每个非叶子节点上选择属性前,从全部属性中随机抽取部分属性作为当前节点的分裂属性集,并以所述部分属性中最好的分裂方式对该节点进行分裂;
[0184]
步骤s350,每棵树都完整生长,而不进行裁剪;
[0185]
步骤s360,对于测试集样本,利用每个决策树进行测试,得到测试集样本对应的类别;
[0186]
步骤s370,采用投票的方法,将全部决策树中输出最多的类别作为测试集样本所属的类别;
[0187]
步骤s380,重复执行步骤s310至步骤s370,直至确定测试集中每个样本所属的类别,得到运动物体识别模型。
[0188]
具体地,基于bootstrap方法重采样,产生多个训练集。在构建决策树的时候,采样随机选取分裂属性的方法。详细流程(样本的属性个数为m,m为大于0小于m的整数):
[0189]
利用bootstrap重采样,随机产生t个训练集s1,s2,

,s
t

[0190]
利用每个训练集,生成对应的决策树c1,c2,

,c
t

[0191]
在每个非叶子节点(内部节点)上选择属性前,从m个属性中随机抽取m个属性作为当前节点的分裂属性集,并以这m个属性中最好的分裂方式对该节点进行分裂;
[0192]
每棵树都完整生长,而不进行裁剪;
[0193]
对于测试集样本x,利用每个决策树进行测试,得到对应的类别c1(x),c2(x),
…ct
(x);
[0194]
采用投票的方法,将t个决策树中输出最多的类别作为测试集样本x所属的类别。
[0195]
另外,参照图2,在一实施例中,还提供了一种基于随机森林算法的运动物体识别装置,基于随机森林算法的运动物体识别装置包括;
[0196]
样品数据获取模块100,用于获取运动物体的样品数据,所述样品数据包括运动物体的图像、运动物体的声音信号和运动物体所处环境的时空特征数据;
[0197]
特征数据确定模块200,用于根据所述运动物体的图像确定运动物体的图像特征数据;根据所述运动物体的声音信号确定运动物体的声音特征数据;
[0198]
运动物体识别模型建立模块300,用于将所述运动物体的图像特征、运动物体的声音特征和运动物体的第一所处环境时空特征作为特征集,生成对运动物体进行识别的随机森林模型;其中,所述随机森林模型记为运动物体识别模型;
[0199]
类别识别模块400,用于根据所述运动物体识别模型对实时采集的运动物体进行类别识别。
[0200]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0201]
另外,参照图3,本公开的一个实施例还提供了一种基于随机森林算法的运动物体识别系统10,该基于随机森林算法的运动物体识别系统10包括:存储器11、处理器12及存储在存储器11上并可在处理器12上运行的计算机程序。
[0202]
处理器12和存储器11可以通过总线或者其他方式连接。
[0203]
实现上述实施例的一种基于随机森林算法的运动物体识别方法所需的非暂态软件程序以及指令存储在存储器11中,当被处理器12执行时,执行上述实施例中的一种基于随机森林算法的运动物体识别方法。
[0204]
此外,本公开的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的一种基于随机森林算法的运动物体识别方法。
[0205]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0206]
以上是对本公开的较佳实施进行了具体说明,但本公开并不局限于上述实施方式,熟悉本领域的技术人员在不违背本公开精神的前提下还可作出种种的等同变形或替
换,这些等同的变形或替换均包含在本公开权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献