一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于声音特征的移动机器人路面材质识别方法与流程

2021-10-19 23:59:00 来源:中国专利 TAG:机器人 识别 路况 路面 材质


1.本发明涉及一种基于声音特征的移动机器人路面材质识别方法,属于移动机器人路况识别与自主导航技术领域。


背景技术:

2.当前,智能化产品已经开始出现在人们的生活当中的各个角落,能够代替人们完成各项工作,其中一个最为广泛的应用就是智能化移动机器人。到目前为止智能移动机器人技术已经逐渐变得成熟和完善,功能和应用范围也在不断地扩大。现在移动机器人已经成功应用到了很多领域,如教育、科研、医疗、农业、工业、物流等。
3.自主导航是智能移动机器人需要具备的基本功能之一,在室外自主移动行驶过程中对当前的路面材质有准确的认知,这对于自主导航功能的实现非常重要。国内外相关人员对路面材质识别方向进行了大量的研究,实时、全面、准确、迅速、可靠的路面材质识别技术是当今研究的重点和难点。现阶段,对路面材质分类的研究主要分为基于激光雷达、相机、其他类型传感器(加速度传感器、光学传感器等)三个方面。其中,基于激光雷达、相机的方法是通过模拟人类视觉来认知路面环境。但是当移动机器人遇到一些颜色和纹理很相似的不同材质路面,或者在能见度很低的雾霾天气等特殊状况时,通过视觉方式很难做出正确的判断。基于其它类型的传感器方法大多集中在路面参数识别上,包括附着系数的识别、路面不平度的识别,以及软硬路面的识别等,缺乏有效的路面材质识别方法。
4.为了能够准确有效地识别路面材质,本发明探索了一种比较新颖的基于声音特征的移动机器人路面材质识别方法。从听觉的角度进行考虑分析,通过分析判断路面材质的声音信息来实现对路面材质的分类识别。该方法能够有效的弥补视觉方式的不足。


技术实现要素:

5.为了克服现有技术中存在的不足,本发明目的是提供一种基于声音特征的移动机器人路面材质识别方法,以提高移动机器人自主导航能力。该方法对常见路面进行分类划分并对路面材质声音数据采集,建立有效的路面材质声音数据集,并对原始路面材质声音数据进行预处理,包括滤波降噪,分帧加窗和端点检测等操作,从而得到路面材质声音的有效片段。提取不同路面材质声音数据的频域特征,并搭建神经网络,将路面材质声音特征作为网络的输入信号进行特征学习,从而实现对不同路面材质的分类识别。该发明丰富了路面材质识别技术与理论,将成为一项非常有益的尝试,具有重要的理论意义和应用价值。
6.为了实现上述发明目的,解决己有技术中存在的问题,本发明采取的技术方案是:一种基于声音特征的移动机器人路面材质识别方法,包括以下步骤:
7.步骤1、路面材质声音数据集的采集与建立:将路面材质分为10个类别,分别为草地路面、瓷砖路面、沥青路面、天然石路面、水泥路面、橡胶路面、地砖路面、木板路面、鹅卵石路面及碎石路面;采用声音采集器对每个类别路面按照每50下敲击为一组的规则进行路面材质声音数据采集,建立路面材质声音数据集s={s
i
|1≤i≤10},其中,i为路面材质类
别,s
i
为第i类路面材质声音数据;
8.步骤2、路面材质声音数据预处理:通过分割、滤波降噪、分帧加窗、端点检测预处理操作,提高路面材质声音数据的质量,去除噪声影响,具体包括以下子步骤:
9.(a)分割:录取路面材质声音时是按照50次连续敲击方法进行的,需要对原始数据进一步做分割处理,将每一次敲击路面材质的声音作为一个单独路面材质声音数据,第i类路面材质声音数据s
i
={s
ij
|1≤j≤50},其中s
ij
为分割得到的单独路面材质声音数据,j为路面材质声音数据对应的敲击次数;
10.(b)滤波降噪:将采集的路面材质声音数据经过高通滤波器进行滤波,通过公式(1)进行描述,
[0011][0012]
其中,α是滤波器系数,s
ij
(t)为当前时刻原始数据,为经过滤波降噪处理后t时刻的路面材质声音数据,通过滤波器能够平衡频谱,改善信号

噪声比(snr),能够抑制低频信息的比重,相对提高高频有用成分的比重;
[0013]
(c)分帧加窗:从整体上来看,敲击路面的整体路面材质声音特征是具有时变特性的,其并不是平稳的路面材质声音数据,但是录取的路面材质声音数据在很短的时间内认为是平稳的,为了满足傅里叶变换条件,需要将路面材质声音数据分割成短时稳定路面材质声音数据,分帧截取时间段的范围是10~30ms,为了保证特征参数连续平稳地改变,在两个没有重叠部分的帧之间均匀地保留一些帧,对于每次重叠的部分的变化被称为帧移,取值范围为帧长的1/4~1/2之间,对分帧后的路面材质声音数据f
ij
进行加窗处理,以减少分帧带来的影响,加窗后的路面材质声音数据c
ij
=f
ij
×
w,其中窗函数w采用汉明窗;
[0014]
(d)端点检测:通过设置不同的音量阈值确定路面材质声音有效数据的起始位置和结束位置,首先计算出该段加窗后的路面材质声音数据c
ij
中的音量最大值vmax
ij
和最小值vmin
ij
,并通过相减得到路面材质声音数据的变换范围值vdif
ij
,以最低路面材质声音数据为起点,分别取vmin
ij
vdif
ij
×
0.1、vmin
ij
vdif
ij
×
0.01、vmin
ij
vdif
ij
×
0.05三种不同的阈值作为路面材质声音数据的端点位置判断,当超过该阈值时则需要开始记录起始点,并判断下一时刻声音数据是否大于该阈值,直到检测到低于阈值的端点并记录下来,将最终起始点位置和最后的低于阈值的位置之间的路面材质声音数据作为敲击路面的有效路面材质声音数据e
ij

[0015]
步骤3、路面材质声音的梅尔倒谱特征提取:梅尔倒谱特征是在声音数据中最常用的特征提取方法,它的优点是具有很强的抗干扰能力,能够将不同声音数据之间的特征差异体现出来,从而有效的区分路面材质声音数据,具体包括以下子步骤:
[0016]
(a)对端点检测得到的路面材质声音数据e
ij
进行一维傅里叶变换得到对应的频域信号其中n代表每一帧路面材质声音数据中的采样点数,k为采样点,功率谱g
ij
=|p
ij
(k)|2;
[0017]
(b)将每一帧路面材质声音数据的功率谱g
ij
放入到梅尔三角滤波器组中进行滤波处理,并计算对数能量q
ij
,通过如下公式进行描述,,通过如下公式进行描述,其中,h
ij
表示梅尔滤波器的频率响应,m为梅尔滤波器的数目;
[0018]
(c)对q
ij
进行离散余弦变换得到最终的梅尔倒谱特征系数,通过如下公式进行描述,其中mel
ij
表示梅尔倒谱特征系数,v表示梅尔倒谱系数的阶数,n表示每一帧路面材质声音数据中的采样点数;
[0019]
(d)对得到的梅尔倒谱特征系数mel
ij
进行人为标记,并构建训练集;
[0020]
步骤4、构建深度卷积神经网络进行训练:构建深度卷积神经网络,基于不同路面材质声音数据的梅尔倒谱特征系数mel
ij
进行分类,实现路面材质识别,主要包括以下子步骤:
[0021]
(a)特征增强,增加了一些辅助性的特征,如音频中的色度频率特征、mel频谱特征、谱对比度特征、色调质心特征,通过特征拼接融合构成了193维的特征向量,最后通过补零对齐形成196维的特征向量,进一步将特征转换为二维的矩阵形式(14
×
14),在该网络中的输入端进行维度扩充得到3d张量(14
×
14
×
1);
[0022]
(b)编码端包含1个卷积层conv1,参数为卷积核尺寸1
×
1、步长1、相同填充、输出通道数32,进行批量归一化(bn)处理,并采用leaky_relu激活函数进行激活;3个轻量化深度可分离卷积层dconv2、dconv3、dconv4,串行连接;其中,dconv2的参数为卷积核尺寸3
×
3、步长1、相同填充、输出通道数32,进行批量归一化处理,并采用leaky_relu激活函数进行激活;池化层maxpool1的参数为2
×
2最大池化、步长2、无填充;dconv3的参数为卷积核尺寸3
×
3、步长1、相同填充、输出通道数64,进行批量归一化处理,并采用leaky_relu激活函数进行激活;dconv4的参数为卷积核尺寸3
×
3、步长1、相同填充、输出通道数64,进行批量归一化处理,并采用leaky_relu激活函数进行激活;池化层maxpool2的参数为3
×
3最大池化、步长2、填充值为1,然后展平为1024维的特征向量;
[0023]
(c)解码端为了防止过拟合先进行dropout操作,比率设为0.5,然后包含3个全连接层dense1、dense2和dense3;其中,dense1的输出神经元数目为512,采用leaky_relu激活函数进行激活;dense2的输出神经元数目为128,采用leaky_relu激活函数进行激活,dense3的输出神经元数目为10;
[0024]
步骤5、基于训练好的神经网络模型进行路面材质识别。
[0025]
本发明有益效果是:一种基于声音特征的移动机器人路面材质识别方法,包括以下步骤:(1)路面材质声音数据集的采集与建立,(2)路面材质声音数据预处理,(3)路面材质声音的梅尔倒谱特征提取,(4)构建深度卷积神经网络进行训练,(5)基于训练好的神经网络模型进行路面材质识别。与已有技术相比,本发明具有以下优点:一是,本发明从听觉的角度利用声音特征实现对路面材质的分类识别,能够有效弥补视觉模态的不足;二是,本发明基于梅尔倒谱特征实现了对路面材质声音特征的有效提取,并搭建了深度卷积神经网络模型,能够基于材质声音特征有效进行多材质路面识别。
附图说明
[0026]
图1是本发明方法步骤流程图。
[0027]
图2是路面材质图像及对应的材质声音数据图。
[0028]
图中:(a)是草地路面声音数据图,(b)是草地路面图像图,(c)是瓷砖路面声音数据图,(d)是瓷砖路面图像图,(e)是沥青路面声音数据图,(f)是沥青路面图像图,(g)是天
然石路面声音数据图,(h)是天然石路面图像图,(i)是水泥路面声音数据图,(j)是水泥路面图像图,(k)是橡胶路面声音数据图,(l)是橡胶路面图像图,(m)是地砖路面声音数据图,(n)是地砖路面图像图,(o)是木板路面声音数据图,(p)是木板路面图像图,(q)是鹅卵石路面声音数据图,(r)是鹅卵石路面图像图,(s)是碎石路面声音数据图,(t)是碎石路面图像图。
[0029]
图3是基于神经网络的路面材质分类训练准确率图。
具体实施方式
[0030]
下面结合附图对本发明作进一步说明。
[0031]
如图1所示,一种基于声音特征的移动机器人路面材质识别方法,包括以下步骤:
[0032]
步骤1、路面材质声音数据集的采集与建立:将路面材质分为10个类别,分别为草地路面、瓷砖路面、沥青路面、天然石路面、水泥路面、橡胶路面、地砖路面、木板路面、鹅卵石路面及碎石路面;采用声音采集器对每个类别路面按照每50下敲击为一组的规则进行路面材质声音数据采集,建立路面材质声音数据集s={s
i
|1≤i≤10},其中,i为路面材质类别,s
i
为第i类路面材质声音数据,路面材质图像及对应的声音数据,如图2所示。
[0033]
步骤2、路面材质声音数据预处理:通过分割、滤波降噪、分帧加窗、端点检测预处理操作,提高路面材质声音数据的质量,去除噪声影响,具体包括以下子步骤:
[0034]
(a)分割:录取路面材质声音时是按照50次连续敲击方法进行的,需要对原始数据进一步做分割处理,将每一次敲击路面材质的声音作为一个单独路面材质声音数据,第i类路面材质声音数据s
i
={s
ij
|1≤j≤50},其中s
ij
为分割得到的单独路面材质声音数据,j为路面材质声音数据对应的敲击次数;
[0035]
(b)滤波降噪:将采集的路面材质声音数据经过高通滤波器进行滤波,通过公式(1)进行描述,
[0036][0037]
其中,α是滤波器系数,s
ij
(t)为当前时刻原始数据,为经过滤波降噪处理后t时刻的路面材质声音数据,通过滤波器能够平衡频谱,改善信号

噪声比(snr),能够抑制低频信息的比重,相对提高高频有用成分的比重;
[0038]
(c)分帧加窗:从整体上来看,敲击路面的整体路面材质声音特征是具有时变特性的,其并不是平稳的路面材质声音数据,但是录取的路面材质声音数据在很短的时间内认为是平稳的,为了满足傅里叶变换条件,需要将路面材质声音数据分割成短时稳定路面材质声音数据,分帧截取时间段的范围是10~30ms,为了保证特征参数连续平稳地改变,在两个没有重叠部分的帧之间均匀地保留一些帧,对于每次重叠的部分的变化被称为帧移,取值范围为帧长的1/4~1/2之间,对分帧后的路面材质声音数据f
ij
进行加窗处理,以减少分帧带来的影响,加窗后的路面材质声音数据c
ij
=f
ij
×
w,其中窗函数w采用汉明窗;
[0039]
(d)端点检测:通过设置不同的音量阈值确定路面材质声音有效数据的起始位置和结束位置,首先计算出该段加窗后的路面材质声音数据c
ij
中的音量最大值vmax
ij
和最小值vmin
ij
,并通过相减得到路面材质声音数据的变换范围值vdif
ij
,以最低路面材质声音数据为起点,分别取vmin
ij
vdif
ij
×
0.1、vmin
ij
vdif
ij
×
0.01、vmin
ij
vdif
ij
×
0.05三种不同
的阈值作为路面材质声音数据的端点位置判断,当超过该阈值时则需要开始记录起始点,并判断下一时刻声音数据是否大于该阈值,直到检测到低于阈值的端点并记录下来,将最终起始点位置和最后的低于阈值的位置之间的路面材质声音数据作为敲击路面的有效路面材质声音数据e
ij

[0040]
步骤3、路面材质声音的梅尔倒谱特征提取:梅尔倒谱特征是在声音数据中最常用的特征提取方法,它的优点是具有很强的抗干扰能力,能够将不同声音数据之间的特征差异体现出来,从而有效的区分路面材质声音数据,具体包括以下子步骤:
[0041]
(a)对端点检测得到的路面材质声音数据e
ij
进行一维傅里叶变换得到对应的频域信号其中n代表每一帧路面材质声音数据中的采样点数,k为采样点,功率谱g
ij
=|p
ij
(k)|2;
[0042]
(b)将每一帧路面材质声音数据的功率谱g
ij
放入到梅尔三角滤波器组中进行滤波处理,并计算对数能量q
ij
,通过如下公式进行描述,,通过如下公式进行描述,其中,h
ij
表示梅尔滤波器的频率响应,m为梅尔滤波器的数目;
[0043]
(c)对q
ij
进行离散余弦变换得到最终的梅尔倒谱特征系数,通过如下公式进行描述,其中mel
ij
表示梅尔倒谱特征系数,v表示梅尔倒谱系数的阶数,n表示每一帧路面材质声音数据中的采样点数;
[0044]
(d)对得到的梅尔倒谱特征系数mel
ij
进行人为标记,并构建训练集;
[0045]
步骤4、构建深度卷积神经网络进行训练:构建深度卷积神经网络,基于不同路面材质声音数据的梅尔倒谱特征系数mel
ij
进行分类,实现路面材质识别,主要包括以下子步骤:
[0046]
(a)特征增强,增加了一些辅助性的特征,如音频中的色度频率特征、mel频谱特征、谱对比度特征、色调质心特征,通过特征拼接融合构成了193维的特征向量,最后通过补零对齐形成196维的特征向量,进一步将特征转换为二维的矩阵形式(14
×
14),在该网络中的输入端进行维度扩充得到3d张量(14
×
14
×
1);
[0047]
(b)编码端包含1个卷积层conv1,参数为卷积核尺寸1
×
1、步长1、相同填充、输出通道数32,进行批量归一化(bn)处理,并采用leaky_relu激活函数进行激活;3个轻量化深度可分离卷积层dconv2、dconv3、dconv4,串行连接;其中,dconv2的参数为卷积核尺寸3
×
3、步长1、相同填充、输出通道数32,进行批量归一化处理,并采用leaky_relu激活函数进行激活;池化层maxpool1的参数为2
×
2最大池化、步长2、无填充;dconv3的参数为卷积核尺寸3
×
3、步长1、相同填充、输出通道数64,进行批量归一化处理,并采用leaky_relu激活函数进行激活;dconv4的参数为卷积核尺寸3
×
3、步长1、相同填充、输出通道数64,进行批量归一化处理,并采用leaky_relu激活函数进行激活;池化层maxpool2的参数为3
×
3最大池化、步长2、填充值为1,然后展平为1024维的特征向量;
[0048]
(c)解码端为了防止过拟合先进行dropout操作,比率设为0.5,然后包含3个全连接层dense1、dense2和dense3;其中,dense1的输出神经元数目为512,采用leaky_relu激活函数进行激活;dense2的输出神经元数目为128,采用leaky_relu激活函数进行激活,dense3的输出神经元数目为10;
[0049]
步骤5、基于训练好的神经网络模型进行路面材质识别,结果如图3所示。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜