一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种野外声音采集与存储设备及声音处理方法与流程

2021-10-09 11:48:00 来源:中国专利 TAG:声音 采集 地说 野外 存储设备


1.本发明属于声音采集设备与声音信号处理技术领域,具体地说,涉及一种野外声音采集与存储设备及声音处理方法。


背景技术:

2.声音不仅是人类交流的主要通信媒介,也是地球上其他动物的主要交流方式。由于不同物种之间的发音频率及听觉频率各不相同,使得生物的多样性构成的声场环境成为目前的热门研究课题。通过记录不同频率段的声音,可以推断生物的种类及数量情况,为自然环境保护提供重要参考。早期人们为收集野外物种的音频数据常常需要深入深山密林之中,为避免干涉动物的正常生活,还需要进行伪装甚至长居野外,这为相关科研人员带来了极大的不便与危险。同时,人类的间接参与还可能导致物种生存环境受到影响。因此,研发一种能长期工作于野外且能实时记录动物声音信息的小型化录音设备的重要性不言而喻。
3.目前,现有的用于野外环境下的声音记录仪,通常需满足能够记录带宽在100hz~45khz的信号,因为这一范围涵盖了大部分动物的发音频率。目前国内外对录音产品的研发多集中在记录人声的消费类电子录音产品上,对用于野外环境的声音记录仪器的研发并不多。而记录人声的这类产品的应用场合限制了其可记录带宽范围,并且消费类电子产品的受话器多在通话时使用,对音质的要求不高,相应的灵敏度也比较低,难以满足野外复杂环境下的声音拾取要求。
4.另外,野外采集到的声音中无效数据在总录制时长中的占比非常高,采用人工标注方式从海量时长的录音数据中定位出有效的动物声音片段需要花费大量的时间和精力,且标注结果易受到不同标注者个人因素的影响,导致标注结果存在较大差异。


技术实现要素:

5.为解决现有技术存在的上述缺陷,本发明提出了一种野外声音采集与存储设备,解决了现有设备野外声音采集设备的时间短和对环境适应性差的问题,该设备可以在不对野外的野生动物生活环境造成影响的情况下,方便、持续地进行野外声音信息的采集与存储,还能够从海量时长的录音数据中,快速准确地识别和定位出有效的野外野生动物物种的声音片段,并生成对应的音频摘要。
6.本发明提供了一种野外声音采集与存储设备,其包括:方形壳体、麦克风、野外声音采集与存储电路板和可充电电池组;
7.方形壳体内设置野外声音采集与存储电路板和可充电电池组,麦克风设置在方形壳体的外壁上;
8.方形壳体的两侧壁上分别沿垂直于侧壁的方向向外延伸固定耳,所述固定耳为多孔结构,通过固定装置与固定耳固定,将整个设备单独固定在数据采集点或野外环境中,或多个设备彼此通过固定耳连接后,再通过固定装置穿过固定耳固定在数据采集点或野外环境中,实时采集野外声音。
9.作为上述技术方案的改进之一,所述方形壳体为三层式结构,其包括:上盖、中层盖和底壳;中层盖位于上盖和底壳之间,上盖位于中层盖之上,底壳位于中层盖之下;
10.所述上盖、中层盖和底壳均为带有开口的长方体防水结构,且三者的内部均为中空结构;中层盖嵌套在上盖内,且上盖和中层盖的开口方向相同,底壳的开口方向与上盖的开口方向相对,底壳的开口方向与中层盖的开口方向相对;
11.三者四周的同一侧分别设置对应的旋转轴固定座,将旋转轴穿过并固定在三者各自的旋转轴固定座上,将三者连接在一起,并使三者各自绕旋转轴进行旋转打开或旋转关闭。
12.作为上述技术方案的改进之一,上盖的外壁的中部设置第一锁扣部件,中层的外壁的中部设置第二锁扣部件,底壳的外壁的中部设置第三锁扣部件;第一锁扣部件穿过第二锁扣部件后,与第三锁扣部件锁扣配合连接;
13.所述上盖的开口处向四周外延伸第一外延矩形段,中层盖的开口处向四周外延伸第二外延矩形段,底壳的开口处向四周外延伸第三外延矩形段,第一外延矩形段盖在第二外延矩形段之上,第二外延矩形段盖在第三外延矩形段上,三个外延矩形段呈层叠设置。
14.作为上述技术方案的改进之一,所述底壳的两侧壁上分别沿垂直于侧壁的方向向外延伸固定耳;
15.所述底壳的另外两侧壁上分别相对对称地设置可拆卸麦克风固定组件,将每个麦克风设置在可拆卸麦克风固定组件内;
16.该可拆卸麦风固定组件包括:麦克风固定管和咪盖;
17.麦克风固定管的第一端沿径向方向向外延伸台阶状结构,且基于该台阶状结构沿轴向方向向外延伸圆柱段,该圆柱段的外圆周增设外螺纹,形成螺栓,与底壳的侧壁上开设的内螺纹进行螺纹配合连接;
18.麦克风固定管内设置麦克风,并在该麦克风固定管的第二端沿轴向方向向外延伸凸台,将咪盖盖在该凸台上,与麦克风固定管的第二端压合连接,且咪盖的内壁设有透声防水膜。
19.作为上述技术方案的改进之一,所述声音采集与存储电路板包括:人机交互模块、可调增益模块、语音编解码模块、mcu中控模块、移动存储器和电源管理模块;
20.所述人机交互模块,用于实时显示设备状态,并根据显示的设备状态进行更改设置;
21.所述可调增益模块,用于根据两组拨码控制开关的开关状态,选择对应的模式,将麦克风输出的语音模拟信号进行放大后输送至语音编解码模块,或将麦克风输出的语音模拟信号直接输送至语音编解码模块;
22.所述语音编解码模块,用于将接收的放大后的语音模拟信号进行编解码,并转化为语音数字信号,并将其发送至mcu中控模块,或将接收的语音模拟信号转换为声音数字信号,并将其发送至mcu中控模块;
23.所述mcu中控模块,用于对语音数字信号或声音数字信号进行处理,得到对应的处理后的信号;
24.所述移动存储器,用于存储处理后的信号,并封装成wav无损格式的数据,写入移动存储器;
25.所述电源管理模块,用于为声音采集与存储电路板中的各模块供电。
26.作为上述技术方案的改进之一,所述可调增益模块包括:第一组拨码控制开关、高增益电路和第二组拨码控制开关;第一组拨码控制开关和第二组拨码控制开关,对应地设置在高增益电路的输入端和输出端;
27.第一组拨码控制开关和第二组拨码控制开关均处于闭合状态,即模式一,则高增益电路导通,麦克风将采集的声音信号进行转换,得到语音模拟信号,该信号为电信号,将转换后的语音模拟信号输入至高增益电路进行放大,得到放大后的信号,并将其发送至语音编解码模块;
28.第一组拨码控制开关和第二组拨码控制开关均处于断开状态,即模式二,则高增益电路不导通,麦克风将转换后的语音模拟信号直接输入至语音编辑解码模块。
29.作为上述技术方案的改进之一,所述声音采集与存储电路板还包括:声音处理模块,用于基于听觉掩蔽效应,对移动存储器中存储的mcu中控模块处理后的信号进行降噪,得到降噪后的信号,再基于三参数端点检测算法,对降噪后的信号进行活跃帧检测,并提取语音段mfcc和logfbank特征,基于余弦相似度,对相邻片段合并生成音频摘要。
30.作为上述技术方案的改进之一,所述声音处理模块的具体过程为:
31.利用时间戳作为文件名,基于野外声音采集与存储设备采集声音信号,并进行模数转换,得到语音数字信号,并进行存储,创建当前录音文件;
32.读取当前录音文件中的每帧的声音数字信号,逐帧计算声音数字信号的临界带功率及噪声系数;
33.根据每帧的声音数字信号的临界带功率,计算每帧声音数字信号的扩频功率;
34.根据每帧声音数字信号的噪声系数和扩频功率,计算每帧声音数字信号的掩蔽系数;
35.根据掩蔽系数及人耳的绝对听阈,计算出掩蔽阈值;
36.利用掩蔽阈值对每帧的声音数字信号进行去噪,得到每帧增强后的语音信号;
37.逐帧计算每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数;
38.联合判断每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数是否满足预设的双门限条件;
39.根据判断结果,确定出每帧增强后的语音信号中音频的起点和终点,得到多个独立的语音段;
40.提取各语音段中所有语音帧的平均梅尔频率倒谱系数特征和logfbank特征,构成语音段特征向量;
41.计算每相邻两个语音段特征向量之间的余弦距离,当余弦距离达到预设阈值时,对两个语音段进行合并,最终得到多个音频摘要。
42.本发明还提供了一种声音处理方法,该方法包括:
43.步骤1)检测到按下野外声音采集与存储设备中设有的录音键,进行初始化,之后检测声音采集与存储电路板上设有的移动存储器是否存在;
44.若不存在移动存储器,则提示插入移动存储器;
45.若存在移动存储器,则开辟缓存空间,进入录音模式;
46.步骤2)进一步判断移动存储器的剩余存储空间大小是否足够存储一个音频文件;
47.若移动存储器的剩余存储空间大小不能足够存储一个音频文件,则关闭录音键,并提示更换移动存储器;
48.若移动存储器的剩余存储空间大小足够存储一个音频文件,则利用时间戳作为文件名,并进入循环录音状态,生成30分钟的录音文件后,执行结束当前文件写入操作,生成一个录音文件,对该录音文件进行处理和音频提取,得到多个音频摘要;
49.再创建新的录音文件,继续进行上述录音和音频提取操作,得到多个音频摘要;其中,每30分钟创建一个录音文件;
50.步骤3)若检测到按下停止按键,文件指针返回文件头处,更新头文件信息,释放内存空间,结束声音录制。
51.作为上述技术方案的改进之一,所述对该录音文件进行处理和音频提取,得到多个音频摘要;其具体过程为:
52.利用时间戳作为文件名,基于野外声音采集与存储设备采集声音信号,并进行模数转换,得到语音数字信号,并进行存储,创建当前录音文件;
53.读取当前录音文件中的每帧的声音数字信号,逐帧计算声音数字信号的临界带功率及噪声系数;
54.根据每帧的声音数字信号的临界带功率,计算每帧声音数字信号的扩频功率;
55.根据每帧声音数字信号的噪声系数和扩频功率,计算每帧声音数字信号的掩蔽系数;
56.根据掩蔽系数及人耳的绝对听阈,计算出掩蔽阈值;
57.利用掩蔽阈值对每帧的声音数字信号进行去噪,得到每帧增强后的语音信号;
58.逐帧计算每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数;
59.联合判断每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数是否满足预设的双门限条件;
60.根据判断结果,确定出每帧增强后的语音信号中音频的起点和终点,得到多个独立的语音段;
61.提取各语音段中所有语音帧的平均梅尔频率倒谱系数特征和logfbank特征,构成语音段特征向量;
62.计算每相邻两个语音段特征向量之间的余弦距离,当余弦距离达到预设阈值时,对两个语音段进行合并,最终得到多个音频摘要。
63.本发明与现有技术相比的有益效果是:
64.1、结构上,所提供的声音采集与存储设备安装及拆卸方便,对整体方形外壳进行了防水处理、对麦克风进行了可拆卸和防水设置,增强了整个设备的防水性能,更适用于森林高湿度及常年雨水天气等恶劣环境中。
65.2、硬件上,声音采集与存储电路板中的可调增益模块可以通过外部切换开关实现对增益灵敏度的调节,并增大了增益的可调节范围,提升了系统对环境适应性,可用于较远距离的声音采集;采用了低功耗设计,通过将现有的时钟运行频率168mhz更改至50mhz,大大降低了整个电路板的功耗,提升了设备的续航时间,结合太阳能充电,保证设备能够始终处于工作状态。
66.3、通过修改地址变量类型,使得移动存储器的存储空间增加至至少2t,实现支持
采用大容量移动存储设备存储声音数据。
67.4、基于听觉掩蔽效应,对声音数字信号进行降噪,不需要将噪声完全消除,减少了语音的失真,改善了听觉的舒适度
68.5、三参数的双门限端点检测算法,可以提升端点检测的准确性,利用平均mfcc特征及logfbank特征得到的语音段特征向量,计算相邻两个语音段特征向量之间的余弦距离,并基于相关性对相邻语音段进行合并,遍历剩余的相邻两个语音段特征向量的余弦距离,并进行关联性判断,生成音频摘要,进一步剔除冗余语音段,得到具有更纯净语音的音频摘要,大大方便后续研究使用。
附图说明
69.图1是本发明的一种野外声音采集与存储设备的结构示意图;
70.图2是图1的本发明的一种野外声音采集与存储设备的打开上盖和中层盖的结构示意图;
71.图3是是图1的本发明的一种野外声音采集与存储设备的底视图;
72.图4是图1的本发明的一种野外声音采集与存储设备的底壳上的麦克风固定底座的结构示意图;
73.图5是图1的本发明的一种野外声音采集与存储设备的底壳上的咪盖的结构示意图;
74.图6是图1的本发明的一种野外声音采集与存储设备的声音采集与存储电路板的内部结构示意图;
75.图7是图1的本发明的一种野外声音采集与存储设备的声音采集与存储电路板的可调增益模块的增益调节电路的原理图;
76.图8是本发明的一种声音处理方法的流程图;
77.图9是图8的本发明的一种声音处理方法中的对该录音文件进行处理和音频提取,得到多个音频摘要的流程图。
78.附图标记:
79.10、上盖
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
20、中层盖
80.30、底壳
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
40、可充电电池组
81.50、旋转轴
82.11、第一锁扣部件
83.21、电路板卡槽
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
22、led屏
84.23、功能按键
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
24、防水硅胶圈
85.25、第二锁扣部件
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
26、存储介质通孔
86.31、可拆卸麦克风固定组件
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
32、第三锁扣部件
87.33、电池槽
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
34、固定耳
88.311、麦克风固定底座
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
312、咪盖
89.3111、第一端
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
3112、第二端
具体实施方式
90.现结合附图对本发明作进一步的描述。
91.如图1所示,本发明提供了一种野外声音采集与存储设备,其包括:方形壳体、麦克风、野外声音采集与存储电路板和可充电电池组40;
92.方形壳体内设置野外声音采集与存储电路板和可充电电池组40,麦克风设置在方形壳体的外壁上;
93.如图2所示,方形壳体的两侧壁上分别沿垂直于侧壁的方向向外延伸固定耳34,所述固定耳34为多孔结构,通过固定装置与固定耳34固定,将整个设备单独固定在数据采集点或野外环境中,或多个设备彼此通过固定耳34连接后,再通过固定装置穿过固定耳34固定在数据采集点或野外环境中,实时采集野外声音;
94.所述麦克风,用于实时采集野外声音信号,并将其转换为对应的电信号,并将其发送至声音采集与存储电路板;
95.所述声音采集与存储电路板,用于接收麦克风发送的电信号,并进行信号处理与存储;
96.所述可充电电池组,用于给声音采集与存储电路板提供正常工作的电源。
97.如图1所示,所述壳体为三层式结构,其包括:上盖10、中层盖20和底壳30;中层盖20位于上盖10和底壳30之间,上盖10位于中层盖20之上,底壳30位于中层盖20之下;
98.所述上盖10、中层盖20和底壳30均为带有开口的长方体防水结构,且三者的内部均为中空结构;中层盖20嵌套在上盖10内,且上盖10和中层盖20的开口方向相同,底壳30的开口方向与上盖10的开口方向相对,底壳30的开口方向与中层盖20的开口方向相对;
99.三者四周的同一侧分别设置对应的旋转轴固定座,将旋转轴50穿过并固定在三者各自的旋转轴固定座上,将三者连接在一起,并使三者各自绕旋转轴50进行旋转打开或旋转关闭。
100.其中,如图1所示,上盖10的外壁的中部设置第一锁扣部件11,中层20的外壁的中部设置第二锁扣部件25,底壳30的外壁的中部设置第三锁扣部件32;第一锁扣部件11穿过第二锁扣部件25后,与第三锁扣部件32锁扣配合连接,用于将野外声音采集与存储电路板和可充电电池组40封闭在方形壳体内,避免其受到损坏。
101.所述上盖10的开口处向四周外延伸第一外延矩形段,中层盖20的开口处向四周外延伸第二外延矩形段,底壳30的开口处向四周外延伸第三外延矩形段,第一外延矩形段盖在第二外延矩形段之上,第二外延矩形段盖在第三外延矩形段上,三个外延矩形段呈层叠设置。
102.第二外延矩形段的正面开设凹槽,该凹槽内粘贴防水硅胶圈24;其背面开设凹槽,该凹槽内粘贴防水硅胶圈24,通过三个外延矩形段之间的层叠设置,且彼此两两之间增设防水硅胶圈24,起到了防渗漏、防水的效果。
103.如图1所示,上盖10的内部中空结构为放置凹槽,其用于放置中层盖20,中层盖20的内部中空结构为电路板卡槽21,用于放置声音采集与存储电路板;底壳30的内部中空结构为电池槽33,用于放置可充电电池组40。
104.如图1所示,所述中层盖20的顶部增设人机交互界面,该人机交互界面与声音采集与存储电路板电性连接,用于对声音采集与存储电路板进行状态设置和状态显示;
105.该人机交互界面包括:led屏22和多个功能按键23;
106.所述led屏22,用于显示声音采集与存储电路板的工作状态;
107.所述功能按键23,用于根据实际需要,对声音采集与存储电路板进行状态设置;每个功能按键对应电路板工作的一个状态,可以根据需要进行设置;
108.如图2所示,中层盖20的四周的一侧壁上开设存储介质通孔26,用于人工插拔存储介质,且该存储介质能够存储电路板所采集的野外声音数据。
109.所述底壳30的两侧壁上分别沿垂直于侧壁的方向向外延伸固定耳34,通过固定装置与固定耳34固定,将整个设备单独固定在数据采集点或野外环境中,或多个设备彼此通过固定耳34连接后,再通过固定装置穿过固定耳34固定在数据采集点或野外环境中,实时采集野外声音;
110.如图3所示,所述底壳30的另外两侧壁上分别相对对称地设置可拆卸麦克风固定组件31,将每个麦克风设置在可拆卸麦克风固定组件31内;
111.如图3、4和5所示,该可拆卸麦风固定组件31包括:麦克风固定管311和咪盖312;
112.麦克风固定管311的第一端3111沿径向方向向外延伸台阶状结构,且基于该台阶状结构沿轴向方向向外延伸圆柱段,该圆柱段的外圆周增设外螺纹,形成螺栓,与底壳30的侧壁上开设的内螺纹进行螺纹配合连接;
113.麦克风固定管311内设置麦克风,并在该麦克风固定管311的第二端3112沿轴向方向向外延伸凸台,将咪盖312盖在该凸台上,与麦克风固定管311的第二端3112压合连接,且咪盖312的内壁设有透声防水膜,用于将麦克风密封在麦克风固定管311内,保证采集声音的环境。
114.所述咪盖312的顶部开设多个透声孔,以提升声音的采集效果。
115.所述底壳30的四周的侧壁上还增设有充电孔,用于将可充电电池组与外部的电源设备连接,随时为可充电电池组进行充电;其中,该充电孔上设有防水硅胶盖,在不进行充电时,将充电孔盖住,避免后续无法进行充电。
116.本发明通过在麦克风固定管311和咪盖312之间设置透声防水膜,可以在保证声音采集效果的情况下,增强对麦克风的防水保护;通过在中层盖的外延矩形段的正面和背面均设置凹槽,并在对应的凹槽内黏贴防水胶圈,可以使上层盖、中层盖与下层盖之间防水密合,增强了设备外壳整体的防水性能,使得设备能够更适应野外森林中的高湿度及常年雨水天气等恶劣环境。
117.在本实施例中,所示麦克风是mic模拟麦克风,用于拾取立体声信号。
118.本发明提供的声音采集与存储电路卡安装和拆卸方便,通过三层式壳体之间可旋转连接,可以便于对方形壳体内的各部件进行后期维护;通过可拆卸麦克风固定组件,方便地对麦克风进行拆卸和更换等维护作业,避免麦克风直接暴露于野外环境中,起到对麦克风的保护作用;采用上盖和中层盖对声音采集与存储电路板及可充电电池组进行保护,提升了整个设备的防水性能。
119.如图6所示,所述声音采集与存储电路板包括:人机交互模块、可调增益模块、语音编解码模块、mcu中控模块、移动存储器和电源管理模块;
120.所述人机交互模块,用于实时显示设备状态,并根据显示的设备状态进行更改设置;
121.具体地,所述人机交互模块包括:包括lcd显示屏和多个功能按键;
122.所述lcd显示屏,用于实时显示设备状态;
123.所述功能按键,用于对声音采集与存储电路板中的状态参数进行设置;
124.例如,lcd显示屏主页面显示可分成四行,第一行显示使用单位,第二行显示采样率、增益及状态,第三行显示温度和文件数,第四行显示实时时间。
125.功能按键包括控制整个电路板的启动声音录音和停止声音录制,以及包括:设置上述四行中的对应参数的功能按键。
126.人机交互模块可以方便用户操作及查看整个电路板的工作状态,提升用户体验。
127.其中,该lcd显示屏背光通过npn三极管来驱动,所述mcu中控模块与npn三极管集电极之间串联一个二极管,该二极管的负极连接三极管的集电极,由所述mcu中控模块来驱动lcd显示屏背光电源的通电与断电,进一步降低系统功耗。具体地,人机交互模块使用的lcd显示屏可通过s8550三极管驱动背光的亮灭,在检测到按键被按下后,mcu中控模块可驱动三极管点亮lcd显示屏背光,若10秒内无操作,则控制背光自动熄灭。
128.所述可调增益模块,用于根据两组拨码控制开关的开关状态,选择对应的模式,将麦克风输出的语音模拟信号进行放大后输送至语音编解码模块,或将麦克风输出的语音模拟信号直接输送至语音编解码模块;
129.具体地,如图7所示,所述可调增益模块包括:第一组拨码控制开关、高增益电路和第二组拨码控制开关;第一组拨码控制开关和第二组拨码控制开关,对应地设置在高增益电路的输入端和输出端;
130.第一组拨码控制开关和第二组拨码控制开关均处于闭合状态,即模式一,则高增益电路导通,麦克风将采集的声音信号进行转换,得到语音模拟信号,该信号为电信号,将转换后的语音模拟信号输入至高增益电路进行放大,得到放大后的信号,并将其发送至语音编解码模块;
131.第一组拨码控制开关和第二组拨码控制开关均处于断开状态,即模式二,则高增益电路不导通,麦克风将转换后的语音模拟信号直接输入至语音编辑解码模块。语音编解码模块对语音模拟信号进行编码后,得到语音数字信号,并发送给mcu中控模块,由mcu中控模块对接收到的语音数字信号做降噪处理,之后通过dma传输至移动存储器,从而实现了数据的采集与存储。
132.可调增益模块可以通过在其输入端和输出端分别设置一组拨码控制开关,实现对信号增益灵敏度的调节,并增大了增益的可调节范围,提升了对环境适应性,可用于较远距离的声音采集。
133.如图7所示,切换开关1的打开状态是指两路模拟麦克风mic1和mic2与增益电路连通,与编码器直连的通路断开;
134.切换开关1的关闭状态是指两路模拟麦克风mic1和mic2与增益电路的连接断开,与编码器直连的通路连通;
135.切换开关2的打开状态是指增益电路与编解码器连通;
136.切换开关2的关闭状态是指增益电路与编解码器的连接断开。
137.若不设置切换开关2,则当可调增益模块切换到模式二时,由于高增益电路仍处于通电状态,会产生干扰电信号叠加到语音模拟信号中,增大语音模拟信号中的噪声,造成输
出的语音模拟信号的噪声大,影响提取信号的有效声音片段。
138.通过对可调增益模块设置模式一和模式二,实现了增益可调,高增益电路可采用双片max9814芯片分别对两路麦克风mic1和mic2的咪头发送的语音模拟信号进行低噪声放大与自动增益处理。使用该高增益电路可将语音模拟信号低噪声放大40db,配合编解码,即编解码芯片(增益可调范围为

12db至37.5db),使得增益灵敏度最高可达

13.9dbu。若语音模拟信号未经高增益电路进行放大,且编解码芯片内部增益调低至

12db,计算得到增益灵敏度最低为

53dbu。增益灵敏度的计算公式如下:
139.20lg[(0.2v/pa)
÷
(1v/pa)]=

13.9dbu
[0140]
其中,20是常量,0.2v/pa是麦克风灵敏度放大后的参数,1v/pa是麦克风参数;
[0141]
在低功耗设计方面,现有的mcu中控模块的时钟均工作于168mhz时钟频率下,本发明更改时钟运行频率至50mhz时钟频率,使得mcu中控模块的运行功耗降低了约三分之一,且不影响声音的录制效果。
[0142]
所述语音编解码模块,用于将接收的放大后的语音模拟信号进行编解码,并转化为语音数字信号,并将其发送至mcu中控模块,或将接收的语音模拟信号转换为声音数字信号,并将其发送至mcu中控模块;
[0143]
所述mcu中控模块,用于对语音数字信号或声音数字信号进行处理,得到对应的处理后的信号;
[0144]
所述移动存储器,用于存储处理后的信号,并封装成wav无损格式的数据,写入移动存储器;
[0145]
其中,移动存储器可为sd extended capacity(容量扩大化的安全存储卡),存储容量可达1tb。
[0146]
所述电源管理模块,用于为声音采集与存储电路板中的各模块供电。
[0147]
其中,电源管理模块负责给各模块供电,并能够根据耗电情况使用低功耗low dropout regulator(低压差线性稳压器)降压芯片生成相应的电压,相比于使用高电流宽稳压域的电源芯片更加省电。本发明所提供的声音采集与存储电路板主要的ic使用电压包括3.3v和5v两种,3.3v电压使用超低功耗ldo芯片xc6206p332mr生成,5v电压使用l4995j芯片生成,对应的静态驱动电流为270ma,完全能满足工作需要。
[0148]
通过上述低功耗设计,可将声音采集与存储电路板的整体功耗降至0.5w以内。还可以为该电路板外接15w太阳能板为可充电电池组充电,若按一天照射4小时发电效率为40%,则一天能产生电能24w,而声音采集与存储电路板一天的耗能为12w,使得利用太阳能为声音采集与存储电路板充电,提升续航时间,保证该电路板能够始终处于工作状态。
[0149]
该电路板能够达到的技术指标件下表1:
[0150]
表1
[0151][0152][0153]
因此,本发明提供的声音采集与存储电路板具有长航时、高灵敏度、适应野外环境及大容量等优点,解决了小型设备的野外录音时间短、对环境适应性差及户外录制声音噪声大等问题,可以在不对野生动物生活造成影响的情况下,方便地、持续地进行声音信息的采集。
[0154]
所述声音采集与存储电路板还包括:声音处理模块,用于基于听觉掩蔽效应,对移动存储器中存储的mcu中控模块处理后的信号进行降噪,得到降噪后的信号,再基于三参数端点检测算法,对降噪后的信号进行活跃帧检测,并提取语音段mfcc和logfbank特征,基于余弦相似度,对相邻片段合并,生成多个音频摘要。
[0155]
具体地,所述声音处理模块的具体过程为:
[0156]
利用时间戳作为文件名,基于野外声音采集与存储设备采集声音信号,并进行模数转换,得到语音数字信号,并进行存储,创建当前录音文件;
[0157]
读取当前录音文件中的每帧的声音数字信号,逐帧计算声音数字信号的临界带功率及噪声系数;
[0158]
根据每帧的声音数字信号的临界带功率,计算每帧声音数字信号的扩频功率;
[0159]
根据每帧声音数字信号的噪声系数和扩频功率,计算每帧声音数字信号的掩蔽系数;
[0160]
根据掩蔽系数及人耳的绝对听阈,计算出掩蔽阈值;
[0161]
利用掩蔽阈值对每帧的声音数字信号进行去噪,得到每帧增强后的语音信号;
[0162]
逐帧计算每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数;
[0163]
联合判断每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数是否满足预设的双门限条件;
[0164]
根据判断结果,确定出每帧增强后的语音信号中音频的起点和终点,得到多个独立的语音段;
[0165]
提取各语音段中所有语音帧的平均梅尔频率倒谱系数(mel

frequency cepstral coefficient,mfcc)特征和logfbank特征,构成语音段特征向量;
[0166]
计算每相邻两个语音段特征向量之间的余弦距离,当余弦距离达到预设阈值时,对两个语音段进行合并,最终得到多个音频摘要。
[0167]
其中,进行存储时,采用direct memory access(直接存储器访问)中断后,对声音文件进行降噪处理,并将数据写入录音文件中。调高增益的同时外部环境噪音也将被放大,本发明对降噪算法进行了优化,使之能很好的运行于小型32位中控芯片stm32f4中,且降噪效果明显。
[0168]
本发明还对录音文件的代码参数进行了优化,使得stm32f4系列中控芯片最高支持外插1tb的sdxc内存卡。具体将0.13a版本的文件系统写入至stm32f4代码中,将代码中寻址读写的地址变量设置为“unsigned long long”格式,使得设备可支持1t容量的sdxc内存卡。
[0169]
sdxc卡以扇区的存储方式进行存储,需配置一系列命令后将数据封装成一个完整块,再以每周期4bit的数据位宽进行数据的读写。现有的sdxc卡理论上最大支持2tb内存空间,但受到技术限制,目前市面上销售的内存卡最大容量只有1tb。本发明通过修改地址变量类型,使得所设计的声音采集与存储设备可支持至少2t的存储容量的sdxc卡。
[0170]
如图8所示,本发明还提供了一种基于野外声音采集与存储设备的声音处理方法,该方法包括:
[0171]
步骤1)检测到按下野外声音采集与存储设备中设有的录音键(功能按键),进行初始化,之后检测声音采集与存储电路板上设有的移动存储器是否存在;
[0172]
若不存在移动存储器,则提示插入移动存储器;
[0173]
若存在移动存储器,则开辟缓存空间,进入录音模式;
[0174]
步骤2)进一步判断移动存储器的剩余存储空间大小是否足够存储一个音频文件;
[0175]
若移动存储器的剩余存储空间大小不能足够存储一个音频文件,则关闭录音键,并提示更换移动存储器;
[0176]
若移动存储器的剩余存储空间大小足够存储一个音频文件,则创建当前录音文件,并利用时间戳(即实时时间)作为文件名,并进入循环录音状态,在这期间,声音数据通过dma传输方式存储声音文件,该传输方式不会影响存储条件判断。生成30分钟的录音文件后,执行结束当前文件写入操作,生成一个录音文件,对该录音文件进行处理和音频提取,得到多个音频摘要;
[0177]
再创建新的录音文件,继续进行上述录音和音频提取操作,得到多个音频摘要;其中,每30分钟创建一个录音文件;
[0178]
步骤3)若检测到按下停止按键,文件指针返回文件头处,更新头文件信息,释放内存空间,结束声音录制,并关闭编解码芯片,以降低功耗。
[0179]
在本实施例中,所述移动存储器为sd卡。
[0180]
其中,如图9所示,所述对该录音文件进行处理和音频提取,得到多个音频摘要;其具体过程为:
[0181]
步骤100)利用时间戳作为文件名,基于野外声音采集与存储设备采集声音信号,并进行模数转换,得到语音数字信号,并进行存储,创建当前录音文件;
[0182]
步骤110)读取当前录音文件中的每帧的声音数字信号,逐帧计算声音数字信号的临界带的功率及噪声系数;
[0183]
具体地,利用现有的临界频带划分表中划分的25个频带,对每帧语音数字信号进行临界频带的划分,并计算每帧语音数字信号的第i个临界频带的功率b
i
(m):
[0184][0185]
其中,p(m,k)为原始声音信号的功率谱;其中,m表示帧号的数字编号,k表示离散频率点;b
h
表示第i个临界频带所对应的频率的上边界;b
l
表示第i个临界频带所对应的频率的下边界。
[0186]
根据上述公式(1),计算帧号编号m从0

24的25个临界频带的功率b
i
(0),b
i
(1),

,b
i
(24)。
[0187]
根据公式(2),计算第m帧的噪声系数z(m):
[0188][0189]
其中,g
m
为原始声音信号的功率几何均值;a
m
为原始声音信号的功率算数均值,计算公式如下:
[0190][0191][0192]
其中,k为功率谱的频带总数。
[0193]
步骤120)根据每帧的声音数字信号的临界带功率,计算每帧声音数字信号的扩频功率;
[0194]
具体地,假设扩展函数定义为
[0195]
其中,δ=i

j表示临界带号差,i,j=1,2,

,24,25;
[0196]
利用扩展函数sf
i,j
对b
i
(m)进行扩频,得到扩频功率c
i
(m):
[0197][0198]
步骤130)根据每帧声音数字信号的噪声系数和扩频功率,计算每帧声音数字信号的掩蔽系数;
[0199]
具体地,第i个临界频带的掩蔽系数t
i
可由下式(4)求得:
[0200][0201]
其中,q
i
由下式计算求得:
[0202]
q
i
=14.5 i

z(i 9)
[0203]
其中,z为噪声系数;
[0204]
步骤140)根据掩蔽系数及人耳的绝对听阈,计算掩蔽阈值;
[0205]
具体地,掩蔽阈值t(m,i)可由下式(5)计算:
[0206][0207]
其中,表示人耳的绝对听阈,作为已知值。
[0208]
步骤150)利用掩蔽阈值对每帧的声音数字信号进行去噪,得到每帧增强后的语音信号;
[0209]
具体地,基于每个频段的掩蔽阈值t(m,i)进行降噪时,针对每帧的声音数字信号及每个离散频率点,计算增益函数g(m,k):
[0210][0211]
其中,d(m,k)表示噪声幅度谱;t(m,k)为第m帧离散频点k对应的掩蔽阈值;t(m,k)可根据频点所属频段得到。
[0212]
根据下式(7),计算增强后的语音信号x(m,k):
[0213]
x(m,k)=g(m,k)y(m,k)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0214]
其中,y(m,k)为带噪语音的幅度谱。
[0215]
上述去噪过程是基于听觉掩蔽效应,对声音数字信号进行降噪,不需要将噪声完全消除,减少了语音的失真,改善了听觉的舒适度。
[0216]
步骤160)逐帧计算每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数;
[0217]
步骤170)联合判断每帧增强后的语音信号的短时能量、短时平均过零率和噪声系数z(m)是否满足预设的双门限条件;
[0218]
具体地,基于第m帧的短时能量e(m)、短时平均过零率c(m)和噪声系数z(m)进行端点检测:
[0219]
1、假设对e(m)设定一个较高的门限值和一个较低的门限值对c(m)设定一个较高的门限值和一个较低的门限值对噪声系数z(m)设定一个较高的门限值和一个较低的门限值
[0220]
2、如果第m帧满足且时,判定该m帧为音频段起点。
[0221]
3、利用较低的门限值和从该m帧开始往后搜索,只要第m n帧的短时能量高于短时平均过零率高于且噪声系数低于则继续往后搜索,直至搜索到某一帧的短时能量e(m)低于或等于短时平均过零率c(m)低于或等于且噪声系数z(m)高于或等于则判定该帧为音频段终点。
[0222]
步骤180)根据判断结果,确定出每帧增强后的语音信号中音频段的起点和音频段的终点,得到多个独立的语音段;
[0223]
步骤190)提取各语音段中所有语音帧的平均梅尔频率倒谱系数(mfcc)特征和logfbank特征,构成语音段特征向量;
[0224]
具体地,基于端点检测结果,可以得到多个独立的音频段。对于每个独立的音频
段,分别提取所有语音帧的平均mfcc特征v
mfcc
和平均logfbank特征v
logf
,两类特征依次相连构成语音段特征向量v=[v
mfcc v
logf
]。
[0225]
步骤200)计算每相邻两个语音段特征向量之间的余弦距离,当余弦距离达到预设阈值时,对两个语音段进行合并,最终得到多个音频摘要。
[0226]
本发明采用余弦距离进行关联性判断,当相邻两个语音段的特征向量间的余弦距离大于0.5时,则该相邻两个语音段之间具有较强的关联性,对该相邻两个语音段进行合并;
[0227]
当相邻两个语音段的特征向量间的余弦距离小于或等于0.5时,则该相邻两个语音段之间不具有关联性,并继续遍历和判断剩余的相邻两个语音段的特征向量之间的余弦距离是否达到预设的阈值,直至结束;
[0228]
对所有语音帧进行上述处理后,将合并后的语音段进行整理,得到最终的音频摘要,也即有效的动物叫声。
[0229]
本发明提供端点检测方案分别对三参数设置双门限来进行端点检测,可以提升端点检测的准确性,利用平均mfcc特征及logfbank特征得到的语音段特征向量,计算相邻两个语音段的特征向量间的余弦距离,并进行相关性判断,可以进一步剔除冗余语音段,得到具有更纯净语音的音频摘要,可大大方便后续研究使用。
[0230]
另外,人的主观感受是衡量降噪效果好坏的最终评价标准,对于一些传统的降噪方法,它们是基于某一准则(如最小均方误差准则)来进行降噪的。但实际上,均方误差最小并不一定意味着人耳感受到的噪声最小。人对声音的主管感知是生理、心理等多方面综合作用的结果。基于听觉掩蔽效应的降噪方法不需要将噪声完全消除,只要满足残留噪声不被人感知这一条件即可,减少了语音的失真,改善了听觉的舒适度。
[0231]
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜