一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

声音事件侦测系统及方法与流程

2022-03-04 22:04:01 来源:中国专利 TAG:


1.本发明涉及一种声音事件侦测系统及方法,特别是涉及一种可节省储存空间及运算功耗的声音事件侦测系统及方法。


背景技术:

2.现有的音频唤醒应用多用于检测某些“事件”,例如语音命令或声音事件(哭声,玻璃破碎等),并触发响应动作,例如将命令数据发送至云端或发出警报讯号。
3.音频唤醒应用多以“常时启动(always-on)”系统来实现,换言之,即是检测系统始终“监听”环境声音并搜集所需的语音讯号。常时启动的系统非常耗电。为了有效控制功耗,大多数设备采用了语音活动检测(voice activity detection, vad),以过滤大部分无效的声音讯号,来避免过多的进入声音事件识别(acoustic event detection, aed)阶段,而这需要大量的计算资源。
4.现有的vad及aed阶段中,各自具有两个主要部分:特征提取和识别器。整个系统首先使用vad检测语音,然后如果语音处于活动状态,则将声音讯号发送到声音事件识别/检测模块。然而,在上述的vad及aed阶段中,特征提取的功耗变得非常重要。
5.故,改良上述语音检测机制,来克服上述的缺陷,已成为该项事业所欲解决的重要课题之一。


技术实现要素:

6.本发明所要解决的技术问题在于,针对现有技术的不足提供一种可节省储存空间及运算功耗的声音事件侦测系统及方法。
7.为了解决上述的技术问题,本发明所采用的其中一技术方案是提供一种声音事件侦测系统,其包括语音活动检测子系统、资料库及声音事件侦测子系统。语音活动检测子系统,包括语音接收模块、特征撷取模块及第一判断模块。语音接收模块经配置以接收一原始声音讯号,特征撷取模块,经配置以从该原始声音讯号撷取多个特征,且第一判断模块经配置以执行一第一分类流程,以判断该些特征是否符合一启动语音。资料库用以储存所撷取的该些特征。声音事件侦测子系统包括第二判断模块及功能响应模块。第二判断模块响应于该第一判断模块判断该些特征符合该启动语音时,经配置以执行一第二分类流程,以判断该些特征是否符合多个预定语音的至少其中之一。功能响应模块响应于该第二判断模块判断该些特征符合该些预定语音的至少其中之一时,执行多个功能中,对应于判断为符合该预定语音的至少其中之一者。
8.为了解决上述的技术问题,本发明所采用的另外一技术方案是提供一种声音事件侦测方法,其包括:配置一语音活动检测子系统的一语音接收模块接收一原始声音讯号;配置该语音活动检测子系统的一特征撷取模块以从该原始声音讯号撷取多个特征;配置该语音活动检测子系统的一第一判断模块以执行一第一分类流程,并判断该些特征是否符合一启动语音;将所撷取的该些特征储存至一资料库;其中,响应于该第一判断模块判断该些特
征符合该启动语音时,配置一声音事件侦测子系统的一第二判断模块执行一第二分类流程,以判断该些特征是否符合多个预定语音的至少其中之一;其中,响应于该第二判断模块判断该些特征符合该些预定语音的至少其中之一时,配置该声音事件侦测子系统的一功能响应模块执行多个功能中,对应于判断为符合该预定语音的至少其中之一者。
9.本发明的其中一有益效果在于,本发明所提供的声音事件侦测系统及方法,其能透过结合声音侦测(vad)与声音识别(acoustic event detection, aed)两个阶段的特征值撷取,在仅提取一次特征的情形下,能够节省计算使用量,进而减少功耗。
10.此外,于启动语音被判断存在时,则将资料库中所撷取的多个特征传递到识别阶段,而不是传递原始声音讯号,由于特征占用的内存容量通常小于原始声音讯号,因此本发明所提供的声音事件侦测系统及方法还可进一步节省了内存用量以及传输带宽。
11.为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与图式,然而所提供的图式仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
12.图1为根据本发明实施例的声音事件侦测系统的前视示意图。
13.图2为根据本发明实施例的撷取流程的流程图。
14.图3为根据本发明另一实施例的声音事件侦测方法的流程图。
具体实施方式
15.以下是通过特定的具体实施例来说明本发明所公开有关“声音事件侦测系统及方法”的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不背离本发明的构思下进行各种修改与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。另外,本文中所使用的术语“或”,应视实际情况可能包括相关联的列出项目中的任一个或者多个的组合。
16.参阅图1所示,本发明实施例提供一种声音事件侦测系统1,其包括语音活动检测子系统vad、资料库db及声音事件侦测子系统aed。
17.资料库db可以例如是静态随机存取内存(static random access memory,sram)、动态随机存取内存(dynamic random access memory)、硬盘、闪存(flash memory),或是任何可用来储存电子讯号或数据之内存或储存装置。
18.语音活动检测子系统vad包括语音接收模块100、特征撷取模块102及第一判断模块104。在一些实施例中,语音活动检测子系统vad可包括第一处理单元pu1,于本实施例中,第一处理单元pu1可以是中央处理器、现场可程序门阵列(field-programmable gate array,fpga)或是可加载程序语言来执行相应功能的多用途芯片,其用于执行用于实现特征撷取模块102及第一判断模块104的程序代码,且本发明不限于此,语音活动检测子系统vad下的所有模块可以软件、硬件或韧体的方式实现。
19.语音接收模块100,经配置以接收原始声音讯号osd。语音接收模块100包括一可接收原始声音讯号osd的麦克风,且麦克风可将接收到的原始声音讯号osd传至特征撷取模块
102。
20.特征撷取模块102经配置以从原始声音讯号osd撷取多个特征ft。举例而言,多个特征ft可例如为多个梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfccs)。而特征撷取模块102可通过一撷取流程来撷取原始声音讯号osd的该些特征ft,并将。可进一步参考图2,其为根据本发明实施例的撷取流程的流程图。如图2所示,撷取流程可包括下列步骤:步骤s100:将原始声音讯号分解为多个讯框。
21.步骤s101:通过一高通滤波器将该些讯框对应的讯号资料进行预强化。
22.步骤s102:进行一傅立叶转换,以将经预强化的该些讯号资料转换至频域,以产生对应于该些讯框的多个频谱资料。
23.步骤s103:将该些频谱数据通过一梅尔滤波器,以得到多个梅尔刻度。
24.步骤s104:在该些梅尔刻度上提取对数能量。
25.步骤s105:对所获得的对数能量进行离散余弦转换,以转换到倒频谱域,从而产生该些梅尔频率倒谱系数。
26.接着,请复参考图1,语音活动检测子系统vad还包括第一判断模块104,经配置以执行第一分类流程,以判断该些特征ft是否符合启动语音。需要说明的是,第一分类流程包括将先前于撷取流程中产生的对应于该些讯框的该些频谱数据与启动语音的频谱数据进行比对,以判断该些特征是否符合该启动语音,或者,第一分类流程亦可包括将先前于撷取流程中产生的对应于该些讯框的该些梅尔频率倒谱系数与启动语音的梅尔频率倒谱系数进行比对,以判断该些特征是否符合该启动语音。
27.需要说明的是,声音事件侦测子系统aed可常时处在睡眠模式,或常见的省电模式,以最大限度的降低声音事件侦测系统1的功耗。而当第一判断模块104判断该些特征ft符合启动语音时,可产生一声音事件侦测启动讯号s1,用以唤醒声音事件侦测子系统aed。
28.另一方面,先前提到的资料库db可用以储存所撷取的该些特征ft,而该些特征ft可例如包括于撷取流程中取得的对应于该些讯框的多个频谱数据及多个梅尔频率倒谱系数。此外,启动语音的相关数据,例如其频谱数据及梅尔频率倒谱系数,亦可储存于资料库db,但本发明不限于此,语音活动检测子系统vad亦可内建有内存用于储存上述数据。
29.进一步说明,声音事件侦测子系统aed可包括第二判断模块110及功能响应模块112。在一些实施例中,声音事件侦测子系统aed可包括第二处理单元pu2,于本实施例中,第二处理单元pu2可以是中央处理器、现场可程序化逻辑门阵列(field-programmable gate array,fpga)或是可加载程序语言来执行相应功能的多用途芯片,其用于执行用于实现第二判断模块110及功能响应模块112的程序代码,且本发明不限于此,声音事件侦测子系统aed下的所有模块可以软件、硬件或韧体的方式实现,并且第一处理单元pu1及第二处理单元pu2可由上述的单一硬件实现,而毋须划分为两个处理单元。
30.响应于第一判断模块104判断该些特征ft符合启动语音时,或者,响应于接收到声音事件侦测启动讯号s1而使得声音事件侦测子系统aed启动时,第二判断模块110经配置以执行第二分类流程,以判断该些特征ft是否符合多个预定语音的至少其中之一。而与多个预定语音相关的数据可预先由用户定义并内建于声音事件侦测子系统aed中,例如可包括通过类似于前述撷取流程对该些预定语音进行撷取,取得的频谱数据以及梅尔频率倒谱系
数,或者可储存于资料库db中。
31.详细而言,第二分类流程包括通过一经训练机器学习模型对该些特征进行辨识,以判断该些特征是否符合该些预定语音的至少其中之一。其中,可将该些特征,例如,由原始声音讯号osd所撷取的多个梅尔频率倒谱系数作为输入特征向量输入一个经训练机器学习模型,例如,类神经网络模型。
32.而所谓经训练机器学习模型,可将预处理后的多个预定语音的相关数据依适当比例分为一训练集及一验证集,并以该训练集对机器学习模型进行训练。通过将验证集输入机器学习模型,同时评估机器学习模型是否达到预期精准度,若尚未达到预期精准度,则对机器学习模型进行超参数调整,并继续以该训练集对机器学习模型进行训练,直到机器学习模型通过效能测试,即将通过效能测试的机器学习模型作为经训练机器学习模型。
33.接着,请复参考图1,声音事件侦测子系统aed还包括功能响应模块112,响应于第二判断模块110判断该些特征符合该些预定语音的至少其中之一时,执行多个功能中,对应于判断为符合该预定语音的至少其中之一者。
34.因此,通过本发明所提供的声音事件侦测系统,其能透过结合声音侦测(vad)与声音识别(acoustic event detection, aed)两个阶段的特征值撷取,在仅提取一次特征的情形下,能够节省计算使用量,进而减少功耗。此外,于启动语音被判断存在时,则将资料库中所撷取的多个特征传递到识别阶段,而不是传递原始声音讯号,由于特征占用的内存容量通常小于原始声音讯号,因此还可进一步节省了内存用量以及传输带宽。
35.图3为根据本发明另一实施例的声音事件侦测方法的流程图。参阅图3所示,本发明另一实施例提供一种声音事件侦测方法,其至少包括下列几个步骤:步骤s300:配置语音活动检测子系统的语音接收模块接收原始声音讯号。
36.步骤s301:配置语音活动检测子系统的特征撷取模块以从原始声音讯号撷取多个特征,并储存至资料库。
37.步骤s302:配置语音活动检测子系统的第一判断模块以执行第一分类流程。
38.步骤s303:配置第一判断模块判断该些特征是否符合启动语音,若是,则进入步骤s304。若否,则回到步骤s300。
39.响应于第一判断模块判断该些特征符合该启动语音时,方法进入步骤s304:配置声音事件侦测子系统的第二判断模块执行第二分类流程。
40.步骤s305:配置第二判断模块判断该些特征是否符合多个预定语音的至少其中之一。若是,则进入步骤s306。若否,则回到步骤s300。
41.响应于该第二判断模块判断该些特征符合该些预定语音的至少其中之一时,方法进入步骤s306:配置声音事件侦测子系统的功能响应模块执行多个功能中,对应于判断为符合预定语音的至少其中之一者。
42.其中,各步骤的具体实施方式及其等效变化已于前述实施例中详细描述,故在此省略重复叙述。
43.实施例的有益效果本发明的其中一有益效果在于,本发明所提供的声音事件侦测系统及方法,其能透过结合声音侦测(vad)与声音识别(acoustic event detection, aed)两个阶段的特征值撷取,在仅提取一次特征的情形下,能够节省计算使用量,进而减少功耗。
44.此外,于启动语音被判断存在时,则将资料库中所撷取的多个特征传递到识别阶段,而不是传递原始声音讯号,由于特征占用的内存容量通常小于原始声音讯号,因此本发明所提供的声音事件侦测系统及方法还可进一步节省了内存用量以及传输带宽。
45.以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的申请专利范围,所以凡是运用本发明说明书及图式内容所做的等效技术变化,均包含于本发明的申请专利范围内。
46.符号说明1:声音事件侦测系统vad:语音活动检测子系统db:资料库aed:声音事件侦测子系统100:语音接收模块102:特征撷取模块104:第一判断模块pu1:第一处理单元osd:原始声音讯号ft:特征s1:声音事件侦测启动讯号110:第二判断模块112:功能响应模块pu2:第二处理单元
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献