本发明涉监测报警领域,具体涉及一种基于音频事件智能检测的智能家居看护方法及系统。
背景技术:
中国逐步步入老龄化社会,独生子女家庭越来越多,家中老人和孩子独自在家,无人照料的情况出现的越来越普遍,这个群体独立生活能力有限,独自在家发生危险的事情越来越普遍,如何减少因发现不及时造成不可挽回后面的现象出现,成为亟待解决的问题,随着人工智能技术的快速发展,将人工智能技术应用到家庭看护领域成为一种可能。
现有的家庭看护系统有以下两种方式,第一种方式:通过视频远程实时查看家里情况;第二种方式:通过调用公开语音识别接口进行。第一种方式,通过在家中每个房间安装监控摄像头,来实时查看家中情况单个摄像头成本比较高,且受到安装位置、角度和光照等外在因素影响,无法做到实时查看,如遇到情况,无法及时发现问题,摄像头实时监控,有隐私泄露的风险。第二种方式,通过在家中安装语音收录设备,通过调用第三方api,如百度、讯飞等。对语音信息进行实时的监控分析,然后再调用第三方即时通信软件,例如微信等,进行消息推送,达到报警通知。信息传递过程中,依靠无线网络传输信息,关键时刻网络信号不好,会出现信息丢失现象,调用第三方通用语音识别系统,无法做到每个家庭的唤醒词定制化,音频上传云端,造成客户隐私泄露,离线端语音识别系统效果差,唤醒率低,通用语音识别系统的误唤醒率较高。
上述问题是目前亟待解决的。
技术实现要素:
本发明的目的是提供一种基于音频事件智能检测的智能家居看护方法及系统。
为了解决上述技术问题,本发明提供了一种基于音频事件智能检测的智能家居看护方法,包括:
通过多个麦克风对环境音进行持续监听获取多个音频信息;
将音频信息输入到对应的独立检测模块中进行初次判断;
将初次判断结果为触发报警的音频信息发送给二次判断模块进行二次判断;
在二次判断的结果与初次判断的结果一致时,则判定为呼救信号,进行报警。
进一步地,所述通过多个麦克风对环境音进行持续监听获取多个音频信息的步骤包括:
将多个麦克风依据房间数量分组;
每组麦克风的数量至少有一个;
通过每个房间内的麦克风监听该房间内的音频信息,其中,音频信息存储于本地。
进一步地,所述将音频信息输入到对应的独立检测模块中进行初次判断的步骤包括:
对音频信息进行特征提取,获取特征向量;
将特征向量输入到预先建立好的第一声学模型中,输出对应的发音以及第一准确度;
获取语言模型中的每个文本以及对应的第二准确度;
通过匹配发音以及文本得出音频信息所表示的语句;
通过第一准确度以及第二准确度得出第一分数;
将语句与预设的敏感词进行匹配;
若匹配,则判断第一分数是否大于第一预设分数,在大于等于第一预设分数时,初次判断的结果为触发报警,若小于第一预设分数时,初次判断的结果为不触发报警;
若不匹配,初次判断的结果为不触发报警。
进一步地,所述将初次判断结果为触发报警的音频信息发送给二次判断模块进行二次判断的步骤包括:
对音频信息进行特征提取,获取特征向量;
将特征向量输入到预先建立好的第二声学模型中,输出对应的发音以及第三准确度;
获取语言模型中的每个文本以及对应的第二准确度;
通过匹配发音以及文本得出音频信息所表示的语句;
通过第三准确度以及第二准确度得出第二分数;
将语句与预设的敏感词进行匹配;
若匹配,则判断第二分数是否大于第二预设分数,在大于等于第二预设分数时,二次判断的结果为触发报警,若小于第二预设分数时,二次判断的结果为不触发报警;
若不匹配,二次判断的结果为不触发报警。
进一步地,所述第一声学模型的精度小于所述第二声学模型的精度。
进一步地,在二次判断的结果与初次判断的结果一致时,则判定为呼救信号,进行报警的步骤包括:
将初次判断的结果与二次判断的结果进行比对;
在结果一致时,判定为呼救信号,启动报警提醒;
将报警信息推送到看护人持有的终端上并就打开对话系统进行询问。
本发明还提供了一种基于音频事件智能检测的智能家居看护系统,包括:
监听单元,适于通过多个麦克风对环境音进行持续监听获取多个音频信息;
初次判断单元,适于将音频信息输入到对应的独立检测模块中进行初次判断;
二次判断单元,适于将初次判断结果为触发报警的音频信息发送给二次判断模块进行二次判断;
对比报警单元,适于在二次判断的结果与初次判断的结果一致时,则判定为呼救信号,进行报警。
进一步地,所述初次判断单元的个数为多个,且运行初次判断单元的芯片性能低于运行二次判断单元的芯片性能。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,至少一个所述指令由处理器执行时实现如上述的基于音频事件智能检测的智能家居看护方法。
本发明还提供了一种电子设备,包括存储器和处理器;所述存储器中存储有至少一条程序指令,所述处理器,通过加载并执行所述至少一条指令以实现如上述的基于音频事件智能检测的智能家居看护方法。
本发明的有益效果是,本发明提供了一种基于音频事件智能检测的智能家居看护方法及系统,其中,基于音频事件智能检测的智能家居看护方法包括:通过多个麦克风对环境音进行持续监听获取多个音频信息;将音频信息输入到对应的独立检测模块中进行初次判断;将初次判断结果为触发报警的音频信息发送给二次判断模块进行二次判断;在二次判断的结果与初次判断的结果一致时,则判定为呼救信号,进行报警。通过音频的方式进行监测,麦克风的安装方便,成本低廉,不受角度和光照的影响,同时,在没有触发敏感词的状态下,外人无法通过报警器进行监听,音频只在本地进行处理,不会上传网络,只有在触发敏感词时,才会将音频信息发送给监护人,实现了对用户的隐私保护,同时也避免了通过无线网络传输音频时音频丢失的问题。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明实施例所提供的基于音频事件智能检测的智能家居看护方法的流程图。
图2是本发明实施例所提供的独立检测模块的原理框图。
图3是本发明实施例所提供的基于音频事件智能检测的智能家居看护系统的原理框图。
图4是本发明实施例所提供的电子设备的部分原理框图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
如图1所示,本实施例1提供了一种基于音频事件智能检测的智能家居看护方法。通过音频的方式进行监测,麦克风的安装方便,成本低廉,不受角度和光照的影响,同时,在没有触发敏感词的状态下,外人无法通过报警器进行监听,音频只在本地进行处理,不会上传网络,只有在触发敏感词时,才会将音频信息发送给监护人,实现了对用户的隐私保护,同时也避免了通过无线网络传输音频时音频丢失的问题。
具体来说,基于音频事件智能检测的智能家居看护方法包括以下步骤:
s110:通过多个麦克风对环境音进行持续监听获取多个音频信息。
在本实施例中,步骤s110包括以下步骤:
s111:将多个麦克风依据房间数量分组。
具体来说,将麦克风分成多组,每组的麦克风数量可以相同,也可以不同,依据房间的大小进行安装。
s112:每组麦克风的数量至少有一个。
具体来说,每个房间的麦克风的数量至少有一个,在洗手间等狭小区域可以设置一个。
s113:通过每个房间内的麦克风监听该房间内的音频信息,其中,音频信息存储于本地。
具体来说,监听的音频信息存储于本地,不进行网络传输,一方面,避免了由于网络波动或者其他原因导致的音频信息的丢失,另一方面,避免了用户隐私的泄露。
s120:将音频信息输入到对应的独立检测模块中进行初次判断。独立检测模块的原理图如图2所示,其中,每个麦克风对应一个独立检测模块。
在本实施例中,步骤s120包括以下步骤:
s121:对音频信息进行特征提取,获取特征向量。
具体来说,特征可以采用fbank或者mfcc等通用特征。具体的提取过程为现有技术,本实施例不在陈述。
s122:将特征向量输入到预先建立好的第一声学模型中,输出对应的发音以及第一准确度。
请参阅图2,第一声学模型的建立过程如下:先对数据样本进行特征提取,获取对应的特征向量,特征向量分为训练集以及测试集,然后将训练集的特征向量输入到gmm-hmm模型后,将输出输入到高斯混合模型中进行对齐,从而完成声学模型的建立,通过测试集对声学模型进行精度测试。数据样本的音频数据经过压缩,精度损失较大,运行第一声学模型的芯片要求比较低,成本更低,此模块起到的作用是对大批量的音频起到一个过滤的作用,降低二次判断的运行压力。其中,第一声学模型的精度小于第二声学模型的精度。
将监测到的音频信息进行特征提取后,输入到建立好的第一声学模型中,可以获取音频信息的发音以及对应的第一准确度。
s123:获取语言模型中的每个文本以及对应的第二准确度。
具体来说,语言模型中预先存储有预设文本以及对应的文本的第二准确度,文本的第二准确度根据用户实用需求进行设定,语言模型实质上就是文本以及对应的第二准确度所建立的数据库。在使用时,调取数据库获取文本以及对应的第二准确度,其中第二准确度根据预设的敏感词进行设定,即,预设文本中存在预设的敏感词,将预设的敏感词的第二准确度调高,从而提高预设敏感词的识别的精准度。
s124:通过匹配发音以及文本得出音频信息所表示的语句。
具体来说,通过发音与发音词典进行匹配,得出每个发音对应的文本集合,结合上下文相关性组合出语句。通过发音得出语句的具体实现方式属于现有技术,本实施例不在具体进行陈述,例如,输入法在打出一连串拼音时会出现对应的符合要求的语句。如图2所示,音频信息的发音为“lao、shi、kuai、lai”,限定的字为“老、是、师、快、来”,组合后得出的语句为“老师快来”。
s125:通过第一准确度以及第二准确度得出第一分数。
具体来说,通过加权平均数的方式来获取音频信息对应的分数,通过分别设置第一准确度以及第二准确度的权重,从而得出第一分数。
s126:将语句与预设的敏感词进行匹配。
具体来说,将语句与预设的敏感词进行匹配,敏感词有多个,开发者根据用户的使用需求,或者用户自行设定相关敏感词,并存入语言模型中,语言模型自行给敏感词提高第二准确度。
s127:若匹配,则判断第一分数是否大于第一预设分数,在大于等于第一预设分数时,初次判断的结果为触发报警,若小于第一预设分数时,初次判断的结果为不触发报警。
具体来说,通过敏感词的匹配进行一次判断,在通过预设分数进行二次判断,以减少误唤醒的概率。
s128:若不匹配,初次判断的结果为不触发报警。
s130:将初次判断结果为触发报警的音频信息发送给二次判断模块进行二次判断。
在本实施例中,步骤s130包括以下步骤:
s131:对音频信息进行特征提取,获取特征向量。
具体来说,特征可以采用fbank或者mfcc等通用特征。具体的提取过程为现有技术,本实施例不在陈述。
s132:将特征向量输入到预先建立好的第二声学模型中,输出对应的发音以及第三准确度。
第二声学模型的建立过程如下:先对数据样本进行特征提取,获取对应的特征向量,将特征向量分为测试集以及训练集,然后将训练集的特征向量输入到gmm-hmm模型后,将输出输入到高斯混合模型中进行对齐,从而完成声学模型的建立,通过测试集的特征向量对声学模型的精度进行测试。第二声学模型的数据样本由上万个小时音频数据训练得到的,第二声学模型的泛化能力比较强,对语音的识别精度相对于第一声学模型更高,对进行计算的芯片的性能要求也更高,通过多个第一声学模型以及一个第二声学模型的设置,第一声学模型的精度小于第二声学模型的精度,在保证精准度的同时,能减少成本。
将监测到的音频信息进行特征提取后,输入到建立好的第二声学模型中,可以获取音频信息的发音以及对应的第三准确度。
s133:获取语言模型中的每个文本以及对应的第二准确度。
具体来说,语言模型中预先存储有预设文本以及对应的文本的第二准确度,文本的第二准确度根据用户实用需求进行设定,语言模型实质上就是文本以及对应的第二准确度所建立的数据库。在使用时,调取数据库获取文本以及对应的第二准确度,其中第二准确度根据预设的敏感词进行设定,即,预设文本中存在预设的敏感词,将预设的敏感词的第二准确度调高,从而提高预设敏感词的识别的精准度。
s134:通过匹配发音以及文本得出音频信息所表示的语句。
具体来说,通过发音与发音词典进行匹配,得出每个发音对应的文本集合,结合上下文相关性组合出语句。通过发音得出语句的具体实现方式属于现有技术,本实施例不在具体进行陈述,例如,输入法在打出一连串拼音时会出现对应的符合要求的语句。如图2所示,音频信息的发音为“lao、shi、kuai、lai”,限定的字为“老、是、师、快、来”,组合后得出的语句为“老师快来”。
s135:通过第三准确度以及第二准确度得出第二分数。
具体来说,通过加权平均数的方式来获取音频信息对应的分数,通过分别设置第三准确度以及第二准确度的权重,从而得出第二分数。
s136:将语句与预设的敏感词进行匹配。
具体来说,将语句与预设的敏感词进行匹配,敏感词有多个,开发者根据用户的使用需求,或者用户自行设定相关敏感词,并存入语言模型中,语言模型自行给敏感词提高第二准确度。
s137:若匹配,则判断第二分数是否大于第二预设分数,在大于等于第二预设分数时,二次判断的结果为触发报警,若小于第二预设分数时,二次判断的结果为不触发报警。
具体来说,通过敏感词的匹配进行一次判断,在通过预设分数进行二次判断,以减少误唤醒的概率。
s138:若不匹配,二次判断的结果为不触发报警。
s140:在二次判断的结果与初次判断的结果一致时,则判定为呼救信号,进行报警。
具体来说,步骤s140包括以下步骤:
s141:将初次判断的结果与二次判断的结果进行比对;
s142:在结果一致时,判定为呼救信号,启动报警提醒;
s143:将报警信息推送到看护人持有的终端上并就打开对话系统进行询问。
实施例2
请参阅图3,本实施例提供了一种基于音频事件智能检测的智能家居看护系统,包括:监听单元、初次判断单元、二次判断单元以及对比报警单元。
监听单元,适于通过多个麦克风对环境音进行持续监听获取多个音频信息。具体来说,监听单元用于执行以下步骤:
s111:将多个麦克风依据房间数量分组。
具体来说,将麦克风分成多组,每组的麦克风数量可以相同,也可以不同,依据房间的大小进行安装。
s112:每组麦克风的数量至少有一个。
具体来说,每个房间的麦克风的数量至少有一个,在洗手间等狭小区域可以设置一个。
s113:通过每个房间内的麦克风监听该房间内的音频信息,其中,音频信息存储于本地。
初次判断单元,适于将音频信息输入到对应的独立检测模块中进行初次判断。具体来说,初次判断单元用于执行以下步骤:
s121:对音频信息进行特征提取,获取特征向量。
具体来说,特征可以采用fbank或者mfcc等通用特征。具体的提取过程为现有技术,本实施例不在陈述。
s122:将特征向量输入到预先建立好的第一声学模型中,输出对应的发音以及第一准确度。
请参阅图2,第一声学模型的建立过程如下:先对数据样本进行特征提取,获取对应的特征向量,特征向量分为训练集以及测试集,然后将训练集的特征向量输入到gmm-hmm模型后,将输出输入到高斯混合模型中进行对齐,从而完成声学模型的建立,通过测试集对声学模型进行精度测试。数据样本的音频数据经过压缩,精度损失较大,运行第一声学模型的芯片要求比较低,成本更低,此模块起到的作用是对大批量的音频起到一个过滤的作用,降低二次判断的运行压力。其中,第一声学模型的精度小于第二声学模型的精度。
将监测到的音频信息进行特征提取后,输入到建立好的第一声学模型中,可以获取音频信息的发音以及对应的第一准确度。
s123:获取语言模型中的每个文本以及对应的第二准确度。
具体来说,语言模型中预先存储有预设文本以及对应的文本的第二准确度,文本的第二准确度根据用户实用需求进行设定,语言模型实质上就是文本以及对应的第二准确度所建立的数据库。在使用时,调取数据库获取文本以及对应的第二准确度,其中第二准确度根据预设的敏感词进行设定,即,预设文本中存在预设的敏感词,将预设的敏感词的第二准确度调高,从而提高预设敏感词的识别的精准度。
s124:通过匹配发音以及文本得出音频信息所表示的语句。
具体来说,通过发音与发音词典进行匹配,得出每个发音对应的文本集合,结合上下文相关性组合出语句。通过发音得出语句的具体实现方式属于现有技术,本实施例不在具体进行陈述,例如,输入法在打出一连串拼音时会出现对应的符合要求的语句。如图2所示,音频信息的发音为“lao、shi、kuai、lai”,限定的字为“老、是、师、快、来”,组合后得出的语句为“老师快来”。
s125:通过第一准确度以及第二准确度得出第一分数。
具体来说,通过加权平均数的方式来获取音频信息对应的分数,通过分别设置第一准确度以及第二准确度的权重,从而得出第一分数。
s126:将语句与预设的敏感词进行匹配。
具体来说,将语句与预设的敏感词进行匹配,敏感词有多个,开发者根据用户的使用需求,或者用户自行设定相关敏感词,并存入语言模型中,语言模型自行给敏感词提高第二准确度。
s127:若匹配,则判断第一分数是否大于第一预设分数,在大于等于第一预设分数时,初次判断的结果为触发报警,若小于第一预设分数时,初次判断的结果为不触发报警。
具体来说,通过敏感词的匹配进行一次判断,在通过预设分数进行二次判断,以减少误唤醒的概率。
s128:若不匹配,初次判断的结果为不触发报警。
二次判断单元,适于将初次判断结果为触发报警的音频信息发送给二次判断模块进行二次判断。具体来说,二次判断单元用于执行以下步骤:
s131:对音频信息进行特征提取,获取特征向量。
具体来说,特征可以采用fbank或者mfcc等通用特征。具体的提取过程为现有技术,本实施例不在陈述。
s132:将特征向量输入到预先建立好的第二声学模型中,输出对应的发音以及第三准确度。
第二声学模型的建立过程如下:先对数据样本进行特征提取,获取对应的特征向量,将特征向量分为测试集以及训练集,然后将训练集的特征向量输入到gmm-hmm模型后,将输出输入到高斯混合模型中进行对齐,从而完成声学模型的建立,通过测试集的特征向量对声学模型的精度进行测试。第二声学模型的数据样本由上万个小时音频数据训练得到的,第二声学模型的泛化能力比较强,对语音的识别精度相对于第一声学模型更高,对进行计算的芯片的性能要求也更高,通过多个第一声学模型以及一个第二声学模型的设置,第一声学模型的精度小于第二声学模型的精度,在保证精准度的同时,能减少成本。
将监测到的音频信息进行特征提取后,输入到建立好的第二声学模型中,可以获取音频信息的发音以及对应的第三准确度。
s133:获取语言模型中的每个文本以及对应的第二准确度。
具体来说,语言模型中预先存储有预设文本以及对应的文本的第二准确度,文本的第二准确度根据用户实用需求进行设定,语言模型实质上就是文本以及对应的第二准确度所建立的数据库。在使用时,调取数据库获取文本以及对应的第二准确度,其中第二准确度根据预设的敏感词进行设定,即,预设文本中存在预设的敏感词,将预设的敏感词的第二准确度调高,从而提高预设敏感词的识别的精准度。
s134:通过匹配发音以及文本得出音频信息所表示的语句。
具体来说,通过发音与发音词典进行匹配,得出每个发音对应的文本集合,结合上下文相关性组合出语句。通过发音得出语句的具体实现方式属于现有技术,本实施例不在具体进行陈述,例如,输入法在打出一连串拼音时会出现对应的符合要求的语句。如图2所示,音频信息的发音为“lao、shi、kuai、lai”,限定的字为“老、是、师、快、来”,组合后得出的语句为“老师快来”。
s135:通过第三准确度以及第二准确度得出第二分数。
具体来说,通过加权平均数的方式来获取音频信息对应的分数,通过分别设置第三准确度以及第二准确度的权重,从而得出第二分数。
s136:将语句与预设的敏感词进行匹配。
具体来说,将语句与预设的敏感词进行匹配,敏感词有多个,开发者根据用户的使用需求,或者用户自行设定相关敏感词,并存入语言模型中,语言模型自行给敏感词提高第二准确度。
s137:若匹配,则判断第二分数是否大于第二预设分数,在大于等于第二预设分数时,二次判断的结果为触发报警,若小于第二预设分数时,二次判断的结果为不触发报警。
具体来说,通过敏感词的匹配进行一次判断,在通过预设分数进行二次判断,以减少误唤醒的概率。
s138:若不匹配,二次判断的结果为不触发报警。
对比报警单元,适于在二次判断的结果与初次判断的结果一致时,则判定为呼救信号,进行报警。具体来说,对比报警单元用于执行以下步骤:
s141:将初次判断的结果与二次判断的结果进行比对;
s142:在结果一致时,判定为呼救信号,启动报警提醒;
s143:将报警信息推送到看护人持有的终端上并就打开对话系统进行询问。
初次判断单元与二次判断单元通信连接,该通信连接采取的方式,可以是,但不仅限于,有线通讯、蓝牙通信、局域网通信。
对比报警单元与看护人持有的终端可以通过移动网络传递报警信息。
在本实施例中,所述初次判断单元的个数为多个,且运行初次判断单元的芯片性能低于运行二次判断单元的芯片性能。
实施例3
本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有一个或一个以上的指令,所述一个或一个以上由处理器执行时实现实施例1所提供的基于音频事件智能检测的智能家居看护方法。
基于音频事件智能检测的智能家居看护方法通过音频的方式进行监测,麦克风的安装方便,成本低廉,不受角度和光照的影响,同时,在没有触发敏感词的状态下,外人无法通过报警器进行监听,音频只在本地进行处理,不会上传网络,只有在触发敏感词时,才会将音频信息发送给监护人,实现了对用户的隐私保护,同时也避免了通过无线网络传输音频时音频丢失的问题。
实施例4
请参阅图4,本实施例提供了一种电子设备,包括:存储器502和处理器501;所述存储器502中存储有至少一条程序指令;所述处理器501,通过加载并执行所述至少一条程序指令以实现如实施例1所提供的基于音频事件智能检测的智能家居看护方法。
存储器502和处理器501采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器501。
处理器501负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。
综上所述,本发明提供了一种基于音频事件智能检测的智能家居看护方法及系统,其中,基于音频事件智能检测的智能家居看护方法包括:通过多个麦克风对环境音进行持续监听获取多个音频信息;将音频信息输入到对应的独立检测模块中进行初次判断;将初次判断结果为触发报警的音频信息发送给二次判断模块进行二次判断;在二次判断的结果与初次判断的结果一致时,则判定为呼救信号,进行报警。通过音频的方式进行监测,麦克风的安装方便,成本低廉,不受角度和光照的影响,同时,在没有触发敏感词的状态下,外人无法通过报警器进行监听,音频只在本地进行处理,不会上传网络,只有在触发敏感词时,才会将音频信息发送给监护人,实现了对用户的隐私保护,同时也避免了通过无线网络传输音频时音频丢失的问题。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
本文用于企业家、创业者技术爱好者查询,结果仅供参考。