一种物联网终端增强唤醒方法、装置及存储介质与流程

2022-08-28 05:34:19 来源：中国专利 TAG：

1.本发明涉及终端交互技术领域，尤其涉及一种物联网终端增强唤醒方法、装置及存储介质。

背景技术：

2.在智能家居环境中，越来越多的电子产品都可以利用语音控制进行语音交互操作。如智能音箱，在处于休眠状态时可以通过说出预定的唤醒词来唤醒，接着接受用户发出的语音指令进行语音交互。
3.现有技术中，语音识别技术已较为成熟，在生活中得到了广泛的应用。传统的人机语音交互流程通过语音合成tts，将文本合成为语音，传回客户端进行播报。上述这种简单的人机语音交互链路，对于实现演示级别的系统是可以满足的，但是在真实的用户任务场景下会面临难点，从而导致用户体验严重下降，存在的技术问题主要有：1、语音识别不准。随着深度学习技术在语音识别.上取得突破，在通用环境用户配合情况下，语音识别已经达到可用。但是语音识别受环境嘈杂、距离远近、方言口音、垂直领域术语、个性化词汇、即时场景下特有用语各种因素的影响，当前实用语音识别的效果还不够理想。
4.2、语义理解不对。语音交互中的语义理解要处理的用户口语化的意图表达，人类语言通常存在：上下文关联、场景特定用语、口语化、常识背景、省略说法等语言现象，同时一些垂直领域实体取名复杂，存在大量实体歧义现象，场景、语境、交互对象的不断切换让语音交互中的语义理解更加困难。
5.语音识别不准确、语义理解不对会导致终端唤醒错误或唤醒失败，因此，如何提高终端唤醒的准确率以提升用户体验迫在眉睫。

技术实现要素：

6.本发明的主要目的在于提供物联网终端增强唤醒方法及装置，旨在解决现有技术中终端唤醒准确率低的技术问题。
7.为实现上述目的，本发明实施例提供了一种物联网终端增强唤醒方法，其包括：s10，物联网终端的增强唤醒芯片中的低功耗语音检测模块持续从环境声音中检测语音信号，当检测到语音信号的频率符合预定范围、且幅值大于第一阈值、时长大于第二阈值时，将语音信号输入缓存，并通过io接口使能语音预处理模块；s20，语音预处理模块被使能后对缓存的语音信号实现声源定位、定向拾音、远场降噪、回音消除、语音信号增强以及端点检测；联合最大后验概率算法和变分贝叶斯算法获取声源方向信息，根据声源方向信息对声源方向之外的声音波束进行减弱和消除处理，然后对声源方向的语音信号进行增强；通过端点检测以去除语音中的非人声片段，并产生用于后端检测的唤醒语音段输入缓存，并通过io接口使能指令识别模块，完毕后语音预处理模块进入休眠。
8.s30，指令识别模块构建语音唤醒模型，将缓存的唤醒语音段输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，若指令集中存在对应的操作指令，则将操作指令发送给终端设备，完毕后指令识别模块进入休眠，如指令集中不存在对应的操作指令，则进入下一个步骤使能纠错模块；s40，纠错模块获取唤醒语音段前后的语音数据信息，对唤醒语音段进行纠错，获取包含有用户意图的信息文本；s50，根据信息文本，对用户进行反馈；s60，根据用户反馈结果重新确定唤醒语音段；s70，将唤醒语音段重新输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，将操作指令发送给终端设备，完毕后指令识别模块进入休眠。
9.进一步地，步骤s20，对使用者的唤醒命令进行定向拾音、远场降噪、回音消除以及语音信号增强，以减少语音识别误差的步骤包括以下：利用回声消除器和噪声抑制器实现回声消除和噪声抑制。
10.进一步地，步骤s20，对使用者的唤醒命令进行定向拾音、远场降噪、回音消除以及语音信号增强，以减少语音识别误差的步骤包括以下：利用自动增益控制对接受到的语音信号进行增强处理。
11.进一步地，步骤s30中构建语音唤醒模型，将唤醒命令输入训练好的语音唤醒模型，获得唤醒命令对应的操作指令的步骤包括:将实际环境中的产生语音唤醒数据上传云端并建立样本库，在云端服务器中训练出符合实际语音环境的语音唤醒模型。
12.进一步地，步骤s30中构建语音唤醒模型，将唤醒命令输入训练好的语音唤醒模型，获得唤醒命令对应的操作指令的步骤包括：语音唤醒模型用于提取声学特征，建立声学模型，解码音频信号，获得命令词得到对应的操作指令；特征提取将信号从时域转化到频域，为声学模型提供有代表性的特征向量；声学模型将声乐和发音学知识相结合，以特征提取的特征向量作为输入，将特征序列转变成具有最大概率的声音模型序列；解码器针对给定的特征向量序列和字典序列，结合唤醒词模型和背景音模型判断特征序列是否激发唤醒。
13.进一步地，步骤s30中构建语音唤醒模型，将唤醒命令输入训练好的语音唤醒模型，获得唤醒命令对应的操作指令的步骤包括：将平稳的语音信号分割为均匀的小的片段进行分帧，分帧后对信号前后加窗，避免语音信号在间隔处出现的波动影响；利用傅里叶变换将每一帧的语音信号由时域转换到频域；利用滤波器对信号进行滤波使得得到的信号能够模拟人耳接收到的语音信号特征，通过求对数能量和 dct最终得到 mfcc 特征的倒谱系数。
14.进一步地，步骤s40中获取的用户对物联网终端设备进行唤醒命令的前后数据信息，对语音信息进行纠错，获取包含有用户意图的信息文本的步骤包括: 对识别出的信息文本进行语义理解，根据双向循环神经网络模型、卷积神经网络模型和/或端到端神经网络模型，并结合句式数据，通过底层句子语义建模的方式进行语义纠错。
15.进一步地，步骤s60中根据用户反馈结果重新发送唤醒命令的步骤包括：当用户反馈纠错后的信息文本属于用户的准确意图时，将纠错后的信息文本转换为语音唤醒命令，并重新发送语音唤醒命令。
16.本发明实施例还提供一种物联网终端增强唤醒装置，其包括：物联网终端增强唤醒装置包括增强唤醒芯片，芯片中包括低功耗语音检测模块、语音预处理模块、指令识别模块、纠错模块；低功耗语音检测模块持续从环境声音中检测语音信号，当检测到语音信号的频率符合预定范围、且幅值大于第一阈值、时长大于第二阈值时，将语音信号输入缓存，并通过io接口使能语音预处理模块；语音预处理模块，语音预处理模块被使能后对缓存的语音信号实现声源定位、定向拾音、远场降噪、回音消除、语音信号增强以及端点检测；联合最大后验概率算法和变分贝叶斯算法获取声源方向信息，根据声源方向信息对声源方向之外的声音波束进行减弱和消除处理，然后对声源方向的语音信号进行增强；通过端点检测以去除语音中的非人声片段，并产生用于后端检测的唤醒语音段输入缓存，并通过io接口使能指令识别模块，完毕后语音预处理模块进入休眠；指令识别模块，指令识别模块构建语音唤醒模型，将缓存的唤醒语音段输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，如指令集中存在对应的操作指令，则将操作指令发送给终端设备，完毕后指令识别模块进入休眠，如指令集中不存在对应的操作指令，则进入纠错模块；纠错模块，获取唤醒语音段前后的语音数据信息，对唤醒语音段进行纠错，获取包含有用户意图的信息文本；反馈模块，根据信息文本，对用户进行反馈；重新发送模块，根据用户反馈结果重新确定唤醒语音段；指令识别模块将唤醒语音段重新输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，将操作指令发送给终端设备，完毕后指令识别模块进入休眠。
17.进一步地，语音预处理模块具体包括：利用回声消除器和噪声抑制器实现回声消除和噪声抑制，利用自动增益控制对接受到的语音信号进行增强处理。进一步地，指令识别模块具体还包括：将实际环境中的产生语音唤醒数据上传云端并建立样本库，在云端服务器中训练出符合实际语音环境的语音唤醒模型。
18.进一步地，指令识别模块具体还包括：语音唤醒模型用于提取声学特征，建立声学模型，解码音频信号，获得命令词得到对应的操作指令；特征提取将信号从时域转化到频域，为声学模型提供有代表性的特征向量；声学模型将声乐和发音学知识相结合，以特征提取的特征向量作为输入，将特征序列转变成具有最大概率的声音模型序列；解码器针对给定的特征向量序列和字典序列，结合唤醒词模型和背景音模型判断特征序列是否激发唤醒。
19.进一步地，指令识别模块具体还包括：将平稳的语音信号分割为均匀的小的片段进行分帧，分帧后对信号前后加窗，避免语音信号在间隔处出现的波动影响；利用傅里叶变换将每一帧的语音信号由时域转换到频域；利用滤波器对信号进行滤波使得得到的信号能够模拟人耳接收到的语音信号特征，通过求对数能量和 dct最终得到 mfcc 特征的倒谱系数。
20.进一步地，纠错模块具体还包括：对识别出的信息文本进行语义理解，根据双向循环神经网络模型、卷积神经网络模型和/或端到端神经网络模型，并结合句式数据，通过底层句子语义建模的方式进行语义纠错。
21.进一步地，纠错模块具体还包括：当用户反馈纠错后的信息文本属于用户的准确意图时，将纠错后的信息文本转换为语音唤醒命令，并重新发送语音唤醒命令。
22.本发明实施例还提供一种存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行如前文所述物联网终端增强唤醒方法。
23.本发明的物联网终端增强唤醒方法，联合最大后验概率算法和变分贝叶斯算法获取声源方向信息，并根据声源方向信息对声源方向之外的声音波束进行减弱和消除处理，然后对声源方向的语音信号进行增强，实现高精度声源定位，获得准确的语音信号；利用训练好的语音唤醒模型进行终端唤醒，并对唤醒命令进行纠错反馈，根据反馈结果重新发送唤醒命令，有效解决了现有技术中终端唤醒准确率低、用户体验差的技术问题。
附图说明
24.图1是本发明实施例方案实施流程。
具体实施方式
25.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
26.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
27.参照图1，图1为本发明文件生成方法一实施例流程示意图。
28.本发明的物联网终端增强唤醒方法可以包括：物联网终端的增强唤醒芯片中的低功耗语音检测模块持续从环境声音中检测语音信号，当检测到语音信号的频率符合预定范围、且幅值大于第一阈值、时长大于第二阈值时，将语音信号输入缓存，并通过io接口使能语音预处理模块；io接口可以是gpio通用输入输出接口，也可以是专用的接口，例如串口、并口、总线接口等。被使能的模块在使能之前处于休眠状态，被使能后执行预定的功能，功能执行完毕后恢复到休眠的状态。
29.s20，语音预处理模块被使能后对缓存的语音信号实现声源定位、定向拾音、远场降噪、回音消除、语音信号增强以及端点检测；联合最大后验概率算法和变分贝叶斯算法获取声源方向信息，根据声源方向信息对声源方向之外的声音波束进行减弱和消除处理，然后对声源方向的语音信号进行增强；通过端点检测以去除语音中的非人声片段，并产生用于后端检测的唤醒语音段输入缓存，并通过io接口使能指令识别模块，完毕后语音预处理模块进入休眠；智能家居系统在应用中存在和用户的语音交互，因此需要考虑对接收到的语音信
号进行回声消除；同时考虑到智能家居的复杂使用环境，需要对语音信号做噪声抑制和语音增强。基于语音交互的控制系统会根据用户需求用语音合成的方式生成反馈用户需要的语音信息，也会提供一些基于语音的应用如影音播放。在语音唤醒时麦克风阵列也会接受到系统自身发出的这些声音，对语音识别产生干扰。要消除回声首先可以采取物理的方法，如降低麦克风的灵敏度并使用定向的扬声器以降低麦克风接收到回声信号的强度。由于该系统使用的麦克风阵列具有较高的灵敏度和较大的语音识别范围，该方法作用有限。因此必须采用软件的方法对信号进行处理以消除回声。同时考虑智能家居的复杂使用环境，将降噪和回声消除相结合。利用回声消除器和噪声抑制器实现回声消除和噪声抑制。
30.由于麦克风阵列应用于远场语音识别，接受到的语音信号常常在传播过程中发生衰减，接收到的信号较弱，不能达到语音识别引擎设定的阈值，出现不识别的现象，对于手机和蓝牙语音遥控器也有可能出现语音信号减弱的可能，因此需要对接受到的语音信号进行增强处理。麦克风阵列具有声源定向功能，可以根据语音唤醒后返回的声源方向信息对音源方向之外的声音波束进行减弱和消除处理，然后对声源方向的语音信号进行增强。利用自动增益控制对接受到的语音信号进行增强处理。
31.s30，指令识别模块构建语音唤醒模型，将缓存的唤醒语音段输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，若指令集中存在对应的操作指令，则将操作指令发送给终端设备，完毕后指令识别模块进入休眠，如指令集中不存在对应的操作指令，则进入下一个步骤，使能纠错模块。
32.唤醒引擎在安静环境下的近场唤醒中具有很好的体验，但是在家居、酒店等应用场景中测试时往往会发生误唤醒或者无反应的情况，设备在用户无准备的情况下误唤醒并发出语音和led 信号提示，或者在远场或杂音等环境下用户需要多次说出唤醒词才能成功唤醒，这些都极大破坏了用户体验。因此通过将实际环境中的产生语音唤醒数据上传云端并建立样本库，在云端服务器中训练出符合实际语音环境的模型，然后将模型参数返回到本地用于对讯飞唤醒结果进行二次验证或者直接用于唤醒，可有效降低误唤醒概率或提高唤醒成功率。
33.唤醒词识别系统包含了声学特征提取、建立声学模型、音频信号解码三个阶段。特征提取将信号从时域转化到频域，为后面的声学模型提供有代表性的特征向量。声学模型将声乐和发音学知识相结合，以特征提取的特征向量作为输入，将特征序列转变成具有最大概率的声音模型序列。解码器针对给定的特征向量序列和字典序列，结合唤醒词模型和背景音模型判断特征序列是否激发唤醒。
34.梅尔频率是基于人耳听觉特性提出的，它与频率成非线性对应关系，mfcc 利用这种对应关系计算得到的频谱特征，可起到提取音频信号特征并降低运算维度的作用。mfcc 一般会经过加重、分帧、加窗、傅里叶变换（fft）、mel 滤波器组、求对数能量、离散余弦变换（dct）、一阶和二阶差分系数、归一化。通过预加重使得信号在频域上具有短时平稳性，有利于特征的提取。将平稳的语音信号分割为均匀的小的片段，叫做分帧，为了保证相邻帧在内容上的连续性使其有重叠部分。分帧后还要对信号前后加窗，避免语音信号在间隔处出现的波动影响。傅里叶变换将每一帧的语音信号由时域转换到频域。mel 滤波器对信号进行滤波使得得到的信号能够模拟人耳接收到的语音信号特征。此后通过求对数能量和 dct最终得到 mfcc 特征的倒谱系数。引入一阶、二阶差分系数来获取语音信号帧之间关于语音
信号相关性的近似描述，通过归一化减少信道、背景、麦克风等对信号产生的影响。
35.s40，纠错模块获取唤醒语音段前后的语音数据信息，对唤醒语音段进行纠错，获取包含有用户意图的信息文本；对识别出的信息文本进行语义理解，根据双向循环神经网络模型、卷积神经网络模型和/或端到端神经网络模型，并结合句式数据，通过底层句子语义建模的方式进行语义纠错。
36.s50，根据信息文本，对用户进行反馈；s60，根据用户反馈结果重新确定唤醒语音段；s70，将唤醒语音段重新输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，将操作指令发送给终端设备，完毕后指令识别模块进入休眠。
37.本发明实施例还提供一种物联网终端增强唤醒装置，其包括：物联网终端增强唤醒装置包括增强唤醒芯片，芯片中包括低功耗语音检测模块、语音预处理模块、指令识别模块、纠错模块；低功耗语音检测模块持续从环境声音中检测语音信号，当检测到语音信号的频率符合预定范围、且幅值大于第一阈值、时长大于第二阈值时，将语音信号输入缓存，并通过io接口使能语音预处理模块；语音预处理模块，语音预处理模块被使能后对缓存的语音信号实现声源定位、定向拾音、远场降噪、回音消除、语音信号增强以及端点检测；联合最大后验概率算法和变分贝叶斯算法获取声源方向信息，根据声源方向信息对声源方向之外的声音波束进行减弱和消除处理，然后对声源方向的语音信号进行增强；通过端点检测以去除语音中的非人声片段，并产生用于后端检测的唤醒语音段输入缓存，并通过io接口使能指令识别模块，完毕后语音预处理模块进入休眠；指令识别模块，指令识别模块构建语音唤醒模型，将缓存的唤醒语音段输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，如指令集中存在对应的操作指令，则将操作指令发送给终端设备，完毕后指令识别模块进入休眠，如指令集中不存在对应的操作指令，则进入纠错模块；纠错模块，获取唤醒语音段前后的语音数据信息，对唤醒语音段进行纠错，获取包含有用户意图的信息文本；反馈模块，根据信息文本，对用户进行反馈；重新发送模块，根据用户反馈结果重新确定唤醒语音段；指令识别模块将唤醒语音段重新输入训练好的语音唤醒模型，获得唤醒命令及其包含的操作指令，将操作指令发送给终端设备，完毕后指令识别模块进入休眠。
38.进一步地，语音预处理模块具体包括：利用回声消除器和噪声抑制器实现回声消除和噪声抑制，利用自动增益控制对接受到的语音信号进行增强处理。进一步地，指令识别模块具体还包括：将实际环境中的产生语音唤醒数据上传云端并建立样本库，在云端服务器中训练出符合实际语音环境的语音唤醒模型。
39.进一步地，指令识别模块具体还包括：
语音唤醒模型用于提取声学特征，建立声学模型，解码音频信号，获得命令词得到对应的操作指令；特征提取将信号从时域转化到频域，为声学模型提供有代表性的特征向量；声学模型将声乐和发音学知识相结合，以特征提取的特征向量作为输入，将特征序列转变成具有最大概率的声音模型序列；解码器针对给定的特征向量序列和字典序列，结合唤醒词模型和背景音模型判断特征序列是否激发唤醒。
40.进一步地，指令识别模块具体还包括：将平稳的语音信号分割为均匀的小的片段进行分帧，分帧后对信号前后加窗，避免语音信号在间隔处出现的波动影响；利用傅里叶变换将每一帧的语音信号由时域转换到频域；利用滤波器对信号进行滤波使得得到的信号能够模拟人耳接收到的语音信号特征，通过求对数能量和 dct最终得到 mfcc 特征的倒谱系数。
41.进一步地，纠错模块具体还包括：对识别出的信息文本进行语义理解，根据双向循环神经网络模型、卷积神经网络模型和/或端到端神经网络模型，并结合句式数据，通过底层句子语义建模的方式进行语义纠错。
42.进一步地，纠错模块具体还包括：当用户反馈纠错后的信息文本属于用户的准确意图时，将纠错后的信息文本转换为语音唤醒命令，并重新发送语音唤醒命令。
43.本发明实施例还提供一种存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行如前文所述物联网终端增强唤醒方法。
44.本发明的物联网终端增强唤醒装置的具体工作原理与上述的物联网终端增强唤醒方法的具体实施例中的描述相同或相似，具体请参见上述物联网终端增强唤醒方法的具体实施例的相关描述。
45.本发明的物联网终端增强唤醒方法，联合最大后验概率算法和变分贝叶斯算法获取声源方向信息，并根据声源方向信息对声源方向之外的声音波束进行减弱和消除处理，然后对声源方向的语音信号进行增强，实现高精度声源定位，获得准确的语音信号；利用训练好的语音唤醒模型进行终端唤醒，并对唤醒命令进行纠错反馈，有效解决了现有技术中终端唤醒准确率低、用户体验差的技术问题。
46.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
47.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
48.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端执行本发明各个实施例所述的方法。
49.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频调整方法、装置、设备及存储介质与流程

一种物联网终端增强唤醒方法、装置及存储介质与流程

相关文献

最热文献