技术特征:
1.一种语音唤醒方法,其特征在于,包括:
接收用户语音;
提取所述用户语音中每一帧的声学特征;
将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率;其中,所述第一音素序列是预定义的关键词的音素序列;
对所述后验概率进行最小编辑距离加和置信度判决;
若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。
2.根据权利要求1所述的方法,其特征在于,所述训练后的关键词偏置声学模型包括:rnn-t网络和注意力偏置模块;
所述rnn-t网络,包括声学编码器、文本编码器和联合建模编码器;其中,所述联合建模编码器与一个softmax函数连接,所述softmax函数的输出作为所述rnn-t网络的最终输出;
所述注意力偏置模块,包括关键词编码器和注意力模块。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据所述关键词编码器的输出和所述文本编码器的上一状态输出,确定所述注意力模块的输出。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述注意力偏置模块的输出与所述rnn-t网络的上一状态输出进行拼接,得到拼接结果;
将所述拼接结果输入所述文本编码器中。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在训练所述关键词偏置声学模型过程中,参考答案中的部分词序列和随机生成的词序列作为关键词,以音素序列的形式输入所述关键词编码器中。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述第一音素序列中的每一个音素,确定出其在所述用户语音中每一帧的后验概率中的最大值;
将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度;
将所述后验概率加和置信度除以第一音素序列的长度,得到第一后验概率加和置信度;
若所述第一后验概率加和置信度大于预设阈值,则确定第一用户语音;其中,所述第一用户语音为包含关键词的用户语音。
7.根据权利要求6所述的方法,其特征在于,所述对所述后验概率进行最小编辑距离加和置信度判决,包括:
对所述第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码,得到推测序列;
根据所述第一音素序列与所述推测序列的对应关系,确定最小编辑距离概率加和置信度。
8.根据权利要求7所述的方法,其特征在于,所述若所述后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统,包括:
将所述最小编辑距离概率加和置信度除以第一音素序列的长度,得到第一最小编辑距离概率加和置信度;
在所述第一最小编辑距离概率加和置信度大于预设阈值的情况下,根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与所述推测序列的第二概率,确定近似似然值置信度;其中,所述第一音素序列的第一概率根据正确和替换错的时间点对应所述关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应所述关键词的音素的概率确定;所述推测序列的第二概率根据正确和替换错的时间点对应所述推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定;
将所述近似似然值置信度除以第一音素序列的长度,得到第一近似似然值置信度;
在所述第一近似似然值置信度大于预设阈值的情况下,触发所述唤醒系统。
9.一种语音唤醒装置,其特征在于,包括至少一个处理器,所述处理器用于执行存储器中存储的程序,当所述程序被执行时,使得所述装置执行:
如权利要求1-8任一项所述的方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至8任一所述的方法。
技术总结
本申请实施例公开了一种语音唤醒方法及装置,方法包括:接收用户语音;提取用户语音中每一帧的声学特征;将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中,得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率;其中,第一音素序列是预定义的关键词的音素序列;对后验概率进行最小编辑距离加和置信度判决;若后验概率通过最小编辑距离加和置信度判决,则触发唤醒系统。本申请实施例通过增加一个注意力偏置模块,对关键词进行优化,加强了建模效果;依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统,提高了识别关键词的能力。
技术研发人员:黎塔;刘作桢;张鹏远;颜永红
受保护的技术使用者:中国科学院声学研究所
技术研发日:2021.04.22
技术公布日:2021.06.11
本文用于企业家、创业者技术爱好者查询,结果仅供参考。