农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种语音唤醒方法及装置与流程

2021-06-11 21:44:00 来源：中国专利 TAG：唤醒语音装置语音识别方法

本发明涉及语音识别技术领域。尤其涉及一种语音唤醒方法及装置。

背景技术：

语音唤醒技术作为语音识别领域的一个子领域，是人机交互领域的重要研究内容之一。

语音唤醒技术在语音流中检测指定关键词并在第一时间触发唤醒系统。通常的语音唤醒技术需要大量的关键词数据来进行训练，收集和标注数据需要耗费大量的资源，且关键词只能使用预先设置好的词。随着语音唤醒技术日渐成熟，用户个人定制关键词的需求逐渐增多，传统方法难以完成要求。常规自定义唤醒采用通用语音识别模型，对解码网络进行优化，只保存关键词相关路径。但这种方法模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源。

技术实现要素：

本发明实施例提出一种语音唤醒方法及装置，用于解决通用语音识别模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源的问题。该技术方案如下：

第一方面，本申请实施例提出一种语音唤醒方法，包括：

接收用户语音；

提取所述用户语音中每一帧的声学特征；

将所述用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到所述第一音素序列中的每一个音素在所述用户语音中每一帧的后验概率；其中，所述第一音素序列是预定义的关键词的音素序列；

对所述后验概率进行最小编辑距离加和置信度判决；

若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

在一种可能的实现中，所述训练后的关键词偏置声学模型包括：rnn-t网络和注意力偏置模块；

所述rnn-t网络，包括声学编码器、文本编码器和联合建模编码器；其中，所述联合建模编码器与一个softmax函数连接，所述softmax函数的输出作为所述rnn-t网络的最终输出；

所述注意力偏置模块，包括关键词编码器和注意力模块。

在一种可能的实现中，所述方法还包括：

根据所述关键词编码器的输出和所述文本编码器的上一状态输出，确定所述注意力模块的输出。

在一种可能的实现中，所述方法还包括：

将所述注意力偏置模块的输出与所述rnn-t网络的上一状态输出进行拼接，得到拼接结果；

将所述拼接结果输入所述文本编码器中。

在一种可能的实现中，所述方法还包括：

在训练所述关键词偏置声学模型过程中，参考答案中的部分词序列和随机生成的词序列作为关键词，以音素序列的形式输入所述关键词编码器中。

在一种可能的实现中，所述方法还包括：

针对所述第一音素序列中的每一个音素，确定出其在所述用户语音中每一帧的后验概率中的最大值；

将每一个音素在所述用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度；

将所述后验概率加和置信度除以第一音素序列的长度，得到第一后验概率加和置信度；

若所述第一后验概率加和置信度大于预设阈值，则确定第一用户语音；其中，所述第一用户语音为包含关键词的用户语音。

在一种可能的实现中，所述对所述后验概率进行最小编辑距离加和置信度判决，包括：

对所述第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码，得到推测序列；

根据所述第一音素序列与所述推测序列的对应关系，确定最小编辑距离概率加和置信度。

在一种可能的实现中，所述若所述后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统，包括：

将所述最小编辑距离概率加和置信度除以第一音素序列的长度，得到第一最小编辑距离概率加和置信度；

在所述第一最小编辑距离概率加和置信度大于预设阈值的情况下，根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与所述推测序列的第二概率，确定近似似然值置信度；其中，所述第一音素序列的第一概率根据正确和替换错的时间点对应所述关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应所述关键词的音素的概率确定；所述推测序列的第二概率根据正确和替换错的时间点对应所述推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定；

将所述近似似然值置信度除以第一音素序列的长度，得到第一近似似然值置信度；

在所述第一近似似然值置信度大于预设阈值的情况下，触发所述唤醒系统。

第二方面，本申请实施例还提出一种语音唤醒装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行如第一方面及各种可能的实现中的各个步骤。

第三方面，本申请实施例还提出一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面及各种可能的实现中的各个步骤。

由上述技术方案可知，本申请实施例通过增加一个注意力偏置模块，对关键词进行优化，加强了建模效果；依次通过后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决才触发唤醒系统，提高了识别关键词的能力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本申请实施例构建的关键词偏置声学模型；

图2为本申请实施例提供的一种语音唤醒方法的流程示意图；

图3为本申请实施例提供的三阶段判决示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

需要说明的是，本申请实施例的说明书和权利要求书中的术语“第一”是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一后验概率加和置信度是用于区别不同的后验概率加和置信度，而不是用于描述目标对象的特定顺序。在本申请实施例中，“示例性的”、“举例来说”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“举例来说”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“举例来说”或者“例如”等词旨在以具体方式呈现相关概念。

在一种可能的实现中，采用通用语音识别模型识别用户语音中的关键词，触发唤醒系统。但是通用语音识别模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源。为此，本申请实施例提出一种语音唤醒方法。

需要说明的是，本申请提及的关键词为预设的触发唤醒系统的词语。

图1为本申请实施例构建的关键词偏置声学模型，能够实现上述语音唤醒方法。参见图1，该关键词偏置声学模型包括：rnn-t网络和注意力偏置模块，用于加强模型中对关键词信息的建模。rnn-t网络包括声学编码器encoder，其中，xt为输入的声学特征；文本编码器pred.network，其中，yu-1为rnn-t网络的上一状态输出；联合建模编码器jointnerwork，所述联合建模编码器与一个softmax函数连接，所述softmax函数的输出作为所述rnn-t网络的最终输出。注意力偏置模块包括关键词编码器keywordencoder和注意力模块attention。根据关键词编码器的输出k^enc和上述文本编码器的上一状态输出确定注意力模块的输出。将注意力偏置模块的输出与rnn-t网络的上一状态输出进行拼接，得到拼接结果；将该拼接结果输入上述文本编码器中。

在本申请实施例中，上述声学编码器为一个三层门控循环单元层，每层包含128个隐藏单元。上述文本编码器为一个一层门控循环单元层，每层包含64个隐藏单元。上述联合建模编码器包括一个全连接层，包含256个隐藏单元，每个神经元的激活函数是tanh函数，之后接softmax函数进行分类，利用rnn-t损失函数进行优化。

关键词以音素序列的形式输入关键词编码器，音素列表为67个无调音素。

关键词编码器为一个67维映射到64维的嵌入表示。

注意力模块是一个加性注意力机制，计算方法如下：

其中，w，a，b为线性映射，m为关键词编码器的维数，u为矩阵的行数，i和j分别为矩阵的列数。

注意力偏置模块的输出与rnn-t网络的上一状态输出进行拼接，一起送入文本编码器中，具体来说，文本编码器计算公式变为

其中，ct为注意力偏置模块的输出。这样可以在识别过程中使文本编码器一直接收到关键词信息，强化关键词信息的建模。

关键词偏置声学模型训练好之后，开始训练。在训练关键词偏置声学模型过程中随机选取参考答案中的部分词序列和随机生成的词序列作为关键词输入，以音素序列的形式输入关键词编码器中，来让网络接受不同的关键词输入，使系统具有更好的泛化性。上述参考答案包括任意音频及其对应的文本。随机生成的词序列为除参考答案以外的词序列。具体来说，以50％概率随机选取参考答案中2-6个字作为关键词分支输入，来模拟关键词存在于参考答案中的情况；以50％概率随机在随机生成的词序列中选取2-6个字的发音作为关键词分支输入，来模拟关键词不存在于参考答案中的情况。

由于在训练过程中已知关键词在参考答案中的部分词序列中的位置关系，可以针对对应关系生成约束向量，与注意力模块的结果计算损失函数，来约束注意力模块的关注点，加强注意力偏置模块训练效果。

如果关键词是从参考答案中的部分词序列中选择而来的，那么关键词与参考答案中的部分词序列存在对应关系，约束向量是一个在关键词存在部分全1，其余位置全0的向量；如果关键词是随机生成而来的，那么关键词与参考答案中的部分词序列不存在对应关系，约束向量是一个全0向量。根据约束向量yi与注意力模块的结果xi计算交叉熵损失lce。交叉熵损失lce定义如下：

其中，d为注意力模块的维数。最终关键词偏置声学模型的优化目标共同考虑两种损失函数：

l＝lrnn-t lce

其中，lrnn-t为rnn-t网络的损失函数。

通过以上步骤可以获得训练后的关键词偏置声学模型。

图2为本申请实施例提供的一种语音唤醒方法的流程示意图，该流程示意图包括：s202—s210，解决了通用语音识别模型没有对关键词进行优化，建模效果相对较差，而且解码阶段运算复杂度高，需要耗费较多资源的问题。

下面对本申请实施例提供的如图2所示的一种语音唤醒方法进行详细介绍。

在一种可能的实现中，通过以下步骤实现本申请实施例提供的语音唤醒方法：

s202，接收用户语音。

在本申请实施例中，接收到的用户语音可以为包括关键词的用户语音，也可以为不包括关键词的用户语音。

s204，提取s202中接收到的用户语音中每一帧的声学特征。

在本申请实施例中，提取到的用户语音中每一帧的声学特征为40维对数梅尔倒谱特征。

s206，将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列。其中，用户语音中每一帧的声学特征为图1中的xt，第一音素序列为图1中的k0...kl。

在本申请实施例中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率后，对后验概率进行后验概率加和置信度判决。具体地，针对第一音素序列中的每一个音素，确定出其在用户语音中每一帧的后验概率中的最大值；将每一个音素在用户语音中每一帧的后验概率中的最大值加和得到后验概率加和置信度；将后验概率加和置信度除以第一音素序列的长度，排除音素序列的长度对计算后验概率加和置信度带来的影响，得到第一后验概率加和置信度；若第一后验概率加和置信度大于预设阈值，则确定s202中的用户语音为包含关键词的用户语音，此处将包含关键词的用户语音称作第一用户语音。上述步骤为粗过滤过程，初步过滤掉s202中不包含关键词的用户语音。

s208，对后验概率进行最小编辑距离加和置信度判决。

在本申请实施例中，继s206粗过滤得到第一用户语音之后，对第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码，得到推测序列；根据第一音素序列与推测序列的对应关系，确定最小编辑距离概率加和置信度。具体地，令r＝{r1，r2，...，rm}为第一音素序列，对第一用户语音对应的音素序列中的每一个音素在该第一用户语音中每一帧的后验概率进行贪心解码得到推测序列其中上标t1为对应音素hl的时间点。推测序列与第一音素序列计算最小编辑距离，最小编辑距离加和置信度计算公式为：

其中

n为第一音素序列中音素的个数。pd1，pd2为预设的惩罚系数。为tj时刻ri音素的概率。在编辑距离的计算过程中，可以获得推测序列h与第一音素序列r中音素的一一对应关系，当对应关系为替换错或正确的时间点，当前推测序列中的音素在r中有对应的音素，取tj时刻ri音素的概率加到置信度得分中。当对应关系为删除错的时间点，第一音素序列中某音素在当前推测序列中没有对应音素，取预设的惩罚系数pd1加到置信度得分中。当对应关系为插入错的时间点，当前推测序列中音素在参考答案中没有对应音素，取预设的惩罚系数pd2加到置信度得分中，最终得到最小编辑距离加和置信度。

s210，若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

在本申请实施例中，将最小编辑距离概率加和置信度除以第一音素序列的长度，排除音素序列的长度对计算最小编辑距离加和置信度带来的影响，得到第一最小编辑距离概率加和置信度；在第一最小编辑距离概率加和置信度大于预设阈值的情况下，根据确定最小编辑距离概率加和置信度过程中所述第一音素序列的第一概率与推测序列的第二概率，确定近似似然值置信度，即进行近似似然值置信度判决；其中，第一音素序列的第一概率根据正确和替换错的时间点对应关键词的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应关键词的音素的概率确定；推测序列的第二概率根据正确和替换错的时间点对应推测序列的音素的概率、插入错的时间点对应blank的概率和删除错的时间点对应blank的概率确定。具体地，近似似然值置信度的定义为：

confindence＝p(w|x)-p(w|x)

其中，p(w x)为第一音素序列的最高概率，p(w|x)为推测序列的最高概率。通常似然值的计算需要通过束集搜索来进行，这里可以利用最小编辑距离加和置信度判决之后的编辑距离结果来进行近似计算：

通过上述方法得到近似似然值置信度以后，将其除以第一音素序列的长度，排除音素序列的长度对计算近似似然值置信度带来的影响，得到第一近似似然值置信度；在第一近似似然值置信度大于预设阈值的情况下，触发唤醒系统。

由上述分析可知，在依次进行的后验概率加和置信度判决、最小编辑距离加和置信度判决和近似似然值置信度判决三阶段判决中，如图3所示，只有通过所有三阶段判决才视为触发唤醒系统，只要其中有一个判决不通过，则直接视为负样本。

本申请实施例提供一种语音唤醒装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

接收用户语音；提取用户语音中每一帧的声学特征；将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列；对后验概率进行最小编辑距离加和置信度判决；若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：

接收用户语音；提取用户语音中每一帧的声学特征；将用户语音中每一帧的声学特征和第一音素序列输入训练后的关键词偏置声学模型中，得到第一音素序列中的每一个音素在用户语音中每一帧的后验概率；其中，第一音素序列是预定义的关键词的音素序列；对后验概率进行最小编辑距离加和置信度判决；若后验概率通过最小编辑距离加和置信度判决，则触发唤醒系统。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音唤醒方法及装置与流程

相关文章

最热文献