农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种语音识别方法及装置与流程

2021-06-11 21:44:00 来源：中国专利 TAG：语音识别装置方法

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术：

随着智能产品的广泛应用，智能音箱在酒店等服务行业被广泛使用。智能音箱通过识别周围的语音，并基于识别后的语音做出相应的响应，比如语音播报或音乐等。由于智能音箱易被用户聊天的声音、电视声音、环境噪音等无关的声音唤醒，做出错误的响应，从而影响用户的住宿体验。

技术实现要素：

有鉴于此，本发明实施例提供一种语音识别方法及装置，以解决现有技术中存在的易被唤醒，从而影响用户的住宿体验的问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例一方面公开了一种语音识别方法，应用于智能音箱，所述方法包括：

获取用户输入的待处理语句，所述待处理语句包括唤醒语句和指令语句；

基于预先构建的酒店知识注意力模型对所述唤醒语句进行处理，得到所述唤醒语句的语义向量，所述酒店知识注意力模型是利用历史唤醒语句训练基于注意力机制的长短期记忆lstm网络得到的；

基于预先构建的客需服务注意力模型对所述指令语句进行处理，得到所述指令语句的语义向量，所述客需服务注意力模型是利用历史指令语句训练基于注意力机制的长短期记忆lstm网络得到的；

将所述唤醒语句的语义向量和所述指令语句的语义向量输入误唤醒识别模型，基于所述误唤醒识别模型对所述唤醒语句的语义向量和所述指令语句的语义向量进行处理，输出所述待处理语句对应的误唤醒数值，所述误唤醒识别模型是利用历史唤醒语句和历史指令语句训练lstm网络得到的；

在确定所述误唤醒数值大于预设的误唤醒限值时，确定所述待处理语句有误唤醒语句。

可选的，在所述基于预先构建的酒店知识注意力模型对所述唤醒语句进行处理，得到所述唤醒语句的语义向量之前，还包括：

对所述唤醒语句进行分词处理，并将所述唤醒语句的分词转换成所述唤醒语句对应的词向量，其中，每一唤醒语句存在至少一个分词；

对所述指令语句进行分词处理，并将所述指令语句的分词转换成所述指令语句对应的词向量，其中，每一指令语句存在多个分词。

可选的，所述基于预先构建的酒店知识注意力模型对所述唤醒语句进行处理，得到所述唤醒语句的语义向量，包括：

所述预先构建的酒店知识注意力模型对所述醒语句对应的词向量进行编码；

根据所述编码后的唤醒语句的词向量和酒店知识库向量，确定每一所述词向量的权重，所述酒店知识库向量是利用历史酒店业务数据对应的知识库进行处理得到的；

基于所述每一所述词向量的权重和所述编码后的唤醒语句的词向量，确定所述唤醒语句的语义向量。

可选的，所述基于预先构建的客需服务注意力模型对所述指令语句进行处理，得到所述指令语句的语义向量，包括：

所述预先构建的客需服务注意力模型对所述指令语句对应的词向量进行编码；

根据所述编码后的指令语句的词向量和客需服务数据向量，确定每一所述词向量的权重，所述客需服务数据向量是利用历史客需服务数据进行处理得到的；

基于所述每一所述词向量的权重和所述编码后的指令语句的词向量，确定所述指令语句的语义向量。

可选的，所述将所述唤醒语句的语义向量和所述指令语句的语义向量输入误唤醒识别模型，基于所述误唤醒识别模型对所述唤醒语句的语义向量和所述指令语句的语义向量进行处理，输出所述待处理语句对应的误唤醒数值，包括：

将所述唤醒语句的语义向量和所述指令语句的语义向量进行拼接，并将拼接后的所述唤醒语句的语义向量和所述指令语句的语义向量输入误唤醒识别模型；

所述误唤醒识别模型对所述拼接后的所述唤醒语句的语义向量和所述指令语句的语义向量进行分类处理，输出所述待处理语句对应的误唤醒数值。

本发明实施例另一方面公开了一种语音识别装置，应用于智能音箱，所述装置包括：

获取模块，用于获取用户输入的待处理语句，所述待处理语句包括唤醒语句和指令语句；

酒店知识注意力模型，用于基于预先构建的酒店知识注意力模型对所述唤醒语句进行处理，得到所述唤醒语句的语义向量，所述酒店知识注意力模型是利用历史唤醒语句训练基于注意力机制的长短期记忆lstm网络得到的；

客需服务注意力模型，用于基于预先构建的客需服务注意力模型对所述指令语句进行处理，得到所述指令语句的语义向量，所述酒店知识注意力模型是利用历史指令语句训练基于注意力机制的长短期记忆lstm网络得到的；

误唤醒识别模型，用于将所述唤醒语句的语义向量和所述指令语句的语义向量输入误唤醒识别模型，基于所述误唤醒识别模型对所述唤醒语句的语义向量和所述指令语句的语义向量进行处理，输出所述待处理语句对应的误唤醒数值，所述误唤醒识别模型是利用历史唤醒语句和历史指令语句训练lstm网络得到的；

确定模块，用于在确定所述误唤醒数值大于预设的误唤醒限值时，确定所述待处理语句有误唤醒语句。

可选的，还包括：

分词向量模块，用于在所述基于预先构建的酒店知识注意力模型对所述唤醒语句进行处理，得到所述唤醒语句的语义向量之前，对所述唤醒语句进行分词处理，并将所述唤醒语句的分词转换成所述唤醒语句对应的词向量，其中，每一唤醒语句存在至少一个分词；对所述指令语句进行分词处理，并将所述指令语句的分词转换成所述指令语句对应的词向量，其中，每一指令语句存在多个分词。

可选的，所述酒店知识注意力模型具体用于：对所述醒语句对应的词向量进行编码；根据所述编码后的唤醒语句的词向量和酒店知识库向量，确定每一所述词向量的权重，所述酒店知识库向量是利用历史酒店业务数据对应的知识库进行处理得到的；基于所述每一所述词向量的权重和所述编码后的唤醒语句的词向量，确定所述唤醒语句的语义向量。

可选的，所述客需服务注意力模型具体用于：对所述指令语句对应的词向量进行编码；根据所述编码后的指令语句的词向量和客需服务数据向量，确定每一所述词向量的权重，所述客需服务数据向量是利用历史客需服务数据进行处理得到的；基于所述每一所述词向量的权重和所述编码后的指令语句的词向量，确定所述指令语句的语义向量。

可选的，所述误唤醒识别模型具体用于：将所述唤醒语句的语义向量和所述指令语句的语义向量进行拼接，并将拼接后的所述唤醒语句的语义向量和所述指令语句的语义向量输入误唤醒识别模型；所述误唤醒识别模型对所述拼接后的所述唤醒语句的语义向量和所述指令语句的语义向量进行分类处理，输出所述待处理语句对应的误唤醒数值。

基于上述本发明实施例提供的一种语音识别方法，应用于智能音箱，该方法包括：获取用户输入的待处理语句，待处理语句包括唤醒语句和指令语句；基于预先构建的酒店知识注意力模型对唤醒语句进行处理，得到唤醒语句的语义向量，酒店知识注意力模型是利用历史唤醒语句训练基于注意力机制的长短期记忆lstm网络得到的；基于预先构建的客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量，客需服务注意力模型是利用历史指令语句训练基于注意力机制的长短期记忆lstm网络得到的；将唤醒语句的语义向量和指令语句的语义向量输入误唤醒识别模型，基于误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，误唤醒识别模型是利用历史唤醒语句和历史指令语句训练lstm网络得到的；在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句有误唤醒语句。在本发明实施例中，智能音箱通过酒店知识注意力模型将唤醒语句转换为唤醒语句的语义向量；通过客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量；并利用误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，以确定待处理语句是否存在误唤醒，在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句存在误唤醒。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的另一种语音识别方法的流程示意图；

图3为本发明实施例提供的酒店知识注意力模型的原理图；

图4为本发明实施例提供的一种语音识别装置的结构示意图；

图5为本发明实施例提供的另一种语音识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中，智能音箱通过酒店知识注意力模型将唤醒语句转换为唤醒语句的语义向量；通过客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量；并利用误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，以确定待处理语句是否存在误唤醒，在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句存在误唤醒。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

本发明实施例示出的语音识别方法，应用于酒店的智能音箱中。

参见图1，为本发明实施例提供的一种语音识别方法的流程示意图，该方法包括：

步骤s101：获取用户输入的待处理语句。

在步骤s101中，待处理语句包括唤醒语句和指令语句。

在具体实现步骤s101的过程中，智能音箱获取用户输入的唤醒语句和指令语句。

需要说明的是，唤醒语句是指将智能音箱从待机状态切换到工作状态的词语。

指令语句是指用于控制智能音箱的控制指令，比如控制音箱开启音乐等。

步骤s102：基于预先构建的酒店知识注意力模型对唤醒语句进行处理，得到唤醒语句的语义向量。

在步骤s102中，酒店知识注意力模型是利用历史唤醒语句训练基于注意力机制的长短期记忆lstm网络得到的。

需要说明的是，酒店知识注意力模型包括输入层、输出层、长短期记忆lstm网络层和注意力层。

在本发明实施例中，利用历史唤醒语句训练基于注意力机制的长短期记忆lstm网络，得到酒店知识注意力模型的过程包括：

获取历史唤醒语句和酒店知识库向量，并将历史唤醒语句和酒店知识库向量输入通用的长短期记忆lstm网络层和注意力层进行学习训练，得到历史唤醒语句的语义向量。

长短期记忆lstm网络将历史唤醒语句中的每个单词映射为分词向量，并对历史唤醒语句对应的词向量进行编码；进而对每一分词向量的上下文信息进行学习，以将学习结果输出至注意力层。

注意力层基于学习结果和酒店知识库向量，计算每一分词向量的权重，得到每一分词的权重向量，并将分词向量进行合并，得到历史唤醒语句的特征权重向量。

长短期记忆lstm网络基于长短期记忆lstm网络的学习结果，历史唤醒语句的语义信息、上下文信息和历史唤醒语句的特征权重向量进行训练学习，直到得到的历史唤醒语句的语义向量和历史唤醒语句自身的语义向量一致，确定当前训练得到酒店知识注意力模型。

在具体实现步骤s102的过程中，智能音箱基于酒店知识注意力模型对用户输入的唤醒语句进行处理，得到与酒店领域知识相关的唤醒语句的语义向量。

步骤s103：基于预先构建的客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量。

在步骤s103中，客需服务注意力模型是利用历史指令语句训练基于注意力机制的长短期记忆lstm网络得到的。

进一步，需要说明的是，利用历史指令语句和客需服务数据向量训练客需服务注意力模型的过程与上述示出的利用历史唤醒语句和酒店知识库向量训练酒店知识注意力模型的过程相同，可相互参见。

在具体实现步骤s103的过程中，智能音箱基于客需服务注意力模型对用户输入的指令语句进行处理，得到与客需服务相关的指令语句的语义向量。

步骤s104：将唤醒语句的语义向量和指令语句的语义向量输入误唤醒识别模型，基于误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值。

在步骤s104中，唤醒识别模型是利用历史唤醒语句和指令语句训练lstm网络得到的。

需要说明的是，lstm算法模型包括输入层，长短期记忆lstm单元和输出层，其中，输出层包括全连接隐层和softmax层。

在本发明实施例中，利用历史唤醒语句和指令语句训练lstm网络得到唤醒识别模型的过程，包括：

获取历史唤醒语句和历史指令语句；对历史唤醒语句和历史指令语句中的存在误唤醒词的语句进行标记；将历史唤醒语句和历史指令语句向量化，并将对应的历史唤醒语句的语义向量和历史指令语句的语义向量进行拼接，将每一拼接的历史唤醒语句的语义向量和历史指令语句的语义向量作为样本集。

基于样本集对通用的lstm网络模型进行训练，并将训练得到的lstm网络模型作为唤醒识别模型。具体的，在长短期记忆lstm单元通过正反向的两个lstm网络学习样本集中各个词的上下文信息；再通过不同宽度、不同权值的矩阵分别对双向lstm网络的学习结果所得到的向量矩阵进行卷积运算，以生成多层卷积特征矩阵；接着重新利用上述的lstm网络对生成的多层卷积特征矩阵进行学习，并输出学习结果至输出层；输出层将输出的学习结果先通过一个全连接隐层，接着再经过一个softmax层对样本的类别进行预测，直至样本集中所有的样本的预测结果与真实结果一致。确定当前训练得到的lstm网络模型为唤醒识别模型。

其中，全连接层是使其输出的数据在经过softmax层计算后输出的预测概率要高于真实的概率。softmax层用于计算唤醒语句为误唤醒的概率。

在本发明实施例中，基于上述构建好的误唤醒识别模型，执行步骤s206的过程，包括以下步骤：

步骤s11：将唤醒语句的语义向量和指令语句的语义向量进行拼接，并将拼接后的唤醒语句的语义向量和指令语句的语义向量输入误唤醒识别模型。

在具体实现步骤s11的过程中，拼接唤醒语句的语义向量和指令语句的语义向量，得到待处理语句的向量。

步骤s12：误唤醒识别模型对分类处理，输出待处理语句对应的误唤醒数值。

在具体实现步骤s12的过程中，误唤醒识别模型对拼接后的唤醒语句的语义向量和指令语句的语义向量进行分类处理，以确定唤醒语句是正确的唤醒语句或是误唤醒的唤醒语句的二分类任务，进而确定待处理语句中存在误唤醒的概率，并输出相应的误唤醒数值。

步骤s105：判断唤醒数值是否大于预设的误唤醒限值，若误唤醒数值大于预设的误唤醒数值时，执行步骤s106，若误唤醒数值小于等于预设的误唤醒数值时，执行步骤s107。

在具体实现步骤s105的过程中，比较唤醒数值和预设的误唤醒限值的大小，当确定误唤醒数值大于预设的误唤醒数值时，则执行步骤s106，当误唤醒数值小于等于预设的误唤醒数值时，则执行步骤s107。

需要说明的是，预设的误唤醒限值是根据实验预先进行设置的，比如，预设的误唤醒限值可设置为0.5。

步骤s106：确定待处理语句有误唤醒语句。

在具体实现步骤s106的过程中，智能音箱确定接收到的待处理语句中的唤醒语句为误唤醒语句，将该待处理语句丢弃。

步骤s107：确定待处理语句没有误唤醒语句。

在具体实现步骤s107的过程中，智能音箱确定接收到的待处理语句中的唤醒语句能够将智能音箱从待机状态切换到工作状态，并响应指令语句对应的指令。

在本发明实施例中，智能音箱通过酒店知识注意力模型将唤醒语句转换为唤醒语句的语义向量；通过客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量；并利用误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，以确定待处理语句是否存在误唤醒，在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句存在误唤醒。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

基于上述本发明实施例示出的语音识别方法，结合图1，参见图2，为本发明实施例示出的另一种语音识别方法，该方法包括：

步骤s201：获取用户输入的待处理语句。

在步骤s201中，待处理语句包括唤醒语句和指令语句。

步骤s202：对唤醒语句进行分词处理，并将唤醒语句的分词转换成唤醒语句对应的词向量。

在步骤s202中，每一唤醒语句存在至少一个分词。

在具体实现步骤s202的过程中，利用预先训练好的词典的匹配分词方法对唤醒语句进行分词，并利用文本深度表示模型将唤醒语句中的每一分词进行映射，从而得到每一分词对应的词向量。

需要说明的是，每一个唤醒语句的分词的长度是预先设置的允许的句子的最大长度。

在本发明实施例中，词典的匹配分析方法是通过酒店领域的10万条用户点评语句作为训练学习语料，进行训练得到的典的匹配分析方法。

文本深度表示模型可为word2vec模型等能够将词转换为向量的神经网络模型。

例如：假设进行分词后的唤醒语句可表示为{w1,w2...wmax}，利用word2vec模型用来映射唤醒语句中的每一分词{w1,w2...wmax}成一个向量，从而得到每一分词对应的词向量{dw1,dw2...dwmax}。

其中，词向量为神经网络之隐藏层。分词w1与词向量dw1对应，分词w2与词向量dw2对应，以此类推，分词wmax与词向量dwmax对应。

步骤s203：对指令语句进行分词处理，并将指令语句的分词转换成指令语句对应的词向量。

其中，每一指令语句存在多个分词。

在具体实现步骤s203的过程中，利用预先训练好的词典的匹配分词方法对指令语句进行分词，并利用文本深度表示模型将指令语句中的每一分词进行映射，从而得到每一分词对应的词向量。

步骤s204：基于预先构建的酒店知识注意力模型对唤醒语句进行处理，得到唤醒语句的语义向量。

在步骤s204中，酒店知识注意力模型是利用历史唤醒语句训练基于注意力机制的长短期记忆lstm网络得到的。

步骤s205：基于预先构建的客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量。

在步骤s205中，客需服务注意力模型是利用历史指令语句训练基于注意力机制的长短期记忆lstm网络得到的。

步骤s206：将唤醒语句的语义向量和指令语句的语义向量输入误唤醒识别模型，基于误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值。

在步骤s206中，唤醒识别模型是利用历史唤醒语句和指令语句训练lstm网络得到的。

步骤s207：判断唤醒数值是否大于预设的误唤醒限值，若误唤醒数值大于预设的误唤醒数值时，执行步骤s208，若误唤醒数值小于等于预设的误唤醒数值时，执行步骤s209。

步骤s208：确定待处理语句为误唤醒语句。

步骤s209：确定待处理语句为唤醒语句。

需要说明的是，步骤s204至步骤s209的具体实现过程，与上述本发明实施步骤s102至步骤s107的具体实现过程相同，可相互参见。

在本发明实施例中，智能音箱通过酒店知识注意力模型将唤醒语句对应的词向量转换为唤醒语句的语义向量；通过客需服务注意力模型将指令语句对应的词向量转换为指令语句的语义向量；并利用误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，以确定待处理语句是否存在误唤醒，在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句存在误唤醒。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

基于上述构建好的酒店知识注意力模型，在执行步骤s204基于预先构建的酒店知识注意力模型对唤醒语句进行处理，得到唤醒语句的语义向量，包括以下步骤：

步骤s21：预先构建的酒店知识注意力模型对唤醒语句对应的词向量进行编码。

在具体实现步骤s21的过程中，基于构建好的酒店知识注意力模型抽取唤醒语句的词向量中的单词，以对唤醒语句的词向量中的分词和分词内部之间的语义进行编码，从而每一分词向量随时间变化的隐状态。

步骤s22：根据编码后的唤醒语句的词向量和酒店知识库向量，确定每一词向量的权重。

在步骤s22中，酒店知识库向量是利用历史酒店业务数据对应的知识库进行处理得到的。

可选的，利用历史酒店业务数据对应的知识库进行处理，得到酒店知识库向量的过程，包括：

收集酒店业务数据总结的知识库，其中，该知识库包括n条知识，n的取值大于等于1的正整数。

通过上述示出的词典的匹配分词方法对每条知识进行分词，并利用文本深度表示模型将每一分词序列进行向量化，得到每一分词的向量。

对每一分词的向量进行上下文编码，得到每一知识的语义信息向量，即到酒店知识库向量。

需要说明的是，每一条知识包括实体数据i、实体数据j、以及实体数据i和实体数据j之间的关系r，表示为{i,j,r}；比如知识a包括{餐厅，所在楼层，3楼}。

例如：酒店业务数据总结的知识库的n条知识可表示为{knowledge1,knowledge2...knowledgen}；利用词典的匹配分词方法对每条知识{knowledge1,knowledge2...knowledgen}进行分词，得到每一条知识对应的分词，其中，knowledge1对应的分词可表示为{[wⁱ1,wⁱ2...wⁱmax]，[w^j1,w^j2...w^jmax]，[w^r1,w^r2...w^rmax]}，利用word2vec模型将每一分词系列进行向量化，并对每一分词的向量进行上下文编码，得到每一知识的语义信息向量{k1,k2...kn}，即到酒店知识库向量。

其中，knowledge1对应的语义信息向量为k1，knowledge2对应的语义信息向量为k2，以此类推，knowledgen对应的语义信息向量为kn。max表示预先设置的分词长度。

在具体实现步骤s22的过程中，对酒店知识库向量和唤醒语句的词向量的隐状态进行权重计算，从而对唤醒语句的分词进行重要程度分析，得到每一分词向量的权重，即确定酒店知识库向量和唤醒语句的词向量的相关性。

例如：假设词向量{x1,x2...xm}随时间变化的隐状态可表示为{h1,h2...hm}，m为词向量的个数。任意一个词向量的隐状态可表示为hj，j∈[1,m]。任意一个酒店知识库向量ki，i∈[1,n]；将酒店知识库向量ki和词向量的隐状态hj代入公式(1)进行权重计算，从而对唤醒语句的分词进行重要程度分析，得到每一分词向量的权重

公式(1)：

其中，比值其中，dot(ki,hj)为酒店知识库向量和词向量的隐状态的点乘数，d(h)为词向量的隐状态的维度。

可选的，利用唤醒语句的每一分词向量随时间变化的隐状态，以及每一分词向量的权重，也就是说，根据酒店知识库向量和唤醒语句的词向量的相关性，计算唤醒语句的上下文信息编码。

例如：假设词向量随时间变化的隐状态可表示为{h1,h2...hm}，任一个词向量的隐状态可表示为hj，j∈[1,m]。以及每一分词向量的权重每个时刻t∈[1,n]，基于每个时刻t词向量hj和每一分词向量的权重的变化，代入公式(2)进行计算，得到唤醒语句的上下文信息编码信息ct。

公式(2)：

其中，m为词向量的隐状态的个数，为分词的注意力概率。

步骤s23：基于每一词向量的权重和编码后的唤醒语句的词向量，确定唤醒语句的语义向量。

在具体实现步骤s23的过程中，对编码后的唤醒语句的语义和唤醒语句的分词对应的上下文编码信息进行解码，解码后得到该唤醒语句的语义向量。

其中，该唤醒语句的语义向量可表示为wakevector。

可选的，唤醒语句除唤醒词外应尽可能简短，当唤醒语句所包含的分词数量大于预设词数时，智能音箱实际能够识别唤醒语句中的唤醒意图的概率就越低，因此需要引入惩罚项。因此对于包含w个词的唤醒语句，它的语义向量可为

需要说明的是，预设词数是预先根据经验或多次实验进行设置的。

为了更好的理解上述本发明实施例示出的酒店知识注意力模型，下面根据酒店知识注意力模型的原理图进行举例说明，如图3所示。

假设酒店知识注意力模型所输入的唤醒语句的词向量为{x1,x2,x3}，其唤醒语句的词向量随时间变化的隐状态可表示为{h1,h2,h3}。任一个词向量的隐状态可表示为hj，j∈[1,3]。任意一个酒店知识库向量ki，i∈[1,3]；将酒店知识库向量ki和词向量的隐状态hj代入公式(1)进行权重计算，从而对唤醒语句的分词进行重要程度分析，得到每一分词向量的权重为

基于每个时刻t词向量hj和每一分词的权重的变化，代入公式(2)进行计算，得到唤醒语句的上下文信息编码信息ct，其中，第二时刻的唤醒语句的上下文信息编码信息c2可以表示为对编码后的唤醒语句的语义和唤醒语句的分词对应的上下文编码信息ct进行解码，解码后得到该唤醒语句的语义向量y1和y2。

在本发明实施例中，智能音箱通过酒店知识注意力模型对唤醒语句对应的词向量进行编码，从而确定每一分词向量对应的隐状态。对酒店知识库向量和唤醒语句的词向量的隐状态进行权重计算，从而对唤醒语句的分词进行重要程度分析，得到每一分词向量的权重；对编码后的唤醒语句的语义和唤醒语句的分词对应的上下文编码信息进行解码，解码后得到该唤醒语句的语义向量。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

基于上述示出构建好的客需服务注意力模型，在执行步骤s205基于预先构建的客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量，包括以下步骤：

步骤s31：预先构建的客需服务注意力模型对指令语句对应的词向量进行编码。

在具体实现步骤s31的过程中，基于构建好的客需服务注意力模型抽取指令语句的词向量中的单词，以对指令语句的词向量中的分词和分词内部之间的语义进行编码，从而每一分词向量随时间变化的隐状态。

步骤s32：根据编码后的指令语句的词向量和客需服务数据向量，确定每一词向量的权重，客需服务数据向量是利用历史客需服务数据进行处理得到的。

在步骤s32中，客需服务数据向量是利用历史客需服务数据进行处理得到的。

可选的，利用历史客需服务数据进行处理得到客需服务数据向量的过程，包括：

收集各类下单成功客需服务数据，其中，客需服务数据包括s个客需服务。

通过上述示出的词典的匹配分词方法对每条客需服务进行分词，并统计词频。

利用tf-idf(termfrequency–inversedocumentfrequency)信息检索与数据挖掘的常用加权算法，将高频的n个分词作为客需服务领域词表，并利用文本深度表示模型将客需服务对应的领域词表向量化，得到客需服务数据向量。此时，客需服务数据向量表示为di＝{dw1,dw2...dwn}。

在具体实现步骤s32的过程中，对客需服务数据向量和指令语句的词向量的隐状态进行权重计算，从而对指令语句的分词进行重要程度分析，得到每一分词向量的权重，即确定客需服务数据向量和唤醒语句的词向量的相关性。

例如：假设词向量随时间变化的隐状态可表示为{h1,h2...hm}，任一个词向量可表示为hj，j∈[1,m]。任意一个客需服务数据向量为dwi，i∈[1,n]；将客需服务数据向量dwi和词向量的隐状态hj代入公式(3)进行权重计算，从而对唤醒语句的分词进行重要程度分析，得到每一分词向量的权重即酒店知识库向量和唤醒语句的词向量的相关性。

公式(3)：

其中，比值其中，dot(dwi,hj)为客需服务数据向量和词向量的隐状态的点乘数，d(h)为词向量的隐状态的维度。

可选的，利用指令语句的每一分词向量随时间变化的隐状态，以及每一分词向量的权重，也就是说，根据客需服务数据向量和唤醒语句的词向量的相关性，计算指令语句的上下文信息编码。

需要说明的是，计算指令语句的上下文信息编码的过程与上述本发明实施例示出的唤醒语句的上下文信息编码的过程相同，可相互参见。

步骤s33：基于每一词向量和编码后的指令语句的词向量，确定指令语句的语义向量。

在具体实现步骤s33的过程中，对编码后的指令语句的语义和指令语句的分词对应的上下文编码信息进行解码，解码后得到该指令语句的语义向量。

其中，该唤醒语句的语义向量可表示为commandvectors。

进一步的，根据语言说话规律，指令语句的语义信息应集中于几个关键词中，而不是平均分布在每个词中间。进一步的，需要利用score函数对每一指令语句的语义向量commandvectors内的词进行打分，分布在指令语句的语义向量中间的词，客需服务对应指令句的语义向量权重越高，也就是说，将指令语句的语义向量commandvectors代入含有score函数的公式(5)继续计算，得到语义向量commandvectors内的词的权重score(commandvectors)。

公式(5)：

其中，i为客需服务数据向量的个数，为指令语句的语义向量commandvectors中i个词中的最大值，为指令语句的语义向量commandvectors中i个词中的最小值，m为词向量的隐状态的个数。

接着再将计算得到的语义向量commandvectors内的词的权重score(commandvectors)代入公式(6)进行加权求和，得到指令语句的语义向量commandvector。

公式(6)：

其中，exp(score(commandvectors))是指以e为底，score(commandvectors)为幂的指数函数，i为客需服务数据向量的个数。

在本发明实施例中，智能音箱通过客需服务注意力模型对指令语句对应的词向量进行编码，从而确定每一分词向量对应的隐状态。对码后的指令语句的词向量的隐状态和客需服务数据向量进行权重计算，从而对指令语句的分词进行重要程度分析，得到每一分词向量的权重；对编码后的指令语句的语义和指令语句的分词对应的上下文编码信息进行解码，解码后得到该指令语句的语义向量。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

与上述本发明实施例公开的语音识别方法相对应，本发明实施例还对应公开了一种语音识别装置的结构示意图，如图4所示，该语音识别装置包括：

获取模块401，用于获取用户输入的待处理语句。

需要说明的是，待处理语句包括唤醒语句和指令语句。

酒店知识注意力模型402，用于基于预先构建的酒店知识注意力模型对唤醒语句进行处理，得到唤醒语句的语义向量。

需要说明的是，酒店知识注意力模型是利用历史唤醒语句训练基于注意力机制的长短期记忆lstm网络得到的。

客需服务注意力模型403，用于基于预先构建的客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量。

需要说明的是，酒店知识注意力模型是利用历史指令语句训练基于注意力机制的长短期记忆lstm网络得到的；

误唤醒识别模型404，用于将唤醒语句的语义向量和指令语句的语义向量输入误唤醒识别模型，基于误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值。

需要说明的是，误唤醒识别模型是利用历史唤醒语句和指令语句训练lstm网络得到的。

确定模块405，用于在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句有误唤醒语句。

需要说明的是，上述本发明实施例公开的语音识别装置中的各个单元具体的原理和执行过程，与上述本发明实施示出的语音识别方法相同，可参见上述本发明实施例公开的语音识别方法中相应的部分，这里不再进行赘述。

在本发明实施例中，智能音箱通过酒店知识注意力模型将唤醒语句转换为唤醒语句的语义向量；通过客需服务注意力模型对指令语句进行处理，得到指令语句的语义向量；并利用误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，以确定待处理语句是否存在误唤醒，在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句存在误唤醒。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

可选的，基于上述示出的语音识别装置，结合图4，参见图5，该语音识别装置还进一步设置了分词向量模块406。

分词向量模块406，用于在基于预先构建的酒店知识注意力模型402对唤醒语句进行处理，得到唤醒语句的语义向量之前，对唤醒语句进行分词处理，并将唤醒语句的分词转换成唤醒语句对应的词向量，其中，每一唤醒语句存在至少一个分词；对指令语句进行分词处理，并将指令语句的分词转换成指令语句对应的词向量，其中，每一指令语句存在多个分词。

在本发明实施例中，智能音箱通过酒店知识注意力模型将唤醒语句对应的词向量转换为唤醒语句的语义向量；通过客需服务注意力模型将指令语句对应的词向量转换为指令语句的语义向量；并利用误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，以确定待处理语句是否存在误唤醒，在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句存在误唤醒。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

可选的，基于上述示出的语音识别装置，酒店知识注意力模型402具体用于：对唤醒语句对应的词向量进行编码；根据编码后的唤醒语句的词向量和酒店知识库向量，确定每一词向量的权重，酒店知识库向量是利用历史酒店业务数据对应的知识库进行处理得到的；基于每一词向量的权重和编码后的唤醒语句的词向量，确定唤醒语句的语义向量。

在本发明实施例中，智能音箱通过酒店知识注意力模型对唤醒语句对应的词向量进行编码，从而确定每一分词向量对应的隐状态。对酒店知识库向量和唤醒语句的词向量的隐状态进行权重计算，从而对唤醒语句的分词进行重要程度分析，得到每一分词向量的权重；对编码后的唤醒语句的语义和唤醒语句的分词对应的上下文编码信息进行解码，解码后得到该唤醒语句的语义向量。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

可选的，基于上述示出的语音识别装置，客需服务注意力模型403具体用于：对指令语句对应的词向量进行编码；根据编码后的指令语句的词向量和客需服务数据向量，确定每一词向量的权重，客需服务数据向量是利用历史客需服务数据进行处理得到的；基于每一词向量的权重和编码后的指令语句的词向量，确定指令语句的语义向量。

在本发明实施例中，智能音箱通过客需服务注意力模型对指令语句对应的词向量进行编码，从而确定每一分词向量对应的隐状态。对码后的指令语句的词向量的隐状态和客需服务数据向量进行权重计算，从而对指令语句的分词进行重要程度分析，得到每一分词向量的权重；对编码后的指令语句的语义和指令语句的分词对应的上下文编码信息进行解码，解码后得到该指令语句的语义向量。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

可选的，基于上述本发明实施例示出的语音识别装置，误唤醒识别模型404具体用于：将唤醒语句的语义向量和指令语句的语义向量进行拼接，并将拼接后的唤醒语句的语义向量和指令语句的语义向量输入误唤醒识别模型；误唤醒识别模型对拼接后的唤醒语句的语义向量和指令语句的语义向量进行分类处理，输出待处理语句对应的误唤醒数值。

在本发明实施例中，利用误唤醒识别模型对唤醒语句的语义向量和指令语句的语义向量进行处理，输出待处理语句对应的误唤醒数值，以确定待处理语句是否存在误唤醒，在确定误唤醒数值大于预设的误唤醒限值时，确定待处理语句存在误唤醒。能够避免智能音箱出现误唤醒的情况，从而提高用户的的住宿体验。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：端到端的在线语音检测与识别方法、系统及设备与流程

一种语音识别方法及装置与流程

相关文章

最热文献