一种控制方法及装置与流程

2021-09-14 21:53:00 来源：中国专利 TAG：装置控制计算机方法

技术特征：
1.一种控制方法，应用于智能音箱，包括：采集用于控制所述智能音箱的控制语音；确定所述控制语音的发起人是否为免唤醒用户；在所述发起人为免唤醒用户的情况下，基于所述控制语音控制所述智能音箱。2.根据权利要求1所述的方法，所述确定所述控制语音的发起人是否为免唤醒用户，包括：识别所述控制语音的声纹特征；在所述声纹特征为免唤醒用户的声纹特征的情况下，确定所述发起人为免唤醒用户。3.根据权利要求1所述的方法，所述确定所述控制语音的发起人是否为免唤醒用户，包括：确定与所述智能音箱通信连接的免唤醒设备的位置；根据所述位置确定所述免唤醒设备相对于所述智能音箱的相对方向；确定所述控制语音的来源方向；在所述相对方向与所述来源方向相同的情况下，确定所述发起人为免唤醒用户。4.根据权利要求1所述的方法，所述确定所述控制语音的发起人是否为免唤醒用户，包括：确定所述控制语音的来源方向；采集位于来源方向的包括所述发起人的图像；识别所述图像中的发起人的面部特征；在所述面部特征为免唤醒用户的面部特征的情况下，确定所述发起人为免唤醒用户。5.根据权利要求3或4所述的方法，所述智能音箱包括至少两个语音采集设备；所述采集用于控制所述智能音箱的控制语音，包括：基于至少语音采集设备分别采集用于控制所述智能音箱的控制语音；所述确定所述控制语音的来源方向，包括：确定至少两个语音采集设备分别采集到的控制语音的相位信息；基于所述相位信息确定所述来源方向。6.根据权利要求1所述的方法，所述确定所述控制语音的发起人是否为免唤醒用户，包括：确定所述发起人相对于所述智能音箱的相对方向；获取最近一次确定出的免唤醒用户相对于所述智能音箱的历史方向；在所述相对方向与所述历史方向之间的差异小于预设差异的情况下，确定所述发起人为免唤醒用户。7.根据权利要求1所述的方法，所述基于所述控制语音控制所述智能音箱，包括：对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；至少基于所述控制文本确定所述控制语音的控制意图；确定所述控制意图所在的意图领域；在所述意图领域为所述智能音箱支持的意图领域的情况下，基于所述控制意图控制所述智能音箱。8.根据权利要求7所述的方法，所述至少基于所述控制文本确定所述控制语音的控制
意图，包括：将所述控制文本输入至意图预测模型中，得到所述意图预测模型输出的所述控制意图。9.根据权利要求8所述的方法，其特征在于，训练所述意图预测模型的方式，包括：获取样本数据集，所述样本数据集中包括有标注有样本控制意图的样本控制文本；构建意图预测模型的网络结构；使用所述样本数据集对意图预测模型中的网络参数进行训练，直至所述网络参数收敛，得到所述意图预测模型。10.根据权利要求9所述的方法，其特征在于，所述意图预测模型网络结构至少包括：分词层、编码层、双向的循环神经网络、聚合层以及全连接层；所述分词层用于将控制文本分词，得到多个词汇；所述编码层用于将多个词汇分别转换为特征向量；所述双向的循环神经网络用于基于多个特征向量中相邻的至少两个特征向量之间的依赖关系对多个向量分别进行特征补充；所述聚合层用于将特征补充完毕的多个特征向量聚合，得到聚合向量；所述全连接层用于根据所述聚合向量预测控制意图。11.根据权利要求10所述的方法，其特征在于，所述双向的循环神经网络包括前向长短期记忆网络lstm网络和后向lstm网络；所述前向lstm网络包括顺序连接的多个lstm模型；所述后向lstm网络包括顺序连接的多个lstm模型；所述前向lstm网络包括的多个lstm模型之间的连接顺序与所述后向lstm网络包括的多个lstm模型之间的连接顺序相反。12.根据权利要求7所述的方法，所述至少基于所述控制文本确定所述控制语音的控制意图，包括：确定所述智能音箱当前所处的业务场景；基于所述业务场景以及所述控制文本确定所述控制意图。13.根据权利要求7所述的方法，所述确定所述控制意图所在的意图领域，包括：在控制意图与意图领域之间的对应关系中，查找与所述控制意图相对应的意图领域。14.根据权利要求1所述的方法，控制语音为多个，控制语音为多个发起人分别发出的；且在多个发起人中的免唤醒用户为至少两个；所述基于所述控制语音控制所述智能音箱，包括：确定至少两个免唤醒用户的优先级；基于优先级高的免唤醒用户的发出的控制语音控制所述智能音箱。15.一种控制方法，应用于智能音箱，包括：采集用于控制所述智能音箱的控制语音；确定所述控制语音是否为免唤醒控制语音；在所述控制语音为免唤醒控制语音的情况下，基于所述控制语音控制所述智能音箱。16.根据权利要求15所述的方法，所述确定所述控制语音是否为免唤醒控制语音，包括：
对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；判断所述控制文本中是否携带免唤醒关键词；在所述控制文本中携带免唤醒关键词的情况下，确定所述控制语音为免唤醒控制语音。17.一种控制方法，应用于智能音箱，包括：采集用于控制所述智能音箱的控制语音；获取所述智能音箱在采集到所述控制语音时的采集时刻；在所述采集时刻为免唤醒时刻的情况下，基于所述控制语音控制所述智能音箱。18.一种控制方法，应用于智能音箱，包括：采集用于控制所述智能音箱的控制语音；确定所述智能音箱所在的位置；在所述位置位于免唤醒区域的情况下，基于所述控制语音控制所述智能音箱。19.一种控制装置，应用于智能音箱，包括：第一采集模块，用于采集用于控制所述智能音箱的控制语音；第一确定模块，用于确定所述控制语音的发起人是否为免唤醒用户；第一控制模块，用于在所述发起人为免唤醒用户的情况下，基于所述控制语音控制所述智能音箱。20.根据权利要求19所述的装置，所述第一确定模块包括：第一识别单元，用于识别所述控制语音的声纹特征；第一确定单元，用于在所述声纹特征为免唤醒用户的声纹特征的情况下，确定所述发起人为免唤醒用户。21.根据权利要求19所述的装置，所第一确定模块包括：第二确定单元，用于确定与所述智能音箱通信连接的免唤醒设备的位置；第三确定单元，用于根据所述位置确定所述免唤醒设备相对于所述智能音箱的相对方向；第四确定单元，用于确定所述控制语音的来源方向；第五确定单元，用于在所述相对方向与所述来源方向相同的情况下，确定所述发起人为免唤醒用户。22.根据权利要求19所述的装置，所述第一确定模块包括：第四确定单元，用于确定所述控制语音的来源方向；采集单元，用于采集位于来源方向的包括所述发起人的图像；第二识别单元，用于识别所述图像中的发起人的面部特征；第六确定单元，用于在所述面部特征为免唤醒用户的面部特征的情况下，确定所述发起人为免唤醒用户。23.根据权利要求21或22所述的装置，所述智能音箱包括至少两个语音采集设备；所述第一采集模块具体用于：基于至少语音采集设备分别采集用于控制所述智能音箱的控制语音；所述第四确定单元包括：第一确定子单元，用于确定至少两个语音采集设备分别采集到的控制语音的相位信
息；第二确定子单元，用于基于所述相位信息确定所述来源方向。24.根据权利要求19所述的装置，所述第一确定模块包括：第七确定单元，用于确定所述发起人相对于所述智能音箱的相对方向；获取单元，用于获取最近一次确定出的免唤醒用户相对于所述智能音箱的历史方向；第八确定单元，用于在所述相对方向与所述历史方向之间的差异小于预设差异的情况下，确定所述发起人为免唤醒用户。25.根据权利要求19所述的装置，所第一控制模块包括：第三识别单元，用于对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；第九确定单元，用于至少基于所述控制文本确定所述控制语音的控制意图；第十确定单元，用于确定所述控制意图所在的意图领域；第一控制单元，用于在所述意图领域为所述智能音箱支持的意图领域的情况下，基于所述控制意图控制所述智能音箱。26.根据权利要求25所述的装置，所述第六确定单元包括：输入子单元，用于将所述控制文本输入至意图预测模型中，得到所述意图预测模型输出的所述控制意图。27.根据权利要求26所述的装置，其特征第六确定单元还包括：获取子单元，用于获取样本数据集，所述样本数据集中包括有标注有样本控制意图的样本控制文本；构建子单元，用于构建意图预测模型的网络结构；第三确定子单元，用于使用所述样本数据集对意图预测模型中的网络参数进行训练，直至所述网络参数收敛，得到所述意图预测模型。28.根据权利27所述的装置，其特征在于，所述意图预测模型网络结构至少包括：分词层、编码层、双向的循环神经网络、聚合层以及全连接层；所述分词层用于将控制文本分词，得到多个词汇；所述编码层用于将多个词汇分别转换为特征向量；所述双向的循环神经网络用于基于多个特征向量中相邻的至少两个特征向量之间的依赖关系对多个向量分别进行特征补充；所述聚合层用于将特征补充完毕的多个特征向量聚合，得到聚合向量；所述全连接层用于根据所述聚合向量预测控制意图。29.根据权利要求28所述的装置，其特征在于，所述双向的循环神经网络包括前向长短期记忆网络lstm网络和后向lstm网络；所述前向lstm网络包括顺序连接的多个lstm模型；所述后向lstm网络包括顺序连接的多个lstm模型；所述前向lstm网络包括的多个lstm模型之间的连接顺序与所述后向lstm网络包括的多个lstm模型之间的连接顺序相反。30.根据权利要求25所述的装置，所述第十确定单元包括：第四确定子单元，用于确定所述智能音箱当前所处的业务场景；
第五确定子单元，用于基于所述业务场景以及所述控制文本确定所述控制意图。31.根据权利要求25所述的装置，所述第十确定单元具体用于：在控制意图与意图领域之间的对应关系中，查找与所述控制意图相对应的意图领域。32.根据权利要求19所述的装置，控制语音为多个，控制语音为多个发起人分别发出的；且在多个发起人中的免唤醒用户为至少两个；所述第一控制模块包括：第十一确定单元，用于确定至少两个免唤醒用户的优先级；第二控制单元，用于基于优先级高的免唤醒用户的发出的控制语音控制所述智能音箱。33.一种控制装置，应用于智能音箱，包括：第二采集模块，用于采集用于控制所述智能音箱的控制语音；第二确定模块，用于确定所述控制语音是否为免唤醒控制语音；第二控制模块，用于在所述控制语音为免唤醒控制语音的情况下，基于所述控制语音控制所述智能音箱。34.根据权利要求33所述的装置，所述第二确定模块包括：第四识别单元，用于对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；判断单元，用于判断所述控制文本中是否携带免唤醒关键词；第十二确定单元，用于在所述控制文本中携带免唤醒关键词的情况下，确定所述控制语音为免唤醒控制语音。35.一种控制装置，应用于智能音箱，包括：第三采集模块，用于采集用于控制所述智能音箱的控制语音；获取模块，用于获取所述智能音箱在采集到所述控制语音时的采集时刻；第三控制模块，用于在所述采集时刻为免唤醒时刻的情况下，基于所述控制语音控制所述智能音箱。36.一种控制装置，应用于智能音箱，包括：第四采集模块，用于采集用于控制所述智能音箱的控制语音；第三确定模块，用于所述智能音箱所在的位置；第四控制模块，用于在所述位置位于免唤醒区域的情况下，基于所述控制语音控制所述智能音箱。37.一种智能音箱，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-19中一个或多个所述的控制方法。38.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-19中一个或多个所述的控制方法。

技术总结
本申请实施例提供了一种控制方法及装置。在本申请实施例中，采集用于控制智能音箱的控制语音；确定该控制语音的发起人是否为免唤醒用户；在该控制语音的发起人为免唤醒用户的情况下，基于该控制语音控制智能音箱。通过本申请，智能音箱支持免唤醒用户可以在不说出唤醒词而说出控制语音的情况下就可以实现基于控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。提高用户体验。提高用户体验。

技术研发人员：张平
受保护的技术使用者：阿里巴巴集团控股有限公司
技术研发日：2020.03.11
技术公布日：2021/9/13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种控制方法及装置与流程

相关文章

最热文献