一种语音助手的开启方法、控制方法、系统及存储介质与流程

2021-09-07 23:38:00 来源：中国专利 TAG：语音助手终端控制方法

1.本技术涉及语音助手技术领域，尤其是涉及一种语音助手的控制方法、系统、终端及存储介质。

背景技术：

2.随着移动终端和互联网技术的快速发展，目前，大部分移动终端都支持语音助手，语音助手具有通过智能对话与即时问答等语音交互方式实现语音控制、信息查询等功能。目前移动终端上的语音助手通常需要用户对其进行唤醒，一般是通过输入特定的语音唤醒词实现语音助手的唤醒，例如：语音助手siri的语音唤醒词为“嘿siri”。
3.但是，当用户处于公共场合中或处于嘈杂环境时，对语音助手进行唤醒时，容易误唤醒他人的语音助手，误唤醒率较高。

技术实现要素：

4.为了减少语音助手的误唤醒率，本技术提供一种语音助手的开启方法、控制方法、系统及存储介质。
5.第一方面，本技术提供的一种语音助手的开启方法，采用如下的技术方案：一种语音助手的开启方法，包括：接收语音唤醒信号；判断所述语音唤醒信号中是否存在预设的唤醒词，以及所述语音唤醒信号的生物特征信息与预设的标准生物特征信息是否一致；如果是，则唤醒语音助手，进入语音助手屏显模式；在语音助手屏显模式下获取声纹信号，得到所述声纹信号的音量值；判断所述音量值是否满足第一预设条件，如果是，则获取人脸图像信息；判断所述人脸图像信息是否满足第二预设条件，如果是，则开启语音助手，进入语音助手控制模式。
6.通过采用上述技术方案，通过唤醒词的识别以及生物特征信息的比对，判断是否唤醒语音助手，在唤醒语音助手后，通过声纹信号的音量值以及人脸图像信息是否符合预设条件，并在符合时开启语音助手，通过多方面识别判断，有效减少语音助手误开启的可能。
7.可选的，所述标准生物特征信息的设定方法包括：获取用户语音数据；提取所述用户语音数据的声纹信息；对所述声纹信息进行训练，得到用户的标准生物特征信息。
8.可选的，所述判断所述音量值是否满足第一预设条件具体包括：若所述音量值在预设范围内，且所述声纹信号的声源的距离小于预设距离阈值时，则确定所述音量值满足第一预设条件。
9.可选的，所述判断所述人脸图像信息是否满足第二预设条件具体包括：若所述人脸图像信息与预设的人脸标准图像信息一致，则确定所述人脸图像信息满足第二预设条件。
10.第二方面，本技术提供的一种语音助手的控制方法，采用如下的技术方案：一种语音助手的控制方法，所述方法基于上述语音助手的控制方法，包括：在语音助手控制模式下接收第一语音控制指令，确定所述第一语音控制指令对应的应用以及对应的操作；通过语音助手控制所述第一语音控制指令对应的应用执行对应的操作。
11.可选的，还包括：在语音助手控制模式下，若预设时间内未接收到语音指令，自动关闭语音助手。
12.第三方面，本技术提供的一种语音助手的控制系统，采用如下的技术方案：一种语音助手的控制系统，包括：接收唤醒信号模块，用于接收语音唤醒信号；初次判断模块，用于判断所述语音唤醒信号中是否存在预设的唤醒词，以及所述语音唤醒信号的生物特征信息与预设的标准生物特征信息是否一致；如果是，则唤醒语音助手，进入语音助手屏显模式；声纹信号获取模块，用于在语音助手屏显模式下获取声纹信号，得到所述声纹信号的音量值；人脸图像信息获取模块，用于判断所述音量值是否满足第一预设条件，如果是，则获取人脸图像信息；再次判断模块，用于判断所述人脸图像信息是否满足第二预设条件，如果是，则开启语音助手，进入语音助手控制模式。
13.通过采用上述技术方案，通过唤醒词的识别以及生物特征信息的比对，判断是否唤醒语音助手，在唤醒语音助手后，通过声纹信号的音量值以及人脸图像信息是否符合预设条件，并在符合时开启语音助手，通过多方面识别判断，有效减少语音助手误开启的可能。
14.第四方面，本技术提供的一种智能终端，采用如下的技术方案：一种智能终端，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如上述语音助手的控制方法的计算机程序。
15.通过采用上述技术方案，通过唤醒词的识别以及生物特征信息的比对，判断是否唤醒语音助手，在唤醒语音助手后，通过声纹信号的音量值以及人脸图像信息是否符合预设条件，并在符合时开启语音助手，通过多方面识别判断，有效减少语音助手误开启的可能。
16.第五方面，本技术提供的一种计算机可读存储介质，采用如下的技术方案：一种计算机可读存储介质，存储有能够被处理器加载并执行如上述语音助手的控制方法中的计算机程序。
17.通过采用上述技术方案，通过唤醒词的识别以及生物特征信息的比对，判断是否唤醒语音助手，在唤醒语音助手后，通过声纹信号的音量值以及人脸图像信息是否符合预设条件，并在符合时开启语音助手，通过多方面识别判断，有效减少语音助手误开启的可
能。
18.综上所述，本技术包括以下至少一种有益技术效果：通过唤醒词的识别以及生物特征信息的比对，判断是否唤醒语音助手，在唤醒语音助手后，通过声纹信号的音量值以及人脸图像信息是否符合预设条件，并在符合时开启语音助手，通过多方面识别判断，有效减少语音助手误开启的可能。
附图说明
19.图1是本技术实施例示出的语音助手的开启方法的流程框图。
20.图2是本技术实施例示出的语音助手的控制方法的流程框图。
21.图3是本技术实施例示出的语音助手的唤醒系统的结构框图。
22.附图标记说明：1、接收唤醒信号模块；2、初次判断模块；3、声纹信号获取模块；4、人脸图像信息获取模块，5、再次判断模块。
具体实施方式
23.本具体实施例仅仅是对本技术的解释，其并不是对本技术的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本技术的权利要求范围内都受到专利法的保护为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
24.以下结合说明书附图对本技术作进一步详细说明。
25.本技术实施例公开一种语音助手的开启方法。参照图1，语音助手的控制方法包括以下步骤：s10、通过移动终端自带的麦克风采集语音唤醒信号；s11、判断语音唤醒信号中是否存在预设的唤醒词，以及语音唤醒信号的生物特征信息与预设的标准生物特征信息是否一致；如果是，则唤醒语音助手，进入语音助手屏显模式；具体的，对接收的语音唤醒信号进行去噪处理，并将其转换为文字，然后将其作为输入数据输入至唤醒词识别模型中，通过唤醒词识别模型来识别语音唤醒信号中是否有唤醒词。
26.其中，唤醒词识别模型通常采用gmm
‑
hmm模型来表征，即使用隐马尔可夫模型(hmm)表征语音单元之间的状态转移情况，使用高斯混合模型(gmm)表征语音单元的状态输出概率，作为语音单元的唤醒词声学模型。以语音单元为音素单元为例，具体建模时，可以使用三音素单元来表示每个音素单元的上下文相关音素单元。具体训练时，首先收集大量语音数据，提取语音数据对应语音单元的声学特征；然后利用语音单元的声学特征及该语音单元上下文相关语音单元的声学特征训练各语音单元的唤醒词声学模型。
27.语音单元的状态输出概率可以使用深度神经网络(dnn)表征，构建声学模型时先确定神经网络的结构，如前馈神经网络、卷积神经网络或循环神经网络的一种或多种的组
合形式，神经网络的隐层数一般为3到8层，每个隐层的节点数一般为2048个；然后利用收集的大量语音数据进行模型训练，得到各语音单元的状态输出概率，即语音单元的唤醒词识别模型。
28.另外，标准生物特征信息的设定方法包括：获取用户语音数据，提取用户语音数据的声纹信息，对声纹信息进行训练，得到用户的标准生物特征信息。
29.s12、在语音助手屏显模式下获取声纹信号，得到声纹信号的音量值；通过移动终端自带的麦克风采集声纹信号，并通过麦克风内设有的音频信号模数转换器将声纹信号转换为数字信号，得到声纹信号的音量值。
30.s13、判断音量值是否满足第一预设条件，如果是，则获取人脸图像信息；具体的，若音量值在预设范围内，且声纹信号的声源的距离小于预设距离阈值时，确定该音量值满足第一预设条件。声纹信号的声源的距离可以根据声音在空气中的定性的衰减公式确定，其中预设范围和预设距离阈值均可以根据经验自行设定。
31.s14、判断人脸图像信息是否满足第二预设条件，如果是，则开启语音助手，进入语音助手控制模式。
32.具体的，通过移动终端的摄像头获取人脸图像信息，并通过人脸识别算法判断获取的人脸图像信息是否与预设的人脸标准图像信息一致，如果是，则确定该人脸图像信息满足第二预设条件。
33.其中，人脸识别算法是指在检测到人脸并定位面部关键特征点之后，主要的人脸区域就可以被裁剪出来，经过预处理之后，馈入后端的识别算法，并与预设的人脸标准图像进行比对。
34.基于上述语音助手的开启方法，本技术实施例公开了一种语音助手的控制方法。
35.参照图2，语音助手的控制方法包括以下步骤：s20、在语音助手控制模式下接收第一语音控制指令，确定第一语音控制指令对应的应用以及对应的操作；当人脸图像信息满足第二预设条件时，确定用户需要对移动终端进行语音输入，移动终端进入语音助手控制模式，并通过移动终端的麦克风获取声纹信息进行语音识别，生成第一语音控制指令，并根据第一语音控制指令确定对应的应用以及对应的操作。
36.s21、通过语音助手控制第一语音控制指令对应的应用执行对应的操作。
37.另外，在语音助手控制模式下，若预设时间内未接收到语音指令，自动关闭语音助手。
38.本技术实施例还公开了一种语音助手的唤醒系统，参照图3，包括：接收唤醒信号模块1，用于接收语音唤醒信号；初次判断模块2，用于判断语音唤醒信号中是否存在预设的唤醒词，以及语音唤醒信号的生物特征信息与预设的标准生物特征信息是否一致；如果是，则唤醒语音助手，进入语音助手屏显模式；声纹信号获取模块3，用于在语音助手屏显模式下获取声纹信号，得到声纹信号的音量值；人脸图像信息获取模块4，用于判断音量值是否满足第一预设条件，如果是，则获取人脸图像信息；
再次判断模块5，用于判断人脸图像信息是否满足第二预设条件，如果是，则开启语音助手，进入语音助手控制模式。
39.本技术实施例还公开了一种智能终端，包括存储器和处理器，存储器上存储有能够被处理器加在并执行如上述语音报时开启方法、语音报时控制方法的计算机程序。
40.基于上述同一发明构思，本技术实施例还公开一种计算机可读存储介质，包括能够被处理器加载执行时实现上述语音报时开启方法、语音报时控制方法流程中的各个步骤。
41.计算机可读存储介质例如包括：u盘、移动硬盘、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
42.所属领城的技术人员可以清楚地了解到，为描述的方便和简化，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的项能模块，以完成以上描述的全部或者部分功能，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述，在本中请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例加，硬块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
43.另外，在本中请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
44.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u 盘、移动硬盘、只读存储器、随机存取存储器、瓷碟或者光盘等各种可以存储程序代码的介质。
45.以上所述，以上实施例仅用以对本电请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本技术的方法及其核心思想，不应理解为对本技术的限制。本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种双向粗糙平行排布微通道多孔吸声结构的制作方法

一种语音助手的开启方法、控制方法、系统及存储介质与流程

相关文章

最热文献