设备唤醒方法、装置、设备与流程

2021-07-16 17:44:00 来源：中国专利 TAG：互联网设备唤醒装置方法

1.本发明涉及互联网技术领域，尤其涉及一种设备唤醒方法、装置、设备。

背景技术：

2.随着智能设备的发展，用户在家居、工作、休闲等场景中接触到的智能设备越来越多，比如家居场景中就常会接触到智能电视、扫地机器人、智能音箱、智能空气净化器。为便于用户的使用，这些智能设备往往都支持语音交互功能。
3.以家居场景为例，用户家庭中可能在不同位置设置有智能设备，为了便于用户记忆，这些智能设备可能被配置为具有同一唤醒词。从而，当用户说出对应于该唤醒词的语音时，可能会有多个智能设备都响应于该唤醒词而被唤醒，但用户的实际使用意图却可能仅仅是想要使用这些智能设备中的某一设备。
4.因而，如何准确识别用户实际的使用意图，确定出与该使用意图匹配的智能设备，是亟待解决的问题。

技术实现要素：

5.本发明实施例提供一种设备唤醒方法、装置、设备，用以准确识别用户对设备的使用意图。
6.第一方面，本发明实施例提供一种设备唤醒方法，该方法包括：
7.响应于用户的唤醒语音，获取多个设备在至少一种感应模式下各自对应的特征信息；
8.根据所述特征信息从所述多个设备中确定出反映用户使用意图的目标设备；
9.控制所述目标设备响应所述唤醒语音。
10.第二方面，本发明实施例提供一种设备唤醒装置，该设备唤醒装置包括：
11.获取模块，用于响应于用户的唤醒语音，获取多个设备在至少一种感应模式下各自对应的特征信息；
12.确定模块，用于根据所述特征信息从所述多个设备中确定出用于反映用户使用意图的目标设备；
13.控制模块，用于控制所述目标设备响应所述唤醒语音。
14.第三方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第一方面中的设备唤醒方法。
15.本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的设备唤醒方法。
16.在本发明实施例中，用户发出一次唤醒语音后，对于拾取到该唤醒语音的多个设备，获取这多个设备在至少一种感应模式下各自对应的特征信息。基于这至少一种感应模
式，可以从不同特征维度度量设备对用户的唤醒语音的感知情况，从而，结合各设备在这至少一种感应模型下分别对应的特征信息，可以从这多个设备中确定出能够反映用户的使用意图的目标设备，进而控制该目标设备响应唤醒语音，以避免多个设备同时响应该唤醒语音的现象，提升用户的交互体验。
附图说明
17.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1为本发明一实施例提供的一种用户家庭场景的示意图；
19.图2为本发明一实施例提供的一种会议室场景的示意图；
20.图3为本发明一实施例提供的一种设备控制方式的示意图；
21.图4为本发明一实施例提供的另一种设备控制方式的示意图；
22.图5为本发明一实施例提供的又一种设备控制方式的示意图；
23.图6为本发明一实施例提供的一种设备唤醒方法的流程图；
24.图7为本发明一实施例提供的一种设备唤醒过程的原理示意图；
25.图8为本发明一实施例提供的另一种设备唤醒过程的原理示意图；
26.图9为本发明一实施例提供的再一种设备唤醒过程的原理示意图；
27.图10为本发明一实施例提供的又一种设备唤醒过程的原理示意图；
28.图11为本发明一实施例提供的还有一种设备唤醒过程的原理流程图；
29.图12为本发明实施例提供的一种设备唤醒装置的结构示意图；
30.图13为与图12所示实施例提供的设备唤醒装置对应的电子设备的结构示意图。
具体实施方式
31.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
32.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。
33.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
34.另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
35.本发明实施例提供的方案可以适用于分布式语音交互场景。
36.所谓分布式语音交互场景可以理解为是在同一使用空间中分布式设置有多个支
持语音交互功能的设备的场景。其中，分布式设置是指该多个设备的设置位置是分散的。如果这多个设备对应于同一唤醒词，那么将会存在用户发出一次唤醒语音后，多个设备同时响应该唤醒语音的现象，但是，实际上，用户可能仅仅是想要使用其中的某一个设备。针对这种现象，本发明实施例提供一种用于唤醒设备的技术方案，以在上述分布式语音交互场景中实现用户对某设备的使用意图的准确识别。
37.实际应用中，上述多个设备比如是智能音箱、扫地机器人、智能冰箱、智能空气净化器等终端设备。
38.执行本发明实施例提供的设备唤醒方法的设备称为控制设备(或者中控设备)，该控制设备可以是不同于这多个设备的某个设备，比如智能手机、平板电脑、pc机、笔记本电脑等终端设备，还可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云服务器。
39.分布式语音交互场景可能存在于多种实际环境中，比如是家居、办公场所，等等。
40.以分布式语音交互场景部署于用户家庭为例，图1为本发明一实施例提供的一种用户家庭场景的示意图。如图1所示，用户家庭中在不同位置设置有支持语音交互功能的设备，这些设备比如为图1示出的在客厅中设置的扫地机器人t11、智能电视t12、智能音箱t13，在餐厅中设置的智能咖啡机t14，在卫生间中设置的智能烘干机t15，在厨房中设置的智能冰箱t16、智能微波炉t17，以及在卧室中设置的语音控制面板t18、智能空气净化器t19。在图1中，假设用户p11位于图中所示位置。该场景中，控制设备比如可以是用户p11的手机。
41.再以分布式语音交互场景部署于会议室为例，图2为本发明一实施例提供的一种会议室场景的示意图。如图2所示，会议室中分布式设置有多个支持语音交互功能的设备，这些设备比如为图2示出的智能音箱t21、智能加湿器t22、智能空气净化器t23、以及会议系统中的语音会议控制终端t24。其中，会议系统由语音会议控制终端t24、显示设备t25、以及与语音会议控制终端通信的服务器t26这三个设备组成。需说明，本例中显示设备t25不支持语音交互功能，因此下文示例性给出的通信连接中不体现该显示设备t25。该场景中，服务器t26可以作为图2示出的场景下用于控制这多个设备的控制设备。在图2示出的场景中，服务器t26可以设置于远端，也可以设置于该会议室所在办公场所的网络控制机房内。在图2中，假设当前用户p41、用户p42、用户p43参会。
42.另外，可以理解的是，控制设备在执行本发明实施例提供的设备唤醒方法的过程中，势必需要与上述多个设备进行通信，因此，控制设备需要与这多个设备建立通信连接。从网络拓扑结构的角度说，控制设备与这多个设备间的通信连接可以形成但不限于星状结构、总线结构、环形结构。为了便于理解，以这多个设备是图2示出的几个设备为例来说，星状结构可以是图3中示意的：以服务器t26为中心节点，该服务器t26分别与语音会议控制终端t24、智能音箱t21、智能加湿器t22、智能空气净化器t23这4个设备通信连接。
43.上述总线结构则如图4中示意的：智能音箱t21、智能加湿器t22、智能空气净化器t23以及语音会议控制终端t24，这4个设备通过总线与服务器t26连接。总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。
44.上述环形结构如图5中示意的：智能音箱t21、智能加湿器t22、智能空气净化器
t23、语音会议控制终端t24和服务器t26，按照设定的顺序依次建立通信连接。
45.下面结合以下实施例对本发明提供的设备唤醒方法的执行过程进行说明。
46.图6为本发明实施例提供的一种设备唤醒方法的流程示意图，如图6所示，该设备唤醒方法可以包括如下步骤：
47.601、响应于用户的唤醒语音，获取多个设备在至少一种感应模式下各自对应的特征信息。
48.602、根据多个设备在至少一种感应模式下各自对应的特征信息从多个设备中确定出反映用户使用意图的目标设备。
49.603、控制目标设备响应唤醒语音。
50.本实施例中的多个设备是指能够接收到用户的唤醒语音的多个设备，且假设这多个设备的唤醒词都为该唤醒语音中的唤醒词。
51.以图1示意的用户家庭场景为例，这多个设备并不一定是该场景内存在的全部支持语音交互功能的设备，而是用户p11周围区域内的一些能够听到其唤醒语音的设备，且这多个设备处于上电状态，如扫地机器人t11、智能电视t12、智能音箱t13、智能咖啡机t14、智能冰箱t16、智能微波炉t17、语音控制面板t18。
52.实际应用中，可选地，上述多个设备可以被配置为在接收到用户的唤醒语音时，向控制设备发送通知消息，以使得控制设备得知目前已经有哪些设备能够接收到唤醒语音，进而，控制设备可以针对接收到唤醒语音的多个设备建立与上述举例的几种网络拓扑结构中的一种相对应的通信连接。
53.可以理解的是，对于上述多个设备而言，本文所说的接收到用户的唤醒语音意味着其识别出该唤醒语音中包含与自身匹配的唤醒词。
54.为便于理解，以一种假设的情形为例来说明：假设用户家庭环境中有10个设备可以支持语音交互功能，这10个设备中有4个设备对应于唤醒词w1，剩下的6个设备对应于唤醒词w2。从而，假设当前用户说出了对应于唤醒词w1的一句唤醒语音，此时，假设上述4个设备中有3个设备处于上电状态，这3个设备基于对该唤醒语音进行语音识别以识别出其中的唤醒词w1，发现与自己的唤醒词匹配，从而，这3个设备可以向控制设备发送通知消息以触发控制设备执行本实施例提供的方案，此时，步骤601中所述的多个设备即为这3个设备。
55.另外，在一些实施例中，控制设备假设为远端的服务器，针对任一用户来说，假设该用户具有对n个设备的管理权限或使用权限，n大于1，并且假设这n个设备对应于同一唤醒词，则该用户可以将包含这n个设备的设备标识的设备组注册到控制设备中，当然，可选地，还可以将对应的用户标识及唤醒词也注册到控制设备中，如此，控制设备可以得知应该将哪些设备视为一组设备来进行决策。举例来说，假设用户a对应有设备1和设备2，用户b对应有设备3和设备4。当某时刻，用户a和用户b都发出了唤醒语音时，基于这四个设备各自发出的通知消息，控制设备根据这四个设备对应的注册信息得知设备1和设备2为一组，设备3和设备4为一组，应该从设备1和设备2中确定出一个目标设备，从设备3和设备4中确定出另一目标设备。
56.本发明实施例中，为了能够在多个设备中确定出准确反映用户使用意图的目标设备，控制设备需要获取多个设备在至少一种感应模式下各自对应的特征信息。
57.其中，可选地，该至少一种感应模式包括声学感应模式和/或光学感应模式。
58.针对上述多个设备中的任一设备来说，若该任一设备仅支持声学感应模式，则可以获取该任一设备在声学感应模式下对应的第一特征信息。若该任一设备仅支持光学感应模式，则可以获取该任一设备在光学感应模式下对应的第二特征信息。若该任一设备同时支持声学感应模式和光学感应模式，则可以获取该任一设备在声学感应模式下对应的第一特征信息，以及在光学感应模式下对应的第二特征信息。
59.其中，第一特征信息包括多种音频特征信息，这多种音频特征信息能够从多个声学度量维度来综合反映用户的使用意图，从而避免环境因素给单一声学度量维度所造成的影响，提高确定结果的准确性和可靠性。这多种音频特征信息比如是语音能量信息、信噪比、声源方位角度，等等。具体来说，对每个设备拾取到的唤醒语音进行音频特征分析得到的多种音频特征信息。
60.第二特征信息包括距离信息和/或人脸图像信息。第二特征信息的作用是从光学度量维度来反映用户的使用意图。其中，对于任一设备来说，该距离信息是指该任一设备相对用户的距离，该人脸图像信息是指该任一设备能否采集到人脸图像，以及在采集到人脸图像的情况下具体的诸如人脸朝向、人脸所占尺寸等详情信息。
61.基于此，可以理解的是，为了支持上述声学感应模式、光学感应模式，上述多个设备上会具有相应的传感器等硬件模组。比如，为了支持声学感应模式，设备中设置有音频组件。为了支持光学感应模式，设备中设置有摄像头、距离传感器。
62.实际应用中，可选地，可以由多个设备中的各设备检测自己在上述至少一种感应模式下各自对应的特征信息，进而将检测到的特征信息上报给控制设备。可选地，也可以由各设备将采集到的用于分析上述特征信息的相关数据发送至控制设备，由控制设备根据接收到的数据确定多个设备在上述至少一种感应模式下各自对应的特征信息。对于其中的任一设备来说，该相关数据可以是该任一设备拾取到的音频数据，该任一设备的人脸图像采集结果，等等。
63.值得说明的是，为保证目标设备确定结果的准确性以及降低计算量，上述特征信息是自唤醒语音发出后的预设时段内获取的。也就是说，上述多个设备中的每个设备在接收到唤醒语音后，在预设时段(比如2秒)内进行相关数据(如音频数据、人脸图像、距离)的采集，以基于采集的数据进行相应特征信息的提取。
64.基于上述描述可知，实际上，控制设备可以根据多个设备各自对应的多种音频特征信息、距离信息和人脸图像信息中的至少一种来确定目标设备。当确定出目标设备后，控制设备可以向该目标设备下发控制指令，以控制该目标设备响应唤醒语音，即被唤醒，继而与用户进行后续的语音交互。另外，该控制设备还可以向非目标设备下发控制指令，以控制非目标设备继续处于不被唤醒的状态。
65.对于不同类型的目标设备，响应唤醒语音的方式可能不同。举例来说，假设目标设备为智能电视，响应唤醒语音的方式可以是点亮屏幕，或者向用户展示提示信息，该提示信息用于指示该智能电视已被唤醒，该提示信息比如是开机提示音、或者开机动画。再例如，假设目标设备为智能音箱，响应唤醒语音的方式可以是点亮指示灯，或者向用户播放提示音频，该提示音频用于指示该智能音箱已被唤醒，该提示信息比如是引导语，如“请问你想听什么歌？”、或“欢迎进入音乐世界，有什么可以帮到您？”。
66.综上，结合多个设备在不同感应模式下对应的多种特征信息，可以更为准确地确
定出反映用户真实使用意图的目标设备。
67.下面结合以下实施例对控制设备如何基于多个设备在至少一种感应模式下各自对应的特征信息进行目标设备的确定进行详细说明。
68.在一可选实施例中，假设多个设备都只支持声学感应模式。此时，控制设备可以获取多个设备各自对应的多种音频特征信息，进而，按照多种音频特征信息的优先级由高到低的顺序，依次比较多个设备各自对应的多种音频特征信息，以从多个设备中确定目标设备。
69.其中，通过该比较方式最终使得目标设备具有如下特点：目标设备对应的第一音频特征信息与其他设备对应的第一音频特征信息的差异度大于设定阈值；对于在第一音频特征信息之前比较的第二音频特征信息，多个设备各自对应的第二音频特征信息的差异度小于设定阈值。
70.其中，可选地，多种音频特征信息比如包括语音能量信息、信噪比、声源方位。
71.下面举例说明多种音频特征信息的比较过程。假设多个设备分别为设备a、设备b和设备c。假设多种音频特征信息比如包括语音能量信息、声源方位角度。并且，假设这多种音频特征信息按照优先级从高到低的顺序依次为：声源方位角度、语音能量信息。假设设备a、设备b和设备c各自对应的声源方位角度分别为a1、b1、c1，设备a、设备b和设备c各自对应的语音能量信息分别为a2、b2、c2。
72.基于上述假设控制设备先对这三个设备各自对应的声源方位角度a1、b1、c1进行两两相减，以得到三个差值。若这些差值均小于设定阈值x，因此继续对语音能量信息进行比较，否则，假设若a1远大于b1和c1，即a1与b1的差值以及a1与c1的差值大于阈值x，则确定设备a为目标设备，不再进行后续比较。当需要继续比较语音能量信息时，同样对这三个设备各自对应的语音能量信息a2、b2、c2进行两两相减，以得到对应的三个差值。此时，可以确定语音能量值最高的设备为目标设备，假设设备a的语音能量高于设备b和设备c，则设备a确定为目标设备。
73.当然，实际上，以语音能量信息为例，也可以先选择出a2、b2、c2中的最大值，进而，以最大值与剩下的两个值分别相减，若差值大于阈值，则确定目标设备为最大值对应的设备。
74.在另一可选实施例中，控制设备可以获取多个设备在声学感应模式下各自对应的第一特征信息，以及获取多个设备在光学感应模式下各自对应的第二特征信息。从而，若获取的第二特征信息满足设定条件，则根据第二特征信息从多个设备中确定目标设备。相反地，若第二特征信息不满足设定条件，则根据第二特征信息从多个设备中筛选出至少两个设备，根据该至少两个设备各自对应的第一特征信息从该至少两个设备中确定目标设备。其中，该至少两个设备各自对应的第二特征信息的差异度小于设定阈值。
75.可选地，上述设定条件包括：目标设备对应的第二特征信息与其他设备对应的第二特征信息的差异度大于设定阈值。
76.其中，第二特征信息包括距离信息和/或人脸图像信息。可选地，人脸图像信息比如包括如下详细信息中的至少一种：人脸朝向、人脸所占尺寸。第一特征信息可以包括多种音频特征信息，比如包括语音能量信息、信噪比、声源方位。
77.概括来说，在上述可选实施例中，如果只基于第二特征信息便可以确定出目标设
备，那么将不需再使用第一特征信息，否则，就需要结合第一特征信息来进行目标设备的确定。
78.下面结合图7至图10示例性说明该可选实施例的几种具体实现方式：
79.首先，在图7至图10示例性中，假设作为第一特征信息的多种音频特征信息包括语音能量信息、声源方位。并假设多个设备分别为设备a、设备b和设备c。假设设备a、设备b和设备c各自对应的声源方位角度分别为a1、b1、c1，设备a、设备b和设备c各自对应的语音能量信息分别为a2、b2、c2。
80.在图7中，假设第二特征信息包括这三个设备各自对应的距离信息。假设设备a、设备b和设备c各自对应的距离信息分别为l1、l2、l3。实际应用中，可以选择出这三个距离中的最小值，假设为l1。进而，以最小值l1与剩下的两个值分别相减，若差值都大于设定阈值，则确定目标设备为最小值l1对应的设备a。可以理解的是，此时认为距离信息满足了上述设定条件，此时无需再结合其他特征信息进行判断。从而，控制设备指示设备a响应唤醒语音。
81.在图8中仍旧假设第二特征信息包括多个设备各自对应的距离信息，设备a、设备b和设备c各自对应的距离信息分别为l1、l2、l3。但是，假设发现l1、l2和l3中，l1最大，l3次之，l2最小。此时，可以计算l1和l3分别与l2的差值。假设l1与l2的差值大于设定阈值，此时过滤掉l1。假设l3与l2的差值小于该设定阈值，则保留l3。从而，最终保留的距离信息为l2和l3。也就是说，从这三个设备中依据距离信息筛选出候选的距离用户较近的两个设备：设备b(对应于l2)和设备c(对应于l3)如图8中所示。进一步地，根据设备b和设备c各自对应的多种音频特征信息从这两个设备中确定目标设备。该示例中，假设若设备b的语音能量高于设备c，则控制设备将设备b确定为目标设备，并指示设备b响应唤醒语音。该示例中，多种音频特征信息的比较过程与上文示例相似，此处不再展开。
82.在图9中，假设第二特征信息包括这三个设备各自对应的人脸图像信息。该人脸图像信息为包含用户人脸图像的图片。假设设备a、设备b和设备c向控制设备上传的各自对应的图片分别为图片q1、图片q2、图片q3。控制设备根据这三个设备上传的各自对应的图片q1、图片q2、图片q3中，计算出这三张图片中人脸所占尺寸m1、m2、m3。假设m1远大于m2和m3，即m1与m2的差值以及m1与m3的差值大于设定阈值，此时控制设备可以确定设备a为目标设备，并指示设备a响应唤醒语音。也就是说，此时，可以仅基于人脸图像信息便确定出了目标设备，无需再使用音频特征信息。
83.值得说明的是，为了能够得知这三个设备采集的人脸图像确实是触发唤醒语音的用户的人脸图像，控制设备中可以预先注册有用户的人脸图像(为区别，称为参考人脸图像)和声纹特征的对应关系。基于此，这三个设备可以将各自采集的唤醒语音发送至控制设备，控制设备进行声纹特征提取，以根据提取到的声纹特征确定对应的参考人脸图像。当接收到三个设备上传的上述三个图片时，基于这三个图片分别与参考人脸图像的相似度，确定采集的图片是否是对应于触发唤醒语音的用户的。
84.另外，假设设备a、设备b和设备c向控制设备上传的各自对应的图片分别为图10中所示的图片q1’、图片q2’、图片q3’。控制设备计算出这三张图片中人脸所占尺寸。假设图片q1’与图片q2’中人脸所占尺寸的差值小于设定阈值，且图片q1’中人脸所占尺寸最大，图片q3’中人脸所占尺寸最小。假设图片q1’与图片q2’中人脸所占尺寸的差值小于设定阈值，从而，可以根据图片q1’与图片q2’确定候选的设备a和设备b。进而，再结合设备a和设备b各自
对应的多种音频特征信息从这两个设备中确定出目标设备。假设设备a的语音能量高于设备b，则控制设备将设备a确定为目标设备，并指示设备a响应唤醒语音。该示例中，多种音频特征信息的比较过程与上文示例相似，此处不再展开。
85.值得说明的是，可选地，当第二特征信息包括人脸图像信息和距离信息时，可以先根据人脸图像信息进行设备筛选，再根据距离信息进行设备筛选。最终再根据多种音频特征信息进行目标设备的确定。当然，可选地，也可以仅使用其中的人脸图像信息。
86.除了上述图1、图2示意的场景外，本发明实施例提供的设备唤醒方法还是适用于商场场景中。假设在商场中集中部署了多台售货机，这多台售货机支持语音交互功能。当用户(即消费者)想要使用售货机时，需要先说出设定的唤醒词。从而，由于多台售货机位置临近，因此，某个用户的唤醒语音可能会导致多台售货机都被唤醒。基于此，通过本发明实施例提供的设备唤醒方法，可以保证仅有一台售货机被唤醒，以为用户提供服务。该场景中，可选地，控制设备进行目标售货机的决策的过程中，还可以结合售货机中的货品库存信息(售货机可以在上报诸如距离、人脸图像信息、音频特征信息的同时，上报货品库存信息)进行决策。比如，如果根据前述实施例中提到的距离、人脸图像、音频特征等信息确定出的目标售货机的货品库存信息为缺货状态，则更新次优的售货机来响应用户。可选地，可以售货机上可以设置重量感应器，根据重量感应器感知的重量确定货品库存信息，货品库存信息可以划分为诸如充足、缺货两种状态，当感知的重量大于设定阈值时，认为处于充足状态，反之，处于缺货状态。
87.此外，本文涉及的多种音频特征信息的优先级均可以采用如下方法确定，参见图11，该确定方法包括以下步骤：
88.1101、获取唤醒语音测试样本。
89.1102、获取多个设备在唤醒语音测试样本下各自对应的多种音频特征信息。
90.1103、确定这多种音频特征信息各自对应的被唤醒设备。
91.1104、根据这多种音频特征信息各自对应的被唤醒设备以及唤醒语音测试样本对应的目标唤醒设备确定这多种音频特征信息的优先级。
92.唤醒语音测试样本可以是在安静环境、噪声环境、回声环境等复杂声学环境下录制的多个样本，以增强多种音频特征信息的优先级确定结果的鲁棒性。
93.假设多种音频特征信息包括语音能量信息、信噪比、声源方位，等等。
94.需要注意的是，此处涉及的多个设备属于测试环境的设备。而上文实施例涉及的多个设备则属于用户使用环境中的设备。也就是说，实际上，可以随机地选用几个支持语音交互功能的设备，分布式地部署在测试环境中。假设这些设备都是对应于同一唤醒词的，那么上述唤醒语音测试样本即为与该唤醒词对应的语音样本。
95.另外，在该测试环境中，可以设置一个播放设备和中控设备(可以是远端的服务器)，播放设备用于播放各个唤醒语音测试样本。在测试过程中，会不断改变该播放设备的位置。
96.当播放设备在某个位置朝向某个设备播放某个唤醒语音测试样本时，可以认为多个设备中距离该播放设备最近的那个设备是该唤醒语音测试样本对应的目标唤醒设备。测试过程中，可以人为标注出不同位置播放的唤醒语音测试样本与目标唤醒设备的对应关系。
97.另外，当播放设备在某个位置播放某个唤醒语音测试样本时，多个设备中的每个设备可以基于自己拾取的语音信号进行上述多种音频特征信息的提取，并将提取到的多种音频特征信息发送至中控设备。中控设备确定这多种音频特征信息各自对应的被唤醒设备。
98.值得说明的是，为保证多种音频特征信息的优先级确定结果的准确性以及降低计算量，上述音频特征信息是自唤醒语音测试样本播放后的预设时段内获取的。也就是说，上述多个设备中的每个设备在接收到唤醒语音测试样本后，在预设时段(比如3秒)内进行相关语音信号的拾取，以基于拾取的语音信号进行相关音频特征信息的提取。
99.举例来说，假设多个设备为：设备1、设备2、设备3、设备4。多种音频特征信息为语音能量信息和信噪比。具体地，当播放设备在某个位置播放某个唤醒语音测试样本时，假设中控设备基于这四个设备各自采集的语音能量信息发现设备1对应的语音能量信息最大，则确定设备1为被唤醒设备；假设中控设备基于这四个设备各自采集的信噪比发现设备2对应的信噪比最大，则确定设备2为被唤醒设备。另外假设已经标注的与该唤醒语音测试样本对应的目标唤醒设备为设备1。此时说明，针对该唤醒语音测试样本来说，基于语音能量信息判定的结果更准。
100.基于此，通过大量唤醒语音测试样本的测试，可以得到多种音频特征信息各自对应的准确唤醒次数，根据该次数，可以确定多种音频特征信息的优先级。举例来说，假设在1000次测试过程中，根据语音能量信息能够准确确定出被唤醒设备(准确确定出是指确定出的被唤醒设备与标注的目标唤醒设备一致)的次数为900次，根据信噪比能够准确确定出被唤醒设备的次数为500次，则确定语音能量信息的优先级高于信噪比。
101.以下将详细描述本发明的一个或多个实施例的设备唤醒装置。本领域技术人员可以理解，这些设备唤醒装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
102.图12为本发明一实施例提供的设备唤醒装置的结构示意图，如图12所示，该设备唤醒装置包括：获取模块1201、确定模块1202、控制模块1203。
103.获取模块1201，用于响应于用户的唤醒语音，获取多个设备在至少一种感应模式下各自对应的特征信息；
104.确定模块1202，用于根据所述特征信息从所述多个设备中确定出用于反映用户使用意图的目标设备；
105.控制模块1203，用于控制所述目标设备响应所述唤醒语音。
106.可选地，所述特征信息是自所述唤醒语音发出后的预设时段内获取的。
107.可选地，所述至少一种感应模式包括声学感应模式和/或光学感应模式。
108.可选地，所述获取模块1201具体可以用于：获取所述多个设备在所述声学感应模式下各自对应的第一特征信息，以及获取所述多个设备在所述光学感应模式下各自对应的第二特征信息。
109.所述确定模块1202具体可以用于：若所述第二特征信息满足设定条件，则根据所述第二特征信息从所述多个设备中确定所述目标设备。
110.可选地，所述设定条件包括：所述目标设备对应的第二特征信息与其他设备对应的第二特征信息的差异度大于设定阈值。
111.可选地，所述确定模块1202还可以用于：若所述第二特征信息不满足所述设定条件，则根据所述第二特征信息从所述多个设备中筛选出至少两个设备，所述至少两个设备各自对应的第二特征信息的差异度小于所述设定阈值；根据所述至少两个设备各自对应的第一特征信息从所述至少两个设备中确定所述目标设备。
112.可选地，所述第二特征信息包括距离信息和/或人脸图像信息；所述人脸图像信息包括如下信息中的至少一种：人脸朝向、人脸所占尺寸。
113.可选地，所述第一特征信息包括多种音频特征信息。所述确定模块1202具体可以用于：按照所述多种音频特征信息的优先级由高到低的顺序，依次比较所述至少两个设备各自对应的多种音频特征信息，以从所述至少两个设备中确定所述目标设备。其中，所述目标设备对应的第一音频特征信息与其他设备对应的第一音频特征信息的差异度大于设定阈值；对于在所述第一音频特征信息之前比较的第二音频特征信息，所述至少两个设备各自对应的第二音频特征信息的差异度小于所述设定阈值。
114.可选地，所述至少一种感应模式为声学感应模式，与所述声学感应模式对应的特征信息包括多种音频特征信息。所述确定模块1202具体可以用于：按照所述多种音频特征信息的优先级由高到低的顺序，依次比较所述多个设备各自对应的多种音频特征信息，以从所述多个设备中确定所述目标设备。其中，所述目标设备对应的第一音频特征信息与其他设备对应的第一音频特征信息的差异度大于设定阈值；对于在所述第一音频特征信息之前比较的第二音频特征信息，所述多个设备各自对应的第二音频特征信息的差异度小于所述设定阈值。
115.可选地，所述装置还包括优先级确定模块，具体可以用于：获取唤醒语音测试样本；获取多个设备在所述唤醒语音测试样本下各自对应的多种音频特征信息；确定所述多种音频特征信息各自对应的被唤醒设备；根据所述多种音频特征信息各自对应的被唤醒设备以及所述唤醒语音测试样本对应的目标唤醒设备，确定所述多种音频特征信息的优先级。
116.图12所示设备唤醒装置可以执行前述图6至图11所示实施例中提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。
117.在一个可能的设计中，上述图12所示的设备唤醒装置的结构可实现为一电子设备。如图13所示，该电子设备可以包括：处理器1301、存储器1302。其中，存储器1302上存储有可执行代码，当所述可执行代码被处理器1301执行时，至少使处理器1301可以实现如前述图6至图11所示实施例中提供的方法。
118.其中，该电子设备的结构中还可以包括通信接口1303，用于与其他设备或通信网络通信。
119.另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行前述图6至图11所示实施例中提供的方法。
120.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
121.通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
122.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

设备唤醒方法、装置、设备与流程

相关文章

最热文献