语音交互方法、装置及系统与流程

2023-02-02 00:20:30 来源：中国专利 TAG：

1.本技术涉及电子技术领域，特别涉及一种语音交互方法、装置及系统。

背景技术：

2.随着电子技术的不断发展，许多家居设备(例如智能音箱)一般都支持语音控制功能，以实现与用户的语音交互。
3.相关技术中，家居设备采集到用户发出的语音指令后，能够执行该语音指令对应的操作，并可以播放应答语音，例如“好的”。
4.但是，当语音交互场景(例如智能家居场景)中存在多个支持语音控制功能的家居设备时，该多个家居设备会同时响应用户发出的语音指令，并与用户进行语音交互。由此，无法确保语音交互的准确性。

技术实现要素：

5.本技术提供了一种语音交互方法、装置及系统，可以解决相关技术中语音交互的准确性较低的问题。所述技术方案如下：
6.一方面，提供了一种语音交互方法，应用于网关设备，所述网关设备与多个家居设备建立有通信连接，所述多个家居设备中包括一个主设备；所述方法包括：
7.将所述多个家居设备中除所述主设备之外的其他家居设备采集的语音指令转发至所述主设备，以供所述主设备对所述语音指令进行处理；
8.基于所述主设备对所述语音指令的处理结果，得到所述语音指令对应的操作指令；
9.基于所述多个家居设备发送的图像检测结果，从所述多个家居设备中确定目标设备，其中，每个所述家居设备发送的图像检测结果是所述家居设备对拍摄得到的图像进行目标检测后得到的；
10.将所述操作指令发送至所述目标设备，以供所述目标设备执行所述操作指令。
11.另一方面，提供了一种语音交互方法，应用于多个家居设备中的主设备，所述多个家居设备均与网关设备建立有通信连接，所述方法包括：
12.向所述网关设备发送图像检测结果，所述图像检测结果是所述主设备对拍摄得到的图像进行目标检测后得到的；
13.接收所述网关设备转发的所述多个家居设备中除所述主设备之外的其他家居设备采集的语音指令；
14.对所述语音指令进行处理，并将所述语音指令的处理结果发送至所述网关设备，以供所述网关设备基于所述处理结果得到所述语音指令对应的操作指令，并将所述操作指令发送至所述目标设备，以使所述目标设备执行所述语音指令对应的操作指令，其中，所述目标设备是所述网关设备基于所述多个家居设备发送的图像检测结果，从所述多个家居设备中确定的。
15.又一方面，提供了一种网关设备，所述网关设备与多个家居设备建立有通信连接，所述多个家居设备中包括一个主设备；所述网关设备包括：
16.转发模块，用于将所述多个家居设备中除所述主设备之外的其他家居设备采集的语音指令转发至所述主设备，以供所述主设备对所述语音指令进行处理；
17.确定模块，用于基于所述多个家居设备发送的图像检测结果，从所述多个家居设备中确定目标设备，其中，每个所述家居设备发送的图像检测结果是所述家居设备对拍摄得到的图像进行目标检测后得到的；
18.处理模块，用于基于所述主设备对所述语音指令的处理结果，得到所述语音指令对应的操作指令；
19.发送模块，用于将所述操作指令发送至所述目标设备，以供所述目标设备执行所述操作指令。
20.可选地，所述确定模块用于从所述多个家居设备中确定所述主设备，所述主设备的时钟频率，和/或，运算能力优于所述多个家居设备中除所述主设备之外的其他家居设备。
21.可选地，所述处理模块用于：接收所述主设备发送的所述语音指令对应的操作指令，所述操作指令是所述主设备在确定所述语音指令的语义类型为简单语义时，对所述语音指令进行处理得到的；或者，若接收到所述主设备发送转发指令，则将所述语音指令转发至语音识别服务器，并接收所述语音识别服务器发送的所述语音指令对应的操作指令；其中，所述转发指令是所述主设备在确定所述语音指令的语义类型为复杂语义后发送的，所述操作指令是所述语音识别服务器对所述语音指令进行处理得到的。
22.可选地，每个所述家居设备发送的图像检测结果包括：拍摄得到的图像中包括的目标物的特征点的数量，以及每个特征点的置信度；所述确定模块用于：从所述多个家居设备中确定出至少一个备选设备，每个所述备选设备拍摄得到的图像中包括的目标物的特征点的数量大于第一阈值；从所述至少一个备选设备中确定所述目标设备，所述目标设备拍摄得到的图像中包括的目标物的特征点的置信度的均值大于第二阈值。
23.可选地，所述转发模块，还用于在将所述操作指令发送至所述目标设备之后的目标时长内，若再次接收到所述目标设备发送的语音指令，则将所述目标设备发送的语音指令转发至所述主设备，以供所述主设备对所述目标设备发送的语音指令进行处理。
24.再一方面，提供了一种家居设备，所述家居设备为语音交互系统中的主设备，所述语音交互系统还包括多个其他家居设备；所述家居设备包括：
25.发送模块，用于向所述网关设备发送图像检测结果，所述图像检测结果是对拍摄得到的图像进行目标检测后得到的；
26.接收模块，用于接收所述网关设备转发的所述其他家居设备采集的语音指令；
27.处理模块，用于对所述语音指令进行处理，并将所述语音指令的处理结果发送至所述网关设备，以供所述网关设备基于所述处理结果得到所述语音指令对应的操作指令，并将所述操作指令发送至所述目标设备，以使所述目标设备执行所述语音指令对应的操作指令，其中，所述目标设备是所述网关设备基于所述主设备和所述其他家居设备发送的图像检测结果，从所述主设备和所述其他家居设备中确定的。
28.可选地，所述处理模块用于：若确定所述语音指令的语义类型为简单语义，则对所
述语音指令进行处理得到所述语音指令对应的操作指令，并将所述操作指令作为处理结果发送至所述网关设备；若确定所述语音指令的语义类型为复杂语义，则将转发指令作为处理结果发送至所述网关设备，所述转发指令用于指示所述网关设备将所述语音指令转发至语音识别服务器，以使所述语音识别服务器对所述语音指令进行处理得到所述操作指令。
29.再一方面，提供了一种网关设备，所述网关设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器加载并执行以实现上述方面所述的由所述网关设备执行的语音交互方法。
30.再一方面，提供了一种家居设备，所述家居设备包括处理器和存储器，所述存储器中存储有指令，所述指令由所述处理器加载并执行以实现上述方面所述的由所述家居设备执行的语音交互方法。
31.再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述任一方面所述的语音交互方法。
32.再一方面，提供了一种包含指令的计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行上述任一方面所述的语音交互方法。
33.再一方面，提供了一种语音交互系统，所述系统包括：多个家居设备，以及上述方面所述的网关设备，所述网关设备与所述多个家居设备建立有通信连接，所述多个家居设备包括一个主设备，所述主设备为上述方面所述的家居设备。
34.本技术提供的技术方案带来的有益效果至少包括：
35.本技术提供了一种语音交互方法、装置及系统。网关设备能够基于多个家居设备的图像检测结果，从该多个家居设备中确定出用户所要交互的目标设备。并且，该网关设备还能够基于主设备对多个家居设备的语音指令的处理结果，得到语音指令对应的操作指令。之后，该网关设备能够将该操作指令发送至目标设备，以供目标设备执行该操作指令。由此，能够实现用户与该目标设备的一对一交互。由于该方法能够避免多个家居设备同时响应语音指令而执行该语音指令对应的操作指令，因此能够确保用户与该多个家居设备中目标设备的准确交互。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1是本技术实施例提供的一种语音交互系统的结构示意图；
38.图2是本技术实施例提供的一种语音交互方法的流程示意图；
39.图3是本技术实施例提供的另一种语音交互方法的流程示意图；
40.图4是本技术实施例提供的一种家居设备的结构示意图；
41.图5是本技术实施例提供的另一种家居设备的结构示意图；
42.图6是本技术实施例提供的一种网关设备的结构示意图；
43.图7是本技术实施例提供的一种家居设备的结构示意图。
具体实施方式
44.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
45.图1是本技术实施例提供的一种语音交互系统的结构示意图。参考图1，该系统包括多个家居设备10和网关设备20。该网关设备20与该多个家居设备10建立有通信连接，该多个家居设备10包括一个主设备。该多个家居设备10均支持语音控制功能，以实现与用户的语音交互。并且，该主设备可以为该多个家居设备10中能够实现语音识别功能的设备。
46.示例的，如图1所示，该多个家居设备10可以包括智能洗衣机，智能音箱以及智能电视等，其中，该智能电视可以为主设备。
47.该网关设备20用于实现该多个家居设备10的网络接入和互联互通。也即是，该多个家居设备10之间能够通过网关设备20进行通信，且该多个家居设备10能够通过网关设备20与网络服务器(例如语音识别服务器)进行通信。
48.可选地，参考图1，该语音交互系统还可以包括语音识别服务器30。该语音识别服务器30与网关设备20建立有通信连接，该语音识别服务器30也具备语音识别功能。其中，该语音识别服务器30可以是一台服务器，或者可以是由若干台服务器组成的服务器集群，又或者还可以是一个云计算服务中心。
49.图2是本技术实施例提供的一种语音交互方法的流程图，该方法应用图1所示的语音交互系统。如图1所示，该网关设备20与多个家居设备10建立有通信连接，该多个家居设备20中包括一个主设备。如图2所示，该方法包括：
50.步骤101、多个家居设备中除主设备之外的其他家居设备向网关设备发送采集到的语音指令，以及图像检测结果。
51.在本技术实施例中，该多个家居设备可以均位于同一空间内，例如可以位于同一房间。当用户发出语音指令后，该多个家居设备均能够采集到该语音指令。并且，该多个家居设备中除主设备之外的其他家居设备可以将采集到的语音指令发送至网关设备。并且，其他家居设备在采集语音指令时，还能够拍摄图像，并能够对拍摄得到的图像进行目标检测，得到图像检测结果。之后，其他家居设备能够向网关设备发送该图像检测结果。
52.其中，该主设备可以为该多个家居设备中具备语音识别功能的设备，而除该主设备之外的其他家居设备则不具备语音识别功能。
53.步骤102、主设备向网关设备发送图像检测结果。
54.在本技术实施例中，多个家居设备中的主设备在检测到用户发出的语音指令后，也能够拍摄图像。并且，该主设备也能够对该拍摄得到的图像进行目标检测，并将检测得到的图像检测结果发送至网关设备。
55.基于上述步骤101和步骤102可知，该多个家居设备中的主设备仅需向网关设备发送图像检测结果，而无需向网关设备发送语音指令，而除主设备之外的其他家居设备则需将图像检测结果和采集到的语音指令均发送至网关设备。
56.步骤103、网关设备将其他家居设备采集的语音指令转发至主设备。
57.在本技术实施例中，由于其他家居设备不具备语音识别功能，因此网关设备能够将其他家居设备采集的语音指令转发至主设备，以使得主设备对该语音指令进行处理。
58.步骤104、主设备对语音指令进行处理，并将处理结果发送至网关设备。
59.在本技术实施例中，主设备接收到语音指令后，能够对该语音指令进行处理，并将该语音指令的处理结果发送至网关设备。其中，主设备对语音指令进行处理后得到的处理结果可以是该语音指令对应的操作指令，或者可以是转发指令。该转发指令用于指示该网关设备将该语音指令发送至语音识别服务器，以使该语音识别服务器对该语音指令进行处理得到操作指令。
60.步骤105、网关设备基于主设备对语音指令的处理结果，得到语音指令对应的操作指令。
61.其中，若主设备发送的处理结果为操作指令，则网关设备能够直接获取到该语音指令对应的操作指令。若该主设备发送的处理结果为转发指令，则网关设备需将该语音指令转发至语音识别服务器，以使语音识别服务器对该语义指令进行处理得的该语音指令对应的操作指令。之后，网关设备可以接收语音识别服务器发送的操作指令。
62.步骤106、网关设备基于多个家居设备发送的图像检测结果，从多个家居设备中确定目标设备。
63.在本技术实施例中，网关设备在接收多个家居设备发送的图像检测结果后，能够基于该多个家居设备发送的图像检测结果，从该多个家居设备中确定用户所要交互的家居设备，即目标设备。
64.步骤107、网关设备将操作指令发送至目标设备。
65.在本技术实施例中，网关设备在得到语音指令对应的操作指令后，能够将该操作指令发送至用户所要进行语音交互的目标设备。
66.步骤108、目标设备执行操作指令。
67.目标设备接收到该网关设备发送的操作指令后，能够执行该操作指令。由此，能够实现用户与目标设备的语音交互。其中，该操作指令可以包括状态调节指令和/或播放应答语音的指令。目标设备在执行该状态调节指令时，能够调节其工作状态。目标设备在执行该播放应答语音的指令时，能够播放应答语音。
68.可以理解的是，由于网关设备能够基于多个家居设备的图像检测结果确定目标设备，并只向该目标设备发送语音指令对应的操作指令，因此能够实现用户与目标设备的一对一交互。由此，能够避免该多个家居设备同时响应该语音指令，并执行该语音指令对应的操作指令。
69.综上所述，本技术实施例提供了一种语音交互方法，网关设备能够基于多个家居设备的图像检测结果，从该多个家居设备中确定出用户所要交互的目标设备。并且，该网关设备还能够基于主设备对多个家居设备的语音指令的处理结果，得到语音指令对应的操作指令。之后，该网关设备能够将该操作指令发送至目标设备，以供目标设备执行该操作指令。由此，能够实现用户与该目标设备的一对一交互。由于该方法能够避免多个家居设备同时响应语音指令而执行该语音指令对应的操作指令，因此能够确保用户与该多个家居设备中目标设备的准确交互。
70.图3是本技术实施例提供的另一种语音交互方法的流程图，该方法可以应用于图1所示的语音交互系统。如图1所示，该网关设备20与多个家居设备10建立有通信连接，该多个家居设备10中包括一个主设备。如图3所示，该方法包括：
71.步骤201、网关设备从多个家居设备中确定主设备。
72.在本技术实施例中，网关设备在与多个家居设备建立通信连接后，能够获取该多个家居设备的性能参数，并基于该多个家居设备的性能参数从多个家居设备中确定主设备。其中，每个家居设备的性能参数可以包括该家居设备的时钟频率和运算能力等参数，家居设备的运算能力可以是指该家居设备的处理器每秒所能够执行的操作的次数。
73.可选地，该主设备的时钟频率，和/或，运算能力优于多个家居设备中除主设备之外的其他家居设备。也即是，该主设备可以是该多个家居设备中性能最优的家居设备。由于该主设备的性能较好，因此该主设备中可以部署有语音识别算法，即该主设备具备语音识别的功能。并且，该多个家居设备中除该主设备之外的其他家居设备不具备语音识别功能。例如，该主设备的时钟频率可以大于1吉赫兹(ghz)。该主设备每秒钟可执行的操作的次数大于0.5万亿次。其中，主设备每秒钟执行一万亿次的操作(tera operations per second，tops)可以表示为1tops。
74.可以理解的是，该主设备也可以是用户在网关设备中预先配置的。例如，该网关设备中可以预先存储有该主设备的标识，该标识可以是主设备的设备编号或媒体访问控制(media access control，mac)地址等。
75.步骤202、多个家居设备中除主设备之外的其他家居设备向网关设备发送采集到的语音指令，以及图像检测结果。
76.在本技术实施例中，该多个家居设备可以均位于同一空间内，例如可以位于同一房间。当用户发出语音指令后，该多个家居设备均能够采集到该语音指令。并且，该多个家居设备除主设备之外的其他家居设备可以将采集到的语音指令发送至网关设备。并且，其他家居设备在采集语音指令时，还能够拍摄图像，并能够对拍摄得到的图像进行目标检测，得到图像检测结果。之后，其他家居设备可以向网关设备发送图像检测结果。
77.其中，该主设备可以为该多个家居设备中具备语音识别功能的设备，而除该主设备之外的其他家居设备则不具备语音识别功能。例如，该主设备可以为智能电视。
78.其中，家居设备对图像进行目标检测可以是指对该图像中的目标物进行检测，或者，可以理解为，检测该图像中目标物的特征点。每个家居设备的图像检测结果可以包括：拍摄得到的图像中包括的目标物的特征点的数量，以及每个特征点的置信度。可选地，该目标物可以为用户的脸部。每个特征点的置信度可以为该特征点的识别概率。也即是，家居设备确定出的图像中的某个子区域为该目标物的某个特征点的概率。
79.可以理解是的是，家居设备在对拍摄得到的图像进行目标检测时，对于图像中的每个子区域，可以检测该子区域属于目标物的每个特征点的概率。若某个子区域属于某个特征点的概率大于概率阈值，则可以确定该子区域即为该特征点。
80.图4是本技术实施例提供的一种家居设备的结构示意图。如图4所示，每个家居设备均可以包括麦克风阵列，摄像头，主控电路和通信电路。其中，麦克风阵列用于采集用户发出的语音指令，并将该语音指令发送至主控电路进行处理(例如模数转换和音频解码处理)。可选地，该麦克风阵列可以包括至少两个麦克风，以确保采集到的语音指令的质量。示例的，如图5中的(a)所示，若该家居设备为智能电视，则该智能电视的麦克风阵列可以包括四个麦克风，该麦克风阵列和摄像头均可以位于该智能电视的顶部。如图5中的(b)所示，若该家居设备为智能音箱，则该智能音箱的麦克风阵列可以包括两个麦克风。
81.在麦克风采集语音指令时，该摄像头可以对其视场范围内的场景进行拍摄，并将
拍摄得到的图像发送至主控电路。可以理解的是，为确保该摄像头拍摄得到的图像的质量较好，该摄像头的分辨率应大于分辨率阈值，该摄像头的水平视场角也应大于角度阈值。其中，该分辨率阈值和角度阈值可以基于语音交互方法的应用场景设定。例如，在智能家居场景中，该分辨率阈值可以为720p，其中，p表示逐行(progressive，p)。该角度阈值可以为100
°
。可选地，该摄像头可以通过通用串行总线(universal serial bus，usb)或移动产业处理器接口(mobile industry processor interface，mipi)向主控电路发送拍摄得到的图像。
82.该主控电路中预先存储有目标检测算法。该主控电路接收到摄像头拍摄得到的图像后，能够对该图像进行目标检测，以确定该图像中目标物的特征点的数量，以及每个特征点的置信度。之后，该主控电路可以将该图像的图像检测结果通过通信电路发送至网关设备。其中，该通信电路可以为无线保真(wireless-fidelity，wi-fi)芯片。
83.可以理解的是，每个家居设备的主控电路在对图像进行目标检测时，能够同步对该语音指令进行模数转换和音频解码处理。并且，多个家居设备中除主设备之外的其他家居设备能够同步向网关设备发送图像检测结果和处理后的语音指令。
84.步骤203、主设备向网关设备发送图像检测结果。
85.在本技术实施例中，多个家居设备中的主设备也可以采集语音指令，并拍摄图像。主设备也可以对该图像进行目标检测，得到图像检测结果。之后，该主设备可以将该图像检测结果发送至网关设备。
86.可以理解的是，多个家居设备中的主设备无需向网关设备发送采集到的语音指令，而除主设备之外的其他家居设备需将图像检测结果和采集到的语音指令均发送至网关设备。
87.步骤204、网关设备将多个家居设备中除主设备之外的其他家居设备采集的语音指令转发至主设备。
88.在本技术实施例中，由于除主设备之外的其他家居设备不具备语音识别功能，因此网关设备可以将其他家居设备发送的语音指令转发至主设备，以供主设备对该语音指令进行处理。
89.步骤205、主设备检测该语音指令的语义类型是否为简单语义。
90.在本技术实施例中，主设备在接收到网关设备转发的语音指令后，能够对其他家居设备采集的语音指令和自身采集到的语音指令进行检测，以确定用户发出的语音指令的语义类型。其中，该语义类型可以包括简单语义和复杂语义。主设备若检测到该语音指令的语义类型为简单语义，则可以执行下述步骤206。主设备若检测到该语音指令的语义类型为复杂语义，则可以执行下述步骤208。
91.其中，简单语义是指主设备能够识别的语义，其语义复杂度较低。复杂语义是主设备无法识别的语义，其语义复杂度较高。可以理解的是，受主设备处理能力的限制，主设备只具备识别语义复杂度较低的语音指令的功能。因此，主设备在对语音指令进行识别处理前，可以先检测该语音指令的语义类型。
92.可选地，该主设备中预先存储有语音识别算法。该主设备可以采用该语音识别算法，检测该语音指令的语义类型。其中，该语音识别算法可以包括自动语音识别(automatic speech recognition，asr)算法和自然语言处理(natural language processing，nlp)算
法中的至少一种。例如，主设备可以采用asr算法确定该语音指令对应的文本。
93.可以理解的是，由于语义类型为简单语义的语音指令对应的文本较短，而语义类型为复杂语义的语音指令对应的文本较长，因此主设备可以基于语音指令对应的文本的长度，确定该语音指令的语义类型。文本的长度可以指该文本包括的字数。例如，主设备可以将文本的长度大于字数阈值的语音指令的语义类型确定为复杂语义，并将文本的长度小于或等于字数阈值的语音指令的语义类型确定为简单语义。可选地，该字数阈值可以为4。
94.示例的，在智能家居场景中，对于智能音箱的语音交互，用户发出的语义类型为简单语义的语音指令可以为：增大音量、播放歌曲、切换歌曲以及停止播放等。用户发出的语义类型为复杂语义的语音指令可以为：今天天气怎么样、今天是星期几以及一年有多少天等。
95.可以理解的是，该多个家居设备采集到的语音指令所对应的文字内容基本相同，但采集到的语音指令的质量存在差别。因此，为提高语音识别效率和准确率，主设备可以从多个家居设备采集到的语音指令中，选取满足目标条件的语音指令进行语义类型的检测。其中，该目标条件可以包括下述条件中的至少一种：信号质量最优的语音指令，麦克风数量最多的家居设备采集到的语音指令。
96.步骤206、主设备对语音指令进行处理，得到语音指令对应的操作指令。
97.在本技术实施例中，主设备中预先存储有简单语义对应的操作指令。主设备若确定语音指令为简单语义，则可以采用预先存储的语音识别算法(例如nlp算法)对该语音指令进行语义识别处理，以确定该语音指令的语义。之后，主设备可以从语义与操作指令的对应关系中确定该语音指令对应的操作指令。
98.其中，该主设备对语音指令进行处理的过程也可以称为离线语音识别过程。
99.步骤207、主设备将该语音指令对应的操作指令发送至网关设备。
100.在本技术实施例中，主设备在的得到语音指令对应的操作指令后，可以直接将该操作指令作为处理结果发送至网关设备。
101.步骤208、主设备向网关设备发送转发指令。
102.在上述步骤205中，若主设备确定该语音指令的语义类型为复杂语义，则可以确定无法对该语音指令进行语音识别得到对应的操作指令。因此，主设备可以将转发指令作为处理结果发送至网关设备。该转发指令用于指示网关设备将语音指令转发至语音识别服务器进行语音识别。
103.步骤209、网关设备将语音指令转发至语音识别服务器。
104.在本技术实施例中，网关设备在接收转发指令后，可以确定主设备未识别出该语音指令对应的操作指令。因此，网关设备可以将该语音指令转发至语音识别服务器，以供语音识别服务器对该语音指令进行进一步识别处理。
105.可以理解的是，该网关设备可以只将该多个家居设备采集到的语音指令中，满足目标条件的语音指令发送至语音识别服务器，以确保该语音识别服务器能够快速且准确地确定出该语音指令对应的操作指令。其中，该目标条件可以包括下述条件中的至少一种：信号质量最优的语音指令，麦克风数量最多的家居设备采集到的语音指令。或者，网关设备可以从多个家居设备采集到的语音指令中，随机选取一个语音指令发送至语音识别服务器。
106.步骤210、语音识别服务器向网关设备发送对语音指令进行处理得到的操作指令。
107.在本技术实施例中，语音识别服务器也具备语音识别的能力，且该语音识别服务器的语音识别能力强于主设备。其中，该语音识别服务器中也存储有复杂语义对应的操作指令和语音识别算法。因此，网关设备在将语义类型为复杂语义的语音指令发送至该语音识别服务器后，该语音识别服务器可以采用预先存储的语音识别算法对该语音指令进行语义识别处理，以确定该语音指令的语义。之后，语音识别服务器可以从复杂语义与操作指令的对应关系中确定该语音指令对应的操作指令。其中，该语音识别服务器对语音指令进行处理的过程也可以称为在线语音识别。
108.基于上述步骤204至步骤209可知，在该语音交互系统中，由于离线语音识别过程的耗时较短，因此网关设备可以先将语音指令转发至主设备进行离线语音识别处理，以提高语音识别的效率，并提升该语音交互系统的资源利用率。若主设备未识别出该语音指令对应的操作指令，则网关设备可以再将该语音指令转发至语音识别服务器进行在线语音识别处理。由此，可以在确保语音识别效率的前提下，进一步确保该语音识别的可靠性。
109.步骤211、网关设备从多个家居设备中确定出至少一个备选设备。
110.在本技术实施例中，网关设备在接收到多个家居设备发送的图像检测结果后，可以基于该多个家居设备的图像检测结果，从该多个家居设备中确定出至少一个备选设备。其中，每个备选设备拍摄得到的图像中包括的目标物的特征点的数量大于第一阈值。该第一阈值可以是开发人员预先设定的固定值。或者，该第一阈值可以基于该多个家居设备拍摄得到的图像中目标物的特征点的数量确定。例如，该第一阈值可以是多个家居设备拍摄得到的图像中目标物的特征点的数量的均值、中值或上四分位数。
111.可选地，该目标物可以为用户的脸部，该目标物的特征点可以包括脸部各个部位(例如额头、眼睛、鼻子以及嘴巴等部位)的特征点。可以理解的是，若用户想要与某一家居设备进行语音交互，则该用户的脸部一般是朝向该家居设备的。相应的，该目标物的脸部会位于该家居设备的摄像头的水平视场角范围内，该摄像头拍摄得到的图像中脸部的特征点的数量也较多。由此可知，家居设备拍摄得到的图像中目标物的特征点的数量越多，该家居设备为用户所要交互的目标设备的概率也越大。基于此，网关设备可以将多个家居设备中拍摄得到的图像中目标物的特征点的数量较多的家居设备确定为备选设备。
112.步骤212、网关设备从至少一个备选设备中确定目标设备。
113.在本技术实施例中，网关设备在从多个家居设备中确定至少一个备选设备后，可以从该从至少一个备选设备中进一步确定目标设备。其中，该目标设备拍摄得到的图像中包括的目标物的特征点的置信度的均值可以大于第二阈值。
114.其中，该第二阈值可以为开发人员预先设定的固定值。或者，该第二阈值可以基于该多个备选设备拍摄得到的图像中包括的目标物的特征点的置信度的均值确定。例如，该第二阈值可以是多个备选设备拍摄得到的图像中包括的目标物的特征点的置信度的均值的平均值、中值或上四分位数。或者，该第二阈值可以是多个备选设备拍摄得到的图像中包括的目标物的特征点的置信度的均值由大到小排序时，排布在第二位的目标物的特征点的置信度的均值。相应的，该目标设备可以是多个备选设备中拍摄得到的图像中包括的目标物的特征点的置信度的均值最高的备选设备。
115.可以理解的是，家居设备拍摄得到的图像中包括的目标物的特征点的置信度的均值越高，该家居设备对该图像进行目标检测的准确率越高。因此，网关设备可以将至少一个
备选设备中，拍摄得到的图像中包括的目标物的特征点的置信度较高(例如最高)的家居设备确定为目标设备。由此，可以确保网关设备确定目标设备的可靠性。
116.步骤213、网关设备将操作指令发送至目标设备。
117.在本技术实施例中，网关设备在确定出目标设备后，可以将上述步骤207中接收到的操作指令，或上述步骤210中接收到的操作指令发送至该目标设备。
118.步骤214、目标设备执行操作指令。
119.其中，该操作指令可以包括状态调节指令和/或播放应答语音的指令。目标设备在执行该状态调节指令时，能够调节其工作状态。目标设备在执行该播放应答语音的指令时，能够播放应答语音。
120.示例的，在智能家居场景中，若目标设备为智能音箱，用户发出的语音指令为“增大音量”，则该语音指令对应的操作指令可以包括音量增大指令和播放应答语音的指令。相应的，该智能音箱可以基于该操作指令，将其播放音量增大，并可以播放该语音指令“增大音量”所对应的应答语音，例如“好的”。
121.或者，若用户发出的语音指令为“今天天气怎么样”，则该语音指令对应的操作指令可以包括应答语音指令。该目标设备在执行该应答语音指令时，可以播放内容为“今天天气晴，25到27摄氏度，南风三级”的应答语音。
122.如图4所示，每个家居设备还可以包括功率放大电路和扬声器。若该操作指令包括播放应答语音指令，则目标设备可以对该播放应答语音指令对应的语音信号进行功率放大后，通过该扬声器进行播放。
123.步骤215、网关设备检测在将操作指令发送至目标设备之后的目标时长内，是否再次接收到目标设备发送的语音指令。
124.在本技术实施例中，网关设备若在发送操作指令后的目标时长内再次接收到目标设备发送的语音指令，则可以执行下述步骤216。网关设备若在该目标时长内未接收到目标设备发送的语音指令，并在该目标时长后再次接收到任一家居设备发送的语音指令，则可以执行上述步骤201。其中，该目标时长可以是该网关设备中预先配置的，且该目标时长可以根据应用场景需求灵活调节。例如，在智能家居场景中，该目标时长可以为3秒。
125.可以理解的是，网关设备若在发送操作指令后的目标时长内再次接收到目标设备发送的语音指令，则可以确定用户当前进行语音交互的家居设备仍然为该目标设备。因此，网关设备无需在多个家居设备中重新确定目标设备。当网关设备发送操作指令与再次接收到语音指令的间隔时长大于目标时长时，用户所要进行语音交互的家居设备可能发生了变化，因此网关设备可以执行上述步骤201，重新在多个家居设备中确定目标设备。
126.步骤216、网关设备将目标设备发送的语音指令转发至主设备。
127.在本技术实施例中，网关设备若检测到在发送操作指令后的目标时长内再次接收到目标设备发送的语音指令，则可以直接将该目标设备发送的语音指令转发至主设备，以供主设备进行语音识别。之后，主设备可以执行上述步骤205及其之后的步骤。
128.可以理解的是，网关设备在将操作指令发送至目标设备之后，目标设备若在接收到操作指令后的目标时长内再次检测到语音指令，则可以直接将该语音指令发送至网关设备，而无需再对拍摄得到的图像进行目标检测。并且，该多个家居设备中除该目标设备之外的其他家居设备可以在该目标时长内不采集语音指令，并对拍摄得到的图像进行目标检测
处理。也即是，在网关设备发送操作指令后的目标时长内，若用户发出语音指令，则只有目标设备向网关设备传输语音指令。由此，可以减小该网关设备所要接收和处理的数据量，从而提升语音交互效率。
129.可以理解的是，本技术实施例提供的语音交互方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减。例如，步骤203可以在步骤202之前执行，或与步骤202同步执行。或者，步骤205可以根据情况删除，例如，主设备可以识别出所有语音指令对应的操作指令。又或者，步骤211和步骤212可以在步骤210之前执行。再或者，步骤211或步骤212可以根据情况删除。再或者，步骤215和步骤216可以根据情况删除。任何熟悉本技术域的技术人员在本技术揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本技术的保护范围之内，因此不再赘述。
130.综上所述，本技术实施例提供了一种语音交互方法，网关设备能够基于多个家居设备的图像检测结果，从该多个家居设备中确定出用户所要交互的目标设备。并且，该网关设备还能够基于主设备对多个家居设备的语音指令的处理结果，得到语音指令对应的操作指令。之后，该网关设备能够将该操作指令发送至目标设备，以供目标设备执行该操作指令。由此，能够实现用户与该目标设备的一对一交互。由于该方法能够避免该多个家居设备同时响应该语音指令而执行该语音指令对应的操作指令，因此能够确保用户与该多个家居设备中任一设备的准确交互。
131.图6是本技术实施例提供的一种网关设备的结构示意图，该网关设备可以执行上述方法实施例提供的由网关设备执行的语音交互方法。其中，该网关设备可以为图1所示场景中的网关设备。如图1所示，网关设备20与多个家居设备10建立有通信连接，多个家居设备10中包括一个主设备。如图6所示，该网关设备20包括：
132.转发模块21，用于将多个家居设备10中除主设备之外的其他家居设备10采集的语音指令转发至主设备，以供主设备对语音指令进行处理。
133.确定模块22，用于基于多个家居设备10发送的图像检测结果，从多个家居设备10中确定目标设备，其中，每个家居设备10发送的图像检测结果是家居设备10对拍摄得到的图像进行目标检测后得到的。
134.处理模块23，用于基于主设备对语音指令的处理结果，得到语音指令对应的操作指令。
135.发送模块24，用于将操作指令发送至目标设备，以供目标设备执行操作指令。
136.可选地，该确定模块22，用于从多个家居设10中确定主设备，主设备的时钟频率，和/或，运算能力优于多个家居设备10中除主设备之外的其他家居设备10。
137.可选地，该处理模块23用于：接收主设备发送的语音指令对应的操作指令，该操作指令是主设备在确定语音指令的语义类型为简单语义时，对语音指令进行处理得到的。或者，若接收到主设备发送转发指令，则将该语音指令转发至语音识别服务器30，并接收语音识别服务器30发送的语音指令对应的操作指令。其中，该转发指令是主设备在确定语音指令的语义类型为复杂语义后发送的，该操作指令是语音识别服务器30对语音指令进行处理得到的。
138.可选地，每个家居设备10发送的图像检测结果包括：拍摄得到的图像中包括的目标物的特征点的数量，以及每个特征点的置信度。该确定模块22用于：从多个家居设备10中
确定出至少一个备选设备，每个备选设备拍摄得到的图像中包括的目标物的特征点的数量大于第一阈值。从至少一个备选设备中确定目标设备，该目标设备拍摄得到的图像中包括的目标物的特征点的置信度的均值大于第二阈值。
139.可选地，该转发模块21，还用于在将操作指令发送至目标设备之后的目标时长内，若再次接收到目标设备发送的语音指令，则将目标设备发送的语音指令转发至主设备，以供主设备对目标设备发送的语音指令进行处理。
140.综上所述，本技术实施例提供了一种网关设备，该网关设备能够基于多个家居设备的图像检测结果，从该多个家居设备中确定出用户所要交互的目标设备。并且，该网关设备还能够基于主设备对多个家居设备的语音指令的处理结果，得到语音指令对应的操作指令。之后，该网关设备能够将该操作指令发送至目标设备，以供目标设备执行该操作指令。由此，能够实现用户与该目标设备的一对一交互。由于该方法能够避免多个家居设备同时响应语音指令而执行该语音指令对应的操作指令，因此能够确保用户与该多个家居设备中目标设备的准确交互。
141.图7是本技术实施例提供的一种家居设备的结构示意图，该家居设备为语音交互系统中的主设备，该主设备可以执行上述方法实施例提供的由主设备执行的语音交互方法。其中，该主设备可以为图1所示场景中家居设备，如图1所示，该语音交互系统还包括多个其他家居设备10和网关设备20，网关设备20与多个家居设备10建立有通信连接。如图7所示，该家居设备10包括：
142.发送模块11，用于向网关设备20发送图像检测结果，该图像检测结果是对拍摄得到的图像进行目标检测后得到的。
143.接收模块12，用于接收网关设备20转发的其他家居设备10采集的语音指令。
144.处理模块13，用于对语音指令进行处理，并将语音指令的处理结果发送至网关设备20，以供网关设备20基于处理结果得到语音指令对应的操作指令，并将操作指令发送至目标设备，以使目标设备执行语音指令对应的操作指令。其中，目标设备是网关设备20基于主设备和其他家居设备10发送的图像检测结果，从主设备和其他家居设备10中确定的。
145.可选地，该处理模块13用于：若确定语音指令的语义类型为简单语义，则对语音指令进行处理得到语音指令对应的操作指令，并将操作指令作为处理结果发送至网关设备20。若确定语音指令的语义类型为复杂语义，则将转发指令作为处理结果发送至网关设备20。该转发指令用于指示网关设备20将语音指令转发至语音识别服务器30，以使语音识别服务器30对语音指令进行处理得到操作指令。
146.综上所述，本技术实施例提供了一种家居设备，网关设备能够基于多个家居设备的图像检测结果，从该多个家居设备中确定出用户所要交互的目标设备。并且，该网关设备还能够基于主设备对多个家居设备的语音指令的处理结果，得到语音指令对应的操作指令。之后，该网关设备能够将该操作指令发送至目标设备，以供目标设备执行该操作指令。由此，能够实现用户与该目标设备的一对一交互。由于该方法能够避免多个家居设备同时响应语音指令而执行该语音指令对应的操作指令，因此能够确保用户与该多个家居设备中目标设备的准确交互。
147.可以理解的是，上述实施例提供的网关设备和家居设备，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，
即将网关设备或家居设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
148.另外，上述实施例提供的网关设备和家居设备，与语音方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
149.本技术实施例提供了一种网关设备，该网关设备包括处理器和存储器，该存储器中存储有指令，该指令由处理器加载并执行以实现上述实施例提供的由网关设备执行的语音交互方法(例如图2或图3所示的方法)。
150.本技术实施例提供了一种家居设备，该家居设备包括处理器和存储器，该存储器中存储有指令，该指令由处理器加载并执行以实现上述实施例提供的由主设备执行的语音交互方法(例如图2或图3所示的方法)。
151.本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序由处理器加载并执行以实现上述实施例提供的由网关设备或主设备所执行的语音交互方法(例如图2或图3所示的方法)。
152.本技术实施例提供了一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述实施例提供的由网关设备或主设备所执行的语音交互方法(例如图2或图3所示的方法)。
153.本技术实施例提供了一种语音交互系统，如图1所示，该系统包括：多个家居设备10，以及如上述实施例提供的网关设备20。该网关设备20与多个家居设备10建立有通信连接，该多个家居设备10包括一个主设备，该主设备可以为上述实施例提供的家居设备。其中，该网关设备20的结构可以参考图6，该主设备的结构可以参考图7。
154.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
155.可以理解的是，本技术中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。
156.在本文中提及的“和/或”，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
157.本技术中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。
158.以上所述仅为本技术的示例性实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：车辆语音识别方法、装置以及电子设备与流程

语音交互方法、装置及系统与流程

相关文献

最热文献