一种控制方法及装置与流程

2021-09-14 21:53:00 来源：中国专利 TAG：装置控制计算机方法

1.本技术涉及计算机技术领域，特别是涉及一种控制方法及装置。

背景技术：

2.随着技术的不断发展，用户在日常生活中可以通过语音交互方式来控制设备。例如，用户可以对着设备直接说出语音指令，设备可以响应该语音指令。
3.在现有技术中，用户往往需要采用“语音唤醒词语音指令”表达方式，如此，用户每次与设备交互时都需要说出用于唤醒智能音箱的唤醒词，以使设备获知用户是在对自己说话。
4.然而，说出唤醒词会使得用户与设备之间的交互过程较繁琐，会降低交互效率，进而降低用户体验。

技术实现要素：

5.为了提高交互效率，进而提高用户体验，本技术示出了一种控制方法及装置。
6.第一方面，本技术示出了一种控制方法，包括：
7.采集用于控制所述智能音箱的控制语音；
8.确定所述控制语音的发起人是否为免唤醒用户；
9.在所述发起人为免唤醒用户的情况下，基于所述控制语音控制所述智能音箱。
10.在一个可选的实现方式中，所述确定所述控制语音的发起人是否为免唤醒用户，包括：
11.识别所述控制语音的声纹特征；
12.在所述声纹特征为免唤醒用户的声纹特征的情况下，确定所述发起人为免唤醒用户。
13.在一个可选的实现方式中，所述确定所述控制语音的发起人是否为免唤醒用户，包括：
14.确定与所述智能音箱通信连接的免唤醒设备的位置；
15.根据所述位置确定所述免唤醒设备相对于所述智能音箱的相对方向；
16.确定所述控制语音的来源方向；
17.在所述相对方向与所述来源方向相同的情况下，确定所述发起人为免唤醒用户。
18.在一个可选的实现方式中，所述确定所述控制语音的发起人是否为免唤醒用户，包括：
19.确定所述控制语音的来源方向；
20.采集位于来源方向的包括所述发起人的图像；
21.识别所述图像中的发起人的面部特征；
22.在所述面部特征为免唤醒用户的面部特征的情况下，确定所述发起人为免唤醒用户。
23.在一个可选的实现方式中，所述智能音箱包括至少两个语音采集设备；
24.所述采集用于控制所述智能音箱的控制语音，包括：
25.基于至少语音采集设备分别采集用于控制所述智能音箱的控制语音；
26.所述确定所述控制语音的来源方向，包括：
27.确定至少两个语音采集设备分别采集到的控制语音的相位信息；
28.基于所述相位信息确定所述来源方向。
29.在一个可选的实现方式中，所述确定所述控制语音的发起人是否为免唤醒用户，包括：
30.确定所述发起人相对于所述智能音箱的相对方向；
31.获取最近一次确定出的免唤醒用户相对于所述智能音箱的历史方向；
32.在所述相对方向与所述历史方向之间的差异小于预设差异的情况下，确定所述发起人为免唤醒用户。
33.在一个可选的实现方式中，所述基于所述控制语音控制所述智能音箱，包括：
34.对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；
35.至少基于所述控制文本确定所述控制语音的控制意图；
36.确定所述控制意图所在的意图领域；
37.在所述意图领域为所述智能音箱支持的意图领域的情况下，基于所述控制意图控制所述智能音箱。
38.在一个可选的实现方式中，所述至少基于所述控制文本确定所述控制语音的控制意图，包括：
39.将所述控制文本输入至意图预测模型中，得到所述意图预测模型输出的所述控制意图。
40.在一个可选的实现方式中，训练所述意图预测模型的方式，包括：
41.获取样本数据集，所述样本数据集中包括有标注有样本控制意图的样本控制文本；
42.构建意图预测模型的网络结构；
43.使用所述样本数据集对意图预测模型中的网络参数进行训练，直至所述网络参数收敛，得到所述意图预测模型。
44.在一个可选的实现方式中，所述意图预测模型网络结构至少包括：
45.分词层、编码层、双向的循环神经网络、聚合层以及全连接层；
46.所述分词层用于将控制文本分词，得到多个词汇；
47.所述编码层用于将多个词汇分别转换为特征向量；
48.所述双向的循环神经网络用于基于多个特征向量中相邻的至少两个特征向量之间的依赖关系对多个向量分别进行特征补充；
49.所述聚合层用于将特征补充完毕的多个特征向量聚合，得到聚合向量；
50.所述全连接层用于根据所述聚合向量预测控制意图。
51.在一个可选的实现方式中，所述双向的循环神经网络包括前向长短期记忆网络lstm网络和后向lstm网络；
52.所述前向lstm网络包括顺序连接的多个lstm模型；
53.所述后向lstm网络包括顺序连接的多个lstm模型；
54.所述前向lstm网络包括的多个lstm模型之间的连接顺序与所述后向lstm网络包括的多个lstm模型之间的连接顺序相反。
55.在一个可选的实现方式中，所述至少基于所述控制文本确定所述控制语音的控制意图，包括：
56.确定所述智能音箱当前所处的业务场景；
57.基于所述业务场景以及所述控制文本确定所述控制意图。
58.在一个可选的实现方式中，所述确定所述控制意图所在的意图领域，包括：
59.在控制意图与意图领域之间的对应关系中，查找与所述控制意图相对应的意图领域。
60.在一个可选的实现方式中，控制语音为多个，控制语音为多个发起人分别发出的；且在多个发起人中的免唤醒用户为至少两个；
61.所述基于所述控制语音控制所述智能音箱，包括：
62.确定至少两个免唤醒用户的优先级；
63.基于优先级高的免唤醒用户的发出的控制语音控制所述智能音箱。
64.第二方面，本技术示出了一种控制方法，应用于智能音箱，包括：
65.采集用于控制所述智能音箱的控制语音；
66.确定所述控制语音是否为免唤醒控制语音；
67.在所述控制语音为免唤醒控制语音的情况下，基于所述控制语音控制所述智能音箱。
68.在一个可选的实现方式中，所述确定所述控制语音是否为免唤醒控制语音，包括：
69.对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；
70.判断所述控制文本中是否携带免唤醒关键词；
71.在所述控制文本中携带免唤醒关键词的情况下，确定所述控制语音为免唤醒控制语音。
72.第三方面，本技术示出了一种控制方法，应用于智能音箱，包括：
73.采集用于控制所述智能音箱的控制语音；
74.获取所述智能音箱在采集到所述控制语音时的采集时刻；
75.在所述采集时刻为免唤醒时刻的情况下，基于所述控制语音控制所述智能音箱。
76.第四方面，本技术示出了一种控制方法，应用于智能音箱，包括：
77.采集用于控制所述智能音箱的控制语音；
78.确定所述智能音箱所在的位置；
79.在所述位置位于免唤醒区域的情况下，基于所述控制语音控制所述智能音箱。
80.第五方面，本技术示出了一种控制装置，应用于智能音箱，包括：
81.第一采集模块，用于采集用于控制所述智能音箱的控制语音；
82.第一确定模块，用于确定所述控制语音的发起人是否为免唤醒用户；
83.第一控制模块，用于在所述发起人为免唤醒用户的情况下，基于所述控制语音控制所述智能音箱。
84.在一个可选的实现方式中，所述第一确定模块包括：
85.第一识别单元，用于识别所述控制语音的声纹特征；
86.第一确定单元，用于在所述声纹特征为免唤醒用户的声纹特征的情况下，确定所述发起人为免唤醒用户。
87.在一个可选的实现方式中，所第一确定模块包括：
88.第二确定单元，用于确定与所述智能音箱通信连接的免唤醒设备的位置；
89.第三确定单元，用于根据所述位置确定所述免唤醒设备相对于所述智能音箱的相对方向；
90.第四确定单元，用于确定所述控制语音的来源方向；
91.第五确定单元，用于在所述相对方向与所述来源方向相同的情况下，确定所述发起人为免唤醒用户。
92.在一个可选的实现方式中，所述第一确定模块包括：
93.第四确定单元，用于确定所述控制语音的来源方向；
94.采集单元，用于采集位于来源方向的包括所述发起人的图像；
95.第二识别单元，用于识别所述图像中的发起人的面部特征；
96.第六确定单元，用于在所述面部特征为免唤醒用户的面部特征的情况下，确定所述发起人为免唤醒用户。
97.在一个可选的实现方式中，所述智能音箱包括至少两个语音采集设备；
98.所述第一采集模块具体用于：
99.基于至少语音采集设备分别采集用于控制所述智能音箱的控制语音；
100.所述第四确定单元包括：
101.第一确定子单元，用于确定至少两个语音采集设备分别采集到的控制语音的相位信息；
102.第二确定子单元，用于基于所述相位信息确定所述来源方向。
103.在一个可选的实现方式中，所述第一确定模块包括：
104.第七确定单元，用于确定所述发起人相对于所述智能音箱的相对方向；
105.获取单元，用于获取最近一次确定出的免唤醒用户相对于所述智能音箱的历史方向；
106.第八确定单元，用于在所述相对方向与所述历史方向之间的差异小于预设差异的情况下，确定所述发起人为免唤醒用户。
107.在一个可选的实现方式中，所述第一控制模块包括：
108.第三识别单元，用于对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；
109.第九确定单元，用于至少基于所述控制文本确定所述控制语音的控制意图；
110.第十确定单元，用于确定所述控制意图所在的意图领域；
111.第一控制单元，用于在所述意图领域为所述智能音箱支持的意图领域的情况下，基于所述控制意图控制所述智能音箱。
112.在一个可选的实现方式中，所述第六确定单元包括：
113.输入子单元，用于将所述控制文本输入至意图预测模型中，得到所述意图预测模型输出的所述控制意图。
114.在一个可选的实现方式中，所述第六确定单元还包括：
115.获取子单元，用于获取样本数据集，所述样本数据集中包括有标注有样本控制意图的样本控制文本；
116.构建子单元，用于构建意图预测模型的网络结构；
117.第三确定子单元，用于使用所述样本数据集对意图预测模型中的网络参数进行训练，直至所述网络参数收敛，得到所述意图预测模型。
118.在一个可选的实现方式中，所述意图预测模型网络结构至少包括：
119.分词层、编码层、双向的循环神经网络、聚合层以及全连接层；
120.所述分词层用于将控制文本分词，得到多个词汇；
121.所述编码层用于将多个词汇分别转换为特征向量；
122.所述双向的循环神经网络用于基于多个特征向量中相邻的至少两个特征向量之间的依赖关系对多个向量分别进行特征补充；
123.所述聚合层用于将特征补充完毕的多个特征向量聚合，得到聚合向量；
124.所述全连接层用于根据所述聚合向量预测控制意图。
125.在一个可选的实现方式中，所述双向的循环神经网络包括前向长短期记忆网络lstm网络和后向lstm网络；
126.所述前向lstm网络包括顺序连接的多个lstm模型；
127.所述后向lstm网络包括顺序连接的多个lstm模型；
128.所述前向lstm网络包括的多个lstm模型之间的连接顺序与所述后向lstm网络包括的多个lstm模型之间的连接顺序相反。
129.在一个可选的实现方式中，所述第十确定单元包括：
130.第四确定子单元，用于确定所述智能音箱当前所处的业务场景；
131.第五确定子单元，用于基于所述业务场景以及所述控制文本确定所述控制意图。
132.在一个可选的实现方式中，所述第十确定单元具体用于：在控制意图与意图领域之间的对应关系中，查找与所述控制意图相对应的意图领域。
133.在一个可选的实现方式中，控制语音为多个，控制语音为多个发起人分别发出的；且在多个发起人中的免唤醒用户为至少两个；
134.所述第一控制模块包括：
135.第十一确定单元，用于确定至少两个免唤醒用户的优先级；
136.第二控制单元，用于基于优先级高的免唤醒用户的发出的控制语音控制所述智能音箱。
137.第六方面，本技术示出了一种控制装置，应用于智能音箱，包括：
138.第二采集模块，用于采集用于控制所述智能音箱的控制语音；
139.第二确定模块，用于确定所述控制语音是否为免唤醒控制语音；
140.第二控制模块，用于在所述控制语音为免唤醒控制语音的情况下，基于所述控制语音控制所述智能音箱。
141.在一个可选的实现方式中，所述第二确定模块包括：
142.第四识别单元，用于对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；
143.判断单元，用于判断所述控制文本中是否携带免唤醒关键词；
144.第十二确定单元，用于在所述控制文本中携带免唤醒关键词的情况下，确定所述控制语音为免唤醒控制语音。
145.第七方面，本技术示出了一种控制装置，应用于智能音箱，包括：
146.第三采集模块，用于采集用于控制所述智能音箱的控制语音；
147.获取模块，用于获取所述智能音箱在采集到所述控制语音时的采集时刻；
148.第三控制模块，用于在所述采集时刻为免唤醒时刻的情况下，基于所述控制语音控制所述智能音箱。
149.第八方面，本技术示出了一种控制装置，应用于智能音箱，包括：
150.第四采集模块，用于采集用于控制所述智能音箱的控制语音；
151.第三确定模块，用于所述智能音箱所在的位置；
152.第四控制模块，用于在所述位置位于免唤醒区域的情况下，基于所述控制语音控制所述智能音箱。
153.第九方面，本技术示出了一种智能音箱，包括：
154.处理器；和
155.存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如第一方面、第二方面、第三方面或第四方面所述的控制方法。
156.第四方面，本技术示出了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如第一方面、第二方面、第三方面或第四方面所述的控制方法。
157.与现有技术相比，本技术实施例包括以下优点：
158.在本技术实施例中，采集用于控制智能音箱的控制语音；确定该控制语音的发起人是否为免唤醒用户；在该控制语音的发起人为免唤醒用户的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持免唤醒用户可以在不说出唤醒词而说出控制语音的情况下就可以实现基于控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
附图说明
159.图1是本技术一示例性实施例示出的一种控制方法的流程示意图。
160.图2是本技术一示例性实施例示出的一种确定免唤醒用户的方法的流程示意图。
161.图3是本技术一示例性实施例示出的一种确定免唤醒用户的方法的流程示意图。
162.图4是本技术一示例性实施例示出的一种场景示意图。
163.图5是本技术一示例性实施例示出的一种确定免唤醒用户的方法的流程示意图。
164.图6是本技术一示例性实施例示出的一种确定免唤醒用户的方法的流程示意图。
165.图7是本技术一示例性实施例示出的一种控制智能音箱的方法的流程示意图。
166.图8是本技术一示例性实施例示出的一种意图预测模型的网络结构的示意图。
167.图9是本技术一示例性实施例示出的一种确定控制意图的方法的流程示意图。
168.图10是本技术一示例性实施例示出的一种控制智能音箱的方法的流程示意图。
169.图11是本技术一示例性实施例示出的一种控制方法的流程示意图。
170.图12是本技术一示例性实施例示出的一种控制方法的流程示意图。
171.图13是本技术一示例性实施例示出的一种控制方法的流程示意图。
172.图14是本技术一示例性实施例示出的一种控制装置的结构框图。
173.图15是本技术一示例性实施例示出的一种控制装置的结构框图。
174.图16是本技术一示例性实施例示出的一种控制装置的结构框图。
175.图17是本技术一示例性实施例示出的一种控制装置的结构框图。
176.图18是本技术一实施例提供的装置的结构示意图。
具体实施方式
177.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。
178.参照图1，示出了本技术一种控制方法的流程示意图，该方法应用于智能音箱中，该方法可以包括：
179.在步骤s101中，采集用于控制智能音箱的控制语音；
180.在本技术中，当用户需要通过语音来控制智能音箱时，用户可以对着智能音箱说出用于控制智能音箱的控制语音，智能音箱可以基于语音采集设备采集用户说出的用于控制智能音箱的控制语音。
181.其中，语音采集设备包括麦克风等。
182.在本技术中，控制语音中包括有用于控制智能音箱的控制指令，例如，“播放张三的歌曲”或者“查询今天的气温”等指令，控制语音中可以不包括智能音箱的唤醒词等。
183.本技术是为了支持用户在不说出唤醒词而说出控制语音的情况下就可以实现对智能音箱的控制，然而，有时候用户说出的话并不是用于控制智能音箱的控制语音，而是与其他人的正常对话等，如果智能音箱将用户说出的并不是用于控制智能音箱的语音采集到，并基于采集到的语音执行本技术的流程，则会白白浪费智能音箱的系统资源，例如，cpu(central processing unit，中央处理器)资源、内存资源以及电能资源等。
184.因此，为了避免白白浪费智能音箱的系统资源，在本技术另一实施例中，事先可以在智能音箱中设置一个语音采集区域，例如，语音采集区域包括以智能音箱所在位置中为中心的、特定半径的圆形区域，特定半径包括1m、2m以及3m等，本技术对此不加以限定。智能音箱可以采集从语音采集区域中发出的语音，而可以不采集从语音采集区域外发出的语音，如此，在用户需要通过语音来控制智能音箱的情况下，用户可以前往智能音箱的语音采集区域中，然后可以说出用于控制智能音箱的控制语音，智能音箱可以基于语音采集设备采集位于语音采集区域中的用户说出的用于控制智能音箱的控制语音，然后执行步骤s102。
185.而在用户不需要通过语音来控制智能音箱的情况下，如果用户需要正常与其他人对话，用户可以离开语音采集区域，然后正常与其他人对话，由于用户位于语音采集区域之外，因此，智能音箱就不会采集用户正常与其他人对话时发出的语音，从而可以避免白白浪费智能音箱的系统资源。
186.在步骤s102中，确定该控制语音的发起人是否为免唤醒用户；
187.在本技术中，对于智能音箱而言，向智能音箱输入控制语音的用户包括免唤醒用户和非免唤醒用户。
188.智能音箱支持免唤醒用户可以在不说出唤醒词而说出控制语音的情况下就可以实现基于控制语音对智能音箱进行语音控制。
189.智能音箱不支持“非免唤醒用户在不说出唤醒词而说出控制语音的情况下能够实现基于控制语音对智能音箱进行语音控制”而支持非免唤醒用户可以在说出唤醒词以及控制语音的情况下就可以实现基于控制语音对智能音箱进行语音控制。
190.其中，本步骤具体可以参见之后如图2～图6所示的实施例，在此不做详述。
191.在该控制语音的发起人为免唤醒用户的情况下，在步骤s103中，基于该控制语音控制智能音箱。
192.在本技术一个实施例中，基于该控制语音控制智能音箱包括：基于扬声器播放语音信息，语音信息用于响应该控制语音。
193.例如，用户输入的控制语音为“今天气温多少度”，智能音箱可以根据控制语音“今天气温多少度”查找今天的气温，例如，查找到的气温为20℃～25℃，则可以基于扬声器播放语音信息“今天的气温为20℃～25℃”，以使用户获知今天的气温为20℃～25℃。
194.在本技术另一个实施例中，智能音箱也可以与用户进行多轮对话，如此，智能音箱可以采用全双工模式，例如，智能音箱在基于麦克风采集一个控制语音的同时也可以基于扬声器播放响应于另一个控制语音的语音信息等。也即，智能音箱在说话的过程也在收音。
195.在本技术另一个实施例中，在免唤醒用户与智能音箱进行多轮对话的过程中，如果有一个非免唤醒用户说话，而使得智能音箱采集到了非免唤醒用户说出的语音，且会通过该语音确定出其是非免唤醒用户说出的，因此，智能音箱不会响应非免唤醒用户说出的语音。
196.其中，基于该控制语音控制智能音箱的具体控制方法可以参见之后如图7～图10所示的实施例，在此不做详述。
197.在该控制语音的发起人为非免唤醒用户的情况下，可以检测在接收到该控制语音之前，是否还接收到发起人输入的唤醒词，在未接收到发起人输入的唤醒词的情况下，可以对该控制语音不处理，例如，丢弃该控制语音等。或者，提示发起人其不是免唤醒用户，还需要说出用于唤醒智能音箱的唤醒词才能通过控制语音控制智能音箱，以使发起人知晓其需要说出用于唤醒智能音箱的唤醒词才能通过控制语音控制智能音箱。
198.在本技术实施例中，采集用于控制智能音箱的控制语音；确定该控制语音的发起人是否为免唤醒用户；在该控制语音的发起人为免唤醒用户的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持免唤醒用户可以在不说出唤醒词而说出控制语音的情况下就可以实现基于控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
199.在本技术一个实施例中，参见图2，步骤s102包括：
200.在步骤s201中，识别该控制语音的声纹特征；
201.其中，本技术对识别控制语音的声纹特征的识别方式不做限定，任何识别方式都在本技术的保护范围中。
202.在步骤s202中，在该声纹特征为免唤醒用户的声纹特征的情况下，确定发起人为免唤醒用户。
203.在本技术中，智能音箱的所有者可以在智能音箱中设置免唤醒用户，例如，智能音箱的所有者可以设置自己为智能音箱的免唤醒用户，其中，智能音箱的所有者可以在智能音箱中输入免唤醒设置指令，智能音箱接收免唤醒设置指令，然后使用语音采集设备采集智能音箱的所有者的语音，然后可以识别智能音箱的所有者的语音的声纹特征，并将该声纹特征作为免唤醒用户的声纹特征存储在智能音箱中。
204.智能音箱的所有者也可以为智能音箱设置其他免唤醒用户，例如，设置智能音箱的所有者信任的用户为免唤醒用户，例如，设置智能音箱的所有者家人为免唤醒用户等，具体可以参见上述设置方法，在此不做详述。
205.在本技术中，不同的用户的声纹特征往往不同，因此，根据声纹特征可以准确地确定出控制语音的发起人是否为免唤醒用户。
206.在本技术一个实施例中，参见图3，步骤s102包括：
207.在步骤s301中，确定与智能音箱通信连接的免唤醒设备的位置；
208.在本技术中，智能音箱的所有者可以在智能音箱中设置免唤醒设备，例如，智能音箱的所有者可以设置自己的手机为智能音箱的免唤醒设备，其中，智能音箱的所有者可以在智能音箱中输入免唤醒设置指令，指令中携带智能音箱的所有者的手机的设备标识，智能音箱接收免唤醒设置指令，然后可以从免唤醒设置指令提取出智能音箱的所有者的手机的设备标识，并将智能音箱的所有者的手机的设备标识存储在智能音箱中。
209.智能音箱的所有者也可以为智能音箱设置其他免唤醒设备，例如，设置智能音箱的所有者信任的用户的设备为免唤醒设备，例如，设置智能音箱的所有者家人的手机为免唤醒设备等，具体可以参见上述设置方法，在此不做详述。
210.其中，在用户需要通过语音来控制智能音箱之前，用户也可以建立自己的设备与智能音箱之间的通信连接，在建立完毕通信连接之后，智能音箱就可以经由该通信连接获取到该用户的设备的设备标识，并判断该设备标识是否为已存储的免唤醒设备的设备标识，在该设备标识为已存储的免唤醒设备的设备标识的情况下，可以确定该设备为免唤醒设备。
211.本技术中的硬件设备包括智能音箱以及免唤醒设备，当然还可以包括其他设备，例如，家庭中的路由器等，智能音箱以及免唤醒设备分别与路由器通信连接，也即，智能音箱、免唤醒设备以及路由器三者之间两两相互通信连接，因此，在智能音箱、免唤醒设备以及路由器中，可以结合三角定位方法来来确定免唤醒设备的位置，具体确定方法在此不做详述。
212.在步骤s302中，根据该位置确定免唤醒设备相对于智能音箱的相对方向；
213.在本技术中，还可以在智能音箱、免唤醒设备以及路由器中，结合三角定位方法来确定智能音箱的位置，具体确定方法在此不做详述，然后基于免唤醒设备的位置以及智能音箱的位置就可以确定出免唤醒设备相对于智能音箱的相对方向。
214.在步骤s303中，确定该控制语音的来源方向；
215.在本技术一个实施例中，智能音箱可以包括至少两个语音采集设备；
216.如此，智能音箱在采集用于控制智能音箱的控制语音时，可以基于至少语音采集
设备分别采集用于控制智能音箱的控制语音；至少语音采集设备分别采集到的控制语音是同一发起人发出的，至少语音采集设备分别采集到的控制语音中的控制内容相同，然而，由于每一个语音采集设备分别与发起人的距离不同，因此，每一个语音采集设备分别采集到的控制语音的相位信息不同。
217.如此，确定该控制语音的来源方向时，可以确定至少两个语音采集设备分别采集到的控制语音的相位信息，然后基于该相位信息确定控制语音的来源方向。
218.例如，可以确定至少两个语音采集设备分别采集到的控制语音的采集时刻，然后确定至少两个语音采集设备分别采集到的控制语音的采集时刻之间的时间差，再根据该时间差确定该控制语音的来源方向。
219.参见图4，以智能眼镜上包括2个语音采集设备为例进行举例说明，两个语音采集设备分别为a和b，假设发起人位于位置s，则控制语音也是从位置s发出。
220.假设语音采集设备a采集到的控制语音的采集时刻为t1，语音采集设备b采集到的控制语音的采集时刻为t2，由于图4中的语音采集设备a与位置s之间的距离大于语音采集设备b与位置s之间的距离，因此，t1大于t2，可以沿b做线段as的垂线，得到垂线bm，点m将线段as划分为了两段，其中，控制语音在空间中传播的是球形波，而不是平面波，因此，控制语音从s到达m点的路程与控制语音从s点到达b点的路程相同，如此，线段am的长度即为声速与时间差之间的乘积，时间差包括控制语音达到语音采集设备a的时刻与控制语音到达语音采集设备b的时刻之间的之间的时间差。
221.由于已经获知语音采集设备a与语音采集设备b之间的距离，因此，根据语音采集设备a与语音采集设备b之间的距离以及线段am的长度可以确定出角a的角度，从而，可以确定出该控制语音的来源方向。
222.在步骤s304中，在该相对方向与该来源方向相同的情况下，确定该控制语音的发起人为免唤醒用户。
223.在本技术中，通常情况下，用户会手持自己的设备，或者，虽然用户未手持自己的设备，但往往用户距离自己设备较近，如此，用户相对智能音箱的方向与自己的设备相对于智能音箱的方向往往相同。
224.因此，在该相对方向与该来源方向相同的情况下，则往往说明该控制语音的发起人为免唤醒设备的所有者或者所有者授权的用户等，从而可以确定该控制语音的发起人为免唤醒用户。
225.在本技术又一实施例中，参见图5，步骤s102包括：
226.在步骤s401中，确定该控制语音的来源方向；
227.本步骤具体可以参见步骤s303的描述，在此不做详述。
228.在步骤s402中，采集位于该来源方向的包括发起人的图像；
229.在本技术中，智能音箱上设置有至少一个图像采集设备，例如，摄像头等，基于至少一个图像采集设备可以采集到任何方向的图像。
230.在本技术中，因为是发起人发出的该控制语音，因此，该控制语音的发起人相对于智能音箱的方向以及该控制语音的来源方向是相同的。所以，采集的位于该来源方向的图像中也包括该控制语音的发起人的图像。
231.在步骤s403中，识别该图像中的该控制语音的发起人的面部特征；
232.在本技术中，可以通过任意一种识别方式来识别该图像中的发起人的面部特征，本技术对具体的识别方式不做限定，任何识别方式都在本技术的保护范围中。
233.在步骤s404中，在该面部特征为免唤醒用户的面部特征的情况下，确定发起人为免唤醒用户。
234.在本技术中，智能音箱的所有者可以在智能音箱中设置免唤醒用户，例如，智能音箱的所有者可以设置自己为智能音箱的免唤醒用户，其中，智能音箱的所有者可以在智能音箱中输入免唤醒设置指令，智能音箱接收免唤醒设置指令，然后使用图像采集设备拍摄智能音箱的所有者的面部图像，然后提取出该面部图像的面部特征，并将该面部特征作为免唤醒用户的面部特征存储在智能音箱中。
235.智能音箱的所有者也可以为智能音箱设置其他免唤醒用户，例如，设置智能音箱的所有者信任的用户为免唤醒用户，例如，设置智能音箱的所有者家人为免唤醒用户等，具体可以参见上述设置方法，在此不做详述。
236.在本技术中，不同的用户的面部特征往往不同，因此，根据面部特征可以准确地确定出控制语音的发起人是否为免唤醒用户。
237.在本技术又一实施例中，参见图6，步骤s102包括：
238.在步骤s501中，确定该控制语音的发起人相对于智能音箱的相对方向；
239.在本技术中，因为是发起人发出的该控制语音，因此，该控制语音的发起人相对于智能音箱的方向以及该控制语音的来源方向是相同的。
240.也即，该控制语音的来源方向与该控制语音的发起人相对于智能音箱的相对方向相同。
241.所以，在确定出该控制语音的来源方向之后，就能得到该控制语音发起人相对于智能音箱的相对方向。
242.确定该控制语音的来源方向的具体方式可以参见步骤s303的描述，在此不做详述。
243.在步骤s502中，获取最近一次确定出的免唤醒用户相对于智能音箱的历史方向；
244.在本技术中，在用户与智能音箱进行多轮对话的过程中，每当智能音箱根据该用户发出的控制语音确定出该用户为免唤醒用户且确定出该用户相对于智能音箱的相对方向之后，智能音箱就会将确定出的该用户相对于智能音箱的相对方向作为最新确定出的免唤醒用户的相对于智能音箱的历史方向存储在智能音箱中。
245.如此，在本步骤中，智能音箱可以获取最新存储的免唤醒用户的相对于智能音箱的历史方向，并作为最近一次确定出的免唤醒用户相对于智能音箱的历史方向。
246.在步骤s503中，在该相对方向与该历史方向之间的差异小于预设差异的情况下，确定该控制语音的发起人为免唤醒用户。
247.在本技术中，在免唤醒用户与智能音箱进行多轮对话的过程中，每一轮对话免唤醒用户都会向智能音箱输入控制语音，且通常情况下，在多轮对话中，免唤醒用户往往不会远距离走动，也即，在多轮对话中，免唤醒用户的位置不会有太大变化，
248.因此，如果上一次确定出的免唤醒用户相对于智能音箱的历史方向与该控制语音的发起人的相对方向之间差异较小，则该控制语音往往是免唤醒用户在与智能音箱进行多轮对话的过程中的中间某一轮对话中输出的或者最后一轮对话中输出的，因此，可以确定
该控制语音的发起人为免唤醒用户。
249.在本技术中，方向可以为方向角，则方向与方向之间的差异为方向角之间的差值，例如，该相对方向与该历史方向之间的差异为两个方向角之间的差值等，预设差异包括一个角度值，例如，30
°
、40
°
或者50
°
等，本技术对此不加以限定，预设差异可以根据历史统计来得出。
250.在本技术又一实施例中，参见图7，步骤s103包括：
251.在步骤s601中，对该控制语音进行语音识别，得到该控制语音对应的控制文本；
252.在本步骤中，可以通过任意一种语音识别算法来对该控制语音进行语音识别，得到该控制语音对应的控制文本，本技术对具体的语音识别算法不做限定，任何语音识别算法都在本技术的保护范围内。
253.在步骤s602中，至少基于该控制文本确定该控制语音的控制意图；
254.在本技术中，控制意图用于体现用户需要控制智能音箱做什么或者询问智能音箱什么，例如，控制智能音箱播放张三的歌曲、询问李四的毕业学校是谁以及询问今天的天气情况等。
255.在本技术中，可以借助意图预测模型来基于该控制文本确定该控制语音的控制意图。
256.其中，事先可以训练意图预测模型，具体的训练方式包括：
257.11)、获取样本数据集，样本数据集中包括有标注有样本控制意图的样本控制文本；
258.12)、构建意图预测模型的网络结构；
259.其中，参见图8，意图预测模型网络结构至少包括：
260.分词层、编码层、双向的循环神经网络、聚合层以及全连接层。
261.可以将控制文本输入分词层，分词层用于将控制文本分词，得到多个词汇，并将多个词汇输入编码层。
262.编码层用于将多个词汇分别转换为特征向量，并将多个特征向量分别输入双向的循环神经网络。
263.双向的循环神经网络用于基于多个特征向量中相邻的至少两个特征向量之间的依赖关系对多个特征向量分别进行特征补充，并将特征补充完毕的多个特征向量输入聚合层。
264.聚合层用于将特征补充完毕的多个特征向量聚合，得到聚合向量，并将聚合向量输入全连接层。
265.全连接层用于根据聚合向量预测控制意图。
266.其中，双向的循环神经网络包括前向lstm((long short-term memory，长短期记忆网络)网络和后向lstm网络；前向lstm网络包括顺序连接的多个lstm模型；后向lstm网络包括顺序连接的多个lstm模型；前向lstm网络包括的多个lstm模型之间的连接顺序与后向lstm网络包括的多个lstm模型之间的连接顺序相反。
267.13)、使用样本数据集对意图预测模型中的网络参数进行训练，直至网络参数收敛，得到意图预测模型。
268.其中，在训练意图预测模型的过程中，通常是根据意图预测模型的梯度值和意图
预测模型的损失函数的输出值来优化意图预测模型中的参数，直至意图预测模型中的网络参数收敛为止，然而，如果训练意图预测模型的过程中，意图预测模型的梯度值消失，则仅仅根据损失函数的值无法准确优化意图预测模型的网络参数，进而会影响意图预测模型模型正常训练。
269.因此，为了避免这种情况发生，循环神经网络可以包括lstm(long short-term memory，长短期记忆网络)模型，使用lstm模型可以避免梯度消失。其中，损失函数包括均方误差等。使用lstm模型作为循环神经网络中的网络单元，可以避免在训练意图预测模型的过程中意图预测模型的梯度值消失。
270.如此，在借助意图预测模型来基于该控制文本确定该控制语音的控制意图时，可以将该控制文本输入至意图预测模型中，得到意图预测模型输出的该控制语音的控制意图。
271.例如，将该控制文本输入分词层；分词层将该控制文本分词，得到多个词汇，并将多个词汇输入编码层；编码层用于将多个词汇分别转换为特征向量；例如，编码层对每一个词汇分别进行独热编码，分别得到每一个词汇的特征向量，并将多个特征向量分别输入双向的循环神经网络。
272.其中，在将多个特征向量分别输入双向的循环神经网络时，对于任意一个特征向量，可以将该特征向量在前向lstm网络对应的lstm模型以及该特征向量在后向lstm网络对应的lstm模型，然后将该特征向量分别输入至其在前向lstm网络对应的lstm模型中以及其在后向lstm网络对应的lstm模型中。例如，可以确定该特征向量与其在控制文本中包括的多个词汇的特征向量中的位置顺序。在前向lstm网络包括的多个lstm模型中，确定该位置顺序对应的lstm模型，并作为该特征向量对应的lstm模型；在后向lstm网络包括的多个lstm模型中，确定该位置顺序对应的lstm模型，并作为该特征向量对应的lstm模型。该特征向量在前向lstm网络对应的lstm模型输出的向量以及该特征向量在后向lstm网络对应的lstm模型输出的向量可以聚合为一个向量，作为该特征向量对应的输出向量。
273.对于其他每一个特征向量，同样执行上述操作。
274.如此，得到每一个特征向量分别对应的输出向量。
275.可以将每一个特征向量分别对应的输出向量聚合为一个向量，作为得到双向的循环神经网络的输出向量。
276.例如，假设该控制文本中得某一词汇的特征向量在该控制文本中包括的多个词汇的特征向量中的位置顺序为第n位，则将该词汇的特征向量输入至前向lstm网络包括的第n个lstm模型中，以及将该词汇的特征向量输入至后向lstm网络包括的倒数第n个lstm模型中。
277.如此，在意图预测模型中不仅可以使用正向的该位置顺序的相关内容，还可以使用反向的该位置顺序的相关内容，也即，可以更好地使用到该控制文本中的各个词汇之间的顺序关系、位置关系以及依赖关系等，进而使得意图预测模型可以得到更多的内容，以使预测结果更加完善，例如，使得之后确定出的控制意图可以更加准确。
278.在一个例子中，参见图9，双向的循环神经网络中包括前向lstm网络和后向lstm网络。
279.前向lstm网络包括lstm模型1、lstm模型2、lstm模型3以及lstm模型4，在顺序上，
lstm模型1位于lstm模型2之前，lstm模型2位于lstm模型3之前，lstm模型3位于lstm模型4之前。
280.后向lstm网络包括lstm模型5、lstm模型6、lstm模型7以及lstm模型8，在顺序上，lstm模型5位于lstm模型6之前，lstm模型6位于lstm模型7之前，lstm模型7位于lstm模型8之前。
281.假设控制文本中词汇1、词汇2、词汇3以及词汇4，词汇1位于词汇2之前，词汇2位于词汇3之前，词汇3位于词汇4之前。
282.可以获取各个词汇的特征向量，例如获取词汇1的特征向量1，词汇2的特征向量2，词汇3的特征向量3以及词汇4的特征向量4。
283.然后可以将特征向量1输入lstm模型1中，将lstm模型1的输出与特征向量2输入lstm模型2中，将lstm模型2的输出与特征向量3输入lstm模型3中，以及将lstm模型3的输出与特征向量4输入lstm模型4中。
284.并且，可以将特征向量4输入lstm模型5中，将lstm模型5的输出与特征向量3输入lstm模型6中，将lstm模型6的输出与特征向量2输入lstm模型7中，以及将lstm模型7的输出与特征向量1输入lstm模型8中。
285.如此，lstm模型1和lstm模型8分别会输出一个向量，可以将lstm模型1和lstm模型8分别输出向量聚合为一个向量，作为特征向量1对应的输出向量1。
286.lstm模型2和lstm模型7分别会输出一个向量，可以将lstm模型2和lstm模型7分别输出向量聚合为一个向量，作为特征向量2对应的输出向量2。
287.lstm模型3和lstm模型6分别会输出一个向量，可以将lstm模型3和lstm模型6分别输出向量聚合为一个向量，作为特征向量3对应的输出向量3。
288.lstm模型4和lstm模型5分别会输出一个向量，可以将lstm模型4和lstm模型5分别输出向量聚合为一个向量，作为特征向量4对应的输出向量4。
289.然后可以将特征向量1对应的输出向量1、特征向量2对应的输出向量2、特征向量3对应的输出向量3以及特征向量4对应的输出向量4，进行聚合(concat)，得到聚合向量。并将聚合向量输入全连接层。全连接层根据聚合向量预测该控制语音的控制意图。
290.在本技术一个实施例中，在一种可能的场景中，基于该控制文本确定的该控制语音的控制意图准确率较低，例如，假设，作为公众人物的张三想公众推荐过类型的商品，例如，推荐过好听的音乐，推荐过好吃的饭馆、推荐过推荐过好看的电影以及推荐过折扣力度较大的店铺等。
291.假设用户需要通过智能音箱搜索“张三推荐过的好听的音乐”，但是用户向智能音箱输入的控制语音可能并不精准，例如，用户向智能音箱输入的控制语音对应的控制文本为“搜索张三推荐过的商品”，并未向智能音箱限定需要搜索张三推荐过的什么类型的商品。这样，通常情况下，智能音箱基于用户的控制语音为用户搜索出的商品并不一定是精准地搜索到“张三推荐过的好听的音乐”，而可能是搜索到的张三推荐过的其他类型的商品，例如，搜索到的是张三推荐过好吃的饭馆、张三推荐过推荐过好看的电影以及张三推荐过折扣力度较大的店铺等。这就导致了智能音箱为用户提供服务可能并不是用户本来想要获得的服务，导致智能音箱为用户提供服务的精准度较低。
292.因此，在这种情况下，为了提高智能音箱为用户提供服务的精准度，
293.在基于该控制文本确定该控制语音的控制意图时，可以确定智能音箱当前所处的业务场景；然后基于该业务场景以及该控制文本确定控制意图。
294.例如，有时候是在一个业务场景中为用户提供服务，例如，用户对智能音箱说出“开启音乐播放器”，以使智能音箱开启智能音箱的音乐播放器，进而智能音箱进入到播放音乐的业务场景，假设用户需要通过智能音箱搜索张三推荐过的好听的音乐，即使用户向智能音箱输入的控制语音可能并不精准，例如，即使用户向智能音箱输入的控制语音对应的控制文本为“搜索张三推荐过的商品”，并未向智能音箱限定需要搜索张三推荐过的什么类型的商品。
295.然而，此时智能音箱已经处于播放音乐的业务场景，因此，智能音箱基于处于播放音乐的业务场景，可以确定出用户需要智能音箱“搜索张三推荐过的商品”实际上是需要智能音箱搜索“张三推荐过的好听的音乐”。
296.从而增加了智能音箱为用户提供服务是用户本来想要获得的服务的可能性，提高了智能音箱为用户提供服务的精准度。
297.在步骤s603中，确定该控制意图所在的意图领域；
298.智能音箱支持的控制领域包括音乐领域、天气领域、打电话领域、购物领域以及路线搜索领域等。智能音箱支持的控制领域具体可以由智能音箱的生产厂商确定或者智能音箱的所有者确定。
299.在用户的控制语音的控制意图位于智能音箱支持的控制领域的情况下，用户可以基于控制语音控制智能音箱。
300.在用户的控制语音的控制意图不位于智能音箱支持的控制领域的情况下，用户无法基于控制语音控制智能音箱。
301.例如，智能音箱不支持医疗领域，如果免唤醒用户对这智能音箱说出“帮我打针”这一属于医疗领域的控制语音，智能音箱是无法响应用户的这个指令的，也即，是无法帮助用户打针的。
302.因此，在得到该控制语音的控制意图之后，需要确定该控制意图所在的意图领域，然后执行步骤s604。
303.其中，对于智能音箱支持的任意一个意图领域，事先可以统计属于该意图领域的能够控制智能音箱的控制意图，然后每一个控制意图分别与该意图领域成对应表项，并存储在控制意图与意图领域之间的对应关系中。对于智能音箱支持的其他每一个意图领域，同样如此。
304.因此，在本步骤中，可以在控制意图与意图领域之间的对应关系中，查找与该控制意图相对应的意图领域。
305.在步骤s604中，在该意图领域为智能音箱支持的意图领域的情况下，基于该控制意图控制智能音箱。
306.在另一实施例中，在该意图领域不为智能音箱支持的意图领域的情况下，可以结束流程。
307.在本技术中，在一种场景中，位于智能音箱周边有多个免唤醒用户，假设这些免唤醒用户同时需要基于控制语音控制智能音箱，则多个免唤醒用户会分别向智能音箱输入各自的控制语音，此时，智能音箱接收到的控制语音为多个，控制语音为多个发起人分别发出
的，且在多个发起人中的免唤醒用户为至少两个；
308.在这种情况下，参见图10，步骤s103包括：
309.在步骤s701中，确定至少两个免唤醒用户的优先级；
310.在本技术中，在智能音箱的多个免唤醒用户中，智能音箱的所有者事先可以在智能音箱中设置各个免唤醒用户的优先级，例如，在智能音箱中，将各个免唤醒用户的声纹特征排序，排序越靠前的声纹特征所对应的免唤醒用户的优先级越高，排序越靠后的生成特征所对应的免唤醒用户的优先级越低。
311.如此，对于采集的任意一个控制语音，在确定出该控制语音的发起人为免唤醒用户的情况下，可以确定免唤醒用户的优先级，例如，根据该控制语音的声纹特征在按照优先级由高至低排序的多个声纹特征中的位置确定免唤醒用户的优先级，对于采集的其他每一个控制语音，同样如此。从而得到每一个免唤醒用户的优先级。
312.当然，除了使用声纹特征之外，还可以使用面部特征等，本技术对此不加以限定。
313.在步骤s701中，基于优先级高的免唤醒用户的发出的控制语音控制智能音箱。
314.其次，可以丢弃其他免唤醒用户的发出的控制语音等。
315.通过本技术，这些智能音箱的多个免唤醒用户同时需要基于各自的控制语音控制智能音箱的情况下，可以保证优先级高的免唤醒用户能够顺利通过控制语音控制智能音箱，避免由于其他免唤醒用户的干扰而导致优先级高的免唤醒用户无法顺利通过控制语音控制智能音箱。
316.参照图11，示出了本技术一种控制方法的流程示意图，该方法应用于智能音箱中，该方法可以包括：
317.在步骤s801中，采集用于控制智能音箱的控制语音；
318.本步骤具体可以参见步骤s101，在此不做详述。
319.在步骤s802中，确定该控制语音是否为免唤醒控制语音；
320.本步骤可以通过如下流程实现，包括：
321.8021、对该控制语音进行语音识别，得到该控制语音对应的控制文本；
322.在本步骤中，可以通过任意一种语音识别算法来对该控制语音进行语音识别，得到该控制语音对应的控制文本，本技术对具体的语音识别算法不做限定，任何语音识别算法都在本技术的保护范围内。
323.8022、判断该控制文本中是否携带免唤醒关键词；
324.在本技术中，智能音箱的所有者可以在智能音箱中设置免唤醒关键词，例如，智能音箱的所有者可以设置诸如“拨打110”、“拨打120”以及拨打“119”等紧急情况下拨打紧急电话的免唤醒关键词，其中，智能音箱的所有者可以在智能音箱中输入免唤醒设置指令，智能音箱接收免唤醒设置指令，然后使用语音采集设备采集智能音箱的所有者的语音，然后可以识别智能音箱的所有者的语音的声纹特征，并将该声纹特征作为免唤醒用户的声纹特征存储在智能音箱中。智能音箱可以存储智能音箱的所有者设置的免唤醒关键词。
325.8023、在该控制文本中携带免唤醒关键词的情况下，确定该控制语音为免唤醒控制语音。
326.在该控制语音为免唤醒控制语音的情况下，在步骤s803中，基于该控制语音控制智能音箱。
327.在图1所示的实施例中，是在该控制语音的发起人为免唤醒用户的情况下基于该控制语音控制智能音箱。而在本技术实施例中，可以不局限发起人的身份，无论该控制语音的发起人是否为免唤醒用户，在控制语音为免唤醒控制语音的情况下，就可以基于该控制语音控制智能音箱。通过本技术可以保证在一些特殊情况下非免唤醒用户也可以基于控制语音控制智能音箱，例如，在紧急情况下，用户需要拨打紧急电话，例如，拨打110、119以及120等，这样，可以支持非免唤醒用户也可以基于控制语音控制智能音箱，不需要对智能音箱输入唤醒词，从而提高用户控制智能音箱的效率。
328.在本技术实施例中，采集用于控制智能音箱的控制语音；确定该控制语音是否为免唤醒控制语音；在该控制语音为免唤醒控制语音的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持用户可以在不说出唤醒词而说出的控制语音为免唤醒语音的情况下就可以实现基于免唤醒的控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
329.参照图12，示出了本技术一种控制方法的流程示意图，该方法应用于智能音箱中，该方法可以包括：
330.在步骤s901中，采集用于控制智能音箱的控制语音；
331.本步骤具体可以参见步骤s101，在此不做详述。
332.在步骤s902中，获取智能音箱在采集到该控制语音时的采集时刻；
333.在一个场景中，智能音箱可以为广大用户提供服务，例如，某些机构的工作人员为了为了时的机构内部员工的工作更加方便，可以在机构大厅设置智能音箱，这样，机构内部员工可以依靠智能音箱来获取服务。然而，这些机构在特定的时刻还会为广大客户提供服务，例如，为广大顾客提供商场内部的路线导航服务以及商场内部的购物导航服务等。
334.然而，广大顾客可能并不是智能音箱的所有者，或者，并不知道智能音箱的品牌等，以使广大顾客可能并不知道智能音箱的唤醒词，因此，如果需要使用唤醒词才可能通过语音控制智能音箱的话，则会导致广大顾客无法通过语音控制智能音箱。
335.因此，在这种情况下，为了使得广大顾客可以通过语音控制智能音箱，在本技术中，支持智能音箱在特定的时间段以在没有唤醒词的情况下响应用户的控制语音。
336.在本技术中，智能音箱的所有者可以在智能音箱中设置免唤醒时刻，例如，智能音箱的所有者可以设置机构对外开放的时刻为免唤醒时刻等，智能音箱可以存储智能音箱的所有者设置的免唤醒时刻。
337.在步骤s903中，在该采集时刻为免唤醒时刻的情况下，基于该控制语音控制智能音箱。
338.在图1所示的实施例中，是在该控制语音的发起人为免唤醒用户的情况下基于该控制语音控制智能音箱。而在本技术实施例中，可以不局限发起人的身份，无论该控制语音的发起人是否为免唤醒用户，在智能音箱采集到该控制语音时的采集时刻为免唤醒时刻的情况下，就可以基于该控制语音控制智能音箱。
339.通过本技术可以保证在一些特殊情况下非免唤醒用户也可以基于控制语音控制智能音箱，这样，可以支持非免唤醒用户也可以基于控制语音控制智能音箱，不需要对智能音箱输入唤醒词，从而使得广大客户可以从智能音箱处获取商场内部的路线导航服务以及
商场内部的购物导航服务等。
340.在本技术实施例中，采集用于控制智能音箱的控制语音；获取智能音箱在采集到该控制语音时的采集时刻；在该采集时刻为免唤醒时刻的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持用户可以在不说出唤醒词而说出的控制语音为免唤醒语音的情况下就可以实现基于免唤醒的控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
341.参照图13，示出了本技术一种控制方法的流程示意图，该方法应用于智能音箱中，该方法可以包括：
342.在步骤s1001中，采集用于控制智能音箱的控制语音；
343.本步骤具体可以参见步骤s101，在此不做详述。
344.在步骤s1002中，确定智能音箱所在的位置；
345.在一个场景中，智能音箱可以为广大用户提供服务，例如，商场的工作人员为了方便地为广大顾客提供商场内部的路线导航服务以及商场内部的购物导航服务等，可以临时将一个智能音箱放置在商场的入口位置，这样，在顾客从商场的入口位置进入到商场之后，可以依靠智能音箱来获取商场内部的路线导航服务以及商场内部的购物导航服务等。
346.然而，广大顾客可能并不是智能音箱的所有者，或者，并不知道智能音箱的品牌等，以使广大顾客可能并不知道智能音箱的唤醒词，因此，如果需要使用唤醒词才可能通过语音控制智能音箱的话，则会导致广大顾客无法通过语音控制智能音箱。
347.因此，在这种情况下，为了使得广大顾客可以通过语音控制智能音箱，在本技术中，支持智能音箱在特定的位置上可以在没有唤醒词的情况下响应用户的控制语音。
348.在本技术中，智能音箱的所有者可以在智能音箱中设置免唤醒区域，例如，智能音箱的所有者可以设置商场的入口所在的区域为免唤醒区域、火车站的入口所在的区域为免唤醒区域，汽车站的区域为免唤醒区域以及飞机场的入口所在的区域为免唤醒区域等，智能音箱可以存储智能音箱的所有者设置的免唤醒区域。
349.在步骤s1003中，在该位置位于免唤醒区域的情况下，基于该控制语音控制智能音箱。
350.在图1所示的实施例中，是在该控制语音的发起人为免唤醒用户的情况下基于该控制语音控制智能音箱。而在本技术实施例中，可以不局限发起人的身份，无论该控制语音的发起人是否为免唤醒用户，在智能音箱位于免唤醒区域的情况下，就可以基于该控制语音控制智能音箱。通过本技术可以保证在一些特殊情况下非免唤醒用户也可以基于控制语音控制智能音箱，例如，在商场的入口处智能音箱，广大顾客需要获取商场内部的路线导航服务以及商场内部的购物导航服务等，这样，可以支持非免唤醒用户也可以基于控制语音控制智能音箱，不需要对智能音箱输入唤醒词，从而使得广大客户可以从智能音箱处获取商场内部的路线导航服务以及商场内部的购物导航服务等。
351.在本技术实施例中，采集用于控制智能音箱的控制语音；确定智能音箱所在的位置；在该位置位于免唤醒区域的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持用户可以在不说出唤醒词而说出的控制语音为免唤醒语音的情况下就可以实现基于免唤醒的控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户
与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
352.参照图14，示出了本技术一种控制装置的实施例的结构框图，具体可以包括如下模块：
353.第一采集模块11，用于采集用于控制所述智能音箱的控制语音；
354.第一确定模块12，用于确定所述控制语音的发起人是否为免唤醒用户；
355.第一控制模块13，用于在所述发起人为免唤醒用户的情况下，基于所述控制语音控制所述智能音箱。
356.在一个可选的实现方式中，所述第一确定模块包括：
357.第一识别单元，用于识别所述控制语音的声纹特征；
358.第一确定单元，用于在所述声纹特征为免唤醒用户的声纹特征的情况下，确定所述发起人为免唤醒用户。
359.在一个可选的实现方式中，所第一确定模块包括：
360.第二确定单元，用于确定与所述智能音箱通信连接的免唤醒设备的位置；
361.第三确定单元，用于根据所述位置确定所述免唤醒设备相对于所述智能音箱的相对方向；
362.第四确定单元，用于确定所述控制语音的来源方向；
363.第五确定单元，用于在所述相对方向与所述来源方向相同的情况下，确定所述发起人为免唤醒用户。
364.在一个可选的实现方式中，所述第一确定模块包括：
365.第四确定单元，用于确定所述控制语音的来源方向；
366.采集单元，用于采集位于来源方向的包括所述发起人的图像；
367.第二识别单元，用于识别所述图像中的发起人的面部特征；
368.第六确定单元，用于在所述面部特征为免唤醒用户的面部特征的情况下，确定所述发起人为免唤醒用户。
369.在一个可选的实现方式中，所述智能音箱包括至少两个语音采集设备；
370.所述第一采集模块具体用于：
371.基于至少语音采集设备分别采集用于控制所述智能音箱的控制语音；
372.所述第四确定单元包括：
373.第一确定子单元，用于确定至少两个语音采集设备分别采集到的控制语音的相位信息；
374.第二确定子单元，用于基于所述相位信息确定所述来源方向。
375.在一个可选的实现方式中，所述第一确定模块包括：
376.第七确定单元，用于确定所述发起人相对于所述智能音箱的相对方向；
377.获取单元，用于获取最近一次确定出的免唤醒用户相对于所述智能音箱的历史方向；
378.第八确定单元，用于在所述相对方向与所述历史方向之间的差异小于预设差异的情况下，确定所述发起人为免唤醒用户。
379.在一个可选的实现方式中，所述第一控制模块包括：
380.第三识别单元，用于对所述控制语音进行语音识别，得到所述控制语音对应的控
制文本；
381.第九确定单元，用于至少基于所述控制文本确定所述控制语音的控制意图；
382.第十确定单元，用于确定所述控制意图所在的意图领域；
383.第一控制单元，用于在所述意图领域为所述智能音箱支持的意图领域的情况下，基于所述控制意图控制所述智能音箱。
384.在一个可选的实现方式中，所述第六确定单元包括：
385.输入子单元，用于将所述控制文本输入至意图预测模型中，得到所述意图预测模型输出的所述控制意图。
386.在一个可选的实现方式中，所述第六确定单元还包括：
387.获取子单元，用于获取样本数据集，所述样本数据集中包括有标注有样本控制意图的样本控制文本；
388.构建子单元，用于构建意图预测模型的网络结构；
389.第三确定子单元，用于使用所述样本数据集对意图预测模型中的网络参数进行训练，直至所述网络参数收敛，得到所述意图预测模型。
390.在一个可选的实现方式中，所述意图预测模型网络结构至少包括：
391.分词层、编码层、双向的循环神经网络、聚合层以及全连接层；
392.所述分词层用于将控制文本分词，得到多个词汇；
393.所述编码层用于将多个词汇分别转换为特征向量；
394.所述双向的循环神经网络用于基于多个特征向量中相邻的至少两个特征向量之间的依赖关系对多个向量分别进行特征补充；
395.所述聚合层用于将特征补充完毕的多个特征向量聚合，得到聚合向量；
396.所述全连接层用于根据所述聚合向量预测控制意图。
397.在一个可选的实现方式中，所述双向的循环神经网络包括前向长短期记忆网络lstm网络和后向lstm网络；
398.所述前向lstm网络包括顺序连接的多个lstm模型；
399.所述后向lstm网络包括顺序连接的多个lstm模型；
400.所述前向lstm网络包括的多个lstm模型之间的连接顺序与所述后向lstm网络包括的多个lstm模型之间的连接顺序相反。
401.在一个可选的实现方式中，所述第十确定单元包括：
402.第四确定子单元，用于确定所述智能音箱当前所处的业务场景；
403.第五确定子单元，用于基于所述业务场景以及所述控制文本确定所述控制意图。
404.在一个可选的实现方式中，所述第十确定单元具体用于：在控制意图与意图领域之间的对应关系中，查找与所述控制意图相对应的意图领域。
405.在一个可选的实现方式中，控制语音为多个，控制语音为多个发起人分别发出的；且在多个发起人中的免唤醒用户为至少两个；
406.所述第一控制模块包括：
407.第十一确定单元，用于确定至少两个免唤醒用户的优先级；
408.第二控制单元，用于基于优先级高的免唤醒用户的发出的控制语音控制所述智能音箱。
409.在本技术实施例中，采集用于控制智能音箱的控制语音；确定该控制语音的发起人是否为免唤醒用户；在该控制语音的发起人为免唤醒用户的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持免唤醒用户可以在不说出唤醒词而说出控制语音的情况下就可以实现基于控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
410.参照图15，示出了本技术一种控制装置的实施例的结构框图，具体可以包括如下模块：
411.第二采集模块21，用于采集用于控制所述智能音箱的控制语音；
412.第二确定模块22，用于确定所述控制语音是否为免唤醒控制语音；
413.第二控制模块23，用于在所述控制语音为免唤醒控制语音的情况下，基于所述控制语音控制所述智能音箱。
414.在一个可选的实现方式中，所述第二确定模块包括：
415.第四识别单元，用于对所述控制语音进行语音识别，得到所述控制语音对应的控制文本；
416.判断单元，用于判断所述控制文本中是否携带免唤醒关键词；
417.第十二确定单元，用于在所述控制文本中携带免唤醒关键词的情况下，确定所述控制语音为免唤醒控制语音。
418.在本技术实施例中，可以不局限发起人的身份，无论该控制语音的发起人是否为免唤醒用户，在控制语音为免唤醒控制语音的情况下，就可以基于该控制语音控制智能音箱。通过本技术可以保证在一些特殊情况下非免唤醒用户也可以基于控制语音控制智能音箱，例如，在紧急情况下，用户需要拨打紧急电话，例如，拨打110、119以及120等，这样，可以支持非免唤醒用户也可以基于控制语音控制智能音箱，不需要对智能音箱输入唤醒词，从而提高用户控制智能音箱的效率。
419.在本技术实施例中，采集用于控制智能音箱的控制语音；确定该控制语音是否为免唤醒控制语音；在该控制语音为免唤醒控制语音的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持用户可以在不说出唤醒词而说出的控制语音为免唤醒语音的情况下就可以实现基于免唤醒的控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
420.参照图16，示出了本技术一种控制装置的实施例的结构框图，具体可以包括如下模块：
421.第三采集模块31，用于采集用于控制所述智能音箱的控制语音；
422.获取模块32，用于获取所述智能音箱在采集到所述控制语音时的采集时刻；
423.第三控制模块33，用于在所述采集时刻为免唤醒时刻的情况下，基于所述控制语音控制所述智能音箱。
424.在本技术实施例中，可以不局限发起人的身份，无论该控制语音的发起人是否为免唤醒用户，在智能音箱采集到该控制语音时的采集时刻为免唤醒时刻的情况下，就可以基于该控制语音控制智能音箱。
425.通过本技术可以保证在一些特殊情况下非免唤醒用户也可以基于控制语音控制智能音箱，这样，可以支持非免唤醒用户也可以基于控制语音控制智能音箱，不需要对智能音箱输入唤醒词，从而使得广大客户可以从智能音箱处获取商场内部的路线导航服务以及商场内部的购物导航服务等。
426.在本技术实施例中，采集用于控制智能音箱的控制语音；获取智能音箱在采集到该控制语音时的采集时刻；在该采集时刻为免唤醒时刻的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持用户可以在不说出唤醒词而说出的控制语音为免唤醒语音的情况下就可以实现基于免唤醒的控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
427.参照图17，示出了本技术一种控制装置的实施例的结构框图，具体可以包括如下模块：
428.第四采集模块41，用于采集用于控制所述智能音箱的控制语音；
429.第三确定模块42，用于所述智能音箱所在的位置；
430.第四控制模块43，用于在所述位置位于免唤醒区域的情况下，基于所述控制语音控制所述智能音箱。
431.在本技术实施例中，可以不局限发起人的身份，无论该控制语音的发起人是否为免唤醒用户，在智能音箱位于免唤醒区域的情况下，就可以基于该控制语音控制智能音箱。通过本技术可以保证在一些特殊情况下非免唤醒用户也可以基于控制语音控制智能音箱，例如，在商场的入口处智能音箱，广大顾客需要获取商场内部的路线导航服务以及商场内部的购物导航服务等，这样，可以支持非免唤醒用户也可以基于控制语音控制智能音箱，不需要对智能音箱输入唤醒词，从而使得广大客户可以从智能音箱处获取商场内部的路线导航服务以及商场内部的购物导航服务等。
432.在本技术实施例中，采集用于控制智能音箱的控制语音；确定智能音箱所在的位置；在该位置位于免唤醒区域的情况下，基于该控制语音控制智能音箱。通过本技术，智能音箱支持用户可以在不说出唤醒词而说出的控制语音为免唤醒语音的情况下就可以实现基于免唤醒的控制语音对智能音箱进行语音控制。由于可以不说出唤醒词，从而使得用户与智能音箱之间的交互过程较简便，从而可以提高交互效率，进而可以提高用户体验。
433.本技术实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本技术实施例中各方法步骤的指令(instructions)。
434.本技术实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本技术实施例中，所述电子设备包括服务器、网关、子设备等，子设备为物联网设备等设备。
435.本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括服务器(集群)、终端设备如iot设备等电子设备。
436.图18示意性地示出了可被用于实现本技术中所述的各个实施例的示例性装置1300。
437.对于一个实施例，图18示出了示例性装置1300，该装置具有一个或多个处理器
1302、被耦合到(一个或多个)处理器1302中的至少一个的控制模块(芯片组)1304、被耦合到控制模块1304的存储器1306、被耦合到控制模块1304的非易失性存储器(nvm)/存储设备1308、被耦合到控制模块1304的一个或多个输入/输出设备1310，以及被耦合到控制模块1306的网络接口1312。
438.处理器1302可包括一个或多个单核或多核处理器，处理器1302可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置1300能够作为本技术实施例中所述网关等服务器设备。
439.在一些实施例中，装置1300可包括具有指令1314的一个或多个计算机可读介质(例如，存储器1306或nvm/存储设备1308)以及与该一个或多个计算机可读介质相合并被配置为执行指令1314以实现模块从而执行本公开中所述的动作的一个或多个处理器1302。
440.对于一个实施例，控制模块1304可包括任意适当的接口控制器，以向(一个或多个)处理器1302中的至少一个和/或与控制模块1304通信的任意适当的设备或组件提供任意适当的接口。
441.控制模块1304可包括存储器控制器模块，以向存储器1306提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
442.存储器1306可被用于例如为装置1300加载和存储数据和/或指令1314。对于一个实施例，存储器1306可包括任意适当的易失性存储器，例如，适当的dram。在一些实施例中，存储器1306可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
443.对于一个实施例，控制模块1304可包括一个或多个输入/输出控制器，以向nvm/存储设备1308及(一个或多个)输入/输出设备1310提供接口。
444.例如，nvm/存储设备1308可被用于存储数据和/或指令1314。nvm/存储设备1308可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
445.nvm/存储设备1308可包括在物理上作为装置1300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，nvm/存储设备1308可通过网络经由(一个或多个)输入/输出设备1310进行访问。
446.(一个或多个)输入/输出设备1310可为装置1300提供接口以与任意其他适当的设备通信，输入/输出设备1310可以包括通信组件、音频组件、传感器组件等。网络接口1312可为装置1300提供接口以通过一个或多个网络通信，装置1300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如wifi、2g、3g、4g、5g等，或它们的组合进行无线通信。
447.对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器1302中的至少一个可与控制模块1304的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
448.在各个实施例中，装置1300可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置1300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置1300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
449.本技术实施例提供了一种服务器，包括：一个或多个处理器；和，其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述服务器执行如本技术实施例中一个或多个所述的设备间通信方法。
450.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
451.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
452.本技术实施例是参照根据本技术实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
453.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
454.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
455.尽管已描述了本技术实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
456.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
457.以上对本技术所提供的一种控制方法及装置，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申
请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种控制方法及装置与流程

相关文章

最热文献