智能交互方法及相关装置与流程

2022-02-20 08:03:04 来源：中国专利 TAG：

1.本技术涉及智能设备领域，具体而言，涉及一种智能交互方法及相关装置。

背景技术：

2.随着语音识别技术是的逐渐成熟，越来越来的语音交互设备进入生活，使得用户可以解放双手与设备之间进行交互。然而，研究发现，在一些场景中，语音交互的方式反而存在交互效率欠佳的问题。

技术实现要素：

3.为了克服现有技术中的至少一个不足，本技术提供一种智能交互方法及相关装置，包括：
4.第一方面，本技术提供一种智能交互方法，应用于语音交互设备，所述方法包括：
5.接收用户的拍击操作；
6.响应于所述拍击操作，确定所述拍击操作的目标交互指令；
7.根据所述目标交互指令，执行与所述目标交互指令相对应的预设交互动作。
8.第二方面，本技术提供一种智能交互装置，应用于语音交互设备，所述智能交互装置包括：
9.操作接收模块，用于接收用户的拍击操作；
10.操作确定模块，用于响应于所述拍击操作，确定所述拍击操作的目标交互指令；
11.操作处理模块，用于根据所述目标交互指令，执行与所述目标交互指令相对应的预设交互动作。
12.第三方面，本技术提供一种语音交互设备，所述语音交互设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的智能交互方法。
13.第四方面，本技术提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的智能交互方法。
14.相对于现有技术而言，本技术具有以下有益效果：
15.本技术实施例提供的智能交互方法及相关装置中，语音交互设备通过接收用户的拍击操作，并识别出该拍击操作对应的目标交互指令，执行与目标交互指令相对应的预设交互动作。从而针对语音交互设备提供一种语音交互方式以外的交互方式，克服一些场景下语音交互方式存在的交互效率欠佳的问题。
附图说明
16.为了更清楚地说明本技术实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这
些附图获得其他相关的附图。
17.图1为本技术实施例提供的语音交互设备的结构示意图；
18.图2为本技术实施例提供的智能交互方法的流程图；
19.图3为本技术实施例提供的拍击操作产生的加速度变化示意图；
20.图4为本技术实施例提供的识别拍击次数的流程示意图；
21.图5为本技术实施例提供的拍击操作产生的加加速度变化示意图；
22.图6为本技术实施例提供的智能交互装置的结构示意图。
23.图标：120-存储器；130-处理器；140-通信单元；201-操作接收模块；202-操作确定模块；203-操作处理模块。
具体实施方式
24.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
25.因此，以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围，而是仅仅表示本技术的选定实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
26.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
27.由于语音交互设备能够响应用户的语音指令，从而使得用户可以解放双手与设备之间进行交互。例如，智能音箱、智能手机、智能电视等语音交互设备。然而，在一些应用场景中，语音交互的方式反而存在交互效率欠佳的问题。
28.以智能音箱为例，智能音箱的语音交互流程分为唤醒设备、获取待识别语音、识别待识别语音、响应待识别语音4个环节。
29.其中，用户使用特定的唤醒指令(又名唤醒词)将智能音箱唤醒，使得智能音箱进入语音监听模式；在监听模式下，当智能音箱采集到有效的待识别语音后，将待识别语音发送给服务器。服务器对待识别语音进行识别，并根据识别出的结果，进行相应的处理。因此，整个交互过程的效率会受限于交互环节的数量以及各交互环节的耗时，例如，将待识别语音发送给服务器所产生的网络延时，以及服务器对待识别语音进行识别所需要的处理时间。
30.然而，针对一些频繁使用的交互功能，若每次均以语音交互的方式使用这些交互功能，会使用户感受到明显的交互延时。
31.例如，当使用智能音箱播放音乐时，若播放的音乐不是用户喜欢的音乐时，则用户会使用“换一首”或者“下一首”等语音内容进行切歌。然后，若连续的多首音乐均不是用户所喜欢的音乐时，智能音箱需要频繁处理“换一首”或者“下一首”等语音内容，用户会感受到明显的交互延时。
32.又例如，当通过智能音箱设定闹钟后，若闹钟启动，则需要用户通过语音交互的方
式关闭闹钟。然而，用户被闹钟吵醒后，本身处于半清醒的状态，可能出现语音表述不清楚的问题，继而影响到交互效率。
33.鉴于此，本技术实施例提供一种智能交互方法，应用于语音交互设备。该方法中，语音识别设备预先配置有各交互指令的预设交互动作；然后，该语音识别设备接收并响应用户的拍击操作，并触发相应的交互方式，从而为语音交互设备提供一种高效交互方式。
34.其中，该语音交互设备可以是，但不限于，移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(personal digital assistant，pda)、游戏设备、导航设备、或销售点(point of sale，pos)设备等，或其任意组合。
35.如图1所示，本实施还提供该语音交互设备的一种结构示意图。如图1所示，该语音交互设备包括存储器120、处理器130、通信单元140。其中，该存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。
36.该存储器120可以是，但不限于，随机存取存储器(random access memory，ram)，只读存储器(read only memory，rom)，可编程只读存储器(programmable read-only memory，prom)，可擦除只读存储器(erasable programmable read-only memory，eprom)，电可擦除只读存储器(electric erasable programmable read-only memory，eeprom)等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。
37.该通信单元140用于通过网络建立服务器与用户终端之间的通信连接，并用于通过网络收发数据。网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(local area network，lan)、广域网(wide area network，wan)、无线局域网(wireless local area networks，wlan)、城域网(metropolitan area network，man)、广域网(wide area network，wan)、公共电话交换网(public switched telephone network，pstn)、蓝牙网络、zigbee网络、或近场通信(near field communication，nfc)网络等，或其任意组合。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如基站和/或网络交换节点，服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
38.该处理器130可能是一种集成电路芯片，具有信号的处理能力，并且，该处理器可以包括一个或多个处理核(例如，单核处理器或多核处理器)。仅作为举例，上述处理器可以包括中央处理单元(central processing unit，cpu)、专用集成电路(application specific integrated circuit，asic)、专用指令集处理器(application specific instruction-set processor，asip)、图形处理单元(graphics processing unit，gpu)、物理处理单元(physics processing unit，ppu)、数字信号处理器(digital signal processor，dsp)、现场可编程门阵列(field programmable gate array，fpga)、可编程逻辑器件(programmable logic device，pld)、控制器、微控制器单元、简化指令集计算机
(reduced instruction set computing，risc)、或微处理器等，或其任意组合。
39.下面结合图2所示的流程图，对本实施提供的智能交互方法进行详细阐述。如图2所示，该方法包括：
40.s101，接收用户的拍击操作。
41.可选地实施方式中，该智能交互设备配置有加速度传感器，用于采集拍击操作产生的加速度信号。
42.s102，响应于拍击操作，确定拍击操作的目标交互指令。
43.可选地实施方式中，该语音交互设备支持的交互指令可以是拍击次数，例如，拍一次、拍两次以及拍击三次等。因此，该语音交互设备可以响应于拍击操作，获得语音交互设备的拍击次数；将拍击次数，作为目标交互指令。
44.可选地其他实施方式中，该语音交互设备支持的交互指令还可以是拍击方向，例如，拍击设备上方、拍击设备侧面、拍击设备正面等。因此，该语音交互设备可以响应于拍击操作，获得语音交互设备的拍击方向；将拍击方向，作为目标交互指令。
45.s103，根据目标交互指令，执行与目标交互指令相对应的预设交互动作。
46.示例性的，假定该语音交互设备支持的交互指令为拍击次数；当用户拍击语音交互设备一次，则触发唤醒语音交互设备进行语音交互；当用户拍击语音交互设备两次，则触发查询今天天气；当用户拍击语音交互设备三次，则触发关闭闹钟。
47.基于上述方案设计，语音交互设备通过接收用户的拍击操作，并识别出该拍击操作对应的目标交互指令，执行与目标交互指令相对应的预设交互动作。从而针对语音交互设备提供一种语音交互方式以外的交互方式，克服一些场景下语音交互方式存在的交互效率欠佳的问题。
48.此外，还应理解的是，虽然一些语音交互式设备也提供了控制按键，但出于设备美观的考虑，这些控制按键的尺寸通常较小；甚至一些语音交互设备为了不破坏设备整体的美感，将控制按键设置在语音交互设备较为隐秘位置。上述设计会使得用户难以快速准确的找到与控制需求相关的目标控制按键；而本实施例提供的基于拍击操作的交互方式，若将拍击次数作为交互指令，则用户拍击语音交互设备的任意位置；若以拍击方向作为加护指令，则用户可以沿特定方向拍击语音设备的任意位置，因此，可以在不需要额外增加新的控制按键的情况下，极大地提高了交互效率。
49.研究发现，一些用户对交互指令的交互动作存在个性化需求，因此，该语音交互设备记录有各交互指令的预设交互动作，用户可以根据个人需要对各交互指令的交互动作进行配置。即该语音交互设备还可以接收用户的配置操作，并响应于该配置操作，获得待配置指令新的交互动作。其中，该待配置指令可以是语音交互设备所提供交互指令中的至少一个。
50.示例性的，继续假定该语音交互设备支持的交互指令为拍击次数，该语音交互设备经用户重新配置后，当用户拍击语音交互设备一次，则触发关闭闹钟；当用户拍击语音交互设备两次，则触发查询今天天气；当用户拍击语音交互设备三次，则触发唤醒语音交互设备进行语音交互。
51.本实施中，为检测出用户拍击设备的次数，该语音交互设备可以响应于拍击操作，获得拍击操作产生的运动数据；根据运动数据，确定语音交互设备的拍击次数。
52.研究还发现，当用户连续拍击语音交互设备时，音交互设备会产生连续的加速度。因此，可选地的实施方式中，该运动数据可以是语音交互设备通过加速度传感器周期性采集的加速度序列。
53.基于该加加速度序列，语音交互设备根据加速度序列，获得目标加速度的数量，其中，目标加速度大于加速阈值，并且，若目标加速度的数量为多个时，相邻的目标加速度之间的时长间隔大于第一时长阈值，且小于第二时长阈值；将目标加速度的数量作为语音交互设备的拍击次数。
54.示例性，假定用户对语音交互设备连续进行了3次拍击，其产生的加速度的变化曲线如图3所示。即针对每次拍击操作，语音交互设备产生的加速成逐渐减小的趋势，并且，相邻两次拍击操作存在一定的时间间隔。
55.因此，本实施例中，该语音交互式设备将加速度序列中的每个加速度与加速阈值进行比较，若大于该加速阈值，则记为用户拍击了一次；并且，经研究发现，连续进行拍击时，相邻两次拍击操作之间的时长间隔大第一时长阈值，且小于第二时长阈值；因此，该语音交互设备在检测到一次拍击操作后，在第一时长阈值与第二时长阈值期间，若再次检测到大于加速阈值的加速度，则记为用户又拍击了一次语音交互设备。以此类推，可以检测出用户拍击语音交互式设备的拍击次数。
56.研究还发现，相较于加速度，通过语音交互设备产生的加加速度检测用户的拍击次数，可以取得更好的抗干扰效果。因此，可选地的其他实施方式中，运动数据为周期性采集的加加速度序列。
57.基于该加加速度序列，语音交互设备可以根据加加速度序列，获得目标序列集的数量，其中，目标序列集包括预设数量的加加速度，目标序列集中目标加加速度的数量大于数量阈值，目标加加速度分别位于对应的预设数值区间；并且，若目标序列集的数量为多个时，相邻的目标序列集之间的时长间隔小于第三时长阈值。
58.然后，该语音交互设备将目标序列集的数量作为语音交互设备的拍击次数。
59.作为本实施例提供的一种可选地实施方式，下面结合图4，就语音交互设备使用加加速度序列检测用户拍击次数的方式进行详细阐述。如图4所示，具体包括以下步骤：
60.s201，获取当前周期的加加速度。
61.s202，根据当前周期的加加速度的采样时间，获取预设数量的历史加加速度。
62.其中，历史加加速度为采样时间之前第一时长范围内的加加速度。
63.s203，判断当前周期的加加速度以及历史加加速度是否满足目标序列集的条件。
64.若满足，则执行步骤s204，若不满足，则执行步骤s205。
65.s204，记录一次检测到目标序列集，并返回步骤s201；
66.步骤s205，判断目标序列集的统计数量是否大于0。
67.若大于0，则执行步骤s206，若小于或者等于0，则返回执行步骤s201。
68.s206，判断采样时间与参考时间之间的时长间隔是否大于第三时长阈值。
69.其中，检测时间距离采样时间最近的目标序列集所对应的检测时间为参考时间。
70.若大于第三时长阈值，则执行步骤s207；若不大于第三时长阈值，则返回执行步骤s201。
71.其中，该第三时长阈值用于检测用户是否继续对语音交互设备进行拍击。其原理
在于，当语音交互设备检测到用户拍击了一次设备，然后，该拍击操作之后第三时长阈值的时长内，均未检测到用户再次对设备进行拍击，则认为用户未继续对设备进行拍击。
72.s207，则获得目标序列集的统计数量。
73.为使本领域技术人员能够实施本方案，下面结合具体的示例，对上述步骤进行说明。如图5所示，为本实施例提供的语音交互设备在受到拍击之后，加加速度一种可能的变化曲线，因此，若语音交互设备受到了拍击，则采样获得的加加速度序列的分布会趋近于该变化曲线。本实施例则基于该判断标准，对加加速度序列进行识别，从而确定用户是否拍击了语音交互设备。
74.由于本实施例中的加加速度序列为离散序列，因此，假定将图5中的变化曲线按照采样周期划分成10个区间，则每个区间对应一个预设数值区间；并且，假定加加速度的预设数量为10个，目标加加速度的数量阈值为6个。
75.然后，语音交互设备每次获取10个加加速度，按照这10个加加速度采集时间的先后顺序，将这10个加加速度分别与各自对应的预设数值区间进行匹配。即语音交互设备将第1个加加速度与第1个预设数值区间进行匹配，将第2加加速度与第2个预设数值区间进行匹配。以此类推，若10个加加速度中，有7个位于对应的预设数值区间，则这10个加加速度的分布满足该变化曲线的变化趋势；因此，这10个加加速度构成一个目标序列集。
76.当然，上述实施方式仅仅为了便于本领域技术人员理解所提供的示例，本领域技术人员可以根据需要对预设数值区间的数量以及加速度序列的数量进行调整，本实施例不做具体的限定。
77.此外，不同于将加加速度序列按照加加速度的预设数量对其进行分割的方式，本实施例中，语音交互设备提供一先入先出的缓存队列，该缓存队列能的容量为预先设定的预设数量。语音交互式设备将周期性采集的加加速度放入该缓存队列；并且，每当缓存队列中的加加速度发生更新后，则触发语音交互设备对其中缓存的加加速度进行一次检测，判断是否满足目标序列集的条件。
78.并且，为避免对后续采集的加加速度进行分析时，引入额外的干扰，该语音交互设备可以在缓存队列中的加加速度满足目标序列集时，将其中缓存的加加速度清除。
79.由于该缓存队列里面始终缓存有预设数量的最新加加速度，因此，可以避免不合理的数据分割方式对识别拍击动作所带来的干扰，从而提高检测拍击动作时候的准确率。
80.本实施例中，语音交互设备可以通过对相邻的两个加速度序列进行求导获得该加加速度序列，相应的实施方式包括：
81.(1)通过配置的加速度传感器，周期性地采集空间直角坐标系的三个坐标轴方向(x，y，z轴)的加速度，其中，相互垂直的x和y构建一水平面，z表示竖直于该水平面。
82.(2)通过三个方向的加速度计算出对应向量的大小r，
83.(3)通过连续两次加速之间的差值及采样周期计算出加加速度j，j＝δr/t。
84.然后，重复上述3个步骤，集合获得加加速度序列。
85.基于与上述智能交互方法相同的发明构思，本实施例还提供与该方法相关的装置，包括：
86.本实施例还提供一种智能交互装置，应用于语音交互设备。其中，该智能交互装置
包括至少一个可以软件形式存储于存储器中的功能模块。如图6所示，从功能上划分，智能交互装置可以包括：
87.操作接收模块201，用于接收用户的拍击操作。
88.本实施例中，该操作接收模块201用于实现图2中的步骤s101，关于该操作接收模块201的详细描述，可以参见步骤s101的详细描述。
89.操作确定模块202，用于响应于拍击操作，确定拍击操作对应的目标交互指令。
90.本实施例中，该操作确定模块202用于实现图2中的步骤s102，关于该操作确定模块202的详细描述，可以参见步骤s102的详细描述。
91.操作处理模块203，用于根据目标交互指令，执行与目标交互指令相对应的预设交互动作。
92.本实施例中，该操作处理模块203用于实现图2中的步骤s103，关于该操作处理模块203的详细描述，可以参见步骤s103的详细描述。
93.需要说明的是，该智能交互装置还可以其他的软件功能模块，用于实现智能交互方法的其他步骤或者子步骤。当然，上述操作接收模块201、操作确定模块202以及操作处理模块203同样可以用于实现该智能交互方法的其他步骤或者子步骤。对此，本实施例不做具体的限定，本领域技术人员可以根据不同的划分标准，进行适当调整。
94.本实施例还提供一种语音交互设备，语音交互设备包括处理器以及存储器，存储器存储有计算机程序，计算机程序被处理器执行时，实现所述的智能交互方法。
95.本实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，实现所述的智能交互方法。
96.综上所述，本技术实施例提供的智能交互方法及相关装置中，语音交互设备通过接收用户的拍击操作，并识别出该拍击操作对应的目标交互指令，执行与目标交互指令相对应的预设交互动作。从而针对语音交互设备提供一种语音交互方式以外的交互方式，克服一些场景下语音交互方式存在的交互效率欠佳的问题。
97.需要说明的是，在本技术的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
98.还应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本技术内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。
99.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附
图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
100.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
101.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
102.以上所述，仅为本技术的各种实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

智能交互方法及相关装置与流程

相关文献

最热文献