智能音箱的播报控制方法和装置与流程

2021-10-27 13:26:00 来源：中国专利 TAG：人工智能播报图像处理音箱装置

1.本技术涉及图像处理技术领域中的人工智能技术领域，尤其涉及一种智能音箱的播报控制方法和装置。

背景技术：

2.从文本到语音(texttospeech，tts)技术，是人机对话的一部分，在智能音箱中得到了广泛的使用。
3.相关技术中，当智能音箱开机时，即进行有关语音播报，然而，智能音箱的开机可能是偏离了用户真实意图的误触发，比如，对于小度智能音箱，只要用户在聊天中涉及到“小度”关键词，就会对小度智能音箱开机，这种误触发的开机会触发对应的语音播报，从而导致语音播报打扰用户，影响智能音箱的服务质量。

技术实现要素：

4.本技术提供了一种用于当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时对用户造成打扰的智能音箱的播报控制方法和装置。
5.根据第一方面，提供了一种智能音箱的播报控制方法，包括：获取预设区域的图像；判断所述图像之中是否包含用户的头像；以及如果包含所述用户的头像，则控制所述智能音箱进行语音播报。
6.根据第二方面，提供了一种智能音箱的播报控制装置，包括：获取模块，用于获取预设区域的图像；判断模块，用于判断所述图像之中是否包含用户的头像；以及控制模块，用于在包含所述用户的头像时，控制所述智能音箱进行语音播报。
7.根据第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述实施例描述的智能音箱的播报控制方法。
8.根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质所述计算机指令用于使所述计算机执行上述实施例描述的智能音箱的播报控制方法。
9.本技术实施例提供的技术方案，至少具有如下有益技术效果：
10.在检测到预设区域的图像中包含人像时，才控制智能音箱进行语音播报，由此，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，从而提升了智能音箱的服务质量。
11.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
12.附图用于更好地理解本方案，不构成对本技术的限定。其中：
13.图1是根据本技术第一实施例的智能音箱的播报控制方法的流程示意图；
14.图2是根据本技术第二实施例的智能音箱的播报控制方法的流程示意图；
15.图3是根据本技术第三实施例的智能音箱的播报控制方法的流程示意图；
16.图4是根据本技术第四实施例的智能音箱的显示界面示意图；
17.图5是根据本技术第五实施例的智能音箱的播报控制场景示意图；
18.图6是根据本技术第六实施例的智能音箱的播报控制装置的结构示意图；
19.图7是根据本技术第七实施例的智能音箱的播报控制装置的结构示意图；
20.图8是根据本技术第八实施例的智能音箱的播报控制装置的结构示意图；
21.图9是用来实现本技术实施例的智能音箱的播报控制的方法的电子设备的框图。
具体实施方式
22.以下结合附图对本技术的示范性实施例做出说明，其中包括本技术实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本技术的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
23.针对智能音箱开机即进行语音播报时，导致可能语音播报会打扰到用户的问题，本技术提供了一种把握语音播报时机，在用户需要的时候进行语音播报的方式。
24.具体而言，图1是根据本技术一个实施例的智能音箱的播报控制方法的流程图，如图1所示，该方法包括：
25.步骤101，获取预设区域的图像。
26.其中，预设区域可以是针对智能音箱的屏幕而言，与屏幕的夹角为预设范围的区域，也可以是用户在使用智能音箱时，通常所在的区域等，其中，该通常所在的区域可以统计预设的时间段内用户使用智能音箱的历史所在位置，当历史所在位置的次数大于预设阈值时，则认为该历史所在位置为预设区域。
27.具体的，获取预设区域的图像，以便于后续根据图像中包含的图像内容来确定用户是否意图使用智能音箱。在实际应用中，可根据智能音箱中的摄像头设备才获取预设区域的图像，也可控制智能设备与家中的其他拥有摄像头的设备联网后，控制其他设备采集得到的。
28.步骤102，判断图像之中是否包含用户的头像。
29.具体的，可以通过提取图像的图像特征，识别图像特征中是否包含人脸特征，来判断图像之中是否包含用户的头像；也可以识别图像中的轮廓信息，根据提取到的轮廓信息中是否包含人脸轮廓，来判断图像之中是否包含用户的头像。
30.在实际执行中，该用户的头像可以是任意用户的头像，也可以是预先设置的特定用户的头像。
31.步骤103，如果包含用户的头像，则控制智能音箱进行语音播报。
32.可以理解的是，由于预设区域通常对应于用户使用智能音箱的区域，因而，当预设区域中包含用户的头像时，则认为用户意图使用智能音箱，从而，控制智能音箱进行语音播报。当然，当图像之中未包括用户的头像时，为了进一步提升服务质量，还可以判断是否满足主动进行语音播报的时机。
33.在本技术的一个实施例中，考虑到在实际应用中，若智能音箱处于屏保状态，则认为用户在不久前还使用过智能音箱，因此，为了避免用户在不知道的情况下，智能音箱直接进入睡眠状态，在本实施例中，还可以检测智能音箱是否处于屏保状态，比如，检测智能音箱的当前显示图像是否为预设的屏保图像，又比如，检测智能音箱的当前运行程序接口，根据该接口判断当前是否运行屏保应用。
34.进一步的，若是智能音箱处于屏保状态，则在屏保状态退出时进行语音播报以告知用户。比如告知用户“我睡觉啦主人”。
35.若是智能音箱不处于屏保状态，则确定智能音箱不满足主动语音播报的条件，从而，不进行语音播报。
36.在本技术的另一个实施例中，即使在预设区域没有采集到用户的人像，但是用户可能主动打开了智能音箱，这种情况下，显然也满足语音播报的条件。
37.具体而言，检测智能音箱的启动状态，比如，可以根据智能音箱的当前上层接口调用情况等来确定启动状态，或者可以根据被触发的对象来确定启动状态等，若是启动状态为主动开机状态，比如，上层接口调用的对象是启动按键，或者是启动状态是电源接入状态，又比如，启动状态是重启键被触发等，则控制智能音箱进行语音播报，如果启动状态为被动开机状态，比如，自动开关机状态，或者是静默重启状态，则控制智能音箱不进行语音播报。
38.由此，本实施例中的智能音箱播报时，从多个维度考量用户的真实意图，根据用户的真实意图来确定是否语音播报，为了使得本领域的技术人员更加清楚的理解本技术下面结合一个具体的应用场景来进行说明。
39.在该场景中，预设区域的图像由智能音箱中的摄像头采集，如图2所示，可以检测智能音箱的摄像头是否支持人脸检测，若是不支持，则不进行语音播报，其中，还可以向用户发送提醒智能音箱进行版本升级的消息，以便于后续进行人脸检测的实施。
40.若是支持，则判断摄像头是否打开，若是已经打开，则获取并检测预设区域的图像中是否包含人脸，若是包含人脸，则进行语音播报，若是不包含，则检测智能音箱是否处于屏保状态，若是处于屏保状，则在屏保状态退出后进行语音播报，其中，屏保状态退出可以是在达到预设时间后自动退出的，也可以是用户触发对应的控件退出的。如智能音箱不处于屏保状态，则等待是否识别人像，同时不进行播报。
41.若是智能音箱的摄像头没有打开，则检测当前智能音箱的启动状态，如果启动状态为主动开机状态，则控制智能音箱进行语音播报，如果启动状态为被动开机状态，则控制智能音箱不进行语音播报。
42.综上，本技术实施例的智能音箱的播报控制方法，在检测到预设区域的图像中包含人像时，才控制智能音箱进行语音播报，由此，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，从而提升了智能音箱的服务质量。
43.基于以上实施例，为了进一步提升智能音箱的服务质量，还可以根据当前场景需要，灵活确定语音播报的方式。
44.在本技术的一个实施例中，如图3所示，上述步骤103包括：
45.步骤201，根据用户的头像获取用户的年龄信息和性别信息。
46.容易理解的是，用户的头像反映了用户的年龄信息和性别信息，因此，可以根据用户的头像获取用户的年龄信息和性别信息。
47.需要说明的是，在不同的应用场景中，可以采用不同的方式来实现根据用户的头像获取用户的年龄信息和性别信息：
48.在本技术的一个实施例中，可以预先构建不同的年龄信息和性别信息对应的人像特征，比如，女性对应的人像特征包括长头发特征、化妆特征等，男性对应的人像特征包括胡须特征等，进而，提取用户的头像的头像特征，将头像特征与预先构建的头像特征比对，根据比对结果确定用户的年龄信息和性别信息。
49.在本技术的另一个实施例中，可预先根据大量样本图像训练得到深度学习模型，该深度学习模型的输入为包含人像区域的图像，输出为年龄信息和性别信息，因此，可以将图像输入到深度学习模型，获取对应的年龄信息和性别信息。
50.步骤202，根据年龄信息和性别信息获取播报推荐内容，并根据播报推荐内容进行语音播报。
51.具体的，由于不同的年龄和性别感兴趣的内容不同，比如，中年男性对金融信息普遍感兴趣等，因此，根据年龄信息和性别信息获取播报推荐内容，比如，可以查询预设的对应关系，确定与年龄信息和性别对应的播报推荐内容等，进而，根据播报推荐内容进行语音播报。
52.当然，为了进一步避免打扰用户，可以在进行语音播报时选择播报时间，在一些可能的示例中，在合适的时间为用户进行语音播报，比如，根据用户的人像信息统计用户使用音箱的历史使用时间，获取当前的时间，在当前的时间与历史使用时间匹配时进行语音播报；
53.在另一些可能的示例中，可以确定与播报推荐内容对应的大量用户的播报时间历史数据，根据播报时间历史数据确定最常被用户播报的时间，获取当前的时间，在当前的时间与最常被用户播报的时间匹配时进行语音播报。
54.在本技术的另一个实施例中，如图4所示，智能音箱具有显示屏，因此在制智能音箱进行语音播报之前，还可以在显示屏之上显示推荐的功能卡，其中，功能卡与语音播报的内容对应，进而，在进行语音播报时，用户也可以直观的看到对应的语音播报的内容。
55.在本技术的又一个实施例中，为了进一步提升用户的使用体验，还可以根据用户的人像信息确定用户的年龄信息，根据用户的年龄信息查询预设数据库，获取匹配的播报声音信息和音量信息，比如，如图5所示，当用户的年龄是10岁时，采用卡通声音中音量语音播报，当用户的年龄是60岁时，采用播音腔声音高音语音播报。
56.综上，本技术实施例的智能音箱的播报控制方法，可以根据实际场景灵活选择语音播报的方式，进一步提升了智能音箱的服务质量。
57.为了实现上述实施例，本技术还提出了一种智能音箱的播报控制装置，图6是根据本技术一个实施例的智能音箱的播报控制装置的结构示意图，如图6所示，该智能音箱的播报控制装置包括：获取模块61、判断模块62、控制模块63，其中，
58.获取模块61，用于获取预设区域的图像；
59.具体的，获取模块61获取预设区域的图像，以便于后续根据图像中包含的图像内容来确定用户是否意图的使用智能音箱。在实际应用中，可根据智能音箱中的摄像头设备
才获取预设区域的图像，也可控制智能设备与家中的其他拥有摄像头的设备联网后，控制其他设备采集得到的。
60.判断模块62，用于判断图像之中是否包含用户的头像；
61.具体的，判断模块62可以通过提取图像的图像特征，识别图像特征中是否包含人脸特征，来判断图像之中是否包含用户的头像；也可以识别图像中的轮廓信息，根据提取到的轮廓信息中是否包含人脸轮廓，来判断图像之中是否包含用户的头像。
62.控制模块63，用于在包含用户的头像时，控制智能音箱进行语音播报。
63.在本技术的一个实施例中，考虑到在实际应用中，若智能音箱处于屏保状态，则认为用户在不久前还使用过智能音箱，因此，为了避免用户在不知道的情况下，智能音箱直接进入睡眠状态，在本实施例中，还可以检测智能音箱是否处于屏保状态，比如，检测智能音箱的当前显示图像是否为预设的屏保图像，又比如，检测智能音箱的当前运行程序接口，根据该接口判断当前是否运行屏保应用。
64.具体而言，如图7所示，在如图6所示的基础上，该装置还包括：第一检测模块64，其中，
65.第一检测模块64，用于在图像之中未包含用户的头像时，检测智能音箱是否处于屏保状态；
66.在本实施例中，控制模块63，还用于：
67.在智能音箱处于屏保状态时，在屏保状态退出时进行语音播报。
68.在本技术的一个实施例中，即使在预设区域没有采集到用户的人像，但是用户可能主动打开了智能音箱，这种情况下，显然也满足语音播报的条件。
69.如图8所示，在如图6所示的基础上，该装置还包括：第二检测模块65，其中，
70.第二检测模块65，用于检测智能音箱的启动状态；
71.控制模块63，还用于：
72.在启动状态为主动开机状态时，控制智能音箱进行语音播报；
73.在启动状态为被动开机状态时，控制智能音箱不进行语音播报。
74.具体而言，第二检测模块65检测智能音箱的启动状态，比如，第二检测模块65可以根据智能音箱的当前上层接口调用情况等来确定启动状态，或者可以根据被触发的对象来确定启动状态等，若是启动状态为主动开机状态，比如，上层接口调用的对象是启动按键，或者是启动状态是电源接入状态，又比如，启动状态是重启键被触发等，则控制模块63控制智能音箱进行语音播报，如果启动状态为被动开机状态，比如，自动开关机状态，或者是静默重启状态，则控制智能音箱不进行语音播报。
75.需要说明的是，前述对智能音箱的播报控制方法的解释说明，也使适用于本实施例的智能音箱的播报控制装置，其实现原理类似，在此不再赘述。
76.综上，本技术实施例的智能音箱的播报控制装置，在检测到预设区域的图像中包含人像时，才控制智能音箱进行语音播报，由此，当确定用户意图使用智能音箱时，才进行语音播报，避免语音播报被误触发时，对用户造成打扰，保证了在合适的实际进行语音播报，从而提升了智能音箱的服务质量。
77.基于以上实施例，为了进一步提升智能音箱的服务质量，还可以根据当前场景需要，灵活确定语音播报的方式。
78.在本技术的一个实施例中，控制模块63，具体用于：
79.根据用户的头像获取用户的年龄信息和性别信息；以及
80.根据年龄信息和性别信息获取播报推荐内容，并根据播报推荐内容进行语音播报。
81.在本技术的一个实施例中，智能音箱具有显示屏，控制模块63，还用于：
82.在显示屏之上显示推荐的功能卡，其中，功能卡与语音播报的内容对应。
83.综上，本技术实施例的智能音箱的播报控制装置，可以根据实际场景灵活选择语音播报的方式，进一步提升了智能音箱的服务质量。
84.根据本技术的实施例，本技术还提供了一种电子设备和一种可读存储介质。
85.如图9所示，是根据本技术实施例的智能音箱的播报控制的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本技术的实现。
86.如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
87.存储器902即为本技术所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本技术所提供的智能音箱的播报控制的方法。本技术的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本技术所提供的智能音箱的播报控制的方法。
88.存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本技术实施例中的智能音箱的播报控制的方法对应的程序指令/模块(例如，附图6所示的获取模块61、判断模块62、控制模块63)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的智能音箱的播报控制的方法。
89.存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据智能音箱的播报控制的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至智能音箱的播报控制的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
90.智能音箱的播报控制的方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。
91.输入装置903可接收输入的数字或字符信息，以及产生与智能音箱的播报控制的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。
92.此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
93.这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
94.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
95.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
96.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
97.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本技术公开的技术方案所期望的结果，本文在此不进行限制。
98.上述具体实施方式，并不构成对本技术保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所作的修改、等同替换和改进等，均应包含在本技术保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

智能音箱的播报控制方法和装置与流程

相关文献

最热文献