一种第一终端设备、第二终端设备和语音唤醒方法与流程

2022-07-02 12:42:04 来源：中国专利 TAG：

1.本公开涉及终端设备语音交互技术领域，尤其涉及一种第一终端设备、第二终端设备和语音唤醒方法。

背景技术：

2.随着语音识别技术的飞速发展,语音交互的应用场景越来越普遍。在终端设备进行语音交互时，终端设备一般处于待机状态，如果需要与终端设备进行交互，第一步是先将终端设备唤醒，在此过程中现有技术主要通过唤醒算法识别语音中的唤醒词，但是当录入噪声时可能会导致终端设备误唤醒，给用户的正常生活带来许多不便。

技术实现要素：

3.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种第一终端设备、第二终端设备和语音唤醒方法，可以在唤醒终端设备过程中消除其他终端设备所造成的影响，降低误唤醒率。
4.为了实现上述目的，本公开实施例提供的技术方案如下：
5.第一方面，提供一种第一终端设备，包括：
6.第一通信器，被配置为：接收第二终端设备发送的待识别语音信号，第一终端设备和第二终端设备通过短距离无线通信方式连接；
7.第一控制器，被配置为：响应于待识别语音信号，采集音频参考信号；从待识别语音信号中去除音频参考信号，以得到目标识别信号；
8.第一通信器，还被配置为：将通知信号发送至第二终端设备，通知信号为目标识别信号，或者，通知信号用于指示第二终端设备进入唤醒状态。
9.作为本公开实施例一种可选的实施方式，第一控制器，具体被配置为：计算待识别语音信号与音频参考信号之间的时延；若时延大于预设时延阈值，则基于待识别语音信号对音频参考信号进行校正，以得到与待识别语音信号同步的音频参考信号；从待识别语音信号中，去除同步后的音频参考信号，以得到目标识别信号。
10.作为本公开实施例一种可选的实施方式，控制器，具体被配置为：从待识别语音信号中去除音频参考信号得到目标识别信号；基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词；判断多个关键词中是否包括目标唤醒词；在多个关键词中包括目标唤醒词的情况下，生成通知信号，以指示第二终端设备进入唤醒状态。
11.作为本公开实施例一种可选的实施方式，唤醒词模型中包括多个预设唤醒词，控制器，具体被配置为：分别计算唤醒词模型中每个预设唤醒词与关键词之间的相似度；将多个相似度进行加权求和得到总相似度；在总相似度达到预设相似度阈值的情况下，确定关键词为目标唤醒词。
12.第二方面，提供一种第二终端设备，第二终端设备设置有麦克风阵列，包括：
13.第二通信器，被配置为：向第一终端设备发送待识别语音信号；接收第一终端设备
反馈的目标识别信号；
14.第二控制器，被配置为：响应于目标识别信号，基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词；判断多个关键词中是否包括目标唤醒词；在多个关键词中包括目标唤醒词的情况下，控制进入唤醒状态。
15.第三方面，提供一种第二终端设备，第二终端设备设置有麦克风阵列，包括：
16.第二通信器，被配置为：向第一终端设备发送待识别语音信号；接收第一终端设备反馈的通知信号，通知信号用于指示第二终端设备进入唤醒状态；
17.第二控制器，被配置为：响应于通知信号，控制进入唤醒状态。
18.作为本公开实施例一种可选的实施方式，通信器，还被配置为：接收用户输入的待识别语音信号；
19.控制器，还被配置为：响应于待识别语音信号，进行语音识别；在待识别语音信号中包括预设唤醒词的情况下，控制第二终端设备进入待唤醒状态；在待唤醒状态下，向第一终端设备发送待识别语音信号。
20.第四方面，提供一种语音唤醒方法，该方法包括：接收第二终端设备发送的待识别语音信号，第一终端设备和第二终端设备通过短距离无线通信方式连接；响应于待识别语音信号，采集音频参考信号；从待识别语音信号中去除音频参考信号，以得到目标识别信号；将通知信号发送至第一终端设备，通知信号为目标识别信号，或者，通知信号用于指示第二终端设备进入唤醒状态。
21.作为本公开实施例一种可选的实施方式，从待识别语音信号中去除音频参考信号，以得到目标识别信号，包括：计算待识别语音信号与音频参考信号之间的时延；若时延大于预设时延阈值，则基于待识别语音信号对音频参考信号进行校正，以得到与待识别语音信号同步的音频参考信号；从待识别语音信号中，去除同步后的音频参考信号，以得到目标识别信号。
22.作为本公开实施例一种可选的实施方式，从待识别语音信号中去除音频参考信号，以得到目标识别信号之后，且将通知信号发送至第二终端设备之前，包括：从待识别语音信号中去除音频参考信号得到目标识别信号；基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词；判断多个关键词中是否包括目标唤醒词；在多个关键词中包括目标唤醒词的情况下，生成通知信号，以指示第二终端设备进入唤醒状态。
23.作为本公开实施例一种可选的实施方式，唤醒词模型中包括多个预设唤醒词，判断多个关键词中是否包括目标唤醒词，包括：分别计算唤醒词模型中每个预设唤醒词与关键词之间的相似度；将多个相似度进行加权求和得到总相似度；在总相似度达到预设相似度阈值的情况下，确定关键词为目标唤醒词。
24.第五方面，提供一种语音唤醒方法，该方法包括：向第一终端设备发送待识别语音信号；接收第一终端设备反馈的目标识别信号；响应于目标识别信号，基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词；判断多个关键词中是否包括目标唤醒词；在多个关键词中包括目标唤醒词的情况下，控制进入唤醒状态。
25.第六方面，提供一种语音唤醒方法，该方法包括：向第一终端设备发送待识别语音信号；接收第一终端设备反馈的通知信号，通知信号用于指示第二终端设备进入唤醒状态；响应于通知信号，控制进入唤醒状态。
26.作为本公开实施例一种可选的实施方式，向第一终端设备发送待识别语音信号，包括：接收用户输入的待识别语音信号；响应于待识别语音信号，进行语音识别；在待识别语音信号中包括预设唤醒词的情况下，控制第二终端设备进入待唤醒状态；在待唤醒状态下，向第一终端设备发送待识别语音信号。
27.第七方面，提供一种计算机可读存储介质，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第四方面或其任意一种可选的实施方式所述的语音唤醒方法，或者如第五方面所述的语音唤醒方法，又或者如第四方面或其任意一种可选的实施方式所述的语音唤醒方法。
28.第八方面，提供一种计算机程序产品，其特征在于，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现如第四方面或其任意一种可选的实施方式所述的语音唤醒方法，或者如第五方面所述的语音唤醒方法，又或者如第四方面或其任意一种可选的实施方式所述的语音唤醒方法。
29.本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供了一种第一终端设备、第二终端设备和语音唤醒方法，在第一终端设备和第二终端设备通过短距离无线通信方式连接的情况下，用户需要语音控制第二终端设备但存在第一终端设备的噪声干扰时，其中第一终端设备包括：通过通信器接收第二终端设备发送的待识别语音信号，再由控制器响应于该待识别语音信号，采集第一终端设备本机的音频参考信号，然后从待识别语音信号中去除音频参考信号，以得到目标识别信号，进一步通过控制器向第一终端设备发送通知信号，从而通知第一终端设备利用目标识别信号执行相应的操作，或者通知第一终端设备执行唤醒操作。通过上述方法，消除了其他设备所产生的噪声的干扰，提升了唤醒率，降低了误唤醒率。
附图说明
30.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
31.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
32.图1a为本公开实施例所述一种语音唤醒方法的实现场景示意图一；
33.图1b为本公开实施例所述一种语音唤醒方法的实现场景示意图二；
34.图2a为本公开实施例所述一种第一终端设备的硬件配置框图；
35.图2b为本公开实施例所述一种第二终端设备的配置框图；
36.图3为本公开实施例所述第一终端设备或第二终端设备中软件配置示意图；
37.图4为本公开实施例所述一种语音唤醒方法的流程示意图一；
38.图5为本公开实施例所述一种语音唤醒方法的流程示意图二；
39.图6为本公开实施例所述得到目标识别信号示意图；
40.图7为本公开实施例所述的二次唤醒校验的流程示意图；
41.图8为本公开实施例所述的另一种语音唤醒方法的流程图；
42.图9为本公开实施例所述的再一种语音唤醒方法的流程图；
43.图10为本公开实施例所述的第一终端设备和第二终端设备的架构图一；
44.图11为本公开实施例所述的第一终端设备和第二终端设备的架构图二。
具体实施方式
45.为使本技术的目的、实施方式和优点更加清楚，下面将结合本技术示例性实施例中的附图，对本技术示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本技术一部分实施例，而不是全部的实施例。
46.基于本技术描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术所附权利要求保护的范围。此外，虽然本技术中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是，本技术中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本技术的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。
47.在智能家居场景中，为满足用户的多样化需求，应用语音交互技术来控制智能家居场景中的多个终端设备。在用户语音控制其中一个终端设备时，其他终端设备正在播放的音频内容可能会对该终端设备识别用户语音造成影响。举例来说，用户在需要唤醒智能音箱时说“小爱同学”，但此时电视上播放的电视剧内容中提到“小白同学”，智能音箱会接收到两段音频内容，其中“小白同学”是噪声信息，但智能音箱难以正确识别出用户的语音信号并执行唤醒操作。因此，在该终端设备执行语音识别操作时，其他终端设备所产生的噪声会造成干扰，从而唤醒率降低。
48.为了解决上述问题，本公开实施例提供了一种第一终端设备、第二终端设备和语音唤醒方法，在第一终端设备和第二终端设备通过短距离无线通信方式连接的情况下，用户需要语音控制第二终端设备但存在第一终端设备的噪声干扰时，第一终端设备通过通信模块接收第二终端设备发送的待识别语音信号，再由处理模块响应于该待识别语音信号，采集第一终端设备本机的音频参考信号，然后从待识别语音信号中去除音频参考信号，以得到目标识别信号，进一步通过处理模块向第一终端设备发送通知信号，从而通知第一终端设备利用目标识别信号执行相应的操作，或者通知第一终端设备执行唤醒操作。通过上述第一终端设备，消除了其他设备所产生的噪声的干扰，提升了唤醒率，降低了误唤醒率。
49.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的术语作简单地介绍：
50.回声消除(acoustic echo cancellation，aec)，原理是使用自适应滤波算法调整滤波器的权值向量，估计一个近似的回声路径来逼近真实回声路径，从而得到估计的回声信号，并在纯净语音和回声的混合信号中除去此信号来实现回声的消除。
51.一些实施例中，终端设备包括但不限于台式设备、手持个人计算机(personal computer，pc)、个人数字助理、嵌入式处理器、数字信号处理器、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、智能家居设备、手持设备、可穿戴设备、虚拟现实和/或增强现实设备、物联网设备、车载信息娱乐设备、流媒体客户端设备、电子书阅读设备、销售终端(point of sale，pos)、电动汽车控制系统和其他各种电子设备。
52.如图1a所示，图1a为本公开实施例所述一种语音唤醒方法的实现场景示意图一，
图1a中包括第一终端设备200、第二终端设备100、智能设备300以及服务器400。
53.在如图1a所示的实现场景中，用户期望通过语音控制第二终端设备100，而场景中第一终端设备200处于工作状态正在播放音频，因此第二终端设备100不仅会接收到用户的语音还会接收到第一终端设备100的音频生成待识别语音信号，对第二终端设备100的唤醒率和误唤醒率均造成影响。本公开一些实施例中，在第二终端设备100将接收到的待识别语音信号发送至第一终端设备之后，由第一终端设备200进行处理。首先第一终端设备200接收该待识别语音信号，然后采集本机所产生的音频参考信号，再从该待识别语音信号中去除音频参考信号得到目标识别信号，进一步将目标识别信号发送至第二终端设备100，或者将目标识别信号校验后生成的通知信号发送至第二终端设备100。提升了终端设备语音交互的唤醒率，降低了误唤醒率。
54.在一些实施例中，用户可通过智能设备300或第二终端设备100操作第一终端设备200，第一终端设备200与服务器400进行数据通信。
55.在一些实施例中，第二终端设备100可以是遥控器，遥控器和终端设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制第一终端设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制第一终端设备200。
56.在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制第一终端设备200。例如，使用在智能设备上运行的应用程序控制第一终端设备200。
57.在一些实施例中，第一终端设备200还可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。
58.在一些实施例中，第一终端设备200还可以采用除了第二终端设备100和智能设备300之外的方式进行控制，例如，可以通过第一终端设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过第一终端设备200设备外部设置的语音控制设备来接收用户的语音指令控制。
59.在一些实施例中，可允许第一终端设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器400可以向第一终端设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。或者是云服务器。上述仅是一种示例，本实施例中对此不作任何限定。
60.如图1b所示，为本公开实施例提供的语音唤醒方法的一种实现场景示意图一，图中包括智能音箱201、智能电视202，其中智能音箱201、智能电视202。在如图1b所示的场景中，用户期望通过语音“小a同学”唤醒智能音箱201，然而此时智能电视202正在播放电视剧，智能电视202的喇叭中传出“小白同学”，则智能音箱201接收到的待识别语音信号中包括“小a同学”和“小白同学”，根据智能电视202缓存的“小白同学”对应的信号数据，智能电视202可以去除待识别语音信号中包括的“小白同学”。因此智能音箱201将待识别语音信号发送至智能电视202，智能电视202采集到“小白同学”对应的信号数据，从待识别语音信号中予以去除，得到目标识别信号，进一步的，将去除智能电视202所产生的噪音得到目标识别信号“小a同学”发送至智能音箱201，以由智能音箱201进行识别处理并进入唤醒状态；或者由智能电视202将目标识别信号处理得到的通知信号发送至智能音箱201，指示智能音箱
201进入唤醒状态，从而实现了智能音箱201和智能电视202的相互配合，准确地进行唤醒性能提升和误唤醒性能降低。
61.图2a为本公开实施例所述一种第一终端设备的硬件配置框图。如图2a所示蓝牙设备包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器，视频处理器，音频处理器，图形处理器，ram，rom，用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、oled显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及epg数据信号。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。
62.在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制第一终端设备200的整体操作。用户可在显示器260上显示的图形用户界面(graphic user interface，gui)输入用户命令，则用户输入接口通过图形用户界面接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。
63.在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素中的至少一种。
64.图2b为本公开实施例所述一种第二终端设备的配置框图。如图2b所示，第二终端设备100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。第二终端设备100可接收用户的输入操作指令，且将操作指令转换为第一终端设备200可识别和响应的指令，起用用户与第一终端设备200之间交互中介作用。
65.在一些实施例中，控制器包括中央处理器(central processing unit，cpu)，视频处理器，音频处理器，图形处理器(graphics processing unit，gpu)，ram random access memory，ram)，rom(read-only memory,rom)，数字信号处理器(digital signal processing，dsp)用于输入/输出的第一接口至第n接口，通信总线(bus)等中的至少一种。
66.cpu处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。cpu处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。
67.本公开实施例提供一种第一终端设备，该第一终端设备包括：
68.第一通信器，被配置为：接收第二终端设备发送的待识别语音信号，第一终端设备和第二终端设备通过短距离无线通信方式连接；
69.第一控制器，被配置为：响应于待识别语音信号，采集音频参考信号；从待识别语音信号中去除音频参考信号，以得到目标识别信号；
70.第一通信器，还被配置为：将通知信号发送至第一终端设备，通知信号为目标识别信号，或者，通知信号用于指示第二终端设备进入唤醒状态。
71.上述第一终端设备与第二终端设备通过短距离无线通信方式连接。该第一终端上设备通过通信器接收第二终端设备发送的待识别语音信号，然后由控制器响应于待识别语音信号，采集本机产生的音频参考信号，并从待识别语音信号中去除音频参考信号以得到目标识别信号。进一步再由通信器将目标识别信号发送至第一终端设备，或者将目标识别信号处理后的得到的通知信号发送至第一终端设备。实现了在智能家居场景中，由第一终端设备消除自身音频信号对第二终端设备所接收到的语音的影响，提升了待识别语音信号的信噪比，进一步提升了终端设备语音交互的唤醒率，降低了终端设备语音交互的误唤醒率。
72.本公开实施例提供一种第二终端设备，第二终端设备设置有麦克风阵列，该第一终端设备包括：
73.第二通信器，被配置为：向第一终端设备发送待识别语音信号；接收第一终端设备反馈的目标识别信号；
74.第二控制器，被配置为：响应于目标识别信号，基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词；判断多个关键词中是否包括目标唤醒词；在多个关键词中包括目标唤醒词的情况下，控制进入唤醒状态。
75.上述第二终端设备与第一终端设备通过短距离无线通信方式连接。该第二终端设备通过通信器向第一终端设备发送待识别语音信号，然后接收第一终端设备反馈的目标识别信号，该目标识别信号消除了待识别语音信号中夹杂的噪声，尤其消除了第一终端设备所产生的音频参考信号。进一步的，该第二终端设备由控制器响应于目标识别信号，基于唤醒词模型对目标识别信号进行识别，以得到其中包括的多个关键词，再判断这多个关键词是否包括目标唤醒词，若是，则确定执行唤醒操作，使得第二终端设备进入唤醒状态。实现了同时优化唤醒率和误唤醒率。
76.本公开实施例提供另一种第二终端设备，第二终端设备设置有麦克风阵列，该第一终端设备包括：
77.第二通信器，被配置为：向第一终端设备发送待识别语音信号；接收第一终端设备反馈的通知信号，通知信号用于指示第二终端设备进入唤醒状态；
78.第二控制器，被配置为：响应于通知信号执行唤醒操作，以进入唤醒状态。
79.上述第二终端设备与第一终端设备通过短距离无线通信方式连接。该第二终端设备通过通信器向第一终端设备发送待识别语音信号，然后接收第一终端设备反馈的通知信号，该通知信号指示第二终端设备进入唤醒状态，则由控制器响应于该通知信号，执行唤醒操作，使得第二终端设备进入唤醒状态。实现了在第一终端设备和第二终端设备所形成的系统中，降低了功耗，提升了唤醒性能。
80.图3为本公开实施例所述第一终端设备或第二终端设备中软件配置示意图，如图3所示，将系统分为四层，从上至下分别为应用程序(applications)层(简称“应用层”)，应用程序框架(application framework)层(简称“框架层”)，安卓运行时(android runtime)和
系统库层(简称“系统运行库层”)，以及内核层。内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。
81.综上，本公开实施例提供了一种第一终端设备、第二终端设备和语音唤醒方法，在第一终端设备和第二终端设备通过短距离无线通信方式连接的情况下，用户需要语音控制第二终端设备但存在第一终端设备的噪声干扰时，其中第一终端设备包括：通过通信器接收第二终端设备发送的待识别语音信号，再由控制器响应于该待识别语音信号，采集第一终端设备本机的音频参考信号，然后从待识别语音信号中去除音频参考信号，以得到目标识别信号，进一步通过控制器向第一终端设备发送通知信号，从而通知第一终端设备利用目标识别信号执行相应的操作，或者通知第一终端设备执行唤醒操作。通过上述方法，消除了其他设备所产生的噪声的干扰，提升了唤醒率，降低了误唤醒率。
82.如图4所示，图4为本公开实施例所述的一种语音唤醒方法的流程示意图一，该方法包括：
83.s401、向第一终端设备发送待识别语音信号。
84.其中，第一终端设备是用户期望的执行语音所指示的操作的终端设备，第二终端设备是与第一终端设备处于同一环境中正在播放音频或视频等多媒体数据的终端设备。第二终端设备设置有麦克风阵列，第一终端设备和第二终端设备通过短距离无线通信方式连接。
85.上述短距离无线通信方式可以包括但不限于：有线网络，无线网络，其中，该有线网络包括局域网；该无线网络包括：蓝牙(bluetooth)、无线局域网802.11(wi-fi)、红外数据传输(infrared data association，irda)及其他实现无线通信的网络。
86.上述麦克风阵列是将一组麦克风传感器按某种方式放置在第二终端设备上，在空间上接收声音信号。经过一定的处理过程，人们可以提取接收信号的有关特征信息，如幅度、频率、方向等。麦克风阵列按麦克风传感器在空间位置的不同分布，会有如下的拓扑结构：线性阵列、圆形阵列、球形阵列等等，严谨的应该是一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量，也就是麦克风数量，可以是4个，本公开对此不做限制。
87.一些实施例中，第二终端设备通过麦克风阵列接收用户输入的待识别语音信号，其中，待识别语音信号是直接获取用户语音进行模数转换后得到的语音信号。
88.在第二终端设备接收到待识别语音信号之后，响应于该待识别语音信号，进行语音识别，以得到该待识别语音信号中包括的多个关键词。进一步的，判断这多个关键词中是否包括预设唤醒词，在这多个关键词中包括预设唤醒词的情况下，确定第二终端设备进入待唤醒状态，需要进行二次唤醒校验从而最终确定第二终端是否进入唤醒状态，以保证唤醒率。其中，待唤醒状态是介于待机状态和唤醒状态之间的状态。
89.示例性的，电视为第一终端设备，智能音箱为第二终端设备，智能音箱与电视通过蓝牙连接，预设唤醒词为小爱同学。用户通过语音的方式唤醒智能音箱：“小a同学”，智能音箱接收到用户语音后，进行语音识别，得到多个关键词：小、a、同、学、小a、同学、小a同学等，判断得到多个关键词中包括预设唤醒词“小a同学”，则确定智能音箱进入待唤醒状态。
90.本公开实施例中，在第二终端设备产生噪声干扰且第一终端设备算力较强的情况
下，为减少第一终端设备和第二终端设备所构成的系统的功耗，在第二终端设备保持较低算力的情况下，利用第一终端设备较强的算力进行二次验证，一方面提升了唤醒率，另一方面减少了设备功耗，节能。
91.一些实施例中，在基于待识别语音信号进行语音识别的过程中，本公开实施例提供一种实施方式，由于不同用户的语音对应不同的声纹特征，因此第二终端设备根据待识别语音信号中包括的声纹特征确定待识别语音信号对应的用户是否为合法用户，合法用户是指预先注册登陆的用户，例如，智能家居环境下，预先在第二终端设备注册并登陆用户账号的房屋主人。在确定待识别语音信号对应的用户是合法用户的情况下，进行语音识别，从而判断是否进入待唤醒状态，提升了语音唤醒的安全性。
92.另一些实施例中，在对该待识别语音信号进行语音识别之前，由于待识别语音信号中包括白噪音或环境噪声等非人声信号，需要进行降噪处理，以去除非人声信号，提升语音识别的准确率。降噪方法包括但不限于：自适应(least mean square，lms)滤波器、自适应陷波器、基本谱减法、维纳滤波器等，本公开对降噪方法不做限定。
93.上述实施例中，第二终端设备向第一终端设备发送待识别语音信号，以由第二终端设备进行二次验证。在此过程中，通过麦克风阵列接收用户输入的语音，然后可以通过声纹特征不同对用户身份进行识别，从而保障安全性，也可以通过降噪方法对语音中包括的非人声信号进行去除，以提升语音识别的准确率。
94.s402、接收第二终端设备发送的待识别语音信号。
95.s403、响应于待识别语音信号，采集音频参考信号。
96.其中，音频参考信号由第二终端设备播放的多媒体数据所产生。
97.一些实施例中，在智能家居场景下，由于待识别语音信号中包含第一终端设备所产生的音频参考信号，因此由第一终端设备采集本设备所播放的音频参考信号，本公开实施例提供一种实施方式进行音频参考信号的采集，采集第一终端设备配置的功放输出的数字信号作为音频参考信号，或者，采集第一终端设备配置的扬声器输出的模拟信号作为数字音频信号。其中，数字信号便于进行处理，模拟信号更接近待识别语音信号中夹杂的第一终端设备所播放的音频信号。
98.s404、从待识别语音信号中去除音频参考信号，以得到目标识别信号。
99.一些实施例中，由于第一终端设备和第二终端设备通过短距离通信方式连接，在通信交互过程中存在时延，例如第一终端设备和第二终端设备通过蓝牙连接时，语音信号的时延是小于80ms的。需要强调的是，实际应用中，待识别语音信号和音频参考信号之间的时延小于100ms即可保证两信号在进行后续处理时的同步性。
100.为准确待识别语音信号中去除音频参考信号，需要限制待识别语音信号和音频参考信号之间存在的时延小于或等于预设时延阈值。因此，如图5所示，图5为本公开实施例所述的一种语音唤醒方法的流程图二，步骤s404包括以下步骤s404a～s404d：
101.s404a、计算待识别语音信号和音频参考信号之间的时延
102.其中，时延是指传播时延，是待识别语音信号在信道中传播一定距离所花费的时间。
103.基于公式：时延＝信道长度/信号在信道上的传播速率，进行计算待识别语音信号和音频参考信号之间的时延。
104.s404b、判断待识别语音信号和音频参考信号之间的时延是否大于预设阈值。
105.在待识别语音信号和音频参考信号之间的时延大于预设阈值的情况下，执行s404c；
106.在待识别语音信号和音频参考信号之间的时延小于或等于预设阈值的情况下，确定待识别语音信号和音频参考信号同步，执行s404d。
107.s404c、基于待识别语音信号对音频参考信号进行校正，以得到与待识别语音信号同步的音频参考信号。s404d、从待识别语音信号中，去除同步后的音频参考信号，以得到目标识别信号。
108.一些实施例中，基于回声消除算法，从待识别语音信号中去除音频参考信号，以得到目标识别信号。其中，回声消除算法包括但不限于：最小均方(least mean square，lms)，标准化最小均方误差(normalized least mean square，nlms)算法。
109.示例性的，如图6所示，图6中(a)为待识别语音信号的波形图，图6中(b)为音频参考信号的波形图，图6中(c)为目标识别信号的波形图，基于回声消除算法可以从(a)所示的待识别语音信号的波形图中去除(a)所示的音频参考信号，从而得到(c)所示的目标识别信号。
110.一些实施例中，在得到目标识别信号之后，由第一终端设备进行二次唤醒校验。
111.其中，如图7所示，图7为本公开实施例所述的二次唤醒校验的流程示意图，图中包括以下步骤s701～s704：
112.s701、基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词。
113.一些实施例中，在对目标识别信号进行识别的过程中，可进行人声检测(voice activity detection，vad)以消除目标识别信号中长时间的静音片段，从而去除不必要的信号，减少唤醒识别的数据处理量，提高了识别的效率。
114.s702、判断多个关键词中是否包括目标唤醒词。
115.一些实施例中，唤醒词模型为1个，唤醒词模型中包括多个预设唤醒词。分别计算识别的得到的多个关键词与唤醒词模型中包括多个预设唤醒词之间的相似度，得到多个相似度，再将多个相似度进行加权求和以得到总相似度，在总相似度达到预设相似度阈值的情况下，确定关键词为目标唤醒词。针对多个关键词中的每个关键词一一执行上述操作，以确定每个关键词是否为目标唤醒词。
116.在另一些实施例中，唤醒词模型为多个，分别计算每个唤醒模型对应的关键词与预设唤醒词之间的相似度，当达到设定阈值的唤醒模型的数量与唤醒模型总数量之间的比例超过二分之一时，则达到唤醒条件。
117.示例性的，假设终端设备中的唤醒模块中有3个不同类型的模型a、模型b和模型c，分别将目标识别信号输入到模型a、模型b和模型c中，并得到与每个模型对应的3个关键字。在3个关键字中的2个关键字包括目标唤醒词的情况下，则确定经过3个模型识别后的目标识别信号中包括唤醒词。
118.在多个关键词中包括目标唤醒词的情况下，执行s703；
119.在多个关键词均不包括目标唤醒词的情况下，执行s704。
120.s703、生成通知信号，指示第二终端设备进入唤醒状态。
121.s704、生成通知信号，指示第二终端设备返回待机状态，等待下次被唤醒。
122.上述步骤s701～s704，通过唤醒词模型确定目标识别信号中是否包括目标唤醒词，从而实现了由第二终端设备进行二次唤醒校验，提升了唤醒率。
123.s405、将通知信号发送至第二终端设备。
124.其中，通知信号为目标识别信号，或者，通知信号用于指示第二终端设备进入唤醒状态。
125.一些实施例中，在得到目标识别信号之后，第一终端设备将目标识别信号直接发送至第二终端设备，以由第二终端设备根据目标识别信号执行识别操作。由于目标识别信号去除了第一设备所产生的音频参考信号，因此第二终端设备针对目标识别信号的识别会更加准确，提升了用户的使用体验感。
126.另一些实施例中，在第一终端设备对目标识别信号进行识别后，根据识别得到的结果生成通知信号。在识别得到目标识别信号中包括目标唤醒词的情况下，表示用户通过语音期望唤醒第二终端设备，因此第一终端设备向第二终端设备发送的通知信号用于指示第二终端设备进入唤醒状态；而在识别得到目标识别信号中不包括目标唤醒词的情况下，表示第一终端设备所产生的音频参考信号夹杂在待识别语音信号中，从而造成了第二终端设备的误唤醒，因此第一终端设备向第二终端设备发送的通知信号用于指示第二终端设备退出待唤醒状态，进入待机状态以等待下一次的唤醒。
127.上述实施例，由第一终端设备向第二终端设备发送不同的通知信号，其中，通知信号是目标识别信号，或者是用于指示第二终端设备进入唤醒状态的信号。基于不同的通知信号，下述将分别在通知信号为目标识别信号的情况下，以及在通知信号用于指示第二终端设备进入唤醒状态的情况下，对第二终端设备的处理过程进行介绍：
128.(1)通知信号为目标识别信号
129.一些实施例中，第二终端设备接收到第一终端设备发送的目标识别信号之后，首先基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词；在对目标识别信号进行识别的过程中，可进行人声检测(voice activity detection，vad)以消除目标识别信号中长时间的静音片段，从而去除不必要的信号，减少唤醒识别的数据处理量，提高了识别的效率。
130.然后，判断多个关键词中是否包括目标唤醒词；一些实施例中，唤醒词模型为1个，唤醒词模型中包括多个预设唤醒词。分别计算识别的得到的多个关键词与唤醒词模型中包括多个预设唤醒词之间的相似度，得到多个相似度，再将多个相似度进行加权求和以得到总相似度，在总相似度达到预设相似度阈值的情况下，确定关键词为目标唤醒词。针对多个关键词中的每个关键词一一执行上述操作，以确定每个关键词是否为目标唤醒词。
131.在另一些实施例中，唤醒词模型为多个，分别计算每个唤醒模型对应的关键词与预设唤醒词之间的相似度，当达到设定阈值的唤醒模型的数量与唤醒模型总数量之间的比例超过二分之一时，则达到唤醒条件。
132.在多个关键词中包括目标唤醒词的情况下，确定执行唤醒操作，使得第二终端设备进入唤醒状态。
133.另外，在识别得到多个关键词中不包括目标唤醒词的情况下，确定第二终端设备进入待机状态，等待下一次的唤醒。
134.(2)通知信号用于指示第二终端设备进入唤醒状态
135.一些实施例中，在第二终端设备接受到第一终端设备发送的通知信号后，由于通知信号是第一终端设备识别处理后所生成的信号，指示第二终端设备进入唤醒状态，因此第二终端设备直接响应于该通知信号，
136.一些实施例中，通知信号指示第二终端设备进入待机状态，则第二终端设备响应于该通知信号执行相应操作，使得在第二终端设备处于待唤醒状态时，退出待唤醒状态进入待机状态；或者在初次校验的情况下，第二终端设备直接进入待机状态。
137.综上，本公开实施例提供一种语音唤醒方法，在第一终端设备和第二终端设备通过短距离无线通信方式连接的情况下，用户需要语音控制第二终端设备但存在第一终端设备的噪声干扰时，由第一终端设备接收第二终端设备发送的待识别语音信号，响应于该待识别语音信号，采集第一终端设备本机的音频参考信号，然后从待识别语音信号中去除音频参考信号，以得到目标识别信号，进一步向第一终端设备发送通知信号，从而通知第一终端设备利用目标识别信号执行相应的操作，或者通知第一终端设备执行唤醒操作。通过上述方法，消除了其他设备所产生的噪声的干扰，提升了唤醒率，降低了误唤醒率。
138.如图8所示，图8为本公开实施例提供另一种语音唤醒方法的流程图，该方法包括：步骤s801～s806：
139.s801、向第一终端设备发送待识别语音信号。
140.其中，待识别语音信号通过第二终端设备设置的麦克风阵列接收得到，其中包括用户的语音信号以及第一终端设备所产生的音频参考信号。
141.s802、接收第一终端设备反馈的目标识别信号。
142.s803、响应于目标识别信号，基于唤醒词模型，对目标识别信号进行识别，得到目标识别信号中包括的多个关键词。
143.s804、判断多个关键词中是否包括目标唤醒词。
144.在多个关键词中包括目标唤醒词的情况下，执行s805；
145.在多个关键词中不包括目标唤醒词的情况下，执行s806。
146.s805、控制进入唤醒状态。
147.s806、控制进入待机状态，等待下一次唤醒。
148.上述步骤中的一些实施例的详细实现方式与步骤s401～s405中说明的实施例相同或相似，本公开在此不做赘述。
149.如图9所示，图9为本公开实施例提供再一种语音唤醒方法的流程图，该方法包括：s901～s903：
150.s901、向第一终端设备发送待识别语音信号。
151.其中，在向第一终端设备发送待识别语音信号，第二终端设备接收用户输入的待识别语音信号，然后响应于该待识别语音信号，进行语音识别，具体的识别操作如上述一种语音唤醒方法中的一些实施例所提到的操作，在此不做赘述。在识别得到待识别语音信号中包括预设唤醒词的情况下，确定第二终端设备进入待唤醒状态，需要通过第一终端设备进行二次唤醒校验。
152.在待唤醒状态下，向第一终端设备发送待识别语音信号。
153.s902、接收第一终端设备反馈的通知信号。
154.通知信号用于指示第二终端设备进入唤醒状态。
155.s903、响应于通知信号，控制进入唤醒状态。
156.除此之外，在接收到的第一终端设备反馈的通知信号指示第二终端设备退出待唤醒状态进入待机状态时，则根据通知信号的指示执行相应的操作。
157.上述步骤中的一些实施例的详细实现方式与步骤s401～s405中说明的实施例相同或相似，本公开在此不做赘述。
158.图10为本公开实施例所述的第一终端设备和第二终端设备的架构图一，如图10所示，图10中第一终端设备200包括第一通信器1010、第一控制器1020，第二终端设备100包括第二通信器1030、第二控制器1040。其中，第一通信器1010包括第一接收模块1011、第一发送模块1012，第一控制器1020包括采集模块1021、第一处理模块1022；第二通信器1030包括第二接收模块1031、第二发送模块1032，第二控制器1040包括唤醒词模型1041、判断模块1042、第二处理模块1043。
159.如图10所示的第一终端设备和第二终端设备的架构图一，第二终端设备100通过第二发送模块1032向第一终端设备200发送待识别语音信号；第一终端设备200通过第一接收模块1011接收待识别语音信号，再由采集模块1021采集音频参考信号，然后由第一处理模块1022从所述待识别语音信号中去除所述音频参考信号，以得到目标识别信号，进一步由第一发送模块1012将目标识别信号发送至第二终端设备100。第二终端设备100通过第二接收模块1031接收目标识别信号，再基于唤醒词模型1041对所述目标识别信号进行识别，得到所述目标识别信号中包括的多个关键词，接着由判断模块1042判断所述多个关键词中是否包括目标唤醒词，在所述多个关键词中包括目标唤醒词的情况下，由第二处理模块1043控制第二终端设备100进入唤醒状态。
160.图11为本公开实施例所述的第一终端设备和第二终端设备的架构图二，如图11所示，图10中第一终端设备200包括第一通信器1110、第一控制器1120，第二终端设备100包括第二通信器1130、第二控制器1150。其中，第一通信器1110包括第一接收模块1111、第一发送模块1112，第一控制器1120包括采集模块1121、唤醒词模型1122、判断模块1123、第一处理模块1124；第二通信器1130包括第二接收模块1131、第二发送模块1132，第二控制器1150包括唤醒模块1151。
161.如图11所示的第一终端设备和第二终端设备的架构图二，第二终端设备100通过第二发送模块1132向第一终端设备200发送待识别语音信号；第一终端设备200通过第一接收模块1111接收待识别语音信号，再由采集模块1021采集音频参考信号，然后由第一处理模块1122从所述待识别语音信号中去除所述音频参考信号，以得到目标识别信号，进一步基于唤醒词模型1122对所述目标识别信号进行识别，得到所述目标识别信号中包括的多个关键词，接着由判断模块1123判断所述多个关键词中是否包括目标唤醒词，在所述多个关键词中包括目标唤醒词的情况下，由第一处理模块1124生成通知信号，最后通过第一发送模块1112将通知信号发送至第二终端设备100，以由第二终端设备100的唤醒模块1151控制进入换唤醒状态。
162.本发明实施例提供一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述方法实施例中语音唤醒方法中第一终端设备所对应的各个过程，或者实现上述方法实施例中一种语音唤醒方法中第二
终端设备所对应的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
163.其中，该计算机可读存储介质可以为只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等。
164.本发明实施例提供一种计算程序产品，该计算机程序产品存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中语音唤醒方法中第一终端设备所对应的各个过程，或者实现上述方法实施例中一种语音唤醒方法中第二终端设备所对应的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
165.本领域技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
166.本公开中，处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
167.本公开中，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
168.本公开中，计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储，信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。根据本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
169.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
170.以上仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会
被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音检测方法、装置、存储介质及电子设备与流程

一种第一终端设备、第二终端设备和语音唤醒方法与流程

相关文献

最热文献