首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

语音唤醒的智能控制方法、装置、设备及存储介质与流程

2021-07-23 21:35:00 来源：中国专利 TAG：语音唤醒装置智能控制申请

本申请涉及语音处理技术领域，更具体地，涉及一种语音唤醒的智能控制方法、装置、设备及存储介质。

背景技术：

语音唤醒是语音识别技术的一种形式，其不直接接触硬件设备，通过语音即可将智能设备唤醒运行，不仅方便用户操作，且采用语音唤醒的机制，智能设备不用实时地处于工作状态，可以节省能耗。

然而，在实际应用中，多种因素都会影响智能设备语音唤醒的准确率，例如，在智能设备处于嘈杂环境时，容易被环境中的干扰语音引起误唤醒，导致智能设备的误唤醒率较高。

技术实现要素：

鉴于上述问题，本发明提出了一种语音唤醒的智能控制方法、装置、设备及存储介质以改善上述问题。

第一方面，本申请实施例提供了一种语音唤醒的智能控制方法，该方法包括：当智能设备被唤醒时，判断当前唤醒是否为误唤醒。其中，当当前唤醒的置信度大于智能设备的置信度阈值时，智能设备被唤醒。若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

第二方面，本申请实施例还提供了一种语音唤醒的智能控制装置，该装置包括：误唤醒确认模块以及置信度阈值调整模块。其中，误唤醒确认模块用于当智能设备被唤醒时，判断当前唤醒是否为误唤醒。其中，当当前唤醒的置信度大于智能设备的置信度阈值时，智能设备被唤醒。置信度阈值调整模块用于若当前唤醒为误唤醒时，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

第三方面，本申请实施例还提供了一种电子设备，包括一个或多个处理器、存储器以及一个或多个应用程序。其中，一个或多个程序被存储在存储器中并被配置为由上述一个或多个处理器执行。一个或多个程序配置执行以实现如上述第一方面所述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码。程序代码可被处理器调用执行如上述第一方面所述的方法。

本发明提供的技术方案，通过当智能设备被唤醒时，判断当前唤醒是否为误唤醒，若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值，从而通过提高智能设备在嘈杂环境下的唤醒难度，降低智能设备的误唤醒率，同时，通过对智能设备执行休眠操作，降低智能设备的能耗。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1示出了本申请一实施例提出的一种语音唤醒的智能控制方法的流程示意图；

图2示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图；

图3示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图；

图4示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图；

图5示出了本申请另一实施例提出的一种语音唤醒的智能控制方法的流程示意图；

图6示出了本申请一实施例提出的一种语音唤醒的智能控制装置的结构框图；

图7示出了本申请一实施例提出的一种电子设备的结构框图；

图8示出了本申请一实施例提出的一种计算机可读存储介质的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

语音唤醒技术具有广泛的应用领域，可以应用于例如机器人、手机、可穿戴设备、智能家居、车载等智能设备，通过语音唤醒技术作为人和智能设备互动的一个开始或入口，为智能化生活带来了无限的可能。

通常，智能设备获取语音信号，分析语音信号的置信度，若语音信号的置信度大于预设的置信度阈值，则执行对智能设备的唤醒操作。然而，在实际应用中，在智能设备处于多人交谈等嘈杂环境下嘈杂环境时，容易被环境中的干扰语音引起误唤醒，导致智能设备的误唤醒率较高。

为了改善上述问题，本申请的发明人提出了本申请提供的语音唤醒的智能控制方法、装置、设备及存储介质，通过当智能设备被唤醒时，判断当前唤醒是否为误唤醒，若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值，从而通过提高智能设备在嘈杂环境下的唤醒难度，降低智能设备的误唤醒率，同时，通过对智能设备执行休眠操作，降低智能设备的能耗。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，本申请一实施例提供了一种语音唤醒的智能控制方法，可应用于具有语音唤醒功能的电子设备，本实施例描述的是电子设备侧的步骤流程，该方法可以包括步骤s110至步骤s120。

步骤s110、当智能设备被唤醒时，判断当前唤醒是否为误唤醒。其中，当当前唤醒的置信度大于所述智能设备的置信度阈值时，智能设备被唤醒。

作为一种实施方式，智能设备可以有多种工作模式，例如休眠模式、唤醒模式、关机模式等。可以理解的是，在智能设备未被唤醒时，智能设备可处于休眠模式。在休眠模式下，智能设备可以监听周围的语音信号。

在一些实施方式中，智能设备通过自带的拾音设备(如麦克风)从周围环境中拾取语音信号。

在另一些实施方式中，智能设备也可以从其他设备处获取到语音信号。例如，作为一种方式，可以是外设的拾音设备拾取到语音信号后，将该语音信号发送至智能设备，从而智能设备获取到语音信号。

当智能设备接收到语音信号时，可确定语音信号的置信度，即当前唤醒的置信度。若接收到的语音信号的置信度大于智能设备的置信度阈值时，可以基于语音信号执行对智能设备的唤醒操作，以唤醒智能设备，即智能设备从休眠模式转换为唤醒模式。其中，该置信度阈值可能是智能设备的初始置信度阈值，也可能是对智能设备的初始置信度阈值的数值进行调整后的置信度阈值，即，智能设备在当前时刻的置信度阈值。在实际应用中，可以根据用户需求及实际应用环境确定智能设备的初始置信度阈值。

作为一种实施方式，置信度可以采用唤醒模型(或预先训练的模型)对输入的语音信号进行分析，确定语音信号的置信度。根据选用模型的不同，影响置信度的因素可能不同。其中，影响置信度的因素包括但不限于语音信号的声学特征，例如包含的关键词(是否包括唤醒词)、音量大小(音量是否达到预设值)等。在实际应用中，可以根据应用环境的需要选择置信度的确定方式。

在一些实施方式中，唤醒模型可以是唤醒词检测模型，通过唤醒词检测模型确定语音信号中是否存在预设唤醒词。可选地，唤醒词检测模型可以是经过大量训练语音信号预先训练得到的。通过唤醒词检测模型计算语音信号的初始置信度。在一些实施方式中，语音信号的置信度指唤醒词与预设唤醒词的声学特征的相似度。可选地，唤醒模型可以采用卷积神经网络算法(convolutionalneuralnetworks，cnn)、深度神经网络算法(deepneuralnetworks，dnn)、卷积循环神经网络算法(convolutionrecurrentneuralnetwork，crnn)构建唤醒模型。可以理解的是，本发明并不限制于此，也可以采用其它唤醒模型获得语音信号的置信度。

可以理解的是，用户唤醒智能设备是为了使智能设备进入唤醒模式，从而可以与智能设备进行交互，使智能设备完成用户发出的相关指令。例如用户通过唤醒智能设备用于播放音乐、控制其他设备的工作状态、查询天气情况等。而噪音引起的智能设备的唤醒，智能设备虽然进入了唤醒模式，但不会再进一步接收到语音指令。

虽然智能设备在接收到置信度大于置信度阈值的语音信号后被唤醒，但是，由于智能设备用于计算置信度的方法都存在一定的误唤醒率。因此，并不是每次引起唤醒的语音信号都是来源于具有交互意图的用户。

在一些情况下，环境中的噪声会引起智能设备的唤醒。环境中的噪声可以是其它设备工作时的噪音，例如，音乐播放设备、电视、洗衣机等。环境中的噪声还可以是无规律的噪音，例如：装修时产生的噪音、马路过往车辆产生的噪音。在另一些情况下，嘈杂的环境下也可能会引起智能设备的唤醒，例如，在多人会谈的环境下，会产生大量的噪音，可能会引起智能设备的唤醒。

在本申请的实施例中，可以通过判断智能设备被唤醒后，是否有接收到进一步的交互语音来判断当前唤醒是否为误唤醒。

步骤s120、若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

在一些嘈杂环境下，环境中会持续一段时间存在大量的噪音。例如在多人交谈的场景下，短时间内环境中会存在大量用户交谈的噪音，这些噪音在短时间内会频繁地引起智能设备的误唤醒。而现有技术中，并未对这种情况采取有效的措施，导致智能设备被噪音频繁误唤醒，严重影响用户的使用体验。

在本申请的实施例中，在识别出当前唤醒为误唤醒时，执行对智能设备的休眠操作。同时，为了使得智能设备在嘈杂环境下不被噪音频繁地误唤醒，可以将智能设备的置信度阈值的数值调高，从而增加智能设备被唤醒的难度，进而降低环境中的噪音引起智能设备的误唤醒的概率。

在一些实施方式中，为了增加智能设备在嘈杂环境下被唤醒的难度，可以将智能设备的置信度阈值的数值调整至第一阈值，且第一阈值大于当前唤醒的置信度。可以理解的是，当前唤醒的置信度大于智能设备原先的置信度阈值的数值，因此，第一阈值也大于智能设备原先的置信度阈值的数值，从而增加了智能设备被唤醒的难度，降低智能设备的误唤醒。

本实施例提供的语音唤醒的智能控制方法，通过当智能设备被唤醒时，判断当前唤醒是否为误唤醒，若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值，从而通过提高智能设备在嘈杂环境下的唤醒难度，降低智能设备的误唤醒率，同时，通过对智能设备执行休眠操作，降低智能设备的能耗。

请参阅图2，本申请另一实施例提供了一种语音唤醒的智能控制方法，可应用于电子设备，本实施例描述的是电子设备侧的步骤流程，该方法可以包括步骤s210至步骤s230。

步骤s210、当智能设备被唤醒时，获取当前环境状态信息。其中，当前环境状态信息包括：音频播放设备的工作状态、当前环境的检测音频中的至少一种。

可以理解的是，噪音会引起智能设备的误唤醒。但在有些场景下，只存在少量的噪音，并不会频繁引起智能设备的误唤醒，对用户的影响较小。而在一些嘈杂场景下，环境中有大量的噪音，会频繁地引起智能设备的误唤醒，对用户的影响较大。

而为了更精确地对影响较大的嘈杂环境下的智能设备的误唤醒情况进行有效抑制，在本申请的实施例中，在智能设备被唤醒时，可以先确定当前环境是否属于需要进行抑制的嘈杂环境。

在一些实施方式中，为了确定当前环境是否属于需要抑制的嘈杂环境，可以先获取当前环境状态信息。

在一些实施方式中，当前环境状态信息包括音频播放设备的工作状态。可以理解的是，音频播放设备播放音频时会产生大量干扰噪音。若智能设备周围环境中的音频播放设备处于音频播放状态，则智能设备周围环境中会存在大量干扰噪音，智能设备被误唤醒的概率较大。

可选地，智能设备与音频播放设备可以通过网络进行通信连接。在一些方式中，智能设备可以通过发送查询指令至音频播放设备以获取音频播放设备的工作状态。在一些方式中，音频播放设备也可以定期将工作状态发送至智能设备，以使智能设备获取音频播放设备的工作状态。

可选地，上述的网络通常为因特网、但也可以是任何网络，包括但不限于局域网(localareanetwork，lan)、城域网(metropolitanareanetwork，man)、广域网(wideareanetwork，wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(hypertextmark-uplanguage，html)、可扩展标记语言(extensiblemarkuplanguage，xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(securesocketlayer，ssl)、传输层安全(transportlayersecurity，tls)、虚拟专用网络(virtualprivatenetwork，vpn)、网际协议安全(internetprotocolsecurity，ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在一些实施方式中，当前环境状态信息包括当前环境的检测音频。可以理解的是，智能设备可以定时采集当前环境的检测音频，通过对检测音频进行进一步分析，确定当前所处环境的状态。

可以理解的是，本申请并不限制与此，其它可以用于确定当前环境状态的方法也可以应用于本申请的实施方式中。

步骤s220、若当前环境状态信息符合预设条件，判断当前唤醒是否为误唤醒。

在本申请的实施方式中，预设条件是指当前环境符合嘈杂环境的条件。可以理解的是，当采用的当前环境状态信息不同时，预设条件需对应当前环境状态信息进行设置，下面将具体阐述。

在一些实施方式中，当当前环境状态信息为音频设备的工作状态时，预设条件为音频设备的工作状态为音频播放状态。可以理解的是，当音频设备在音频播放状态时会产生大量的噪音，例如音乐播放器播放音乐、电视在播放节目等。

在一些实施方式中，当当前环境状态信息为检测音频时，可以通过对检测音频进行进一步分析，确定当前环境状态信息是否符合预设条件。

可选地，检测音频可以是多个采样时间采样的音频。通过分别检测每个音频的参数，例如：音量、信噪比等。作为一种方式，若多个采用音频中预设比例的音频的参数大于预设值，则检测音频符合预设条件。例如：若采集4个采样音频，分别为第一音频、第二音频、第三音频和第四音频，若第一音频的音量为60、第二音频的音量为70、第三音频的音量为70以及第四音频的音频为80，若假定超过60％的音频音量超过65％，则当前环境状态信息符合预设条件。可以得出，在四个采样音频中有75％的音频音量超过65，即当前环境状态信息符合预设条件。可以理解的是，本申请并不限制于此，采样音频的数量、更新时间、音频的参数、预设条件等可以根据实际应用环境的需要进行设置，本申请对此不作限制。

可选地，可以通过检测音频确定当前环境是否存在固定方向的声源，若是，则检测音频符合预设条件。在一些实施方式中，可以获取多个检测音频中声音的方位，通过统计确认是否存在固定方向的声源。例如：若采集4个采样音频，分别为第五音频、第六音频、第七音频和第八音频，若第五音频的声源方位在第一角度范围，第六音频的声源方向在第一角度范围、第七音频的声源方位在第一角度范围，第八音频的声源方位在第一角度范围。若假定超过70％的音频的声源方向在相同的角度范围，则当前环境状态信息符合预设条件。可以得出，在四个采样音频中有100％的音频的声源方位在第一角度范围，当前环境中存在一固定方位的干扰声源，即当前环境状态信息符合预设条件。可以理解的是，本申请并不限制于此，采样音频的数量、更新时间、预设条件等可以根据实际应用环境的需要进行设置，在判断是否存在干扰声源时，也可以结合声源的音量进行判断，即除了有固定方位的声源，声源的音量要超过预设比例才满足预设条件，本申请对此不作限制。

在一些实施方式中，还可以将获取的检测音频输入环境状态分析模型，通过环境状态分析模块确定检测音频是否符合预设条件。

可选地，环境状态分析模型可以是通过神经网络模型并通过大量的训练数据预设进行训练获得。在一些实施方式中，训练数据可以是大量多人交谈的嘈杂音频，从而环境状态分析模块可以分析获取的检测音频是否属于多人嘈杂环境下的检测音频，若是，则检测音频符合预设条件。

在本申请的实施例中，当前环境状态信息符合预设条件时，判断当前环境为嘈杂环境，智能设备被频繁误唤醒的概率较高，因此再进一步判断当前唤醒是否为误唤醒，从而针对性地对嘈杂环境进行误唤醒抑制。

步骤s230、若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

其中，步骤s230的具体描述请参阅步骤s120，在此不再进行赘述。

本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进，主要改进之处在于：当智能设备被唤醒时，先获取当前环境状态信息，针对符合预设条件的当前环境，再判断当前唤醒是否为误唤醒，从而通过精确提高智能设备在嘈杂环境下的唤醒难度，有效抑制智能设备的误唤醒率。

请参阅图3，本申请另一实施例提供了一种语音唤醒的智能控制方法，可应用于电子设备，本实施例描述的是电子设备侧的步骤流程，该方法可以包括步骤s310至步骤s320。

步骤s310、当智能设备被唤醒时，若预设检测时间内未接收到用户的语音信号，则确定当前唤醒为误唤醒。

可以理解的是，用户正常唤醒智能设备后，会进一步下发语音指令以控制智能设备完成对应的指令。而如果是噪音引起的智能设备被唤醒，则智能设备不一定会接收到进一步的语音指令。

在本申请的实施例中，当智能设备被唤醒时，为了进一步判断当前唤醒是否为误唤醒，可以通过确认智能设备是否进一步接收到用户的语音信号。

在本申请的实施例中，可以在智能设备被唤醒时的预设检测时间内，若未接收到用户的语音信号，则确定智能设备被唤醒后，没有获得进一步交互的指令，可以判定当前唤醒为噪音引起的误唤醒。其中，预设检测时间可以根据实际应用场景进行调整。

步骤s320、若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

其中，步骤s320的具体描述请参阅步骤s120，在此不再进行赘述。

本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进，主要改进之处在于：当智能设备被唤醒时，通过预设检测时间内是否接受到用户的语音信号确定当前唤醒是否为误唤醒，通过提高智能设备在嘈杂环境下的唤醒难度，降低智能设备的误唤醒率。

请参阅图4，本申请另一实施例提供了一种语音唤醒的智能控制方法，可应用于电子设备，本实施例描述的是电子设备侧的步骤流程，该方法可以包括步骤s410至步骤s430。

可以理解的是，如果是噪音引起的智能设备被唤醒，除了上述实施例步骤s310提及的，智能设备不会接受到进一步的用户语音指令。在其他一些实施方式中，噪音引起的智能设备被唤醒后，智能设备可能会进一步接收到语音信号，但是接受到的语音信号与交互无关时，也可以认定当前唤醒为误唤醒。下面将进行具体阐述。

步骤s410、当智能设备被唤醒时，若预设检测时间内接收到用户的语音信号，则对所述语音信号进行意图识别。

步骤s420、根据意图识别结果判断当前唤醒是否为误唤醒。

在本申请的实施例中，当智能设备被唤醒时，若预设检测时间内接收到用户的语音信号，为了确定当前唤醒是否为误唤醒，可以对接收到的语音信号进行意图识别。

意图识别即判断用户的意图，即用户想要做什么。知道用户想做什么才可以对应执行用户的指令。在一些实施方式中，智能设备在接收到语音指令后，可以对语音信号进行识别并进行意图识别，以获取该语音信号对应的用户的意图。其中，该语音信号对应的用户的意图是用于反应用户所期望智能设备进行的操作，例如，意图可以包括“打开电视”、“播放音乐”、“查询天气”等，在此不做限定。例如，当语音信号为“播放晴天”时，可以确定该语音信号对应的意图为“播放音乐”。当语音信号为“今天天气”时，可以确定该语音信号对应的意图为“音乐播放”等，在此不做限定。

在一些实施方式中，可以将语音信号输入至意图分类模型进行意图分类，获取语音信号对应的意图。可以是提取语音信号中的实体输入至意图分类模型进行意图分类，获取语音信号对应的意图。也可以是提取语音信号中的实体，基于知识图谱获取实体的实体内容，将实体内容输入至意图分类模型进行意图分类，获取语音信号对应的意图等。其中，意图分类模型可以由svm(supportvectormachine，支持向量机)模型、神经网络模型或者随机森林模型等分类模型训练获得，通过机器学习实现用户意图识别，有效提高用户意图识别的准确度。

在本申请的实施例中，若识别出用户的语音信号包含的意图为目标意图时，智能设备可以执行对应的操作。目标意图是指智能设备可以进行处理的意图类型。当语音信号包含目标意图，即用户发出具有明确意图的语音信号时，说明用户存在与智能设备进行交互的意图，即当前唤醒为用户为了与智能设备进行交互而主动触发的唤醒。当语音信号不包含目标意图，说明当前唤醒不是用户主动触发的环境，而是环境中的噪音引起的误唤醒。

在一些实施方式中，智能设备的目标意图不包含闲聊意图。即用户的语音信号包含的意图需为具有明确控制要求且智能设备可以支持的意图。例如，播放音乐、查询天气、打开空调等。

在一些实施方式中，智能设备的目标意图也可以包含闲聊意图。如果无法识别出语音信号包含的意图，例如用户的语音信号为“吃饭了”、“哈哈哈”、“太重了”等。此时，智能设备可以开启闲聊模式，与用户进行闲聊。

可选地，若智能设备开启闲聊模式后，在预设时间内未接收到用户的反馈语音，则用户没有与智能设备进行闲聊的意图，则可以确认用户的语音信号不包含目标意图。

可选地，若智能设备开启闲聊模式后，在预设时间内接收到用户的反馈语音，则可以将语音信号包含的意图归类至闲聊意图。例如，接收到用户的语音“太重了”，智能设备开启闲聊模式“你是拿了什么东西呀”，用户的反馈语音为“我拿了好多吃的”。

进一步地，为了降低噪音对闲聊意图识别的干扰，在智能设备接收到反馈语音后，可以进一步判断反馈语音与智能设备的闲聊内容的相关程度，若相关程度大于预设值，则判断用户的语音信号包含目标意图。可选地，闲聊内容的相关程度的计算可以将反馈语音和智能设备的闲聊内容输入预先训练好的神经网络模型进行计算，预设值可以根据实际应用需要进行设置，本申请对此不作限制。

在一些实施方式中，若在预设检测时间内仅接收到一个语音信号，且该语音信号的意图识别结果为未识别到目标意图，则到预设检测时间后确定当前唤醒为误唤醒。可以理解的是，若接收到的语音信号的意图识别结果为识别到目标意图，则确定当前唤醒不是误唤醒，则根据语音信号包含的意图执行对应的操作。

在一些实施方式中，若在预设检测时间内接收到多个语音信号，且多个语音信号的意图识别结果均为未识别到目标意图，则确定当前唤醒为误唤醒。

在一些嘈杂环境下，智能设备被唤醒后会收到大量的噪音，为了进一步降低噪音对智能设备的影响，可以设置智能设备在接收到预设数量的不包含目标意图的语音信号后，即判定当前唤醒为误唤醒。例如，假设预设检测时间为10秒，预设数量为3个，若智能设备在第1秒接收到第一语音，第一语音的意图识别结果为未识别到目标意图；第3秒接收到第二语音，第二语音的意图识别结果为未识别到目标意图；第5秒接收到第三语音，第三语音的意图识别结果为未识别到目标意图，则在第5秒时即可判断当前唤醒为误唤醒。

步骤s430、若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

其中，步骤s430的具体描述请参阅步骤s120，在此不再赘述。

本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进，主要改进之处在于：当智能设备被唤醒时，若预设检测时间内接收到用户的语音信号，通过对语音信号进行意图识别，根据意图识别结果判断当前唤醒是否为误唤醒，通过提高智能设备在嘈杂环境下的唤醒难度，降低智能设备的误唤醒率。

请参阅图5，本申请另一实施例提供了一种语音唤醒的智能控制方法，可应用于电子设备，本实施例描述的是电子设备侧的步骤流程，该方法可以包括步骤s510至步骤s550。

步骤s510、当智能设备被唤醒时，判断当前唤醒是否为误唤醒。其中，当当前唤醒的置信度大于所述智能设备的置信度阈值时，智能设备被唤醒。

步骤s520、若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

其中，步骤s510至步骤s520的具体描述请参阅步骤s110至步骤s120，在此不再进行赘述。

步骤s530、若预设恢复时间内，接收到用户的语音信号，确定语音信号的置信度。

在执行步骤s520之后，智能设备处于休眠模式，智能设备的置信度阈值的数值调高，即智能设备的唤醒难度增加，从而可以有效隔绝一部分噪音对智能设备的误唤醒。可选地，预设恢复时间可以从执行对智能设备的休眠操作时开始计算。可选地，预设恢复时间还可以从调整智能设备的置信度阈值时开始计算。其中，预设恢复时间的长短可以根据实际应用场景进行调整。

在预设恢复时间内，若接收到用户的语音信号，则确定语音信号的置信度，以确定接收到的语音信号是否能唤醒智能设备，语音信号的置信度的计算可以参照前述实施例的描述，在此不再赘述。

步骤s540、若语音信号的置信度大于当前的置信度阈值，则基于语音信号执行对智能设备的唤醒操作。

可以理解的是，智能设备的置信度阈值的数值调高后，智能设备的唤醒难度增加，若此时接收到的语音信号的置信度大于当前的置信度阈值，则该语音信号为用户的正常唤醒，即用户存在控制智能设备的需求，则基于语音信号执行对智能设备的唤醒操作。

在一些实施方式中，若语音信号的置信度小于当前的置信度阈值，则该语音信号为噪音，智能设备仍为休眠模式，继续监听是否有其他语音信号输入。

步骤s550、将智能设备的置信度阈值的数值从第一阈值调整至第二阈值，其中第二阈值小于第一阈值。

在一些实施方式中，当智能设备在预设恢复时间内被唤醒时，将智能设备的置信度阈值的数值从第一阈值调整至第二阈值。其中第二阈值小于第一阈值，即在智能设备在预设恢复时间内被唤醒后，降低智能设备被唤醒的难度。优选地，第一阈值为智能设备正常工作状态下置信度阈值的默认值。

在一些实施方式中，当智能设备在预设恢复时间内被唤醒时，可以进一步判断唤醒是否为误唤醒。根据唤醒结果对智能设备的置信度阈值的数值进行调整。

可选地，当智能设备在预设恢复时间内被误唤醒时，可以将智能设备的置信度阈值的数值调高，例如将智能设备的置信度阈值的数值调整为第三阈值，其中第三阈值大于第一阈值。从而继续增加智能设备被唤醒的难度，降低智能设备的误唤醒率。

可以理解的是，智能设备的置信度阈值的数值调高后，智能设备的唤醒难度增加，可以阻挡部分噪音对智能设备的误唤醒，但同时也增加了用户唤醒智能设备的难度。但通常智能设备处于嘈杂环境的时间较短，例如，多人交谈场景多出现于早晨或者傍晚。而若一直让智能设备处于高唤醒难度的状态，也会影响用户的正常使用。因此，为了更贴近实际使用的需求，作为一种实施方式，若预设恢复时间内，智能设备未被唤醒，即，预设恢复时间内，未接收到用户的语音信号，则在预设恢复时间后，将智能设备的置信度阈值的数值进行调整，以使智能设备的置信度阈值的数值降低，从而降低智能设备被唤醒的难度。优选地，可以将智能设备的置信度阈值从第一阈值调整至第二阈值，或者，调整至初始置信度。

本实施例提供的语音唤醒的智能控制方法在前述实施例的基础上加以改进，主要改进之处在于：在提高智能设备在嘈杂环境下的唤醒难度后，若预设恢复时间内，接受到用户的语音信号，且语音信号的置信度大于当前的置信度阈值，则将智能设备的置信度阈值的数值从第一阈值调整至第二阈值，从而在用户需要用到智能设备时，快速识别和恢复智能设备的置信度阈值，提高用户的使用体验。

请参阅图6，其示出了本发明一个实施例提供的语音唤醒的智能控制装置，该语音唤醒的智能控制装置600包括：误唤醒确认模块610和置信度阈值调整模块620。

具体地，误唤醒确认模块610用于当智能设备被唤醒时，判断当前唤醒是否为误唤醒。其中，当当前唤醒的置信度大于所述智能设备的置信度阈值时，智能设备被唤醒。

置信度阈值调整模块620用于若为误唤醒，则执行对智能设备的休眠操作，并将智能设备的置信度阈值的数值调整至第一阈值。其中，第一阈值大于当前唤醒的置信度。

进一步地，该语音唤醒的智能控制装置还包括当前环境状态信息获取模块和误唤醒判断模块。

其中，当前环境状态信息获取模块用于当智能设备被唤醒时，获取当前环境状态信息。其中，当前环境状态信息包括：音频播放设备的工作状态、当前环境的检测音频中的至少一种。

误唤醒判断模块用于若当前环境状态信息符合预设条件，判断当前唤醒为误唤醒。

进一步地，该语音唤醒的智能控制装置还包括第一语音信号确定模块，第二语音信号确定模块，误唤醒识别模块。

其中，第一语音信号确定模块用于当智能设备被唤醒时，若预设检测时间内未接收到用户的语音信号，则确定当前唤醒为误唤醒。

第二语音信号确定模块用于当智能设备被唤醒时，若预设检测时间内接收到用户的语音信号，则对所述语音信号进行意图识别。

误唤醒识别模块用于根据意图识别结果判断当前唤醒是否为误唤醒。

进一步地，该语义唤醒的智能控制装置还包括：语音确认模块、置信度确定模块以及置信度阈值恢复模块。

其中，语音确认模块用于若预设恢复时间内，接收到用户的语音信号，确定语音信号的置信度。

置信度确定模块用于若语音信号的置信度大于当前的置信度阈值，则基于语音信号执行对智能设备的唤醒操作。

置信度阈值恢复模块用于将智能设备的置信度阈值的数值从第一阈值调整至第二阈值，其中第二阈值小于所述第一阈值。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。对于方法实施例中的所描述的任意的处理方式，在装置实施例中均可以通过相应的处理模块实现，装置实施例中不再一一赘述。

请参阅图7，基于上述的语音唤醒的智能控制方法，本申请实施例还提供的另一种包括可以执行前述语音唤醒的智能控制方法的处理器的电子设备700，电子设备700还包括一个或多个处理器710、存储器720以一个或多个应用程序。其中，该存储器720中存储有可以执行前述实施例中内容的程序，而处理器710可以执行该存储器720中存储的程序。其中，电子设备700可以是智能控制面板、智能手机、智能穿戴设备、智能语音导航设备、智能机器人、平板电脑、个人计算机等。

其中，处理器710可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器710利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器720内的指令、程序、代码集或指令集，以及调用存储在存储器720内的数据，执行电子设备700的各种功能和处理数据。可选地，处理器710可以采用数字信号处理(digitalsignalprocessing，dsp)、现场可编程门阵列(field－programmablegatearray，fpga)、可编程逻辑阵列(programmablelogicarray，pla)中的至少一种硬件形式来实现。处理器可集成中央处理器(centralprocessingunit，cpu)、图像处理器(graphicsprocessingunit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器中，单独通过一块通信芯片进行实现。

存储器720可以包括随机存储器(randomaccessmemory，ram)，也可以包括只读存储器(read-onlymemory)。存储器720可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如接收语音等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据(比如当前环境状态信息、置信度阈值、语音信号)等。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质800的结构框图。该计算机可读存储介质800中存储有程序代码810，所述程序代码810可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读介质(non-transitorycomputer-readablestoragemedium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码810可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音唤醒的智能控制方法、装置、设备及存储介质与流程

相关文章

最热文献