语音唤醒方法和设备与流程

2021-10-29 21:17:00 来源：中国专利 TAG：唤醒语音方法设备

1.本技术涉及语音唤醒技术领域，尤其涉及一种语音唤醒方法和设备。

背景技术：

2.语音唤醒是指电子设备在待机状态下，接收到用户发出的特定语音指令进入到工作状态或者完成某一操作的功能。目前，各种电子设备普遍具备语音唤醒功能，例如，智能手机、可穿戴设备、车载设备、智能家居等都可以通过语音方式进行唤醒。在当前的语音唤醒方式中，主要还是通过唤醒词进行唤醒，当电子设备检测到用户输入的语音中含有特定关键词时，设备才会启动进入后续的处理流程。当前语音唤醒方案的主要缺点在于，每次用户和电子设备交互时都需要先语音输入特定唤醒词，在实际场景中，大多数用户不希望每次和电子设备对话都要先输入特定唤醒词，如每次唤醒设备时都要先输入设备名称，此方式对话交互过程繁琐，而且降低人机对话体验。

技术实现要素：

3.本技术提供一种语音唤醒方法和设备，以实现免唤醒词方式对电子设备进行唤醒。
4.第一方面，本技术方案提供了一种语音唤醒方法，应用于具有麦克风的电子设备，特别是应用于具有至少两路麦克风的电子设备，该方法包括：检测到满足第一条件的至少两路麦克风输入的语音信号；根据所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件，确定是否唤醒电子设备；其中，如果满足所述第二条件，则唤醒电子设备；如果不满足所述第二条件，则继续检测麦克风输入的语音信号。
5.上述技术方案提供的语音唤醒方法，接收至少两路麦克风输入的语音信号。当至少两路麦克风输入的语音信号均满足第一条件时，基于该至少两路语音信号的语音能量对电子设备唤醒。在此方式下，用户无需语音输入特定唤醒词即可唤醒电子设备。在一种可能的方式中，用户可以输入没有明确指示的语音唤醒电子设备。在另一种可能的方式中用户可以直接输入语音指令，如“播放歌曲”“呼叫a”等。在此方式，可以在唤醒电子设备的基础上控制电子设备执行对应的语音指令。
6.结合第一方面，在第一方面的某些实现方式中，所述至少两路麦克风的位置分布在电子设备上的不同区域。在此方式中，获取位于电子设备不同区域的麦克风输入的语音信号。通过不同区域的麦克风输入的语音信号的语音能量可以控制电子设备的唤醒。
7.在本实现方式中，判断所述至少两路麦克风的位置是否分布于电子设备不同区域的方式可以包括：将电子设备包含的各个麦克风按照其具体位置划分为不同组。根据麦克风所属的组别标识确定所述至少两路麦克风是否位于电子设备的不同区域。对于一个具体电子设备，例如手机，根据手机上麦克风的位置，对手机上的麦克风分组。在一种分组方式中，手机顶部和背部的麦克风划分在第一组，手机底部的麦克风划分在第二组。如果输入语音信号的麦克风分别来自第一组和第二组，则确定所述至少两路麦克风分布于电子设备的
不同区域。具体的，可以首先获取麦克风标识，根据麦克风标识确定其分组，分组不同表示其对应的电子设备区域不同。
8.结合第一方面，在第一方面的某些实现方式中，确定麦克风输入的语音信号是否满足第一条件，包括：计算所述至少两路麦克风输入的语音信号的语音能量，如果所述语音能量大于第一阈值则确定所述至少两路麦克风输入的语音信号满足所述第一条件。即，当麦克风输入语音能量大于第一阈值的语音信号时，确定该路麦克风输入的语音信号满足第一条件。
9.在本技术实施例方案中，可以根据实际需要设置判断语音信号是否满足第一条件和判断麦克风是否分布于不同区域的执行顺序。在一种可能的设计中，首先确定输入语音信号的各路麦克风是否分布于电子设备的不同区域。如果是，再进一步判断各路麦克风输入的语音信号的语音能量是否大于第一阈值。另外，当属于同一区域的多个麦克风输入语音信号时，可以仅选择属于该区域的其中一路麦克风进行第一条件的判断。在另一种可能的设计中，首先判断各路麦克风输入的语音信号的语音能量是否大于第一阈值。当至少两路麦克风输入的语音信号的语音能量大于第一阈值时，进一步判断该至少两路麦克风的位置是否分布在电子设备的不同区域。
10.结合第一方面，在第一方面的某些实现方式中，计算麦克风输入的语音信号的语音能量的方式可以是，对语音信号进行采样，通过计算采样信号的语音能量计算输入的语音信号的语音能量。具体的：从麦克风输入的语音信号中截取具有第一时长的第一语音信号，之后按照设定采样频率对第一语音信号采样，基于采样信号计算麦克风输入的语音信号的语音能量。例如，从麦克风输入语音信号的起始时刻开始计时，并截取具有第一时长如20毫秒的语音信号，之后按照设定采样频率如16khz对截取的语音信号采样。
11.结合第一方面，在第一方面的某些实现方式中，基于所述采样信号计算所述至少两路麦克风输入的语音信号的语音能量，包括：计算所述采样信号包含的各个采样值的能量值，将所述各个采样值的能量值的均值确定为所述至少两路麦克风输入的语音信号的语音能量。
12.结合第一方面，在第一方面的某些实现方式中，确定所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件，包括：根据所述语音信号之间的能量值差值判断所述至少两路麦克风输入的语音信号的语音能量是否满足所述第二条件；或者，根据所述语音信号之间的能量值比值判断所述至少两路麦克风输入的语音信号之间的语音能量是否满足所述第二条件。
13.结合第一方面，在第一方面的某些实现方式中，根据所述语音信号之间的能量值差值判断所述至少两路麦克风输入的语音信号的语音能量是否满足所述第二条件，包括：如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它路麦克风输入的语音信号之间的能量值差值均大于第二阈值，则确定所述至少两路麦克风输入的语音信号的语音能量满足所述第二条件。
14.结合第一方面，在第一方面的某些实现方式中，根据所述语音信号之间的能量值比值判断所述至少两路麦克风输入的语音信号的语音能量是否满足所述第二条件，包括：如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它路麦克风输入的语音之间的能量值比值均大于第三阈值，则确定所述至少两路麦克风输入的语音信号的语
音能量满足所述第二条件。
15.第二方面，本技术方案提供了一种语音唤醒设备，包括：语音检测单元，用于检测满足第一条件的至少两路麦克风输入的语音信号；唤醒单元，用于根据所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件，确定是否唤醒电子设备；其中，如果语音能量满足所述第二条件，则唤醒电子设备；否则，继续通过语音检测单元检测语音信号。
16.结合第二方面，在第二方面的某些实现方式中，所述至少两路麦克风的位置分布在电子设备上的不同区域。
17.结合第二方面，在第二方面的某些实现方式中，所述语音检测单元具体用于计算所述至少两路麦克风输入的语音信号的语音能量，如果所述语音能量大于第一阈值则确定所述至少两路麦克风输入的语音信号满足第一条件。
18.结合第二方面，在第二方面的某些实现方式中，所述语音检测单元具体用于从所述至少两路麦克风输入的语音信号中截取具有第一时长的第一语音信号；按照设定采样频率对所述第一语音信号采样；基于采样信号计算所述至少两路麦克风输入的语音信号的语音能量。
19.结合第二方面，在第二方面的某些实现方式中，所述语音检测单元具体用于计算采样信号包含的各个采样值的能量值，将所述各个采样值的能量值均值确定为所述至少两路麦克风输入的语音信号的语音能量。
20.结合第二方面，在第二方面的某些实现方式中，所述唤醒单元具体用于根据所述语音信号之间的能量值差值判断所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件；或者，根据所述语音信号之间的能量值比值判断所述至少两路麦克风输入的语音信号之间的语音能量是否满足第二条件。
21.结合第二方面，在第二方面的某些实现方式中，所述唤醒单元具体用于如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它路麦克风输入的语音信号之间的能量值差值均大于第二阈值，则确定所述至少两路麦克风输入的语音信号的语音能量满足第二条件。
22.结合第二方面，在第二方面的某些实现方式中，所述唤醒单元具体用于如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它路麦克风输入的语音之间的能量值比值均大于第三阈值，则确定所述至少两路麦克风输入的语音信号的语音能量满足第二条件。
23.第三方面，本技术方案提供了一种语音唤醒设备，包括：麦克风；一个或多个处理器；存储器；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行以下步骤：检测到满足第一条件的至少两路麦克风输入的语音信号；根据所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件，确定是否唤醒电子设备；其中，如果满足所述第二条件，则唤醒电子设备；如果不满足所述第二条件，则继续检测语音信号。
24.第四方面，本技术方案提供了一种语音唤醒设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现
所述第一方面或者第一方面的任一可能的实现方式中的方法。
25.第五方面，本技术方案提供了一种芯片，所述芯片包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，执行第一方面或第一方面的任一可能的实现方式中的方法。
26.可选的，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。
27.第六方面，本技术方案提供了一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。
附图说明
28.图1是本技术实施例提供的电子设备的一种结构示意图；
29.图2是本技术实施例提供的电子设备的一种软件结构框图；
30.图3是本技术实施例提供的语音唤醒方法的一个示意性流程图；
31.图4是本技术实施例提供的语音唤醒方法的另一个示意性流程图；
32.图5是本技术实施例提供的语音唤醒方法的另一个示意性流程图；
33.图6是本技术实施例提供的语音唤醒设备的一种结构示意图。
具体实施方式
34.下面将结合附图，对本技术中的技术方案进行描述。
35.如背景技术部分所介绍，目前语音唤醒主要基于关键词检测(key word spotting，kws)技术，当检测到用户输入的语音信号中包含设定关键词时，电子设备唤醒并进入后续可能的流程，此种语音唤醒方案交过过程繁琐，而且与真正的人与人对话有明显区别，降低用户人机对话体验，为此需要一种语音唤醒方法以简化电子设备语音唤醒流程。
36.本技术实施例提供了一种语音唤醒方法，应用于具有麦克风的电子设备，尤其是应用于具有至少两路麦克风的电子设备，当用户希望唤醒电子设备时，可以在电子设备输入任意语音，电子设备检测到用户输入的语音信号判断各路语音信号是否满足设定的能量差条件，如果满足则唤醒电子设备，在此方式下，用于唤醒电子设备的语音信号中不要求具有特定关键词，实现电子设备的唤醒词唤醒。
37.本技术实施例的语音唤醒方法可以应用于手机、可穿戴设备、车载设备、智能家居设备、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备等电子设备上，本技术实施例对电子设备的具体类型不作任何限制。
38.示例性的，图1示出了本技术实施例提供的电子设备100的一种结构示意图。电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，usb)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170a，受话器170b，麦克风170c，耳机接口170d，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，sim)卡接口195等，可
选地，上述麦克风170c的数量为多个。其中传感器模块180可以包括压力传感器180a，陀螺仪传感器180b，气压传感器180c，磁传感器180d，加速度传感器180e，距离传感器180f，接近光传感器180g，指纹传感器180h，温度传感器180j，触摸传感器180k，环境光传感器180l，骨传导传感器180m等。
39.可以理解的是，本技术实施例示意的结构并不构成对电子设备100的具体限定。在本技术另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。
40.处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，ap)，调制解调处理器，图形处理器(graphics processing unit，gpu)，图像信号处理器(image signal processor，isp)，控制器，视频编解码器，数字信号处理器(digital signal processor，dsp)，基带处理器，和/或神经网络处理器(neural-network processing unit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。
41.其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。
42.处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。
43.在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，i2c)接口，集成电路内置音频(inter-integrated circuit sound，i2s)接口，脉冲编码调制(pulse code modulation，pcm)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，uart)接口，移动产业处理器接口(mobile industry processor interface，mipi)，通用输入输出(general-purpose input/output，gpio)接口，用户标识模块(subscriber identity module，sim)接口，和/或通用串行总线(universal serial bus，usb)接口等。
44.i2s接口可以用于音频通信。在一些实施例中，处理器110可以包含多组i2s总线。处理器110可以通过i2s总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过i2s接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。
45.pcm接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过pcm总线接口耦合。在一些实施例中，音频模块170也可以通过pcm接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述i2s接口和所述pcm接口都可以用于音频通信。
46.uart接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，uart接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过uart接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过uart接口向无
线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。
47.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，gpio接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。gpio接口还可以被配置为i2c接口，i2s接口，uart接口，mipi接口等。
48.可以理解的是，本技术实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本技术另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。
49.内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，ufs)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。
50.电子设备100可以通过音频模块170，扬声器170a，受话器170b，麦克风170c，耳机接口170d，以及应用处理器等实现音频功能。例如音乐播放，录音等。
51.音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。
52.其中，麦克风170c，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170c发声，将声音信号输入到麦克风170c。电子设备100可以设置至少一个麦克风170c。在另一些实施例中，电子设备100可以设置两个麦克风170c，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170c，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。
53.例如，本技术语音唤醒方法所应用在的电子设备中可以包括两个、三个、四个或者更多个麦克风170c，麦克风170c采集用户输入的语音信号，并且将语音信号发送给音频模块170，通过音频模块170将语音信号发送给处理器110，由处理器110对语音信号进行处理以实现本技术实施例的语音唤醒方法。
54.电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的安卓(android)系统为例，示例性说明电子设备100的软件结构。
55.图2是本技术实施例提供的电子设备100的一种软件结构框图。分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(android runtime)和系统库，以及内核层。应用程序层可以包括一系列应用程序包。
56.如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，无线局域网(wireless local area networks，wlan)，蓝牙，音乐，视频，短信息等应用程序。
57.应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，api)和编程框架。应用程序框架层包括一些预先定义的函数。
58.例如，在本技术中，基于语音进行唤醒的函数或者算法以及语音识别的算法都可以包括在应用程序框架层。
59.如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。
60.窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。
61.内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。
62.android runtime包括核心库和虚拟机。android runtime负责安卓系统的调度和管理。
63.核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。
64.应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。
65.系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(media libraries)，三维图形处理库(例如：opengl es)，2d图形引擎(例如：sgl)等。
66.内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。
67.为了便于理解，本技术以下实施例将以具有图1和图2所示结构的电子设备为例，结合附图和应用场景，对本技术实施例提供的语音唤醒方法进行具体阐述。
68.在电子设备处于待机状态下，要实现对电子设备免唤醒词的语音唤醒，本技术提供了一种基于语音信号的能量进行语音唤醒的技术。其中，当麦克风采集的语音信号达到设定的语音能量要求时，自动对电子设备进行唤醒，无需用户语音输入特定唤醒词。
69.图3是本技术实施例提供的语音唤醒方法的一个示意性流程图。本技术将以手机作为电子设备，详细介绍本技术提供的语音唤醒方法。
70.101，采集语音信号。
71.在息屏、锁屏状态下，手机处于待机状态，在此状态下手机中的麦克风和语音检测(voice activity detection，vad)模块保持开启。当用户发出语音时，麦克风采集用户发出的声音，并且将声音信号转换成电子语音信号。麦克风将转换得到的电子语音信号发送给语音检测模块，由语音检测模块对电子语音信号进行处理。
72.上述语音检测模块用于对语音信号处理以实现本技术实施例的语音唤醒方法。其中，语音检测模块具体可以通过硬件或者硬件和计算机软件的结合形式来实现。在一种可能的方式中，语音检测模块可以基于处理器运行。当手机待机时，处理器保持低功耗运行模式，如保持睡眠模式。在该模式下语音检测模块保持开启，并在检测到满足唤醒要求的语音
信号时向处理器发送唤醒信号。在另一种可能的方式中，处理器包括控制器和语音处理器，所述语音处理器例如可以是dsp。当手机处于待机状态时，控制器保持低功耗模式，语音检测模块在语音处理器中保持开启。当语音检测模块检测到满足唤醒要求的语音信号时，向控制器发送唤醒信号。
73.102，判断是否至少有两路麦克风输入有效语音信号。如果至少有两路麦克风输入有效语音信号执行步骤103；否则，语音检测模块继续监听麦克风中是否有语音信号输入。
74.通常状态下，当用户发出语音时，手机上的各个麦克风均能采集到语音信号。语音检测模块获取各个麦克风输入的语音信号。语音检测模块从获取的各个语音信号中判断是否至少有两路麦克风输入有效声音信号。如果至少有两路麦克风输入有效语音信号，则进一步判断该至少两路语音信号的能量是否满足唤醒条件；否则，继续监听麦克风中是否有语音信号的输入，不进行下一步唤醒条件的判断。在一个示例中，手机上包括两路麦克风，当用户发出语音时，该两路麦克风向语音检测模块发送语音信号，语音检测模块判断该两路麦克风采集的语音信号是否为有效语音信号；又例如，手机上包括三路麦克风，当用户发出语音时，该三路麦克风向语音检测模块发送语音信号，语音检测模块判断该三路麦克风采集的语音信号是否均为有效语音信号，或者判断该三路语音信号中是否有两路语音信号为有效语音信号，同理当手机上包括四路或者更多路麦克风时，各路麦克风向语音检测模块发送语音信号，语音检测模块判断各路语音信号是否均为有效语音信号或者判断有效的语音信号数量是否超过两路。可选的，当有效的语音信号数量超过三路时，可以选取预定数量的语音信号送入步骤103，例如从有效语音信号中选取两路或者三路或者其它数量的语音信号送入步骤103以进行后续步骤的处理。
75.本技术实施例中，语音检测模块可以基于语音能量判断接收到的语音信号是否为有效语音信号，即将语音能量的判断作为第一条件判断语音信号是否有效。可选的，语音检测模块确定接收到的语音信号的语音能量大于第一阈值时，确定该路麦克风输入的语音信号有效。在一个示例中，第一阈值取值为20db声压级，当检测到的语音信号的语音能量大于20db声压级时，确定语音信号有效。当检测到手机的至少两路麦克风输入满足第一条件的语音信号后，进入步骤103。
76.103，基于语音信号能量唤醒电子设备。
77.在检测到手机的至少两路麦克风输入满足第一条件的语音信号后，语音检测模块根据该至少两路语音信号的语音能量判断是否唤醒电子设备。其中，可以根据该至少两路语音信号的语音能量之间的关系判断是否唤醒电子设备。在一种可选的方式中，如果该至少两路语音信号的语音能量的关系满足设定的第二条件，则唤醒电子设备。其中，该至少两路语音信号的语音能量之间的关系可以是能量值差值、能量值比值或者其它可能的能量之间的关系，本技术实施例不一一限定。具体的，如果该至少两路语音信号的能量值差值或者能量值比值满足第二条件，则唤醒电子设备。
78.所述至少两路语音信号之间的能量值差值满足第二条件包括：如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它麦克风输入的语音信号之间的能量值差值均大于第二阈值，则确定所述至少两路麦克风输入的语音信号的语音能量满足第二条件。其中，所述第二阈值可以根据需要设置，例如设置为40db声压级。在一个示例中，手机中包括顶部麦克风和底部麦克风。当用户对着顶部麦克风讲话时，顶部麦克风输入的语音
信号的语音能量明显高于底部麦克风输入的语音信号的语音能量。如果顶部麦克风输入的语音信号与底部麦克风输入的语音信号的能量值差值大于第二阈值，如大于40db声压级，则唤醒电子设备。
79.在另一种可能的方式中，如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它路麦克风输入的语音之间的能量值比值均大于第三阈值，则确定所述至少两路麦克风输入的语音信号的语音能量满足第二条件。其中，所述第三阈值可以根据需要设置，例如设置为3。在一个示例中，手机中包括顶部麦克风和底部麦克风。当用户对着顶部麦克风讲话时，顶部麦克风输入的语音信号的语音能量明显高于底部麦克风输入的语音信号的语音能量。如果顶部麦克风输入的语音信号与底部麦克风输入的语音信号的能量值比值大于第三阈值，如大于3，则唤醒电子设备。
80.本技术中，基于语音信号的能量唤醒电子设备。在此方式下，用户输入的语音中无需包含特定唤醒词。在一种可能的方式中，用户可以输入没有明确指示的语音唤醒电子设备，如“嗯”“额”“啊”等语气词。当电子设备基于没有明确指示的语音唤醒后，可以从待机模式切换到正常运行模式，例如点亮屏幕等。在另一种可能的方式中，用户可以直接输入语音指令，如“播放歌曲”“呼叫a”“天气预报”“导航到b处”等。当用户输入的语音信号中包含语音指令时，可以在唤醒电子设备的基础上控制电子设备执行语音指令。例如，通过语音信号唤醒电子设备后启动语音助手应用程序。语音助手识别语音信号中的语音指令并执行。所述语音指令例如可以包括：播放歌曲，查找a的电话号码并拨出，查询本市天气预报并播报或显示，显示由当前位置导航到b处的路线等。可见，使用本技术实施例的语音唤醒方法，用户可以通过任意语音能量满足第二条件的的语音唤醒电子设备。另外，本技术实施例方法，在唤醒电子设备的同时，还可以直接通过语音指令与电子设备进行人机交互，更加符合人机语音交互场景，提升用户人机交互体验。
81.图4是本技术实施例提供的语音唤醒方法的另一个示意性流程图。如图4所示，该方法包括关键词检测(kws)模块和免唤醒词检测模块。其中，免唤醒词检测模块与上述实施例中的语音检测模块实现相同功能。当麦克风检测到语音信号后，将语音信号作为输入信号分别发送给关键词检测模块和免唤醒词检测模块。其中，关键词检测模块对语音信号进行关键词识别。如果语音信号中包含特定关键词，则关键词检测模块输出用于指示唤醒电子设备的指示值。所述指示值可以根据需要设置，例如输出为“1”时表示唤醒电子设备，输出为“0”时不唤醒点电子设备。免唤醒词检测模块接收到语音信号后，基于本技术实施例提供的方法对语音信号进行免唤醒词判断。如果根据免唤醒词判断的结果确定符合唤醒条件，则输出用于指示唤醒电子设备的指示值。所述指示值可以根据需要设置，例如输出为“1”时表示唤醒电子设备，输出为“0”时不唤醒点电子设备。唤醒决策模块根据关键词检测模块和免唤醒词检测模块的输出，确定是否唤醒电子设备。可选的，当关键词检测模块和免唤醒词检测模块中的任意一个输出用于指示唤醒电子设备的指示值时，唤醒电子设备。具体的，所述唤醒决策模块可以通过逻辑“或”、电路“或”实现。
82.可以理解，当具体实施时，关键词检测模块和免唤醒词检测模块可以依据用户的个性化设置开启。例如，根据用户的设置，可以仅开启关键词检测模块或者仅开启免唤醒词检测模块或者保持两种检测模块同时开启。进一步，根据免唤醒词检测模块和/或关键词检测模块唤醒电子设备之后，可以执行声纹检测或者人脸检测。声纹检测和人脸检测是为了
实现用户的身份验证，即验证当前用户是否是手机的合法用户。本技术实施例的免唤醒词语音唤醒方法可以应用于手机解锁。具体的，通过免唤醒词方式唤醒电子设备后，自动对用户输入的语音信号进行声纹识别。基于声纹识别验证当前用户为合法用户后，自动解锁。由此实现电子设备的声控解锁，也即实现电子设备的无接触解锁。
83.对于本技术实施例的免唤醒词语音唤醒方法，根据至少两路语音信号的语音能量唤醒电子设备。此方法可以应用在近场唤醒电子设备的场景中，尤其是近场用户以特定姿势向电子设备发出语音的场景。例如，当用户拿起手机对着手机顶部或者底部麦克风讲话时，手机顶部和底部的麦克风都会采集到满足上述第一条件的语音信号。当用户对着手机顶部讲话时，顶部麦克风所采集语音信号的语音能量会明显高于底部麦克风所采集的语音信号。同理，当用户对着手机底部讲话时，底部麦克风所采集语音信号的语音能量会明显高于顶部麦克风所采集的语音信号。本技术实施例的免唤醒词语音唤醒方法，正是基于近场场景中手机上各个麦克风所采集的语音信号的语音能量来判定是否唤醒电子设备。使用本技术实施例方法，不仅可以通过无唤醒词方式唤醒电子设备，而且能够自动过滤嘈杂环境中的无效语音信号。例如，距手机一段距离处的某人发出声音。手机上的各个麦克风和声源的相对位置基本相同。手机上各个麦克风采集的语音信号的语音能量难以达到第二条件，因此无法自动唤醒手机。可见，本技术实施例方法，通过设置进行语音信号能量判定的第二条件，可以自动屏蔽周遭环境中无效语音信号的唤醒。
84.本技术中，基于至少两路麦克风输入的语音信号的语音能量可以判断说话人在近场中的说话姿势。在一个示例中，对电子设备进行区域划分。麦克风基于在电子设备上的位置分属在对应的区域。例如，手机以屏幕中间线为界，分为顶部区域和底部区域。如果顶部区域的麦克风所采集的语音信号的语音能量大于底部区域麦克风的语音信号，且语音能量差值或者比值满足第二条件，可以判断用户对着顶部麦克风讲话。采用此方式也可以判定用户是否对着底部区域麦克风讲话。基于语音信号和用户姿势之间的对应关系，本方法在进行语音能量判断之前，可以判断输入语音信号的麦克风是否分属于电子设备的不同区域。如果属于，则进一步进行语音能量的判断。在另一种可能的方式中，可以从输入语音信号的各路麦克风中选取分属于电子设备不同区域的至少两路麦克风进行后续语音能量的判断。
85.本技术实施例方案中，判断至少两路麦克风的位置是否分属于电子设备的不同区域的方式可以是：将电子设备包含的各个麦克风按照其具体位置划分为不同组。根据麦克风所属的组别标识，确定所述至少两路麦克风是否分属于电子设备的不同区域。对于一个具体的电子设备，例如手机，根据手机上麦克风的位置对手机上的麦克风分组。在一种分组方式中，手机顶部和背部的麦克风划分在第一组，手机底部的麦克风划分在第二组，如果输入语音信号的麦克风分别来自第一组和第二组则确定所述至少两路麦克风分属于电子设备的不同区域。具体的，可以根据输入语音信号的麦克风标识确定其分组，分组不同其所对应的电子设备区域也不同。例如，输入语音信号的两个麦克风标识分别为t-mic和b-mic。其中，根据t-mic标识，确定其所对应的麦克风属于第一组，对应手机顶部区域；根据b-mic标识，确定其其所对应的麦克风属于第二组，对应手机底部区域。
86.本技术实施例方案中，对语音信号满足第一条件的判断和对麦克风分属于不同区域的判断，可以根据实际需要设定执行顺序。在一种可能的设计中，首先确定输入语音信号
的各路麦克风是否分属于电子设备的不同区域，如果是，再进一步判断各路麦克风输入的语音信号的语音能量是否大于第一阈值。另外，当同一区域中包含多个麦克风时，可以从该区域中选取一路麦克风判断语音信号能量是否大于第一阈值。在另一种可能的设计中，首先判断各路麦克风输入的语音信号的语音能量是否大于第一阈值。当至少两路麦克风输入的语音信号大于第一阈值时，进一步判断该至少两路麦克风是否分属于电子设备的不同区域。如果该至少两路麦克风分属于电子设备的不同区域，则进一步判断该至少两路语音信号的语音能量是否满足第二条件。
87.图5是本技术实施例提供的语音唤醒方法的另一个示意性流程图。图5所示方法以手机中的两路麦克风为例，对免唤醒词的语音唤醒流程进行说明。如图5所示，该方法包括两个阶段，第一阶段为有效语音信号识别，第二阶段为语音能量比较过程。
88.第一阶段：有效语音信号检测
89.如图5所示，手机中包括顶部麦克风和底部麦克风。顶部麦克风和底部麦克风采集到语音信号后，分别输入各自对应的语音检测子模块，即第一子模块(对应图5中的第一vad)和第二子模块(对应图5中的第二vad)。第一子模块用于计算顶部麦克风输入的语音信号的语音能量，并判断该语音能量是否大于第一阈值。第二子模块用于计算底部麦克风输入的语音信号的语音能量，并判断该语音能量是否大于第一阈值。如果第一子模块和第二子模块中语音信号的语音能量均大于第一阈值，说明顶部麦克风和底部麦克风均采集到有效语音信号，则进入第二阶段。
90.假设顶部麦克风和底部麦克风输入的语音信号分别是：
91.x1(n),x2(n),n＝0,1,2,3
…
92.其中n代表了数字信号的样点。那么第一子模块和第二子模块的输出可以是：
[0093][0094]
其中，e(x2)表示语音信号的语音能量，thr_vad是预先设定的一个值，如果两路语音信号的语音能量均大于thr_vad则决策子模块输出用于指示语音信号为有效的值，例如输出“1”，并进入第二阶段的能量比较过程。
[0095]
上述计算语音信号的语音能量时，可以从麦克风输入的语音信号中截取具有第一时长的第一语音信号。之后，按照设定采样频率对第一语音信号采样。基于采样信号计算麦克风输入的语音信号的语音能量。其中，基于采样信号计算麦克风输入的语音信号的语音能量，包括：计算采样信号包含的各个采样值的能量值；将所述各个采样值的能量值均值确定为麦克风输入的语音信号的语音能量。
[0096]
在上述示例中，e(x2)可以表示语音信号的语音能量的平均值，在实际计算过程中可以由一段时间的能量均值来代替：
[0097][0098]
其中，上述一段时间例如可以是20ms，n表示对20ms语音信号进行采样的采样点数量，例如音频采样率为16khz，那么n可以取值为320。
[0099]
第二阶段：语音能量比较
[0100]
语音检测模块中包括的子模块判断各路麦克风输入有效语音信号后，进入到语音能量比较模块。在语音能量比较模块中，可以根据各路语音信号之间的语音能量判断是否唤醒电子设备。其中，可以根据各路语音信号之间语音能量值的差值、比值或者其它可能的方式判断是否满足电子设备唤醒的设定条件；如果满足，则唤醒电子设备。在本实施例中，采用语音信号之间的能量值比值判断语音信号之间是否满足设定条件，具体实现方式包括：
[0101]
对于顶部麦克风和底部麦克风输入的语音信号x1(n)，x2(n)采用下述公式计算顶部麦克风和底部麦克风输入的语音信号之间的能量值比值：
[0102][0103]
其中，thr是预先设定的值，例如可以设成3。当顶部麦克风输入的语音信号与底部麦克风输入的语音信号的语音能量比值大于thr，或者底部麦克风输入的语音信号与顶部麦克风输入的语音信号的语音能量比值大于thr，则确定满足设定条件。此时，语音能量比较模块输出用于指示唤醒电子设备的值，如输出1。基于语音能量比较模块可以判断用户是否在近距离与手机讲话。尤其，用户离顶部麦克风或者底部麦克风中的其中一个比较近时，语音信号在语音能量上产生比较明显的差异，符合用户手持手机对着顶部麦克风或者底部风说话的使用场景。因此可以在用户特定讲话姿势下实现对手机的免唤醒词唤醒。
[0104]
可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的步骤，本技术能够以硬件或者硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能。
[0105]
本实施例可以根据上述方法示例对电子设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或者两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是，本实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0106]
在采用对应各个功能划分各个功能模块的情况下，图6示出了上述实施例中涉及的语音唤醒设备的一种可能的组成示意图，如图6所示，该语音唤醒设备600可以包括：语音检测单元601和唤醒单元603，其中：
[0107]
语音检测单元601，检测到满足第一条件的至少两路麦克风输入的语音信号；
[0108]
唤醒单元603，用于根据所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件，确定是否唤醒电子设备；其中，如果语音能量满足所述第二条件，则唤醒电子设备；如果不满足所述第二条件，则继续检测麦克风输入的语音信号。
[0109]
在一种可能的实现方式中，所述至少两路麦克风的位置分布在电子设备上的不同区域。
[0110]
在一种可能的实现方式中，所述语音检测单元601，具体用于计算所述至少两路麦
克风输入的语音信号的语音能量，如果所述语音能量大于第一阈值则确定所述至少两路麦克风输入的语音信号满足所述第一条件。
[0111]
在一种可能的实现方式中，所述语音检测单元601，具体用于从所述至少两路麦克风输入的语音信号中截取具有第一时长的第一语音信号；按照预设采样频率对所述第一语音信号采样；基于采样信号计算所述至少两路麦克风输入的语音信号的语音能量。
[0112]
在一种可能的实现方式中，所述语音检测单元601，具体用于计算所述采样信号包含的各个采样值的能量值，将所述各个采样值的能量值的均值确定为所述至少两路麦克风输入的语音信号的语音能量。
[0113]
在一种可能的实现方式中，所述唤醒单元603具体用于根据所述语音信号之间的能量值差值判断所述至少两路麦克风输入的语音信号的语音能量是否满足第二条件；或者，根据所述语音信号之间的能量值比值判断所述至少两路麦克风输入的语音信号之间的语音能量是否满足第二条件。
[0114]
在一种可能的实现方式中，所述唤醒单元603具体用于如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它路麦克风输入的语音信号之间的能量值差值均大于第二阈值，则确定所述至少两路麦克风输入的语音信号的语音能量满足第二条件。
[0115]
在一种可能的实现方式中，所述唤醒单元603具体用于如果所述至少两路麦克风中其中一路麦克风输入的语音信号与剩余其它路麦克风输入的语音之间的能量值比值均大于第三阈值，则确定所述至少两路麦克风输入的语音信号的语音能量满足第二条件。
[0116]
应理解，这里的电子设备以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，asic)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
[0117]
本技术还提供了一种语音唤醒设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现上述语音唤醒方法。
[0118]
本技术还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行如上述图3-图5所示的语音唤醒方法中的各个步骤。
[0119]
本技术还提供了一种包含指令的计算机程序产品，当该计算机程序产品在计算机或任一至少一种处理器上运行时，使得计算机执行如图3-图5所示的语音唤醒方法中的各个步骤。
[0120]
本技术还提供一种芯片，包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行本技术提供的语音唤醒方法执行的相应操作和/或流程。
[0121]
可选地，该芯片还包括存储器，该存储器与该处理器通过电路或电线与存储器连接，处理器用于读取并执行该存储器中的计算机程序。进一步可选地，该芯片还包括通信接
口，处理器与该通信接口连接。通信接口用于接收需要处理的数据和/或信息，处理器从该通信接口获取该数据和/或信息，并对该数据和/或信息进行处理。该通信接口可以是输入输出接口。
[0122]
存储器可以是只读存储器(read-only memory，rom)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，ram)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、只读光盘(compact disc read-only memory，cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。
[0123]
本技术实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。
[0124]
本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0125]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0126]
在本技术所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0127]
以上所述，仅为本技术的具体实施方式，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。本技术的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于边界攻击的声纹识别对抗样本生成方法与流程

语音唤醒方法和设备与流程

相关文献

最热文献