首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

语音启动终端的方法及装置、介质和电子设备与流程

2021-07-02 21:13:00 来源：中国专利 TAG：终端语音启动电子设备信号处理

本公开涉及音频信号处理技术领域，具体而言，涉及一种语音启动终端的方法、一种语音启动终端的装置，以及计算机可读存储介质和电子设备。

背景技术：

目前，通过语音唤醒终端，为用户提供了便利的使用体验。

然而，在终端处于黑屏状态，其中的中央处理单元(centralprogressingunit，简称：cpu)处于休眠状态下。相关技术提供的语音启动终端的方案中，唤醒终端cpu以使终端启动相关语音助手的过程，存在耗时长的问题。

技术实现要素：

本公开提供一种语音启动终端的方法、语音启动终端的装置、计算机可读存储介质和电子设备，进而至少在一定程度上减少语音启动终端过程的耗时。

根据本公开的一个方面，提供一种语音启动终端的方法，包括：在确定终端的第一芯片当前处于休眠状态的情况下，接收并切分语音信号，得到多个音频片段；在确定所述多个音频片段中包含第一预设文本的情况下，将包含所述第一预设文本的目标音频片段发送至所述第一芯片，触发所述第一芯片退出休眠状态；通过所述第一芯片加载与语音播放相关的参数，以使终端播放第二预设文本，并基于所述第一芯片根据所述目标音频片段进行用户身份认证；在用户身份认证通过的情况下，显示目标图形用户界面。

根据本公开的一个方面，提供一种语音启动终端的装置可以包括以下模块：获取模块、发送模块、关联处理模块以及显示模块。

其中，上述获取模块，被配置为：在确定终端的第一芯片当前处于休眠状态的情况下，接收并切分语音信号，得到多个音频片段；上述发送模块，被配置为：在确定上述多个音频片段中包含第一预设文本的情况下，将包含上述第一预设文本的目标音频片段发送至上述第一芯片，触发上述第一芯片退出休眠状态；上述关联处理模块，被配置为：通过上述第一芯片加载与语音播放相关的参数，以使终端播放第二预设文本，并基于上述第一芯片根据上述目标音频片段进行用户身份认证；上述显示模块，被配置为：在用户身份认证通过的情况下，显示目标图形用户界面。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述的语音启动终端的方法。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及

存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音启动终端的方法。

在本公开的一些实施例所提供的语音启动终端的方法、装置、计算机可读存储介质和电子设备中，在确定终端的第一芯片当前处于休眠状态的情况下，接收并切分语音信号，得到多个音频片段。然后，在确定上述多个音频片段中包含第一预设文本(如，“小a小a”)的情况下，将包含第一预设文本的目标音频片段发送至第一芯片，触发所述第一芯片退出休眠状态。

由于第二预设文本(如，“我在呢”)的播放与用户身份是否能够认证通过的关联性不大，也就是说，在用户身份未认证通过的情况下播放了上述第二预设文本，并不会影响用户信息安全。因此，在基于第一芯片根据目标音频片段进行用户身份认证的同时，加载与语音播放相关的参数以使终端播放第二预设文本，从而有效节省终端启动耗时。

相较于相关技术中，根据目标音频片段进行用户身份认证之后再加载与语音播放相关的参数以使终端播放第二预设文本，显然，本技术方案能够有效节省语音启动终端的耗时。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了可以应用本公开实施例的语音启动终端的方法或装置的系统构架图。

图2示意性示出了适于用来实现本公开实施例的电子设备的结构图。

图3示意性示出了本公开实施例中语音启动终端的方法的流程图。

图4中示意性示出了本公开一示例性实施例中语音启动终端的方法的情景示意图。

图5中示意性示出了相关技术中一示例性实施例中语音启动终端的方法的情景示意图。

图6中示意性示出了本公开一示例性实施例中第一次文本验证方法的流程示意图。

图7中示意性示出了本公开一示例性实施例中声纹验证方法的流程示意图。

图8示意性示出了本公开示例性实施例中语音启动终端的装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，下面所有的术语“第一”、“第二”仅是为了区分的目的，不应作为本公开内容的限制。

图1示意性示出了可以应用本公开实施例的语音启动终端的方法或装置的系统构架图。

如图1所示，该系统构架100可以包括终端101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端101、102、103可以是具有显示屏的各种终端设备。应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

基于上述系统构架，以下对本技术方案提供的语音启动终端的方法的实施例进行详细阐述：

本技术方案提供的语音启动终端的方法的使用场景可以是终端被用户唤醒，其中，能够成功唤醒终端的用户应是在该终端进行过身份认证的用户，且在该用户发出预设文本的声音时，终端成功识别后才可以启动终端。示例性的，终端101可以是各种类型的能够用于播放视频或图像浏览手机、平板电脑、台式计算机、车载设备、可穿戴设备等等。

图2示出了适于用来实现本公开示例性实施方式的一种电子设备的示意图。需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的语音启动终端的方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(universalserialbus，usb)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriberidentificationmodule，sim)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(applicationprocessor，ap)、调制解调处理器、图形处理器(graphicsprocessingunit，gpu)、图像信号处理器(imagesignalprocessor，isp)、控制器、视频编解码器、数字信号处理器(digitalsignalprocessor，dsp)、基带处理器和/或神经网络处理器(neural-etworkprocessingunit，npu)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

usb接口230是符合usb标准规范的接口，具体可以是miniusb接口，microusb接口，usbtypec接口等。usb接口230可以用于连接充电器为电子设备200充电，也可以用于电子设备200与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备等。

充电管理模块240用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

电子设备200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

移动通信模块250可以提供应用在电子设备200上的包括2g/3g/4g/5g等无线通信的解决方案。

无线通信模块260可以提供应用在电子设备200上的包括无线局域网(wirelesslocalareanetworks，wlan)(如无线保真(wirelessfidelity，wi-fi)网络)、蓝牙(bluetooth，bt)、全球导航卫星系统(globalnavigationsatellitesystem，gnss)、调频(frequencymodulation，fm)、近距离无线通信技术(nearfieldcommunication，nfc)、红外技术(infrared，ir)等无线通信的解决方案。

电子设备200通过gpu、显示屏290及应用处理器等实现显示功能。gpu为图像虚化的微处理器，连接显示屏290和应用处理器。gpu用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个gpu，其执行程序指令以生成或改变显示信息。

电子设备200可以通过isp、摄像模组291、视频编解码器、gpu、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或n个摄像模组291，n为大于1的正整数，若电子设备200包括n个摄像头，n个摄像头中有一个是主摄像头，其他可以为副摄像头，例如长焦摄像头。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如microsd卡，实现扩展电子设备200的存储能力。

电子设备200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中，音频模块270可以设置于处理器210中，或将音频模块270的部分功能模块设置于处理器210中。

扬声器271，用于将音频电信号转换为语音信号。电子设备200可以通过扬声器271收听音乐，或收听免提通话。受话器272，也称“听筒”，用于将音频电信号转换成语音信号。当电子设备200接听电话或语音信号时，可以通过将受话器272靠近人耳接听语音。麦克风273，也称“话筒”，“传声器”，用于将语音信号转换为电信号。当拨打电话或发送语音信号时，用户可以通过人嘴靠近麦克风273发声，将语音信号输入到麦克风273。电子设备200可以设置至少一个麦克风273。耳机接口274用于连接有线耳机。

针对电子设备200包括的传感器，深度传感器用于获取景物的深度信息。压力传感器用于感受压力信号，可以将压力信号转换成电信号。陀螺仪传感器可以用于确定电子设备200的运动姿态。气压传感器用于测量气压。磁传感器包括霍尔传感器。电子设备200可以利用磁传感器检测翻盖皮套的开合。加速度传感器可检测电子设备200在各个方向上(一般为三轴)加速度的大小。距离传感器用于测量距离。接近光传感器可以包括例如发光二极管(led)和光检测器，例如光电二极管。指纹传感器用于采集指纹。温度传感器用于检测温度。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏290提供与触摸操作相关的视觉输出。环境光传感器用于感知环境光亮度。骨传导传感器可以获取振动信号。

按键294包括开机键，音量键等。按键294可以是机械按键。也可以是触摸式按键。马达293可以产生振动提示。马达293可以用于来电振动提示，也可以用于触摸振动反馈。指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。sim卡接口295用于连接sim卡。电子设备200通过sim卡和网络交互，实现通话以及数据通信等功能。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本公开实施例中，首先提供了一种语音启动终端的方法。图3中示意性示出了该语音启动终端的方法的流程示意图。具体地，参考图3所示实施例中的语音启动终端的方法包括：

步骤s310，在确定终端的第一芯片当前处于休眠状态的情况下，接收并切分语音信号，得到多个音频片段；

步骤s320，在确定所述多个音频片段中包含第一预设文本的情况下，将包含所述第一预设文本的目标音频片段发送至所述第一芯片，触发所述第一芯片退出休眠状态；

步骤s330，通过所述第一芯片加载与语音播放相关的参数，以使终端播放第二预设文本，并基于所述第一芯片根据所述目标音频片段进行用户身份认证；以及，

步骤s340，在用户身份认证通过的情况下，显示目标图形用户界面。

本公开提供的技术方案适用于终端的第一芯片当前处于休眠状态的情况下(如cpu处于休眠的状态下)，用户通过声音来启动该终端，以使得该终端显示被启动状态的图形用户界面(userinterface，简称：ui)。

在图3所提供的实施例中，由于上述第二预设文本(如，“我在呢”)的播放与用户身份是否能够认证通过的关联性不大，也就是说，在用户身份未认证通过的情况下播放了上述第二预设文本，并不会影响用户信息安全。因此，在基于第一芯片根据目标音频片段进行用户身份认证的同时，加载与语音播放相关的参数以使终端播放上述第二预设文本。同时通过第一芯片进行身份认证，以在用户身份认证通过的情况下，显示目标图形用户界面。从而有效节省终端启动耗时。

在示例性的实施例中，图4中示意性示出了本公开一示例性实施例中语音启动终端的方法的情景示意图。图5中示意性示出了相关技术中一示例性实施例中语音启动终端的方法的情景示意图。

其中，同前所述，由于上述第二预设文本(如，“我在呢”)的播放与用户身份是否能够认证通过的关联性不大，因此，参考图4所示的本技术方案中，在用户身份未认证通过的情况下，一方面基于第一芯片根据目标音频片段进行用户身份认证，同时，另一方面加载与语音播放相关的参数以使终端播放上述第二预设文本。相较于如图5示出的相关技术中，先根据目标音频片段进行用户身份认证，然后再加载与语音播放相关的参数以使终端播放第二预设文本。显然，相关技术提供的方案中上述两个步骤具有先后执行顺序，而本技术方案则是同时执行，因此本技术方案能够有效节省语音启动终端的耗时。

以下对图3所示实施例所包含的各个步骤的具体实施方式进行介绍：

在示例性的实施例中，参考图4，终端通过麦克风(microphone，简称：mic)获取距离终端一定距离的范围内的声音。进一步地，为了降低语音启动终端所带来的功耗，本实施例中通过功耗低于上述第一芯片的第二芯片接收mic传送来的语音信号。其中，上述第一芯片是指cpu，上述第二芯片是指数字信号处理(digitalsignalprocessing，简称：dsp)。具体地，通过dsp将接收到的语音信号进行文本验证(为了与后文中通过cpu再次进行文本验证，此处记作“第一次文本验证”)，以在第一次文本验证通过的情况下唤醒第一芯片。

示例性的，图6中示意性示出了本公开一示例性实施例中第一次文本验证方法的流程示意图。该图所示实施例包括以下步骤：

步骤s610，通过第二芯片接收并切分语音信号，得到多个音频片段。

在示例性的实施例中，由于语音信号一般为连续的语音，因此本实施例中对语音信号进行分割。其中，上述第二芯片采用预设端点检测算法对上述语音信号进行端点检测，然后根据端点检测结果将该语音信号划分为多个音频片段。

需要注意的是，本实施例对于采用何种端点检测算法对第一音频信号进行端点检测不做具体限制，可由本领域普通技术人员根据实际需要选取。如，采用语音端点检测(voiceactivitydetection，简称：vad)算法对第一音频信号进行端点检测。

步骤s620，通过所述第二芯片提取各所述音频片段的梅尔频率倒谱系数。

在示例性的实施例中，上述第二芯片对上述音频片段进行高通滤波。进一步地，对滤波后的音频片段进行加窗处理，以平滑上述音频片段的边缘。如，采用汉明窗的形式加窗。然后，上述第二芯片基于以下公式进行梅尔频率倒谱系数的提取，

其中，fmel(f)表示梅尔频率倒谱系数，f表示傅里叶变换后的频点。

步骤s630，通过所述第二芯片根据与所述第一预设文本相关的高斯混合通用背景模型对各所述音频片段的梅尔频率倒谱系数进行匹配。以及步骤s640，在存在匹配的音频片段的情况下，则确定所述多个音频片段中包含所述第一预设文本。

在示例性的实施例中，上述第一预设文本为为了语音启动终端而预先设置的文本。例如，设置声音中包含“小a小a”时，可以启动终端的语音助手播放用于应答的第二预设文本，如“我在呢”等。

本实施例中采用预训练的且与上述第一预设文本相关的高斯混合通用背景模型。示例性的，预训练过程可以是，根据上述第一预设文本的语音信号，提取相关的梅尔频率倒谱系数，然后根据提取到的梅尔频率倒谱系数训练得到一个与上述第一预设文本相关的高斯混合通用背景模型。

示例性的，对于上述第二芯片在分别提取到各个音频片段的梅尔频率倒谱系数，输入预训练后的高斯混合通用背景模型中，由高斯混合通用背景模型对当前音频片段的梅尔频率倒谱系数进行识别，并输出当前音频片段与上述第一预设文本的匹配概率。在匹配概率满足预设要求时，则认为当前音频片段与上述第一预设文本相匹配。

通过图6所示实施例，第二芯片(如上述dsp)便可以实现对所接收到的声音进行第一次文本验证。从而验证声音中是否包含上第一预设文本。具体的，参考图4或图5，通过dsp验证验证声音中包含上第一预设文本(即，第一次文本验证成功)的情况下，实现对终端的“一级唤醒”，也可以称作“息屏唤醒”。示例性的，此时终端屏幕初始状态下的黑屏被点亮，可以展示初始桌面。具体的，为了提升终端的使用安全性，对于包含开机锁的终端，当前虽然处于亮屏状态但是仍然需要输入密码之后才能对终端进行操控。

参考图4，考虑到“一级唤醒”为采用功耗较低的dsp实现，为了进一步提升文本识别准确度进而有利于终端安全性，则在一级唤醒之后，由cpu执行“二级唤醒”。具体地，在确定上述多个音频片段中包含第一预设文本的情况下，此时dsp发送event信号，触发第一芯片退出休眠状态，并将包含上述第一预设文本的目标音频片段发送至第一芯片。在本实施例中对上述目标音频片段进行第二次文本验证，具体地验证过程可以采用图6中步骤s620-步骤s640对应的实施例，在此不再赘述。需要说明的是，在第一次文本校验之后确定上述多个音频片段中未包含上述第一预设文本的情况下，说明当前声音中并非用于唤醒该终端，则保持所述第一芯片处于休眠状态，以避免误唤醒提升唤醒准确率。

在示例性的实施例中，经过cpu进行上述第二次文本验证之后，从而进一步确定声音中是否包含上第一预设文本。参考图4或图5，在cpu再一次验证验证声音中包含上第一预设文本(即，第二次文本验证成功)的情况下，实现对终端的“二级唤醒”。

示例性的，参考图4，接下来，基于cpu同时执行以下两方面：

一方面，加载与语音播放相关的参数，以使终端播放第二预设文本。

在示例性的实施例中，启动语音助手service，加载语音助手相关参数，加载需要播放的包含上述第二预设文本的音频，如“小布，在呢”等。从而在声纹验证之前便作出对于用户声音的应答，相较于相关技术，缩短了为用户提供应答的时长，有利于提升用户的使用体验。

另一方面，根据所述目标音频片段进行用户身份认证，即基于cpu进行声纹验证。

在示例性的实施例中，图7中示意性示出了本公开一示例性实施例中声纹验证方法的流程示意图。声纹识别(voiceprintrecognition，简称：vpr)，通常也被称为话者识别(speakerrecognition，简称：sr)。一般可以分为两类，包括：发音人辨认(speakeridentification，简称：si)和发音人确认(speakerverification，简称：sv)。其中，对于si，具体是判断某段语音片段是若干人(可称作标记用户，即多个标记用户)中的哪位(可称作待识别用户)所说的，从而通过待识别用户的语音实现对待识别用户的身份识别。对于sv，具体是确认某语音片段是否是指定的某人(可称作标记用户，即一个标记用户)所说。不管是si中解决的辨认问题，还sv中所解决的确认问题，都需要先对说话人(可称作待识别用户)的声纹特征进行提取。

相关的基于声纹的身份识别方案中，利用短时语音频谱特征方法进行声纹特征提取，进而根据提取到的声纹特征对测试者进行身份识别。其中，利用短时语音频谱特征方法进行声纹特征提取可能导致声纹特征维度比较局限，从而造成不同人的声纹之间的差异性不足，进而影响身份识别的准确性和稳定性。

针对相关技术中的基于声纹的身份识别方案中存在的技术问题，本技术方案采用基于机器学习模型的方式进行声纹特征提取。示例性的，参考图7所示出的实施例。

步骤s710，获取所述目标音频片段的声纹特征。

在示例性的实施例中，可以通过预训练的声纹特征提取模型来获取目标音频片段的声纹特征。其中，该声纹特征提取模型可以为神经网络模型。

步骤s720，将所述声纹特征输入身份确认模型，得到所述目标音频片段属于的目标用户的预测概率。

在示例性的实施例中，可以通过预训练的身份确认模型来获取目标音频片段属于的目标用户的预测概率。其中，该身份确认模型可以为神经网络模型。

需要说明的是，该身份确认模型是根据用户近期语音数据定期更新的。示例性的，每隔一周通过最近一周的语音数据进行一次训练，以更新该身份确认模型。从而确保在用户声音有改变的情况下也能进行准确地身份识别。其中，相关模型更新的过程将在下述实施例中进行介绍。

步骤s730，确定所述预测概率是否大于第一预设值。在确定所述预测概率大于第一预设值的情况下，说明身份认证准确度可以达到预设要求，则执行步骤s740，用户身份认证通过，显示目标图形用户界面。在确定所述预测概率不大于第一预设值的情况下，说明身份认证准确度不能够达到预设要求，则结束对相关语音信号的处理。

其中，上述第一预设值为根据实际需要设定的数值，在此不作限定。上述目标图形用户界面为终端开锁后显示的ui。通过语音启动的方式，能够避免手动解锁终端，为用户提供了解锁终端的便利。

通过图6和图7所示实施例，依次通过第二芯片(如上述dsp)对所接收到的声音进行第一次文本验证，以及通过第一芯片(如，cpu)进行了第二次文本验证，从而有效提升了对声音中是否包含上第一预设文本的验证准确率。进一步，参考图4或图5，通过cpu进行声纹验证验证，以实现对用户身份的验证。并在身份验证通过的情况下，则实现了对终端的“声纹唤醒”。继续参考图4，在身份验证通过的情况下，则可以通过cpu启动语音助手activity，弹出ui交互界面，以实现对该终端的启动。

通过上述方案，相较于相关技术，通过语音唤醒终端所耗时长可以减少700ms(即，有效减少语音助手的启动时间)。

需要说明的是，随时间推移终端用户的声音可能发生变化(即，声纹漂移)，从而可能导致声纹唤醒率降低，为了解决上述声纹漂移问题带来的声纹验证准确率低的问题，本技术方案将不间断地通过用户近期的语音信号来丰富上述身份确认模型的训练数据库，以使得不断更新的身份确认模型能够较为准确地通过声纹特征确定用户身份。

在一种示例性的实施例中，将音频片段属于的目标用户的预测概率作为衡量是否可以作为更新上述身份确认模型的训练样本的标准。示例性的，若预测概率大于第一预设值的情况下，说明身份认证准确度可以达到预设要求，则保存该目标音频片段至目标文件夹，以通过该目标文件夹(如，updatetrainaudio文件夹)中所包含的声纹特征更新所述身份确认模型。具体地，每间隔预设时长(如，一周或一个月)，在该目标文件夹中获取所述预测概率较大的n个音频片段，n为正整数；通过预测概率较大的n个音频片段的声纹特征更新所述身份确认模型。

示例性的，在确定上述n个用于更新上述身份确认模型的音频片段之后，需清空上述目标文件夹，以确保该目标文件夹中保存的为该用户近期(如，近期一周、近期一个月等)的语音信息，从而通过近期的语音来训练上述身份确认模型，以有效解决用户声音漂移的问题。

在示例性的实施例中，继续参考图7，在步骤s730中确定所述预测概率大于第一预设值的情况下，还执行步骤s750：获取所述目标音频片段的信噪比。且在步骤s760中：确定所述信噪比是否低于第二预设值。

在确定所述信噪比不低于第二预设值的情况下，说明当前的音频片段信号中噪音占比较高，不适用于作为训练样本以更新训练上述身份确认模型，因此此音频片段不适于作为上述身份确认模型的训练样本，进而结束对该音频片段的进一步处理。

在确定所述信噪比低于第二预设值的情况下，说明当前的音频片段信号较为纯净。本实施例中将信噪比低于第二预设值是作为更新训练上述身份确认模型的训练样本的必要条件，也就是说，本实施例将进一步地对信噪比低于第二预设值的目标音频片段进行验证，以确保用以更新上述身份确认模型的训练样本的信用度较高。

示例性的，在确定所述信噪比低于第二预设值的情况下，执行步骤s770：获取所述语音信号对应的信用验证信息，并根据所述信用验证信息验证所述语音信号。

在示例性的实施例中，上述信用验证信息可以是用户事先设置的验证条件，例如，获取采集到上述语音信号时对应的wifi网络信息为目标wifi名称，获取采集到上述语音信号时对应的地理位置信息(如，gps)为用户居住地对应的gps信息，或者获取采集到上述语音信号时对应的蓝牙设备信息为目标蓝牙名称等。因此，可以将获取采集到上述语音信号时对应的gps信息、wifi网络信息和蓝牙设备信息中的一种或多种作为上述信用验证信息。

在步骤s780中，确定是否验证通过。

在示例性的实施例中，若信用验证信息为获取采集到上述语音信号时对应的gps信息，则判断获取采集到上述语音信号时对应的gps信息是否为用户居住地对应的gps信息。若是，则验证通过，否则验证不通过。在验证不通过的情况下，说明当前的目标音频片段的信用度达不到预设要求，则放弃对该目标音频片段的进一步处理，即结束相关处理。

在验证通过的情况下，执行步骤s790：保存所述目标音频片段至目标文件夹，以通过所述目标文件夹(如，updatetrainaudio文件夹)中所包含的声纹特征更新所述身份确认模型。

具体地，遍历目标文件夹updatetrainaudio文件夹内音频片段，结合目标音频片段属于的目标用户的预测概率以及上述信噪比，选择最优的一条音频更新模型筛选出用于更新上述身份确认模型的音频信息。本实施例中，结合预测概率以及信噪比两方面来确定用于更新上述身份确认模型的训练样本，可以有效保证样本质量，最终有利于提升模型的预测准确度。

示例性的，参考图7，更新后的身份确定模型用于在步骤s720中接收声纹特征并输出目标音频片段属于目标用户的概率。更新后的身份确定模型能够有效解决声纹漂移问题，则通过更新后的身份确定模型而确定的预测概率具有较高的准确度。

示例性的，同前所述，在确定上述m个用于更新上述身份确认模型的音频片段之后，需清空上述目标文件夹，以确保该目标文件夹中保存的为该用户近期的语音信息，从而通过近期的语音来训练上述身份确认模型，以有效解决用户声纹漂移的问题。

本公开提供的语音启动终端的技术方案，一方面，在根据目标音频片段进行用户身份认证的同时，加载与语音播放相关的参数以使终端播放预设文本，从而有效节省终端启动耗时，进而能够有效减少语音唤醒响应时长。另一方面，结合用户声纹影响因素，每间隔一定周期内对用户的身份确认模型进行更新，从而有效解决用户声纹漂移问题，进而有利于提升用户身份的预测准确度。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

图8示意性示出了本公开的示例性实施方式的语音启动终端的装置的方框图。参考图8示，根据本公开的示例性实施方式的语音启动终端的装置800可以包括以下模块：获取模块801、发送模块802、关联处理模块803以及显示模块804。

其中，上述获取模块801，被配置为：在确定终端的第一芯片当前处于休眠状态的情况下，接收并切分语音信号，得到多个音频片段；上述发送模块802，被配置为：在确定上述多个音频片段中包含第一预设文本的情况下，将包含上述第一预设文本的目标音频片段发送至上述第一芯片，触发上述第一芯片退出休眠状态；上述关联处理模块803，被配置为：通过上述第一芯片加载与语音播放相关的参数，以使终端播放第二预设文本，并基于上述第一芯片根据上述目标音频片段进行用户身份认证；上述显示模块804，被配置为：在用户身份认证通过的情况下，显示目标图形用户界面。

在本公开的一种示例性实施例中，基于上述方案，上述获取模块801，被具体配置为：通过第二芯片接收并切分语音信号，得到多个音频片段，其中，上述第二芯片的功耗低于上述第一芯片；

上述发送模块802，被具体配置为：通过上述第二芯片确定上述多个音频片段中包含第一预设文本，并通过上述第二芯片将包含上述第一预设文本的目标音频片段发送至上述第一芯片。

在本公开的一种示例性实施例中，基于上述方案，上述发送模块802，还被具体配置为：通过上述第二芯片提取各上述音频片段的梅尔频率倒谱系数；通过上述第二芯片根据与上述第一预设文本相关的高斯混合通用背景模型对各上述音频片段的梅尔频率倒谱系数进行匹配；在存在匹配的音频片段的情况下，则确定上述多个音频片段中包含上述第一预设文本。

在本公开的一种示例性实施例中，基于上述方案，上述装置还包括：文本确定模块805。

其中，上述文本确定模块805被配置为：在通过上述第一芯片加载与语音播放相关的参数之前，通过上述第一芯片确定上述多个音频片段中包含上述第一预设文本。

在本公开的一种示例性实施例中，基于上述方案，上述发送模块802，还被配置为：在确定上述多个音频片段中未包含上述第一预设文本的情况下，保持上述第一芯片处于休眠状态。

在本公开的一种示例性实施例中，基于上述方案，上述关联处理模块803，被具体配置为：获取上述目标音频片段的声纹特征；将上述声纹特征输入身份确认模型，得到上述目标音频片段属于的目标用户的预测概率；确定上述预测概率大于第一预设值，则用户身份认证通过。

在本公开的一种示例性实施例中，基于上述方案，上述装置还包括：验证模块806和模型更新模块807。

其中，上述验证模块806被配置为：在上述预测概率大于第一预设值的情况下，获取上述语音信号对应的信用验证信息，并根据上述信用验证信息验证上述语音信号；上述模型更新模块807被配置为：在验证通过的情况下，保存上述目标音频片段至目标文件夹，以通过上述目标文件夹中所包含的声纹特征更新上述身份确认模型。

在本公开的一种示例性实施例中，基于上述方案，上述验证模块806，被具体配置为：获取采集到上述语音信号时对应的网络信息、地理位置信息和蓝牙设备信息中的一种或多种，得到上述信用验证信息。

在本公开的一种示例性实施例中，基于上述方案，上述模型更新模块807，被具体配置为：每间隔预设时长，在上述目标文件夹中获取上述预测概率较大的n个音频片段，n为正整数；通过上述预测概率较大的n个音频片段的声纹特征更新上述身份确认模型，并清空上述目标文件夹。

在本公开的一种示例性实施例中，基于上述方案，上述装置还包括：信噪比确定模块808。

其中，上述信噪比确定模块808被配置为：在根据上述信用验证信息验证上述语音信号之前，在上述预测概率大于上述第一预设值的情况下，获取上述目标音频片段的信噪比；以在确定上述信噪比低于第二预设值的情况下，根据上述信用验证信息验证上述语音信号。

在本公开的一种示例性实施例中，基于上述方案，上述模型更新模块807，还被具体配置为：每间隔预设时长，在上述目标文件夹中获取上述预测概率较大且信噪比较小的m个音频片段，m为正整数；通过上述预测概率较大的m个音频片段的声纹特征更新上述身份确认模型，并清空上述目标文件夹。

需要说明的是，由于本公开实施方式的语音启动终端的装置的各个功能模块与上述语音启动终端的方法的实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于带限噪声的音频注入调控声设计方法与流程

语音启动终端的方法及装置、介质和电子设备与流程

相关文章

最热文献