一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音信息处理方法及设备与流程

2021-08-31 17:45:00 来源:中国专利 TAG:语音 方法 申请 设备 信息
语音信息处理方法及设备与流程

本申请涉及语音处理技术领域,具体涉及语音信息处理方法及设备。



背景技术:

在智能语音交互场景中,智能设备存在两种常用的聆听用户语音的模式,分别是持续聆听模式和全时免唤醒模式,全时免唤醒模式又可以称为全时聆听模式。持续聆听或全时聆听状态下,智能设备需要区分用户内容是否为对其有效的指令,即需要区分人与机器的对话内容、人与人的对话内容。

具体的,在聆听状态下,设备采集到的语音信息包括闲聊数据,为避免智能设备被闲聊内容误触发,常利用规则匹配模块,或利用推理模块(如神经网络推理模块)进行判断获取到的语音信息是否为有效的语音控制指令。但是,由于在不同的使用环境和场景下,相同的语音信息或者相同语义的语音信息的有效性可能不同,例如,某个语句在当前场景下属于有效的语音控制指令,但是在另一个场景下只是闲聊的信息,属于无效信息。而现有的语音信息有效判定方案无法适应这种不同使用环境和场景下的语音信息有效性识别,容易导致识别准确率低,无效语音误触发的情况。

综上所述,如何在不同的智能语音交互场景中提高有效语音识别的准确率,降低无效语音的误触发率是本领域技术人员急需解决的技术问题。



技术实现要素:

本申请提供一种语音信息处理方法及设备,能够在不同的智能语音交互场景中提高有效语音识别的准确率,降低无效语音的误触发率。

第一方面,本申请提供一种语音信息处理方法,该方法包括:

获取第一语音信息;在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作,其中,该判决条件为基于该第一语音信息产生时所在的环境情况调整得到。

由于语音信息产生的环境情况会对语音信息是否为有效的语音控制指令有较大的影响,相同的或相似的语音信息在一个环境情况下为有效指令,但在另一个环境情况下就不一定是有效指令,因此,本申请针对不同环境情况下接收到的语音信息,适应性地调整判决语音信息有效性的判决条件,能够在不同环境情况下更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,所述第一语音信息产生时所在的环境情况包括如下的一项或多项:截止至所述设备获取到该第一语音信息的第二预设时长内的说话人数,所述第一语音信息产生时预设范围内的人数,所述第一语音信息的置信度,或所述第一语音信息的信噪比。

由于在一段时间内说话人的数量越多,和/或语音信息产生时周围的人数越多,那么设备接收到的语音信息是闲聊即为无效语音的概率就越大,另外,语音信息的置信度和/或信噪比越高,表明设备可以正确识别出语音信息的语句的概率大,也会影响语音信息有效性的识别,因此,基于该几项中的一项或多项适应性地调整判决语音信息有效性的判决条件,能够更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,所述判决条件为基于所述第一语音信息产生时所在的环境情况调整得到,包括:所述判决条件为基于所述环境情况以及设备的持续聆听时长调整得到。

由于设备持续聆听语音的时长越长,聆听到的语音信息为无效语音的概率越大,因此,本申请中结合语音信息产生时的环境情况和设备的持续聆听时长来适应性地调整判决语音信息有效性的判决条件,可以进一步更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,所述判决条件为基于所述环境情况以及设备的持续聆听时长调整得到,包括:所述判决条件为基于所述环境情况、所述持续聆听时长以及历史语音信息的情况调整得到。

基于历史语音信息也可以帮助判断当前获取的语音信息的有效性,例如若当前获取的语音信息与历史获取的有效语音信息相似度较大,那么当前获取的语音信息为有效语音指令的概率较大,反之,若当前获取的语音信息与历史获取的无效语音信息相似度较大,那么当前获取的语音信息为无效语音指令的概率较大。因此,本申请中除了上述介绍的语音信息产生的环境情况和设备聆听时长,还结合历史语音信息来适应性地调整判决语音信息有效性的判决条件,也可以进一步更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,所述判决条件为基于所述第一语音信息产生时所在的环境情况调整得到,包括:所述判决条件为基于所述环境情况以及历史语音信息的情况调整得到。

基于前面的描述,本申请中结合语音信息产生的环境情况和历史语音信息来适应性地调整判决语音信息有效性的判决条件,也可以进一步更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,所述历史语音信息的情况包括如下中的一种或多种:

获取所述第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔;

获取所述第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;

获取到所述第一语音信息前第一预设时长内有效语音信息和无效语音信息的占比;

所述第一语音信息与最近一次获取到的有效语音信息的语义的第一关联度;

所述第一语音信息与最近一次获取到的无效语音信息的语义的第二关联度;

第一语音信息与设备最近一次获取到的有效语音信息的第三关联度;

截止至获取到所述第一语音信息时设备与用户语音对话的状态;

所述第一语音信息与历史有效语音信息的声学特征的第一相似度;

所述第一语音信息与历史无效语音信息的声学特征的第二相似度。

在本申请中,可以用于帮助判断当前获取的语音信息的有效性的历史语音信息包括上述的一项或多项,基于该一项或多项来适应性地调整判决语音信息有效性的判决条件,均可以更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,在所述环境情况指示所述第一语音信息有效的概率大于无效的概率的情况下,所述判决条件的灵敏度被调高;

在所述环境情况指示所述第一语音信息有效的概率小于无效的概率的情况下,所述判决条件的灵敏度被调低。

在本申请实施例中,对于接收到的语音信息若有效的概率较大,那么可以降低有效性的判决门槛即提高判决条件的灵敏度,若有效的概率较小,那么可以提高有效性判决的门槛即降低判决条件的灵敏度,从而可以对于不同的环境情况下接收的语音信息进行灵活地识别其有效性,提高识别的准确率,而不是一刀切地使用固定的判决条件来判断各个场景下的语音信息的有效性。

一种可能的实施方式中,所述设备的持续聆听时长越长所述判决条件的灵敏度被调得越低。

由于设备持续聆听语音的时长越长,聆听到的语音信息为无效语音的概率越大,因此,在本申请中可以提高有效性判决的门槛即降低判决条件的灵敏度,从而可以更准确地识别语音信息是否有效。

一种可能的实施方式中,所述历史语音信息的情况包括获取所述第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔;所述第一时间间隔越长所述判决条件的灵敏度被调得越低。

由于获取当前语音信号的时间与最近一次获取到有效语音信息之间的间隔越长,那么该获取的当前语音信号为无效语音指令的概率越大,因此,在本申请中可以提高有效性判决的门槛即降低判决条件的灵敏度,从而可以更准确地识别语音信息是否有效。

一种可能的实施方式中,所述历史语音信息的情况包括获取所述第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;所述第二时间间隔越长所述判决条件的灵敏度被调得越低。

由于获取当前语音信号的时间与最近一次获取到无效语音信息之间的间隔越长,那么该获取的当前语音信号为无效语音指令的概率越大,因此,在本申请中可以提高有效性判决的门槛即降低判决条件的灵敏度,从而可以更准确地识别语音信息是否有效。

一种可能的实施方式中,所述历史语音信息的情况包括获取所述第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔,以及包括获取所述第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;在所述第一时间间隔小于所述第二时间间隔的情况下,所述判决条件的灵敏度被调高。

在本申请中,上述第一时间间隔小于第二时间间隔,表明上述获取到的第一语音信息与最近一次获取到历史有效语音信息的时间间隔不长,因此,该第一语音信息为有效语音指令的概率相对较大,因此,可以降低有效性的判决门槛即提高判决条件的灵敏度,从而可以更准确地识别语音信息是否有效。

一种可能的实施方式中,所述历史语音信息的情况包括获取到所述第一语音信息前第一预设时长内有效语音信息和无效语音信息的占比;

在所述有效语音信息的占比大于所述无效语音信息的占比的情况下,所述判决条件的灵敏度被调高;

在所述有效语音信息的占比小于所述无效语音信息的占比的情况下,所述有效语音信息的占比呈上升趋势,所述判决条件的灵敏度被调高;所述有效语音信息的占比呈下降趋势,所述判决条件的灵敏度被调低。

在本申请中,上述第一预设时长内,有效语音信息占比较大,那么当前获取的第一语音信息为有效指令的概率较大,因此,可以降低有效性的判决门槛,调高判决条件的灵敏度;另外,若有效语音信息的占比小于无效语音信息的占比,但有效语音信息的占比呈上升趋势,表明有效语音信息越来越多,那么第一语音信号为有效指令的概率较大,因此,可以降低有效性的判决门槛,调高判决条件的灵敏度,从而可以更准确地识别语音信息是否有效。

一种可能的实施方式中,所述历史语音信息的情况包括截止至获取到所述第一语音信息时设备与用户语音对话的状态;在所述设备与用户语音对话的状态存在的情况下,所述判决条件的灵敏度被调高。

设备与用户语音对话的状态指的是设备与用户在用语音交流对话的状态,设备可以通过对话状态跟踪功能跟踪,若当前存在该状态,表明上述第一语音信息很大可能为有效的语音指令,因此,可以降低有效性的判决门槛,调高判决条件的灵敏度,从而可以更准确地识别语音信息是否有效。

一种可能的实施方式中,设备可以接收指定的判决条件的灵敏度,基于该灵敏度来调整该判决条件,然后,用调整后的判决条件来判断上述第一语音信息的是否有效。

本申请中,上述指定的灵敏度为用户输入的灵敏度,设备可以基于用户的需求更加灵活地调整判决条件的灵敏度,进而可以更好的满足用户的需求。

一种可能的实施方式中,本申请提供另一种语音信息处理方法,该方法包括:获取第一语音信息;在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作,其中,该判决条件为基于设备的持续聆听时长调整得到。

本申请中,由于设备持续聆听语音的时长越长,聆听到的语音信息为无效语音的概率越大,因此,可以通过设备的持续聆听时长来适应性地调整判决语音信息有效性的判决条件,可以更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,本申请提供另一种语音信息处理方法,该方法包括:获取第一语音信息;在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作,其中,该判决条件为基于历史语音信息调整得到。

基于历史语音信息也可以帮助判断当前获取的语音信息的有效性,例如若当前获取的语音信息与历史获取的有效语音信息相似度较大,那么当前获取的语音信息为有效语音指令的概率较大,反之,若当前获取的语音信息与历史获取的无效语音信息相似度较大,那么当前获取的语音信息为无效语音指令的概率较大。因此,本申请中,通过历史语音信息来适应性地调整判决语音信息有效性的判决条件,可以更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

第二方面,本申请提供一种语音信息处理装置,所述装置包括:

获取单元,用于获取第一语音信息;

执行单元,用于在基于判决条件确定所述第一语音信息为有效的语音控制指令的情况下,执行所述第一语音信息指示的操作,其中,所述判决条件为基于所述第一语音信息产生时所在的环境情况调整得到。

一种可能的实施方式中,所述第一语音信息产生时所在的环境情况包括如下的一项或多项:截止至所述设备获取到该第一语音信息的第二预设时长内的说话人数,所述第一语音信息产生时预设范围内的人数,所述第一语音信息的置信度,或所述第一语音信息的信噪比。

一种可能的实施方式中,所述判决条件为基于所述第一语音信息产生时所在的环境情况调整得到,包括:所述判决条件为基于所述环境情况以及设备的持续聆听时长调整得到。

一种可能的实施方式中,所述判决条件为基于所述环境情况以及设备的持续聆听时长调整得到,包括:所述判决条件为基于所述环境情况、所述持续聆听时长以及历史语音信息的情况调整得到。

一种可能的实施方式中,所述判决条件为基于所述第一语音信息产生时所在的环境情况调整得到,包括:所述判决条件为基于所述环境情况以及历史语音信息的情况调整得到。

一种可能的实施方式中,所述历史语音信息的情况包括如下中的一种或多种:

获取所述第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔;

获取所述第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;

获取到所述第一语音信息前第一预设时长内有效语音信息和无效语音信息的占比;

所述第一语音信息与最近一次获取到的有效语音信息的语义的第一关联度;

所述第一语音信息与最近一次获取到的无效语音信息的语义的第二关联度;

第一语音信息与设备最近一次获取到的有效语音信息的第三关联度;

截止至获取到所述第一语音信息时设备与用户语音对话的状态;

所述第一语音信息与历史有效语音信息的声学特征的第一相似度;

所述第一语音信息与历史无效语音信息的声学特征的第二相似度。

一种可能的实施方式中,在所述环境情况指示所述第一语音信息有效的概率大于无效的概率的情况下,所述判决条件的灵敏度被调高;

在所述环境情况指示所述第一语音信息有效的概率小于无效的概率的情况下,所述判决条件的灵敏度被调低。

一种可能的实施方式中,所述设备的持续聆听时长越长所述判决条件的灵敏度被调得越低。

一种可能的实施方式中,所述历史语音信息的情况包括获取所述第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔;所述第一时间间隔越长所述判决条件的灵敏度被调得越低。

一种可能的实施方式中,所述历史语音信息的情况包括获取所述第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;所述第二时间间隔越长所述判决条件的灵敏度被调得越低。

一种可能的实施方式中,所述历史语音信息的情况包括获取所述第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔,以及包括获取所述第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;在所述第一时间间隔小于所述第二时间间隔的情况下,所述判决条件的灵敏度被调高。

一种可能的实施方式中,所述历史语音信息的情况包括获取到所述第一语音信息前第一预设时长内有效语音信息和无效语音信息的占比;

在所述有效语音信息的占比大于所述无效语音信息的占比的情况下,所述判决条件的灵敏度被调高;

在所述有效语音信息的占比小于所述无效语音信息的占比的情况下,所述有效语音信息的占比呈上升趋势,所述判决条件的灵敏度被调高;所述有效语音信息的占比呈下降趋势,所述判决条件的灵敏度被调低。

一种可能的实施方式中,所述历史语音信息的情况包括截止至获取到所述第一语音信息时设备与用户语音对话的状态;在所述设备与用户语音对话的状态存在的情况下,所述判决条件的灵敏度被调高。

第三方面,本申请提供一种设备,该设备可以包括处理器和存储器,用于实现上述第一方面描述的语音信息处理方法。该存储器与处理器耦合,处理器执行存储器中存储的计算机程序时,可以实现上述第一方面或第一方面任一种可能的实现方式所述的方法。该设备还可以包括通信接口,通信接口用于该设备与其它设备进行通信,示例性的,通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。

在一种可能的实现中,该设备可以包括:

存储器,用于存储计算机程序;

处理器,用于获取第一语音信息;在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作,其中,该判决条件为基于该第一语音信息产生时所在的环境情况调整得到。

需要说明的是,本申请中存储器中的计算机程序可以预先存储也可以使用该设备时从互联网下载后存储,本申请对于存储器中计算机程序的来源不进行具体限定。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或连接,其可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。

第四方面,本申请实施例提供一种芯片系统,该芯片系统应用于电子装置;芯片系统包括接口电路和处理器;接口电路和处理器通过线路互联;接口电路用于从电子装置的存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令;当处理器执行该计算机指令时,芯片系统执行如上述第一方面及其任一种可能的实现方式所述的方法。

第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面或第一方面任一种可能的实现方式所述的方法。

第六方面,本申请一种计算机程序产品,所述计算机程序产品被处理器执行时,上述第一方面或第一方面任一种可能的实现方式所述的方法将被执行。

上述第二方面至第六方面提供的方案,用于实现或配合实现上述第一方面中对应提供的方法,因此可以与第一方面中对应的方法达到相同或相应的有益效果,此处不再进行赘述。

附图说明

图1所示为本申请提供的语音信息处理方法适用的系统架构示意图;

图2所示为本申请提供的语音信息处理方法的流程示意图;

图3所示为本申请提供的一种无效拒识模型的结构示意图;

图4和图5所示为本申请提供的基于影响因素调整判决条件的灵敏度示意图;

图6a和图6b所示为本申请提供的基于影响因素调整判决条件的灵敏度示意图;

图6c和图6d所示为本申请中语音信息占比变化示意图;

图7所示为本申请提供的基于影响因素调整判决条件的灵敏度示意图;

图8a和图8b所示为本申请中语音信息关联度判断的示意图;

图9所示为本申请提供的基于影响因素调整判决条件的灵敏度示意图;

图10所示为本申请提供的另一种语音信息处理方法的流程示意图;

图11所示为本申请提供的语音信息有效性识别的流程示意图;

图12为本申请实施例提供的一种装置的逻辑结构示意图;

图13为本申请实施例提供的另一种装置的逻辑结构示意图;

图14为本申请实施例提供的设备的硬件结构示意图;

图15为本申请实施例提供的另一种装置的硬件结构示意图。

具体实施方式

为了便于理解,下面首先介绍一下本申请实施例涉及到的技术术语。

1、自动语音识别(automaticspeechrecognition,asr)一般是指以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语音,是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的声学模型(声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示)和语言模型(语言模型是对一组字序列构成的知识表示。)。而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为前端和后端两大模块:前端模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;后端模块的作用是利用训练好的声学模型和语言模型对用户说话的特征向量进行统计模式识别(又称解码),得到其包含的文字信息。此外,后端模块还存在一个自适应的反馈模块,可以对用户的语音进行自学习,从而对声学模型和语音模型进行必要的校正,进一步提高识别的准确率。

2、声纹识别(voiceprintrecognition,vr)

声纹识别是生物识别技术的一种,也称为说话人识别,是一种通过声音判别说话人身份的技术。声纹识别技术有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。

3、语音合成

语音合成,又称文语转换(texttospeech,tts)技术,是将计算机自己产生的或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术,相当于给机器装上了人工嘴巴,让机器像人一样开口说话。

4、任务型对话系统

任务型对话可以被理解为一个序列决策过程,机器需要在对话过程中,通过理解用户语句更新维护内部的对话状态,再根据当前的对话状态选择下一步的最优动作(例如确认需求,询问限制条件,提供结果等等),从而完成任务。

业界目前常用的任务型对话系统为采用模块化结构的系统,一般包括四个关键模块:

自然语言理解(naturallanguageunderstanding,nlu):对用户的文本输入进行识别解析,得到槽值和意图等计算机可理解的语义标签。

对话状态跟踪(dialogstatetracking,dst):根据对话历史,维护当前对话状态,对话状态是对整个对话历史的累积语义表示,一般就是槽值对(slot-valuepairs)。

对话策略(dialoguepolicy,dp):根据当前对话状态输出下一步系统动作。一般对话状态跟踪模块和对话策略模块统称为对话管理(dialoguemanager,dm)模块。

自然语言生成(naturallanguagegeneration,nlg):将系统动作转换成自然语言输出。

这种模块化的系统结构的可解释性强,易于落地,大部分业界的实用性任务型对话系统都采用的此结构。

5、计算机视觉(computervision,cv)

计算机视觉又称为机器视觉(machinevision),是一门研究如何使机器“看”的科学,其主要任务就是通过对采集的图片或视频进行处理以获得相应场景的信息。

6、无效拒识模型

无效拒识模型用于判断设备获取到的用户的语音信息的有效性。该有效性可以用于指示语音信息对于获取到该语音信息的设备是否为有效的语音控制指令。该语音信息可以是由设备接收到的语音信号转换得到的文本信息等。

设备在聆听过程中可能接收到用户的很多语音信息,但有些语音信息只是用户之间闲聊的语音信息,这些信息对于设备来说是无效的信息。而用户真正与设备交互的语音信息才是对于设备来说有效的信息,这些有效的信息即为用户的语音控制指令。

在本申请中,无效拒识模型可以包括语音信息有效性的预判模块和决策模块。该预判模块包括规则匹配模块和推理模块,用于对语音信息的有效性做出初步的判断。其中:

规则匹配模块可以通过预先设置好的规则例如预先设置好的语句等,来匹配输入的语音信息,若预先设置好的语句存在与该输入的语音信息匹配的语句,则该输入的语音信息有效,若预先设置好的语句没有与该输入的语音信息匹配的语句,则该输入的语音信息无效。

推理模块可以是利用神经网络或传统机器学习(例如支持向量机(supportvectormachine,svm)等监督学习模型)经过大规模数据训练得到的深度学习预测模型。设备将获取的语音信息输入到该推理模块中可以预测出该语音信息有效的概率等,或直接输出是否有效的结果等。

决策模块可以通过综合判断条件对上述规则匹配模块和推理模块中的至少一个模块的处理结果做最终的判断决策,确定出语音信息是否有效,可以极大地提高语音信息有效性判断的准确度。该综合判断条件后面会介绍,此处暂不详述。

需要说明的是,上述无效拒识模型也可以称为有效性判断模型等等,下面以无效拒识模型为例进行介绍,用于判断设备获取到的语音信息的有效性的模型的名称不构成对本申请的限制。

为了更好的理解本申请实施例提供的一种语音信息处理方法,下面对该语音信息处理方法适用的系统架构进行示例性地介绍。

参见图1,图1示例性示出了一种本申请提供的语音信息处理方法使用的系统架构图。该系统架构可以包括音频管理器110、视频管理器120、存储器130和处理器140,该几个部件可以通过总线150连接。

音频管理器110可以包括扬声器和麦克风阵列。扬声器是一种把电信号转变为声音信号的换能器件,用于输出设备的声音。麦克风是将声音信号转换为电信号的能量转换器件,用于采集人的语音等声音信息。

视频管理器120可以包括摄像机阵列。摄像机能够把光学图像信号转变为电信号,以便于存储或者传输。

存储器130用于存储计算机程序和数据。存储器130可以是但不限于是随机存储记忆体(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)或便携式只读存储器(compactdiscread-onlymemory,cd-rom)等。

在本申请中,存储器130中可以存储自动语音识别模型、声纹识别模型、计算机视觉模型、无效拒识模型、自然语言理解模型、对话管理模型和语音合成模型等模型的计算机程序或者代码。

处理器140可以是中央处理器单元、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。处理器140可以用于读取上述存储器130中存储的计算机程序和数据,执行本申请实施例提供的语音信息处理方法。

本申请对总线150的类型不做限制,示例性地,总线150可以是桌面数据总线(desktopbus,d-bus),d-bus是针对桌面环境优化的进程间通信(inter-processcommunication,ipc)机制,用于进程间的通信或进程与内核的通信。或者,总线150可以是数据总线(databus,db)、地址总线(addressbus,ab)和控制总线(controlbus,cb)等等。

示例性地,上述图1所示的系统架构可以是终端设备或者服务器等设备的系统架构。该终端设备可以包括但不限于任何一种基于智能操作系统的设备,其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互,诸如智能手机、平板电脑、手持计算机、可穿戴电子设备或车载设备(例如车载电脑等等)等等。该服务器可以是边缘服务器或者云服务器,该服务器可以是虚拟服务器或者可以是实体服务器等等,本申请对此不做限制。

上述图1所示的系统架构仅为一个示例,不构成对本申请实施例适用的系统架构的限制。

下面介绍本申请实施例提供的一种语音信息处理方法,该方法可以适用于上述图1所示的系统架构,即由上述所述的终端设备或服务器等设备来执行该方法,或者,可以由该终端设备或者服务器中的芯片或处理器等处理装置来执行该方法,该方法的执行主体在后面的描述中统称为设备。可选的,若该方法的执行主体为服务器或者服务器中的芯片或处理器,那么可以是终端设备先接收语音信息,然后终端设备将接收到的语音信息发送给服务器进行处理。终端设备向服务器发送的语音信息可以是终端设备接收到的原始信息,或者可以是终端设备预处理后的语音信息。

参见图2,申请实施例提供的一种语音信息处理方法可以包括但不限于如下步骤:

s201、获取第一语音信息。

在具体实施例中,设备可以通过麦克风接收用户的语音信号。然后,设备可以通过自动语音识别asr模型识别该语音信号得到该语音信号对应的语音信息,该语音信息可以包括文本信息等。

具体的,设备与用户之间的语音交互功能可以通过接收到用户的唤醒信号,例如接收到用户的特定唤醒词来唤醒。被唤醒之后设备可以通过麦克风检测并接收用户的语音信号,该检测并接收用户的语音信号的过程可以称为设备的聆听过程。为减少每次发出语音控制指令前必须唤醒设备的重复操作,目前主要存在两种聆听方式:持续聆听和全时聆听。

其中,持续聆听方式指的是:设备被唤醒或者语音指令操作成功后,一段时间内(如30s),设备无需再次被唤醒,可以在这段时间内一直聆听,并与用户进行语音交互,执行用户的语音控制指令。

全时聆听方式指的是:设备启动后只需被唤醒一次,直至设备被关闭的这段时间内,可以一直聆听,并与用户进行语音交互,执行用户的语音控制指令。

上述第一语音信息可以是在聆听阶段设备接收到的任意一个语音信号对应的语音信息。

s202、基于该第一语音信息有效性的影响因素调整判决条件,该判决条件为判断该第一语音信息有效性的无效拒识模型中的一个或多个判断条件。

为了便于理解上述无效拒识模型,可以参见图3。图3示例性示出一种该无效拒识模型的处理流程示意图。首先,该无效拒识模型接收到语音信息,例如接收到上述第一语音信息,基于该语音信息以及预设的选择条件选择判断该语音信息有效性的预判模块,即选择上述推理模块和规则匹配模块中的至少一个模块预判语音信息的有效性。

该选择条件可以是基于语音信息有效性的影响因素设定的条件。示例性地,例如该选择条件可以是:在设备的聆听时长大于第一阈值的情况下,选择规则匹配模块判断语音信息的有效性;在设备的聆听时长小于第二阈值的情况下,选择推理模块判断语音信息的有效性;而在设备的聆听时长在第二阈值和第一阈值之间的情况下,可以同时选择规则匹配模快和推理模块判断语音信息的有效性。需要说明的是,语音信息有效性的影响因素不限于是设备的聆听时长,下面会详细介绍,此处暂不详述。

若只选择推理模块来预判语音信息的有效性,那么,设备将获取到的语音信息输入到该推理模块中,经计算得到输出结果。示例性地,该输出结果可以是预测该输入的语音信息有效的概率,然后将该概率与预设的判断阈值比较得到预判结果。具体的,若该概率大于判断阈值,则预判结果为该输入的语音信息有效,若该概率小于判断阈值,则预判结果为输入的语音信息无效。例如,假设该判断阈值为70%,规定只要语音信息的有效概率大于70%,那么即可确定该语音信息有效,如果该语音信息经推理模块预测的有效概率为80%,大于70%,那么,该语音信息即为有效信息。如果该语音信息经推理模块预测的有效概率为50%,小于70%,那么,该语音信息即为无效信息。

需要说明的是,上述推理模块输出的结果不限于是语音信息的有效概率,还可以是其它的数据形式,例如可以是打分的形式,分数超过判断阈值则表明语音信息有效等等,本申请对此不做限制。

若只选择规则匹配模块来预判语音信息的有效性,那么,设备将获取到的语音信息输入该规则匹配模块,该规则匹配模块将该输入的语音信息与预设的规则库中的信息比较得到预判结果。若预设的规则库中的信息有与输入的语音信息匹配的,那么该预判结果为该输入的语音信息有效。反之,若预设的规则库中的信息没有与输入的语音信息匹配的,那么该预判结果为该输入的语音信息无效。

在上述只选择推理模块或者规则匹配模块来预判语音信息的有效性的情况下,获得语音信息有效性的预判结果之后,可以再将该预判结果输入到决策模块,由决策模块通过综合判断条件判断该预判结果是否合理,从而输出语音信息是否有效的最终指示。例如,该综合判断条件为:有效的语音信息包括的字符不少于3个,那么,若输入的语音信息的字符少于3个,而推理模块或规则匹配模块输出的预判结果为该语音信息有效,则该预判结果不合理,进而该决策模块确定该语音信息无效,并输出指示该语音信息无效的最终指示信息;反之,若输入的语音信息的字符不少于3个,推理模块或规则匹配模块输出的预判结果为有效则是合理的,该决策模块最终确定该语音信息有效,并输出指示该语音信息有效的指示信息。

需要说明的是,上述综合判断条件不限于上述的示例,还可以是其它形式的条件,一种可能的实施方式中,综合判断条件可以是一种投票机制,即语音信息有效的票数多,则确定该语音信息为有效,语音信息无效的票数多,则确定该语音信息为无效。

或者,一种可能的实施方式中,在只选择推理模块或者规则匹配模块来预判语音信息的有效性的情况下,不需要再进行综合判断,而是将推理模块或者规则匹配模块输出的结果作为无效拒识模型的最终的结果输出。

若同时选择推理模块和规则匹配模块来预判语音信息的有效性,那么,将上述获取到的语音信息分别输入推理模块和规则匹配模块,该两个模块各自按照自己的流程(参见上面的描述,此处不再赘述)预判该语音信息的有效性,分别得到各自的有效性预判结果,然后,将该两个预判结果输入到决策模块中,基于决策模块中的综合判断条件对该两个有效性预判结果进行最后的判决,以输出无效拒识模型的最终的结果。

示例性地,该综合判断条件可以为:有效的语音信息包括的字符不少于3个,然后,决策模块基于该综合判断条件检查上述两个预判结果的合理性,具体的检查过程参见前面的描述,此处不再赘述。

示例性地,一种可能的实施方式中,该综合判断条件可以是一种投票机制,即语音信息有效的票数多,则确定该语音信息为有效,语音信息无效的票数多,则确定该语音信息为无效。若上述两个对语音信息的有效性预判结果均为有效,则该语音信息的最终的判决结果也是有效。若该两个有效性预判结果均为无效,那么该语音信息的最终的判决结果也是无效。若该两个有效性预判结果一个是有效,一个是无效,那么可以进一步判断,例如根据优先级来做判断,如果推理模块的优先级高于规则匹配模块,那么以推理模块的预判结果作为最终的结果输出。如果规则匹配模块的优先级高于推理模块,那么以规则匹配模块的预判结果作为最终的结果输出。

需要说明的是,上述的综合判断条件仅为一个示例,其主要的目的就是用于比较准确地综合推理模块和/或规则匹配模块的预判结果判断出获取到的语音信息的有效性,在具体实施例中该综合判断条件也可以是其它能够达到该目的的条件,本方案对此不做限制。

基于上述对图3的描述,上述s202中所述的判决条件可以包括上述无效拒识模型中的选择条件、判决推理模块输出结果的判断阈值以及综合判断条件中的一项或多项。即在本申请中,为了在不同的场景下提高有效语音识别的准确度,降低无效语音的误触发率,可以在不同的语音交互的场景下,基于一种或多种能够影响输入语音信息的有效性判断的影响因素灵活调整上述判决条件,使得语音信息的有效性识别更灵活,更符合当时的语境和场景。

一种可能的实施方式中,上述基于第一语音信息有效性的影响因素调整判决条件,可以是:

在基于一种或多种语音信息有效性影响因素分析出该第一语音信息有效的概率大于无效的概率的情况下,将该判决条件的灵敏度调高,该判决条件的灵敏度越高指示通过该判决条件确定该第一语音信息有效的概率越高;在基于一种或多种语音信息有效性影响因素分析出该第一语音信息有效的概率小于无效的概率的情况下,将该判决条件的灵敏度调低,该判决条件的灵敏度越低指示通过该判决条件确定该第一语音信息有效的概率越低。关于判决条件的灵敏度以及具体调整过程可以参见后面的介绍,此处暂不详述。

可选的,上述能够影响输入语音信息的有效性识别的影响因素可以包括以下的一种或多种:

语音信息产生时所在的环境情况,设备的持续聆听时长,设备获取语音信息时与最近一次获取到有效语音信息之间的第一时间间隔,设备获取语音信息时与最近一次获取到无效语音信息之间的第二时间间隔,设备获取到语音信息前的第一预设时长内有效语音信息和无效语音信息的占比,语音信息与设备最近一次获取到的有效语音信息的语义的第一关联度,语音信息与设备最近一次获取到的无效语音信息的语义的第二关联度,第一语音信息与设备最近一次获取到的有效语音信息的第三关联度,截止至获取到当前语音信息时设备与用户语音对话的状态,语音信息与历史有效语音信息的声学特征的第一相似度,以及语音信息与历史无效语音信息的声学特征的第二相似度。

一种可能的实施方式中,设备获取到上述第一语音信息之后,可以基于第一因素调整上述无效拒识模型中的选择条件,该第一因素可以包括上述影响因素中的一种或多种。具体的调整过程后面会介绍,此处暂不详述。

一种可能的实施方式中,设备获取到上述第一语音信息之后,可以基于第二因素调整上述无效拒识模型中的判决推理模块输出结果的判断阈值,该第二因素可以包括上述影响因素中的一种或多种。该第二因素和上述第一因素中包括的影响因素可以不同,或者可以部分相同,或者可以完全相同,具体根据实际情况确定,本方案对此不做限制。具体的调整过程后面会介绍,此处暂不详述。

一种可能的实施方式中,设备获取到上述第一语音信息之后,可以基于第三因素调整上述无效拒识模型中决策模块的综合判断条件,该第三因素可以包括上述影响因素中的一种或多种。该第三因素与上述第一因素及上述第二因素中包括的影响因素可以不同,或者可以部分相同,或者可以完全相同,具体根据实际情况确定,本方案对此不做限制。具体的调整过程后面会介绍,此处暂不详述。

在具体实现中,上述选择条件、判断阈值和综合判断条件可以一起调整,或者,也可以选择该选择条件、判断阈值和综合判断条件中的一项或两项调整,具体的可以根据实际需求选择,本方案对此不做限制。

s203、在基于调整后的该判决条件确定该第一语音信息有效的情况下,对该第一语音信息进行语义理解,并执行该第一语音信息的指令。

在具体实施例中,设备获取到上述第一语音信息之后,基于上述的影响因素调整了无效拒识模型中的判决条件后,基于调整之后的无效拒识模型来识别该第一语音信息的有效性。

一种可能的实施方式中,若设备调整了上述无效拒识模型中的选择条件,那么,设备可以基于调整后的选择条件选择上述规则匹配模块和推理模块中的一个或多个模型来预判断该第一语音信息的有效性。

一种可能的实施方式中,若设备调整了上述推理模块的判断阈值,且设备选择判断第一语音信息有效性的预判模块包括该推理模块,那么在推理模块输出指示该第一语音信息有效性的数据后,设备可以基于该指示该第一语音信息有效性的数据和该调整后的判断阈值判断该第一语音信息是否有效。

一种可能的实施方式中,若设备调整了上述无效拒识模型中决策模块的综合判断条件,那么,在获得上述规则匹配模块和/或推理模块的预判结果后,可以基于该调整后的综合判断条件对该规则匹配模块和/或推理模块的预判结果进行一个综合性的判断,从而确定上述第一语音信息的有效性。

上述第一语音信息的有效性识别的具体的过程可以参见关于上述图3的描述,此处不再赘述。

在上述第一语音信息有效的情况下,设备开始对该第一语音信息进行语义理解,具体的,设备中的处理器可以调用存储器中的自然语言理解模型来执行对该第一语音信息的语义理解,以获得该第一语音信息具体的含义。设备理解了该第一语音信息的含义后,基于该含义执行对应的操作,以为用户提供需要的服务。该第一语音信息的含义对于设备来说即为执行该对应操作的控制指令。

下面分别从语音信息有效性的不同的影响因素,介绍上述第一语音信息有效性识别中的判决条件的调整过程。需要说明的是,该判决条件可以包括上述无效拒识模型中的选择条件、判断阈值和综合判断条件中的一项或多项,下面介绍的调整过程可以适用于该选择条件、判断阈值和综合判断条件中的一项或多项的调整。

在介绍该调整过程之前,首先介绍一下调整过程中涉及的相关概念:

判决条件的灵敏度:该灵敏度指的是判决条件的宽松和严苛的程度,判决条件越严苛,则灵敏度越低,判决条件越宽松,则灵敏度越高。

示例性地,对于上述选择预判模型的选择条件,一般地,由于推理模块是预测语音信息有效的可能性,属于模糊匹配,而规则匹配模块是模式匹配型的预判,是就是,不是就不是,相对而言,比较严格。因此,在选择预判模型时,若设备获取的语音信息为有效的概率较大,那么,可以选择推理模块或规则匹配模块来预判,或者此时若想提高该语音信息有效识别的准确率,可以选择推理模块来预判。若设备获取的语音信息为有效的概率较小,为了有效避免无效信息的误触发,可以选择规则匹配模块来预判。

例如,假设选择条件为:设备的聆听时长小于10秒,选择推理模块来预判,设备的聆听时长大于20秒,选择规则匹配模块来预判,设备的聆听时长在10秒至20秒之间则同时选择推理模块和规则匹配模块来预判。若想更好地过滤无效的信息,减少误触发,那么,设备可以将选择条件往较严苛的方向调整,即调低选择条件的灵敏度,例如可以将选择条件调整为:设备的聆听时长小于5秒,选择推理模块来预判,设备的聆听时长大于10秒,选择规则匹配模块来预判,设备的聆听时长在5秒至10秒之间则同时选择推理模块和规则匹配模块来预判。反之,若想更好地识别有效语音信息,设备可以将选择条件往较宽松的方向调整,即调高选择条件的灵敏度,例如可以将选择条件调整为:设备的聆听时长小于15秒,选择推理模块来预判,设备的聆听时长大于25秒,选择规则匹配模块来预判,设备的聆听时长在15秒至25秒之间则同时选择推理模块和规则匹配模块来预判。

示例性地,对于上述推理模块的判断阈值,假设标准判断阈值为70%,即推理模块预测语音信息有效的概率大于70%,则确定该语音信息有效。但是,当把判断阈值调到80%,即把判决条件往严苛的方向调整,这种情况下,推理模块预测语音信息有效的概率需要大于80%才可以判定其为有效,由此可见判决条件的灵敏度降低了。而,如果把判断阈值调到60%,即把判决条件往宽松的方向调整,这种情况下,推理模块预测语音信息有效的概率只要大于60%才可以判定其为有效,由此可见判决条件的灵敏度提高了。

示例性地,对于上述综合判断条件,假设该综合判断条件为:有效的语音信息包括的字符不少于3个,那么,若将综合判断条件调整为:有效的语音信息包括的字符不少于5个,可以看到,对语音信息的要求提高了,更严苛了,从而该综合判断条件的灵敏度降低了。若将综合判断条件调整为有效的语音信息包括的字符不少于2个,可以看到,对语音信息的要求降低了,更宽松了,从而该综合判断条件的灵敏度提高了。

负相关调整灵敏度:指的是影响因素对应的值增加时,则灵敏度调低,且增加越多,灵敏度调得越低;而影响因素对应的值减少时,则灵敏度调高,且减少越多,灵敏度调得越高。

正相关调整灵敏度:指的是影响因素对应的值增加时,则灵敏度调高,且增加越多,灵敏度调得越高;而影响因素对应的值减少时,则灵敏度调低,且减少越多,灵敏度调得越低。

需要说明的是,本申请所述的调高灵敏度或者调低灵敏度,具体调多少可以根据实际情况设定,本申请对此不做限制。此外,上述判决条件的灵敏度的调整是有范围的,例如,对于上述判断阈值的调整,最高为100%,最低为0等等,该判决条件的灵敏度的调整范围根据实际情况确定,本方案对此不做限制。

首先,基于上述第一语音信息产生时所在的环境情况这一影响因素对上述判决条件的调整过程进行介绍。示例性地,第一语音信息产生时所在的环境情况包括如下的一项或多项:截止至设备获取该第一语音信息的第二预设时长内的说话人数(下面简称为说话人数),该第一语音信息产生时预设范围内的人数(下面简称为周围人数),该第一语音信息的置信度,以及该第一语音信息的信噪比等等。该说话人数具体指的是该第一语音信息中包括的不同的声纹的个数,因为每个人的声纹都不同,因此,可以通过声纹的个数来表示该第一语音信息的说话人数。

参见图4,图4以上述列出的几项环境影响因素为例介绍如何基于环境影响因素调整上述判决条件。

设备获取上述第一语音信息的过程中,可以获取该第一语音信息的周围人数和说话人数。具体的,设备可以通过调用存储器中的计算机视觉模型驱动摄像头对周围的环境进行图片或视频的拍摄,然后解析拍摄的图片和视频即可获知周围人数和说话人数,说话人数的获取可以通过分析上述第二预设时长内的视频中哪些人的嘴巴在动来得到。该周围人数包括了说话人数。该第二预设时长例如可以是5秒、10秒或者1分钟等等,本申请对此不做限制。

或者,设备可以通过调用存储器中的声纹识别模型来识别该第二预设时长内设备接收到的语音信号中的声纹特征,识别出的不同的声纹特征的数量即为说话人数。可选的,该声纹识别模型可以是动态监测的模型,以灵活地适应不同情况下的声纹识别。

上述设备获取到周围人数(假设为m个人,m为正整数)和说话人数(假设为n个人,n为正整数)后,首先判断一下说话人数n是否为0,若为0,则表明上述第一语音信息中不包括人的语音信息,则不需要调整对应的判决条件。

如果说话人数n不为0,表明该第一语音信息中包括人的语音信息,进一步地,判断一下周围人数m是否大于1,若m不大于1,则可以判断一下m是否为1。

若m为1,则表明周围环境中只有一个人,其发出的该第一语音信息很大概率是对设备发出的语音控制指令,那么,可以将判决条件的灵敏度调高,以便于更好地识别出该第一语音信息的有效性。

或者,若m为1,默认当前获取的第一语音信息是对设备的语音控制指令,即为有效信息。那么,可以将判决条件的灵敏度调到最高,或者,无效拒识模型不再进一步进行有效性判断,直接输出该第一语音信息有效的指示。

若m不为1,可能检测有误,无法通过该信息进行判决条件的灵敏度的调整,因此不调整。

在说话人数n不为0,且周围人数m大于1的情况下,该第一语音信息很大概率是闲聊的内容,对于设备来说可能是无效的语音信息,那么,设备可以基于周围人数的大小来调低判决条件的灵敏度,且周围人数m越大,则该判决条件的灵敏度调得越低。因为周围人数越多,则该第一语音信息属于闲聊语音的概率越大,因此,需要设置较严苛的判决条件来识别该第一语音信息的有效性,以免无效的语音信息误触发相关的服务操作,浪费设备的资源。

另外,设备获取到第一语音信息之后,可以调用存储器中的自动语音识别模型来计算该第一语音信息的置信度,或者利用声道信息计算该第一语音信息的信噪比,或者该置信度和信噪比都计算出来,然后,基于该置信度和/或信噪比调整判决条件的灵敏度。

具体的,可以基于该置信度和/或信噪比负相关调整判决条件的灵敏度,这是因为该置信度越高,表明该第一语音信息被正确识别的概率越大,该信噪比越高,表明该采集的第一语音信息的质量越好,此时,即使判决条件的灵敏度苛刻也可以较好地识别出该第一语音信息的有效性,还可以有效地过滤闲聊的无效语音。

相反,若该置信度越低,表明该第一语音信息被正确识别的概率越小,该信噪比越低,表明该采集的第一语音信息的质量越差,可能语音内容的识别有误,为了提高设备语音交互的鲁棒性,可以适当提高判决条件的灵敏度,将判决条件调宽松一些,从而可以较好地识别该第一语音信息的有效性。

示例性地,设备可以设定一个语音信息的置信度阈值和/或信噪比阈值,若第一语音信息的置信度大于置信度阈值和/或信噪比大于信噪比阈值,那么,置信度和/或信噪比越高,判决条件的灵敏度调得越低。若第一语音信息的置信度小于置信度阈值和/或信噪比小于信噪比阈值,那么,置信度和/或信噪比越低,判决条件的灵敏度调得越高。该置信度阈值例如可以是50%或者60%等,该信噪比的阈值例如可以是50db或者60db等等,本申请对置信度阈值和信噪比阈值不做限制。

示例性地,一种可能的实施方式中,设备无需设置语音信息的置信度阈值和/或信噪比阈值,而是可以设置各个置信度和/或信噪比范围内对应调整判决条件的情况。例如,以判决条件为上述推理模型的判断阈值为例说明,假设初始的判断阈值为70%,那么,在置信度为0至30%的范围内,可以调高灵敏度,可以设置判断阈值调至50%;在置信度为31%至60%的范围内,可以设置判断阈值调至60%;在置信度为61%至70%的范围内,可以不调整,保持原来的70%的阈值;在置信度为71%至100%的范围内,可以调低灵敏度,可以设置判断阈值调至80%。

需要说明的是,对于上述说话人数n、周围人数m、置信度和信噪比这几个影响因素,设备可以基于其中的任意一个单独调整判决条件的灵敏度。或者,设备可以基于其中的任意多个影响因素综合调整判决条件的灵敏度。示例性地,可以为该多个影响因素各自配置一个权重,按照加权的方式来调整判决条件的灵敏度。例如,对于上述判断阈值的调整,假设综合该周围人数m、置信度和信噪比这三个影响因素进行调整,该三个因素对应设置的权重为w1、w2和w3,该三个因素对应计算得到的调整后的判断阈值为a1、a2和a3,那么,综合该三个因素确定的调整后的判断阈值为(a1*w1 a2*w2 a3*w3)。需要说明的是,这种加权综合的方式仅为一个示例,实际实现中也可以取多个影响因素中调整最多或最少的作为最后调整的结果等等,本方案对具体综合的计算过程不做限制。

参见图5,图5示例性示出了基于设备获取上述第一语音信息前的持续聆听时长(下面简称为t1),设备获取第一语音信息与最近一次获取到有效语音信息之间的第一时间间隔(下面简称为△t1),以及设备获取第一语音信息与最近一次获取到无效语音信息之间的第二时间间隔(下面简称为△t2)这三个影响因素调整判决条件的灵敏度的示意图。

具体的,设备获取到上述第一语音信息后,可以获取截止获取到该第一语音信息时,该设备持续聆听的时长t1,获取第一语音信息与最近一次获取到有效语音信息之间的第一时间间隔△t1,以及获取第一语音信息与最近一次获取到无效语音信息之间的第二时间间隔△t2。示例性地,该t1、△t1和△t2的获取可以通过计时器计时和计算得到。

获得该t1之后,设备可以基于该t1负相关调整上述判决条件的灵敏度,即持续聆听的时长t1越大,则判决条件的灵敏度调得越低。这是因为当设备被唤醒后,开始进入新一轮的持续聆听阶段,一般在持续聆听阶段前期设备获取到的用户的语音信息为有效的可能性较大,所以要保持较高的灵敏度,随着时间的推移,设备获取到的语音信息更大概率为用户之间的交谈信息,为降低误触发性,需要将灵敏度降低,因此设备可以基于持续聆听时间长度负相关调整上述判决条件的灵敏度。

为了便于理解该基于t1负相关调整判决条件的灵敏度,举例说明。例如,假设该判决条件为上述推理模块输出结果的判断阈值,在持续聆听开始阶段,该判断阈值可以是60%,条件比较宽松,灵敏度较高,但是随之t1的逐渐增加,t1每增加一个单位间隔(例如5秒钟的间隔),该判断阈值就增加有一个预设递增值,例如增加1%等等,即随着t1的增加,判断阈值越来越大,条件越来越苛刻,灵敏度逐渐降低。需要说明的是,这里仅为一个示例,本申请对具体的负相关调整方式不做限制。

获得上述第一时间间隔△t1之后,设备可以判断一下该△t1是否大于第一时间间隔阈值t1。若△t1大于该t1,则不调整判决条件的灵敏度。这是因为,当该△t1大于该t1,可以认为该第一时间间隔△t1包括的时间长度与上述持续聆听的时间长度t1重叠,通过上述t1调整判决条件的灵敏度即可,无需再根据该△t1来调整判决条件的灵敏度。

若△t1小于该t1,则负相关调整该判决条件的灵敏度。这是因为,设备在获取到有效语音信息之后一段时间即t1时间长度内,间隔的时间越长,设备获取到的语音信息为闲谈等无效语音信息的概率更大,因此,为了减少误触发,设备可以负相关调整判决条件的灵敏度。

获得上述第二时间间隔△t2之后,设备可以判断一下该△t2是否大于第二时间间隔阈值t2。若△t2大于该t2,则不调整判决条件的灵敏度。这是因为,当该△t2大于该t2,可以认为该第二时间间隔△t2包括的时间长度与上述持续聆听的时间长度t1重叠,通过上述t1调整判决条件的灵敏度即可,无需再根据该△t2来调整判决条件的灵敏度。

若△t2小于该t2,则负相关调整该判决条件的灵敏度。这是因为,设备在获取到无效语音信息之后一段时间即t2时间长度内,间隔的时间越长,设备获取到的语音信息为闲谈等无效语音信息的概率更大,因此,为了减少误触发,设备可以负相关调整判决条件的灵敏度。

另外,对于上述获取的第一时间间隔△t1和第二时间间隔△t2,设备可以比较△t1是否小于△t2,若是,则将判决条件的灵敏度调高。这是因为,在获取到该第一语音信息的前一个语音信息为有效语音信息,那么该第一语音信息是该前一个语音信息的追加或修改的可能性较大,即该第一语音信息为有效语音信息的可能性较大,那么,为了更好地识别该第一语音信息的有效性,设备可以将判决条件往宽松的方向调整,即调高该灵敏度。

上述图5所示调整流程是本申请的一种实施示例,通过持续聆听时间长短、与有效语音信息和无效语音信息时间间隔的特征,对判决条件的灵敏度进行实时动态调整,使得在不同聆听时间阶段,设备获取到的语音信息即使是内容相同的语音信息被判决为有效的门槛存在差异,从而可以更好地识别有效语音,并减少无效语音的误触发,提高用户的语音交互体验。

需要说明的是,对于图5所示的几个影响因素,设备可以基于其中的任意一个单独调整判决条件的灵敏度。或者,设备可以基于其中的任意多个影响因素综合调整判决条件的灵敏度。

参见图6a和图6b,图6a和图6b示例性示出了基于设备获取到上述第一语音信息前的第一预设时长内有效语音信息和无效语音信息的占比这个影响因素调整判决条件的灵敏度的示意图。

示例性的,该第一预设时长可以是该设备获取到该第一语音信息前持续聆听的时长,或者该第一预设时长可以是该设备获取到该第一语音信息前的任意时长,该任意时长可以是预先配置好的,本申请对此不做限制。

上述第一预设时长内有效语音信息的占比指的是,在该第一预设时长内,设备获取到的有效语音信息占设备获取到的所有语音信息的比例。或者,该占比是最近一次接收到有效的语音控制指令的时间点,至获取到上述第一语音信息之间获取的无效语音信息数量的倒数。若期间获取的无效语音信息的数量为0,那么该有效语音信息的占比为1。

上述第一预设时长内无效语音信息的占比指的是,在该第一预设时长内,设备获取到的无效语音信息占设备获取到的所有语音信息的比例。或者,该占比是最近一次接收到无效的语音控制指令的时间点,至获取到上述第一语音信息之间获取的有效语音信息数量的倒数。若期间获取的有效语音信息的数量为0,那么该无效语音信息的占比为1。

在具体实施例中,设备获取到上述第一语音信息之后,获取上述第一预设时长内有效语音信息的占比(简称为f1)和无效语音信息(简称为f2)的占比,设备可以比较一下该f1和f2的大小(参见图6a)。若f1大于f2,表明在上述第一预设时长内获取到的有效语音信息更多,用户在频繁地与设备进行语音交互,那么,可以根据(f1-f2)这个参数正相关调整上述判决条件的灵敏度。即有效语音信息的占比越大,表明该第一语音信息有效的概率越大,那么,该判决条件的灵敏度调整得越高,从而可以更好地识别获取的语音信息的有效性,减少有效语音信息漏识别的可能性。

一种可能的实施方式中,设备可以基于f1和f2调整上述判决条件的灵敏度。例如,在f1占比越大,灵敏度调的越高,而f2占比越小,灵敏度调的越低等等。

在图6a中,若f1不大于f2,那么,设备可以根据f1的变化率和f2的变化率来调整判决条件的灵敏度。

示例性地,以获取到语音信息的次数为横轴(或者说以持续聆听的时间为横轴),以f1为纵轴构建坐标系,在该坐标系中,最近一次获取到有效语音信息时的f1与该最近一次的前一次获取到有效语音信息时的f1连线的斜率即为该f1的变化率。为了便于理解,可以参见图6c。在图6c中,假设在获取到上述第一语音信息之前已经接受到了6次语音信息,图6c中示例性示出了每次获取到语音信息并进行有效性判断后有效语音信息的占比情况。那么,在图6c中,设备在获取到该第一语音信息后,获取的f1的变化率为k=-10%。

同理,示例性地,以获取到语音信息的次数为横轴(或者说以持续聆听的时间为横轴),以f2为纵轴构建坐标系,在该坐标系中,最近一次获取到无效语音信息时的f2与该最近一次的前一次获取到无效语音信息时的f2连线的斜率即为该f2的变化率。为了便于理解,可以参见图6d。在图6d中,假设在获取到上述第一语音信息之前已经接受到了6次语音信息,图6d中示例性示出了每次获取到语音信息并进行有效性判断后无效语音信息的占比情况。那么,在图6d中,设备在获取到该第一语音信息后,获取的f2的变化率为k=10%。

基于上述的描述,在f1不大于f2的情况下,表明用户与设备之间的语音交互减少,那么,为了减少无效语音的误触发,设备可以根据f1的变化率正相关调整判决条件的灵敏度。即f1的变化率越大,表明该第一语音信息有效的概率越大,灵敏度调得越高,判决条件越宽松;而f1的变化率越小,表明该第一语音信息有效的概率越小,灵敏度调得越低,判决条件越苛刻。例如,参见上述图6c,图6c中示例性给出了几个f1的变化率:k=-50%、k=16.6%、k=8.3%、k=-15%和k=-10%,其从小到大的排序为:-50%<-15%<-10%<8.3%<16.6%。假设调整的判决条件为上述推理模块输出结果的判断阈值,假设调整前的判断阈值为70%,那么,该5个从小到大排序的f1的变化率对应的调整后的该判断阈值为85%、80%、78%、68%和65%。需要说明的是,判断阈值越低,灵敏度越高,即此处调高灵敏度即为调低判断阈值,调低灵敏度即为调高判断阈值。

而在f1不大于f2的情况下,设备可以根据f2的变化率负相关调整判决条件的灵敏度。即f2的变化率越小,此时表明有效语音信息的占比在增加,即该第一语音信息有效的概率越大,因此,灵敏度调得越高,判决条件越宽松;而f2的变化率越大,此时表明有效语音信息的占比在减少,即该第一语音信息有效的概率越小,因此,灵敏度调得越低,判决条件越严苛。例如,参见上述图6d,图6d中示例性给出了几个f2的变化率:k=50%、k=-16.6%、k=-8.3%、k=15%和k=10%,其从小到大的排序为:-16.6%<-8.3%<10%<15%<50%。假设调整的判决条件为上述推理模块输出结果的判断阈值,假设调整前的判断阈值为70%,那么,该5个从小到大排序的f2的变化率对应的调整后的该判断阈值为65%、68%、78%、80%和85%。

或者,设备获取到上述第一语音信息之后,获取上述第一预设时长内有效语音信息的占比(简称为f1)和无效语音信息(简称为f2)的占比,设备无需比较f1和f2的大小,也可以根据(f1-f2)这个参数正相关调整上述判决条件的灵敏度、根据f1的变化率正相关调整判决条件的灵敏度和/或根据f2的变化率负相关调整判决条件的灵敏度(参见图6b)。具体的调整过程参见上述对图6a的描述,此处不再赘述。

需要说明的是,对于图6a或图6b所示的几个影响因素,设备可以基于其中的任意一个单独调整判决条件的灵敏度。或者,设备可以基于其中的任意多个影响因素综合调整判决条件的灵敏度。

参见图7,图7示例性示出了基于第一语音信息与设备最近一次获取到的有效语音信息的语义的第一关联度,第一语音信息与设备最近一次获取到的无效语音信息的语义的第二关联度,第一语音信息与设备最近一次获取到的有效语音信息的第三关联度,以及截止至获取到第一语音信息设备与用户语音对话的状态这三个影响因素调整判决条件的灵敏度的示意图。

在具体实施例中,设备获取到上述第一语音信息之后,可以获取最近一次获取到的有效语音信息(简称为最近历史有效语音信息),基于解析得到的该第一语音信息和该最近历史有效语音信息的语义分析该两个语音信息的关联度(简称为第一关联度)。具体的,可以通过调用存储器中的自然语言理解模型来对该第一语音信息进行语义理解。

若该两个语音信息的语义不关联,即该第一关联度为零,那么,不调整判决条件的灵敏度。若该两个语音信息的语义关联,例如该两个语音信息的语义相同、存在继承关系(例如最近历史有效语音信息的语义为“打开空调”,该第一语音信息的语义为“温度高一点”)、存在递进关系(例如最近历史有效语音信息的语义为“温度高一点”,第一语音信息的语义为“再高一点”)或者存在对立关系(例如最近历史有效语音信息的语义为“打开空调”,第一语音信息的语义为“关闭”)等,则设备可以计算出具体的第一关联度,然后基于计算得到的第一关联度正相关调整判决条件的灵敏度。

示例性地,若第一关联度大于某个阈值,表明该第一语音信息为有效语音信息的概率较大,则该第一关联度越大,则灵敏度调得越高;反之,若第一关联度小于某个阈值,表明该第一语音信息为有效语音信息的概率较小,则第一关联度越小,则灵敏度调得越低。

示例性地,一种可能的实施方式中,设备无需设置第一关联度的阈值,而是可以设置第一关联度各个范围内对应调整判决条件的情况。例如,以判决条件为上述推理模型的判断阈值为例说明,假设初始的判断阈值为70%,那么,在第一关联度为0至30%的范围内,可以调低灵敏度,可以设置判断阈值调至80%;在第一关联度为31%至60%的范围内,可以设置判断阈值调至75%;在第一关联度为61%至70%的范围内,可以不调整,保持原来的70%的阈值;在第一关联度为71%至100%的范围内,可以调高灵敏度,可以设置判断阈值调至60%。

一种可能的实施方式中,当判断出第一关联度100%关联的情况下,可以将灵敏度调到最高,或者,无效拒识模型不再进一步进行有效性判断,直接输出该第一语音信息有效的指示。

在具体实施例中,设备获取到上述第一语音信息之后,可以获取最近一次获取到的无效语音信息(简称为最近历史无效语音信息),基于解析得到的该第一语音信息和该最近历史无效语音信息的语义分析该两个语音信息的关联度(简称为第二关联度)。若该两个语音信息的语义不关联,即该第二关联度为零,那么,不调整判决条件的灵敏度。若该两个语音信息的语义关联,例如该两个语音信息的语义相同、存在继承关系(例如最近历史无效语音信息的语义为“我们可以星期天去深圳”,该第一语音信息的语义为“可以星期六去”)、存在递进关系(例如最近历史无效语音信息的语义为“早上六点起床很早”,第一语音信息的语义为“我还可以更早起床”)或者存在对立关系(例如最近历史无效语音信息的语义为“我们去深圳吧”,第一语音信息的语义为“不去”)等,则设备可以计算出具体的第二关联度,然后基于计算得到的第二关联度负相关调整判决条件的灵敏度。

示例性地,若第二关联度大于某个阈值,表明该第一语音信息为无效语音信息的概率较大,则该第二关联度越大,则灵敏度调得越低;反之,若第二关联度小于某个阈值,表明该第一语音信息为无效语音信息的概率较小,则第二关联度越小,则灵敏度调得越高。

示例性地,一种可能的实施方式中,设备无需设置第二关联度的阈值,而是可以设置第二关联度各个范围内对应调整判决条件的情况。例如,以判决条件为上述推理模型的判断阈值为例说明,假设初始的判断阈值为70%,那么,在第二关联度为0至30%的范围内,可以调高灵敏度,可以设置判断阈值调至60%;在第二关联度为31%至60%的范围内,可以设置判断阈值调至65%;在第二关联度为61%至70%的范围内,可以不调整,保持原来的70%的阈值;在第二关联度为71%至100%的范围内,可以调低灵敏度,可以设置判断阈值调至80%。

一种可能的实施方式中,当判断出第二关联度100%关联的情况下,可以将灵敏度调到最低,或者,无效拒识模型不再进一步进行有效性判断,直接输出该第一语音信息无效的指示。

在具体实施例中,设备除了可以基于上述第一语音信息与设备最近一次获取到的有效语音信息的语义的第一关联度来调整判决条件的关联度,还可以基于第一语音信息与设备最近一次获取到的有效语音信息的第三关联度来调整判决条件的关联度。该第三关联度指的是第一语音信息与设备最近一次获取到的有效语音信息的内容之间的关联度,而上述第一关联度指的是该两个语音信息的语义之间的关联度。为了便于理解该第一关联度和第三关联度可以参见图8a和图8b。

首先参见图8a,假设“帮我播放音乐”为设备最近一次获取到的有效语音信息,“我平常喜欢听歌手a的歌”为上述第一语音信息。为了获取到该两个语音信息的第一关联度,在通过自然语言理解模型获得该两个语音信息的语义信息之后,将该两个语义信息输入到语义关联推理模型中进行处理。经该语义关联推理模型处理,输出该两个语义信息的第一关联度。该语义关联推理模型是预先训练好的神经网络模型或机器学习模型等。

参见图8b,同样地,假设“帮我播放音乐”为设备最近一次获取到的有效语音信息,“我平常喜欢听歌手a的歌”为上述第一语音信息。为了获取到该两个语音信息的第三关联度,可以通过自然语言理解模型结构化解析该两个语音信息,具体的,对“帮我播放音乐”这一语音信息进行结构化解析后得知:该语音信息描述的领域是音乐,其意图是播放音乐。对“我平常喜欢听歌手a的歌”这一语音信息进行结构化解析后得知:该语音信息描述的领域是音乐,歌手为歌手a。获得该两个语音信息的结构化信息后,将该两个结构化信息输入到相关判断模型中进行处理。经该相关判断模型处理,输出该两个语音信息的第三关联度。该相关判断模型例如可以是对话状态跟踪dst模型等。

在上述图8a中输出的“帮我播放音乐”和“我平常喜欢听歌手a的歌”这两个语音信息的第一关联度可以是零,即语义不关联;而上述图8b中输出的“帮我播放音乐”和“我平常喜欢听歌手a的歌”这两个语音信息的第三关联度可以是100%,即该两个语音信息是关联的。

一种可能的实施方式中,基于上述图8b所述的方式获取的第一语音信息与设备最近一次获取到的有效语音信息的第三关联度,可以是明确的0或者100%,即若上述相关判断模型输出不相关的指示信息时,该第三关联度为0,若上述相关判断模型输出相关的指示信息时,该第三关联度为100%。

另一种可能的实施方式中,基于上述图8b所述的方式获取的第一语音信息与设备最近一次获取到的有效语音信息的第三关联度,也可以是一个具体的百分比(例如60%或者90%等等)或者相似度打分等等,然后,可以通过与预设的阈值比较确定是否关联。

获得上述第一语音信息与设备最近一次获取到的有效语音信息的第三关联度后,设备可以基于该第三关联度正相关调整判决条件的灵敏度。具体的正相关调整方式可以参考上述基于该第一关联度正相关调整判决条件的灵敏度,此处不再赘述。另外,当第三关联度为零,即第一语音信息与设备最近一次获取到的有效语音信息不相关的情况下,不调整判决条件的灵敏度。

在具体实施例中,设备获取到上述第一语音信息之后,可以获取截止至获取到第一语音信息设备与用户语音对话的状态,该状态例如可以是设备基于用户的语音控制指令选择、询问、判断或者闲聊的状态等等。具体的,设备可以基于对话状态跟踪dst技术获知该状态。在存在该设备与用户语音对话的状态的情况下,表明用户与设备之间进行了长时间的交互对话,那么,设备可以根据这一持续的对话状态调高判决条件的灵敏度。若不存在该设备与用户语音对话的状态,则用户没有与设备进行长时间的交互对话,设备可以不根据这个因素调整判决条件的灵敏度。

需要说明的是,对于图7所示的几个影响因素,设备可以基于其中的任意一个单独调整判决条件的灵敏度。或者,设备可以基于其中的任意多个影响因素综合调整判决条件的灵敏度。

参见图9,图9示例性示出了基于第一语音信息与历史有效语音信息的声学特征的第一相似度,以及第一语音信息与历史无效语音信息的声学特征的第二相似度这两个影响因素调整判决条件的灵敏度的示意图。示例性的,该声学特征包括语音的语调和/或语速等特征。

在具体实施例中,设备获取到上述第一语音信息之后,通过调用存储在存储器中的声学模型提取该第一语音信息的声学特征,然后,将该提取的声学特征与历史有效语音信息(可以是一个或多个历史有效语音信息)的声学特征比较,获取该第一语音信息的声学特征与历史有效语音信息的声学特征的相似度(简称为第一相似度)。若该第一语音信息的声学特征与历史有效语音信息的声学特征的相似度均为零,那么,设备可以不根据该第一相似度调整判决条件的灵敏度。若该第一语音信息的声学特征与一个或多个历史有效语音信息的声学特征的相似度不为零,那么,可以正相关调整判决条件的灵敏度,即相似度(示例性的,该相似度可以是获得的相似度中最大的相似度,或者获得的相似度的平均形式度等)越大,该灵敏度调得越高。

一种可能的实施方式中,在该第一语音信息的声学特征与一个或多个历史有效语音信息的声学特征的相似度大于某个阈值(该阈值例如可以是60%至100%之间的任一个值)的情况下,此时表明该第一语音信息的声学特征与一个或多个历史有效语音信息的声学特征相似,那么,设备可以将判决条件的灵敏度调高到预设值。例如,以上述判断阈值为例,假设原来的判断阈值为70%,只要该第一语音信息的声学特征与一个或多个历史有效语音信息的声学特征的相似度大于某个阈值,判断阈值均调到60%。

在具体实施例中,设备获取到上述第一语音信息之后,通过调用存储在存储器中的声学模型提取该第一语音信息的声学特征,然后,将该提取的声学特征与历史无效语音信息(可以是一个或多个历史无效语音信息)的声学特征比较,获取该第一语音信息的声学特征与历史无效语音信息的声学特征的相似度(简称为第二相似度)。若该第一语音信息的声学特征与历史无效语音信息的声学特征的相似度均为零,那么,设备可以不根据该第二相似度调整判决条件的灵敏度。若该第一语音信息的声学特征与一个或多个历史无效语音信息的声学特征的相似度不为零,那么,可以负相关调整判决条件的灵敏度,即相似度(示例性的,该相似度可以是获得的相似度中最大的相似度,或者获得的相似度的平均形式度等)越大,该灵敏度调得越低。

一种可能的实施方式中,在该第一语音信息的声学特征与一个或多个历史无效语音信息的声学特征的相似度大于某个阈值(该阈值例如可以是60%至100%之间的任一个值)的情况下,此时表明该第一语音信息的声学特征与一个或多个历史无效语音信息的声学特征相似,那么,设备可以将判决条件的灵敏度调低到预设值。例如,以上述判断阈值为例,假设原来的判断阈值为70%,只要该第一语音信息的声学特征与一个或多个历史无效语音信息的声学特征的相似度大于某个阈值,判断阈值均调到75%。

需要说明的是,对于图9所示的几个影响因素,设备可以基于其中的任意一个单独调整判决条件的灵敏度。或者,设备可以基于其中的任意多个影响因素综合调整判决条件的灵敏度。

一种可能的实施方式中,设备可以接收用户输入的指令,基于该指令适应性调整判决条件的灵敏度。示例性地,该指令例如可以是用户指定的具体的判决条件灵敏度,或者可以是关闭或取消语音信息有效性识别等指令。本申请实施例可以根据用户的喜好来适应性调整上述判决条件的灵敏度,从而可以更好地满足用户需求,提升用户体验。

一种可能的实施方式中,上述判决条件的灵敏度的调整可以是由另一设备或装置(例如可以是上述设备对应的服务器等)基于上述一种或多种影响因素调整好之后发送给上述设备的,上述设备接收到调整后的判决条件后,可以直接基于调整后的判决条件来判决上述第一语音信息的有效性。

参见图10,图10所示为本申请提供的一种语音信息处理方法,该方法包括但不限于如下步骤:

s1001、获取第一语音信息。

该步骤的具体实现可以参见上述图2中的步骤s201中的描述,此处不再赘述。

s1002、在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作,其中,该判决条件为基于该第一语音信息产生时所在的环境情况调整得到。

在具体实施例中,设备获取到上述第一语音信息之后,可以基于该第一语音信息产生时所在的环境情况适应性地调整判断该第一语音信息是否为有效语音指令的判决条件。具体的,基于第一语音信息产生时所在的环境情况调整判决条件的具体实现可以参见上述图4中对应的描述,此处不再赘述。

调整完成之后,设备采用调整后的该判决条件来判断该第一语音信息是否有效。在该第一语音信息有效的情况下,设备开始对该第一语音信息进行语义理解,具体的,设备中的处理器可以调用存储器中的自然语言理解模型来执行对该第一语音信息的语义理解,以获得该第一语音信息具体的含义。设备理解了该第一语音信息的含义后,基于该含义执行对应的操作,以为用户提供需要的服务。该第一语音信息的含义对于设备来说即为执行该对应操作的控制指令。

一种可能的是时候方式中,设备可以接收用户输入的指定的判决条件的灵敏度,然后,基于该灵敏度适应性地调整判断该第一语音信息是否为有效语音指令的判决条件,使得在使用调整后的判断条件判断语音信息是否有效时能够达到用户指定的判断灵敏度。设备基于用户指定的灵敏度调整完该判决条件后,采用调整后的该判决条件来判断该第一语音信息是否有效。并在该第一语音信息有效的情况下,设备开始对该第一语音信息进行语义理解获取该第一语音信息的含义,基于该含义执行对应的操作,以为用户提供需要的服务。该第一语音信息的含义对于设备来说即为执行该对应操作的控制指令。

一种可能的实施方式中,上述在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作的具体实现,可以参见上述图2中的步骤s203中的描述,此处不再赘述。

可选的,上述第一语音信息产生时所在的环境情况包括如下的一项或多项:截止至该设备获取到该第一语音信息的第二预设时长内的说话人数,该第一语音信息产生时预设范围内的人数,该第一语音信息的置信度,或该第一语音信息的信噪比。

由于在一段时间内说话人的数量越多,和/或语音信息产生时周围的人数越多,那么设备接收到的语音信息是闲聊即为无效语音的概率就越大,另外,语音信息的置信度和/或信噪比越高,表明设备可以正确识别出语音信息的语句的概率大,也会影响语音信息有效性的识别,因此,基于该几项中的一项或多项适应性地调整判决语音信息有效性的判决条件,能够更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

在具体实施例中,在上述环境情况指示该第一语音信息有效的概率大于无效的概率的情况下,上述判决条件的灵敏度被调高;在该环境情况指示该第一语音信息有效的概率小于无效的概率的情况下,该判决条件的灵敏度被调低。具体的实现可以参见上述图4中对应的描述,此处不再赘述。

由于语音信息产生的环境情况会对语音信息是否为有效的语音控制指令有较大的影响,相同的或相似的语音信息在一个环境情况下为有效指令,但在另一个环境情况下就不一定是有效指令,因此,本申请实施例针对不同环境情况下接收到的语音信息,适应性地调整判决语音信息有效性的判决条件,能够在不同环境情况下更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,上述判决条件为基于该第一语音信息产生时所在的环境情况调整得到,包括:该判决条件为基于该环境情况以及设备的持续聆听时长调整得到。

在具体实施例中,设备可以结合该第一语音信息产生时所在的环境情况和设备对语音信息的持续聆听时长来适应性调整上述判决条件的灵敏度。具体的,基于第一语音信息产生时所在的环境情况调整判决条件的具体实现可以参见上述图4中对应的描述,此处不再赘述。

可选的,该设备的持续聆听时长越长该判决条件的灵敏度被调得越低。基于设备对语音信息的持续聆听时长调整判决条件的具体实现可以参见上述图5中对应的描述,此处不再赘述。

可选的,具体实现中,设备可以为上述环境情况和聆听时长各自配置一个权重,按照加权的方式来综合调整判决条件的灵敏度。例如,对于上述判断阈值的调整,假设综合该环境情况和聆听时长这两个影响因素进行调整,该两个因素对应设置的权重为w4和w5,该两个因素对应计算得到的调整后的判断阈值为a4和a5,那么,综合该两个因素确定的调整后的判断阈值为(a4*w4 a5*w5)。需要说明的是,这种加权综合的方式仅为一个示例,实际实现中也可以取多个影响因素中调整最多或最少的作为最后调整的结果等等,本方案对具体综合的计算过程不做限制。

由于设备持续聆听语音的时长越长,聆听到的语音信息为无效语音的概率越大,因此,本申请实施例中结合语音信息产生时的环境情况和设备的持续聆听时长来适应性地调整判决语音信息有效性的判决条件,可以进一步更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,上述判决条件为基于该环境情况以及设备的持续聆听时长调整得到,包括:该判决条件为基于该环境情况、该持续聆听时长以及历史语音信息的情况调整得到。

可选的,该历史语音信息的情况包括如下中的一种或多种:获取该第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔;获取该第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;获取到该第一语音信息前第一预设时长内有效语音信息和无效语音信息的占比;该第一语音信息与最近一次获取到的有效语音信息的语义的第一关联度;该第一语音信息与最近一次获取到的无效语音信息的语义的第二关联度;第一语音信息与设备最近一次获取到的有效语音信息的第三关联度;截止至获取到该第一语音信息时设备与用户语音对话的状态;该第一语音信息与历史有效语音信息的声学特征的第一相似度;该第一语音信息与历史无效语音信息的声学特征的第二相似度。

可选的,上述第一时间间隔越长上述判决条件的灵敏度被调得越低。

可选的,上述第二时间间隔越长上述判决条件的灵敏度被调得越低。

可选的,在上述第一时间间隔小于上述第二时间间隔的情况下,上述判决条件的灵敏度被调高。

可选的,在上述有效语音信息的占比大于上述无效语音信息的占比的情况下,上述判决条件的灵敏度被调高;

在该有效语音信息的占比小于该无效语音信息的占比的情况下,该有效语音信息的占比呈上升趋势,该判决条件的灵敏度被调高;该有效语音信息的占比呈下降趋势,该判决条件的灵敏度被调低。

可选的,在上述设备与用户语音对话的状态存在的情况下,该判决条件的灵敏度被调高。

在本实施例中,设备可以结合该第一语音信息产生时所在的环境情况、设备对语音信息的持续聆听时长和设备聆听到的历史语音信息来适应性调整上述判决条件的灵敏度。具体的,基于第一语音信息产生时所在的环境情况调整判决条件的具体实现可以参见上述图4中对应的描述,此处不再赘述;基于设备对语音信息的持续聆听时长调整判决条件的具体实现可以参见上述图5中对应的描述,此处不再赘述;基于设备聆听到的历史语音信息调整判决条件的具体实现可以参见上述图5、图6a、图6b、图7或图9中对应的描述,此处不再赘述。

可选的,本实施例中结合上述环境情况、聆听时长和历史语音信息来调整判决条件的灵敏度,可以是采用上述介绍的加权平均的综合调整方法来综合调整,或者可以是取多个影响因素中调整最多或最少的作为最后调整的结果等等,本方案对具体综合的计算过程不做限制。

基于历史语音信息也可以帮助判断当前获取的语音信息的有效性,例如若当前获取的语音信息与历史获取的有效语音信息相似度较大,那么当前获取的语音信息为有效语音指令的概率较大,反之,若当前获取的语音信息与历史获取的无效语音信息相似度较大,那么当前获取的语音信息为无效语音指令的概率较大。因此,本申请实施例中除了上述介绍的语音信息产生的环境情况和设备聆听时长,还结合历史语音信息来适应性地调整判决语音信息有效性的判决条件,也可以进一步更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,上述判决条件为基于该第一语音信息产生时所在的环境情况调整得到,包括:该判决条件为基于该环境情况以及历史语音信息的情况调整得到。

在本实施例中,设备可以结合该第一语音信息产生时所在的环境情况和设备聆听到的历史语音信息来适应性调整上述判决条件的灵敏度。具体的,基于第一语音信息产生时所在的环境情况调整判决条件的具体实现可以参见上述图4中对应的描述,此处不再赘述;基于设备聆听到的历史语音信息调整判决条件的具体实现可以参见上述图5、图6a、图6b、图7或图9中对应的描述,此处不再赘述。

可选的,本实施例中结合上述环境情况和历史语音信息来调整判决条件的灵敏度,可以是采用上述介绍的加权平均的综合调整方法来综合调整,或者可以是取多个影响因素中调整最多或最少的作为最后调整的结果等等,本方案对具体综合的计算过程不做限制。

基于前面的描述,本申请实施例中结合语音信息产生的环境情况和历史语音信息来适应性地调整判决语音信息有效性的判决条件,也可以进一步更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,本申请提供另一种语音信息处理方法,该方法包括:获取第一语音信息;在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作,其中,该判决条件为基于设备的持续聆听时长调整得到。

具体实施例中,上述获取第一语音信息的具体实现可以参见上述图2中的步骤s201中的描述,此处不再赘述。上述在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作的具体实现,可以参见上述图2中的步骤s203中的描述,此处不再赘述。上述基于设备对语音信息的持续聆听时长调整判决条件的具体实现可以参见上述图5中对应的描述,此处不再赘述。

本申请中,由于设备持续聆听语音的时长越长,聆听到的语音信息为无效语音的概率越大,因此,可以通过设备的持续聆听时长来适应性地调整判决语音信息有效性的判决条件,可以更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

一种可能的实施方式中,本申请提供另一种语音信息处理方法,该方法包括:获取第一语音信息;在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作,其中,该判决条件为基于历史语音信息调整得到。

具体实施例中,上述获取第一语音信息的具体实现可以参见上述图2中的步骤s201中的描述,此处不再赘述。上述在基于判决条件确定该第一语音信息为有效的语音控制指令的情况下,执行该第一语音信息指示的操作的具体实现,可以参见上述图2中的步骤s203中的描述,此处不再赘述。基于设备聆听到的历史语音信息调整判决条件的具体实现可以参见上述图5、图6a、图6b、图7或图9中对应的描述,此处不再赘述。

基于历史语音信息也可以帮助判断当前获取的语音信息的有效性,例如若当前获取的语音信息与历史获取的有效语音信息相似度较大,那么当前获取的语音信息为有效语音指令的概率较大,反之,若当前获取的语音信息与历史获取的无效语音信息相似度较大,那么当前获取的语音信息为无效语音指令的概率较大。因此,本申请中,通过历史语音信息来适应性地调整判决语音信息有效性的判决条件,可以更好地判断语音信息的有效性,提高有效判别的准确率,降低无效信号的误触发率。

为了便于从整体上理解本申请提供的语音信息处理方法,示例性地,可以参见图11所示的流程框图。在图11中,首先,设备的语音交互系统被唤醒,然后,该系统开始聆听用户的语音。该系统获取到用户的语音信息后,将语音信息输入到上述的无效拒识模型识别该语音信息的有效性。若识别出该语音信息为有效,则对该语音信息进行语义理解,并基于理解的语义进行指令解析和执行。

语义理解之后,语音交互系统会判断是否继续聆听用户的语音,若继续,则进行聆听语音的操作。若确定不再继续聆听,则执行结束聆听的操作。示例性地,判断是否持续聆听可以根据预设的聆听时长来判断,若当前没超出该预设的聆听时长的范围,则可以持续聆听,否则结束聆听。

若上述无效拒识模型识别出的该语音信息为无效,则该系统判断是否继续聆听用户的语音,若继续,则进行聆听语音的操作。若确定不再继续聆听,则执行结束聆听的操作。

一种可能的实施方式中,上述图11所示的流程中,在判断语音信息有效之后,判断是否持续聆听用户的语音和语义理解这两个步骤也可以同时进行,或者先判断是否持续聆听用户的语音,再进行语义理解,本申请对该两个操作的先后执行顺序不做限制。

另外,上述对语音信息进行语义理解之后还可以将理解之后的语音信息的语义返回到语音信息有效性识别的过程中,例如输入到上述无效拒识模型用于上述判决条件的灵敏度的调整。

另外,需要说明的是,上述介绍的本申请提供的语音信息处理方法的实施例中,主要是以无效拒识模型中的判决条件为例进行介绍,但是在实际应用中,语音信息有效性的判决条件可以不限制是该无效拒识模型中的判决条件。只要是基于上述语音信息的有效性识别的影响因素中的一项或多项来调整语音信息有效性的判决条件的方案均在本申请的保护范围之内。

综上所述,本申请提供的语音信息处理方法,从一个或多个影响语音信息有效性判断的影响因素入手,实时调整设备判决获取的语音信息的有效性的判决条件的灵敏度,使得设备可以基于不同的场景,不同的用户状态灵活有效的判别语音信息的有效性,可以提高语音信息有效性识别的准确率,降低无效语音信息的误触发率,同时节省了设备因误触发浪费的计算资源等,还可以提升语音交互过程中用户的体检。

上述主要对本申请实施例提供的数据通信处理方法进行了介绍。可以理解的是,各个设备为了实现上述对应的功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本文中所公开的实施例描述的各示例的单元及步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下,图12示出了装置的一种可能的逻辑结构示意图,该装置可以是上述的设备,或者可以是该设备中的芯片,或者可以是该设备中的处理系统等。该装置1200包括获取单元1201、调整单元1202、语义理解单元1203和执行单元1204。其中:

获取单元1201,用于获取第一语音信息。该获取单元1201可以由通信接口或收发器来实现,可以执行图2所示的步骤201中所述的操作。

调整单元1202,用于基于该第一语音信息有效性的影响因素调整判决条件,该判决条件为该第一语音信息的有效性判断模型中的一个或多个判断条件,该有效性用于指示该第一语音信息对于获取到该第一语音信息的设备是否为有效的语音控制指令。该调整单元1202可以由处理器来实现,可以执行图2所示的步骤202中所述的操作。

语义理解单元1203,用于在基于调整后的该判决条件确定该第一语音信息有效的情况下,对该第一语音信息进行语义理解。该语义理解单元1203可以由处理器来实现,可以执行图2所示的步骤203中所述的语义理解操作。

执行单元1204,用于执行该第一语音信息的指令。该执行单元1204可以由处理器来实现,可以执行图2所示的步骤203中所述的执行操作。

一种可能的实施方式中,该调整单元1202具体用于:

在基于该影响因素分析出该第一语音信息有效的概率大于无效的概率的情况下,将该判决条件的灵敏度调高,该判决条件的灵敏度越高指示通过该判决条件确定该第一语音信息有效的概率越高;

在基于该影响因素分析出该第一语音信息有效的概率小于无效的概率的情况下,将该判决条件的灵敏度调低,该判决条件的灵敏度越低指示通过该判决条件确定该第一语音信息有效的概率越低。

一种可能的实施方式中,该判决条件包括该有效性判断模型中该第一语音信息有效性的预判模块的选择条件,该预判模块包括规则匹配模块和推理模块。

一种可能的实施方式中,该判决条件包括该有效性判断模型中,用于预判该第一语音信息有效性的推理模块的判断阈值。

一种可能的实施方式中,该判决条件包括该有效性判断模型中决策模块的综合判断条件;该综合判断条件为基于预判结果确定该第一语音信号是否有效的判断条件;该预判结果为该有效性判断模型中预判模块对该第一语音信息的有效性的预判结果。

一种可能的实施方式中,该影响因素为如下中的一种或多种:

该第一语音信息产生时所在的环境情况;

该装置1200的持续聆听时长;

获取该第一语音信息时与最近一次获取到有效语音信息之间的第一时间间隔;

获取该第一语音信息时与最近一次获取到无效语音信息之间的第二时间间隔;

获取到该第一语音信息前第一预设时长内有效语音信息和无效语音信息的占比;

该第一语音信息与最近一次获取到的有效语音信息的语义的第一关联度;

该第一语音信息与最近一次获取到的无效语音信息的语义的第二关联度;

第一语音信息与装置1200最近一次获取到的有效语音信息的第三关联度;

截止至获取到该第一语音信息时该装置1200与用户语音对话的状态;

该第一语音信息与历史有效语音信息的声学特征的第一相似度;

该第一语音信息与历史无效语音信息的声学特征的第二相似度。

一种可能的实施方式中,该第一语音信息产生时所在的环境情况包括如下的一项或多项:

截止至该装置1200获取到该第一语音信息的第二预设时长内的说话人数,该第一语音信息产生时预设范围内的人数,该第一语音信息的置信度,或该第一语音信息的信噪比。

图12所示装置1200中各个单元的具体操作以及有益效果可以参见上述方法实施例中对应的描述,此处不再赘述。

在采用对应各个功能划分各个功能模块的情况下,图13示出了装置的一种可能的逻辑结构示意图,该装置可以是上述的设备,或者可以是该设备中的芯片,或者可以是该设备中的处理系统等。该装置1300包括获取单元1301和执行单元1302。其中:

获取单元1301,用于获取第一语音信息。该获取单元1301可以由通信接口或收发器来实现,可以执行图10所示的步骤s1001中所述的操作。

执行单元1302,用于在基于判决条件确定所述第一语音信息为有效的语音控制指令的情况下,执行所述第一语音信息指示的操作,其中,所述判决条件为基于所述第一语音信息产生时所在的环境情况调整得到。该执行单元1302可以由处理器来实现,可以执行图10所示的步骤s1002中所述的操作。

图13所示装置1300中各个单元的具体操作以及有益效果可以参见上述方法实施例中对应的描述,此处不再赘述。

图14所示为本申请提供的设备的一种可能的硬件结构示意图,该设备可以是上述实施例所述方法中的设备。该设备1400包括:处理器1401、存储器1402和通信接口1403。处理器1401、通信接口1403以及存储器1402可以相互连接或者通过总线1404相互连接。

示例性的,存储器1402用于存储设备1400的计算机程序和数据,存储器1402可以包括但不限于是随机存储记忆体(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)或便携式只读存储器(compactdiscread-onlymemory,cd-rom)等。

在实现图14所示实施例的情况下,执行图14中的全部或部分单元的功能所需的软件或程序代码存储在存储器1402中。

在实现图14实施例的情况下,如果是部分单元的功能所需的软件或程序代码存储在存储器1402中,则处理器1401除了调用存储器1402中的程序代码实现部分功能外,还可以配合其他部件(如通信接口1403)共同完成图14实施例所描述的其他功能(如接收或发送数据的功能)。

通信接口1403的个数可以为多个,用于支持设备1400进行通信,例如接收或发送数据或信号等。

示例性的,处理器1401可以是中央处理器单元、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理器和微处理器的组合等等。处理器1401可以用于读取上述存储器1402中存储的程序,执行如下操作:

获取第一语音信息;基于该第一语音信息有效性的影响因素调整判决条件,该判决条件为该第一语音信息的有效性判断模型中的一个或多个判断条件,该有效性用于指示该第一语音信息对于获取到该第一语音信息的设备1400是否为有效的语音控制指令;在基于调整后的该判决条件确定该第一语音信息有效的情况下,对该第一语音信息进行语义理解,并执行该第一语音信息的指令。

一种可能的实施方式中,该基于该第一语音信息有效性的影响因素调整判决条件,包括:

在基于该影响因素分析出该第一语音信息有效的概率大于无效的概率的情况下,将该判决条件的灵敏度调高,该判决条件的灵敏度越高指示通过该判决条件确定该第一语音信息有效的概率越高;

在基于该影响因素分析出该第一语音信息有效的概率小于无效的概率的情况下,将该判决条件的灵敏度调低,该判决条件的灵敏度越低指示通过该判决条件确定该第一语音信息有效的概率越低。

图14所示设备1400中各个单元的具体操作以及有益效果可以参见上述方法实施例中对应的描述,此处不再赘述。

图15为本申请实施例提供的另一种语音信息处理装置的结构示意图,该装置可以是上述实施例中的设备,或者可以是该设备中的芯片,或者可以是该设备中的处理系统等,并且可以实现上述本申请提供的语音信息处理方法及其各可选的实施例。如图15所示,语音信息处理装置1500包括:处理器1501,与处理器1501耦合的接口电路1502。应理解,虽然图15中仅示出了一个处理器和一个接口电路。语音信息处理装置1500可以包括其他数目的处理器和接口电路。

其中,接口电路1502用于与装置1500的其他组件连通,例如存储器或其他处理器。处理器1501用于通过接口电路1502与其他组件进行信号交互。接口电路1502可以是处理器1501的输入/输出接口。

例如,处理器1501通过接口电路1502读取与之耦合的存储器中的计算机程序或指令,并译码和执行这些计算机程序或指令。应理解,这些计算机程序或指令可包括上述方法中的各个功能程序。当相应功能程序被处理器1501译码并执行时,可以使得语音信息处理装置1500实现本申请实施例所提供的语音信息处理方法中的方案。

可选的,这些功能程序存储在语音信息处理装置1500外部的存储器中。当该功能程序被处理器1501译码并执行时,内存储器中临时存放该功能程序的部分或全部内容。

可选的,这些功能程序存储在语音信息处理装置1500内部的存储器中。当语音信息处理装置1500内部的存储器中存储有该功能程序时,语音信息处理装置1500可被设置在本申请实施例的设备中。

可选的,这些功能程序的部分内容存储在语音信息处理装置1500外部的存储器中,这些功能程序的其他部分内容存储在语音信息处理装置1500内部的存储器中。

应理解,图1,图12或图13,图14和图15任一所示的装置或设备可以互相结合,图1,图12或图13,图14和图15任一所示的装置或设备以及各可选实施例相关设计细节可互相参考,也可以参考图2或图10任一所示的语音信息处理方法以及各可选实施例相关设计细节。此处不再重复赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现上述各个实施例及其可能的实施例中任意一个实施例中服务器所做的操作。

本申请实施例还提供一种计算机程序产品,当该计算机程序产品被计算机读取并执行时,上述各个实施例及其可能的实施例中任意一个实施例中服务器所做的操作将被执行。

本申请实施例还提供一种计算机程序,当该计算机程序在计算机上执行时,将会使该计算机实现上述各个实施例及其可能的实施例中任意一个实施例中服务器所做的操作。

综上所述,本申请提供一种语音信息处理方法及装置,能够在不同的智能语音交互场景中提高有效语音识别的准确率,降低无效语音的误触发率。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如,在不脱离各种所述示例的范围的情况下,第一图像可以被称为第二图像,并且类似地,第二图像可以被称为第一图像。第一图像和第二图像都可以是图像,并且在某些情况下,可以是单独且不同的图像。

还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。

还应理解,术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解,说明书通篇中提到的“一个实施例”、“一实施例”、“一种可能的实现方式”意味着与实施例或实现方式有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”、“一种可能的实现方式”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜