一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

无声语音识别方法、装置、介质、耳机及电子设备与流程

2021-08-27 13:36:00 来源:中国专利 TAG:无声 语音识别 电子设备 介质 耳机
无声语音识别方法、装置、介质、耳机及电子设备与流程

本申请涉及无声语音识别领域,特别涉及一种无声语音识别方法、装置、介质、耳机及电子设备。



背景技术:

无声语音,又称身体语言,是指发音者做出发声动作,但人耳无法获取声音的发声事件。基于无声语音的语言交互,既可以为语言障碍人士提供语音或文字的输入方式,也可以满足普通用户的无声交流需求。

相关技术中,对于无声语音的识别,通常在语音输入设备中增设传感器等外部设备,通过检测用户的生理信号实现无声语音的识别。以语音输入设备是耳机为例,用户做出无声语音交互的发声动作,耳机通过识别生理信号的特定传感器感知用户的面部肌电信号,在对面部肌电信号进行识别和处理后,得到该面部肌电信号对应的语音信息。

基于传感器的增设,无声语音的识别主要借助用户的生理信号。在没有识别生理信号的特定传感器的情况下,将无法识别无声语音。



技术实现要素:

本申请实施例提供了一种无声语音识别方法、装置、介质、耳机及电子设备,通过与无声语音对应的音频信号得到对应的识别结果。所述技术方案如下:

根据本申请的一个方面,提供了一种无声语音识别方法,该方法包括:

获取第一信号,第一信号是耳机在播放前的音频信号;

获取混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经耳机在播放后的音频信号,反射信号跟随无声语音对应的耳道的形变进行变化;

根据第一信号和混合信号确定与无声语音对应的识别结果。

根据本申请的一个方面,提供了一种无声语音识别装置,该装置包括:

获取模块,用于获取第一信号,第一信号是耳机在播放前的音频信号;

获取模块,还用于获取混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经耳机在播放后的音频信号,反射信号跟随无声语音对应的耳道的形变进行变化;

确定模块,用于根据第一信号和混合信号确定与无声语音对应的识别结果。

根据本申请的一个方面,提供了一种耳机,该耳机包括扬声器、内置麦克风和处理器;

扬声器,用于播放第一信号;

内置麦克风,用于获取混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经扬声器播放后的音频信号,反射信号跟随无声语音对应的耳道的形变进行变化;

处理器,用于获取第一信号,根据第一信号和混合信号确定与无声语音对应的识别结果。

根据本申请的一个方面,提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条程序代码,程序代码由处理器加载并执行如上的无声语音识别方法。

根据本申请的一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,程序代码由处理器加载并执行以实现如上的无声语音识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

根据耳机播放前的音频信号得到混合信号,根据耳机播放前的音频信号和混合信号,得到与无声语音对应的识别结果。使得在不借助识别生理信号的特定传感器的情况下,通过音频信息即可实现无声语音的识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的电子设备的框图;

图2是本申请一个示例性实施例提供的无声语音识别方法的流程图;

图3是本申请一个示例性实施例提供的无声语音识别方法的流程图;

图4是本申请一个示例性实施例提供的电子设备的框图;

图5是本申请一个示例性实施例提供的电子设备的框图;

图6是本申请一个示例性实施例提供的无声语音识别方法的流程图;

图7是本申请一个示例性实施例提供的电子设备的框图;

图8是本申请一个示例性实施例提供的电子设备的框图;

图9是本申请一个示例性实施例提供的电子设备的框图;

图10是本申请一个示例性实施例提供的无声语音识别装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

图1示出了一种电子设备10的框图,用于执行本申请实施例提供的无声语音识别方法。可选的,电子设备10是耳机、移动终端、智能穿戴设备中的一种。具体的,电子设备10的结构有如下两种可选的实现方式:

示意性的如图1的(a)所示,电子设备10包括播放设备11、麦克风12和处理器13。

其中,播放设备11用于播放第一信号,第一信号可以是电子设备10获取到的其他设备发送的音频信息(比如歌曲),处理器13接收并解码该音频信息得到第一信号,同时,处理器12向播放设备11发送播放指令,播放设备11根据播放指令进行第一信号的播放。具体的,播放设备11中可设置扬声器,或者用扬声器代替播放设备11,以实现播放第一信号。

麦克风12用于采集混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经播放设备11在播放后得到的音频信号。在一些实施例中,混合信号中还可能包括干扰信号,比如播放设备11或者处理器13运行时发出的噪声,或者是电子设备10的周侧的车辆噪声、对话声等。在一些实施例中,混合信号中仅包括第二信号和反射信号,也即,电子设备10不受到噪声干扰。

处理器13用于获取第一信号,根据第一信号和混合信号确定与无声语音对应的识别结果。其中,第一信号的获取,可以是通过外部设备向电子设备10发送得到,也可以是电子设备10储存有的音频信号,还可以是电子设备10自身发出的音频信号。可选的,电子设备10自身发出的音频信号通过信号发生器实现,该音频信号包括但不限于单频信号和扫频信号中的一种。

示意性的,处理器13中包括有神经网络模型,该神经网络模型是预先训练好的模型。可选的,神经网络模型包括循环神经网络(recurrentneuralnetwork,rnn)模型、长短期记忆网络(longshorttermmemorynetwork,lstm)模型中的一种,或者是其他用于语音识别的模型。具体的,神经网络模型中的训练数据集通过专业用户进行人工采集;或者,通过摄像头获取用户的唇语或面部肌肉变化状态,自动采集相关数据集。

示意性的,播放设备11与处理器13电连接,用于处理器12向播放设备11发送播放指令;麦克风12与处理器13电连接,用于获取麦克风12采集到的混合信号。

示意性的如图1的(b)所示,电子设备10包括处理器13,处理器13与包括有播放设备11和麦克风12的第二设备20具有通信连接。可选的,第二设备20是耳机。

其中,第一信号是电子设备10获取到的、或自身储存的、或自身发出的音频信号。可选的,电子设备10自身发出的音频信号通过信号发生器实现,该音频信号包括但不限于单频信号和扫频信号中的一种。

随后,电子设备10通过处理器13控制第二设备20播放第一信号,同时接受第二设备20发送的混合信号,并根据第一信号和混合信号确定参考信号,以及将参考信号输入神经网络模型,得到与无声语音对应的识别结果。另外,处理器13中包括的神经网络模型是预先训练好的模型。可选的,神经网络模型包括rnn模型、lstm模型中的一种,或者是其他用于语音识别的模型。

本申请实施例提供的无声语音识别方法,以电子设备10为执行主体。具体的,通过无声语音的输入动作与电子设备10的人机交互,使得电子设备10获取与无声语音对应的识别结果。

以电子设备10是耳机为例,无声语音识别方法的原理如下:在耳机内播放声音(也即第一信号)的情况下,音频信号在耳道内传播,音频信号碰到耳壁时出现信号反射,形成相应的反射信号。此时,用户做出无声语音对应的动作,使得相应的口腔运动带动耳道的内部发生形变。由于耳道的形变将导致信号的传播路径发生变化,从而使得产生的反射信号发生对应的波动。根据获取到的反射信号的波动,可以反向推断出耳道的形变情况。

在一种可选的实施场景下,电子设备10的使用者是语言障碍人士,使用者做出无声语音对应的动作,该动作与电子设备10进行人机交互,根据本申请实施例提供的无声语音识别方法,电子设备10可以获取到与无声语音对应的识别结果,为语言障碍人士提供一种语音输入方式。

在一种可选的实施场景下,电子设备10位于公共场合、或者嘈杂环境中,使用者做出无声语音对应的动作,电子设备10通过执行本申请实施例提供的无声语音识别方法,获取到与无声语音对应的识别结果,满足使用者保护隐私,或者避免对其他人员造成打扰的需求。

图2示出了一个示例性实施例提供的无声语音识别方法的流程图,以执行主体是图1中的电子设备10为例。该方法包括如下步骤:

步骤102:获取第一信号。

示意性的,第一信号是耳机在播放前的音频信号。

其中,第一信号是电子设备10获取到的其他设备发送的音频信息,或者是电子设备10储存的音频信号,或者是电子设备10自身发出的音频信号。比如,第一信号是其他设备发送的音频片段对应的音频信息;又如,第一信号是电子设备10储存的歌曲的音频信息;又如,第一信号是由电子设备10内设置的信号发生器发送的音频信号。

以电子设备10是耳机为例。耳机与一个移动终端电连接,该移动终端相耳机发送一首歌曲的音频信息,耳机接收到该音频信息后通过解码获取与该音频信息对应的音频信号(相当于第一信号)。

步骤104:获取混合信号。

示意性的,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经耳机在播放后的音频信号,反射信号跟随无声语音对应的耳道的形变发生变化。

也即,第二信号是指第一信号经耳机播放后的音频信号,反射信号是第二信号经耳道传播后的音频信号。在第一信号的播放过程中,输入无声语音,也即做出无声语音对应的发声动作,该动作中包括的口腔运动带动耳道发生一定程度的形变。耳道形变将导致耳道内播放的信号(也即第二信号)的传播路径发生变化,从而使得产生的反射信号发生对应的波动。相当于,第二信号对应的反射信号跟随无声语音对应的耳道的形变进行变化。

以电子设备10是耳机为例。耳机与一个移动终端电连接,该移动终端相耳机发送一首歌曲的音频信息,耳机接收到该音频信息后通过解码获取与该音频信息对应的音频信号(相当于第一信号)。

随后通过耳机内置的扬声器进行播放,经过扬声器传播出来的信号即为第二信号。在一种可选的实施场景下中,由于第一信号和第二信号的差异较小,可以将其认为是同一个音频信息。随后,耳机的使用者做出无声语音的动作,带动耳道发生形变,由于第二信号经耳道进行传播,音频信号碰到耳壁时出现信号反射,形成反射的音频信号,该音频信号即为与第二信号对应的反射信号。

具体的,混合信号通过电子设备10中的麦克风12进行采集。

步骤106:根据第一信号和混合信号确定与无声语音对应的识别结果。

根据步骤102和步骤104,混合信号包括经耳机播放后的第二信号和对应的反射信号,由于第一信号是耳机播放前的音频信号,反射信号跟随无声语音对应的耳道的形变进行变化,根据第一信号和混合信号确定的识别结果也将随无声语音对应的耳道的形变进行变化。

示意性的,识别结果包括但不限于如下信息中的至少一种:语音信息、文字信息和控制信号。

比如,识别结果包括语音信息,该语音信息与无声语音对应。又如,识别结果包括文字信息,该文字信息与无声语音对应。又如,识别结果包括控制信号,该控制信号用于控制电子设备10关闭当前播放的歌曲。

具体的,识别结果的确定有多种实现方式。比如,根据第一信号和混合信号进行阈值判断,根据判断结果确定识别结果;又如,对第一信号和混合信号进行拟合,得到拟合曲线,根据拟合曲线确定识别结果;又如,根据第一信号和混合信号确定中间变量,根据该中间变量确定识别结果,该中间变量可以是一个计算后的参考值。

可选的,步骤106可实现为如下步骤:

根据第一信号和混合信号确定参考信号,参考信号是与无声语音对应的音频信号;

根据参考信号确定与无声语音对应的识别结果。

也即,根据第一信号和混合信号得到的参考信号即为前述内容中的中间变量,该变量与无声语音对应。

可选的,参考信号的确定有如下两种方式:

第一种是通过对第一信号进行持续延时,得到多个不同的混合信号,对第一信号和多个混合信号进行处理得到参考信号。

比如,根据第一信号s1得到混合信号e,对第一信号s1进行相位延迟,得到信号s2、s3、…sn,根据多个信号得到多个混合信号,每个混合信号中包含一种或两种音频信息。随后,对信号s2、s3、…s和对应的混合信号进行相关性运算,其中相关性运算包括点积运算。比如,对多个信号的归一化时域波形、频谱包络等特征数据进行点积运算,得到一个不同延时时间的相关性曲线,该相关性曲线即为参考信号。

或者,根据第一信号s1得到混合信号e,对第一信号s1进行相位延迟,得到信号s2、s3、…sn,对多个信号和混合信号e进行点积运算。该示例与上一个示例的类似,同样可以得到参考信号。

第二种是通过第一信号和混合信号得到残差信号,根据残差信号确定参考信号。其中,残差信号是指迭代计算值和初始计算值之差,迭代计算值可用混合信号代替,初始计算值可用第一信号代替。

可选的,确定残差信号使用的参数信息,可根据实际需要进行设定。比如,根据第一信号和混合信号在时域和/或频域上的幅值比例确定参数。

根据前述内容,由于电子设备10可能会受到噪声的干扰,根据残差信号确定参考信号的过程中,可以对残差信号进行进一步的处理,以降低噪声干扰。其中,根据是否存在噪声干扰,对残差信号的进一步处理有两种处理方式,包括进行降噪的处理和不进行降噪的处理。具体的,对残差信号的进一步处理,可以通过控制器和/或带通滤波器实现。

可选的,混合信号还包括干扰信号,干扰信号由电子设备10中的零部件自身产生。

另外,根据第一信号和混合信号确定与无声语音对应的识别结果,还有如下两种可选的实现方式:

将第一信号和混合信号输入神经网络模型,得到与无声语音对应的识别结果;

或者,根据第一信号和混合信号确定参考信号,参考信号是与无声语音对应的音频信号;将参考信号输入神经网络模型,得到识别结果。

示意性的,神经网络模型包括rnn模型、lstm模型中的一种,或者是其他类型的模型。其中,神经网络模型中的训练数据集通过专业用户进行人工采集;或者,通过摄像头获取用户的唇语或面部肌肉变化状态,自动采集相关数据集。

将参考信号输入神经网络模型后,得到对应的指令信息,该指令信息即为与无声语音对应的识别结果。示意性的,指令信息包括但不限于如下信息中的至少一种:语音信息、文字信息和控制信号。

比如,将参考信号输入神经网络模型,根据预先训练好的rnn模型,输出与无声语音对应的指令信息,该指令信息用于控制电子设备10关闭当前播放的歌曲。又如,将参考信号输入神经网络模型,根据预先训练好的lstm模型,输出与无声语音对应的指令信息,该指令信息用于在电子设备10的显示界面中输入一条语音信息,该语音信息与无声语音对应。又如,将参考信号输入神经网络模型,根据预先训练好的其他用于语音识别的神经网络模型,输出与无声语音对应的指令信息,该指令信息用于发送一端文字信息,该文字信息与无声语音对应。

综上所述,本申请实施例提供的无声语音识别方法,通过耳机播放前的音频信号得到混合信号,根据播放前的音频信号和混合信号得到与无声语音对应的识别结果。使得在不借助识别生理信号的特定传感器的情况下,借助现有的播放设备和麦克风,电子设备10通过音频信息即可实现无声语音的识别。

图3示出了另一个示例性实施例提供的无声语音识别方法的流程图,以执行主体是图1中的电子设备10为例。该方法包括如下步骤:

步骤201:获取第一信号。

示意性的,第一信号是耳机在播放前的音频信号。

其中,第一信号是电子设备10获取到的其他设备发送的音频信息,或者是电子设备10储存的音频信号,或者是电子设备10自身发出的音频信号。

步骤201与步骤102相同,可作参考,不再赘述。

步骤202:获取混合信号。

示意性的,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经耳机在播放后的音频信号,反射信号跟随无声语音对应的耳道的形变发生变化。

其中,第二信号是指第一信号经耳机在播放后的音频信号,反射信号是第二信号经耳道传播后的音频信号。在第一信号的播放过程中,输入无声语音,也即做出无声语音对应的口腔运动,从而带动耳道发生形变。耳道形变将导致信号的传播路径发生变化,从而使得产生的反射信号发生对应的波动,也即第二信号对应的反射信号跟随无声语音对应的耳道的形变进行变化。

步骤202与步骤104相同,可作参考,不再赘述。

根据前述内容,参考信号是与无声语音对应的音频信号,参考信号的确定有两种方式,相当于执行步骤2041或步骤2042。

示意性的,步骤2041和步骤2042只能择一执行,不能同时执行。具体阐述如下:

步骤2041:对第一信号进行延时处理,得到至少一个延时后的混合信号。

其中,对第一信号进行的延时处理为持续延迟,也即对第一信号进行相位延迟。在延时处理后,第一信号通过耳机播放能够获取到延迟后的混合信号,延迟后的混合信号的个数可以根据实际需要进行设定。

比如,根据第一信号s1得到混合信号e,对第一信号s1进行相位延迟,得到信号s2、s3、…sn,根据多个信号得到多个混合信号。其中,与信号s2对应的混合信号是e1,与信号s3对应的混合信号是e2,与信号sn对应的混合信号是e(n-1)。

步骤205:根据混合信号和至少一个延时后的混合信号确定参考信号。

根据前述内容,由于延时后的混合信号的数量较多,且每个混合信号中包含有不同的音频信号。为得到参考信号,需要对混合信号和至少一个延时后的混合信号进行处理,该处理可以是加权处理,或者相关性运算。

示意性的,步骤205有如下一种可选的实现方式:

对混合信号和至少一个延时后的混合信号进行相关性运算,得到参考信号。

其中,相关性运算用于计算两个变量之间的相关系数。相关系数包括线性相关系数、非线性相关系数、非线性判定系数、复相关系数和复判定系数中的至少一种。

由于延时后的混合信号的个数有多个,以延时后的混合信号包括第一延时信号和第二延时信号为例。具体的,根据混合信号和第一延时信号计算得到第一相关系数,根据混合信号和第二延时信号计算得到第二相关系数,根据第一相关系数和第二相关系数确定参考信号。或者,根据混合信号和第一延时信号计算得到第一相关系数,根据第一延时信号和第二延时信号计算得到第二相关系数,根据第一相关系数和第二相关系数确定参考信号。

示意性的,相关性运算包括但不限于点积运算和距离运算中的至少一种。比如,对混合信号和至少一个延时后的混合信号的归一化时域波形、频谱包络等特征数据进行点积运算,得到一个不同延时时间的相关性曲线,该相关性曲线即为参考信号。

或者,对混合信号和至少一个延时后的混合信号进行加权处理,权重可根据实际需要进行设定。

步骤2042:根据第一信号和混合信号确定残差信号。

其中,残差信号是指迭代计算值和初始计算值之差,迭代计算值可用混合信号代替,初始计算值可用第一信号代替。

可选的,确定残差信号使用的参数信息,可根据实际需要进行设定。比如,根据第一信号和混合信号在时域和/或频域上的幅值比例确定参数。

以第一信号是信号s1、混合信号是信号e为例,残差信号sr可采用如下一种计算方式:sr=e-w×s1。其中,参数w有如下两种确定方法:其一,在时域情况下,w是e与s1在一定时间内的时域幅值的比值;其二,在频域情况下,w是e与s1的一定频带内的频谱能量比值。

步骤206:对残差信号进行低频过滤,得到参考信号,参考信号的频率满足预设范围。

根据残差信号的确定过程,得到的音频信号是第一信号和混合信号的差值。由于混合信号中还可能包括有一些干扰信号,需要对残差信号进一步处理,以得到较为精确的参考信号。

其中,低频过滤的处理过程,又称为低通滤波,是一种音频信号的过滤方式。低通滤波的过滤规则为低频信号能正常通过,超过设定临界值的高频信号则会被阻断或减弱。

也即,对残差信号进行的低频过滤处理,需要设定截止频率,高于该截止频率的音频信号被阻断或减弱,得到的音频信号即为参考信号。其中,参考信号的预设范围即为0hz到截止频率。

可选的,为获取到无声语音交互的运动频率,截止频率应高于10hz。比如,截止频率是20hz。

具体的,对残差信号的低频过滤处理,可通过控制器进行。

在一种可选的实施场景下,第一信号中还可能包括一些其他信号,或者混合信号中包括干扰信号。为降低上述信号形成的噪声对第一信号和/或混合信号的影响,步骤206有如下一种可选的实现方式:

对残差信号进行第一低频过滤,得到过滤后的音频信号,过滤后的音频信号的频率满足第一预设范围;根据过滤后的音频信号和第一信号确定降噪后的第一信号;对降噪后的第一信号进行延时处理,得到至少一个延时后的混合信号;根据混合信号和至少一个延时后的混合信号确定参考信号。

其中,第一低频过滤与前述内容中的低频过滤类似,但截止频率不同。第一低频过滤,也可称为带通滤波,也是一种音频信号的过滤方式。带通滤波的过滤规则是在允许通过的特定频段上的信号能正常通过,其余信号则会被阻断或减弱。

由于后续需要对过滤后的音频信号进行延时处理,为避免无声语音交互的动作频率被过滤掉,第一低频过滤的截止频率通常高于10hz。也即,第一预设范围与前述的预设范围不同。可选的,第一低频过滤的截止频率设置为20khz至20hz之间。

具体的,对残差信号的第一低频过滤处理,可通过带通滤波器进行。

根据前述内容,对残差信号的处理,可同时通过控制器和带通滤波器进行。具体的,通过控制器对残差信号进行低通滤波,截止频率设置为20hz,得到的音频信号通过耳机播放给使用者,以降低噪声干扰;通过带通滤波器对残差信号进行带通滤波,截止频率设置为20khz至20hz之间,将得到的音频信号重新确定为第一信号,以进行参考信号的计算。

步骤207:根据参考信号确定与无声语音对应的识别结果。

示意性的,识别结果包括但不限于如下信息中的至少一种:语音信息、文字信息和控制信号。根据前述内容,识别结果的确定有多种实现方式。可选的,将参考信号输入神经网络模型,得到识别结果。

其中,神经网络模型包括rnn模型、lstm模型中的一种,或者是其他类型的模型。其中,神经网络模型中的训练数据集通过专业用户进行人工采集;或者,通过摄像头获取用户的唇语或面部肌肉变化状态,自动采集相关数据集。

将参考信号输入神经网络模型后,得到对应的指令信息,该指令信息即为与无声语音对应的识别结果。示意性的,指令信息包括但不限于如下信息中的至少一种:语音信息、文字信息和控制信号。

步骤207与步骤106相同,可作参考,不再赘述。

示意性的如图4所示,以电子设备10是耳机为例,耳机包括扬声器21、处理模块22和内置麦克风23,处理模块22包括接收解码单元221、处理单元222和指令信息生成单元223。

其中,扬声器21用于播放第一信号,第一信号是耳机获取到的其他设备发送的音频信息,或者是耳机自身储存的音频信息。接收解码单元221接收并解码该音频信息得到第一信号,同时,接收解码单元221向扬声器21发送播放指令,扬声器21根据播放指令进行第一信号的播放。

内置麦克风23用于采集混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经扬声器21在播放后得到的音频信号。

处理单元222用于获取第一信号,根据第一信号和混合信号确定参考信号,以及将参考信号发送至指令信息生成单元223。其中,指令信息生成单元223中包括有神经网络模型。也即,指令信息生成单元223,用于将参考信号输入神经网络模型,得到与无声语音对应的识别结果。

示意性的如图5所示,以电子设备10是耳机为例,耳机还包括控制器24和带通滤波器25。其中,第一信号是信号s1,混合信号是信号e。

控制器24用于接收残差信号sr,带通滤波器25用于对残差信号sr进行第一低频过滤,也即对残差信号sr进行带通滤波处理,得到过滤后的音频信号sf,将信号sf重新通过扬声器21进行播放。

具体的,无声语音识别过程如下:

1、接收解码单元221获取第一信号s1,并将信号s1发送至扬声器21进行播放,以及发送至处理单元222。

2、信号s1经过扬声器21进行播放后,通过耳道传递至内置麦克风23中,由内置麦克风获取到混合信号e,信号e中包括信号s1经扬声器21播放后的音频信号(相当于第二信号),以及该音频信号对应的反射信号。

3、内置麦克风23将信号e发送至处理单元222,处理单元222根据信号s1和信号e确定残差信号sr,并将残差信号sr发送至控制器24中。

4、控制器24在接收到信号sr后,将其发送至带通滤波器25进行带通滤波处理,得到处理后的音频信号sf,同时将信号sf发送至扬声器21中进行播放。也即,将信号sf作为新的第一信号进行播放。

可选的,控制器24还可以对信号sr进行降噪处理(比如低频过滤)得到信号sr′,并将信号sr′发送至扬声器21进行播放,使得使用者获取较好的音频播放效果。

5、扬声器21对信号sf进行播放,通过耳道的传播,内置麦克风23得到对应的混合信号,该信号与步骤2中得到的混合信号可能相同,也可能不同。并将该信号发送至处理单元222。

6、处理单元222对信号sf进行延时处理,得到至少一个延时后的混合信号。根据接收到的步骤5中发送的混合信号,以及得到的至少一个延时信号,处理单元222通过确定参考信号c,并将信号c发送至指令信息生成单元223。

7、指令信息生成单元223将接收到的信号c输入神经网络模型中,得到与无声语音对应的识别结果。

综上所述,本申请实施例提供的无声语音识别方法,通过第一信号和混合信号确定参考信号,将参考信号输入神经网络模型中,得到与无声语音对应的识别结果。其中,参考信号是经过处理后且与无声语音对应的音频信号。使得在不借助识别生理信号的特定传感器的情况下,电子设备10通过音频信息即可实现无声语音的识别。

图6示出了另一个示例性实施例提供的无声语音识别方法的流程图,以执行主体是图1中的电子设备10为例。

根据前述内容,第一信号的获取存在多种方式,可以是电子设备10获取到的其他设备发送的音频信息,或者是电子设备10储存的音频信号,或者是电子设备10自身发出的音频信号。

基于此,本申请实施例中的第一个步骤有两种可选的方式,包括步骤3011和步骤3012。示意性的,步骤3011和步骤3012可择一执行,或者同时执行,具体阐述如下:

步骤3011:发送周期性音频信号。

示意性的,周期性音频信号是单频信号或者扫频信号中的一种。

在一种可选的实施场景下,电子设备10无法获取到其他设备发送的音频信息且自身没有储存音频信息进行播放;或者,电子设备10接收到的噪声超过预设阈值,导致电子设备10获取到的音频信号中的有用信息较少。此时,需要电子设备10发出音频信号以便进行后续操作。

具体的,周期性音频信号可以通过电子设备10中设置的声音发生器发送。

步骤302:根据周期性音频信号确定叠加后的音频信号。

由于周期性音频信号可能是单个音频信号,因此需要对周期性音频信号进行处理,得到叠加后的音频信号。比如,对周期性音频信号进行加权叠加处理,其中,每个单频信号的权重可以根据实际需要设定。

或者,在周期性音频信号是连续的音频信号的情况下,将连续的周期性音频信号确定为叠加后的音频信号。

步骤3012:在第一信号低于预设范围的情况下,发送与第一信号对应的叠加信号。

示意性的,与第一信号对应的叠加信号是单频信号或者扫频信号中的一种。

在一种可选的实施场景下,第一信号的频率较低,电子设备10无法获取到该信号,此时,需要电子设备10发出音频信号以便进行后续操作。比如,电子设备10获取到的一端音频信号中缺少一个频率的信号,需要发送一个单频信号对该段音频信号进行补充。

具体的,叠加信号可以通过电子设备10中设置的声音发生器发送。

步骤303:根据第一信号和叠加信号确定叠加后的音频信号。

由于周期性音频信号可能是单个音频信号,因此需要对周期性音频信号进行处理,得到叠加后的音频信号。

比如,对第一信号和叠加信号进行加权叠加处理,其中,每个单频信号的权重可以根据实际需要设定。

步骤304:将叠加后的音频信号确定为第一信号。

根据前述步骤,均可以得到一个叠加后的音频信号,该音频信号可以视为是对第一信号的补充。随后,将叠加后的音频信号重新确定为第一信号,以便执行后续的步骤。

步骤305:获取混合信号。

示意性的,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经耳机在播放后的音频信号,反射信号跟随无声语音对应的耳道的形变发生变化。

第二信号是指第一信号经耳机在播放后的音频信号,反射信号是第二信号经耳道传播后的音频信号。在第一信号的播放过程中,输入无声语音,也即做出无声语音对应的口腔运动,从而带动耳道发生形变。耳道形变将导致信号的传播路径发生变化,从而使得产生的反射信号发生对应的波动,也即第二信号对应的反射信号跟随无声语音对应的耳道的形变进行变化。

步骤305与步骤104类似,可作参考,不再赘述。

步骤306:采集环境信号。

示意性的,环境信号包括与耳道的外部声音对应的音频信号。

在一种可选的实施场景下,电子设备10还可能会受到外部环境中存在的声音的影响,比如车辆噪声、周围的对话声等。

具体的,环境信号的获取,可以通过环境麦克风实现。

步骤307:根据第一信号、混合信号和环境信号确定与无声语音对应的识别结果。

示意性的,识别结果包括但不限于如下信息中的至少一种:语音信息、文字信息和控制信号。

具体的,识别结果的确定有多种实现方式。比如,根据第一信号和混合信号进行阈值判断,根据判断结果确定识别结果;又如,对第一信号和混合信号进行拟合,得到拟合曲线,根据拟合曲线确定识别结果;又如,根据第一信号和混合信号确定中间变量,根据该中间变量确定识别结果,该中间变量可以是一个计算后的参考值。

可选的,步骤307可实现为如下步骤:

根据第一信号、混合信号和环境信号确定参考信号,参考信号是与无声语音对应的音频信号;

根据参考信号确定与无声语音对应的识别结果。

也即,根据第一信号、混合信号和环境信号得到的参考信号即为前述内容中的中间变量,该变量与无声语音对应。

由于第一信号和混合信号受到环境信号的影响,参考信号的确定需要将环境信号考虑在内。与前述内容相似,参考信号的确定有两种方式,步骤根据第一信号、混合信号和环境信号确定参考信号有两种实现方式,包括步骤3081和步骤3082。

示意性的,步骤3081和步骤3082只能择一执行,不能同时执行。具体阐述如下:

步骤3081:根据第一信号和环境信号确定修正后的第一信号。

由于第一信号受到环境信号的影响,因此需要根据环境信号对第一信号进行修正。

可选的,对第一信号和环境信号进行加权处理,得到修正后的第一信号。其中,第一信号和环境信号的权重可根据实际需要进行设定。

步骤309:根据修正后的第一信号获取修正后的混合信号。

由于混合信号受到第一信号的影响,在对第一信号进行修正后,经耳机播放的第二信号也是修正后的音频信号,使得与第二信号对应的混合信号也是修正后的音频信号。

步骤310:对修正后的第一信号进行延时处理,得到至少一个延时后的混合信号。

其中,修正后的第一信号,相当于将步骤3081中根据第一信号和环境信号确定的音频信号重新确定为第一信号。

对修正后的第一信号进行的延时处理为持续延迟,也即对修正后的第一信号进行相位延迟。在延时处理后,修正后的第一信号通过耳机播放能够获取到延迟后的混合信号,延迟后的混合信号可以根据实际需要进行设定。

比如,根据修正后的第一信号s1得到混合信号e,对修正后的第一信号s1进行相位延迟,得到信号s2、s3、…sn,根据多个信号得到多个混合信号。其中,与信号s2对应的混合信号是e1,与信号s3对应的混合信号是e2,与信号sn对应的混合信号是e(n-1)。

步骤311:根据修正后的混合信号和至少一个延时后的混合信号确定参考信号。

根据前述内容,由于延时后的混合信号的数量较多,且每个混合信号中包含有不同的音频信号。为得到参考信号,需要对修正后的混合信号和至少一个延时后的混合信号进行处理,该处理可以是加权处理,或者相关性运算。

示意性的,步骤311有如下一种可选的实现方式:

对修正后的混合信号和至少一个延时后的混合信号进行相关性运算,得到参考信号。

比如,对修正后的混合信号和至少一个延时后的混合信号的归一化时域波形、频谱包络等特征数据进行点积运算,得到一个不同延时时间的相关性曲线,该相关性曲线即为参考信号。

或者,对修正后的混合信号和至少一个延时后的混合信号进行加权处理,权重可根据实际需要进行设定。

步骤3082:根据第一信号和混合信号确定残差信号。

其中,残差信号是指迭代计算值和初始计算值之差,迭代计算值可用混合信号代替,初始计算值可用第一信号代替。

可选的,确定残差信号使用的参数信息,可根据实际需要进行设定。比如,根据第一信号和混合信号在时域和/或频域上的幅值比例确定参数。

以第一信号是信号s1、混合信号是信号e为例,残差信号sr可采用如下一种计算方式:sr=e-w×s1。其中,参数w有如下两种确定方法:其一,在时域情况下,w是e与s1在一定时间内的时域幅值的比值;其二,在频域情况下,w是e与s1的一定频带内的频谱能量比值。

步骤312:根据残差信号和环境信号确定修正后的残差信号。

由于环境信号对于混合信号同样造成影响,因此需要根据婚假信号对残差信号进行修正。可选的,修正后的残差信号的确定,可参考残差信号的确定。也即,迭代算值可用残差信号代替,初始计算值可用环境信号代替。

以残差信号是信号sr、环境信号是信号se为例,修正后的残差信号sr″可采用如下一种计算方式:sr″=sr-w×se。其中,参数w有如下两种确定方法:其一,在时域情况下,w是sr与se在一定时间内的时域幅值的比值;其二,在频域情况下,w是sr与se的一定频带内的频谱能量比值。

步骤313:对修正后的残差信号进行低频过滤,得到参考信号,参考信号的频率满足预设范围。

根据修正后的残差信号的确定过程,得到的音频信号是第一信号和混合信号的差值。由于混合信号中还可能包括有一些干扰信号,需要对修正后的残差信号进一步处理,以得到较为精确的参考信号。

其中,低频过滤的处理过程,又称为低通滤波,是一种音频信号的过滤方式。低通滤波的过滤规则为低频信号能正常通过,超过设定临界值的高频信号则会被阻断或减弱。

也即,对修正后的残差信号进行的低频过滤处理,需要设定截止频率,高于该截止频率的音频信号被阻断或减弱,得到的音频信号即为参考信号。其中,参考信号的预设范围即为0hz到截止频率。

可选的,为获取到无声语音交互的运动频率,截止频率应高于10hz。比如,截止频率是30hz。

具体的,对修正后的残差信号的低频过滤处理,可通过控制器进行。

在一种可选的实施场景下,第一信号中还可能包括一些其他信号,或者混合信号中包括干扰信号。为降低上述信号形成的噪声对第一信号和/或混合信号的影响,步骤313有如下一种可选的实现方式:

对修正后的残差信号进行第一低频过滤,得到过滤后的音频信号,过滤后的音频信号的频率满足第一预设范围;根据过滤后的音频信号和第一信号确定降噪后的第一信号;对降噪后的第一信号进行延时处理,得到至少一个延时后的混合信号;根据混合信号和至少一个延时后的混合信号确定参考信号。

其中,第一低频过滤与前述内容中的低频过滤类似,但截止频率不同。第一低频过滤,也可称为带通滤波,也是一种音频信号的过滤方式。带通滤波的过滤规则是在允许通过的特定频段上的信号能正常通过,其余信号则会被阻断或减弱。

由于后续需要对过滤后的音频信号进行延时处理,为避免无声语音交互的动作频率被过滤掉,第一低频过滤的截止频率通常高于10hz。也即,第一预设范围与前述的预设范围不同。可选的,第一低频过滤的截止频率设置为30khz至30hz之间。

具体的,对修正后的残差信号的第一低频过滤处理,可通过带通滤波器进行。

根据前述内容,对修正后的残差信号的处理,可同时通过控制器和带通滤波器进行,具体阐述可参考步骤206中的相关内容。

步骤314:根据参考信号确定与无声语音对应的识别结果。

根据前述内容,步骤314有如下一种可选的实现方式:将参考信号输入神经网络模型,得到识别结果。

其中,神经网络模型包括rnn模型、lstm模型中的一种,或者是其他类型的模型。其中,神经网络模型中的训练数据集通过专业用户进行人工采集;或者,通过摄像头获取用户的唇语或面部肌肉变化状态,自动采集相关数据集。

将参考信号输入神经网络模型后,得到对应的指令信息,该指令信息即为与无声语音对应的识别结果。示意性的,指令信息包括但不限于如下信息中的至少一种:语音信息、文字信息和控制信号。

步骤314与步骤106类似,可作参考,不再赘述。

示意性的如图7所示,以电子设备10是耳机为例,耳机包括扬声器21、处理模块22、内置麦克风23和环境麦克风26。处理模块22包括接收解码单元221、处理单元222和指令信息生成单元223。

其中,扬声器21用于播放第一信号,接收解码单元221接收并解码该音频信息得到第一信号,同时,处理单元222向扬声器21发送播放指令,扬声器21根据播放指令进行第一信号的播放。

内置麦克风23用于采集混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经扬声器21在播放后得到的音频信号。

环境麦克风26用于采集环境信号。也即,通过环境麦克风26接收外部声音,以获取耳道的外部环境噪声。

处理单元222用于获取第一信号,根据第一信号、环境信号和混合信号确定参考信号,以及将参考信号发送至指令信息生成单元223。其中,指令信息生成单元223中包括有神经网络模型。也即,指令信息生成单元223,用于将参考信号输入神经网络模型,得到与无声语音对应的识别结果。

示意性的如图8所示,同样以电子设备10是耳机为例,与图7类似,耳机还包括信号发生器27。

具体的,信号发生器27用于发送单频信号或者扫频信号,并将该信号发送至接收解码单元221,该信号可以是持续性的,也可以是单个的。接收解码单元221根据获取到信号与第一信号进行叠加,得到叠加后的音频信号,或者将持续性的单频信号或者扫频信号视为叠加后的音频信号。同时,接收解码单元221将叠加后的音频信号发送给扬声器21进行播放,相当于将叠加后的音频信号重新确定为第一信号。

示意性的如图9所示,以电子设备10是耳机为例,耳机还包括控制器24和带通滤波器25。其中,第一信号是s1,混合信号是信号e,信号发生器发出的单频信号或者扫频信号是信号ss,环境信号是信号se。

控制器24用于接收残差信号sr和环境信号se,并根据两个信号确定修正后的残差信号sr″;带通滤波器25用于对修正后的残差信号sr″进行第一低频过滤,也即对信号sr″进行带通滤波处理,得到过滤后的音频信号sf,将信号sf重新通过扬声器21进行播放。

具体的,无声语音识别过程如下:

1、信号发生器27将信号ss发送至接收解码单元221中,接收解码单元221根据信号ss和/或第一信号s1得到叠加后的信号s1′,并将信号s1′发送至扬声器21进行播放,以及发送至处理单元222。

2、信号s1′经过扬声器21进行播放后,通过耳道传递至内置麦克风23中,由内置麦克风获取到混合信号e,信号e中包括信号s1′经扬声器21播放后的音频信号,以及该音频信号对应的反射信号。

3、内置麦克风23将信号e发送至处理单元222。同时,环境麦克风26采集环境信号se,且分别将信号se发送至处理单元222和控制器24中。处理单元222根据信号s1′、信号se和信号e确定残差信号sr,并将残差信号sr发送至控制器24中。

4、控制器24在接收到信号sr和信号se后,根据两个信号确定修正后的残差信号sr″。随后,控制器24将信号sr″发送至带通滤波器25进行带通滤波处理,得到处理后的音频信号sf,同时将信号sf发送至扬声器21中进行播放。也即,将信号sf作为新的第一信号进行播放。

可选的,控制器24还可以对信号sr进行降噪处理(比如低频过滤)得到信号sr′,并将信号sr′发送至扬声器21进行播放,使得使用者获取较好的音频播放效果。

5、扬声器21对信号sf进行播放,通过耳道的传播,内置麦克风23得到对应的混合信号,该信号与步骤2中得到的混合信号可能相同,也可能不同。并将该信号发送至处理单元222。

6、处理单元222对信号sf进行延时处理,得到至少一个延时后的混合信号,根据接收到的步骤5中发送的混合信号,以及得到的至少一个延时信号,处理单元222通过确定参考信号c,并将信号c发送至指令信息生成单元223。

7、指令信息生成单元223将接收到的信号c输入神经网络模型中,得到与无声语音对应的识别结果。

综上所述,本申请实施例提供的无声语音识别方法,通过第一信号、环境信号和混合信号确定参考信号,根据参考信号确定与无声语音对应的识别结果。其中,参考信号是经过处理后且与无声语音对应的音频信号。使得在不借助识别生理信号的特定传感器的情况下,电子设备10通过音频信息即可实现无声语音的识别。

以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。

示意性的如图10所示出的无声语音装置的框图,该装置包括获取模块1020和确定模块1040,其中:

获取模块1020,用于获取第一信号,第一信号是耳机在播放前的音频信号;

获取模块1020,还用于获取混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经耳机在播放后的音频信号,反射信号跟随无声语音对应的耳道的形变进行变化;

确定模块1040,用于根据第一信号和混合信号确定与无声语音对应的识别结果。

在一种可选的实施方式下,确定模块1040用于根据第一信号和混合信号确定参考信号,参考信号是与无声语音对应的音频信号;根据参考信号确定识别结果。

在一种可选的实施方式下,确定模块1040用于对第一信号进行延时处理,得到至少一个延时后的混合信号;根据混合信号和至少一个延时后的混合信号确定参考信号。

在一种可选的实施方式下,确定模块1040用于对混合信号和至少一个延时后的混合信号进行相关性运算,得到参考信号。

在一种可选的实施方式下,确定模块1040用于根据第一信号和混合信号确定残差信号;根据残差信号得到参考信号。

在一种可选的实施方式下,确定模块1040用于对残差信号进行低频过滤,得到参考信号,参考信号的频率满足预设范围。

在一种可选的实施方式下,确定模块1040用于对残差信号进行第一低频过滤,得到过滤后的音频信号,过滤后的音频信号的频率满足第一预设范围;根据过滤后的音频信号和第一信号确定降噪后的第一信号;对降噪后的第一信号进行延时处理,得到至少一个延时后的混合信号;根据混合信号和至少一个延时后的混合信号确定参考信号。

在一种可选的实施方式下,获取模块1020用于采集环境信号,环境信号是与耳道的外部声音对应的音频信号;确定模块1040用于根据第一信号、混合信号和环境信号确定与无声语音对应的识别结果。

在一种可选的实施方式下,确定模块1040用于根据第一信号、混合信号和环境信号确定参考信号,参考信号是与无声语音对应的音频信号;根据参考信号确定识别结果。

在一种可选的实施方式下,确定模块1040用于根据第一信号和环境信号确定修正后的第一信号;根据修正后的第一信号获取修正后的混合信号;对修正后的混合信号进行延时处理,得到至少一个延时后的混合信号;根据混合信号和至少一个延时后的混合信号确定参考信号。

在一种可选的实施方式下,确定模块1040用于对混合信号和至少一个延时后的混合信号进行相关性运算,得到参考信号。

在一种可选的实施方式下,确定模块1040用于根据第一信号和混合信号确定残差信号;根据残差信号和环境信号确定修正后的残差信号;根据修正后的残差信号得到参考信号。

在一种可选的实施方式下,确定模块1040用于对修正后的残差信号进行低频过滤,得到参考信号,参考信号的频率满足预设范围。

在一种可选的实施方式下,确定模块1040用于对修正后的残差信号进行第一低频过滤,得到过滤后的音频信号,过滤后的音频信号的频率满足第一预设范围;根据过滤后的音频信号和第一信号确定降噪后的第一信号;对降噪后的第一信号进行延时处理,得到至少一个延时后的混合信号;根据混合信号和至少一个延时后的混合信号确定参考信号。

在一种可选的实施方式下,获取模块1020用于发送周期性音频信号;根据周期性音频信号确定叠加后的音频信号;将叠加后的音频信号确定为第一信号。

在一种可选的实施方式下,获取模块1020用于在第一信号低于预设阈值的情况下,发送与第一信号对应的叠加信号;根据第一信号和叠加信号确定叠加后的音频信号;将叠加后的音频信号重新确定为第一信号。

本申请实施例还提供了一种耳机,耳机包括扬声器、内置麦克风和处理器。其中,扬声器,用于播放第一信号;内置麦克风,用于获取混合信号,混合信号包括第二信号、以及与第二信号经耳道传播后的反射信号,第二信号是第一信号经扬声器播放后的音频信号,反射信号跟随无声语音对应的耳道的形变进行变化;处理器,用于获取第一信号,根据第一信号和混合信号确定与无声语音对应的识别结果。

示意性的,耳机的具体结构可参考图4。

可选的,耳机还包括环境麦克风,用于采集环境信号,环境信号是与耳道的外部声音对应的音频信号。

可选的,耳机还包括信号发生器,用于发送周期性音频信号;根据周期性音频信号确定叠加后的音频信号;将叠加后的音频信号确定为第一信号。或者,信号发生器,用于在第一信号低于预设阈值的情况下,发送与第一信号对应的叠加信号;根据第一信号和叠加信号确定叠加后的音频信号;将叠加后的音频信号重新确定为第一信号。

示意性的,包括环境麦克风的耳机的具体结构可参考图7,包括信号发生器的耳机的具体结构可参考图8。

本申请实施例还提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条程序代码,程序代码由处理器加载并执行以实现如上所述的无声语音识别方法。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,程序代码由处理器加载并执行以实现如上所述的无声语音识别方法。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜