一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于视觉面部轮廓运动的构音障碍语音识别方法及系统与流程

2021-08-10 16:37:00 来源:中国专利 TAG:音障 语音识别 应用于 发音 面部
基于视觉面部轮廓运动的构音障碍语音识别方法及系统与流程

本发明涉及构音障碍语音识别技术领域,特别是涉及一种基于视觉面部轮廓运动轨迹的构音障碍语音识别的增强方法及其系统,可应用于辅助构音障碍者的言语康复发音。



背景技术:

现有研究表明,脑卒中所致构音障碍占比为30%-40%,其中15%的脑卒中所致构音障碍无法彻底康复。构音障碍严重影响了说话人的交流能力,导致其生活质量下降,这给构音障碍者带来生理和心理上的双重痛苦。因此提升构音障碍语音的可懂性,有效提高构音障碍语音识别能力具有重要的社会意义和实用价值。

目前,构音障碍语音识别技术领域的主流做法是使用语音声学特征参数作为语音识别的依据,再设计语音识别方法来获得构音障碍语音的语义内容。然而,由于构音障碍语音存在难采集、元辅音混淆不清等诸多缺陷,单纯地使用语音声学特征参数作为语音识别的依据,构音障碍语音识别的准确度不高,很难满足说话人在实际交流应用场景中的需要。



技术实现要素:

为了克服上述现有技术的不足,本发明提出一种基于视觉面部轮廓运动轨迹的构音障碍语音识别方法及系统,这种新式构音障碍语音识别技术将语音声学特征参数与构音障碍者的发音动作相融合,将融合后的多模态特征作为构音障碍语音识别的新依据,能够有效地提升构音障碍语音识别准确度。

本发明提供的技术方案是:

一种基于视觉面部轮廓运动轨迹的新式构音障碍语音识别方法,包括如下步骤:

步骤s1.获取多模态数据,所述多模态数据包括:拍摄到的构音障碍者发音时的面部运动视频和与视频同步的语音数据;

步骤s2.提取多模态数据并对齐数据,包括构音障碍者发音时的面部轮廓运动特征和构音障碍语音声学特征并进行对齐;包括如下过程:

s2.1利用构音障碍者发音时的面部运动视频,提取得到构音障碍者发音时的面部轮廓运动特征,具体包括如下过程:

s2.1.1计算每帧视频图像中言语功能颌面部区域的轮廓曲线的图像坐标值,获取面部轮廓运动参数向量;

在其中一个实施例中,提取构音障碍者发音时的言语功能颌面部区域的轮廓,包括:

s2.1.1.1对言语功能相关的颌面部区域进行筛选,获取用于区域轮廓提取的言语功能颌面部区域;

根据颌面部解剖学原理对面部区域划分后,计算各区域对言语功能的贡献值,选择贡献值大于60%的区域作为言语功能颌面部区域,用于轮廓提取;

s2.1.1.2区域轮廓提取;

对采集到的视频分帧,可以逐帧获得面部图像,根据s2.1.1.1筛选获得的言语功能颌面部区域图像,使用区域生长算法可以获得该区域的轮廓曲线,从而计算得到轮廓曲线的坐标值,再将下一帧视频图像相对于本帧图像中区域轮廓位置的位移差值作为面部轮廓运动参数向量,用于表征言语功能颌面部区域的运动。

具体实施时,提取所拍摄的构音障碍者说话时面部轮廓运动特征,包括视频的分帧,筛选分帧后图像中与言语功能有关的颌面部区域,计算颌面部区域外边界坐标值作为面部轮廓曲线特征,以及计算下一帧图像面部轮廓曲线与本帧图像面部轮廓曲线的位移。

s2.1.2计算得到前后两帧视频图像的言语功能颌面部区域轮廓曲线的位移差值;

s2.2提取构音障碍语音声学特征参数向量;

本发明具体实施中,声学特征采用梅尔语谱参数,具体计算方法如下;

根据语音波形信号经短时傅里叶变换,再由梅尔滤波器组计算得到梅尔语谱参数;

s2.3对齐构音障碍语音声学特征和发音时的面部轮廓运动特征,具体操作为:

发音音素同时对应一段发音视频和一段语音片段。由于语音声学特征帧数多于视频分帧数目,因此以语音声学特征的帧数为基准,补充对应视频缺失的帧数。具体操作是,在完整发音音素对应的面部轮廓运动参数中间平滑插入缺失的面部轮廓运动参数。

步骤s3融合多模态数据,包括构音障碍者发音时的面部轮廓运动特征和构音障碍语音声学特征,得到多模态融合特征,包括如下过程:

s3.1逐帧拼接面部轮廓运动参数向量和语音声学特征参数向量,获得语音和视频的融合特征参数矩阵;融合特征参数矩阵中,低维度矩阵为语音声学特征参数向量,高纬度矩阵为面部轮廓运动参数向量;

s3.2根据所获得的融合特征参数矩阵,通过训练一个深层时序神经网络映射模型,获得由多模态融合特征到音素字符的映射关系;

具体地,在其中一个实施例中,深层时序神经网络为transformer-ctc模型;模型输入为融合特征参数矩阵,输出一串音素字符;利用训练好的深层时序神经网络映射模型,即可根据多模态融合特征向音素字符的映射关系,得到多模态数据对应的音素字符。

步骤s4训练一个适合处理序列数据的语言模型,用于构建由音素字符到某种具体语言的映射关系;

在其中一个实施例中,所述语言模型是基于双向rnn训练得到的。

根据音素字符到具体语言的映射关系,利用音素字符,按照语言规则即可生成与语音数据对应的句子。

通过上述步骤,实现基于视觉面部轮廓运动轨迹的新式构音障碍语音识别。

本发明具体实施时,实现了一种基于视觉面部轮廓运动轨迹的构音障碍语音识别系统,系统包括:多模态数据获取模块、多模态融合特征计算模块、多模态语音识别计算模块和语言模型计算模块;其中,多模态数据获取算模块用于获取构音障碍者说话时的面部轮廓运动视频数据和与视频同步的语音数据;多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征;多模态语音识别计算模块用于训练获得由多模态特征到音素字符的映射关系;语言模型计算模块用于训练获得由音素字符到中文句子的映射关系。

多模态数据获取模块001,包括:构音障碍者说话时的面部轮廓运动视频采集模块101,通过摄像机采集说话人说话时的面部运动视频;与视频同步的语音数据采集模块102,通过麦克风采集构音障碍者的语音。

多模态融合特征计算模块002,包括:面部轮廓运动视频特征计算模块210、语音声学特征计算模块220和多模态特征融合计算模块230;

面部轮廓运动视频特征计算模块210具体包含手工标记模块211和自动标记模块212,其中:

手工标记模块211,用于根据筛选出来的言语功能相关颌面部区域,人工手动标记轮廓,获取坐标位置;自动标记模块212,用于使用人工手动标记的图像训练区域分割模型,并自动计算构音障碍人群发音时的颌面部区域轮廓曲线坐标和两帧轮廓曲线位移差;

语音声学特征计算模块220,具体地,采用梅尔语谱参数作为声学特征,计算过程包括语音时域波形信号经短时傅里叶变换计算得到时频分析语谱参数,再由梅尔滤波器组计算得到80维梅尔语谱参数。

多模态特征融合计算模块230,用于对齐分别由210和220计算模块计算得到的面部轮廓运动特征和声学特征。

多模态语音识别计算模块003,用于训练构建从多模态融合特征到音素字符的映射关系,其中序列模型是基于transformer设计的,特点是能够利用对序列中特征位置的建模能力计算特征序列的上下文语义关系,便于对运动过程建模;解码模模型是基于ctc设计的,作为联结时间分类器(ctc)用于提升神经网络输出解码成音素字符的能力。

语言模型计算模块004,包括:音素字符序列计算模块401、基于语言模型映射计算模块402、语言模型概率计算模块403和汉语普通话中文生成计算模块404;

音素字符序列计算模块401,用于对音素字符做编码,在本实施例中,使用wordembedding技术对音素字符做编码,作为神经网络的输入;

基于语言模型映射计算模块402,在本实施例中,使用双向rnn作为构建语言模型的神经网络架构,便于对具有上下文语义关系的文本序列建模;

语言模型概率计算模块403,在本实施例中,使用4-gram语言模型计算输出词组的概率;

汉语普通话中文生成计算模块404,在本实施例中,负责解码概率最高的中文词组,并将所有中文词组拼接成句子输出。

与现有技术相比,本发明的有益效果:

本发明提供的上述基于视觉面部轮廓运动轨迹的新式构音障碍语音识别方法,结合了与言语功能相关的颌面部区域轮廓运动参数和语音声学特征参数,并将其作为多模态融合特征,用于训练构音障碍语音识别方法,能够有效利用更多的发声时构音器官协调运动信息作为对语音声学特征的补充,从而提高构音障碍语音识别的准确度。

附图说明

图1为本发明一个实施例中基于视觉面部轮廓运动轨迹的构音障碍语音识别方法流程框图。

图2为本发明一个实施例中视觉面部轮廓运动轨迹视频特征与语音声学特征融合方法的流程框图。

图3为本发明一个实施例中言语功能区颌面部轮廓特征提取方法的流程框图。

图4为本发明一个实施例中基于视觉面部轮廓运动特征的语音识别结构框图。

图5为本发明一个实施例中多模态数据获取模块的结构图

图6为本发明一个实施例中多模态融合特征计算模块结构框图。

图7为本发明一个实施例中面部轮廓的运动视频特征计算模块结构框图

图8为本发明一个实施例中汉语普通话语言模型的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,在本发明一个实施例中,一种基于视觉面部轮廓运动轨迹的新式构音障碍语音识别方法包含四个主要步骤:

步骤s1,获取多模态数据,包括拍摄到的构音障碍者说话时的面部运动视频和与视频同步的语音数据。

视频即通过摄像设备采集到的构音障碍者说话时的面部运动过程,该步骤应该尽可能地便于操作,以便于具体实施。

语音即通过摄像设备自带麦克风(或者另备麦克风,采样频率应在16khz以上),录音需要与视频拍摄保持时间同步。

步骤s2,融合提取到的多模态数据特征,多模态数据特征既包括构音障碍者发音时的面部轮廓运动特征也包括语音声学特征。

融合多模态数据特征需要对视频特征和语音声学特征做对齐,保持在时间轴上具有相同分帧,由于视频和语音所具有的采样频率差异较大,因此最终获得的分帧数目也不相同,直接融合容易导致语义错位的错误。

步骤s3,训练一个时序深层神经网络,在一个实施例中使用了基于transformer-ctc的基本架构作为对多模态融合特征的识别方法。

步骤s4,训练一个语言模型,在一个实施例中使用了基于双向rnn的神经网络架构和4-gram模型作为将音素字符转化成为中文汉字的方法。

图2展示的是视觉面部轮廓运动轨迹特征与语音声学特征相融合的流程(步骤s2)。其中包括:

步骤s21:提取所拍摄的构音障碍者说话时面部轮廓运动特征,包括视频的分帧,筛选分帧后图像中与言语功能有关的颌面部区域,计算颌面部区域外边界坐标值作为面部轮廓曲线特征,以及计算下一帧图像面部轮廓曲线与本帧图像面部轮廓曲线的位移。

步骤s22:提取构音障碍语音的声学特征参数,在一个实施例中,采用梅尔语谱参数作为声学特征,具体操作包括语音时域波形信号经短时傅里叶变换计算得到时频分析语谱参数,再由梅尔滤波器组计算得到80维梅尔语谱参数。

步骤s23:融合面部轮廓运动特征和与之同步采集到的构音障碍语音的声学特征;由于语音波形的采样频率高于视频采样频率,语音的帧数远远大于视频的帧数,因此以帧数较多的语音声学特征为参照,将步骤s201计算得到的面部轮廓运动参数按照发音音素的起始和终止时间点设置运动参数变化区间,再以语音的帧数为步长,平滑地在区间内插入运动参数,从而实现语音与面部轮廓运动参数的帧数对齐。

语音声学特征的帧数是加窗后一个窗宽内的采样点视作一帧,语音信号是时变信号,需要使用短时傅里叶变换在一个固定的短时时间段内做变换,这个时间段内可以视为时不变稳定时域信号。这里一帧就是数个采样点(与采样频率和窗宽设置有关,如可能是1024个采样点为一帧,也可能是512个采样点为一帧)。

图3展示了颌面部言语功能区域轮廓特征提取的流程(步骤s21),包括:

步骤211:颌面部言语功能相关区域筛选;

在一个实施例中,根据解剖学原理,将颌面部分成多个功能区域,再根据发音动作与颌面部的关联关系预先标注好每个发音所对应的区域关联度,使用决策树分类方法,计算所有发音对应的颌面部区域对该发音的贡献值,将贡献值大于60%的区域筛选出来,作为该发音的言语功能区。

具体操作中,不同发音对应的言语功能区域不尽相同,本发明根据每个发音形成言语功能颌面区域集合,集合中元素即为该发音对应的面部轮廓运动参数,可以通过发音检索到这一区域集合。

步骤s212:提取颌面部言语功能区域轮廓曲线运动参数;

在一个实施例中,为避免采集过程中拍摄角度对面部区域轮廓计算的误差影响,采集过程中,镜头始终与被采集对象的鼻尖保持在同一直线上,再将收集到的视频分帧后图像按照统一尺寸和分辨率裁剪,再计算获得该图像中面部轮廓各区域的坐标位置,以及下一帧图像与本帧图像中各区域的位移差,最后将轮廓坐标和位移差值拼接,构成轮廓运动向量参数。

图4展示了一种基于视觉面部轮廓运动轨迹的构音障碍语音识别系统结构框图,本发明具体实施时,系统包括:多模态数据获取模块001、多模态融合特征计算模块002、多模态语音识别计算模块003和语言模型计算模块004;其中,多模态数据获取算模块用于获取构音障碍者说话时的面部轮廓运动视频数据和与视频同步的语音数据;多模态融合特征计算模块用于融合面部轮廓运动特征和语音声学特征;多模态语音识别计算模块用于训练获得由多模态特征到音素字符的映射关系;语言模型计算模块用于训练获得由音素字符到中文句子的映射关系。

多模态数据获取模块001,用于采集构音障碍者说话时的面部轮廓运动视频和与视频同步的语音。

多模态融合特征计算模块002,用于计算获得面部轮廓运动特征与语音声学特征的融合特征。

多模态语音识别计算模块003,用于训练构建从多模态融合特征到音素字符的映射关系,其中序列模型是基于transformer设计的,特点是能够利用对序列中特征位置的建模能力计算特征序列的上下文语义关系,便于对运动过程建模;解码模模型是基于ctc设计的,作为联结时间分类器(ctc)用于提升神经网络输出解码成音素字符的能力。

语言模型计算模块004,用于训练构建从音素字符到中文句子的映射关系。

图5显示的是多模态数据获取模块的结构图,包括:

构音障碍者说话时的面部轮廓运动视频采集模块101,通过摄像机采集说话人说话时的面部运动视频;

与视频同步的语音数据采集模块102,通过麦克风采集构音障碍者的语音。

图6显示的是多模态融合特征计算模块结构框图,包括:

面部轮廓运动视频特征计算模块210,用于计算获得面部轮廓的运动视频特征。

语音声学特征计算模块220,具体地,采用梅尔语谱参数作为声学特征,计算过程包括语音时域波形信号经短时傅里叶变换计算得到时频分析语谱参数,再由梅尔滤波器组计算得到80维梅尔语谱参数。

多模态特征融合计算模块230,用于对齐分别由210和220计算模块计算得到的面部轮廓运动特征和声学特征。

图7显示的是面部轮廓的运动视频特征计算模块结构框图,包括:

手工标记模块211:在本实施例中,根据筛选出来的言语功能相关颌面部区域,人工手动标记轮廓,获取坐标位置;

自动标记模块212:在本实施例中,使用人工手动标记的图像训练区域分割模型,并自动计算构音障碍者发音时的颌面部区域轮廓曲线坐标和两帧轮廓曲线位移差;

图8展示了汉语普通话语言模型的结构框图,包括:

音素字符序列计算模块401:用于对音素字符做编码,在本实施例中,使用wordembedding技术对音素字符做编码,作为神经网络的输入;

基于语言模型映射计算模块402:在本实施例中,使用双向rnn作为构建语言模型的神经网络架构,便于对具有上下文语义关系的文本序列建模;

语言模型概率计算模块403:在本实施例中,使用4-gram语言模型计算输出词组的概率;

汉语普通话中文字符生成计算模块404:在本实施例中,负责解码概率最高的中文词组,并将所有中文词组拼接成句子输出。

需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜