一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于声学文本融合的驾驶员尖锐高音识别预警方法及系统与流程

2021-08-24 16:08:00 来源:中国专利 TAG:系统 声学 高音 预警 驾驶员
基于声学文本融合的驾驶员尖锐高音识别预警方法及系统与流程

本发明涉及音频信号处理应用及汽车主动安全辅助系统领域,特别是涉及基于声学文本融合的驾驶员尖锐高音识别预警方法及系统。



背景技术:

随着汽车智能化与自动化的快速发展,中国机动车保有量连年升高,致使我国道路交通环境日益恶化,汽车安全辅助驾驶系统得到广泛应用。调查表明,绝大多数交通事故是由驾驶员反应不及引起,很多情况下,面对危险性的突发事件,驾驶员第一时间会发出惊呼尖叫声而并不是采取紧急制动的措施,惊呼尖叫声音的产生表明了异常事件已发生或者即将发生,并且在发生事故后无法第一时间获取驾驶员的状况,所以尖锐高音识别在驾驶员情绪辨识及汽车安全辅助驾驶系统的研究中具有重大意义。驾驶员尖锐高音的识别是利用驾驶员驾驶过程中遇到突发事件时发出的声音,经过对声学和文本计算转化出的特征参数进行融合分析得到的。选择合适的特征参数能够更准确地建构模型、更准确地开展驾驶员情绪辨识及汽车安全辅助系统等研究。

在驾驶员情绪辨识及汽车安全辅助系统研究中,驾驶员发出的声音是一个重要研究方向,可以及时较好的反映驾驶员情绪及状态变化。然而,现阶段对于驾驶员情绪辨识及汽车安全辅助系统的研究多采用摄像头及传感器等设备。这些设备存在破坏车体、遮挡驾驶视线等安全问题。对于驾驶员的语音识别方面的研究大多处于一些功能指令的交互及要求,这些都是提前输入在系统中设定好的指令,没有实现主动性。并且,现阶段对于尖锐音的研究大多为刹车制动盘等设备的异常尖叫声音,对于驾驶员的音频监控领域相关理论与技术相对缺乏。所以,对于驾驶员尖锐高音识别的研究具有重要意义。



技术实现要素:

本发明的目的是提供一种基于声学文本融合的驾驶员尖锐高音识别预警方法及系统,以解决现有技术中存在的技术问题,能够快速准确地驾驶员尖锐高音进行识别,为驾驶员情绪辨识和汽车安全辅助驾驶系统的研究提供了一种全新、便捷、经济的方法。

为实现上述目的,本发明提供了如下方案:本发明提供一种基于声学文本融合的驾驶员尖锐高音识别预警方法,包括如下步骤:

获取驾驶员在行车过程中的声音信号,将所述声音信号在时域和频域上进行特征信息计算转化,得到所述声音信号每帧的短时能量数值、短时平均过零率数值以及mel频率倒谱系数mfcc数值,并将所述声音信号转化为文本信息;

基于特征信息计算转化结果以及文本信息转化结果,分别构建音频数据特征向量集和文本样本集;

分别构建声学尖锐高音识别模型和文本尖锐高音识别模型,并通过所述音频数据特征向量集和文本样本集分别对所述声学尖锐高音识别模型和文本尖锐高音识别模型进行训练,通过训练好的所述声学尖锐高音识别模型和文本尖锐高音识别模型分别对驾驶员进行尖锐高音的识别;

对所述声学尖锐高音识别模型和文本尖锐高音识别模型的识别结果进行融合,得到驾驶员的尖锐高音识别结果;

基于驾驶员的尖锐高音识别结果,进行预警。

优选地,在对所述声音信号在时域和频域上进行特征信息转化之前,通过加窗函数对所述声音信号进行分帧处理,分帧处理后,第i帧所述声音信号yi(n)如下式所示:

yi(n)=w(n)*x((i-1)*inc n),0≤n≤l-1,1≤i≤fn

式中,x(n)为所述声音信号的时域信号,w(n)为加窗函数,n=0,1,2,...l-1,i=1,2,…fn,l为帧长,inc为帧移长度,fn为分帧后的总帧数。

优选地,在时域中分析,第i帧所述声音信号yi(n)的短时能量e(i)如下式所示:

优选地,在时域中分析,第i帧所述声音信号yi(n)的短时平均过零率z(i)如下式所示:

式中,sgn[*]是符号函数。

优选地,在频域中分析,第i帧所述声音信号yi(n)的mfcc通过梅尔频率与hz频率之间的非线性对应关系计算得到;所述mfcc的计算过程包括:预加重,分帧,加窗,快速傅里叶变换fft,梅尔滤波器组滤波,离散余弦变换dct。

优选地,构建所述音频数据特征向量集的方法包括:

利用短时过零率获取音频端点,通过所述音频端点对所述声音信号进行分段截取,并求得在所述分段截取的时间内,所述声音信号的短时能量、短时平均过零率以及mfcc的最大值、最小值、均值、标准差,得到若干维声学特征,对所述声学特征进行数据归一化处理后得到所述音频数据特征向量集;

构建所述文本样本集的方法包括:

将所述文本信息进行分词、停留词过滤、词性标注的预处理后,利用tf-idf算法构建特征词典,通过所述特征词典对预处理后的所述文本信息进行标注,得到所述文本样本集。

优选地,所述声学尖锐高音识别模型基于高斯混合聚类算法进行构建,所述声学尖锐高音识别模型如下式所示:

其中,为多元高斯分布,即一个混合成分;μk,∑k为模型参数,μk为第k个混合成分的均值;∑k为第k个混合成分的协方差矩阵,t表示聚类结果的数量,即混合成分的数量;αk表示混合系数,即选择k个混合成分的概率。

优选地,所述文本尖锐高音识别模型基于朴素贝叶斯算法进行构建,所述文本尖锐高音识别模型如下式所示:

其中,p(x|ca)是条件概率,p(ca)是类先验概率,x为样本特征向量;α为分类类别;m为分类类别总数。

优选地,基于自适应权值算法对所述声学尖锐高音识别模型和文本尖锐高音识别模型的识别结果进行融合,得到驾驶员的尖锐高音识别结果。

本发明还提供基于声学文本融合的驾驶员尖锐高音识别预警系统,用于执行所述的基于声学文本融合的驾驶员尖锐高音识别预警方法,包括:登录及注册模块、声学数据转化模块、文本数据转化模块、数据采集处理模块、检测识别模块、数据存储模块、预警模块;

所述登录及注册模块用于驾驶员进行账号注册及登录,同时,用于保存驾驶员的私人信息,还用于驾驶员进行预警目标人员的设定;

所述声学数据转化模块用于在时域和频域上对驾驶员的声音信号进行特征信息转化;

所述文本数据转化模块用于将驾驶员的声音信号转化为文本信息;

所述数据采集处理模块用于将所述声学数据转化模块、文本数据转化模块的特征信息转化结果以及文本信息转化结果进行预处理后分别构建为音频数据特征向量集和文本样本集,传送至所述检测识别模块;

所述检测识别模块用于构建并训练声学尖锐高音识别模型和文本尖锐高音识别模型,并基于训练好的所述声学尖锐高音识别模型和文本尖锐高音识别模型分别对驾驶员进行尖锐高音的识别,通过对所述声学尖锐高音识别模型和文本尖锐高音识别模型识别结果的融合,得到驾驶员的尖锐高音识别结果;

所述数据存储模块用于对驾驶员发出的声音信号、尖锐高音识别结果进行保存;

所述预警模块基于驾驶员的尖锐高音识别结果进行预警。

本发明公开了以下技术效果:

(1)采集的驾驶员的实时性语音信号,通过计算转化为音频每帧的短时能量数值、短时过零率数值、mel频率倒谱系数(mfcc)数值,再导入自然语言处理sdk工具包将语音转化为文本信息,实现了多模态特征提取;将声学和文本数据预处理后分别构建特征样本集;特征样本集分别导入高斯混合聚类算法和朴素贝叶斯算法中进行训练,得到识别模型,在决策层进行融合决策,判定得到最终辨识结论;如果辨识到驾驶员的尖锐高音,预警组件会将驾驶员的定位信息及私人信息发送给目标人员,使得目标人员可以第一时间了解驾驶员发生的情况并迅速做出反应保障驾驶员的生命财产安全。本发明可以为进一步的驾驶员情绪辨识及汽车出动安全辅助驾驶研究提供重要参数;本发明能快速、实时地获取并计算转化出驾驶员语音中的短时能量、短时过零率、mel频率倒谱系数(mfcc)以及文本信息为驾驶员情绪辨识及汽车出动安全辅助驾驶研究提供了一种便捷、准确、全新的方法。

(2)本发明提取转化语音在声学方面的特征与文本方面的特征,分别利用高斯混合模型gmm聚类算法与朴素贝叶斯算法通过大量实验数据训练出识别模型,在决策层进行融合决策,判定得到最终辨识结论。相比与单一模态和多模态特征层融合方法具有更高的识别准确率。这种多源数据决策融合的辨识方法是本发明的独到之处。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于声学文本融合的驾驶员尖锐高音识别预警方法流程图;

图2为本发明基于声学文本融合的驾驶员尖锐高音识别预警系统结构示意图;

图3为本发明实施例中梅尔频率倒谱系数mfcc的计算流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1所示,本实施例提供一种基于声学文本融合的驾驶员尖锐高音识别预警方法,具体包括如下步骤:

s1、获取驾驶员在行车过程中的声音信号,将所述声音信号在时域和频域上进行特征信息转化,并将所述声音信号转化为文本信息;

将所述声音信号在时域上进行特征信息转化包括:根据驾驶员在行车过程中发出的声音信号,通过时域和频域分析,得到音频每帧的短时能量数值、短时平均过零率数值以及mel频率倒谱系数(mfcc,melfrequencycestrumcoefficient)数值;具体包括:

在时域中分析:

对所述声音信号进行分帧处理后在时域中处理,设声音波形时域信号为x(n),加窗函数为w(n)分帧处理后得到的第i帧声音信号为yi(n),则yi(n)满足下式:

yi(n)=w(n)*x((i-1)*inc n),0≤n≤l-1,1≤i≤fn

式中,x(n)为所述声音信号的时域信号,w(n)为加窗函数,一般为矩形窗或汉明窗;yi(n)为第i帧声音信号的数值,n=0,1,2,...l-1,i=1,2,…fn,l为帧长;inc为帧移长度;fn为分帧后的总帧数。

计算第i帧声音信号yi(n)的短时能量e(i),如下式所示:

短时平均过零率z(i)表示一帧声音信号中,声音信号波形穿过横轴(零点平)的次数,如下式所示:

式中,sgn[*]是符号函数,即:

在频域中分析:

mfcc的计算:根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200hz到5000hz的语音信号对语音的清晰度影响最大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。

梅尔频率倒谱系数mfcc是在mel标度频率域提取出来的倒谱参数,梅尔频率是基于人耳听觉特性提出来的,与hz频率成非线性对应关系,近似表示如下式所示:

式中,f为hz频率,单位为hz;mel(f)为梅尔频率。

梅尔频率倒谱系数mfcc则是利用梅尔频率与hz频率之间的非线性对应关系,计算得到的hz频谱特征。mfcc的计算需经过:预加重,分帧,加窗,快速傅里叶变换(fft,fastfouriertransform),梅尔滤波器组滤波,离散余弦变换(dct,fordiscretecosinetransform),如图3所示。

其中,预加重处理是将声音信号通过一个高通滤波器进行滤波处理,传递函数如下式所示:

h(z)=1-μz-1

式中,μ为预加重系数,μ的值介于0.9-1.0之间,本发明经过调查取0.97符合人声标准;z为信号。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发声过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。

分帧:先将n个采样点集合成一个观测单位,称为帧。n的值设置为256,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了m个取样点,通常m的值约为n的1/2或1/3。本发明采用语音信号的采样频率为8khz,对应的时间长度是256/8000×1000=32ms。

加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为s(n),n=0,1…,n-1,n为帧的大小,那么乘上汉明窗后s′(n)=s(n)×w(n),w(n)形式如下式所示:

快速傅里叶变换fft:由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,语音信号的fft如下式所示:

式中,x(n)为输入的语音信号,n表示傅里叶变换的点数;i表示第i帧语音信号。

梅尔滤波器组滤波:将功率谱通过一组mel尺度的三角形滤波器组进行滤波,定义一个有m个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,m,m取24。f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,三角滤波器的频率响应定义如下式所示:

式中,

计算每个滤波器组输出的对数能量如下式所示:

离散余弦变换dct:mfcc如下式所示:

式中,c(n)为mfcc数值,s(m)是每个三角滤波器组输出的对数能量,n为帧数,m为三角滤波器的个数,m为第m个滤波器,l为帧长。

将所述声音信号转化为文本信息的方法为:根据自然语言处理技术sdk工具包将接收到的所述声音信号转化为文本信息数据,以在驾驶员尖锐高音识别过程中提供驾驶员实时话语中的文本数据。

s2、基于特征信息计算转化结果以及文本信息转化结果,分别构建音频数据特征向量集和文本样本集;

其中,构建所述文本样本集的方法包括:将所述文本信息进行分词、停留词过滤、词性标注的预处理后,利用tf-idf算法构建特征词典,通过所述特征词典对预处理后的所述文本信息进行标注,得到所述文本样本集。

中文分词:中文和大多数外国语言不同,文本形式的汉语词与词之间没有像拉丁语系那样的空格分隔符号,故而对于中文文本而言需要分词处理来将整个的字符串变成多个分隔开的词组串。

停留词过滤:停留词是指在信息检索中,为节省存储空间和提升检索效率,在处理文本之前或者之后会自动过滤掉某些字词,这些字词被称为停留词。例如包括标点符号的特殊字符“!、?、#、,、。”等。

词性标注:在自然语言处理领域中,机器想要真正的去理解语言,那么它首先应当做到的是去理解词,然后需要在一定程度上理解自然语言的语法规则。词性标注的任务就是要用一个单独的标签标记每一个词,这个标签是指该词语的词性,例如它是名词、形容词、动词、语气词等。

tf-idf是一种基于统计特征的方法。主要思想:tf值(词频):当某个词语或词语组合在文本数据集合中出现的频次越多,则说明它对文本数据的划分越具有代表性。idf值(逆向文件频率):当某个词语或词语组合在文本数据中大规模出现时,则说明它对文本数据的划分越不具有代表性。即某个词语或词组在某文本数据中出现的频次越高,但在其他文本数据集中出现的频次越少,那么这个词语对文本的划分就具有较大的影响。具体算法如下:

计算词频(tf)公式如下:

式中,nb,c代表词语或词组b在句子dc中出现的频次,代表句子dc中所有词语或词组出现的频次之和;c为句子数;b为特征词语或词组数;i为特征词语或词组总数。

计算逆向文件频率(idf)公式如下:

式中,|d|代表文本中的句子总个数,|c:tb∈dc|表示文本中包含词语或词组tb的句子个数, 1是做的平滑处理。

计算tf-idf,对于样本内的词语频率,以及该词语在整个文件集合中的逆向文件频率,可以产生出高权重的tf-idf。因此,tf-idf倾向于过滤掉常见的词语,保留重要的词语。公式如下:

tf-idf=tfb,c*idfb

计算的tf-idf越大,则表示词语或词组在该类型的重要性越大,根据词性标注,本实施例中,选取值最大10组的语气词组构建特征词典,如:“啊呀”、“啊”、“哈”、“呀”等。每个样本通过tf-idf算法提取出句子中的特征词语或词组,即为输入向量y={y1,y2,…,yr},r为特征向量维数。

构建所述音频数据特征向量集的方法包括:

对于短时能量数值、短时平均过零率数值以及mel频率倒谱系数(0-12阶),利用短时过零率编写音频端点特征截取方法,按照每一次端点特征形成的话语周期,将各种特征数据进行分段截取,求得上述各种数值数据的最大值、最小值、均值、标准差,与文本数据在时域上取得一致性。标准差定义是总体各单位标志值与其平均数离差平方的算术平均数的平方根,通过标准差反映组内个体间的离散程度。

将上述数据集成为每个样本的特征向量,由于存在数值大和数值小的数据,计算量复杂度高,不容易收敛,很难进行统计处理。所以需要进行数据归一化处理,公式如下:

式中,uv为原始输入向量,v为特征维数,min和max为每一维数中数值最小和最大值,使得xv∈[0,1],这样就得到识别算法的归一化输入向量d={x1,x2,...,xv},v为特征参数维数,v=60。

s3、分别构建声学尖锐高音识别模型和文本尖锐高音识别模型,并通过所述音频数据特征向量集和文本样本集分别对所述声学尖锐高音识别模型和文本尖锐高音识别模型进行训练,通过训练好的所述声学尖锐高音识别模型和文本尖锐高音识别模型分别对驾驶员进行尖锐高音的识别;对所述声学尖锐高音识别模型和文本尖锐高音识别模型的识别结果进行融合,得到驾驶员的尖锐高音识别结果;

本发明中,采用高斯混合聚类算法来构建所述的声学尖锐高音识别模型,具体训练方法包括:

高斯混合聚类是采用概率模型来刻画聚类结构,因为本发明的特征参数种类不唯一,因此本发明用多个高斯分布的线性叠加来刻画实际样本,其中一个高斯分模型称为一个混合成分。根据想要得出的不同结果将样本聚成t类,本发明中t=2。本发明认为样本服从混合高斯分布,概率密度pm(x)如下式所示:

其中,是一个多元高斯分布,即一个混合成分;μk,∑k为模型参数,μk为第k个混合成分的均值;∑k为第k个混合成分的协方差矩阵;αk表示混合系数,即选择k个混合成分的概率,t表示聚类结果的数量,即混合成分的数量。

高斯混合模型进行聚类划分:按照模型的混合成分划成t类(本发明中t=2),利用概率的大小得出一个数据最可能从哪个分模型得来就认为属于哪一类。在这里,引入一个隐变量zj∈{1,2,...,t}表示得到样本xj的高斯分模型;根据zj的含义可知p(zj=k)表示xj第k个分模型生成的概率,即为高斯混合模型中的参数αk;通过pm(zj=k|xj)来表示样本xj的第k个高斯分模型的后验概率,并简记为γjk,如下式所示:

其中,pm(xj|zj=k)表示按照第k个高斯分模型生成xj的概率密度,第k个高斯分模型的参数为μk,∑k,故pm(xj|zj=k)等于p(xj|μk,∑k),pm(xj)表示综合所有的混合成分后总的概率密度;t为分模型总数;式中,第一行由贝叶斯公式得到。

由此可见,每个样本xj的簇标记λj如下:

确定高斯混合模型参数:对上述提到的模型参数进行求解,对于本发明中的实验样本个数m,选到任意一个都是一个独立事件,最终的概率自然是全部相乘,即由于连乘计算困难,所以用对数形式进行计算,样本集的最大化对数似然函数如下式所示:

参数θk={(αk,μk,∑k)}要使得ll(d)最大化,那么ll(d)对每个参数的偏导数应该为0,求出每个参数用γjk表示;各参数的求解过程如下:

求解参数μk,如下式所示:

对于来说,只有当l=k时,包含μk的内容,其余对μk求偏导均为0,可以舍去,则继续推导如下式所示:

其中,

向量对另一向量求导,不是标量求导,所以对上式继续计算即可得到参数μk的值,如下式所示:

求解参数∑k,如下式所示:

推得:

求解参数αk,αk需要满足:

t为分模型的总个数,k为第k个分模型,ll(d)最大化,将ll(d)求极值问题转化为求极值问题,通过对αk求导为0,由此求得:

求得上述参数后,再用得到的γjk继续按照偏导数为0的方式求出新的参数,如此循环迭代,直到函数收敛,即可得到辨识模型的辨识参数及方程。

本发明中,采用朴素贝叶斯算法来构建所述的文本尖锐高音识别模型,基本原理是:训练期间,当特征条件相互独立时,通过计算得到先验概率、条件概率和后验概率分布。预测期间,根据贝叶斯定理计算后验概率,接着以后验概率的大小为基准,输出测试数据的分类结果。具体训练方法包括:

对文本数据样本集,n维特征向量x=(x1,x2,…,xc)表示c个特征属性的词语或词组向量。输出类别分别是c1,c2,…,ca共计m个类别。

计算类先验概率:对于类别ca(1≤a≤m),先验概率的公式如下:

式中,na是指训练样本中属于类别ca的样本数量,n是指训练样本的总数。

计算条件概率:朴素贝叶斯算法是基于条件独立的基础,即:

式中,p(xc|ca)表示特征向量xc在输出类别ca时的概率,(1≤a≤m,1≤k≤c),条件概率计算公式如下:

式中,n(xk,c=ca)表示样本中属于类别ca并且具有特征xk的样本数目,n(c=ca)表示样本中属于类别ca的样本数量。

计算后验概率:基于贝叶斯定理,可推出后验概率p(ca|x)的计算公式如下:

式中,p(x|ca)是条件概率,p(ca)是先验概率,为常数。

输出类别:比较得出的全部后验概率的大小,朴素贝叶斯分类器对未分类的样本进行分类,最终输出结果是类别ca,当且仅当ca满足条件:p(ca|x)>p(cq|x),1≤a≤m,1≤q≤m,q≠a。

本发明中,采用自适应权值算法来融合所述的声学尖锐高音识别模型和文本尖锐高音识别模型的识别结果,判定得到最终的辨识结论,具体方法包括:

采用自适应权值的方法实现决策层融合,根据所述的声学尖锐高音识别模型和文本尖锐高音识别模型的分类概率来确定融合权重。对所述的声学尖锐高音识别模型和文本尖锐高音识别模型得到的概率输出进行加权处理,得到最终辨识结果。具体算法如下:

分别得到上述第i个样本音频和文本两种模态的情感状态的识别概率,其中,

文本尖锐高音识别模型:

声学尖锐高音识别模型:

求出每种类型的声学和文本辨识到的概率和pis,公式如下:

式中,g为模态数,g为模态总数;s为类别;则pis越大,该种判定的融合权重应越大。因此,采用的融合权值计算方法如下:

式中,ps为第s个类别的概率,m为类别总数。融合权重确定以后,每类标签的概率输出进行加权处理,把加权得到的最大结果作为融合结果输出,该融合判定公式为:

s4、基于驾驶员的尖锐高音识别结果,进行预警。

检测到尖锐高音则启动gps地理定位,将驾驶员的私人信息及定位信息以短信的形式发送给预设目标人员,使得预设目标人员能够第一时间知道驾驶员发生的情况并迅速做出反应,保障驾驶员的生命财产安全。

参照图2所示,本发明还提供一种基于声学文本融合的驾驶员尖锐高音识别预警系统,包括:登录及注册模块、声学数据转化模块、文本数据转化模块、数据采集处理模块、检测识别模块、数据存储模块、预警模块;

所述登录及注册模块用于驾驶员进行账号注册及登录,同时,用于保存驾驶员的私人信息,如电话、血型、过敏史等,还用于驾驶员进行预警目标人员的设定,为后续预警模块发送预警信息做准备。

所述声学数据转化模块用于在时域和频域上对驾驶员的声音信号进行特征信息转化,具体为根据驾驶员发出的声音信号,通过时域和频域分析,得到音频每帧的短时能量数值、短时平均过零率数值以及mfcc数值。

所述文本数据转化模块用于将驾驶员的声音信号转化为文本信息。

所述数据采集处理模块通过预先编写的数据采集方法获取所述声学数据转化模块、文本数据转化模块的特征信息转化结果以及文本信息转化结果,进行预处理后分别构建为音频数据特征向量集和文本样本集,传输至所述检测识别模块。本实施例中,所述数据采集处理模块所采集处理的数据包括声音信号的短时能量数值、短时过零率数值、mfcc最大值、最小值、均值、标准差以及文本信息的特征词语或词组数据。

所述检测识别模块用于构建并训练声学尖锐高音识别模型和文本尖锐高音识别模型,并基于训练好的所述声学尖锐高音识别模型和文本尖锐高音识别模型分别对驾驶员进行尖锐高音的识别,通过对所述声学尖锐高音识别模型和文本尖锐高音识别模型识别结果的融合,得到驾驶员的尖锐高音识别结果。

所述数据存储模块用于对驾驶员发出的声音信号、尖锐高音识别结论进行保存。所述数据存储模块包括数值类型数据存储模块和文本类型数据存储模块。

所述预警模块用于根据尖锐高音识别结果,以短信的方式向预设目标人员发送使用者的私人信息及位置信息。所述预警模块包括定位信息获取模块和信息发送模块;所述定位信息获取模块用于进行gps地理定位,基于定位结果获取使用者的位置信息;所述信息发送模块用于将使用者的私人信息以及位置信息发送至预设目标人员。

采用本发明实施例提供的基于声学文本融合的驾驶员尖锐高音识别预警方法及系统,根据手机听筒传感器采集的驾驶员的实时性语音信号,通过计算转化为音频每帧的短时能量数值、短时过零率数值、mel频率倒谱系数(mfcc)数值,再导入自然语言处理sdk工具包将语音转化为文本信息,预处理后利用声学和文本数据分别构建特征样本集,分别导入高斯混合聚类算法和朴素贝叶斯算法中进行训练,得到识别模型后,在决策层进行融合判定,如果判定为尖锐高音,预警组件会将驾驶员的定位信息及私人信息发送给目标人员,使得目标人员可以第一时间了解驾驶员发生的情况并迅速做出反应保障驾驶员的生命财产安全。本发明可以为进一步的驾驶员情绪辨识及汽车出动安全辅助驾驶研究提供重要参数;本发明能快速、实时地获取并计算转化出驾驶员语音中的短时能量、短时过零率、mel频率倒谱系数(mfcc)以及文本信息为驾驶员情绪辨识及汽车出动安全辅助驾驶研究提供了一种便捷、准确、全新的方法。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

需要理解的是,以上对本发明的具体实施进行的描述只是为了说明本发明的原理和技术路线,其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施,但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰,都应涵盖在本发明的保护范围内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜