一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度神经网络的小词表机载指令语音控制装置及方法与流程

2021-06-25 10:38:00 来源:中国专利 TAG:词表 神经网络 指令 深度 语音


1.本发明涉及基于深度神经网络的小词表机载指令语音控制装置及方法。


背景技术:

2.军用作战飞机座舱采用了“手不离杆”的设计,将常用的重要功能按键都集成在操纵杆上,目的就是降低飞行员操作难度,节省操控时间。但飞机座舱内按键很多,必然有大量按键分布在舱内各个地方。对于这些相对而言不方便操控的按键,如果采用语音操控的方式替代手动方式完成,可以极大的提升操控效率。
3.语音操控的功能在民用领域已广泛应用,但在军用作战飞机上应用时需要面对恶劣的座舱噪声环境和复杂机载通话信道,核心的语音识别模块的性能难以保障。近年来深度神经网络在语音识别领域取得突破,语音识别性能比传统基于隐马尔科夫模型的识别引擎提升明显,因此,本发明将描述一种针对小词表机载指令的语音控制设备,其中的语音识别模块将基于深度神经网络实现。


技术实现要素:

4.本发明目的是解决现有技术中的问题,而提供一种新型的基于深度神经网络的小词表机载指令语音控制装置及方法。
5.为了实现这一目的,本发明的技术方案如下:基于深度神经网络的小词表机载指令语音控制装置,包含有,通信模块,其具有通信的功能,所述通信模块分别与外部录音控制设备及外部指令控制设备相互通讯;语音采集处理模块,其具有语音采集的功能,当所述录音控制设备通过所述通讯模块向所述语音采集处理模块输入录音信号,在所述录音信号持续的时间内,所述语音采集处理模块利用飞行员佩戴的麦克风对飞行员所说的指令进行采集,形成指令语音数据;以及,指令识别模块,其具有指令识别的功能,所述指令识别模块将来自所述语音采集处理模块的所述指令语音数据与其内置的深度神经网络模型相匹配,以得到识别结果,所述识别结果通过所述通讯模块输出至所述外部指令控制设备。
6.作为基于深度神经网络的小词表机载指令语音控制装置的优选方案,还包含有,数据存储模块,其具有数据存储的功能,所述数据存储模块存储装置运行时所需的资源数据,进一步地,所述资源数据包括待识别的指令列表文件、深度神经网络模型文件等,同时还可以用于存储设备运行过程中需要记录的数据内容,包括日志文本、录音数据等。
7.作为基于深度神经网络的小词表机载指令语音控制装置的优选方案,还包含有,电源开关模块,其用于给装置内各模块供电,并通过上电和下电完成各模块的初始化过程。
8.本发明还提供基于深度神经网络的小词表机载指令语音控制方法,包含有,步骤s1,设备接入座舱系统,打开电源开关,设备上电并完成初始化,包括设备自检,加载词表和模型、配置语音采集和语音识别算法的参数等。
9.步骤s2,按下录音按键并保持,说出词表中的某个指令,然后松开按键。
10.步骤s3,在录音按键被按下并保持的过程中,语音采集处理模块对飞行员的语音进行采集,经过滤波降噪等算法处理后,送入指令识别模块。
11.步骤s4,指令识别模块利用已加载的深度神经网络模型对输入的音频数据进行匹配打分,找到对应匹配得分最高的指令作为识别结果输出,由座舱系统进一步确认或执行该指令。
12.重复步骤s2到步骤s4,可以完成设定词表中所有指令的操控过程。
附图说明
13.图1为本发明一实施例的结构示意图。
具体实施方式
14.下面通过具体的实施方式连接附图对本发明作进一步详细说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
15.请参见图1,图中包括本发明描述的机载指令语音控制设备将实现针对若干条飞机控制指令的语音操控功能,即在飞行员说出某个指定的飞机控制指令后,该设备可以准确识别出这个指令的文本内容,并通过设定好的通信协议将该指令传输给飞机座舱控制系统去执行。作为一个完整的硬件设备,主要包括如下模块:1、语音采集处理模块该模块实现语音采集的功能,通过飞行员佩戴的麦克风对飞行员说出的指令语音进行信号采集并通过a/d转换形成数字信号,对采集的语音数据进行滤波降噪等处理后送入指令识别模块。飞行员每次使用语音控制功能时,需要通过一个固定的按键启动语音采集功能。通常这个按键将设计在操控杆上,以实现“手不离杆”的设计目标。飞行员按住该按键并说出想要完成操控的指令,在此期间模块将持续进行语音采集的过程,直到飞行员松开按键为止。
16.2、指令识别模块该模块实现指令识别的功能,将语音采集处理模块输入的语音数据与内置的深度神经网络模型进行匹配,得到识别结果并输出。该模块在设备上电启动时将完成初始化过程,主要是加载事先已训练好的深度神经网络模型。该深度神经网络模型与待识别指令词表是相关的。如果指令词表发生变化,则模型也必须重新训练,否则无法识别出发生变化后的指令。
17.3、数据存储模块该模块用于存储设备运行时所需的资源数据,包括待识别的指令列表文件、深度神经网络模型文件等,同时还可以用于存储设备运行过程中需要记录的数据内容,包括日志文本、录音数据等。
18.4、通信模块该模块完成设备与座舱系统其它设备之间的通信功能,5、电源开关模块
该模块用于给设备里的功能板卡供电,并通过电源开关控制设备的上电和下电,设备上电时将完成各功能模块的初始化过程。
19.机载指令语音控制设备的具体使用流程描述如下:步骤1、设备接入座舱系统,打开电源开关,设备上电并完成初始化,包括设备自检、加载词表和模型、配置语音采集和语音识别算法的参数等。
20.步骤2、按下录音按键并保持,说出词表中的某个指令,然后松开按键。
21.步骤3、在录音按键被按下并保持的过程中,语音采集处理模块对飞行员的语音进行采集,经过滤波降噪等算法处理后,送入指令识别模块。
22.步骤4、指令识别模块利用已加载的深度神经网络模型对输入的音频数据进行匹配打分,找到对应匹配得分最高的指令作为识别结果输出,由座舱系统进一步确认或执行该指令。
23.重复步骤2到步骤4,可以完成设定词表中所有指令的操控过程。
24.本发明采用深度神经网络模型对指令语音进行建模时,采取了将音频数据序列转化为频谱图并利用图片分类技术对各个指令的频谱图进行识别的思路,具体做法描述如下:1、根据事先设定的指令文本录制对应的音频文件,作为训练数据库。数据量越多越好,通常要求录音人数不少于50人,每人录制语音不少于10遍。
25.2、采用语音特征提取中传统的预加重、分帧、加汉明窗、傅里叶变换等操作对一段指令音频数据进行处理,得到指令语音的频谱。
26.3、将求得的频谱从线性频率标度转换为梅尔频率标度,并在梅尔频标上采用n个等间距的三角形滤波器,对滤波后的结果求和并取对数,得到指令语音的梅尔频标功率谱。
27.4、限定输入指令语音的最大长度为m帧,则指令语音的梅尔频标功率谱图可以看成是一个n*m的图片。利用卷积神经网络对图片分类的思路,采用主流的vgg网络构造卷积神经网络模型,并利用事先准备的指令语音数据库进行训练。
28.5、模型训练完毕后即可用于识别。将待识别的音频数据经过步骤2、3处理,然后用步骤4得到的模型进行计算,模型输出层计算得分最高的类别所对应的指令文本即为该音频数据的识别结果。
29.传统的语音识别引擎采用隐马尔科夫模型对语音序列进行建模,对语音中每一个音素都训练出对应的模型参数,这样的模型具有通用性,可以通过音素组合的方式匹配任意的指令而无需重新训练模型。本发明为了进一步提升指令识别的准确性,在机载指令条数较少的前提下,采用深度神经网络模型对每个指令进行建模。这种建模方式虽然通用性比不上传统方法,如果识别指令列表发生变化则需要重新训练模型,但同时该建模策略会具有如下优势:一、采用深度神经网络模型比传统模型的性能有明显提升,可以改善设备在座舱高噪环境下的使用体验。
30.二、与对音素进行建模的方法相比,对指令进行建模,在指令较少的情况下,得到的模型更加简单,可以简化语音识别算法,减少所需的硬件计算资源。
31.三、对于特殊口音说话人,只需要该说话人录制若干遍指令音频,将这些指令音频加入训练数据库,重新进行vgg结构的卷积神经网络模型训练,得到新的模型即为该特殊口
音说话人的个性化模型,利用个性化模型对该特殊口音说话人进行识别的性能会大大提升。相对于传统模型的说话人自适应算法,本发明所采用的自适应策略对性能的提升更为明显。
32.以上仅表达了本发明的实施方式,其描述较为具体和详细,但且不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜