一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

民航客机陆空通话语音识别引擎及其应用方法与流程

2022-02-20 20:17:30 来源:中国专利 TAG:


1.本发明属于人工智能语音识别领域,涉及一种语音精准识别,特别是一种民航客机陆空通话语音识别引擎及其应用方法。


背景技术:

2.从21世纪开始,民航业高速发展,每年都会增加大量的飞机、航班,对航空安全和空管保障的要求越来越高。陆空通话是空中交通管制员从业上岗的基础,也是在日常工作中时刻使用的标准语言。管制员通过陆空通话与飞行员直接联系,做出明确的指示,引导飞机安全飞行。然而,由于各种原因,空管人员无法长时间高强度脑力劳动,难免发生人为失误。据统计,人为差错占航空事故的80%,已经成为影响航空安全的重要原因。现有客机冲突事件中,由于塔台管制员遗忘飞机动态,造成严重事故征候(跑道侵入)。陆空通话对于管制员和飞行员都是十分重要的,其指令是否准确将直接影响空中交通安全。因此,引入语音识别方法是必要的,协调的录音等工作来有效的增加空管安全预警的可监测性,最终能够在此根底上促进空管安全预警可靠性和精确性的不断进步,并对监测内容进行逻辑上的判断和处理,避免事故的发生。
3.从单位对于管制人才的需求与培养来讲,各个管制单位培训和发展管制专业团队,需要长期的岗位培训和教学反馈。因此不论是学校还单位都希望能够提高学生陆空通话水平,可以通过语音识别辅助学员,规范学习准确的空管指令,缩短单位培训时间,达到尽快上岗的目的。
4.现今,语音识别已经被广泛地应用到各个领域之中,然而面向民航陆空通话的语音识别研究和应用较少,早期主要针对民航管制训练。2001年将语音识别技术应用于drs航管雷达模拟机,采用了ibm voicetype,为提高识别性能减少了样本空间,但这种方法仅适用于特定人相关的识别,对非特定人的识别效果较差。2017年使用kaldi语音开发包并使用dnn-hmm作为声学模型,取得了较好的识别率,但识别场景有限。
5.民航空中交通管制员(简称管制员)与飞行员管制信息交流的标准专业术语,是指令信息传递的主要通道,其准确性对于保障航空器的飞行安全极其重要。陆空通话的规则有以下特点:(1)单词发音特殊,如,1读作幺,a读作 alpha;(2)通话由于管制专业性、地域差异性和人员复杂性,管制语音中存在大量专业名词、独特的地区名称、中英文混杂以及口音差异,这对于语音识别系统而言是一个巨大的挑战。
6.现有语音识别方法存在以下问题:1、由于管制语音噪声大,说话速度快,口音众多,普通的通用语音识别系统,对于管制语音只能识别10%到20%的内容,以至于完全无法使用。
7.2、现有技术没有通过语音识别对机场陆空通话进行实时预警的解决方案。


技术实现要素:

8.本发明的目的是针对现有的技术存在上述问题,提出了一种能够高效、准确的地识别语音指令和复诵,并且能够不断提高准确率的民航客机陆空通话语音识别引擎及其应用方法。
9.本发明的目的可通过下列技术方案来实现:民航客机陆空通话语音识别引擎,包括通过信号线连接的录音输入设备和计算机,所述计算机内至少设置地空通话音频分割子系统、人工智能语音识别子系统、预警唤醒语音子系统和声纹确认子系统,所述地空通话音频分割子系统、人工智能语音识别子系统、预警唤醒语音子系统、声纹确认子系统顺次按照逻辑顺序衔接形成整体神经网络模型;通过录音输入设备采集,基于神经网络的人声检测分割成分段音频,将音频转化为二进制数据通过接口传入人工智能语音识别子系统;所述人工智能语音识别子系统包括语音特征提取模块、序列学习模块和全连接模块,所述人工智能语音识别子系统下,输入音频数据到语音特征提取模块,该模块可以通过soundfile库把音频数据转为语谱图并提取mfcc音频特征,再将mfcc特征进行扩充、特征化和归一化处理;所述人工智能语音识别子系统含有语音特征提取模块、序列学习模块、全连接模块;所述序列学习模块由多层卷积神经网络和四层双向门控循环单元组成,所述全连接模块还具有连接时序分类模块,调用序列学习模块输入处理好的语音特征,通过大量语音数据集长时间训练和gpu运算,优化序列学习模块中神经网络层参数,然后在全连接模块将序列学习模块输出的张量进行分类可以得到语音的识别文本;地空通话音频分割子系统与人工智能语音识别子系统完成语音识别的识别文本传入预警唤醒语音子系统,进行检索唤醒词检测,并保留含有唤醒词语音音频的索引;所述声纹确认子系统具有声纹检测网络,所述声纹检测网络采用多层逻辑网络形式,所述多层逻辑网络包括若干层长短期记忆网络层,每层长短期记忆网络层后接一层线性映射层;声纹确认子系统通过预警唤醒词的索引,把预警语音传入并进行飞行员声纹库搜索,返回同一类声纹的航班语音信息。
10.在上述的民航客机陆空通话语音识别引擎中,所述声纹确认子系统还具有softmax或contrast对比判断算法。
11.在上述的民航客机陆空通话语音识别引擎中,所述打开计算机人工智能语音识别子系统通过接口,将机场实时采集到的传输数据。
12.在上述的民航客机陆空通话语音识别引擎中,所述人工智能语音识别子系统、预警唤醒语音子系统有识别文本有唤醒词语音音频的索引,将人工智能语音识别子系统转写好的文本输入预警唤醒语音子系统进行检索唤醒词检测。
13.民航客机陆空通话语音识别引擎的应用方法,包括以下步骤:(1)、通过录音输入设备输入录音音频,而后录音音频经过地空通话音频分割子系统进行音频分割;(2)、将分割好的音频段输入人工智能语音识别子系统,使音频段转写成文本;(3)、将转写好的文本输入预警唤醒语音子系统进行检索唤醒管检测,并保留含有唤醒词语音音频的索引;(4)、声纹确认子系统通过预警唤醒词的索引进行飞行员声纹库搜索,返回同一类声纹的航班语音信息;最终实现对含有特定关键词唤醒语音的飞行员辨识、航班号辨识,成功实现对机场的实时地空通话预警。
14.在上述的民航客机陆空通话语音识别引擎的应用方法中,步骤(1)包括以下录音音频的处理方法:a、录音音频的降噪:使用可针对陆空通话进行语音增强的神经网络模型进行语音增强;b、录音音频的去静默音:通过基于神经网络的人声检测将语音分割为小段语音。
15.在上述的民航客机陆空通话语音识别引擎的应用方法中,在步骤(2)中,音频段作为数据输入,从音频形式转换为语谱图形式,数据首先经过语音特征提取模块,提取不同层次的音频特征,同时大幅压缩数据和参数量,提高训练效率并防止参数过拟合;随后数据进入序列学习模块,通过模拟人类记忆系统的功能,控制不同时刻状态信息的记忆与遗忘程度,完成语言序列的学习;最后数据进入全连接模块进行分类学习与决策,并由连接时序分类模块计算得到概率最大的一条输出序列,即语音的识别结果。
16.在上述的民航客机陆空通话语音识别引擎的应用方法中,在步骤(4)中,声纹检测通过多层长短时记忆门网络提取说话人的音色特征;然后计算验证样本和所有说话人中心的余弦相似度得分;最后通过softmax或contrast进行基于相似度得分的损失统计,反向传播更新参数。通过1:1目标声纹在飞行员声纹库中进行相似度比对,分类出不同飞行员声纹,识别率高达92%,与传统引擎的识别准确率相比,提升幅度约为30%至60%。
17.在上述的民航客机陆空通话语音识别引擎的应用方法中,在步骤(4)中,在声纹确认子系统中还对语音音频进行说话人判别和分类,通过信息分类方便回溯。
18.在上述的民航客机陆空通话语音识别引擎的应用方法中,在步骤(4)中,还通过语音关键词或者语音识别进行逻辑处理和判断分析音频质量,并结合之前文本内容和空管流程进行识别纠错。
19.与现有技术相比,本民航客机陆空通话语音识别引擎及其应用方法具有以下有益效果:本发明构建了基于人工智能技术的语音识别引擎,用于空中管制的地空通话语音的识别。相比于传统语音识别引擎,基于人工智能的语音识别引擎,不仅使识别准确率有质的提升,而且模型结构大幅精简,训练与使用效率高。再者该技术方案可以通过声纹预警得到待救援飞行员的声纹信息和在声纹库中的航班号语音信息,让空中管制人员能够尽早获取飞行员与航班信息,从而快速做出管制程序反应,避免飞行事故的发生,提高生命安全性。
附图说明
20.图1是本发明的机场语音预警总系统流程图。
21.图2是本发明的双向门控循环单元结构图。
具体实施方式
22.下面结合附图和具体实施例对本发明的具体实施方式做进一步说明:如图1和图2所示,本民航客机陆空通话语音识别引擎,包括通过信号线连接的录音输入设备和计算机,计算机内至少设置地空通话音频分割子系统、人工智能语音识别子系统、预警唤醒语音子系统和声纹确认子系统,地空通话音频分割子系统、人工智能语音识
别子系统、预警唤醒语音子系统、声纹确认子系统顺次按照逻辑顺序衔接形成整体神经网络模型;通过录音输入设备采集,基于神经网络的人声检测分割成分段音频,将音频转化为二进制数据通过接口传入人工智能语音识别子系统;人工智能语音识别子系统包括语音特征提取模块、序列学习模块和全连接模块,人工智能语音识别子系统下,输入音频数据到语音特征提取模块,该模块可以通过soundfile库把音频数据转为语谱图并提取mfcc音频特征,再将mfcc特征进行扩充、特征化和归一化处理;人工智能语音识别子系统含有语音特征提取模块、序列学习模块、全连接模块;序列学习模块由多层卷积神经网络和四层双向门控循环单元组成,全连接模块还具有连接时序分类模块,调用序列学习模块输入处理好的语音特征,通过大量语音数据集长时间训练和gpu运算,优化序列学习模块中神经网络层参数,然后在全连接模块将序列学习模块输出的张量进行分类可以得到语音的识别文本;地空通话音频分割子系统与人工智能语音识别子系统完成语音识别的识别文本传入预警唤醒语音子系统,进行检索唤醒词检测,并保留含有唤醒词语音音频的索引;声纹确认子系统具有声纹检测网络,声纹检测网络采用多层逻辑网络形式,多层逻辑网络包括若干层长短期记忆网络层,每层长短期记忆网络层后接一层线性映射层;声纹确认子系统通过预警唤醒词的索引,把预警语音传入并进行飞行员声纹库搜索,返回同一类声纹的航班语音信息。
23.声纹确认子系统还具有softmax或contrast对比判断算法。
24.打开计算机人工智能语音识别子系统通过接口,将机场实时采集到的传输数据。
25.人工智能语音识别子系统、预警唤醒语音子系统有识别文本有唤醒词语音音频的索引,将人工智能语音识别子系统转写好的文本输入预警唤醒语音子系统进行检索唤醒词检测。
26.民航客机陆空通话语音识别引擎的应用方法,包括以下步骤:(1)、通过录音输入设备输入录音音频,而后录音音频经过地空通话音频分割子系统进行音频分割;(2)、将分割好的音频段输入人工智能语音识别子系统,使音频段转写成文本;(3)、将转写好的文本输入预警唤醒语音子系统进行检索唤醒管检测,并保留含有唤醒词语音音频的索引;(4)、声纹确认子系统通过预警唤醒词的索引进行飞行员声纹库搜索,返回同一类声纹的航班语音信息;最终实现对含有特定关键词唤醒语音的飞行员辨识、航班号辨识,成功实现对机场的实时地空通话预警。
27.步骤(1)包括以下录音音频的处理方法:a、录音音频的降噪:使用可针对陆空通话进行语音增强的神经网络模型进行语音增强;b、录音音频的去静默音:通过基于神经网络的人声检测将语音分割为小段语音。
28.在步骤(2)中,音频段作为数据输入,从音频形式转换为语谱图形式,数据首先经过语音特征提取模块,提取不同层次的音频特征,同时大幅压缩数据和参数量,提高训练效率并防止参数过拟合;随后数据进入序列学习模块,通过模拟人类记忆系统的功能,控制不同时刻状态信息的记忆与遗忘程度,完成语言序列的学习;最后数据进入全连接模块进行分类学习与决策,并由连接时序分类模块计算得到概率最大的一条输出序列,即语音的识别结果。人工智能语音识别子系统是整个语音识别引擎的核心,负责识别语音并将其转化
为文字序列。
29.在步骤(4)中,声纹检测通过多层长短时记忆门网络提取说话人的音色特征;然后计算验证样本和所有说话人中心的余弦相似度得分;最后通过softmax或contrast进行基于相似度得分的损失统计,反向传播更新参数。通过1:1目标声纹在飞行员声纹库中进行相似度比对,分类出不同飞行员声纹,识别率高达92%,与传统引擎的识别准确率相比,提升幅度约为30%至60%。
30.在步骤(4)中,在声纹确认子系统中还对语音音频进行说话人判别和分类,通过信息分类方便回溯。
31.在步骤(4)中,还通过语音关键词或者语音识别进行逻辑处理和判断分析音频质量,并结合之前文本内容和空管流程进行识别纠错。
32.本发明关键在于通过结合语音识别引擎,声纹辨认,唤醒词索引三种成熟自然语言算法,设计出对机场地空通话进行实时语音识别预警的解决方案。
33.与现有技术相比,本民航客机陆空通话语音识别引擎及其应用方法具有以下有益效果:本发明构建了基于人工智能技术的语音识别引擎,用于空中管制的地空通话语音的识别。相比于传统语音识别引擎,基于人工智能的语音识别引擎,不仅使识别准确率有质的提升,而且模型结构大幅精简,训练与使用效率高。再者该技术方案可以通过声纹预警得到待救援飞行员的声纹信息和在声纹库中的航班号语音信息,让空中管制人员能够尽早获取飞行员与航班信息,从而快速做出管制程序反应,避免飞行事故的发生,提高生命安全性。
34.本民航客机陆空通话语音识别引擎包括如下应用场景,但不限于如下应用场景。
35.1、指令提字板管制监控人员可以实时听到管制员的指挥,但由于听取语音这个方法固有的问题,导致一般只能听一路,难以兼顾多个席位同时监控。同时监听难以回放,监听消耗时间较多。这导致了管制监控的低效和粗放性,使得管制内容不透明,潜藏着安全隐患。
36.本系统可以有效提高管制监控的效果和范围。所有的语音都可以即时转换为文字并提供简单清晰的界面可以快速浏览管制文字,易读性大大提高。语音通话也犹如历史记录一般,可以进行快速的查看和检查。监控人员也无需进行音频的监听,进而可以实现多个管制席位同时监查,有效提高了管制活动的透明度。
37.2、场景回放及语音检索事件调查往往需要抽取管制录音,通过听取语音记录,转换为文字记录,15 分钟的语音需要 1 小时左右时间转换为文字记录,费时费力。随着技术的进步,人工智能已经逐步完善,可以实时识别管制语音,转换为文字记录。可以根据日期时间、无线电波道、航班或关键字查询无线电通话文本记录,并同步实现语音回放及结果导出。在事件调查场景下,从原先听录音录成文字,转变为基于文本检索,提升效率,减少录入工作。
38.3、跑道防侵入跑道侵入可能由多种原因导致,包括飞机跑道侵入、人车侵入等等。其中,管制员指挥失当或者飞 行员操作错误是引起跑道侵入发生的重要因素。 目前多采用地面光学检测系统来即时检测侵入物。但该系统只能是当侵入行动接近发生或已经发生的情况下才能
给予警告。而本系统可以在指令发出时进行即时检查,以期在机组进行操作之前就阻止跑 道侵入发生。
39.4、指令安全检查机组指令复诵错误是导致管制事故的重要原因之一。尽管每个席位有两名管制员进行复诵检查,但仍然会有疏忽发生。本系统可以通过精确的语音意图识别,将管制指令和复诵指令进行比对,并对机组是否正确复诵指令进行检查。基于语音识别的检查可以成为管制员对复诵检查的有效补充。将可以极大地减少错误复诵未被发现的情况,进而有效提高安全性。
40.5、脱波检查由于频率切换等原因,可能存在脱波指令发送后,机组切换到错误频率,复诵无法被检查的情况。本系统可以通过检测脱波的复诵结果,判定是否存在误脱波的情况。进而可以使管制员及时处理脱波异常的问题。
41.6、误领指令检查现有相似航班号提醒,主要在于提醒管制员不要发送错误的指令给相似的航班,但是不能解决机组误听,导致将本来发给其他机组的指令误认为自己的指令并进行复诵。这种由于相似航班号存在,导致有机组误听管制员指令并进行复诵的情况是十分危险的。本系统可以通过检测复诵内容,及时检测误认的航班号。并将误认的航班号和相似航班推送给管制员。使得管制员可以更快地处理机组误认航班号并复诵带来的问题。
42.7、疲劳告警功能人员疲劳、精神状态难以实时监控,当管制压力较大精力难以为继的时候,偶有睡岗的情况的发 生,带来了严重的安全隐患。本系统可以通过统计管制人员对每架飞机下达的命令条数、字数,每分钟的命令数和字数等数据与历史记录进行比较。能够及时发现管制人员状态不佳等情况,对于睡岗等危险行为有着更好的监控能力,减少管制安全隐患。
43.8、通话质量分析通话质量分析是指对通过对通话条目、通话时间、有效用语等数据分析获得对通话质量的量化结果。这里面包含的指标有语速、通话指令条目数量、有效/无效用语占比、管制中英文占比、更正、证实的次数等等。
44.9、指令意图分析管制指令存在不同意图,而对不同意图进行统计和分析可以有效发现规划设计与实际管制的不同。 本系统将对高度变化、航路偏置、进出扇区、应答机识别等具体意图的分布进行统计,以供管理人员分析使用。
45.10、冲突指令分析解析冲突指令,如有高度、有相对、有交叉等指令,可以有效反映管制活动是否如预期运行。大量解析冲突指令的出现可能预示着空管管制问题,如航班过多、规划需要变更等等。本系统将会对相关指令进行统计分析,以表明解冲突指令类型和数量是否在合理的预期内。
46.11、不合规指令分析管制指令的规范十分繁琐,标准说法有很多需要注意的地方,各个地区也有不同的标准要求。因此,即使是专业的管制人员也很难做好每一条规则。本系统对多种不规范的
用语习惯进行分析,包括过于口语化的指令、关键字顺序不当的用语、复诵不完整等等用语。这些分析结果可以有效的帮助管制人员改善不当用语习惯,提高管制品质。
47.当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献