一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的无人驾驶语音识别方法及装置

2022-06-02 14:22:21 来源:中国专利 TAG:


1.本发明涉及一种基于深度学习的无人驾驶语音识别方法及装置,属于语音识别技术领域。


背景技术:

2.自汽车发明以来,汽车工业就不断促进着人类的创新与社会经济的发展。随着汽车产量和保有量的提高,人们的出行变得方便快捷,而由此带来的交通拥堵和交通事故也成为了人类社会文明一大阻碍。随着人工智能技术的发展,越来越多的自动控制技术被应用在汽车上,无人驾驶汽车也成为了汽车产业的一大变革。在当今互联网、大数据等技术的加持下,无人驾驶技术得到突飞猛进的进步,百度、腾讯、上汽、一汽、华为等传统车企和科技公司纷纷布局无人驾驶领域,都在积极探索利用人工智能技术实现无人驾驶技术。
3.目前,通过深度学习的方式让无人驾驶汽车不断地优化自己的驾驶行为,是目前最有效的解决方案。语音识别控制技术也不例外,在深度学习技术兴起之前,语音识别一直处于gmm-hmm(基于高斯混合模型)时代,随着dnn的兴起,“端到端”技术逐渐发展,语音识别技术进入了百花齐放时代。但现在的语音识别模型的关注点往往是从模型的深度去考虑,只从一条路径去提取语音的特征,得到的往往都是不全面的语音特征,模型的识别率就会降低。


技术实现要素:

4.本发明的目的在于克服现有技术中的不足,提供一种基于深度学习的无人驾驶语音识别方法及装置,解决现有无人驾驶领域语音识别模型识别率低的问题。
5.为达到上述目的,本发明是采用下述技术方案实现的:
6.第一方面,本发明提供了一种基于深度学习的无人驾驶语音识别方法,包括:
7.获取开源的中文语音数据集,提取语音数据集的语音序列;
8.将得到的语音序列输入到深度卷积神经网络模型中,输出语音序列的特征向量;
9.将深度卷积神经网络模型输出的特征向量输入到全连接层中进行降维,再输入到连接时序分类模块;
10.通过连接时序分类模块得到全连接层输出的后验概率,依据后验概率得到语音数据库中匹配的语句。
11.进一步的,所述获取开源的中文语音数据集,提取语音数据集的语音序列,包括:
12.获取行人或乘客的语音,将输入的语音进行预处理;
13.通过mfcc语音特征提取算法提取音频信号的相关特征,将音频信号转换为包含声音信息的多维向量。
14.进一步的,所述将得到的语音序列输入到深度卷积神经网络模型中,输出语音序列的特征向量,包括:
15.由mfcc语音特征提取算法得到的特征向量分两路分别输入到深度卷积神经网络
模型中,两路特征向量经过不同卷积核的卷积层和池化层,分别得到包含语音特征的特征向量。
16.进一步的,所述将深度卷积神经网络模型输出的特征向量进行降维,包括:
17.将深度卷积神经网络模型得到的两路包含语音特征的特征向量进行拼接,得到全部的高维特征向量,再通过全连接层进行降维得到低维的特征向量。
18.进一步的,所述通过连接时序分类模块得到全连接层输出的后验概率,依据后验概率得到语音数据库中匹配的语句,包括:
19.通过连接时序分类模块,使用ctc损失函数,把得到的低维特征向量进行预测;
20.通过最大路径解码得到每个概率最大的前n条路径对应的标签,得到最终的解码结果,其中,n为建模单元个数;
21.再比对语音数据库中的匹配项,获取匹配到的语句。
22.第二方面,本发明提供一种基于深度学习的无人驾驶语音识别装置,包括:
23.语音序列提取单元,用于获取开源的中文语音数据集,提取语音数据集的语音序列;
24.语音序列特征向量获取单元,用于将得到的语音序列输入到深度卷积神经网络模型中,输出语音序列的特征向量;
25.特征向量降维单元,用于将深度卷积神经网络模型输出的特征向量输入到全连接层中进行降维,再输入到连接时序分类模块;
26.语音数据库匹配语句获取单元,用于通过连接时序分类模块得到全连接层输出的后验概率,依据后验概率得到语音数据库中匹配的语句。
27.进一步的,所述语音序列提取单元,包括:
28.预处理单元,用于获取行人或乘客的语音,将输入的语音进行预处理;
29.转换单元,用于通过mfcc语音特征提取算法提取音频信号的相关特征,将音频信号转换为包含声音信息的多维向量。
30.进一步的,所述语音数据库匹配语句获取单元,包括:
31.预测单元,用于通过连接时序分类模块,使用ctc损失函数,把得到的低维特征向量进行预测;
32.解码单元,用于通过最大路径解码得到每个概率最大的前n条路径对应的标签,得到最终的解码结果,其中,n为建模单元个数;
33.对比单元,用于再比对语音数据库中的匹配项,获取匹配到的语句。
34.第三方面,本发明提供一种基于深度学习的无人驾驶语音识别装置,包括处理器及存储介质;
35.所述存储介质用于存储指令;
36.所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
37.第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现上述任一项所述方法的步骤。
38.与现有技术相比,本发明所达到的有益效果:
39.本发明提供一种基于深度学习的无人驾驶语音识别方法及装置,与现有技术相比,在深度学习模型中采用双路卷积神经网络,将mfcc提取到的语音特征分两路分别输入
到深度卷积神经网络模型中,既能够在深度方向提取网络重要特征,也能在宽度方向通过不同的卷积核提取重要特征,加强模型的非线性化程度,使网络模型具有更优越的拟合性能。
附图说明
40.图1是本发明实施例提供的一种基于深度学习的无人驾驶语音识别方法的流程图;
41.图2是本发明实施例提供的深度学习网络模型结构图。
具体实施方式
42.下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
43.实施例1
44.本实施例介绍一种基于深度学习的无人驾驶语音识别方法,包括:
45.获取开源的中文语音数据集,提取语音数据集的语音序列;
46.将得到的语音序列输入到深度卷积神经网络模型中,输出语音序列的特征向量;
47.将深度卷积神经网络模型输出的特征向量输入到全连接层中进行降维,再输入到连接时序分类模块;
48.通过连接时序分类模块得到全连接层输出的后验概率,依据后验概率得到语音数据库中匹配的语句。
49.本实施例提供的基于深度学习的无人驾驶语音识别方法,其应用过程具体涉及如下步骤:
50.s1:通过互联网获取开源的中文语音数据集,提取语音数据集的语音序列:
51.a.从互联网上下载st-cmds中文语音数据集,该数据集是由冲浪科技发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用;
52.b.在步骤a中得到的数据集中,选取智能语音控制语句作为主要数据集,尽量选取包含驾驶场景下的语句;
53.c.将数据集中的语音信号通过mfcc(梅尔频率倒谱系数)语音特征提取算法提取音频信号的相关特征,主要过程包括:分帧加窗、fft、取绝对值、mel滤波、取对数、dct、dct及动态特征,将音频信号转换为包含声音信息的多维向量;
54.d.从数据集中的所有语音随机选取80%的语音,作为训练集,剩余20%的语音作为测试集。
55.s2:将得到的语音特征输入到双路卷积神经网络模型中,得到语音序列的相关特征:
56.建立深度学习模型,如图2所示,包括卷积层,池化层,全连接层和连接时序分类层,网络的输入是s1中数据集的语音多维向量,网络的输出是一个后验概率,表示输入序列对应最优可能的标签。对于网络的输入,同一语音序列分两路分别输入到深度卷积神经网
络模型中,两路语音多维向量经过不同卷积核的神经网络处理后,分别得到同一语音不同特征的语音特征向量。
57.s3:将深度卷积神经网络模型输出的特征向量输入到全连接层中进行降维,再输入到连接时序分类模块:
58.将深度卷积神经网络输出的语音特征向量进行拼接,得到全部的特征序列,输入到全连接层中,高维特征序列经过全连接层降维之后,得到低维的特征序列。
59.s4:根据连接时序分类得到全连接层输出的后验概率,依据后验概率得到语音数据库中匹配的语句:
60.连接时序分类(ctc)是由graves等人提出的一种时序分类方法。ctc与传统的基于dnn-hmm声学模型不同,其不需要在时间维度上帧级别对应标签,输入语音特征即可预测结果,通过训练降低ctc损失值进而降低预测值与真实标签差异,该过程极大地简化了声学模型的训练流程。且ctc额外引入了“blank”标签对静音、字间重叠等建模,简化建模过程,因此ctc尤其适合序列建模。由全连接层得到低维特征序列输入到ctc模块中,得到序列最优可能的标签,再与语音数据库中的语句进行匹配,得到最终的识别结果。
61.实施例2
62.本实施例提供一种基于深度学习的无人驾驶语音识别装置,包括:
63.语音序列提取单元,用于获取开源的中文语音数据集,提取语音数据集的语音序列;
64.语音序列特征向量获取单元,用于将得到的语音序列输入到深度卷积神经网络模型中,输出语音序列的特征向量;
65.特征向量降维单元,用于将深度卷积神经网络模型输出的特征向量输入到全连接层中进行降维,再输入到连接时序分类模块;
66.语音数据库匹配语句获取单元,用于通过连接时序分类模块得到全连接层输出的后验概率,依据后验概率得到语音数据库中匹配的语句。
67.进一步的,所述语音序列提取单元,包括:
68.预处理单元,用于获取行人或乘客的语音,将输入的语音进行预处理;
69.转换单元,用于通过mfcc语音特征提取算法提取音频信号的相关特征,将音频信号转换为包含声音信息的多维向量。
70.进一步的,所述语音数据库匹配语句获取单元,包括:
71.预测单元,用于通过连接时序分类模块,使用ctc损失函数,把得到的低维特征向量进行预测;
72.解码单元,用于通过最大路径解码得到每个概率最大的前n条路径对应的标签,得到最终的解码结果,其中,n为建模单元个数;
73.对比单元,用于再比对语音数据库中的匹配项,获取匹配到的语句。
74.实施例3
75.本实施例提供一种基于深度学习的无人驾驶语音识别装置,包括处理器及存储介质;
76.所述存储介质用于存储指令;
77.所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的
步骤。
78.实施例4
79.本实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现实施例1中任一项所述方法的步骤
80.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献