技术特征:
1.一种语音识别方法,其特征在于,所述方法包括步骤:
获取原始语音;
预处理所述原始语音;
获取残差卷积神经网络和双向长短时记忆神经网络;
根据所述残差卷积神经网络和所述双向长短时记忆神经网络构建语音识别模型;
使用ctc损失函数对所述语音识别模型进行参数优化;
检测所述语音识别模型的有效性。
2.根据权利要求1所述的语音识别方法,其特征在于,所述预处理所述原始语音包括步骤:
对所述原始语音进行预加重处理;
对所述原始语音进行分帧处理;
对所述原始语音进行加窗处理;
对所述原始语音进行端点检测处理。
3.根据权利要求2所述的语音识别方法,其特征在于,所述预处理所述预加重处理中传递函数的表达式为:
h(z)=1-μz-1;
其中,h(z)表示所述传递函数,μ表示预加重系数,取值范围为0.9<μ<1.0,z表示自变量。
4.根据权利要求1所述的语音识别方法,其特征在于,所述预处理所述语音识别模型包括:7层残差卷积神经网络和7层双向长短时记忆神经网络。
5.根据权利要求1所述的语音识别方法,其特征在于,所述预处理所述ctc损失函数的表达式为:
l(s)=-ln∏(x,z)∈sp(z|x)=-∑(x,z)∈slnp(z|x);
其中,l(s)表示ctc损失函数,p(z|x)代表给定输入x输出序列z的概率,s表示训练集。
6.根据权利要求1所述的语音识别方法,其特征在于,所述检测所述语音识别模型的有效性包括步骤:
获取测试数据;
将所述测试数据输入所述语音识别模型中;
获取所述语音识别模型的输出数据;
计算所述输出数据的词错误率。
7.根据权利要求6所述的语音识别方法,其特征在于,所述词错误率的表达式为:
其中,wer表示所述词错误率,s表示输出数据中替换单词的个数,d表示输出数据中删除单词的个数,i表示输出数据中插入单词的个数,n表示测试数据中单词的总个数。
技术总结
一种语音识别方法,所述方法包括步骤:获取原始语音;预处理所述原始语音;获取残差卷积神经网络和双向长短时记忆神经网络;根据所述残差卷积神经网络和所述双向长短时记忆神经网络构建语音识别模型;使用CTC损失函数对所述语音识别模型进行参数优化;检测所述语音识别模型的有效性。本专利提供了一种语音识别方法,从空间和时间上充分提取语音数据的特征信息,同时该模型结构也采用了端到端的模型结构,能够进一步简化语音识别的流程,通过上述方法不仅提高了语音识别的准确率,而且也提高了语音识别的效率。
技术研发人员:罗飞
受保护的技术使用者:中标软件有限公司
技术研发日:2021.06.21
技术公布日:2021.08.31
本文用于企业家、创业者技术爱好者查询,结果仅供参考。