农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种基于深度神经网络的自动语音识别方法与流程

2021-08-31 17:44:00 来源：中国专利 TAG：语音识别神经网络深度方法

技术特征：

1.一种基于深度神经网络的自动语音识别方法，其特征在于，通过如下步骤进行自动语音识别：

通过音频采集设备对原始语音信号进行采样，并得到原始语音数据；

提取原始语音数据的logfbank声学特征；

构建声学模型；

将logfbank声学特征输入声学模型当中，得到声学模型输出数据；

对声学模型输出数据进行ctc解码，并得到解码数据；

通过预先设定的拼音列表对解码数据进行映射，得到拼音序列；

将拼音序列输入语言模型中进行语言识别，并得到语言识别结果。

2.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述音频采集设备以16000hz采样率对原始语音信号进行采样，原始语音数据以16bit整型进行保存，且每份原始语音数据时长不超过4秒。

3.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，提取原始语音数据的logfbank声学特征需要进行如下步骤：

通过高通滤波器对原始语音数据进行预加重；

通过分帧函数对预加重数据进行分帧操作；

将每一分帧带入窗函数进行加窗操作；

对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱；

通过梅尔滤波器组对能量谱进行点积运算，得到梅尔频谱图；

对梅尔频谱图进行取对数变换；

将取对数变换后的梅尔频谱图进行离散余弦变换。

4.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述声学模型为采用vgg加bi-gru结合的神经网络声学模型，所述声学模型包括vgg层、dense层和bi-gru层；所述声学模型通过如下步骤得到logfbank声学特征的原始预测数据：

将logfbank声学特征作为输入到vgg层中并将输出送入到下一层进行处理，所述声学模型共设置有8组vgg层，所述8组vgg层依次首尾串连，并进行8次vgg计算，并得到最终的vgg层输出数据；

将vgg层输出数据输入到dense层中，进行特征平滑，得到特征平滑输出；

将特征平滑输出放入bi-gru层进行计算，得到一次bi-gru层输出；

将一次bi-gru层输出再次放入bi-gru层，得到二次bi-gru层输出；

将二次bi-gru层输出输入到dense层进行特征平滑，得到二次特征平滑输出；

将二次特征平滑输出再次输入dense层，得到声学模型输出数据。

5.根据权利要求4所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述vgg层通过依次串连的第一cnn层、第二cnn层和max_pooling层构成，其中，的第一cnn层和第二cnn层用于数据卷积化，max_pooling层用于数据池化，所述第一cnn层的卷积核为5*5，所述第二cnn层的卷积核为3*3。

6.根据权利要求3所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述ctc解码用于对声学模型输出数据进行ctc处理将连续出现的相同结果合并，去除多余结果。

7.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述语言模型隐马尔科夫语言模型，所述语言模型将拼音序列作为模型输入，并得到对应的文字识别结果；所述语言模型通过如下步骤进行拼音-文字转化：

s1将拼音序列作为输入，并通过声韵母分割处理法，得到以拼音音组为基本分割单元的拼音序列；

s2通过拼音-文字字典将各个拼音音组映射得到对应的文字序列，其中，文字序列中保存着同一个拼音音组对应的不同汉字；

s3将各个拼音音组对应文字序列中所有汉字的出现的初始概率值设置为1；

s4将相邻的拼音音组对应文字序列中所有汉字按照两字词组进行排列组合；并保存为筛选序列；

s5构建两字词频率词典，所述两字词概率词典中保存着常用两字词组、所属领域常用两字词组、其他两字词组和两字词组对应的出现频率值；

s6将筛选序列中各排列组合的两字词组在两字词组词典中进行检索，若存在，则进行保留；若不存在，则删除；并得到最终的状态转移序列中；

s7构建一字词频率词典，所述一字词频率词典中保存着常用一字词、所属领域一字词、其他一字词和一字词对应出现的频率值；

s8计算状态转移序列中各两字词组的状态转移概率，其转移状态公式为：

其中，a，b分别表示两字词组的首字与尾字；p0表示初始概率值；p2(a.b)表示两字词组对应的出现频率值；p1(a)表示首字作为一字词出现的频率值；

s9将各两字词组的状态转移概率与转移阈值进行比较，若高于转移阈值，则将当前两字词组作为输出结果进行更新，并保存当前状态转移概率值；

s10重复s1至s9步骤，直至得到所有转移概率值和对应的输出结果，并将各输出结果进行依次排列，作为最终的语言识别结果进行输出。

8.根据权利要求4所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述bi-gru单元即双向gru神经网络模型，包括正向gru单元和反向gru单元，输入数据分别进入正向gru单元和反向gru单元进行计算，并将正向gru单元输出与反向gru单元输出进行拼接/求和作为bi-gru单元的输出。

9.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述自动语音识别方法用于对国语和/或外语进行自动语音识别，所述拼音-文字字典为对应识别语言发音与文字对应的字典。

10.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述汉明窗函数为：

其中，n表示被截取信号；a0表示汉明窗常数，值为25/46；n-1表示汉明窗的截取窗口长度；

所述梅尔滤波器的梅尔滤波函数为：

其中，f表示被滤波信号。

技术总结
本发明提供的一种基于深度神经网络的自动语音识别方法，涉及自动语音识别领域。本发明通过采用Log Fbank作为声学特征，只需要40维特征就足够表达声学信号的特征，极大的简化的信号的处理过程和神经网络模型的大小；采用VGG加双向GRU结合的神经网络模型，加上GRU可以充分的利用语音前后帧的信息，从而得到最佳的识别效果。明通过CTC解码是将连续的相同结果合并，去除多余结果，并通过预先定义好的拼音列表映射得到识别出的拼音序列，无需对齐，免除人工对齐操作；通过采用隐马尔科夫语言模型，将拼音序列作为模型输入，并得到对应的文字识别结果；能给出同一个拼音对应不同文字的最佳识别结果，使自动语音识别的准确性大大提升。

技术研发人员：王蒙;付志勇;胡奎;姜黎;潘艾婷
受保护的技术使用者：杭州芯声智能科技有限公司
技术研发日：2021.05.31
技术公布日：2021.08.31

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度神经网络的自动语音识别方法与流程

相关文章

最热文献