一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音识别方法和相关装置与流程

2022-04-16 13:39:47 来源:中国专利 TAG:

技术特征:
1.一种语音识别方法,其特征在于,所述方法包括:获取声学模型和待识别的语音数据,所述声学模型包括时延神经网络,所述时延神经网络的输出层包括与多个音节分别对应的声学建模单元;将所述语音数据作为所述时延神经网络的输入数据,通过所述时延神经网络确定所述语音数据所包括语音帧分别对应的音节概率分布,所述音节概率分布用于标识所述语音帧与所述多个音节分别对应的概率;根据所述音节概率分布确定所述语音数据对应的语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述声学模型还包括解码器,所述根据所述音节概率分布确定所述语音数据对应的语音识别结果,包括:根据所述语音数据对应的唤醒场景,确定与所述唤醒场景对应的关键词;根据所述音节概率分布,通过所述解码器确定用于标识所述语音数据中是否包括所述关键词的语音识别结果;所述方法还包括:若所述语音识别结果指示所述语音数据中包括所述关键词,将所述唤醒场景对应终端设备唤醒。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:以音节为划分粒度构建针对所述关键词的匹配词表;所述根据所述音节概率分布,通过所述解码器确定用于标识所述语音数据中是否包括所述关键词的语音识别结果,包括:根据所述音节概率分布和所述匹配词表,通过所述解码器确定用于标识所述语音数据中是否包括所述关键词的语音识别结果。4.根据权利要求1所述的方法,其特征在于,所述时延神经网络包括n层特征提取层,j∈n,针对所述语音数据所包括语音帧中的第i帧语音帧,所述将所述语音数据作为所述时延神经网络的输入数据,通过所述时延神经网络确定所述语音数据所包括语音帧分别对应的音节概率分布,包括:根据第j-1层特征提取层针对所述第i帧语音帧的输出特征,通过第j层特征提取层确定所述第i帧语音帧的语音帧特征;通过所述语音帧特征和所述第i帧语音帧在所述语音数据中的前后至少一帧对应的语音帧特征,确定所述第i帧语音帧在所述第j层特征提取层的输出特征;根据所述第i帧语音帧在所述第j层特征提取层的输出特征,确定所述第i帧语音帧对应的音节概率分布。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:根据发音相似程度确定所述关键词所包括音节的相似音节;若所述关键词中具有多音字,确定所述多音字对应的多音字音节;所述以音节为划分粒度构建针对所述关键词的匹配词表,包括:根据所述相似音节和所述多音字音节中的至少一个,以及所述关键词对应的音节,以音节为划分粒度构建针对所述关键词的匹配词表。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与所述语音数据属于同一语种的语音样本;
根据所述语音样本作为初始声学模型的输入数据,通过所述初始声学模型包括的初始时延神经网络得到预测结果;根据所述预测结果与所述语音样本的样本标签确定损失函数,所述损失函数中包括指导权重,所述指导权重用于提高正确预测结果在所述初始时延神经网络中的识别路径的影响,降低错误预测结果在所述初始时延神经网络中的识别路径的影响;根据所述损失函数调整所述初始声学模型中初始时延神经网络的模型参数,以得到所述声学模型。7.根据权利要求6所述的方法,其特征在于,所述获取与所述语音数据属于同一语种的语音样本,包括:获取与所述语音数据属于同一语种的待处理语音样本;根据所述待处理语音样本进行数据增广得到增广样本,所述增广样本的样本标签基于所对应待处理语音样本的样本标签确定;根据所述待处理语音样本和所述增广样本得到所述语音样本。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:将所述增广样本对应的待处理语音样的样本标签作为所述增广样本的待定标签;根据所述增广样本的语音帧与所述待定标签进行标签对齐处理,得到所述增广样本的样本标签。9.一种语音识别装置,其特征在于,所述装置包括获取单元、音节概率分布确定单元和语音识别结果确定单元;所述获取单元,用于获取声学模型和待识别的语音数据,所述声学模型包括时延神经网络,所述时延神经网络的输出层包括与多个音节分别对应的声学建模单元;所述音节概率分布确定单元,用于将所述语音数据作为所述时延神经网络的输入数据,通过所述时延神经网络确定所述语音数据所包括语音帧分别对应的音节概率分布,所述音节概率分布用于标识所述语音帧与所述多个音节分别对应的概率;所述语音识别结果确定单元,用于根据所述音节概率分布确定所述语音数据对应的语音识别结果。10.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行权利要求1-8中任意一项所述的语音识别方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-8中任意一项所述的语音识别方法。12.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1-8任意一项所述语音识别方法。

技术总结
本申请实施例公开了一种语音识别方法和相关装置,至少涉及人工智能中的语音识别技术,将待识别的语音数据作为声学模型中时延神经网络的输入数据,由于该时延神经网络的输出层包括与多个音节分别对应的声学建模单元,使得通过时延神经网络能以音节为识别粒度,得到语音数据所包括语音帧分别对应的音节概率分布。通过输出层以音节进行识别时,可以结合语音帧的前后音节信息,基于发音规则对语音帧所属音节进行辅助判断,以输出更为精准的音节概率分布。而且由于音节一般由一个或多个音素组成,具有更高的容错能力,不仅基于音节概率分布获取更为准确的确定语音识别结果,还对待识别的语音数据质量要求不高,有效扩展了语音识别技术的适用场景。别技术的适用场景。别技术的适用场景。


技术研发人员:袁有根 吕志强 黄申
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.14
技术公布日:2022/4/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献