语音识别方法、装置、计算机设备及存储介质与流程

2021-10-22 23:34:00 来源：中国专利 TAG：语音识别装置特别计算机方法

技术特征：
1.一种语音识别方法，其特征在于，所述方法包括：通过声学模型对语音信号进行处理，获得所述语音信号中各个语音帧对应的音素识别结果；所述音素识别结果用于指示对应的语音帧在音素空间中的概率分布；所述音素空间中包含各个音素以及一个空输出；所述声学模型是通过语音信号样本，以及所述语音信号样本中各个语音帧的实际音素训练得到的；对所述各个语音帧对应的所述音素识别结果中的空输出的概率进行抑制调整，以降低所述音素识别结果中的空输出的概率与各个音素的概率的比值；将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列。2.根据权利要求1所述的方法，其特征在于，所述对所述各个语音帧对应的所述音素识别结果中的空输出的概率进行抑制调整，包括：通过以下调整方式中的至少一种，对所述各个语音帧对应的所述音素识别结果进行调整：降低所述各个语音帧对应的所述音素识别结果中的空输出的概率；以及，提高所述各个语音帧对应的所述音素识别结果中的各个音素的概率。3.根据权利要求2所述的方法，其特征在于，所述降低所述各个语音帧对应的所述音素识别结果中的空输出的概率，包括：将所述各个语音帧对应的所述音素识别结果中的空输出的概率乘以第一权重，所述第一权重小于1且大于0。4.根据权利要求2所述的方法，其特征在于，所述降低所述各个语音帧对应的所述音素识别结果中的空输出的概率，包括：将所述各个语音帧对应的所述音素识别结果中的各个音素的概率乘以第二权重，所述第二权重大于1。5.根据权利要求1所述的方法，其特征在于，所述将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列，包括：响应于目标音素识别结果中的空输出的概率满足指定条件，将所述目标音素识别结果输入所述解码图，获得所述目标音素识别结果对应的识别文本；其中，所述目标音素识别结果是所述各个语音帧对应的所述音素识别结果中的任意一个。6.根据权利要求5所述的方法，其特征在于，所述指定条件包括：所述目标音素识别结果中的空输出的概率小于概率阈值。7.根据权利要求6所述的方法，其特征在于，所述将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列之前，还包括：获取阈值影响参数，所述阈值影响参数包括环境音强度、指定时间段内语音识别失败的次数、以及用户设置信息中的至少一种；基于所述阈值影响参数，确定所述概率阈值。8.根据权利要求1所述的方法，其特征在于，所述通过声学模型对语音信号进行处理，获得所述语音信号中各个语音帧对应的音素识别结果，包括：
对目标语音帧进行特征提取，获得所述目标语音帧的特征向量；所述目标语音帧是所述各个语音帧中的任意一个；将所述目标语音帧输入所述声学模型中的编码器，获得所述目标语音帧的声学隐层表示向量；将所述目标语音帧的历史识别文本的音素信息输入所述声学模型中的预测器，获得所述目标语音帧的文本隐层表示向量；所述目标语音帧的历史识别文本，是所述解码图对所述目标语音帧的前n个非空输出的语音帧的音素识别结果进行识别得到的文本；n为大于或者等于1的整数；将所述目标语音帧的声学隐层表示向量，以及所述目标语音帧的文本隐层表示向量输入联合网络，获得所述目标语音帧的所述音素识别结果。9.根据权利要求8所述的方法，其特征在于，所述编码器为前向序列记忆网络fsmn。10.根据权利要求8所述的方法，其特征在于，所述预测器为一维卷积网络。11.根据权利要求1至8任一所述的方法，其特征在于，所述解码图由音素词典和语言模型复合构成。12.一种语音识别方法，其特征在于，所述方法包括：获取语音信号，所述语音信号包括对原始语音进行切分获得的各个语音帧；通过声学模型对语音信号进行处理，获得所述各个语音帧对应的音素识别结果；所述音素识别结果用于指示对应的语音帧在音素空间中的概率分布；所述音素空间中包含各个音素以及一个空输出；所述声学模型是通过语音信号样本，以及所述语音信号样本中各个语音帧的实际音素训练得到的；将所述各个语音帧对应的所述音素识别结果中，空输出的概率满足指定条件的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列。13.一种语音识别装置，其特征在于，所述装置包括：语音信号处理模块，用于通过声学模型对语音信号进行处理，获得所述语音信号中各个语音帧对应的音素识别结果；所述音素识别结果用于指示对应的语音帧在音素空间中的概率分布；所述音素空间中包含各个音素以及一个空输出；所述声学模型是通过语音信号样本，以及所述语音信号样本中各个语音帧的实际音素训练得到的；概率调整模块，用于对所述各个语音帧对应的所述音素识别结果中的空输出的概率进行抑制调整，以降低所述音素识别结果中的空输出的概率与各个音素的概率的比值；解码模块，用于将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列。14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至12任一所述的语音识别方法。15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行以实现如权利要求1至12任一所述的语音识别方法。

技术总结
本申请是关于一种语音识别方法、装置、计算机设备及存储介质，涉及语音识别技术领域。所述方法包括：通过声学模型对语音信号进行处理，获得所述语音信号中各个语音帧对应的音素识别结果；对所述各个语音帧对应的所述音素识别结果中的空输出的概率进行抑制调整，以降低所述音素识别结果中的空输出的概率与各个音素的概率的比值；将调整后的所述各个语音帧对应的所述音素识别结果输入解码图，获得所述语音信号对应的识别文本序列。本方案能够在人工智能领域的语音识别场景中，提高模型的识别准确性。确性。确性。

技术研发人员：孙思宁
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2020.12.23
技术公布日：2021/10/21

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：实时语音识别方法、装置、设备及介质与流程

语音识别方法、装置、计算机设备及存储介质与流程

相关文章

最热文献