语音识别方法、装置、设备及计算机可读存储介质与流程

2022-06-08 08:11:33 来源：中国专利 TAG：

技术特征：
1.一种语音识别方法，其特征在于，所述方法包括：获取待识别语音，并对所述待识别语音进行音素转换，得到初始音素序列，所述初始音素序列包括：唤醒词对应的第一音素序列及所述唤醒词关联的语音内容所对应的第二音素序列；获取与所述第一音素序列对应的标准音素序列，并确定所述第一音素序列与所述标准音素序列之间的差异信息；确定所述差异信息对应的序列调整方式，并采用所述序列调整方式，对所述标准音素序列进行调整，得到对应所述第一音素序列的可识别音素序列；基于所述可识别音素序列，对所述初始音素序列中的所述第二音素序列进行语音识别，得到所述语音内容对应的语音识别结果。2.如权利要求1所述的方法，其特征在于，所述确定所述第一音素序列与所述标准音素序列之间的差异信息，包括：将所述第一音素序列中的音素分别与所述标准音素序列中各音素进行比较，以确定所述第一音素序列相较于所述标准音素序列所存在的音素差异；其中，所述音素差异包括以下至少之一：标准音素缺失、音素冗余；将所述第一音素序列相较于所述标准音素序列所存在的音素差异，作为所述第一音素序列与所述标准音素序列之间的差异信息。3.如权利要求1所述的方法，其特征在于，所述确定所述差异信息对应的序列调整方式，包括：当所述差异信息表征所述第一音素序列相对于所述标准音素序列存在标准音素缺失时，确定所述差异信息对应的序列调整方式为序列补充方式；所述采用所述序列调整方式，对所述标准音素序列进行调整，得到对应所述第一音素序列的可识别音素序列，包括：确定所述第一音素序列相较于所述标准音素序列缺失的标准音素，并基于所述缺失的标准音素，确定所述标准音素序列中除所述缺失的标准音素外的音素作为候选标准音素；基于所述候选标准音素进行音素序列重构，得到至少一个子音素序列；从所述至少一个子音素序列中，查找与所述第一音素序列对应的子音素序列作为所述可识别音素序列。4.如权利要求1所述的方法，其特征在于，所述确定所述差异信息对应的序列调整方式，包括：当所述差异信息表征所述第一音素序列相对于所述标准音素序列存在音素冗余时，确定所述差异信息对应的序列调整方式为噪声补充方式；所述采用所述序列调整方式，对所述标准音素序列进行调整，得到对应所述第一音素序列的可识别音素序列，包括：确定所述第一音素序列相对于所述标准音素序列的至少一个冗余音素；构建对应所述至少一个冗余音素的噪声音素；基于所述噪声音素及所述标准音素序列，进行音素序列重构，得到对应所述第一音素序列的可识别音素序列。5.如权利要求4所述的方法，其特征在于，所述基于所述噪声音素及所述标准音素序
列，进行音素序列重构，得到对应所述第一音素序列的可识别音素序列，包括：确定所述标准音素序列的音素填充位置；基于所述标准音素序列的音素填充位置，填充所述噪声音素，得到噪声音素序列；将所述第一音素序列中各音素依次向所述噪声音素序列中的音素进行映射，得到对应所述第一音素序列的可识别音素序列；其中，所述第一音素序列中的所述冗余音素，用于映射至所述噪声音素序列中的噪声音素。6.如权利要求5所述的方法，其特征在于，基于所述标准音素序列的音素填充位置，填充所述噪声音素，得到噪声音素序列，包括：确定所述至少一个冗余音素的数量；在所述标准音素序列的音素填充位置，填充所述数量的所述噪声音素，得到噪声音素序列。7.如权利要求5所述的方法，其特征在于，当所述冗余音素的数量为至少两个时，所述方法还包括：在将所述第一音素序列中的所述冗余音素向所述噪声音素映射的过程中，确定针对所述噪声音素的映射次数；当所述映射次数达到次数阈值时，生成提示信息并输出，所述提示信息用于提示针对所述待识别语音的语音识别失败。8.如权利要求1所述的方法，其特征在于，所述确定所述差异信息对应的序列调整方式，包括：当所述差异信息表征所述第一音素序列相对于所述标准音素序列既存在标准音素缺失、又存在音素冗余时，确定所述差异信息对应的序列调整方式为序列补充方式与噪声补充方式相结合；所述采用所述序列调整方式，对所述标准音素序列进行调整，得到对应所述第一音素序列的可识别音素序列，包括：确定所述第一音素序列相较于所述标准音素序列缺失的标准音素，并基于所述缺失的标准音素，确定所述标准音素序列中除所述缺失的标准音素外的音素作为候选标准音素；确定所述第一音素序列相对于所述标准音素序列的至少一个冗余音素，并构建对应所述至少一个冗余音素的噪声音素；基于所述候选标准音素及所述噪声音素，进行音素序列重构，得到对应所述第一音素序列的可识别音素序列。9.如权利要求1所述的方法，其特征在于，所述获取与所述第一音素序列对应的标准音素序列，包括：以字符为单位，对所述唤醒词进行分词处理，得到至少两个字符；分别确定各所述字符对应的发音；基于所述字符对应的发音，对所述字符进行音素转换，得到所述字符对应的音素序列；基于各所述字符对应的所述音素序列，确定所述第一音素序列对应的标准音素序列。10.如权利要求9所述的方法，其特征在于，所述基于所述字符对应的发音，对所述字符进行音素转换，得到所述字符对应的音素序列，包括：
基于所述字符对应的发音，对所述字符进行音素转换，得到所述字符对应的中间音素序列；当所述中间音素序列中的音素数量为一个时，将所述中间音素序列中的音素与预设修饰音素进行拼接，得到对应的目标音素；将所述中间音素序列中的所述音素替换为所述目标音素，得到所述字符对应的音素序列。11.如权利要求1所述的方法，其特征在于，所述基于所述可识别音素序列，对初始音素序列中的所述第二音素序列进行语音识别，得到所述语音内容对应的语音识别结果，包括：基于所述可识别音素序列，对所述初始音素序列进行切割，得到所述第二音素序列；获取用于音素识别的词典；基于所述词典，对所述第二音素序列进行语音识别，得到所述语音内容对应的语音识别结果。12.如权利要求1所述的方法，其特征在于，所述得到所述语音内容对应的语音识别结果之后，所述方法还包括：对所述语音识别结果进行语义分析，得到语义分析结果；获取所述语义分析结果对应的响应信息，并输出所述响应信息。13.一种语音识别装置，其特征在于，所述装置包括：获取模块，用于获取待识别语音，并对所述待识别语音进行音素转换，得到初始音素序列，所述初始音素序列包括：唤醒词对应的第一音素序列及所述唤醒词关联的语音内容所对应的第二音素序列；确定模块，用于获取与所述第一音素序列对应的标准音素序列，并确定所述第一音素序列与所述标准音素序列之间的差异信息；调整模块，用于确定所述差异信息对应的序列调整方式，并采用所述序列调整方式，对所述标准音素序列进行调整，得到对应所述第一音素序列的可识别音素序列；识别模块，用于基于所述可识别音素序列，对所述初始音素序列中的所述第二音素序列进行语音识别，得到所述语音内容对应的语音识别结果。14.一种电子设备，其特征在于，所述电子设备包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的语音识别方法。15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的语音识别方法。16.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至12任一项所述的语音识别方法。

技术总结
本申请提供了一种语音识别方法、装置，可应用于自动驾驶领域、车载领域、地图领域或者交通领域，方法包括：获取待识别语音，并对待识别语音进行音素转换，得到初始音素序列，初始音素序列包括：唤醒词对应的第一音素序列及唤醒词关联的语音内容所对应的第二音素序列；获取与第一音素序列对应的标准音素序列，并确定第一音素序列与标准音素序列之间的差异信息；确定差异信息对应的序列调整方式，并采用序列调整方式，对标准音素序列进行调整，得到对应第一音素序列的可识别音素序列；基于可识别音素序列，对初始音素序列中的第二音素序列进行语音识别，得到语音内容对应的语音识别结果。通过本申请，能够提高语音识别的准确性，提高人机交互效率。人机交互效率。人机交互效率。

技术研发人员：朱传聪孙思宁
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2022.03.04
技术公布日：2022/6/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音识别方法、装置、设备及计算机可读存储介质与流程

相关文献

最热文献