语音识别方法、装置、计算机设备及存储介质与流程

2021-09-22 18:11:00 来源：中国专利 TAG：语音识别装置计算机方法设备

技术特征：
1.一种语音识别方法，其特征在于，包括：利用预先训练好的特征提取网络从用户输入的待识别语音信息中提取第一特征信息；利用预先训练好的自注意力神经网络将所述第一特征信息转换为与识别任务相关的第二特征信息；计算所述第二特征信息与预设的每个支撑集中支撑特征信息的相似度，所述每个支撑集对应一种语音类型；确认相似度最高的支撑特征信息指向的支撑集对应的目标语音类型；根据所述目标语音类型的音素识别规则识别所述待识别语音信息的音素，并根据所述音素生成文本。2.根据权利要求1所述的语音识别方法，其特征在于，还包括：预先训练所述特征提取网络和所述自注意力神经网络，包括：利用所述特征提取网络提取所述支撑集中的语音信息的第一支撑特征信息，并通过所述自注意力神经网络将所述第一支撑特征信息转换为与识别任务相关的第二支撑特征信息，每个所述支撑集对应一个语音类型，且所述支撑集中包括语音类型相同的多个语音信息；利用所述特征提取网络提取样本语音信息的第一样本特征信息，并通过所述自注意力神经网络将所述第一样本特征信息转换为与识别任务相关的第二样本特征信息；计算所述第二样本特征信息与每个所述第二支撑特征信息的相似度；确认相似度最高的第二支撑特征信息指向的支撑集对应的预测语音类型；根据所述预测语音类型和所述样本语音信息所属的实际语音类型反向更新所述特征提取网络和所述自注意力神经网络。3.根据权利要求2所述的语音识别方法，其特征在于，所述利用所述特征提取网络提取所述支撑集中的语音信息的第一支撑特征信息之前，还包括：根据所述支撑集中的语音信息对应的文本信息对所述支撑集中的语音信息的音素进行强制对齐。4.根据权利要求2所述的语音识别方法，其特征在于，所述根据所述预测语音类型和所述样本语音信息所属的实际语音类型反向更新所述特征提取网络和所述自注意力神经网络之后，还包括：当所述特征提取网络和所述自注意力神经网络训练完成后，对训练好的所述自注意力神经网络转换得到的所有所述第二支撑特征信息进行聚类处理，得到多个聚类簇；所述计算所述第二特征信息与预设的每个支撑集中支撑特征信息的相似度，包括：计算所述第二特征信息与每个聚类簇的相似度，以确认相似度最高的目标聚类簇；计算所述第二特征信息与所述目标聚类簇中的每个第二支撑特征信息的相似度。5.根据权利要求2所述的语音识别方法，其特征在于，所述利用所述特征提取网络提取所述支撑集中的语音信息的第一支撑特征信息，并通过所述自注意力神经网络将所述第一支撑特征信息转换为与识别任务相关的第二支撑特征信息，包括：利用所述特征提取网络提取所述支撑集中每个语音信息的支撑特征信息，以得到多个所述第一支撑特征信息；利用所述自注意力神经网络将每个所述第一支撑特征信息转换为与识别任务相关的
所述第二支撑特征信息，以得到多个所述第二支撑特征信息；计算多个所述第二支撑特征信息的平均值，并将所述平均值作为所述支撑集的第二支撑特征信息。6.根据权利要求1所述的语音识别方法，其特征在于，所述特征提取网络包括cnn网络或resnet网络中的一种。7.根据权利要求1所述的语音识别方法，其特征在于，所述计算所述第二特征信息与每个支撑集对应的支撑特征信息的相似度，包括：分别获取所述第二特征信息的第一特征向量表示、所述支撑特征信息的第二特征向量表示；计算所述第一特征向量表示与所述第二特征向量表示之间的余弦相似度。8.一种语音识别装置，其特征在于，包括：特征提取模块，用于利用预先训练好的特征提取网络从用户输入的待识别语音信息中提取第一特征信息；特征转换模块，用于利用预先训练好的自注意力神经网络将所述第一特征信息转换为与识别任务相关的第二特征信息；相似度计算模块，用于计算所述第二特征信息与预设的每个支撑集中支撑特征信息的相似度，所述每个支撑集对应一种语音类型；确认模块，用于确认相似度最高的支撑特征信息指向的支撑集对应的目标语音类型；识别模块，用于根据所述目标语音类型的音素识别规则识别所述待识别语音信息的音素，并根据所述音素生成文本。9.一种计算机设备，其特征在于，所述计算机设备包括处理器、与所述处理器耦接的存储器，所述存储器中存储有程序指令，所述程序指令被所述处理器执行时，使得所述处理器执行如权利要求1
‑
7中任一项权利要求所述的语音识别方法的步骤。10.一种存储介质，其特征在于，所述存储介质存储有能够实现如权利要求1
‑
7中任一项所述的语音识别方法的程序指令。

技术总结
本发明公开了一种语音识别方法、装置、计算机设备及存储介质，其中，方法包括：利用预先训练好的特征提取网络从用户输入的待识别语音信息中提取第一特征信息；利用预先训练好的自注意力神经网络将第一特征信息转换为与识别任务相关的第二特征信息；计算第二特征信息与预设的每个支撑集中支撑特征信息的相似度，每个支撑集对应一种语音类型；确认相似度最高的支撑特征信息指向的支撑集对应的目标语音类型；根据目标语音类型的音素识别规则识别待识别语音信息的音素，并根据音素生成文本。本发明能够利用与识别任务相关的特征完成语音识别，降低了对特征提取网络泛化能力的要求。降低了对特征提取网络泛化能力的要求。降低了对特征提取网络泛化能力的要求。

技术研发人员：张旭龙王健宗
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2021.06.30
技术公布日：2021/9/21

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种TTS系统性能测试方法、装置、设备及介质与流程

语音识别方法、装置、计算机设备及存储介质与流程

相关文章

最热文献