识别模型的训练方法、识别方法、电子设备及存储介质与流程

2022-04-02 04:36:22 来源：中国专利 TAG：

技术特征：
1.一种识别模型的训练方法，包括：获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、所述第一语音样本的第一标签以及所述第二语音样本的第二标签；其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行从文本到语音tts处理而得到的语音数据；获取所述第一语音样本的第一声学特征和所述第二语音样本的第二声学特征；利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型，所述识别模型用于识别待识别语音数据中是否存在所述唤醒词。2.根据权利要求1所述的方法，其中，所述第一标签用于表征所述第一语音样本中包含所述唤醒词，所述第二标签用于表征所述第二语音样本中不包含所述唤醒词。3.根据权利要求1所述的方法，其中，所述利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型，包括：利用所述第一语音样本的抽象特征和时序特征、以及所述第二语音样本的抽象特征和时序特征训练所述识别模型；其中，所述第一语音样本的抽象特征和时序特征由所述识别模型依据所述第一声学特征而得到，所述第二语音样本的抽象特征和时序特征由所述识别模型依据所述第二声学特征而得到。4.根据权利要求1至3中任一项所述的方法，其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。5.根据权利要求4所述的方法，其中，所述第二语音样本包括对不包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。6.一种语音识别方法，包括：获取待识别语音数据；获取所述待识别语音数据的待识别声学特征；将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否存在唤醒词进行识别；其中，所述识别模型为采用语音样本进行训练而得到，所述语音样本中包括包含所述唤醒词的语音数据，所述包含所述唤醒词的语音数据通过对包含所述唤醒词的文本数据进行从文本到语音tts的处理而得到。7.根据权利要求6所述的方法，还包括：将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的各帧数据；所述获取所述待识别语音数据的待识别声学特征，将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否包含唤醒词进行识别，包括：获取所述各帧数据的待识别声学特征；将所述各帧数据的待识别声学特征输入至所述识别模型，由所述识别模型依据所述各帧数据的待识别声学特征对所述各帧数据中是否存在所述唤醒词进行识别。8.根据权利要求6所述的方法，还包括：将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的所有帧数据；
对所述所有帧数据进行滑动窗口的滑动；获取目标声学特征，所述目标声学特征为每滑动一次所述滑动窗口时位于所述滑动窗口内的帧数据的声学特征；所述将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否存在唤醒词进行识别，包括：将所述目标声学特征输入至所述识别模型，由所述识别模型依据所述目标声学特征对位于所述滑动窗口内的所述帧数据中是否存在唤醒词进行识别。9.根据权利要求6所述的方法，其中，所述识别模型为采用语音样本进行训练而得到，所述语音样本中包括包含所述唤醒词的语音数据，所述包含所述唤醒词的语音数据通过对包含所述唤醒词的文本数据进行从文本到语音tts的处理而得到，包括：所述语音样本包括包含所述唤醒词的第一语音样本以及不包括所述唤醒词的第二语音样本，所述第一语音样本通过对包含所述唤醒词的文本数据进行从文本到语音tts的处理而得到；所述语音样本还包括用于表征所述第一语音样本包含所述唤醒词的第一标签、以及用于表征所述第二语音样本不包含所述唤醒词的第二标签；所述识别模型为采用所述第一语音样本的第一声学特征、所述第二语音样本的第二声学特征、所述第一标签和所述第二标签进行训练而得到。10.根据权利要求9所述的方法，其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。11.根据权利要求10所述的方法，其中，所述第二语音样本包括对不包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。12.一种识别模型的训练设备，包括：第一获取单元，用于获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、所述第一语音样本的第一标签以及所述第二语音样本的第二标签；其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行从文本到语音tts处理而得到的语音数据；第二获取单元，用于获取所述第一语音样本的第一声学特征和所述第二语音样本的第二声学特征；训练单元，用于利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型，所述识别模型用于识别待识别语音数据中是否存在所述唤醒词。13.根据权利要求12所述的设备，其中，所述第一标签用于表征所述第一语音样本中包含所述唤醒词，所述第二标签用于表征所述第二语音样本中不包含所述唤醒词。14.根据权利要求12所述的设备，其中，所述训练单元，用于利用所述第一语音样本的抽象特征和时序特征、以及所述第二语音样本的抽象特征和时序特征训练所述识别模型；其中，所述第一语音样本的抽象特征和时序特征由所述识别模型依据所述第一声学特征而得到，所述第二语音样本的抽象特征和时序特征由所述识别模型依据所述第二声学特征而得到。15.根据权利要求12至14中任一项所述的设备，其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。
16.根据权利要求15所述的设备，其中，所述第二语音样本包括对不包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。17.一种语音识别设备，包括：第一获取单元，用于获取待识别语音数据；第二获取单元，用于获取所述待识别语音数据的待识别声学特征；控制输入单元，用于将所述待识别声学特征输入至识别模型，由所述识别模型依据所述待识别声学特征对所述待识别语音数据中是否存在唤醒词进行识别；其中，所述识别模型为采用语音样本进行训练而得到，所述语音样本中包括包含所述唤醒词的语音数据，所述包含所述唤醒词的语音数据通过对包含所述唤醒词的文本数据进行从文本到语音tts的处理而得到。18.根据权利要求17所述的设备，还包括：第一分帧单元，用于将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的各帧数据；所述第二获取单元，用于获取所述各帧数据的待识别声学特征；所述控制输入单元，用于将所述各帧数据的待识别声学特征输入至所述识别模型，由所述识别模型依据所述各帧数据的待识别声学特征对所述各帧数据中是否存在所述唤醒词进行识别。19.根据权利要求17所述的设备，还包括：第二分帧单元，用于将所述待识别语音数据进行分帧处理，得到所述待识别语音数据的所有帧数据；滑动单元，用于对所述所有帧数据进行滑动窗口的滑动；第二获取单元，用于获取目标声学特征，所述目标声学特征为每滑动一次所述滑动窗口时位于所述滑动窗口内的帧数据的声学特征；所述控制输入单元，用于将所述目标声学特征输入至所述识别模型，由所述识别模型依据所述目标声学特征对位于所述滑动窗口内的所述帧数据中是否存在唤醒词进行识别。20.根据权利要求17所述的设备，其中，所述语音样本包括包含所述唤醒词的第一语音样本以及未包括所述唤醒词的第二语音样本，所述第一语音样本通过对包含所述唤醒词的文本数据进行从文本到语音tts的处理而得到；所述语音样本还包括用于表征所述第一语音样本包含所述唤醒词的第一标签、以及用于表征所述第二语音样本不包含所述唤醒词的第二标签；所述识别模型为采用所述第一语音样本的第一声学特征、所述第二语音样本的第二声学特征、所述第一标签和所述第二标签进行训练而得到。21.根据权利要求20所述的设备，其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。22.根据权利要求21所述的设备，其中，所述第二语音样本包括对不包含所述唤醒词的文本数据进行tts处理、并对tts处理得到的数据进行变速之后得到的语音数据。23.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，
所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5和或权利要求6-11中任一项所述的方法。24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5和或权利要求6-11中任一项所述的方法。25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5和或权利要求6-11中任一项所述的方法。

技术总结
本公开提供了一种识别模型的训练方法、识别方法、电子设备及存储介质，涉及人工智能领域，尤其涉及语音识别、深度学习等技术领域。具体实现方案为：获取包含唤醒词的第一语音样本、不包含唤醒词的第二语音样本、所述第一语音样本的第一标签以及所述第二语音样本的第二标签；其中，所述第一语音样本包括对包含所述唤醒词的文本数据进行从文本到语音TTS处理而得到的语音数据；获取所述第一语音样本的第一声学特征和所述第二语音样本的第二声学特征；利用所述第一声学特征、所述第二声学特征、所述第一标签和所述第二标签训练识别模型。根据本公开，可降低样本数据的采集时间和成本。可降低样本数据的采集时间和成本。可降低样本数据的采集时间和成本。

技术研发人员：何长青邹赛赛
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2021.12.21
技术公布日：2022/4/1

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音降噪方法、系统、电子设备和存储介质与流程

识别模型的训练方法、识别方法、电子设备及存储介质与流程

相关文献

最热文献