语音端点检测方法、装置、电子设备和存储介质与流程

2021-09-04 08:56:00 来源：中国专利 TAG：语音电子设备交互检测方法装置

技术特征：
1.一种语音端点检测方法，其特征在于，包括：获取语音数据流中各语音帧的语音特征和声学状态后验特征；对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。2.根据权利要求1所述的语音端点检测方法，其特征在于，所述获取语音数据流中各语音帧的语音特征和声学状态后验特征，包括：以所述语音数据流中任一语音帧为中心，从所述语音数据流中提取预设长度的语音帧序列，作为所述任一语音帧的参考序列；基于所述任一语音帧的参考序列，确定所述任一语音帧的语音特征和声学状态后验特征。3.根据权利要求1所述的语音端点检测方法，其特征在于，所述对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征，包括：基于压缩编码器，对各语音帧的语音特征和声学状态后验特征进行融合压缩，得到各语音帧的语义融合特征；所述压缩编码器是与解码器联合训练得到的，所述解码器用于还原经过所述压缩编码器压缩的特征。4.根据权利要求3所述的语音端点检测方法，其特征在于，所述压缩编码器是基于如下步骤确定的：确定初始模型，所述初始模型包括通过注意力机制连接的编码器和解码器；以输入所述初始模型的样本特征和所述初始模型输出的还原特征一致为目标，训练所述初始模型，并将训练完成的初始模型中的编码器作为所述压缩编码器。5.根据权利要求1至4中任一项所述的语音端点检测方法，其特征在于，所述基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测，包括：基于各语音帧的语义融合特征，以及各语音帧的前后语音帧的语义融合特征，确定各语音帧的静音检测结果；基于各语音帧的静音检测结果，确定所述语音数据流的语音端点检测结果。6.根据权利要求5所述的语音端点检测方法，其特征在于，所述基于各语音帧的语义融合特征，以及各语音帧的前后语音帧的语义融合特征，确定各语音帧的静音检测结果，包括：基于各语音帧的语义融合特征，分别对各语音帧进行静音检测，得到各语音帧的初始检测概率；基于任一语音帧及其前后语音帧的初始检测概率和融合权重，确定所述任一语音帧的静音检测结果，所述融合权重是是基于对应语音帧与所述任一语音帧之间的时间间隔确定的。7.根据权利要求6所述的语音端点检测方法，其特征在于，所述基于各语音帧的语义融合特征，分别对各语音帧进行静音检测，得到各语音帧的初始检测概率，包括：对任一语音帧的语义融合特征做多头注意力转换，得到所述任一语音帧的隐层特征；基于所述任一语音帧的隐层特征，对所述任一语音帧进行静音检测，得到所述任一语
音帧的初始检测概率。8.一种语音端点检测装置，其特征在于，包括：特征提取单元，用于获取语音数据流中各语音帧的语音特征和声学状态后验特征；特征融合单元，用于对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；端点检测单元，用于基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音端点检测方法的步骤。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音端点检测方法的步骤。

技术总结
本发明提供一种语音端点检测方法、装置、电子设备和存储介质，其中方法包括：获取语音数据流中各语音帧的语音特征和声学状态后验特征；对各语音帧的语音特征和声学状态后验特征进行融合，得到各语音帧的语义融合特征；基于各语音帧的语义融合特征，对所述语音数据流进行语音端点检测。本发明提供的方法、装置、电子设备和存储介质，通过融合各语音帧的语音特征和声学状态后验特征进行语音端点检测，能够提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。其中，声学状态后验特征中语义信息的应用，极大减低了计算量，保证了端点检测的实时性和低延迟性的需求。保证了端点检测的实时性和低延迟性的需求。保证了端点检测的实时性和低延迟性的需求。

技术研发人员：王庆然万根顺高建清刘聪王智国胡国平
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2021.06.24
技术公布日：2021/9/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音质检方法、装置、设备及存储介质与流程

语音端点检测方法、装置、电子设备和存储介质与流程

相关文章

最热文献