语音端点检测方法、装置、电子设备和存储介质与流程

2021-09-04 08:43:00 来源：中国专利 TAG：语音电子设备交互检测方法装置

技术特征：
1.一种语音端点检测方法，其特征在于，包括：获取语音数据流的实时转写文本，以及所述语音数据流的语音段；基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音；基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。2.根据权利要求1所述的语音端点检测方法，其特征在于，所述基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，包括：对所述语音段的内容特征进行字符解码，将字符解码结果确定为所述静音检测序列；所述内容特征是融合所述实时转写文本的语义特征和所述语音段的语音特征得到的。3.根据权利要求2所述的语音端点检测方法，其特征在于，所述对所述语音段的内容特征进行字符解码，包括：基于所述语义特征和当前解码时刻的解码状态，对所述语音特征进行注意力转换，得到所述当前解码时刻的语音上下文特征；基于所述当前解码时刻的语音上下文特征，确定所述当前解码时刻的内容特征；基于所述当前解码时刻的内容特征进行字符解码，得到所述当前解码时刻的解码结果；其中，所述当前解码时刻的解码状态是基于上一解码时刻的解码状态和解码结果确定的，所述字符解码结果为最终解码时刻的解码结果。4.根据权利要求3所述的语音端点检测方法，其特征在于，所述基于所述语义特征和当前解码时刻的解码状态，对所述语音特征进行注意力转换，得到所述当前解码时刻的语音上下文特征，包括：基于所述语义特征和当前解码时刻的解码状态，确定所述语音特征中每一帧特征的注意力权重；基于每一帧特征的注意力权重，对每一帧特征进行加权融合，得到所述当前解码时刻的语音上下文特征。5.根据权利要求1所述的语音端点检测方法，其特征在于，所述基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测，包括：基于所述语音段的时长和所述静音检测序列的长度，确定所述语音段中各片段的时间边界；基于所述语音数据流中各语音段的静音检测序列和各片段的时间边界，对所述语音数据流进行语音端点检测。6.根据权利要求1所述的语音端点检测方法，其特征在于，所述获取语音数据流的实时转写文本，包括：基于所述语音数据流中各语音帧的音频能量，对所述语音数据流进行静音片段过滤；对静音片段过滤后的语音数据流进行实时转写，得到所述实时转写文本。7.根据权利要求1至6中任一项所述的语音端点检测方法，其特征在于，所述语音数据流的起始点为上一有效语音片段的尾端点。
8.一种语音端点检测装置，其特征在于，包括：数据获取单元，用于获取语音数据流的实时转写文本，以及所述语音数据流的语音段；静音检测单元，用于基于所述实时转写文本的语义特征，以及所述语音段的语音特征，对所述语音段进行静音检测，得到所述语音段的静音检测序列，所述静音检测序列表示所述语音段中若干个连续片段为活动语音或静音；端点检测单元，用于基于所述语音段的静音检测序列，对所述语音数据流进行语音端点检测。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音端点检测方法的步骤。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音端点检测方法的步骤。

技术总结
本发明提供一种语音端点检测方法、装置、电子设备和存储介质，其中方法包括：获取语音数据流的实时转写文本，以及语音数据流的语音段；基于实时转写文本的语义特征，以及语音段的语音特征，对语音段进行静音检测，得到语音段的静音检测序列；基于语音段的静音检测序列，对语音数据流进行语音端点检测。本发明提供的方法、装置、电子设备和存储介质，为静音检测提供语义特征作为参考的同时，兼顾了语音端点检测的运行效率，有助于实时的、低功耗的语音端点检测的实现。静音检测结合了语音特征和语义特征，能够大大提高语音端点检测的抗干扰能力，过滤无具体语义或者语义无关的语音片段，避免误触发导致人机交互过程提前中断的问题。题。题。

技术研发人员：王庆然万根顺高建清刘聪王智国胡国平
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：2021.06.24
技术公布日：2021/9/3

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种口语发音评测方法、装置、介质以及设备与流程

语音端点检测方法、装置、电子设备和存储介质与流程

相关文章

最热文献