技术特征:
1.一种基于实时人脸辅助的语音端点检测方法,其特征在于:包括以下步骤:
步骤一,通过实时图像录取设备,获取用户面部的实时影像信息,并将影像信息传输至后台的控制中心,利用图像处理技术,对影像信息进行特征提取,获取影像信息中与用户面部相关的动作帧;
步骤二,提取用户面部特征,根据面部特征,确定数量不同的基准点,利用基准点构建用户的面部动作数据库,每个特定的面部动作由数个基准点组成,将步骤一中获取的动作帧与面部动作数据库中的面部特征进行对比,获取用户是否进行语言动作的信息;
步骤三,当获取用户进行语言动作的确定信息后,实时计算用户开始进行语言动作的时间和结束语言动作的时间,从而获取语言动作的两个时间端点和时间累计信息;
步骤四,设定语音获取设备的工作时限,将语音获取设备的启动单元与后台的控制中心连接,控制中心基于步骤三中语言动作的两端时间端点对语音获取设备进行启动和关闭,获取与用户相关的语音信息;
步骤五,将步骤四中获取的语音信息分割为多段语音帧段,并预设语音帧段的短时能量和过零率,然后计算每一帧的短时能量和过零率,根据计算结果判定语音端点。
2.根据权利要求1所述的一种基于实时人脸辅助的语音端点检测方法,其特征在于:所述步骤五中分割的语音帧段包括静音段、过度段、语音段和结束段。
3.根据权利要求2所述的一种基于实时人脸辅助的语音端点检测方法,其特征在于:将语音帧段的短时能量预设两个门限值α1和α2,将语音帧段的过零率预设两个门限值β1和β2;
其中,α2>α1,β1>β2。
4.根据权利要求3所述的一种基于实时人脸辅助的语音端点检测方法,其特征在于:连续计算每一帧的短时能量α和过零率β;
若α>α1&&β>β1,进入过渡段;
若α>α2&&β>β2,判定语音尚未开始,语音端点未确定;
继续计算下一帧的短时能量和过零率,若α<α2&&β<β2,判定语音开始,确定语音端点。
技术总结
本发明公开了一种基于实时人脸辅助的语音端点检测方法,具体涉及语音识别技术领域,包括以下步骤:通过实时图像录取设备,获取用户面部的实时影像信息,并将影像信息传输至后台的控制中心,利用图像处理技术,对影像信息进行特征提取,获取影像信息中与用户面部相关的动作帧;提取用户面部特征,根据面部特征,确定数量不同的基准点,利用基准点构建用户的面部动作数据库,每个特定的面部动作由数个基准点组成,将上述获取的动作帧与面部动作数据库中的面部特征进行对比。本发明极大的降低了进行语音端点检测过程中的操作程序,也使进行处理的语音信息总量得到了减少,从而提升了语音端点检测的速率,提高了实用性。
技术研发人员:鱼海航
受保护的技术使用者:深圳鱼亮科技有限公司
技术研发日:2021.03.31
技术公布日:2021.07.23
本文用于企业家、创业者技术爱好者查询,结果仅供参考。