一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种视频会议发言人聚焦方法、装置、设备和介质与流程

2023-02-19 01:21:59 来源:中国专利 TAG:

技术特征:
1.一种视频会议发言人聚焦方法,其特征在于,所述方法包括:获取视频会议中任一时刻的目标图像和目标音频;根据所述目标音频确定所述目标音频对应的第一唇形特征向量;对所述目标图像进行人脸检测,确定参会人员的人脸区域图像,对所述人脸区域图像进行人脸关键点检测,确定所述参会人员的第二唇形特征向量,根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人,并将所述发言人进行突出显示。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标音频确定所述目标音频对应的第一唇形特征向量包括:基于预先训练完成的神经网络模型,确定输入的所述目标音频对应的第一唇形特征向量。3.根据权利要求2所述的方法,其特征在于,所述基于预先训练完成的神经网络模型,确定输入的所述目标音频对应的第一唇形特征向量包括:将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型,提取所述目标音频的第一特征向量,通过归一化对所述第一特征向量进行去相关处理,对处理后的第一特征向量降维,得到降维后的第二特征向量;针对第二特征向量中的每一维度的分量,根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系,确定该分量对应的目标关键点,根据所述目标关键点的第一坐标及该分量的数值,对所述第一坐标进行变换得到该目标关键点的第二坐标;根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系,将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。4.根据权利要求1所述的方法,其特征在于,所述对所述人脸区域图像进行人脸关键点检测,确定所述参会人员的第二唇形特征向量包括:对所述人脸区域图像进行人脸关键点检测,确定所述人脸区域图像的设定数量唇形关键点的第三坐标,对所述人脸区域图像的所述第三坐标进行校正,得到校正后的第四坐标,根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系,将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人包括:根据所述第一唇形特征向量和所述第二唇形特征向量,计算所述第二唇形特征向量和所述第一唇形特征向量的相似度,确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一唇形特征向量和所述第二唇形特征向量,计算所述第二唇形特征向量和所述第一唇形特征向量的相似度,确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人包括:根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标,计算所述第四坐标与对应的所述第二坐标的欧式距离;根据所述第四坐标与对应的所述第二坐标的欧式距离,确定所述第二唇形特征向量与
所述第一唇形特征向量的相似度;根据所述第二唇形特征向量与所述第一唇形特征向量的相似度,确定相似度最高的目标第二唇形特征向量对应的目标参会人员,并将所述目标参会人员确定为所述发言人。7.根据权利要求6所述的方法,其特征在于,所述根据所述第四坐标与对应的所述第二坐标的欧式距离,确定所述第二唇形特征向量与所述第一唇形特征向量的相似度包括:根据所述第四坐标与对应的所述第二坐标的欧式距离,将每个所述欧式距离的平均值的倒数确定为所述第二唇形特征向量与所述第一唇形特征向量的相似度。8.根据权利要求1所述的方法,其特征在于,所述将所述发言人进行突出显示包括:将所述发言人的目标人脸区域图像放大显示或设定位置显示。9.一种视频会议发言人聚焦装置,其特征在于,所述装置包括:获取模块,用于获取视频会议中任一时刻的目标图像和目标音频;确定模块,用于根据所述目标音频确定所述目标音频对应的第一唇形特征向量;对所述目标图像进行人脸检测,确定参会人员的人脸区域图像,对所述人脸区域图像进行人脸关键点检测,确定所述参会人员的第二唇形特征向量,根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人,并将所述发言人进行突出显示。10.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1-8任一项所述方法。

技术总结
本申请公开了一种视频会议发言人聚焦方法、装置、设备和介质,由于该方法中是确定目标音频对应的第一唇形特征向量和目标图像对应的每个参会人员的第二唇形特征向量,根据第一唇形特征向量和第二唇形特征向量的相似度,确定视频会议的发言人,并将发言人的目标人脸区域图像突出显示,从而实现了准确地定位发言人的位置,提高了发言人聚焦的定位精度。提高了发言人聚焦的定位精度。提高了发言人聚焦的定位精度。


技术研发人员:翟世平 高雪松 陈维强 曲磊
受保护的技术使用者:海信集团控股股份有限公司
技术研发日:2021.08.13
技术公布日:2023/2/17
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献