一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

交互权切换方法、装置、电子设备和存储介质与流程

2023-03-28 20:44:25 来源:中国专利 TAG:

技术特征:
1.一种交互权切换方法,其特征在于,包括:确定交互场景下的视频数据,以及所述视频数据指示的初始交互人员;基于所述视频数据,确定所述交互场景下的各个人员的唇部数据;在检测到唤醒词的情况下,基于所述唤醒词对应的语音数据,以及所述各个人员的唇部数据,确定输出所述唤醒词的潜在交互人员;在所述潜在交互人员和所述初始交互人员为不同人员的情况下,基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换。2.根据权利要求1所述的交互权切换方法,其特征在于,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:基于所述视频数据,确定所述潜在交互人员的图像交互意图,所述图像交互意图包括手势交互意图、姿态交互意图、动作交互意图中的至少一种;和/或,基于所述交互场景下的交互语音,确定所述潜在交互人员的语音交互意图;基于所述图像交互意图和/或所述语音交互意图,进行交互。3.根据权利要求2所述的交互权切换方法,其特征在于,所述基于所述交互场景下的交互语音,确定所述潜在交互人员的语音交互意图,包括:基于所述潜在交互人员的唇部数据,对所述交互语音进行语音分离和/或语音端点检测,得到所述潜在交互人员的有效语音;基于所述潜在交互人员的唇部数据,对所述有效语音进行语音识别,并基于语音识别所得的识别文本进行意图识别,得到所述潜在交互人员的语音交互意图。4.根据权利要求1至3中任一项所述的交互权切换方法,其特征在于,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:基于所述交互场景下的交互语音,确定目标交互人员的语音交互意图,所述目标交互人员为处于所述交互场景下,且在所述潜在交互人员之前的预设数量个交互人员;基于所述视频数据,确定所述目标交互人员的脸部数据;基于所述目标交互人员的脸部数据和语音交互意图,进行交互。5.根据权利要求1至3中任一项所述的交互权切换方法,其特征在于,所述基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换,之后还包括:获取所述潜在交互人员的声源定位结果,以及视觉定位结果;基于所述声源定位结果,以及所述视觉定位结果,对所述潜在交互人员进行定向追踪;所述声源定位结果基于所述交互场景下的麦克风阵列对所述潜在交互人员进行声源定位得到,所述视觉定位结果基于所述交互场景下的摄像头对所述潜在交互人员进行视觉定位得到。6.根据权利要求1至3中任一项所述的交互权切换方法,其特征在于,所述基于所述视频数据,确定所述交互场景下的各个人员的唇部数据,包括:基于所述视频数据中的各帧图像进行人体追踪,得到所述交互场景下的各个人员在所述各帧图像中的人体区域;对各个人体区域进行人脸检测,得到所述各个人员在所述各帧图像中的人脸区域,并对各个人脸区域进行关键点检测,得到各个人员在各帧图像中的唇部数据。7.根据权利要求6所述的交互权切换方法,其特征在于,所述基于所述视频数据中的各
帧图像进行人体追踪,得到所述交互场景下的各个人员在所述各帧图像中的人体区域,包括:基于所述视频数据中的各帧图像进行人体检测,得到所述各帧图像中的人体区域;基于相邻帧图像中各个人体区域的重叠面积,对所述各个人体区域所对应的各个人员进行人体追踪,得到所述交互场景下的各个人员在所述各帧图像中的人体区域。8.一种交互权切换装置,其特征在于,包括:确定单元,用于确定交互场景下的视频数据,以及所述视频数据指示的初始交互人员;人脸检测单元,用于基于所述视频数据,确定所述交互场景下的各个人员的唇部数据;唇音检测单元,用于在检测到唤醒词的情况下,基于所述唤醒词对应的语音数据,以及所述各个人员的唇部数据,确定输出所述唤醒词的潜在交互人员;交互权切换单元,用于在所述潜在交互人员和所述初始交互人员为不同人员的情况下,基于所述潜在交互人员的身份标号,对所述初始交互人员进行交互权切换。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的交互权切换方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的交互权切换方法。

技术总结
本发明提供一种交互权切换方法、装置、电子设备和存储介质,其中方法包括:确定交互场景下的视频数据,以及视频数据指示的初始交互人员;基于视频数据,确定交互场景下的各个人员的唇部数据;在检测到唤醒词的情况下,基于唤醒词对应的语音数据,以及各个人员的唇部数据,确定输出唤醒词的潜在交互人员,在潜在交互人员和初始交互人员为不同人员的情况下,基于潜在交互人员的身份标号,对初始交互人员进行交互权切换,实现了多人场景下的交互权切换,克服了传统方案中多人交互时,交互权难以转换的缺陷,能够对各个人员进行稳定追踪,实现了潜在交互人员的精准定位,以及交互权的稳步切换。步切换。步切换。


技术研发人员:王庆然 万根顺 熊世富 赵艳军 吴如松 高建清 潘嘉 刘聪 胡国平 刘庆峰
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2022.11.17
技术公布日:2023/3/10
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献