交互权切换方法、装置、电子设备和存储介质与流程

2023-04-05 01:07:59 来源：中国专利 TAG：

1.本发明涉及语音交互技术领域，尤其涉及一种交互权切换方法、装置、电子设备和存储介质。

背景技术：

2.随着语音识别技术的发展，其所应用的场景越来越复杂，从最初安静场景下的普通话识别，至如今高噪声复杂场景下携带口音、小语种、方言等识别，其面临的挑战越来越大，环境越来越恶劣。
3.目前，多采用多模态技术去解决高噪声场景下的识别问题，其使用音视频信息作为输入，通过音视频的融合提升语音识别的准确率，但是，当前的多模态技术多用于单人场景，如汽车主驾驶人、医院自助交互终端等，其在单人场景中应用广泛；然而，对于开放式的多人场景，如指挥调度大屏，公共场景下的交互大屏等，此种情况下交互对象往往不止一个，此时单人场景的多模态技术无法针对不同交互对象进行角色定位，以及据其交互意愿进行交互权切换。

技术实现要素：

4.本发明提供一种交互权切换方法、装置、电子设备和存储介质，用以解决现有技术中多人交互时，交互权难以转换的缺陷，实现了各个人员的稳定追踪、潜在交互人员的精准定位以及交互权的稳步切换。
5.本发明提供一种交互权切换方法，包括：
6.确定交互场景下的视频数据，以及所述视频数据指示的初始交互人员；
7.基于所述视频数据，确定所述交互场景下的各个人员的唇部数据；
8.在检测到唤醒词的情况下，基于所述唤醒词对应的语音数据，以及所述各个人员的唇部数据，确定输出所述唤醒词的潜在交互人员；
9.在所述潜在交互人员和所述初始交互人员为不同人员的情况下，基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换。
10.根据本发明提供的一种交互权切换方法，所述基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换，之后还包括：
11.基于所述视频数据，确定所述潜在交互人员的图像交互意图，所述图像交互意图包括手势交互意图、姿态交互意图、动作交互意图中的至少一种；
12.和/或，基于所述交互场景下的交互语音，确定所述潜在交互人员的语音交互意图；
13.基于所述图像交互意图和/或所述语音交互意图，进行交互。
14.根据本发明提供的一种交互权切换方法，所述基于所述交互场景下的交互语音，确定所述潜在交互人员的语音交互意图，包括：
15.基于所述潜在交互人员的唇部数据，对所述交互语音进行语音分离和/或语音端
点检测，得到所述潜在交互人员的有效语音；
16.基于所述潜在交互人员的唇部数据，对所述有效语音进行语音识别，并基于语音识别所得的识别文本进行意图识别，得到所述潜在交互人员的语音交互意图。
17.根据本发明提供的一种交互权切换方法，所述基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换，之后还包括：
18.基于所述交互场景下的交互语音，确定目标交互人员的语音交互意图，所述目标交互人员为处于所述交互场景下，且在所述潜在交互人员之前的预设数量个交互人员；
19.基于所述视频数据，确定所述目标交互人员的脸部数据；
20.基于所述目标交互人员的脸部数据和语音交互意图，进行交互。
21.根据本发明提供的一种交互权切换方法，所述基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换，之后还包括：
22.获取所述潜在交互人员的声源定位结果，以及视觉定位结果；
23.基于所述声源定位结果，以及所述视觉定位结果，对所述潜在交互人员进行定向追踪；
24.所述声源定位结果基于所述交互场景下的麦克风阵列对所述潜在交互人员进行声源定位得到，所述视觉定位结果基于所述交互场景下的摄像头对所述潜在交互人员进行视觉定位得到。
25.根据本发明提供的一种交互权切换方法，所述基于所述视频数据，确定所述交互场景下的各个人员的唇部数据，包括：
26.基于所述视频数据中的各帧图像进行人体追踪，得到所述交互场景下的各个人员在所述各帧图像中的人体区域；
27.对各个人体区域进行人脸检测，得到所述各个人员在所述各帧图像中的人脸区域，并对各个人脸区域进行关键点检测，得到各个人员在各帧图像中的唇部数据。
28.根据本发明提供的一种交互权切换方法，所述基于所述视频数据中的各帧图像进行人体追踪，得到所述交互场景下的各个人员在所述各帧图像中的人体区域，包括：
29.基于所述视频数据中的各帧图像进行人体检测，得到所述各帧图像中的人体区域；
30.基于相邻帧图像中各个人体区域的重叠面积，对所述各个人体区域所对应的各个人员进行人体追踪，得到所述交互场景下的各个人员在所述各帧图像中的人体区域。
31.本发明还提供一种交互权切换装置，包括：
32.确定单元，用于确定交互场景下的视频数据，以及所述视频数据指示的初始交互人员；
33.人脸检测单元，用于基于所述视频数据，确定所述交互场景下的各个人员的唇部数据；
34.唇音检测单元，用于在检测到唤醒词的情况下，基于所述唤醒词对应的语音数据，以及所述各个人员的唇部数据，确定输出所述唤醒词的潜在交互人员；
35.交互权切换单元，用于在所述潜在交互人员和所述初始交互人员为不同人员的情况下，基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换。
36.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理
器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的交互权切换方法。
37.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的交互权切换方法。
38.本发明提供的交互权切换方法、装置、电子设备和存储介质，通过交互场景下的视频数据，对该场景下的各个人员进行人体追踪和人脸检测，并结合各个人员的唇部数据，以及唤醒词对应的语音数据进行唇音一致性检测，得到检测结果，通过检测结果可以精准定位输出唤醒词的潜在交互人员，通过潜在交互人员的身份标号，对初始交互人员进行交互权切换，实现了多人场景下的交互权切换，克服了传统方案中多人交互时，交互权难以转换的缺陷，能够对多人场景下的各个人员进行稳定追踪，实现了潜在交互人员的精准定位，以及交互权的稳步切换。
附图说明
39.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
40.图1是本发明提供的交互权切换方法的流程示意图；
41.图2是本发明提供的多模态交互过程的流程示意图之一；
42.图3是本发明提供的多模态交互过程中步骤220的流程示意图；
43.图4是本发明提供的多模态交互过程的流程示意图之二；
44.图5是本发明提供的定向追踪过程的流程示意图；
45.图6是本发明提供的交互权切换方法中步骤120的流程示意图；
46.图7是本发明提供的交互权切换方法中步骤121的流程示意图；
47.图8是本发明提供的交互权切换装置的结构示意图；
48.图9是本发明提供的电子设备的结构示意图。
具体实施方式
49.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
50.随着语音识别技术的发展，其所应用的场景越来越复杂，从最初安静场景下的普通话识别，至如今高噪声复杂场景下携带口音、小语种、方言等识别，其所面临的挑战不仅仅是口音和语种，更多的在于复杂场景下的高噪声，即如何实现高噪声复杂场景下精准的语音识别。
51.对于噪声干扰，大概可以分为以下几类：环境噪声/人声干扰、不同信噪比的干扰，以及同音区和非同音区的干扰。噪声从来源上可以划分为环境噪声和人为噪声，其中环境噪声大多较为单一，常见于自然环境声、音乐声、敲击声、摩擦声等，并且其语音频谱单一，
与人声之间的差异明显，但是环境噪声的噪声源位置不固定，常见于多点噪声干扰。人为噪声则为主要的干扰，常见于会议中非主说话人的干扰语音，或非目标说话人的干扰语音，此类干扰语音与主说话人或目标说话人的语音的频谱差异较小，往往难以区分。
52.其中，非同音区(拾音设备与目标说话人处于同一拾音区域，非目标说话人处于另一拾音区域)的干扰可以通过波束收窄的方案避免，但是，同音区的干扰(目标说话人、非目标说话和拾音设备处于同一拾音区域)目前难以通过相应手段避免。并且，随着两种噪声和有效语音的信噪比的不断降低，语音识别的环境将会愈来愈恶劣。
53.而为了解决高噪声场景下的识别问题，目前多通过基于音视频的多模态术，其使用音视频作为输入，通过音视频的融合能够提升语音识别的准确率，同时也能缓解当目标说话人没有说话时，噪声导致的误识别的情况；由此可见，多模态技术在高噪声复杂场景下具有天然优势，但是其多适用于单人场景，例如，汽车主驾驶人，地铁购票机、医院的自助交互终端等，并且在单人场景中取得了较为广泛的应用。此类场景下的交互对象为单个，即使是排队，也是在前一位结束交互之后，再切换至下一位进行交互。
54.但是，在开放式的多人场景下，例如，指挥调度大屏、公共场景下的组装交互大屏(与虚拟形象结合交互)等，画面中出现的潜在交互对象往往不止一个，此时前述的单人场景的多模态技术无法针对不同交互对象的交互意愿进行交互权切换。
55.进一步地，目前的多模态技术可以分为两个部分，其一是基于视觉的人脸检测，其二是基于语音和视频融合的多模态交互。其中，前者能够在各帧图像中检测出可能的人脸并返回人脸的范围坐标，再通过face align技术，在人脸区域检测出五官的特征轮廓点，并将其输入至下游的多模态交互任务中；多模态交互则是将人脸和对应的语音融合，同时利用语音和视频的多模态数据辅助单一的语音识别任务，以提升其识别效果和识别精度。
56.然而，上述多模态技术仅针对目标说话人的人脸效果明显，即在不需要转换目标说话人的情况下效果显著。而在开放式的多人场景下，其明显无法针对不同交互对象进行角色定位，以及据其交互意愿进行交互权切换。
57.参考传统的语音识别框架，对于交互权的获取，目前有借助唤醒词进行交互，以及通过声源定位进行目标说话人定位两种技术。其中，前者是通过输出唤醒词，以唤醒交互设备，从而使自身获得交互权；后者是通过麦克风阵列，对安静场景下某一发声声源进行探测并定位，其定位范围大，无法进行精确定位，并且对于环境的信噪比要求极高，在环境中的噪声干扰较多的情况下，其定位效果会大打折扣。
58.综上可知，目前的多模态技术，难以在开放式的多人场景下在目标说话人角色发生切换时，对切换对象进行角色定位和交互权的切换，主要原因在于：
59.其一，无法稳定地的追踪单一目标说话人：目前基于人脸检测的追踪算法易漏检和误检，在对一帧图像中所有可能的人脸进行检测时，若目标转头或者偏头，则极易追踪丢失，而就算目标稍后将头转正，再次检测到时也仅会将目标标记为新的说话人。
60.其二，多人场景下无法进行交互权切换：目前的交互技术的设计本源为单一交互对象，并且其限定单一交互对象的位置，要求其位置不出现较大范围的变动；而在开放式的多人场景下，若同一时间有多个潜在交互对象，其无法进行针对于不同的交互对象进行交互权切换。
61.其三，无法精确定位潜在交互对象：目前基于单模态语音的交互权获取方法，例
如，唤醒词交互、声源定位等，均只能定义一个大概的交互范围，并且其对环境的信噪比要求极高，在高噪声复杂场景下，难以在多人场景中进行潜在交互对象的精确定位。
62.对此，本发明提供一种交互权切换方法，旨在利用交互场景下的视频数据，对该场景下的各个人员进行人体追踪和人脸检测，并结合各个人员的唇部数据，以及唤醒词对应的语音数据进行唇音一致性检测，通过检测结果可以准确定位潜在交互人员，从而完成不同交互人员之间的交互权切换，克服了传统方案中无法在多人场景中针对不同交互人员进行角色定位和交互权切换的缺陷，能够在开放式的多人场景下对各个人员进行稳定追踪，实现了潜在交互人员的精准定位，以及交互权的稳步切换。图1是本发明提供的交互权切换方法的流程示意图，如图1所示，该方法的执行主体可以是交互设备，可以是直接控制交互设备的服务端，该方法包括：
63.步骤110，确定交互场景下的视频数据，以及视频数据指示的初始交互人员；
64.具体地，在进行交互权切换之前，首先需要确定交互场景下的视频数据，此处的视频数据即图像采集设备实时采集的交互场景下连续的交互图像数据，图像采集设备可以是相机、摄像头、摄像机等，其可以装设于交互设备上，也可以独立于交互设备之外，本发明实施例对此不做具体限定。
65.此处，在获取得到视频数据之后，还需据此视频数据确定交互场景下与交互设备进行交互的首位交互人员，即初始交互人员，其可以通过视频数据中前若干帧图像确定，具体可以是，通过对前若干帧图像进行人脸检测，从所有的检测结果中选取置信度最高的人脸区域，并将其对应的人员作为初始交互人员，或者是从所有符合检测阈值的检测结果中，选取面积最大的人脸区域，并将其对应的人员作为初始交互人员。此处的检测阈值可以是置信度阈值，也可以是面积阈值，还可以兼具此两者，其具体数值可以根据实际需求相应设定。
66.步骤120，基于视频数据，确定交互场景下的各个人员的唇部数据；
67.考虑到传统方案中在进行人脸追踪时，由于目标转头或者偏头，极易出现漏检和误检，以致追踪丢失的情况，本发明实施例不从人脸追踪入手，转而进行人体追踪，在此基础上进行人脸检测，通过人体追踪和人脸检测的绑定，可以在极大程度上避免目标的丢失，以及误检(将目标标记为新的交互人员)的情况，保证了人员的稳定追踪。
68.具体地，得到交互场景下的视频数据之后，即可执行步骤120，通过视频数据，确定各个人员的唇部数据，具体过程包括如下步骤：
69.由于人脸会因转头或者偏头在视频数据的几帧图像中消失，以致难以检出，追踪困难，比较而言人体追踪更加稳定，人体区域所占面积更大，据此求解对应人员的移动位置更加容易，因而，首先可以依据视频数据中的各帧图像进行人体追踪，以确定交互场景下的各个人员在各帧图像中的人体区域，具体可以是，通过各帧图像中人体区域的区域面积，实现视频数据中各帧图像下各个人员的人体追踪；
70.随即，可以在人体追踪得到的各帧图像中的人体区域的基础上，进行人脸检测，即对各个人员区域进行人脸检测，从而得到各个人员在各帧图像中的人脸区域，并可从此人脸区域中确定五官的关键点轮廓，从而能够从关键点轮廓中提取出各个人员的唇部数据，以备后续多人场景下的交互权切换，以及多模态交互任务。
71.此处，人体追踪和人脸检测的绑定不仅可以使得人脸检测更为简单高效，即仅需
在固定追踪的各帧图像中的人脸区域内进行人脸检测，可以在降低人脸检测干扰度的同时，大幅度地提升人脸检测的准确性，还可以使得追踪过程更为稳定，即使未在几帧图像中检测到对应人员的人脸，但是因为追踪的是人体而非人脸，而人体不会凭空消失，因而不会出现追踪对象跳变和追踪丢失的情况，依据前后帧图像中人体区域的重叠度，可以准确且稳定追踪到各个人员的移动轨迹，实现了交互场景下各个人员的有效追踪。
72.需要说明的是，此处的追踪其实不仅仅是针对于交互人员的追踪，还有对于交互场景下其他人员的追踪，针对于各个人员的追踪可以为交互权切换前的潜在交互人员的精准定位奠定基础，提供了定位潜在交互人员所需的辅助信息，为交互权切换的稳步进行提供了关键助力。
73.步骤130，在检测到唤醒词的情况下，基于唤醒词对应的语音数据，以及各个人员的唇部数据，确定输出唤醒词的潜在交互人员；
74.具体地，在步骤120，得到各个人员的唇部数据之后，即可执行步骤130，若检测到唤醒词，则根据唤醒词对应的语音数据，以及各个人员的唇部数据，确定输出唤醒词的潜在交互人员，具体过程包括：
75.在开放式的多人场景下，除当前交互人员之外，可能还有其他人员具备交互意图，此时这一人员可以通过输出特定的唤醒词，以唤醒交互设备，使其交互意图被明确，在对其进行精确定位的基础上，通过交互权的切换可以使得其具备交互能力，能够与交互设备进行交互。
76.首先，在人机交互的过程中，可以持续对交互场景进行语音检测，在检测到唤醒词的情况下，可以获取唤醒词对应的语音数据，此处，唤醒词用于触发交互设备中单模态(语音)的唤醒引擎，抛出唤醒状态，其为预先设定的特定词语，例如，可以是爱加你好、hey siri等。
77.其中，唤醒词对应的语音数据可以理解为唤醒时刻及其前后时刻的语音数据，其可以通过语音采集设备采集得到，此处的语音采集设备可以是麦克风、拾音笔等，其可以装设于交互设备上，也可以独立于交互设备之外，本发明实施例对此不做具体限定。
78.随即，可以利用唤醒词对应的语音数据，以及各个人员的唇部数据，精确定位具备交互意图的人员，具体可以是，以唤醒词对应的语音数据，以及各个人员的唇部数据为基准，对各个人员进行唇音一致性检测，以得到检测结果，即将唤醒前后时刻各个人员的唇部数据所反映的唇部动作，与语音数据中唤醒词的发音所对应的唇部动作进行对比，以验证各个人员的唇部动作与唤醒词的发音节奏是否对应，从而得到检测结果；
79.此后，即可参照唇音一致性检测所得的检测结果，确定输出唤醒词的潜在交互人员，即将检测结果为唇音一致时的唇部数据所对应的人员，作为具备交互意图的潜在交互人员，换而言之，是将语音数据和唇部数据指示唇动幅度和唤醒词对应的语音幅度一致的人员，作为具备交互意图的潜在交互人员，亦可以称为交互权切换人员。
80.较之传统基于单语音的唤醒交互，以及声源定位，此处通过唇音一致性检测实现交互人员角色切换时，对于潜在交互人员的角色定位更加准确，精确度更高，适用性更广，助益了后续交互权切换过程。
81.步骤140，在潜在交互人员和初始交互人员为不同人员的情况下，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换。
82.具体地，经过上述步骤，得到唇音一致性检测的检测结果之后，即可执行步骤140，据此检测结果，确定输出唤醒词的潜在交互人员，并依据该潜在交互人员的身份标号，进行交互权切换，具体过程包括：
83.首先，判断此次确定的潜在交互人员与当前交互人员(初始交互人员)是否是同一人员，具体可以借助潜在交互人员的身份标号和初始交互人员的身份标号，确定两者对应同一人员，还是属于不同人员；
84.进一步地，在潜在交互人员和初始交互人员为不同人员的情况下，确定进行交互权切换，具体可以是，在确定两者非同一人员时，确定潜在交互人员的身份标号，此处的身份标号是在追踪过程确定的，即在对交互场景下的各个人员进行追踪时，为各个人员标注了代表其身份的身份标号(identity document，id)，并可利用此身份标号进行交互权切换，即将交互权从初始交互人员的身份标号上，切换至潜在交互人员的身份标号上，以实现交互权的切换。切换后，潜在交互人员则为当前交互人员，具备交互权，能够与交互设备进行多模态交互。
85.本发明提供的交互权切换方法，通过交互场景下的视频数据，对该场景下的各个人员进行人体追踪和人脸检测，并结合各个人员的唇部数据，以及唤醒词对应的语音数据进行唇音一致性检测，得到检测结果，通过检测结果可以精准定位输出唤醒词的潜在交互人员，通过潜在交互人员的身份标号，对初始交互人员进行交互权切换，实现了多人场景下的交互权切换，克服了传统方案中多人交互时，交互权难以转换的缺陷，能够对多人场景下的各个人员进行稳定追踪，实现了潜在交互人员的精准定位，以及交互权的稳步切换。
86.基于上述实施例，步骤130中，基于唤醒词对应的语音数据，以及各个人员的唇部数据，进行唇音一致性检测，得到检测结果，包括：
87.基于唇音检测模型，对语音数据和唇部数据分别进行特征提取，并基于特征提取所得的语音特征和唇形特征进行唇音一致性检测，得到各个人员的检测结果；
88.唇音检测模型基于样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度训练得到。
89.具体地，步骤130中利用唤醒词对应的语音数据，以及各个人员的唇部数据，进行唇音一致性检测，得到检测结果的过程，具体包括：
90.此处，应用语音数据和唇部数据进行唇音一致性检测的过程，可以借助唇音检测模型实现，具体可以是，首先将唤醒词对应的语音数据，以及各个人员的唇部数据输入至唇音检测模型，以通过唇音检测模型分别对输入的语音数据和唇部数据进行特征提取，提取语音数据中蕴含的有关于唤醒词的发音(例如，发音动作、发音节奏等)的特征，以及唇部数据中表征对应人员的唇部形状、唇部动作等的特征，从而得到语音数据的语音特征，以及唇部数据的唇形特征；
91.接着，可以在特征提取所得的语音数据的语音特征，以及各个人员的唇部数据的唇形特征的基础上，应用唇音检测模型进行唇音一致性检测，以得到各个人员的检测结果，具体可以是，唇音检测模型据此语音特征，以及各个人员的唇形特征，对比唤醒前后时刻各个人员的唇形特征所反映的唇部动作，与语音特征所表征的唤醒词的发音体现于唇部的唇部动作间的一致性，通过唇音一致性的对比找到唇动幅度与唤醒词的语音幅度一致的人员，该人员即为输出唤醒词的潜在交互人员，而各个人员的唇音一致与否即为其检测结果。
92.值得注意的是，为保证唇音一致性检测的效率，本发明实施例中，在进行唇音一致性检测之前，还可对各个人员的唇部数据进行筛选，即从所有的唇部数据中选取唤醒前后时刻的唇部数据，此处的唤醒前后时刻可以根据检测到唤醒词的时刻确定，作为优选，本发明实施例中将唤醒词的检测时刻，以及该时刻前后2秒作为唤醒前后时刻。
93.另外，在将唤醒词对应的语音数据，以及各个人员的唇部数据输入至唇音检测模型之前，还可以应用样本语音数据和样本视频数据，预先训练得到唇音检测模型。区别于传统方案中采用多任务学习的方式进行模型训练，本发明实施例中考虑到多任务学习的训练方式要求不同模态间的抽象表征信息完全共享，若这一条件不成立，模型则无法聚合得到匹配的高维信息表达，从而使得模型的训练出现偏差，进而导致模型的检测性能不佳的情况，因此，采用样本语音特征所表征的语音幅度与样本唇形特征所表征的唇动幅度之间的一致性进行模型训练，以得到训练完成的唇音检测模型。
94.具体在进行模型训练时，首先，收集大量的样本语音数据和样本视频数据，此处的样本数据需包含唇音一致的数据和唇音不同的数据；随即，可以通过初始唇音检测模型，对样本语音数据和样本视频数据分别进行特征提取，以确定样本语音数据的样本语音特征，与样本视频数据的样本唇形特征；此后，即可通过样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度，对初始唇音检测模型进行训练，从而得到训练完成的唇音检测模型。
95.其中，唇音一致的样本语音数据和样本视频数据可以来源于同一音视频数据，其可以从同一音视频数据中分离得到，而唇音不同的样本语音数据和样本视频数据则可以来源于同一音视频的不同时段，或者来源于不同的音视频，此处可以是对某一音视频数据进行音轨剥离，再补充从另一音视频数据中分离得到的数据，由此即形成了唇音不同的样本语音数据和样本视频数据。
96.较之传统方案中使用预测值和标注值之间的误差驱动模型进行参数更新，本发明实施例中选用的样本语音数据和样本视频数据体现于唇部动作上的一致性的训练方式，无需以不同模态间的抽象表征信息完全共享为前提条件，并且应用样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度，训练初始唇音检测模型，能够使初始唇音检测模型充分学习到样本语音数据的样本语音特征和样本视频数据的样本唇形特征之间的远近关系，从而为唇音一致性检测准确率和精确度的提升提供了关键性的助力。
97.本发明实施例中，基于特征相似度的对比训练，可以使初始唇音检测模型依据唇音一致与否，判断样本语音特征和样本唇形特征之间的特征相似度，以在唇音一致时，即样本语音数据和样本视频数据可以构成正样本数据时，使得样本语音特征和样本唇形特征之间的特征相似度尽可能的高；反之，在唇音不同时，即样本语音数据和样本视频数据可以构成负样本数据时，使得样本语音特征和样本唇形特征之间的特征相似度尽可能的低。
98.基于上述实施例，唇音检测模型基于如下步骤训练：
99.基于初始唇音检测模型，对样本语音数据和样本视频数据分别进行特征提取，得到样本语音特征，以及样本唇形特征；
100.从样本语音数据和样本视频数据中，选取唇音一致的样本语音数据和样本视频数据，作为正样本数据，选取唇音不同的样本语音数据和样本视频数据，作为负样本数据；
101.基于正样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度，以及负样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度，对初始唇音检测模型进行参数迭代，得到唇音检测模型。
102.具体地，唇音检测模型的训练过程，具体可以包括以下步骤：
103.首先，可以利用初始唇音检测模型，分别对样本语音数据和样本视频数据进行特征提取，以得到样本语音数据的样本语音特征，以及样本视频数据的样本唇形特征，即可以将样本语音数据和样本视频数据输入至初始唇音检测模型中，由初始唇音检测模型对输入的样本语音数据和样本视频数据进行特征提取，以提取样本语音数据中有关于发音(例如，发音动作、发音节奏等)的特征，以及样本视频数据中表征唇部形状、唇部动作等的特征，从而得到样本语音数据的样本语音特征，以及样本视频数据的样本唇形特征；
104.随即，可以参照样本语音数据和样本视频数据之间的唇音一致性标签，从样本语音数据和样本视频数据中选取语音模态的样本数据和图像模态的样本数据，以组建正样本数据和负样本数据，此处的唇音一致性标签表征的是样本语音数据和样本视频数据之间的唇音一致性与否，具体可以是，从样本语音数据和样本视频数据中，选取唇音一致的样本语音数据和样本视频数据，作为正样本数据，对应地选取唇音不同的样本语音数据和样本视频数据，作为负样本数据；
105.随后，即可确定正样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度，以及负样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度，即计算正样本数据中样本语音特征与样本唇形特征之间的特征相似度，以及负样本数据中样本语音特征和样本唇形特征之间的特征相似度，并据此两者，确定初始唇音检测模型在对比训练过程中的损失，即初始唇音检测模型的对比损失；
106.值得注意的是，此处的特征相似度可以表示为余弦相似度、欧式距离、闵氏距离等；而作为优选，本发明实施例中的特征相似度可以是通过欧氏距离度量的特征之间的唇动幅度相似度。
107.由于初始唇音检测模型的训练目标是，在样本语音数据和样本视频数据的唇音一致的情况下，即两者构成正样本数据时，使样本语音数据的样本语音特征与样本视频数据的样本唇形特征之间的特征相似度尽可能的高；对应地，在样本语音数据和样本视频数据的唇音不同的情况下，即两者构成负样本数据时，使样本语音数据的样本语音特征与样本视频数据的样本唇形特征之间的特征相似度尽可能的低。
108.因此，在正样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度高，且负样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度低的情况下，可以确定对比损失较小；相应地，在正样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度低，和/或，负样本数据中样本语音数据的样本语音特征，与样本视频数据的样本唇形特征之间的特征相似度高的情况下，可以确定对比损失较大。
109.而后，即可据此对比损失，对初始唇音检测模型进行参数迭代，从而得到唇音检测模型，这一过程实质上是对初始唇音检测模型的参数进行调整，以使其在调整过程中能够
充分学习到样本数据与其对应的样本特征之间的映射关系，从而可以在应用过程中凭此映射关系，输出与语音数据和唇部数据对应的语音特征和唇形特征。
110.具体在进行参数迭代时，通过对比损失调整模型参数，可以使得调整后的初始唇音检测模型在输入的样本数据归属于正样本数据时，输出的正样本数据对应的样本语音特征和样本唇形特征之间的特征相似度尽可能的高，对应地，在输入的样本数据归属于负样本数据时，输出的负样本数据对应的样本语音特征和样本唇形特征之间的特征相似度尽可能的低，最终能够得到训练完成的唇音检测模型。
111.基于上述实施例，样本语音特征和样本唇形特征之间的特征相似度，以及初始唇音检测模型的对比损失的计算公式如下所示：
112.其中，样本语音特征和样本唇形特征之间的特征相似度表示为：
[0113][0114]
式中，为样本语音数据，为样本视频数据，表示样本语音数据的样本语音特征，表示样本视频数据的样本唇形特征，表示样本语音特征和样本唇形特征之间的特征相似度，通过欧氏距离进行度量，‖*‖2表示l2范数。
[0115]
初始唇音检测模型的对比损失的计算公式如下式所示：
[0116][0117]
式中，为对比损失，w表示正样本数据或负样本数据，i表示第i个正样本数据或负样本数据，y为唇音一致性标签，为0或1，0表示唇音一致，1则为唇音不同，表示通过欧氏距离度量的所有正样本数据对应的样本语音特征和样本唇形特征之间的特征相似度，以及所有负样本数据对应的样本语音特征和样本唇形特征之间的特征相似度，m为常数。
[0118]
基于上述实施例，图2是本发明提供的多模态交互过程的流程示意图之一，如图2所示，步骤140中，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换，之后还包括：
[0119]
步骤210，基于视频数据，确定潜在交互人员的图像交互意图，图像交互意图包括手势交互意图、姿态交互意图、动作交互意图中的至少一种；和/或，
[0120]
步骤220，基于交互场景下的交互语音，确定潜在交互人员的语音交互意图；
[0121]
步骤230，基于图像交互意图和/或语音交互意图，进行交互。
[0122]
具体地，利用潜在交互人员的身份标号，对初始交互人员进行交互权切换之后，可以与潜在交互人员进行多模态交互，具体过程包括：
[0123]
步骤210，首先可以通过交互场景下的视频数据，确定潜在交互人员体现于图像中的交互意图，此处的交互意图可以是手势交互意图、动作交互意图、姿态交互意图中的一种
或多种，此类意图均可以通过视频数据中的各帧图像进行表征，即可以通过对潜在交互人员在各帧图像中的人体区域进行手势识别、姿态检测、动作识别等，并依据检测/识别结果，确定潜在交互人员的图像交互意图；
[0124]
步骤220，同时可以借助交互场景下的交互语音，确定潜在交互人员体现于语音中的交互意图，具体可以是，先确定潜在交互人员的唇部数据，利用此唇部数据，对交互场景下的交互语音进行语音识别，即仅针对于潜在交互人员的语音进行识别，得到其识别文本，对此识别文本进行语义理解，以解析其交互意图，从而得到语音交互意图；
[0125]
步骤230，随后即可据此图像交互意图进行交互，或者依据语音交互意图进行交互，又或者结合语音交互意图和图像交互意图，以清晰明确潜在交互人员的交互意图，从而据此交互意图进行交互，即在交互过程中响应于潜在交互人员的交互意图。
[0126]
本发明实施例中，结合多个层面的数据，以明确潜在交互人员的交互意图，能够对更好的理解交互意图，实现了意图理解的全面化，为人机交互过程中交互体验的提升提供了助力。
[0127]
基于上述实施例，图3是本发明提供的多模态交互过程中步骤220的流程示意图，如图3所示，步骤220包括：
[0128]
步骤221，基于潜在交互人员的唇部数据，对交互语音进行语音分离和/或语音端点检测，得到潜在交互人员的有效语音；
[0129]
步骤222，基于潜在交互人员的唇部数据，对有效语音进行语音识别，并基于语音识别所得的识别文本进行意图识别，得到潜在交互人员的语音交互意图。
[0130]
具体地，步骤220中，借助交互语音，确定潜在交互人员的语音交互意图的过程，可以包括以下步骤：
[0131]
步骤221，首先可以利用潜在交互人员的身份标号，从各个人员的唇部数据中确定潜在交互人员的唇部数据，即可以以潜在交互人员的身份标号为索引，从各个人员的唇部数据中查找对应于这一身份标号的唇部数据，该唇部数据即为潜在交互人员的唇部数据；
[0132]
然后，可以在唇部数据的基础上结合交互语音，应用多模态数据执行语音分离任务，即可以参照潜在交互人员的唇部数据，对交互场景下的交互语音进行语音分离，以得到潜在交互人员的有效语音此处的有效语音实质上是潜在交互人员的分离语音，具体可以是，利用唇部数据提供额外的唇部信息，例如，唇部形状、唇部动作等，辅助进行语音分离，以将潜在交互人员的语音从交互场景下的交互语音中分离出来，从而得到潜在交互人员的分离语音，避免了复杂场景下的噪声干扰，保证了分离效果；
[0133]
此处，以潜在交互人员的唇部数据所反映的唇部信息为辅助，可以很好的解决传统语音分离技术中对于方向角度的依赖，克服了分离不干净，剥离不彻底的缺陷，能够将同方向下不同说话人的语音分离彻底，即可以将潜在交互人员和同方向同音区说话人的语音分离开来，得到干净的潜在交互人员的语音，达到了良好的降噪目的。
[0134]
也可以利用多模态数据进行语音端点检测，即可以将多模态数据应用到多模态vad(voice activity detection，语音端点检测)任务中，此处具体可以是，利用潜在交互人员的唇部数据，对交互人员的交互语音进行语音端点检测，从而得到潜在交互人员的有效语音，此处实际上是利用潜在交互人员的唇部数据，辅助针对于分离语音的语音切割，以将潜在交互人员的语音片段从交互语音中切割出来，即通过语音端点检测确定出交互语音
中可能包含潜在交互人员的有效语音片段的首尾端点，从而输出其有效语音，以便后续的语音识别；
[0135]
此处，以潜在人员的唇部数据反映的唇部信息，辅助进行语音切割，不再是将所有的有效人声片段切割出来作为有效语音片段，而是仅将潜在交互人员的有效语音片段切割出来，避免其他人声干扰，得到仅包含潜在交互人员的语音片段的有效语音，解决了传统单模型语音vad只能区分人声和非人声，无法拒识非目标人员的语音的问题。
[0136]
还可以在分离任务的基础上执行语音端点检测任务，即可以利用潜在交互人员的唇部数据，对交互人员的分离语音进行语音端点检测，从而得到潜在交互人员的有效语音，具体是利用潜在交互人员的唇部数据，将潜在交互人员的语音片段从分离语音中切割出来，即通过语音端点检测确定出分离语音中可能包含潜在交互人员的有效语音片段的首尾端点，从而输出其有效语音，以便后续的语音识别。
[0137]
步骤222，随后即可利用潜在交互人员的唇部数据，对其有效语音进行语音识别，以得到识别文本，具体可以是，以潜在交互人员的唇部数据为参照，对交互语音进行语音识别，以将潜在交互人员的语音从复杂场景下的混合/重叠语音中识别出来，避免噪声干扰，保证识别精度，最终能够得到潜在交互人员的识别文本；
[0138]
此处，针对于潜在交互人员的多模态语音识别实质上是利用潜在交互人员的唇部数据所表征的唇部信息，例如，唇部形状、唇部动作等，辅助语音识别任务，以在开放式的多人场景下，从混合/重叠语音中识别出潜在交互人员的语音，即仅针对于潜在交互人员的语音进行识别，避免了环境噪声和其他人为噪声的干扰，保证了识别精度。
[0139]
此后，即可对潜在交互人员的识别文本进行意图识别，以确定其语音交互意图，以便据此语音交互意图进行交互，具体可以是，先对识别文本进行语义理解，通过文本的语义理解来解析潜在交互人员的语音交互意图，以及需要交互过程中的交互词槽信息，例如，抽取具体的导航路线途经站点、乘坐出行工具、导航目的地等，以待响应。
[0140]
基于上述实施例，图4是本发明提供的多模态交互过程的流程示意图之二，如图4所示，步骤140中，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换，之后还包括：
[0141]
步骤410，基于交互场景下的交互语音，确定目标交互人员的语音交互意图，目标交互人员为处于交互场景下，且在潜在交互人员之前的预设数量个交互人员；
[0142]
步骤420，基于视频数据，确定目标交互人员的脸部数据；
[0143]
步骤430，基于目标交互人员的脸部数据和语音交互意图，进行交互。
[0144]
具体地，步骤140中，利用潜在交互人员的身份标号，对初始交互人员进行交互权切换之后，除了可以与潜在交互人员进行多模态交互之外，还可以持续追踪潜在交互人员之前的若干个交互人员，并据其交互意图，以及脸部数据进行交互，具体过程包括如下步骤：
[0145]
步骤410，首先需要确定追踪的目标交互人员，此处目标交互人员为处于交互场景下，且是潜在交互人员之前的预设数量个交互人员，预设数量可以根据具体场景、设备算力、实际需求等确定，可以是2、3、5等，然后可以借助身份标号，从各个人员的唇部数据中确定目标交互人员的唇部数据，并以此唇部数据基准，通过交互语音确定目标交互人员的语音交互意图，该语音交互意图的确定过程与上文描述的潜在交互人员的语音交互意图的确
定过程基本一致，此处不再赘述；
[0146]
步骤420，随即可以通过视频数据，确定目标交互人员的脸部数据，具体可以是，通过对目标交互人员在各帧图像中的人体区域进行人脸检测，判断是否能够从对应时刻下的图像中检测到目标交互人员的人脸，以及人脸的朝向信息、位置信息等；
[0147]
步骤430，此后即可结合目标交互人员的语音交互意图，以及脸部数据，进行交互，具体可以是，在检测到目标交互人员的人脸，且其朝向信息和/或位置信息表明目标交互人员面向交互设备(或设备交互屏幕)的情况下，对其语音交互意图进行回应，即在目标交互人员面向交互设备的情况下，响应于其语音交互意图。
[0148]
对应地，在未检测到目标交互人员的人脸，或者检测到目标交互人员的人脸，但其朝向信息和/或位置信息表明目标交互人员非面向交互设备(或设备交互屏幕)的情况下，略过其语音交互意图，即在目标交互人员非面向交互设备的情况下，不响应于其语音交互意图。
[0149]
基于上述实施例，图5是本发明提供的定向追踪过程的流程示意图，如图5所示，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换，之后还包括：
[0150]
步骤510，获取潜在交互人员的声源定位结果，以及视觉定位结果；
[0151]
步骤520，基于声源定位结果，以及视觉定位结果，对潜在交互人员进行定向追踪；
[0152]
声源定位结果基于所述交互场景下的麦克风阵列对在交互人员进行声源定位得到，视觉定位结果基于交互场景下的摄像头对潜在交互人员进行视觉定位得到。
[0153]
具体地，利用潜在交互人员的身份标号，对初始交互人员进行交互权切换之后，可以对潜在交互人员进行定向追踪，具体过程包括：
[0154]
为避免传统方案中基于单模态数据的声源定位，仅能定位大概范围，定位精度低的问题，本发明实施例中，在进行交互权切换之后，为保证交互过程的稳定性和精准度，可以从声源和视觉两个层面对潜在交互人员进行定向追踪，能够减少干扰的同时，保证追踪过程的稳定性和精确度。
[0155]
步骤510，首先需要确定针对于潜在交互人员的声源定位结果，以及视觉定位结果，此处的声源定位结果是利用交互场景下的麦克风阵列得到的，视觉定位结果则是通过交互场景下的摄像头确定的，即可以通过麦克风阵列对潜在交互人员进行声源定位，从而得到其声源定位结果，同时可以利用摄像头对潜在交互人员进行视觉定位，得到其视觉定位结果；
[0156]
步骤520，随后即可结合声源定位结果，以及视觉定位结果，确定潜在交互人员的位置信息，并可据此位置信息，对潜在交互人员进行定向追踪；此处，针对于潜在交互人员的定向追踪，可以保证其追踪过程的稳定性，不会出现追踪丢失的情况，并且区别于其他追踪方式，定向追踪的出现为追踪过程划分了主次，使得重点更为突出，主次更为明确，执行力更强，执行效果更佳。
[0157]
值得注意的是，此处在针对潜在交互人员进行定向追踪的同时，也并未忽略交互场景下其他人员的追踪，即保证了该场景下各个人员的追踪，只是区别于潜在交互人员的固定追踪，其他人员仅是通过人体追踪和人脸检测绑定的追踪方式进行追踪。
[0158]
基于上述实施例，图6是本发明提供的交互权切换方法中步骤120的流程示意，如图6所示，步骤120包括：
[0159]
步骤121，基于视频数据中的各帧图像进行人体追踪，得到交互场景下的各个人员在各帧图像中的人体区域；
[0160]
步骤122，对各个人体区域进行人脸检测，得到各个人员在各帧图像中的人脸区域，并对各个人脸区域进行关键点检测，得到各个人员在各帧图像中的唇部数据。
[0161]
考虑到传统方案中因偶现的不规则扭头或转头，导致追踪过程极易出现漏检和误检，甚至是追踪丢失的情况，对此，本发明实施例中考虑到人脸会因扭头或转头短暂消失，而人体不会凭空消失，因而，在进行追踪时，不仅仅考虑人脸追踪，更多的针对于各个人员的人体追踪，并且人体追踪和人脸检测是绑定的，如此即可在降低人脸检测干扰度的同时，提升追踪效率，实现交互场景下各个人员的稳定追踪。
[0162]
具体地，步骤120中，依据视频数据，得到交互场景下的各个人员的唇部数据的过程，具体可以包括以下步骤：
[0163]
步骤121，首先可以依据视频数据中的各帧图像进行人体追踪，从而得到各个人员在各帧图像中的人体区域，具体可以是，通过各帧图像中人体区域的区域面积，实现视频数据中各帧图像下各个人员的人体追踪，即通过相邻帧图像中人体区域的区域面积的重叠度，评估相邻帧图像中人体区域对应人员的一致与否，简而言之，将相邻帧图像中区域面积的重叠度最高的两个人体区域对应的人员，确定为同一人员，或者将相邻帧图像中区域面积的重叠度大于面积阈值的两两人体区域对应的人员，作为同一人员，如此即实现了各个人员的人体追踪，得到了各个人员在各帧图像中的人体区域；
[0164]
此处，面积阈值为预先设定的，用于在区域面积层面判定两个人体区域对应的人员是否是属于同一人员的数值，具体数值可以根据实际情况、实际需求等相应设置，例如，可以是80％、85％、90％等。
[0165]
步骤122，接着可以对各个人体区域进行人脸检测，从而得到各个人员在各帧图像中的人脸区域，并可对各个人脸区域进行关键点检测，以得到各个人员在各帧图像中的唇部数据，具体可以是，通过关键点检测技术，从各个人脸区域中检出对应人员五官的关键点轮廓，从而能够从关键点轮廓中提取出各个人员的唇部数据，以备后续多人场景下的交互权切换，以及多模态交互任务。
[0166]
本发明实施例中，针对于交互场景下各个人员的人体追踪和人脸检测，可以实现针对于多个场景下不同人员的稳定追踪，解决了开放式的多人场景下，因位置发生较大变动，以及偶现的不规则扭头、转头等，导致人员追踪困难的问题，能够准确的对各个人员进行追踪，即使短暂丢失人脸也可以重新追踪回来，并且能够保持固定的人脸id。
[0167]
基于上述实施例，图7是本发明提供的交互权切换方法中步骤121的流程示意图，如图7所示，步骤121包括：
[0168]
步骤121-1，基于视频数据中的各帧图像进行人体检测，得到各帧图像中的人体区域；
[0169]
步骤121-2，基于相邻帧图像中各个人体区域的重叠面积，对各个人体区域所对应的各个人员进行人体追踪，得到交互场景下的各个人员在各帧图像中的人体区域。
[0170]
具体地，步骤121中，根据视频数据中的各帧图像进行人体追踪，以得到各个人员在各帧图像中的人体区域的过程，具体包括以下步骤：
[0171]
步骤121-1，首先可以依据视频数据中的各帧图像进行人体检测，从而得到各帧图
像中的人体区域，具体可以是，对视频数据中的各帧图像中可能的人体区域进行检测辨别，以得到各帧图像中所有可能的人体区域，以及各个人体区域的置信度，置信度表明了对应区域属于真实人体区域的可能性，置信度越高则越有可能属于真实人体区域，反之则越不可能属于人体区域，此处的人体检测可以通过常规的人体检测算法、人体检测模型等实现，本发明实施例对此不做具体限定；
[0172]
步骤122-2，然后可以计算相邻帧图像中各个人体区域的区域面积的重叠度，即各个人体区域的重叠面积，并可据此重叠面积评估对应人体区域所对应的人员是否是同一人员，从而实现针对于各个人员的人体追踪，即可以将相邻帧图像中重叠面积最大的两个人体区域对应的人员，视为同一人员，或者将相邻帧图像中重叠面积大于面积阈值的两两人体区域对应的人员，视作同一人员，最终能够得到各个人员在各帧图像中的人体区域。
[0173]
本发明提供的交互权切换方法的总体流程，包括如下步骤：
[0174]
首先，确定交互场景下的视频数据，以及视频数据指示的初始交互人员；
[0175]
随即，基于视频数据，确定交互场景下的各个人员的唇部数据，具体可以是，基于视频数据中的各帧图像进行人体追踪，得到交互场景下的各个人员在各帧图像中的人体区域；对各个人体区域进行人脸检测，得到各个人员在各帧图像中的人脸区域，并对各个人脸区域进行关键点检测，得到各个人员在各帧图像中的唇部数据。
[0176]
其中，基于视频数据中的各帧图像进行人体追踪，得到交互场景下的各个人员在各帧图像中的人体区域，具体包括：基于视频数据中的各帧图像进行人体检测，得到各帧图像中的人体区域；基于相邻帧图像中各个人体区域的重叠面积，对各个人体区域所对应的各个人员进行人体追踪，得到交互场景下的各个人员在各帧图像中的人体区域。
[0177]
随后，在检测到唤醒词的情况下，基于唤醒词对应的语音数据，以及各个人员的唇部数据，确定输出唤醒词的潜在交互人员。
[0178]
此后，在潜在交互人员和初始交互人员为不同人员的情况下，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换。
[0179]
进一步地，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换，之后还包括：基于视频数据，确定潜在交互人员的图像交互意图，图像交互意图包括手势交互意图、姿态交互意图、动作交互意图中的至少一种；和/或，基于交互场景下的交互语音，确定潜在交互人员的语音交互意图；基于图像交互意图和/或语音交互意图，进行交互。
[0180]
其中，基于交互场景下的交互语音，确定潜在交互人员的语音交互意图，包括：基于潜在交互人员的唇部数据，对交互语音进行语音分离和/或语音端点检测，得到潜在交互人员的有效语音；基于潜在交互人员的唇部数据，对有效语音进行语音识别，并基于语音识别所得的识别文本进行意图识别，得到潜在交互人员的语音交互意图。
[0181]
进一步地，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换，之后还包括：基于交互场景下的交互语音，确定目标交互人员的语音交互意图，目标交互人员为处于交互场景下，且在潜在交互人员之前的预设数量个交互人员；基于视频数据，确定目标交互人员的脸部数据；基于目标交互人员的脸部数据和语音交互意图，进行交互。
[0182]
进一步地，基于潜在交互人员的身份标号，对初始交互人员进行交互权切换，之后还包括：获取潜在交互人员的声源定位结果，以及视觉定位结果；基于声源定位结果，以及视觉定位结果，对潜在交互人员进行定向追踪；声源定位结果基于交互场景下的麦克风阵
列对潜在交互人员进行声源定位得到，视觉定位结果基于交互场景下的摄像头对潜在交互人员进行视觉定位得到。
[0183]
本发明实施例提供的方法，通过交互场景下的视频数据，对该场景下的各个人员进行人体追踪和人脸检测，并结合各个人员的唇部数据，以及唤醒词对应的语音数据进行唇音一致性检测，得到检测结果，通过检测结果可以精准定位输出唤醒词的潜在交互人员，通过潜在交互人员的身份标号，对初始交互人员进行交互权切换，实现了多人场景下的交互权切换，克服了传统方案中多人交互时，交互权难以转换的缺陷，能够对多人场景下的各个人员进行稳定追踪，实现了潜在交互人员的精准定位，以及交互权的稳步切换。
[0184]
下面对本发明提供的交互权切换装置进行描述，下文描述的交互权切换装置与上文描述的交互权切换方法可相互对应参照。
[0185]
图8是本发明提供的交互权切换装置的结构示意图，如图8所示，该装置包括：
[0186]
确定单元810，用于确定交互场景下的视频数据，以及所述视频数据指示的初始交互人员；
[0187]
人脸检测单元820，用于基于所述视频数据，确定所述交互场景下的各个人员的唇部数据；
[0188]
唇音检测单元830，用于在检测到唤醒词的情况下，基于所述唤醒词对应的语音数据，以及所述各个人员的唇部数据，确定输出所述唤醒词的潜在交互人员；
[0189]
交互权切换单元840，用于在所述潜在交互人员和所述初始交互人员为不同人员的情况下，基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换。
[0190]
本发明提供的交互权切换装置，通过交互场景下的视频数据，对该场景下的各个人员进行人体追踪和人脸检测，并结合各个人员的唇部数据，以及唤醒词对应的语音数据进行唇音一致性检测，得到检测结果，通过检测结果可以精准定位输出唤醒词的潜在交互人员，通过潜在交互人员的身份标号，对初始交互人员进行交互权切换，实现了多人场景下的交互权切换，克服了传统方案中多人交互时，交互权难以转换的缺陷，能够对多人场景下的各个人员进行稳定追踪，实现了潜在交互人员的精准定位，以及交互权的稳步切换。
[0191]
基于上述实施例，所述装置还包括多模态交互单元，用于：
[0192]
基于所述视频数据，确定所述潜在交互人员的图像交互意图，所述图像交互意图包括手势交互意图、姿态交互意图、动作交互意图中的至少一种；
[0193]
和/或，基于所述交互场景下的交互语音，确定所述潜在交互人员的语音交互意图；
[0194]
基于所述图像交互意图和/或所述语音交互意图，进行交互。
[0195]
基于上述实施例，多模态交互单元用于：
[0196]
基于所述潜在交互人员的唇部数据，对所述交互语音进行语音分离和/或语音端点检测，得到所述潜在交互人员的有效语音；
[0197]
基于所述潜在交互人员的唇部数据，对所述有效语音进行语音识别，并基于语音识别所得的识别文本进行意图识别，得到所述潜在交互人员的语音交互意图。
[0198]
基于上述实施例，多模态交互单元用于：
[0199]
基于所述交互场景下的交互语音，确定目标交互人员的语音交互意图，所述目标交互人员为处于所述交互场景下，且在所述潜在交互人员之前的预设数量个交互人员；
[0200]
基于所述视频数据，确定所述目标交互人员的脸部数据；
[0201]
基于所述目标交互人员的脸部数据和语音交互意图，进行交互。
[0202]
基于上述实施例，所述装置还包括定向追踪单元，用于：
[0203]
获取所述潜在交互人员的声源定位结果，以及视觉定位结果；
[0204]
基于所述声源定位结果，以及所述视觉定位结果，对所述潜在交互人员进行定向追踪；
[0205]
所述声源定位结果基于所述交互场景下的麦克风阵列对所述潜在交互人员进行声源定位得到，所述视觉定位结果基于所述交互场景下的摄像头对所述潜在交互人员进行视觉定位得到。
[0206]
基于上述实施例，人脸检测单元820用于：
[0207]
基于所述视频数据中的各帧图像进行人体追踪，得到所述交互场景下的各个人员在所述各帧图像中的人体区域；
[0208]
对各个人体区域进行人脸检测，得到所述各个人员在所述各帧图像中的人脸区域，并对各个人脸区域进行关键点检测，得到各个人员在各帧图像中的唇部数据。
[0209]
基于上述实施例，人脸检测单元820用于：
[0210]
基于所述视频数据中的各帧图像进行人体检测，得到所述各帧图像中的人体区域；
[0211]
基于相邻帧图像中各个人体区域的重叠面积，对所述各个人体区域所对应的各个人员进行人体追踪，得到所述交互场景下的各个人员在所述各帧图像中的人体区域。
[0212]
图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(communications interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行交互权切换方法，该方法包括：确定交互场景下的视频数据，以及所述视频数据指示的初始交互人员；基于所述视频数据，确定所述交互场景下的各个人员的唇部数据；在检测到唤醒词的情况下，基于所述唤醒词对应的语音数据，以及所述各个人员的唇部数据，确定输出所述唤醒词的潜在交互人员；在所述潜在交互人员和所述初始交互人员为不同人员的情况下，基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换。
[0213]
此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0214]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的交互权切换方法，该方法包括：
确定交互场景下的视频数据，以及所述视频数据指示的初始交互人员；基于所述视频数据，确定所述交互场景下的各个人员的唇部数据；在检测到唤醒词的情况下，基于所述唤醒词对应的语音数据，以及所述各个人员的唇部数据，确定输出所述唤醒词的潜在交互人员；在所述潜在交互人员和所述初始交互人员为不同人员的情况下，基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换。
[0215]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的交互权切换方法，该方法包括：确定交互场景下的视频数据，以及所述视频数据指示的初始交互人员；基于所述视频数据，确定所述交互场景下的各个人员的唇部数据；在检测到唤醒词的情况下，基于所述唤醒词对应的语音数据，以及所述各个人员的唇部数据，确定输出所述唤醒词的潜在交互人员；在所述潜在交互人员和所述初始交互人员为不同人员的情况下，基于所述潜在交互人员的身份标号，对所述初始交互人员进行交互权切换。
[0216]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0217]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0218]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：文件共享方法、装置、计算机设备及存储介质与流程

交互权切换方法、装置、电子设备和存储介质与流程

相关文献

最热文献