一种视频会议发言人聚焦方法、装置、设备和介质与流程

2023-02-20 05:22:19 来源：中国专利 TAG：

1.本技术涉及视频数据处理技术领域，尤其涉及一种视频会议发言人聚焦方法、装置、设备和介质。

背景技术：

2.目前在视频会议中已经应用了发言人聚焦功能，将发言人的人脸图像显示在屏幕中间。该发言人聚焦功能的实现主要是通过高精度的声场定位技术实现，通过对发言人声源位置的定位实现发言人定位并聚焦。
3.但是该方法对硬件要求较高，需要有多个收音设备来实现声源定位，并且在人与人之间距离较近时，会导致无法精准定位发言人的位置，因此现有技术中发言人聚焦时的定位精度较低。

技术实现要素：

4.本技术提供了一种视频会议发言人聚焦方法、装置、设备和介质，用以解决现有技术中的问题。
5.第一方面，本技术提供了一种视频会议发言人聚焦方法，所述方法包括：
6.获取视频会议中任一时刻的目标图像和目标音频；
7.根据所述目标音频确定所述目标音频对应的第一唇形特征向量；
8.对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
9.进一步地，所述根据所述目标音频确定所述目标音频对应的第一唇形特征向量包括：
10.基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
11.进一步地，所述基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量包括：
12.将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；
13.针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；
14.根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二
坐标。
15.进一步地，所述对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量包括：
16.对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
17.进一步地，所述根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人包括：
18.根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。
19.进一步地，所述根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人包括：
20.根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，计算所述第四坐标与对应的所述第二坐标的欧式距离；
21.根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度；
22.根据所述第二唇形特征向量与所述第一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将所述目标参会人员确定为所述发言人。
23.进一步地，所述根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度包括：
24.根据所述第四坐标与对应的所述第二坐标的欧式距离，将每个所述欧式距离的平均值的倒数确定为所述第二唇形特征向量与所述第一唇形特征向量的相似度。
25.进一步地，所述将所述发言人进行突出显示包括：
26.将所述发言人的目标人脸区域图像放大显示或设定位置显示。
27.第二方面，本技术提供了一种视频会议发言人聚焦装置，所述装置包括：
28.获取模块，用于获取视频会议中任一时刻的目标图像和目标音频；
29.确定模块，用于根据所述目标音频确定所述目标音频对应的第一唇形特征向量；对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
30.进一步地，所述确定模块，具体用于基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
31.进一步地，所述确定模块，具体用于将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征
向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。
32.进一步地，所述确定模块，具体用于对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
33.进一步地，所述确定模块，具体用于根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。
34.进一步地，所述确定模块，具体用于根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，计算所述第四坐标与对应的所述第二坐标的欧式距离；根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度；根据所述第二唇形特征向量与所述第一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将所述目标参会人员确定为所述发言人。
35.进一步地，所述确定模块，具体用于根据所述第四坐标与对应的所述第二坐标的欧式距离，将每个所述欧式距离的平均值的倒数确定为所述第二唇形特征向量与所述第一唇形特征向量的相似度。
36.进一步地，所述确定模块，具体用于将所述发言人的目标人脸区域图像放大显示或设定位置显示。
37.第三方面，本技术提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
38.所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器实现上述视频会议发言人聚焦方法中任一所述方法的步骤。
39.第四方面，本技术提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述视频会议发言人聚焦方法中任一所述方法的步骤。
40.本技术提供了一种视频会议发言人聚焦方法、装置、设备和介质，由于该方法中是确定目标音频对应的第一唇形特征向量和目标图像对应的每个参会人员的第二唇形特征向量，根据第一唇形特征向量和第二唇形特征向量的相似度，确定视频会议的发言人，并将发言人的目标人脸区域图像突出显示，从而实现了准确地定位发言人的位置，提高了发言人聚焦的定位精度。
附图说明
41.为了更清楚地说明本技术中的技术方案，下面将对实施例描述中所需要使用的附
图作简要介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
42.图1为本技术提供的一种视频会议发言人聚焦方法的过程示意图；
43.图2为本技术提供的一种人脸检测的示意图；
44.图3为本技术提供一种唇形关键点的示意图；
45.图4为本技术提供的一种唇形关键点组合形成的唇形示意图；
46.图5为本技术提供的一种频率谱密度的示意图；
47.图6为本技术提供的一种检测出的人脸关键点的示意图；
48.图7为本技术提供的一种视频会议发言人聚焦方法的过程示意图；
49.图8为本技术提供的一种视频会议发言人聚焦装置的结构示意图；
50.图9为本技术提供的一种电子设备结构示意图。
具体实施方式
51.为了使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术作进一步地详细描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。
52.为了提高发言人聚焦时的定位精度，本技术提供了一种视频会议发言人聚焦方法、装置、设备和介质。
53.图1为本技术提供的一种视频会议发言人聚焦方法的过程示意图，该过程包括以下步骤：
54.s101：获取视频会议中任一时刻的目标图像和目标音频。
55.本技术提供的一种视频会议聚焦方法应用于电子设备，其中该电子设备可以是pc、平板电脑、智能终端、服务器等，其中该服务器可以是本地服务器、也可以是云端服务器。
56.为了提高发言人聚焦的定位精度，在本技术中，该电子设备获取视频会议中任一时刻的目标图像和目标音频。其中该视频会议是指基于视频通话类应用实现的多人视频，该目标图像是指任一时刻的视频通话类应用的视频帧图像，该目标音频是指视频通话类应用中与该目标图像同一时刻采集的音频。
57.若该电子设备为pc、平板电脑、智能终端中的任一种设备时，该电子设备将自身采集的音视频发送给视频通话类应用对应的服务器，并接收服务器返回的融合每个参会人员的设备发送的音视频后的目标音视频，并根据该目标音视频确定任一时刻视频帧图像作为目标图像，将该视频帧图像对应的音频作为目标音频。
58.若该电子设备为服务器时，该服务器可以是视频通话类应用的服务器，该服务器获取视频会议的每个参会人员的设备发送的音视频并进行融合，根据融合的目标音视频确定任一时刻视频帧图像作为目标图像，将该视频帧图像对应的音频作为目标音频。
59.其中，每个参会人员的设备发送的音视频可以是设备本身的图像采集单元和声音采集单元采集的音视频，也可以是与设备网络连接的图像采集装置和声音采集装置采集的
音视频，其中该图像采集装置可以是摄像头或摄像机，该声音采集装置可以是话筒、麦克风或录音机等。
60.s102：根据所述目标音频确定所述目标音频对应的第一唇形特征向量。
61.为了定位发言人，在本技术中，该电子设备获取到目标音频后，基于目标音频确定对应的第一唇形特征向量。
62.具体的，可以是基于预先训练完成的神经网络模型对该目标音频进行处理，确定对应的第一唇形特征向量；也可以是基于现有的唇形合成技术确定根据该目标音频合成的唇形的第一唇形特征向量。其中，唇形特征向量可以是唇形关键点坐标组成的矩阵，也可以是唇形关键点相连形成的唇形图。
63.s103：对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
64.为了定位发言人，在本技术中，该电子设备还对目标图像进行人脸检测，确定出每个参会人员的人脸区域图像。具体的，采用现有的人脸检测算法对目标人脸检测，从而确定出目标图像中的每个人脸区域图像。其中该人脸区域可以是规则的框形区域、椭圆区域等，也可以是不规则区域。图2为本技术提供的一种人脸检测的示意图，如图2所示，检测的人脸区域图像的人脸区域为规则的框形区域。
65.根据每个人脸区域图像，进行人脸关键点检测，确定出每个人脸区域图像中的人脸关键点中的唇形关键点，根据每个人脸区域图像中的唇形关键点，确定出每个参会人员的第二唇形特征向量。具体的，可以是将唇形关键点的坐标构成的矩阵确定为第二唇形特征向量，也可以是将唇形关键点相连形成的唇形确定为第二唇形特征向量。其中对图像进行人脸关键点检测的方法属于现有技术，本技术在此不做赘述。
66.根据每个参会人员的第二唇形特征向量以及目标音频对应的第一唇形特征向量，可以是基于第二唇形特征向量与第一唇形特征向量的匹配程度，确定参会人员中的发言人；也可以是基于第二唇形特征向量与第一唇形特征向量的差异程度，确定参会人员中的发言人。
67.在确定出发言人后，还要将发言人进行突出显示，从而实现对视频会议发言人的聚焦。
68.由于本技术中是确定目标音频对应的第一唇形特征向量和目标图像对应的每个参会人员的第二唇形特征向量，根据第一唇形特征向量和第二唇形特征向量的相似度，确定视频会议的发言人，并将发言人的目标人脸区域图像突出显示，从而实现了准确地定位发言人的位置，提高了发言人聚焦的定位精度。
69.为了确定目标音频对应的第一唇形特征向量，在上述实施例的基础上，在本技术中，所述根据所述目标音频确定所述目标音频对应的第一唇形特征向量包括：
70.基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
71.为了定位发言人，在本技术中，存在有预先训练完成的神经网络模型，该神经网络模型可以是长短期记忆网络(long short-term memory，lstm)模型，也可以是其他的深度学习网络模型，该训练完成的神经网络模型是用于训练确定输入的音频对应的发言人的唇
形特征向量。其中该神经网络模型可以是现有的确定唇形特征向量的模型，本技术中对此不做赘述。
72.将获取到的目标音频输入预先训练完成的该神经网络模型，该神经网络模型对该目标音频进行处理，得到目标音频的第一唇形特征向量。其中该唇形特征向量中包括设定数量的唇形关键点的坐标，该设定数量可以是任意正整数值，若希望提高定位精度，则可以将该设定数量设置地较大一些，若希望减少计算量，则可以将该设定数量设置地较小一些。
73.较佳的，该设定数量为20，图3为本技术提供一种唇形关键点的示意图，如图3所示，唇形关键点包括49、50、
……
、67、68共20个关键点。图4为本技术提供的一种唇形关键点组合形成的唇形示意图，如图4所示，将49、50、
……
、59、60等12个唇形关键点相连，将61、62、
……
、67、68等8个唇形关键点相连，组合形成了唇形示意图。
74.为了确定目标音频对应的第一唇形特征向量，在上述各实施例的基础上，在本技术中，所述基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量包括：
75.将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；
76.针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；
77.根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。
78.为了确定目标音频对应的第一唇形特征向量，在本技术中，将目标音频的频率谱密度输入预先训练完成的神经网络模型。其中频率谱密度即是指目标音频的频谱，目标音频从本质上也属于是一种振荡信号，将振荡信号分解为振幅不同和频率不同的谐振荡，这些谐振荡的振幅按频率排列的图形叫做频谱。图5为本技术提供的一种频率谱密度的示意图，如图5所示，该图5中的横轴代表目标音频的频率，纵轴代表目标音频的振幅。
79.将目标音频的频率谱密度进行向量化表示后，将向量化的后数据输入到预先训练完成的神经网络模型，基于该神经网络模型，提取到目标音频的第一特征向量。
80.通过归一化对第一特征向量进行去相关处理，对处理后的第一特向量采用主成分分析(principal component analysis，pca)进行降维，得到降维后的第二特征向量。
81.在本技术中预先保存有设定数量唇形关键点与特征向量中每一维度的分量的对应关系，其中该降维后第二特征向量的维度数量与设定数量相同，较佳的，该降维后的第二特征向量的维度数量与该设定数量均为20。根据预先保存的该对应关系，针对第二特征向量中每一维度的分量，可以确定出该对应关系中该分量对应的目标关键点。
82.在本技术中还预先保存的设定数量唇形关键点的第一坐标，该第一坐标即为标准唇形关键点的坐标，该标准唇形关键点如图2所示，根据该目标关键点的第一坐标、以及该分量的数值，对第一坐标进行变换得到该目标关键点的第二坐标。具体的，由于该分量的数
值表示该目标关键点的偏移量，在该第一坐标的基础上对该目标关键点进行偏移，从而得到变化后的第二坐标。
83.在确定出每个唇形关键点的第二坐标后，根据预先保存的设定数量唇形关键点与特征向量中每一维度的分量的对应关系，确定出每个第二坐标对应的特征向量中的维度，将每个维度的分量设置为对应的第二坐标，从而确定出目标音频对应的第一唇形特征向量。
84.为了确定每个参会人员的第二唇形特征向量，在上述各实施例的基础上，在本技术中，所述对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量包括：
85.对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
86.为了确定出每个参会人员的第二唇形特征向量，在本技术中，确定出每个参会人员的人脸区域图像后，针对每个人脸区域图像，对该人脸区域图像进行人脸关键点检测，确定出该人脸区域图像中的人脸关键点的坐标。具体的，可以采用人脸关键点检测算法进行人脸关键点检测，该人脸关键点检测算法为现有技术，本技术对此不做赘述。
87.图6为本技术提供的一种检测出的人脸关键点的示意图，如图6所示，对该人脸区域图像进行人脸关键点检测后，检测的人脸关键点包括唇形关键点、鼻子关键点、眼睛关键点、眉毛关键点和脸部轮廓关键点。
88.根据该人脸区域图像的人脸关键点的坐标，进行关键点筛选，确定出人脸关键点中的唇形关键点的每个第三坐标。由于该人脸区域图像可能是倾斜图像、该人脸区域图像中的人脸本身与身体是倾斜的，为了实现视频会议发言人的定位，还要对该人脸区域图像中唇形关键点的每个第三坐标进行校正，得到校正后的每个第四坐标。
89.作为一种可能的实施方式，对该人脸区域图像中唇形关键点的每个第三坐标进行校正时，可以是根据预先保存的设定数量标准唇形关键点组成的标准唇形区域，将该人脸区域图像中的唇形区域与该标准唇形区域对齐，并根据标准唇形区域的坐标系，确定出该人脸区域图像中唇形关键点的校正后的每个第四坐标值。
90.根据确定出的该人脸区域图像中唇形关键点的校正后的每个第四坐标，为了确定出该人脸区域图像对应参会人员的第二唇形特征向量，在本技术中，还预先保存有设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，针对每个唇形关键点，确定出该唇形关键点对应的特征向量中的目标维度，将该唇形关键点的校正后的第四坐标确定为该目标维度的分量，从而将每个第四坐标确定为对应维度的分量，将包含每个第四坐标的特征向量确定为该人脸区域图像对应参会人员的第二唇形特征向量。
91.为了确定参会人员中的发言人，在上述各实施例的基础上，在本技术中，所述根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人包括：
92.根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特
征向量对应的目标参会人员为所述发言人。
93.根据每个参会人员的第二唇形特征向量以及目标音频对应的第一唇形特征向量，计算出第一唇形特征向量与每个参会人员的第二唇形特征向量的相似度，为了确定出参会人员中的发言人，在本技术中，还存在预设相似度条件，该预设相似度条件可以是相似度最高、可以是相似度大于设定阈值，还可以是相似度按从高到低排序时的排序最前的设定数量个相似度。
94.根据计算出的第一唇形特征向量与每个参会人员的第二唇形特征向量的相似度、以及预设相似度条件，确定出相似度满足预设相似度条件的目标第二唇形特征向量，将目标第二唇形特征向量对应的目标参会人员确定为发言人。
95.为了确定参会人员中的发言人，在上述各实施例的基础上，在本技术中，所述根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人包括：
96.根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，计算所述第四坐标与对应的所述第二坐标的欧式距离；
97.根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度；
98.根据所述第二唇形特征向量与所述第一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将所述目标参会人员确定为所述发言人。
99.为了定位出参会人员中的发言人，在本技术中，根据参会人员的第二唇形特征向量和目标音频对应的第一唇形特征向量，首先确定出第二唇形特征向量与第一唇形特征向量的相似度。
100.为了确定第一唇形特征向量与第二唇形特征向量的相似度，在本技术中，针对每个参会人员的第二唇形特征向量，该第二唇形特征向量中包括该参会人员的唇形关键点的每个第四坐标，该第一唇形特征向量中包括目标音频对应的发言人的唇形关键点的每个第二坐标，计算每个第四坐标与对应的每个第二坐标的欧式距离，欧式距离越小时表示对应的两个唇形关键点的距离越近，该第二唇形特征向量与第一唇形特征向量的相似度越高。
101.具体的，计算每个第四坐标与对应的每个第二坐标的欧式距离时，第二坐标为(x1,y1)，对应的第四坐标为(x2,y2)，对应的两个唇形关键点之间的距离为d1的，其中
102.作为一种可能的实施方式，可以是根据每个第四坐标与对应的每个第二坐标的每个欧式距离，确定每个欧式距离的和值的倒数，将倒数确定为该第二唇形特征向量与第一唇形特征向量的相似度；也可以是根据每个第四坐标与对应的每个第二坐标的每个欧式距离，确定每个欧式距离的权重和值的倒数，将倒数确定为该第二唇形特征向量与第一唇形特征向量的相似度。
103.为了准确地确定第一唇形特征向量与第二唇形特征向量的相似度，在本技术中，所述根据每个第三坐标与对应的每个第二坐标的每个欧式距离，确定该第二唇形特征向量
与所述第一唇形特征向量的相似度包括：
104.根据每个第四坐标与对应的每个第二坐标的每个欧式距离，将所述每个欧式距离的平均值的倒数确定为该第二唇形特征向量与所述第一唇形特征向量的相似度。
105.在本技术中，为了准确地确定第一唇形特征向量与第二唇形特征向量的相似度，是根据每个第四坐标与对应的每个第二坐标的每个欧式距离，确定每个欧式距离的平均值的倒数，将该倒数确定为该第二唇形特征向量与第一唇形特征向量的相似度。
106.根据确定出每个参会人员的第二唇形特征向量与第一唇形特征向量的相似度，为了提高确定的发言人的准确度，可以是确定出相似度最高的目标第二唇形特征向量对应的目标参会人员，并将目标参会人员确定为发言人。
107.作为一种可能的实施方式，由于发言人可能不止一人，还可以是根据确定出的每个参会人员的第二唇形特征向量与第一唇形特征向量的相似度，确定相似度大于设定阈值的目标第二唇形特征向量对应的目标参会人员，并将目标参会人员确定为发言人。
108.作为另一种可能的实施方式，还可以是根据确定出的每个参会人员的第二唇形特征向量与第一唇形特征向量的相似度，将相似度按从高到低的顺序进行排序，确定出排序最前的设定数量的目标相似度对应的目标唇形特征向量，并将目标唇形特征向量对应的目标参会人员确定为发言人。
109.为了将发言人的目标人脸区域图像突出显示，在上述各实施例的基础上，在本技术中，所述将所述发言人进行突出显示包括：
110.将所述发言人的目标人脸区域图像放大显示或设定位置显示。
111.在确定出视频会议的每个参会人员的发言人后，为了将发言人的目标人脸区域突出显示，作为一种可能的实时方式，可以将发言人的目标人脸区域图像进行放大显示，即相比于其他参会人员的人脸区域图像，发言人的目标人脸区域图像的大小较大。
112.作为另一种可能的实施方式，还可以将发言人的目标人脸区域图像设定位置现实，其中该设定位置可以是该电子设备的显示界面的中心区域、也可以是在显示界面的侧边区域，还可以是在显示界面的任意区域。
113.下面通过一个具体的实施例对本技术的一种视频会议发言人聚焦方法进行说明，图7为本技术提供的一种视频会议发言人聚焦方法的过程示意图，如图7所示，该方法包括以下步骤：
114.s701：获取视频会议中任一时刻的目标图像和目标音频。
115.s702：基于预先训练完成的神经网络模型，确定输入的目标音频对应的第一唇形特征向量。
116.s703：对目标图像进行人脸检测，确定参会人员的人脸区域图像，对人脸区域图像进行人脸关键点检测，确定人脸区域图像的设定数量唇形关键点的第三坐标，对人脸区域图像的第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
117.s704：根据第二唇形特征向量中第四坐标和第一唇形特征向量中对应的第二坐标，计算第四坐标与对应的第二坐标的欧式距离；根据第四坐标与对应的第二坐标的欧式距离，确定第二唇形特征向量与第一唇形特征向量的相似度；根据第二唇形特征向量与第
一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将目标参会人员确定为发言人。
118.s705：将发言人的目标人脸区域图像放大显示或设定位置显示。
119.图8为本技术提供的一种视频会议发言人聚焦装置的结构示意图，在上述各实施例的基础上，本技术还提供一种视频会议发言人聚焦装置，所述装置包括：
120.获取模块801，用于获取视频会议中任一时刻的目标图像和目标音频；
121.确定模块802，用于根据所述目标音频确定所述目标音频对应的第一唇形特征向量；对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
122.进一步地，所述确定模块，具体用于基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
123.进一步地，所述确定模块，具体用于将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。
124.进一步地，所述确定模块，具体用于对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
125.进一步地，所述确定模块，具体用于根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。
126.进一步地，所述确定模块，具体用于根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，计算所述第四坐标与对应的所述第二坐标的欧式距离；根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度；根据所述第二唇形特征向量与所述第一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将所述目标参会人员确定为所述发言人。
127.进一步地，所述确定模块，具体用于根据所述第四坐标与对应的所述第二坐标的欧式距离，将每个所述欧式距离的平均值的倒数确定为所述第二唇形特征向量与所述第一唇形特征向量的相似度。
128.进一步地，所述确定模块，具体用于将所述发言人的目标人脸区域图像放大显示或设定位置显示。
129.图9为本技术提供的一种电子设备结构示意图，在上述各实施例的基础上，本技术中还提供了一种电子设备，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信；
130.所述存储器903中存储有计算机程序，当所述程序被所述处理器901执行时，使得所述处理器901执行如下步骤：
131.获取视频会议中任一时刻的目标图像和目标音频；
132.根据所述目标音频确定所述目标音频对应的第一唇形特征向量；
133.对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
134.进一步地，所述处理器901具体用于所述根据所述目标音频确定所述目标音频对应的第一唇形特征向量包括：
135.基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
136.进一步地，所述处理器901具体用于所述基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量包括：
137.将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；
138.针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；
139.根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。
140.进一步地，所述处理器901具体用于所述对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量包括：
141.对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
142.进一步地，所述处理器901具体用于所述根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人包括：
143.根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。
144.进一步地，所述处理器901具体用于所述根据所述第一唇形特征向量和所述第二
唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人包括：
145.根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，计算所述第四坐标与对应的所述第二坐标的欧式距离；
146.根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度；
147.根据所述第二唇形特征向量与所述第一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将所述目标参会人员确定为所述发言人。
148.进一步地，所述处理器901具体用于所述根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度包括：
149.根据所述第四坐标与对应的所述第二坐标的欧式距离，将每个所述欧式距离的平均值的倒数确定为所述第二唇形特征向量与所述第一唇形特征向量的相似度。
150.进一步地，所述处理器901具体用于所述将所述发言人进行突出显示包括：
151.将所述发言人的目标人脸区域图像放大显示或设定位置显示。
152.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect，pci)总线或扩展工业标准结构(extended industry standard architecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
153.通信接口902用于上述电子设备与其他设备之间的通信。
154.存储器可以包括随机存取存储器(random access memory，ram)，也可以包括非易失性存储器(non-volatile memory，nvm)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。
155.上述处理器可以是通用处理器，包括中央处理器、网络处理器(network processor，np)等；还可以是数字指令处理器(digital signal processing，dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
156.在上述各实施例的基础上，本技术还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行如下步骤：
157.获取视频会议中任一时刻的目标图像和目标音频；
158.根据所述目标音频确定所述目标音频对应的第一唇形特征向量；
159.对所述目标图像进行人脸检测，确定参会人员的人脸区域图像，对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量，根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人，并将所述发言人进行突出显示。
160.进一步地，所述根据所述目标音频确定所述目标音频对应的第一唇形特征向量包括：
161.基于预先训练完成的神经网络模型，确定输入的所述目标音频对应的第一唇形特征向量。
162.进一步地，所述基于预先训练完成的神经网络模型，确定输入的所述目标音频对
应的第一唇形特征向量包括：
163.将所述目标音频的频率谱密度输入到预先训练完成的神经网络模型，提取所述目标音频的第一特征向量，通过归一化对所述第一特征向量进行去相关处理，对处理后的第一特征向量降维，得到降维后的第二特征向量；
164.针对第二特征向量中的每一维度的分量，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，确定该分量对应的目标关键点，根据所述目标关键点的第一坐标及该分量的数值，对所述第一坐标进行变换得到该目标关键点的第二坐标；
165.根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述目标音频对应的第一唇形特征向量中每个分量确定为对应的唇形关键点的第二坐标。
166.进一步地，所述对所述人脸区域图像进行人脸关键点检测，确定所述参会人员的第二唇形特征向量包括：
167.对所述人脸区域图像进行人脸关键点检测，确定所述人脸区域图像的设定数量唇形关键点的第三坐标，对所述人脸区域图像的所述第三坐标进行校正，得到校正后的第四坐标，根据预先保存的设定数量唇形关键点与特征向量中的每一维度的分量的对应关系，将所述人脸区域图像对应参会人员的第二唇形特征向量中每个分量确定为对应的唇形关键点的第四坐标。
168.进一步地，所述根据所述第一唇形特征向量和所述第二唇形特征向量确定所述发言人包括：
169.根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人。
170.进一步地，所述根据所述第一唇形特征向量和所述第二唇形特征向量，计算所述第二唇形特征向量和所述第一唇形特征向量的相似度，确定相似度满足预设相似度条件的目标第二唇形特征向量对应的目标参会人员为所述发言人包括：
171.根据所述第二唇形特征向量中第四坐标与所述第一唇形特征向量中对应的第二坐标，计算所述第四坐标与对应的所述第二坐标的欧式距离；
172.根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度；
173.根据所述第二唇形特征向量与所述第一唇形特征向量的相似度，确定相似度最高的目标第二唇形特征向量对应的目标参会人员，并将所述目标参会人员确定为所述发言人。
174.进一步地，所述根据所述第四坐标与对应的所述第二坐标的欧式距离，确定所述第二唇形特征向量与所述第一唇形特征向量的相似度包括：
175.根据所述第四坐标与对应的所述第二坐标的欧式距离，将每个所述欧式距离的平均值的倒数确定为所述第二唇形特征向量与所述第一唇形特征向量的相似度。
176.进一步地，所述将所述发言人进行突出显示包括：
177.将所述发言人的目标人脸区域图像放大显示或设定位置显示。
178.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
179.本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
180.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
181.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
182.显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：量子计算机操作系统以及量子计算机的制作方法

一种视频会议发言人聚焦方法、装置、设备和介质与流程

相关文献

最热文献