一种视频会议的智能导播方法、装置及系统与流程

2022-12-20 21:48:04 来源：中国专利 TAG：

1.本文件涉及计算机技术领域，尤其涉及一种视频会议的智能导播方法、装置及系统。

背景技术：

2.随着社会的发展，视频会议的应用越来越广泛，同时对视音频质量、数据协作共享、灵活易用性、易管理性的要求也越来越严格。
3.目前，在视频会议进行时，可对与会人员所在会场的视频图像进行播放展示，但是，视频会议的视频图像播放模式过于单一，且播放的视频图像的画面构建不佳，可能无法以完整且合适的画面呈现目标与会人员。

技术实现要素：

4.本说明书一个或多个实施例的目的是提供一种视频会议的智能导播方法、装置及系统，以在全景视频图像和视频特写图像间进行灵活且智能切换，能够以虚拟定位框调整构建最佳全景画面或最佳特写画面，提升视频会议的导播构图效果和画面质量，进而提高用户体验。
5.为解决上述技术问题，本说明书一个或多个实施例是这样实现的：
6.第一方面，提出了一种视频会议的智能导播方法，包括：
7.获取参与本次视频会议的至少两个会场的视频图像；
8.识别所述视频图像中每个与会人员的关键部位信息，并基于识别到的关键部位信息，在所述视频图像中构建与每个与会人员的关键部位信息绑定且至少覆盖该关键部位的虚拟定位框；
9.判断在设定时间内是否检测到基于与会人员发言事件触发的第一信号；
10.如果在设定时间内未检测到第一信号，则将每个视频图像中多个与会人员的虚拟定位框作为整体以最近取景方式调整该视频图像，并传输给目标终端进行播放；
11.如果在设定时间内检测到第一信号，则基于所述第一信号确定当前发言的与会人员的虚拟定位框，根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像，并触发目标终端将当前播放的视频图像切换为所述第一视频特写图像，其中，所述第一视频特写图像中包含当前发言的与会人员的特写画面。
12.第二方面，提出了一种视频会议的智能导播装置，包括：
13.获取模块，用于获取参与本次视频会议的至少两个会场的视频图像；
14.识别模块，用于识别所述视频图像中每个与会人员的关键部位信息，并基于识别到的关键部位信息，在所述视频图像中构建与每个与会人员的关键部位信息绑定且至少覆盖该关键部位的虚拟定位框；
15.判断模块，用于判断在设定时间内是否检测到基于与会人员发言事件触发的第一信号；
16.导播模块，如果在设定时间内未检测到第一信号，则用于将每个视频图像中多个与会人员的虚拟定位框作为整体以最近取景方式调整该视频图像，并传输给目标终端进行播放；以及，
17.如果在设定时间内检测到第一信号，则用于基于所述第一信号确定当前发言的与会人员的虚拟定位框，并根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像，并触发目标终端将当前播放的视频图像切换为所述第一视频特写图像，其中，所述第一视频特写图像中包含当前发言的与会人员的特写画面。
18.第三方面，提出了一种视频会议的智能导播系统，包括：
19.分别位于至少两个会场中每个会场的目标终端，以及第二方面所述的位于主会场的视频会议的智能导播装置；
20.所述智能导播装置用于根据获取的视频图像执行第一方面所述的智能导播方法，以便于在目标终端智能导播视频会议。
21.第四方面，提出了一种电子设备，包括：
22.处理器；以及
23.被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行第一方面所述的视频会议的智能导播方法。
24.第五方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行第一方面所述的视频会议的智能导播方法。
25.由以上本说明书一个或多个实施例提供的技术方案可见，基于对获取到的视频图像中与会人员构建且绑定的虚拟定位框，结合是否监测到发言事件，来选择以最近取景方式确定的全景视频图像进行播放，还是切换为当前发言的与会人员的虚拟定位框和当前姿态构建的视频特写图像，从而可以在全景视频图像和视频特写图像间进行灵活且智能切换，能够以虚拟定位框调整构建最佳全景画面或最佳特写画面，提升视频会议的导播构图效果和画面质量，进而提高用户在视频会议期间的使用体验。
附图说明
26.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对一个或多个实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
27.图1是本说明书实施例提供的视频会议的智能导播系统的场景示意图。
28.图2是本说明书实施例提供的一种视频会议的智能导播方法的步骤示意图之一。
29.图3a是本说明书的一个实施例提供的处理后台构建绑定虚拟定位框的原理示意图。
30.图3b和图3c分别是本说明书的一个实施例提供的在目标终端展示的不同播放窗口示意图。
31.图4是本说明书的一个实施例提供的一种视频会议的智能导播方法的步骤示意图之二。
32.图5a-图5f分别是本说明书的实施例提供的导播后播放界面展示的全景视频图像或视频特写图像。
33.图6是本说明书的一个实施例提供的一种视频会议的智能导播装置的结构示意图。
34.图7是本说明书的一个实施例提供的电子设备的结构示意图。
具体实施方式
35.为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的一个或多个实施例只是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。
36.考虑到目前的视频会议对会场视频图像的导播能力不足，可能会出现呈现的视频图像中与会人员或发言人画面不完整、构图比例不佳等问题，从而，造成视频会议的导播构图效果和画面质量较差，影响用户体验。为此，本说明书实施例提供了一种针对视频会议的智能导播方案，以解决存在的上述问题。本技术方案的构思是：基于对获取到的视频图像中与会人员构建且绑定的虚拟定位框，结合是否监测到发言事件，来选择以最近取景方式确定的全景视频图像进行播放，还是切换为当前发言的与会人员的虚拟定位框和当前姿态构建的视频特写图像，从而可以在全景视频图像和视频特写图像间进行灵活且智能切换，能够以虚拟定位框调整构建最佳全景画面或最佳特写画面，提升视频会议的导播构图效果和画面质量，进而提高用户在视频会议期间的使用体验。
37.参照图1所示，为本说明书实施例提供的视频会议的智能导播系统的场景示意图。假设参与视频会议的会场有两个：会场1和会场2；视频会议的智能导播装置102可以作为硬件设备位于会场1，通信连接有位于会场1的目标终端104，同时，通信连接有位于会场2的目标终端106；目标终端104和目标终端106均可以安装有用于接入视频会议的智能导播装置102的客户端u。在会场1可以通过视频会议的智能导播装置102所集成在的硬件设备中的摄像系统，采集会议1本地的视频图像，为了避免画面缺失，可以通过摄像系统中多个角度的摄像设备采集不同方位的会场视频图像。在会场2可以通过目标终端106本身配置的摄像系统，采集会场2本地的视频图像。
38.目标终端106将采集的会场2本地的视频图像发送给视频会议的智能导播装置102，视频会议的智能导播装置102会结合本地采集的视频图像，分别对接收到的视频图像中与会人员进行关键部位的识别，并构建与每个与会人员的关键部位信息绑定的虚拟定位框，这样，就可以根据不同发言事件触发的信号来分析判断是播放全景视频图像还是播放视频特写图像。其实，目标终端104和目标终端106可以分别通过自身屏幕进行视频播放，也可以连接其它显示设备进行投屏播放，本说明书并不对具体的播放设备进行限定。
39.这样，可以通过图1所示的视频会议的智能导播系统，实现对视频会议的智能导播，且可以保证传输给目标终端的视频图像是以虚拟定位框调整构建的最佳全景画面或最佳特写画面，提升视频会议的导播构图效果和画面质量，进而提高用户在视频会议期间的使用体验。
40.应理解，在本说明书实施例中，图1所示的视频会议的智能导播装置102可以作为服务器置于会场以外的其它空间，而此时视频会议的智能导播装置102获取的视频图像则均可以由每个会场的目标终端配置的摄像系统采集，即视频会议的智能导播装置102可以用于提供导播服务，而不提供视频图像采集服务。其它导播服务的实现不变，可同样参考图1所示的视频会议的智能导播方案实现。
41.参照图2所示，为本说明书实施例提供的一种视频会议的智能导播方法的步骤示意图，应理解，该视频会议的智能导播方法的执行主体可以是具有一定计算和处理能力的硬件设备，例如，智能手机、个人电脑、穿戴设备、平板电脑、会议一体机等；或者软件装置，例如，集成在前述各类硬件设备上的软件模块组合)，具体可以是可以提供视频会议导播服务的服务器，例如，云服务器或其它类型服务器。所述视频会议的智能导播方法可以包括以下步骤：
42.步骤202：获取参与本次视频会议的至少两个会场的视频图像。
43.基于执行主体的类型，步骤202的具体实现可以分为不同的情况；
44.情况1，执行主体在本地会场；从执行主体的本地摄像系统中获取本地会场的视频图像，以及从其它会场的目标终端的摄像系统中获取其它会场的视频图像。其中，本地会场和其它会场均参与本次视频会议。
45.情况2，执行主体不在会场；从不同会场的目标终端的摄像系统中获取各个会场的视频图像。
46.应理解，本说明书实施例中，用于采集视频图像的摄像系统可以是执行主体的，或者目标终端的。如果是上述执行主体的，则该摄像系统可以是布设在会场多个位置的摄像头组合，例如，在会场的多个位置、角度设置不同的机位；如果是目标终端的，则该摄像系统可以是笔记本电脑或台式电脑的摄像头或是手机的摄像头。而本说明书实施例中摄像头可以是普通摄像头，也可以是深度摄像头等具有额外图像处理功能的摄像头，本说明书并不对此进行限定。
47.步骤204：识别所述视频图像中每个与会人员的关键部位信息，并基于识别到的关键部位信息，在所述视频图像中构建与每个与会人员的关键部位信息绑定且至少覆盖该关键部位的虚拟定位框。
48.在本说明书实施例中，步骤204在执行时，可以基于人脸识别技术识别所述视频图像中每个与会人员的面部信息；基于识别到的面部信息，在所述视频图像中为每个与会人员构建至少覆盖面部的虚拟定位框，并将所述面部信息与对应面部的虚拟定位框建立绑定关系。
49.其实，在获取到视频图像之后，可以基于人脸识别或其它图像处理技术，识别定位视频图像中与会人员的关键部位，并获取关键部位信息；然后，在关键部位构建至少覆盖关键部位的虚拟定位框，并将关键部位信息与该虚拟定位框绑定。这里的关键部位，可以是与会人员的人形，或是与会人员的面部，或是与会人员的唇部。本说明书实施例主要以关键部位为面部为例进行详述。
50.参照图3a所示，是获取的至少两个视频图像中某个视频图像，可以根据人脸识别技术识别定位到该视频图像中所有与会人员的人脸，然后，在每个人脸处构建一个虚拟定位框，即图3a中虚线框，其实，在视频图像上，该虚拟定位框可以不展示，仅是在后台确定一
个与虚拟定位框所覆盖区域的局部图像即可。而该虚拟定位框的大小，也与定位时所基于的关键部位有关，如果关键部位是面部，则该虚拟定位框的大小至少可以围框住人脸区域；如果关键部位是人形，则该虚拟定位框的大小至少将视频图像中该与会人员的区域框住；如果关键部位是唇部，则该虚拟定位框的大小可以围框住与会人员的唇部区域即可。
51.步骤206：判断在设定时间内是否检测到基于与会人员发言事件触发的第一信号；如果在设定时间内未检测到第一信号，则执行步骤208，否则，执行步骤210。
52.应理解，在每个会场都设置有拾音装置，以在采集摄像系统采集会场视频图像的同时，采集会场的音频信息。拾音装置可以是位于智能导播方法的执行主体上，或是位于目标终端上，或者是可穿戴的独立拾音设备(声卡等)。拾音装置可以是例如麦克风，或者由麦克风组成的收音系统。
53.拾音装置在会场中实时监测本地是否有与会人员发言事件发生，如果监测到，则会根据拾音装置采集的音频数据生成第一信号。具体可以使用语音活动检测(voice activity detection，vad)方式进行监测识别。该第一信号可以包括：与会人员发言的音频数据，以及回波数据等。
54.其实，该第一信号并不限于音频数据，还可以是图像数据，或简单的触发信号。也就是说，检测与会人员发言事件不仅可以通过拾音装置采集的音频数据确定，还可以通过摄像系统采集的图像数据确定，例如，通过普通摄像系统或红外摄像系统采集唇部张合动作；此外还可以通过部署在每个与会人员附近的触发按钮，在与会人员发言时人为触发生成第一信号。
55.所以，本说明书实施例中，智能导播装置获知与会人员发言事件的方式可以有多种，例如麦克风、普通摄像头、红外摄像头或触发按钮等，在此不对实现方式进行限制。
56.其中，设定时间可以是根据传输时延确定的在不影响正常播放情况下的有效检测时间，也可以是获取后直接就进行判断，即该设定时间为0。
57.需要说明的是，考虑到会场与会人员有时会由于咳嗽或喷嚏等不可控生理反应发出短暂的咳音或语气词等，因此，为了与正常发言相区分，可以设定这些事件发生时，不会触发采集音频或图像或按下触发按钮；或者，也可以进一步设定在检测到第一信号后，且该第一信号持续特定时长，才默认是正常的与会人员发言事件触发。
58.步骤208：将每个视频图像中多个与会人员的虚拟定位框作为整体以最近取景方式调整该视频图像，并传输给目标终端进行播放。
59.具体地，可以针对每个视频图像：将该视频图像中每个与会人员的虚拟定位框视为一个整体，以最近取景方式裁剪该视频图像，并将裁剪后的视频图像进行缩小或放大以调整为与目标终端的播放窗口大小相同。
60.应理解，这里目标终端的播放窗口可以有至少两个，以两个会场为例，参照图3b所示，在屏幕中间有两个主播放窗口，一个主播放窗口播放本地会场的视频图像f1，一个主播放窗口播放另一个会场的视频图像f2；或者，参照图3c所示，在屏幕中间有一个主播放窗口，屏幕下方或上方有一个副播放窗口，该主播放窗口播放另一个会场的视频图像f1，该副播放窗口播放本地会场的视频图像f2。当没有与会人员发言时，目标终端播放的是以最近取景方式调整的视频图像。
61.这里的最近取景，是指将所有与会人员的虚拟定位框视为一个整体后，以该整体
的中心再进行外扩，直至包围所有与会人员为止，这样重新确定的视频图像必然包含所有的与会人员，且所有与会人员作为一个整体尽可能呈现在画面中心，避免了与会人员图像不完整以及构图不佳的问题。
62.步骤210：基于所述第一信号确定当前发言的与会人员的虚拟定位框，根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像，并触发目标终端将当前播放的视频图像切换为所述第一视频特写图像，其中，所述第一视频特写图像中包含当前发言的与会人员的特写画面。
63.一种可实现的方案，在基于所述第一信号确定当前发言的与会人员的虚拟定位框时，可以基于所述第一信号中携带的语音信息和\或图像信息，在相应视频图像中对当前发言的与会人员进行定位，并基于定位结果确定当前发言的与会人员的虚拟定位框。
64.对应步骤206中的信号类型，如果第一信号携带语音信息，则可以通过波达方向(direction of arrival，doa)技术根据第一信号中的回波信号对当前发言的与会人员进行定位，进而，可以映射定位到视频图像中的虚拟定位框。如果第一信号携带图像信息，则可以通过画面比对，对当前发言的与会人员在视频图像中定位，确定相应的虚拟定位框。如果第一信号是触发信号，则可以根据触发信号与每个与会人员的标识对应关系，确定当前发言的与会人员的虚拟定位框。其实，第一信号也可以同时包含上述语音信息、图像信息以及触发信号中的几种，这样，可以通过多模态融合方式实现精准定位。
65.如果所述与会人员发言事件为单个与会人员发言事件，则基于当前发言的与会人员的虚拟定位框和当前姿态，提取至少包含当前发言的与会人员关键部位的局部视频图像，并基于该局部视频图像构建包含当前发言的与会人员的第一视频特写图像。
66.如果所述与会人员发言事件为至少两个与会人员对话发言事件，则基于确定的虚拟定位框和每个虚拟定位框对应的与会人员的当前姿态，分别提取至少包含该与会人员关键部位的局部视频图像，并将提取的至少两个局部视频图像融合，构建包含当前对话发言的至少两个与会人员的第一视频特写图像。
67.一种可实现的方案，在根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像时，可以包括以下步骤：
68.第1步，根据虚拟定位框确定当前发言的与会人员在相应视频图像中的局部视频图像。
69.由于虚拟定位框并不一定是与会人员的整像，因此，可以根据当前的虚拟定位框在视频图像中外扩出该与会人员在视频图像中的人形图像，即局部视频图像。该局部视频图像中包含与会人员在视频图像中的全部暴露部分。
70.但是，考虑到有些与会人员的位置在一些角度可能会存在重叠遮挡，因此，可以通过以下方式确定局部视频图像：
71.如果确定出的虚拟定位框与其它虚拟定位框存在重叠，则基于与该虚拟定位框存在重叠的其它虚拟定位框与该虚拟定位框生成一个整体定位框，并基于该整体定位框所覆盖区域的视频图像确定当前发言的与会人员在相应视频图像中的局部视频图像；
72.如果确定出的虚拟定位框与其它虚拟定位框不存在重叠，则基于该虚拟定位框所覆盖区域的视频图像确定当前发言的与会人员在相应视频图像中的局部视频图像。
73.这样，可以通过上述方式尽可能确定与会人员的完整人形图像。
74.第2步，根据当前发言的与会人员的当前姿态，确定相匹配的风格类型。
75.与会人员的姿态至少可以包括坐姿、站姿；其中，站姿又进一步可以包含静态站姿和动态站姿。由此，可以预先为每种姿态设置不同的风格类型，例如，坐姿对应胸像风格，站姿对应半身像风格。
76.第3步，根据确定的风格类型对局部视频图像进行裁剪和/或外扩处理，得到当前发言的与会人员的特写画面。
77.具体实现时，可以根据图像电子云台技术对裁剪的图像进行无极数字变倍处理，保证视频图像的显示通用性和平滑过渡；当裁剪出的视频图像低于1080p，可以通过超分算法等方式对视频图像进行清晰度增强，让整个导播过程中的图像都处于高清画面的状态。
78.如果当前发言的与会人员的当前姿态为坐姿，则确定与该与会人员相匹配的风格类型为胸像风格；根据确定的胸像风格对局部视频图像进行裁剪和/或外扩处理，得到当前发言的与会人员的胸像特写画面；
79.如果当前发言的与会人员的当前姿态为站姿，则确定与该与会人员相匹配的风格类型为半身像风格；根据确定的半身像风格对局部视频图像进行裁剪和/或外扩处理，得到当前发言的与会人员的半身像特写画面。
80.一种所述胸像特写画面在纵向划分有胸像留白区和胸像区；其中，胸像留白区与胸像区在纵向占据的高度比范围为[1/6，1/4]；和/或，所述半身像特写画面在纵向划分有半身像留白区和半身像区；其中，半身像留白区与半身像区在纵向占据的高度比范围为[1/8，1/6]。
[0081]
第4步，基于当前发言模式选择相匹配的图像构建规则，并按照选择的图像构建规则将包含特写画面的视频图像构建为第一视频特写图像。
[0082]
如果当前发言模式为单人发言，则基于图像构建规则构建单幅特写作为第一视频特写图像。如果当前发言模式为对话发言，则基于图像构建规则构建多幅组合特写作为第一视频特写图像。
[0083]
在本说明书实施例中，触发目标终端将当前播放的视频图像切换为所述第一视频特写图像时，可以触发目标终端将屏幕中心的主播放窗口中播放的视频图像切换为第一视频特写图像，最佳的方式是，在屏幕中心保留一个主播放窗口，用于切换播放第一视频图像图像，将本地会场和其它会场的全景视频图像在底部或顶部或其它区域的副播放窗口播放。
[0084]
应理解，本说明书实施例中，主播放窗口可以大于副播放窗口。
[0085]
一种可实现的方式，参照图4所示，当在播放第一视频特写图像过程中，所述方法还包括：
[0086]
步骤212：判断在设定时间内是否检测到当前发言的与会人员移动事件触发的第二信号；如果在设定时间内未检测到第二信号，则保持当前播放画面；否则，执行步骤214。
[0087]
在本说明书实施例中，对当前发言的与会人员移动事件的监测，可以在监测发言事件的基础上，通过摄像系统采集图像信息实现。
[0088]
步骤214：基于实时追踪到的当前发言的与会人员的虚拟定位框和当前姿态构建第二视频特写图像，并切换为最新构建的第二视频特写图像，其中，所述第二视频特写图像中包含当前发言的与会人员在移动过程中的特写画面。
[0089]
在通过步骤206定位当前发言的与会人员之后，可以进一步通过第二信号中图像信息，实时追踪当前发言的与会人员的虚拟定位框所在位置，进而结合当前发言的与会人员移动时的姿态构建第二视频特写图像，从而，触发实时切换播放最新构建的第二视频特写图像。
[0090]
一种可实现的方式，可以对跟踪移动、发言与会人员的不同的视频图像序列进行滤波等处理，保障跟踪的平滑性跟准确性，让导播效果不会因为其他人员干扰发言人的导播效果。
[0091]
下面以两个会场(会场a和会场b)接入本次视频会议为例进行说明。
[0092]
在视频会议开始后，可以获取会场a的视频图像1和会场b的视频图像2。如图5a所示，左图为会场a的视频图像1，右图为会场b的视频图像2。基于视觉识别算法分别从视频图像1和视频图像2中识别出每个与会人员的人脸图像，构建对应每个人脸图像的虚拟定位框，其实就是相当于给每个与会人员分配一个追踪id，然后将识别到的人脸图像对应的与会人员以最近取景的方式调整到画面中心。如图5b所示，左图为会场a的目标终端播放的全景视频图像，右图为会场b的目标终端播放的全景视频图像。应理解，为了便于观看，一般在主播放窗口播放对侧会场的全景视频图像，当有观看需求时，可以将本地会场的全景视频图像通过位于其它区域的副播放窗口进行播放。
[0093]
在视频会议进程中，基于麦克风识别到会场a有与会人员发言，如果是单人发言模式，则通过doa算法定位到当前发言的与会人员m1。如果是对话发言模式，则通过doa算法定位到当前对话的与会人员m2和与会人员m3。其中，与会人员m2和与会人员m3可以是处于同一会场，也可以是处于不同会场。
[0094]
在单发言模式下，可以对定位到的与会人员m1通过上述步骤210所述的方式进行特写处理，得到与会人员m1的特写画面。如果当前发言的与会人员m1是坐姿，那么，得到的特写画面可以参照图5c所示，与会人员m1以胸像风格呈现，且在顶部有半个头高度的留白区，胸像大概有2个头高度半个头高度。如果当前发言的与会人员m1是站姿，那么，得到的特写画面可以参照图5d所示，与会人员m1以半身像风格呈现，且在顶部有半个头高度的留白区，胸像大概有3个头高度半个头高度的尺寸。
[0095]
在对话发言模式下，可以对定位到的与会人员m2和m3通过上述步骤210所述的方式进行特写处理，得到与会人员m2和与会人员m3的特写画面。参照图5e所示，在对话发言过程中，与会人员m2始终是坐姿，所以在特写画面中呈现的是胸像；与会人员m3始终是站姿，所以在特写画面中呈现的是半身像。这样，可以在同一个特写图像中，通过左右布局将对话发言的两个与会人员以不同的风格呈现出来，保证最佳构图和发言人的合理呈现。
[0096]
在发言过程中，无论是单发言模式还是对话发言模式，都可以基于摄像头识别到当前发言的与会人员是否发生移动，例如，从座位上走到屏幕前进行ppt讲解。当确定发生移动，则持续追踪移动的该与会人员的特写画面。例如，如果是图5c中与会人员m1在发言过程中起立并移动，则该特写图像应持续追踪与会人员m1在发言、移动过程中的特写画面。应理解，此时的特写画面，已经切换了特写风格，从胸像风格切换为半身像风格。再如，如果是图5e中与会人员m3在对话发言过程中移动，则该特写图像中与会人员m3的特写画面应当保持该半身像风格，并持续追踪与会人员m3的特写画面。
[0097]
如果在图5c所示的单发言人模式下，有本地会场的与会人员m4加入与与会人员m3
的讨论，则按照对话发言模式下的处理方式进行特写处理，在同一个特写视频中布局与会人员m3和与会人员m4。
[0098]
如果在图5c所示的单发言人模式下，与会人员m3被未发言的与会人员m5遮挡，那么，参照图5f，可以将与会人员m3和与会人员m5视为一个整体，重新确定整体定位框，然后按照步骤210的方式构建视频特写图像。从而，保证呈现的发言人是合理且完整的。
[0099]
通过上述技术方案，基于对获取到的视频图像中与会人员构建且绑定的虚拟定位框，结合是否监测到发言事件，来选择以最近取景方式确定的全景视频图像进行播放，还是切换为当前发言的与会人员的虚拟定位框和当前姿态构建的视频特写图像，从而可以在全景视频图像和视频特写图像间进行灵活且智能切换，能够以虚拟定位框调整构建最佳全景画面或最佳特写画面，提升视频会议的导播构图效果和画面质量，进而提高用户在视频会议期间的使用体验。
[0100]
实施例二
[0101]
参照图6所示，为本说明书实施例提供的一种视频会议的智能导播装置600，包括：
[0102]
获取模块602，用于获取参与本次视频会议的至少两个会场的视频图像；
[0103]
识别模块604，用于识别所述视频图像中每个与会人员的关键部位信息，并基于识别到的关键部位信息，在所述视频图像中构建与每个与会人员的关键部位信息绑定且至少覆盖该关键部位的虚拟定位框；
[0104]
判断模块606，用于判断在设定时间内是否检测到基于与会人员发言事件触发的第一信号；
[0105]
导播模块608，如果在设定时间内未检测到第一信号，则用于将每个视频图像中多个与会人员的虚拟定位框作为整体以最近取景方式调整该视频图像，并传输给目标终端进行播放；以及，
[0106]
如果在设定时间内检测到第一信号，则基于所述第一信号确定当前发言的与会人员的虚拟定位框，根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像，并触发目标终端将当前播放的视频图像切换为所述第一视频特写图像，其中，所述第一视频特写图像中包含当前发言的与会人员的特写画面。
[0107]
可选地，作为一个实施例，
[0108]
所述判断模块606，还用于判断在设定时间内是否检测到当前发言的与会人员移动事件触发的第二信号；
[0109]
所述导播模块608，如果在设定时间内未检测到第二信号，则还用于保持当前播放画面；以及，
[0110]
如果在设定时间内检测到第二信号，则用于基于实时追踪到的当前发言的与会人员的虚拟定位框和当前姿态构建第二视频特写图像，并切换为最新构建的第二视频特写图像，其中，所述第二视频特写图像中包含当前发言的与会人员在移动过程中的特写画面。
[0111]
在本说明书实施例的一种具体实现方式中，所述导播模块608在基于所述第一信号确定当前发言的与会人员的虚拟定位框时，具体用于基于所述第一信号中携带的语音信息和\或图像信息，在相应视频图像中对当前发言的与会人员进行定位，并基于定位结果确定当前发言的与会人员的虚拟定位框。
[0112]
在本说明书实施例的再一种具体实现方式中，所述导播模块608在根据虚拟定位
框和当前发言的与会人员的当前姿态构建第一视频特写图像时，具体用于根据虚拟定位框确定当前发言的与会人员在相应视频图像中的局部视频图像；根据当前发言的与会人员的当前姿态，确定相匹配的风格类型；根据确定的风格类型对局部视频图像进行裁剪和/或外扩处理，得到当前发言的与会人员的特写画面；基于当前发言模式选择相匹配的图像构建规则，并按照选择的图像构建规则将包含特写画面的视频图像构建为第一视频特写图像。
[0113]
在本说明书实施例的再一种具体实现方式中，所述导播模块608在根据虚拟定位框确定当前发言的与会人员在相应视频图像中的局部视频图像时，如果确定出的虚拟定位框与其它虚拟定位框存在重叠，则基于与该虚拟定位框存在重叠的其它虚拟定位框与该虚拟定位框生成一个整体定位框，并基于该整体定位框所覆盖区域的视频图像确定当前发言的与会人员在相应视频图像中的局部视频图像；如果确定出的虚拟定位框与其它虚拟定位框不存在重叠，则基于该虚拟定位框所覆盖区域的视频图像确定当前发言的与会人员在相应视频图像中的局部视频图像。
[0114]
在本说明书实施例的再一种具体实现方式中，所述导播模块608在根据当前发言的与会人员的当前姿态，确定相匹配的风格类型；根据确定的风格类型对局部视频图像进行裁剪和/或外扩处理，得到当前发言的与会人员的特写画面时，如果当前发言的与会人员的当前姿态为坐姿，则确定与该与会人员相匹配的风格类型为胸像风格；根据确定的胸像风格对局部视频图像进行裁剪和/或外扩处理，得到当前发言的与会人员的胸像特写画面；如果当前发言的与会人员的当前姿态为站姿，则确定与该与会人员相匹配的风格类型为半身像风格；根据确定的半身像风格对局部视频图像进行裁剪和/或外扩处理，得到当前发言的与会人员的半身像特写画面。
[0115]
在本说明书实施例的再一种具体实现方式中，所述胸像特写画面在纵向划分有胸像留白区和胸像区；其中，胸像留白区与胸像区在纵向占据的高度比范围为[1/6，1/4]，和/或，所述半身像特写画面在纵向划分有半身像留白区和半身像区；其中，半身像留白区与半身像区在纵向占据的高度比范围为[1/8，1/6]。
[0116]
在本说明书实施例的再一种具体实现方式中，所述导播模块608在根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像时：如果所述与会人员发言事件为单个与会人员发言事件，则基于当前发言的与会人员的虚拟定位框和当前姿态，提取至少包含当前发言的与会人员关键部位的局部视频图像，并基于该局部视频图像构建包含当前发言的与会人员的第一视频特写图像；如果所述与会人员发言事件为至少两个与会人员对话发言事件，则基于确定的虚拟定位框和每个虚拟定位框对应的与会人员的当前姿态，分别提取至少包含该与会人员关键部位的局部视频图像，并将提取的至少两个局部视频图像融合，构建包含当前对话发言的至少两个与会人员的第一视频特写图像。
[0117]
在本说明书实施例的再一种具体实现方式中，所述识别模块在识别所述视频图像中每个与会人员的关键部位信息，并基于识别到的关键部位信息，在所述视频图像中构建与每个与会人员的关键部位信息绑定且至少覆盖该关键部位的虚拟定位框时，具体用于基于人脸识别技术识别所述视频图像中每个与会人员的面部信息；基于识别到的面部信息，在所述视频图像中为每个与会人员构建至少覆盖面部的虚拟定位框，并将所述面部信息与对应面部的虚拟定位框建立绑定关系。
[0118]
该视频会议的智能导播装置可以基于对获取到的视频图像中与会人员构建且绑
定的虚拟定位框，结合是否监测到发言事件，来选择以最近取景方式确定的全景视频图像进行播放，还是切换为当前发言的与会人员的虚拟定位框和当前姿态构建的视频特写图像，从而可以在全景视频图像和视频特写图像间进行灵活且智能切换，能够以虚拟定位框调整构建最佳全景画面或最佳特写画面，提升视频会议的导播构图效果和画面质量，进而提高用户在视频会议期间的使用体验。
[0119]
实施例三
[0120]
图7是本说明书的一个实施例电子设备的结构示意图。请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(random-access memory，ram)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。
[0121]
处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是isa(industry standard architecture，工业标准体系结构)总线、pci(peripheral component interconnect，外设部件互连标准)总线或eisa(extended industry standard architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
[0122]
存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。
[0123]
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成翻译模型压缩装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：
[0124]
获取参与本次视频会议的至少两个会场的视频图像；
[0125]
识别所述视频图像中每个与会人员的关键部位信息，并基于识别到的关键部位信息，在所述视频图像中构建与每个与会人员的关键部位信息绑定且至少覆盖该关键部位的虚拟定位框；
[0126]
判断在设定时间内是否检测到基于与会人员发言事件触发的第一信号；
[0127]
如果在设定时间内未检测到第一信号，则将每个视频图像中多个与会人员的虚拟定位框作为整体以最近取景方式调整该视频图像，并传输给目标终端进行播放；
[0128]
如果在设定时间内检测到第一信号，则基于所述第一信号确定当前发言的与会人员的虚拟定位框，根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像，并触发目标终端将当前播放的视频图像切换为所述第一视频特写图像，其中，所述第一视频特写图像中包含当前发言的与会人员的特写画面。
[0129]
上述如本说明书图2和图4所示实施例揭示的装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(central processing unit，cpu)、网络处理器(network processor，np)等；还可以是数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现
场可编程门阵列(field－programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
[0130]
该电子设备还可执行图2和图4的方法，并实现相应装置在图2和图4所示实施例的功能，本说明书实施例在此不再赘述。
[0131]
当然，除了软件实现方式之外，本说明书实施例的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。
[0132]
本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图2和图4所示实施例的方法，并具体用于执行以下方法：
[0133]
获取参与本次视频会议的至少两个会场的视频图像；
[0134]
识别所述视频图像中每个与会人员的关键部位信息，并基于识别到的关键部位信息，在所述视频图像中构建与每个与会人员的关键部位信息绑定且至少覆盖该关键部位的虚拟定位框；
[0135]
判断在设定时间内是否检测到基于与会人员发言事件触发的第一信号；
[0136]
如果在设定时间内未检测到第一信号，则将每个视频图像中多个与会人员的虚拟定位框作为整体以最近取景方式调整该视频图像，并传输给目标终端进行播放；
[0137]
如果在设定时间内检测到第一信号，则基于所述第一信号确定当前发言的与会人员的虚拟定位框，根据虚拟定位框和当前发言的与会人员的当前姿态构建第一视频特写图像，并触发目标终端将当前播放的视频图像切换为所述第一视频特写图像，其中，所述第一视频特写图像中包含当前发言的与会人员的特写画面。
[0138]
总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。
[0139]
上述一个或多个实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0140]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动
态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0141]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0142]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0143]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于深度度量学习的网络攻击检测方法

一种视频会议的智能导播方法、装置及系统与流程

相关文献

最热文献