视频对焦方法及装置与流程

2021-10-24 04:16:00 来源：中国专利 TAG：方法数据处理对焦视频处理装置

1.本技术涉及视频处理技术领域，具体涉及视频对焦方法、装置及设备。本技术还涉及一种数据处理方法。

背景技术：

2.在视频应用系统中，视频采集时往往需要对一个或几个对象进行清晰显示，因此需要对目标对象进行对焦。例如，直播或者视频会议或者视频通话或者录制视频。
3.现有技术中如果采用手动对焦，则焦点是固定的，给视频采集带来极大不便。如果是自动对焦，往往根据待拍摄场景中各对象的远近层次、光线等环境参数进行对焦，则难以适应需要跟随声音对焦的场景。例如，对于直播带货场景，由单一主播逐渐发展出多主播连播、多人同镜头直播等形式，但是直播中无法跟随声音对焦，常出现一位主播讲话而镜头却对焦了另一位主播的情况，给用户带来人声不同步的感觉，导致用户的体验断层。
4.因此，提供合理的视频对焦方式以避免视频采集时无法跟随声音对焦的情形，是需要解决的问题。

技术实现要素：

5.本技术实施例提供的视频对焦方法，解决了视频采集时无法跟随声音对焦的问题。
6.本技术实施例提供一种视频对焦方法，包括：获取视频场景中的语音数据，提取所述语音数据的声纹特征；将所述语音数据的声纹特征与预先存储的声纹特征进行匹配，确定所述预先存储的声纹特征中匹配上的目标声纹特征；识别出所述视频场景中与所述目标声纹特征匹配的目标对象，控制摄像头对所述目标对象的面部进行对焦或追焦。
7.可选的，所述获取视频场景中的语音数据，包括：采集所述视频场景中的所有声音，对所述声音进行过滤处理，得到所述语音数据。
8.可选的，所述采集所述视频场景中的所有声音，对所述声音进行过滤处理，得到所述语音数据，包括：根据预设的噪音频率范围过滤所述声音中的噪音，提取出所述语音数据；或者，根据预设的噪音强度阈值过滤所述声音中的噪音，提取出所述语音数据。
9.可选的，所述提取所述语音数据的声纹特征，包括：获取所述语音数据中当前语音帧的频率值和/或相邻语音帧的频率值，根据所述当前语音帧的频率值和/或相邻语音帧的频率值确定所述语音数据的声纹特征。
10.可选的，还包括：采集所述目标对象的声音数据，根据所述声音数据提取所述目标对象的声纹特征；采集所述目标对象的视觉形象，提取所述视觉形象的视觉形象特征；将所述声纹特征与所述视觉形象特征关联存储；所述目标对象的声纹特征为预先存储的声纹特征。
11.可选的，所述采集所述目标对象的声音数据，根据所述声音数据提取所述目标对象的声纹特征，包括：在多种场景中采集所述目标对象的不同声音强度的声音，对采集到的
不同声音强度的声音进行过滤；基于神经网络对过滤后的声音进行学习，得到所述目标对象的声纹特征。
12.可选的，所述识别出所述视频场景中与所述目标声纹特征匹配的目标对象，包括：获取与所述目标声纹特征关联的目标视觉形象特征；识别出所述视频场景中与所述目标视觉形象特征匹配的对象，作为所述与所述目标声纹特征匹配的目标对象。
13.可选的，所述目标视觉形象特征为所述目标对象的面部图像特征；所述识别出所述视频场景中与所述目标视觉形象特征匹配的目标对象，包括：提取所述视频场景中的对象的面部图像；计算所述的面部图像与所述目标视觉形象特征的相似度，如果相似度大于相似度阈值，则所述面部图像为目标对象的面部图像。
14.可选的，所述对所述目标对象的面部进行对焦或追焦，包括：确定所述视频场景中目标对象的面部图像的清晰度；如果所述清晰度低于清晰度阈值，则调整所述视频场景中图像的聚焦位置，直至所述清晰度不低于所述清晰度阈值。
15.可选的，所述对所述目标对象的面部进行对焦或追焦，包括：基于所述目标对象的面部图像确定聚焦位置；标记所述聚焦位置，根据所述目标对象的面部图像的空间位置变化移动所述聚焦位置，以跟踪所述目标对象的面部。
16.可选的，还包括：捕获所述视频场景中所述目标对象的面部图像的位置信息和/或尺寸信息；根据所述位置信息和/或尺寸信息，对焦和/或实时对焦所述目标对象的面部。
17.本技术实施例还提供一种数据处理方法，包括：展示用于建立声纹与视觉形象关联关系的第一页面，所述第一页面展示有声纹采集入口；响应于所述声纹采集入口的触发指令，展示声纹采集页面；所述声纹采集页面用于采集对象的声音信息；所述声音信息用于提取所述对象的声纹特征；响应于所述对象的声音信息的采集成功指令，展示视觉形象信息采集页面；所述视觉形象信息采集页面用于采集所述对象的视觉形象信息；所述视觉形象信息用于提取所述对象的视觉形象特征；建立所述声纹特征与所述视觉形象特征的关联关系。
18.可选的，还包括：在所述声纹采集页面接收输入的声纹标识信息；和/或，在所述声纹采集页面展示用于开启声音采集功能的声纹录入控件，所述声纹录入控件被触发后展示声纹采集的二级页面，引导所述对象录入声音信息；所述声音信息为语音数据。
19.可选的，所述第一页面还展示有声纹管理入口；所述方法还包括：响应于所述声纹管理入口，展示用于对声纹进行管理的声纹管理页面；；在所述声纹管理页面接收用户行为信息，根据所述用户行为信息对所述已录入的声音信息和/或与所述已录入的声音信息关联的视觉形象信息，进行下述操作处理：删除、更新或增加。
20.可选的，所述第一页面还展示追声对焦控件，所述追声对焦控件被触发后用于开启音视频采集功能，并展示和/或测试根据视频场景中的语音数据实时对焦目标对象的面部图像的效果。
21.可选的，所述第一页面展示有视觉形象信息采集入口；所述方法还包括：响应于所述视觉形象信息采集入口的触发指令，展示用于采集对象的视觉形象信息的视觉形象信息采集页面；所述视觉形象信息用于提取所述对象的视觉形象特征；响应于所述对象的视觉形象信息的采集成功指令，展示所述声纹采集页面；采集所述对象的声音信息，建立所述声音信息的声纹特征与所述视觉形象特征的关联关系。
22.本技术实施例还提供一种视频对焦装置，包括：声纹获取单元，用于获取视频场景中的语音数据，提取所述语音数据的声纹特征；声纹匹配单元，用于将所述语音数据的声纹特征与预先存储的声纹特征进行匹配，确定所述预先存储的声纹特征中匹配上的目标声纹特征；对焦单元，用于识别出所述视频场景中与所述目标声纹特征匹配的目标对象，对所述目标对象的面部进行对焦或追焦。
23.本技术实施例还提供一种数据处理装置，包括：主界面单元，用于展示用于建立声纹与视觉形象关联关系的第一页面，所述第一页面展示有声纹采集入口；声纹采集单元，用于响应于所述声纹采集入口的触发指令，展示声纹采集页面；所述声纹采集页面用于采集对象的声音信息；所述声音信息用于提取所述对象的声纹特征；视觉形象采集单元，用于响应于所述对象的声音信息的采集成功指令，展示视觉形象信息采集页面；所述视觉形象信息采集页面用于采集所述对象的视觉形象信息；所述视觉形象信息用于提取所述对象的视觉形象特征；绑定单元，用于建立所述声纹特征与所述视觉形象特征的关联关系。
24.本技术实施例还提供一种电子设备，包括：存储器，以及处理器；所述存储器用于存储计算机程序，所述计算机程序被所述处理器运行后，执行本技术实施例提供的所述方法。
25.本技术实施例还提供一种存储设备，存储有计算机程序，所述计算机程序被处理器运行后，执行本技术实施例提供的所述方法。
26.与现有技术相比，本技术具有以下优点：
27.本技术实施例提供的一种视频对焦方法、装置及设备，通过获取视频场景中的语音数据，提取所述语音数据的声纹特征；将所述语音数据的声纹特征与预先存储的声纹特征进行匹配，确定所述预先存储的声纹特征中匹配上的目标声纹特征；识别出所述视频场景中与所述目标声纹特征匹配的目标对象，对所述目标对象的面部进行对焦或追焦。通过识别视频场景中语音数据的声纹特征，基于与所述声纹特征匹配的目标声纹特征进行对焦从而实现追声对焦，解决了视频采集时无法跟随声音对焦的问题。
28.本技术实施例提供的一种数据处理方法、装置及设备，通过展示用于建立声纹与视觉形象关联关系的第一页面，所述第一页面展示有声纹采集入口；响应于所述声纹采集入口的触发指令，展示声纹采集页面；所述声纹采集页面用于采集对象的声音信息；所述声音信息用于提取所述对象的声纹特征；响应于所述对象的声音信息的采集成功指令，展示视觉形象信息采集页面；所述视觉形象信息采集页面用于采集所述对象的视觉形象信息；所述视觉形象信息用于提取所述对象的视觉形象特征；建立所述声纹特征与所述视觉形象特征的关联关系。所述声纹特征与所述视觉形象特征的关联关系为实现追声对焦提供了数据基础，从而解决了视频采集时无法跟随声音对焦的问题。
附图说明
29.图1是本技术实施例提供的方法的一种部署系统环境示意图；
30.图1a是本技术实施例提供的方法的一种应用场景示意图；
31.图2是本技术第一实施例提供的一种视频对焦方法的处理流程图；
32.图3是本技术第一实施例提供的一种建立声纹面部关联关系的流程图；
33.图4是本技术第一实施例提供的直播场景中视频对焦方法的流程图；
34.图5是本技术第二实施例提供的一种数据处理方法的处理流程图；
35.图6是本技术第二实施例提供的一种建立声纹面部关联关系的应用界面示意图；
36.图7是本技术第四实施例提供的一种视频对焦装置示意图；
37.图8是本技术第四实施例提供的一种数据处理装置示意图；
38.图9是本技术提供的电子设备示意图。
具体实施方式
39.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
40.本技术实施例提供一种视频对焦方法、装置、电子设备及存储设备。本技术实施例还提供一种数据处理方法、装置、电子设备及存储设备。在下面的实施例中逐一进行说明。
41.为便于理解，首先给出本技术实施例提供的方法的应用场景。本技术实施例提供的方法可应用于但不限于直播或者视频会议或者视频通话或者录制视频等涉及视频的场景。此类场景中涉及的视频应用系统可参考图1，一般包括：音视频采集端101、服务端102、播放端103。音视频采集端是指具备采集音视频采集功能的电子设备，是产生视频流的源端，可以为但不限于手机、pad等智能终端。在直播场景中，音视频采集端为主播端使用的电子设备，是产生视频流的源端。音视频采集端可以采集音频及视频数据，进一步还可以对音视频进行水印、美颜、特效滤镜等处理，处理后的音视频编码压缩成可观看可传输的视频流，通过网络推送至服务端，具体可采用流媒体协议将按照一定格式封装的音视频数据包发送至服务端。服务器端收集音视频采集端的音视频流，将音视频流推送给所有播放端，也可以进行鉴权认证、实时转码及录制存储等。播放端获取到拉流的地址，拉取按照流媒体协议封装的音视频流，解析出音视频数据进行解码并播放。
42.再请参考图1a，图中示出了直播场景的视频画面，图中，左中右三个主播分别为a、b、c，主播a在发言。现有多主播视频画面101a为现有直播场景在多主播直播视频画面常出现的一种情形，由于根据待拍摄场景中各对象的远近层次、光线等环境参数进行对焦，因此镜头会就近对c主播对焦，而不会自动对焦正在讲话的a主播，导致视频画面中a主播影像模糊，声音与人像没有一一对应，人声不同步导致视频观看者体验断层。准确对焦多主播视频画面102a中，为根据声音对焦，当a主播发言时，将采集的声音对应的声纹与已记录的声纹进行匹配，匹配后唤起该声纹预先绑定的面部对象如a主播对应的人脸图像，对该面部对象进行对焦，进一步对该面部对象进行实时面部对焦跟踪，从而可以在a发言时对焦a，使得a的影像清晰，声音与影像匹配。
43.可以理解的是，图1给出的直播场景仅为应用场景的示意性说明，并非对本实施例提供的视频对焦方法的场景限制。本实施例提供的视频对焦方法应用场景不做限制，例如还可以应用于视频会议或者视频通话或者录制视频或者录制并分享视频等视频采集场景。
44.以下结合图2至图4对本技术第一实施例提供的视频对焦方法进行说明。图2所示的视频对焦方法，包括：步骤s201至步骤s204。
45.步骤s201，获取视频场景中的语音数据，提取所述语音数据的声纹特征。
46.本步骤中是获取视频场景中的语音数据。所述语音数据为采集视频的音视频采集
设备采集到的语音数据；所述音视频采集设备可以为但不限于直播场景主播端电子设备，或，为视频会议终端。具体的，可以通过音视频采集设备的拾音器如麦克风收集视频场景中的所有声音信号，对所述声音信号进行预处理提取出所述语音数据。所述预处理可以为对声音信号进行过滤处理。具体的，所述获取视频场景中的语音数据，包括：采集所述视频场景中的所有声音，对所述声音进行过滤处理，得到所述语音数据。进一步，可以基于噪音频率或者噪音强度过滤声音信号中的噪音。具体的，所述采集所述视频场景中的所有声音，对所述声音进行过滤处理，得到所述语音数据，包括：根据预设的噪音频率范围过滤所述声音中的噪音，提取出所述语音数据；或者，根据预设的噪音强度阈值过滤所述声音中的噪音，提取出所述语音数据。
47.本实施例中，在提取所述语音数据的声纹特征之前还包括对所述语音数据进行分帧处理，所述分帧处理包括根据指定时间间隔或采样数将收集到的语音数据进行分段得到特定长度的一段语音数据，每段语音数据为一帧语音数据。分帧后提取各帧语音数据的声纹特征参数，作为所述语音数据的声纹特征。由于语音信号是一个非平稳信号，逐帧处理数据也能够体现信号中的时序特性，相对于逐点对数据进行处理，能降低计算量。具体的，可通过下述处理提取分帧后的语音数据的声纹特征，包括：获取所述语音数据中当前语音帧的频率值和/或相邻语音帧的频率值，根据所述当前语音帧的频率值和/或相邻语音帧的频率值确定所述语音数据的声纹特征。当然，也可以使用其他能识别声纹的特征参数如mfcc(mel
‑
scale frequency cepstral coefficients)倒谱系数。
48.本实施例中，可以通过如下处理实现提取所述语音数据的声纹特征参数：收集所述视频场景中的所有声音；对收集到的所述声音过滤后得到语音数据；对所述语音数据进行分帧处理；识别每帧语音数据的声纹特征参数，作为所述语音数据的声纹特征。后续步骤中可根据每帧语音数据的声纹特征确定匹配上的声纹特征，例如，确定预存有声纹特征的声纹库中与所述声纹特征参数匹配上的声纹特征。
49.步骤s202，将所述语音数据的声纹特征与预先存储的声纹特征进行匹配，确定所述预先存储的声纹特征中匹配上的目标声纹特征。
50.本步骤中是确定所述语音数据匹配上的目标声纹特征，以便进一步确定发出该语音的目标对象。
51.实际应用中，可采用声纹识别技术(voiceprint recognition,vpr)确认所述语音数据匹配上的声纹特征。包括：。可采用多种方法识别语音数据匹配到的声纹特征，例如：模板匹配法、统计概率模型法、人工神经网络法、支持向量机法，稀疏表示法sparse representation，sr)。其中，人工神经网络法包括多种方法如时延神经网络(tdnn)、决策树神经网络(dtnn)等；稀疏表示法是利用字典的学习，将信号特征表示成少数基本原子的线性组合的过程。本技术中对具体的语音识别方法不做限制。
52.步骤s203，识别出所述视频场景中与所述目标声纹特征匹配的目标对象，对所述目标对象的面部进行对焦或追焦。
53.本实施例中，与所述目标声纹特征匹配的对象可以理解为与所述语音数据匹配的对象，即为发出包含所述语音数据的声音的对象，对所述对象的面部进行对焦或追焦，从而实现了追声对焦，达到声音与图像一致的视频效果。
54.本步骤中，所述识别出所述视频场景中与所述目标声纹特征匹配的目标对象，包
括：获取与所述目标声纹特征关联的目标视觉形象特征；识别出所述视频场景中与所述目标视觉形象特征匹配的对象，作为所述与所述目标声纹特征匹配的目标对象。即将与所述目标声纹特征关联存储的视觉形象特征，作为用于识别发出所述语音数据的目标对象的视觉形象特征，进而根据该视觉形象特征确定发出包含所述语音数据的声音的目标对象。
55.实施时还包括预先建立对象的声纹与视觉形象的关联关系，所述对象中包括目标对象。本实施例中具体包括：采集所述目标对象的声音数据，根据所述声音数据提取所述目标对象的声纹特征；获取所述目标对象的视觉形象，提取所述视觉形象的视觉形象特征；将所述声纹特征与所述视觉形象特征关联存储；所述目标对象的声纹特征为预先存储的声纹特征。其中，所述将所述声纹特征与所述视觉形象特征关联存储，包括：建立所述声纹特征与所述视觉形象特征的关联关系。其中，所述采集所述目标对象的声音数据，根据所述声音数据提取所述目标对象的声纹特征，包括：在多种场景中采集所述目标对象的不同声音强度的声音，对采集到的不同声音强度的声音进行过滤；基于神经网络对过滤后的声音进行学习，得到所述目标对象的声纹特征。实际应用中，可以将一个对象的面部作为该对象的视觉形象，如以人脸图像作为人物的视觉形象。预先建立对象的声纹特征与视觉形象特征的关联关系，可以理解为预先将对象的声纹特征与面部特征进行绑定，在本步骤中进行处理时，提取视频场景中语音数据的声纹特征，识别出与该声纹特征匹配的目标声纹特征，根据该目标声纹特征的标识确定该对象的面部特征，将视频场景的图像焦点位置(或聚焦位置)调节至于该面部特征匹配的面部，实现追声对焦。
56.请参考图3，图中示出了一种建立声纹面部关联关系的流程图，包括：s301，新建声纹id。s302，根据提示录入声音。s303，录入的声音是否合规？如果是，执行s304；如果否，返回继续录入声音。s304，根据提示录入面部。s305，录入的面部是否合规？如果是，执行s3046如果否，返回继续录入面部图像。s306，将声纹与面部特征绑定存储。每新建声纹id和/或面部id，重复执行s301至s306。
57.优选的，所述视觉形象为对象面部，即人脸。可以理解的是，所述视觉形象特征为面部图像特征，所述目标视觉形象特征为所述目标对象的面部图像特征。相应的，与所述目标声纹特征关联的目标视觉形象特征，为预先存储的所述目标对象的面部图像特征。则本步骤中需要根据所述目标对象的面部图像特征，识别出所述视频场景的各对象中的目标对象。实际应用中，可采用人脸识别技术识别出所述目标对象的面部图像。所谓人脸识别技术，是基于人的脸部特征信息进行身份识别的一种生物识别技术，可将待识别的人脸特征与已得到的人脸特征模板进行比较，根据相似程度对人脸的身份信息进行判断。具体到本实施例，所述识别出所述视频场景中与所述目标视觉形象特征匹配的目标对象，包括：提取所述视频场景中的对象的面部图像；计算所述面部图像与所述目标视觉形象特征的相似度，如果相似度大于相似度阈值，则所述面部图像为目标对象的面部图像，该对象为目标对象。本实施例中，是对焦所述目标对象的面部图像或者对所述目标对象的面部图像进行追焦。所述对焦或追焦既可以为控制镜头位置姿态进行光学对焦或追焦，也可以为数字对焦或追焦。一个实施方式中，所述对所述目标对象的面部进行对焦或追焦，包括：确定所述视频场景中目标对象的面部图像的清晰度；如果所述清晰度低于清晰度阈值，则调整所述视频场景中图像的聚焦位置和/或摄像头的姿态位置，直至所述清晰度不低于所述清晰度阈值。
58.一个实施方式中，基于所述目标对象的面部图像确定聚焦位置，根据所述聚焦位置进行对焦或追焦，包括：基于所述目标对象的面部图像确定聚焦位置；标记所述聚焦位置，根据所述目标对象的面部图像的空间位置变化移动所述聚焦位置，以跟踪所述目标对象的面部。可以包括：控制摄像头对准所述目标对象的位置，将聚焦位置调节至所述目标对象的面部图像，实现追焦。
59.进一步，还包括：捕获所述视频场景中所述目标对象的面部图像的位置信息和/或尺寸信息，根据所述位置信息和/或尺寸信息，对焦和/或实时对焦所述目标对象的面部。
60.请参考图4，图中示出了直播场景中视频对焦方法的流程图，包括：s401，检测到主播发出声音。s402，与所记录的声纹进行匹配。s403，对焦匹配上的声纹id绑定的面部。s404，对该面部进行实时面部对焦跟踪。每检测到声音，重复执行s401至s404。
61.本技术实施例中，服务端可以是流媒体服务器，用于接收音视频采集设备推送的视频流；其中，所述视频流的视频帧包含基于目标对象的面部图像对焦的视频帧，与所述视频帧同步的音频数据包含目标语音数据，所述目标语音数据对应的声纹特征与所述目标对象的视觉形象特征相匹配；向请求所述视频流的音视频播放设备分发所述视频流。
62.本技术实施例中，播放端用于向服务端请求获取视频流；其中，所述视频流的视频帧包含基于目标对象的面部图像对焦的视频帧，与所述视频帧同步的音频数据包含目标语音数据，所述目标语音数据对应的声纹特征与所述目标对象的视觉形象特征相匹配；播放所述视频流，所述视频流的播放中播放所述目标语音数据时对应展示所述基于目标对象的面部图像对焦的视频帧。
63.需要说明的是，在不冲突的情况下，在本实施例和本技术的其他实施例中给出的特征可以相互组合，并且步骤s201和s202或类似用语不限定步骤必须先后执行。
64.至此，对本实施例提供的视频对焦方法进行了说明，所述方法通过获取视频场景中的语音数据，提取所述语音数据的声纹特征；将所述语音数据的声纹特征与预先存储的声纹特征进行匹配，确定所述预先存储的声纹特征中匹配上的目标声纹特征；识别出所述视频场景中与所述目标声纹特征匹配的目标对象，对所述目标对象的面部进行对焦或追焦。通过识别视频场景中语音数据的声纹特征，基于与所述声纹特征匹配的目标声纹特征进行对焦从而实现追声对焦，解决了视频采集时无法跟随声音对焦的问题。
65.以上述实施例为基础，本技术第二实施例还提供一种数据处理方法，以下结合图5和图6进行说明。请参考图5，图中所示的数据处理方法，包括：步骤s501至步骤s504。
66.步骤s501，展示用于建立声纹与视觉形象关联关系的第一页面，所述第一页面展示有声纹采集入口。
67.本实施例提供的方法可用于建立声纹与视觉形象的关联关系，获取目标对象的语音数据，提取所述语音数据的声纹特征；获取所述对象的视觉形象，提取所述视觉形象的视觉形象特征；建立所述声纹特征与所述视觉形象特征的关联关系，为基于与声纹特征关联的视觉形象特征进行对焦实现追声对焦提供数据基础，用以解决视频采集时无法跟随声音对焦的问题。其中，视觉形象优选为对象的面部图像，所述视觉形象特征为对象的面部图像特征。所述方法具体为通过可提供音视频采集功能的电子设备提供交互界面，以引导用户录入声音信息及需要与该声音信息绑定的视觉形象信息，提取声音信息的声纹特征，提取视觉形象信息的视觉形象特征，从而建立声纹特征与视觉形象特征的关联存储，将声纹特
征与视觉形象特征绑定。
68.本步骤中的第一页面提供包含有声纹信息采集入口的界面。声纹信息采集入口可以为所述界面中能接收用户输入信息和/或用户触发的界面元素。
69.步骤s502，响应于所述声纹采集入口的触发指令，展示声纹采集页面；所述声纹采集页面用于采集对象的声音信息；所述声音信息用于提取所述对象的声纹特征。
70.本步骤中展示的声纹采集页面提供声纹采集界面，在声纹采集页面接收用户行为信息，采集目标对象的声音信息。用户行为信息包括但不限于输入声纹名称、触发声纹录入等行为信息。具体还包括：在所述声纹采集页面接收输入的声纹标识信息；和/或，在所述声纹采集页面展示用于开启声音采集功能的声纹录入控件，所述声纹录入控件被触发后展示声纹采集的二级页面，引导所述对象录入声音信息；所述声音信息为语音数据。其中，所述声纹标识信息可以是用户输入的声纹名称，也可以是系统缺省生成的声纹名称或编号等信息。所述声纹录入控件可以为展示有文字和/或图形图像的界面元素，例如可以是展示有用于提示用户录入语音文案信息的按钮，也可以为展示有麦克风或拾音器图形的按钮。
71.本实施例中，还提供对已录入的声音信息和/或声纹特征进行管理的管理界面。具体的，所述第一页面还展示有声纹管理入口；所述方法还包括：响应于所述声纹管理入口，展示用于对声纹进行管理的声纹管理页面；所述声纹管理页面具体可用于展示已录入的声纹信息和/或与所述已录入声纹信息关联的视觉形象，如面部图像；在所述声纹管理页面接收用户行为信息，根据所述用户行为信息对所述已录入的声纹信息和/或与所述已录入声纹信息关联的面部图像，进行下述操作处理：删除、更新或增加。
72.本实施例中，还提供针对追声对焦展示功能的界面，可以展示和/或测试基于已录入的声纹特征以及与该声纹特征相关联的视觉形象特征进行对焦和/或追焦的效果，便于重新录入和/或管理所述已录入的声纹特征以及与该声纹特征相关联的视觉形象特征。实际应用中，也就是提供针对追声对焦功能的测试功能或测试工具。具体的，所述第一页面还展示追声对焦控件，所述追声对焦控件被触发后用于开启音视频采集功能，并展示和/或测试根据视频场景中的语音数据实时对焦目标对象的面部图像的效果。
73.步骤s503，响应于所述对象的声音信息的采集成功指令，展示视觉形象信息采集页面；所述视觉形象信息采集页面用于采集所述对象的视觉形象信息；所述视觉形象信息用于提取所述对象的视觉形象特征。
74.本步骤是采集声音信息后，继续引导用户采集需要与所述声音信息建立关联关系的视觉形象信息。优选的，所述视觉形象为对象面部。具体的，在所述视觉形象信息采集页面引导用户锁定面部，采集视觉形象信息。
75.当然，实施时，建立声纹特征与视觉形象特征的关联关系过程中，既可以先录入声音信息，再录入需要与所述声音信息关联的视觉形象信息；也可以先录入视觉形象信息，再录入需要与所述视觉形象信息关联的声音信息。相应地，一种实施方式中，所述第一页面展示有视觉形象信息采集入口；响应于所述面部信息采集入口的触发指令，展示用于采集对象的视觉形象信息的视觉形象信息采集页面；所述视觉形象信息采集页面用于采集对象的视觉形象信息；所述视觉形象信息用于提取所述对象的视觉形象特征；响应于所述对象的视觉形象信息的采集成功指令，展示所述声纹采集页面；采集所述对象的声音信息，建立所述声音信息的声纹特征与所述视觉形象特征的关联关系。
76.步骤s504，建立所述声纹特征与所述视觉形象特征的关联关系。
77.本步骤中将提取到的所述声纹特征与所述视觉形象特征进行关联存储。例如，对采集的声音信息提取声纹特征，使用声纹特征标识标识一条声音信息的声纹特征；将与所述声音信息对应采集的视觉形象信息如面部图像，与该声纹特征标识绑定，从而建立起所述关联关系。也可以使用视觉形象特征标识视觉形象特征，所述视觉形象特征为与所述声纹信息对应采集的视觉形象信息的特征，建立声纹特征标识与视觉形象特征标识的对应关联，从而建立起所述关联关系。
78.请参考图6，图中示出了一种建立声纹面部关联关系的应用界面示意图，包括：功能面板601，功能面板中包括追声对焦功能的入口601
‑
1，所述追声对焦功能为通过交互界面引导用户建立声纹特征与视觉形象特征的关联关系的功能。所述关联关系用于根据识别出的声纹进行对焦，从而实现采集声像同步的音视频。追声对焦主界面602，追声对焦主界面相当于所述第一页面；追声对焦主界面中包含新增声纹id入口602
‑
1和/或602
‑
2，即所述声纹信息采集入口。声纹信息采集入口被触发后展示新增声纹id页面603，所述新增声纹id页面即为所述声纹采集页面。在所述声纹采集页面可接收用户输入的本次采集的声纹的声纹标识，如名称信息。在所述声纹采集页面检测到用户确认开始录入声纹的触发后，如用户触发确认键或拾音器标识，则展示录入声纹页面604。在录入声纹页面确认声纹录入成功后，如声纹录入成功界面605所示，触发启动绑定人脸页面606。绑定人脸页面相当于所述视觉形象信息采集页面，可以采集人脸图像，用于作为提取视觉形象特征的视觉形象信息。检测到用户人脸绑定确认成功后展示人脸绑定成功界面607，表示成功建立一组声纹特征与视觉形象特征的对应关系。图中追声对焦主界面602还展示有管理声纹id入口602
‑
3，即所述声纹管理入口。图中追声对焦主界面602还展示有对声纹id进行实时面部对焦跟踪功能入口602
‑
4，即所述追声对焦展示功能入口。
79.可以理解的是，图中的界面为示意性的，各图形元素的形状、尺寸及布局等信息不作为实现所述方法的限制。
80.至此，对本实施例提供的方法进行了说明，所述方法通过展示用于建立声纹与视觉形象关联关系的第一页面，所述第一页面展示有声纹采集入口；响应于所述声纹采集入口的触发指令，展示声纹采集页面；所述声纹采集页面用于采集对象的声音信息；所述声音信息用于提取所述对象的声纹特征；响应于所述对象的声音信息的采集成功指令，展示视觉形象信息采集页面；所述视觉形象信息采集页面用于采集所述对象的视觉形象信息；所述视觉形象信息用于提取所述对象的视觉形象特征；建立所述声纹特征与所述视觉形象特征的关联关系。所述声纹特征与所述视觉形象特征的关联关系为实现追声对焦提供数据基础，用以解决视频采集时无法跟随声音对焦的问题。
81.与第一实施例对应，本技术第三实施例提供一种视频对焦装置。以下结合图7对所述装置进行说明。图7所示的视频对焦装置，包括：
82.声纹获取单元701，用于获取视频场景中的语音数据，提取所述语音数据的声纹特征；
83.声纹匹配单元702，用于将所述语音数据的声纹特征与预先存储的声纹特征进行匹配，确定所述预先存储的声纹特征中匹配上的目标声纹特征；
84.对焦单元703，用于识别出所述视频场景中与所述目标声纹特征匹配的目标对象，
对所述目标对象的面部进行对焦或追焦。
85.可选的，所述声纹获取单元701具体用于：采集所述视频场景中的所有声音，对所述声音进行过滤处理，得到所述语音数据。
86.可选的，所述声纹获取单元701具体用于：根据预设的噪音频率范围过滤所述声音中的噪音，提取出所述语音数据；或者，根据预设的噪音强度阈值过滤所述声音中的噪音，提取出所述语音数据。
87.可选的，所述声纹获取单元701具体用于：获取所述语音数据中当前语音帧的频率值和/或相邻语音帧的频率值，根据所述当前语音帧的频率值和/或相邻语音帧的频率值确定所述语音数据的声纹特征。
88.可选的，所述装置还包括声纹与视觉形象关联单元，所述声纹与视觉形象关联单元用于：采集所述目标对象的声音数据，根据所述声音数据提取所述目标对象的声纹特征；采集所述目标对象的视觉形象，提取所述视觉形象的视觉形象特征；将所述声纹特征与所述视觉形象特征关联存储；所述目标对象的声纹特征为预先存储的声纹特征。
89.可选的，所述声纹与视觉形象关联单元具体用于：在多种场景中采集所述目标对象的不同声音强度的声音，对采集到的不同声音强度的声音进行过滤；基于神经网络对过滤后的声音进行学习，得到所述目标对象的声纹特征。
90.可选的，所述对焦单元具体用于：获取与所述目标声纹特征关联的目标视觉形象特征；识别出所述视频场景中与所述目标视觉形象特征匹配的对象，作为所述与所述目标声纹特征匹配的目标对象。
91.可选的，所述目标视觉形象特征为所述目标对象的面部图像特征；所述对焦单元703具体用于：提取所述视频场景中的对象的面部图像；计算所述面部图像与所述目标视觉形象特征的相似度，如果相似度大于相似度阈值，则所述面部图像为目标对象的面部图像。
92.可选的，所述对焦单元703具体用于：确定所述视频场景中目标对象的面部图像的清晰度；如果所述清晰度低于清晰度阈值，则调整所述视频场景中图像的聚焦位置，直至所述清晰度不低于所述清晰度阈值。
93.可选的，所述对焦单元703具体用于：基于所述目标对象的面部图像确定聚焦位置；标记所述聚焦位置，根据所述目标对象的面部图像的空间位置变化移动所述聚焦位置，以跟踪所述目标对象的面部。
94.可选的，所述对焦单元703具体用于：捕获所述视频场景中所述目标对象的面部图像的位置信息和/或尺寸信息；根据所述位置信息和/或尺寸信息，对焦和/或实时对焦所述目标对象的面部。
95.与第二实施例对应，本技术第四实施例提供一种数据处理装置。以下结合图8对所述装置进行说明。图8所示的数据处理装置，包括：
96.主界面单元801，用于展示用于建立声纹与视觉形象关联关系的第一页面，所述第一页面展示有声纹采集入口；
97.声纹采集单元802，用于响应于所述声纹采集入口的触发指令，展示声纹采集页面；所述声纹采集页面用于采集对象的声音信息；所述对象的声音信息用于提取所述对象的声纹特征；
98.视觉形象采集单元803，用于响应于所述对象的声音信息的采集成功指令，展示视
觉形象信息采集页面；所述视觉形象信息采集页面用于采集所述对象的视觉形象信息；所述视觉形象信息用于提取所述对象的视觉形象特征；
99.绑定单元804，用于建立所述声纹特征与所述视觉形象特征的关联关系。
100.可选的，所述声纹采集单元802具体用于：在所述声纹采集页面接收输入的声纹标识信息；和/或，在所述声纹采集页面展示用于开启声音采集功能的声纹录入控件，所述声纹录入控件被触发后展示声纹采集的二级页面，引导所述对象录入声音信息；所述声音信息为语音数据。
101.可选的，所述第一页面还展示有声纹管理入口；
102.所述装置还包括声纹管理单元，所述声纹管理单元用于：响应于所述声纹管理入口，展示用于对声纹进行管理的声纹管理页面；在所述声纹管理页面接收用户行为信息，根据所述用户行为信息对已录入的声音信息和/或与所述已录入的声音信息关联的视觉形象信息，进行下述操作处理：删除、更新或增加。
103.可选的，所述主界面单元具体用于：第一页面展示追声对焦控件，所述追声对焦控件被触发后用于开启音视频采集功能，并展示和/或测试根据视频场景中的语音数据实时对焦目标对象的面部图像的效果。
104.可选的，所述第一页面展示有视觉形象信息采集入口；
105.所述视觉形象采集单元具体用于响应于所述视觉形象信息采集入口的触发指令，展示用于采集对象的视觉形象信息的视觉形象信息采集页面；所述视觉形象信息用于提取所述对象的视觉形象特征；响应于所述对象的视觉形象信息的采集成功指令，展示所述声纹采集页面；采集所述对象的声音信息，建立所述声音信息的声纹特征与所述视觉形象特征的关联关系。
106.以上述实施例为基础，本技术第五实施例提供一种电子设备，相关的部分请参见上述实施例的对应说明即可。请参考图9，图中所示的电子设备包括：存储器901，以及处理器902；所述存储器用于存储计算机程序，所述计算机程序被处理器运行后，执行本技术实施例提供的所述方法。
107.以上述实施例为基础，本技术第六实施例提供一种存储设备，相关的部分请参见上述实施例的对应说明即可。所述存储设备的示意图类似图9。所述存储设备存储有计算机程序，所述计算机程序被处理器运行后，执行本技术实施例提供的所述方法。
108.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
109.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
110.1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd
‑
rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其
他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
111.2、本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
112.本技术虽然以较佳实施例公开如上，但其并不是用来限定本技术，任何本领域技术人员在不脱离本技术的精神和范围内，都可以做出可能的变动和修改，因此本技术的保护范围应当以本技术权利要求所界定的范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

视频对焦方法及装置与流程

相关文献

最热文献