沉浸式视频交互方法、装置、设备和存储介质与流程

2022-02-21 08:02:29 来源：中国专利 TAG：

1.本技术涉及视频播放领域，具体涉及一种沉浸式视频交互方法、装置、设备和存储介质。

背景技术：

2.目前，随着智能电视的快速发展，智能电视的交互场景也越来越丰富，衍生出诸如体感交互、语音交互等交互方式，然而现有的交互方式仅是针对智能电视控制方式进行交互，没有针对用户观看视频时针对所播放的视听内容进行交互的交互方式，无法使用户达到深度沉浸观影的效果。

技术实现要素：

3.本技术实施例提供一种沉浸式视频交互方法、装置、设备和存储介质，旨在解决现有技术中智能电视播放视听内容时用户难以沉浸观影的技术问题。
4.一方面，本技术实施例提供一种沉浸式视频交互方法，所述沉浸式视频交互方法包括以下步骤：
5.获取观影用户的脸部特征和声纹特征；
6.识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色；
7.根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据；
8.基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频。
9.在本技术一些实施例中，所述获取观影用户的脸部特征和声纹特征之前，还包括：
10.采集所述观影用户的图像数据，对所述图像数据进行图像分割，获取所述观影用户的脸部视图；
11.解析所述脸部视图，得到所述观影用户的脸部特征，将所述脸部特征存储到预设的脸部特征数据库。
12.在本技术一些实施例中，所述获取观影用户的脸部特征和声纹特征之前，还包括：
13.采集所述观影用户的语音数据，对所述语音数据进行语音质量检测，提取所述语音数据中的有效人声音频；
14.对所述有效人声音频进行声纹识别，得到所述声纹特征；
15.将所述声纹特征与所述观影用户相关联，并存储到预设的声纹特征数据库。
16.在本技术一些实施例中，所述识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色，包括：
17.获取当前视频数据，对所述当前视频数据进行人脸识别，识别所述当前视频数据
中的视频角色；
18.接收目标角色选择指令，捕捉所述视频角色中与所述脸部特征相匹配视频角色，确定所述视频角色为待替换的目标角色；
19.提取所述当前视频数据中携带的所述目标角色的目标图像数据和/或目标语音数据。
20.在本技术一些实施例中，所述根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据之前，还包括：
21.对所述目标图像数据进行图像分割，获取所述目标角色的目标脸部视图；
22.将所述目标脸部视图和所述脸部特征输入到预设的人像合成模型进行图像合成，得到替换图像数据。
23.在本技术一些实施例中，所述根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据之前，还包括：
24.解码所述目标语音数据，获取所述目标语音数据携带的目标文本信息和目标韵律；
25.将所述目标文本信息和所述目标韵律输入到预设的人声合成模型与所述声纹特征进行语音合成，得到合成声音数据。
26.在本技术一些实施例中，所述基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频，包括：
27.确定所述当前视频数据中所述目标图像数据的时间戳和所述目标语音数据的时间戳；
28.根据所述目标图像数据的时间戳和所述目标语音数据的时间戳将所述替换图像数据和所述合成声音数据合成到所述视频数据，得到合成沉浸视频，播放所述合成沉浸视频。
29.另一方面，本技术提供一种沉浸式视频交互装置，所述沉浸式视频交互装置包括：
30.特征采样模块，被配置为获取观影用户的脸部特征和声纹特征；
31.角色捕捉模块，被配置为识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色；
32.角色替换模块，被配置为根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据；
33.视频播放模块，被配置为基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频。
34.另一方面，本技术还提供一种沉浸式视频交互设备，所述沉浸式视频交互设备包括：
35.一个或多个处理器；
36.存储器；以及
37.一个或多个应用程序，其中所述一个或多个应用程序被存储于所述存储器中，并
配置为由所述处理器执行以实现所述的沉浸式视频交互方法。
38.另一方面，本技术还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器进行加载，以执行所述的沉浸式视频交互方法中的步骤。
39.本技术中通过获取正在观看视频的观影用户的脸部特征和声纹特征，并识别当前视频数据中的视频角色，根据观影用户的脸部特征对视频数据中的角色进行角色捕捉，捕捉视频角色中与观影角色相对应的目标角色，根据所述脸部特征和对所述目标角色的目标图像数据进行替换，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到替换图像数据和/或合成声音数据；基于所述替换图像数据和/或所述合成声音数据对所述视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频，使得用户在观看视听内容时能够达到深度沉浸观影的效果，优化视频播放时的交互方式。
附图说明
40.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
41.图1为本技术实施例沉浸式视频交互方法的场景示意图；
42.图2为本技术实施例中沉浸式视频交互方法的一个实施例的流程示意图；
43.图3为本技术实施例中提供的沉浸式视频交互方法的另一实施例的流程示意图；
44.图4为本技术实施例中提供的沉浸式视频交互方法中根据声纹特征对目标声音数据进行合成的一个实施例的流程示意图；
45.图5为本技术实施例中提供的沉浸式视频交互方法中对当前视频数据进行音像合成的一个实施例的流程示意图；
46.图6为本技术实施例所提供的沉浸式视频交互装置的一个实施例的结构示意图；
47.图7为本技术实施例所提供的沉浸式视频交互设备的一个实施例的结构示意图。
具体实施方式
48.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
49.在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
50.在本技术中，“示例性”一词用来表示“用作例子、例证或说明”。本技术中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本技术所公开的原理和特征的最广范围相一致。
51.目前，随着智能电视的快速发展，智能电视的交互场景也越来越丰富，衍生出诸如体感交互、语音交互等交互方式，然而现有的交互方式仅是针对智能电视控制方式进行交互，没有针对用户观看视频时针对所播放的视听内容进行交互的交互方式，无法使用户达到深度沉浸观影的效果。基于此，提出本技术实施例中一种沉浸式视频交互方法、装置、设备和计算机可读存储介质，以下分别进行详细说明。
52.本发明实施例中的沉浸式视频交互方法应用于沉浸式视频交互装置，沉浸式视频交互装置设置于沉浸式视频交互设备，沉浸式视频交互设备中设置有一个或多个处理器、存储器，以及一个或多个应用程序，其中一个或多个应用程序被存储于存储器中，并被配置为由处理器执行以实施沉浸式视频交互方法；其中，沉浸式视频交互设备可以是智能终端，例如手机、平板电脑、智能电视、智能屏幕和智能电脑等。
53.如图1所示，图1为本技术实施例沉浸式视频交互方法的场景示意图，本发明实施例中沉浸式视频交互场景包括沉浸式视频交互设备100(沉浸式视频交互设备100中集成有沉浸式视频交互装置)，沉浸式视频交互设备100中运行有沉浸式视频交互方法对应的计算机可读存储介质，以执行沉浸式视频交互方法的步骤。
54.可以理解的是，图1所示沉浸式视频交互方法场景中的沉浸式视频交互设备，或者沉浸式视频交互设备中包含的装置并不构成对本发明实施例的限制，即沉浸式视频交互方法的场景中包含的设备数量、设备种类，或者各个设备中包含的装置数、装置种类不影响本发明实施例中技术方案的整体实现，均可以算作本发明实施例要求保护技术方案的等效替换或者衍生。
55.本发明实施例中沉浸式视频交互设备100主要用于：获取观影用户的脸部特征和声纹特征；识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色；根据所述脸部特征和对所述目标角色的目标图像数据进行替换，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到替换图像数据和/或合成声音数据；基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频。
56.本发明实施例中的沉浸式视频交互设备100可以是独立的沉浸式视频交互设备，例如手机、平板电脑、智能电视、网络设备、服务器和智能电脑等智能终端，也可以是由多个沉浸式视频交互设备组成的沉浸式视频交互网络或沉浸式视频交互设备集群。
57.本技术实施例提供一种沉浸式视频交互方法、装置、设备和计算机可读存储介质，以下分别进行详细说明。
58.本领域技术人员可以理解的是，图1中所示出的应用环境，仅仅是与本技术方案相关的其中一种应用场景，并不构成对本技术方案应用场景的限定，其它的应用环境还可以
包括比图1所示出的更多或更少的沉浸式视频交互设备，或者沉浸式视频交互网络连接关系，例如图1中仅示出一个沉浸式视频交互设备，可以理解的是该沉浸式视频交互方法的场景还可以包括一个或多个沉浸式视频交互设备，具体在此不做限定；该沉浸式视频交互设备100种还可以包括存储器，用于存储视频数据和其它数据。
59.需要说明的是，图1所示的沉浸式视频交互方法的场景示意图仅仅是一个示例，本发明实施例描述的沉浸式视频交互方法的场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对本发明实施例提供的技术方案的限定。
60.基于上述沉浸式视频交互方法的场景，提出本发明所公开的沉浸式视频交互方法的各个实施例。
61.如图2所示，图2为本技术实施例中沉浸式视频交互方法的一个实施例的流程示意图，该图像处理方法包括如下步骤201～步骤204：
62.201、获取观影用户的脸部特征和声纹特征；
63.本实施例中的沉浸式视频交互方法应用于沉浸式视频交互设备，沉浸式视频交互设备的种类和数量不做具体限定，即沉浸式视频交互设备可以是一个或多个手机、平板电脑、智能电视、网络设备、服务器和智能电脑等智能终端。在一个具体实施例中，沉浸式视频交互方法为智能电视。
64.本实施例中的沉浸式视频交互设备在上电启动后，能够获取观影用户的脸部特征和声纹特征，并将获取到的观影用户的脸部特征和声纹特征与该观影用户的身份相关联，存储到指定的脸部特征数据库和声纹特征数据库中。
65.可选的，沉浸式视频交互设备在运行时，沉浸式视频交互设备能够接收典型脸部特征录入指令，其中，典型脸部特征录入指令为观影用户在发出沉浸式视频交互指令前所发出的，用于控制沉浸式视频交互设备采集观影用户典型脸部特征的操作指令。具体的，沉浸式视频交互设备在接收到该典型脸部特征录入指令后，在显示界面显示典型脸部特征采集界面，引导观影用户根据典型脸部特征采集界面所显示的人像采集指令做出相应动作，使得沉浸式视频交互设备能够调用摄像模组采集观影用户的至少一张图像数据，其中，该图像数据为各个角度下观影用户的个人图像。可选的，人像采集指令可以为引导用户摇头、点头和做表情等动作指令。
66.可选的，沉浸式视频交互设备还可以在获取观影用户隐私权限允许后，在沉浸式视频交互设备运行时，后台根据预设脸部特征采集周期自动采集观影用户的个人图像。
67.可选的，沉浸式视频交互设备在采集到观影用户的图像数据后，对图像数据进行图像分割，可选的，沉浸式视频交互设备检测观影用户的人像边缘，根据获取到的人像边缘对图像数据进行图像分割，得到观影用户的脸部视图。可选的，沉浸式视频交互设备还能够根据其它图像分割方法对图像数据进行图像分割，得到观影用户的脸部视图。
68.具体的，沉浸式视频交互设备在获取用户的脸部视图后，解析观影用户的脸部视图，提取该脸部视图中所携带的脸部特征。具体的，沉浸式视频交互设备提取所述脸部视图中的人脸表征特征和人脸几何特征。在获取脸部视图中的人脸表征特征和人脸几何特征后，沉浸式视频交互设备将获取到的人脸表征特征和人脸几何特征与观影用户的身份标识相关联，从而得到该观影用户的脸部特征。其中，观影用户的身份标识为沉浸式视频交互设备为不同观影用户所分配的，用于识别观影用户身份的id编号。
69.可选的，沉浸式视频交互设备在获取观影用户的脸部特征后，将该观影用户的脸部特征存储到预设的脸部特征数据库中。
70.可选的，沉浸式视频交互设备在运行过程中，沉浸式视频交互设备能够接收典型语音录入指令，其中，典型语音录入指令为观影用户在发出沉浸式视频交互指令前所发出的，用于控制该沉浸式视频交互设备采集观影用户典型声纹特征的交互指令。具体的，沉浸式视频交互设备在接收到该典型语音录入指令后，在显示界面显示典型语音特征采集界面，引导观影用户根据典型语音特征采集界面所显示的语音采集指令发出相应语音信息，使得沉浸式视频交互设备能够通过麦克风组件采集观影用户基于语音采集指令所发出的语音数据。
71.可选的，沉浸式视频交互设备也可以在获取观影用户隐私权限许可后，后台调用麦克风实时采集观影用户的语音数据。
72.具体的，沉浸式视频交互设备在获取观影用户的语音数据后，过滤语音数据中的静音数据和非人声的背景噪声数据，对过滤后的该语音数据进行语音质量检测，获取所述语音数据中的信噪比、截幅大小和音量大小，获取语音数据中的有效人声音频，对获取到的有效人声音频进行声纹识别，从而获取观影用户的声纹特征，其中，该声纹特征为观影用户特定器官结构或行为习惯的频谱特征参数，具有稳定性、不易模仿性和抗噪性。
73.沉浸式视频交互设备在获取语音数据对应的声纹特征后，将该声纹特征和观影用户的身份标识相关联，并存储到预设的声纹特征数据库中。
74.202、识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色；
75.沉浸式视频交互设备在响应观影用户所发出的沉浸式视频交互指令后，提取当前视频数据，解析获取当前视频数据中的视频角色。其中，当前视频数据中的视频角色可以为一个或多个。
76.沉浸式视频交互设备在得到当前视频数据中存在的视频角色后，提取脸部特征数据库中所存储的当前正在观影的观影用户所对应的脸部特征。沉浸式视频交互设备在获取该脸部特征后，对当前视频数据中的视频角色进行人脸视频，判断当前视频数据中的视频角色与该脸部特征的特征相似度，捕捉特征相似度超过预设相似度阈值的视频角色，确定该特性相似度超过预设相似度阈值的视频角色为与观影用户相对应的目标角色。可选的，该预设相似度阈值可以在沉浸式视频交互设备出厂时，由技术人员根据实际应用场景自定义设置。
77.可选的，在另一个实施例中，在沉浸式视频交互设备在通过人脸识别扫描当前视频数据的视频帧，获取当前视频数据中存在的视频角色后，接收目标角色选择指令。其中，该目标角色选择指令是观影用户通过遥控器或控制器向沉浸式视频交互设备所发送的，携带确定某一视频角色为待交互的目标角色的控制指令。沉浸式视频交互设备在接收到该目标角色选择指令后，解析确定观影用户所选择的目标角色，选定并捕捉该观影用户所选定的目标角色。
78.沉浸式视频交互设备在获取与观影用户相对应的目标角色后，提取该目标角色的目标图像数据和/或目标语音数据。
79.203、根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像
数据，和/或，根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据；
80.本实施例中，沉浸式视频交互设备在确定与观影用户对应的目标角色后，对目标角色进行模型替换和/或音轨替换操作。根据沉浸式视频交互设备所存储的观影用户的脸部特征和声纹特征对目标角色的目标图像数据和/或目标语音数据进行修改。
81.具体的，沉浸式视频交互设备在提取观影用户的脸部特征后，提取目标图像数据，将观影用户的脸部特征和目标图像数据输入到预先训练完成的人像合成模型中，得到人像合成模型所输出的替换图像数据，该替换图像数据为观影用户脸部特征与目标图像数据所合成的视频帧文件。
82.具体的，沉浸式视频交互设备在获取目标角色的目标声音数据后，提取声纹特征数据库中存储的观影用户的声纹特征，识别目标声音数据，并根据识别结果和观影用户的声纹特征进行语音合成，得到由观影用户的声纹特征所形成的合成声音数据。
83.沉浸式视频交互设备在获取替换图像数据和/或合成声音数据后，对当前视频数据进行处理，实现观影用户所发出的沉浸视频交互指令。
84.204、基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频。
85.本实施例中，沉浸式视频交互设备在获取替换图像数据和/或合成声音数据后，对当前视频数据进行音像合成，从而得到携带替换图像数据和/或合成声音数据的合成沉浸视频。
86.沉浸式视频交互设备在得到由替换图像数据和/或合成声音数据所形成的合成沉浸视频后，在沉浸式视频交互设备的显示界面播放该图像数据和/或合成声音数据所形成的合成沉浸视频，实现观影用户的沉浸式观影交互请求。
87.如图3所示，图3为本技术实施例中提供的沉浸式视频交互方法的另一实施例的流程示意图。
88.基于上述实施例，本技术沉浸式视频交互方法进一步还包括步骤301～步骤302：
89.301：对所述目标图像数据进行图像分割，获取所述目标角色的目标脸部视图；
90.302：将所述目标脸部视图和所述脸部特征输入到预设的人像合成模型进行图像合成，得到替换图像数据。
91.本实施例中，沉浸式视频交互设备在响应观影用户所发出的沉浸式视频交互指令后，提取当前视频数据，解析获取当前视频数据中的视频角色，并确定该当前视频数据中与观影用户相匹配的目标角色。
92.沉浸式视频交互设备在获取到该目标角色后，获取目标角色的图像数据，对该目标角色的图像数据进行图像分割，获取目标角色的目标脸部视图。并将目标脸部视图和观影用户的脸部特征输入到预先训练好的人像合成模型中进行图像合成，从而获取替换图像数据。
93.沉浸式视频交互设备在获取到替换图像数据后，删除当前播放视频中的目标图像数据相关的视频数据，将替换图像数据合成到当前播放视频中，实现将观影用户的图像替换到当前播放视频中，实现沉浸式视频交互。
94.本技术中，沉浸式视频交互设备通过对目标角色的目标图像数据进行图像分割，
从而获取目标角色的目标脸部视图，并根据该目标脸部视图和观影用户的脸部特征输入到预设的人像合成模型进行图像合成，从而得到替换图像数据，并且将替换图像数据合成到当前播放视频中，满足观影用户在观看视听内容时的沉浸式视频交互需求。
95.如图4所示，图4为本技术实施例中提供的沉浸式视频交互方法中根据声纹特征对目标声音数据进行合成的一个实施例的流程示意图。
96.基于上述实施例，本技术沉浸式视频交互方法进一步包括步骤401～步骤402：
97.401：解码所述目标语音数据，获取所述目标语音数据携带的目标文本信息和目标韵律；
98.402：将所述目标文本信息和所述目标韵律输入到预设的人声合成模型与所述声纹特征进行语音合成，得到合成声音数据。
99.本实施例中，本实施例中，沉浸式视频交互设备在响应观影用户所发出的沉浸式视频交互指令后，提取当前视频数据，解析获取当前视频数据中的视频角色，并确定该当前视频数据中与观影用户相匹配的目标角色。获取当前视频数据中该目标角色的目标语音数据。
100.沉浸式视频交互设备在确定目标角色并获取目标角色的目标语音数据后，解码该目标语音数据，获取该目标语音数据携带的目标文本信息和目标韵律，其中，所述目标韵律为目标文本信息对应的声音的发音节奏和规律。
101.在获取目标语音数据携带的目标文本信息和目标韵律后，沉浸式视频交互设备将目标文本信息和目标韵律输入到预先训练完成的人声合成模型中，调用人声合成模型将该目标文本信息和目标韵律与观影用户的声纹特征进行语音合成，得到由观影用户的声纹特征所产生的合成声音数据。
102.沉浸式视频交互设备在得到合成声音数据后，对当前视频数据的音轨进行调整，删除音轨中的目标角色的目标语音数据，将合成声音数据添加到当前视频的音轨中，实现将目标角色的声音替换为观影用户的声音，实现沉浸式视频交互体验。
103.本实施例中，沉浸式视频交互设备通过解码目标语音数据，获取目标语音数据携带的目标文本信息和目标韵律，根据预先训练好的人声合成模型对目标文本信息和目标韵律与观影用户的声纹特征进行合成，从而得到与观影用户的声纹特征相匹配的合成声音数据，并将该合成声音数据导入到当前视频数据的音轨中，实现沉浸式视频交互。
104.如图5所示，图5为本技术实施例中提供的沉浸式视频交互方法中对当前视频数据进行音像合成的一个实施例的流程示意图。
105.基于上述实施例，本技术沉浸式视频交互方法进一步包括步骤501～步骤502：
106.501、确定所述当前视频数据中所述目标图像数据的时间戳和所述目标语音数据的时间戳；
107.502、根据所述目标图像数据的时间戳和所述目标语音数据的时间戳将所述替换图像数据和所述合成声音数据合成到所述当前视频数据，得到合成沉浸视频，播放所述合成沉浸视频。
108.本实施例中，沉浸式视频交互设备在确定观影用户待交互的目标角色后，获取目标角色的目标图像数据和目标语音数据，同时还获取目标图像数据对应的目标图像数据的时间戳和/或目标语音数据的时间戳。根据目标图像数据的时间戳和目标语音数据的时间
戳确定目标角色的图像时间点和语音时间点。
109.在确定目标图像数据的时间戳和目标语音数据的时间戳后，根据目标图像数据的时间戳和目标语音数据的时间戳将替换图像数据和合成声音数据合成到当前视频数据中，得到合成沉浸视频。
110.具体的，沉浸式视频交互设备在获取目标图像数据的时间戳后，对当前视频数据进行定位，确定目标图像数据的时间戳位置处的目标图像数据，将目标图像数据替换为替换图像数据，得到图像合成视频。
111.沉浸式视频交互设备在获取图像合成视频后，根据目标语音数据的时间戳定位当前视频数据的音轨，确定目标语音数据的时间戳对应的音轨节点，删除该音轨节点的目标语音数据，将合成语音数据导入到该音轨节点，获得合成沉浸视频。
112.沉浸式视频交互设备在得到合成沉浸视频后，在视频播放显示界面播放合成沉浸视频。
113.本实施例中，沉浸式视频交互设备通过定位目标角色的目标图像数据的时间戳和目标语音数据的时间戳，确定当前视频数据中待合成的时间节点，根据所述目标图像数据的时间戳和所述目标语音数据的时间戳将所述替换图像数据和所述合成声音数据合成到所述当前视频数据，得到合成沉浸视频，播放所述合成沉浸视频。实现用户在观看视听内容时能够达到深度沉浸观影的效果，优化视频播放时的交互方式。
114.为了更好地实施本技术实施例中沉浸式视频交互方法，在沉浸式视频交互方法基础之上，本技术实施例中还提供一种沉浸式视频交互装置，如图6所示，图6为本技术实施例所提供的沉浸式视频交互装置的一个实施例的结构示意图；沉浸式视频交互装置600包括：
115.特征采样模块601，被配置为获取观影用户的脸部特征和声纹特征；
116.角色捕捉模块602，被配置为识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色；
117.角色替换模块603，被配置为根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或，根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据；
118.视频播放模块604，被配置为基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频。
119.在本技术一些实施例中，沉浸式视频交互装置获取观影用户的脸部特征和声纹特征之前，还包括：
120.采集所述观影用户的图像数据，对所述图像数据进行图像分割，得到所述观影用户的脸部视图；
121.解析所述脸部视图，得到所述观影用户的脸部特征，将所述脸部特征存储到预设的脸部特征数据库。
122.在本技术一些实施例中，沉浸式视频交互装置获取观影用户的脸部特征和声纹特征之前，还包括：
123.采集所述观影用户的语音数据，对所述语音数据进行语音质量检测，提取所述语音数据中的有效人声音频；
124.对所述有效人声音频进行声纹识别，得到所述声纹特征；
125.将所述声纹特征与所述观影用户相关联，并存储到预设的声纹特征数据库。
126.在本技术一些实施例中，沉浸式视频交互装置识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色，包括：
127.获取当前视频数据，对所述当前视频数据进行人脸识别，识别所述当前视频数据中的视频角色；
128.接收目标角色选择指令，捕捉所述视频角色中与所述脸部特征相匹配视频角色，确定所述视频角色为待替换的目标角色；
129.提取所述当前视频数据中携带的所述目标角色的目标图像数据和/或目标语音数据。
130.在本技术一些实施例中，沉浸式视频交互装置根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或，根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据之前，还包括：
131.对所述目标图像数据进行图像分割，获取所述目标角色的目标脸部视图；
132.将所述目标脸部视图和所述脸部特征输入到预设的人像合成模型进行图像合成，得到替换图像数据。
133.在本技术一些实施例中，沉浸式视频交互装置根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或，根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据之前，还包括：
134.解码所述目标语音数据，获取所述目标语音数据携带的目标文本信息和目标韵律；
135.将所述目标文本信息和所述目标韵律输入到预设的人声合成模型与所述声纹特征进行语音合成，得到合成声音数据。
136.在本技术一些实施例中，沉浸式视频交互装置基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频，包括：
137.确定所述当前视频数据中所述目标图像数据的时间戳和所述目标语音数据的时间戳；
138.根据所述目标图像数据的时间戳和所述目标语音数据的时间戳将所述替换图像数据和所述合成声音数据合成到所述当前视频数据，得到合成沉浸视频，播放所述合成沉浸视频。
139.本实施例中，沉浸式视频交互装置通过获取正在观看视频的观影用户的脸部特征和声纹特征，并识别当前视频数据中的视频角色，根据观影用户的脸部特征对视频数据中的角色进行角色捕捉，捕捉视频角色中与观影角色相对应的目标角色，根据所述脸部特征和对所述目标角色的目标图像数据进行替换，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到替换图像数据和/或合成声音数据；基于所述替换图像数据和/或所述合成声音数据对所述视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频，使得用户在观看视听内容时能够达到深度沉浸观影的效果，优化视频播放时的交互方式。
140.本发明实施例还提供一种沉浸式视频交互设备，如图7所示，图7为本技术实施例所提供的沉浸式视频交互设备的一个实施例的结构示意图。
141.沉浸式视频交互设备集成了本发明实施例所提供的任意一种沉浸式视频交互装置，该沉浸式视频交互设备包括：
142.一个或多个处理器；
143.存储器；以及
144.一个或多个应用程序，其中一个或多个应用程序被存储于存储器中，并配置为由处理器执行上述沉浸式视频交互方法实施例中任一实施例中的沉浸式视频交互方法中的步骤。
145.具体来讲：沉浸式视频交互设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图7中示出的沉浸式视频交互设备结构并不构成对沉浸式视频交互设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
146.处理器701是该沉浸式视频交互设备的控制中心，利用各种接口和线路连接整个沉浸式视频交互设备的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行沉浸式视频交互设备的各种功能和处理数据，从而对沉浸式视频交互设备进行整体监控。可选的，处理器701可包括一个或多个处理核心；优选的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。
147.存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据沉浸式视频交互设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。
148.沉浸式视频交互设备还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理系统与处理器701逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
149.该沉浸式视频交互设备还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
150.尽管未示出，沉浸式视频交互设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，沉浸式视频交互设备中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：
151.获取观影用户的脸部特征和声纹特征；
152.识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色；
153.根据所述脸部特征和对所述目标角色的目标图像数据进行替换，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到替换图像数据和/或合成声音数据；
154.基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频。
155.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对其他实施例的详细描述，此处不再赘述。
156.具体实施时，以上各个单元或结构可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元或结构的具体实施可参见前面的方法实施例，在此不再赘述。
157.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
158.以上对本技术实施例所提供的一种沉浸式视频交互方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

沉浸式视频交互方法、装置、设备和存储介质与流程

相关文献

最热文献