数据处理方法、系统、电子设备、服务端及客户端设备与流程

2022-06-05 15:51:25 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种数据处理方法、系统、电子设备、服务端及客户端设备。

背景技术：

2.随着互联网的发展，观看媒体信息，特别是观看视频已成为现下比较流行的休闲方式之一。现有技术中，为增强用户之间的互动性，多数视频是通过弹幕形式来实现的。弹幕是在网络上观看视频时弹出的用户通过视频设置的评论区域所发表的评论性文字，常以滚动方式从固定位置出现，其支持用户添加对视频情节的理解和评论。
3.现有弹幕展示形式简单、单一且缺乏针对性。

技术实现要素：

4.本技术提供一种解决上述问题或至少部分地解决上述问题的数据处理方法、系统、电子设备、服务端及客户端设备。
5.在本技术的一个实施例中，提供了一种数据处理方法。该方法，包括：
6.确定视频中的第一对象；
7.获取与所述第一对象关联的显示元素；
8.获取所述第一对象在所述视频的播放画面上的第一位置；
9.根据所述第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
10.在本技术的另一个实施例中，提供了一种数据处理方法。该方法，包括：
11.获取用户针对视频中第一对象发表的显示元素；
12.向服务端发送针对所述显示元素的发表请求；
13.根据所述服务端通过对象检测及追踪后反馈的所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
14.在本技术的又一个实施例中，提供一种数据处理方法。该方法包括：
15.接收第一客户端针对视频中第一对象发送的显示元素发表请求；
16.通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置；
17.将所述第一对象在所述视频的播放画面上的第一位置发送至第一客户端，以便在所述第一客户端的所述视频播放画面上，所述显示元素跟随所述第一对象显示。
18.在本技术的又一个实施例中，还提供一种数据处理方法。该方法包括：
19.播放视频；
20.获取与所述视频有关的附加显示信息；
21.根据所述附加显示信息，确定与第一对象关联的显示元素、所述显示元素的显示时机及跟随轨迹；
22.所述显示时机到达时，在所述视频的播放画面上，所述显示元素按照所述跟随轨迹跟随所述播放画面上的所述第一对象显示。
23.在本技术的又一个实施例中，还提供一种数据处理方法。该方法包括：
24.获取用户针对视频中一人物发表的内心活动信息；
25.获取所述人物在所述视频的播放画面上的位置；
26.根据所述人物在所述视频的播放画面上的位置，所述内心活动信息跟随所述人物显示在所述视频的播放画面上。
27.在本技术的又一个实施例中，还提供一种数据处理方法。该方法包括：
28.获取用户针对视频中一物体发表的互动信息；
29.获取所述物体在所述视频的播放画面上的位置；
30.根据所述物体在所述视频的播放画面上的位置，所述互动信息跟随所述物体显示在所述视频的播放画面上。
31.在本技术的一个实施例中，提供一种数据处理系统。该数据处理系统包括：
32.第一客户端，用于获取用户针对视频中第一对象发表的显示元素；向服务端发送针对所述显示元素的发表请求；
33.所述服务端，用于根据接收到的所述发表请求，通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置；将所述第一对象在所述视频的播放画面上的第一位置发送至第一客户端；
34.所述第一客户端，还用于根据所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
35.在本技术的一个实施例中，提供一种电子设备。该电子设备包括：存储器及处理器，其中，
36.所述存储器，用于存储程序；
37.所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：
38.确定视频中的第一对象；
39.获取与所述第一对象关联的显示元素；
40.获取所述第一对象在所述视频的播放画面上的第一位置；
41.根据所述第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
42.在本技术的一个实施例中，提供一种客户端设备。该客户端设备包括存储器、处理器及通信组件，其中，
43.所述存储器，用于存储程序；
44.所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：
45.获取用户针对视频中第一对象发表的显示元素；
46.通过所述通信组件向服务端发送针对所述显示元素的发表请求；
47.根据所述服务端通过对象检测及追踪后反馈的所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
48.在本技术的一个实施例中，提供一种服务端设备。该服务端设备包括：存储器、处理器及通信组件，其中，
49.所述存储器，用于存储程序；
50.所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：
51.通过所述通信组件接收第一客户端针对视频中第一对象发送的显示元素发表请求；
52.通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置；
53.通过所述通信组件将所述第一对象在所述视频的播放画面上的第一位置发送至第一客户端，以便在所述第一客户端的所述视频播放画面上，所述显示元素跟随所述第一对象显示。
54.在本技术的另一个实施例中还提供一种客户端设备。该客户端设备包括：存储器及处理器，其中，
55.所述存储器，用于存储程序；
56.所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：
57.通过所述显示器播放视频；
58.获取与所述视频有关的附加显示信息；
59.根据所述附加显示信息，确定与第一对象关联的显示元素、所述显示元素的显示时机及跟随轨迹；
60.所述显示时机到达时，在所述视频的播放画面上，所述显示元素按照所述跟随轨迹跟随所述播放画面上的所述第一对象显示。
61.本技术一实施例提供的技术方案，在播放视频过程中，在确定出视频中的第一对象之后，可获取与所述第一对象关联的显示元素以及所述第一对象在视频播放画面上的第一位置，并根据所述第一对象在所述视频的播放画面上的第一位置，使所述显示元素跟随所述第一对象显示在视频的播放画面上。现有技术中，与第一对象关联的显示元素是以弹幕形式与视频关联的弹幕信息一起显示在视频的播放画面上的，需要用户从大量弹幕信息中筛选出与第一对象相关的信息，缺乏针对性，易降低用户体验。而本实施例提供的技术方案中与第一对象关联的显示元素是跟随第一对象显示在视频的播放画面上，能够在增加视频内容的趣味性的同时，提高用户参与的积极性与交互性。
62.在本技术另一实施例提供的技术方案中，在播放视频的过程中，根据所获取到的与视频有关的附加显示信息，来确定与第一对象关联的显示元素、所述显示元素的显示时机及跟随轨迹，并在所述显示时机到达时，在所述视频的播放画面上，使所述显示元素跟随所述播放画面上的所述第一对象显示。本方案采用跟随方式来显示所述显示元素，可以增加视频内容的趣味性，提高用户参与的积极性与交互性。
附图说明
63.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或
现有技术描述中所需要利用的附图作一简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
64.图1为本技术一实施例提供的数据处理方法的流程示意图；
65.图2为本技术一实施例提供的一具体地第一对象确定过程的原理性示意图；
66.图3为本技术一实施例提供的一追踪第一对象在多帧图像中的第一位置的原理性示意图；
67.图4a为本技术一实施例提供的一生成多个候选区域的原理性示意图；
68.图4b为本技术实施例提供的另一生成多个候选区域的原理性示意图；
69.图4c为本技术实施例提供的又一生成多个候选区域的原理性示意图；
70.图5a为本技术一实施例提供的显示元素所显示的效果示意图；
71.图5b为本技术另一实施例提供的显示元元素所显示的效果示意图；
72.图5c为本技术一实施例提供的显示元素与弹幕信息共同显示的示意图；
73.图6为本技术另一实施例提供的数据处理方法的流程示意图；
74.图7为本技术又一实施例提供的数据处理方法的流程示意图；
75.图8为本技术又一实施例提供的数据处理方法的流程示意图；
76.图9为本技术又一实施例提供的数据处理方法的流程示意图；
77.图10为本技术又一实施例提供的数据处理方法的流程示意图；
78.图11a为本技术一实施例提供的数据处理系统的结构示意图；
79.图11b为本技术一实施例提供的数据处理系统实现数据处理过程的原理性示意图；
80.图11c为本技术一实施例提供的数据处理系统的结构框图；
81.图12为本技术一实施例提供的数据处理装置的结构框图；
82.图13为本技术另一实施例提供的数据处理装置的结构框图；
83.图14为本技术又一实施例提供的数据处理装置的结构框图；
84.图15为本技术又一实施例提供的数据处理装置的结构框图；
85.图16为本技术又一实施例提供的数据处理装置的结构框图；
86.图17为本技术一实施例提供的电子设备的结构框图。
具体实施方式
87.随着互联网技术的迅速发展，用户可以使用电脑、手机等终端通过网络观看视频，用户通过这些终端观看视频的过程中，观看到某些画面或情境时，想要发表评论。该评论内容大致可以分为以下几种：针对视频中的某一片段、某一画面或者某一对象进行的评论，针对整部视频进行的评论及针对评论进行评论或者与其他评论者进行的对话等等。其中，评论对象可以是视频中的某一角色、剧情布景中的道具(动植物、无生命的物体，如手枪、刀具等等) 等。评论的内容可以是观看者根据视频中人物的面部表情、行为动作而发表的内心活动评论文字、表情等。
88.现有技术在显示上述评论内容时，是采用弹幕形式将上述评论内容显示在视频播放画面上。上述弹幕常在播放器顶端自右至左以滚动方式进行显示。然而，采用这种弹
幕形式在视频播放画面上来显示用户针对视频中某一对象的内心活动所发表的评论性文字，一些有意思的或绝妙的评论内容，不容易被用户发现，容易被大量信息所掩盖。特别是，一些针对某一特定人物、物品、道具发起的评论，若发表者忘记写明该评论所针对的对象，大部分观看者是比较难理解该评论有意思或绝妙的点。可见，现有弹幕的方式，缺乏针对性，具有一定的趣味性，但效果有限。
89.为了解决上述问题，本技术如下的一个或多个实施例提供了一种数据处理方法，该数据处理方法可以将与对象关联的显示元素跟随该对象显示在视频播放画面上，以此提高用户观看视频时的交互性和趣味性，提高用户的观感体验。为了使本技术领域的人员更好地理解本技术方案，下面将结合本申请实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述。
90.在本技术的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。而本技术中术语“或 /和”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如： a或/和b，表示可以单独存在a，同时存在a和b，单独存在b这三种情况；本技术中字符“/”，一般表示前后关联对象是一种“或”关系。此外，下述的各实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
91.以下各实施例提供的数据处理方法，可应用于由至少一个客户端设备及服务端(如服务器)构成的系统架构中，如图11a示出的系统架构。所述服务端11与所述客户端12之间通过网络进行通信连接。在本技术的至少一个实施例中，所述客户端12和所述服务端11之间根据预设协议进行数据传输。所述预设协议可包括，但不限于如下中的任意一种：http协议(hyper texttransfer protocol，超文本传输协议)、https协议(hyper text transferprotocol over secure scocket layer,以安全为目标的http协议)等。在本申请的至少一个实施例中，所述服务端11可以是单一的服务器，也可以为由几个功能服务器共同组成的服务器群，还可以是虚拟服务器或是云端等。所述客户端12可以是任意具有网络连接功能的电子设备，例如，所述客户端12 可以是个人计算机、平板电脑、智能手机、个人数据助理(personal digitalassistant，pad)、智能式穿戴设备等可移动设备，或者台式电脑、数字tv 等固定设备。所述客户端12上可安装有视频播放应用。该视频播放应用在运行后可供用户来观看视频，并允许用户针对视频中的播放内容或播放内容中包含的对象(如人、动物、植物、建筑物)进行评论，且在用户针对视频的播放内容中包含的对象进行评论后，该视频播放应用可以将与该对象对应的评论内容跟随该对象显示在视频播放画面上。
92.用户使用了本技术各实施例提供的技术方案，可通过客户端11针对当前播放的视频(如电视剧、综艺节目、动画片等)中的对象(如人物、动物、植物、物体等)上传自己解读的文字，用户完成文字的上传操作后，该文字便可出现在当前播放的视频画面上，且该
文字跟随该对象显示。如图11a所示的例子，用户a使用自己客户端(如笔记本电脑、手机等)输入针对视频画面中左侧男士的内心活动信息“今天真愉快！”，点击发送后，用户a便可在自己客户端的显示画面上看到该内心活动信息“今天真愉快！”，且该
ꢀ“
今天真愉快！”跟随着视频画面中左侧男士位置变化而变化。同时，用户点击发送后，用户a使用的客户端还会将该内心活动信息“今天真愉快！”及显示时机(如视频的某一播放时刻，1分50秒时、10分00秒时等等，或是帧标识)发送至服务端11，以便网络侧其他客户端在播放同样的视频时获取，还能在显示时机到达时显示出该左侧男士的内心活动信息“今天真愉快！”。对于用户a的客户端来说，它还可获取网络侧其他客户端针对该视频中各角色发送的内心活动信息。比如，网络侧某一用户b通过客户端针对视频中右侧女士的内心活动进行评论，如图11a中的例子该用户b通过剧情及视频中该女士的面部表情等解读出该女士的内心活动信息是“悲剧的一天”；该用户b可通过客户端将针对右侧女士的内心活动信息“今天真愉快！”及显示时机(如视频的某一播放时刻，1分50秒时或10分00秒时等等，或帧标识) 发送至服务端11，以便网络侧其他客户端在播放同样的视频时获取。此时，用户b客户端的播放画面上显示有跟随右侧女士的内心活动信息“悲剧的一天”；网络侧观看相同视频的其他用户的客户端在播放到某一时刻(如1分 50秒时或10分00秒时等等)时，也可看到跟随右侧女士显示的内心活动信息“悲剧的一天”。
93.上述列举的例子是用户针对视频中对象发表内心活动信息，实质上，除了内心活动信息外，还可以是其他评论信息，如事件发展趋势评论、自身观看感受抒发等等，本实施例对此不具体限定。用户发表的用于跟随视频中某一对象显示的跟随信息(即下文中提到的显示元素)可以是文本，表情包等等各类形式的多媒体信息。当然，多个用户可针对视频中同一对象发表跟随信息。
94.本技术还提供多个方法实施例，在上述系统架构下各端(如客户端及服务端)具体的执行内容，将在下述各实施例中展开说明。需要说明的是，下述实施例所提供的数据处理方法，有些步骤可由客户端执行，有些步骤可由服务端执行，又或者有些步骤既可客户端执行也可由服务端执行。另外，下文中还会提供数据处理装置实施例，数据处理装置一般设置于客户端设备和/ 或服务端中。
95.图1示出了本技术一实施例提供的数据处理方法的流程示意图。本实施例提供的所述方法的执行主体可以为客户端。具体的，如图1所示，该方法包括以下步骤：
96.101、确定视频中的第一对象；
97.102、获取与所述第一对象关联的显示元素；
98.103、获取所述第一对象在所述视频的播放画面上的第一位置；
99.104、根据所述第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
100.上述101中，播放的视频可以包括在线播放的视频或者离线播放的本地视频文件。在播放视频之前或播放视频过程中，可以对视频中的帧图像进行分辨率调整等各种类型的预处理，以适应于在客户端上进行播放。在用户未对视频中的帧图像进行任何预处理的情况下，则以默认配置信息播放视频。
101.第一对象可以是视频中的任何形式的对象，如人、动物、植物、物体(如建筑物、场景中的陈列等)等等。该第一对象的确定方式可以包括但不限于如下中的任意一种：由用
户从预置对象列表中进行选择确定、根据用户在视频的任一帧图像的播放画面上的操作确定、或者根据从服务端所获取到的与视频有关的包含有第一对象标识的附加显示信息确定。具体地有关确定第一对象的实现方式，将在下文中展开说明，可参见下文中的相应内容。
102.上述102中，与第一对象关联的显示元素可以是用户通过交互界面提供的交互方式针对该第一对象所发送的文本、表情包等。所述交互方式可包括但不限于：手触、鼠标、键盘、语音等。此外，显示元素也可以是与该第一对象关联的预设内容，比如，视频服务方(如提供视频资源的平台)或视频生产方(如制片方、出品方等)针对视频中第一对象提供的预设显示元素，以用于引导吸引用户观看、提升用户之间的互动性及趣味性。具体的，本步骤102“获取与所述第一对象关联的显示元素”，可包括如下中的任一步骤：
103.响应于用户针对所述第一对象触发的输入事件，获取用户输入的所述显示元素；
104.响应于用户针对所述第一对象触发的语音输入，对用户输入的语音信息进行自然语言处理，根据自然语言处理结果，确定所述显示元素；
105.从服务端获取与所述第一对象关联的所述显示元素。
106.其中，上述自然语言处理(natural language processing，nlp)是指让计算机接受用户自然语言形式的输入，并通过相应的算法进行加工、计算等系列操作，以模拟人类对自然语言的理解，并返回用户所期望的结果。自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息。有关自然语言处理内容，可参见现有技术中的相关内容，本实施例对此不作具体限定。
107.上述103中，可通过对象检测及跟踪技术来获取第一对象在视频的播放画面上的第一位置。比如，第一对象为人脸，在具体实施时，可利用计算机视觉算法或预先训练好的人脸检测深度学习模型，从视频中的第一帧图像(如首次出现该目标人脸的帧图像)中检测出目标人脸，得到目标人脸在第一帧图像所在的第一位置。实际上，所述第一位置可采用目标人脸所在位置的二维框坐标信息来表征。在第一帧图像的后续帧图像中，便可基于第一帧图像的二维框坐标信息中的目标人脸，利用计算机视觉方法或者预训练好的目标追踪深度学习模型对第一帧图像的后续帧图像中的目标人脸进行追踪，得到追踪到目标人脸在相应帧图像中的第一位置。具体实施时，还可设置一追踪停止条件，比如，追踪时长大于一阈值、第一对象(如目标人脸)消失、第一对象占画面比例过大导致无法显示显示元素等时，停止追踪。本实施例中的多帧图像的帧数可由该追踪停止条件来确定。
108.第一对象不是人脸，是动物、植物或固定物体等时，方案类似。只是在检测时，使用的不是人脸检测深度学习模型而是其他的相应模型，比如专门使用动物样本训练得到的动物检测深度学习模型，或专门使用植物样本训练得到的植物检测深度学习模型等等，本实施例对此不作具体限定。
109.上述104中，获得了第一对象在视频的播放画面上的第一位置后，便可确定显示元素在视频的多帧图像的各帧图像中的跟随位置。该显示元素可显示在第一对象上，这样会遮挡到第一对象影响观看；或者，显示元素显示在第一对象的旁边，不遮挡第一对象。对于观看者来说，若在多帧图像的播放画面上第一对象是动态的，显示元素会跟随第一对象的位置变化而变化；若在多帧图像的播放画面上第一对象位置变化不大或无变化，显示元素跟随第一对象显示位置变化不大或无变化。
110.本实施例提供的技术方案，在播放视频过程中，在确定视频中的第一对象之后，可获取与所述第一对象关联的显示元素以及所述第一对象在多帧图像中的第一位置，并根据所述第一对象在所述视频播放画面上的第一位置，使所述显示元素跟随所述第一对象显示在视频的播放画面上。现有技术中，与第一对象关联的显示元素是以弹幕形式与视频关联的弹幕信息一起显示在视频的播放画面上的，需要用户从大量弹幕信息中筛选出与第一对象相关的信息，缺乏针对性，易降低用户体验。而本实施例提供的技术方案中与第一对象关联的显示元素是跟随第一对象显示在视频的播放画面上，能够在增加视频内容的趣味性的同时，提高用户参与的积极性与交互性。
111.本实施例提供的方法中上述各步骤可适用于发表针对第一对象关联的显示元素的客户端侧。即用户针对视频中的第一对象发表显示元素后，便可在客户端上呈现出显示元素跟随第一对象显示在所述视频的播放画面上的效果。即本实施例中步骤101“确定所述视频中的第一对象”可具体包括如下步骤：
112.响应于用户通过交互界面触发的对象选择事件，获取用户选择对象对应的图片；基于所述图片，检测所述视频中与所述图片匹配的所述第一对象；或者
113.响应于用户在所述视频播放画面上的操作，获取所述播放画面上用户操作位置处的画面内容，将所述画面内容作为所述第一对象。
114.相应的，上述的步骤102“获取与所述第一对象关联的显示元素”，可具体为：响应于用户针对所述第一对象触发的输入事件，获取用户输入的所述显示元素。
115.若本实施例提供的所述方法的执行主体为发表针对第一对象关联的显示元素的客户端，那么该客户端在完成上述各步骤后，还可将跟随显示元素的相关信息作为该视频的附加显示信息发送给服务端，这样其他客户端便可在播放该视频时同样可看到别人发表的跟随第一对象的显示元素。即，本实施例提供的所述方法还可包括如下步骤：
116.105、根据所述输入事件针对的所述视频中帧图像的帧标识，确定所述显示元素的显示时机；
117.106、根据所述第一对象在所述视频的播放画面上的第一位置，确定所述显示元素的跟随轨迹；
118.107、将所述显示元素、所述显示时机及所述跟随轨迹作为所述视频的附加显示信息发送至服务端，以便至少一个客户端在播放所述视频时获取。
119.本实施例中上述步骤101～104还可适用于获取网络侧用户发表的(即别人)针对视频中第一对象的显示元素，并在视频播放画面上进行跟随显示的客户端侧。也就是说，本实施例提供的所述方法的执行主体可以任一客户端，如针对视频第一对象发送显示元素的客户端，也可以是仅播放其他用户发表的显示元素的客户端，换句话说就是，客户端上可响应于用户的发表操作显示跟随效果，也可获取网络侧用户发表的跟随显示元素进行跟随显示。此外，视频中的多帧图像都会含有第一对象，多帧图像可能连续，也可能不连续。用户针对第一对象发表的显示元素，可能仅在第一对象出现在连续几帧图像中。比如，这几帧图像中播放的情景，第一对象是高兴的，但隔了多帧后的几帧图像中第一对象又出现了，但第一对象是伤心的。用户针对视频中第一对象处于高兴情景下发表的跟随显示元素，显示在第一对象处于伤心情景下的几帧图像的播放画面上，就出错了。因此，在发表显示元素时，需要明确视频图像中的第一帧图像(即起始帧图像)，后续连续的几帧图像
大概率情况下是同一情景下。即本实施例中所述方法中步骤101“确定视频中的第一对象”可具体为：确定所述视频的第一帧图像中的第一对象。这里的第一帧图像可以是根据所述视频的附加显示内容确定的(适用于从服务端获取的客户端)，或者是用户通过交互界面触发对象选择事件时指定的，或者是用户在所述视频播放画面上操作时对应的帧图像，或是用户在输入与所述第一对象关联的显示元素时指定的。后面的用户指定或用于操作确定的，可简单理解为：用户在点击交互界面上的控件，如“发表”控件时，视频停止播放时停留在那一帧图像即作为第一帧图像；又或者是用户在视频图像播放到某一帧图像时用户在该帧图像上进行框选操作，用户操作的这一帧图像即第一帧图像。
120.相应的，本实施例提供的所述方法中步骤103“获取所述第一对象在所述视频的播放画面上的位置”，包括：
121.1031、检测所述第一对象在所述第一帧图像中的第一位置；
122.1032、利用目标追踪算法，追踪所述第一对象在所述第一帧图像的后续帧图像中的第一位置；
123.1033、未满足追踪停止条件的情况下，返回追踪到的所述第一对象在第一帧图像后续的至少一帧图像中的第一位置；
124.1034、满足追踪停止条件的情况下，停止对所述第一对象的追踪。
125.上述实施例中，在确定出第一对象以及获取到与该第一对象关联的显示元素的基础上，为了使与该第一对象关联的显示元素能够跟随所述第一对象显示在视频的多帧图像的播放画面上，并为了避免在跟随显示的过程中所述显示元素对所述第一对象产生遮挡，需要获取所述第一对象在所述多帧图像中的位置信息，以基于位置信息来实现显示元素跟随所述第一对象显示的显示效果。在获取所述第一对象在所述多帧图像中的位置过程中，可以首先检测出第一对象在视频的第一帧图像中的位置，然后基于第一对象在第一帧图像中的位置，利用目标跟踪算法来追踪第一对象在第一帧图像中的后续帧图像中的位置，直至第一对象消失或追踪时长达到预设时长等情况下停止追踪；其中，上述多帧图像包括第一帧图像及第一帧图像的后续帧图像。
126.其中，所述追踪条件包括如下中的至少一项：追踪时长达到第三阈值、帧图像无所述第一对象、第一对象在帧图像的播放画面上的面积占播放画面的比例大于或等于第四阈值。
127.上述1031中，根据第一对象不同的确定方式，可以分别采用不同的方案来检测第一对象在所述第一帧图像中的第一位置。例如，在第一对象为用户从预置对象列表中选择出的对象的情况下，可以利用图像识别算法对第一帧图像的图像内容进行识别，以根据识别结果确定出第一对象在第一帧图像中的第一位置。具体地，参见图2所示，在视频播放到第一帧图像100的播放画面时，用户通过交互界面触发了对象的选择操作，从预置对象列表22 中选择出一对象1作为第一对象，执行主体(如客户端)在响应于用户触发的选择操作后，将会从相应的存储介质中获取对象1对应的图片，并基于该图片，利用图像识别算法对第一帧图像100的图像内容进行识别，以从第一帧图像中识别出对象1(即第一对象1)，该对象1在第一帧图像中的第一位置则可以为对象1的一像素点对应的坐标，比如，对象1在第一帧图像中的第一位置为第一帧图像中属于该对象1的像素点集中的中心像素点o对应的坐标。或者，所述对象1在第一帧图像中的第一位置为将对象1框入在内的二维框坐
标信息。上述图像识别算法可以是现有的计算机视觉方法、预训练好的对象检测模型(如深度学习模型等)可参见现有技术中的相关内容，本文不作具体限定。
128.再例如，在第一对象是根据用户在视频的第一帧图像的播放画面上的操作而确定的情况下，可以基于用户的操作行为来确定出第一对象在第一帧图像中的第一位置，其中所述操作可以为点击、框选等操作。比如，继续参见图2所示，用户在第一帧图像100的播放画面上对一画面内容02(即选择框 11内所包含的画面内容)进行了框选操作。此时，该画面内容02即作为第一对象，用户进行框选操作时所产生的选择框11的中心点o对应的坐标即可作为第一对象在第一帧图像中的第一位置；或者，该选择框11的坐标信息 (如包括四个角的坐标)作为第一对象在第一帧图像中的第一位置。又比如，用户对第一帧图像100的播放画面上的一位置点b处进行了点击操作，此时以位置点b为中心获得的一画面内容(如画面内容02)即为第一对象，而位置点b对应的坐标则为第一对象在第一帧图像中的第一位置。
129.又例如，在第一对象是根据从服务端所获取到的与第一帧图像的播放画面有关的包含有第一对象标识的附加显示信息而确定的情况下，可以根据第一对象的标识从存储介质中获取第一对象的特征数据，基于所述特征数据，对第一帧图像中的图像内容进行识别，以根据识别结果确定出第一对象在所述第一帧图像中的第一位置；其中所述特征数据可以为第一对象对应的图片。具体地第一对象在第一帧图像中的第一位置确定过程，可参见上述相关的内容，这里不再作赘述。
130.上述1032中，可基于第一对象在第一帧图像中的第一位置，确定出第一对象的检测框坐标信息，之后以该检测框坐标信息为基准，对第一帧图像的后续帧图像进行对象检测追踪，以得到第一对象在后续帧图像中的第一位置。其中，所述检测框可以为具有一定规则的二维框(如矩形框、圆形框)，或者为不规则性的二维框等等，其包围第一对象，可用于指示第一对象在第一帧图像中所在的图像区域。也即是，步骤1032“利用目标追踪算法，追踪所述第一对象在所述第一帧图像的后续帧图像中的第一位置”，可具体采用如下步骤来实现：
131.a11、确定在第一帧图像中所述第一对象所在第一位置对应的第一检测框坐标信息；
132.a12、基于所述第一检测框坐标信息，利用目标追踪算法对所述第一帧图像的后续帧图像进行对象检测与追踪，以得到所述第一对象在所述后续帧图像中的第一位置。
133.上述a11中，所述检测框包围第一对象，用于指示第一对象在所述第一帧图像的播放画面中的画面区域，其可以是具有一定规则的二维框(如矩形框、圆形框)，或者为不规则性的二维框，等等。在第一对象为用户从预置对象列表中所选择的对象或根据从服务端获取到的与第一帧图像有关的包含有第一对象标识的附加显示信息而确定出的对象的情况下，可以以第一对象在所述第一帧图像中的位置为中心，来构造第一检测框。例如，继续参见图 2所示，假设第一对象在第一帧图像100中的位置为点o对应的坐标，其中点o为第一帧图像中属于第一帧图像的像素点集中的中心像素点；以点o为圆心，半径为m个像素(如，2个像素、5个像素等，本实施例对此不作具体限定)可生成一圆形检测框作为所述第一检测框，或者以点o中心可生成一个规则(如正方形、矩形)或不规则形状的第一检测框，等等。而在第一对象为根据用户在视频的第一帧图像的播放画面上的操作而确定的情况
下，比如框选操作，可以将用户对所述第一帧图像中的第一对象进行框选操作时所产生的选择框11直接作为第一检测框。
134.上述a12中，在确定了第一检测框之后，可利用传统计算机视觉方法、预训练好的目标追踪深度学习模型等任意一种目标追踪算法来实现对第一帧图像的后续帧图像进行检测追踪。举例来说：以质心追踪算法为例，所述质心追踪算法主要是通过比较当前帧图像中的已知对象与下一帧图像中所出现的对象之间质心的欧式距离来进行追踪对象。具体地，参见图3所示，假设当前视频的帧图像的播放画面为第一帧图像100的播放画面，第一帧图像100 的播放画面中所包含的对象为已知第一对象1，二维矩形框11为第一对象1 在第一帧图像中对应的初始检测框(即第一检测框)，点o为二维矩形框的质心；以所述二维矩形框11为基准，若检测出在第一帧图像的下一帧图像 300的播放画面上出现对象2和对象3时，通过比较对象2对应的检测框12 的质心o
12
、对象3对应的检测框13的质心o
13
，分别与点o之间的欧式距离，即可从对象2和对象3中确定出与第一对象2相匹配的对象，如若质心 o
12
与点o之间的欧式距离d
12
小于质心o
13
与点o之间的欧式距离d
13
，对象2则为与第一对象1相匹配的对象，对象2在下一帧图像300的位置即为第一对象1在所述下一帧图像300中的第一位置，以此也就完成了对第一对象从第一帧图像到第一帧图像的下一帧图像的追踪。按照上述步骤也可以追踪到第一对象在下一帧图像的后续帧图像中的第一位置。需要说明的是，当第一帧图像中的第一对象的质心与第一帧图像的下一帧图像中的对象的质心之间的最小欧式距离大于一定阈值时，可判定第一对象在第一帧图像的下一帧图像中消失。应当理解的是，本实施例中还可以采用本领域公知的其它目标对象追踪方法来追踪第一对象在第一帧图像的后续帧图像中的位置，本实施例公开的目标对象追踪方法对此并不具有限制性。
135.上述1033和1034的步骤，追踪条件中的追踪时长对应的第三阈值及第一对象在帧图像的播放画面上的面积占播放画面的比例对应的第四阈值，可以根据实际情况进行确定，比如，第三阈值可以为5秒、2分钟，第四阈值可以为等等，这里不作具体限定。
136.本实施例提供的技术方案中，基于第一对象在视频的各帧图像中对应的检测框来实现对第一对象的追踪，这使得在对第一对象进行追踪过程中，仅需要对第一帧图像中的第一对象进行识别与检测，而对于第一帧图像的后续帧图像则只需进行检测追踪即可，这减少了对后续帧图像的识别，降低了计算量，提升了追踪速率。
137.上述步骤103的具体实现的技术方案，可由客户端执行，也可由服务端执行。在由客户端执行时，需就客户端具有较强和较快的计算能力，以不影响视频播放的流畅度。但现有大多数客户端边播放视频边进行对象识别、跟踪等，多少会影响视频播放的流畅度，因此上述步骤103的具体实现方案可由服务端来执行。即，在另一可实现的技术方案中，上述步骤102及103“获取与所述第一对象关联的显示元素及所述第一对象在多帧图像中的第一位置”，可具体包括：
138.向服务端发送用户针对所述视频第一帧图像中第一对象发送的显示元素发表请求；
139.接收所述服务端通过对象检测及追踪后反馈的所述第一对象在所述视频的多帧
图像中的第一位置。
140.其中，上述显示元素发表请求中可包含但不限于：所述视频的标识、所述第一帧图像的帧标识、第一对象的对象标识、显示元素等等。服务端执行上述1031～1034步骤后，向客户端反馈第一对象在所述视频的多帧图像中的第一位置。这样，客户端的性能不那么高，可保证视频播放的流畅度。
141.由上述内容可知，第一对象在所述视频的播放画面上的第一位置包括：所述第一对象在第一帧图像上的第一位置以及追踪到的所述第一对象在第一帧图像后续的至少一帧图像中的第一位置。为此，在一种可实现的技术方案中，上述104“根据所述第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上”，可具体包括：
142.1041、根据所述第一对象在所述第一帧图像及所述第一帧图像后续的至少一帧图像中的一目标帧图像的第一位置，确定所述第一对象在该目标帧图像中的轮廓信息；
143.1042、基于所述轮廓信息，确定第二位置；
144.1043、在所述目标帧图像的播放画面上的所述第二位置处，显示所述显示元素。
145.这里需要解释的是，上述1041中使用目标帧图像是为了方便叙述。实际上，目标帧图像是第一帧图像及追踪到的所述第一帧图像后续的至少一帧图像中的任一帧图像。因此，该目标帧图像和上文中的第一帧图像可以是同一帧图像，也可不是同一帧图像。
146.另外需要说明的是：上述步骤1041～1043可由客户端执行，也可由服务端执行。在由客户端执行时，需就客户端具有较强和较快的计算能力，以不影响视频播放的流畅度。但为了保证客户端视频播放的流畅度，上述步骤 1041～1043可由服务端执行。
147.上述1041中，可基于第一对象在目标帧图像中的第一位置所对应的检测框，利用前景分割算法将目标帧图像中的第一对象和背景进行分割，根据分割结果来得到第一对象的在目标帧图像中的轮廓信息。对目标帧图像进行前背景的分割，能够确定第一对象像素级别的位置，以避免后续在添加显示元素时将该显示元素覆盖到第一对象上，影响观感。即，在一种可实现的方案中，步骤1041“根据所述第一对象在目标帧图像中的第一位置，确定所述第一对象在所述目标帧图像中的轮廓信息”，具体可采用以下步骤来实现：
148.10411、获取所述第一对象在所述目标帧图像中的第一位置对应的第二检测框；
149.10412、基于所述第二检测框，对所述目标帧图像进行前景分割；
150.10413、根据前景分割结果，提取所述第一对象的边缘像素点，以获得所述轮廓信息。
151.上述前景分割算法可以是现有的前景分割算法，比如，fcn、n-cut等，也可以是深度学习算法，比如dip、double-dip等，这里不做具体限定；对于第二检测框的获取可参见上述相关内容，这里不再作赘述。
152.更具体的，所述第一对象在所述目标帧图像中的第一位置包括二维框坐标信息(即上述第二检测框)，则上述步骤“根据所述第一对象在所述多帧图像的目标帧图像中的第一位置，确定所述第一对象在所述目标帧图像中的轮廓信息”，可具体为：从所述目标帧图像中，将所述二维框坐标信息对应框区域内的所述第一对象分割出，得到所述第一对象的所述轮廓信息。
153.第一帧图像及追踪到的所述第一帧图像后续的至少一帧图像(为了方便描述，以将统称为多帧图像)中的各帧图像均可采用上述步骤1041～1043的方案来显示显示元素，
以达到在连续的多帧图像的播放画面上显示元素跟随第一对象显示。当然，也可采用如下步骤，即所述第一帧图像多帧图像中还包括第三帧图像，该第三帧图像为目标帧图像的后一帧。上述步骤“根据所述第一对象在所述多帧图像中的第一位置，所述显示元素跟随所述第一对象显示在所述多帧图像的播放画面上”还包括：
154.1044、确定所述第一对象在所述第三帧图像中的第一位置与所述第一对象在所述目标帧图像中的第一位置的变化情况；
155.1045、根据所述变化情况及所述第二位置，确定第三位置；
156.1046、在所述第三帧图像播放画面上的所述第三位置处，显示所述显示元素。
157.具体实施时，在确定了目标帧图像中的第二位置之后，可根据第一对象在第三帧图像中的第一位置与第一对象在目标帧图像中的第一位置的变化情况以及所述第二位置，来确定第三帧图像中的第三位置，以便在第三位置处显示所述显示元素。比如，所述变化情况可以为：第一对象在第三帧图像中的第一位置相对于第一对象在目标帧图像中的第一位置的横坐标或/和纵坐标的平移量。举例来说：假设第一对象在目标帧图像和第三帧图像中的第一位置分别为o2、o3，位置o3相对于位置o2在水平方向上向右平移了3个像素，垂直方向上未发生变化，即位置o3相对于位置o2的变化情况为：横坐标向右平移了3个像素；根据该变化情况，这时可以将第二位置的横坐标也向右平移3个像素点，将平移后的第二位置作为第三帧图像中的第三位置，并在第三位置处显示所述显示元素，以到达跟随显示的效果。
158.上述1042中，“基于所述轮廓信息，确定第二位置”，具体可采用如下步骤实现：
159.a21、在所述轮廓信息对应轮廓的周围，生成至少一个候选区；
160.a22、从所述至少一个候选区中，选取一个候选区作为目标区；
161.其中，所述目标区所在位置即用于显示所述显示元素的所述第二位置。
162.具体实施时，可以按照预设距离，在第一对象的轮廓信息的周围生成如图4a示出的至少一个候选区域，之后按照如随机抽取方式从至少一个候选区中随机选择一个候选区作为目标区，或者根据显示元素所需的显示面积，从至少一个候选区域中筛选出与所述显示元素相匹配的一个候选区作为目标区。其中，预设距离可以根据实际情况进行确定，例如，预设距离可以为2像素、 3像素、5像素等，这里不做具体限定。需要说明的是：在实际应用时，上述至少一个候选区的边界并不会如图4a所示显示在目标帧图像的播放画面上，而是处于隐藏状态。
163.另外，考虑到在实际的目标帧图像的播放画面上，画面上除了包含有第一对象外，可能还包含有至少一个第二对象，若第一对象的轮廓信息与至少一个第二对象的区域边界之间具有较小的距离时，显示在第一对象一侧的显示元素可能会对至少一个第二对象产生遮挡。比如，参见图4b示出的目标帧图像的播放画面，在该图4b中，第一对象1和第二对象2之间具有相对较小的距离，在不考虑第一对象1与第二对象2之间的距离的情况下，按照上述方案在第一对象1的轮廓信息周围可生成如图4b示出的多个候选区。假设将与第一对象1关联的显示元素如“普普呢，帮张叔叔唱首小白船送送阿姨”在第一对象1右侧的一目标区31进行显示，此时显示元素将会对第一对象1 产生遮挡。为了避免上述遮挡情况的发生，可以确定出至少一个第二对象在目标帧图像中所在的区域边界，以根据第一对象的轮廓信息和第二对象的区域边界，来综合确定目标帧图像的播放画面上候选区的
设置区域。即，在一种可实现的技术方案中，步骤a21“在所述轮廓信息的周围，生成至少一个候选区”，具体可采用以下步骤实现：
164.a211、识别所述目标帧图像中不能遮挡的至少一个第二对象；
165.a212、存在不能遮挡的所述至少一个对象时，确定所述至少一个第二对象在所述目标帧图像中所占的区域边界；
166.a213、根据所述轮廓信息及所述区域边界，确定所述目标帧图像的播放画面上候选区的设置区域；
167.a214、在所述设置区域的面积大于第一阈值时，在所述设置区域内规划候选区的设置方案；其中，所述设置方案包含如下中的至少一项：候选区的数量、候选区的分布方式、候选区的尺寸；
168.a215、按照所述候选区的设置方案，生成所述至少一个候选区。
169.上述步骤a211至步骤a213中，可利用现有的图像识别技术来识别出目标帧图像中不能遮挡的至少一个第二对象，并根据识别结果确定出所述至少一个第二对象在目标帧图像中所占的区域边界，所述区域边界可以是所述至少一个第二对象的边缘轮廓，也可以是用于指示至少一个第二对象在目标帧图像中所在的图像区域的二维矩形框的边界，这里不做具体限定。参见图4c 所示，以第二对象2的边缘轮廓作为第二对象2的区域边界为例，在确定第二对象2的区域边界之后，根据第一对象1的轮廓信息和第二对象2的区域边界，可以得到在目标帧图像的播放画面上候选区域的设置区域可以为：位于第一对象左侧的区域1、位于第一对象和第二对象之间的区域2、位于第二对象右侧的区域3；之后基于预设的面积阈值(即第一阈值)，可以对所述设置区域进行筛选，以确定出符合要求的目标设置区域，如可以将设置区域的面积大于预设的面积阈值的设置区域视为符合要求的目标设置区域。上述中，第一阈值，即面积阈值可以根据实际情况进行确定，这里不再限定。
170.例如，继续参见图4c，假设第一阈值为t，区域1、区域2及区域3的面积分别为s1、s2、s3，且s1、s3》t，s2《t，则区域1、区域2为符合要求的目标设置区域。
171.上述步骤a214至a215中，在设置区域的面积大于第一阈值的情况下，可以在候选区域内规划候选区的设置方案，以按照该设置方案来生成若干多个候选区。其中，“在所述设置区域内规划候选区的设置方案”的具体实现为：按照规划规则，在所述设置区域内规划候选区的设置方案；所述规划规则包括如下中至少一项：候选区的近所述轮廓信息对应轮廓的近点与所述轮廓之间具有第一间距；两相邻候选区之间具有第二间距；候选区的尺寸设置区间；其中，所述尺寸设置区间包括：最小长宽尺寸、最大长宽尺寸。
172.比如，按照上述候选区的设置方案，在区域1和区域3内分别生成如图 4c所示的至少一候选区，其中，区域1内的至少一个候选区用于显示与第一对象1关联的显示元素，区域3用于显示与第二对象2关联显示元素。图4c 示出的区域1和区域3内的候选区的数量仅仅是示例性的，并不代表实际所生成的候选区域的数量。
173.进一步地，上述步骤a21，还包括：
174.a216、所述设置区域面积小于或等于第一阈值时，放弃在所述目标帧图像的播放画面上显示所述显示元素。
175.上述a22“从所述至少一个候选区中，选取一个候选区作为目标区”,可采用如下中的任意一种选取方式：
176.方式一、从所述至少一个候选区中，随机选取一个候选区作为目标区；
177.例如，继续参见图4c所示，假设与第一对象1关联的显示元素为“好好答，这题你爸妈没答对”，可以采用随机抽取方式从图4c示出的多个候选区中随机选择一个候选区013作为目标区，以用于显示“好好答，这题你爸妈没答对”。
178.方式二、从所述至少一个候选区中，选取与所述显示元素所需显示面积匹配的候选区作为目标区。
179.例如，继续参见图4c所示，假设与第一对象关联的显示元素为“徐静，你也想好了再说。唉？我为什么要加’也
’”
，经计算分析，图4c示出的多个候选区中的候选区012与显示元素(即徐静，你也想好了再说。唉？我为什么要加’也’)所需的显示面积相匹配，候选区012则为目标区。
180.上述中，通过方式一(即随机方式)从至少一个候选区域中选取一个候选区作为目标区时，难免存在目标区与显示元素所需显示面积不匹配的情况，导致在目标区内并无法完整的将显示元素显示出来，比如，以上述方式一中列举的例子中为例，显示元素“好好答，这题你爸妈没答对”并无法在候选区 013内进行全部显示。针对上述目标区与显示元素所需的显示面积不匹配的情况，可以将显示元素采用滚动显示方式在目标区内进行显示，所述滚动显示方式可以是左右滚动显示、上下滚动显示。基于此，上述步骤1053“在所述目标帧图像的播放画面上，所述第二位置处显示所述显示元素”的一种可实现方案为：选取的目标区与所述显示元素所需显示面积不匹配时，在所述目标帧图像的播放画面的所述目标区内，滚动显示所述显示元素。
181.此外，在解决目标区与显示元素所需的显示面积不匹配的情况时，除了采用上述中的滚动显示方式之外，还可以对采用减小字号的方式，由于显示元素字号的减小会影响用户的观感体验，本实施例中优选采用滚动显示方式。
182.上述1043中，在所述目标帧图像的播放画面上，所述第二位置处显示所述显示元素时，还可以获取用户的等级信息，根据所述等级信息，确定所述显示元素的显示效果。例如，对具有较高等级的用户，比如vip用户，可以将其针对第一对象所发表的显示元素在目标帧图像的播放画面上，所述第二位置处以凸显方式进行显示。所述凸显方式可以为如下中的至少一种：颜色、动画效果、目标区样式。所述颜色可以设置为相对显著的颜色，如彩色；所述目标样式可以设置为如气泡样式。
183.这里需要说明的是，在视频的多帧图像中的每一帧图像的播放画面上，均可采用上述步骤来显示与第一对象关联的显示元素，且该显示元素随着第一对象的移动而移动，以此达到跟随的显示效果。图5a和图5b示出了显示元素跟随与之关联的对象显示在视频的一帧图像的播放画面上的具体显示结果。
184.进一步地，本实施例提供的所述方法，还包括以下步骤：
185.108、所述显示元素跟随所述第一对象显示时长大于第二阈值时，消隐所述显示元素。
186.具体实施时，第二阈值可以以秒、分等为单位进行设置，比如，可以为 3秒、1分钟，等等。例如，第一阈值为3秒，在显示元素如跟随第一对象显示时长到达3秒时，该显示元素便被消隐。
187.这里需要说明的是：考虑到在上述所获取的与第一对象关联的显示元素中可能
存在粗言秽语，或者敏感词汇。为此，本实施例在获取与所述第一对象关联的显示元素过程中，会对所述显示元素进行筛选，以排除含有上述不适合词语的显示元素，得到适于共享的目标显示元素并将其跟随第一对象进行显示。
188.本实施例提供的技术方案，在播放视频过程中，在确定第一帧图像中的第一对象之后，可获取与所述第一对象关联的显示元素以及所述第一对象在多帧图像中的第一位置，并根据所述第一对象在所述多帧图像中的第一位置，使所述显示元素跟随所述第一对象显示在视频的多帧图像的播放画面上。现有技术中，与第一对象关联的显示元素是以弹幕形式与视频关联的弹幕信息一起显示在视频的播放画面上的，需要用户从大量弹幕信息中筛选出与第一对象相关的信息，缺乏针对性，易降低用户体验。而本实施例提供的技术方案中与第一对象关联的显示元素是跟随第一对象显示在视频的播放画面上，能够在增加视频内容的趣味性的同时，提高用户参与的积极性与交互性。
189.假设本实施例中的所述显示元素为所述第一对象的内心活动信息，其中第一对象可以是视频中的人物、物体(如影片中的道具)、动物等等。在本是实施例中除了可跟随第一对象显示内心活动信息外，还可显示出现该内心活动信息的原因。比如，图11a中的视频，假设左侧男孩与右侧女孩第一次见面相亲，有一个用户发表了跟随显示在右侧女孩的内心活动信息为“悲剧的一天”；而对于有些用户来说，他刚看这个视频不知道情况，就不太理解为什么会发这个内心活动信息。此时，若关联显示出内心活动信息出现的原因，如“相亲，男生长相不好”，这样其他看到这条内心活动信息的用户便能明白实际状况。即本实施例提供的所述方法还可包括如下步骤：
190.获取针对所述第一对象出现所述内心活动信息的原因；
191.将所述原因与所述内心活动信息关联显示。
192.其中，出现内心活动信息的原因的获取可包括：
193.对所述内心活动信息进行分析，以分析出出现所述内心活动信息的原因；或者
194.获取用户针对所述内心活动信息输入的所述原因；或者
195.获取用户针对所述内心活动信息输入的与所述视频相关的字幕信息。
196.比如，可利用相应的算法(如人工智能算法)分析内心活动信息，然后得出该内心活动信息出现的原因。当然，也可把视频字幕中的某一台词(即上述字幕信息)作为该内心活动信息出现的原因。又或者，该内心活动信息的出现原因是用户输入的，当然，在具体实施时，内心活动信息及内心活动信息的出现原因可以是同一用户输入的，也可以不是，本实施例对此不作具体限定。
197.本实施例中与所述第一对象关联的显示元素可以为多个；多个显示元素是由不同用户针对所述第一对象发表的。不同用户发表的显示元素可以关联显示，这样在视频的播放画面上看起来像是观众之间在互动。比如，有一个用户针对第一对象(如影视剧中的一个角色，如图11a中右侧女孩)发表了内心活动信息“为啥我这么倒霉”；另一个用户针对该第一对象发表了内心活动信息“因为这位不太好看吧”。可将这两个内心活动信息对应展示，像是一问，一答的互动。即本实施例提供的所述方法还可包括如下步骤：
198.对多个显示元素进行匹配；
199.将所述多个显示元素中具有匹配关系的两个或两个以上的显示元素关联展示。
200.上述匹配的过程可以基于对各显示元素进行语义分析，将存在上下文关系的两
个或多个显示元素归为匹配的显示元素；当然，也可采用其他匹配算法等，本实施例对此不作具体限定。
201.上述关联显示可以是：显示在一块，或是对应展示(如一个在第一对象的左侧显示，一个在第一对象的右侧显示)等，本实施例对此不作具体限定。
202.另外需要补充的是，本实施例提供的所述方案中显示元素可以包括如下中的至少一项或组合：字符串、表情图、图片等。其中，表情图可以是用户自制的表情包，或者是视频播放平台(即服务端)提供的表情包等等。
203.下面对本实施例步骤101至103的具体实现过程进行详细说明。
204.在本实施例中，当用户在观看视频的过程中，若想对当前帧图像的播放画面上的第一对象发表自己的看法，同时希望其他观看该视频的用户看到自己所发表的评论，也希望看到别人对该对象的评论，甚至想与其他用户互动，共同讨论该第一对象。此时，用户可以通过本实施例提供的技术方案首先确定出其所想要发表评论的第一帧图像中的第一对象，之后再通过本实施例提供的文本输入框发表自己对该第一对象的评论内容，执行主体在接收到用户所发表的评论内容后，将会使该评论内容跟随此第一对象显示在第一帧图像的后续帧图像的播放画面上，具体如何将观看者针对第一对象所发表的评论内容跟随第一对象显示在后续帧图像的播放画面上，可参见上述相关内容。上述当前帧图像为视频中的任一帧图像，用户针对第一对象所发表的评论内容即为与第一对象关系的显示元素。
205.上述中，第一帧图像中的第一对象可以由用户从预置对象列表中选择确定，也可以根据用户在第一帧图像的播放画面上的操作确定。具体地，在一种可实现的技术方案中，上述步骤101“确定所述视频的第一帧图像中的第一对象”，具体可采用如下方式中的任一种进行确定：
206.方式一：响应于用户针对所述第一帧图像触发的对象选择事件，获取用户选择对象对应的图片；基于所述图片，检测所述第一帧图像中与其匹配的所述第一对象。
207.具体实施时，参见图2所示，当用户在观看视频的过程中，想要针对当前帧图像100(即第一帧图像)的播放画面上的第一对象1发表一评论内容时，用户可以通过点击操作触发当前帧图像的播放画面上的控件10，客户端响应用户对控件10的点击操作后，将跳转至评论内容的输入页面200，输入页面200中包括预置对象列表对应的控件20、文本输入框21等，用户对控件20进行点击操作后，预置对象列表22便会在输入页面200的页面上进行显示，用户从所显示出来的预置对象列表中选择对象1，该对象1可认是第一对象1的标识。在用户完成选择操作后，执行主体可以从相应的存储介质中获取到与用户所选择的对象1对应的图片，并基于该图片，可以利用图像识别算法对当前帧图像进行识别检测，以确定出当前帧图像100中与对象1 相匹配的第一对象1。上述图像识别算法可以是传统计算机视觉算法、机器学习算法(如深度学习、神经网络模型)等，这里不作具体限定。
208.方式二：响应于用户在所述第一帧图像的播放画面上的操作，获取所述第一帧图像的播放画面上用户操作位置处的画面内容，将所述画面内容作为所述第一对象。
209.具体实施时，用户在第一帧图像的播放画面上的操作包括但不限于：点击、框选、语音控制等操作。继续参见图2所示，例如，用户可采用点击方式(如点触聚合长按方式)，选择第一对象；比如，用户可通过交互界面提供的交互方式(如手触、鼠标、键盘等)在当前帧图像100(即第一帧图像) 的播放画面上的位置b处进行了点击长按操作，此时执行主体
可以以位置b 为中心，获取一定区域内的画面内容，如矩形框11所包含的画面内容，并将该画面内容作为第一对象。又例如，用户可采用框选方式，选择第一对象；比如，用户可以在当前帧图像100的播放画面上通过手动画圈方式来确定一画面区域，如在当前帧图像100的播放画面上画一个闭环或者接近闭环的圈，或者接近闭合的矩形框11等，该画面区域如矩形框11所包含的画面内容则作为第一对象。
210.这里需要说明的是，用户在针对第一帧图像触发对象选择事件，或者在第一帧图像的播放画面上的进行操作(如点击、框选)，以确定第一帧图像中的第一对象时，第一帧图像的播放画面处于暂停状态，这样便于用户对第一对象进行发表评论。在用户通过文本输入框，如图2中示出的文本输入框 21，输入针对第一对象的评论内容如“苏醒了，猎杀时刻”并进行发送后，客户端便会获取到该评论内容，并将该评论内容作为与第一对象关联的显示元素。即，在一种可实现的技术方案中，上述步骤102“获取与所述第一对象关联的显示元素”，可具体包括：响应于用户针对所述第一对象触发的输入事件，获取用户输入的所述显示元素。
211.具体实施时，用户输入的显示元素显示元可以包括：文字、符号、表情、图片等；其中，文字可以为一个中文文字，也可以为一个词语、短语或语句；符号可以为一个字符，也可以为字符串；表情可以为静态表情，也可以为动态表情；表情可以为内置表情或用户添加的表情，文字和符号的字体、字号及颜色等可以由用户进行确定和调整。
212.此外，客户端还可以根据当前帧图像的标识来确定出该显示元素的显示时机，并将该显示元素、第一对象的标识信息及显示时机进行关联作为视频的附加显示信息发送至服务端，以便于其他用户在通过至少一个客户端观看该视频时可以获取。基于此，本实施例所述方法，还包括以下步骤：
213.s01、根据所述第一帧图像(或者所述多帧图像)的帧标识，确定所述显示元素的显示时机；
214.s02、根据所述第一对象在所述多帧图像中的第一位置，确定所述显示元素的跟随轨迹；
215.s03、将所述显示元素、所述显示时机及所述跟随轨迹作为所述视频的附加显示信息发送至服务端，以便至少一个客户端在播放所述视频时获取。
216.具体实施时，所述显示时机可以为所述视频中需显示所述显示元素的图像帧标识，也可以为在视频播放过程中的显示时段。
217.当然，用户在观看视频的过程中，也可以不对当前帧图像(即第一帧图像)的播放画面中的第一对象发表评论，仅观看其他用户在观看该视频过程中针对该当前帧图像中的第一对象所发表的评论内容。在这种情形下，用户可通过上述步骤101“确定所述视频的第一帧图像中的第一对象”，指定只看与第一对象关联的显示元素，屏蔽其他对象的显示元素。上述步骤102和103
ꢀ“
获取与所述第一对象关联的显示元素及所述第一对象在多帧图像中的第一位置”可具体为：
218.从服务端获取与所述视频有关的附加显示信息；
219.根据所述附加显示信息，确定与所述第一对象关联的显示元素、所述多帧图像及所述第一对象在所述多帧图像中的第一位置。
220.在一具体应用场景下，本实施例中的第一对象可以为人脸图像数据。在所述第一
对象为人脸图像数据的情况下，上述步骤102“获取与所述第一对象关联的显示元素”，还可包括：
221.1021、对所述人脸图像数据进行面部表情分析，得到面部表情结果；
222.1022、根据所述面部表情结果，确定与所述第一对象关联的所述显示元素。
223.具体地，在第一对象为人脸图像数据时，可以利用机器学习方法，比如神经网络模型、主分量分析算法、局部特征分析方法等，对人脸图像数据进行面部表情特征的提取与分析，以得到面部表情结果，进而根据面部表情结果可以确定出第一对象的内心活动信息，以此自动生成与第一对象关联的显示元素。例如，在第一对象的面部表情为恐惧时，说明第一对象的内心是处于恐慌、害怕及紧张等不安的状态，此时针对该不安状态，所生成的与第一对象关联的显示元素可以为诸如“完了、完了，逃不出去了”等类似的内容。另外，还可以将面部表情结果与场景信息及第一对象的行为动作进行结合来综合地自动生成与第一对象关联的显示元素；例如，第一对象的面部表情为快乐，此时经对第一帧图像中的场景和第一对象的行为动作分析，确定所述第一对象处于购物状态，如购买服装，这是所生成的第一对象关联的显示元素可以为诸如“太漂亮了，穿上它真是太美了”等类似的内容。
224.该实施例提供的技术方案，系统可以根据所得到的人脸面部表情结果来自动生成与第一对象的关联显示元素，这可以为用户提供引导性的交流话题，利用提升用户之间的交互性及参与度，并增加视频内容的趣味性。
225.进一步地，本实施例提供的所述方法，还包括如下步骤：
226.109a、获取与所述视频关联的弹幕信息；
227.109b、在显示有跟随所述第一对象的显示元素的播放画面上，滚动显示所述弹幕信息。
228.例如，参见图5c所示，在视频的第一帧图像的播放画面100上，显示有跟随第一对象1的显示元素，比如“拜拜您嘞”、“是不是得假装痛苦点”、“事后想想，也就还好”的同时，还可以在该第一帧图像的播放画面的顶部或底部滚动显示与该第一帧图像关联的弹幕信息，比如在该播放画面100的顶部区域，可从从左到右滚动显示“不愧是影帝”、“冲着这段来的”、“蹦极”等弹幕信息
229.这里需要说明的是：考虑到在上述与所述视频关联的弹幕信息中可能存在粗言秽语，或者敏感词汇。为此，本实施例在获取与所述视频关联的弹幕信息时，会对所获取到的弹幕信息进行筛选，以排除含有上述不适合词语的弹幕，得到适于共享的目标弹幕信息。
230.进一步地，本实施例提供的所述方法，还包括如下步骤：
231.响应于用户的开启操作，启动在视频的播放画面上展现显示元素跟随视频中关联对象的功能。
232.具体实施时，所述开启操可以为点触操作，例如，用户可以手动点击如图2示出的控件20，以控制所述控件20的开启，该控件20用于启动在视频的播放画面上展示显示元素跟随视频中关系对象的功能，还可控制启动在视频的播放画面上展示与视频关联的弹幕信息的功能。
233.图6示出了本技术另一实施例提供的数据处理方法的流程示意图。本实施例提供
的所述方法的执行主体可以是客户端。如图6所示，该方法包括以下步骤：
234.201、获取用户针对视频中第一对象发表的显示元素；
235.202、向服务端发送针对所述显示元素的发表请求；
236.203、根据所述服务端通过对象检测及追踪后反馈的所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
237.上述201中，显示元素可以用户通过客户端提供的交互方式针对视频中的第一对象输入的，可参见图2及上文中的相应内容。具体的，所述“获取用户针对视频中第一对象发表的显示元素”，可具体包括：
238.响应于用户通过交互界面触发的对象选择事件，获取用户选择对象对应的图片；基于所述图片，检测出所述视频中与所述图片匹配的所述第一对象；响应于用户针对所述第一对象触发的输入事件，获取所述显示元素；
239.或者
240.响应于用户在所述视频播放画面上的操作，获取所述播放画面上用户操作位置处的画面内容，将所述画面内容作为所述第一对象；响应于用户针对所述第一对象触发的输入事件，获取所述显示元素。
241.上述202中，发表请求可包括但不限于：显示元素、显示时机(如第一帧图像的帧标识)、所述视频的标识、所述第一对象的对象标识等等。
242.上述203中，有关“服务端检测检测及追踪对象并反馈所述第一对象在所述视频的多帧图像中的第一位置”的内容，可参见上文中的相应内容，此处不作赘述。同样的，上述204的具体实现内容可参见上文中的相应内容，此处不作赘述。
243.比如，上述204“根据所述第一对象在所述多帧图像中的第一位置，所述显示元素跟随所述第一对象显示在所述多帧图像的播放画面上”，包括：
244.根据所述第一对象在所述多帧图像中的第一位置，确定所述第一对象在所述多帧图像的各帧图像中的轮廓信息；
245.根据所述第一对象在各帧图像中的轮廓信息，确定各帧图像中用于显示所述显示元素的第二位置；
246.在所述多帧图像播放画面上的各帧图像对应的第二位置处，显示所述显示元素以呈现出所述显示元素跟随所述第一对象的显示效果。
247.对应与图6所示的方法实施例，图7示出了本技术另一实施例提供的数据处理方法的流程示意图。图7所示所述方法的执行主体是服务端。如图7 所示，该方法包括以下步骤：
248.301、接收第一客户端针对视频中第一对象发送的显示元素发表请求；
249.302、通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置；
250.303、将所述第一对象在所述视频的播放画面上的第一位置发送至第一客户端，以便在所述第一客户端的所述视频播放画面上，所述显示元素跟随所述第一对象显示。
251.上述步骤302“通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置”可包括：
252.3021、根据所述显示元素发表请求中携带的帧标识，确定所述视频中的第一帧图
像；
253.其中，上述帧标识可以是所述第一客户端侧用户指定的，或第一客户端侧用户操作时确定的等等；
254.3032、检测所述第一帧图像中的所述第一对象，得到所述第一对象在所述第一帧图像上的第一位置；
255.3033、追踪所述第一对象在所述第一帧图像的后续帧图像中的第一位置；
256.3034、未满足追踪停止条件的情况下，返回追踪到的所述第一对象在第一帧图像后续的至少一帧图像中的第一位置；
257.3035、满足追踪停止条件的情况下，停止对所述第一对象的追踪。
258.具体实施时，所述追踪条件包括如下中的至少一项：
259.追踪时长到达第三阈值、帧图像无所述第一对象、第一对象在帧图像的播放画面上的面积占播放画面的比例大于或等于第四阈值。
260.进一步的，本实施例提供的所述方法还可包括如下步骤：
261.304、根据所述第一帧图像的帧标识，确定所述显示元素的显示时机；
262.305、根据所述第一对象在所述第一帧图像及所述第一帧图像的后续至少一帧图像中的第一位置，确定所述显示元素的跟随轨迹；
263.306、将所述显示元素、所述显示元素的显示时机及所述显示元素的跟随轨迹作为所述视频的附加显示信息存储于本地，以便于至少一个第二客户端在播放所述视频时获取。
264.以下为了方便说明，将上述第一帧图像及所述第一帧图像的后续至少一帧图像统称为多帧图像。即再进一步的，上述步骤305“根据所述第一对象在所述第一帧图像及所述第一帧图像的后续至少一帧图像中的第一位置，确定所述显示元素的跟随轨迹”，可采用如下步骤实现：
265.3051、根据所述第一对象在所述多帧图像中的第一位置，确定所述第一对象在所述多帧图像中的轮廓信息；
266.3052、基于所述第一对象在所述多帧图像中的所述轮廓信息，确定所述多帧图像的各帧图像中用于显示所述显示元素的第二位置；
267.3053、根据所述多帧图像的各帧图像中用于显示所述显示元素的第二位置，得到所述跟随轨迹。
268.这里需要补充的是：有关本实施例各步骤的更详细的内容，可参见上文中的相应描述，此处不作赘述。
269.以仅观看别人通过相应客户端发送的针对视频中对象的显示元素为例，本技术还一实施例提供如下数据处理方法，该方法的执行主体可以是客户端。本实施例仅站在显示别人发表的显示元素的角度。具体的，参见图8所示，所述数据处理方法包括：
270.401、播放视频；
271.402、获取与所述视频有关的附加显示信息；
272.403、根据所述附加显示信息，确定与第一对象关联的显示元素、所述显示元素的显示时机及跟随轨迹；
273.404、所述显示时机到达时，在所述视频的播放画面上，所述显示元素按照所述跟
随轨迹跟随所述播放画面上的所述第一对象显示。
274.具体的，所述显示时机如下中的至少一种：在视频中的显示时刻、所述视频中需显示所述显示元素的图像帧标识。
275.这里需要说明的是：有关本实施例各步骤的更详尽的内容，可参见上文中的相应描述，此处不作赘述。另外，本实施例除包含上述各步骤外，还可包括上文中提及的其他步骤。
276.下面结合具体场景对本实施例提供的技术方案进行说明。
277.第一场景，对视频中人物发表内心活动信息。
278.具体的，如图9所示的流程示意图，所述数据处理方法包括：
279.501、获取用户针对视频中一人物发表的内心活动信息；
280.502、获取所述人物在视频的播放画面上的位置；
281.503、根据所述人物在所述视频的播放画面上的位置，所述内心活动信息跟随所述人物显示在所述视频的播放画面上。
282.上述步骤502“获取所述人物在视频的播放画面上的位置”可具体包括：
283.5021、向服务端发送针对所述视频第一帧图像中所述人物的内心活动信息发表请求；
284.5022、接收所述服务端通过人物检测及追踪后反馈的所述人物在所述视频的多帧图像中的位置。
285.其中，多帧图像包括用户指定的或操作时确定的第一帧图像，及第一帧图像后续的至少一帧图像(通过追踪技术追踪到的)。
286.这里需要说明的是：有关本实施例各步骤的更详尽的内容，可参见上文中的相应描述，此处不作赘述。另外，本实施例除包含上述各步骤外，还可包括上文中提及的其他步骤，适当的将上文中的对象替换为人物，显示元素替换为内心活动信息即可。
287.第二场景，对视频中物体发表互动信息。
288.具体的，如图10所示的流程示意图，所述数据处理方法包括：
289.601、获取用户针对视频中一物体发表的互动信息；
290.602、获取所述物体在视频的播放画面上的位置；
291.603、根据所述物体在所述视频的播放画面上的位置，所述互动信息跟随所述物体显示在所述视频的播放画面上。
292.同样的，有关本实施例各步骤的更详尽的内容，可参见上文中的相应描述，此处不作赘述。另外，本实施例除包含上述各步骤外，还可包括上文中提及的其他步骤，适当的将上文中的对象替换为物体，显示元素替换为互动信息即可。
293.上述各实施例提供的数据处理方法可以由单机实现，比如，由具有一定数据处理能力的客户端实现，该客户端可以是台式计算机、笔记本电脑、平板电脑、智能手机、智能穿戴设备等等，本实施例对此不作具体限定。该客户端的基本结构功能将在下述中进行详细阐述，具体可参见下述对电子设备功能的介绍，这里不作具体赘述。或者，上述各实施例提供的数据处理方法可应用于如图11a和11b所示出的由客户端和服务端所组成的系统架构环境中。服务端11通过网络与与客户端12进行通信连接，所述网络包括但不限于：广域网、城域网或局域网等。所述客户端12可以为台式计算机、平板电脑、手机、智能穿戴设备
等任意终端设备；所述服务端11可以是常用服务器、服务器集群、云端或虚拟服务器等，本技术实施例对此不作具体限定。本申请实施例的数据处理方法可以由服务端来执行，也可以由客户端来执行，还可以部分由服务端、部分由客户端来执行。不过，考虑到仅由客户端12来执行时，客户端12在对第一对象进行识别追踪过程中，需耗时较大且易造成视频的卡顿，难以满足用户实时观看需求。为此，本技术各实施例提供的数据处理方法优先选用由客户端和服务端共同来执行。
294.比如图11b所示的例子，对视频中的多帧图像中的第一对象的检测，以确定第一对象在索虎多帧图像中的第一位置，以及根据所述第一位置确定在所述多帧图像在的第一对象周围的至少一个候选区，以用于显示与第一对象关系的显示元素的过程可由服务端来执行。客户端仅需要基于服务端反馈的信息，如第一对象在多帧图像中的第一位置、候选区、显示元素等等，将所述显示元素跟随第一对象显示在视频的多帧图像的播放画面上。具体地，用户在通过客户端上所安装的应用播放一视频，并在观看视频过程中，通过交互界面针对第一帧图像(如当前帧图像)的播放画面上的第一对象触发了输入事件之后，客户端将会向服务端发送第一对象的标识信息，服务端基于所接收到第一对象的标识信息可对第一帧图像及第一帧图像的后续帧图像进行检测，以确定第一对象在多帧图像中的第一位置以及在多帧图像中的第一对象周围的至少一个候选区并发送至客户端，客户端根据所接收到的第一对象在所述多帧图像中的第一位置，以及在多帧图像中的第一对象周围的至少一个候选区，来控制显示元素跟随第一对象显示在所述多帧图像的播放画面上，所述多帧图像包括第一帧图像及第一帧图像的后续帧图像。
295.具体的，图11c示出了本技术另一实施例提供的数据处理系统架构示意图，在该系统中，以上各实施例提供的数据处理方法由客户端来执行，服务端则用于接收并存储于视频关联的附加显示信息。具体地，如图11c所示，该系统架构包括：第一客户端121、服务端11及第二客户端122，分别用于：
296.第一客户端121，用于获取用户针对视频第一帧图像中第一对象发表的显示元素；向服务端发送针对所述显示元素的发表请求；
297.所述服务端11，用于根据接收到的所述发表请求，通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置；将所述第一对象在所述视频的播放画面上的第一位置发送至第一客户端；
298.所述第一客户端121，还用于根据所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
299.进一步的，所述服务端11，还用于确定所述显示元素的显示时机；根据所述第一对象在所述视频的播放画面上的第一位置，确定所述显示元素的跟随轨迹；将所述显示元素、所述显示元素的显示时机及所述显示元素的跟随轨迹作为所述视频的附加显示信息存储于本地；
300.所述服务端11，还用于接收到第二客户端针对所述视频发送的获取请求后，将所述视频的附加显示信息发送至所述第二客户端；
301.所述第二客户端122，用于根据所述附加显示信息，确定与第一对象关联的显示元素、所述显示元素的显示时机及跟随轨迹；所述显示时机到达时，在所述视频的播放画面上，所述显示元素按照所述跟随轨迹跟随所述播放画面上的所述第一对象显示。
302.上述中，第一客户端121和第二客户端122通过网络与服务端11进行通信连接，所述网络包括但不限于：广域网、城域网或局域网等。上述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本实施例对此不作限定。终端可以是任何具有一定计算能力的设备，例如可以是智能手机、笔记本电脑、智能穿戴设备、台式计算机等等；可选地，终端还可以包括一些外围设备，例如键盘、鼠标、输入笔等；其它外围设备在本领域中是众所周知的，在此不做赘述。所述服务端11可以是常用服务器、服务器集群、云端或虚拟服务器等，本实施例对此不作具体限定。
303.图12示出了本技术一实施例提供的数据处理装置的结构框图。如图12 所示，该数据处理装置，包括：确定模块21、获取模块22及显示模块23；其中，
304.确定模块21，用于确定视频中的第一对象；
305.获取模块22，用于获取与所述第一对象关联的显示元素；
306.所述获取模块22，还用于获取所述第一对象在所述视频的播放画面上的第一位置；
307.显示模块23，用于根据所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
308.进一步的，所述确定模块21在确定视频中的第一对象时，具体用于：
309.响应于用户通过交互界面触发的对象选择事件，获取用户选择对象对应的图片；基于所述图片，检测所述视频中与所述图片匹配的所述第一对象；或者
310.响应于用户在所述视频播放画面上的操作，获取所述播放画面上用户操作位置处的画面内容，将所述画面内容作为所述第一对象。
311.进一步的，所述获取模块22在获取与所述第一对象关联的显示元素时，具体用于：
312.响应于用户针对所述第一对象触发的输入事件，获取用户输入的所述显示元素；
313.或者
314.响应于用户针对所述第一对象触发的语音输入，对用户输入的语音信息进行自然语言处理，根据自然语言处理结果，确定所述显示元素。
315.进一步的，本实施例提供的所述装置还可包括发送装置。相应的，所述确定模块21还用于根据所述输入事件针对的所述视频中帧图像的帧标识，确定所述显示元素的显示时机；根据所述第一对象在所述视频的播放画面上的第一位置，确定所述显示元素的跟随轨迹。相应的，所述发送模块用于将所述显示元素、所述显示时机及所述跟随轨迹作为所述视频的附加显示信息发送至服务端，以便至少一个客户端在播放所述视频时获取。
316.进一步的，所述确定模块21在确定视频中的第一对象时，还用于：
317.确定所述视频的第一帧图像中的第一对象；
318.其中，所述第一帧图像是根据所述视频的附加显示内容确定的，或者是用户通过交互界面触发对象选择事件时指定的，或者是用户在所述视频播放画面上操作时对应的帧图像，或是用户在输入与所述第一对象关联的显示元素时指定的。
319.基于此，再进一步所述获取模块22在获取所述第一对象在所述视频的播放画面上的位置时，具体用于：
320.检测所述第一对象在所述第一帧图像中的第一位置；
321.利用目标追踪算法，追踪所述第一对象在所述第一帧图像的后续帧图像中的第一位置；
322.未满足追踪停止条件的情况下，返回追踪到的所述第一对象在第一帧图像后续的至少一帧图像中的第一位置；
323.满足追踪停止条件的情况下，停止对所述第一对象的追踪。
324.具体的，所述追踪条件包括如下中的至少一项：
325.追踪时长到达第三阈值；
326.帧图像无所述第一对象；
327.第一对象在帧图像的播放画面上的面积占播放画面的比例大于或等于第四阈值。
328.基于上述内容可知，所述第一对象在所述视频的播放画面上的第一位置包括：所述第一对象在第一帧图像上的第一位置以及追踪到的所述第一对象在第一帧图像后续的至少一帧图像中的第一位置。相应的，本实施例所述装置中的显示模块23在根据所述第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上，具体用于：
329.根据所述第一对象在所述第一帧图像及所述第一帧图像后续的至少一帧图像中的一目标帧图像的第一位置，确定所述第一对象在该目标帧图像中的轮廓信息；
330.基于所述轮廓信息，确定第二位置；
331.在所述目标帧图像播放画面上的所述第二位置处，显示所述显示元素。
332.在一种具体实施方案中，所述第一对象在所述目标帧图像中的第一位置包括二维框坐标信息。相应的，所述确定模块21在根据所述第一对象在所述目标帧图像中的第一位置，确定所述第一对象在所述目标帧图像中的轮廓信息时，具体用于：
333.从所述目标帧图像中，将所述二维框坐标信息对应框区域内的所述第一对象分割出，得到所述第一对象的所述轮廓信息。
334.本实施例提供的技术方案，在播放视频过程中，在确定第一帧图像中的第一对象之后，可获取与所述第一对象关联的显示元素以及所述第一对象在多帧图像中的第一位置，并根据所述第一对象在所述多帧图像中的第一位置，使所述显示元素跟随所述第一对象显示在视频的多帧图像的播放画面上。现有技术中，与第一对象关联的显示元素是以弹幕形式与视频关联的弹幕信息一起显示在视频的播放画面上的，需要用户从大量弹幕信息中筛选出与第一对象相关的信息，缺乏针对性，易降低用户体验。而本实施例提供的技术方案中与第一对象关联的显示元素是跟随第一对象显示在视频的播放画面上，能够在增加视频内容的趣味性的同时，提高用户参与的积极性与交互性。
335.进一步地，所述显示模块23，用于基于所述轮廓信息，确定第二位置时，具体用于：在所述轮廓信息的周围，生成至少一个候选区；从所述至少一个候选区中，选取一个候选区作为目标区；其中，所述目标区所在位置即用于显示所述显示元素的所述第二位置。
336.进一步地，所述显示模块23，用于在所述轮廓信息的周围，生成至少一个候选区时，具体用于：
337.识别所述目标帧图像中不能遮挡的至少一个第二对象；存在不能遮挡的所述至少一个第二对象时，确定所述至少一个第二对象在所述目标帧图像中所占的区域边界；根
据所述轮廓信息及所述区域边界，确定所述目标帧图像的播放画面上候选区的设置区域；
338.在所述设置区域的面积大于第一阈值时，在所述设置区域内规划候选区的设置方案；其中，所述设置方案包含如下中的至少一项：候选区的数量、候选区的分布方式、候选区的尺寸；
339.按照所述候选区的设置方案，生成所述至少一个候选区。
340.进一步地，所述显示模块23，用于在所述设置区域内规划候选区的设置方案时，具体用于：按照规划规则，在所述设置区域内规划候选区的设置方案；其中，规划规则包括如下中至少一项：候选区的近所述轮廓信息对应轮廓的近点与所述轮廓之间具有第一间距；两相邻候选区之间具有第二间距；候选区的尺寸设置区间；其中，所述尺寸设置区间包括：最小长宽尺寸、最大长宽尺寸。
341.进一步地，所述显示模块23，用于从所述至少一个候选区中，选取一个候选区作为目标区时，具体用于：从所述至少一个候选区中，随机选取一个候选区作为目标区；或者从所述至少一个候选区中，选取与所述显示元素所需显示面积匹配的候选区作为目标区。
342.进一步地，所述显示模块23，用于在所述目标帧图像的播放画面上，所述第二位置处显示所述显示元素时，具体用于：
343.选取的目标区与所述显示元素所需显示面积不匹配时，在所述目标帧图像的播放画面的所述目标区内，滚动显示所述显示元素。
344.进一步地，所述显示模块23，用于在所述设置区域的面积大于第一阈值时，在所述设置区域内规划候选区的设置方案时，还用于：
345.所述设置区域面积小于或等于第一阈值时，放弃在所述目标帧图像的播放画面上显示所述显示元素。
346.进一步地，上述所述装置，还包括：消隐模块，用于所述显示元素跟随所述第一对象显示时长大于第二阈值时，消隐所述显示元素。
347.进一步地，所述第一对象为人脸图像数据；相应地，所述获取模块22，用于获取与所述第一对象关联的显示元素时，具体用于：对所述人脸图像数据进行面部表情分析，得到面部表情结果；根据所述面部表情结果，确定与所述第一对象关联的所述显示元素。
348.进一步地，所述显示模块23，还用于：获取与所述视频关联的弹幕信息；在显示有跟随所述第一对象的显示元素的播放画面上，滚动显示所述弹幕信息。
349.进一步地，上述装置，还包括：开关模块，用于响应于用户的开启操作，启动在视频的播放画面上展现显示元素跟随视频中关联对象的功能。
350.进一步的，所述显示元素为所述第一对象的内心活动信息。相应的，所述获取模块还用于获取针对所述第一对象出现所述内心活动信息的原因。所述显示模块还用于将所述原因与所述内心活动信息关联显示。
351.其中，所述获取模块在获取针对所述第一对象出现所述内心活动信息的原因时具体用于：
352.对所述内心活动信息进行分析，以分析出出现所述内心活动信息的原因；或者
353.获取用户针对所述内心活动信息输入的所述原因；或者
354.获取用户针对所述内心活动信息输入的与所述视频相关的字幕信息。
355.进一步的，与所述第一对象关联的显示元素为多个；多个显示元素是由不同用户
针对所述第一对象发表的。相应的，本实施例提供的所述装置还包括：匹配模块用于对多个显示元素进行匹配。相应的，所述显示模块还用于将所述多个显示元素中具有匹配关系的两个或两个以上的显示元素关联展示。
356.进一步的，所述显示元素包括如下中的至少一项或组合：字符串、表情图、图片。
357.这里需要说明的是：本实施例提供的数据处理装置可实现上述图1示出的数据处理方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述图1示出的数据处理方法实施例中的相应内容，此处不再赘述。
358.图13示出了本技术另一实施例提供的数据处理装置的结构框图。如图 13所示，该数据处理装置，包括：获取模块31、发送模块32、接收模块33 及显示模块34。其中，获取模块31用于获取用户针对视频中第一对象发表的显示元素。所述发送模块32用于向服务端发送针对所述显示元素的发表请求。所述接收模块33用于接收所述服务端通过对象检测及追踪后反馈的所述第一对象在所述视频的播放画面上的第一位置。所述显示模块34用于根据所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
359.进一步的，所述获取模块31在获取用户针对视频中第一对象发表的显示元素时，具体用于：
360.响应于用户通过交互界面触发的对象选择事件，获取用户选择对象对应的图片；基于所述图片，检测出所述视频中与所述图片匹配的所述第一对象；响应于用户针对所述第一对象触发的输入事件，获取所述显示元素；
361.或者
362.响应于用户在所述视频播放画面上的操作，获取所述播放画面上用户操作位置处的画面内容，将所述画面内容作为所述第一对象；响应于用户针对所述第一对象触发的输入事件，获取所述显示元素。
363.这里需要说明的是：本实施例提供的数据处理装置可实现上述数据处理方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容，此处不再赘述。
364.图14示出了本技术又一实施例提供的数据处理装置的结构框图。如图 14所示，该数据处理装置，包括：接收模块41、检测追踪模块42及发送模块43。其中，接收模块41用于接收第一客户端针对视频中第一对象发送的显示元素发表请求。检测追踪模块42用于通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置。发送模块43用于将所述第一对象在所述视频的播放画面上的第一位置发送至第一客户端，以便在所述第一客户端的所述视频播放画面上，所述显示元素跟随所述第一对象显示。
365.进一步的，所述检测追踪模块42在通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置时，具体用于：
366.根据所述显示元素发表请求中携带的帧标识，确定所述视频中的第一帧图像；
367.检测所述第一帧图像中的所述第一对象，得到所述第一对象在所述第一帧图像上的第一位置；
368.追踪所述第一对象在所述第一帧图像的后续帧图像中的第一位置；
369.未满足追踪停止条件的情况下，返回追踪到的所述第一对象在第一帧图像后续
的至少一帧图像中的第一位置；
370.满足追踪停止条件的情况下，停止对所述第一对象的追踪；
371.其中，所述追踪条件包括如下中的至少一项：
372.追踪时长到达第三阈值、帧图像无所述第一对象、第一对象在帧图像的播放画面上的面积占播放画面的比例大于或等于第四阈值。
373.进一步的，本实施例提供的装置还包括确定模块及存储模块。其中，所述确定模块用于根据所述第一帧图像的帧标识，确定所述显示元素的显示时机；还用于根据所述第一对象在所述第一帧图像及所述第一帧图像的后续至少一帧图像中的第一位置，确定所述显示元素的跟随轨迹。存储模块用于将所述显示元素、所述显示元素的显示时机及所述显示元素的跟随轨迹作为所述视频的附加显示信息存储于本地，以便于至少一个第二客户端在播放所述视频时获取。
374.为了便于描述，下面将上文中的第一帧图像及所述第一帧图像的后续至少一帧图像统称为多帧图像。相应的，所述确定模块在根据所述第一对象在多帧图像中的第一位置，确定所述显示元素的跟随轨迹时，具体用于：
375.根据所述第一对象在所述多帧图像中的第一位置，确定所述第一对象在所述多帧图像中的轮廓信息；基于所述第一对象在所述多帧图像中的所述轮廓信息，确定所述多帧图像的各帧图像中用于显示所述显示元素的第二位置；根据所述多帧图像的各帧图像中用于显示所述显示元素的第二位置，得到所述跟随轨迹。
376.这里需要说明的是：本实施例提供的数据处理装置可实现上述数据处理方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容，此处不再赘述。
377.图15示出了本技术又一实施例提供的数据处理装置的结构框图。如图 15所示，该数据处理装置，包括：播放模块51、获取模块52、确定模块53 及显示模块54。其中，播放模块51用于播放视频。获取模块52用于获取与所述视频有关的附加显示信息。确定模块53用于根据所述附加显示信息，确定与第一对象关联的显示元素、所述显示元素的显示时机及跟随轨迹。显示模块54用于在所述显示时机到达时，在所述视频的播放画面上，所述显示元素按照所述跟随轨迹跟随所述播放画面上的所述第一对象显示。
378.进一步的，所述显示时机如下中的至少一种：在视频中的显示时刻、所述视频中需显示所述显示元素的图像帧标识。
379.这里需要说明的是：本实施例提供的数据处理装置可实现上述数据处理方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容，此处不再赘述。
380.图16示出了本技术又一实施例提供的数据处理装置的结构框图。如图 16所示，该数据处理装置，包括：获取模块61及显示模块62。其中，获取模块61用于获取用户针对视频中一人物发表的内心活动信息；还用于获取所述人物在所述视频的播放画面上的位置。显示模块62用于根据所述人物在所述视频的播放画面上的位置，所述内心活动信息跟随所述人物显示在所述视频的播放画面上。
381.进一步的，所述获取模块61在获取所述人物在多帧图像中的位置时，具体用于：
382.向服务端发送针对所述视频第一帧图像中所述人物的内心活动信息发表请求；
接收所述服务端通过人物检测及追踪后反馈的所述人物在所述视频的多帧图像中的位置。
383.这里需要说明的是：本实施例提供的数据处理装置可实现上述数据处理方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容，此处不再赘述。
384.本技术又一实施例提供的数据处理装置，该数据处理装置的结构同上述图16。具体的，该数据处理装置包括：获取模块及显示模块。获取模块用于获取用户针对视频中一物体发表的互动信息；还用于获取所述物体在所述视频的播放画面上的位置。所述显示模块用于根据所述物体在所述视频的播放画面上的位置，所述互动信息跟随所述物体显示在所述视频的播放画面上。
385.这里需要说明的是：本实施例提供的数据处理装置可实现上述数据处理方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述方法实施例中的相应内容，此处不再赘述。
386.图17示出了本技术一实施例提供一个电子设备的结构示意图。如图17所示，所述电子设备包括：存储器701以及处理器702。存储器701可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器701可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
387.所述处理器701，与所述存储器702耦合，用于执行所述存储器702中存储的所述程序，以用于：
388.确定视频的第一帧图像中的第一对象；其中，所述第一帧图像为所述视频中的任一帧图像；
389.确定视频中的第一对象；
390.获取与所述第一对象关联的显示元素；
391.获取所述第一对象在所述视频的播放画面上的第一位置；
392.根据所述第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
393.其中，处理器702在执行存储器701中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。
394.进一步，如图17所示，客户端设备还包括：通信组件703、电源组件704 及显示器705等其它组件。图17中仅示意性给出部分组件，并不意味着客户端设备只包括图17所示组件。
395.本技术一实施例还提供另一个客户端设备，该客户端设备的结构同上述图 17类似。具体的，所述电子设备包括：存储器、处理器及通信组件。存储器用于存储程序。所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：
396.获取用户针对视频中第一对象发表的显示元素；
397.通过所述通信组件向服务端发送针对所述显示元素的发表请求；
398.根据所述服务端通过对象检测及追踪后反馈的所述第一对象在所述视频的播放画面上的第一位置，所述显示元素跟随所述第一对象显示在所述视频的播放画面上。
399.其中，处理器在执行存储器中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。
400.本技术一实施例还提供另一个服务端设备，该服务端设备的结构同上述图 17类似。具体的，所述电子设备包括：存储器、处理器及通信组件。存储器用于存储程序。所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：
401.通过所述通信组件接收第一客户端针对视频中第一对象发送的显示元素发表请求；
402.通过对象检测及追踪技术，确定所述第一对象在所述视频的播放画面上的第一位置；
403.通过所述通信组件将所述第一对象在所述视频的播放画面上的第一位置发送至第一客户端，以便在所述第一客户端的所述视频播放画面上，所述显示元素跟随所述第一对象显示。
404.其中，处理器在执行存储器中的程序时，除了上面的功能之外，还可实现其它功能，具体可参见前面各实施例的描述。
405.本技术一实施例还提供另一个客户端设备，该客户端设备的结构同上述图 17类似。具体的，所述电子设备包括：存储器及处理器。存储器用于存储程序。所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：
406.通过所述显示器播放视频；
407.获取与所述视频有关的附加显示信息；
408.根据所述附加显示信息，确定与第一对象关联的显示元素、所述显示元素的显示时机及跟随轨迹；
409.所述显示时机到达时，在所述视频的播放画面上，所述显示元素按照所述跟随轨迹跟随所述播放画面上的所述第一对象显示。
410.相应地，本技术实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的数据处理方法步骤或功能。
411.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
412.通过以上实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
413.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽
管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种流氓光网络终端的检测方法及光通信装置与流程

数据处理方法、系统、电子设备、服务端及客户端设备与流程

相关文献

最热文献