信息显示方法、装置及电子设备与流程

2021-12-14 22:51:00 来源：中国专利 TAG：

1.本技术属于通信技术领域，具体涉及一种信息显示方法、装置及电子设备。

背景技术：

2.随着通信技术的发展，视频在用户的日常生活中占用的比重也越来越高。通常，对于大多数视频资源，无论是通过语音识别生成字幕，还是人工手打的字幕，字幕均集中显示在屏幕的下方区域。
3.然而，当有听力障碍的用户观看视频时，由于无法听到视频中的人物所说的话，因此即便用户看到在屏幕的下方区域显示的字幕，也不能理解说话人的感情色彩，从而对该用户对视频的理解产生障碍。如此，电子设备显示字幕(即在播放视频过程中讲话者所表述的文本信息)的效果较差。

技术实现要素：

4.本技术实施例的目的是提供一种信息显示方法、装置及电子设备，能够解决电子设备显示字幕的效果较差的问题。
5.为了解决上述技术问题，本技术是这样实现的：
6.第一方面，本技术实施例提供了一种信息显示方法，该方法包括：获取m个文本信息和第一视频段中包括的m个人物角色，一个文本信息为一个人物角色在该第一视频段中表述的信息，m为大于1的整数；分别根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，该情绪信息根据每个人物角色相关的第一信息确定；在播放该第一视频段中与每个人物角色对应的视频画面的过程中，分别按照该每个文本信息的显示方式，显示该每个文本信息；其中，该m个人物角色根据该第一视频段包括的第一视频画面确定；该第一信息包括以下至少一项：语音特征信息、人脸图像特征信息。
7.第二方面，本技术实施例提供了一种信息显示装置，该信息显示装置包括：获取模块、确定模块和显示模块。获取模块，获取m个文本信息和第一视频段中包括的m个人物角色，一个文本信息为一个人物角色在该第一视频段中表述的信息，m为大于1的整数。确定模块，用于分别根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，该情绪信息根据每个人物角色相关的第一信息确定。显示模块，用于在播放该第一视频段中与每个人物角色对应的视频画面的过程中，分别按照确定模块确定的该每个文本信息的显示方式，显示该每个文本信息；其中，该m个人物角色根据该第一视频段包括的第一视频画面确定；该第一信息包括以下至少一项：语音特征信息、人脸图像特征信息。
8.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如上述第一方面中的方法的步骤。
9.第四方面，本技术实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如上述第一方面中的方法的步骤。
10.第五方面，本技术实施例提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如上述第一方面中的方法。
11.在本技术实施例中，可以获取m个文本信息和第一视频段中包括的m个人物角色，一个文本信息为一个人物角色在该第一视频段中表述的信息，m为大于1的整数；分别根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，该情绪信息根据每个人物角色相关的第一信息确定；在播放该第一视频段中与每个人物角色对应的视频画面的过程中，分别按照该每个文本信息的显示方式，显示该每个文本信息；其中，该m个人物角色根据该第一视频段包括的第一视频画面确定；该第一信息包括以下至少一项：语音特征信息、人脸图像特征信息。通过该方案，在获取到m个文本信息和视频段包括的m个人物角色之后，由于可以根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，因此在播放该视频段中与每个人物角色对应的视频画面的过程中，可以分别按照该每个文本信息的显示方式，同步显示该每个文本信息，从而用户可以根据每个文本信息的显示方式，知晓每个人物角色在表述对应的文本信息时的情绪，进而当用户观看视频时便于用户对视频理解。如此，与现有技术相比，避免了当特殊人群(例如，听力障碍的人)因无法听到视频中的人物所说的话时，而对视频的理解产生障碍的问题，即提高了电子设备显示信息(例如字幕)的效果。
附图说明
12.图1为本技术实施例提供的一种信息显示方法的示意图；
13.图2为本技术实施例提供的信息显示方式的示意图；
14.图3为本技术实施例提供的一种信息显示的界面示意图之一；
15.图4为本技术实施例提供的一种信息显示的界面示意图之二；
16.图5为本技术实施例提供的信息显示装置的结构示意图；
17.图6为本技术实施例提供的电子设备的结构示意图；
18.图7为本技术实施例提供的电子设备的硬件示意图。
具体实施方式
19.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
20.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
21.在本技术实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体
方式呈现相关概念。
22.在本技术实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个元件是指两个或者两个以上的元件等。
23.本技术实施例提供一种信息显示方法、装置及电子设备，可以获取m个文本信息和第一视频段中包括的m个人物角色，一个文本信息为一个人物角色在该第一视频段中表述的信息，m为大于1的整数；分别根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，该情绪信息根据每个人物角色相关的第一信息确定；在播放该第一视频段中与每个人物角色对应的视频画面的过程中，分别按照该每个文本信息的显示方式，显示该每个文本信息；其中，该m个人物角色根据该第一视频段包括的第一视频画面确定；该第一信息包括以下至少一项：语音特征信息、人脸图像特征信息。通过该方案，在获取到m个文本信息和视频段包括的m个人物角色之后。由于可以根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，因此在播放该视频段中与每个人物角色对应的视频画面的过程中，可以分别按照该每个文本信息的显示方式，同步显示该每个文本信息，从而用户可以根据每个文本信息的显示方式，知晓每个人物角色在表述对应的文本信息时的情绪，进而当用户观看视频时便于用户对视频理解。如此，与现有技术相比，避免了当特殊人群(例如，听力障碍的人)因无法听到视频中的人物所说的话时，而对视频的理解产生障碍的问题，即提高了电子设备显示信息(例如字幕)的效果。
24.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的信息显示方法、装置及电子设备进行详细地说明。
25.如图1所示，本技术实施例提供一种信息显示方法，该方法包括下述s101至s103。
26.s101、信息显示装置获取m个文本信息和第一视频段中包括的m个人物角色。
27.其中，一个文本信息为一个人物角色在第一视频段中所表述的信息，m为大于1的整数。m个人物角色根据第一视频段包括的第一视频画面确定。
28.可选的，本技术实施例可以应用于播放包括缓存播放第一视频段、即将播放包括第一视频段的视频等场景中，即在这些场景中，均可以获取m个文本信息和第一视频段中包括的m个人物角色。
29.可选的，上述第一视频段可以为电子设备中的一个完整的视频资源，或为任意一个视频资源中的某个视频段，具体可以根据实际使用情况确定，本技术实施例对此不作限定。
30.可选的，在第一视频段不包括语音片段的情况下，m个文本信息为在对第一视频段配音之前获取的，该m个文本信息可以存储在电子设备或服务器中，从而可以从电子设备的本地存储空间中或服务器获取m个文本信息；在第一视频段包括语音片段的情况下，m个文本信息基于该语音片段确定，具体可以参照下述实施例中的详细说明，本技术实施例对此不予赘述。
31.可选的，第一视频画面对应第一视频段中包括的图像数据。第一视频画面可以来自于生命体和非生命体，例如，花、鸟、大海；再例如，小孩、老人等。
32.可选的，上述“m个人物角色根据第一视频段包括的第一视频画面确定”是指：当第一视频画面中识别到人脸特征信息时，可以该第一视频画面中包括的不同的人脸特征信息，确定第一视频段中包括的m个人物角色。其中，不同的人物角色对应不同的人脸特征信
息。
33.进一步地，当第一视频画面中未识别到人脸特征信息时，如果第一视频段中还包括第一语音频段，那么可以根据第一语音片段的声纹信息，确定第一视频段中包括的m个人物角色，具体可以参照下述实施例中的详细描述，本技术实施例对此不予赘述。
34.可选的，第一视频段还包括第一语音片段，第一语音片段的播放时间戳与所述第一视频画面的播放时间戳相匹配。上述s101具体可以包括下述s101a和s101b。
35.s101a、信息显示装置对第一语音片段进行语音识别，得到m个人物角色。
36.可选的，第一语音片段对应第一视频段中包括的音频数据。进一步地，在本技术实施例中，该第一语音片段来自于生命体，例如，老人、小孩、男人、女人等。
37.可选的，在本技术实施例中，播放时间戳是指播放一段语音或一个视频画面的起始时间和终止时间。具体地，可以通过语音端点检测技术，判断一段视频中人声开始的时间和人声结束的时间，即人声开始的时间和人声结束的时间为播放时间戳。
38.需要说明的是，在本技术实施例中，第一语音片段的播放时间戳与第一视频画面的播放时间戳相匹配是指：第一语音片段的播放时间戳与第一视频画面的播放时间戳相同。即第一语音片段对应的第一音频帧的播放时间戳与第一视频画面对应的第一视频帧的播放时间戳相同、且第一语音片段对应的最后一个音频帧的播放时间戳与第一视频画面对应的最后一个视频帧的播放时间戳相同。
39.具体地，上述s101a具体可以通过下述s101a1和s101a2实现；或者，通过s101a1和s101a3实现。即s101a2和s101a3择一执行。
40.s101a1、信息显示装置确定第一语音片段中包括的m个声纹信息。
41.其中，一个声纹信息用于指示一个人物角色。
42.可选的，声纹信息可以包括以下至少一项：音色、音高、节奏、音强等。其中，音色、音高、节奏、音强均用于指示声音的特征，
43.需要说明的是，对于不同的发声体、其音色、音高、节奏、音强均可能不同。因此可以通过声纹信息，确定第一语音片段中包括的人物角色。
44.s101a2、在n个预设声纹信息包括该m个声纹信息的情况下，信息显示装置根据该m个声纹信息，从n个预设人物角色中选择与该m个声纹信息对应的预设人物角色，作为m个人物角色。
45.其中，一个预设声纹信息对应一个预设人物角色。
46.需要说明的是，由于电子设备中存储有n个预设声纹信息和n个预设人物角色，一个预设声纹信息对应一个预设人物角色，因此当n个预设声纹信息中包括m个声纹信息时，说明与该m个声纹信息对应的m个人物角色已经说过话，即该m个人物角色为第一语音片段中已经出现过的角色，从而可以从n个预设人物角色中选择与m个声纹信息对应的预设人物角色，作为m个人物角色。
47.s101a3、在n个预设声纹信息不包括m个声纹信息的情况下，信息显示装置根据该m个声纹信息，创建m个人物角色。
48.其中，一个人物角色对应一个声纹信息。
49.需要说明的是，由于电子设备中预先存储有n个预设声纹信息和n个预设人物角色，一个预设声纹信息对应一个预设人物角色，因此当n个预设声纹信息中不包括m个声纹
信息时，说明与该m个声纹信息对应的m个人物角色还未说过话，即该m个人物角色为第一语音片段中还未出现的角色，从而可以根据该m个声纹信息，创建m个人物角色，即m个人物角色为新人物角色。
50.可选的，在上述s101a3之后，本技术实施例提供的信息显示方法还可以包括：信息显示装置保存m个声纹信息。如此，在更新数据库中存储的声纹信息之后，当再次出现与m个声纹信息匹配的声纹信息时，便于确认该声纹信息对应的人物角色。
51.可以理解的是，由于不同的人物角色具备不同的声纹信息，因此通过第一语音片段中包括的m个声纹信息，可以确定第一视频段中包括的m个人物角色，从而便于进一步得到m个文本信息。
52.s101b、信息显示装置根据该m个人物角色，对第一语音片段分割，得到m个文本信息。
53.其中，一个文本信息对应m个人物角色中的一个人物角色。
54.具体地，由于m个人物角色中每个人物角色的声纹信息不同，因此在对第一语音片段进行语音识别的过程中，可以根据识别到的不同声纹信息，将第一语音片段分割为m个语音片段，在将每个语音片段包括的语音信息转换为文本信息，即得到m个文本信息。
55.可以理解的是，由于通过对第一语音片段进行语音识别，得到第一语音片段包括的m个人物角色，并根据该m个人物角色，对第一语音片段分割，得到m个文本信息，因此可以确定每个人物角色对应的文本信息，即对每个人物角色所表述的信息进行了分割。
56.s102、信息显示装置分别根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式。
57.其中，情绪信息为根据与每个人物角色相关的第一信息确定的。
58.可选的，情绪信息用于反映每个人物角色的情绪。进一步地，显示方式用于指示每个人物角色在表述对应的文本信息时的情绪。
59.示例性的，情绪信息可以包括以下至少一项：高兴、生气、悲伤、欢乐等。
60.需要说明的是，由于每个人物角色的情绪信息，决定了与每个人物角色对应的每个文本信息的显示方式，因此当每个人物角色的情绪信息均不同时，与每个人物角色对应的每个文本信息的显示方式也均不同；当其中任意的一些人物角色的情绪信息相同时，与这些人物角色中每个人物角色的情绪信息对应的每个文本信息的显示方式也相同。
61.可选的，显示方式可以包括以下至少一项：显示颜色、显示形状、显示区域、显示尺寸、等。具体根据实际使用情况确定，本技术实施例对此不作限定。
62.例如，当一个人物角色的情绪信息为正常陈述时，文本信息的显示方式为：如图2中的(a)所示的浮窗显示形状；当一个人物角色的情绪信息为高兴时，文本信息的显示方式为：如图2中的(b)所示的浮窗显示形状；当一个人物角色的情绪信息为惊讶或激动时，文本信息的显示方式为：如图2中的(c)所示的浮窗显示形状；当一个人物角色的情绪信息为旁白陈述时，文本信息的显示方式为：如图2中的(d)所示的浮窗显示形状。
63.可选的，在上述s101之后，上述s102之前，本技术实施例提供的信息显示方法还可以包括：信息显示装置对每个人物角色相关的第一信息分析，得到每个人物角色的情绪信息。第一信息包括以下至少一项：语音特征信息、人脸特征信息。
64.可选的，语音特征信息可以包括以下至少一项：语音的语义、语音的声调、语音中
的语气词。
65.示例性的，以语音特征信息为语音的语义为例，对第一语音片段进行语音识别后，得到文本信息，然后再提取该文本信息中的一些关键信息，对该一些关键信息进行识别，从而得到第一语音片段所表述的文本信息的含义，即语音的语义。可以理解的是，不同语义的语音，所体现出的人物角色表述该语音时的情绪也不同。
66.示例性的，以语音特征信息为语音的声调为例，声调可以包括阴平、阳平、上声和去声这四个声调。其中，不同的音调，声音语言所表达的含义也不近相同，从而可以根据声调变化，判断人物角色的情绪变化。可以理解，上述声调用于指示人物角色讲话时的声音音调的变化。
67.示例性的，以语音特征信息为语音中的语气词为例，该语气词可以为“啊、吗、吧”。其中，当人物角色使用不同的语气词时，该人物角色的情绪也不同。
68.可选的，人脸特征信息为从第一视频画面中获取的。具体地，人脸特征信息可以包括：人脸图像的五官特征信息人脸图像的微表情信息和人脸图像的微动作信息。其中，微表情信息反映了人物角色的情绪变化，微动作信息主要是指人脸嘴唇部位的开合。
69.进一步地，当对于第一视频画面进行人脸图像识别时，不同的人脸图像，对应的人脸特征信息也不同，从而可以通过人脸特征信息确定对应的人物角色。
70.例如，以第一信息为语音特征信息为例，如果一段语音中的语音的声调为上升的，那么情绪信息为“激动”；再例如，例如，以第一信息为人脸特征信息为例，如果一个视频画面中的人脸出现哭泣的表情，那么情绪信息为“悲伤”。
71.可以理解的是，在第一信息为语音特征信息的情况下，即第一视频画面中不包括人脸特征信息，从而仅可以通过对语音特征信息的分析，判定每个人物角色的情绪信息；在第一信息包括语音特征信息和人脸特征信息的情况下，即第一视频画面中包括人脸特征信息，从而可以通过对语音特征信息和人脸特征信息的分析，共同判定每个人物角色的情绪信息。如此，既可以保证在不同场景下均可以得到每个人物角色的情绪信息，又可以确定每个人物角色的情绪信息的准确性。
72.s103、在播放该第一视频段中与每个人物角色对应的视频画面的过程中，信息显示装置分别按照该每个文本信息的显示方式，显示该每个文本信息。
73.可选的，上述s103中“与每个人物角色对应的视频画面”是指：在这个视频画面中，可以识别到这个人物角色对应的人脸图像的微表情或微动作，即只有这个人物角色在讲话。
74.需要说明的是，本技术实施例中，当每个文本信息上屏显示时，该每个文本信息可称为字幕。
75.例1，以m＝2，信息显示装置为手机为例。手机获取到文本信息1、文本信息2和第一视频段中包括的两个人物角色。其中，这两个人物角色分别为：speaker_1和speaker_2。然后，手机分别根据speaker_1的情绪信息：高兴，确定与该speaker_1对应的文本信息1的显示方式为：如图2中的(b)；根据speaker_2的情绪信息：激动，确定与该speaker_2对应的文本信息2的显示方式为：如图2中的(c)。之后，在手机播放第一视频段中与speaker_1对应的视频画面的过程中，按照如图2中的(b)所示的浮窗显示形状，显示文本信息1；且在手机播放第一视频段中与speaker_2对应的视频画面的过程中，按照如图2中的(c)所示的浮窗显
示形状，显示文本信息2。
76.需要说明的是，上述s101至s103仅为在播放一个完整视频中的某一个视频段时采用的信息显示方法，可以理解的是，在播放一个完整视频的过程中，可以循环执行s101至s103中提供的信息显示方法，从而每当视频中的人物角色讲话时，可以按照与这个人物角色当前的情绪匹配的显示方式，同步显示出该人物角色讲话的内容(即字幕)，如此，便于可以更好地观看视频。
77.可选的，上述s103具体可以通过下述s103a实现。
78.s103a、在播放第一视频段中与每个人物角色对应的视频画面的过程中，信息显示装置分别按照每个文本信息的显示方式，在屏幕中的目标区域悬浮显示与每个人物角色对应的文本信息。
79.其中，在m个人物角色与第一视频画面不匹配的情况下，目标区域位于屏幕中的预设区域；在m个人物角色与第一视频画面匹配的情况下，目标区域为与每个人物角色在屏幕中的显示区域相邻的显示区域中、满足预设条件的区域。
80.可选的，上述预设区域可以为电子设备的厂商出厂时设置的，或为用于自定义设置的。
81.示例性的，上述预设区域为位于屏幕中四个角落的显示区域，该显示区域可以为左上角显示区域、右上角显示区域、左下角显示区域、右下角显示区域。
82.可选的，对于上述m个人物角色与第一视频画面不匹配，具体可以包括：(1)在第一视频画面中未识别到与m个人物角色对应的人脸特征信息；(2)在第一视频画面中识别到的人脸特征信息与m个人物角色不对应。即m个人物角色作为对第一视频画面的解说，即第一语音片段为第一视频画面的旁白解说。
83.示例性的，假设m＝1：在播放如图3所示的视频画面的过程中，由于这1个人物角色对该视频画面进行解说，因此在屏幕中位于右上角的显示区域01悬浮显示文本信息“这天，小狗遇到了它的朋友”。
84.可选的，对于上述m个人物角色与第一视频画面匹配，具体可以包括：在第一视频画面中识别到与m个人物角色对应的人脸特征信息。
85.可选的，上述预设条件可以包括：布景最少、未出现重要布景等。
86.示例性的，在播放如图4所示的视频画面的过程中，由于人物角色02与该视频画面匹配，因此在屏幕中与人物角色02的显示区域相邻的、且未出现重要布景的显示区域03，悬浮显示与该人物角色02对应的文本信息“哇，你真的考上了xx学校啊！”。
87.可以理解的是，由于可以在m个人物角色与第一视频画面不匹配的情况下，在屏幕中的预设区域，分别按照每个文本信息的显示方式，悬浮显示与每个人物角色对应的文本信息；或者，在m个人物角色与第一视频画面匹配的情况下，在屏幕中与每个人物角色在屏幕中的显示区域相邻的显示区域中、满足预设条件的区域，分别按照每个文本信息的显示方式，悬浮显示与每个人物角色对应的文本信息，因此可以根据实际情况，在屏幕中选出合理的显示区域，用于显示与每个人物角色对应的文本信息，从而使得字幕的显示方式变得更加丰富多彩。如此，不仅使得字幕的风格和特色更加鲜明，也使得用户观看视频过程中更加有代入感。
88.本技术实施例提供一种信息显示方法，在获取到m个文本信息和视频段包括的m个
人物角色之后。由于可以根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，因此在播放该视频段中与每个人物角色对应的视频画面的过程中，可以分别按照该每个文本信息的显示方式，同步显示该每个文本信息，从而用户可以根据每个文本信息的显示方式，知晓每个人物角色在表述对应的文本信息时的情绪，进而当用户观看视频时便于用户对视频理解。如此，与现有技术相比，避免了当特殊人群(例如，听力障碍的人)因无法听到视频中的人物所说的话时，而对视频的理解产生障碍的问题，即提高了电子设备显示信息(例如字幕)的效果。
89.可选的，第一视频段还包括第一语音片段，第一语音片段的播放时间戳与所述第一视频画面的播放时间戳相匹配；m个文本信息基于该第一语音片段确定。在上述s101还可以具体通过下述s104至s106实现。
90.s104、信息显示装置对第一视频画面进行人脸图像识别，得到m个人脸特征信息。
91.其中，一个人物角色对应一个人脸特征信息。
92.可选的，对于人脸特征信息的描述可以参照上述实施例中的详细说明，本技术实施例对此不作限定。
93.可以理解的是，由于一个人脸特征信息可以用于表征第一视频画面中一个人脸图像的人脸特征，因此当得到m个人脸特征信息时，可以确定第一视频画面中包括m个人脸图像。一个人脸特征信息用于指示一个人脸图像，该一个人脸图像对应一个人物角色，即一个人物角色对应一个人脸特征信息。
94.s105、信息显示装置根据该m个人脸特征信息，对该第一视频画面分割，得到m个视频画面。
95.其中，一个视频画面包括至少一个人物角色。
96.具体地，由于人脸特征信息包括人脸图像的微动作信息和微表情信息，因为可以根据不同人脸图像在不同时间段出现的微动作和微表情，对该第一视频画面分割，得到m个视频画面。
97.进一步地，m个视频画面中的每个视频画面包括多帧连续的视频画面。
98.s106、信息显示装置按照该m个视频画面中的目标视频画面的第一播放时间戳和该目标视频画面中的目标人脸特征信息，确定目标人物角色，以得到m个人物角色。
99.其中，目标人物角色在第一语音片段中对应的语音片段的第二播放时间戳与第一播放时间戳相匹配。目标视频画面为：m个视频画面中的任一个视频画面；目标人物角色为：该目标人脸特征信息对应的人物角色。
100.可选的，由于人脸特征信息包括人脸五官特征信息、微动作信息和微表情信息，因此m个视频画面中的任意一个视频画面的播放时间戳可以由该视频画面中人脸特征信息的出现时间和消失时间确定。进一步地，由于不同的人脸特征信息，其出现时间和消失时间也均不同，因此m个视频画面中的每个视频画面的播放时间戳均不同。
101.可选的，目标视频画面中可以包括多个人脸图像。目标人脸特征信息为多个人脸图像中出现微表情或微动作的目标人脸图像的人脸特征信息。
102.需要说明的是，由于目标视频画面为m个视频画面中的任一个视频画面，因此可以根据每个视频画面的时间戳和该每个视频画面中的人脸特征信息，确定出m个人物角色。
103.可选的，在上述s106之后，本技术实施例提供的信息显示方法还可以包括：信息显
示装置存储目标视频画面中的目标人脸特征信息与目标人物角色的对应关系。如此，便于之后直接通过一个人物角色的声纹信息匹配与其对应的人脸特征信息。
104.例2，结合上述实施例中的例1。手机对第一视频画面进行人脸图像识别，得到2个人脸特征信息；根据该2个人脸特征信息，对第一视频画面分割，得到2个视频画面，这2个视频画面分别为11
‑
13秒之间的视频画面1和13
‑
15秒之间的视频画面2。手机可以根据视频画面1的播放时间戳和视频画面1中的face_a的人脸特征信息，确定人物角色speaker_1；并根据视频画面2的播放时间戳和视频画面2中的face_b的人脸特征信息，确定人物角色speaker_2。其中，speaker_1在第一语音片段中对应的语音片段的时间戳在11
‑
13秒之间，speaker_2在第一语音片段中对应的语音片段的时间戳在13
‑
15秒之间。
105.如此，可以匹配视频画面包括的人物角色与语音片段中的人物角色，进而使得每个人物角色对应的文本信息与每个视频画面同步。
106.需要说明的是，一种可能的情况下，当第一视频画面中包括人脸图像时，可以执行上述s104至s106；另一种可能的情况下，当第一视频画面中包括不人脸图像时，即不执行上述s104至s106；再一种可能的情况下，当第一视频画面中包括人脸图像、且人脸图像未出现微动作或微表情时，即第一语音片段为第一视频画面的旁白说明，从而不执行上述s104至s106。
107.本技术实施例提供的信息显示方法，可以对第一视频画面进行人脸图像识别，得到m个人脸特征信息，并根据该m个人脸特征信息，对第一视频画面分割，得到m个视频画面，以及按照该m个视频画面中的目标视频画面的第一播放时间戳和该目标视频画面中的目标人脸特征信息，确定目标人物角色，以得到m个人物角色，从而可以将视频画面包括的人物角色与语音片段中的人物角色匹配起来，进而使得每个人物角色对应的文本信息与每个视频画面同步。
108.需要说明的是，本技术实施例提供的信息显示方法，执行主体可以为信息显示装置(例如，该信息显示装置可以为电子设备或电子设备上的外接设备)，或者该信息显示装置中的用于执行信息显示方法的控制模块。本技术实施例中以信息显示装置执行信息显示方法为例，说明本技术实施例提供的信息显示装置。
109.如图5所示，本技术实施例提供一种信息显示装置200，该信息显示装置包括获取模块201、确定模块202和显示模块203。获取模块201，获取m个文本信息和第一视频段中包括的m个人物角色，一个文本信息为一个人物角色在该第一视频段中表述的信息，m为大于1的整数。确定模块202，用于分别根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，该情绪信息为根据与每个人物角色相关的第一信息确定。显示模块203，用于在播放该第一视频段中与每个人物角色对应的视频画面的过程中，分别按照确定模块202确定的该每个文本信息的显示方式，显示该每个文本信息；其中，该m个人物角色根据该第一视频段包括的第一视频画面确定；该第一信息包括以下至少一项：语音特征信息、人脸图像特征信息。
110.可选的，第一视频段还包括第一语音片段，第一语音片段的播放时间戳与第一视频画面的播放时间戳相匹配。获取模块，具体用于对第一语音片段进行语音识别，得到m个人物角色；并根据该m个人物角色，对该第一语音片段对应的文本信息分割，得到m个文本信息，一个文本信息对应该m个人物角色中的一个人物角色。
111.可选的，确定模块，还用于确定第一语音片段中包括的m个声纹信息；获取模块，具体用于在n个预设声纹信息包括该m个声纹信息的情况下，根据该m个声纹信息，从n个预设人物角色中选择与该m个声纹信息对应的预设人物角色，作为所述m个人物角色，一个预设声纹信息对应一个预设人物角色；或者，在n个预设声纹信息不包括该m个声纹信息的情况下，根据该m个声纹信息，创建m个人物角色，一个人物角色对应一个声纹信息；其中，n为大于或等于m的整数。
112.可选的，第一视频段还包括第一语音片段，该第一语音片段的播放时间戳与第一视频画面的播放时间戳相匹配，m个文本信息基于该第一语音片段确定。获取模块，具体用于对第一视频画面进行人脸图像识别，得到m个人脸特征信息，一个人物角色对应一个人脸特征信息；并根据该m个人脸特征信息，对该第一视频画面分割，得到m个视频画面，一个视频画面包括至少一个人物角色；以及按照该m个视频画面中的目标视频画面的第一播放时间戳和该目标视频画面中的目标人脸特征信息，确定目标人物角色，以得到m个人物角色，该目标人物角色在第一语音片段中对应的语音片段的第二播放时间戳与该第一播放时间戳相匹配；其中，该目标视频画面为：m个视频画面中的任一个视频画面；目标人物角色为：该目标人脸特征信息对应的人物角色。
113.可选的，确定模块，还用于对每个人物角色相关的第一信息进行分析，得到该每个人物角色的情绪信息。
114.可选的，显示模块，具体用于分别按照每个文本信息的显示方式，在屏幕中的目标区域悬浮显示与每个人物角色对应的文本信息；其中，在m个人物角色与第一视频画面不匹配的情况下，目标区域位于屏幕中的预设区域；在m个人物角色与第一视频画面匹配的情况下，目标区域为与每个人物角色在屏幕中的显示区域相邻的显示区域中、满足预设条件的区域。
115.本技术实施例提供一种信息显示装置，在获取到m个文本信息和视频段包括的m个人物角色之后。由于可以根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，因此在播放该视频段中与每个人物角色对应的视频画面的过程中，可以分别按照该每个文本信息的显示方式，同步显示该每个文本信息，从而用户可以根据每个文本信息的显示方式，知晓每个人物角色在表述对应的文本信息时的情绪，进而当用户观看视频时便于用户对视频理解。如此，与现有技术相比，避免了当特殊人群(例如，听力障碍的人)因无法听到视频中的人物所说的话时，而对视频的理解产生障碍的问题，即提高了电子设备显示信息(例如字幕)的效果。
116.本技术实施例中的信息显示装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra
‑
mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
117.本技术实施例中的信息显示装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本技术实施
例不作具体限定。
118.本技术实施例提供的信息显示装置能够实现图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。
119.可选的，如图6所示，本技术实施例还提供一种电子设备300，包括处理器301，存储器302，存储在存储器302上并可在处理器301上运行的程序或指令，该程序或指令被处理器301执行时实现上述信息显示方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
120.需要注意的是，本技术实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
121.图7为实现本技术实施例的一种电子设备的硬件结构示意图。
122.该电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。
123.本领域技术人员可以理解，电子设备400还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
124.其中，处理器410，获取m个文本信息和第一视频段中包括的m个人物角色，一个文本信息为一个人物角色在该第一视频段中表述的信息，m为大于1的整数；并分别根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，该情绪信息为根据与每个人物角色相关的第一信息确定。显示单元406，用于在播放该第一视频段中与每个人物角色对应的视频画面的过程中，分别按照该每个文本信息的显示方式，显示该每个文本信息；其中，该m个人物角色根据该第一视频段包括的第一视频画面确定；该第一信息包括以下至少一项：语音特征信息、人脸图像特征信息。
125.可选的，第一视频段还包括第一语音片段，第一语音片段的播放时间戳与第一视频画面的播放时间戳相匹配。处理器410，具体用于对第一语音片段进行语音识别，得到m个人物角色；并根据该m个人物角色，对该第一语音片段对应的文本信息分割，得到m个文本信息，一个文本信息对应该m个人物角色中的一个人物角色。
126.可选的，处理器410，还用于确定第一语音片段中包括的m个声纹信息；并在n个预设声纹信息包括该m个声纹信息的情况下，根据该m个声纹信息，从n个预设人物角色中选择与该m个声纹信息对应的预设人物角色，作为m个人物角色，一个预设声纹信息对应一个预设人物角色；或者，在n个预设声纹信息不包括该m个声纹信息的情况下，根据该m个声纹信息，创建m个人物角色，一个人物角色对应一个声纹信息；其中，n为大于或等于m的整数。
127.可选的，第一视频段还包括第一语音片段，该第一语音片段的播放时间戳与第一视频画面的播放时间戳相匹配，m个文本信息基于该第一语音片段确定。处理器410，用于对第一视频画面进行人脸图像识别，得到m个人脸特征信息，一个人物角色对应一个人脸特征信息；并根据该m个人脸特征信息，对该第一视频画面分割，得到m个视频画面，一个视频画面包括至少一个人物角色；以及按照该m个视频画面中的目标视频画面的第一播放时间戳
和该目标视频画面中的目标人脸特征信息，确定目标人物角色，以得到m个人物角色，该目标人物角色在第一语音片段中对应的语音片段的第二播放时间戳与该第一播放时间戳相匹配；其中，该目标视频画面为：m个视频画面中的任一个视频画面；该目标人物角色为：该目标人脸特征信息对应的人物角色。
128.可选的，处理器410，还用于对每个人物角色相关的第一信息进行分析，得到该每个人物角色的情绪信息。
129.可选的，显示单元406，具体用于分别按照每个文本信息的显示方式，在屏幕中的目标区域悬浮显示与每个人物角色对应的文本信息；其中，在m个人物角色与第一视频画面不匹配的情况下，目标区域位于屏幕中的预设区域；在m个人物角色与第一视频画面匹配的情况下，目标区域为与每个人物角色在屏幕中的显示区域相邻的显示区域中、满足预设条件的区域。
130.本技术实施例提供一种电子设备，在获取到m个文本信息和视频段包括的m个人物角色之后。由于可以根据每个人物角色的情绪信息，确定与每个人物角色对应的每个文本信息的显示方式，因此在播放该视频段中与每个人物角色对应的视频画面的过程中，可以分别按照该每个文本信息的显示方式，同步显示该每个文本信息，从而用户可以根据每个文本信息的显示方式，知晓每个人物角色在表述对应的文本信息时的情绪，进而当用户观看视频时便于用户对视频理解。如此，与现有技术相比，避免了当特殊人群(例如，听力障碍的人)因无法听到视频中的人物所说的话时，而对视频的理解产生障碍的问题，即提高了电子设备显示信息(例如字幕)的效果。
131.应理解的是，本技术实施例中，输入单元404可以包括图形处理器(graphicsprocessing unit，gpu)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器409可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。
132.本技术实施例还提供一种可读存储介质，该可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述信息显示方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
133.其中，处理器为上述实施例中电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等。
134.本技术实施例另提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述信息显示方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
135.应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
136.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
137.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例中的方法。
138.上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：定时器控制方法及系统、可读存储介质与流程

信息显示方法、装置及电子设备与流程

相关文献

最热文献