事件识别方法、装置、电子设备及存储介质与流程

2023-02-01 23:53:13 来源：中国专利 TAG：

1.本公开涉及互联网技术领域，尤其涉及一种事件识别方法、装置、电子设备及存储介质。

背景技术：

2.随着视频产业的快速发展，越来越多的视频被分享至各种新媒体平台，以供他人观看。然而，对于一些时长较长的视频，该视频中存在大量平淡时刻，并不适合进行分享。因此急需一种事件识别方法，来识别视频中的精彩片段，以进行精彩片段的集锦。

技术实现要素：

3.本公开提供一种事件识别方法、装置、电子设备及存储介质，该方法得到的目标事件信息在保证了全面性的同时还具有较高的准确性。本公开的技术方案如下：
4.根据本公开实施例的第一方面，提供一种事件识别方法，所述方法包括：
5.获取视频中的多帧图像和音频，所述视频为展示目标场景的视频；
6.基于所述多帧图像，进行图像事件识别，得到至少一个第一事件信息，每个第一事件信息用于指示一个图像事件和所述图像事件的发生时间点；
7.基于所述音频，进行音频事件识别，得到至少一个第二事件信息，每个第二事件信息用于指示一个音频事件和所述音频事件的发生时间段；
8.对所述至少一个第一事件信息和所述至少一个第二事件信息进行融合，得到至少一个目标事件信息，每个目标事件信息用于指示一个目标事件和所述目标事件的发生时间段。
9.在一些实施例中，所述对所述至少一个第一事件信息和所述至少一个第二事件信息进行融合，得到至少一个目标事件信息，包括：
10.对于每个第一事件信息，在至少一个音频事件中包括与所述第一事件信息所指示的图像事件匹配的目标音频事件的情况下，对所述第一事件信息进行处理，得到目标事件信息，音频事件与图像事件匹配指音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配；或者，
11.对于每个第二事件信息，在至少一个图像事件中包括与所述第二事件信息所指示的音频事件匹配的目标图像事件的情况下，对所述目标图像事件对应的第一事件信息进行处理，得到目标事件信息。
12.在一些实施例中，所述对所述第一事件信息进行处理，得到目标事件信息，包括：
13.基于所述第一事件信息所指示的图像事件的发生时间点，确定目标时间段，所述第一事件信息所指示的图像事件的发生时间点为所述目标时间段中的一个时间点；
14.将所述第一事件信息所指示的图像事件作为所述目标事件信息所指示的目标事件，将所述目标时间段作为所述目标事件信息所指示的目标事件的发生时间段。
15.在一些实施例中，所述多帧图像从终端获取，所述基于所述多帧图像，进行图像事
件识别，得到至少一个第一事件信息，包括：
16.响应于接收到所述终端发送的所述多帧图像中的前n帧图像，确定所述目标场景的场景类型，所述n为大于等于1的整数；
17.基于所述多帧图像和所述场景类型，进行图像事件识别，得到所述至少一个第一事件信息。
18.在一些实施例中，所述基于所述多帧图像，进行图像事件识别，得到至少一个第一事件信息，包括：
19.对于所述多帧图像中相邻的任意两帧图像，将所述两帧图像进行比对，在所述两帧图像的事件分值发生变化的情况下，从所述视频中获取所述两帧图像的中心图像，所述两帧图像的中心图像的时间戳为所述两帧图像的时间戳的均值，所述事件分值用于指示图像事件的发生次数；
20.将所述两帧图像的中心图像分别与所述两帧图像中的任一帧图像组成相邻的任意两帧图像，重复执行上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，且基于获取的中心图像所组成的相邻的任意两帧图像的时间戳之差小于预设差值，将发生变化的事件分值对应的图像事件作为所述第一事件信息所指示的图像事件，将基于获取的中心图像所组成的相邻的任意两帧图像的时间戳的均值作为所述第一事件信息所指示的图像事件的发生时间点。
21.在一些实施例中，确定所述两帧图像的事件分值发生变化的过程，包括：
22.分别对所述两帧图像进行特征提取，得到所述两帧图像各自的第一事件分值和第二事件分值；
23.在所述第二事件分值与所述第一事件分值不同的情况下，确定所述两帧图像的事件分值发生变化。
24.在一些实施例中，所述基于所述多帧图像，进行图像事件识别，得到至少一个第一事件信息，包括：
25.对所述多帧图像分别进行文本识别；
26.在任一帧图像的文本识别结果与目标文本匹配的情况下，将所述目标文本对应的图像事件作为所述第一事件信息所指示的图像事件，将所述图像的时间戳作为所述第一事件信息所指示的图像事件的发生时间点。
27.在一些实施例中，所述视频为录制视频或直播视频，所述直播视频中的多帧图像的抽帧率大于所述录制视频中的多帧图像的抽帧率，且所述直播视频中的音频的采样率大于所述录制视频中的音频的采样率。
28.在一些实施例中，所述事件识别方法还包括：
29.基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信息所指示的目标事件的发生时间段匹配。
30.在一些实施例中，所述事件识别方法还包括：
31.将所述至少一个目标事件信息发送给终端，所述终端用于接收所述至少一个目标事件信息，基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信
息所指示的目标虚拟事件的发生时间段匹配。
32.根据本公开实施例的第二方面，提供一种事件识别方法，所述方法包括：
33.提取视频中的多帧图像和音频，所述视频为展示目标场景的视频；
34.将所述多帧图像和所述音频发送给服务器，所述服务器用于接收所述多帧图像和所述音频，基于所述多帧图像，进行图像事件识别，得到至少一个第一事件信息，基于所述音频，进行音频事件识别，得到至少一个第二事件信息，对所述至少一个第一事件信息和所述至少一个第二事件信息进行融合，得到至少一个目标事件信息；
35.每个第一事件信息用于指示一个图像事件和所述图像事件的发生时间点，每个第二事件信息用于指示一个音频事件和所述音频事件的发生时间段，每个目标事件信息用于指示一个目标事件和所述目标事件的发生时间段。
36.在一些实施例中，所述提取视频中的多帧图像，包括：
37.基于预设时间间隔，从所述视频中提取图像，得到多帧原始图像；
38.对所述多帧原始图像分别进行裁剪，得到所述多帧图像，所述多帧图像分别为所述多帧原始图像的目标检测区域的图像，所述目标检测区域用于确定是否发生图像事件。
39.在一些实施例中，所述事件识别方法还包括：
40.接收所述服务器发送的所述至少一个目标事件信息；
41.基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信息所指示的目标虚拟事件的发生时间段匹配。
42.在一些实施例中，确定所述至少一个目标子片段的过程，包括：
43.基于所述至少一个目标事件信息，从所述视频中确定至少一个原始子片段，所述至少一个原始子片段的起止时间分别为所述至少一个目标事件信息所指示的目标虚拟事件的发生时间段的起止时间；
44.在属于同一事件类别的原始子片段的数目大于所述事件类别对应的预设数目的情况下，从属于所述事件类别的原始子片段中筛选出所述预设数目的原始子片段，将筛选出的原始子片段作为目标子片段；
45.在属于同一事件类别的原始子片段的数目不大于所述事件类别对应的预设数目的情况下，将所述事件类别的原始子片段作为目标子片段。
46.在一些实施例中，所述基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，包括：
47.获取预设视频模板，所述预设视频模板用于指示对所述至少一个目标子片段的剪辑方式；
48.基于所述预设视频模板，对所述至少一个目标子片段进行混剪、渲染和配乐，得到所述剪辑视频。
49.根据本公开实施例的第三方面，提供一种事件识别装置，所述装置包括：
50.获取单元，被配置为获取视频中的多帧图像和音频，所述视频为展示目标场景的视频；
51.图像事件识别单元，被配置为基于所述多帧图像，进行图像事件识别，得到至少一个第一事件信息，每个第一事件信息用于指示一个图像事件和所述图像事件的发生时间
点；
52.音频事件识别单元，被配置为基于所述音频，进行音频事件识别，得到至少一个第二事件信息，每个第二事件信息用于指示一个音频事件和所述音频事件的发生时间段；
53.信息融合单元，被配置为对所述至少一个第一事件信息和所述至少一个第二事件信息进行融合，得到至少一个目标事件信息，每个目标事件信息用于指示一个目标事件和所述目标事件的发生时间段。
54.在一些实施例中，所述信息融合单元，被配置为对于每个第一事件信息，在多个音频事件中包括与所述第一事件信息所指示的图像事件匹配的目标音频事件的情况下，对所述第一事件信息进行处理，得到目标事件信息，音频事件与图像事件匹配指音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配；或者，对于每个第二事件信息，在至少一个图像事件中包括与所述第二事件信息所指示的音频事件匹配的目标图像事件的情况下，对所述目标图像事件对应的第一事件信息进行处理，得到目标事件信息。
55.在一些实施例中，所述信息融合单元，被配置为基于所述第一事件信息所指示的图像事件的发生时间点，确定目标时间段，所述第一事件信息所指示的图像事件的发生时间点为所述目标时间段中的一个时间点；
56.将所述第一事件信息所指示的图像事件作为所述目标事件信息所指示的目标事件，将所述目标时间段作为所述目标事件信息所指示的目标事件的发生时间段。
57.在一些实施例中，所述多帧图像从终端获取，所述图像事件识别单元，被配置为响应于接收到所述终端发送的所述多帧图像中的前n帧图像，确定所述目标场景的场景类型，所述n为大于等于1的整数；
58.基于所述多帧图像和所述场景类型，进行图像事件识别，得到所述至少一个第一事件信息。
59.在一些实施例中，所述图像事件识别单元，被配置为对于所述多帧图像中相邻的任意两帧图像，将所述两帧图像进行比对，在所述两帧图像的事件分值发生变化的情况下，从所述视频中获取所述两帧图像的中心图像，所述两帧图像的中心图像的时间戳为所述两帧图像的时间戳的均值，所述事件分值用于指示图像事件的发生次数；
60.将所述两帧图像的中心图像分别与所述两帧图像中的任一帧图像组成相邻的任意两帧图像，重复执行上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，且基于获取的中心图像所组成的相邻的任意两帧图像的时间戳之差小于预设差值，将发生变化的事件分值对应的图像事件作为所述第一事件信息所指示的图像事件，将基于获取的中心图像所组成的相邻的任意两帧图像的时间戳的均值作为所述第一事件信息所指示的图像事件的发生时间点。
61.在一些实施例中，所述图像事件识别单元，被配置为分别对所述两帧图像进行特征提取，得到所述两帧图像各自的第一事件分值和第二事件分值；在所述第二事件分值与所述第一事件分值不同的情况下，确定所述两帧图像的事件分值发生变化。
62.在一些实施例中，所述图像事件识别单元，被配置为对所述多帧图像分别进行文本识别；
63.在任一帧图像的文本识别结果与目标文本匹配的情况下，将所述目标文本对应的
图像事件作为所述第一事件信息所指示的图像事件，将所述图像的时间戳作为所述第一事件信息所指示的图像事件的发生时间点。
64.在一些实施例中，所述视频为录制视频或直播视频，所述直播视频中的多帧图像的抽帧率大于所述录制视频中的多帧图像的抽帧率，且所述直播视频中的音频的采样率大于所述录制视频中的音频的采样率。
65.在一些实施例中，所述事件识别装置还包括：
66.第一剪辑单元，被配置为基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信息所指示的目标事件的发生时间段匹配。
67.在一些实施例中，所述事件识别装置还包括：
68.第二剪辑单元，被配置为将所述至少一个目标事件信息发送给终端，所述终端用于接收所述至少一个目标事件信息，基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信息所指示的目标事件的发生时间段匹配。
69.根据本公开实施例的第四方面，提供一种事件识别装置，所述装置包括：
70.提取单元，被配置为提取视频中的多帧图像和音频，所述视频为展示目标场景的视频；
71.发送单元，被配置为将所述多帧图像和所述音频发送给服务器，所述服务器用于接收所述多帧图像和所述音频，基于所述多帧图像，进行图像事件识别，得到至少一个第一事件信息，基于所述音频，进行音频事件识别，得到至少一个第二事件信息，对所述至少一个第一事件信息和所述至少一个第二事件信息进行融合，得到至少一个目标事件信息；
72.每个第一事件信息用于指示一个图像事件和所述图像事件的发生时间点，每个第二事件信息用于指示一个音频事件和所述音频事件的发生时间段，每个目标事件信息用于指示一个目标事件和所述目标事件的发生时间段。
73.在一些实施例中，所述提取单元，被配置为基于预设时间间隔，从所述视频中提取图像，得到多帧原始图像；对所述多帧原始图像分别进行裁剪，得到所述多帧图像，所述多帧图像分别为所述多帧原始图像的目标检测区域的图像，所述目标检测区域用于确定是否发生图像事件。
74.在一些实施例中，所述事件识别装置还包括：
75.信息接收单元，被配置为接收所述服务器发送的所述至少一个目标事件信息；
76.剪辑单元，被配置为基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信息所指示的目标事件的发生时间段匹配。
77.在一些实施例中，所述剪辑单元，还被配置为基于所述至少一个目标事件信息，从所述视频中确定至少一个原始子片段，所述至少一个原始子片段的起止时间分别为所述至少一个目标事件信息所指示的目标事件的发生时间段的起止时间；在属于同一事件类别的原始子片段的数目大于所述事件类别对应的预设数目的情况下，从属于所述事件类别的原始子片段中筛选出所述预设数目的原始子片段，将筛选出的原始子片段作为目标子片段；在属于同一事件类别的原始子片段的数目不大于所述事件类别对应的预设数目的情况下，
将所述事件类别的原始子片段作为目标子片段。
78.在一些实施例中，所述剪辑单元，被配置为获取预设视频模板，所述预设视频模板用于指示对所述至少一个目标子片段的剪辑方式；基于所述预设视频模板，对所述至少一个目标子片段进行混剪、渲染和配乐，得到所述剪辑视频。
79.根据本公开实施例的第五方面，提供一种事件识别系统，所述系统包括终端和服务器；
80.所述终端，用于提取视频中的多帧图像和音频，将所述多帧图像和所述音频发送给所述服务器；
81.所述服务器，用于接收所述多帧图像和所述音频，基于所述多帧图像，进行图像事件识别，得到至少一个第一事件信息，基于所述音频，进行音频事件识别，得到至少一个第二事件信息，对所述至少一个第一事件信息和所述至少一个第二事件信息进行融合，得到至少一个目标事件信息；
82.每个第一事件信息用于指示一个图像事件和所述图像事件的发生时间点，每个第二事件信息用于指示一个音频事件和所述音频事件的发生时间段，每个目标事件信息用于指示一个目标事件和所述目标事件的发生时间段。
83.在一些实施例中，所述服务器，用于对于每个第一事件信息，在至少一个音频事件中包括与所述第一事件信息所指示的图像事件匹配的目标音频事件的情况下，对所述第一事件信息进行处理，得到目标事件信息，音频事件与图像事件匹配指音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配；或者，对于每个第二事件信息，在至少一个图像事件中包括与所述第二事件信息所指示的音频事件匹配的目标图像事件的情况下，对所述目标图像事件对应的第一事件信息进行处理，得到目标事件信息。
84.在一些实施例中，所述服务器，用于基于所述第一事件信息所指示的图像事件的发生时间点，确定目标时间段，所述第一事件信息所指示的图像事件的发生时间点为所述目标时间段中的一个时间点；将所述第一事件信息所指示的图像事件作为所述目标事件信息所指示的目标事件，将所述目标时间段作为所述目标事件信息所指示的目标事件的发生时间段。
85.在一些实施例中，所述服务器，用于响应于接收到所述终端发送的所述多帧图像中的前n帧图像，确定所述目标场景的场景类型，所述n为大于等于1的整数；
86.基于所述多帧图像和所述场景类型，进行图像事件识别，得到所述至少一个第一事件信息。
87.在一些实施例中，所述服务器，用于对于所述多帧图像中相邻的任意两帧图像，将所述两帧图像进行比对，在所述两帧图像的事件分值发生变化的情况下，从所述视频中获取所述两帧图像的中心图像，所述两帧图像的中心图像的时间戳为所述两帧图像的时间戳的均值，所述事件分值用于指示图像事件的发生次数；将所述两帧图像的中心图像分别与所述两帧图像中的任一帧图像组成相邻的任意两帧图像，重复执行上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，且基于获取的中心图像所组成的相邻的任意两帧图像的时间戳之差小于预设差值，将发生变化的事件分值对应的图像事件作为所述第一事件信息所指示的图像事件，将基于获取的中心
图像所组成的相邻的任意两帧图像的时间戳的均值作为所述第一事件信息所指示的图像事件的发生时间点。
88.在一些实施例中，所述服务器，用于分别对所述两帧图像进行特征提取，得到所述两帧图像各自的第一事件分值和第二事件分值；在所述第二事件分值与所述第一事件分值不同的情况下，确定所述两帧图像的事件分值发生变化。
89.在一些实施例中，所述终端，用于基于预设时间间隔，从所述视频中提取图像，得到多帧原始图像；对所述多帧原始图像分别进行裁剪，得到所述多帧图像，所述多帧图像分别为所述多帧原始图像的目标检测区域的图像，所述目标检测区域用于确定是否发生图像事件。
90.在一些实施例中，所述服务器，用于对所述多帧图像分别进行文本识别；在任一帧图像的文本识别结果与目标文本匹配的情况下，将所述目标文本对应的图像事件作为所述第一事件信息所指示的图像事件，将所述图像的时间戳作为所述第一事件信息所指示的图像事件的发生时间点。
91.在一些实施例中，所述视频为录制视频或直播视频，所述直播视频中的多帧图像的抽帧率大于所述录制视频中的多帧图像的抽帧率，且所述直播视频中的音频的采样率大于所述录制视频中的音频的采样率。
92.在一些实施例中，所述服务器，还用于基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信息所指示的目标事件的发生时间段匹配。
93.在一些实施例中，所述服务器，还用于将所述至少一个目标事件信息发送给所述终端；所述终端，还用于接收所述至少一个目标事件信息，基于所述至少一个目标事件信息，对所述视频中的至少一个目标子片段进行剪辑，得到剪辑视频，所述至少一个目标子片段的起止时间分别与所述至少一个目标事件信息所指示的目标事件的发生时间段匹配。
94.在一些实施例中，所述终端，还用于基于所述至少一个目标事件信息，从所述视频中确定至少一个原始子片段，所述至少一个原始子片段的起止时间分别为所述至少一个目标事件信息所指示的目标事件的发生时间段；在属于同一事件类别的原始子片段的数目大于所述事件类别对应的预设数目的情况下，从属于所述事件类别的原始子片段中筛选出所述预设数目的原始子片段，将筛选出的原始子片段作为目标子片段；在属于同一事件类别的原始子片段的数目不大于所述事件类别对应的预设数目的情况下，将所述事件类别的原始子片段作为目标子片段。
95.在一些实施例中，所述终端，还用于获取预设视频模板，所述预设视频模板用于指示对所述至少一个目标子片段的剪辑方式；基于所述预设视频模板，对所述至少一个目标子片段进行混剪、渲染和配乐，得到所述剪辑视频。
96.根据本公开实施例的第六方面，提供一种电子设备，该电子设备包括：
97.一个或多个处理器；
98.用于存储该处理器可执行程序代码的存储器；
99.其中，该处理器被配置为执行该程序代码，以实现上述事件识别方法。
100.根据本公开实施例的第七方面，提供一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由电子设备的处理器执行时，使得电子设备能够执行上述事件识别
方法。
101.根据本公开实施例的第八方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述事件识别方法。
102.本公开实施例提供了一种事件识别方法，该方法基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合至少一个第一事件信息和该至少一个第二事件信息来得到至少一个目标事件信息，得到的目标事件信息在保证了全面性的同时还具有较高的准确性。
103.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
104.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
105.图1是根据一示例性实施例示出的一种事件识别方法的流程图。
106.图2是根据一示例性实施例示出的另一种事件识别方法的流程图。
107.图3是根据一示例性实施例示出的另一种事件识别方法的流程图。
108.图4是根据一示例性实施例示出的一种二分算法的流程图。
109.图5是根据一示例性实施例示出的另一种事件识别方法的流程图。
110.图6是根据一示例性实施例示出的另一种事件识别方法的流程图。
111.图7是根据一示例性实施例示出的另一种事件识别方法的流程图。
112.图8是根据一示例性实施例示出的另一种事件识别方法的流程图。
113.图9是根据一示例性实施例示出的一种事件识别系统的框图。
114.图10是根据一示例性实施例示出的一种事件识别装置的框图。
115.图11是根据一示例性实施例示出的另一种事件识别装置的框图。
116.图12是根据一示例性实施例示出的一种终端的框图。
117.图13是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
118.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
119.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
120.需要说明的是，本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用
户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本技术中涉及到的视频等都是在充分授权的情况下获取的。
121.图1是根据一示例性实施例示出的一种事件识别方法的流程图，如图1所示，该方法由电子设备执行，该电子设备被配置为终端和服务器中的至少一项，方法包括以下步骤。
122.在步骤s101中，获取视频中的多帧图像和音频，该视频为展示目标场景的视频。
123.在本公开实施例中，该视频可以为录制视频或直播视频。该目标场景可以为游戏场景、赛事场景或虚拟场景。该赛事场景可以为足球比赛、篮球比赛等比赛的场景。该虚拟场景可以是对真实世界的仿真环境，也可以是半仿真半虚构的虚拟环境，还可以是纯虚构的虚拟环境。
124.在本公开实施例中，视频展示的目标场景可以属于不同的场景类型；例如，该目标场景为虚拟场景，则该场景类型包括moba(multiplayer online battle arena，多人在线战术竞技游戏)类游戏的场景类型、枪战射击类游戏的场景类型、格斗类游戏的场景类型和体育类游戏的场景类型等。
125.在本公开实施例中，该多帧图像为基于预设时间间隔从视频中提取的图像，如该预设时间间隔为1分钟、30秒或10秒等。该音频为从视频中提取的音频。
126.在步骤s102中，基于该多帧图像，进行图像事件识别，得到至少一个第一事件信息，每个第一事件信息用于指示一个图像事件和该图像事件的发生时间点。
127.在本公开实施例中，图像事件为目标事件在图像方面的表现，目标事件为视频中的精彩片段对应的事件，可以根据视频展示的目标场景的场景类型不同而变化。例如，若该目标场景为虚拟场景，且该场景类型为moba类游戏的场景类型，则该目标事件包括各种虚拟击杀事件、各种虚拟击杀程度事件以及虚拟助攻死亡事件等，各种虚拟击杀事件可以为一杀、二杀、三杀、四杀、五杀等虚拟事件，各种虚拟击杀程度事件可以为“锋芒毕露”、“横扫千军”等虚拟事件。若该场景类型为枪战射击类游戏的场景类型，则该目标事件可以为击倒、击杀、淘汰、爆头、连续射击以及胜利等虚拟事件。若该场景类型为体育类游戏的场景类型，则该目标事件可以为得分、进球、助攻等虚拟事件。
128.在步骤s103中，基于该音频，进行音频事件识别，得到至少一个第二事件信息，每个第二事件信息用于指示一个音频事件和该音频事件的发生时间段。
129.本公开实施例中，音频事件为目标事件在音频方面的表现，如目标事件为虚拟连续射击事件，则音频事件可以为发生虚拟连续枪声。
130.在步骤s104中，对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息，每个目标事件信息用于指示一个目标事件和该目标事件的发生时间段。
131.在本公开实施例中，对图像事件的发生时间点和音频事件的发生时间段进行匹配，对图像事件和音频事件所属的事件类别进行匹配，得到目标事件信息。
132.本公开实施例提供了一种事件识别方法，该方法基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合该至少一个第一事件信息和该至少一个第二事件信息来得到至少一个目标事件信息，得到的目标
事件信息在保证了全面性的同时还具有较高的准确性。
133.在一些实施例中，对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息，包括：
134.对于每个第一事件信息，在多个音频事件中包括与第一事件信息所指示的图像事件匹配的目标音频事件的情况下，对第一事件信息进行处理，得到目标事件信息，音频事件与图像事件匹配指音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配；或者，对于每个第二事件信息，在至少一个图像事件中包括与第二事件信息所指示的音频事件匹配的目标图像事件的情况下，对目标图像事件对应的第一事件信息进行处理，得到目标事件信息。
135.在本公开实施例中，实现了目标事件在图像和音频维度均有表现的情况下，才去确定目标事件信息，保证了确定目标事件信息的准确性。
136.在一些实施例中，对第一事件信息进行处理，得到目标事件信息，包括：
137.基于第一事件信息所指示的图像事件的发生时间点，确定目标时间段，第一事件信息所指示的图像事件的发生时间点为目标时间段中的一个时间点；
138.将第一事件信息所指示的图像事件作为目标事件信息所指示的目标事件，将目标时间段作为目标事件信息所指示的目标事件的发生时间段。
139.在本公开实施例中，基于图像事件的发生时间段，得到了目标时间段，而该目标时间段内的视频能够有效输出该图像事件的整体过程，进而提高了获取目标事件的完整性和准确性。
140.在一些实施例中，多帧图像从终端获取，基于多帧图像，进行图像事件识别，得到至少一个第一事件信息，包括：
141.响应于接收到终端发送的多帧图像中的前n帧图像，确定目标场景的场景类型，n为大于等于1的整数；
142.基于多帧图像和场景类型，进行图像事件识别，得到至少一个第一事件信息。
143.在本公开实施例中，由于视频展示的目标场景的场景类型不同，待识别的图像事件也不同，进而基于场景类型来进行图像事件识别，能够提高图像事件识别的针对性和准确性。
144.在一些实施例中，基于多帧图像，进行图像事件识别，得到至少一个第一事件信息，包括：
145.对于多帧图像中相邻的任意两帧图像，将两帧图像进行比对，在两帧图像的事件分值发生变化的情况下，从视频中获取两帧图像的中心图像，两帧图像的中心图像的时间戳为两帧图像的时间戳的均值，事件分值用于指示图像事件的发生次数；
146.将两帧图像的中心图像分别与两帧图像中的任一帧图像组成相邻的任意两帧图像，重复执行上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，且基于获取的中心图像所组成的相邻的任意两帧图像的时间戳之差小于预设差值，将发生变化的事件分值对应的图像事件作为第一事件信息所指示的图像事件，将基于获取的中心图像所组成的相邻的任意两帧图像的时间戳的均值作为第一事件信息所指示的图像事件的发生时间点。
147.在本公开实施例中，基于二分算法来进行图像事件识别，实现了对视频中无效时
间段内的图像的过滤，进而降低了向服务器发送的图像的数量，这样能够有效降低图像事件识别的复杂度，提升了算法性能。
148.在一些实施例中，确定两帧图像的事件分值发生变化的过程，包括：
149.分别对两帧图像进行特征提取，得到两帧图像各自的第一事件分值和第二事件分值；
150.在第二事件分值与第一事件分值不同的情况下，确定两帧图像的事件分值发生变化。
151.在本公开实施例中，通过对图像进行特征提取来获取事件分值，提高了获取事件分值的效率。
152.在一些实施例中，基于多帧图像，进行图像事件识别，得到至少一个第一事件信息，包括：
153.对多帧图像分别进行文本识别；
154.在任一帧图像的文本识别结果与目标文本匹配的情况下，将目标文本对应的图像事件作为第一事件信息所指示的图像事件，将图像的时间戳作为第一事件信息所指示的图像事件的发生时间点。
155.在本公开实施例中，由于在视频为直播视频的情况下，服务器可以有较长的时间进行图像事件识别，因此可以对图像进行整体区域上的识别，进而能够提高图像事件识别的准确性。
156.在一些实施例中，视频为录制视频或直播视频，直播视频中的多帧图像的抽帧率大于录制视频中的多帧图像的抽帧率，且直播视频中的音频的采样率大于录制视频中的音频的采样率。
157.在本公开实施例中，提高直播视频中的多帧图像的抽帧率和采样率，分别提高了直播视频进行图像事件识别的精度以及进行音频事件识别的精度。
158.在一些实施例中，事件识别方法还包括：
159.基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
160.在本公开实施例中，由于目标事件信息具有较高的准确性，进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
161.在一些实施例中，事件识别方法还包括：
162.将至少一个目标事件信息发送给终端，终端用于接收至少一个目标事件信息，基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
163.在本公开实施例中，由于目标事件信息具有较高的准确性，进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
164.图2是根据一示例性实施例示出的另一种事件识别方法的流程图，如图2所示，该方法由电子设备执行，包括以下步骤。
165.在步骤s201中，提取视频中的多帧图像和音频，该视频为展示目标场景的视频。
166.在本公开实施例中，基于预设时间间隔，从该视频中提取图像，得到该多帧图像；基于采样率，从该视频中提取音频，得到该音频。
167.在步骤s202中，将该多帧图像和该音频发送给服务器，该服务器用于接收该多帧图像和该音频，基于该多帧图像，进行图像事件识别，得到至少一个第一事件信息，基于该音频，进行音频事件识别，得到至少一个第二事件信息，对该至少一个第一事件信息和该至少一个第二事件信息进行融合，得到至少一个目标事件信息。每个第一事件信息用于指示一个图像事件和该图像事件的发生时间点，每个第二事件信息用于指示一个音频事件和该音频事件的发生时间段，每个目标事件信息用于指示一个目标事件和该目标事件的发生时间段。
168.步骤s202与步骤s102-s104同理，在此不再赘述。
169.本公开实施例提供了一种事件识别方法，该方法基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合至少一个第一事件信息和该至少一个第二事件信息来得到至少一个目标事件信息，得到的目标事件信息在保证了全面性的同时还具有较高的准确性。
170.在一些实施例中，提取视频中的多帧图像，包括：
171.基于预设时间间隔，从视频中提取图像，得到多帧原始图像；
172.对多帧原始图像分别进行裁剪，得到多帧图像，多帧图像分别为多帧原始图像的目标检测区域的图像，目标检测区域用于确定是否发生图像事件。
173.在本公开实施例中，由于基于目标检测区域可以进行图像事件识别，这样将原始图像中的目标检测区域裁剪出来发送给服务器，有效降低了终端向服务器上传图像数据带来的网络延时，提高了数据传输效率。
174.在一些实施例中，事件识别方法还包括：
175.接收服务器发送的至少一个目标事件信息；
176.基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
177.在本公开实施例中，由于目标事件信息具有较高的准确性，进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
178.在一些实施例中，确定至少一个目标子片段的过程，包括：
179.基于至少一个目标事件信息，从视频中确定至少一个原始子片段，至少一个原始子片段的起止时间分别为至少一个目标事件信息所指示的目标事件的发生时间段的起止时间；
180.在属于同一事件类别的原始子片段的数目大于事件类别对应的预设数目的情况下，从属于事件类别的原始子片段中筛选出预设数目的原始子片段，将筛选出的原始子片段作为目标子片段；
181.在属于同一事件类别的原始子片段的数目不大于事件类别对应的预设数目的情况下，将事件类别的原始子片段作为目标子片段。
182.在本公开实施例中，通过对原始子片段进行筛选，避免了多个重复事件类别的子
片段影响剪辑视频的观感，进而提高了剪辑视频的质量和精准性。
183.在一些实施例中，基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，包括：
184.获取预设视频模板，预设视频模板用于指示对至少一个目标子片段的剪辑方式；
185.基于预设视频模板，对至少一个目标子片段进行混剪、渲染和配乐，得到剪辑视频。
186.在本公开实施例中，由于基于预设视频模板对至少一个目标子片段进行了混剪、渲染和拼接，实现了对目标子片段的二次加工和创作，使得剪辑视频更加丰富和精彩，进而能够提高该剪辑视频的质量和用户观看该剪辑视频的体验。
187.图3是根据一示例性实施例示出的另一种事件识别方法的流程图，如图3所示，该方法以终端和服务器交互执行，且该视频为录制视频为例进行说明，包括以下步骤：
188.在步骤s301中，终端获取视频。
189.在本公开实施例中，该视频为录制视频，该视频由用户上传到终端，通过终端导入，使得该终端可以一次性获取到完整的该视频。
190.在步骤s302中，终端提取该视频中的多帧图像和音频。
191.在一些实施例中，该多帧图像均为原始图像，则终端基于预设时间间隔，从该视频中提取图像，得到该多帧图像，即该多帧图像中相邻的任意两帧图像的时间戳之差为该预设时间间隔。
192.在一些实施例中，该多帧图像为裁剪后的图像。相应地，上述终端提取该视频中的多帧图像的过程，包括以下步骤：终端基于预设时间间隔，从该视频中提取图像，得到多帧原始图像；终端对该多帧原始图像分别进行裁剪，得到多帧图像，多帧图像分别为该多帧原始图像的目标检测区域的图像，该目标检测区域用于确定是否发生图像事件。
193.在本公开实施例中，由于基于目标检测区域可以进行图像事件识别，这样将原始图像中的目标检测区域裁剪出来发送给服务器，有效降低了终端向服务器上传图像数据带来的网络延时，提高了数据传输效率。
194.在本公开实施例中，终端在对多帧原始图像进行裁剪之前，需要对目标检测区域进行定位，进而基于定位结果可以实现准确裁剪。在一些实施例中，终端基于其安装的目标区域检测模型实现对目标检测区域的定位，该目标区域检测模型为深度学习模型。
195.需要说明的是，若视频展示的目标场景的场景类型不同，则目标检测区域在原始图像上的位置可能不同，则终端在对多帧原始图像进行裁剪之前，还需确定目标场景的场景类型，然后确定该场景类型对应的目标检测区域模型，以通过确定的目标检测区域模型来定位目标检测区域。在本公开实施例中，目标场景的场景类型的确定过程，包括以下几种实现方式：
196.在一种实现方式中，终端基于多帧原始图像的前n帧图像确定目标场景的场景类型。在另一种实现方式中，终端将多帧原始图像的前n帧图像发送给服务器，服务器接收该前n帧原始图像后，基于该前n帧原始图像确定目标场景的场景类型，然后将该目标场景的场景类型发送给终端。在另一种实现方式中，终端还可以基于音频中的前n帧音频确定目标场景的场景类型。在另一种实现方式中，终端还可以将音频中的前n帧音频发送给服务器，服务器接收该前n帧音频后，基于该前n帧音频确定目标场景的场景类型，然后将该目标场
景的场景类型发送给终端，n为大于等于1的整数。
197.在一些实施例中，终端在导入视频的过程中，还可以提取该视频中已导入视频的多帧图像和音频，这样使得导入视频与提取图像和视频能够同步进行，进而能够提高视频处理的效率。
198.在步骤s303中，终端将该多帧图像和该音频发送给服务器。
199.在一些实施例中，终端在导入视频、提取该视频中已导入视频的多帧图像和音频的过程中，还可以将已提取的多帧图像和音频发送给服务器，这样使得多种处理过程可以同步进行，进而进一步提高了视频处理的效率。
200.在步骤s304中，服务器接收该多帧图像和该音频。
201.在本公开实施例中，终端可以分批发送该多帧图像和音频，相应地，服务器分批接收该多帧图像和音频，进而服务器响应于接收到前n帧图像或前n帧音频，就可以基于该前n帧图像或前n帧音频，确定目标场景的场景类型。
202.在步骤s305中，服务器基于该多帧图像，进行图像事件识别，得到至少一个第一事件信息，每个第一事件信息用于指示一个图像事件和该图像事件的发生时间点。
203.在本公开实施例中，视频展示的目标场景的场景类型不同，该视频中待识别的图像事件不同，进而图像事件识别的方法不同。相应地，上述服务器基于该多帧图像，进行图像事件识别，得到至少一个第一事件信息的过程，包括以下步骤：服务器响应于接收到终端发送的多帧图像中的前n帧图像，确定目标场景的场景类型；服务器基于该多帧图像和该场景类型，进行图像事件识别，得到至少一个第一事件信息。
204.在本公开实施例中，服务器基于该前n帧图像，确定目标场景的场景类型。由于视频展示的目标场景的场景类型不同，待识别的图像事件也不同，进而基于场景类型来进行图像事件识别，能够提高图像事件识别的针对性和准确性。
205.在本公开实施例中，服务器通过图像事件识别模型来进行图像事件识别，不同的场景类型对应不同的图像事件识别模型，进而服务器确定目标场景的场景类型后，基于该多帧图像，通过该场景类型对应的图像事件识别模型，进行图像事件识别，得到至少一个第一事件信息。其中，图像事件识别模型为深度学习模型，基于该图像事件识别模型能够有效提高事件识别效率。
206.需要说明的是，若在步骤s302中通过服务器已确定了目标场景的场景类型，则在步骤s305中无需再执行服务器响应于接收到终端发送的多帧图像中的前n帧图像，确定目标场景的场景类型的步骤。若在步骤s302中通过终端已确定了目标场景的场景类型，则服务器可以直接从终端获取该场景类型，而在步骤s305中无需再执行上述服务器响应于接收到终端发送的多帧图像中的前n帧图像，确定目标场景的场景类型的步骤。
207.在本公开实施例中，服务器基于多帧图像，采用二分算法进行图像事件识别。相应地，上述服务器基于该多帧图像，进行图像事件识别，得到至少一个第一事件信息的过程，包括以下步骤：
208.服务器对于多帧图像中相邻的任意两帧图像，将该两帧图像进行比对，在该两帧图像的事件分值发生变化的情况下，从视频中获取该两帧图像的中心图像，该两帧图像的中心图像的时间戳为两帧图像的时间戳的均值，该事件分值用于指示图像事件的发生次数；服务器将该两帧图像的中心图像分别与该两帧图像中的任一帧图像组成相邻的任意两
帧图像，重复执行上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，且基于获取的中心图像所组成的相邻的任意两帧图像的时间戳之差小于预设差值，将发生变化的事件分值对应的图像事件作为第一事件信息所指示的图像事件，将基于获取的中心图像所组成的相邻的任意两帧图像的时间戳的均值作为第一事件信息所指示的图像事件的发生时间点。
209.在本公开实施例中，该事件分值用于指示图像事件的发生次数，进而若两帧图像的事件分值发生变化，则说明发生了该图像事件。例如，事件分值为kda(kill，death，assist，击杀，死亡，助攻)分值，可以用于指示虚拟击杀事件、虚拟死亡事件和虚拟助攻事件各自的发生次数。如对于多帧图像中相邻的任意两帧图像，若前一帧图像的虚拟击杀事件的事件分值为9，后一帧图像的虚拟击杀事件的事件分值为10，则说明发生了一次虚拟击杀事件。
210.在本公开实施例中，服务器对图像进行特征提取以得到事件分值。相应地，上述服务器确定两帧图像的事件分值发生变化的过程，包括以下步骤：服务器分别对该两帧图像进行特征提取，得到该两帧图像各自的第一事件分值和第二事件分值；服务器在该第二事件分值与该第一事件分值不同的情况下，确定该两帧图像的事件分值发生变化。在本公开实施例中，通过对图像进行特征提取来获取事件分值，提高了获取事件分值的效率。
211.在本公开实施例中，该事件分值为目标检测区域的特征。该多帧图像可以为裁剪后的图像，则上述服务器分别对该两帧图像进行特征提取的过程，即为直接从目标检测区域进行特征提取的过程。在该实施例中，直接对裁剪后的图像进行特征提取，提高了特征提取的效率。
212.在另一些实施例中，该多帧图像为原始图像，则服务器分别对该两帧图像进行特征提取，得到该两帧图像各自的第一事件分值和第二事件分值的过程，包括以下步骤：服务器分别确定该两帧图像的目标检测区域，分别从该两帧图像的目标检测区域进行特征提取，得到该两帧图像各自的第一事件分值和第二事件分值。在该实施例中，通过服务器确定目标区域检测，可以充分利用服务器强大的运算能力，减轻了终端的运算压力。
213.在一些实施例中，服务器还可以在该两帧图像为原始图像或裁剪后的图像的情况下，直接对该两帧图像分别进行文本识别(optical character recognition，ocr)，得到该两帧图像各自的第一事件分值和第二事件分值，这样通过文本识别提高了获取事件分值的便捷性。
214.在另一些实施例中，服务器还可以在该两帧图像为原始图像的情况下，先分别确定该两帧图像的目标检测区域，再分别对该两帧图像的目标检测区域进行文本识别，得到该两帧图像各自的第一事件分值和第二事件分值。这样进一步提高了获取事件分值的效率。
215.需要说明的是，一些图像事件不能够通过事件分值体现，如结果事件，结果事件一般仅会在视频的终止时间点发生一次。则相应地，终端向服务器发送终止时间点的原始图像，进而使得服务器接收该原始图像后，对该原始图像进行文本识别，基于文本识别结果得到第一事件信息；这样保证了图像事件识别的全面性。
216.在本公开实施例中，若基于二分算法进行图像事件识别，则终端以较大的预设时间间隔从视频中提取图像，来得到多帧图像。在一种实现方式中，终端基于该预设时间间
隔，对该视频进行划分，得到多个视频片段，则终端提取该多个视频片段的起始图像，得到该多帧图像，即该多帧图像中相邻的任意两帧图像为一个视频片段的起止图像。这样终端将该多帧图像发送给服务器后，服务器基于相邻的任意两帧图像可以识别一个视频片段内的图像事件，从而基于该多帧图像就可以实现对多个视频片段的图像事件识别。
217.在本公开实施例中，终端向服务器发送的多帧图像仅为基于预设时间间隔提取的图像，则服务器获取该多帧图像中相邻的任意两帧图像的中心图像，还需从终端处的视频中获取。相应地，上述服务器获取两帧图像的中心图像的过程包括以下步骤：服务器向终端发送差异比对结果，终端接收该差异比对结果，基于该差异比对结果获取该两帧图像的中心图像，将该两帧图像的中心图像发送给服务器，该差异比对结果用于指示两帧图像的事件分值发生了变化，且该差异比对结果还携带该两帧图像的时间戳，进而便于获取该两帧图像的中心图像。
218.在本公开实施例中，对于任意进行比对的两帧图像，在该两帧图像的事件分值没有发生变化的情况下，则服务器不再基于该两帧图像进行图像事件识别。
219.在本公开实施例中，基于上述二分算法来进行图像事件识别，实现了对视频中无效时间段内的图像的过滤，进而降低了向服务器发送的图像的数量，这样能够有效降低图像事件识别的复杂度，提升了算法性能。
220.参见图4，图4是根据一示例性实施例示出的一种二分算法的流程图。其中，终端对视频进行分钟级别的划分，得到多个分钟级别的视频片段。然后对于每个视频片段，终端提取该视频片段的起止时间点的两帧图像，发送给服务器；服务器对该两帧图像进行比对，判断该两帧图像的事件分值是否发生变化。若否，则说明该视频片段内没有发生图像事件，终止处理。若是，则说明在该视频片段内发生了图像事件，需要进行进一步识别处理，则确定该两帧图像的时间戳之差是否小于预设差值，若是，则基于该两帧图像的时间戳确定图像事件的发生时间点。若否，则从终端处获取该两帧图像的中心图像，将该中心图像分别与该两帧图像中的任一帧图像组成相邻的任意两帧图像，重复上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，基于该两帧图像的时间戳确定图像事件的发生时间点，终止处理。
221.在本公开实施例中，第一事件信息包括图像事件标签，该图像事件标签用于指示图像事件。
222.在步骤s306中，服务器基于该音频，进行音频事件识别，得到至少一个第二事件信息，每个第二事件信息用于指示一个音频事件和该音频事件的发生时间段。
223.在本公开实施例中，视频展示的目标场景的场景类型不同，该视频中待识别的音频事件不同，进而音频事件识别的方法不同。相应地，上述服务器基于该音频和视频中展示的目标场景的场景类型，进行音频事件识别，得到至少一个第二事件信息。
224.在本公开实施例中，服务器通过音频事件识别模型来进行音频事件识别，不同场景类型对应不同的音频事件识别模型，进而服务器确定目标场景的场景类型后，基于该音频，通过该场景类型对应的音频事件识别模型，进行音频事件识别，得到至少一个第二事件信息。在本公开实施例中，音频事件识别模型为深度学习模型，基于该音频事件识别模型能够有效提高事件识别效率。
225.在本公开实施例中，上述服务器通过音频事件识别模型进行音频事件识别的过
程，包括以下步骤：服务器将该音频输入该音频事件识别模型，该音频事件识别模型用于提取该音频的音频特征，基于该音频特征，进行音频事件识别，得到与该音频特征匹配的目标音频事件，进而基于该音频事件识别模型输出的音频事件和该音频事件的发生时间段，得到第二事件信息。
226.需要说明的是，上述步骤s305-s306之间的执行顺序可以变化，上述步骤编号仅是为了便于描述，并未限制步骤的执行顺序。步骤s305可以在步骤s306之前执行，也可以在步骤s306之后执行，或步骤s305可以与步骤s306同时执行。在本公开实施例中，以步骤s304与步骤s305同时执行为例进行说明，这样使得图像事件识别和音频事件识别可以同时进行，进而提高了事件识别效率。
227.需要说明的是，若步骤s305在步骤s306之前执行，则服务器可以直接获取步骤s305中确定的目标场景的场景类型，以基于该场景类型进行音频事件识别。若步骤s305与步骤s306同时执行，且在步骤s303中确定了目标场景的场景类型，则服务器可以直接获取在步骤s303中确定的目标场景的场景类型，以基于该场景类型进行音频事件识别。若步骤s305与步骤s306同时执行，且在步骤s303中未确定目标场景的场景类型，则在步骤s306中，服务器还需基于音频确定目标场景的场景类型，进而基于该场景类型进行音频事件识别。
228.在本公开实施例中，第二事件信息包括音频事件标签，该音频事件标签用于指示音频事件。
229.在步骤s307中，服务器对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息，每个目标事件信息用于指示一个目标事件和该目标事件的发生时间段。
230.在本公开实施例中，音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配，则说明该音频事件和图像事件对应同一目标事件。相应地，上述服务器对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息的过程，包括以下两种实现方式：在一种实现方式中，服务器对于每个第一事件信息，在多个音频事件中包括与该第一事件信息所指示的图像事件匹配的目标音频事件的情况下，对该第一事件信息进行处理，得到目标事件信息，音频事件与图像事件匹配指音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配。在另一种实现方式中，服务器对于每个第二事件信息，在至少一个图像事件中包括与第二事件信息所指示的音频事件匹配的目标图像事件的情况下，对目标图像事件对应的第一事件信息进行处理，得到目标事件信息。在本公开实施例中，实现了目标事件在图像和音频维度均有表现的情况下，才去确定目标事件信息，保证了确定目标事件信息的准确性。
231.在本公开实施例中，音频事件的发生一般是持续性的，而图像事件的发生一般是瞬时性的。如对于虚拟击杀事件，其需要持续击打一段时间才会完成虚拟击杀，则会产生一段时间的虚拟击打音频，而该虚拟击杀事件对应的事件分值仅在虚拟击杀完成的一瞬间才会发生变化，即图像上仅会产生一瞬间的分值变化。相应地，在本公开实施例中，音频事件的发生时间段与图像事件的发生时间点匹配包括图像事件的发生时间点位于音频事件的发生时间段内或超出音频事件的发生时间段的差值不大于预设阈值，这样允许了一些不可避免的系统误差和延时误差存在，进而提高了事件识别的灵活性。
232.在本公开实施例中，由于图像事件是瞬时性的，而仅基于该瞬间的图像并不能有效反映该图像事件。则相应地，上述服务器对该第一事件信息进行处理，得到目标事件信息的过程，包括以下步骤：服务器基于该第一事件信息所指示的图像事件的发生时间点，确定目标时间段，该第一事件信息所指示的图像事件的发生时间点为该目标时间段中的一个时间点；服务器将第一事件信息所指示的图像事件作为目标事件信息所指示的目标事件，将目标时间段作为目标事件信息所指示的目标事件的发生时间段。
233.在本公开实施例中，上述服务器基于该第一事件信息所指示的图像事件的发生时间点，确定目标时间段，包括以下步骤：服务器截取该发生时间点之前第一时长的第一时间段，截取该发生时间点之后第二时长的第二时间段，基于该第一时间段和该第二时间段确定该目标时间段，该目标时间段的起止时间分别为第一时间段的起始时间和第二时间段的终止时间。
234.在本公开实施例中，第一时长和第二时长基于图像事件的事件类别确定，不同的事件类别对应不同的第一时长和第二时长，进而提高了确定目标时间段的灵活性。
235.在本公开实施例中，基于图像事件的发生时间段，得到了目标时间段，而该目标时间段内的视频能够有效输出该图像事件的整体过程，进而提高了获取目标事件的完整性和准确性。
236.在一些实施例中，服务器得到至少一个目标事件信息后，还将发生时间段之差小于预设差值且相邻的目标事件进行合并处理，以便于降低目标事件的数量，提高后续基于目标事件进行视频剪辑的效率。
237.在本公开实施例中，目标事件信息包括目标事件标签，该目标事件标签用于指示目标事件。
238.在步骤s308中，服务器将该至少一个目标事件信息发送给终端。
239.在本公开实施例中，通过服务器来进行事件识别，由于服务器具有较强的运算能力，进而能够提高事件识别的效率。
240.在步骤309中，终端接收该至少一个目标事件信息，基于该至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，该至少一个目标子片段的起止时间分别与该至少一个目标事件信息所指示的目标事件的发生时间段匹配。
241.在本公开实施例中，终端可以基于该至少一个目标事件信息指示的至少一个目标事件的时间顺序，依次从该视频中剪辑出该至少一个目标事件分别对应的片段。
242.在本公开实施例中，终端基于该至少一个目标事件信息，会从视频中剪出多个事件类别相同的子片段，而该重复事件类别的子片段会影响剪辑视频的观感。则相应地，终端确定至少一个目标子片段包括以下步骤：终端基于至少一个目标事件信息，从该视频中确定至少一个原始子片段，至少一个原始子片段的起止时间分别为至少一个目标事件信息所指示的目标事件的发生时间段的起止时间；终端在属于同一事件类别的原始子片段的数目大于事件类别对应的预设数目的情况下，从属于该事件类别的原始子片段中筛选出预设数目的原始子片段，将筛选出的原始子片段作为目标子片段；终端在属于同一事件类别的原始子片段的数目不大于事件类别对应的预设数目的情况下，将该事件类别的原始子片段作为目标子片段。
243.在本公开实施例中，通过对原始子片段进行筛选，避免了多个重复事件类别的子
片段影响剪辑视频的观感，进而提高了剪辑视频的质量和精准性。
244.在本公开实施例中，不同事件类别的目标事件的重要性不同，则不同事件类别对应的预设数目不同，即不同事件类别允许保留的原始子片段的数目不同。相应地，终端在确定至少一个原始子片段后，对该至少一个原始子片段进行聚类，得到多个事件类别分别对应的至少一个原始子片段。终端确定该多个事件类别各自的预设分值，基于每个事件类别的预设分值，确定每个事件类别对应的预设数目，该预设分值用于表示该事件类别的目标事件的重要性，该预设数目与该预设分值正相关。
245.在一些实施例中，每个事件类别对应的预设数目还与该视频的时长正相关，即该视频的时长越长，每个事件类别对应的预设数目越多。
246.在本公开实施例中，服务器基于预设视频模板进行视频剪辑。相应地，上述终端基于该至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频的过程，包括以下步骤：终端获取预设视频模板，预设视频模板用于指示对至少一个目标子片段的剪辑方式；终端基于该预设视频模板，对该至少一个目标子片段进行混剪、渲染和配乐，得到剪辑视频。
247.在本公开实施例中，混剪指将至少一个目标子片段按照预设顺序拼接。不同数目的目标子片段可以对应不同的预设模板，则终端基于该至少一个目标子片段的数目获取预设视频模板。或者，不同场景类型对应不同的预设视频模板，则终端基于该视频展示的目标场景的场景类型获取预设视频模板。
248.在本公开实施例中，由于基于预设视频模板对至少一个目标子片段进行了混剪、渲染和拼接，实现了对目标子片段的二次加工和创作，使得剪辑视频更加丰富和精彩，进而能够提高该剪辑视频的质量和用户观看该剪辑视频的体验。
249.参见图5，图5是根据一示例性实施例示出的一种事件识别方法的流程图。在该实施例中，首先终端获取用户导入的视频，提取视频中的图像和音频，且检测图像中的kda区域，然后对图像进行裁剪。然后终端通过网络端将图像和音频上传至服务器，服务器确定该视频展示的目标场景的场景类型，基于确定的场景类型，进行事件识别。在moba类游戏的场景类型下，基于图像进行kda分值识别，以实现图像事件识别，基于音频检测虚拟击杀音效，以实现音频事件识别。在枪战射击类游戏的场景类型下，基于图像进行kda分值识别，以实现图像事件识别，基于音频检测虚拟枪声音效，以实现音频事件识别。然后对图像事件和音频事件进行融合，得到多个目标事件和该多个目标事件的发生时间段，且发送给终端。终端从直播视频中剪出该多个目标事件对应的至少一个目标子片段，然后基于预设视频模板，对该至少一个目标子片段进行混剪、渲染和配乐，得到剪辑视频。
250.本公开实施例提供了一种事件识别方法，该方法基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合该至少一个第一事件信息和该至少一个第二事件信息来得到至少一个目标事件信息，得到的目标事件信息在保证了全面性的同时具有较高的准确性；进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
251.图6是根据一示例性实施例示出的另一种事件识别方法的流程图，如图6所示，该方法以服务器执行，且以视频为直播视频为例进行说明，包括以下步骤：
252.在步骤s601中，获取视频，该视频为直播数据流。
253.在本公开实施例中，接收终端发送的直播数据流，获取到该视频。在本公开实施例中，直播视频可以为赛事直播视频。
254.在本公开实施例中，对直播视频进行分段截取，即周期性获取直播视频，将一个周期内的直播视频作为一段需要剪辑的视频，对每个周期内的直播视频分别执行下述步骤s602-s606，以得到每个周期内的直播视频的剪辑视频。在本公开实施例中，一个周期的时长可以根据需要进行设定并更改，如一个周期的时长为20分钟。
255.在步骤s602中，提取该视频中的多帧图像和音频。
256.在本公开实施例中，基于预设时间间隔从视频中提取图像，由于该视频为直播视频，则在每到达一个该预设时间间隔对应的时间点的情况下，提取一帧图像。基于采样率从视频中提取音频。
257.在一些实施例中，获取视频后，将该视频进行缓存，以便于从该缓存的视频中提取图像和音频，且对提取到的多帧图像和音频进行缓存，以便于基于该缓存的多帧图像和音频进行事件识别。
258.在步骤s603中，基于该多帧图像，进行图像事件识别，得到至少一个第一事件信息，每个第一事件信息用于指示一个图像事件和该图像事件的发生时间点。
259.在本公开实施例中，由于实时提取图像，则可以在到达下一周期之前，实时对提取的每一帧图像进行处理，使得可以有较长的时间进行图像事件识别。相应地，可以提高直播视频中的多帧图像的抽帧率，以提高图像事件识别的精度。则在一些实施例中，直播视频中的多帧图像的抽帧率大于录制视频中的多帧图像的抽帧率，该抽帧率与预设时间间隔负相关。
260.在本公开实施例中，可以采用二分算法来进行图像事件识别，其实现过程与步骤s305同理，在此不再赘述。
261.在一些实施例中，还可以采用文本识别方法来进行图像识别。相应地，上述基于该多帧图像，进行图像事件识别，得到至少一个第一事件信息的过程，包括以下步骤：在该视频为直播视频的情况下，对该多帧图像分别进行文本识别；在任一帧图像的文本识别结果与目标文本匹配的情况下，将该目标文本对应的图像事件作为第一事件信息所指示的图像事件，将该图像的时间戳作为第一事件信息所指示的图像事件的发生时间点。
262.在本公开实施例中，该文本识别结果用于指示该图像中包括的文本关键字，该目标文本为图像事件对应的文本，如击杀、淘汰、胜利等。
263.在本公开实施例中，由于在视频为直播视频的情况下，可以有较长的时间进行图像事件识别，因此可以对图像进行整体区域上的文本识别，进而能够提高图像事件识别的准确性。
264.在步骤s604中，基于该音频，进行音频事件识别，得到至少一个第二事件信息，每个第二事件信息用于指示一个音频事件和该音频事件的发生时间段。
265.在本公开实施例中，由于实时提取音频，则可以在到达下一个周期之前，实时对提取的音频进行处理，使得可以有较长的时间进行音频事件识别。相应地，可以提高直播视频中的音频的采样率，以提高音频事件识别的精度。则在一些实施例中，直播视频中的音频的采样率大于录制视频中的音频的采样率。在一些实施例中，还可以以更高的码率提取直播
视频中的音频，进而基于该音频可以提高音频事件识别的准确率。
266.需要说明的是，基于一帧音频一般难以进行一次音频事件识别，则可以在每间隔一段时间后，基于该段时间内提取的音频进行一次音频事件识别，进而减少了进行音频事件识别的次数，提高了音频事件识别的效率。在本公开实施例中，在每个时间段内进行音频事件识别的过程与步骤s306同理，在此不再赘述。
267.在步骤s605中，对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息，每个目标事件信息用于指示一个目标事件和该目标事件的发生时间段。
268.在本公开实施例，由于实时提取图像和音频，则可以在每间隔一段时间后，对该段时间内得到的第一事件信息和第二事件信息进行融合，得到该段时间内的目标事件信息。在本公开实施例中，在每个时间段内对第一事件信息和第二事件信息进行融合的过程与步骤s307同理，在此不再赘述。
269.在步骤s606中，基于该至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，该至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
270.在本公开实施例中，步骤s606与步骤s309同理，在此不再赘述。
271.需要说明的是，由于实时得到目标事件信息，则在每得到一个目标事件信息后，从视频中裁剪该目标事件信息对应的原始子片段，并将该目标事件信息对应的原始子片段进行缓存，直到当前时间到达下一个获取视频的周期。
272.在一些实施例中，在生成剪辑视频后，将该剪辑视频发送给终端，且向终端发送提示信息，该提示信息用于提示主播对该剪辑视频进行查看和分发，进而达到助力消费和直播引流的目的。基于本公开实施例提供的方法生成剪辑视频，这样在帮助用户快速消费直播视频中的精彩片段的同时，无需人工参与即可生成剪辑视频，节省了主播的创作成本，且在直播过程中和直播结束后可以持续分发该剪辑视频，进而提高了直播视频的影响力。并且，由于实时生成直播视频的剪辑视频，这样生成的剪辑视频可以成为直播视频中直播内容的补充，用户可以选择性地在直播间切换直播视频和剪辑视频，加强了用户在直播间的内容互动。且剪辑视频在直播间实时呈现，该剪辑视频产量可以成为对主播输出的一种激励，进而可以促进主播持续产出高质量的直播内容，形成良性循环。
273.参见图7，图7是根据一示例性实施例示出的一种事件识别方法的流程图，执行主体为。该方法包括4个流程阶段，分别为直播视频获取阶段、目标场景分类阶段、高光识别阶段和高光成片阶段。在直播视频获取阶段，获取直播视频的实时片段，且对该实时片段提取图像和音频。在目标场景分类阶段，基于图像和音频确定目标场景的场景类型。在moba类游戏的场景类型下，则在高光识别阶段，确定图像中的kda区域，在该kda区域识别kda分值，以实现图像事件识别，且检测音频中的击杀音效，以实现音频事件识别。在枪战射击类游戏的场景类型下，则在高光识别阶段，对图像进行文本识别，得到击杀、淘汰、胜利等文本关键词，且检测音频中的枪声音效，以识别音频事件。然后对图像事件和音频事件进行融合，得到多个目标事件和该多个目标事件的发生时间段。在高光成片阶段，从直播视频中剪出该多个目标事件对应的至少一个目标子片段，基于预设视频模板，对该至少一个目标子片段进行混剪、渲染和配乐，得到剪辑视频。
274.参见图8，图8是根据一示例性实施例示出的一种事件识别方法的流程图。该方法包括数据获取阶段、高光时刻检测阶段和创作阶段。该方法包括执行主体不同的两种实现方式。以终端为执行主体的实现方式中，在数据获取阶段，终端获取用户导入的录制视频。在高光时刻检测阶段，终端对该录制视频提取图像和音频等数据后，将该数据发送给服务器，通过服务器的ai(artificial intelligence，人工智能)识别模型和策略算法，得到事件识别结果，服务器将该事件识别结果发送给终端，终端基于该事件识别结果，从录制视频中裁剪出高光片段。在创作阶段，终端通过ai技术，对该高光片段进行剪辑，得到剪辑视频。以服务器为执行主体的实现方式中，在数据获取阶段，在终端的用户直播开播后，服务器实时获取直播数据流并缓存。在高光时刻检测阶段，服务器对本地缓存的直播数据流进行处理，通过模型识别和后处理算法，得到事件识别结果，基于该事件识别结果，从录制视频中裁剪出高光片段。在创作阶段，服务器通过ai技术，对该高光片段进行剪辑，得到剪辑视频。
275.本公开实施例提供的方法适用于录制视频和直播视频等多种类型的视频，并且可以适用于多种场景类型，降低了算法难度，节约了处理资源、降低了处理延时。并且将视频中目标事件对应的子片段进行剪辑，得到剪辑视频，使得用户能够快速消费到视频中的精彩内容，避免了用户需要长时间集中精力观看视频。并且，该方法涵盖了多种场景类型，能够分别对多种场景类型的视频进行针对性处理，进而提高了视频处理的灵活性和准确性。
276.本公开实施例提供了一种事件识别方法，该方法基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合至少一个第一事件信息和至少一个第二事件信息来得到至少一个目标事件信息，得到的目标事件信息在保证了全面性的同时具有较高的准确性；进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
277.本公开实施例提供的事件识别方法，能够由电子设备执行，该电子设备被配置为终端和服务器中的至少一项。图9是根据一示例性实施例示出的一种事件识别系统。该事件识别系统包括终端901和服务器902。终端901和服务器902能够通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。在本公开实施例中，终端901上安装有进行视频处理的目标应用，服务器902用于为终端上的目标应用提供后台服务。
278.终端901可以为智能手机、智能手表、台式电脑、手提电脑、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等设备中的至少一种。终端901可以泛指多个终端中的一个，本实施例仅以终端901来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者更多数量，本公开实施例对终端的数量和设备类型均不加以限定。
279.服务器902可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器902可以通过无线网络或有线网络与终端901和其他终端相连。可选地，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器902还可以包括其他功能服务器，以便提供更全面且多样化的服务。
280.终端901，用于提取视频中的多帧图像和音频，将多帧图像和音频发送给服务器
902；
281.服务器902，用于接收多帧图像和音频，基于多帧图像，进行图像事件识别，得到至少一个第一事件信息，基于音频，进行音频事件识别，得到至少一个第二事件信息，对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息；
282.每个第一事件信息用于指示一个图像事件和图像事件的发生时间点，每个第二事件信息用于指示一个音频事件和音频事件的发生时间段，每个目标事件信息用于指示一个目标事件和目标事件的发生时间段。
283.在一些实施例中，服务器902，用于对于每个第一事件信息，在多个音频事件中包括与第一事件信息所指示的图像事件匹配的目标音频事件的情况下，对第一事件信息进行处理，得到目标事件信息，音频事件与图像事件匹配指音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配；或者，
284.对于每个第二事件信息，在至少一个图像事件中包括与第二事件信息所指示的音频事件匹配的目标图像事件的情况下，对目标图像事件对应的第一事件信息进行处理，得到目标事件信息。
285.在一些实施例中，服务器902，用于基于第一事件信息所指示的图像事件的发生时间点，确定目标时间段，第一事件信息所指示的图像事件的发生时间点为目标时间段中的一个时间点；
286.将第一事件信息所指示的图像事件作为目标事件信息所指示的目标事件，将目标时间段作为目标事件信息所指示的目标事件的发生时间段。
287.在一些实施例中，服务器902，用于响应于接收到终端901发送的多帧图像中的前n帧图像，确定目标场景的场景类型，n为大于等于1的整数；
288.基于多帧图像和场景类型，进行图像事件识别，得到至少一个第一事件信息。
289.在一些实施例中，服务器902，用于对于多帧图像中相邻的任意两帧图像，将两帧图像进行比对，在两帧图像的事件分值发生变化的情况下，从视频中获取两帧图像的中心图像，两帧图像的中心图像的时间戳为两帧图像的时间戳的均值，事件分值用于指示图像事件的发生次数；
290.将两帧图像的中心图像分别与两帧图像中的任一帧图像组成相邻的任意两帧图像，重复执行上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，且基于获取的中心图像所组成的相邻的任意两帧图像的时间戳之差小于预设差值，将发生变化的事件分值对应的图像事件作为第一事件信息所指示的图像事件，将基于获取的中心图像所组成的相邻的任意两帧图像的时间戳的均值作为第一事件信息所指示的图像事件的发生时间点。
291.在一些实施例中，服务器902，用于分别对两帧图像进行特征提取，得到两帧图像各自的第一事件分值和第二事件分值；
292.在第二事件分值与第一事件分值不同的情况下，确定两帧图像的事件分值发生变化。
293.在一些实施例中，终端901，用于基于预设时间间隔，划分视频，得到多帧原始图像；
294.对多帧原始图像分别进行裁剪，得到多帧图像，多帧图像分别为多帧原始图像的
目标检测区域的图像，目标检测区域用于确定是否发生图像事件。
295.在一些实施例中，服务器902，用于对多帧图像分别进行文本识别；
296.在任一帧图像的文本识别结果与目标文本匹配的情况下，将目标文本对应的图像事件作为第一事件信息所指示的图像事件，将图像的时间戳作为第一事件信息所指示的图像事件的发生时间点。
297.在一些实施例中，视频为录制视频或直播视频，直播视频中的多帧图像的抽帧率大于录制视频中的多帧图像的抽帧率，且直播视频中的音频的采样率大于录制视频中的音频的采样率。
298.在一些实施例中，服务器902，还用于基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
299.在一些实施例中，服务器902，还用于将至少一个目标事件信息发送给终端901；
300.终端901，用于接收至少一个目标事件信息，基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
301.在一些实施例中，终端901，用于基于至少一个目标事件信息，从视频中确定至少一个原始子片段，至少一个原始子片段的起止时间分别为至少一个目标事件信息所指示的目标事件的发生时间段；
302.在属于同一事件类别的原始子片段的数目大于事件类别对应的预设数目的情况下，从属于事件类别的原始子片段中筛选出预设数目的原始子片段，将筛选出的原始子片段作为目标子片段；
303.在属于同一事件类别的原始子片段的数目不大于事件类别对应的预设数目的情况下，将事件类别的原始子片段作为目标子片段。
304.在一些实施例中，终端901，用于获取预设视频模板，预设视频模板用于指示对至少一个目标子片段的剪辑方式；
305.基于预设视频模板，对至少一个目标子片段进行混剪、渲染和配乐，得到剪辑视频。
306.本公开实施例提供了一种事件识别系统，由于基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合至少一个第一事件信息和至少一个第二事件信息来得到至少一个目标事件信息，得到的目标事件信息在保证了全面性的同时具有较高的准确性；进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
307.需要说明的一点是，本技术实施例提供的事件识别系统与上述事件识别方法的实施例属于同一构思，其具体过程详见事件识别方法实施例，在此不做赘述。
308.图10是根据一示例性实施例示出的一种事件识别装置框图。参照图10，该装置包括：
309.获取单元1001，被配置为获取视频中的多帧图像和音频，视频为展示目标场景的视频；
310.图像事件识别单元1002，被配置为基于多帧图像，进行图像事件识别，得到至少一个第一事件信息，每个第一事件信息用于指示一个图像事件和图像事件的发生时间点；
311.音频事件识别单元1003，被配置为基于音频，进行音频事件识别，得到至少一个第二事件信息，每个第二事件信息用于指示一个音频事件和音频事件的发生时间段；
312.信息融合单元1004，被配置为对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息，每个目标事件信息用于指示一个目标事件和目标事件的发生时间段。
313.在一些实施例中，信息融合单元1004，被配置为对于每个第一事件信息，在多个音频事件中包括与第一事件信息所指示的图像事件匹配的目标音频事件的情况下，对第一事件信息进行处理，得到目标事件信息，音频事件与图像事件匹配指音频事件与图像事件属于同一事件类别，且音频事件的发生时间段与图像事件的发生时间点匹配；或者，对于每个第二事件信息，在至少一个图像事件中包括与第二事件信息所指示的音频事件匹配的目标图像事件的情况下，对目标图像事件对应的第一事件信息进行处理，得到目标事件信息。
314.在一些实施例中，信息融合单元1004，被配置为基于第一事件信息所指示的图像事件的发生时间点，确定目标时间段，第一事件信息所指示的图像事件的发生时间点为目标时间段中的一个时间点；
315.将第一事件信息所指示的图像事件作为目标事件信息所指示的目标事件，将目标时间段作为目标事件信息所指示的目标事件的发生时间段。
316.在一些实施例中，多帧图像从终端获取，图像事件识别单元1002，被配置为响应于接收到终端发送的多帧图像中的前n帧图像，确定目标场景的场景类型，n为大于等于1的整数；
317.基于多帧图像和场景类型，进行图像事件识别，得到至少一个第一事件信息。
318.在一些实施例中，图像事件识别单元1002，被配置为对于多帧图像中相邻的任意两帧图像，将两帧图像进行比对，在两帧图像的事件分值发生变化的情况下，从视频中获取两帧图像的中心图像，两帧图像的中心图像的时间戳为两帧图像的时间戳的均值，事件分值用于指示图像事件的发生次数；
319.将两帧图像的中心图像分别与两帧图像中的任一帧图像组成相邻的任意两帧图像，重复执行上述步骤，以获取中心图像，直到基于获取的中心图像所组成的相邻的任意两帧图像的事件分值发生变化，且基于获取的中心图像所组成的相邻的任意两帧图像的时间戳之差小于预设差值，将发生变化的事件分值对应的图像事件作为第一事件信息所指示的图像事件，将基于获取的中心图像所组成的相邻的任意两帧图像的时间戳的均值作为第一事件信息所指示的图像事件的发生时间点。
320.在一些实施例中，图像事件识别单元1002，被配置为分别对两帧图像进行特征提取，得到两帧图像各自的第一事件分值和第二事件分值；在第二事件分值与第一事件分值不同的情况下，确定两帧图像的事件分值发生变化。
321.在一些实施例中，图像事件识别单元1002，被配置为对多帧图像分别进行文本识别；
322.在任一帧图像的文本识别结果与目标文本匹配的情况下，将目标文本对应的图像事件作为第一事件信息所指示的图像事件，将图像的时间戳作为第一事件信息所指示的图
像事件的发生时间点。
323.在一些实施例中，视频为录制视频或直播视频，直播视频中的多帧图像的抽帧率大于录制视频中的多帧图像的抽帧率，且直播视频中的音频的采样率大于录制视频中的音频的采样率。
324.在一些实施例中，事件识别装置还包括：
325.第一剪辑单元，被配置为基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
326.在一些实施例中，事件识别装置还包括：
327.第二剪辑单元，被配置为将至少一个目标事件信息发送给终端，终端用于接收至少一个目标事件信息，基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
328.本公开实施例提供了一种事件识别装置，由于基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合该至少一个第一事件信息和该至少一个第二事件信息来得到至少一个目标事件信息，得到的目标事件信息在保证了全面性的同时具有较高的准确性，进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
329.图11是根据一示例性实施例示出的一种事件识别装置框图。参照图11，该装置包括：
330.提取单元1101，被配置为提取视频中的多帧图像和音频，视频为展示目标场景的视频；
331.发送单元1102，被配置为将多帧图像和音频发送给服务器，服务器用于接收多帧图像和音频，基于多帧图像，进行图像事件识别，得到至少一个第一事件信息，基于音频，进行音频事件识别，得到至少一个第二事件信息，对至少一个第一事件信息和至少一个第二事件信息进行融合，得到至少一个目标事件信息；
332.每个第一事件信息用于指示一个图像事件和图像事件的发生时间点，每个第二事件信息用于指示一个音频事件和音频事件的发生时间段，每个目标事件信息用于指示一个目标事件和目标事件的发生时间段。
333.在一些实施例中，提取单元1101，被配置为基于预设时间间隔，从视频中提取图像，得到多帧原始图像；对多帧原始图像分别进行裁剪，得到多帧图像，多帧图像分别为多帧原始图像的目标检测区域的图像，目标检测区域用于确定是否发生图像事件。
334.在一些实施例中，事件识别装置还包括：
335.信息接收单元，被配置为接收服务器发送的至少一个目标事件信息；
336.剪辑单元，被配置为基于至少一个目标事件信息，对视频中的至少一个目标子片段进行剪辑，得到剪辑视频，至少一个目标子片段的起止时间分别与至少一个目标事件信息所指示的目标事件的发生时间段匹配。
337.在一些实施例中，剪辑单元，还被配置为基于至少一个目标事件信息，从视频中确
定至少一个原始子片段，至少一个原始子片段的起止时间分别为至少一个目标事件信息所指示的目标事件的发生时间段的起止时间；在属于同一事件类别的原始子片段的数目大于事件类别对应的预设数目的情况下，从属于事件类别的原始子片段中筛选出预设数目的原始子片段，将筛选出的原始子片段作为目标子片段；在属于同一事件类别的原始子片段的数目不大于事件类别对应的预设数目的情况下，将事件类别的原始子片段作为目标子片段。
338.在一些实施例中，剪辑单元，被配置为获取预设视频模板，预设视频模板用于指示对至少一个目标子片段的剪辑方式；基于预设视频模板，对至少一个目标子片段进行混剪、渲染和配乐，得到剪辑视频。
339.本公开实施例提供了一种事件识别装置，由于基于视频中的多帧图像进行图像事件识别，得到了至少一个第一事件信息，且基于视频中的音频进行音频事件识别，得到了至少一个第二事件信息；由于这两种事件信息是从不同的维度得到的，进而再融合该至少一个第一事件信息和该至少一个第二事件信息来得到至少一个目标事件信息，得到的目标事件信息在保证了全面性的同时具有较高的准确性，进而基于该至少一个目标事件信息进行剪辑，能够得到准确度高的剪辑视频，从而提高了视频剪辑的准确性。
340.关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
341.图12是根据一示例性实施例示出的一种终端1200的框图。图12示出了本公开一个示例性实施例提供的终端1200的结构框图。通常，终端1200包括有：处理器1201和存储器1202。
342.处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
343.存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1201所执行以实现本公开中方法实施例提供的事件识别方法。
344.在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207和电源1208中的至少一种。
345.外围设备接口1203可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
346.射频电路1204用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括nfc(near field communication，近距离无线通信)有关的电路，本公开对此不加以限定。
347.显示屏1205用于显示ui(user interface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在再一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用lcd(liquid crystal display，液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
348.摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
349.音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可
以包括耳机插孔。
350.电源1208用于为终端1200中的各个组件进行供电。电源1208可以是交流电、直流电、一次性电池或可充电电池。当电源1208包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
351.本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
352.图13是根据本技术实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)1301和一个或一个以上的存储器1302，其中，存储器1302用于存储可执行程序代码，处理器1301被配置为执行上述可执行程序代码，以实现上述各个方法实施例提供的事件识别方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。
353.在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由终端的处理器执行以完成上述事件识别方法。可选地，计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
354.在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述事件识别方法。
355.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
356.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

事件识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献