用于计算机学习的系统和方法与流程

2022-07-02 06:27:13 来源：中国专利 TAG：

用于计算机学习的系统和方法
1.相关申请的交叉引用
2.本专利申请根据35 usc
§
119与2020年12月13日提交的名称为“用人工智能来自动地且精确地生成亮点视频(automaticallyand precisely generating highlight videos withartificial intelligence)”并且列出zhiyu cheng、le kang、xinzhou、hao tian和xing li为发明人(案卷号28888-2450p (bn201118usn1-临时))的共同未决且共同拥有的美国专利申请号 63/124,832有关并且要求该申请的优先权权益，该专利文献出于所有目的通过援引以其全部内容并入本文。
3.背景
a.技术领域
4.本公开总体上涉及用于计算机学习的系统和方法，该系统和方法可以提供改进的计算机性能、特征和用途。更具体地，本公开涉及用于自动地生成内容的摘要或亮点的系统和方法。
b.

背景技术：

5.随着互联网技术和新兴工具的快速发展，在线生成的视频内容(诸如体育相关或其他事件视频)正以空前的快速步伐增长。特别是在 covid-19流行病期间，由于不允许粉丝在诸如体育场或竞技场的场馆参加活动，因此在线视频的观看量激增。制作亮点视频或其他事件相关视频通常需要人力来手动地编辑原始未经剪裁的视频。例如，最受欢迎的体育视频通常包括几秒的短剪辑，而要使机器精确地理解视频并发现关键事件是极有挑战性的。加上存在的大量原始视频，将原始视频提炼成适当的亮点视频是非常耗时且昂贵的。而且，鉴于观看内容的时间有限，对于观众来说，能够获得适当捕捉突出元素或事件的浓缩内容是很重要的。
6.因此，需要的是可以自动地且精确地生成提炼或浓缩的视频内容 (诸如亮点视频)的系统和方法。

技术实现要素：

7.在第一方面，提供了一种计算机实现的方法，包括：
8.对于来自一组视频中的每个视频：
9.执行时间锚定以将视频运行时间与在所述视频中捕获的事项的时间相关联；
10.通过使用与所述事项相关的元数据和由时间锚定获得的关联时间以识别在所述事项发生的感兴趣事件的大致时间来从包括所述感兴趣事件的所述视频生成剪辑；
11.对所述剪辑执行特征提取；以及
12.使用所提取的特征和神经网络模型来获得所述剪辑中的所述感兴趣事件的最终时间值；
13.对于从所述一组视频生成的一组剪辑中的每个剪辑，将所述最终时间值与对应
的基础事实值进行比较以获得损失值；以及
14.使用所述损失值来更新所述神经网络模型。
15.在第二方面，提供了一种系统，包括：
16.一个或多个处理器；以及
17.一个或多个非暂时性计算机可读介质或媒介，所述非暂时性计算机可读介质或媒介包括一个或多个指令集，所述指令集在由所述一个或多个处理器中的至少一者执行时致使执行包括以下各项的步骤：
18.对于来自一组一个或多个视频中的每个视频：
19.执行时间锚定以将视频运行时间与在所述视频中捕获的事项的时间相关联；
20.通过使用与所述事项相关的元数据和由时间锚定获得的关联时间以识别在所述事项发生的感兴趣事件的大致时间来从包括所述感兴趣事件的所述视频生成剪辑；
21.对所述剪辑执行特征提取；以及
22.使用所提取的特征和神经网络模型来获得所述剪辑中的所述感兴趣事件的最终时间值；以及
23.使用所述感兴趣事件的所述最终时间值来制作包括所述感兴趣事件的较短剪辑。
24.在第三方面，提供了一种计算机实现的方法，包括：
25.对于来自一组一个或多个视频中的每个视频：
26.执行时间锚定以将视频运行时间与在所述视频中捕获的事项的时间相关联；
27.通过使用与所述事项相关的元数据和由时间锚定获得的关联时间以识别在所述事项发生的感兴趣事件的大致时间来从包括所述感兴趣事件的所述视频生成剪辑；
28.对所述剪辑执行特征提取；以及
29.使用所提取的特征和神经网络模型来获得所述剪辑中的所述感兴趣事件的最终时间值；以及
30.使用所述感兴趣事件的所述最终时间值来制作包括所述感兴趣事件的较短剪辑。
31.在第四方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面所述的方法。
32.在第五方面，提供了一种存储有指令的非暂时性计算机可读介质，其中，所述指令在由处理器执行时致使执行根据第一方面所述的方法。
附图说明
33.将参考本公开的实施例，其示例可以在附图中示出。这些附图是说明性的，而不是限制性的。尽管在这些实施例的上下文中一般性地描述了本公开，但是应当理解，其并不旨在将本公开的范围限制于这些特定实施例。附图中的项目可能不是按比例绘制的。
34.图1描绘了根据本公开的实施例的亮点生成系统的概述。
35.图2描绘了根据本公开的实施例的用于训练生成模型的概述方法。
36.图3描绘了根据本公开的实施例的数据集生成过程的总体概述。
37.图4概括了根据本公开的实施例的评论和标签的源于云的文本数据中的一些。
实施为组件。组件可以用软件、硬件或其组合来实现。
60.此外，附图中的组件或系统之间的连接并不限于直接连接。相反，这些组件之间的数据可以由中间组件修改、重新格式化或以其它方式改变。此外，可以使用另外的或更少的连接。还应当注意，术语“联接”、
ꢀ“
连接”、“通信的联接”、“接口连接”、“接口”或其任何衍生物应当被理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。还应注意，诸如信号、响应、应答、确认、消息、查询等的任何通信可以包括一个或多个信息交换。
61.在说明书中对“一个或多个实施例”、“优选实施例”、“实施例”、
ꢀ“
多个实施例”等的引用意味着结合该实施例描述的特定特征、结构、特性或功能被包括在本公开的至少一个实施例中，并且可以在一个以上的实施例中。此外，在说明书的各个地方出现的上述短语不一定都是指相同的一个或多个实施例。
62.在本说明书的各个地方使用某些术语是为了说明而不应被解释为限制。服务、功能或资源不限于单个服务、功能或资源；这些术语的使用可以指相关服务、功能或资源的组合，其可以是分布式的或聚集的。术语“包括”、“包括有”、“包含”和“包含有”应理解为开放式术语，并且以下的任何列表都是示例，而不意味着限于所列出的项目。“层”可以包括一个或多个操作。词语“最优”、“优化”、“最优化”等指代结果或过程的改进，而不要求指定的结果或过程达到“最优”或峰值状态。对存储器、数据库、信息库、数据存储、表、硬件、高速缓存等的使用在本文中可以用来指代系统部件或可以向其输入或以其他方式记录信息的部件。
63.在一个或多个实施例中，停止条件可以包括：(1)已经执行了设定次数的迭代；(2)已经达到一定量的处理时间；(3)收敛(例如，连续迭代之间的差值小于第一阈值)；(4)发散(例如，性能退化)；以及(5) 已经达到可接受的结果。
64.本领域技术人员应认识到：(1)某些步骤可任选地进行；(2)步骤可以不限于本文所述的具体顺序；(3)某些步骤可以以不同的顺序进行；以及(4)某些步骤可以同时进行。
65.本文所用的任何标题仅用于组织目的，不应用于限制说明书或权利要求书的范围。在该专利文献中提及的每个参考文献/文献通过引用全文并入到本文中。
66.应注意的是，本文提供的任何实验和结果通过示例的方式提供，并且使用一个或多个具体实施例在具体条件下进行；因此，这些实验和它们的结果都不应用于限制本专利文件的公开范围。
67.还应当注意，尽管本文中描述的实施例可以在体育赛事(比如足球) 的上下文中，但本公开的方面不限于此。因此，本公开的方面可以被应用或适用于其他上下文。
68.a.概述
69.1.总体概述
70.本文中呈现了用于自动化地、大量地且精确地生成亮点视频的实施例。为了说明起见，将使用足球赛。然而，应注意，本文中实施例可以用于或适用于其他体育赛事和非体育赛事，诸如音乐会、演出、演讲、展示、新闻、秀场、视频游戏、游戏、体育赛事、动画片、社交媒体帖子、电影等。这些活动中的每一者可以被称为事项或事件，并且事项的亮点可以被称为感兴趣事件、出现或亮点。
71.利用大规模多模式数据集，创建并训练现有技术深度学习模型以检测游戏中的
一个或多个事件，诸如进球，但是也可以使用过多的感兴趣事件(例如，处罚、受伤、打架、红牌、角球、罚球等)。本文中还呈现了用于提高感兴趣事件发现性能的集成学习模块的实施例。
72.图1描绘了根据本公开的实施例的亮点生成系统的概述。在一个或多个实施例中，收集大规模源于云的文本数据和未经剪裁的足球赛视频并且将其馈送到一系列数据处理工具，以生成包含感兴趣的主要比赛事件(例如，进球事件)的候选长剪辑(例如，70秒，但是可以使用其他时间长度)。在一个或多个实施例中，新颖的感兴趣事件发现流水线精确地定位剪辑中的事件的瞬间。最后，实施例可以围绕检测到的亮点构建一个或多个自定义亮点视频/故事。
73.图2描绘了根据本公开的实施例的用于训练生成模型的概述方法。为了训练生成系统，必须获得或生成(205)事件相关数据的大规模多模式数据集，使得它可以用作训练数据。由于视频运行时间可能不对应于事件中的时间，因此在一个或多个实施例中，对于一组训练视频中的每个视频，执行(210)时间锚定以便使视频运行时间与事件时间相关联。元数据(例如，评论和/或标签)和通过时间锚定获得的关联时间然后可以用来识别(215)感兴趣事件的大致时间，以从包括感兴趣事件的视频生成剪辑。通过使用剪辑而不是整个视频，处理需求可以大大降低。对于每个剪辑，提取(220)特征。在一个或多个实施例中，可以使用一组预先训练的模型来获得提取的特征，这可以是多模式的。
74.在一个或多个实施例中，对于每个剪辑，使用神经网络模型来获得 (225)感兴趣事件的最终时间值。在实施例中，神经网络模型可以是从该一组模型接收特征并输出最终时间值的集成模型。鉴于每个剪辑的预测的最终时间值，将预测的最终时间值与其对应的基础事实值进行比较 (230)以获得损失值；并且可以使用损失值来更新(235)模型。
75.一旦被训练，生成系统就可以鉴于输入事件视频来输出并用来生成亮点视频。
76.2.相关工作
77.近年来，人工智能已经应用于分析视频内容和生成视频。在体育分析中，开发了许多计算机视觉技术来理解体育广播。具体地，在足球方面，研究者提出了以下算法：识别关键比赛事件和球员动作、使用球员的身体取向来分析传球可行性、结合音频和视频流两者来检测事件、使用广播流和轨迹数据来辨识球场上的团体活动、聚集深度帧特征来发现主要比赛事件，以及利用动作周围的事件上下文信息来处理表示这些动作的固有时间模式。
78.用大规模数据集训练深度神经网络，以用于各种视频理解任务。最近的挑战包括找到活动的时间边界或在时间域中定位事件。在足球视频理解中，一些人将进球事件定义为球越过球门线的瞬间。
79.在一个或多个实施例中，采用进球的这个定义，并且利用现有技术深度学习模型和方法以及音频流处理技术，另外在实施例中采用集成学习模块以精确地发现足球视频剪辑中的事件。
80.3.实施例的一些贡献
81.在本专利文件中，呈现了可以精确地识别视频中的事件发生的自动亮点生成视频的实施例。在一个或多个实施例中，该系统可以用来在没有传统的人力编辑的情况下大量地生成亮点视频。由一个或多个实施例提供的一些贡献包括但不限于以下项：
82.–
创建了大规模多模式足球数据集，其包括源于云的文本数据、高清晰度视频。而且，在一个或多个实施例中，应用各种数据处理机来解析、清理和注释收集到的数据。
83.–
将来自多个源的多模式数据对齐，并且通过使用来自源于云的评论数据的解析标签将原始视频切割成70秒的剪辑来生成候选长视频剪辑。
84.–
本文中呈现了事件发现流水线的实施例。实施例从多个角度提取高级特征表示，并且应用时间定位法来帮助发现剪辑中的事件。另外，实施例进一步设计有集成学习模型以提高事件发现的性能。应注意，尽管事项可以是足球赛并且感兴趣事件可以是进球，但是实施例可以用于或适用于其他事项和其他感兴趣事件。
85.–
实验结果表明测试的实施例以在发现剪辑中的进球事件的5秒公差实现接近1的准确度(0.984)，这优于现有的工作并且建立了新的现有技术。这一结果有助于捕捉准确的进球瞬间并且精确地生成亮点视频。
86.4.专利文件布局
87.本专利文件被组织如下：章节b介绍创建的数据集以及如何收集并注释数据。在章节c中呈现用于构建亮点生成系统实施例的方法以及如何用提出的方法来精确地发现足球剪辑视频中的进球事件。在章节d中总结并讨论实验结果。应重复，仅通过说明方式来提供将足球赛用作整体内容并且将进球用作该内容内的事件，并且本领域技术人员应认识到，本文中的方法可以应用于其他内容领域，包括超出比赛领域，并且应用于其他事件。
88.b.数据处理实施例
89.为了训练和开发系统实施例，创建了大规模多模式数据集。图3描绘了根据本公开的实施例的数据集生成过程的总体概述。在一个或多个实施例中，收集(305)与事件的视频相关联的一个或多个评论和/或标签。例如，可以爬取来自网站和其他源的足球赛评论和标签(例如，角球、进球、阻攻、投球等)(例如参见图1中的标签和评论105)以获得数据。而且，还收集(305)与元数据(即，评论和/或标签)相关联的视频。对于本文中的实施例，收集来自各种源的高清晰度(hd)未经剪裁的足球赛视频。使用亚马逊土耳其机器人(amt)来注释(315)未经剪裁的原始视频中的比赛开始时间。在一个或多个实施例中，可以使用(320)元数据(例如，评论和/或标签信息)来帮助识别感兴趣事件的大致时间，以根据包括感兴趣事件的视频生成剪辑(例如，进球的剪辑)。最终，使用亚马逊土耳其机器人(amt)来识别经处理的视频剪辑中的感兴趣事件(例如，进球)的精确时间。在进球发现模型的实施例的训练期间，可以将注释的进球时间用作基础事实。
90.1.数据收集实施例
91.在一个或多个实施例中，爬取体育网站以获得超过1,000,000条平均和标签，这涵盖了从2015年到2020年赛季来自不同联赛的10,000多场足球赛。图4概括了根据本公开的实施例的评论和标签的源于云的文本数据中的一些。
92.评论和标签提供了每场比赛的大量信息。例如，它们包括比赛日期、球队名称、联赛、比赛事件时间(按分钟计)、事件标签(诸如进球、射门、角球、换人、界外球等)，以及相关联的球员姓名。来自源于云的数据的这些评论和标签可以转换成或者可以被认为是原始视频处理实施例以及亮点视频生成实施例的丰富元数据。
93.另外，从各种在线源收集超过2600个高清晰度(720p或以上)未经剪裁的足球赛
视频。比赛来自2014年至2020年的各个联赛。图5概括了根据本公开的实施例的收集到的未经剪裁的游戏视频。
94.2.数据注释实施例
95.在一个或多个实施例中，首先将未经剪裁的原始视频发送到亚马逊土耳其机器人(amt)劳工以注释比赛开始时间(被定义为裁判吹哨开始比赛的时间)，然后对源于云的比赛评论和标签进行解析以得到每场比赛的进球时间(按分钟计)。通过将进球分钟标签与视频中的比赛开始时间结合，生成包含进球事件的候选70秒剪辑。接下来，在一个或多个实施例中，将这些候选剪辑发送到amt以按秒注释进球时间。图6描绘了根据本公开的实施例的被设计用于供amt进行进球时间注释的用户界面实施例。
96.为了在amt上进行进球时间注释，每个hit(人工智能任务，单个劳工分配)包含一(1)个候选剪辑。将每个hit分配给五(5)个amt 劳工，并且收集中间时间戳值作为基础事实标签。
97.c.方法实施例
98.在本章节中，呈现亮点生成系统的五个模块中的每一者的实施例的细节。通过简单概述，章节c.1中的第一模块实施例是检查视频的时间完整性并将比赛中的任何时间映射到视频中的时间的比赛时间锚定实施例。
99.章节c.2中的第二模块实施例是粗间隔提取实施例。该模块是与通常研究的事件发现流水线的主要区别。在该模块的实施例中，提取70秒的间隔(但可以使用其他大小的间隔)，其中通过利用文本元数据来定位特定事件。与常见的端到端视觉事件发现流水线相比优选该方法的原因至少有三个。第一，用元数据提取的剪辑包含更多的上下文信息并且可以在不同的域上使用。通过元数据，剪辑可以用作时间切割(诸如游戏亮点视频)或者可以与同一球队或球员的其他剪辑一起使用，以生成球队、球员和/或赛季亮点视频。第二个原因是源于文本数据的低事件模糊性的稳健性。而且第三，通过分析感兴趣事件的较短剪辑而不是整个视频，保留许多资源(处理、处理时间、内存、能耗等)。
100.系统实施例中的第三模块的实施例是多模式特征提取。从多个角度提取视频特征。
101.第四模块的实施例是精确时间定位。分别在章节c.3和章节c.4中提供了对如何设计和实施特征提取和时间定位的实施例的技术的广泛研究。
102.最终，在章节c.5中描述了集成学习模块的实施例。
103.1.比赛时间锚定实施例
104.已发现，事件视频中的事件时钟有时是无规律的。主要原因似乎是从互联网收集到的时间视频文件中的至少一些包含损坏的时间戳或帧。观察到，在视频收集中，约10％的视频文件包含在时间上移动视频的部分(有时超过10秒)的时间损坏。观察到的一些严重损坏包括丢失超过 100秒的帧。除了视频文件中的错误，在事项/事件期间可能发生了一些意外地罕见事件，并且事件时钟必须停止几分钟然后再继续。如果是视频内容损坏或比赛中断，则时间违规可以被视作向前或向后的时间跳跃。为了精确地定位元数据指定的事件的剪辑，在一个或多个实施例中，检测时间跳跃并且相应地进行校准。因此，在一个或多个实施例中，设计并使用锚定机制。
105.图7描绘了根据本公开的实施例的用于使事件时间和视频运行时间相关联的方
法。在一个或多个实施例中，以5秒的间隔(但可以使用其他间隔)对视频帧执行(705)ocr(光学字符辨识)，以读取视频中显示的比赛时钟。可以从辨识的比赛时钟来推断(710)视频中的比赛开始时间。每当出现时间跳跃时，在一个或多个实施例中，保留(710)在时间跳跃之后的比赛时间的记录，并且这被称作或称为时间锚。利用时间锚，在一个或多个实施例中，比赛中的任何时间都可以映射(715)到视频中的时间(即，视频运行时间)，并且可以精确地提取由元数据指定的任何剪辑。图8示出了根据本公开的实施例的辨识比赛视频中的定时器数位的示例。
106.如图8所示，可以辨识定时器数位805至820并将其与视频运行时间相关联。实施例可以随时间收集多个辨识结果，并且可以基于空间平稳性和时间连续性进行自我校正。
107.2.粗间隔提取实施例
108.图9描绘了根据本公开的实施例的用于根据输入视频来生成剪辑的方法。在一个或多个实施例中，对来自源于云的比赛评论和标签的元数据进行解析(905)，该元数据包括进球事件的按分钟计的时间戳。结合通过ocr工具(以上讨论)的实施例检测到的比赛开始时间，可以编辑原始视频以生成包含感兴趣事件的x秒(例如，70秒)候选剪辑。在一个或多个实施例中，可以通过以下等式来描述提取规则：
109.t
{clipstart}
＝t
{gamestart}
60*t
{goalminute}-公差
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
1)
110.t
{clipend}
＝t
{clipstart}
(基础剪辑长度 2*公差)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
2)
111.在一个或多个实施例中，鉴于进球分钟t
{goalminute}
和比赛开始时间 t
{gamestart}
，提取自视频中的t
{clipstart}
秒开始的剪辑。在一个或多个实施例中，候选剪辑的持续时间可以设置为70秒(其中基础剪辑长度是60 秒并且公差是5秒，但是应注意，可以使用不同的值和不同的方案)，因为这涵盖了感兴趣事件发生在非常接近进球分钟时的角球情况，并且还容忍与ocr检测的比赛开始时间的小偏差。在下一章节，呈现用于发现候选剪辑中的进球秒(球越过球门线的瞬间)的方法实施例。
112.3.多模式特征提取实施例
113.在本章节，公开了用于从候选剪辑获得高级特征表示的三个实施例。
114.a)用预先训练的模型进行特征提取的实施例
115.图10描绘了根据本公开的实施例的特征提取。鉴于视频数据，在一个或多个实施例中，提取(1005)时间帧，并且如果需要匹配输入大小，则在空间域调整大小(1010)，以馈送深度神经网络模型来获得高级特征表示。在一个或多个实施例，使用在图像数据集上预先训练的resnet-152 模型，但是可以使用其他网络。在一个或多个实施例中，以原始视频固有的每秒帧数(fps)提取时间帧，并且然后以2fps进行下采样，即，获得原始视频中的每秒2帧的resnet-152特征表示。resnet是在全连接的 1000层输出每帧2048个尺寸的特征表示的极深神经网络。在一个或多个实施例中，在softmax层之前的层的输出可以用作提取的高级特征。应注意，可以使用resnet-152来从单个图像提取高级特征；这不是固有地嵌入的时间上下文信息。图11示出了根据本公开的实施例的用于提取高级特征的流水线1100。
116.b)slowfast特征提取器实施例
117.作为视频特征提取器的一部分，在一个或多个实施例中，可以使用 slowfast网络架构，诸如由feichtenhofer等人(feichtenhofer、c.fan、 h.malik j.和he k，用于视频辨
识的slowfast网络(slowfast networks forvideo recognition)，见于ieee国际计算机视觉会议的会议录(第6202 至6211页)(2019年)，该文献通过援引以其全部内容并入本文)或由 xiao等人(xiao等人，用于视频辨识的视听slowfast网络(audiovisualslowfast networks for video recognition)，可在arxiv.org/abs/2001.08740v1 获得(2020年)，该文献通过援引以其全部内容并入本文)提出的网络架构；但是应注意，可以使用其他网络架构。图12图形地描绘了根据本公开的实施例的可以用于提取特征的神经网络模型。
118.图13描绘了根据本公开的实施例的使用slowfast神经网络模型的特征提取。在一个或多个实施例中，使用训练数据集用预先训练的权重将 slowfast网络初始化(1305)。可以将网络微调(1310)为分类器。下表 1中的第二列示出在测试数据集的情况下使用基线网络的事件分类结果。在一个或多个实施例中，使用特征提取器来将4秒剪辑分成4类：1)远离感兴趣事件(例如，进球)，2)刚好在感兴趣事件之前，3)感兴趣事件，以及4)刚好在感兴趣事件之后。
119.可以实施若干技术来找到通过第1名误差百分比评估的最佳分类器。首先，应用比如图12中构建的网络，该网络将音频作为额外路径添加到 slowfast网络(avslowfast)。网络的视觉部分可以用相同的权重进行初始化。可以看出，对视觉和音频特征的直接结合训练实际上损害性能。这是在训练多模式网络时发现的常见问题。在一个或多个实施例中，应用在视觉和音频模式分别添加不同损失函数的技术，并且用多任务损失来训练整个网络。在一个或多个实施例中，可以使用音频-视觉结果以及音频和视觉分支中的每一者的交叉熵损失的线性组合。线性组合可以是加权组合，其中可以学习或可以选择权重以作为超参数。获得在表1的底行中示出的最佳第1名误差结果。
120.表1.事件分类的结果。
121.算法第1名误差％slowfast33.27仅音频60.01avslowfast40.84avslowfast多任务31.82
122.在进球发现流水线的一个或多个实施例中，可以利用该网络的特征提取器部分(具有多任务损失的avslowfast)。因此，目的是降低对应于较强特征的第1名误差。
123.c)平均绝对音频特征实施例
124.通过听取事件的声带(例如，没有现场评论的比赛)，人们可以经常简单地根据观众的音量来决定何时发生感兴趣事件。受到这一观察启发，发展了直接从音频提取关于感兴趣事件的关键信息的简单方法。
125.图14描绘了根据本公开的实施例的用于音频特征提取和感兴趣事件时间预测的方法。在一个或多个实施例中，取得音频波的绝对值并且下采样(1405)至1赫兹(hz)。这个特征表示可以被称为平均绝对特征，因为它表示每一秒的平均声音幅度。图15a和图15b分别示出了根据本公开的实施例的一个剪辑的原始音频波及其平均绝对特征的示例。
126.对于每个剪辑，可以定位(1410)这个平均绝对音频特征1500b的最大值1505。通过对于测试数据集中的剪辑定位这个平均绝对音频特征的最大值(例如，最大值1505)及其对应的时间(例如，时间1510)，实现事件时间定位的79％的准确性(按5秒的公差)。
127.在一个或多个实施例中，对于剪辑中的时间，可以将平均绝对音频特征(例如，图15b中的1500b)视作感兴趣事件的似然预测。如下面将讨论，这个平均绝对音频特征可以是输入到预测感兴趣事件的发生的剪辑内的最终时间的集成模型的特征。
128.4.动作发现实施例
129.为了精确地发现足够赛视频中的进球瞬间，在一个或多个实施例中，结合围绕该瞬间的时间上下文信息以学习视频中发生的情况。例如，在进球事件发生之前，进球球员将射球(或头球)，并且球将朝向球门移动。在一些情形下，进攻和防守球员都聚集在罚球区并且离球门不远。在进球事件之后，通常，进球球员将跑到边线、与队友拥抱，并且观看者和教练也会庆祝。直观地，视频中的这些模式可以帮助模型学习发生的情况并且发现进球事件的瞬间。
130.图16描绘了根据本公开的实施例的用于预测视频剪辑中的感兴趣事件的似然的方法。在一个或多个实施例中，为了构建时间定位模型，使用(1605)将提取的视觉特征作为输入的时间卷积神经网络。在一个或多个实施例中，输入特征可以是来自以上讨论的先验模型中的一个或多个的提取特征。对于每个帧，输出混合了帧上的时间信息的一组中间特征。然后，在一个或多个实施例中，将中间特征输入(1610)到分割模型中，该分割模型生成由分割损失函数进行评估的分割分数。交叉熵损失函数可以用于分割损失函数：
[0131][0132]
其中ti是基础事实标签，并且pi是第i类的softmax概率。
[0133]
在一个或多个实施例中，将分割分数和中间特征进行级联并馈送 (1615)到动作发现模块中，该动作发现模块生成(1620)可以通过类似于yolo的动作发现损失函数进行评估的发现预测(例如，在每个时间点发生的感兴趣事件的剪辑的跨度上的似然预测)。l2损失函数可以用于动作发现损失函数：
[0134][0135]
图17示出了根据本公开的实施例的用于时间定位的流水线。在一个或多个实施例中，时间cnn可以包括卷积层，分割模型可以包括卷积层和批归一化层，并且动作发现模型可以包括池化层和卷积层。
[0136]
在一个或多个实施例中，用考虑到时间上下文信息的分割和动作发现损失函数来训练模型实施例，如cioppa等人(a.deli
ꢀèꢀ
ge，a.giancola、 s.ghanem、b.droogenbroeck、m.v.gade r.和moeslund t.，见于“用于足球视频中的动作发现的上下文感知损失函数(a context-aware lossfunction for action spotting in soccer videos)”，2020年ieee/cvf计算机视觉和模式识别会议(cvpr)，该文献通过援引以其全文并入本文)所描述。在一个或多个实施例中，使用分割损失来训练分割模型，其中每个帧与表示该帧有多可能属于动作类别的分数相关联，而使用动作发现损失来训练动作发现模块，其中为动作类别预测时间定位。
[0137]
本文中的实施例与cioppa等人的方法的主要区别中的至少一个在于，本文中的
实施例处理短剪辑，而cioppa等人将整个比赛视频作为输入并且因此在实时地实施时需要长得多的时间来处理视频并提取特征。
[0138]
在一个或多个实施例中，提取的特征输入可以是来自以上讨论的 resnet模型或以上讨论的avslowfast多任务模型的提取特征。替代地，对于avslowfast多任务模型，可以去除动作发现模型的分割部分。图18 描绘了根据本公开的实施例的用于预测视频剪辑中的感兴趣事件的似然的方法。在一个或多个实施例中，时间卷积神经网络从avslowfast多任务模型接收(1805)提取的特征作为输入。对于每个帧，输出混合了帧上的时间信息的一组中间特征。然后，在一个或多个实施例中，将中间特征输入(1810)到动作发现模块中，该动作发现模块生成(1815)可以通过动作发现损失函数进行评估的发现预测(例如，在每个时间点发生的感兴趣事件的剪辑的跨度上的似然预测)。图19示出了根据本公开的实施例的用于动作发现预测的流水线。
[0139]
5.集成学习实施例
[0140]
在一个或多个实施例中，可以从以上讨论的三个模型中的每一者获得剪辑中的感兴趣事件的单个预测时间(例如，拾取最大值)。可以使用预测中的一者或者可以将预测组合(例如，平均化)。替代地，可以使用集成模型将来自每个模型的信息组合，以便获得剪辑中的感兴趣事件的最终预测。
[0141]
图20描绘了根据本公开的实施例的用于预测视频剪辑中的感兴趣事件的似然的方法，并且图21描绘了根据本公开的实施例的用于最终时间预测的流水线。在一个或多个实施例中，可以以集成方式聚集在以上子章节中描述三个模型/特征的输出来增强最终准确度。在一个或多个实施例中，所有这三个先前模型的输出以及位置编码矢量可以进行组合以作为集成模块的输入(2005)。可以使用级联来完成组合，例如，4个d维矢量变成4
×
d矩阵。对于resnet和avslowfast多任务模型，输入可以是来自以上章节5的其动作发现模型的似然预测输出。而且，对于音频，输入可以是剪辑的平均绝对音频特征(例如，图15b)。在一个或多个实施例中，位置编码矢量是表示剪辑的时间长度的1-d矢量(即，索引)。
[0142]
在一个或多个实施例中，集成模块的核心是具有递归头的18层1-d resnet。本质上，集成模块学习从包括多个模式的多维输入特征到剪辑中的感兴趣事件的最终时间位置的映射。在一个或多个实施例中，输出 (2010)来自集成模型的最终时间值预测，并且可以将其与基础事实时间进行比较以计算损失。各个剪辑的损失可以用来更新集成模型的参数。
[0143]
6.推理实施例
[0144]
一旦被训练，就可以部署整体亮点生成系统，诸如图1所描绘。在一个或多个实施例中，该系统可以另外包括允许用户选择所生成的剪辑的一个或多个参数的输入。例如，用户可以使用特定层、比赛的跨度、一个或多个感兴趣事件(例如，进球和惩罚)，以及制作亮点视频的剪辑的数量(或者每个剪辑的时间长度和/或整体亮点汇编视频)。亮点生成系统然后可以访问视频和元数据，并且通过将剪辑级联来生成亮点汇编视频。例如，用户可能想要每感兴趣事件的10秒剪辑。因此，在一个或多个实施例中，自定义的亮点视频生成模块可以得到剪辑的最终预测时间并且选择感兴趣事件之前的8秒和之后的2秒。替代地，如图1所示，球员职业生涯的关键事件可以是感兴趣事件，并且可以自动地识别这些事件并将它们编译成球员职业生涯的“故事”。可以通过自定义的亮点视频生成模块将音频和
其他多媒体特征添加到视频，所述音频和特征可以由用户选择。本领域技术人员应认识到亮点生成系统的其他应用。
[0145]
d.实验结果
[0146]
应注意，这些实验和结构仅通过说明的方式提供并且使用一个或多个具体实施例在具体条件下执行；因此，这些实验和它们的结果都不应被用来限制本专利文件的公开的范围。
[0147]
1.进球发现
[0148]
为了与现有工作公平比较，用包含从数据集的训练集中的比赛提取的进球的候选剪辑训练测试的模型实施例，并且用包含从数据集的有效/ 测试集中的比赛提取的目标的候选剪辑进行验证/测试。
[0149]
图22示出了主要结果：为了发现70秒剪辑中的进球，测试的实施例2205明显优于在发现足球的进球中的当前的现有技术方法2210，被称为上下文感知方法。
[0150]
还示出了通过使用在章节c.3或c.4中描述的三个不同特征获得的中间预测结果，以及由章节c.5中描述的集成学习模块预测的最终结果。3 个剪辑的进球发现结果在图23中堆叠。如图23所示，就其与基础事实标签(用虚线椭圆示出)的接近度而言，集成学习模块实施例的最终预测输出是最佳的。
[0151]
2.一些讨论备注
[0152]
如图9所示，实施例可以在5秒的公差下实现接近1的准确度 (0.984)。这个结果是非凡的，因为它可以用来校正文本的标签错误并且与自定义的音频评论同步。还有助于精确地生成亮点，并且因此向用户/ 编辑者给予围绕确切的进球瞬间自定义其视频的选择。流水线实施例可以自然地延伸以捕捉诸如角球、任意球和惩罚的其他事件的瞬间。
[0153]
应再次重复，仅通过说明方式来将足球赛用作整体内容并且将进球用作该内容内的事件，并且本领域技术人员应认识到，本文中的方法可以应用于其他内容领域，包括超出比赛领域，并且应用于其他事件。
[0154]
e.计算系统实施例
[0155]
在一个或多个实施例中，本专利文件的各方面可以针对一个或多个信息处理系统(计算系统)，可以包括一个或多个信息处理系统(计算系统)，或者可以在一个或多个信息处理系统(计算系统)上实现。信息处理系统/计算系统可以包括可操作来计算、运算、确定、分类、处理、发送、接收、检索、始发、路由、转换、存储、显示、通信、显现、检测、记录、再现、应对或利用任何形式的信息、知识或数据的任何工具或工具的集合。例如，计算系统可以是或可以包括个人计算机(例如，膝上型计算机)、平板计算机、移动设备(例如，个人数字助理(pda)、智能电话、平板手机、平板电脑等)智能手表、服务器(例如，刀片服务器或机架服务器)、网络存储设备、照相机或任何其它合适的设备，并且可以在大小、形状、性能、功能和价格上变化。计算系统可以包括随机存取存储器(ram)、一个或多个处理资源(诸如中央处理单元(cpu)或者硬件或软件控制逻辑)、只读存储器 (rom)、和/或其它类型的存储器。计算系统的附加组件可以包括一个或多个驱动器(例如，硬盘驱动器、固态驱动器、或两者)、用于与外部设备通信的一个或多个网络端口、以及各种输入和输出(i/o)设备 (例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可以包括一个或多个总线，用于在各种硬件组件之间传输通信。
[0156]
图24描绘了根据本公开实施例的信息处理系统(或计算系统)的简化框图。应当理解，系统2400所示的功能可以用于支持计算系统的各种实施例，尽管应当理解，计算系统可以被不同地配置并且包括不同的组件，包括具有如图24所示的更少或更多的组件。
[0157]
如图24所示，计算系统2400包括一个或多个中央处理单元(cpu) 2401，其提供计算资源并控制计算机。cpu 2401可以用微处理器等来实现，并且还可以包括用于数学计算的一个或多个图形处理单元 (gpu)2402和/或浮点协处理器。在一个或多个实施例中，一个或多个cpu 2402可并入显示控制器2409内，例如一个或多个图形卡的一部分。系统2400还可以包括系统存储器2419，其可以包括ram、rom 或两者。
[0158]
也可以提供多个控制器和外围设备，如图24所示。输入控制器 2403表示到诸如键盘、鼠标、触摸屏和/或触笔的各种输入设备2404 的接口。计算系统2400还可以包括用于与一个或多个存储设备2408 接口的存储控制器2407，所述一个或多个存储设备2408中的每一个都包括可以用于记录用于操作系统、实用程序和应用程序的指令的程序的诸如磁带或磁盘的存储介质或者光学介质，所述操作系统、实用程序和应用程序可以包括实现本公开的各个方面的程序的实施例。存储设备2408也可用于存储根据本公开处理的数据或要处理的数据。系统2400还可以包括显示控制器2409，用于提供到显示设备2411的接口，显示设备2411可以是阴极射线管(crt)显示器、薄膜晶体管(tft) 显示器、有机发光二极管、电致发光面板、等离子体面板或任何其它类型的显示器。计算系统2400还可以包括用于一个或多个外围设备 2406的一个或多个外围设备控制器或接口2405。外围设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器2414可以与一个或多个通信设备2415接口，这使得系统 2400能够通过包括因特网、云资源(例如，以太网云、以太网上的光纤信道(fcoe)/数据中心桥接(dcb)云等、局域网(lan)、广域网(wan)、存储区域网(san))的各种网络中的任一个、或通过包括红外信号在内的任何合适的电磁载波信号连接到远程设备。如所描绘的实施例中所示，计算系统2400包括一个或多个风扇或风扇托盘 2418以及一个或多个冷却子系统控制器2417，冷却子系统控制器2417 监控系统2400(或其组件)的热温度并操作风扇/风扇托盘2418以帮助调节温度。
[0159]
在所示系统中，所有主要系统组件可连接到总线2416，总线2416 可表示一个以上的物理总线。然而，各种系统组件可彼此物理接近或不彼此物理接近。例如，输入数据和/或输出数据可以从一个物理位置远程传输到另一个物理位置。此外，可以通过网络从远程位置(例如，服务器)访问实现本公开的各个方面的程序。这种数据和/或程序可以通过各种机器可读介质中的任何一种来传送，所述机器可读介质包括例如：诸如硬盘、软盘和磁带的磁介质；诸如光盘(cd)和全息设备的光学介质；磁光介质；以及被专门配置为存储或执行程序代码的硬件设备，例如专用集成电路(asic)、可编程逻辑设备(pld)、闪存设备、其他非易失性存储器(nvm)设备(诸如基于3d xpoint的设备)以及rom设备和ram设备。
[0160]
本公开的各方面可以被编码在一个或多个非暂时性计算机可读介质上，所述非暂时性计算机可读介质具有用于一个或多个处理器或处理单元的指令，以使得执行步骤。应当注意，一个或多个非暂时性计算机可读介质可以包括易失性和/或非易失性存储器。应注意，替代实施方案是可能的，包括硬件实施方案或软件/硬件实施方案。硬件实现的功能可以使用asic、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“装置”旨在覆盖软件和硬件实现两者。类似地，本文使用的术语“计算机可读介质”包括
其上包含有指令程序的软件和/或硬件，或其组合。考虑到这些实现替换，应当理解，附图和随附的描述提供了本领域技术人员编写程序代码(即，软件)和/ 或制造电路(即，硬件)以执行所需处理所需的功能信息。
[0161]
应当注意，本公开的实施例还可以涉及具有非暂时性、有形的计算机可读介质的计算机产品，所述计算机产品在其上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构造的那些，或者它们可以是相关领域的技术人员已知或可用的类型。有形计算机可读介质的示例包括例如：诸如硬盘，软盘和磁带的磁介质；诸如cd和全息设备的光学介质；磁光介质；以及被专门配置为存储或执行程序代码的硬件设备，诸如 asic、可编程逻辑设备(pld)、闪存设备、其他非易失性存储器(nvm) 设备(如基于3d xpoint的设备)以及rom设备和ram设备。计算机代码的示例包括诸如由编译器产生的机器代码，以及包含由计算机使用解释器执行的更高级代码的文件。本公开的实施例可以全部或部分地作为机器可执行指令来实现，所述机器可执行指令可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者的设置中。
[0162]
本领域的技术人员将认识到，对于本公开的实践，没有计算系统或编程语言是关键的。本领域的技术人员还将认识到，上述的多个元件可以物理地和/或功能地分离成模块和/或子模块或组合在一起。
[0163]
本领域技术人员应当理解，前述实施例和实施方案是示例性的，而不是限制本公开的范围。在阅读本说明书和研究附图后对本领域技术人员显而易见的所有置换、增强、等同、组合和其改进都包括在本公开的真实精神和范围内。还应当注意，任何权利要求的元件可以被不同地安排，包括具有多个从属关系、配置和组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：视频时空超分模型构建方法、装置、设备及可读存储介质

用于计算机学习的系统和方法与流程

相关文献

最热文献