在视频中植入多媒体的方法、装置、电子设备及存储介质与流程

2023-02-02 02:53:05 来源：中国专利 TAG：

1.本公开涉及图像处理
技术领域：
：，尤其涉及一种在视频中植入多媒体的方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。
背景技术：
：：2.随着图像处理技术的发展，图像合成(imagecomposition)得到了广泛的应用。图像合成通过将前景从一张图像上剪贴下来粘贴到另一张图像上，以获得合成图像。合成图像有着广泛的应用前景，例如，可以用来获取感兴趣的目标图像，也可以用于数据增广。3.但是，由于前景所在图像和背景所在图像可能是在不同的拍摄条件(比如时刻、季节、光照、天气等)下拍摄得到的，导致亮度色泽等方面存在明显的不匹配。因此，合成图像可能会存在诸多问题，比如前景的大小或位置不合理、前景和背景看起来不和谐等。相关技术中，可以通过图像和谐化(imageharmonization)来调整合成图像中的前景，使其与背景和谐。例如，采用基于泊松方程引入的泊松融合求解像素最优值的方法，该方法可以根据用户指定的边界条件求解一个泊松方程，以实现梯度域上的连续性，从而在保留了源图像梯度信息的同时，能够融合源图像与目标图像，以达到边界处的无缝融合。4.然而，由于柏松融合的求解过程计算量较大，因此，只能实现简单场景的和谐化。而对于复杂的场景，例如在视频场景下，不仅存在处理耗时的问题，且难以实现理想的融合效果。技术实现要素：5.本公开提供一种在视频中植入多媒体的方法、装置、电子设备、计算机可读存储介质以及计算机程序产品，以至少解决相关技术中基于柏松融合的求解过程计算量大，难以应用于视频场景的问题。本公开的技术方案如下：6.根据本公开实施例的第一方面，提供一种在视频中植入多媒体的方法，包括：7.对待植入视频进行抽帧处理，得到抽取的关键帧；8.将预设的多媒体作为前景植入到所述关键帧中，得到所述关键帧的第一合成图像，所述第一合成图像中包括以所述多媒体为前景的第一前景区域；9.获取所述第一合成图像的第一显示查找表，所述第一显示查找表为所述第一合成图像中，所述第一前景区域的像素值与第一其他区域的像素值之间的映射关系表，所述第一其他区域为所述第一合成图像中除所述第一前景区域之外的区域；10.根据所述第一显示查找表对所述第一前景区域的像素值进行映射，得到映射后的第一目标合成图像；11.根据所述第一目标合成图像进行时序插帧处理，得到已植入多媒体的目标视频。12.在其中一个实施例中，所述获取所述第一合成图像的第一显示查找表，包括：将所述第一合成图像输入预先训练的和谐化模型，以指示所述和谐化模型根据所述第一合成图像中，所述第一前景区域的像素值与第一其他区域的像素值之间的关系，输出与所述关系对应的第一显示查找表。13.在其中一个实施例中，所述和谐化模型的获取方法包括：获取第一样本图像，采用前景掩膜对所述第一样本图像进行图像分割，得到所述第一样本图像的前景掩膜区域；对所述前景掩膜区域的显示参数进行调整，得到调整后的目标前景掩膜区域；根据所述目标前景掩膜区域和所述第一样本图像生成第二样本图像；采用所述第一样本图像和所述第二样本图像，训练卷积神经网络，得到训练后的和谐化模型。14.在其中一个实施例中，所述根据所述目标前景掩膜区域和所述第一样本图像生成第二样本图像，包括：根据所述目标前景掩膜区域，替换所述第一样本图像中的前景掩膜区域，得到区域替换后的第二样本图像。15.在其中一个实施例中，所述采用所述第一样本图像和所述第二样本图像，训练卷积神经网络，得到训练后的和谐化模型，包括：将所述第二样本图像输入所述卷积神经网络，得到所述卷积神经网络输出的和谐化图像；采用设定的损失函数计算所述和谐化图像与所述第一样本图像之间的损失值；根据所述损失值训练所述卷积神经网络，得到训练后的和谐化模型。16.在其中一个实施例中，所述根据所述第一显示查找表对所述第一前景区域的像素值进行映射，得到映射后的第一目标合成图像，包括：针对所述第一前景区域中每一个像素的像素值，根据所述第一显示查找表获取对应像素的目标像素值；根据所述目标像素值，更新所述第一合成图像中对应像素的像素值，得到映射后的第一目标合成图像。17.在其中一个实施例中，所述关键帧具有对应的帧排序；所述根据所述第一目标合成图像进行时序插帧处理，得到已植入多媒体的目标视频，包括：根据相邻关键帧分别对应的所述第一显示查找表，获取所述待植入视频中第二合成图像对应的第二显示查找表，所述第二合成图像为所述待植入视频中位于相邻所述关键帧之间的其他帧对应的合成图像，所述第二合成图像中包括以所述多媒体为前景的第二前景区域，所述第二显示查找表为所述第二合成图像中，所述第二前景区域的像素值与第二其他区域的像素值之间的映射关系表，所述第二其他区域为所述第二合成图像中除所述第二前景区域之外的区域；根据所述第二显示查找表对所述第二前景区域的像素值进行映射，得到映射后的第二目标合成图像；根据所述第一目标合成图像对应的关键帧以及所述第二目标合成图像对应的其他帧分别位于所述待植入视频中的位置，对所述第一目标合成图像和所述第二目标合成图像进行视频合成，得到目标视频。18.在其中一个实施例中，所述相邻关键帧包括第一关键帧和第二关键帧；所述根据相邻关键帧分别对应的所述第一显示查找表，获取所述待植入视频中第二合成图像对应的第二显示查找表，包括：根据所述第一关键帧位于所述待植入视频的第一排序，所述第二关键帧位于所述待植入视频的第二排序，所述第二合成图像对应的其他帧位于所述待植入视频的第三排序，所述第一关键帧对应的第一显示查找表，以及所述第二关键帧对应的第一显示查找表，计算所述待植入视频中第二合成图像对应的第二显示查找表。19.在其中一个实施例中，所述对待植入视频进行抽帧处理，得到抽取的关键帧，包括：获取所述待植入视频中每一个图像帧对应的图像特征；根据所述图像特征对所述图像帧进行聚类处理，得到对应的多个帧类别；从每个所述帧类别中提取至少一个目标图像帧，作为抽取的关键帧。20.根据本公开实施例的第二方面，提供一种在视频中植入多媒体的装置，其特征在于，包括：21.抽帧模块，被配置为执行对待植入视频进行抽帧处理，得到抽取的关键帧；22.图像合成模块，被配置为执行将预设的多媒体作为前景植入到所述关键帧中，得到所述关键帧的第一合成图像，所述第一合成图像中包括以所述多媒体为前景的第一前景区域；23.显示查找表获取模块，被配置为执行获取所述第一合成图像的第一显示查找表，所述第一显示查找表为所述第一合成图像中，所述第一前景区域的像素值与第一其他区域的像素值之间的映射关系表，所述第一其他区域为所述第一合成图像中除所述第一前景区域之外的区域；24.图像映射模块，被配置为执行根据所述第一显示查找表对所述第一前景区域的像素值进行映射，得到映射后的第一目标合成图像；25.目标视频获取模块，被配置为执行根据所述第一目标合成图像进行时序插帧处理，得到已植入多媒体的目标视频。26.根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上第一方面所述的在视频中植入多媒体的方法。27.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如上第一方面所述的在视频中植入多媒体的方法。28.根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如上第一方面所述的在视频中植入多媒体的方法。29.本公开的实施例提供的技术方案至少带来以下有益效果：通过对待植入视频进行抽帧处理，得到抽取的关键帧，将预设的多媒体作为前景植入到关键帧中，以得到关键帧的第一合成图像，并获取第一合成图像的第一显示查找表，根据第一显示查找表对第一前景区域的像素值进行映射，得到映射后的第一目标合成图像，并根据第一目标合成图像进行时序插帧处理，从而得到已植入多媒体的目标视频。由于本实施例在对植入多媒体的视频进行和谐化处理时，只需要抽取视频的关键帧进行处理，而对于非关键帧，则可以基于关键帧的效果进行时序插帧得到，因此，相较于对视频的每一帧进行和谐化处理，能够减少计算量，提高处理效率。此外，本实施例通过引入lut的方式进行和谐化处理，因此，能够实现较高质量的和谐化效果，且无分辨率的限制。30.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明31.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。32.图1是根据一示例性实施例示出的一种在视频中植入多媒体的方法的流程图。33.图2是根据一示例性实施例示出的获取和谐化模型步骤的示意图。34.图3是根据一示例性实施例示出的和谐化模型训练过程的示意图。35.图4是根据一示例性实施例示出的和谐化模型训练原理的示意图。36.图5是根据一示例性实施例示出的抽取关键帧步骤的示意图。37.图6是根据一示例性实施例示出的图像映射步骤的示意图。38.图7是根据一示例性实施例示出的时序插帧步骤的示意图。39.图8是根据一示例性实施例示出的一种在视频中植入多媒体的装置的框图。40.图9是根据一示例性实施例示出的一种电子设备的框图。具体实施方式41.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。42.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。43.还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。44.由于基于柏松融合的求解过程计算量大，处理时间较长，从而只能实现简单场景下的和谐化，而对于复杂的、效果要求较高的场景(例如视频场景)，则难以实现理想的融合效果。因此，有人提出了基于域验证的深度图像和谐化方法，其结合深度学习，完成端到端的和谐化工作。其具体通过引入两个鉴别器，第一个鉴别器是生成对抗网络(generativeadversarialnetwork，简称gan)里面标准的鉴别器，作用于整张图片，使得生成图片的数据分布和真实图片的数据分布接近。第二个鉴别器就是域验证鉴别器，使得生成图片中前景和背景的域尽可能接近。然而，在针对视频广告植入的场景，这种方案需要对视频的每一帧进行处理，因此，也存在操作量大、耗时的问题，且当视频分辨率较高时，植入广告的清晰度也难以达到需求。45.基于此，本公开提供了一种在视频中植入多媒体的方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。如图1所示，本实施例中，该方法可以包括以下步骤：46.在步骤s110中，对待植入视频进行抽帧处理，得到抽取的关键帧。47.其中，待植入视频是指需要植入多媒体的原始视频。具体地，多媒体可以是多种媒体的综合，一般可以包括文本、声音和图像等多种媒体形式。在本实施例中，以多媒体为图像为例进行说明。48.为了使得原始视频植入多媒体图像后能够实现理想的和谐效果，在本实施例中，服务器首先对待植入视频也即原始视频进行抽帧处理，从而得到抽取的关键帧。具体地，关键帧可以是视频中角色或者物体运动变化中关键动作所处的帧，也可以是能够反应视频中最主要内容的帧。其中，关键帧可以基于一定的规则从原始视频中抽取。49.在步骤s120中，将预设的多媒体作为前景植入到关键帧中，得到关键帧的第一合成图像。50.其中，预设的多媒体是指预先设定的需要植入原始视频中的多媒体图像。在本实施例中，服务器基于上述步骤从原始视频中抽取关键帧后，则可以将预设的多媒体作为前景植入到关键帧中。即服务器可以以关键帧为背景，以预设的多媒体图像为前景，并将前景粘贴到背景中，从而得到对应关键帧的合成图像，具体地，合成图像中包括以植入的多媒体图像为前景的前景区域。在本实施例中，为了区分关键帧的合成图像与非关键帧的合成图像，从而将关键帧的合成图像定义为第一合成图像，并将关键帧的合成图像的前景区域定义为第一前景区域。51.在步骤s130中，获取第一合成图像的第一显示查找表。52.其中，显示查找表(look-uptable，简称lut)本质上可以理解为是一个ram(randomaccessmemory，即随机存取存储器)。其通过将数据事先写入ram后，每当输入一个信号就等于输入一个地址进行查表，从而找出地址对应的内容，然后输出。在本实施例中，lut可以是一张像素值的映射表，其可以将实际采样到的像素值经过一定的变换，如阈值、反转、二值化、对比度调整、线性变换等，从而得到另外一个与之对应的值，以起到突出图像的有用信息，增强图像的光对比度的作用，以最终实现第一合成图像中前景区域与背景区域融合后的和谐效果。具体地，第一显示查找表为第一合成图像中，第一前景区域的像素值与第一其他区域的像素值之间的映射关系表，其中，第一其他区域为该第一合成图像中除第一前景区域之外的区域。53.在本实施例中，服务器可以根据上述得到的关键帧的第一合成图像，而获取对应的第一显示查找表，即获取该关键帧对应的lut。进而可以通过后续步骤对该关键帧的第一合成图像进行和谐化处理，以实现理想的融合效果。具体地，服务器可以通过预先训练的和谐化模型直接得到该第一合成图像的lut，也可以通过拟合该第一合成图像中前景区域与背景区域的像素灰度的变化而得到对应的lut，本实施例并不对此进行限定。54.在步骤s140中，根据第一显示查找表对第一前景区域的像素值进行映射，得到映射后的第一目标合成图像。55.其中，第一目标合成图像是指对第一合成图像进行和谐化处理后的结果。在本实施例中，服务器根据第一合成图像的lut对第一合成图像中第一前景区域的像素值进行映射，从而得到映射后的第一目标合成图像。56.具体地，服务器根据第一合成图像中第一前景区域的像素值，在该第一合成图像对应的lut中查找与该像素值对应的目标像素值，并通过该目标像素值替换原有的像素值，直到完成第一合成图像中第一前景区域每一个像素值的替换，即可得到对第一合成图像进行和谐化处理后的第一目标合成图像。57.在步骤s150中，根据第一目标合成图像进行时序插帧处理，得到已植入多媒体的目标视频。58.其中，时序插帧处理可以是基于关键帧的融合效果来产生非关键帧的融合效果，并基于关键帧与非关键帧分别位于视频中的顺序而进行视频合成的过程。目标视频则是指对原始视频植入多媒体并进行和谐化处理后得到的最终视频。在本实施例中，服务器可以根据关键帧对应的第一目标合成图像进行时序插帧处理，从而得到已植入多媒体的目标视频。59.上述在视频中植入多媒体的方法中，通过对待植入视频进行抽帧处理，得到抽取的关键帧，将预设的多媒体作为前景植入到关键帧中，以得到关键帧的第一合成图像，并获取第一合成图像的第一显示查找表，根据第一显示查找表对第一前景区域的像素值进行映射，得到映射后的第一目标合成图像，并根据第一目标合成图像进行时序插帧处理，从而得到已植入多媒体的目标视频。由于本实施例在对植入多媒体的视频进行和谐化处理时，只需要抽取视频的关键帧进行处理，而对于非关键帧，则可以基于关键帧的效果进行时序插帧得到，因此，相较于对视频的每一帧进行和谐化处理，能够减少计算量，提高处理效率。此外，本实施例通过引入lut的方式进行和谐化处理，因此，能够实现较高质量的和谐化效果，且无分辨率的限制。60.在一示例性实施例中，在步骤s130中，获取第一合成图像的第一显示查找表，具体可以包括：将第一合成图像输入预先训练的和谐化模型，以指示和谐化模型根据第一合成图像中，第一前景区域的像素值与第一其他区域的像素值之间的关系，输出与所述关系对应的第一显示查找表。61.其中，和谐化模型可以是基于深度学习的方法，采用样本数据对卷积神经网络进行训练后得到。具体地，模型训练时所采用的基础网络可以是基于多层卷积神经网络堆叠的语义分割网络(u-net)。样本数据则包括具有不和谐效果的合成图像与对应和谐效果的合成图像的配对数据。在本实施例中，通过将配对的样本数据输入至卷积神经网络，从而使得卷积神经网络能够学习到对应合成图像的不和谐效果与和谐效果之间的差异变化，并拟合对应的映射关系，进而对于任意一帧合成图像，都能够拟合出其与和谐效果之间的映射关系即lut。62.基于此，在本实施例中，服务器通过将第一合成图像输入预先训练的和谐化模型，从而可以得到该模型输出的与第一合成图像对应的第一显示查找表，也即得到第一合成图像对应的lut。本实施例通过采用预先训练的和谐化模型，从而可以快速拟合出第一合成图像与其对应的和谐效果之间的映射关系即lut。63.在一示例性实施例中，如图2所示，上述和谐化模型的获取方法具体可以包括：64.在步骤s210中，获取第一样本图像，采用前景掩膜对第一样本图像进行图像分割，得到第一样本图像的前景掩膜区域。65.由于模型训练是为了使得模型能够学习到不和谐效果的合成图像与对应和谐效果的合成图像之间的映射关系，因此，在模型训练时，需要使用具有不和谐效果的合成图像以及对应和谐效果的合成图像的配对数据。但是，又由于在实际场景中并不存在真正的植入后又具有和谐化效果的合成图像。66.基于此，本实施例可以采用基于图像处理的方法构造这种配对数据以进行模型训练。具体地，服务器首先获取第一样本图像，其中，第一样本图像是指基于同一拍摄条件下得到的图像，具体地，该第一样本图像可以不是合成图像(即不是由两张图像合成得到的图像)，而是在自然界中拍摄得到的一张原始图像。在本实施例中，该第一样本图像可以作为配对数据中具有和谐效果的合成图像。67.此外，服务器还可以基于图像处理的方法对该第一样本图像进行处理，从而得到其对应的具有不和谐效果的合成图像。具体地，服务器通过采用前景掩膜对该第一样本图像进行图像分割，从而得到该第一样本图像的前景掩膜区域。其中，掩膜是用于控制图像处理的区域以对待处理的图像进行局部遮挡的模板。在本实施例中，前景掩膜则是用于对第一样本图像中的非前景区域进行遮挡以得到待处理的前景区域的模板。前景掩膜区域则是基于前景掩膜对第一样本图像进行图像分割，而得到分割后的该第一样本图像的前景区域。进而可以通过后续步骤对该前景区域进行图像处理，以得到具有不和谐效果的合成图像。68.在步骤s220中，对前景掩膜区域的显示参数进行调整，得到调整后的目标前景掩膜区域。69.其中，显示参数可以是用于改变图像显示效果的相关参数，包括但不限于gamma值(即伽马值，也叫灰度系数)、颜色范围、非线性映射、颜色串扰(去耦)、色相、饱和度、亮度等参数。对显示参数进行调整则可以是对上述的任意参数进行调整，具体可以只调整其中的一个参数，也可以调整其中的多个参数。70.在本实施例中，服务器可以通过对上述得到的第一样本图像的前景掩膜区域的显示参数进行调整，从而得到调整后的目标前景掩膜区域。由于该目标前景掩膜区域是基于对前景掩膜区域的显示参数调整后得到的，因此，该目标前景掩膜区域相对于前景掩膜区域，具有不同的显示效果。71.在步骤s230中，根据目标前景掩膜区域和第一样本图像生成第二样本图像。72.其中，第二样本图像是与第一样本图像对应的具有不和谐效果的合成图像。即第一样本图像和第二样本图像共同构成进行模型训练的配对数据。73.具体地，由于上述得到的目标前景掩膜区域相对于前景掩膜区域，具有不同的显示效果，因此，服务器通过将该目标前景掩膜区域粘贴到第一样本图像对应的前景掩膜区域，从而可以得到具有不和谐效果的第二样本图像，即完成对不和谐效果的合成图像的构造过程。74.在一种场景下，服务器还可以根据该目标前景掩膜区域，而替换第一样本图像中的前景掩膜区域，即将第一样本图像中的前景掩膜区域替换为对应的目标前景掩膜区域，从而得到区域替换后的第二样本图像，以实现对不和谐效果的合成图像的构造。75.在步骤s240中，采用第一样本图像和第二样本图像，训练卷积神经网络，得到训练后的和谐化模型。76.由于第一样本图像和第二样本图像共同组成具有不和谐效果的合成图像与对应和谐效果的合成图像的配对数据，因此，采用该第一样本图像和第二样本图像，对卷积神经网络进行训练，从而得到训练后的和谐化模型，使得模型能够学习到对应图像的不和谐效果与和谐效果之间的差异变化，从而能够拟合对应的映射关系。77.上述实施例中，通过获取第一样本图像，采用前景掩膜对第一样本图像进行图像分割，得到第一样本图像的前景掩膜区域，并对前景掩膜区域的显示参数进行调整，得到调整后的目标前景掩膜区域，根据目标前景掩膜区域和第一样本图像生成第二样本图像，并采用第一样本图像和第二样本图像，训练卷积神经网络，得到训练后的和谐化模型。由于本实施例可以基于第一样本图像构造第二样本图像，从而可以得到用于模型训练的配对数据，以实现模型训练。78.在一示例性实施例中，如图3所示，在步骤s240中，采用第一样本图像和第二样本图像，训练卷积神经网络，得到训练后的和谐化模型，具体可以包括：79.在步骤s310中，将第二样本图像输入卷积神经网络，得到卷积神经网络输出的和谐化图像。80.其中，第二样本图像中包括对应的目标前景掩膜区域，即与第二样本图像中的背景不和谐的前景区域。和谐化图像则是卷积神经网络基于不和谐的第二样本图像，通过拟合后预测的该第二样本图像的和谐化图像。在本实施例中，服务器通过将第二样本图像输入卷积神经网络，从而得到卷积神经网络输出的和谐化图像。81.在步骤s320中，采用设定的损失函数计算和谐化图像与第一样本图像之间的损失值。82.其中，损失函数(lossfunction)是用来估量模型的预测值与真实值的不一致程度，通常损失函数越小，模型的鲁棒性就越好。在本实施例中，模型的预测值即为卷积神经网络输出的和谐化图像，真实值则为配对数据中具有和谐化效果的第一样本图像。基于此，服务器可以通过设定的损失函数计算得到和谐化图像与第一样本图像之间的损失值。具体地，损失函数可以基于均方误差(meansquareerror，简称mse)逐像素地计算图像对应的误差，还可以基于直方图统计对应图像中像素的统计误差。83.在步骤s330中，根据损失值训练卷积神经网络，得到训练后的和谐化模型。84.具体地，服务器根据上述计算得到的损失值迭代训练卷积神经网络，直到损失值达到最小时，得到训练后的和谐化模型，使得模型具有较好的鲁棒性。85.具体地，如图4所示，服务器可以基于第一样本图像q1以及前景掩膜m进行图像处理，从而得到构造的第二样本图像q2，具体可以参考上述步骤s210至步骤s230中描述的构造第二样本图像q2的过程，本实施例中不再对此进行赘述。进而将第二样本图像q2输入卷积神经网络，从而得到卷积神经网络输出的和谐化图像q3。进而基于损失函数计算和谐化图像q3与第一样本图像q1之间的损失值，并基于损失值调整网络参数以进行迭代训练，直到模型收敛即损失值最小时，得到训练后的和谐化模型。86.在一示例性实施例中，如图5所示，在步骤s110中，对待植入视频进行抽帧处理，得到抽取的关键帧，具体可以包括如下步骤：87.在步骤s510中，获取待植入视频中每一个图像帧对应的图像特征。88.其中，图像帧是组成视频的最小单位，即一帧图像。图像特征则可以包括图像帧的颜色特征、纹理特征、形状特征和空间关系等特征。在本实施例中，服务器通过对待植入视频进行分帧处理，从而可以得到待植入视频的每一个图像帧，进而对每一个图像帧进行特征提取，以得到每一个图像帧对应的图像特征。89.在步骤s520中，根据图像特征对图像帧进行聚类处理，得到对应的多个帧类别。90.其中，聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。具体地，本实施例中组成待植入视频的所有图像帧则为对应的集合，帧类别则为通过聚类处理后得到的多个类。91.在本实施例中，服务器可以根据待植入视频的每一个图像帧的图像特征对各图像帧进行聚类处理，从而得到对应的多个帧类别。具体地，以图像特征为图像帧的颜色特征为例，其中，颜色特征可以是图像中像素的rgb值。举例来说，可以以第一个图像帧的rgb直方图为初始质心，从而获取第一个图像帧的rgb的直方图，然后对比第二帧与第一个聚类质心(开始为第一帧的rgb直方图为质心)，若第二帧类似于第一帧(具体通过比较两个图像帧的rgb质心的距离，根据预先设定的阈值进行判断)，则将第二帧加入第一帧的聚类，并在新加入的图像与初试质心的基础上，生成新的质心，作为与新帧比较的基础。若不类似，则生成新的聚类即帧类别。下次比较时新的帧将会与所有的聚类的质心进行比较，选择归属的聚类或者生成新的聚类。如此往复，将会生成多个聚类，即得到多个帧类别，使得每个帧都有所归属。92.在步骤s530中，从每个帧类别中提取至少一个目标图像帧，作为抽取的关键帧。93.其中，目标图像帧可以是对应聚类即帧类别的质心所对应的图像帧。在本实施例中，服务器从每个帧类别中提取至少一个目标图像帧，作为抽取的关键帧。94.本实施例通过聚类的方式确定待植入视频的关键帧，进而对关键帧进行和谐化处理，因此，相较于对视频的每一帧进行和谐化处理，能够减少计算量，提高处理效率。95.在一示例性实施例中，如图6所示，在步骤s140中，根据第一显示查找表对第一前景区域的像素值进行映射，得到映射后的第一目标合成图像，具体可以包括如下步骤：96.在步骤s610中，针对第一前景区域中每一个像素的像素值，根据第一显示查找表获取对应像素的目标像素值。97.由于第一显示查找表是某一关键帧对应的第一合成图像的lut，该lut能够反映对应图像的不和谐效果与和谐效果之间的映射关系。因此，针对第一合成图像中第一前景区域的每一个像素的像素值，可以在第一显示查找表即lut中找到使其和谐的目标像素值。98.在步骤s620中，根据目标像素值，更新第一合成图像中对应像素的像素值，得到映射后的第一目标合成图像。99.具体地，服务器根据上述查表得到的目标像素值，更新第一合成图像中对应像素的像素值，从而得到映射后的第一目标合成图像，即得到对应关键帧进行植入和谐处理后的结果。100.例如，若第一合成图像中第一前景区域的某一像素n的像素值为25(范围是0～255)，则通过在lut中查询，若得到像素值为25对应的目标值为112，则112为该像素n的目标像素值，进而将该像素n的像素值替换为112。基于此，通过对第一合成图像中第一前景区域的每一个像素进行此种处理，从而得到映射后的第一目标合成图像，即得到对应关键帧进行植入和谐处理后的结果。本实施例基于lut的方式对关键帧的合成图像进行和谐化处理，由于该处理方式是基于像素粒度进行的处理，因此，能够实现较高质量的和谐化效果，且无分辨率的限制。101.在一示例性实施例中，关键帧还具有对应的帧排序，其中，帧排序可以是对应关键帧位于待植入视频中的总排序，也可以是基于视频进度抽取的关键帧的顺序。则如图7所示，在步骤s150中，根据第一目标合成图像进行时序插帧处理，得到已植入多媒体的目标视频，具体可以包括如下步骤：102.在步骤s710中，根据相邻关键帧分别对应的第一显示查找表，获取待植入视频中第二合成图像对应的第二显示查找表。103.其中，第二合成图像为待植入视频中位于相邻关键帧之间的其他帧对应的合成图像，同理，第二合成图像中包括以多媒体为前景的第二前景区域。具体地，其他帧则是指相邻关键帧之间的非关键帧。第二显示查找表为第二合成图像中，第二前景区域的像素值与第二其他区域的像素值之间的映射关系表，其中，第二其他区域为第二合成图像中除第二前景区域之外的区域。104.在本实施例中，服务器可以根据相邻关键帧分别对应的第一显示查找表即lut，并通过插值的方式获取该相邻关键帧之间的非关键帧对应的lut即第二显示查找表。例如，若存在相邻的第一关键帧i2和第二关键帧i3，其中，若第一关键帧i2位于原视频即待植入视频中的第一排序为10，如果通过上述模型得到其对应的lut结果为r2(即第一关键帧对应的第一显示查找表)，若第二关键帧i3位于原视频中的第二排序为20，通过上述模型得到其对应的lut结果为r3(即第二关键帧对应的第一显示查找表)，则对于第一关键帧i2与第二关键帧i3之间的非关键帧(即位于原视频中第三排序为11至19的其他帧)，则可以基于r2与r3进行插值来得到对应非关键帧的lut。具体地，以第三排序为13的非关键帧为例，则其对应的lut13可以表示为：105.lut13＝((20-13)*r3 (13-10)*r2)/(20-10)。106.因此，对于非关键帧无需使用模型进行处理，而是基于关键帧的效果进行简单的时序插值得到，从而能够减少计算量，提高处理效率。107.在步骤s720中，根据第二显示查找表对第二前景区域的像素值进行映射，得到映射后的第二目标合成图像。108.实施例中通过第二显示查找表对第二前景区域的像素值进行映射，得到映射后的第二目标合成图像的操作，与上述通过第一显示查找表对第一前景区域的像素值进行映射，得到映射后的第一目标合成图像的操作相类似，具体可以参考上述图6所示的实施例。109.在步骤s730中，根据第一目标合成图像对应的关键帧以及第二目标合成图像对应的其他帧分别位于待植入视频中的位置，进行视频合成以得到目标视频。110.由于第一目标合成图像是对关键帧进行植入和谐化后得到的图像，而第二目标合成图像是对非关键帧进行植入和谐化后得到的图像，因此，服务器根据第一目标合成图像对应的关键帧以及第二目标合成图像对应的其他帧分别位于待植入视频中的位置，对第一目标合成图像和第二目标合成图像进行视频合成，从而可以得到植入和谐化后的目标视频。由于本实施例在对植入多媒体的视频进行和谐化处理时，只需要抽取视频的关键帧进行处理，而对于非关键帧，是基于关键帧的效果进行时序插帧得到，因此，相较于对视频的每一帧进行和谐化处理，能够提高视频的整体处理效率。111.应该理解的是，虽然图1-图7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。112.可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。113.图8是根据一示例性实施例示出的一种在视频中植入多媒体的装置框图。参照图8，该装置包括抽帧模块802，图像合成模块804，显示查找表获取模块806，图像映射模块808和目标视频获取模块810。114.抽帧模块802，被配置为执行对待植入视频进行抽帧处理，得到抽取的关键帧；115.图像合成模块804，被配置为执行将预设的多媒体作为前景植入到所述关键帧中，得到所述关键帧的第一合成图像，所述第一合成图像中包括以所述多媒体为前景的第一前景区域；116.显示查找表获取模块806，被配置为执行获取所述第一合成图像的第一显示查找表，所述第一显示查找表为所述第一合成图像中，所述第一前景区域的像素值与第一其他区域的像素值之间的映射关系表，所述第一其他区域为所述第一合成图像中除所述第一前景区域之外的区域；117.图像映射模块808，被配置为执行根据所述第一显示查找表对所述第一前景区域的像素值进行映射，得到映射后的第一目标合成图像；118.目标视频获取模块810，被配置为执行根据所述第一目标合成图像进行时序插帧处理，得到已植入多媒体的目标视频。119.在一示例性实施例中，显示查找表获取模块被配置为执行：将所述第一合成图像输入预先训练的和谐化模型，得到所述和谐化模型输出的与所述第一合成图像对应的第一显示查找表。120.在一示例性实施例中，显示查找表获取模块还包括：第一样本图像获取单元，被配置为执行获取第一样本图像，采用前景掩膜对所述第一样本图像进行图像分割，得到所述第一样本图像的前景掩膜区域；参数调整单元，被配置为执行对所述前景掩膜区域的显示参数进行调整，得到调整后的目标前景掩膜区域；第二样本图像生成单元，被配置为执行根据所述目标前景掩膜区域和所述第一样本图像生成第二样本图像；模型训练单元，被配置为执行采用所述第一样本图像和所述第二样本图像，训练卷积神经网络，得到训练后的和谐化模型。121.在一示例性实施例中，第二样本图像生成单元还被配置为执行：根据所述目标前景掩膜区域，替换所述第一样本图像中的前景掩膜区域，得到区域替换后的第二样本图像。122.在一示例性实施例中，模型训练单元还被配置为执行：将所述第二样本图像输入所述卷积神经网络，得到所述卷积神经网络输出的和谐化图像；采用设定的损失函数计算所述和谐化图像与所述第一样本图像之间的损失值；根据所述损失值训练所述卷积神经网络，得到训练后的和谐化模型。123.在一示例性实施例中，图像映射模块还被配置为执行：针对所述第一前景区域中每一个像素的像素值，根据所述第一显示查找表获取对应像素的目标像素值；根据所述目标像素值，更新所述第一合成图像中对应像素的像素值，得到映射后的第一目标合成图像。124.在一示例性实施例中，所述关键帧具有对应的帧排序；所述目标视频获取模块还被配置为执行：根据相邻关键帧分别对应的所述第一显示查找表，获取所述待植入视频中第二合成图像对应的第二显示查找表，所述第二合成图像为所述待植入视频中位于相邻所述关键帧之间的其他帧对应的合成图像，所述第二合成图像中包括以所述多媒体为前景的第二前景区域；根据所述第二显示查找表对所述第二前景区域的像素值进行映射，得到映射后的第二目标合成图像；根据所述第一目标合成图像对应的关键帧以及所述第二目标合成图像对应的其他帧分别位于所述待植入视频中的位置，对所述第一目标合成图像和所述第二目标合成图像进行视频合成，得到目标视频。125.在一示例性实施例中，抽帧模块还被配置为执行：获取所述待植入视频中每一个图像帧对应的图像特征；根据所述图像特征对所述图像帧进行聚类处理，得到对应的多个帧类别；从每个所述帧类别中提取至少一个目标图像帧，作为抽取的关键帧。126.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。127.图9是根据一示例性实施例示出的一种用于在视频中植入多媒体的电子设备s00的框图。例如，电子设备s00可以为服务器。参照图9，电子设备s00包括处理组件s20，其进一步包括一个或多个处理器，以及由存储器s22所代表的存储器资源，用于存储可由处理组件s20的执行的指令，例如应用程序。存储器s22中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件s20被配置为执行指令，以执行上述方法。128.电子设备s00还可以包括：电源组件s24被配置为执行电子设备s00的电源管理，有线或无线网络接口s26被配置为将电子设备s00连接到网络，和输入输出(i/o)接口s28。电子设备s00可以操作基于存储在存储器s22的操作系统，例如windowsserver，macosx，unix，linux，freebsd或类似。129.在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器s22，上述指令可由电子设备s00的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质，例如，所述计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。130.在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备s00的处理器执行以完成上述方法。131.需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。132.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域：
：中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。133.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种支持数据库统计函数的数值脱敏方法及装置与流程

在视频中植入多媒体的方法、装置、电子设备及存储介质与流程

相关文献

最热文献