指纹生成方法、装置、服务器及存储介质与流程

2022-04-07 03:47:47 来源：中国专利 TAG：

1.本技术涉及网络技术领域，特别涉及一种指纹生成方法、装置、服务器及存储介质。

背景技术：

2.模态指的是数据的来源或者存在形式。在对包含多种模态的数据的多媒体资源进行推荐时，通常会将多媒体资源的资源标识，也即是指纹，作为一种影响推荐的因素。
3.相关技术中，通常基于多媒体资源的上传时间，来生成多媒体资源的指纹，在多媒体资源发布后，可以基于该多媒体资源的历史表现数据，预测其未来表现，以提高推荐的准确性。
4.但是，由于多媒体资源的指纹是基于时间得到，因此，对于一些新发布的多媒体资源来说，并没有历史表现数据，也就不能够相应地提高推荐的准确性，因此，亟需一种能够提升推荐准确性的指纹生成方法。

技术实现要素：

5.本技术实施例提供了一种指纹生成方法、装置、服务器及存储介质，可以提升推荐准确性。该技术方案如下：
6.一方面，提供了一种指纹生成方法，该方法包括：
7.基于多媒体资源中的至少两个模态的数据，获取至少两个模态的资源特征，该多媒体资源包括文本、图像和视频中至少两个模态的数据；
8.基于该至少两个模态的资源特征，获取该至少两个模态的资源集合，每个该模态的资源集合包括与对应模态的资源特征匹配的历史多媒体资源；
9.基于该多媒体资源的该至少两个模态的资源特征，确定最小多模态融合距离，该最小多模态融合距离对应于该至少两个模态的资源集合中在各个模态上与该多媒体资源之间的综合匹配程度最大的历史多媒体资源；
10.在该最小多模态融合距离大于该距离阈值的情况下，将该多媒体资源的初始多模态指纹，确定为该多媒体资源的多模态指纹，该初始多模态指纹基于多媒体资源库中已存储的多模态指纹确定。
11.一方面，提供了一种指纹生成装置，该装置包括：
12.特征获取模块，用于基于多媒体资源中的至少两个模态的数据，获取至少两个模态的资源特征，该多媒体资源包括文本、图像和视频中至少两个模态的数据；
13.集合获取模块，用于基于该至少两个模态的资源特征，获取该至少两个模态的资源集合，每个该模态的资源集合包括与对应模态的资源特征匹配的历史多媒体资源；
14.距离确定模块，用于基于该多媒体资源的该至少两个模态的资源特征，确定最小多模态融合距离，该最小多模态融合距离对应于该至少两个模态的资源集合中在各个模态上与该多媒体资源之间的综合匹配程度最大的历史多媒体资源；
15.第一指纹确定模块，用于在该最小多模态融合距离大于该距离阈值的情况下，将该多媒体资源的初始多模态指纹，确定为该多媒体资源的多模态指纹，该初始多模态指纹基于多媒体资源库中已存储的多模态指纹确定。
16.在一种可能实现方式中，该特征获取模块用于：
17.基于该至少两个模态的数据，调用对应模态的特征提取网络进行特征提取，得到该至少两个模态的资源特征。
18.一方面，提供了一种服务器，该服务器包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该计算机程序由该一个或多个处理器加载并执行以实现如上述指纹生成方法。
19.一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该计算机程序由处理器加载并执行以实现上述指纹生成方法。
20.一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述指纹生成方法。
21.通过本技术实施例提供的技术方案，在生成过程中，基于各个不同模态的资源特征来分别确定相应的资源集合，各个资源集合均包含对应模态下与该多媒体资源匹配的资源，从而基于这些资源集合内的历史多媒体资源与该多媒体资源在多个模态上的综合匹配程度，来确定内容上最相似的多媒体资源，从而进行多模态指纹的确定，通过上述方法所确定的多模态指纹融合了资源内容且易于存储和计算，不仅能起到标识多媒体资源的作用，同时通过该多模态指纹也能学习多媒体资源之间的一些相关性信息，从而提高推荐的准确性。
附图说明
22.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
23.图1是本技术实施例提供的一种指纹生成方法的实施环境的示意图；
24.图2是本技术实施例提供的一种指纹生成方法的流程图；
25.图3是本技术实施例提供的一种特征提取网络训练方法的流程图；
26.图4是本技术实施例提供的一种特征提取网络训练架构图；
27.图5是本技术实施例提供的一种指纹生成方法的流程图；
28.图6是本技术实施例提供的一种指纹生成装置的结构示意图；
29.图7是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
30.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
31.本技术中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。
32.本技术中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个模态是指两个或两个以上的模态。
33.云技术(cloud technology)是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。
34.云计算(cloud computing)指it基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是it和软件、互联网相关，也可是其他服务。云计算是网格计算(grid computing)、分布式计算(distributedcomputing)、并行计算(parallel computing)、效用计算(utility computing)、网络存储(network storage technologies)、虚拟化(virtualization)、负载均衡(load balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
35.数据库(database)，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
36.大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
37.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习等几大方向。
38.机器学习(machine learning，ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学
习、示教学习等技术。
39.深度学习(deep learning，dl)属于机器学习的子类。它的灵感来源于人类大脑的工作方式，是利用深度神经网络来解决特征表达的一种学习过程。深度神经网络本身并非是一个全新的概念，可理解为包含多个隐含层的神经网络结构。为了提高深层神经网络的训练效果，人们对神经元的连接方法以及激活函数等方面做出了调整。其目的在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，如文本、图像、声音。
40.区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层
41.图1是本技术实施例提供的一种指纹生成方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器120。
42.可选地，终端110为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110上安装和运行有支持多媒体资源共享的应用程序。
43.可选地，终端110能够通过无线网络或有线网络与服务器120相连。终端110能够将多媒体资源发送给服务器120，由服务器120对接收到的多媒体资源进行处理，例如，分析、发布等。
44.可选地，服务器120是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
45.可选地，上述终端110和服务器120能够作为区块链系统上的节点，用于存储指纹生成过程中涉及到的相关数据，例如多媒体资源以及指纹等。
46.需要说明的是，本技术实施例所处理的多媒体资源既能够由终端上传至服务器，也能够由服务器自行获得，本技术实施例对此不做限定。
47.在介绍完本技术实施例的实施环境之后，下面将结合上述实施环境，对本技术实施例的应用场景进行介绍。需要说明的是，在下述说明过程中，终端也即是上述终端110，服务器也即是上述服务器120。
48.本技术实施例提供的指纹生成方法能够应用于多媒体资源推荐的场景下，也即是通过本技术实施例提供的指纹生成方法，在终端上传多媒体资源至服务器后，服务器对该多媒体资源进行处理，生成一个多模态指纹，通过多模态指纹包含的丰富相关信息，实现对该多媒体资源的精确推荐。另外，本技术实施例提供的指纹生成方法也能够应用在其他需要生成包含多模态特征标识的场景下，比如应用在电商商品推荐的场景下，当然，随着科学技术的发展，本技术实施例提供的指纹生成方法也能够应用在其他需要生成包含多模态特征标识的场景下，本技术实施例对此不做限定。
49.在多媒体资源推荐的场景下，以多媒体资源是广告为例，广告主通过上述实施环境中的终端110上传广告，服务器120接收到该广告，对该广告的文本、图片和视频等模态的数据进行处理，生成该广告对应的多模态指纹并存储。服务器120基于该广告的多模态指
纹，对该广告进行精确的推荐。
50.在电商商品推荐的场景下，商品卖家可以使用终端110上传商品至服务器120，服务器120接收到该商品，对商品的名称、图片和价格等数据进行处理，生成该商品对应的多模态指纹并存储，相应的，基于该商品的多模态指纹，对其进行精确的推荐。
51.在介绍完本技术实施例的实施环境和应用场景之后，下面对本技术实施例提供的指纹生成方法进行说明。图2是本技术实施例提供的一种指纹生成方法的流程图，以执行主体为服务器为例，参见图2，方法包括：
52.201、服务器基于多媒体资源中的至少两个模态的数据，获取至少两个模态的资源特征，该多媒体资源包括文本、图像和视频中至少两个模态的数据。
53.其中，该多媒体资源是一种包括至少两个模态的数据的资源。该至少两个模态可以包括以下组合：文本和图片；文本和视频；图片和视频；文本、图片和视频。本技术实施例对该样本多媒体资源的具体形式不做限定。
54.其中，服务器根据该多媒体资源所包括的各个模态的数据，调用对应的特征提取模型来进行特征提取，获取该至少两个模态的资源特征。在多媒体资源所包括的模态不同的情况下，其所调用的特征提取模型会有所不同，在此不作赘述。
55.以包含文本和图像两个模态数据的多媒体资源为例，服务器在执行步骤201时，调用文本特征提取网络和图像特征提取网络，分别对文本和图像进行处理，以得到该多媒体资源的文本特征和图像特征。
56.在一些实施例中，服务器是区块链系统中的一个节点，上述多媒体资源存储于区块链系统的区块链上，服务器从自身所配置的该区块链上，获取该多媒体资源，通过基于区块链的多媒体资源存储，实现数据共享。
57.202、服务器基于该至少两个模态的资源特征，获取至少两个模态的资源集合，每个该模态的资源集合包括与对应模态的资源特征匹配的历史多媒体资源。
58.以包含文本和图像两个模态数据的多媒体资源为例，其所获取到的资源特征包括文本特征和图片特征，相应地，在执行步骤202时，分别基于该文本特征和图片特征，获取文本特征对应的资源集合以及图片特征对应的资源集合。
59.203、服务器基于该多媒体资源的至少两个模态的资源特征，确定最小多模态融合距离，该最小多模态融合距离对应于该至少两个模态的资源集合中在各个模态上与该多媒体资源之间的综合匹配程度最大的历史多媒体资源。
60.其中，两个多媒体资源之间的综合匹配程度，是基于该两个多媒体资源在多个模态上的相似度来确定的。
61.204、服务器在该最小多模态融合距离大于距离阈值的情况下，将该多媒体资源的初始多模态指纹，确定为该多媒体资源的多模态指纹，该初始多模态指纹基于多媒体资源库中已存储的多模态指纹确定。
62.其中，该距离阈值用于对该最小多模态融合距离进行判断，在不同应用场景下，该距离阈值可以根据多模态指纹的精度要求来设置，本技术实施例对此不作限定。
63.通过本技术实施例提供的技术方案，在生成过程中，基于各个不同模态的资源特征来分别确定相应的资源集合，各个资源集合均包含对应模态下与该多媒体资源匹配的资源，从而基于这些资源集合内的历史多媒体资源与该多媒体资源在多个模态上的综合匹配
程度，来确定内容上最相似的多媒体资源，从而进行多模态指纹的确定，通过上述方法所确定的多模态指纹融合了资源内容且易于存储和计算，不仅能起到标识多媒体资源的作用，同时通过该多模态指纹也能学习多媒体资源之间的一些相关性信息，从而提高推荐的准确性。
64.接下来，介绍本技术实施例中所涉及到的文本特征提取网络、图片特征提取网络以及视频特征提取网络的训练过程。图3是本技术实施例中所涉及到的特征提取网络训练方法流程图，参见图3，以包含文本、图片和视频的多媒体资源为例，训练过程包括：
65.301、服务器获取多个样本多媒体资源，每个样本多媒体资源包括文本、图片和视频三个模态中至少两个模态的数据。
66.其中，该样本多媒体资源是一种包括至少两个模态的数据的资源。该至少两个模态可以包括以下组合：文本和图片；文本和视频；图片和视频；文本、图片和视频。本技术实施例对该样本多媒体资源的具体形式不做限定，例如，在广告场景下，该样本多媒体资源可以为同时包含广告文本、广告图片和广告视频的广告，其中，广告文本可以是对广告内容的描述或者宣传语，广告图片可以是包括广告所宣传对象的图片，广告视频可以是包括广告所宣传对象的视频。
67.在本技术实施例中，服务器能够从样本资源数据库中获取该多个样本多媒体资源，该多个样本多媒体资源可以是在任一平台上已发布的资源，例如，在广告场景下，该多个样本多媒体资源为多个已发布的广告。
68.302、服务器获取每个样本多媒体资源的各个标签。
69.其中，标签用于标注该样本多媒体资源的数据类型等信息。对于文本来说，其标签可以为对语义的理解，例如，高兴或者悲伤；对于图片来说，其标签可以为图片中展示的具体对象，例如，猫、汽车或者是否包含人脸等；对于视频来说，其标签可以为视频内容包含的动作或者场景，例如，吃饭或者海边。
70.需要说明的是，该标签需要人为预先标注，或者，该标签可以通过服务器调用资源分类模型来获取。
71.303、服务器基于该多个样本多媒体资源和对应的标签，分别训练文本特征提取网络、图片特征提取网络以及视频特征提取网络。
72.其中，文本特征提取网络用于对输入的样本多媒体资源中的文本进行特征提取，以得到相应的文本特征；图片特征提取网络用于对输入的样本多媒体资源中的图片进行特征提取，以得到相应的图片特征；视频特征提取网络用于对输入的样本多媒体资源中的视频进行特征提取，以得到相应的视频特征。
73.以文本特征提取网络的训练过程为例，该训练过程包括多次迭代，在第i次迭代过程中，i为大于1的整数，将该一个样本多媒体资源中的文本输入到第i-1次迭代所得到的文本特征提取网络中，通过文本特征提取网络对文本进行处理，得到样本文本特征，基于样本文本特征和标签，计算损失函数，在损失函数满足训练结束条件的情况下，则训练完成，获取本次迭代所使用的文本特征提取网络。在损失函数不满足训练结束条件的情况下，对该文本特征提取网络的网络参数进行调整，基于调整后的文本特征提取网络进行第i 1次迭代过程，直到后续任一次迭代过程满足训练结束条件。其中，训练结束条件为损失函数达到最小值或者迭代次数达到目标次数或其他条件，本技术实施例对此不作限定。
74.在一些实施例中，文本特征提取网络可以是基于转换器的双向编码表征模型(bidirectional encoder representations from transformers，bert)。
75.以图片特征提取网络的训练过程为例，该训练过程包括多次迭代，在第i次迭代过程中，将该一个样本多媒体资源中的图片输入到第i-1次迭代所得到的图片特征提取网络中，通过图片特征提取网络对图片进行处理，得到样本图片特征，基于样本图片特征和标签，计算损失函数，在损失函数满足训练结束条件的情况下，则训练完成，获取本次迭代所使用的图片特征提取网络。在损失函数不满足训练结束条件的情况下，对该图片特征提取网络的网络参数进行调整，基于调整后的图片特征提取网络进行第i 1次迭代过程，直到后续任一次迭代过程满足训练结束条件。其中，训练结束条件为损失函数达到最小值或者迭代次数达到目标次数或其他条件，本技术实施例对此不作限定。
76.在一些实施例中，图片特征提取网络可以是深度残差网络(deep residual network，resnet)。
77.以视频特征提取网络的训练过程为例，该训练过程包括多次迭代，在第i次迭代过程中，将该一个样本多媒体资源中的视频输入到第i-1次迭代所得到的视频特征提取网络中，通过视频特征提取网络对视频进行处理，得到样本视频特征，基于样本视频特征和标签，计算损失函数，在损失函数满足训练结束条件的情况下，则训练完成，获取本次迭代所使用的视频特征提取网络。在损失函数不满足训练结束条件的情况下，对该视频特征提取网络的网络参数进行调整，基于调整后的视频特征提取网络进行第i 1次迭代过程，直到后续任一次迭代过程满足训练结束条件。其中，训练结束条件为损失函数达到最小值或者迭代次数达到目标次数或其他条件，本技术实施例对此不作限定。
78.在一些实施例中，视频特征提取网络可以是视觉变换模型(vision transformer，vit)。
79.下面结合图4对特征提取网络训练过程进行说明，参见图4，将带有标签的样本多媒体资源中的数据输入特征提取网络中，通过特征提取网络对数据进行处理，得到样本资源特征，基于样本资源特征和标签，计算损失函数，在损失函数满足训练结束条件的情况下，训练完成，获取本次迭代所使用的特征提取网络。在损失函数不满足训练结束条件的情况下，对该特征提取网络的网络参数进行调整，基于调整后的特征提取网络进行第i 1次迭代过程，直到后续任一次迭代过程满足训练结束条件。其中，训练结束条件为损失函数达到最小值或者迭代次数达到目标次数或其他条件。
80.上述步骤301至303对本技术实施例提供的多模态指纹生成方法中用到的文本特征提取网络、图片特征提取网络以及视频特征提取网络的训练过程进行了介绍，下面将结合一些例子，对本技术实施例提供的多模态指纹生成方法进行详细说明。
81.图5是本技术实施例提供的一种指纹生成方法的流程图，参见图5，以包含文本、图片和视频的多媒体资源为例，方法包括：
82.501、终端向服务器发送多媒体资源，该多媒体资源包括文本、图片和视频。
83.在本技术实施例中，该多媒体资源包含文本、图片和视频三种模态的数据，在一些实施例中，该多媒体资源还可以包括多个模态中任意两个模态的数据。
84.在本技术实施例中，该终端为广告主的终端，广告主可以通过在终端上进行相应操作，来向服务器上传多媒体资源，以将多媒体资源存储至服务器，并由服务器进行后续的
处理，例如，分析或者发布等。
85.502、服务器接收到该多媒体资源，获取该多媒体资源的初始多模态指纹。
86.其中，初始多模态指纹是一个整型数字。对于新接收到的多媒体资源而言，服务器所设置的初始多模态指纹，是一种全局变量，能够作为该多媒体资源的一种标识类信息。
87.在一些实施例中，服务器获取该多媒体资源的初始多模态指纹的过程包括：基于多媒体资源库中已存储的多模态指纹的数量，确定该多媒体资源的初始多模态指纹，可选地，服务器还可以基于多媒体资源库中已存储的指纹中的最大多模态指纹，确定该多媒体资源的初始多模态指纹。其中，该多媒体资源库用于存储历史多媒体资源以及历史多媒体资源对应的多模态指纹。
88.需要说明的是，在该多媒体资源库中，不同历史多媒体资源可以对应于相同的多模态指纹，也即是，历史多媒体资源的数量和多模态指纹的数量不一定相同。
89.在多媒体资源库中已存储的多模态指纹的数量为0的情况下，则将该多媒体资源的初始多模态指纹的值设置为0。在多媒体资源库中已存储的多模态指纹的数量不为0的情况下，则将该多媒体资源的初始多模态指纹的值设置为已存储的数量。
90.需要说明的是，多模态指纹可以为8位整型数字，相应地，在初始多模态指纹的值为0的情况下，表现形式为00000000，在初始多模态指纹的值为已存储的数量的情况下，例如，已存储的数量为1234，则表现形式为00001234。
91.在本技术实施例中，是以终端新上传的一个多媒体资源为例进行说明，在一些实施例中，服务器还可以获取未确定过多模态指纹的多媒体资源，来执行步骤502中的初始多模态指纹设置以及后续的指纹确定过程。
92.503、服务器将该多媒体资源中的文本、图片和视频分别输入到文本特征提取网络、图片特征提取网络和视频特征提取网络，得到该多媒体资源的文本特征、图片特征和视频特征。
93.其中，上述特征提取网络的训练过程见步骤301-303，在此不作赘述。
94.需要说明的是，在该多媒体资源包括上述三种模态的数据的情况下，对于一个多媒体资源，所提取到的特征包括文本特征、图片特征和视频特征，在一些实施例中，在该多媒体资源包括上述三种模态中任意两种模态的数据的情况下，对于一个多媒体资源，所提取到的特征可以包括上述两种特征。例如，在该多媒体资源包括文本和图像的情况下，所提取到的特征包括文本特征和图像特征。
95.在本技术实施例中，在特征提取过程中，服务器根据多媒体资源所包括的各个模态的数据，调用对应的特征提取模型来进行特征提取，在多媒体资源所包括的模态不同的情况下，其所调用的特征提取模型会有所不同，在此不做赘述。
96.504、服务器基于该多媒体资源的文本特征，在多媒体资源库中进行检索，得到该多媒体资源的第一资源集合，该第一资源集合包括文本特征与该多媒体资源匹配的第一多媒体资源。
97.在本技术实施例中，在多媒体资源库中存储有多个历史多媒体资源以及多个历史多媒体资源对应的多模态指纹的情况下，服务器从多媒体资源库中获取任一个历史多媒体资源，提取该历史多媒体资源的文本特征，基于该多媒体资源的文本特征和历史多媒体资源的文本特征进行对比，若该两个文本特征之间的文本相似度满足相似度条件，将该历史
多媒体资源确定为与该多媒体资源匹配的第一多媒体资源。
98.其中，文本特征之间的文本相似度可以用文本特征之间的欧氏距离表示，文本相似度满足的相似度条件可以是指欧氏距离大小排序位于前目标位数内，也即是，在多媒体资源库中，该历史多媒体资源的文本特征与该多媒体资源的文本特征之间的文本相似度排在前一定位数内。该目标位数用于限制第一资源集合内的资源数量，例如，该目标位数可以为10，也即是，将相似度排在前10位的历史多媒体资源放入第一资源集合。
99.当然，服务器可以同时获取多个历史多媒体资源，基于获取到的历史多媒体资源的文本特征与该多媒体资源的文本特征进行并行对比，以提高处理效率。
100.505、服务器基于该多媒体资源的图片特征，在多媒体资源库中进行检索，得到该多媒体资源的第二资源集合，该第二多媒体资源集合包括图片特征与该多媒体资源匹配的第二多媒体资源。
101.在本技术实施例中，在多媒体资源库中存储有多个历史多媒体资源以及多个历史多媒体资源对应的多模态指纹的情况下，服务器从多媒体资源库中获取任一个历史多媒体资源，提取该历史多媒体资源的图片特征，基于该多媒体资源的图片特征和历史多媒体资源的图片特征进行对比，若该两个图片特征之间的图片相似度满足相似度条件，将该历史多媒体资源确定为与该多媒体资源匹配的第二多媒体资源。
102.其中，图片特征之间的图片相似度可以用图片特征之间的欧氏距离表示，图片相似度满足的相似度条件可以是指欧氏距离大小排序位于前目标位数内，也即是，在多媒体资源库中，该历史多媒体资源的图片特征与该多媒体资源的图片特征之间的图片相似度排在前一定位数内。该目标位数用于限制第二资源集合内的资源数量，例如，该目标位数可以为10，也即是，将相似度排在前10位的历史多媒体资源放入第二资源集合。
103.同样地，服务器可以同时获取多个历史多媒体资源，基于获取到的历史多媒体资源的图片特征与该多媒体资源的图片特征进行并行对比，以提高处理效率。
104.506、服务器基于该多媒体资源的视频特征，分别在多媒体资源库中进行检索，得到第三资源集合，该第三多媒体资源集合包括视频特征与该多媒体资源匹配的第三多媒体资源。
105.在本技术实施例中，在多媒体资源库中存储有多个历史多媒体资源以及多个历史多媒体资源对应的多模态指纹的情况下，服务器从多媒体资源库中获取任一个历史多媒体资源，提取该历史多媒体资源的视频特征，基于该多媒体资源的视频特征和历史多媒体资源的视频特征进行对比，若该两个视频特征之间的视频相似度满足相似度条件，将该历史多媒体资源确定为与该多媒体资源匹配的第三多媒体资源。
106.其中，视频特征之间的视频相似度可以用视频特征之间的欧氏距离表示，视频相似度满足的相似度条件可以是指欧氏距离大小排序位于前目标位数内，也即是，在多媒体资源库中，该历史多媒体资源的视频特征与该多媒体资源的视频特征之间的文视频相似度排在前一定位数内。该目标位数用于限制第三资源集合内的资源数量，例如，该目标位数可以为10，也即是，将相似度排在前10位的历史多媒体资源放入第三资源集合。
107.同样地，服务器可以同时获取多个历史多媒体资源，基于获取到的历史多媒体资源的视频特征与该多媒体资源的视频特征进行并行对比，以提高处理效率。
108.上述504至506过程均是以多媒体资源库中未存储有历史多媒体资源对应的各个
模态特征的情况为例进行说明，而在多媒体资源库中存储有历史多媒体资源对应的各个模态特征的情况下，则无需获取多媒体资源库中的多媒体资源后再提取其各个模态特征，服务器可以直接获取历史多媒体资源及其对应的各个模态特征，进行后续的检索对比，在此对这种情况下的具体检索过程不作赘述。
109.上述步骤504至506是对三类特征分别进行检索的过程，该过程中，可以基于当前的顺序分别执行检索过程，还可以同步对三类特征进行检索，当然，还可以按照任一顺序进行检索，本技术实施例对此不作限定。
110.507、服务器基于多媒体资源的文本特征、图片特征以及视频特征，确定该多媒体资源和每个资源集合中的每个多媒体资源之间的多模态融合距离，每个该多模态融合距离用于表示该多媒体资源和集合中对应多媒体资源在各个模态上的综合匹配程度。
111.在本技术实施例中，以第一资源集合为例进行说明，服务器获取一个第一多媒体资源的文本特征、图片特征和视频特征，分别计算该第一多媒体资源和该多媒体资源之间的文本相似度dt、该第一多媒体资源和该多媒体资源之间的图片相似度di以及该第一多媒体资源和该多媒体资源之间的视频相似度dv，然后将分别计算出的文本相似度dt、图片相似度di以及视频相似度dv进行加权求和，得到该第一多媒体资源的多模态融合距离。
112.其中，该第一多媒体资源文本特征、图片特征和视频特征由对应的特征提取网络提取得到，每个资源集合中的每个多媒体资源都有其对应的各个模态特征
113.以上述任一种相似度采用欧式距离表示为例，上述多模态融合距离的计算公式，见公式(1)。
114.d
l1
＝ω1d(x
t
，y
t
) ω2d(xi，yi) ω3d(xv，yv)
ꢀꢀ
(1)
115.公式(1)中，d
l1
是上述第一多媒体资源的多模态融合距离；x
t
是该多媒体资源的文本特征，xi是该多媒体资源的图片特征，xv是该多媒体资源的视频特征；y
t
是该第一多媒体资源的文本特征，yi是该第一多媒体资源的图片特征，yv是该第一多媒体资源的视频特征；ω1、ω2和ω3分别是文本、图片和视频三个模态对应的距离权重；d(x，y)是距离函数。
116.本技术实施例中以距离函数d为欧氏距离的情况为例进行说明，在确定相似度时，还可以采用余弦距离函数或曼哈顿距离函数等进行计算，本技术实施例对此不作限定。
117.在一些实施例中，上述距离权重均为1/3，当然，该距离权重还可以为其他数值，也即是，各个模态对应的距离权重可以根据具体应用场景进行合理的调整，例如，对于一个同时具有图片特征和文本特征的有插图的古诗，其中的文本特征对其总体的影响是更大的，此时就可以将文本特征对应的距离权重调整到更大数值。
118.508、服务器确定多个多模态融合距离中的最小多模态融合距离。
119.在本技术实施例中，服务器将多个多模态融合距离进行比对，以确定数值最小的多模态融合距离，该数值最小的多模态融合距离即为该最小多模态融合距离。
120.509、在该最小多模态融合距离小于或等于距离阈值的情况下，服务器将该最小多模态融合距离对应的历史多媒体资源的多模态指纹，确定为该多媒体资源的多模态指纹。
121.其中，该距离阈值可以根据多模态指纹的精度要求来设置，例如，在精度要求较高的情况下，该距离阈值可以设置为较小数值，在精度要求较低的情况下，该距离阈值可以设置为较大数值，本技术实施例对此不作限定。
122.例如，该距离阈值可以设定为0.1。基于上述示例，若该最小多模态融合距离小于
或等于0.1，其对应的历史多媒体资源的多模态指纹是00001234，那么，该多媒体资源的指纹就被确定为00001234。
123.以多媒体资源库中未存储有任何历史多媒体资源的情况为例，此时，上述多媒体资源为第一个多媒体资源，则无需执行303至309的步骤，可以直接将该多媒体资源的初始多模态指纹确定为该多媒体资源的多模态指纹，并将多媒体资源以及对应的多模态指纹存储至多媒体资源库。此时，基于上述示例，该多媒体资源的多模态指纹即为00000000。
124.510、在该最小多模态融合距离大于距离阈值的情况下，服务器将该多媒体资源的初始多模态指纹，确定为该多媒体资源的多模态指纹。
125.上述过程中是以初始多模态指纹为多媒体资源库中已存储的指纹数量为例进行说明，在一些实施例中，该初始多模态指纹还可以是基于多媒体资源库中已存储指纹中的最大指纹确定，将多媒体资源库中的最大多模态指纹加1，以得到该初始多模态指纹。例如，服务器在处理一个新多媒体资源时，多媒体资源库中的最大多模态指纹为99，则该新多媒体资源的初始多模态指纹为100。
126.相应地，在确定在该最小多模态融合距离大于距离阈值的情况下，服务器将该多媒体资源的初始多模态指纹，确定为该多媒体资源的多模态指纹。
127.其中，该初始多模态指纹可以为多媒体资源库中已存储的指纹数量，例如，多媒体资源库中已存储有11个多模态指纹，则该多媒体资源的多模态指纹为00000011。在一些实施例中，该初始多模态指纹还可以是多媒体资源库中已存储指纹中的最大指纹加1，例如，多媒体资源库中已存储指纹中的最大多模态指纹是1234，则该多媒体资源的多模态指纹为00001235。
128.在一些实施例中，上述多模态指纹还可以根据场景需要设置为更多的位数，例如，该多模态指纹的位数可以为16位，该多模态指纹还可以包括其他标志位和日期等信息，本技术实施例对此不作限定。
129.511、服务器将该多媒体资源、对应的多模态指纹以及对应的文本特征、图片特征和视频特征存储至多媒体资源库中。
130.上述技术方案中，对于该多媒体资源的各个不同模态数据的特征分别进行资源筛选，再基于筛选得到的历史多媒体资源，确定该多媒体资源和对应历史多媒体资源在各个模态上的综合匹配程度，从而能够基于该综合匹配程度，确定该多媒体资源的多模态指纹，从而使得该多模态指纹包含有从多个模态出发来对多媒体资源进行描述的信息，大大提升了多模态指纹对多媒体资源的代表性，使得在应用该多模态指纹对多媒体资源进行处理时，提升其处理的准确性。
131.进一步地，由于多模态指纹是整型数据，整型数据字节数少，因此，在对其进行存储、计算或调用等处理时，可以节省计算机存储空间，降低过程耗时，有效提高处理效率。
132.通过本技术实施例提供的技术方案，在生成过程中，基于各个不同模态的资源特征来分别确定相应的资源集合，各个资源集合均包含对应模态下与该多媒体资源匹配的资源，从而基于这些资源集合内的历史多媒体资源与该多媒体资源在多个模态上的综合匹配程度，来确定内容上最相似的多媒体资源，从而进行多模态指纹的确定，通过上述方法所确定的多模态指纹融合了资源内容且易于存储和计算，不仅能起到标识多媒体资源的作用，同时通过该多模态指纹也能学习多媒体资源之间的一些相关性信息，从而提高推荐的准确
性。由于在生成多模态指纹时，应用了其各个模态的特征，因此，以多媒体资源为广告为例，可以提高广告在转化率和点击率等方面的表现。
133.图6是本技术实施例提供的一种指纹生成装置的结构示意图，参见图6，该装置包括：
134.特征获取模块601，用于基于多媒体资源中的至少两个模态的数据，获取至少两个模态的资源特征，该多媒体资源包括文本、图像和视频中至少两个模态的数据；
135.集合获取模块602，用于基于该至少两个模态的资源特征，获取该至少两个模态的资源集合，每个该模态的资源集合包括与对应模态的资源特征匹配的历史多媒体资源；
136.距离确定模块603，用于基于该多媒体资源的该至少两个模态的资源特征，确定最小多模态融合距离，该最小多模态融合距离对应于该至少两个模态的资源集合中在各个模态上与该多媒体资源之间的综合匹配程度最大的历史多媒体资源；
137.第一指纹确定模块604，用于在该最小多模态融合距离大于该距离阈值的情况下，将该多媒体资源的初始多模态指纹，确定为该多媒体资源的多模态指纹，该初始多模态指纹基于多媒体资源库中已存储的多模态指纹确定。
138.在一种可能实现方式中，该装置还包括：
139.第二指纹确定模块，用于在该最小多模态融合距离小于或等于距离阈值的情况下，将该最小多模态融合距离对应的历史多媒体资源的多模态指纹，确定为该多媒体资源的多模态指纹。
140.在一种可能实现方式中，该装置还包括：
141.初始指纹确定模块，用于基于该多媒体资源库中已存储的多模态指纹的数量，确定该初始多模态指纹，或，用于基于该多媒体资源库中所存储的最大多模态指纹，确定该初始多模态指纹。
142.在一种可能实现方式中，该特征获取模块601用于：
143.基于该至少两个模态的数据，调用对应模态的特征提取网络进行特征提取，得到该至少两个模态的资源特征。
144.在一种可能实现方式中，该集合获取模块602用于：
145.对于该至少两个模态的资源特征中任一个模态的资源特征，基于该资源特征和任一个历史多媒体资源的该资源特征进行对比，若两个资源特征之间的相似度满足相似度条件，则确定该历史多媒体资源与该多媒体资源匹配，将该历史多媒体资源放入该模态的资源集合。
146.在一种可能实现方式中，该距离确定模块603包括：
147.第一确定单元，用于确定该多媒体资源和每个资源集合中的每个历史多媒体资源之间的多模态融合距离，每个该多模态融合距离用于表示该多媒体资源和集合中对应历史多媒体资源在各个模态上的综合匹配程度；
148.第二确定单元，用于确定多个该多模态融合距离中的最小多模态融合距离。
149.在一种可能实现方式中，该第一确定单元包括：
150.确定子单元，用于确定每个该历史多媒体资源和该多媒体资源之间的文本相似度、图片相似度以及视频相似度；
151.求和子单元，用于分别对每个该历史多媒体资源的该文本相似度、图片相似度以
及视频相似度进行加权求和，得到每个该历史多媒体资源的多模态融合距离。
152.需要说明的是：上述实施例提供的指纹生成的装置在生成指纹时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的指纹生成装置与指纹生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
153.通过本技术实施例提供的技术方案，在生成过程中，基于各个不同模态的资源特征来分别确定相应的资源集合，各个资源集合均包含对应模态下与该多媒体资源匹配的资源，从而基于这些资源集合内的历史多媒体资源与该多媒体资源在多个模态上的综合匹配程度，来确定内容上最相似的多媒体资源，从而进行多模态指纹的确定，通过上述方法所确定的多模态指纹融合了资源内容且易于存储和计算，不仅能起到标识多媒体资源的作用，同时通过该多模态指纹也能学习多媒体资源之间的一些相关性信息，从而提高推荐的准确性。
154.本技术实施例提供了一种服务器，用于执行上述方法，这里的服务器也即是上述服务器120，下面对服务器的结构进行介绍：
155.图7是本技术实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，cpu)701和一个或多个的存储器702，其中，该一个或多个存储器702中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。
156.在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的指纹生成方法。例如，该计算机可读存储介质可以是只读存储器(read-only memoryrom)、随机存取存储器(random access memory，ram)、只读光盘(compact disc read-only memory，cd-rom)、磁带、软盘和光数据存储设备等。
157.在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述指纹生成方法。
158.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
159.上述仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种预测中空汽车底盘零部件结构强度及寿命的方法与流程

指纹生成方法、装置、服务器及存储介质与流程

相关文献

最热文献