内容检索方法、装置、计算机设备和存储介质与流程

2022-04-27 08:29:07 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，具体涉及一种内容检索方法、装置、计算机设备和存储介质。

背景技术：

2.媒体是传播信息的媒介，媒体内容可为通过媒体传递的内容，例如，媒体内容可以包括文本内容、图像内容、视频内容、音频内容、链接内容等；又如，媒体内容可以由多种内容组合得到，譬如页面内容，广告内容等。
3.在对相关技术的研究和实践过程中，本技术的发明人发现，当前对媒体内容进行跨模态检索的方法较为低效，例如，多局限于针对人工标记的媒体内容进行检索，这使得当前的检索方法缺乏对媒体内容之间交互相关性的理解，进而导致检索效率较为低下。

技术实现要素：

4.本技术实施例提出了一种内容检索方法、装置、电子设备和存储介质，可以提升媒体内容的语义理解效果与跨模态检索效率。
5.本技术实施例提供了一种内容检索方法，包括：
6.获取待检索的媒体内容，并确定所述媒体内容对应的目标内容模态；
7.获取所述目标内容模态对应的训练后语义计算模型；
8.通过所述语义计算模型，计算所述媒体内容的目标语义特征；
9.根据所述目标语义特征，检索所述媒体内容在至少一个内容模态下的相关媒体内容。
10.相应的，本技术实施例还提供了一种内容检索装置，包括：
11.第一获取单元，用于获取待检索的媒体内容，并确定所述媒体内容对应的目标内容模态；
12.第二获取单元，用于获取所述目标内容模态对应的训练后语义计算模型；
13.计算单元，用于通过所述语义计算模型，计算所述媒体内容的目标语义特征；
14.检索单元，用于根据所述目标语义特征，检索所述媒体内容在至少一个内容模态下的相关媒体内容。
15.在一实施例中，所述第二获取单元，包括：
16.内容获取子单元，用于获取与所述目标内容模态匹配的样本媒体内容、以及所述样本媒体内容在至少一个内容模态下的相关媒体内容；
17.模型构建子单元，用于构建待训练的语义计算模型；
18.模型训练子单元，用于通过所述样本媒体内容与所述相关媒体内容，对所述待训练的语义计算模型进行模型训练，得到所述目标内容模态对应的训练后语义计算模型。
19.在一实施例中，所述模型构建子单元，用于：
20.构建所述样本媒体内容对应的第一语义计算模型；根据所述相关媒体内容的内容
模态，构建所述相关媒体内容对应的第二语义计算模型；基于所述第一语义计算模型与所述第二语义计算模型，构建待训练的语义计算模型。
21.在一实施例中，所述模型训练子单元，用于：
22.通过所述语义计算模型，分别计算所述样本媒体内容对应的第一语义特征、以及所述相关媒体内容对应的第二语义特征；计算所述第一语义特征与所述第二语义特征之间的特征相关度；基于计算结果，对所述语义计算模型进行模型训练，得到所述目标内容模态对应的训练后语义计算模型。
23.在一实施例中，所述检索单元，包括：
24.特征集获取子单元，用于获取检索所需的语义特征集，其中，所述语义特征集包括至少一个候选语义特征；
25.相关度计算子单元，用于计算所述目标语义特征与所述候选语义特征之间的特征相关度；
26.内容确定子单元，用于根据计算结果，确定所述媒体内容在至少一个内容模态下的相关媒体内容。
27.在一实施例中，所述特征集获取子单元，用于：
28.确定所述目标内容模态的至少一个关联内容模态；获取所述关联内容模态对应的关联语义特征集；对所述关联语义特征集进行聚合处理，得到检索所需的语义特征集。
29.在一实施例中，所述内容确定子单元，用于：
30.根据计算结果，从所述语义特征集中确定所述目标语义特征的匹配语义特征，其中，每个所述匹配语义特征具有对应的内容模态；根据所述匹配语义特征，确定所述媒体内容在至少一个内容模态下的相关媒体内容。
31.相应的，本技术实施例还提供的一种计算机设备，包括存储器和处理器；所述存储器存储有计算机程序，所述处理器用于运行所述存储器内的计算机程序，以执行本技术实施例提供的任一种内容检索方法。
32.相应的，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器加载以执行本技术实施例提供的任一种内容检索方法。
33.相应的，本技术实施例还提供一种计算机程序产品，包括计算机程序/指令，其中，所述计算机程序/指令被处理器执行时实现如本技术实施例所示的内容检索方法的步骤。
34.本技术实施例可以获取待检索的媒体内容，并确定媒体内容对应的目标内容模态；获取目标内容模态对应的训练后语义计算模型；通过语义计算模型，计算媒体内容的目标语义特征；根据目标语义特征，检索媒体内容在至少一个内容模态下的相关媒体内容。
35.该方案可以通过深度学习模型检索媒体内容在至少一个内容模态下的相关媒体内容，从而实现媒体内容的跨模态检索。具体地，该方案可以根据与媒体内容的内容模态对应的训练后语义计算模型，来计算该媒体内容对应的语义特征，也就是说，该方案针对不同的内容模态，对应地具有不同的语义计算模型，用以计算该内容模态下的媒体内容的语义特征，进一步地，该方案再基于不同内容模态下的语义特征来检索媒体内容的相关媒体内容。因此，该方案中跨模态检索，是建立在对不同模态下的媒体特征进行语义理解的基础上实现的，这样使得该方案能够大大减小人工标记的工作量，并根据媒体内容之间交互相关
性来实现跨模态检索，从而提高跨模态检索的准确率与效率。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1是本技术实施例提供的内容检索方法的场景示意图；
38.图2是本技术实施例提供的内容检索方法的流程图；
39.图3是本技术实施例提供的内容检索方法的模型构建示意图；
40.图4是本技术实施例提供的内容检索方法的另一模型构建示意图；
41.图5是本技术实施例提供的内容检索方法的另一模型构建示意图；
42.图6是本技术实施例提供的内容检索方法的另一流程图；
43.图7是本技术实施例提供的内容检索方法的
44.图8是本技术实施例提供的内容检索装置的结构示意图；
45.图9是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
46.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，然而，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
47.本技术实施例提出了一种内容检索方法，该内容检索方法可以由内容检索装置执行，该内容检索装置可以集成在计算机设备中。其中，该计算机设备可以包括终端以及服务器等中的至少一个。即该内容检索方法可以由终端执行，也可以由服务器执行。
48.其中，该计算机设备可以为服务器或终端等设备。具体地，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。该终端可以是个人电脑、平板电脑、笔记本电脑、台式计算机、智能电视、智能手机、智能音箱、智能手表、vr/ar设备、车载终端、智能家居、可穿戴电子设备等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
49.在一实施例中，如图1所示，内容检索装置可以集成在终端或服务器等计算机设备上，以实施本技术实施例提出的内容检索方法。作为示例，本技术实施例可以以计算机设备为服务器为例，来介绍内容检索方法。
50.参考图1，服务器10可以获取待检索的媒体内容，并确定媒体内容对应的目标内容模态，例如，可以由终端20向服务器10发送待检索的媒体内容与目标内容模态信息，其中，该目标内容模态信息表征该媒体内容所对应的内容模态。进一步地，服务器10可以获取目标内容模态对应的训练后语义计算模型，并通过该训练后语义计算模型，计算媒体内容的
目标语义特征，以便服务器10可以根据该目标语义特征，检索该媒体内容在至少一个内容模态下的相关媒体内容。在实际应用中，可选地，服务器10还可以向终端20发送检索结果。
51.以下分别进行详细说明，需要说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。
52.本技术实施例提供的内容检索方法，该方法可以由服务器或终端执行，也可以由服务器和终端共同执行；本技术实施例以内容检索方法由服务器执行为例来进行说明。
53.如图2所述，该内容检索方法的具体流程可以如下：
54.101、获取待检索的媒体内容，并确定媒体内容对应的目标内容模态。
55.其中，媒体是传播信息的媒介。它是指人借助用来传递信息与获取信息的工具、渠道、载体、中介物或技术手段，也指传送文字、声音等信息的工具和手段。也可以把媒体看作为实现信息从信息源传递到受信者的一切技术手段。例如，媒体可以包括手机，物联网，电视，广播，期刊，报纸等。
56.其中，媒体内容为可通过媒体传递的内容，例如，媒体内容可以包括文本内容、图像内容、视频内容、音频内容、链接内容等；又如，媒体内容可以由多种内容组合得到，譬如页面内容，广告内容等。
57.其中，内容模态指的是媒体内容所属的模态，具体地，模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同，但都是描述同一事物或事件的。而我们在信息检索的需求往往不只是同一事件单一模态的数据，也可能需要其他模态的数据来丰富我们对同一事物或事件的认知，此时就需要跨模态检索来实现不同模态数据之间的检索。
58.在本技术中，可以获取待检索的媒体内容，并且，可以将该媒体内容所属于的内容模态称为目标内容模态。
59.在本技术中，获取待检索的媒体内容的方式可以有多种，例如，服务器可以接收由终端或其他服务器发送的内容检索请求，其中，该内容检索请求可以包括待检索的媒体内容，因此，服务器可以通过解析该内容检索请求来获取待检索的媒体内容。又如，服务器可以存储有媒体内容集合，服务器可以接收内容检索请求，其中，该内容检索请求可以包括媒体内容标识信息，该媒体内容标识信息指示待检索的媒体内容，服务器可以根据该媒体内容标识信息在媒体内容集合中搜索到对应的待检索媒体内容。
60.在本技术中，确定媒体内容对应的目标内容模态的方式可以有多种，例如，服务器可以接收由终端或其他服务器发送的表征目标内容模态的模态信息，并通过解析该模态信息确定目标内容模态；又如，服务器可以在接收到待检索的媒体内容后，通过对该媒体内容进行分析以确定该媒体内容对应的目标内容模态；又如，服务器可以存储有该待检索的媒体内容，其中，该媒体内容具有对应的内容模态标签，该内容模态标签指示该媒体内容对应的目标内容模态，因此，服务器可以通过获取该媒体内容对应的内容模态标签，来确定该媒体内容对应的目标内容模态。
61.作为示例，待检索的媒体内容具体可以为文本内容，则服务器可以获取该文本内容，并确定该文本内容对应的目标内容模态为文本；作为另一示例，待检索的媒体内容具体可以为图像内容，则服务器可以获取该图像内容，并确定该图像内容对应的目标内容模态为图像；作为另一示例，待检索的媒体内容具体可以为视频内容，则服务器可以获取该视频
内容，并确定该视频内容对应的目标内容模态为视频，等等。
62.102、获取目标内容模态对应的训练后语义计算模型。
63.其中，语义计算模型指的是用于计算媒体内容的语义特征的模型，例如，语义计算模型可以为神经网络模型，统计分析模型等。
64.其中，训练后语义计算模型指的是经过模型训练后所得到的语义计算模型，具体地，目标内容模态对应的训练后语义计算模型可以用于计算目标媒体内容的语义特征，其中，目标媒体内容为目标内容模态下的媒体内容。
65.其中，媒体内容的语义特征指的是通过对该媒体内容进行分析，从而得到表征该媒体内容所代表含义的特征。语义特征的形式可以有多种，例如，可以包括向量，图像，音频，文本等。
66.值得注意的是，在本技术中，不同内容模态可以对应有不同的训练后语义计算模型，例如，内容模态具体为文本，则该内容模态对应的训练后语义计算模型，即为训练后的文本语义计算模型，具体地，该训练后的文本语义计算模型可以用于提取文本的语义特征；又如，内容模态具体可以为图像，则该内容模态对应的训练后语义计算模型，即为训练后的图像语义计算模型，具体地，该训练后的图像语义计算模型可以用于提取图像的语义特征；等等。
67.因此，服务器在确定目标内容模态后，可以进一步地获取目标内容模态对应的训练后语义计算模型。例如，服务器可以接收由终端或其他服务器发送的模型信息，并根据该模型信息构建目标内容模态对应的训练后语义计算模型；又如，服务器可以构建待训练的语义计算模型，并通过对该语义计算模型进行模型训练，从而获取目标内容模态对应的训练后语义计算模型，具体地，步骤“获取目标内容模态对应的训练后语义计算模型”，可以包括：
68.获取与目标内容模态匹配的样本媒体内容、以及样本媒体内容在至少一个内容模态下的相关媒体内容；
69.构建待训练的语义计算模型；
70.通过样本媒体内容与相关媒体内容，对待训练的语义计算模型进行模型训练，得到目标内容模态对应的训练后语义计算模型。
71.其中，样本媒体内容指的是模型训练中的样本数据，该样本数据具体为媒体内容。例如，若目标内容模态为文本，则与目标内容模态匹配的样本媒体内容具体可以为样本文本；又如，若目标内容模态为图像，则与目标内容模态匹配的样本媒体内容具体可以为样本图像；等等。
72.其中，样本媒体内容的相关媒体内容指的是，与该样本媒体内容具有语义相关关系的媒体内容，例如，语义相关关系可以包括语义相似关系，语义关联关系等。
73.其中，语义相似关系指的是媒体内容之间具有相似的语义关系。例如，包括“铅笔”的文本内容，与包括“铅笔”的图像、视频、音频、链接等至少一个内容模态下的媒体内容之间，具有相似的表征“铅笔”的语义关系，因此，可以认为该文本内容与这些媒体内容之间具有语义相似关系。
74.其中，语义关联关系指的是媒体内容之间具有相关联的语义关系，值得注意的是，为了与语义相似关系区分，这里的相关联可以不包括相似的情况。例如，包括“专利”的文本
内容，和与“实用新型”，“专利复审”，“专利无效”等相关的媒体内容，均具有表征专利相关的语义含义，因此，可以认为该文本内容与这些媒体内容之间具有语义关联关系。
75.在一实施例中，服务器可以获取与目标内容模态匹配的样本媒体内容、以及该样本媒体内容在至少一个内容模态下的相关媒体内容，并将样本媒体内容与相关媒体内容均作为模型训练所需的样本数据，这样的话，由于模型训练的样本数据之间具有语义相关关系，因此，当应用训练后的语义计算模型来实现跨模态检索时，即可将媒体数据之间的语义相关关系考虑在内，进而提高跨模态检索效率与准确度。
76.在本技术中，由于模型训练的样本数据可以包括与目标内容模态匹配的样本媒体内容、以及样本媒体内容在至少一个内容模态下的相关媒体内容，因此，可以通过构建与各内容模态对应的语义计算模型，并基于样本数据之间的语义相关度、以及各内容模态对应的语义计算模型，来构建待训练的语义计算模型。具体地，步骤“构建待训练的语义计算模型”，可以包括：
77.构建样本媒体内容对应的第一语义计算模型；
78.根据相关媒体内容的内容模态，构建相关媒体内容对应的第二语义计算模型；
79.基于第一语义计算模型与第二语义计算模型，构建待训练的语义计算模型。
80.其中，第一语义计算模型指的是与样本媒体内容对应的语义计算模型，具体地，可以通过第一语义计算模型来计算样本媒体内容的语义特征。
81.其中，第二语义计算模型指的是与相关媒体内容对应的语义计算模型，具体地，可以通过第二语义计算模型来计算相关媒体内容的语义特征。
82.值得注意的是，由于样本媒体内容可以具有至少一个内容模态下的相关媒体内容，因此，可以根据各相关媒体内容所属的内容模态，构建对应的第二语义计算模型。也即，在本技术中，可以构建至少一个第二语义计算模型，其中，每个第二语义计算模型可以用于计算一内容模态下的相关媒体内容的语义特征。
83.构建样本媒体内容对应的第一语义计算模型的方式可以有多种，例如，由于样本媒体内容为与目标内容模态匹配的媒体内容，因此，可以构建适于针对目标内容模态下的媒体内容进行语义计算的模型。例如，若目标内容模态具体为文本，则可以构建适于针对文本进行语义计算的模型，譬如，可以构建循环神经网络(recurrent neural network，rnn)作为第一语义计算模型；又如，若目标内容模态具体为图像，则可以构建适于针对图像进行语义计算的模型，譬如，可以构建卷积神经网络(convolutional neural networks,cnn)作为第一语义计算模型；等等。具体模型类型的选择，可以基于业务需求进行调整，只要所构建的模型适于计算目标内容模态下媒体内容的语义特征即可，本技术不对所构建模型的类型作限制。
84.类似地，即可通过参考第一语义计算模型的构建方式，根据相关媒体内容的内容模态，分别构建适于计算各内容模态下媒体内容的语义特征的第二语义计算模型。
85.进一步地，即可基于第一语义计算模型与第二语义计算模型，构建待训练的语义计算模型。具体地，在本技术中，由于模型训练的样本数据可以包括与目标内容模态匹配的样本媒体内容、以及样本媒体内容在至少一个内容模态下的相关媒体内容，因此，在构建得到与各内容模态对应的语义计算模型(即第一语义计算模型与第二语义计算模型)后，即可基于样本数据之间的语义相关度，将第一语义计算模型与第二语义计算模型进行关联，从
而构建待训练的语义计算模型。
86.在一实施例中，参见图3，可以通过目标内容模态对应的第一语义计算模型，计算出目标内容模态下的样本媒体内容对应的第一语义特征；通过内容模态1对应的第二语义计算模型，计算出内容模态1下的相关媒体内容对应的第二语义特征；通过内容模态2对应的第二语义计算模型，计算出内容模态2下的相关媒体内容对应的第二语义特征；
……
；通过内容模态n对应的第二语义计算模型，计算出内容模态n下的相关媒体内容对应的第二语义特征。进一步地，可以通过计算第一语义特征与第二语义特征之间的相关度，例如可以通过计算特征相似度来计算第一语义特征与第二语义特征之间的相关度，并最终映射到同一个语义空间，进而实现将第一语义计算模型与第二语义计算模型进行关联，从而构建待训练的语义计算模型。
87.在另一实施例中，参见图4，可以通过内容模态1对应的第二语义计算模型，计算出内容模态1下的相关媒体内容对应的第二语义特征；通过内容模态2对应的第二语义计算模型，计算出内容模态2下的相关媒体内容对应的第二语义特征；
……
；通过内容模态n对应的第二语义计算模型，计算出内容模态n下的相关媒体内容对应的第二语义特征。进一步地，可以将各第二语义特征进行特征融合，得到表征各内容模态下的相关媒体内容的目标第二语义特征，进而通过计算第一语义特征与目标第二语义特征之间的相关度，例如可以通过计算特征相似度来计算第一语义特征与目标第二语义特征之间的相关度，并最终映射到同一个语义空间，从而实现将第一语义计算模型与第二语义计算模型进行关联，进而构建待训练的语义计算模型。
88.作为示例，目标内容模态可以为文本，则第一语义计算模型可以为深度文本网络，样本媒体内容可以对应地为样本文本；并且，样本媒体内容可以为样本图像，则第二语义计算模型可以为深度图像网络。具体地，参考图5，可以通过深度文本网络计算样本文本的文本语义特征，通过深度图像网络计算样本图像的图像语义特征，并通过对文本语义特征与图像语义特征进行相关度计算，例如特征相似度计算，来将深度文本网络与深度图像网络进行关联，从而构建得到待训练的语义计算模型。
89.进一步地，即可通过样本媒体内容与相关媒体内容，对待训练的语义计算模型进行模型训练，得到目标内容模态对应的训练后语义计算模型。
90.模型训练的方式可以有多种，例如，可以通过反向传播算法来进行模型训练，具体地，反向传播算法为适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上。又如，可以基于无监督训练机制来实现模型训练，等等。
91.在本技术中，由于可以通过建立第一语义计算模型与第二语义计算模型之间的关联关系，例如通过计算语义特征之间的相关度，来构建待训练的语义计算模型，因此，通过样本媒体内容与相关媒体内容，对待训练的语义计算模型进行模型训练，具体可以通过所构建的语义计算模型来计算语义特征，进而计算语义特征之间的相关度，并通过最大化正样本的相关度来进行模型训练。具体地，步骤“通过样本媒体内容与相关媒体内容，对待训练的语义计算模型进行模型训练，得到目标内容模态对应的训练后语义计算模型”，可以包括：
92.通过语义计算模型，分别计算样本媒体内容对应的第一语义特征、以及相关媒体内容对应的第二语义特征；
93.计算第一语义特征与第二语义特征之间的特征相关度；
94.基于计算结果，对语义计算模型进行模型训练，得到目标内容模态对应的训练后语义计算模型。
95.在一实施例中，由于待训练的语义计算模型具体可以通过将第一语义计算模型与第二语义计算模型关联来构建，因此，可以通过将样本媒体内容输入第一语义计算模型，以计算样本媒体内容对应的第一语义特征，将相关媒体内容输入第二语义计算模型，以计算相关媒体内容对应的第二语义特征。值得注意的是，在计算第二语义特征时，需要根据相关媒体内容所对应的内容模态，选择该内容模态对应的第二语义计算模型来进行语义特征的计算。
96.进一步地，即可计算第一语义特征与第二语义特征之间的特征相关度，例如，可以通过计算特征相似度来计算特征相关度，具体地，可以通过计算语义特征之间的距离来计算特征相似度，如欧式距离，曼哈顿距离，明式距离，余弦相似度，jaccard相似度，相关相似性等。
97.在一实施例中，可以基于第二语义特征与第二语义特征之间的特征相似度，对所构建的语义计算模型进行模型训练，例如，可以基于有监督训练机制进行模型训练，又如，可以基于监督训练机制进行模型训练，等等。这样的话，即可将训练后的第一语义计算模型，作为目标内容模态对应的训练后语义计算模型。
98.103、通过训练后语义计算模型，计算媒体内容的目标语义特征。
99.具体地，可以将待检索的媒体内容作为输入数据，输入目标内容模态对应的训练后语义计算模型，以通过该训练后语义计算模型计算该媒体内容对应的语义特征，并且，可以将计算得到的语义特征称为该媒体内容的目标语义特征。
100.在一实施例中，目标媒体模态对应的训练后语义计算模型，具体可以为训练后的第一语义计算模型，因此，可以将媒体内容输入训练后的第一语义计算模型，并将该第一语义计算模型输出的语义特征，作为该媒体内容的目标语义特征。
101.104、根据目标语义特征，检索媒体内容在至少一个内容模态下的相关媒体内容。
102.在本技术中，在得到待检索媒体内容对应的目标语义特征后，即可根据该目标语义特征，检索该媒体内容在至少一个内容模态下的相关媒体内容。
103.值得注意的是，此处的相关媒体内容指的是，通过与该媒体内容的检索结果相关的媒体内容，也就是说，此处的相关媒体内容本质上基于待检索媒体内容的检索结果确定的。而模型训练过程中的相关媒体内容指的是，与样本媒体内容相关的媒体内容，也就是说，模型训练过程中的相关媒体内容本质是作为模型训练的样本数据，用以对语义计算模型进行模型训练的。因此，在本技术中，检索结果中的相关媒体内容与模型训练过程中的相关媒体内容并不相同。
104.在一实施例中，可以通过在语义特征集中检索与目标语义特征相关的语义特征，从而检索媒体内容的相关媒体内容，具体地，步骤“根据目标语义特征，检索媒体内容在至少一个内容模态下的相关媒体内容”，可以包括：
105.获取检索所需的语义特征集，其中，语义特征集包括至少一个候选语义特征；
106.计算目标语义特征与候选语义特征之间的特征相关度；
107.根据计算结果，确定媒体内容在至少一个内容模态下的相关媒体内容。
108.其中，语义特征集为由至少一个候选语义特征构成的集合。具体地，在实际应用中，可以对媒体内容进行语义计算以生成该媒体内容的语义特征，并且，可以对该语义特征进行保存，这样的话，这些语义特征即可组成语义特征集，该语义特征集具体可以用于检索。
109.其中，当使用语义特征集来针对待检索的媒体内容进行检索时，可以将该语义特征集中的语义特征，称为候选语义特征。
110.在本技术中，由于要检索媒体内容在至少一个内容模态下的相关媒体内容，因此，对媒体内容进行检索所需的语义特征集，具体可以包括不同内容模态下媒体内容的语义特征，这样的话，即可通过对不同内容模态下的语义特征集进行检索，得到该媒体内容在不同内容模态下的相关媒体内容。
111.获取检索所需的语义特征集的方式可以有多种。举例来说，在实际应用中，可以根据媒体内容的内容模态，对语义特征集进行分类，使得各内容模态下具有对应的语义特征集，例如，若内容模态具体包括文本，图像以及音频，则可以对应地具有文本模态的语义特征集，其中，该语义特征集由文本内容的语义特征组成；对应地具有图像模态的语义特征集，其中，该语义特征集由图像内容的语义特征组成；对应地具有音频模态的语义特征集，其中，该语义特征集由音频内容的语义特征组成。
112.因此，在一实施例中，可以通过确定目标内容模态的至少一个关联内容模态，并获取关联内容模态对应的语义特征集，作为针对待检索的媒体内容进行检索所需的语义特征集，具体地，步骤“获取检索所需的语义特征集，其中，语义特征集包括至少一个候选语义特征”，可以包括：
113.确定目标内容模态的至少一个关联内容模态；
114.获取关联内容模态对应的关联语义特征集；
115.对关联语义特征集进行聚合处理，得到检索所需的语义特征集。
116.其中，目标内容模态的关联内容模态指的是与目标内容模态相关联的内容模态，例如，在智能家居的应用场景中，若目标内容模态为文本，则该目标内容模态的关联内容模态可以包括图像，音频等；又如，在内容推荐的应用场景中，若目标内容模态为图像，则该目标内容模态的关联内容模态可以包括图像，视频等。
117.在本技术中，确定目标内容模态的至少一个关联内容模态的方法可以有多种，例如，可以根据通过对当前检索用户的历史检索行为信息进行统计分析，以确定当该用户针对目标内容模态下的媒体内容进行检索时，该目标内容模态的关联内容模态具体可以包括哪些内容模态，并从中选择该目标内容模态的关联内容模态；又如，可以获取目标内容模态与其他内容模态的历史关联信息，并从最常与该目标内容模态关联的内容模态中，进一步地确定该目标内容模态的关联内容模态；又如，可以确定当前检索用户的关联检索用户(例如，当前检索用户的社交关联用户，通讯录关联用户，授信用户等)，并根据关联检索用户的历史检索行为信息，确定当关联检索用户针对目标内容模态下的媒体内容进行检索时，该目标内容模态的关联内容模态具体可以包括哪些内容模态，进而从中选取当前检索用户的关联内容模态；又如，可以预先针对不同检索场景下目标内容模态的关联内容模态进行设置，在实际应用中，通过遵循该设置即可确定目标内容模态的关联内容模态。
118.在本技术中，可以将关联内容模态对应的语义特征集，称为关联语义特征集。在确
定目标内容模态的至少一个关联内容模态后，即可进一步地获取关联内容模态对应的关联语义特征集。其中，获取关联内容模态对应的关联语义特征集的方式可以有多种，例如，服务器可以向终端或其他服务器发送数据获取请求，以触发终端获取其他服务器基于该数据获取请求，向服务器发送关联内容模态对应的关联语义特征集；又如，服务器可以存储有各关联内容模态对应的关联语义特征集，因此，服务器可以根据关联内容模态的标识信息搜索到对应的关联语义特征集。
119.其中，聚合处理指的是对有关的数据进行挑选、分析、归类以得到想要的结果。具体地，由于目标内容模态可以具有至少一个关联内容模态，因此，对应地可以获取至少一个关联语义特征集，可以通过对关联语义特征集进行聚合处理，以将至少一个关联语义特征集聚合成检索所需的语义特征集。
120.其中，目标语义特征与候选语义特征之间的特征相关度，为指示目标语义特征与候选语义特征之间相关程度的参数，例如，可以以特征相似度来作为特征相关度。
121.在本技术中，获取检索所需的语义特征集后，即可计算目标语义特征与候选语义特征之间的特征相关度。例如，可以通过计算特征相似度来计算特征相关度，具体地，可以通过计算目标语义特征与候选语义特征之间的距离来计算特征相似度，如欧式距离，曼哈顿距离，明式距离，余弦相似度，jaccard相似度，相关相似性等。
122.进一步地，即可根据特征相关度的计算结果，确定媒体内容在至少一个内容模态下的相关媒体内容。具体地，步骤“根据计算结果，确定媒体内容在至少一个内容模态下的相关媒体内容”，可以包括：
123.根据计算结果，从语义特征集中确定目标语义特征的匹配语义特征，其中，每个匹配语义特征具有对应的内容模态；
124.根据匹配语义特征，确定媒体内容在至少一个内容模态下的相关媒体内容。
125.在本技术中，从语义特征集中确定匹配语义特征的方式可以有多种，例如，可以根据计算结果，对语义特征集中的候选语义特征进行排序，并从排序后的候选语义特征中选择预设数量的候选语义特征，作为目标语义特征的匹配语义特征。又如，可以将目标语义特征与候选语义特征之间的特征相关度与预设阈值或者预设区间进行比较，若该特征相关度满足预设阈值或者预设区间，则将该候选语义特征确定为目标语义特征的匹配语义特征。
126.在确定目标语义特征的匹配语义特征后，即可进一步地将匹配语义特征对应的媒体内容，确定为待检索媒体内容的相关媒体内容。由于本技术中检索所需的语义特征集中，可以包括至少一个内容模态下的候选语义特征，因此，可以从至少一个内容模态下的候选语义特征中，确定目标语义特征的匹配语义特征，进而将匹配语义特征对应的媒体内容，确定为待检索媒体内容的相关媒体内容，以确定待检索的媒体内容在至少一个内容模态下的相关媒体内容。
127.由上可知，本实施例可以获取待检索的媒体内容，并确定媒体内容对应的目标内容模态；获取目标内容模态对应的训练后语义计算模型；通过训练后语义计算模型，计算媒体内容的目标语义特征；根据目标语义特征，检索媒体内容在至少一个内容模态下的相关媒体内容。
128.该方案可以通过深度学习模型检索媒体内容在至少一个内容模态下的相关媒体内容，从而实现媒体内容的跨模态检索。具体地，该方案可以根据与媒体内容的内容模态对
应的训练后语义计算模型，来计算该媒体内容对应的语义特征，也就是说，该方案针对不同的内容模态，对应地具有不同的语义计算模型，用以计算该内容模态下的媒体内容的语义特征，进一步地，该方案再基于不同内容模态下的语义特征来检索媒体内容的相关媒体内容。因此，该方案中跨模态检索，是建立在对不同模态下的媒体特征进行语义理解的基础上实现的，这样使得该方案能够大大减小人工标记的工作量，并根据媒体内容之间交互相关性来实现跨模态检索，从而提高跨模态检索的准确率与效率。
129.根据上面实施例所描述的方法，以下将举例进一步详细说明。
130.在本实施例中，将以内容检索装置集成在服务器与终端为例进行说明，如图6所示，一种内容检索方法，具体流程如下：
131.201、终端向服务器发送内容检索请求，其中，该内容检索请求包括待检索的媒体内容，以及内容模态标识信息，该内容模态标识信息指示该媒体内容对应的目标内容模态。
132.例如，待检索的媒体内容具体可以为文本内容，因此，内容模态标识信息具体可以为指示文本的相关信息。
133.又如，待检索的媒体内容具体可以为图像内容，因此，内容模态标识信息具体可以为指示图像的相关信息。
134.202、服务器接收终端发送的内容检索请求，并通过该内容检索请求获取待检索的媒体内容，确定该媒体内容对应的目标内容模态。
135.203、服务器获取目标内容模态对应的训练后语义计算模型。
136.204、服务器通过训练后语义计算模型，计算媒体内容的目标语义特征。
137.205、服务器根据目标语义特征，检索媒体内容在至少一个内容模态下的相关媒体内容。
138.在一实施例中，待检索的媒体内容具体可以为文本内容，并且，该媒体内容对应的目标内容模态可以为文本。作为示例，服务器可以确定该目标内容模态的至少一个关联内容模态，值得注意的是，在本技术中，目标内容模态与关联内容模态可以相同，也可以不相同。例如，该目标内容模态的关联内容模态可以包括文本与图像。进一步地，服务器可以获取关联内容模态对应的关联语义特征集，也即获取文本语义特征集与图像语义特征集，并对文本语义特征集与图像语义特征集进行聚合处理，得到检索所需的语义特征集，其中，可以将该语义特征集中的语义特征称为目标语义特征的候选语义特征。进一步地，服务器可以计算目标语义特征与候选语义特征之间的特征相关度，并根据计算结果，确定待检索的文本内容的相关文本内容与相关图像内容，也即实现图7中所示的以文搜图与以文搜文的功能。
139.类似地，待检索的媒体内容具体可以为图像内容，并且，该媒体内容对应的目标内容模态可以为图像。作为示例，服务器可以确定该目标内容模态的至少一个关联内容模态，值得注意的是，在本技术中，目标内容模态与关联内容模态可以相同，也可以不相同。例如，该目标内容模态的关联内容模态可以包括文本与图像。进一步地，服务器可以获取关联内容模态对应的关联语义特征集，也即获取文本语义特征集与图像语义特征集，并对文本语义特征集与图像语义特征集进行聚合处理，得到检索所需的语义特征集，其中，可以将该语义特征集中的语义特征称为目标语义特征的候选语义特征。进一步地，服务器可以计算目标语义特征与候选语义特征之间的特征相关度，并根据计算结果，确定待检索的文本内容
的相关文本内容与相关图像内容，也即实现图7中所示的以图搜图与以图搜文的功能。
140.206、服务器根据检索结果，生成内容检索响应数据，并将该内容检索响应数据发送给终端。
141.例如，内容检索响应数据中可以包括针对媒体内容进行检索后得到的相关媒体内容，终端可以将该相关媒体内容展示给用户，或者执行另外的数据处理流程。
142.由上可知，该方案可以通过深度学习模型检索媒体内容在至少一个内容模态下的相关媒体内容，从而实现媒体内容的跨模态检索。具体地，该方案可以根据与媒体内容的内容模态对应的训练后语义计算模型，来计算该媒体内容对应的语义特征，也就是说，该方案针对不同的内容模态，对应地具有不同的语义计算模型，用以计算该内容模态下的媒体内容的语义特征，进一步地，该方案再基于不同内容模态下的语义特征来检索媒体内容的相关媒体内容。因此，该方案中跨模态检索，是建立在对不同模态下的媒体特征进行语义理解的基础上实现的，这样使得该方案能够大大减小人工标记的工作量，并根据媒体内容之间交互相关性来实现跨模态检索，从而提高跨模态检索的准确率与效率。
143.此外，当应用于图文互搜的应用场景下时，该方案能够提升文本图像的语义理解和跨模态检索效果，进而提升用户对检索内容的满意度。
144.为了更好地实施本技术实施例提供的内容检索方法，在一实施例中还提供了一种内容检索装置，该内容检索装置可以集成于计算机设备中，该计算机设备可以为服务器或终端等设备。具体地，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载电脑等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。其中相关名词的含义与上述内容检索方法中相同，具体实现细节可以参考方法实施例中的说明。
145.在一实施例中，提供了一种内容检索装置，该内容检索装置具体可以集成在计算机设备，如图8所示，该内容检索装置可以包括：第一获取单元301，第二获取单元302，计算单元303以及检索单元304，具体如下：
146.第一获取单元301，可以用于获取待检索的媒体内容，并确定所述媒体内容对应的目标内容模态；
147.第二获取单元302，可以用于获取所述目标内容模态对应的训练后语义计算模型；
148.计算单元303，可以用于通过所述语义计算模型，计算所述媒体内容的目标语义特征；
149.检索单元304，可以用于根据所述目标语义特征，检索所述媒体内容在至少一个内容模态下的相关媒体内容。
150.在一实施例中，所述第二获取单元302，可以包括：
151.内容获取子单元，可以用于获取与所述目标内容模态匹配的样本媒体内容、以及所述样本媒体内容在至少一个内容模态下的相关媒体内容；
152.模型构建子单元，可以用于构建待训练的语义计算模型；
153.模型训练子单元，可以用于通过所述样本媒体内容与所述相关媒体内容，对所述
待训练的语义计算模型进行模型训练，得到所述目标内容模态对应的训练后语义计算模型。
154.在一实施例中，所述模型构建子单元，可以用于：
155.构建所述样本媒体内容对应的第一语义计算模型；根据所述相关媒体内容的内容模态，构建所述相关媒体内容对应的第二语义计算模型；基于所述第一语义计算模型与所述第二语义计算模型，构建待训练的语义计算模型。
156.在一实施例中，所述模型训练子单元，可以用于：
157.通过所述语义计算模型，分别计算所述样本媒体内容对应的第一语义特征、以及所述相关媒体内容对应的第二语义特征；计算所述第一语义特征与所述第二语义特征之间的特征相关度；基于计算结果，对所述语义计算模型进行模型训练，得到所述目标内容模态对应的训练后语义计算模型。
158.在一实施例中，所述检索单元304，可以包括：
159.特征集获取子单元，可以用于获取检索所需的语义特征集，其中，所述语义特征集包括至少一个候选语义特征；
160.相关度计算子单元，可以用于计算所述目标语义特征与所述候选语义特征之间的特征相关度；
161.内容确定子单元，可以用于根据计算结果，确定所述媒体内容在至少一个内容模态下的相关媒体内容。
162.在一实施例中，所述特征集获取子单元，可以用于：
163.确定所述目标内容模态的至少一个关联内容模态；获取所述关联内容模态对应的关联语义特征集；对所述关联语义特征集进行聚合处理，得到检索所需的语义特征集。
164.在一实施例中，所述内容确定子单元，可以用于：
165.根据计算结果，从所述语义特征集中确定所述目标语义特征的匹配语义特征，其中，每个所述匹配语义特征具有对应的内容模态；根据所述匹配语义特征，确定所述媒体内容在至少一个内容模态下的相关媒体内容。
166.具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。
167.由上可知，本实施例的内容检索装置中由第一获取单元301获取待检索的媒体内容，并确定所述媒体内容对应的目标内容模态；由第二获取单元302获取所述目标内容模态对应的训练后语义计算模型；由计算单元303通过所述语义计算模型，计算所述媒体内容的目标语义特征；由检索单元304根据所述目标语义特征，检索所述媒体内容在至少一个内容模态下的相关媒体内容。
168.该方案可以通过深度学习模型检索媒体内容在至少一个内容模态下的相关媒体内容，从而实现媒体内容的跨模态检索。具体地，该方案可以根据与媒体内容的内容模态对应的训练后语义计算模型，来计算该媒体内容对应的语义特征，也就是说，该方案针对不同的内容模态，对应地具有不同的语义计算模型，用以计算该内容模态下的媒体内容的语义特征，进一步地，该方案再基于不同内容模态下的语义特征来检索媒体内容的相关媒体内容。因此，该方案中跨模态检索，是建立在对不同模态下的媒体特征进行语义理解的基础上
实现的，这样使得该方案能够大大减小人工标记的工作量，并根据媒体内容之间交互相关性来实现跨模态检索，从而提高跨模态检索的准确率与效率。
169.此外，本技术实施例还提供一种计算机设备，该计算机设备可以为终端或服务器；比如计算机设备可以为服务器，如内容检索服务器等。如图9所示，其示出了本技术实施例所涉及的计算机设备的结构示意图，具体来讲：
170.该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图9中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
171.处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。
172.存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。
173.计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
174.该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
175.尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：
176.获取待检索的媒体内容，并确定所述媒体内容对应的目标内容模态；获取所述目标内容模态对应的训练后语义计算模型；通过所述语义计算模型，计算所述媒体内容的目标语义特征；根据所述目标语义特征，检索所述媒体内容在至少一个内容模态下的相关媒体内容。
177.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
178.由上可知，本实施例的计算机设备可以通过深度学习模型检索媒体内容在至少一个内容模态下的相关媒体内容，从而实现媒体内容的跨模态检索。具体地，计算机设备可以根据与媒体内容的内容模态对应的训练后语义计算模型，来计算该媒体内容对应的语义特征，也就是说，该方案针对不同的内容模态，对应地具有不同的语义计算模型，用以计算该内容模态下的媒体内容的语义特征，进一步地，计算机设备再基于不同内容模态下的语义特征来检索媒体内容的相关媒体内容。因此，该方案中计算机设备跨模态检索，是建立在对不同模态下的媒体特征进行语义理解的基础上实现的，这样的话计算机设备能够大大减小人工标记的工作量，并根据媒体内容之间交互相关性来实现跨模态检索，从而提高跨模态检索的准确率与效率。
179.本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
180.为此，本技术实施例还提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本技术实施例所提供的任一种内容检索方法中的步骤。例如，该计算机程序可以执行如下步骤：
181.获取待检索的媒体内容，并确定所述媒体内容对应的目标内容模态；获取所述目标内容模态对应的训练后语义计算模型；通过所述语义计算模型，计算所述媒体内容的目标语义特征；根据所述目标语义特征，检索所述媒体内容在至少一个内容模态下的相关媒体内容。
182.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
183.其中，该计算机可读存储介质可以包括：只读存储器(rom，read only memory)、随机存取记忆体(ram，random access memory)、磁盘或光盘等。
184.由于该计算机可读存储介质中所存储的指令，可以执行本技术实施例所提供的任一种内容检索方法中的步骤，因此，可以实现本技术实施例所提供的任一种内容检索方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
185.根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述内容检索方面的各种可选实现方式中提供的方法。
186.以上对本技术实施例所提供的一种内容检索方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种界面与数据剥离的设计方法与流程

内容检索方法、装置、计算机设备和存储介质与流程

相关文献

最热文献