基于跨媒体分析的科技数据检索技术的制作方法

2022-03-13 20:59:55 来源：中国专利 TAG：

1.本发明涉及计算机多媒体技术领域，特别涉及一种用于跨媒体检索的方法。

背景技术：

2.随着新媒体技术的飞速发展，媒体广泛存在于互联网、广播电视以及视频监控等各个领域。跨媒体既表现为包括文本、语音、图像以及视频等混合介质形态，又表现为跨越不同媒介的传播和表达方式，还表现为覆盖网络空间和物理空间的媒体融合的复杂关联关系。如何从形态多样、分布广泛、关系复杂的海量跨媒体资源中快速获取和准确表达有价值的知识，已成为亟待解决的问题。
3.网络数据除了呈现海量性特点之外，数据之间的关联性也在不断增强。这种关联性也成为网络信息除了自身内容之外的另外一个重要来源。在文本搜索领域，互联网搜索引擎公司谷歌(google)利用的pagerank技术，通过分析和利用网页内容之间的超链接信息对网页的重要性进行计算，为海量网络内容检索带来了革命性的突破。与文本相比，网络多媒体数据之间的关联性较之一般的文本网页更加丰富。例如，网络图像和视频一般与大量的环绕文字共同出现，这些环绕文字提供了对视觉内容的描述性信息。由于交互式网络技术的兴旺发展，网络用户可对跨媒体进行编辑和标注，对视觉内容提供标注信息，可以自由转载、分享和评论跨媒体内容。如何有效地分析利用这类信息，成为多媒体信息检索领域研究的核心问题。

技术实现要素：

4.本发明在该方法在子空间学习的基础上，如图1所示。在子空间学习的基础上，提出一种跨媒体正则化框架，以增强图像理解，有利于图像的检索，分类等。跨媒体正规化的目标是通过利用视觉特征和文本特征之间的相关性来找到正则化预测，即利用相应文本特征的辨别性分布来改变视觉特征的原始噪声分布。在提出的跨媒体正则化框架内，通过将视觉特征和文本特征联合投影到共享特征子空间中来构建中级表示，从而使文本模态中的辨别语义特征转移到相应的视觉模态中，与此同时可以提升视觉特征的辨别特性。实验结果表明，提出的中级空间学习过程可以显著的提高搜索质量，优于现有的大多数语义正则化方法。给定一个n个样本的多媒文档用神经网络提取图像特征v＝[v1,v1,.....vn]∈rn×
p
，文本特征t＝[t1,t1,.....tn]∈rn×q。
[0005]
1.目标函数：本文跨媒体检索的目标是分别学习图像数据x和y样本数据的最优投影矩阵x∈rc×
p
和y∈rc×q。然后，将不同模态的数据投影到一个公共潜在子空间中。我们构建本文的优化模型，我们的目标是最小化以下目标函数：
[0006][0007]
f(x,y)定义了同构子空间中成对图像和文本的相关性。最小化相关分析项可以保持多模态数据在共享子空间中的两两紧密相关性。换句话说，x和y定义了两个转换空间，这
样成对的数据v和t就可以尽可能地投影在一起。g(x,y)是语义匹配项，用于将具有相同语义信息的多媒体数据集中在共享的潜在子空间中。h(x,y)作为正则化项，用于控制图像映射矩阵x和文本映射矩阵y的复杂度，有效的避免过拟合，从而具有更好的计算效率。采用r(x,y)作为判别分析项，来增强文本特征和图像特征的判别特征。
[0008]
(1)相关分析项
[0009]
本阶段的目标是通过对不同模态数据的相关性分析学习投影矩阵x∈rc×
p
和y∈rc×q。x和y定义了两个转换空间，其中成对的数据v和t被投影尽可能地接近。换句话说，如果两个数据之间的关联模式最大化和投影被最小距离，相同的语义不同形态数据相关性可以进一步提高。通过分析得出如下优化问题：
[0010][0011]
(2)语义匹配项
[0012]
语义匹配项也称为线性回归项。它表示一个模态(图像或文本)的原始特征表示向其对应的语义特征向量的回归，将不同的模态数据映射到一个高级特征空间中，使相同的语义多媒体数据集中在共享子空间中。通过以上分析，我们构建了如下映射模型：
[0013][0014]
(3)正则化项
[0015]
为避免过拟合问题，增加正则化和可控制映射矩阵的复杂度，提高跨媒体检索的质量。我们定义正则化函数为：
[0016][0017]
(4)判别分析项
[0018]
本文提出一种同构子空间学习方法，用于进一步抽象底层特征，特别是视觉特征。在学习跨媒体检索子空间的同时，联合优化了线性判别分析。通过判别分析项，可以进一步增强文本特征中的判别特征，同时通过相关分析将增强的判别特征转化到相应的视觉特征。因此，利用同构空间的特征表示可以更有效地计算文本和图像的高级语义特征，从而提高跨媒体检索的效率。
[0019]
线性判别分析(lda)的目的是分析不同类型数据之间的差异。设为第j类中文特征的均值。是所有文本特征均值。我们定义各自的类内散射矩阵w
p
和类间散射矩阵wq。
[0020]
其中：
[0021]
的一般目标函数为：
[0022][0023]
其中tr(
·
)为方针的迹，y∈rc×q为文本的映射矩阵。
[0024]
为使上式最小化，应使分母r(yw
qyt
)最大化，同时尽量使分子r(yw
pyt
)最小化。此外，y是一个线性映射，将式(5)转化为减法运算是合适的。我们将β作为一个平衡参数0≤β
≤1。因此，本文提出了基于线性判别分析(lda)的判别分析项r(x,y)如下：
[0025]
r(x,y)＝tr(yw
pyt
)-βtr(yw
qyt
)
ꢀꢀꢀ
(6)
[0026]
通过对判别分析r(x,y)的研究，在这种情况下，不同类别的样本数据之间的距离变大，而同一类别的样本数据之间的距离变近。
[0027]
基于上述思想的总的目标函数如下所述：
[0028][0029]
2.迭代优化
[0030]
本节针对公式(7)非凸优化问题，提出了一种迭代学习优化算法来最小化上述目标函数。我们首先通过跨媒体因子分析初始化x和y。我们可以发现公式(7)对x或y在固定时都是凸的，因此我们在固定y时更新x，在固定x时更新y，得到最优解。
[0031]
固定y更新x，通过求x的偏导，得到如下方程：
[0032][0033]
由上式可知：
[0034]
x＝[λyt
t
v (1-λ)s
t
v](v
t
v αi)-1
ꢀꢀꢀ
(9)
[0035]
其中i是一个恒等矩阵。
[0036]
固定x和更新y，同样地，通过求y的偏导，我们得到如下表达式：
[0037][0038]
由上式可知：
[0039]
y＝[λxv
t
t (1-λ)s
t
t](tt
t
αi w
p-βwq)-1
ꢀꢀꢀ
(11)
[0040]
优化过程通过交替更新x或y，直至满足收敛条件为止。
附图说明
[0041]
图1(见说明书附图)为本发明的一种实施例中的输入与输出网络结构图。
具体实施方式
[0042]
下面结合实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。
[0043]
应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。
[0044]
本实施例的一种多视图线性判别分析网络的方法，包括以下步骤：
[0045]
1)给定一个n个样本的多媒文档用dnn提取图像特征v＝[v1,v1,.....vn]∈rn×
p
，文本特征t＝[t1,t1,.....tn]∈rn×q[0046]
2)计算关于文本的类内散度w
p
和wq；
[0047]
3)初始化投影矩阵x
(0)
和y
(0)
，并设i＝0,j＝0；
[0048]
4)设value1＝d(x
(0)
,y
(0)
)；
[0049]
5)根据下列等式更新x
(i 1)
[0050][0051]
6)设value1＝d(x
(i 1)
,y
(j)
),i＝i 1；
[0052]
7)value1-value2≤ξ
[0053]
8)设value3＝d(x
(0)
,y
(0)
)；
[0054]
9)根据下列等式更新y
(j 1)
：
[0055][0056]
10)value4＝d(x(i),y
(j 1)
),j＝j 1
[0057]
11)value3-value4≤ξ
[0058]
12)直到收敛
[0059]
输出：关于图形和文本的两个投影矩阵x∈rc×
p
和y∈rc×q[0060]
尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于音视频分析的版权保护技术的制作方法

基于跨媒体分析的科技数据检索技术的制作方法

相关文献

最热文献