一种对多个高维数据进行可视化比较的降维方法与流程

2021-10-24 11:30:00 来源：中国专利 TAG：可视化数据多个方法高维

1.本发明属于数据可视化技术领域，具体涉及一种对多个高维数据进行可视化比较的降维方法。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.降维是一个将高维数据映射到可感知的低维空间中并尽量保持原始空间中数据点的相互关系的过程。降维能够揭示高维数据的底层分布和拓扑结构，使得人类的分析和解释成为了可能，因此广泛应用在数据挖掘、机器学习和生物信息学等多个领域。常用的降维方法包括t分布
‑
随机邻近嵌入(t
‑
sne)，主成分分析(pca)，多维度缩放(mds)等。
4.可比较降维作为传统降维的扩展，用于处理一系列的动态高维数据集。比如比较深度神经网络不同层的输出。最简单的方式就是对每个数据单独降维。但是由于许多降维方法的随机性和不可预测的优化过程，这种方式通常会引入不符合需求的变化，比如不同帧之间同一个数据点的位置发生偏移。因此，可比较降维的一般目标是在实现序列降维结果的视觉一致性的同时维持降维的保真度。
5.已有的可比较降维的方法根据数据变化的类型可以划分为以下两种：
6.增量式的降维方法，其中数据在每一个时间帧中存在一个增量或者累加式的更新，之前的点通常维持在静态的位置。例如增量式主成分分析(incremental pca)，通过在两个相邻的降维结果中找到公共数据点的最优重叠，然后使用位置估计算法支持对数据中添加非均匀维度的数据点.
7.时变的降维方法，数据点的特征在不同时间帧之间发生变化，而数据点的数目没有变化。动态t分布
‑
随机近邻嵌入(dynamic t
‑
sne)在t
‑
sne的基础上引入一个额外的损失函数项，其作用惩罚每个数据点在不同降维结果中位置的移动。尽管这种方式实现了视觉上的一致性，但对每个点绝对位置的严格约束很容易导致降维结果的扭曲。除此之外，dynamic t
‑
sne一次性接收一系列数据集一起优化，引起极大的计算负担，这对硬件也是个挑战，因此不适合流式数据的降维。

技术实现要素：

8.本发明为了解决上述问题，提出一种对多个高维数据进行可视化比较的降维方法，本发明能够实现适用于比较任务的一致性降维结果。
9.根据一些实施例，本发明采用如下技术方案：
10.一种对多个高维数据进行可视化比较的降维方法，包括以下步骤：
11.接收待处理的两个高维数据集；
12.对两个数据集计算边相似度；
13.使用t分布
‑
随机近邻嵌入方法对第一个数据集进行降维处理；
14.基于边相似度，将边向量约束引入到t分布
‑
随机近邻嵌入方法的优化方程中，通过求解优化得到第二个数据集的降维结果。
15.作为可选择的实施方式，对两个数据集计算边相似度的过程包括：
16.接收输入的两个高维数据集，使用kd树分别构建k近邻图；
17.对两个在k近邻图中寻找所有包含节点的图元，将归一化的图元频率分布作为该节点的特征向量；
18.基于每个节点的特征向量计算两个相邻时间帧的k近邻图中公共边的相似度。
19.作为进一步的限定，将归一化的图元频率分布作为该节点的特征向量的具体过程：对于两个k近邻图中的所有节点，分别统计包含它们的所有图元的频率分布。
20.作为进一步的限定，基于每个节点的特征向量计算两个相邻时间帧的k近邻图中公共边的相似度的具体过程包括：基于包含节点的所有图元的频率分布计算对应节点的之间的顶点相似度，然后基于顶点相似度，计算两个k近邻图中两个边的相似度。
21.作为可选择的实施方式，将边向量约束引入到t分布
‑
随机近邻嵌入方法的优化方程中的具体过程包括：对当前帧降维空间的坐标、当前帧高维空间中的坐标以及基于相似度对前一帧降维空间的坐标建立统一的能量优化方程。
22.一种对多个高维数据进行可视化比较的降维系统，包括：
23.第一降维模块，被配置为接收待处理的两个高维数据集，使用t分布
‑
随机近邻嵌入方法对第一个数据集进行降维处理；
24.相似度计算模块，其被配置为基于顶点相似度对两个数据集计算边相似度；
25.第二降维模块，被配置为将边向量约束引入到t分布
‑
随机近邻嵌入方法的优化方程中，通过求解优化得到第二个数据集的降维结果。
26.作为可选择的实施方式，还包括可视化模块，其被配置为依据优化后的降维位置，并利用用户预先选定的颜色表映射至数据点的类标签，得到可视化结果。
27.一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述一种对多个高维数据进行可视化比较的降维方法的步骤。
28.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述一种对多个高维数据进行可视化比较的降维方法的步骤。
29.与现有技术相比，本发明的有益效果为：
30.本发明针对高维动态数据提出了一种可比较的降维方法。通过引入基于图元核函数的相似度度量和向量约束，能够为多个数据集生成一致性和真实性的降维结果。本发明解决了以往方法添加全局约束，不能够反映高维数据真实局部变化的缺点，更易于用户进行分析，在数据可视化领域具有广泛的应用前景。
31.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
32.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
33.图1为实施例一基于图元核函数的结构相似度计算流程图；
34.图2(a)为λ＝0.01所对应的高维时序数据降维结果；
35.图2(b)为λ＝0.05所对应的高维时序数据降维结果；
36.图2(c)为λ＝0.1所对应的高维时序数据降维结果；
37.图3(a)为随机初始化的t
‑
sne的人造高维时序数据降维结果；
38.图3(b)为相同初始化的t
‑
sne的人造高维时序数据降维结果；
39.图3(c)为dynamic t
‑
sne的人造高维时序数据降维结果；
40.图3(d)为本实施例的人造高维时序数据降维结果；
41.图4(a)为随机初始化的t
‑
sne的真实高维时序数据降维结果；
42.图4(b)为相同初始化的t
‑
sne的真实高维时序数据降维结果；
43.图4(c)为dynamic t
‑
sne的真实高维时序数据降维结果；
44.图4(d)为本实施例的真实高维时序数据降维结果；
45.图5为实施例一的流程示意图。
具体实施方式：
46.下面结合附图与实施例对本发明作进一步说明。
47.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
48.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
49.在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
50.实施例一
51.一种对多个高维数据进行可视化比较的降维方法，包括以下步骤：
52.接收待处理的两个高维数据集；
53.对两个数据集计算边相似度；
54.使用t分布
‑
随机近邻嵌入方法对第一个数据集进行降维处理；
55.基于边相似度，将边向量约束引入到t分布
‑
随机近邻嵌入方法的优化方程中，通过求解优化得到第二个数据集的降维结果。
56.其中，边相似度的计算是基于图元核函数计算边相似度，如图1所示，基于图元核函数计算边相似度的方法，包括：
57.步骤1：接收输入的两个高维数据x0和x1；使用kd树分别构建k近邻图g0和g1。
58.步骤2：对g0和g1中的第i个节点和分别统计包含它们的所有图元的频率分布，表示为fv
i0
，fv
i1
。
59.步骤3：计算v
i0
和v
i1
之间的顶点相似度：
[0060][0061]
其中，表示和的公共k近邻的比例，表示和的余弦相似度。
[0062]
步骤4：计算g0中的边和g1中的边的相似度：
[0063][0064]
其中，上述边向量约束的t
‑
sne的过程包括：
[0065]
步骤1：接收输入的两个高维数据x0和x1；
[0066]
步骤2：利用t
‑
sne对x0进行降维得到降维结果y0。t
‑
sne的优化方程如下：
[0067][0068]
其中，是x0中第i个点和第j个点的对称联合概率，是y0中第i个点和第j个点的联合概率。
[0069]
步骤3：将向量约束添加到t
‑
sne的优化方程中，对x1进行降维得到降维结果y1。定义为：
[0070][0071]
其中表示g0和g1中公共边e
0ij
和e
1ij
的相似度，n表示公共边的数量，λ表示人为设置的向量约束的权重。表示y0中第i个数据点，表示y1中第i个数据点。表示y0中第j个数据点，表示y1中第j个数据点，表示和的对称联合概率，表示和的联合概率。
[0072]
本实施例使用梯度下降算法解这一方程。通过求解优化方程，我们可以最大程度上平衡单帧降维结果的真实性和不同帧降维结果之间的一致性。
[0073]
参数λ为向量约束的权重，图2(a)，图2(b)，图2(c)示意了不同λ下的优化结果；
[0074]
图3(a)、图3(b)、图3(c)、图3(d)展示了该降维方法在人造数据上的应用场景，该场景中共有四个时间帧。t＝0时，从100维空间中五个各向同性的高斯分布中生成500个数据点，每个分布的中心在标准基向量中随机选择，每个分布的方差为0.05。生成的数据集记为t＝0。在t＝1时，第一个簇中的所有点在各个维度上都平移 0.15。在t＝2时，我们将第二个簇均分成两半，一半在所有维度上移动 0.15另一半在所有维度上移动
‑
0.15。在t＝3时，
我们将第三个和第四个簇的中心重叠。本实施例、dynamic t
‑
sne，相同初始化的t
‑
sne和随机初始化的t
‑
sne对比结果如图3(a)、图3(b)、图3(c)和图3(d)。为了方便比较，在t＝0时我们使用dynamic t
‑
sne的降维结果作为四种方法的第一帧。
[0075]
可以看到，图3(a)随机初始化的t
‑
sne在不同时间帧的结果没有对齐；图3(b)相同初始化的t
‑
sne相比之下提供了更佳的视觉一致性，但依然有簇发生了不必要的移动；t＝3时的第三个和第四个簇本应完全重合在一起，在图3(c)dynamic t
‑
sne的降维结果中却因为绝对位置的约束而仅仅毗邻在一起；相比之下，图3(d)本实施例能够生成满足一致性并且真实可靠的降维结果。
[0076]
图4(a)、图4(b)、图4(c)、图4(d)展示了本实施例在卷积神经网络vgg
‑
16上数据集上的应用场景，该场景中原始数据是来自于imagenet数据集中的700张图像，涵盖了虎猫、斑猫、巨型雪纳瑞犬、标准雪纳瑞犬、大白鲨、虎鲨、金丝雀、麻雀、旅行汽车和军装十个类别。图像被输入到预训练好的vgg
‑
16网络中，取网络最后四层的输出特征向量作为四个时间帧的高维时序数据。
[0077]
对该数据使用四种降维方法进行比较。同样的，在t＝0时我们使用dynamic t
‑
sne的降维结果作为四种方法的第一帧。图4(a)随机初始化的t
‑
sne和图4(b)相同初始化的t
‑
sne产生的结果最真实可信，但是无法保持一致性。图4(c)dynamic t
‑
sne产生的结果太僵硬以至于不能反映拓扑结构的剧烈变化。图4(d)本实施例对于剧烈变化更鲁棒，同时展现出更真实的降维结果。
[0078]
实施例二：
[0079]
本实施例还提供了对多个高维数据进行可视化比较的降维系统，包括：
[0080]
输入模块，其被配置为接收输入的高维时序数据，计算每一帧数据的k近邻图；
[0081]
相似度模块，其被配置为利用图元核函数，计算相邻帧的k近邻图的对应节点之间的拓扑结构相似度；并计算对应公共边之间的边相似度；
[0082]
能量优化方程建立模块，其被配置为对当前帧降维空间的坐标和当前帧高维空间中的坐标、以及基于相似度对前一帧降维空间的坐标建立统一的能量优化方程；在本实施例中，降维空间一般是二维空间；
[0083]
可视化模块，其被配置为对能量优化方程求解，得到优化后的降维位置，并利用用户提供的颜色表映射至数据点的类标签，得到最终可视化结果。
[0084]
实施例三
[0085]
一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述实施例提供的方法的步骤。
[0086]
实施例四
[0087]
一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述实施例提供的方法的步骤。
[0088]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产
品的形式。
[0089]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0090]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0091]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0092]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
[0093]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于CGANs的立体匹配方法与流程

一种对多个高维数据进行可视化比较的降维方法与流程

相关文献

最热文献