一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种高维数据可视化聚类分析方法、电子设备及可读介质与流程

2022-07-09 21:35:01 来源:中国专利 TAG:


1.本技术涉及声纹识别领域,具体涉及一种高维数据可视化聚类分析方法、电子设备及可读介质。


背景技术:

2.可视化技术是一种重要的数据分析工具,其主要利用计算机图形学、图像处理、信号处理等方法来表达数据的内部结构、信息和知识,通过将高维数据转成维度不大于3的数据,然后绘制成图像进行展示,由高维转成低维时数据间的距离是一致的,这样人可以通过视觉快速分析数据间的关系,有利于模式识别、离群点检测等研究,例如在声纹识别技术的研究中,通过声纹识别模型提取的高维声纹特征,通过可视化分析后可直观地表示各语音数据的聚类关系。
3.现有的可视化分析方法有很多,目前效果最好的方法为t-sne和umap方法。这两种方法不需要有数据的先验信息,但由于其自适应核算法的关系,需要保证数据中每个类别要有足够多的数据量。然而当通过神经网络模型将数据处理后获取相应的高维特征数据,希望将数据可视化时,往往不能保证每类都有足够多的数据量,此时采用t-sne方法和umap方法的效果不佳。


技术实现要素:

4.本技术的目的在于至少能解决上述现有技术中的技术问题之一。
5.第一方面,本技术的实施例提供了一种高维数据可视化聚类分析方法,所述方法包括以下步骤:
6.获取测试数据集;提取测试数据集的高维向量x,计算高维向量x的联合分布概率p;根据选择的降维数获得初始的低维向量y,计算低维向量y的联合分布概率q;根据高维向量x的联合分布概率p和低维向量y的联合分布概率q,计算高维向量x和低维向量y交叉熵ce;根据交叉熵ce迭代更新低维向量y,直至迭代达次数到预定的次数,或交叉熵ce收敛,终止迭代;根据更新得到的低维向量y建立可视化视图。
7.在一些实施例中,所述高维向量x的联合分布概率p的计算公式为:
[0008][0009]
其中:p
ij
为高维向量xi和高维向量xj的联合分布概率,p
i|i
=0,为所有w的和,d(xi,xj)为高维向量xi和高维向量xj的距离,ρi=min{d(xi,xj),δ|i≠j,d(xi,xj)>d(xi,xi)},δ和σ为超参数。
[0010]
在一些实施例中,超参数δ的选取方法包括:获取一组数据,统计同类间的d(xi,xj),取最大值或均值作为δ。
[0011]
在一些实施例中,超参数σ的选取方法包括:获取一组数据,该数据包含多个类,根据选定好的δ,计算数据xi和其他同类数据的距离,获取数据中所有相同类间的距离数组dist及该类总数量n,通过搜索算法查找最符合表达式并根据表达式确定超参数σ,其中m为该组数据中数据的总数。
[0012]
在一些实施例中,所述低维向量y的联合分布概率q的计算公式为:
[0013][0014]
其中用于对联合分布概率q进行归一化处理。
[0015]
在一些实施例中,所述交叉熵ce的计算公式为:
[0016][0017]
在一些实施例中,根据交叉熵ce迭代更新低维向量y包括:
[0018]
根据表达式计算低维向量yi的导通过机器学习方法,不断迭代,更新低维向量yi,直至迭代达次数到预定的次数或者ce(x,y)收敛;
[0019]
式中
[0020]
在一些实施例中,当l2_norm(dy)《1e-6时,判定ce(x,y)达到收敛,其中
[0021]
第二方面,本技术的实施例提供了一种电子设备,所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行如上任一项所述的高维数据可视化聚类分析方法。
[0022]
第三方面,本技术的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上任一项所述的高维数据可视化聚类分析方法。
[0023]
相比于现有技术,本技术具有以下有益效果:
[0024]
通过本技术实施例提供的高维数据可视化聚类分析方法,通过高维向量的联合分布概率和低维向量的联合分布概率,计算高维向量和低维向量的交叉熵,利用交叉熵迭代更新低维向量,从而获得最优的低维向量,以此建立可视化图像,能够提升类别数据间可视化显示时的区分度,以及提升相同类别数据可视化显示时的聚拢程度。
附图说明
[0025]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]
图1为本技术的一实施例的高维数据可视化聚类分析方法的流程示意图;
[0027]
图2为采用本技术实施例所提供的方法获取的二维可视化图像;
[0028]
图3为采用现有技术获取的二维可视化图像。
具体实施方式
[0029]
为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
[0030]
图1示出了可以应用本技术实施例的高维数据可视化聚类分析方法的流程示意图,如图1所示,本技术的实施例提供的高维数据可视化聚类分析方法,所述方法包括以下步骤:
[0031]
步骤s10:获取测试数据集;
[0032]
具体的,获取待可视化分析的测试数据集,测试数据集中包括多个类别的数据;例如,待可视化分析的测试数据集是具有多个说话人的语音数据,每个说话人对应的语音数据即属于同一类别。
[0033]
步骤s20:提取测试数据集的高维向量x,计算高维向量x的联合分布概率p;
[0034]
具体的,提取出测试数据集的高维向量x,计算高维向量x的联合分布概率p;在一些实施例中,可采用如下公式计算高维向量x的联合分布概率p:
[0035]
其中:p
ij
为高维向量xi和高维向量xj的联合分布概率,p
i|i
=0,为所有w的和,用于高维向量x的联合分布概率p的归一化处理;
[0036]
公式中d(xi,xj)为高维向量xi和高维向量xj的距离,该值越小说明两者越相似,距离可以根据算法选择不同的计算方法,比如欧式距离,cosine相似度,plda等。其中ρi=min{d(xi,xj),δ|i≠j,d(xi,xj)>d(xi,xi)},δ和σ为超参数。
[0037]
在一些实施例中,超参数δ的选取方法包括:获取一组数据,该数据包含多个类,优选的,类别数大于3,每个类别中的数据量不小于20;统计同类间的d(xi,xj),取最大值或均值作为超参数δ。在另一些实施例中,对于超参数δ选取的方式可以采用阈值法,即根据人为设定的用于判断两个数据是否属于同一类数据的阈值来确定超参数,如当设定d(xi,xj)《t时认为xi和xj为同一类,则δ取t。
[0038]
在一些实施例中,超参数σ的选取方法包括:获取一组数据,该数据包含多个类,优选的,类别数大于3,每个类别中的数据量不小于20;根据选定好的超参数δ,计算数据xi和其他同类数据的距离,获取数据中所有相同类间的距离数组dist及该类总数量n,通过搜索
算法查找最符合表达式的σi,并根据表达式确定超参数σ,其中m为这组数据的总数。在另一些实施例中,超参数σ还可以采用如下方法确定:获取一组数据,该数据包含多个类,每个类包含多个数据,优选的,类别数大于3,每个类别中的数据量不小于20;根据选定好的δ,尝试不同的超参数σ的取值,然后通过最终的可视化结果选取效果符合预期的超参数σ。
[0039]
步骤s30:根据选择的降维数获得初始的低维向量y,计算低维向量y的联合分布概率q;
[0040]
具体的,根据最终需要进行可视化展现的数据的维度,确定低维向量的维度,根据选择的降维数,采用随机初始化的方式对高维向量x进行处理,获得初始的低维向量y,计算低维向量y的联合分布概率q;
[0041]
在一些实施例中,所述低维向量y的联合分布概率q可采用如下公式计算:
[0042][0043]
其中用于对联合分布概率q进行归一化处理。
[0044]
步骤s40:根据高维向量x的联合分布概率p和低维向量y的联合分布概率q,计算高维向量x和低维向量y交叉熵ce;
[0045]
具体的,根据步骤s20计算获得的高维向量x的联合分布概率p,以及步骤s30计算获得的低维向量y的联合分布概率q,采用如下公式计算高维向量x和低维向量y交叉熵ce:
[0046][0047]
其中ce(x,y)为高维向量x、低维向量y的交叉熵表达式,当ce(x,y)越小时,表明高维向量x和低维向量y分布越相近,高维向量x转化成低维向量y的效果越好。
[0048]
步骤s50:根据交叉熵ce迭代更新低维向量y,直至迭代达次数到预定的次数,或交叉熵ce收敛,终止迭代;
[0049]
具体的,根据步骤s40计算获得高维向量x和低维向量y交叉熵ce之后,根据交叉熵ce对低维向量y进行迭代更新,
[0050]
在一些实施例中,可先计算低维向量yi的导具体的可采用如下公式进行计算:
[0051][0052]
式中的计算获得低维向量yi的导之后,通过机器学习方法,不断迭代,更新低维向量yi,直至迭代达次数到预定的次数或者
ce(x,y)收敛,终止低维向量yi的迭代更新,此时的低维向量yi即为最优的低维向量y;
[0053]
在一些具体实施例中,当l2_norm(dy)《1e-6时,判定ce(x,y)达到收敛,其中
[0054]
步骤s60:根据更新得到的低维向量y建立可视化视图。
[0055]
具体的,根据步骤s50迭代更新得到的最优的低维向量y,即可建立可视化视图。
[0056]
本技术实施例提供的高维数据可视化聚类分析方法,通过高维向量的联合分布概率和低维向量的联合分布概率,计算高维向量和低维向量的交叉熵,利用交叉熵迭代更新低维向量,从而获得最优的低维向量,以此建立可视化图像,能够提升类别数据间可视化显示时的区分度,以及提升相同类别数据可视化显示时的聚拢程度。
[0057]
具体的,分别为采用现有的umap可视化分析方法和本技术实施例提供的方法建立二维可视化图像。本实施例中采用的数据共41条,41条中共有16个类别,其中8个类别只有一条数据(如图2、图3中的浅色点),其他类别有多条数据(如图2、图3中的深色点)。如图2和图3所示,可以明显看出本技术实施例提供的可视化聚类分析方法的可视化效果要优于目前最好的umap方法。通过本技术实施例提供的高维数据可视化聚类分析方法建立的可视化图像,各类别数据间具有明显的区分度,且相同类别的数据聚拢程度高。
[0058]
在另一些可选实施例中,本技术实施例提供的高维数据可视化聚类分析方法可应用于声纹特征的可视化聚类分析,在实际应用时,采集具有多个说话人的语音数据作为测试集数据,每个说话人对应的语音数据即属于同一类别,之后提取语音数据中的声纹特征作为高维向量x,并计算高维向量x的联合分布概率p;根据选择的降维数声纹特征进行降维处理获得初始的低维向量y,计算低维向量y的联合分布概率q:根据高维向量x的联合分布概率p和低维向量y的联合分布概率q,计算高维向量x和低维向量y交叉熵ce;根据交叉熵ce迭代更新低维向量y,直至迭代达次数到预定的次数,或交叉熵ce收敛,终止迭代;根据更新得到的低维向量y建立可视化视图。
[0059]
为了实现上述实施例,本技术的实施例还提供了一种电子设备,所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行如上任一项所述的高维数据可视化聚类分析方法。
[0060]
为了实现上述实施例,本技术的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上任一项所述的高维数据可视化聚类分析方法。
[0061]
需要说明的是,本技术所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这
种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0062]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c ,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0063]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献