一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于熵权的加权主成分距离聚类的创新发展态势评估方法与流程

2021-10-20 00:05:00 来源:中国专利 TAG:加权 数据处理 态势 成分 评估


1.本发明属于数据处理与聚类技术领域,涉及基于熵权的加权主成分距离聚类的创新发展态势评估方法。


背景技术:

2.区域创新发展态势聚类是对区域创新发展水平和创新能力的综合聚类评价。区域创新发展水平是一个区域当前科学技术、产业、社会、生态发展整体水平的集中体现。区域创新能力是指一个区域在一定发展环境和条件下,从事科学发展、技术发明并将创新成果商业化和获取经济回报的能力,包括实力和潜力。区域创新发展态势评估系统通过有效组织和管理反映创新发展水平和创新能力的各类数据的,以大数据技术为手段,以数据可视化展示为交互方式,高效分析区域创新建设成效,清晰反映区域创新建设存在的问题,深入揭示区域创新与经济社会发展的互动规律。通过建设区域创新发展态势评估系统,有关部门能够直观、科学、精准地掌握区域创新发展脉络,准确获得不同市场主体的创新需求,提升问题研判能力,提高创新服务水平,增强宏观决策和创新治理能力。
3.在大数据时代,所有创新活动的过程与结果都可以用数据的形式表现出来,形成了创新大数据。地区创新发展态势评估系统本质就是对创新大数据的处理系统,核心是打通数据感知、分析、决策和执行环节,形成“数据

信息

知识

决策”链路,实现数据驱动创新治理。具体而言,首先将多源创新大数据汇集融合,然后加工为信息,提炼出体系化知识,最后将知识关联到核心决策层,形成一系列的创新政策和行动,实施创新治理。因此,设计基于“数据采集

数据管理

数据分析

数据可视化”工作流程的区域创新发展态势系统功能架构,其中,数据采集是掌握元问题和态势全貌的信息基础,数据管理是联通数据、模型、情报和知识的纽带,数据分析是形成决策和行动的直接支撑。然而,在创新发展态势聚类评价过程中,存在数据源头来源较为杂乱,数据指标之间量纲不统一,各个数据指标属于不同类型,不同样本间数据的差异程度不一等问题,使得多源创新发展态势聚类评价存在一定的难度。


技术实现要素:

4.针对上述问题,本发明提出了一种基于熵权的加权主成分距离聚类的创新发展态势评估方法,所述方法不仅包括了区域创新态势评估指标体系,同时还针对这个体系中的指标设计了不同的数据处理方法,使得创新发展态势的聚类更加具备科学性,更具实践指导性。
5.本发明中基于熵权的加权主成分距离聚类的创新发展态势评估方法,包括以下步骤
6.步骤1,构建区域创新态势评估指标体系,获取所述的指标体系中指标对应的多源属性数据;
7.步骤2,对多源属性数据进行归一化处理,利用归一化后的数据计算各个指标的熵
值,使用归一化后的数据和熵值计算获得加权评价矩阵;
8.步骤3,对所述的加权评价矩阵进行主成分分析,获取前k个主成分因子;
9.步骤4,使用q阶主成分距离来表示样本间的相似度,获得样本间的相似度矩阵;
10.步骤5,循环计算吸引度矩阵和归属度矩阵,直到聚类中心不再变化或达到最大迭代次数;
11.步骤6,获得创新发展态势聚类结果。
12.所述的指标体系包括知识创造能力、知识获取能力、企业创新能力、创新环境和创新绩效五个二级指标,所述的知识创造能力包括研究开发投入、专利数量、科研论文数量和科技投入产出比三级指标,所述的知识获取能力包括技术合作投资、技术转移资金和外国直接投资三级指标,所述的企业创新能力包括大中型企业研究开发投入、设计能力、制造和生产能力、创新产出三级指标,所述的创新环境包括基础设置、市场需求、劳动者素质、金融环境和创业水平三级指标,所述的创新绩效包括宏观经济、产业结构、产品国际竞争力、居民收入水平和就业水平三级指标。
13.所述的归一化处理具体为:考虑正向指标属性值越大越好,负向指标属性值越小越好,故对于正向指标,对于负向指标,其中,x
i

为标准化后的属性值,x
i
为实际属性值,x
max
和x
min
分别为实际属性值的最大和最小值,原始指标数据为:
[0014][0015]
其中,x
i
·
表示第i个样本数据,x
·
j
表示第j个指标数值集合,共m个样本数据,n个指标,经过上述归一化处理之后:x
ij

z
ij

[0016]
所述的指标的熵值计算方法为:其中, e
j
表示第j个指标的熵值,第j个指标最终的熵权大小为:所述的加权评价矩阵计算方法为:v
ij
=w
j
*z
ij
,表示为:
[0017][0018]
步骤3中所述的获取前k个主成分因子是指获取前k个主成分因子使得方差贡献率大于95%,即β1 β2

β
k
>95%,β代表每个因子对方差的贡献率,对应的主成分因子列向量为:
[0019][0020]
所述的q阶主成分距离表示为样本间的相似度矩阵记为s(i,j)=d
ij
(q)。
[0021]
更进一步地,步骤5包括以下步骤:步骤501,利用相似度矩阵计算吸引度矩阵,所述的吸引度矩阵计算公式为:
[0022]
r
i 1
(i,k)=(1

λ)
·
r
i 1
(i,k) λ
·
r
i
(i,k)
[0023]
其中,等式右边λ为预设参数值;
[0024]
步骤502,利用吸引度矩阵计算归属度矩阵,所述的归属度矩阵计算公式为:
[0025]
a
i 1
(i,k)=(1

λ)
·
a
i 1
(i,k) λ
·
a
i
(i,k)
[0026]
等式右边
[0027]
步骤503,迭代和更新吸引度和归属度矩阵,直至聚类中心不再变化或者达到最大迭代次数。
[0028]
与现有技术相比,本发明方法包括了较为全面的区域创新态势评估指标体系,针对体系中的各个指标设计了不同的归一化处理方法,计算不同指标之间的熵权,进而形成了加权评价矩阵,在此基础上,通过定义相似度矩阵,迭代计算吸引度矩阵和归属度矩阵,最终得到聚类结果。本发明中的聚类过程不同于以往的k

means等传统聚类方法,本方法以样本中的数据点为聚类中心,采用亲和力传播聚类算法,主要针对高维数据的聚类,主要思想是将全部高维样本数据均看为潜在的聚类中心,根据相似度大小两两连线构成一个网络(相似度矩阵网络),再通过网络中各条边的信息(吸引度矩阵和归属度矩阵)进行合理的聚类,使得聚类结果更加合理更具指导性。
附图说明
[0029]
图1为本发明方法的整体流程示意图;
[0030]
图2为本发明实施例聚类结果示意图。
具体实施方式
[0031]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0032]
如图1所示,基于熵权的加权主成分距离聚类的创新发展态势评估方法,包括以下步骤
[0033]
步骤1,构建区域创新态势评估指标体系,获取所述的指标体系中指标对应的多源属性数据;
[0034]
步骤2,对多源属性数据进行归一化处理,利用归一化后的数据计算各个指标的熵值,使用归一化后的数据和熵值计算获得加权评价矩阵;
[0035]
步骤3,对所述的加权评价矩阵进行主成分分析,获取前k个主成分因子;
[0036]
步骤4,使用q阶主成分距离来表示样本间的相似度,获得样本间的相似度矩阵;
[0037]
步骤5,循环计算吸引度矩阵和归属度矩阵,直到聚类中心不再变化或达到最大迭代次数;
[0038]
步骤6,获得聚类结果。
[0039]
所述的指标体系包括知识创造能力、知识获取能力、企业创新能力、创新环境和创新绩效五个二级指标,所述的知识创造能力包括研究开发投入、专利数量、科研论文数量和科技投入产出比三级指标,所述的知识获取能力包括技术合作投资、技术转移资金和外国直接投资三级指标,所述的企业创新能力包括大中型企业研究开发投入、设计能力、制造和生产能力、创新产出三级指标,所述的创新环境包括基础设置、市场需求、劳动者素质、金融环境和创业水平三级指标,所述的创新绩效包括宏观经济、产业结构、产品国际竞争力、居民收入水平和就业水平三级指标。
[0040]
本方法是针对多源数据进行聚类评价,数据来源于统计年鉴以及互联网公布的相关开源数据。由于数据指标之间存在量纲上的不统一,且各个数据指标属于不同类型,某些属性值越大越好(正向指标),某些则相反(负向指标)。所以对原始多源数据进行归一化处理:
[0041]
对于正向指标:
[0042][0043]
对于负向指标:
[0044][0045]
其中,x

i
为标准化后的属性值,x
i
为实际属性值,x
max
和x
min
分别为实际属性值的最大和最小值。假设原始指标数据为:
[0046][0047]
其中x
i
·
表示第i个样本数据,x
·
j
表示第j个指标数值集合。经过上述归一化处理之后:x
ij

z
ij

[0048]
为了真实反映评价对象的客观情况,本方法引进信息熵权的思想,根据指标不同样本间数据的变异程度大小来对评价系统的有序程度进行赋值。根据信息熵相关知识可
知,指标数据包含的信息量越大,权重则越大,该指标对多源数据的综合评价的影响越大;反之,权重越小,对综合评价影响越小。信息熵是客观赋权法,利用原始数据客观地得出权重,与主观赋值法相比,更客观、精确度也更高。
[0049]
指标的熵值计算结果可以表示为:
[0050][0051]
其中e
j
表示第j项指标的熵值。然后可以求得该项指标最终的熵权大小为:
[0052][0053]
接着可求得加权评价矩阵:
[0054]
v
ij
=w
j
*z
ij
[0055]
并表示为:
[0056][0057]
对上述矩阵进行主成分分析(pca),假设所提取的主成分因子为e1,e2,

, e
s
,其对应的特征值分别为λ1,λ2,

,λ
s
,且λ1>λ2>

>λ
s
,各个特征值所占方差贡献率为:β
i
=λ
s
/(λ1 λ2…
λ
s
),本方法中一般取前k个主成分因子使得方差贡献率大于95%,即β1 β2

β
k
>95%,对应的主成分因子列向量为:
[0058][0059]
因此定义样本i与j之间的q阶主成分距离为:
[0060][0061]
此距离用来表示样本间的相似度,可用于后续的聚类过程。不同于以往的k
‑ꢀ
means等传统聚类方法,本方法以样本中的数据点为聚类中心,采用亲和力传播聚类算法,主要针对高维数据的聚类,主要思想是将全部高维样本数据均看为潜在的聚类中心,根据相似度大小两两连线构成一个网络(相似度矩阵网络),再通过网络中各条边的信息(吸引度矩阵和归属度矩阵)进行合理的聚类。基本算法流程如下:
[0062]
(1)相似度矩阵根据求得,样本间的相似度记作s(i,j);
[0063]
(2)计算吸引度矩阵:r
i 1
(i,k)=(1

λ)
·
r
i 1
(i,k) λ
·
r
i
(i,k)
[0064]
其中,
[0065]
(3)计算归属度矩阵:a
i 1
(i,k)=(1

λ)
·
a
i 1
(i,k) λ
·
a
i
(i,k)
[0066]
其中,
[0067]
(4)迭代和更新上述两个矩阵,直至聚类中心不再变化或者达到最大迭代次数。
[0068]
经过上述算法流程可以得到最终的聚类列表,类似结果如图2所示。
[0069]
通过结果可以看出,本发明中的聚类过程不同于以往的k

means等传统聚类方法,本方法以样本中的数据点为聚类中心,采用亲和力传播聚类算法,主要针对高维数据的聚类,主要思想是将全部高维样本数据均看为潜在的聚类中心,根据相似度大小两两连线构成一个网络,即相似度矩阵网络,再通过网络中各条边的信息,即吸引度矩阵和归属度矩阵,进行合理的聚类,使得聚类结果更加合理更具指导性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜