一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

政务系统数据质量评估方法、装置、终端及存储介质与流程

2021-11-29 13:37:00 来源:中国专利 TAG:


1.本发明属于数据处理技术领域,尤其涉及一种政务系统数据质量评估方法、装置、终端及计算机可读存储介质。


背景技术:

2.政务数据开放共享已经成为时代发展的必然趋势,在政务数据开放共享的过程中,数据的质量问题是影响数据价值的关键因素之一。
3.现有的政务系统,如民政部的婚姻登记系统、殡葬管理系统、儿童福利系统和流浪救助等系统,随着信息化的发展,政务数据经历了多次开发甚至迁移整合等,造成系统数据质量较差,如存在大量重复数据、不一致的数据等。
4.现有技术存在很多数据预处理方法,如数据清理、丢失数据补全等。
5.如何对数据质量进行评估,用于判断数据是否需要进行处理,或者用于判断处理后的数据质量是否达标,是现有技术急需解决的问题。


技术实现要素:

6.有鉴于此,本发明提供了一种政务系统数据质量评估方法、装置、终端及计算机可读存储介质,能够提高政务系统数据质量的评估精度。
7.本发明实施例的第一方面提供了一种政务数据质量评估方法,包括:
8.确定待评估数据对应的评估指标,所述评估指标包括一致性指标、完整性指标、准确性指标、实效性指标和唯一性指标,所述待评估数据包括n个对象,每个对象对应m个属性;
9.针对任一评估指标,计算所述评估指标的分值并对所有评估指标的分值进行归一化处理;
10.获取每个评估指标对应的权重;
11.根据归一化处理后每个评估指标对应的分值和每个评估指标的权重,计算待评估数据的分值。
12.在一种可能的实现方式中,针对任一评估指标,所述获取每个评估指标对应的权重包括:
13.通过层次分析法得到所述评估指标的主观权重值;
14.通过熵值系数法获得所述评估指标的客观权重值;
15.根据所述评估指标的主观权重值和客观权重值,得到所述评估指标对应的权重。
16.在一种可能的实现方式中,该方法包括:
17.通过第一预设公式计算所述待评估数据的一致性指标的分值,所述第一预设公式为:
18.19.其中,c1为待评估数据一致性指标的分值,x
ij
为第i个对象的第个j属性的属性值,f
j
(x
ij
)为第j个属性与第1个属性之间的转换函数,i
a
为隶属函数,a
j
为第j个属性的指定编码方式,1≤i≤n,1≤j≤m。
20.在一种可能的实现方式中,该方法包括:
21.通过第二预设公式计算所述待评估数据的完整性指标的分值,所述第二预设公式为:
[0022][0023]
其中,c2为待评估数据完整性指标的分值,f
i
为第i个对象的空值率,第i个对象的空值率用于表示第i个对象中空值数据与所有数据的比值。
[0024]
在一种可能的实现方式中,该方法包括:
[0025]
通过第三预设公式计算所述待评估数据的准确性指标的分值,所述第三预设公式为:
[0026][0027]
其中,c3为待评估数据准确性指标的分值,f
z
()为属性判断函数,x
ij
第i个对象的第个j属性的属性值。
[0028]
在一种可能的实现方式中,该方法包括:
[0029]
通过第四预设公式计算所述待评估数据的实效性指标的分值,所述第四预设公式为:
[0030][0031]
其中,c4为待评估数据时效性指标的分值,设有h个数据源,在t1至t
p
个时间离散点,进行同样条件的查询,查询次数为q,第i个对象得到结果为r
iab
,ct(r
iab
)为获得结果的更新函数,et(r
iab
)为获得结果的最早时间函数,d{ct(r
iab
),et(r
iab
)}为ct(r
iab
)与et(r
iab
)的欧氏距离。
[0032]
在一种可能的实现方式中,该方法包括:
[0033]
通过第五预设公式计算所述待评估数据的唯一指标的分值,所述第五预设公式为:
[0034][0035]
其中,c5为待评估数据唯一性指标的分值,所述n个对象中最多存在s个对象且所述s个对象中任意两个对象的相似度小于等于预设值。
[0036]
本发明实施例的第二方面提供了一种政务数据质量评估装置,包括:评估指标确定单元、评估指标分值计算单元、评估指标权重确定单元和评估单元;
[0037]
所述评估指标确定单元,用于确定待评估数据对应的评估指标,所述评估指标包括一致性指标、完整性指标、准确性指标、实效性指标和唯一性指标,所述待评估数据包括n
个对象,每个对象对应m个属性;
[0038]
所述评估指标分值计算单元,用于针对任一评估指标,计算所述评估指标的分值并对所有评估指标的分值进行归一化处理;
[0039]
所述评估指标权重确定单元,用于获取每个评估指标对应的权重;
[0040]
所述评估单元,用于根据归一化处理后每个评估指标对应的分值和每个评估指标的权重,计算待评估数据的分值。
[0041]
第三方面,本发明实施例提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
[0042]
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。
[0043]
本发明实施例提供一种政务数据质量评估方法、装置、终端及存储介质,通过设置多个方面的评估指标,并根据不同评估指标对不同政务数据系统的重要性不同,设置每个评估指标的权重,从而提高了政务数据质量评估的精度。
附图说明
[0044]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1是本发明实施例提供的一种政务数据质量评估方法的实现流程图;
[0046]
图2是本发明实施例提供的一种政务数据质量评估装置的结构示意图;
[0047]
图3是本发明实施例提供的终端的示意图。
具体实施方式
[0048]
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
[0049]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
[0050]
参见图1,其示出了本发明实施例提供的一种政务数据质量评估方法的实现流程图,详述如下:
[0051]
s101,确定待评估数据对应的评估指标,所述评估指标包括一致性指标、完整性指标、准确性指标、实效性指标和唯一性指标,所述待评估数据包括n个对象,每个对象对应m个属性。
[0052]
可选的,在本发明实施例中,设置如下几种评估指标,分别为:一致性指标、完整性指标、准确性指标、实效性指标和唯一性指标。
[0053]
一致性指标包括数据采集阶段获得的数据的一致性与数据存储、处理和传输过程中的数据的一致性。包括数据定义的一致性、时间的一致性和数据间逻辑关系的一致性。首先,进行统一的数据定义,其次,确保时间的一致性,最后,保证数据间逻辑关系的一致性。
[0054]
完整性指标用于表示待评估的数据所描述的内容相对于现实对象集的数据的完备程度,描述数据信息缺失的程度,是数据质量中最基础的一项评估标准。数据缺失的情况包括字段信息记录缺失,选择需要进行完整性检查的字段,计算该字段中空值数据的占比,通常来说表的主键及非空字段空值率为0%。空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。
[0055]
准确性指标用于表示数据能够准确反映客观事物的程度,准确性的度量值同客观事物的实际值之间的差异越小,数据的准确性越高。可选的,准确性指标包括但不限于数据语义是否准确、数据的表达语法是否准确、数据的值是否准确。
[0056]
实效性指标用于表示数据在时间变化过程中对于客观描述的准确性变化趋势,或数据生命周期的时效长度等。
[0057]
唯一性指标用于表示所用数据在各引入数据源中只出现一次,并且这个数值是客观实体的主键值并且唯一关联。数据重复率能很好的反映数据的唯一性。数据重复率越低,数据的唯一性指标越好。
[0058]
s102,针对任一评估指标,计算所述评估指标的分值并对所有评估指标的分值进行归一化处理。
[0059]
可选的,通过如下方法计算各个评估指标的分值。
[0060]
通过第一预设公式计算所述待评估数据的一致性指标的分值,所述第一预设公式为:
[0061][0062]
其中,c1为待评估数据一致性指标的分值,x
ij
为第i个对象的第个j属性的属性值,f
j
(x
ij
)为第j个属性与第1个属性之间的转换函数,i
a
为隶属函数,a
j
为第j个属性的指定编码方式,1≤i≤n,1≤j≤m。
[0063]
通过第二预设公式计算所述待评估数据的完整性指标的分值,所述第二预设公式为:
[0064][0065]
其中,c2为待评估数据完整性指标的分值,f
i
为第i个对象的空值率,第i个对象的空值率用于表示第i个对象中空值数据与所有数据的比值。
[0066]
通过第三预设公式计算所述待评估数据的准确性指标的分值,所述第三预设公式为:
[0067][0068]
其中,c3为待评估数据准确性指标的分值,f
z
()为属性判断函数,x
ij
第i个对象的
第个j属性的属性值。
[0069]
通过第四预设公式计算所述待评估数据的实效性指标的分值,所述第四预设公式为:
[0070][0071]
其中,c4为待评估数据时效性指标的分值,设有h个数据源,在t1至t
p
个时间离散点,进行同样条件的查询,查询次数为q,第i个对象得到结果为r
iab
,ct(r
iab
)为获得结果的更新函数,et(r
iab
)为获得结果的最早时间函数,d{ct(r
iab
),et(r
iab
)}为ct(r
iab
)与et(r
iab
)的欧氏距离。
[0072]
通过第五预设公式计算所述待评估数据的唯一指标的分值,所述第五预设公式为:
[0073][0074]
其中,c5为待评估数据唯一性指标的分值,所述n个对象中最多存在s个对象且所述s个对象中任意两个对象的相似度小于等于预设值。
[0075]
可选的,在本发明实施例中,一个对象可以为一个文本,针对任一文本,获取所述文本对应的带有tf

idf权重的向量;计算任意两个文本的向量的余弦相似度,得到所述任意两个文本的相似度。
[0076]
假设一个n个文本,n个文本共包含c个特征词,那么这n个文本就可以用一个文本向量矩阵的形式表示,该文本向量矩阵是一个n行c列的矩阵,第i行对应的特征向量即为第i个文本的特征向量。
[0077]
其中tf

idf算法经常被用于确定权重,其中tf即词频的意思,可以表示特征词在文档中出现的次数,当一个特征词在文档中多次出现,其tf值就会越高,其在文档中的作用也就越大。
[0078]
idf即逆向文档频率,表示对一个特征词出现在文档中的普遍性的量化值。
[0079]
得到文档中某个词的tf和idf值之后,二者乘积即为该词的tf

idf值,此时也就确定了该词的权重值。
[0080]
通过tf

idf确定了权重之后,就可以得到一个文本对应的带有tf

idf权重的特征向量。文本间的相似度即可利用这些特征向量之间的余弦相似度计算得出。
[0081]
若两个对象,即两个文本的相似度大于预设值,则判断两个文本为相同文本,去除其中一个文本。
[0082]
通过这种方法去除n个对象中的重复对象,得到s个对象,s个对象中任意两个对象的相似度小于等于预设值。
[0083]
s103,获取每个评估指标对应的权重。
[0084]
可选的,通过层次分析法得到所述评估指标的主观权重值;通过熵值系数法获得所述评估指标的客观权重值;根据所述评估指标的主观权重值和客观权重值,得到所述评估指标对应的权重。
[0085]
s104,根据归一化处理后每个评估指标对应的分值和每个评估指标的权重,计算
待评估数据的分值。
[0086]
假设归一化处理后,一致性指标对应的分值为c
′1,对应的权重为ω1,完整性指标对应的分值为c
′2,对应的权重为ω2,准确性指标对应的分值为c
′3,对应的权重为ω3,时效性指标对应的分值为c
′4,对应的权重为ω4,唯一性指标对应的分值为c
′5,对应的权重为ω5。
[0087]
则待评估数据的分值c=ω1c
′1 ω2c
′2 ω3c
′3 ω4c
′4 ω5c
′5[0088]
由上可知,本发明通过设置多个方面的评估指标,并根据不同评估指标对不同政务数据系统的重要性不同,设置每个评估指标的权重,从而提高了政务数据质量评估的精度。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0089]
以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
[0090]
图2示出了本发明实施例提供的政务数据质量评估装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
[0091]
如图2所示,政务数据质量评估装置2包括:评估指标确定单元21、评估指标分值计算单元22、评估指标权重确定单元23和评估单元24;
[0092]
所述评估指标确定单元21,用于确定待评估数据对应的评估指标,所述评估指标包括一致性指标、完整性指标、准确性指标、实效性指标和唯一性指标,所述待评估数据包括n个对象,每个对象对应m个属性;
[0093]
所述评估指标分值计算单元22,用于针对任一评估指标,计算所述评估指标的分值并对所有评估指标的分值进行归一化处理;
[0094]
所述评估指标权重确定单元23,用于获取每个评估指标对应的权重;
[0095]
所述评估单元24,用于根据归一化处理后每个评估指标对应的分值和每个评估指标的权重,计算待评估数据的分值。
[0096]
可选的,评估指标权重确定单元23,用于通过层次分析法得到所述评估指标的主观权重值;
[0097]
通过熵值系数法获得所述评估指标的客观权重值;
[0098]
根据所述评估指标的主观权重值和客观权重值,得到所述评估指标对应的权重。
[0099]
可选的,评估指标分值计算单元22,用于通过第一预设公式计算所述待评估数据的一致性指标的分值,所述第一预设公式为:
[0100][0101]
其中,c1为待评估数据一致性指标的分值,x
ij
为第i个对象的第个j属性的属性值,f
j
(x
ij
)为第j个属性与第1个属性之间的转换函数,i
a
为隶属函数,a
j
为第j个属性的指定编码方式,1≤i≤n,1≤j≤m。
[0102]
可选的,评估指标分值计算单元22,还用于通过第二预设公式计算所述待评估数据的完整性指标的分值,所述第二预设公式为:
[0103][0104]
其中,c2为待评估数据完整性指标的分值,f
i
为第i个对象的空值率,第i个对象的空值率用于表示第i个对象中空值数据与所有数据的比值。
[0105]
可选的,评估指标分值计算单元22,还用于通过第三预设公式计算所述待评估数据的准确性指标的分值,所述第三预设公式为:
[0106][0107]
其中,c3为待评估数据准确性指标的分值,f
z
()为属性判断函数,x
ij
第i个对象的第个j属性的属性值。
[0108]
可选的,评估指标分值计算单元22,还用于通过第四预设公式计算所述待评估数据的实效性指标的分值,所述第四预设公式为:
[0109][0110]
其中,c4为待评估数据时效性指标的分值,设有h个数据源,在t1至t
p
个时间离散点,进行同样条件的查询,查询次数为q,第i个对象得到结果为r
iab
,ct(r
iab
)为获得结果的更新函数,et(r
iab
)为获得结果的最早时间函数,d{ct(r
iab
),et(r
iab
)}为ct(r
iab
)与et(r
iab
)的欧氏距离。
[0111]
可选的,评估指标分值计算单元22,还用于通过第五预设公式计算所述待评估数据的唯一指标的分值,所述第五预设公式为:
[0112][0113]
其中,c5为待评估数据唯一性指标的分值,所述n个对象中最多存在s个对象且所述s个对象中任意两个对象的相似度小于等于预设值。
[0114]
由上可知,本发明实施例提供的装置通过设置多个方面的评估指标,并根据不同评估指标对不同政务数据系统的重要性不同,设置每个评估指标的权重,从而提高了政务数据质量评估的精度。
[0115]
图3是本发明实施例提供的终端的示意图。如图3所示,该实施例的终端3包括:处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32。所述处理器30执行所述计算机程序32时实现上述各个政务数据质量评估方法实施例中的步骤,例如图1所示的步骤101至步骤104。或者,所述处理器30执行所述计算机程序32时实现上述各装置实施例中各模块/单元的功能,例如图2所示模块/单元21至24的功能。
[0116]
示例性的,所述计算机程序32可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序32在所述终端3中的执行过程。例如,所述计算机程序32可以被分割成图2所示的模块/单元21至24。
[0117]
所述终端3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端3可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图3仅仅是终端3的示例,并不构成对终端3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
[0118]
所称处理器30可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0119]
所述存储器31可以是所述终端3的内部存储单元,例如终端3的硬盘或内存。所述存储器31也可以是所述终端3的外部存储设备,例如所述终端3上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器31还可以既包括所述终端3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
[0120]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0121]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0122]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0123]
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0124]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0125]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0126]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个政务数据质量评估方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
[0127]
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献