一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据质量评价排名方法及其应用与流程

2022-08-13 15:27:15 来源:中国专利 TAG:


1.本技术涉及城市大脑大数据开发应用领域,特别是涉及数据质量评价排名方法及其应用。


背景技术:

2.城市大脑数据资源中心的建设过程中,会汇集来自各个部门的海量数据,数据质量是数据资源管理者关注的重要指标,对数据质量的评价可以从五个维度:完整性、规范性、准确性、唯一性、及时性。针对一张表,可以比较容易地获得五个维度的相应指标,分别对应:完整率(完整性)、规范率(规范性)、准确率(准确性)、重复率(唯一性)、及时率(及时性)。根据指标进行不同维度的打分从而获取对一张表的数据质量的分值,从而通过分值实现对一张表数据质量的评价。然而当一张表不同维度的分值存在差异,但是总分相同时,常规的评价方法无法满足对总分相同时的数据表质量的排名评价。
3.如果数据资源管理者在评价一张表的数据质量时,遇到不同维度的五个指标分值不同,但是通过常规的加权和平均获得总分相同时,无法较为综合的评价一张表的综合质量。常规的依据其中一个维度的指标分值进行二次排名,不能充分反映数据表质量多维度下的综合差异。
4.因此,亟需一种能够在多维度评价数据质量的情况下,能够反映数据表质量综合差异的数据质量评价方法及其应用。


技术实现要素:

5.本技术实施例提供了数据质量评价排名方法及其应用,针对目前技术无法满足对总分相同时的数据表质量的排名评价的问题。
6.本发明核心技术主要是对数据表的数据质量进行评分排序,在得分相同的情况下,通过数据质量偏离因子评价数据质量的综合排序,从而实现对数据质量多维度的综合质量评判。
7.第一方面,本技术提供了数据质量评价排名方法,应用于城市大脑数据资源中心,所述方法包括以下步骤:
8.创建数据质量评价的多个维度及其对应的评价指标;
9.根据评价指标对各维度进行打分并构建数据表质量得分向量;
10.根据数据表质量得分向量采取加权计算得到数据表质量评价总分和数据表评价总分维度向量;
11.判断是否存在相同数据表质量评价总分;
12.若是,则计算数据表评价总分维度向量与数据表最优得分向量之间的偏离因子,根据偏离因子的大小对相同数据表质量评价总分的数据表进行排序;
13.若否,则按数据表质量评价总分排序。
14.进一步地,数据表最优得分向量根据每个维度均满分的空间向量进行加权得到。
15.进一步地,偏离因子为数据表评价总分维度向量与数据表最优得分向量之间空间距离。
16.进一步地,维度至少包括完整性、规范性、准确性、唯一性及及时性。
17.进一步地,评价指标对应包括完整率指标、规范率指标、准确率指标、重复率指标及及时率指标。
18.进一步地,排序标准为:根据数据表质量评价总分从高到低排序表示数据质量好坏或根据偏离因子的大小从低到高排序表示数据质量好坏。
19.进一步地,每个维度评分采用百分制,且加权计算的权重大于零且小于等于一。
20.第二方面,本技术提供了一种数据质量评价排名装置,包括:
21.创建维度模块,用于创建数据质量评价的多个维度及其对应的评价指标;
22.打分模块,用于根据评价指标对各维度进行打分并构建数据表质量得分向量;根据数据表质量得分向量采取加权计算得到数据表质量评价总分和数据表评价总分维度向量;
23.判断模块,用于判断是否存在相同数据表质量评价总分;
24.数据质量偏离因子计算模块,用于计算数据表评价总分维度向量与数据表最优得分向量之间的偏离因子;
25.排名模块,用于执行:若存在相同数据表质量评价总分,则根据偏离因子的大小对相同数据表质量评价总分的数据表进行排序,如不存在相同数据表质量评价总分,则按数据表质量评价总分排序。
26.第三方面,本技术提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的数据质量评价排名方法。
27.第四方面,本技术提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据上述的数据质量评价排名方法。
28.本发明的主要贡献和创新点如下:1、与现有技术相比,本技术能够在大数据资源中建设过程中,对数据表的数据质量进行评分排序,在得分相同的情况下,通过数据质量偏离因子评价数据质量的综合排序,从而实现对数据质量多维度的综合质量评判;
29.2、与现有技术相比,本技术的数据质量偏离因子是指当前数据质量与最优质量的偏离值,可以更加准确的反应数据质量的好坏。
30.本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
31.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
32.图1是根据本技术实施例的数据质量评价排名方法的流程示意图;
33.图2是根据本技术实施例的数据质量评价维度与打分流程示意图;
34.图3是根据本技术实施例的质量得分向量点与最优得分向量点之间的偏离示意图;
35.图4是根据本技术实施例的电子装置的硬件结构示意图。
具体实施方式
36.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
37.需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
38.城市大脑数据资源中心的建设过程中,当一张表不同维度的分值存在差异,但是总分相同时,常规的评价方法无法满足对总分相同时的数据表质量的排名评价。
39.基于此,本发明基于对数据表的数据质量进行评分排序,在得分相同的情况下,通过数据质量偏离因子评价数据质量的综合排序,从而实现对数据质量多维度的综合质量评判。
40.实施例一
41.具体地,本技术实施例提供了一种数据质量评价排名方法,可以有效地解决现有技术无法综合评价的问题,具体地,参考图1,所述方法包括以下步骤:
42.步骤一、创建数据质量评价的多个维度及其对应的评价指标;
43.其中,维度至少包括完整性、规范性、准确性、唯一性及及时性,在本实施例中选用为完整性、规范性、准确性、唯一性及及时性这五个维度,相应的评价指标对应包括完整率指标、规范率指标、准确率指标、重复率指标及及时率指标;
44.步骤二、根据评价指标对各维度进行打分并构建数据表质量得分向量;
45.其中,如图2所示,完整性得分=及时率*100=(数据字段校验总条数-完整性问题数据条数/数据字段校验总条数)*100;
46.规范性得分=规范率*100=(数据字段校验总条数-规范性问题数据条数/数据字段校验总条数)*100;
47.准确性得分=准确率*100=(数据字段校验总条数-准确性问题数据条数/数据字段校验总条数)*100;
48.唯一性得分=(1-重复率)*100={1-(重复数据条数/数据字段校验总条数)}*100;
49.及时性得分=及时率*100=(数据字段校验总条数-未及时更新数据条数/数据字段校验总条数)*100;
50.从而获得不同维度的数据指标打分,根据打分结果,构建数据表质量得分向量t:
51.t={完整率得分,规范性得分,准确性得分,唯一性得分,及时性得分};
52.步骤三、根据数据表质量得分向量采取加权计算得到数据表质量评价总分和数据
表评价总分维度向量;
53.其中,采取不同维度加权方式获取数据质量总分(因为在实际的操作中,对一张数据表总体情况的评价,不同维度的比重视不同的,通过设置加权因子,调节不同维度得分的比重),设定不同维度的加权因子为α(α可以根据不同维度权重占比自由设置,0《α《=1),总分为f,则总分f计算方式为:
54.f=完整率得分*α1 规范性得分*α2 准确性得分*α3 唯一性得分*α4 及时性得分*α5;
55.计算数据表评价总分维度向量s:s={完整率得分*α1,规范性得分*α2,准确性得分*α3,唯一性得分*α4,及时性得分*α5};
56.步骤四、判断是否存在相同数据表质量评价总分f;
57.步骤五、若是,则计算数据表评价总分维度向量s与数据表最优得分向量l之间的偏离因子z,根据偏离因子z的大小对相同数据表质量评价总分f的数据表进行排序;若否,则按数据表质量评价总分f排序。
58.其中,数据表最优得分向量根据每个维度均满分的空间向量进行加权得到,如数据质量偏离因子是指当前数据质量与最优质量的偏离值,按照百分制,最优数据质量五大维度得满分的空间向量t1={100,100,100,100,100,100};
59.按照加权平均因子为α(α可以根据不同维度权重占比自由设置,0《α《=1),数据表最优得分向量l={100α1,100α2,100α3,100α4,100α5}。其中,偏离因子为数据表评价总分维度向量与数据表最优得分向量之间空间距离。
60.如计算数据表评价总分维度向量s与数据表最优得分向量l之间的偏离因子z,z为得分向量点与最优向量点之间的空间距离:
[0061][0062]
如此,z是评价一张表数据质量得分向量点与最优得分向量点之间的距离,作为数据表评价总分维度向量s与数据表最优得分向量l之间的偏离因子。
[0063]
其中,排序标准为:根据数据表质量评价总分从高到低排序表示数据质量好坏或根据偏离因子的大小从低到高排序表示数据质量好坏。如不同表之间,根据所算数据质量得分f,从高到低进行数据质量排序;在得分f相同的情况下,根据数据质量偏离因子z进行排序,z越小,越靠前表示数据质量越好。
[0064]
在本实施例中,为了展示数据质量偏离因子的效果,以下对实际例进行展示:
[0065]
假定不同维度得分,满分100分,加权因子α=1,则最优得分应当为t={100,100,100,100,100},假定1表数据表评价总分维度向量s1={80,90,70,20,30},f1=80 90 70 20 30=290分;
[0066]
假定2表数据表评价总分维度向量s2={100,90,100,0,0},f2=100 90 100 0 0=290分;
[0067]
则从总分f的角度来看f1=f2,两者在总分上是相等的,如何判断在综合质量上的
差异呢,数据质量偏离因子是将分值比较问题转化为空间中s1点与s2点与最优点t之间的向量距离问题,在空间中,与最优得分t点越接近,数据质量必定越好,如图3以三维空间向量为例作为说明,102为满分最优点,101为得分点,103为两点直接距离代表数据表得分点与最优点之间的距离。
[0068]
因此,当数据表得分无限趋近于满分时,数据表与满分最优点之间的距离无限趋近于0。
[0069]
表1与表2总分f相同,计算两表得分向量点与最优得分向量点之间的距离,得到偏离因子:
[0070][0071][0072]
则表1得分向量点与最优点之间的距离112.69,表2与最优点之间的距离141.77,表1更接近最优向量点,则表1数据质量更好。
[0073]
实施例二
[0074]
基于相同的构思,本技术还提出了一种数据质量评价排名装置,应用于城市大脑数据资源中心,包括:
[0075]
创建维度模块,用于创建数据质量评价的多个维度及其对应的评价指标;
[0076]
打分模块,用于根据评价指标对各维度进行打分并构建数据表质量得分向量;根据数据表质量得分向量采取加权计算得到数据表质量评价总分和数据表评价总分维度向量;
[0077]
判断模块,用于判断是否存在相同数据表质量评价总分;
[0078]
数据质量偏离因子计算模块,用于计算数据表评价总分维度向量与数据表最优得分向量之间的偏离因子;
[0079]
排名模块,用于执行:若存在相同数据表质量评价总分,则根据偏离因子的大小对相同数据表质量评价总分的数据表进行排序,如不存在相同数据表质量评价总分,则按数据表质量评价总分排序。
[0080]
实施例三
[0081]
本实施例还提供了一种电子装置,参考图4,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0082]
具体地,上述处理器402可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0083]
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(harddiskdrive,简称为hdd)、软盘驱动器、固态驱动器(solidstatedrive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(non-volatile)存
储器。在特定实施例中,存储器404包括只读存储器(read-onlymemory,简称为rom)和随机存取存储器(randomaccessmemory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmableread-onlymemory,简称为prom)、可擦除prom(erasableprogrammableread-onlymemory,简称为eprom)、电可擦除prom(electricallyerasableprogrammableread-onlymemory,简称为eeprom)、电可改写rom(electricallyalterableread-onlymemory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(staticrandom-accessmemory,简称为sram)或动态随机存取存储器(dynamicrandomaccessmemory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器404(fastpagemodedynamicrandomaccessmemory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extendeddateoutdynamicrandomaccessmemory,简称为edodram)、同步动态随机存取内存(synchronousdynamicrandom-accessmemory,简称sdram)等。
[0084]
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
[0085]
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意数据质量评价排名方法。
[0086]
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
[0087]
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
[0088]
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是各数据表等,输出的信息可以是排序结果等。
[0089]
实施例四
[0090]
本实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据实施例一的数据质量评价排名方法。
[0091]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0092]
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
[0093]
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括
软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如dvd及其数据变体、cd等光学介质上。物理介质是非瞬态介质。
[0094]
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0095]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以作出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献