一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据仓库模型的治理系统的制作方法

2021-10-30 01:39:00 来源:中国专利 TAG:治理 数据仓库 模型 数据模型 系统


1.本发明涉及数据模型处理技术领域,具体涉及一种数据仓库模型的治理系统。


背景技术:

2.随着快递行业的高速发展,业务域不断扩展,数据量成几何级曲线增长,早期为了迅速响应业务、分析、应用等各方需求而采取的“烟囱式”开发方式开发数据仓库的数据模型。目前的数据仓库的数据模型在规范、释义、时效、质量等多个方面都没有系统性的约束。
3.针对目前数据模型存在的问题,相关技术采用对数据模型进行模型层面的推荐指数打分,以得到数据模型的模型质量数据的技术方案。然而,相关技术的粗粒度的数据难以提高数据模型的质量,促进数据模型的推广,以及需要在具体模型指标上投入巨大的人工沟通成本。


技术实现要素:

4.有鉴于此,提供一种数据仓库模型的治理系统,以解决相关技术存在的难以提高数据模型的质量和数据模型的推广效果,以及人力成本高的问题。
5.本发明采用如下技术方案:
6.一种数据仓库模型的治理系统,包括:规范模型开发模块、模型监控模块和模型指标层级分类模块;
7.所述规范模型开发模块用于根据预设模型开发规范检测模型指标数据,得出检测结果,并将所述检测结果发送给预设终端;
8.所述模型监控模块用于获取模型指标数据质量信息,并根据预设模型指标监控规则的执行数据得到模型指标数据监控结果;所述预设模型指标监控规则根据所述模型指标数据质量信息确定出;
9.所述模型指标层级分类模块用于获取待分类模型指标数据,并对所述待分类模型指标数据进行模型指标分类,得到模型指标层级分类元数据。
10.优选的,本发明的数据仓库模型的治理系统还包括模型指标评价模块;
11.所述模型指标评价模块用于根据预设模型指标层次分类标准对所述模型指标层级分类元数据进行层次分类。
12.优选的,所述层次分类的分类结果包括核心、重要、普通和一般。
13.优选的,所述模型指标数据包括量值、计算口径、模型指标释义和业务模块。
14.优选的,所述对所述待分类模型指标数据进行模型指标分类,包括:
15.基于特征工程对所述待分类模型指标数据进行数据清洗;
16.基于决策树算法对进行数据清洗后的所述待分类模型指标数据进行模型指标分类。
17.本发明采用以上技术方案,一种数据仓库模型的治理系统,包括:规范模型开发模块、模型监控模块和模型指标层级分类模块;规范模型开发模块用于根据预设模型开发规
范检测模型指标数据,得出检测结果,并将检测结果发送给预设终端;模型监控模块用于获取模型指标数据质量信息,并根据预设模型指标监控规则的执行数据得到模型指标数据监控结果;预设模型指标监控规则根据模型指标数据质量信息确定出;模型指标层级分类模块用于获取待分类模型指标数据,并对待分类模型指标数据进行模型指标分类,得到模型指标层级分类元数据。
18.本发明的有益效果在于,通过规范模型开发模块使得数据模型的模型指标释义明确,模型监控模块确定出模型指标监控规则和各数据模型的监控结果,给数据模型的优化提供了量化的目标,以及模型指标层级分类模块对模型指标数据进行分类,避免模型指标数据被重复开发。基于此,本发明提高了数据模型的质量,有利于数据模型的推广,且本发明多为智能处理模型数据,使得本发明具有人力成本低的优点。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本发明实施例提供的一种数据仓库模型的治理系统的架构图。
具体实施方式
21.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
22.图1是本发明实施例提供的一种数据仓库模型的治理系统的架构图。如图1所示,本实施例的数据仓库模型的治理系统,包括:规范模型开发模块11、模型监控模块12和模型指标层级分类模块13。
23.其中,规范模型开发模块11用于根据预设模型开发规范检测模型指标数据,得出检测结果,并将所述检测结果发送给预设终端。
24.具体的,模型指标数据包括新数据模型的模型指标和历史数据模型的模型指标。模型开发人员在进行数据模型开发时,系统接收到对应的新数据模型的模型指标,根据预设模型开发规范检测模型指标数据,得出检测结果,将检测结果发送给模型开发人员侧终端,以使模型开发人员获知检测结果,并根据检测结果录入正确模型指标数据。此外,系统还用于统计并检测历史数据模型的模型指标,得到不符合预设模型开发规范的模型指标,并将该不符合预设模型开发规范的模型指标发生给对应模型负责人侧终端,以使模型负责人对不符合预设模型开发规范的数据模型进行模型指标完善操作。详细的,预设模型开发规范包括对模型指标释义的规范。如此,通过规范模型开发模块11使得各模型指标释义明确,适用场景清楚,使得应用开发人员能够快速地刷选具体合适的模型指标,提高了应用开发人员的开发效率。
25.模型监控模块12用于获取模型指标数据质量信息,并根据预设模型指标监控规则
的执行数据得到模型指标数据监控结果;所述预设模型指标监控规则根据所述模型指标数据质量信息确定出。
26.具体的,系统根据模型治理人员的输入操作生成关于模型使用情况的调查问卷,并将该调查问卷发送给目标调查对象侧终端,获取目标调查对象侧终端反馈的调查结果数据,根据调查结果数据确定出实际模型数据使用疑问和上线模型数据质疑,进而确定出模型指标数据质量信息。然后,模型治理人员通过分析归纳整理模型指标数据质量信息,得到预设模型指标监控规则。预设模型指标监控规则包括数据质量基线,给模型指标优化提供了量化的目标,有利于模型指标的优化迭代。预设模型指标监控规则包括单列数据质量规则、跨列数据质量规则、跨行数据质量规则和跨表数据质量规则。基于这四大类规则范围在大数据平台进行具体规则配置,通过每日监控规则执行情况来反馈模型指标数据的情况。
27.模型指标层级分类模块13用于获取待分类模型指标数据,并对所述待分类模型指标数据进行模型指标分类,得到模型指标层级分类元数据。
28.详细的,待分类模型指标数据为层级混乱的模型指标。获取待分类模型指标数据后,对待分类模型指标进行血缘分析,收集指标业务域、主题域、计算逻辑方法、属性等特征数据。通过特征工程,将待分类模型指标归一化,进而对待分类模型指标进行层级分类,得到模型指标层级分类元数据。如此,通过规则 机器学习算法,对待分类模型指标进行层级分类,标识相似性指标,给模型重构与优化提供了参考依据,避免大量重复或者相似的指标被开发,有利于节约计算资源和存储资源。
29.其中,模型指标层级包括基础指标、复合指标和派生指标三个层级。其中,基础指标是表达业务实体属性的概念集合,是原子化的指标(不可再进一步拆解),比如电子面单费。复合指标是建立在基础指标之上的,由若干个基础指标通过相关运算规则得到且在业务角度无法拆解的指标,比如单票时效达成率。派生指标是由基础指标或复核指标与一个或多个维度值结合产生的指标,比如网点当月揽件量。
30.本实施例采用以上技术方案,一种数据仓库模型的治理系统,包括:规范模型开发模块、模型监控模块和模型指标层级分类模块;规范模型开发模块用于根据预设模型开发规范检测模型指标数据,得出检测结果,并将检测结果发送给预设终端;模型监控模块用于获取模型指标数据质量信息,并根据预设模型指标监控规则的执行数据得到模型指标数据监控结果;预设模型指标监控规则根据模型指标数据质量信息确定出;模型指标层级分类模块用于获取待分类模型指标数据,并对待分类模型指标数据进行模型指标分类,得到模型指标层级分类元数据。
31.本实施例的有益效果在于,通过规范模型开发模块使得数据模型的模型指标释义明确,模型监控模块确定出模型指标监控规则和各数据模型的监控结果,给数据模型的优化提供了量化的目标,以及模型指标层级分类模块对模型指标数据进行分类,避免模型指标数据被重复开发。基于此,本发明把机器学习算法融入到传统的模型指标开发中,通过精准的模型指标分类,重构优化模型,建立完善的模型指标元数据闭环,建立良性的模型建设流程,提高了数据模型的质量,有利于数据模型的推广,且本发明多为智能处理模型数据,使得本发明具有人力成本低的优点。
32.优选的,本实施例的数据仓库模型的治理系统还包括模型指标评价模块;所述模型指标评价模块用于根据预设模型指标层次分类标准对所述模型指标层级分类元数据进
行层次分类。
33.详细的,所述层次分类的分类结果包括核心、重要、普通和一般。预设模型指标层次分类标准根据指标被引用频次、指标是否属于重要业务域、指标的继承层次、指标的使用方层级四个方面确定。
34.优选的,所述模型指标数据包括量值、计算口径、模型指标释义和业务模块。
35.具体的,业务模块包括客服业务模块、用户业务模块(包含商家,发件用户,收件用户)、日志业务模块、会员业务模块、日期业务模块、件量业务模块、公共业务模块、国际业务模块、网点业务模块、绩效业务模块、地址业务模块、末端业务模块、财经业务模块、中转业务模块、人事业务模块(oa业务模块)、汽运业务模块、航空业务模块、时效业务模块、组织业务模块、订单业务模块、员工业务模块(含业务员,操作工等),共计21个业务模块。
36.优选的,所述对所述待分类模型指标数据进行模型指标分类,包括:
37.基于特征工程对所述待分类模型指标数据进行数据清洗;
38.基于决策树算法对进行数据清洗后的所述待分类模型指标数据进行模型指标分类。
39.详细的,通过对模型指标进行血缘分析,结合标准业务域、主题域、原子词汇进行指标特征收集,然后通过决策树(decision tree,dt)模型进行模型指标分类拟合,最终给指标定义层级以及打上相似度标签等元数据信息。
40.可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
41.需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
42.流程示意图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
43.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
44.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
45.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如
果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
46.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
47.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
48.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜