一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数据特征的大规模数据质量异常检测方法与流程

2021-10-29 20:56:00 来源:中国专利 TAG:数据 异常 检测方法 特征 检测

1.本发明涉及数据异常检测领域,特别涉及一种基于数据特征的大规模数据质量异常检测方法。


背景技术:

2.随着数字经济的发展,各行各业已经不再一味地追求数据量的规模,在数据应用的过程中对数据质量的要求也越来越高,面对海量的数据资源,如何更快、更准、更智能得发现定位数据质量问题,开展相应治理工作,是当前企业级数据资产管理的重点与核心。
3.如公开号cn108256074a的发明公开了一种校验处理的方法,包括获取待校验的数据仓库的模型,每一模型包括多个字段信息,所述字段信息包括字段定义和字段类型;根据预先存储的数据字典,对所述字段信息进行校验,所述数据字典包括多个标准用语,每一标准用语包括标准定义和标准类型;若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配,则将所述字段类型修改为与标准类型一致。所述方法根据标准用语对数据仓库的模型进行校验,在字段定义与标准定义匹配且字段类型与标准类型不匹配时,有针对性的将字段类型修改为与标准类型一致,从而得到标准的一致化的模型传统的数据质量异常检测是以规则为驱动,针对的是特定表的特定字段,由业务专家依据业务规范和经验知识设计一套质量异常检测方法,以此开展相应专项治理工作,这样构造的检测方法检测对象及用途专一、通用性不强,当需要开展大规模数据质量异常检测时效率低下、范围局限且需要逐个人为指定,无法实现大规模的数据质量异常检测。


技术实现要素:

4.针对上述问题,本发明提供了一种基于数据特征的大规模数据质量异常检测方法,将异常检测由检测规则驱动的方式转变为由数据特征驱动的方式,基于各字段中数据本身的特征信息生成相应的异常值检测方法,实现数据质量检核的规模化与自动化,扩大了数据质量检测的范围,提高数据质量问题检测效率。
5.以下是本发明的技术方案。
6.一种基于数据特征的大规模数据质量异常检测方法,包括以下步骤:构建数据异常检测方法库,根据每种数据特征设置对应的检测方法,汇总形成数据异常检测方法库;对数据特征进行异常检测方法匹配,根据匹配结果中的异常检测方法进行检测;大规模数据特征遍历,对每个数据特征进行匹配和检测。
7.本发明的方法库设置是从统计学、常识、自然规律、专业通用知识等角度对不同的数据特征分别设计对应的异常检测方法,比如数据值类特征设计当字段值出现极值时报异常、日期特征对不符合日期格式的字段内容报异常等,方法库的设置根据实际使用需求进行具体确定,匹配后针对性地进行检测。
8.作为优选,所述数据异常检测方法库以字典类型存储,数据特征名称及其特征参数组成的元组作为字典的键,数据特征对应的异常检测方法作为字典的值。python的字典
类型是个键值对,使用python的字典类型来存储数据特征及其异常检测方法,字典的键存储的是数据特征名称及其特征参数组成的元组,字典的值存储的是该数据特征对应的异常检测方法,其中每个异常检测方法的阈值由特征参数给出,通过字典的方式存储,可以清楚划分键和值,利于后续的匹配。
9.作为优选,所述匹配包括以下过程:对待处理的数据特征名称和异常检测方法库中的键分别嵌入经nlp得到的词向量,计算词向量之间的余弦相似度,相似度于阈值的键即为该数据特征对应的潜在键,这些键所对应的异常检测方法即是匹配结果。词向量包含多维数值,借助余弦相似度,可以较为准确地判断和比较。
10.作为优选,所述余弦相似度的计算公式如下:其中u和v分别表示两个词向量。该公式是余弦相似度计算的常用公式。
11.作为优选,所述大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,以依次展开排列的n个像素点阵列表示每个词向量,其中n为词向量的维度,该词向量每个维度的值为每个像素点的灰度值,以将像素点阵列所表示的图像复制至m个像素点的白底图片中得到复刻图,其中m为n的x^2倍,x为大于等于2的自然数,降低复刻图的像素至n,读取每个像素的灰度值,组成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。面对海量数据时,如果仍然同处理单个数据的方式完全一致,则虽然精确度高但运算量大,整体效率偏低,因此采用上述方式将向量模糊化,模糊化的词向量与原词向量之间虽然会产生偏差,但原本相似的词向量之间仍然保留有合适的相似度,因此相似度的计算结果相差较小,通过这种方式可以应对海量数据下的计算压力。
12.作一种替代方案,所述大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,并将0至225分为若干阶,将每个维度的数值修改为该数值对应阶内的中间数,生成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。该方案仍然是以模糊化词向量为主,降低大规模数据下的计算量。
13.本发明的实质性效果包括:将异常检测由检测规则驱动的方式转变为由数据特征驱动的方式,基于各字段中数据本身的特征信息生成相应的异常值检测方法,同时针对大规模数据设置特殊的模糊化处理机制,实现数据质量检核的规模化与自动化,提高数据质量问题检测效率。
具体实施方式
14.下面将结合实施例,对本技术的技术方案进行描述。另外,为了更好的说明本发明,在下文中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未做详细描述,以便于凸显本发明的主旨。
15.实施例1:一种基于数据特征的大规模数据质量异常检测方法,包括以下步骤:
步骤s1:构建数据异常检测方法库,根据每种数据特征设置对应的检测方法,汇总形成数据异常检测方法库。
16.其中数据异常检测方法库以字典类型存储,数据特征名称及其特征参数组成的元组作为字典的键,数据特征对应的异常检测方法作为字典的值。python的字典类型是个键值对,使用python的字典类型来存储数据特征及其异常检测方法,字典的键存储的是数据特征名称及其特征参数组成的元组,字典的值存储的是该数据特征对应的异常检测方法,其中每个异常检测方法的阈值由特征参数给出,通过字典的方式存储,可以清楚划分键和值,利于后续的匹配。
17.步骤s2:对数据特征进行异常检测方法匹配,根据匹配结果中的异常检测方法进行检测。
18.其中匹配包括以下过程:对待处理的数据特征名称和异常检测方法库中的键分别嵌入经nlp得到的词向量,计算词向量之间的余弦相似度,相似度于阈值的键即为该数据特征对应的潜在键,这些键所对应的异常检测方法即是匹配结果。词向量包含多维数值,借助余弦相似度,可以较为准确地判断和比较。
19.余弦相似度的计算公式如下:其中u和v分别表示两个词向量。该公式是余弦相似度计算的常用公式。
20.步骤s3:大规模数据特征遍历,对每个数据特征进行匹配和检测。
21.本实施例的大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,以依次展开排列的n个像素点阵列表示每个词向量,其中n为词向量的维度,该词向量每个维度的值为每个像素点的灰度值,以将像素点阵列所表示的图像复制至m个像素点的白底图片中得到复刻图,其中m为n的x^2倍,x为大于等于2的自然数,降低复刻图的像素至n,读取每个像素的灰度值,组成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。面对海量数据时,如果仍然同处理单个数据的方式完全一致,则虽然精确度高但运算量大,整体效率偏低,因此采用上述方式将向量模糊化,模糊化的词向量与原词向量之间虽然会产生偏差,但原本相似的词向量之间仍然保留有合适的相似度,因此相似度的计算结果相差较小,通过这种方式可以应对海量数据下的计算压力。
22.本实施例的方法库设置是从统计学、常识、自然规律、专业通用知识等角度对不同的数据特征分别设计对应的异常检测方法,比如数据值类特征设计当字段值出现极值时报异常、日期特征对不符合日期格式的字段内容报异常等,方法库的设置根据实际使用需求进行具体确定,匹配后针对性地进行检测。
23.实施例2:本实施例与实施例1整体一致,区别在于大规模数据特征遍历过程不同,本实施例的大规模数据特征遍历过程包括:将待匹配的词向量中每一维度数值按比例缩放至0到255范围内,并将0至225分为若干阶,将每个维度的数值修改为该数值对应阶内的中间数,生成新的特殊词向量,使用特殊词向量进行余弦相似度的计算以减少大规模数据量下的计算强度。该方案仍然是以模糊化词向量为主,降低大规模数据下的计算量。
24.上述实施例的实质性效果包括:将异常检测由检测规则驱动的方式转变为由数据特征驱动的方式,基于各字段中数据本身的特征信息生成相应的异常值检测方法,同时针对大规模数据设置特殊的模糊化处理机制,实现数据质量检核的规模化与自动化,提高数据质量问题检测效率。
25.通过以上实施方式的描述,所属领域的技术人员可以了解到,本实施例如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
26.以上内容,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜