一种基于数据内容的大规模数据特征智能化提取方法与流程

2021-10-29 20:54:00 来源：中国专利 TAG：数据提取特征智能化特别

1.本发明涉及数据特征提取技术领域，特别涉及一种基于数据内容的大规模数据特征智能化提取方法。

背景技术：

2.随着数字经济的发展，各行各业已经不再一味地追求数据量的规模，在数据应用的过程中对数据质量的要求也越来越高，面对海量的数据资源，如何更快、更准、更智能得发现定位数据质量问题，开展相应治理工作，是当前企业级数据资产管理的重点与核心。
3.现有技术中，如公开号cn105554152a的发明公开了一种数据特征提取的方法及装置。在更细节化的技术内容中，又如公开号cn108256074a的发明公开了一种校验处理的方法，包括获取待校验的数据仓库的模型，每一模型包括多个字段信息，所述字段信息包括字段定义和字段类型；根据预先存储的数据字典，对所述字段信息进行校验，所述数据字典包括多个标准用语，每一标准用语包括标准定义和标准类型；若所述字段定义与标准定义匹配且所述字段类型与标准类型不匹配，则将所述字段类型修改为与标准类型一致。所述方法根据标准用语对数据仓库的模型进行校验，在字段定义与标准定义匹配且字段类型与标准类型不匹配时，有针对性的将字段类型修改为与标准类型一致，从而得到标准的一致化的模型。
4.现有技术中解决相关问题的方式各有千秋，而传统的数据质量治理模式下，问题检测对象的选择是需要由业务专家依据业务规范和经验知识来指定特定、具体的数据表和字段，需指明每个字段具有什么样的特点，适用什么样的规则，这样的方式与结果对业务专家的经验以及专业技能要求极高，数据质量问题的检测对象范围比较局限，且高度依赖业务专家，对于大规模的海量数据就需要业务专家分别、逐一指定对应的检测对象与范围，且数据特征的通用性弱、维护起来费时费力，无法实现大规模、自动化的数据质量检测对象的明确及相应数据特征的提取，数据质量稽核的效率低下并受人工经验影响严重。

技术实现要素：

5.针对现有技术中的问题，本发明旨在提供一种基于数据内容的大规模数据特征智能化提取方法，考虑了对表格处理与检测的通用性，无需提供表格的额外任何相应知识，只依据表头信息以及数据内容，就可以为各字段提取对应特征，实现数据本身特征提取的自动化与规模化，无需逐个指定数据质量检测的数据对象及特征情况，减少对业务人员知识和经验的依赖，为数据质量问题排查提供了精准的检测对象识别与定位，为提升后续质量检测工作效率提供了基础。
6.以下是本发明的技术方案。
7.一种基于数据内容的大规模数据特征智能化提取方法，包括以下步骤：对数据进行字段类型的初步识别，并剔除无效数据；判断数据的中文描述和字段类型，对不匹配的数据进行抽样，计算样本中各字段
类型占比，根据占比结果修订字段类型；根据字段类型提取特征。
8.本发明的提取过程中，结合并考虑了不同字段类型本身特点以及对应数据所属的中文描述，分为初步识别和修订两大步骤综合判断字段类型，提高识别准确度。
9.作为优选，所述初步识别的过程包括：根据现有的字段类型数据库对需识别的数据进行初步识别，或引入经神经网络训练的识别模型进行初步识别，得到字段类型的初步识别结果。不同字段类型具有各自的特点，本领域的现有技术中通常采用数据库和训练模型等进行对比和识别，但在本发明中这类技术仅可用以进行初步识别，减少实施成本且有一定的基础准确率保障。
10.作为优选，所述剔除无效数据的过程包括：定义无效表和无效字段，通过表的元数据信息和数据内容判断，将空表、僵尸表、日志表、备份表、临时表、单字段表以及低热度表统一判定为无效表；将空字段和单一值字段统一判定为无效字段；对无效表和字段进行识别和剔除。上述的无效表以及无效字段涵盖了常见的各种无效数据，进行剔除后可以减少后续数据提取和分析的处理压力。
11.作为优选，所述修订字段类型的过程包括：利用nlp自然语言处理模块对数据的中文描述进行分词与语义识别，解析后通过类型决策树进行近似词或近似字的路径识别，中文描述的语义与字段类型不匹配的，标记为疑似修订字段类型；然后对中文描述语义相同或相似的数据内容进行多次抽样，统计出抽样数据中不同字段类型的占比情况，并以占比超过阈值的类型作为推荐修订字段类型，最终修订为真实存放数据所属的字段类型。自然语言处理技术可以对中文描述进行分词和语义识别，而决策树可以进行相似含义的路径识别，以帮助判断是否属于疑似修订字段类型，最终通过设置阈值的方式，以占比为判断标准确定结果，修订过程是对初步识别的补充，进一步提高识别准确率。
12.作为优选，所述字段类型包括数值型、文本型以及日期型中的至少一种。
13.作为优选，所述根据字段类型提取特征的过程包括：对数值型字段，利用均值、最大值、最小值、中位数、方差、四分位数、四分位距、数值聚类以及长度聚类进行特征和特征值提取；对于文本型字段，从长度聚类和结构分布统计属性特征，并通过数据内容的分词和语义识别进行内容特征上的提取；对日期型字段，进行结构解析，对日期格式和长度进行特征提取。
14.作为优选，所述修订字段类型结束后，还包括验证步骤：将日期类数据转换为文本类数据，并复制为验证组和干扰组，所述验证组根据原日期格式插入年月日描述，所述干扰组根据原日期类数据位数增加计数单位描述，将验证组和干扰组插入自身相邻的文本类数据中，并通过nlp自然语言处理模块对拼接后的文本类数据进行语义识别，记录每一对干扰组和验证组的识别速度，如验证组的识别速度快于干扰组且超过幅度阈值，则通过验证，否则将对应的原日期类数据列为疑似错误类型。由于不论是日期类数据还是数值类数据，往往与其相邻的文本类数据有联系，当原本识别正确时，验证组拼接后的文本较容易识别，因此识别速度较快，而如果原本识别错误，则验证组拼接后的文本是错误的，因此相比于干扰组没有识别速度的优势，甚至更慢，因此将被列为疑似错误类型。
15.本发明的实质性效果包括：考虑了对表格处理与检测的通用性以及不同字段类型数据所代表的含义之间的联系，只依据表头信息以及数据内容，就可以为各字段提取对应
特征，实现数据本身特征提取的自动化与规模化，为数据质量问题排查提供了精准的检测对象识别与定位，为提升后续质量检测工作效率提供了基础。
具体实施方式
16.下面将结合实施例，对本技术的技术方案进行描述。另外，为了更好的说明本发明，在下文中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未做详细描述，以便于凸显本发明的主旨。
17.实施例1：一种基于数据内容的大规模数据特征智能化提取方法，主要针对的字段类型包括数值型、文本型以及日期型。
18.包括以下步骤：s01：对数据进行字段类型的初步识别，并剔除无效数据。
19.其中初步识别的过程包括：根据现有的字段类型数据库对需识别的数据进行初步识别，或引入经神经网络训练的识别模型进行初步识别，得到字段类型的初步识别结果。不同字段类型具有各自的特点，本领域的现有技术中通常采用数据库和训练模型等进行对比和识别，但在本实施例中这类技术仅可用以进行初步识别，减少实施成本且有一定的基础准确率保障。
20.剔除无效数据的过程包括：定义无效表和无效字段，通过表的元数据信息和数据内容判断，将空表、僵尸表、日志表、备份表、临时表、单字段表以及低热度表统一判定为无效表；将空字段和单一值字段统一判定为无效字段；对无效表和字段进行识别和剔除。上述的无效表以及无效字段涵盖了常见的各种无效数据，进行剔除后可以减少后续数据提取和分析的处理压力。
21.s02：判断数据的中文描述和字段类型，对不匹配的数据进行抽样，计算样本中各字段类型占比，根据占比结果修订字段类型。
22.修订字段类型的过程包括：利用nlp自然语言处理模块对数据的中文描述进行分词与语义识别，解析后通过类型决策树进行近似词或近似字的路径识别，中文描述的语义与字段类型不匹配的，标记为疑似修订字段类型；然后对中文描述语义相同或相似的数据内容进行多次抽样，统计出抽样数据中不同字段类型的占比情况，并以占比超过阈值的类型作为推荐修订字段类型，最终修订为真实存放数据所属的字段类型。自然语言处理技术可以对中文描述进行分词和语义识别，而决策树可以进行相似含义的路径识别，以帮助判断是否属于疑似修订字段类型，最终通过设置阈值的方式，以占比为判断标准确定结果，修订过程是对初步识别的补充，进一步提高识别准确率。
23.s03：根据字段类型提取特征。
24.根据字段类型提取特征的过程包括：对数值型字段，利用均值、最大值、最小值、中位数、方差、四分位数、四分位距、数值聚类以及长度聚类进行特征和特征值提取；对于文本型字段，从长度聚类和结构分布统计属性特征，并通过数据内容的分词和语义识别进行内容特征上的提取；对日期型字段，进行结构解析，对日期格式和长度进行特征提取。
25.另外，更具体地，可以从数据特征库查找该字段类型适用的数据特征及特征提取
方法，并根据对应数据特征的依赖以及互斥关系网络，对该字段类型所有适用的数据特征提取方法进行遍历，例如确定某数据字段为数值型后，特征提取算法将会载入长度、整数、正数、负数、小数等属性特征提取的方法，以及手机号、邮编等业务特征提取的方法，通过对数据内容进行持续的识别和提取，可以获得是长度集中、是整数、是手机号等特征，同时会对“正
‑
负”这两种对立互斥的特征进行区分，从而获得该字段多角度的特征和特征值。
26.实施例2：本实施例与上一实施例总体一致，区别在于，在修订字段类型结束后，提取特征前，还包括验证步骤：将日期类数据转换为文本类数据，并复制为验证组和干扰组，验证组根据原日期格式插入年月日描述，干扰组根据原日期类数据位数增加计数单位描述，将验证组和干扰组插入自身相邻的文本类数据中，并通过nlp自然语言处理模块对拼接后的文本类数据进行语义识别，记录每一对干扰组和验证组的识别速度，如验证组的识别速度快于干扰组且超过幅度阈值，则通过验证，否则将对应的原日期类数据列为疑似错误类型。由于不论是日期类数据还是数值类数据，往往与其相邻的文本类数据有联系，当原本识别正确时，验证组拼接后的文本较容易识别，因此识别速度较快，而如果原本识别错误，则验证组拼接后的文本是错误的，因此相比于干扰组没有识别速度的优势，甚至更慢，因此将被列为疑似错误类型。
27.上述实施例的实质性效果包括：考虑了对表格处理与检测的通用性以及不同字段类型数据所代表的含义之间的联系，只依据表头信息以及数据内容，就可以为各字段提取对应特征，实现数据本身特征提取的自动化与规模化，为数据质量问题排查提供了精准的检测对象识别与定位，为提升后续质量检测工作效率提供了基础。
28.通过以上实施方式的描述，所属领域的技术人员可以了解到，实际应用中可以根据需要而将上述功能分配由不同的功能模块完成，即将具体装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
29.另外，在本技术实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
30.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
31.以上内容，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于人脸识别的移动支付方法的系统、方法及设备与流程

一种基于数据内容的大规模数据特征智能化提取方法与流程

相关文献

最热文献