一种面向结构化数据的机器学习特征自动生成方法与流程

2022-06-05 14:47:12 来源：中国专利 TAG：

1.本发明涉及计算机技术技术领域，具体为一种面向结构化数据的机器学习特征自动生成方法。

背景技术：

2.机器学习算法技术门槛较高，目前除了某些高技术企业以外，国内外绝大多数行业和企业，普遍面临着专业技术人才严重短缺的问题。即使对于人才济济的头部企业，落地机器学习模型也是一个非常耗时费力的过程。根本原因是由于机器学习过程中的数据采样、特征工程、算法选择、训练调优、测试评估等所有步骤的技术工具较为原始，几乎都需要通过定制化编程的方式使用，技能门槛高。同时由于算法选择和参数选择空间很大，且每一次尝试需要的计算量大，所以找到符合业务指标要求的组合需要的试错时间长。人才大量短缺，工具使用不便、试错时间太长，使得大数据智能分析技术落地困难重重，为此，我们提出一种面向结构化数据的机器学习特征自动生成方法。

技术实现要素：

3.本发明的目的在于提供一种面向结构化数据的机器学习特征自动生成方法，以解决上述背景技术中提出的问题。
4.为实现上述目的，本发明提供如下技术方案：一种面向结构化数据的机器学习特征自动生成方法，具体的使用步骤为
5.s1：加载待处理结构化原始数据，提供高度抽象、功能灵活可扩展的数据交换技术框架，支撑数据采集、导出、开放共享时转换数据存储支撑等功能；
6.s2：加载数据加工语言程序；
7.s3：数据预处理，检测原始数据是否完整，填充缺失数据和反馈异常数据值；
8.s4：对结构化数据进行结构识别，确定目标机器学习任务的至少一个目标关键信息；
9.s5：基于目标关键信息，生成可执行的程序代码目标机器学习进行模型设计流程信息；
10.s6：执行所述程序代码以应用所述特征计算逻辑至对应的原始数据从而衍生机器学习用特征，加载到内存成为特征定义逻辑可操作的数据格式。
11.优选的，所述步骤s2中提供高度抽象、功能灵活可扩展的数据交换技术框架，支撑数据采集、导出、开放共享时转换数据存储支撑等功能，框架包含：数据源抽象、交换行为抽象、外部元数据导入和管理控制台。
12.优选的，所述数据源抽象：实现对jdbc、文件系统、消息队列等通用数据源的读取和写入支持，同时提供开发框架与集成方法，方便用户自行开发其他数据源驱动。
13.优选的，所述交换行为抽象：针对每个数据源，抽象出交换任务运行时间策略、新旧数据写入策略、脏数据过滤策略、任务运行配置等自定义行为。不同数据源可根据其底层
技术支撑情况自行实现。例如，任务运行时间上，可支持立即执行、定时执行、周期化、流式执行；新旧数据处理策略上，可支持全量替换、忽略更新、存储为新数据版本等策略；任务运行配置上，可支持不同任务执行器(单机单线程、spark集群、flink集群等)、限速、断点续传等。
14.优选的，所述外部元数据导入：若数据源侧存储了导入数据的元数据，例如字段备注、主外键关系等，则提供开发框架实现这些元数据的导入功能。
15.优选的，所述管理控制台：支持页面化的采集数据源管理、任务监控告警、采集数据编目、数据集关系管理等功能。支持使用低代码开发框架扩展管理控制台的功能。
16.优选的，所述步骤s2中从平台外部导入的结构化数据，默认会以数据湖的存储方式存储，基于该存储方式，平台提供湖仓一体数据加工框架，包含以下功能：流批一体数据加工任务构建、加工任务调度、加工数据分层管理：和udf管理。
17.优选的，所述流批一体数据加工任务构建：支持通过sql语言、spark程序、flink程序进行数据加工，在底层框架支持的情况下，同一种加工任务代码可以在流和批两种运行方式中切换。
18.优选的，所述加工任务调度：支持定时调度、依赖调度、调度任务上线下线等功能，形成加工任务工作流。同时支持超出时间预警等告警功能。
19.优选的，所述加工数据分层管理：支持使用数据仓库分层体系管理加工生成的数据。
20.优选的，所述udf管理：支持将用户自行编写的udf数据处理函数上传至平台，以备加工任务调用。
21.与现有技术相比，本发明的有益效果是：
22.1.该发明，建立算法模型自动化地完成机器学习流水线设计、算法模型选择、参数调优等步骤，让模型设计自动化，替代人工方式进行模型设计，从而大量节省人力，提高建模的效率，也大大降低大数据智能分析技术使用的门槛。
23.2.该发明，人在3-6个月的时间里可以尝试4-5种模型，但机器在几天内可以尝试几百个模型，使得算法模型的开发可从人工的数月时间，降低至数天，大幅降低用人力进行模型设计的时间周期和开销，从而大幅提高大数据智能化分析模型设计的效率，同时，也可以减少对人工智能专业人员的要求，降低大数据智能化建模对专业性知识和人才的要求，降低智能化分析应用开发的门槛。
附图说明
24.图1为本发明的整体运行流程结构示意图；
25.图2为本发明的整体操作结构示意图；
26.图3为本发明的多源异构数据交换框架结构示意图；
27.图4为本发明的流批一体数据加工框架结构示意图。
具体实施方式
28.下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,基于本发明中的
实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
29.为了便于理解本发明，下面将参照相关对本发明进行更全面的描述。给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
30.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
31.本发明提供一种技术方案：一种面向结构化数据的机器学习特征自动生成方法，具体的使用步骤为
32.s1：加载待处理结构化原始数据，提供高度抽象、功能灵活可扩展的数据交换技术框架，支撑数据采集、导出、开放共享时转换数据存储支撑等功能；
33.s2：加载数据加工语言程序；
34.s3：数据预处理，检测原始数据是否完整，填充缺失数据和反馈异常数据值；
35.s4：对结构化数据进行结构识别，确定目标机器学习任务的至少一个目标关键信息；
36.s5：基于目标关键信息，生成可执行的程序代码目标机器学习进行模型设计流程信息；
37.s6：执行所述程序代码以应用所述特征计算逻辑至对应的原始数据从而衍生机器学习用特征，加载到内存成为特征定义逻辑可操作的数据格式。
38.所述步骤s2中提供高度抽象、功能灵活可扩展的数据交换技术框架，支撑数据采集、导出、开放共享时转换数据存储支撑等功能，框架包含：数据源抽象、交换行为抽象、外部元数据导入和管理控制台。
39.所述数据源抽象：实现对jdbc、文件系统、消息队列等通用数据源的读取和写入支持，同时提供开发框架与集成方法，方便用户自行开发其他数据源驱动。
40.所述交换行为抽象：针对每个数据源，抽象出交换任务运行时间策略、新旧数据写入策略、脏数据过滤策略、任务运行配置等自定义行为。不同数据源可根据其底层技术支撑情况自行实现。例如，任务运行时间上，可支持立即执行、定时执行、周期化、流式执行；新旧数据处理策略上，可支持全量替换、忽略更新、存储为新数据版本等策略；任务运行配置上，可支持不同任务执行器(单机单线程、spark集群、flink集群等)、限速、断点续传等。
41.所述外部元数据导入：若数据源侧存储了导入数据的元数据，例如字段备注、主外键关系等，则提供开发框架实现这些元数据的导入功能。
42.所述管理控制台：支持页面化的采集数据源管理、任务监控告警、采集数据编目、数据集关系管理等功能。支持使用低代码开发框架扩展管理控制台的功能。
43.所述步骤s2中从平台外部导入的结构化数据，默认会以数据湖的存储方式存储，基于该存储方式，平台提供湖仓一体数据加工框架，包含以下功能：流批一体数据加工任务构建、加工任务调度、加工数据分层管理：和udf管理。
44.所述流批一体数据加工任务构建：支持通过sql语言、spark程序、flink程序进行
数据加工，在底层框架支持的情况下，同一种加工任务代码可以在流和批两种运行方式中切换。
45.所述加工任务调度：支持定时调度、依赖调度、调度任务上线下线等功能，形成加工任务工作流。同时支持超出时间预警等告警功能。
46.所述加工数据分层管理：支持使用数据仓库分层体系管理加工生成的数据。
47.所述udf管理：支持将用户自行编写的udf数据处理函数上传至平台，以备加工任务调用。
48.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种面向结构化数据的机器学习特征自动生成方法与流程

相关文献

最热文献