一种大数据任务调度方法、装置与系统与流程

2022-03-01 18:14:30 来源：中国专利 TAG：

1.本技术涉及大数据任务的调度与执行，主要为基于ai模型来预测大数据任务调度与资源分配的方法。

背景技术：

2.随着云计算的普及与业务云化全面实施，系统的复杂度成指数级增长。一方面是硬件能力的提升带来业务密度的增加，另一方面软件定义一切使得业务到系统再到硬件的层次剧烈加深，两方面的叠加使得云系统的运维工作无论是在量还是在难易程度上都出现前所未有的局面。在这种情况下，即便是一个运维工作高度自动化的系统，面对作业任务有效调度、告警快速消除、故障检测与业务倒换等诸多方面，也表现得力不从心。因此，业界提出ai运维的概念，并着力实施系统运维的ai化。
3.传统的自动化运维是通过人为指定规则来驱动系统在满足规则条件时自动触发运维动作。ai运维不再依赖于人为指定规则、而是由机器算法自动地从海量运维数据中不断地学习与提炼，然后获得运维规则，在系统满足规则条件时自动触发运维动作。在现有支持ai运维的系统中，运维工具通过分析日志数据，具有自动识别可消除的告警、自动故障检测与业务倒换等能力。但这种能力，侧重于业务运行中大量出现告警或故障后的相关维护环节。在这个环节的能力，往往表现出一种事后性质。

技术实现要素：

4.因此，本技术提出一种基于ai的大数据任务调度方法，以实现减少无意义的业务或系统告警量甚至故障率，提高大数据任务的执行效率。这些方法，应用于不特定的端侧、设备、系统甚至数据中心或云化中心，从而构成一种面向全环节的基于ai运维的资源分配与任务调度装置与系统。为此，本发明：一方面，提出一种资源分配与大数据任务调度的方法，所述方法实现对大数据任务运行所需资源的分配与执行任务的调度。所述分配与调度方法的特征在于，包括：接收第一数据集，所述第一数据集包含大数据任务的特征描述，所述大数据任务为待运行任务；获取系统资源的供给，所述资源用于运行至少一个所述大数据任务；将所述第一数据集与所述资源供给信息输入给ai模型，所述ai模型用于对大数据任务作资源预测，所述ai模型来自于第二ai算法；运行ai模型，得到系统资源的某个分配的描述，所述资源分配描述用于描述所述大数据任务在所述资源供给条件下的资源占用；运行第三模块，所述第三模块根据所述资源占用与所述大数据任务的所述特征描述，执行对所述大数据任务的资源分配与任务调度。进一步，运行所述大数据任务，生成第四数据，所述第四数据为任务运行时日志的子集；从至少一个所述大数据任务，收集至少一个所述第四数据，得到第四数据集，所述第四数据集为对所述第二ai算法作优化训练的优化样本；使用所述第四数据集训练所述第二ai算法，得到所述ai模型的增强版本。进一步，提取第五数据，所述第五数据为所述第三模块运行时日志的子集；运行至少一次所述第三模块，收集至少一个所述第五数
据，得到第五数据集，所述第五数据集为对所述第二ai算法作优化训练的优化样本；使用所述第五数据集训练所述第二ai算法，得到所述ai模型的增强版本。进一步，得到一个第六数据集，所述第六数据集为所述第二ai算法的优化样本；使用所述第六数据集训练所述第二ai算法，得到第七数据集，所述第七数据集为所述第六数据集对所述第二ai算法的增强评估；根据所述第七数据集，变更待运行大数据任务的监听采集与日志记录。进一步，得到第八数据集，所述第八数据集来自于所述ai模型的增强版本，所述第八数据集包括任务调度算法的遴选模式和算法参数的调适；根据所述第八数据集，替换所述第三模块的部分特征，得到所述第三模块的一个新版本。
5.在一个使用ai模型对业务服务与系统运行提供运维支撑的环境中，通过前置的资源分配与任务调度预测的大数据任务调度方法，可以大大减少运维的复杂度、增加系统运行的有效性、从而提升整体的安全性以及成本效益。所述大数据任务调度方法包含：接收第一数据集，所述第一数据集包含大数据任务的特征描述，所述大数据任务为待运行任务；获取系统资源的供给，所述资源用于运行至少一个所述大数据任务；将所述第一数据集与所述资源供给信息输入给ai模型，所述ai模型用于对大数据任务作资源预测，所述ai模型来自于第二ai算法；运行ai模型，得到系统资源的某个分配的描述，所述资源分配描述用于描述所述大数据任务在所述资源供给条件下的资源占用；运行第三模块，所述第三模块根据所述资源占用与所述大数据任务的所述特征描述，执行对所述大数据任务的资源分配与任务调度。进一步，运行所述大数据任务，生成第四数据，所述第四数据为任务运行时日志的子集；从至少一个所述大数据任务，收集至少一个所述第四数据，得到第四数据集，所述第四数据集为对所述第二ai算法作优化训练的优化样本；使用所述第四数据集训练所述第二ai算法，得到所述ai模型的增强版本。进一步，提取第五数据，所述第五数据为所述第三模块运行时日志的子集；运行至少一次所述第三模块，收集至少一个所述第五数据，得到第五数据集，所述第五数据集为对所述第二ai算法作优化训练的优化样本；使用所述第五数据集训练所述第二ai算法，得到所述ai模型的增强版本。进一步，得到一个第六数据集，所述第六数据集为所述第二ai算法的优化样本；使用所述第六数据集训练所述第二ai算法，得到第七数据集，所述第七数据集为所述第六数据集对所述第二ai算法的增强评估；根据所述第七数据集，变更待运行大数据任务的监听采集与日志记录。进一步，得到第八数据集，所述第八数据集来自于增强版本的所述ai模型，所述第八数据集包括任务调度算法的遴选模式和算法参数的调适；根据所述第八数据集，替换所述第三模块的部分特征，得到所述第三模块的一个新版本。
6.这样，实施了包含上述部分或全部方法与步骤的产品与服务系统，在软硬件所支持的高密与深层次的系统下，能够基于任务运行的前置ai能力，有效匹配资源供给与任务特征，避免或减少告警量与故障率，降低运维的复杂度、增加系统运行的有效性、从而提升整体的安全性以及成本效益。
7.另一方面，提出一种基于ai模型作资源分配与任务调度的系统与装置，所述系统与装置包含任务单元、采集单元、分析单元、推理单元。这些单元，包括各单元内部作进一步功能划分的模块，可以运行在不同网络集群、或同一网络集群的不同服务器上、或同一服务器的不同cpu、甚至同一独立系统中不同软件层次上。在此不作限制。进一步，上述单元还包括：
rdd分析模块：该模块提供大数据任务的执行入口。在该任务入口，根据大数据任务待加工数据集的大小、子集间的关联关系、子集间的串并行程度等方面进行分析，并在最小粒度的可调度体上给出需串行与可并行计算任务的描述，即dag。进一步，该入口还针对一段时间内到达的各个大数据任务数据集，按一定规则与策略（如资源利用的合理性、或降低系统告警量等）来重新排序待运行大数据任务进入到下一阶段；任务调度模块：该模块根据推理单元的预测模型的预测结果，以及系统环境中的其它条件，对处于运行状态中的各大数据任务行使调度功能。进一步，还调整大数据任务的调度算法类型，以实现资源利用的合理性、或降低系统告警量等系统策略；任务执行模块：该模块用于生成、维护大数据任务的执行单元；资源管理模块：该模块用于收集与提供系统资源的供给情况；样本迭代模块：该模块提供模型训练所用的样本收集、或者模型优化所需的样本迭代功能；日志采集模块：该模块提供日志采集与提取功能；调度调优模块：该模块提供调度功能所使用的调度算法的调优功能，该模块通过获取任务预测模块的输出来获得对调度算法调优的支持；特征匹配模块：该模块提供大数据任务特征与特定调度算法的对应与维护功能，该模块通过获取任务预测模块的输出来获得对任务特征与调度算法间匹配关系的支持；任务预测模块：该模块预测大数据任务的资源分配与任务调度，该模块的输入为rdd分析模块的输出，该模块的输出用于任务调度模块、调度调优模块以及特征匹配模块；模型服务模块：该模块对大数据任务作预测的预测模型作更新与部署。
8.本发明提出的上述模块，同产品实际实施时所需要的其它单元、模块以及相关平台与相关引擎一起，共同实现一个基于ai模型作资源分配与任务调度的装置。体现在：分配与调度装置接收第一数据集，所述第一数据集包含大数据任务的特征描述，所述大数据任务为待运行任务；分配与调度装置获取系统资源的供给，所述资源用于运行至少一个所述大数据任务；分配与调度装置将所述第一数据集与所述资源供给信息输入给ai模型，所述ai模型用于对大数据任务作资源预测，所述ai模型来自于第二ai算法；分配与调度装置运行ai模型，得到系统资源的某个分配的描述，所述资源分配描述用于描述所述大数据任务在所述资源供给条件下的资源占用；分配与调度装置运行第三模块，所述第三模块根据所述资源占用与所述大数据任务的所述特征描述，执行对所述大数据任务的资源分配与任务调度。进一步，分配与调度装置运行所述大数据任务，生成第四数据，所述第四数据为任务运行时日志的子集；从至少一个所述大数据任务，分配与调度装置收集至少一个所述第四数据，得到第四数据集，所述第四数据集为对所述第二ai算法作优化训练的优化样本；使用所述第四数据集训练所述第二ai算法，分配与调度装置得到增强版本的所述ai模型。进一步，分配与调度装置提取第五数据，所述第五数据为所述第三模块运行时日志的子集；分配与调度装置运行至少一次所述第三模块，收集至少一个所述第五数据，得到第五数据集，所述第五数据集为对所述第二ai算法作优化训练的优化样本；分配与调度装置使用所述第五数据集训练所述第二ai算法，得到增强版本的所述ai模型。进一步，分配与调度装置得到一个第六数据集，所述第六数据集为所述第二ai算法的优化样本；分配与调度装置使用所述第六数据集训练所述第二ai算法，得到第七数据集，所述第七数据集为所述第六数据集对
所述第二ai算法的增强评估；根据所述第七数据集，分配与调度装置变更待运行大数据任务的监听采集与日志记录。进一步，分配与调度装置得到第八数据集，所述第八数据集来自于增强版本的所述ai模型，所述第八数据集包括任务调度算法的遴选模式和算法参数的调适；根据所述第八数据集，分配与调度装置替换所述第三模块的部分特征，得到增强版本的所述第三模块。
9.这样，实施了包含上述部分或全部方法与步骤的产品与服务系统，在软硬件所支持的高密与深层次的系统下，能够基于任务运行的前置ai能力，有效匹配资源供给与任务特征，避免或减少告警量与故障率，降低运维的复杂度、增加系统运行的有效性、从而提升整体的安全性以及成本效益。
10.另一方面，提供了一种计算机可读存储介质，该计算机存储介质存储有程序指令，该程序指令当被处理器运行时，该处理器(分别)具有执行上述关于方法的实施过程。
11.另一方面，提供了一种管理的装置，包括存储组件，处理组件和通信组件，存储组件，处理组件和通信组件相互连接。其中，存储组件用于存储数据处理代码，通信组件用于与外部设备进行信息交互；处理组件被配置用于调用程序代码，分别行使上述关于装置的功能。
12.附图说明
13.为了更清楚地说明本发明实施的技术方案，更清楚地阐述发明目标的达成要素、方式与过程，下面将对本发明实施中所需要使用的附图进行说明:图1是本技术所提出发明的系统组成图之一；图2是本技术所提出发明的系统组成图之一；图3是本技术所提出发明的系统组成图之一；图4是本技术所提出发明的系统组成图之一；图5是本技术所提出发明的转换关系图之一；图6是本技术所提出发明的实现操作执行流程之一；图7是本技术所提出发明的实现操作执行流程之一；图8是本技术所提出发明的实现操作执行流程之一；图9是本技术所提出发明的实现操作执行流程之一；图10是本技术所提出发明的实现操作执行流程之一。
14.具体实施方式
15.下面将结合本发明实施例中的附图，对本发明实施例进行描述。
16.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
17.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
18.在本技术书中使用的术语“服务器”、“设备”、“装置”、“单元”、“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，服务器可以是但不限于，处理器，数据处理平台，计算设备，计算机，两个或更多个计算机等；单元可以是但不限于，在处理器上运行的进程、可运行对象、可执行文件、执行线程、或其它任何可执行的计算机程序。一个或多个单元可驻留在进程和/或执行线程中，一个单元也可位于一个计算机上和/或分布在2个或更多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可根据具有一个或多个数据分组（例如来自与本地系统、分布式系统和/或网络间的另一单元交互的二个单元的数据，例如通过信号与其它系统交互的互联网）的信号通过本地和/或远程进程来通信。
19.首先，对本技术中的部分用语进行解释说明，以便于本领域技术人员理解。所列用语包含如下：(1) 云计算：即cloud computing，指那种拥有集成度优势、连接在网络环境中、以服务方式向用户提供计算、存储、网络甚至功能软件的新型计算范式。这种新的计算范式跟旧有的计算范式的差异，体现在可感观与可用性上就是，它对用户而言并不存在可见的固定形态、也没有固定的物理边界、甚至基本不存在无资源可用的状态，故被叫做云计算。云计算打破原有范式下的计算使用方式，因此对原有范式下的安全形成严峻的挑战；(2) 人工智能：即artificial intelligence，简称ai，指那种通过计算系统模拟生物或到人类智能的方法、技术、软硬件及系统的泛称；(3) 机器学习：机器学习属于ai领域的一个重要分支性技术。机器学习会从样本数据中提取数据模式，以便对应用数据做出尽可能好的预测。从目前的发展结果来看，机器学习分为监督学习、无监督学习与强化学习；(4) 任务调度：对于运行同一环境中的多个任务来说，他们间对资源的竞争不可避免。为提升资源的利用率、保障任务的顺序运行、确保任务得出有效的逻辑结果，需要按照任务对资源的竞争情况、以及任务内的数据依赖情况来安排任务内子任务的运行。这种安排叫做“任务调度”。通常，在一个分布式环境下，任务调度包含两个层面的含义：远程数据依赖相关的任务调度与本地资源竞争相关的任务切换；(5)ai运维：早期的运维工作大部分是由运维人员手工完成的，这被称为手工运维或人肉运维。后期随着业务与系统规模上升，便出现以人工提炼规则、系统根据规则来自动实施运维操作的自动化方式。随着业务与系统的密度与复杂度进一步上升，人式提炼规则难免依然有遗漏，以及随着ai的普及，便出现基于日志、监控信息、应用信息等运维数据、通过机器学习的方式来进一步提升自动化运维能力与效率的运维方式；(6) 调度算法切换：在复杂业务的系统环境里，算法切换指在ai模型的参与下，基于任务或者任务组的特点来切换任务调度的核心算法，甚至调适算法核心元素的方法与过程。在分布式超大规模的环境里，具有集约属性的大数据任务给系统提出超高密度的任务调度与计算压力，算法切换是提升任务吞吐量、更好匹配资源供给与任务要求的一种可行办法；
(7) rdd与dag：指任务所处理的数据集与任务分解后的内部处理流形成的有向无环图。rdd与dag是针对同一任务的两种相对应描述方式。
20.其次，对本发明的目标问题、解决目标问题的技术方法作概览。随着云计算的推广与深入，大规模业务云化带来两个方面的复杂度：一个是业务部署密度的高涨，另一个是系统复杂度的高企。这些变化对业务环境与系统的运维带来更大的困难。为缓解这个问题，业界提出ai运维的观念、方法并着手实施。ai运维代替了传统运维那种以事先人工设定规则的方法与过程，从而使得算法控制下运维能力可以在日志及其它数据集中自动寻找与确定运维规则，从而使得消除重复告警、检测并倒换故障等运维操作体现出更高的自动化与智能化。但这种基于已经发生情况的现有ai运维，并没有减少或消除运维所需，只是转移了运维工作的执行体。针对系统作运维的复杂度没有降低，即并未降低系统的无效性。本发明的方法是将ai运维能力前移，基于ai模型来对资源分配与任务调度作预测，从而为减少甚至努力消除因为资源供给与任务运行的错配带来的无效告警，降低系统的无效性。进一步，这种方式更适合在分布式超大规模的计算环境、尤其是针对大数据任务作资源分配与任务调度的预测。
21.再次，结合各附图，对发明内容作进一步的阐述。其中：如图1为本技术所提出发明的系统组成图之一。该组成图示意了实现本发明所提出前移ai运维能力的基本结构与组成方式。其中所包含的基本组成结构中包含110所示的ai能力层、120所示的数据分析层、130所示的数据采集层。进一步，其中：111-任务预测功能：该功能基于ai模型来实现大数据任务在资源分配占用的预测；112-模型服务功能：该功能提供ai模型服务，所述模型服务包含模型更新与部署，所述模型用于作大数据任务的资源分配占用预测；121-特征分析功能：该功能提供对大数据任务作特征分析与提取的能力；122-任务调度功能：该功能提供对大数据任务作资源分配与调度的能力131-日志采集功能：该功能提供任务运行日志作采集与分析的能力；132-样本迭代功能：该功能提供对ai模型的反馈性优化作样本迭代提取的能力。
22.如图2为本技术所提出发明的系统组成图之一。该图示意了基于ai模型预测大数据任务的资源分配与任务调度的总体组成与架构。其中：210-大数据计算层：该计算层提供预测目标的操作执行环境。进一步，该计算还包含；211-任务调度中心：该调度中心根据ai模型的预测结果，完成对目标大数据任务的资源分配与任务调度；211~212-计算集群：该集群提供大数据任务的执行物理单元，所述执行物理单元的一个或多个组成集群；220-开发编译工具层：该工具层提供对目标大数据任务的日志记录的变更能力；230-运维界面层：该界面层提供业务与系统运维的界面支持，如显示运维内容、提供运维操作界面等；240-运维能力层：该能力层提供业务与系统运维所需要的具体功能与组合能力，如噪声抑制（告警消除）、故障检测、模式发现、资源预测等；250-数据分析层：该分析层用于整理与分析资源供给、任务特征、日志内容等数据；260-数据存储层：该存储层用于存储资源供给、任务特征、日志内容等数据，以及这些
数据关联关系的数据；270-数据采集层：访采集层用于通过监听接口或etl工具采集或收集资源供给、任务特征等数据，以及来自于外部来源的数据；280-大数据任务入口：该接口用于大数据任务的调入通道。
23.如图3为本技术所提出发明的系统组成图之一。该图示意了基于ai模型预测大数据任务的资源分配与任务调度的进一步组成与分解架构。其中，310所示为ai能力层，320所示为运维能力层，330所示为数据分析层，340所示为数据存储层，350所示为数据采集层。这些能力层次，可以运行在不同网络集群、或同一网络集群的不同服务器上。在此不作限制。进一步，还包括：311-样本生成：所示提供ai模型训练所需的数据样本，主要涉及模型训练样本与模型优化样本的生成；312-模型训练：所示提供模型训练的能力，所述模型主要用于大数据任务的资源分配与任务调度的预测；313-模型服务：所示提供模型服务的能力，主要涉及预测模型的更新与部署服务；321-噪声抑制：所示提供噪声抑制的能力，主要涉及如告警消除等的作用；322-故障检测：所示提供对运维目标系统中所出现的异常甚至故障作检测、并基于特定方式来完成功能单元或模块的倒换；323-模式发现：所示提供运维目标系统中的日志内容或其它数据积累结果，从而发现新的待处理事件的能力；324-资源预测：所示提供对新接入大数据任务作资源分配与任务调度的预测；331-样本提取：所示提供样本所需数据集的提取功能，所需数据集来自于数据存储层的实时数据或历史数据；332-rdd分析：所示提供rdd分析功能，所述分析功能从任务待加工数据集的大小、子集间的关联关系、子集间的串并行程度等方面进行分析，并在最小粒度的可调度体上给出需串行与可并行计算任务的描述，即dag；333-任务分析：所示提供任务粒度的统计与分析功能，主要涉及运行中任务与所占用资源的映射与统计；334-资源分析：所示提供系统资源的供给与占用分析，所述资源包括大数据任务使用到的存储、网络、计算等硬件资源，也包括系统库、调用栈、映像等软件资源；341-实时数据：所示提供基于实时数据的存储功能；342-历史数据：所示提供基于历史数据的存储功能；351-流式采集：所示提供基于监听接口对运行任务所作的实时采集；352-工具采集：所示提供基于etl类工具对来自外部源数据所作的非实时采集。
24.如图4为本技术所提出发明的系统组成图之一。该图示意了基于功能模块划分与组成的ai运维的实现。其中，410所示提供任务单元，420所示提供采集单元，430所示提供分析单元，440所示提供推理单元。这些单元，包括各单元内部作进一步功能划分的模块，可以运行在不同网络集群、或同一网络集群的不同服务器上、或同一服务器的不同cpu、甚至同一独立系统中不同软件层次上。在此不作限制。进一步，还包括：411-rdd分析模块：该模块提供大数据任务的执行入口。在该任务入口，根据大数据任
务待加工数据集的大小、子集间的关联关系、子集间的串并行程度等方面进行分析，并在最小粒度的可调度体上给出需串行与可并行计算任务的描述，即dag。进一步，该入口还针对一段时间内到达的各个大数据任务数据集，按一定规则与策略（如资源利用的合理性、或降低系统告警量等）来重新排序待运行大数据任务进入到下一阶段；412-任务调度模块：该模块根据推理单元的预测模型的预测结果，以及系统环境中的其它条件，对处于运行状态中的各大数据任务行使调度功能。进一步，还进一步调整大数据任务的调度算法类型，以实现资源利用的合理性、或降低系统告警量等系统策略；413-任务执行模块：该模块用于生成、维护大数据任务的执行单元；414-资源管理模块：该模块用于收集与提供系统资源的供给情况；421-样本迭代模块：该模块提供模型训练所用的样本收集、或者模型优化所需的样本迭代功能；422-日志采集模块：该模块提供日志采集与提取功能；431-调度调优模块：该模块提供调度功能所使用的调度算法的调优功能，该模块通过获取任务预测模块的输出来获得对调度算法调优的支持；432-特征匹配模块：该模块提供大数据任务特征与特定调度算法的对应与维护功能，该模块通过获取任务预测模块的输出来获得对任务特征与调度算法间匹配关系的支持；441-任务预测模块：该模块预测大数据任务的资源分配与任务调度，该模块的输入为rdd分析模块的输出，该模块的输出用于任务调度模块、调度调优模块以及特征匹配模块；442-模型服务模块：该模块对大数据任务作预测的预测模型作更新与部署。
25.如图5为本技术所提出发明的转换关系图之一。该图示意了大数据任务在执行过程中的功能信赖关系与转换过程。其中：510所示为大数据任务的入口，在该入口，大数据任务被调入；520所示为输入的大数据任务被分解出数据集rdd，所述数据集通过rdd分析模块后得到数据集内部的关联描述结果，图示为一个关系示例；530所示为输入的大数据任务被分解出的子任务描述示例；540所示为根据数据示例与子任务示例，由调度模块根据资源供给的匹配情况将大数据任务调度对应资源节点上的运行示例。
26.如图6为本发明提出的操作执行流程之一。该图示意了预测大数据任务的资源分配与任务调度的ai模型的训练生成过程。其中：01a-大数据任务调入：该操作示意了一个大数据任务调入任务执行入口的操作；01b-运行前资源记录：该操作用于记录所调入大数据任务在运行前的资源占用情况；01c-运行中资源记录：该操作用于记录所调入大数据对资源的占用记录；01d-任务日志采集：该操作用于从大数据任务以及系统相关模块的日志中，采集反映所述大数据任务的特征的描述信息；01e-任务资源使用分析：该操作用于根据所述记录与描述信息，分析生成所述大数据任务的资源使用描述，以作为预测模型的样本数据集的某个子集；01f-任务rdd信息提取：该操作用于对所调入的大数据任务作所属数据集的提取与rdd分析；01g-任务静态信息提取：该操作用于对所调入的大数据任务作任务静态信息的提取与分析；01h-任务动态信息分析：该操作用于对处于运行中的所述大数据任务作动态信息的提
取与分析；01j-预测模型样本收集：该操作用于收集与整理预测模型训练所需要的样本数据集；01k-预测模型训练：该操作用于，在预测模型所需样本满足训练要求的情况下，进行预测模型的训练与生成。
27.如图7为本发明提出的操作执行流程之一。该图示意了基于ai模型作预测的大数据任务的资源分配与任务调度的过程。进一步：02a-大数据任务调入：该操作示意了一个大数据任务调入任务执行入口的操作；02b-任务rdd信息提取：该操作用于对所调入的大数据任务作所属数据集的提取与rdd分析；02c-任务静态信息提取：该操作用于对所调入的大数据任务作任务静态信息的提取与分析；02d-资源信息提取：该操作用于获取系统中用于大数据任务执行的资源供给信息；02e-预测模型输入：该操作用于将任务信息与资源供给信息作为预测模型推理的输入；02f-预测模型推理：该操作用于示意预测模型的推理过程；02g-取得预测结果：该操作用于示意取得预测模型推理后的预测结果；02h-资源调用与任务分配：该操作用于根据对资源分配与任务调度的预测结果来行使资源分配与任务执行所需要的调度操作。
28.如图8为本发明提出的操作执行流程之一，该图示意了一个具有反馈优化样本的ai模型作预测的资源分配、大数据任务调度与执行的过程，所述反馈优化的样本，在达到ai模型样本数据集所要求的规模后，将被用于模型的优化训练。进一步：03a-大数据任务调入：该操作示意了一个大数据任务调入任务执行入口的操作；03b-任务分析与信息提取：该操作用于对所调入的大数据任务作数据特征分析与运行特征分析，所述特征分析对象包括但不限于rdd与dag；03c-资源与任务预测：该操作用于针对所调入的大数据任务的运行情况作预测，所述预测包含资源分析与任务调度；03d-资源分配与任务调度：该操作用于根据预测结果进行资源分配与所调入的大数据任务在运行前的调度；03e-任务运行：该操作示意启动目标大数据任务各子任务的运行；03f-监听采集与日志记录：该操作用于针对运行大数据任务进行事件监听采集，并将所采集到的内容作日志记录；03g-优化样本提取：该操作用于从在大数据任务运行所采集与记录的日志中提取优化样本所需要的数据、并将相关数据发送到模型优化训练端；03h-预测模型样本收集：该操作用于接收与收集从任务日志中提取的优化样本数据；03j-预测模型优化训练：该操作用于对预测模型作优化式训练，所述优化训练使用前述的优化样本。
29.如图9为本发明提出的操作执行流程之一。该图示意了一个具有动态监听与日志采集的反馈式优化模型训练的过程，所述动态监听采集与日志记录为根据对优化训练的评估来变更监听器对大数据任务的采集、以变更日志记录点、从而变更优化样本数据内容甚
至数据点位。进一步：04a-预测模型样本收集：该操作用于接收与收集从任务日志中提取的优化样本数据；04b-预测模型优化训练：该操作用于对预测模型作优化式训练，所述优化训练使用前述的优化样本；04c-资源与任务预测：该操作用于针对所调入的大数据任务的运行情况作预测，所述预测包含资源分析与任务调度；04d-资源分配与任务调度：该操作用于根据预测结果进行资源分配与所调入的大数据任务在运行前的调度；04e-优化训练评估：该操作用于对优化训练结果作评估，尤其是优化样本的效果作评估；04f-任务监听与日志采集变更：该操作用于根据优化评估来变更针对大数据任务的监听采集器，以变更运行中任务的日志记录内容与日志记录点位；04g-任务运行：该操作示意启动目标大数据任务各子任务的运行；04h-监听采集与日志记录：该操作用于针对运行大数据任务进行事件监听采集，并将所采集到的内容作日志记录；04j-优化样本提取：该操作用于从在大数据任务运行所采集与记录的日志中提取优化样本所需要的数据、并将相关数据发送到模型优化训练端。
30.如图10为本发明提出的操作执行流程之一。该图示意了一个基于可变调度算法的优化样本模型训练过程。在所述优化样本模型训练过程中，调度器根据任务特征，在不同的任务调度算法间作选择、甚至调适调度算法内部控制元素，并将这些变更信息作为模型训练样本的子集数据，预测模型以此感知与调适调度算法，从而大数据任务的资源分配与任务调度过程可以从控制逻辑上得以优化。所述可选择调度算法，如fifo、fair、lifo或其它模型支持的调度核心过程。所述调度算法控制元素，如任务优先级、任务间的可抢占性等属性。进一步：05a-大数据任务调入：该操作用于了一个大数据任务调入任务执行入口的操作；05b-任务分析与信息提取：该操作用于对所调入的大数据任务作数据特征分析与运行特征分析，所述特征分析对象包括但不限于rdd与dag；05c-资源与任务预测：该操作用于针对所调入的大数据任务的运行情况作预测，所述预测包含资源分析与任务调度；05d-资源分配与任务调度：该操作用于根据预测结果进行资源分配与所调入的大数据任务在运行前的调度；05e-大数据任务运行：该操作示意启动目标大数据任务各子任务的运行；05f-(任务)监听采集与日志记录：该操作用于针对运行大数据任务进行事件监听采集，并将所采集到的内容作日志记录；05g-优化样本提取：该操作用于从针对大数据任务与任务调度器的运行过程中所采集与记录的日志中提取优化样本所需要的数据、并将相关数据发送到模型优化训练端；05h-预测模型样本收集：该操作用于接收与收集所提取的优化样本数据；05j-预测模型优化训练：该操作用于对预测模型作优化式训练；05k-(调度器)监听采集与日志记录：该操作用于针对任务调度器进行事件监听采集，
并将所采集到的内容作日志记录。
31.在本技术中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于单个网络节点内，或者也可以分布到多个网络节点上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
32.另外，根据具体约束与实现所需，在本技术各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在，也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
33.所述集成的组件如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台或一台以上计算机设备 (可以是个人计算机，服务器，或者网络设备等) 执行各个本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括：u 盘、移动硬盘、只读存储器 (rom，read-only memory)、随机存取存储器 (ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
34.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。
35.应理解，在本技术的各种实施例中，上述各过程的序号的大小并不意味着先后执行的严格顺序，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。尽管在此结合各实施例对本技术进行了描述，然而，在实施例所要求保护的本技术过程中，本领域技术人员可理解并实现公开实施例的其他变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：面单异常的识别方法、装置、电子设备及存储介质与流程

一种大数据任务调度方法、装置与系统与流程

相关文献

最热文献