信息确定方法、装置、设备及计算机存储介质与流程

2022-06-11 04:51:54 来源：中国专利 TAG：

1.本技术属于计算机技术领域，尤其涉及一种信息确定方法、装置、设备及计算机存储介质。

背景技术：

2.在金融行业，由于银行业务系统的数据来源广，数据结构复杂，使得在对这些数据进行多层级计算处理中，容易出现系统计算集群宕机、计算缓慢以及作业故障等问题。当出现这些问题时，需要相关运维人员排查定位出现问题的原因，继而才能根据定位的原因解决问题。
3.但是相关技术中，通过运维人员人工排查定位出现问题的原因的方式，耗费人力物力，效率也比较低。

技术实现要素：

4.本技术实施例提供一种信息确定方法、装置、设备及计算机存储介质，能够提高对问题原因定位的智能化程度，提高定位效率。
5.第一方面，本技术实施例提供一种信息确定方法，方法包括：
6.获取作业任务的作业信息；
7.根据作业信息，通过预设的第一模型计算第一时长，第一时长为执行作业任务所需的时长，第一模型为根据历史作业任务的执行时长进行训练得到的；
8.在第一时长超过预设时长的情况下，通过第二模型对作业信息进行特征提取，并根据提取的特征确定第一因素信息，
9.其中，第一因素信息为导致作业任务超时的因素信息，第二模型为根据历史作业任务的超时因素进行训练得到的。
10.在一些实施例中，在根据提取的特征确定第一因素信息之后，方法还包括：
11.接收用户的第一输入；
12.响应于第一输入，确定对应作业任务的诊断问题信息；
13.根据诊断问题信息，通过第二模型对作业信息进行特征提取，并根据提取的特征，确定对应诊断问题信息的第二因素信息。
14.在一些实施例中，在确定第一因素信息之后，方法还包括：
15.根据第一因素信息，从策略数据库中确定对应第一因素信息的修复策略；
16.按照修复策略，执行对应的修复操作。
17.在一些实施例中，在获取作业任务的作业信息之后，方法还包括：
18.执行作业任务；
19.采集执行作业任务过程中的运行信息；
20.接收用户的第二输入；
21.响应于第二输入，根据运行信息，生成运行报告。
22.在一些实施例中，根据运行信息，生成运行报告，包括：
23.通过预设的第三模型，对运行信息按照多维度特征进行分类，得到多维度分类结果，第三模型为基于多维度特征标签构建的分类模型；
24.根据多维度分类结果，生成对运行信息的评价信息；
25.将评价信息填充到预设的报告模板中，生成运行报告。
26.第二方面，本技术实施例提供了一种信息确定装置，装置包括：
27.获取模块，用于获取作业任务的作业信息；
28.第一计算模块，用于根据作业信息，通过预设的第一模型计算第一时长，第一时长为执行作业任务所需的时长，第一模型为根据历史作业任务的执行时长进行训练得到的；
29.第一确定模块，用于在第一时长超过预设时长的情况下，通过第二模型对作业信息进行特征提取，并根据提取的特征确定第一因素信息，
30.其中，第一因素信息为导致作业任务超时的因素信息，第二模型为根据历史作业任务的超时因素进行训练得到的。
31.在一些实施例中，装置还包括：
32.第一接收模块，用于接收用户的第一输入；
33.第二确定模块，用于响应于第一输入，确定对应作业任务的诊断问题信息；
34.第三确定模块，用于根据诊断问题信息，通过第二模型对作业信息进行特征提取，并根据提取的特征，确定对应诊断问题信息的第二因素信息。
35.在一些实施例中，装置还包括：
36.第四确定模块，用于根据第一因素信息，从策略数据库中确定对应第一因素信息的修复策略；
37.第一执行模块，用于按照修复策略，执行对应的修复操作。
38.在一些实施例中，装置还包括：
39.第二执行模块，用于执行作业任务；
40.采集模块，用于采集执行作业任务过程中的运行信息；
41.第二接收模块，用于接收用户的第二输入；
42.生成模块，用于响应于第二输入，根据运行信息，生成运行报告。
43.在一些实施例中，生成模块包括：
44.分类子模块，用于通过预设的第三模型，对运行信息按照多维度特征进行分类，得到多维度分类结果，第三模型为基于多维度特征标签构建的分类模型；
45.第一生成子模块，用于根据多维度分类结果，生成对运行信息的评价信息；
46.第二生成子模块，用于将评价信息填充到预设的报告模板中，生成运行报告。
47.第三方面，本技术实施例提供了一种计算机设备，设备包括：处理器以及存储有计算机程序指令的存储器；
48.处理器执行计算机程序指令时实现如第一方面的信息确定方法。
49.第四方面，本技术实施例提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所述的信息确定方法。
50.第五方面，本技术实施例提供了一种计算机程序产品，所述计算机程序产品中的
指令由计算机设备的处理器执行时，使得所述计算机设备执行如权利要求第一方面所述的信息确定方法。
51.本技术实施例的信息确定方法、装置、设备及计算机存储介质，能够获取作业任务的作业信息，并根据该作业信息，通过预设的第一模型计算执行作业任务所需的第一时长。这样通过第一模型可以综合作业任务的各项作业信息，快速判断执行作业任务所需的时长，进而在第一时长超过预设时长的情况下，可以通过第二模型对作业信息进行特征提取，并根据提取的特征确定导致作业任务超时的第一因素信息。本技术实施例减少了运维人员的操作，通过模型对作业任务的信息进行特征提取和计算，确定作业任务超时的因素。由于作业任务超时是因为执行该任务时出现了问题，因此本技术实施例直接对超时的因素进行定位，可以实现对问题原因准确定位的同时，提升了问题原因定位的效率。
附图说明
52.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
53.图1是本技术一个实施例提供的信息确定方法的流程示意图；
54.图2是本技术一个具体实施例中信息确定方法的流程示意图；
55.图3是本技术另一个实施例提供的信息确装置的结构示意图；
56.图4是本技术又一个实施例提供的计算机设备的结构示意图。
具体实施方式
57.下面将详细描述本技术的各个方面的特征和示例性实施例，为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本技术进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本技术，而不是限定本技术。对于本领域技术人员来说，本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
58.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
59.银行业务系统的所处理的数据来源广，且数据结构复杂。这些数据主要包括银行业务系统生成的数据和第三方系统的数据，其中，银行业务系统产生的数据方式类别繁多，如营业厅子系统采集的客户填写的文字信息数据，用户转账支付产生的账单数据，客户在手机银行系统产生的客户行为数据等等。银行业务系统需要对上述数据进行后台加工后存储，以为客户提供相应的服务。在对数据进行加工过程中，涉及极其复杂的多层级计算，由于数据结构的复杂性，计算过程中会常常遇到很多的问题，例如计算集群宕机，计算缓慢，
计算作业故障等等问题。当出现这些问题时，相关的运维人员需要排查、定位出现这些问题的原因，从而根据问题原因有针对性地修复问题。
60.通过运维人员人工排查、定位问题原因的效率较低，不能对出现的问题及时响应，且耗费人力物力。
61.为了解决现有技术问题，本技术实施例提供了一种信息确定方法、装置、设备及计算机存储介质。下面首先对本技术实施例所提供的信息确定方法进行介绍。需说明的是，本技术技术方案中对资产、金融等相关数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
62.图1示出了本技术一个实施例提供的信息确定方法的流程示意图。如图1所示，该方法包括步骤s101～s103：
63.s101.获取作业任务的作业信息；
64.s102.根据作业信息，通过预设的第一模型计算第一时长，第一时长为执行作业任务所需的时长，第一模型为根据历史作业任务的执行时长进行训练得到的；
65.s103.在第一时长超过预设时长的情况下，通过第二模型对作业信息进行特征提取，并根据提取的特征确定第一因素信息，
66.其中，第一因素信息为导致作业任务超时的因素信息，第二模型为根据历史作业任务的超时因素进行训练得到的。
67.本技术实施例的信息确定方法、装置、设备及计算机存储介质，能够获取作业任务的作业信息，并根据该作业信息，通过预设的第一模型计算执行作业任务所需的第一时长。这样通过第一模型可以综合作业任务的各项作业信息，快速判断执行作业任务所需的时长，进而在第一时长超过预设时长的情况下，可以通过第二模型对作业信息进行特征提取，并根据提取的特征确定导致作业任务超时的第一因素信息。本技术实施例减少了运维人员的操作，通过模型对作业任务的信息进行特征提取和计算，确定作业任务超时的因素。由于作业任务超时是因为执行该任务时出现了问题，因此本技术实施例直接对超时的因素进行定位，可以实现对问题原因准确定位的同时，提升了问题原因定位的效率。
68.本技术实施例中，该方法可以应用于计算机设备，该计算机设备可以在数据加工处理过程中，采集数据加工处理对应的作业任务的作业信息、作业任务的执行信息等等，进行作业任务的监测、分析、问题诊断等操作。
69.在一些实施例中，步骤s101中的作业任务为对数据进行处理的任务。其中，该数据可以为银行业务系统获取的数据，如银行业务系统的内部数据，来自第三方系统的外部数据，来自银行分行、支行、总行等业务系统的数据，或者手工录入的数据等等。应理解的是，上述数据可以为结构化的数据，也可以为非结构化的数据，且上述数据可以通过预先设定的规则进行规范化处理，以形成利于处理的格式规范的数据。
70.在一些示例中，可以基于spark批处理引擎或scala编程技术对上述数据进行处理加工，生成报表或其他形式的加工结果。在对数据加工处理工程中，是以对应该数据的一个或多个作业任务的方式执行的。执行作业任务过程中，可以通过实时传输工具获取数据获取作业任务的作业信息，示例性的，作业信息可以包括作业的时效信息、上游系统的运行信息、上游系统的依赖信息等，以根据这些作业信息，进行后续计算处理，预测执行作业任务所需的时长(即数据加工处理所需的时长)。
71.其中，作业的时效信息为作业任务从生成时刻到执行时刻的有效时长。
72.上游系统的运行信息即数据的来源系统的运行情况信息，如上游系统的内存占用情况，图形处理器(graphics processing unit，gpu)运行情况，i/o占用率等等的信息。
73.上游系统的依赖信息即数据处理所依赖的上游系统的信息，如运行环境信息、资源调度信息等等。
74.示例性的，实时传输工具可以为ogg(oracle golden gate)数据实时捕捉工具或者spark实时引擎，通过实时传输工具实时获取作业任务的上述作业信息，以通过后续步骤s102进行计算处理，预测执行作业任务所需的时长。
75.在一些实施例中，在步骤s102中，可以根据作业信息，通过预设的第一模型计算第一时长，其中，第一模型为根据历史作业任务的执行时长进行训练得到的，可以对作业任务的作业信息进行计算，计算出执行该作业任务所需的时长。示例性的，第一模型可以为采用逻辑回归算法的模型、或者采用马尔科夫链的模型、或者采用随机森林算法的模型、或者采用支持向量机(support vector machines，svm)的模型。
76.在一个具体示例中，可以预先采集大量历史作业任务的作业信息及其对应的实际执行时长，将作业信息中包含的作业的时效信息、上游系统的运行信息、上游系统的依赖信息等，以及该实际执行时长，作为历史作业任务的标签，进行模型训练，得到训练好的第一模型，使得该第一模型能获取实时作业任务的作业信息后，计算执行该作业任务需要的时长。可以理解的是，根据实际数据处理需求，历史作业任务和实时的作业任务的作业信息也可以包含其他维度的作业信息。且应理解，通过数据样本训练逻辑回归模型、马尔科夫链模型、随机森林模型及svm模型等，为本领域成熟技术，此处不再赘述。
77.本技术实施例中，通过步骤s102确定第一时长后，第一时长作为预测值，可以与预设的目标值(即预设时长)进行比较，确定第一时长是否超过预设时长。如果第一时长在预设时长内，说明根据实时作业信息可以确定作业任务能够正常执行。如果第一时长超出预设时长，说明根据实时作业信息可以确定作业任务执行过程中会出现问题，导致执行任务超时。
78.由于实际对数据处理过程中，有些作业任务可能出现一些问题，但这些问题不足以影响作业任务的正常执行，这样最终作业任务仍然可以在预设时长内完成。这种情况下则不必对出现问题的原因进行定位，以避免不必要的定位操作增大内存负荷，降低作业任务的执行效率。
79.而当第一时长超过预设时长时，说明作业时效信息、上游系统运行状况或上游系统依赖状况存在异常，会导致后续作业任务执行时出现问题，从而使任务执行超时。因此，在第一时长超过预设时长的情况下，可以生成示警信息供运维人员知晓，并且通过步骤s103进行超时因素的确定，以便于快速、准确的定位执行作业任务时会导致出现问题的原因(即因素)。
80.在一些实施例中，在步骤s103通过第二模型对作业信息进行特征提取，并根据提取的特征确定第一因素信息中，第二模型为根据历史作业任务的超时因素进行训练得到的模型，可以根据作业任务的作业信息进行计算，确定作业任务的超时因素。示例性的，第二模型可以为采用逻辑回归算法的模型、或者采用马尔科夫链的模型、或者采用随机森林算法的模型、或者采用支持向量机(support vector machines，svm)的模型。
81.在一个具体示例中，可以预先采集大量历史作业任务的作业信息及其对应的超时因素，将作业信息中包含的作业的时效信息、上游系统的运行信息、上游系统的依赖信息等，以及该超时因素，作为历史作业任务的标签进行模型训练，得到训练好的第二模型，使得该第二模型能获取实时作业任务的作业信息后，对该作业信息进行特征提取，根据提取的特征计算执行该作业任务超时的因素。应理解，通过数据样本训练逻辑回归模型、马尔科夫链模型、随机森林模型及svm模型等，以及通过这些模型进行特征提取和分类等均为本领域成熟技术，此处不再赘述。
82.示例性的，作业任务的超时因素可以包括但不限于以下因素：
83.部分作业未运行导致作业流无法运行；
84.作业运行开销过大；
85.发生锁表，即对于同一个数据，在一方对该数据进行读取或更改时，有另一方正在对该数据进行读取或更新，则该一方进入等待状态的现象；
86.发生文件格式错误；
87.数据包缺少。
88.这些因素可以作为一类因素(如类型1、类型2、类型3
……
等)，以数字形式作为标签参与模型训练，则第二模型可以作为分类器，根据作业信息进行特征提取实现因素分类，确定作业信息对应的因素(即第一因素信息)，实现作业任务超时因素的智能化判断，减少运维人员的人工操作，直接通过训练好的第二模型进行因素定位，定位出作业任务执行时将导致出现问题的原因，进而可以提高对作业问题进行的响应能力，以利于及时作出相应的应对策略，利于保障作业任务的顺利执行。
89.在一些实施例中，为了保障作业任务的顺利执行，在步骤s103根据提取的特征确定第一因素信息之后，方法还可以包括步骤s104～s106：
90.s104.接收用户的第一输入；
91.s105.响应于第一输入，确定对应作业任务的诊断问题信息；
92.s106.根据诊断问题信息，通过第二模型对作业信息进行特征提取，并根据提取的特征，确定对应诊断问题信息的第二因素信息。
93.本实施例中，第一输入可以为用户(可以为运维人员)输入的用于指示进行具体问题诊断的输入，第一输入可以通过计算机设备的人机交互界面接收的输入。在一些示例中，人机交互界面可以通过一些控件，用于接收第一输入，如对话框控件，接收用户的文字指令，或者设置多个控件分别表征不同诊断功能(如诊断cpu开销的功能、诊断锁表的功能等)，当用户点击该控件时触发对应的功能指令。在其他示例中，第一输入也可以是用户输入的语音指令，本实施例不做唯一限定。
94.应理解，当通过人机交互界面设置控件接收第一输入时，不同功能的控件可以具有不同的颜色、形状、样式等。
95.在通过步骤s104接收用户的第一输入后，执行步骤s105响应于第一输入，解析第一输入，确定对应作业任务的诊断问题信息。本实施例中，可以通过步骤s105重新确定用户想要诊断的问题。
96.例如，当通过步骤s103根据作业任务的作业信息，通过第二模型进行特征提取和计算后，确定将导致作业任务执行超时的第一因素信息为发生锁表，但运维人员想诊断作
业任务执行时是否存在作业故障的问题。因为通常如果数据中存在作业运行开销过大的问题因素，且作业信息包含的依赖信息中表征资源不充足时，可能导致作业故障的问题，进而使得作业任务执行超时，这一问题的原因可以通过步骤s103确定出来。但如果数据中存在作业运行开销过大的问题因素，而作业信息包含的依赖信息中表征资源充足，则该作业运行开销过大的因素可能不足以导致作业任务执行超时，这一问题的原因可能不会通过步骤s103确定出来。因此，为了满足用户的多样化需求，本实施例可以在步骤s103确定第一因素信息后，可以通过步骤s104～s105获取用户重新定位问题原因的需求，在确定用户想要重新诊断的问题信息后，执行步骤s106，重新基于该问题信息进行因素定位。
97.在本实施例中，在通过步骤s105中确定诊断问题信息后，可将作业信息输入到第二模型中基于该诊断问题信息再次进行特征提取，指示第二模型根据提取的特征进行对诊断问题信息的二分类计算，确定该作业任务是否存在诊断问题信息的第二因素信息，以根据用户需求，进行特定问题的原因定位。本实施例中，执行步骤s103是第二模型从多类因素中判定某一类因素的多分类计算，步骤s105是第二模型判定某个因素是否存在的二分类计算，而应理解，逻辑回归模型、马尔科夫链模型、随机森林模型及svm模型的二分类和多分类为本领域成熟技术，此处不再赘述。
98.示例性的，诊断问题信息可以包括以下一类或多类信息：
99.作业延迟；
100.作业故障；
101.作业执行缓慢；
102.作业激增；
103.集群问题，如控制单元(control unit，cu)，i/o、gpu，内存占用异常或设备停止，以及资源调度混乱等等；
104.数据格式异常。
105.在一些具体示例中，设备可以提供人机交互界面，接收用于的语音指令，经过语音识别，确定用户需求的诊断问题信息，从而执行步骤s106，进行重新诊断，满足用户多样化的诊断需求。
106.在一些实施例中，为了减少运维人员的人工操作，在定位问题因素后，可以智能化地对问题进行修复。具体的，在本实施例中，在确定作业任务超时的因素信息之后，如图2所示，方法还可以包括步骤s107～s108：
107.s107.根据第一因素信息，从策略数据库中确定对应第一因素信息的修复策略；
108.s108.按照修复策略，执行对应的修复操作。
109.示例性的，策略数据库中预设有对应多种因素信息的修复策略，例如修复策略包括：
110.策略一：因素信息为上游作业流内因部分作业未运行导致整个流不运行，则生成对应提示信息，并在半个小时内对作业任务进行分拆运行处理，并输出问题原因和处理结果；
111.策略二：单作业运行开销异常过大，导致整个集群资源紧张，则生成对应提示信息，并对单作业任务进行隔离，释放i/o资源，均衡集群资源；
112.策略三：发生锁表，则生成对应提示信息，并对作业任务进行终止运行处理，然后
根据作业任务时效的效率分配算法逐个运行作业任务；
113.策略四：发生文件格式错误，则生成对应提示信息，并根据预设的正确格式修复文件。
114.本实施例中，通过步骤s107从策略数据库中确定对应第一因素信息的修复策略后，执行步骤s108以按照修复策略，执行对应的修复操作，如按照策略四，执行生成对应提示信息，并根据预设的正确格式修复文件的操作。
115.根据本实施例，可以在确定导致执行作业任务超时的因素信息后，确定对应该信息的修复策略，从而调用该策略执行对应的修复操作，使得在确定问题因素后，不必运维人员的过多操作，就可以智能化地完成对应问题因素的修复，降低人工投入成本，提高作业任务维护效率。
116.在一些实施例中，为了更好的使运维人员了解作业任务的运行情况，可以生成对应的运行报告输出给运维人员知晓。具体的，在本实施例中，在确定作业任务超时的因素信息之后，方法还可以包括步骤s109～s112：
117.s109.执行作业任务；
118.s110.采集执行作业任务过程中的运行信息；
119.s111.接收用户的第二输入；
120.s112.响应于第二输入，根据运行信息，生成运行报告。
121.本技术实施例中，在确定作业任务超时的第一因素信息之后，通过步骤s109～s110，执行作业任务，并在执行作业任务的过程中，采集执行作业任务过程中的运行信息。示例性的，该运行信息可以包括：控制单元(control unit，cu)，i/o、gpu以及内存的占用信息，资源调度信息、任务执行时长等等，但不限于此。
122.当运维人员想要详细了解执行作业任务过程中的运行信息时，可以基于人机交互界面，输入第二输入，以指示设备执行步骤s112生成报告。示例性的，第二输入可以为基于该界面上的控件输入的指令，也可以为语音输入，本示例不做限定。
123.为了满足用户的多样化需求，可以根据用户自定义或预配置，生成对应的报告。具体的，本实施例中，步骤s112根据运行信息，生成运行报告，具体可以包括：
124.通过预设的第三模型，对运行信息按照多维度特征进行分类，得到多维度分类结果，第三模型为对应上述运行信息基于多维度特征标签构建的分类模型；
125.根据多维度分类结果，生成对运行信息的评价信息；
126.将评价信息填充到预设的报告模板中，生成运行报告。
127.在本实施例中，第三模型为预构建的基于多维度特征标签构建的分类模型。在一个具体示例中，可以配置监测规范评价标签，生成对应的标签体系，以构建第三模型。例如，监测规范评价标签为在不同维度下对运行信息的评价标签，该评价标签可以为对应的运行信息在系统故障维度设置的等级标签。
128.本示例中，可以从数据业务类型评价维度、系统资源评价维度、外部数据来源评价维度、系统故障维度等等多维度，生成对应问题因素的各维度的监测规范评价标签，以生成对执行任务运行信息的评价报告。在其他示例中，监测规范评价标签还可以包括集群状态评价标签，外部数据渠道时效健康状态评价标签，作业执行时设备运行的健康状态评价标签，单日的数据量和计算量级评价标签，路径动态优先级评价标签等等，本示例不做唯一限
定。
129.本示例中，根据监测规范评价标签，可以为每个标签设置对应的阈值或权重，以构建得具有多维度特征标签的第三模型，使得第三模型获取执行作业任务过程中的运行信息后，根据各项运行信息的权重或阈值，输出对该运行信息的评价信息。例如监测规范评价标签中，i/o占用率的一级标签对应的阈值为50％，则运行信息中i/o占用率小于50％，可输出一级标签的评价信息为“优”，或者i/o占用率的中级标签对应的阈值为70％，则运行信息中i/o占用率大于50％小于70％时，可输出中级标签的评价信息为“中等”。
130.本实施例中，通过第三模型，对运行信息按照多维度特征进行分类。并生成对运行信息的评价信息后，可以调用预设的报告模板，将该评价信息对应填充到报告模板中，生成运行报告，供运维人员知晓。在一些具体示例中，运行报告可以包括运行信息和运行信息的评价信息，例如作业的运行时效，运行延迟的作业数，不同场景的数据作业的运行情况，达标率，系统稳定性评价(可以根据系统故障评价标签确定)等等，从而利于人员总结运维经验、或者调整关于作业任务的执行策略等等。
131.在一些示例中，为了满足用户的多样化报告生成需求，可以通过人际交互界面，自定义报告模板样式，进行保存以供调用。例如，在自定义报告模板过程中，配置符合用户需求的监测规范评价标签的组合，以约束第三模型按照报告模板生成对应这些监测规范评价标签的组合的评价信息，在将该评价信息填充到报告模板中，生成符合用户需求的运行报告。使得运维人员看到运行报告后配置不同的修复策略、对设备系统进行维护或改进等。
132.上文中结合图1和图2，详细描述了根据本技术实施例的信息确定方法，下面将结合图3，详细描述本技术实施例的装置。
133.图3示出的是本技术实施例提供的一种信息确定装置的结构示意图。如图3所示，该装置可以包括：
134.获取模块301，用于获取作业任务的作业信息；
135.第一计算模块302，用于根据作业信息，通过预设的第一模型计算第一时长，第一时长为执行作业任务所需的时长，第一模型为根据历史作业任务的执行时长进行训练得到的；
136.第一确定模块303，用于在第一时长超过预设时长的情况下，通过第二模型对作业信息进行特征提取，并根据提取的特征确定第一因素信息，
137.其中，第一因素信息为导致作业任务超时的因素信息，第二模型为根据历史作业任务的超时因素进行训练得到的。
138.本技术实施例的信息确定方法、装置、设备及计算机存储介质，能够获取作业任务的作业信息，并根据该作业信息，通过预设的第一模型计算执行作业任务所需的第一时长。这样通过第一模型可以综合作业任务的各项作业信息，快速判断执行作业任务所需的时长，进而在第一时长超过预设时长的情况下，可以通过第二模型对作业信息进行特征提取，并根据提取的特征确定导致作业任务超时的第一因素信息。本技术实施例减少了运维人员的操作，通过模型对作业任务的信息进行特征提取和计算，确定作业任务超时的因素。由于作业任务超时是因为执行该任务时出现了问题，因此本技术实施例直接对超时的因素进行定位，可以实现对问题原因准确定位的同时，提升了问题原因定位的效率。
139.在一些实施例中，作业任务为对数据进行处理的任务。其中，该数据可以为银行业
务系统获取的数据，如银行业务系统的内部数据，来自第三方系统的外部数据，来自银行分行、支行、总行等业务系统的数据，或者手工录入的数据等等。应理解的是，上述数据可以为结构化的数据，也可以为非结构化的数据，且上述数据可以通过预先设定的规则进行规范化处理，以形成利于处理的格式规范的数据。
140.在一些示例中，可以基于spark批处理引擎或scala编程技术对上述数据进行处理加工，生成报表或其他形式的加工结果。在对数据加工处理工程中，是以对应该数据的一个或多个作业任务的方式执行的。执行作业任务过程中，可以通过实时传输工具获取数据获取作业任务的作业信息，示例性的，作业信息可以包括作业的时效信息、上游系统的运行信息、上游系统的依赖信息等，以根据这些作业信息，进行后续计算处理，预测执行作业任务所需的时长(即数据加工处理所需的时长)。
141.其中，作业的时效信息为作业任务从生成时刻到执行时刻的有效时长。
142.上游系统的运行信息即数据的来源系统的运行情况信息，如上游系统的内存占用情况，图形处理器(graphics processing unit，gpu)运行情况，i/o占用率等等的信息。
143.上游系统的依赖信息即数据处理所依赖的上游系统的信息，如运行环境信息、资源调度信息等等。
144.示例性的，实时传输工具可以为ogg(oracle golden gate)数据实时捕捉工具或者spark实时引擎，通过实时传输工具实时获取作业任务的上述作业信息，以通过第一计算模块302进行计算处理，预测执行作业任务所需的时长。
145.在一些实施例中，第一计算模块302可以根据作业信息，通过预设的第一模型计算第一时长，其中，第一模型为根据历史作业任务的执行时长进行训练得到的，可以对作业任务的作业信息进行计算，计算出执行该作业任务所需的时长。示例性的，第一模型可以为采用逻辑回归算法的模型、或者采用马尔科夫链的模型、或者采用随机森林算法的模型、或者采用支持向量机(support vector machines，svm)的模型。
146.在一个具体示例中，可以预先采集大量历史作业任务的作业信息及其对应的实际执行时长，将作业信息中包含的作业的时效信息、上游系统的运行信息、上游系统的依赖信息等，以及该实际执行时长，作为历史作业任务的标签，进行模型训练，得到训练好的第一模型，使得该第一模型能获取实时作业任务的作业信息后，计算执行该作业任务需要的时长。可以理解的是，根据实际数据处理需求，历史作业任务和实时的作业任务的作业信息也可以包含其他维度的作业信息。且应理解，通过数据样本训练逻辑回归模型、马尔科夫链模型、随机森林模型及svm模型等，为本领域成熟技术，此处不再赘述。
147.本技术实施例中，第一计算模块302确定第一时长后，第一时长作为预测值，可以与预设的目标值(即预设时长)进行比较，确定第一时长是否超过预设时长。如果第一时长在预设时长内，说明根据实时作业信息可以确定作业任务能够正常执行。如果第一时长超出预设时长，说明根据实时作业信息可以确定作业任务执行过程中会出现问题，导致执行任务超时。
148.由于实际对数据处理过程中，有些作业任务可能出现一些问题，但这些问题不足以影响作业任务的正常执行，这样最终作业任务仍然可以在预设时长内完成。这种情况下则不必对出现问题的原因进行定位，以避免不必要的定位操作增大内存负荷，降低作业任务的执行效率。
149.而当第一时长超过预设时长时，说明作业时效信息、上游系统运行状况或上游系统依赖状况存在异常，会导致后续作业任务执行时出现问题，从而使任务执行超时。因此，在第一时长超过预设时长的情况下，可以生成示警信息供运维人员知晓，并且通过第一确定模块303进行超时因素的确定，以便于快速、准确的定位执行作业任务时会导致出现问题的原因(即因素)。
150.在一些实施例中，第一确定模块303通过第二模型对作业信息进行特征提取，并根据提取的特征确定第一因素信息中，第二模型为根据历史作业任务的超时因素进行训练得到的模型，可以根据作业任务的作业信息进行计算，确定作业任务的超时因素。示例性的，第二模型可以为采用逻辑回归算法的模型、或者采用马尔科夫链的模型、或者采用随机森林算法的模型、或者采用支持向量机(support vector machines，svm)的模型。
151.在一个具体示例中，可以预先采集大量历史作业任务的作业信息及其对应的超时因素，将作业信息中包含的作业的时效信息、上游系统的运行信息、上游系统的依赖信息等，以及该超时因素，作为历史作业任务的标签进行模型训练，得到训练好的第二模型，使得该第二模型能获取实时作业任务的作业信息后，对该作业信息进行特征提取，根据提取的特征计算执行该作业任务超时的因素。应理解，通过数据样本训练逻辑回归模型、马尔科夫链模型、随机森林模型及svm模型等，以及通过这些模型进行特征提取和分类等均为本领域成熟技术，此处不再赘述。
152.示例性的，作业任务的超时因素可以包括但不限于以下因素：
153.部分作业未运行导致作业流无法运行；
154.作业运行开销过大；
155.发生锁表，即对于同一个数据，在一方对该数据进行读取或更改时，有另一方正在对该数据进行读取或更新，则该一方进入等待状态的现象；
156.发生文件格式错误；
157.数据包缺少。
158.这些因素可以作为一类因素(如类型1、类型2、类型3
……
等)，以数字形式作为标签参与模型训练，则第二模型可以作为分类器，根据作业信息进行特征提取实现因素分类，确定作业信息对应的因素(即第一因素信息)，实现作业任务超时因素的智能化判断，减少运维人员的人工操作，直接通过训练好的第二模型进行因素定位，定位作业任务执行时将导致出现问题的原因，可以提高对作业问题进行的响应能力，从而利于及时作出相应的应对策略，利于保障作业任务的顺利执行。
159.在一些实施例中，装置还包括：
160.第一接收模块，用于接收用户的第一输入；
161.第二确定模块，用于响应于第一输入，确定对应作业任务的诊断问题信息；
162.第三确定模块，用于根据诊断问题信息，通过第二模型对作业信息进行特征提取，并根据提取的特征，确定对应诊断问题信息的第二因素信息。
163.本实施例中，第一输入可以为用户(可以为运维人员)输入的用于指示进行具体问题诊断的输入，第一输入可以通过计算机设备的人机交互界面接收的输入。在一些示例中，人机交互界面可以通过一些控件，用于接收第一输入，如对话框控件，接收用户的文字指令，或者设置多个控件分别表征不同诊断功能(如诊断cpu开销的功能、诊断锁表的功能
等)，当用户点击该控件时触发对应的功能指令。在其他示例中，第一输入也可以是用户输入的语音指令，本实施例不做唯一限定。
164.在本实施例中，在通过第二确定模块确定诊断问题信息后，可将作业信息输入到第二模型中基于该诊断问题信息再次进行特征提取，指示第二模型根据提取的特征进行对诊断问题信息的二分类计算，确定该作业任务是否存在诊断问题信息的第二因素信息，以根据用户需求，进行特定问题的原因定位。应理解，第一确定模块是第二模型从多类因素中判定某一类因素的多分类计算，第二确定模块是第二模型判定某个因素是否存在的二分类计算，而逻辑回归模型、马尔科夫链模型、随机森林模型及svm模型的二分类和多分类为本领域成熟技术，此处不再赘述。
165.示例性的，诊断问题信息可以包括以下一类或多类信息：
166.作业延迟；
167.作业故障；
168.作业执行缓慢；
169.作业激增；
170.集群问题，如控制单元(control unit，cu)，i/o、gpu，内存占用异常或设备停止，以及资源调度混乱等等；
171.数据格式异常。
172.在一些具体示例中，设备可以提供人机交互界面，接收用于的语音指令，经过语音识别，确定用户需求的诊断问题信息，从而通过第三确定模块进行重新诊断，满足用户多样化的诊断需求。
173.在一些实施例中，装置还包括：
174.第四确定模块，用于根据第一因素信息，从策略数据库中确定对应第一因素信息的修复策略；
175.第一执行模块，用于按照修复策略，执行对应的修复操作。
176.示例性的，策略数据库中预设有对应多种因素信息的修复策略，例如修复策略包括：
177.策略一：因素信息为上游作业流内因部分作业未运行导致整个流不运行，则生成对应提示信息，并在半个小时内对作业任务进行分拆运行处理，并输出问题原因和处理结果；
178.策略二：单作业运行开销异常过大，导致整个集群资源紧张，则生成对应提示信息，并对单作业任务进行隔离，释放i/o资源，均衡集群资源；
179.策略三：发生锁表，则生成对应提示信息，并对作业任务进行终止运行处理，然后根据作业任务时效的效率分配算法逐个运行作业任务；
180.策略四：发生文件格式错误，则生成对应提示信息，并根据预设的正确格式修复文件。
181.根据本实施例，可以在确定导致执行作业任务超时的因素信息后，确定对应该信息的修复策略，从而调用该策略执行对应的修复操作，使得在确定问题因素后，不必运维人员的过多操作，就可以智能化地完成对应问题因素的修复，降低人工投入成本，提高作业任务维护效率。
182.在一些实施例中，装置还包括：
183.第二执行模块，用于执行作业任务；
184.采集模块，用于采集执行作业任务过程中的运行信息；
185.第二接收模块，用于接收用户的第二输入；
186.生成模块，用于响应于第二输入，根据运行信息，生成运行报告。
187.在一些实施例中，生成模块包括：
188.分类子模块，用于通过预设的第三模型，对运行信息按照多维度特征进行分类，得到多维度分类结果，第三模型为基于多维度特征标签构建的分类模型；
189.第一生成子模块，用于根据多维度分类结果，生成对运行信息的评价信息；
190.第二生成子模块，用于将评价信息填充到预设的报告模板中，生成运行报告。
191.示例性的，该运行信息可以包括：控制单元(control unit，cu)，i/o、gpu以及内存的占用信息，资源调度信息、任务执行时长等等，但不限于此。
192.在本实施例中，第三模型为预构建的基于多维度特征标签构建的分类模型。在一个具体示例中，可以配置监测规范评价标签，生成对应的标签体系，以构建第三模型。例如，监测规范评价标签为在不同维度下对运行信息的评价标签，该评价标签可以为对应的运行信息在系统故障维度设置的等级标签。
193.本示例中，可以从数据业务类型评价维度、系统资源评价维度、外部数据来源评价维度、系统故障维度等等多维度，生成对应问题因素的各维度的监测规范评价标签，以生成对执行任务运行信息的评价报告。在其他示例中，监测规范评价标签还可以包括集群状态评价标签，外部数据渠道时效健康状态评价标签，作业执行时设备运行的健康状态评价标签，单日的数据量和计算量级评价标签，路径动态优先级评价标签等等，本示例不做唯一限定。
194.本示例中，根据监测规范评价标签，可以为每个标签设置对应的阈值或权重，以构建得具有多维度特征标签的第三模型，使得第三模型获取执行作业任务过程中的运行信息后，根据各项运行信息的权重或阈值，输出对该运行信息的评价信息。
195.本实施例中，通过第三模型，对运行信息按照多维度特征进行分类。并生成对运行信息的评价信息后，可以调用预设的报告模板，将该评价信息对应填充到报告模板中，生成运行报告，供运维人员知晓。在一些具体示例中，运行报告可以包括运行信息和运行信息的评价信息，例如作业的运行时效，运行延迟的作业数，不同场景的数据作业的运行情况，达标率，系统稳定性评价(可以根据系统故障评价标签确定)等等，从而利于人员总结运维经验、或者调整关于作业任务的执行策略等等。
196.在一些示例中，为了满足用户的多样化报告生成需求，可以通过人际交互界面，自定义报告模板样式，进行保存以供调用。例如，在自定义报告模板过程中，配置符合用户需求的监测规范评价标签的组合，以约束第三模型按照报告模板生成对应这些监测规范评价标签的组合的评价信息，在将该评价信息填充到报告模板中，生成符合用户需求的运行报告。使得运维人员看到运行报告后配置不同的修复策略、对设备系统进行维护或改进等。
197.需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，并能达到其相应的技术效果，为简洁描述，在此不再赘述。
198.图4示出了本技术实施例提供的计算机设备的硬件结构示意图。
199.计算机设备可以包括处理器401以及存储有计算机程序指令的存储器402。
200.具体地，上述处理器401可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
201.存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器402是非易失性固态存储器。
202.存储器可包括只读存储器(rom)，随机存取存储器(ram)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本技术的一方面的方法所描述的操作。
203.处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种信息确定方法。
204.在一个示例中，计算机设备还可包括通信接口403和总线410。其中，如图4所示，处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
205.通信接口403，主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。
206.总线410包括硬件、软件或两者，将该计算机设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线410可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
207.另外，结合上述实施例中的信息确定方法，本技术实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种信息确定方法。
208.并且，结合上述实施例中的信息确定方法，本技术实施例可提供一种计算机程序产品来实现。该计算机程序产品中的指令由计算机设备的处理器执行时，使得所述计算机设备执行实现上述实施例中的任意一种信息确定方法。
209.需要明确的是，本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本技术的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本技术的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
210.以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
211.还需要说明的是，本技术中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本技术不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
212.上面参考根据本技术的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本技术的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
213.以上所述，仅为本技术的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：图像处理方法、装置、电子设备及存储介质与流程

信息确定方法、装置、设备及计算机存储介质与流程

相关文献

最热文献