一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于日志采样的流程实例下一事件预测方法与系统

2022-11-14 00:43:33 来源:中国专利 TAG:


1.本发明涉及流程挖掘的技术领域,尤其是指一种基于日志采样的流程实例下一事件预测方法与系统,可以预测当前正在发生的事件的下一事件并通过日志采样技术提高预测效率。


背景技术:

2.业务流程管理包括支持业务流程的设计、管理和分析的方法、技术和工具,其主要任务之一是流程监控,其目标是能够洞察全面的流程。流程监视的目的之一是检测过程执行过程中的意外偏差。进程监视可以是在线或离线,离线流程监控是通过传统的监控方法来实现的,其想法是提供一个包含完整进程实例的数据集作为输入,将发现的意外偏差进行输出。
3.预测型流程监控的主要任务有业务流程剩余时间预测和下一事件预测等,下一事件预测其主要目的是为后续发生的事件提前分配合理的资源并防止可能出现的偏差对业务流程造成影响。传统的基于模型的预测方法和基于机器学习的预测方法,如随机petri网、因果图最短路径、决策树、支持向量机等,在面对大规模数据量时,人工提取输入数据的特征需要花费大量的时间。随着深度学习的广泛应用,研究者舍弃了人工提取特征的方式,使用各种深度学习模型完成预测任务,如长短期记忆网络(long short-term memory,lstm)等,其递归架构能够适应任意长度的数据序列,但使用深度学习模型对事件日志进行训练通常需要大量的数据才能达到拟合状态,这是因为大量数据中包含模型学习所需的更多特征信息,但受限于硬件设备限制,上述过程往往会使训练时间过长,使得模型预测效率较低,这并不符合业务流程的动态性要求。
4.对事件日志进行采样是一种实例选择过程,目的是在保证数据集质量的前提下,将原始数据减少至可接受范围内,提高过程发现的效率。若通过一个采样方法能够挖掘出日志中轨迹前缀与下一事件间的深层联系,那么可以认为经过采样后的小数据量事件日志能够包含充分的特征信息,使得深度学习算法仅通过部分数据即可快速训练出精度较高的预测模型。因此,为了更好地对业务流程进行全局把控,规避流程操作中存在的违规风险,提高决策效率,需要一种高效的业务流程剩余事件预测方案。


技术实现要素:

5.本发明的第一目的在于克服目前利用深度学习模型预测下一个事件的低效率问题,提供一种基于日志采样的流程实例下一事件预测方法,可实现对业务流程下一事件进行高效预测,迅速并准确的得到当前正在进行事件的下一个最有可能发生的事件,规避业务流程中可能出现的风险。
6.本发明的第二目的在于提供一种基于日志采样的流程实例下一事件预测系统。
7.本发明的第一目的通过下述技术方案实现:一种基于日志采样的流程实例下一事件预测方法,包括以下步骤:
8.1)获取真实原始事件日志并对其进行预处理,该真实原始事件日志中记录了业务流程所有信息,包含业务流程事件及事件属性,该预处理是针对业务流程下一事件预测需求,保留事件及时间属性,得到标准事件日志;
9.2)根据步骤1)中获得的标准事件日志以轨迹为单位按照比例随机划分为训练集、验证集和测试集;
10.3)利用步骤2)划分好的训练集,利用logrank 算法对事件日志按照特定采样率采样,得到采样后的训练集;
11.4)将步骤3)获得的采样后训练集和步骤2)划分后未经过采样的验证集输入到深度学习网络模型中进行下一事件预测的训练和验证,得到训练和验证好的深度学习网络模型以及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比;
12.5)将步骤2)划分后未经过采样的测试集输入到步骤4)训练和验证好的深度学习网络模型进行测试,得到下一事件预测任务的测试准确率;
13.6)根据步骤5)得到的下一事件预测任务的测试准确率及步骤4)得到的采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比和步骤3)设定的采样率来调整训练和验证好的深度学习网络模型的参数,从而优化模型,得到最优的深度学习网络模型,后续将下一事件预测任务输入该最优的深度学习网络模型,即可得到准确的预测结果。
14.进一步,在步骤1)中,获取初始数据,即原始事件日志,在获取原始事件日志之后进行预处理,将原始事件日志中不相关属性剔除,只保留与事件预测相关的事件及事件的时间属性,获得用于预测业务流程下一事件的标准事件日志;
15.所述事件预测中的事件是事件日志中由全部事件构成的集合,称为事件集ε,每一个事件e的执行用e=(a1,a2,...,am)∈ε表示,其中am表示为事件的第m个属性。
16.进一步,在步骤2)中,根据步骤1)获得的预测流程实例下一事件的标准事件日志划分不同的训练集、验证集及测试集,其具体步骤如下:
17.2.1)在预测流程实例下一事件的标准事件日志中,设定特定比例的训练集、验证集及测试集;
18.2.2)按照步骤2.1)设定的比例,获取标准事件日志的轨迹长度及其数量,计算训练集、验证集及测试集包含的轨迹数量,并以轨迹为单位按轨迹数量进行随机划分;
19.2.3)将步骤2.2)按比例划分好的训练集、验证集及测试集分别保存到三个文档中;
20.所述轨迹是由n个事件所构成有序序列,包含了事件及其属性信息,代表一次业务流程的完整执行,也称为流程实例。
21.进一步,在步骤3)中,将步骤2)获得的训练集按照特定采样率对事件日志进行采样操作,其具体步骤如下:
22.3.1)根据步骤2)获得的训练集大小和期望提升的效率,提前设定采样率s,其中采样率越小得到的采样后数据集越小;
23.3.2)通过logrank 算法,计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性;
24.通过计算事件日志中包含事件a的轨迹数量求得事件重要性,事件重要性的公式
为:
[0025][0026]
式中,a为事件,l为事件日志,|l|为事件日志包含轨迹数,sig(a)为事件a的重要性,σi表示事件日志l中的第i条轨迹;
[0027]
通过计算包含直接跟随事件关系《a,b》的轨迹数量计算直接跟随事件关系的重要性,直接跟随事件关系的重要性公式为:
[0028][0029]
式中,a、b为事件,《a,b》为直接跟随事件关系,sig(a,b)为直接跟随事件关系的重要性;
[0030]
3.3)根据步骤3.2)得到的各个事件的重要性及直接跟随事件关系的重要性,得到事件日志中每条轨迹的重要性,计算轨迹重要性的公式如下:
[0031][0032]
式中,sig(σ)为轨迹重要性,sig(σ)的数值越大代表轨迹越重要;
[0033]
3.4)根据步骤3.3)计算所得的轨迹重要性,对训练集中所有轨迹按轨迹重要性从高到低排序,并按照步骤3.1)设定的采样率s选取训练集前s条轨迹,得到采样后的训练集。
[0034]
进一步,在步骤4)中,根据步骤3)获得的采样后训练集和步骤2)划分后的验证集输入到深度学习网络模型中进行训练,其具体步骤如下:
[0035]
4.1)将步骤3)获得的采样后训练集的事件日志进行轨迹前缀的提取和拷贝,并将轨迹前缀输入深度学习网络模型中特征提取阶段进行特征提取,得到轨迹的特征及事件信息;
[0036]
4.2)根据步骤4.1)获得的采样后训练集的事件日志的特征信息,对轨迹前缀进行下一事件预测,并计算准确率acc;其中,预测下一事件的结果有四种不同类型,分别为真阳性tp、假阳性fp、真阴性tn、假阴性fn,选定准确率acc作为衡量算法评价指标,其计算方式如下:
[0037][0038]
通过计算轨迹前缀下一事件预测结果在验证集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明下一事件预测结果越准确;
[0039]
4.3)计算深度学习网络模型的交叉熵损失和根据步骤4.2)获得的轨迹前缀下一事件预测的准确率,通过验证集进行交叉验证,提高预测准确率,得到训练和验证好的深度学习网络模型;其中,所述轨迹前缀是代表一条轨迹前k个有序事件序列,表示为σ(k)=《e1,e2,...,ek,...,en》,k∈[1,n),ek为轨迹中第k个事件;所述交叉熵是能够衡量下一事件预测概率分布与真实值概率分布的差异程度,能够表示预测效果,交叉熵的数值越小表示
模型的效果越好;
[0040]
评价流程实例下一事件预测方法的优劣不仅需要评估其预测的准确性,还需要从时间花费角度进行分析;为评估预测效率,设定采样后的训练、验证时间和事件日志采样时间与采样前训练、验证时间之比r作为评估时间性能的指标;设原始数据集中未经采样训练和验证耗时为t
p
,采样阶段耗时为ts,在采样后的数据集中训练和验证耗时为t

p
,t
all
为每次训练、验证和采样的平均总耗时,为减少模型训练、验证和采样时带来的误差,取5次计算平均数,其计算方式为:
[0041][0042]
式中,j为采样和训练、验证模型的次数;评估时间性能的指标r的计算方式为:
[0043][0044]
其中,r越大代表事件日志采样后的预测效率越高。
[0045]
进一步,在步骤5)中,将步骤2)获得的划分后未经过采样的测试集输入到步骤4)训练和验证好的深度学习网络模型中,测试模型最终的效果,通过计算在测试集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明预测越准确。
[0046]
进一步,在步骤6)中,根据步骤5)获得的测试集的预测准确率和步骤4)获得的训练、验证的预测准确率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进一步调整,通过调整batch_size和iteration参数减少深度学习网络模型训练时间、调整采样率控制训练集大小,得到最优的深度学习网络模型,后续将下一事件预测任务输入该最优的深度学习网络模型,即可得到准确的预测结果;其中,所述batch_size是在深度学习网络模型训练时每次训练的数据集批次大小,表示训练集每次取batch_size个训练样本进行训练;所述iteration是训练时迭代的次数。
[0047]
本发明的第二目的通过下述技术方案实现:一种基于日志采样的流程实例下一事件预测系统,包括数据获取和预处理模块、数据划分模块、日志采样模块、深度学习模型训练模块、预测结果输出模块和调整优化模块;
[0048]
所述数据获取和预处理模块用于获取、分析和预处理事件日志;
[0049]
所述数据划分模块用于将预处理后事件日志按比例进行划分训练集、验证集和测试集;
[0050]
所述日志采样模块用于对划分后的训练集按采样率进行日志采样;
[0051]
所述深度学习模型训练模块用于训练深度学习网络模型作为下一事件预测模型,并采用验证集进行验证,得到训练和验证好的深度学习网络模型以及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比;
[0052]
所述预测结果输出模块用于测试下一事件预测模型结果,并记录其准确率;
[0053]
所述调整优化模块用于根据测试结果、训练和验证结果、采样率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进行进一步调整。
[0054]
进一步,所述数据获取和预处理模块具体执行如下操作:
[0055]
获取初始数据,即原始事件日志,在获取原始事件日志之后进行预处理,将原始事
件日志中不相关属性剔除,只保留与事件预测相关的事件及事件的时间属性,获得用于预测业务流程下一事件的标准事件日志。
[0056]
进一步,所述数据划分模块具体执行如下操作:
[0057]
在预测流程实例下一事件的标准事件日志中,设定特定比例的训练集、验证集及测试集,获取标准事件日志的轨迹长度及其数量,计算训练集、验证集及测试集包含的轨迹数量,并以轨迹为单位按轨迹数量进行随机划分,将比例划分好的训练集、验证集及测试集分别保存到三个文档中。
[0058]
进一步,所述日志采样模块具体执行如下操作:
[0059]
通过训练集大小和期望提升的效率,提前设定采样率s,其中采样率越小得到的采样后数据集越小;
[0060]
通过logrank 算法,计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性;
[0061]
通过计算事件日志中包含事件a的轨迹数量求得事件重要性,事件重要性的公式为:
[0062][0063]
式中,a为事件,l为事件日志,|l|为事件日志包含轨迹数,sig(a)为事件a的重要性,σi表示事件日志l中的第i条轨迹;
[0064]
通过计算包含直接跟随事件关系《a,b》的轨迹数量计算直接跟随事件关系的重要性,直接跟随事件关系的重要性公式为:
[0065][0066]
式中,a、b为事件,《a,b》为直接跟随事件关系,sig(a,b)为直接跟随事件关系的重要性;
[0067]
根据得到的各个事件的重要性及直接跟随事件关系的重要性,得到事件日志中每条轨迹的重要性,计算轨迹重要性的公式如下:
[0068][0069]
式中,sig(σ)为轨迹重要性,sig(σ)的数值越大代表轨迹越重要;
[0070]
对训练集中所有轨迹按轨迹重要性从高到低排序,按照设定的采样率s选取训练集前s条轨迹,得到采样后的训练集。
[0071]
进一步,所述深度学习模型训练模块具体执行如下操作:
[0072]
将获得的采样后训练集的事件日志进行轨迹前缀的提取和拷贝,并将轨迹前缀输入深度学习网络模型中特征提取阶段进行特征提取,得到轨迹的特征及事件信息,对轨迹前缀进行下一事件预测,并计算准确率acc;其中,预测下一事件的结果有四种不同类型,分别为真阳性tp、假阳性fp、真阴性tn、假阴性fn,选定准确率acc作为衡量算法评价指标,其
计算方式如下:
[0073][0074]
通过计算轨迹前缀下一事件预测结果在验证集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明下一事件预测结果越准确;
[0075]
计算深度学习网络模型的交叉熵损失和轨迹前缀下一事件预测的准确率,通过验证集进行交叉验证,提高预测准确率,得到训练和验证好的深度学习网络模型;
[0076]
评价流程实例下一事件预测方法的优劣不仅需要评估其预测的准确性,还需要从时间花费角度进行分析;为评估预测效率,设定采样后的训练、验证时间和事件日志采样时间与采样前训练、验证时间之比r作为评估时间性能的指标;设原始数据集中未经采样训练和验证耗时为t
p
,采样阶段耗时为ts,在采样后的数据集中训练和验证耗时为t

p
,t
all
为每次训练、验证和采样的平均总耗时,为减少模型训练、验证和采样时带来的误差,取5次计算平均数,其计算方式为:
[0077][0078]
式中,j为采样和训练、验证模型的次数;评估时间性能的指标r的计算方式为:
[0079][0080]
其中,r越大代表事件日志采样后的预测效率越高。
[0081]
进一步,所述预测结果输出模块具体执行如下操作:
[0082]
将未经过采样的测试集输入到训练和验证好的深度学习网络模型中,测试模型最终的效果,通过计算在测试集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明预测越准确。
[0083]
进一步,所述调整优化模块具体执行如下操作:
[0084]
根据获得的测试集的预测准确率和训练、验证预测准确率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进一步调整,通过调整batch_size和iteration参数减少深度学习网络模型训练时间、调整采样率控制训练集大小,得到最优的深度学习网络模型,后续将下一事件预测任务输入该最优的深度学习网络模型,即可得到准确的预测结果。
[0085]
本发明与现有技术相比,具有如下优点与有益效果:
[0086]
1、本发明弥补了当前针对下一事件预测中没有针对事件日志进行数据预处理的缺点,实现了处理后的事件日志更适用于下一时间预测任务的需求。
[0087]
2、本发明相较于单纯只利用深度学习网络模型进行预测,减少了训练量,极大的提高了预测时间效率。
[0088]
3、本发明利用日志采样技术,有目标性的减少轨迹数量,增大了各事件之间的关联度,提高预测准确率,保障了流程监控的准确性和可靠性。
[0089]
4、本发明在日志采样技术和深度学习网络模型训练中可自由结合,操作简单、适应性强,提供了一种高效可行的预测方法。
[0090]
5、本发明在业务流程下一事件预测任务中具有广泛的使用空间,在预测性流程监控中上有广阔前景。
附图说明
[0091]
图1为本发明方法逻辑流程图。
[0092]
图2为road traffic fine management process事件日志的片段图。
[0093]
图3为深度学习网络模型的结构图。
[0094]
图4为在10%采样率下个数据集效率提升图。
[0095]
图5为10%、20%、30%采样率下helpdesk、bpc_2012_a数据集采样训练深度学习模型所耗时间之比图。
[0096]
图6为10%、20%、30%采样率下bpc_2012_o、prepaid_travel_costs数据集采样训练深度学习模型所耗时间之比图。
[0097]
图7为10%、20%、30%采样率下hospital、rtfm数据集采样训练深度学习模型所耗时间之比图。
[0098]
图8位本发明系统框架图。
具体实施方式
[0099]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0100]
实施例1
[0101]
如图1所示,本实施例公开了一种基于日志采样的流程实例下一事件预测方法,首先获取原始事件日志,该原始事件日志中记录了业务流程所有信息,包含业务流程事件及事件属性,针对流程实例下一事件预测需求,将原始事件日志中不相关属性剔除,只保留与事件预测相关的事件及事件的时间属性,获得用于预测业务流程下一事件的标准事件日志,其次将获得的标准事件日志按照比例划分为训练集、验证集和测试集,划分好的训练集按照一定采样率进行事件日志采样,得到采样后的训练集,再将获得的采样后训练集和划分后未经过采样的验证集输入到深度学习网络模型中进行下一事件预测,得到训练和验证好的深度学习网络模型,最后将划分后未经过采样的测试集输入到训练和验证好的深度学习网络模型进行测试,得到下一事件预测任务测试结果,并根据结果对深度学习网络模型进行参数调整,优化模型。
[0102]
获取原始事件日志,该原始事件日志中记录了业务流程所有信息,包含业务流程事件及事件属性,如表1所示,展示了road_traffic_fine_management_process(rtfm)事件日志的片段。针对业务流程下一事件预测需求,保留事件及时间属性,得到预测事件日志,其详细信息的信息如图2road traffic fine management process事件日志的片段图所示。
[0103]
表1 road_traffic_fine_management_process事件日志的片段
[0104]
[0105][0106]
所述事件预测中的事件是事件日志中由全部事件构成的集合,称为事件集ε,每一个事件e的执行用e=(a1,a2,...,am)∈ε表示,其中am表示为事件的第m个属性。
[0107]
2)根据步骤1)获得的预测业务流程下一事件的标准事件日志划分不同的训练集、验证集及测试集,其具体步骤如下:
[0108]
2.1)在预测业务流程下一事件的标准事件日志中,设定7:2:1比例的训练集、验证集及测试集;
[0109]
2.2)按照步骤2.1)设定的比例,获取标准事件日志的轨迹长度及其数量,计算训练集、验证集及测试集包含的轨迹数量,并以轨迹为单位按轨迹数量进行随机划分;
[0110]
2.3)将步骤2.2)按比例划分好的训练集、验证集及测试集分别保存到rtfm_train.txt、rtfm_val.txt、rtfm_test.txt三个文档中,划分后数据集的信息如表2所示。
[0111]
表2划分后事件日志信息
[0112][0113][0114]
3)将步骤2)获得的训练集按照一定采样率对事件日志进行采样操作,其具体操作如下:
[0115]
3.1)根据步骤2)获得的训练集大小和期望提升的效率,提前设定采样率,采样率越小得到的采样后数据集越小,为探究采样率对象下一事件预测准确率影响,首先设定采样率为10%;
[0116]
3.2)通过logrank 算法,计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性;
[0117]
通过计算事件日志中包含事件a的轨迹数量求得事件重要性,事件重要性的公式为:
[0118][0119]
式中,a为事件,l为事件日志,|l|为事件日志包含轨迹数,sig(a)为事件a的重要性,σi表示事件日志l中的第i条轨迹;
[0120]
通过计算包含直接跟随事件关系《a,b》的轨迹数量计算直接跟随事件关系的重要性,直接跟随事件关系的重要性公式为:
[0121][0122]
式中,a、b为事件,《a,b》为直接跟随事件关系,sig(a,b)为直接跟随事件关系的重要性;
[0123]
3.3)根据步骤3.2)得到的各个事件的重要性及直接跟随事件关系的重要性,得到事件日志中每条轨迹的重要性,计算轨迹重要性的公式如下:
[0124][0125]
式中,sig(σ)为轨迹重要性,sig(σ)的数值越大代表轨迹越重要;
[0126]
3.4)根据步骤3.3)计算所得的轨迹重要性,对训练集中所有轨迹按轨迹重要性从高到低排序,并按照步骤3.1)设定的采样率s选取训练集前s条轨迹,得到采样后的训练集。
[0127]
4)根据步骤3)获得的采样后训练日志和步骤2)划分后的验证集输入到深度学习网络模型中进行训练,所采用的深度学习网络模型结构如图3所示,其具体步骤如下:
[0128]
4.1)将步骤3)获得的采样后训练集的事件日志进行轨迹前缀的提取和拷贝,并将轨迹前缀输入深度学习网络模型中特征提取阶段进行特征提取,得到轨迹的特征及事件信息;
[0129]
4.2)根据步骤4.1)获得的采样后训练集的事件日志的特征信息,对轨迹前缀进行下一事件预测,并计算准确率acc;其中,预测下一事件的结果有四种不同类型,分别为真阳性(true positive,tp)、假阳性(false positive,fp)、真阴性(true negative,tn)、假阴性(false negative,fn),本文选定准确率(acc)作为衡量算法评价指标,其计算方式如下:
[0130][0131]
通过计算轨迹前缀下一事件预测结果在验证集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明下一事件预测结果越准确;
[0132]
4.3)计算深度学习网络模型的交叉熵损失和根据步骤4.2)获得的轨迹前缀下一事件预测的准确率,通过验证集进行交叉验证,提高预测准确率,得到训练和验证好的深度学习网络模型;其中,所述轨迹前缀是代表一条轨迹前k个有序事件序列,表示为σ(k)=《e1,e2,...,ek,...,en》,k∈[1,n),ek为轨迹中第k个事件;所述交叉熵是能够衡量下一事件预测概率分布与真实值概率的分布的差异程度,能够一定程度上表示预测效果,交叉熵的数值越小表示模型的效果越好;
[0133]
评价流程实例下一事件预测方法的优劣不仅需要评估其预测的准确性,还需要从时间花费角度进行分析;为评估预测效率,设定采样后的训练、验证时间和事件日志采样时间与采样前训练、验证时间之比r作为评估时间性能的指标;设原始数据集中未经采样训练和验证耗时为t
p
,采样阶段耗时为ts,在采样后的数据集中训练和验证耗时为t

p
,t
all
为每次训练、验证和采样的平均总耗时,为减少模型训练、验证和采样时带来的误差,取5次计算平均数,其计算方式为:
[0134][0135]
式中,j为采样和训练、验证模型的次数;评估时间性能的指标r的计算方式为:
[0136][0137]
其中,r越大代表事件日志采样后的预测效率越高。
[0138]
5)将步骤2)获得的划分后未经过采样的测试集输入到步骤4)训练和验证好的深度学习网络模型进行测试,得到下一事件预测任务的测试准确率,测试模型最终的效果,通过计算在测试集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明预测越准确。
[0139]
6)根据步骤5)获得的测试集的预测准确率和步骤4)获得的训练、验证的预测准确率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进一步调整,通过调整batch_size和iteration参数减少深度学习网络模型训练时间、调整采样率控制训练集大小,得到最优的深度学习网络模型,后续将下一事件预测任务输入该最优的深度学习网络模型,即可得到准确的预测结果;其中,所述batch_size是在深度学习网络模型训练时每次训练的数据集批次大小,表示训练集每次取batch_size个训练样本进行训练;所述iteration是训练时迭代的次数。最后,得到的准确率如表3所示,其较采样前提升效率如图4所示的六个数据集在10%采样率下个数据集效率提升,为验证此方法的普遍性,本实验使用循环神经网络模型中比较基础的深度学习网络模型lstm作为预测模型,其结果如下:
[0140]
表3不同采样方法预测下一事件准确率(10%采样率)
[0141]
采样方法helpdeskbpic_2012_abpic_2012_oprepaid_travel_costshospitalrtfm无采样0.81690.8510.76350.87130.88130.7754logrank0.67240.90670.77620.7961
‑‑
logrank 0.81320.87520.80820.90790.83280.8155variant-last0.80120.86920.77990.88830.84340.7767variant-frenctly0.80120.86830.77510.87450.8320.7767instances-last0.79970.87260.77290.87260.8410.7762logrank 0.80530.99940.84350.99390.84500.8272
[0142]
表中logrank、logrank 、variant-last、variant-frenctly、in-last、logrank 分别代表六种不同的采样方法,由表3结果可知,logrank 采样方法在road traffic fine management process数据集、prepaid_travel_costs数据集、bpic_2012_a数据集、bpic_2012_o数据集预测准确率均有所提高,尤其是在prepaid_travel_costs数据集和bpic_
2012_a数据集中,准确率上升最为显著,而在helpdesk数据集和hospital billing数据集精度略有下降。
[0143]
下面为了进一步探究本实施例上述基于日志采样的业务流程下一事件预测方法在业务流程预测任务上的有效性与优越性,按照20%、30%采样率进行进一步实验,具体情况如下:
[0144]
表4不同采样方法、不同采样率预测下一事件准确率
[0145][0146]
在各采样率下,各采样方法完成预测任务中r值与采样率呈负相关关系,这是因为在整个预测任务中,采样阶段花费时间所占比重远低于预测阶段花费时间,而预测阶段中训练过程耗时较久,采样操作仅在训练集中进行,高采样率下训练集会保留更多的轨迹和事件,这就导致放大采样率的同时会使t

p
成倍增加,间接增加t
all
,降低比值r。图5、图6、图7为10%、20%、30%采样率下helpdesk、bpc_2012_a、bpc_2012_o、prepaid_travel_costs、hospital、rtfm数据集采样训练深度学习模型所耗时间之比图中结果也显示基于日志采样的业务流程下一事件预测方法在各采样率下r值均最高,实验进一步表明该方法有效大幅度提升模型预测效率。
[0147]
说明先对事件日志进行采样再使用深度学习网络模型完成下一事件预测任务这一方法切实可行,表明在下一事件预测任务中,单纯依靠数据量大并不能使深度学习网络模型更好地学习日志中的特征信息,反而易受噪声信息干扰,在保留一定数量重要性较高轨迹和活动的情况下结合深度学习方法能更出色地完成预测任务。
[0148]
实施例2
[0149]
本实施例公开了一种基于日志采样的流程实例下一事件预测系统,如图8所示,包括数据获取和预处理模块、数据划分模块、日志采样模块、深度学习模型训练模块、预测结果输出模块和调整优化模块。
[0150]
所述数据获取和预处理模块具体执行如下操作:
[0151]
获取初始数据,即原始事件日志,在获取原始事件日志之后进行预处理,将原始事件日志中不相关属性剔除,只保留与事件预测相关的事件及事件的时间属性,获得用于预测业务流程下一事件的标准事件日志。
[0152]
所述数据划分模块具体执行如下操作:
[0153]
在预测流程实例下一事件的标准事件日志中,设定特定比例的训练集、验证集及测试集,获取标准事件日志的轨迹长度及其数量,计算训练集、验证集及测试集包含的轨迹数量,并以轨迹为单位按轨迹数量进行随机划分,将比例划分好的训练集、验证集及测试集分别保存到三个文档中。
[0154]
所述日志采样模块具体执行如下操作:
[0155]
通过训练集大小和期望提升的效率,提前设定采样率s,其中采样率越小得到的采样后数据集越小;
[0156]
通过logrank 算法,计算轨迹中各个事件的重要性以及直接跟随事件关系的重要性;
[0157]
通过计算事件日志中包含事件a的轨迹数量求得事件重要性,事件重要性的公式为:
[0158][0159]
式中,a为事件,l为事件日志,|l|为事件日志包含轨迹数,sig(a)为事件a的重要性,σi表示事件日志l中的第i条轨迹;
[0160]
通过计算包含直接跟随事件关系《a,b》的轨迹数量计算直接跟随事件关系的重要性,直接跟随事件关系的重要性公式为:
[0161][0162]
式中,a、b为事件,《a,b》为直接跟随事件关系,sig(a,b)为直接跟随事件关系的重要性;
[0163]
根据得到的各个事件的重要性及直接跟随事件关系的重要性,得到事件日志中每条轨迹的重要性,计算轨迹重要性的公式如下:
[0164][0165]
式中,sig(σ)为轨迹重要性,sig(σ)的数值越大代表轨迹越重要;
[0166]
对训练集中所有轨迹按轨迹重要性从高到低排序,按照设定的采样率s选取训练
集前s条轨迹,得到采样后的训练集。
[0167]
所述深度学习模型训练模块具体执行如下操作:
[0168]
将获得的采样后训练集的事件日志进行轨迹前缀的提取和拷贝,并将轨迹前缀输入深度学习网络模型中特征提取阶段进行特征提取,得到轨迹的特征及事件信息,对轨迹前缀进行下一事件预测,并计算准确率acc;其中,预测下一事件的结果有四种不同类型,分别为真阳性(true positive,tp)、假阳性(false positive,fp)、真阴性(true negative,tn)、假阴性(false negative,fn),本文选定准确率(acc)作为衡量算法评价指标,其计算方式如下:
[0169][0170]
通过计算轨迹前缀下一事件预测结果在验证集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明下一事件预测结果越准确;
[0171]
计算深度学习网络模型的交叉熵损失和轨迹前缀下一事件预测的准确率,通过验证集进行交叉验证,提高预测准确率,得到训练和验证好的深度学习网络模型;
[0172]
评价流程实例下一事件预测方法的优劣不仅需要评估其预测的准确性,还需要从时间花费角度进行分析;为评估预测效率,设定采样后的训练、验证时间和事件日志采样时间与采样前训练、验证时间之比r作为评估时间性能的指标;设原始数据集中未经采样训练和验证耗时为t
p
,采样阶段耗时为ts,在采样后的数据集中训练和验证耗时为t

p
,t
all
为每次训练、验证和采样的平均总耗时,为减少模型训练、验证和采样时带来的误差,取5次计算平均数,其计算方式为:
[0173][0174]
式中,j为采样和训练、验证模型的次数;评估时间性能的指标r的计算方式为:
[0175][0176]
其中,r越大代表事件日志采样后的预测效率越高。
[0177]
所述预测结果输出模块具体执行如下操作:
[0178]
将未经过采样的测试集输入到训练和验证好的深度学习网络模型中,测试模型最终的效果,通过计算在测试集中的准确率acc,能够反映出预测结果的准确性,acc越大,说明预测越准确。
[0179]
所述调整优化模块具体执行如下操作:
[0180]
根据获得的测试集的预测准确率和训练、验证预测准确率及采样后的训练、验证时间与事件日志采样时间之和与采样前训练、验证时间之比对模型进一步调整,通过调整batch_size和iteration参数减少深度学习网络模型训练时间、调整采样率控制训练集大小,得到最优的深度学习网络模型,后续将下一事件预测任务输入该最优的深度学习网络模型,即可得到准确的预测结果。
[0181]
综上所述,在采用以上方案后,本发明为业务流程下一事件预测任务提供了新的方法与系统,在完成下一事件预测任务的同时,提高了预测效率,具有实际推广价值,值得
推广。
[0182]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献