一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于轨迹聚类的异质流程日志采样方法与系统与流程

2022-02-22 19:33:59 来源:中国专利 TAG:


1.本发明涉及对事件日志的过程挖掘的技术领域,尤其是指一种基于轨迹聚类的异质流程日志采样方法与系统。


背景技术:

2.过程挖掘是一个活跃的研究学科,旨在从事件日志中提取关于业务过程的信息,过程发现允许从事件日志中提取过程模型,并且已有很多过程发现方法,但是这些方法仅仅只是将事件日志作为输入,并在不使用任何先验信息的情况下生成过程模型,然而,在面对大规模事件日志时,大多数现有的过程发现方法并不能正确处理大规模事件日志中的信息,而且会导致发现过程模型的低效率。目前应对大规模事件日志的一个有效策略是使用mapreduce重新实现发现方法,使它们可扩展到大规模数据集。然而,重新实现的过程非常耗时,需要开发人员对底层的发现方法有广泛的了解,此外,重新实现技术是专门为特定方法定制的,不能一概而论,因此事件日志采样技术被提出,事件日志采样技术不是重新实现现有的发现方法,而是提供了一种提高发现效率的替代方法。
3.已有的事件日志采样技术有很多,比如基于图排序的logrank事件日志采样算法,基于轨迹相似度计算的logrank 事件日志采样技术,在确保了采样质量的前提下,大幅度地提高了采样效率。
4.已有的事件日志采样技术虽然能大幅度地提高过程发现的效率,但却局限于假定日志是同质的,即日志来源于或者对应单一的业务过程。然而,考虑到业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点。异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志。传统的采样方法如logrank、logrank 等都是基于排序的算法,首先选择的是具有代表性特征(如轨迹的长度、直接跟随活动关系、轨迹的频次等)的轨迹,在处理异质事件日志时,样本日志无法包含原始日志中的大部分行为,因此得到的样本日志质量精度相对较低。
5.本发明中的一种基于轨迹聚类的异质流程日志采样方法用已有的轨迹聚类方法将原始事件日志预处理得到一组同质子日志,再分别对每个子日志选择已有的日志采样技术处理得到样本子日志,合并为最终的样本日志,通过将最终的样本日志对应的过程模型与原始日志作合规性检查,从基于拟合度、准确度的综合指标f-measure值评估样本日志的质量。


技术实现要素:

6.本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于轨迹聚类的异质流程日志采样方法,突破传统的过程发现方法不能处理大规模事件日志或者可能导致发现过程处理效率低下的问题,解决了已有的事件日志采样技术在处理异质性事件日志时得到的采样质量低等问题,提高了采样技术的准确性。
7.本发明的第二目的在于提供一种基于轨迹聚类的异质流程日志采样系统。
8.本发明的第一目的通过下述技术方案实现:一种基于轨迹聚类的异质流程日志采样方法,包括以下步骤:
9.1)将异质事件日志根据已有的轨迹聚类方法进行聚类处理后得到一组同质子日志;
10.2)对步骤1)获取的子日志使用已有的事件日志采样技术进行采样得到样本子日志;
11.3)对步骤2)获得的样本子日志进行合并整合得到最终的样本日志;
12.4)对步骤3)获得的样本日志通过传统的过程挖掘算法得到过程模型与原始日志作合规性检查,测量拟合度和准确度,计算两者的综合指标f-measure值,评估通过轨迹聚类方法和采样技术得到的样本日志质量;
13.在步骤1)中,所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等;
14.在步骤2)中,结合步骤1)中得到的一组同质子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于logrank的事件日志采样技术、基于logrank 的事件日志采样技术等;
15.在步骤3)中,根据步骤2)得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志;
16.在步骤4)中,将步骤3)得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标f-measure值从而衡量样本日志的质量,所谓的f-measure是拟合度和精确度的调和平均值,计算公式如下:
[0017][0018]
其中,fitness(l,m)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(l,m)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事
件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
[0019]
本发明的第二目的通过下述技术方案实现:一种基于轨迹聚类的异质流程日志采样系统,包含轨迹聚类模块、事件日志采样模块、样本子日志合并模块、样本质量评估模块;
[0020]
所述轨迹聚类模块,用于将异质事件日志经过轨迹聚类方法处理后得到一组同质的聚类子日志;
[0021]
所述事件日志采样模块,用于对经过轨迹聚类模块处理后的聚类子日志进行事件日志采样技术采样,得到采样后的样本子日志;
[0022]
所述样本子日志合并模块,用于分别遍历一组样本子日志中的轨迹,将其添加到一个新的事件日志中即为最终的样本子日志;
[0023]
所述样本质量评估模块用于评估样本日志的质量,将样本日志通过过程挖掘算法得到的过程模型与原始日志做合规性检查,计算拟合度、准确度等综合评估指标f-measure值从而衡量样本日志的质量。
[0024]
优选的,所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指是在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等。
[0025]
优选的,所述事件日志采样模块具体执行如下操作:
[0026]
根据轨迹聚类模块处理后得到聚类子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于logrank的事件日志采样技术、基于logrank 的事件日志采样技术等。
[0027]
优选的,所述样本子日志合并模块具体执行如下操作:
[0028]
根据事件日志采样模块得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志。
[0029]
优选的,所述样本质量评估模块具体执行如下操作:
[0030]
根据样本子日志合并模块得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标f-measure值从而衡量样本日志的质量,所谓的f-measure值是拟合度和精确度的调和平均值,计算公式如下:
[0031][0032]
其中,fitness(l,m)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(l,m)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量
化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
[0033]
本发明与现有技术相比,具有如下优点与有益效果:
[0034]
1、本发明首次实现了对于大规模的异质性事件日志,采用较以往更准确的业务流程事件日志采样方法对其采样,选择一个具有高质量的样本日志,提高了传统采样技术的准确度。
[0035]
2、本发明首次将轨迹聚类方法运用到事件日志采样技术之中,通过轨迹聚类方法进行处理后的日志将能更好地进行采样,避免了重要性特征信息的丢失,为过程挖掘领域提供了一种新的采样思想。
[0036]
3、本发明可以应用到诸多领域,比如医疗、物流、制造业等,通过对特定的事件日志有效处理,能得到一个更加准确的过程模型,从而更有利于后续的分析。
[0037]
4、本发明方法在对异质事件日志进行过程发现方面具有广泛的使用空间,实用性强,在过程发现、一致性检查等诸多过程挖掘领域有广阔前景。
附图说明
[0038]
图1为本发明逻辑流程示意图。
[0039]
图2为本发明的prom工具插件实现方法界面图。
[0040]
图3为本发明的prom工具插件轨迹聚类方法界面图。
[0041]
图4为本发明的prom工具插件日志采样方法界面图。
[0042]
图5为本发明用例原始事件日志图。
[0043]
图6为本发明用例采样事件日志图。
[0044]
图7为本发明过程发现算法inductive miner界面图。
[0045]
图8为本发明质量评估指标fitness界面图。
[0046]
图9为本发明质量评估指标precision界面图。
[0047]
图10为本发明系统架构图。
具体实施方式
[0048]
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0049]
实施例1
[0050]
如图1所示,本实施例公开了一种基于轨迹聚类的异质流程日志采样方法,该方法已经在prom工具以插件的方式实现,如图2所示;该方法首先使用已有的轨迹聚类方法将原始事件日志预处理得到一组同质子日志,再分别对每个子日志选择已有的日志采样技术处理得到样本子日志,合并为最终的样本日志,通过将最终的样本日志对应的过程模型与原始日志作合规性检查,从基于拟合度、准确度的综合指标f-measure值来说明此方法的可行性与准确性,具体包括以下步骤:
[0051]
1)将一个异质事件日志根据已有的轨迹聚类方法进行聚类处理后得到一组同质子日志。其中,所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等;
[0052]
采用上述步骤,事件日志l=[《a,b,d,e》
10
,《a,c,e》
15
,《b,c》5,《b,d》
10
,《a,b,m,e》
20
,《a,c,d,m,e》
20
,《a,c,x,y》5,《a,d,e,x》
25
,《a,b,c,y》
10
],在prom工具中如图5所示;在事件日志l中,轨迹《a,b,d,e》
10
,《a,c,e》
15
,《b,c》5,《b,d》
10
来自一个过程模型,轨迹《a,b,m,e》
20
,《a,c,d,m,e》
20
来自同一个过程模型,《a,c,x,y》5,《a,d,e,x》
25
,《a,b,c,y》
10
则来自另一个过程模型,先通过已有的轨迹聚类方法(如图3所示)如基于向量空间的轨迹聚类方法k-means将事件日志l经过聚类处理得到一组(三个)同质的子日志l1,l2,l3,其中l1=[《a,b,d,e》
10
,《a,c,e》
15
,《b,c》5,《b,d》
10
],l2=[《a,b,m,e》
20
,《a,c,d,m,e》
20
],l3=[《a,c,x,y》5,《a,d,e,x》
25
,《a,b,c,y》
10
]。
[0053]
2)获取的子日志使用已有的事件日志采样技术进行采样得到样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于logrank的事件日志采样技术、基于logrank 的事件日志采样技术等;
[0054]
采用上述步骤,分别对三个子日志l1=[《a,b,d,e》
10
,《a,c,e》
15
,《b,c》5,《b,d》
10
],l2=[《a,b,m,e》
20
,《a,c,d,m,e》
20
],l3=[《a,c,x,y》5,《a,d,e,x》
25
,《a,b,c,y》
10
]进行事件日志采样技术处理,如图4所示,这里使用的采样技术为logrank ,采样率为20%,得到三个样本子日志sl1=[《a,b,d,e》2,《a,c,e》3,《b,c》,《b,d》2],sl2=[《a,b,m,e》4,《a,c,d,m,e》4],sl3=[《a,c,x,y》,《a,d,e,x》5,《a,b,c,y》2]。
[0055]
3)获得的样本子日志进行合并整合得到最终的样本日志,根据步骤2)得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志;
[0056]
采用上述步骤,分别对三个样本子日志sl1=[《a,b,d,e》2,《a,c,e》3,《b,c》,《b,d》2],sl2=[《a,b,m,e》4,《a,c,d,m,e》4],sl3=[《a,c,x,y》,《a,d,e,x》5,《a,b,c,y》2]进行轨迹遍历,将每条轨迹都添加到一个新的事件日志sl中,如图6所示,即sl=[《a,b,d,e》2,《a,c,e》3,《b,c》,《b,d》2,《a,b,m,e》4,《a,c,d,m,e》4,《a,c,x,y》,《a,d,e,x》5,《a,b,c,y》2]。
[0057]
4)将步骤3)得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标f-measure值从而衡量样本日志的质量,所谓的f-measure值是拟合度和精确度的调和平均值,计算公式如下:
[0058][0059]
其中,fitness(l,m)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(l,m)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为;
[0060]
采用上述步骤,将样本日志sl=[《a,b,d,e》2,《a,c,e》3,《b,c》,《b,d》2,《a,b,m,e》4,《a,c,d,m,e》4,《a,c,x,y》,《a,d,e,x》5,《a,b,c,y》2]通过过程挖掘算法inductive miner(如图7所示)得到的过程模型model_sl与原始日志做一致性检查,计算其拟合度(如图8所示)、准确度(如图9所示),得到拟合度fitness=1,准确度precision=0.7143,然后根据上述公式得到f-measure=0.833,f-measure值在0到1之间,f-measure值越大说明样本的质量越好,由f-measure值可以看出,通过此方法得到的样本日志是高质量的;
[0061]
实施例2
[0062]
本实施例公开了一种基于轨迹聚类的异质流程日志采样系统,系统架构图如图10所示,包含轨迹聚类模块、事件日志采样模块、样本子日志合并模块、样本质量评估模块;
[0063]
所述轨迹聚类模块,用于将异质事件日志经过轨迹聚类方法处理后得到一组同质的聚类子日志;
[0064]
所述事件日志采样模块,用于对经过轨迹聚类模块处理后的聚类子日志进行事件日志采样技术采样,得到采样后的样本子日志;
[0065]
所述样本子日志合并模块,用于分别遍历一组样本子日志中的轨迹,将其添加到一个新的事件日志中即为最终的样本子日志;
[0066]
所述样本质量评估模块,用于评估样本日志的质量,将样本日志通过过程挖掘算法得到的过程模型与原始日志做合规性检查,计算拟合度、准确度等综合评估指标f-measure值从而衡量样本日志的质量。
[0067]
所述异质事件日志是指由于业务的复杂性和执行过程中的变化,同一事件日志中的轨迹通常呈现出异质的特点,异质事件日志的来源多样,如由同一个复杂的过程模型生成的轨迹行为差异很大,或者由于实际中的过程模型在业务过程执行期间是动态调整的,从而发生漂移变更生成异质事件日志;所述轨迹聚类方法是指在数据挖掘等领域中相关聚类方法的基础上,将事件日志进行一系列的转换处理,利用已有的聚类算法进行聚类,已有的轨迹聚类方法有很多,比如基于向量空间的轨迹聚类方法、上下文感知的轨迹聚类方法、基于模型的序列聚类方法等。
[0068]
所述事件日志采样模块具体执行如下操作:
[0069]
根据轨迹聚类模块处理后得到聚类子日志,分别使用事件日志采样技术进行处理得到一组样本子日志,所谓的事件日志采样技术是指将一个原始事件日志作为输入,根据事件日志中的代表性特征(如轨迹的长度、轨迹的频次)选择一些特定的轨迹组成新的事件
日志即为样本日志,样本日志是原始事件日志的代表性子集,样本日志比原始日志小得多,处理效率也更高,已有的事件日志采样技术有很多,比如基于logrank的事件日志采样技术、基于logrank 的事件日志采样技术等。
[0070]
所述样本子日志合并模块具体执行如下操作:
[0071]
根据事件日志采样模块得到的一组样本子日志进行轨迹遍历,把每条轨迹都添加到一个新的事件日志中即为最终的样本日志。
[0072]
所述样本质量评估模块具体执行如下操作:
[0073]
根据样本子日志合并模块得到的样本日志与原始日志做实验评估:将样本日志通过过程挖掘算法得到一个过程模型,比较此过程模型与原始日志的拟合度、准确度等综合评估指标f-measure值从而衡量样本日志的质量,所谓的f-measure值是拟合度和精确度的调和平均值,计算公式如下:
[0074][0075]
其中,fitness(l,m)为从样本日志中发现的过程模型相对于原始日志的拟合度,precision(l,m)为从样本日志中发现的过程模型相对于原始日志的精确度。拟合度和精确度的解释如下:a、拟合度量化了过程模型能够准确再现事件日志中记录轨迹的程度,它量化了过程模型重新生成事件日志中记录轨迹的能力。拟合度为1表示过程模型可以重新生成事件日志中的所有轨迹,低拟合度表明事件日志中的大部分行为不能被过程模型重演;b、精确度量化在过程模型中能够重演但在事件日志中看不到的部分行为,它度量过程模型只生成事件日志中记录轨迹的能力。精确度为1表示过程模型生成的所有轨迹都包含在事件日志中,低精确度意味着过程模型允许事件日志外更多的行为。
[0076]
综上所述,在采用以上方案后,本发明为现有的采样方法在处理异质事件日志时导致的采样精度低问题提供了新的方法与系统,能够有效地通过轨迹聚类和事件日志采样技术获取高质量的样本日志,极大地提升了采样技术的准确性,具有实际推广价值,值得推广。
[0077]
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献