基于改进象群算法的时间序列高斯分割方法与流程

2022-12-07 01:41:14 来源：中国专利 TAG：

1.涉及时间序列领域，具体涉及分割时间序列。

背景技术：

2.时间序列由于其独特的有序性以及相关性，成为广大学者感兴趣的研究对象。时间序列的研究包括方方面面，时序分割、相似性度量、时序聚类、数据挖掘、时序预测、时序压缩等等。其中，时间序列分割指切分时序数据，使它们互不重叠，子序列内的数据具有某种性质。通过分割得到时间序列具有的不同特征，同时得到了该系列更为紧凑的表达形式。故时间序列分割是较为基础的一个操作步骤，其结果可以支持各种任务，如索引、预测、聚类、分类、规则发现和压缩等，因此，研究时间序列的分割是很有实际意义的一件事情。
3.现有的时间序列分割研究成果包括很多的方法。基于模型的，如线性模型、隐马尔可夫模型、自回归移动平均模型、动态因子模型等。这些方法主要通过假定时间序列满足一定的要求来对时间序列分割，使分割后的序列片段具有该模型的一些特性。
4.基于优化的分割方法，如使用蚁群、粒子群和遗传算法等进行分割。此类方法一般将优化算法作为一种手段，最优分割片段对应最优目标函数。刘会彬通过总结交通行车数据的特性，提出窗口式蚁群序列分割算法，并为解决时间效率问题，引入分治思想，该方法能够大大提升时间效率。dur
á
n-rosal等人基于粒子群算法提出了一种新的时间序列分割算法，该算法通过最小化每段线性插值的逼近误差来减少时间序列的点数，并与其他最先进的算法进行比较来验证该方法的适用性。pwint等人将语音分割问题描述为一个优化问题，并利用遗传算法检测语音片段的边界，实现了一种在噪声环境下自动分割语音信号的方法。
5.基于聚类的方法，如模糊聚类、k-means聚类、gath-geva聚类等。此类方法旨在得到更相似的片段。song等人针对隧道掘进机数据设计了同时考虑属性函数关系和数据空间距离的模糊c-均值聚类的目标函数，并引入数据的序列关系，以获得最优的分割结果。tseng等人用遗传算法找分割点，用k-means方法对子序列聚类，用离散小波变换将长度不等的子序列转化为长度相等的，这种方法可以自适应的得到分割。吴大华等人针对文献只考虑了类内距离而进行了改进，使时间序列的分割效果变得更好。王妮妮针对大多数时间序列分割算法将参数估计和分割段数独立求解、gath-geva聚类对初始值敏感等缺点进行了改进，改进后的方法结果较优。
6.以上方法基本都研究的相对完善。而hallac等人提出的方法涉及优化和时间序列分割的最新进展。假设每个时间点下的时间序列变量相互独立服从高斯分布，并通过贪婪算法最大化每个时间序列片段的可能性进而得到最优的序列分割。然而，该算法可能无法获得最优解。lim等人针对该缺陷提出了改进的遗传算法对时间序列进行分割，并通过四项数据集进行了实验验证，能够较好的找到时间序列的最优分割。但是该方法仍旧存在当数据较大时运行效率不高的缺陷。此外，上述对时间序列的高斯分割模型的求解目前还处于比较空白的阶段。

技术实现要素：

7.针对现有技术中对时间序列的高斯分割模型的求解目前还处于比较空白的阶段的问题，本发明提供的技术方案为：
8.基于改进象群算法的时间序列高斯分割方法，所述方法包括：
9.步骤1：初始化时间序列，作为初始群体；
10.步骤2：采集所述初始群体内所有时间序列中的变量的适应度函数值、每个时间序列中的片段的分割点位置位置以及群体适应度函数值最大的变量位置；
11.步骤3：对所述群体进行迭代操作；
12.步骤4：采集预设个数的、适应度值最接近预设最优适应度值的时间序列中的变量的位置；
13.步骤5：对当前群体执行时间序列中的片段更新算子，更新每个时间序列中的片段中的分割点位置位置；
14.步骤6：对当前群体执行时间序列中的片段分离算子，更新每个时间序列中的片段中的时间序列中的变量位置；
15.步骤7：对当前群体执行群体分离，更新每个时间序列中的片段中时间序列中的变量的适应度值；
16.步骤8：根据步骤4采集的位置，更新当前群体中最优长老的位置；
17.步骤9：判断当前迭代次数是否达到预设最大迭代次数，若达到，则输出当前最优位置值和最优适应度函数值；若未达到，则重复步骤4至步骤9；
18.步骤10：根据对数似然分割准则分割所述时间序列。
19.进一步，提供一个优选实施例，所述步骤5具体为：
20.包括：
21.步骤5.1：计算时间序列中的片段i中时间序列中的变量j每一维度的更新位置；
22.步骤5.2：判断时间序列中的片段i中时间序列中的变量j是否与时间序列中的片段i的分割点位置一致；
23.若一致，则根据变量j的当前位置更新片段i的分割点位置；
24.步骤5.3：根据步骤5.1和步骤5.2，对时间序列中所有片段内的所有变量完成位置更新。
25.进一步，提供一个优选实施例，步骤5.1中，计算时间序列中的片段i中时间序列中的变量j每一维度的更新位置的方法为：通过公式：
[0026][0027]
其中，表示片段i中第j个变量更新后的位置，x
i，j
表示片段i中第j个变量的位置，表示所有变量中适应度函数值最优的变量的位置，表示所有变量中适应度函数值最优的变量对其他变量的影响，并加入一定扰动性，表示片段i中适应度函数值最优的变量对其他变量的影响，并加入一定扰动性，levy(λ)表示变异机制；
[0028]
步骤5.2中，根据变量j的当前位置更新片段i的分割点位置的方法为：通过公式：
[0029]
和
[0030]
其中，表示片段i中适应度函数值最优的变量的更新位置，ni表示片段i中变量的个数，表示片段i的中心位置或者是均值位置，β∈[0，1]表示片段i中适应度函数值最优的变量的更新位置受片段i的中心位置或者是均值位置的影响程度。
[0031]
进一步，提供一个优选实施例，所述步骤6具体为：
[0032]
包括：
[0033]
步骤6.1：计算片段i内的变量的适应度函数值；
[0034]
步骤6.2：更新片段i中适应度函数值最差的变量的位置，并计算更新位置后的变量的适应度函数值；
[0035]
步骤6.3：对每个片段执行步骤6.1至6.2，对时间序列中所有片段内的所有变量完成位置更新。
[0036]
进一步，提供一个优选实施例，所述步骤6.1中，计算片段i内的变量的适应度函数值的方法为：根据公式：
[0037][0038]
其中，表示简化的对数似然函数，k表示分割点个数，k表示时间序列片段的序号，sk表示第k个时间序列片段，∑k表示第k个协方差，λ表示正则化系数，表示对第k个协方差的逆进行取迹运算；
[0039]
所述步骤6.2中，更新片段i中适应度函数值最差的变量的位置的方法为：通过公式：
[0040][0041]
其中，表示片段i中适应度函数值最差的变量的更新位置，x
min
表示变量可选位置的最小值，x
max
表示变量可选位置的最大值，t表示时间序列长度；
[0042]
计算更新位置后的变量的适应度函数值的方法为：通过公式：
[0043][0044]
进一步，提供一个优选实施例，所述步骤7具体为：
[0045]
包括：
[0046]
步骤7.1：采集预设个数的、适应度值最接近预设最低适应度值的时间序列中的变量的位置，记作待分离变量位置；
[0047]
步骤7.2：根据其余变量位置更新所述待分离变量位置，并计算其适应度函数值。
[0048]
进一步，提供一个优选实施例，所述步骤1中，初始化时间序列的具体方法为：
[0049]
步骤1.1：初始化时间序列片段数量及每个片段内变量的个数和影响参数；
[0050]
步骤1.2：随机初始化时间序列内所有变量的位置，每个变量有k个维度，各个维度值互补相同、按照从小到大顺序排列。
[0051]
进一步，提供一个优选实施例，所述步骤1.2中，随机初始化时间序列内所有变量的位置的方法具体为：通过公式：
[0052][0053]
其中，表示片段i中适应度函数值最差的变量的更新位置，x
min
表示变量可选位置的最小值，x
max
表示变量可选位置的最大值，t表示时间序列长度；
[0054]
基于同一发明构思，本发明还提供了计算机储存介质，用于储存计算机程序，当所述储存介质中储存的计算机程序被计算机的处理器读取时，所述计算机执行所述的基于改进象群算法的时间序列高斯分割方法。
[0055]
基于同一发明构思，本发明还提供了计算机，包括处理器和储存介质，所述储存介质中包含有计算机程序，当所述储存介质中储存的计算机程序被计算机的处理器读取时，所述计算机执行所述的基于改进象群算法的时间序列高斯分割方法。
[0056]
本发明的有益之处在于：
[0057]
本发明提供的基于改进象群算法的时间序列高斯分割方法，既考虑到局部最优值的影响，也考虑到了全局最优值的影响，并且充分利用了levy飞行长短距离雨露均沾的特点，不仅能够让大象个体向最优的方向靠拢，还能扩大寻优范围，易跳出局部极值，加快收敛；
[0058]
本发明提供的基于改进象群算法的时间序列高斯分割方法，在分割数目较大时虽然不能够达到遗传算法那样的最优效果，但是不会影响最优分割数目的选择，并且不论eho算法和改进eho算法在分割点数较大时能否达到最优，都可以识别最优分割点数，进而可以很好的分割时间序列数据。
[0059]
适合应用在时间序列的分割中。
附图说明
[0060]
图1为实施方式一提到的基于改进象群算法的时间序列高斯分割方法中步骤一至步骤九的流程图示意图；
[0061]
图2为实施方式十一提到的几种算法对gesture第一维数据实验的适应度值随迭代变化图，其中ga为遗传算法，eho为象群算法，改进eho为改进象群算法；
[0062]
图3为实施方式十一提到的gesture第一维数据的分割结果；
[0063]
图4为实施方式十一提到的对数似然值随分割数的变化图；
[0064]
图5为实施方式十一提到的ga、eho和改进eho方法下3种分割数评估标准的结果图；其中上面的图为ga方法下3种评估标准的结果图，中间的图为eho方法下3种评估标准的结果图，下面的图为改进eho算法下3种评估标准的结果图；
[0065]
图6为实施方式十一提到的bic对应的gesture的第一维数据的时序分割图；
[0066]
图7为实施方式十一提到的pscada中的la数据的分割结果；
[0067]
图8为实施方式十一提到的几种算法对pscada中的la数据实验的适应度值；其中上面的图片为全局变化图，下面的图片为左侧局部放大图；
[0068]
图9为实施方式十一提到的对数似然值随分割数的变化图；
[0069]
图10为实施方式十一提到的ga、eho和改进eho方法下3种分割数评估标准的结果图；其中，上面的图为ga方法下3种评估标准的结果图，中间的图为eho方法下3种评估标准的结果图，下面的图为改进eho方法下3种评估标准的结果图；
具体实施方式
[0070]
为使本发明提供的技术方案的优点和有益之处体现得更清楚，现结合附图对本发明的技术方案进行进一步详细地描述，具体的：
[0071]
实施方式一、结合图1说明本实施方式，本实施方式提供了基于改进象群算法的时间序列高斯分割方法，所述方法包括：
[0072]
步骤1：初始化时间序列，作为初始群体；
[0073]
步骤2：采集所述初始群体内所有时间序列中的变量的适应度函数值、每个时间序列中的片段的分割点位置位置以及群体适应度函数值最大的变量位置；
[0074]
步骤3：对所述群体进行迭代操作；
[0075]
步骤4：采集预设个数的、适应度值最接近预设最优适应度值的时间序列中的变量的位置；
[0076]
步骤5：对当前群体执行时间序列中的片段更新算子，更新每个时间序列中的片段中的分割点位置位置；
[0077]
步骤6：对当前群体执行时间序列中的片段分离算子，更新每个时间序列中的片段中的时间序列中的变量位置；
[0078]
步骤7：对当前群体执行群体分离，更新每个时间序列中的片段中时间序列中的变量的适应度值；
[0079]
步骤8：根据步骤4采集的位置，更新当前群体中最优长老的位置；
[0080]
步骤9：判断当前迭代次数是否达到预设最大迭代次数，若达到，则输出当前最优位置值和最优适应度函数值；若未达到，则重复步骤4至步骤9；
[0081]
步骤10：根据对数似然分割准则分割所述时间序列。
[0082]
实施方式二、本实施方式是对实施方式一提供的基于改进象群算法的时间序列高斯分割方法的进一步限定，所述步骤5具体为：
[0083]
包括：
[0084]
步骤5.1：计算时间序列中的片段i中时间序列中的变量j每一维度的更新位置；
[0085]
步骤5.2：判断时间序列中的片段i中时间序列中的变量j是否与时间序列中的片段i的分割点位置一致；
[0086]
若一致，则根据变量j的当前位置更新片段i的分割点位置；
[0087]
步骤5.3：根据步骤5.1和步骤5.2，对时间序列中所有片段内的所有变量完成位置更新。
[0088]
实施方式三、本实施方式是对实施方式二提供的基于改进象群算法的时间序列高斯分割方法的进一步限定，步骤5.1中，计算时间序列中的片段i中时间序列中的变量j每一维度的更新位置的方法为：通过公式：
[0089][0090]
其中，表示片段i中第j个变量更新后的位置，x
i，j
表示片段i中第j个变量的位置，表示所有变量中适应度函数值最优的变量的位置，表示所有变量中适应度函数值最优的变量对其他变量的影响，并加入一定扰动性，表示片段i中适应度函数值最优的变量对其他变量的影响，并加入一定扰动性，levy(λ)表示变异机制；
[0091]
步骤5.2中，根据变量j的当前位置更新片段i的分割点位置的方法为：通过公式：
[0092]
和
[0093]
其中，表示片段i中适应度函数值最优的变量的更新位置，ni表示片段i中变量的个数，表示片段i的中心位置或者是均值位置，β∈[0，1]表示片段i中适应度函数值最优的变量的更新位置受片段i的中心位置或者是均值位置的影响程度。
[0094]
实施方式四、本实施方式是对实施方式一提供的基于改进象群算法的时间序列高斯分割方法的进一步限定，所述步骤6具体为：
[0095]
包括：
[0096]
步骤6.1：计算片段i内的变量的适应度函数值；
[0097]
步骤6.2：更新片段i中适应度函数值最差的变量的位置，并计算更新位置后的变量的适应度函数值；
[0098]
步骤6.3：对每个片段执行步骤6.1至6.2，对时间序列中所有片段内的所有变量完成位置更新。
[0099]
实施方式五、本实施方式是对实施方式四提供的基于改进象群算法的时间序列高斯分割方法的进一步限定，所述步骤6.1中，计算片段i内的变量的适应度函数值的方法为：根据公式：
[0100][0101]
其中，表示简化的对数似然函数，k表示分割点个数，k表示时间序列片段的序号，sk表示第k个时间序列片段，∑k表示第k个协方差，λ表示正则化系数，表示对第k个协方差的逆进行取迹运算；
[0102]
所述步骤6.2中，更新片段i中适应度函数值最差的变量的位置的方法为：通过公式：
[0103][0104]
其中，表示片段i中适应度函数值最差的变量的更新位置，x
min
表示变量可选位置的最小值，x
max
表示变量可选位置的最大值，t表示时间序列长度；
[0105]
计算更新位置后的变量的适应度函数值的方法为：通过公式：
[0106][0107]
实施方式六、本实施方式是对实施方式一提供的基于改进象群算法的时间序列高斯分割方法的进一步限定，所述步骤7具体为：
[0108]
包括：
[0109]
步骤7.1：采集预设个数的、适应度值最接近预设最低适应度值的时间序列中的变量的位置，记作待分离变量位置；
[0110]
步骤7.2：根据其余变量位置更新所述待分离变量位置，并计算其适应度函数值。
[0111]
实施方式七、本实施方式是对实施方式一提供的基于改进象群算法的时间序列高斯分割方法的进一步限定，所述步骤1中，初始化时间序列的具体方法为：
[0112]
步骤1.1：初始化时间序列片段数量及每个片段内变量的个数和影响参数；
[0113]
步骤1.2：随机初始化时间序列内所有变量的位置，每个变量有k个维度，各个维度值互补相同、按照从小到大顺序排列。
[0114]
实施方式八、本实施方式是对实施方式七提供的基于改进象群算法的时间序列高斯分割方法的进一步限定，所述步骤1.2中，随机初始化时间序列内所有变量的位置的方法具体为：通过公式：
[0115][0116]
其中，表示片段i中适应度函数值最差的变量的更新位置，x
min
表示变量可选位置的最小值，x
max
表示变量可选位置的最大值，t表示时间序列长度；
[0117]
实施方式九、本实施方式提供了计算机储存介质，用于储存计算机程序，当所述储存介质中储存的计算机程序被计算机的处理器读取时，所述计算机执行实施方式一至八任意一项提供的基于改进象群算法的时间序列高斯分隔方法。
[0118]
实施方式十、本实施方式提供了计算机，包括处理器和储存介质，所述储存介质中包含有计算机程序，当所述储存介质中储存的计算机程序被计算机的处理器读取时，所述计算机执行实施方式一至八任意一项提供的基于改进象群算法的时间序列高斯分隔方法。
[0119]
实施方式十一、结合图2-10说明本实施方式，本实施方式是对实施方式一提供的基于改进象群算法的时间序列高斯分隔方法提供一个具体的实施方式，同时也用于解释实施方式一至八，具体的：
[0120]
本实施方式中提到的部落即为时间序列中的片段，提到的大象即为时间序列中的
变量，提到的族长即为时间序列片段中适应度函数值最高的变量，提到的长老即为时间序列中适应度函数值最高的变量。
[0121]
象群算法的优化内容如下：
[0122]
象群游牧算法(elephant herding optimization，eho)是群优化算法，该方法在2016年提出以后，受到了很多研究学者的关注。作为一种元启发式算法，对大多数问题而言，它既能解决全局无约束优化问题，还具有快速的局部搜索能力，并且全局搜索能力也值得称赞。此外算法参数较少，内部结构一目了然，很适用于一些工程上的应用。该算法主要包含两个部分，即部落更新算子和部落分离算子。
[0123]
(1)部落更新算子
[0124]
部落内大象的行为和生活方式等会受到其族长的影响，影响方式如下
[0125][0126]
其中，i表示编号为i的部落，j表示编号为j的大象，x
i,j
表示部落i中的第j头大象原本的位置，即未更新的位置；表示部落i中的第j头大象更新后的位置；表示部落i中对应着最优的适应值的大象，是最好大象的位置，也就是部落i的族长的位置；α∈[0,1]是影响参数，表示部落i中的大象受族长的影响程度；r服从[0,1]的均匀分布，表示部落i中的大象受到的一些其他干扰；
[0127]
部落内的大象会受到该部落组长的影响，相应的，部落的组长也会受到该部落内大象的影响。由于部落内大象一起聚集生活，因此更倾向于用所有大象位置的均值对族长的位置进行更新，表示如下：
[0128][0129][0130]
其中，ni表示部落i中大象的个数，包括族长；表示部落i的中心位置或者是均值位置；部落i中最好大象的更新位置，也就是部落i族长的新位置；表示表示族长新位置受部落i的中心位置的影响程度，和α一样，也是一个影响参数；
[0131]
以上的位置x
i，j
，可以是一维的，也可以是多维的，每一维度都按照相同的方式进行计算。因此，该象群优化算法适用于一维和多维优化。
[0132]
(2)部落分离算子
[0133]
每个部落都有相应数量的雄象离开该部落，为了算法寻优的效果，让每个部落最差的大象离开部落，从而在全解范围内引进效果更好的解。
[0134][0135]
x
min
表示大象位置的最小值；x
max
大象位置的最大值；x
iworst
表示部落i中对应着最差适应值的大象位置，即最差大象的位置；表示部落i中最差大象的更新位置；rand
表示随机产生一个[0，1]之间的数，从而保证在位置边界之内。
[0136]
算法局限性
[0137]
象群优化算法的部落更新算子决定了搜索的方向，旨在完成更加细致的局部搜索，而部落分离算子更倾向于对全局搜索，使得全域里所有的解都可能成为最优解，这增加了种群的多样性。
[0138]
尽管象群优化算法的结构简单，操作便宜，但是还是较为容易陷入局部最优值，而且一旦陷入局部极值，需要很多次的迭代才能够跳出，或者直接无法跳出。这很大程度上是由于部落更新算子的局部寻优过程缺少更为合理的指导和变异机制。
[0139]
基于改进象群优化算法的时间序列高斯分割
[0140]
时间序列高斯分割模型，即分段高斯模型。对该模型的求解即对式(2-5)求解：
[0141][0142]
其中，表示简化的对数似然函数，k表示分割点个数，k表示时间序列片段的序号，sk表示第k个时间序列片段，∑k表示第k个协方差，λ表示正则化系数，表示对第k个协方差的逆进行取迹运算；
[0143]
本质上是一个优化问题。因此可以使用优化算法对其寻优。
[0144]
象群优化算法由于其参数少，结构简单易操作等特点常常应用于工程项目中，但是如果由于陷入局部最优值或者迭代次数过大而导致工程上的损失或者损耗过大，会造成严重的后果，因此，对象群优化算法进行改进是很有必要的。
[0145]
并且，对于给定的时间序列x＝{x1，
…
，x
t
}，其中其中，表示d维实数全集，由于时间序列的分割点是介于1到t之间的整数，因此，原本的象群优化算法并不能够完全适用于对时间序列高斯分割的求解上，在加上象群优化算法存在一定的不足，因此，本实施方式提出基于改进象群优化算法的时间序列高斯分割。
[0146]
算法改进
[0147]
适应于时间序列高斯分割的改进象群优化算法主要有3点改进或者是调整，如下所述。
[0148]
(1)部落更新算子的改进。
[0149]
由于象群优化算法中的部落更新算子只考虑了该部落族长对其内部大象的影响，而忽略了群体中最好的大象对个体的影响，并且搜索能力还有待提高，因此，对部落更新算子进行如下的改进：
[0150][0151]
其中表示所有大象中适应度函数值最优的大象位置，称为长老；表示部落i的族长对大象个体的影响，并加入了一定的扰动性；表示群体最优的长老对大象个体的影响，也加入了一定的扰动性，并
且大象个体受到影响最主要是来源于族长和长老，因此影响参数分别是α和1-α；考虑到其他的一些突发因素，因此加入levy(λ)的变异机制，使算法更容易跳出局部极值点；round表示对括号内的值进行四舍五入的运算，这样可以满足时间序列分割点是整数这一要求。
[0152]
上述的改进策略既考虑到局部最优值的影响，也考虑到了全局最优值的影响，并且充分利用了levy飞行长短距离雨露均沾的特点，不仅能够让大象个体向最优的方向靠拢，还能扩大寻优范围，易跳出局部极值，加快收敛。
[0153]
(2)部落分离算子的调整。
[0154]
为适用于对整数位置的寻优操作，对式(2-4)进行如下形式的调整。
[0155][0156]
其中，表示片段i中适应度函数值最差的变量的更新位置，x
min
表示变量可选位置的最小值，x
max
表示变量可选位置的最大值，t表示时间序列长度；
[0157]
由于分段高斯模型的分割点是左闭右开型的，故长度为t的时间序列其内部分割点t是可以取到的，故有式(2-7)的位置更新值，即从2,l,t之间选择整数位置。
[0158]
(3)群体分离。
[0159]
此外，为加快算法向着最优解靠拢，除了对每个部落中适应度函数值最差的个体进行分离操作更新位置以外，还可以在进行完部落更新算子和部落分离算子的操作之后，对大象整个群体进行排序，选择出一定数量的适应度函数值最差的个体进行分离，并将其更新为上一次迭代所保留的优秀个体的位置。
[0160]
基本流程
[0161]
以下为基于改进象群优化算法的时间序列高斯分割的基本步骤。
[0162]
表2-1基于改进象群算法的时间序列高斯分割方法中改进象群算法部分的基本流程
[0163][0164][0165]
图1为基于改进象群算法的时间序列高斯分割方法中改进象群算法部分的流程框图；分割数的选择
[0166]
对于时间序列分割而言，并不是越少的分割越好，少的分割无法将其中的模式分割出来；也并不是越多的分割越好，分割越多，冗余越多，造成时间和空间上的浪费越多；合理的时间序列分割数目，既可以得到有效的分割，又不会造成浪费，因此，分割数目的选择是一个值得探究的问题。本节提出一种选择时间序列分割数目的准则，将其称为对数似然分割准则(log likelihood segmentation criterion，lsc)，如下式所示：
[0167][0168]
上式中的表示整个时间序列分割后得到的正则化的对数似然函数值，k表示时间序列内部分割数。
[0169]
正则化的对数似然函数值会随着分割数目的增加而增长，但是考虑到并不是分割数目越多越好这一实际的应用标准，因此的值并不能够作为选择分割数目k的标准，但是衡量时间序列分割数目k确实需要考虑的影响。从变化率的角度来看，正则化的对数似然函数值的变化率会随着分割数目k的变大而变小，的变化率会随着分割数目k的变大而变大，因此式(2-8)一定会出现最大值，即此时分割数的增大不足以给
对数似然值带来显著的影响。故当前得到的分割数目k就可以作为该时间序列的最优分割数目。
[0170]
上面给出了式(2-8)作为最优分割数目衡量标准的原因，后续还会给出实验验证，并结合实际情况对该标准进行合理性说明，从而进一步验证式(2-8)的准确性。
[0171]
实验仿真与结果分析
[0172]
为了验证基于改进象群优化算法的时间序列高斯分割的效果以及有效性，本实施方式使用两种真实的数据进行实验验证。第一种是从uci机器学习资源库中获得的名为gesture的数据集，第二种是课题所在项目的pscada数据。
[0173]
gesture数据集的验证
[0174]
改进算法的实验验证
[0175]
gesture数据集共包括从七个视频中提取的人的手势特征。里面带有18个属性的原始数据，因此，是一个多维的时间序列数据。选取了第一维的属性数据，对一维时间序列进行实验验证。时间序列内部分割数目k＝4。
[0176]
从表2-2中的实验的效果对比可以看出，象群优化算法、遗传算法以及本实施方式提出的改进的象群优化算法都可以达到相同的最优分割，即当gesture第一维的属性数据以95，158，229，347分割时，可以达到一个最优的效果，后面给出为什么是k＝4时达到最优。此时的最有适应性函数值为599.510385826285。
[0177]
从达到最优的迭代数来看，使用本实施方式提出的改进象群优化算法来对时间序列分割，达到最优的迭代次数是最少的，而原象群优化算法是最多的，说明本实施方式提出的改进能够明显加快迭代，这对工程应用来说能够减少不必要的损耗。再者，从图2-2可以明显地看出本实施方式提出的方法迅速的达到最优值了，而原象群优化算法经过了很多次的攀升，并在局部极值处进行了很多次的迭代，虽然最终达到最优值的位置，但是经历了较多的迭代。而且，虽然图2-2中的遗传算法的适应度值迭代图看起来要优于本实施方式提出的，但是遗传算法的图看似在100次迭代之前就已经呈现横线趋势，但是其实还差一点。因此，可以说本实施方式提出的改进象群优化算法可以达到和遗传算法相持平的效果或者稍好于遗传算法，这也说明本实施方式提出的方法良好的性能。
[0178]
表2-2几种算法对gesture第一维数据实验的效果对比
[0179][0180][0181]
图2为几种算法对gesture第一维数据实验的适应度值随迭代变化图；
[0182]
就运行时间来看，进行1000次迭代，再加上初始化，本实施方式提出的方法的运行时间居中，象群算法的最短，但是他们三个也相差不大。如果按照比例计算初次达到最优值的时间，可以看出本实施方式提出的改进象群优化算法的时间最短。这说明该方法要优于另外两种方法。
[0183]
图3为gesture第一维数据的分割结果，是k＝4时gesture第一维数据的最优分割的时序分割图，可以看出每个分割出的时序片段都具有一定的模式，其中的时间序列模式是符合的，这说明使用高斯分割时间序列的有效性，此外，也说明分割数目的合理性。
[0184]
分割数的实验验证
[0185]
对本实施方式提出的时间序列分割数目k的选取准则进行实验验证，并与正则化的对数似然函数值的变化图、aic准则以及bic准则进行对比，分别在遗传算法、象群优化算法和本实施方式提出的改进算法下进行实验，对比说明本实施方式提出的时间序列分割数目k的选取准则是有效的。
[0186]
图4为对数似然值随分割数的变化图；是对数似然随分割数的变化图，其中绿色的点表示在这些时间序列分割点数下对应的对数似然值的最大值。从图中可以看出，对数似然值是随着分割数目k的增大不断增大的，因此，不能作为选择分割数目的依据，并且其变化率是不断减小的，证实了本实施方式在提出分割数目的选择准则时所述的理论。
[0187]
此外，图4的三条对数似然函数值曲线并不完全重合，在分割数少时是重合的，且最优分割数目包含在其中。象群优化算法首先变差从重合的曲线中分离出来，然后是本实施方式提出的改进方法，遗传算法是这三种方法中最优的，鲁棒性最好；在分割数逐渐变多时，由本实施方式提出的方法得到的对数似然函数值处于三种方法的中间，鲁棒性加强，因此要好于原象群优化算法。但是，进行80个不同分割数目的寻优过程，象群优化算法与本实施方式提出的方法所用的总时间要比遗传算法少得多，尤其是分割数目较大时，所用的时间会比遗传算法的时间更少。故而，本实施方式提出的方法在分割数目较大时虽然不能够达到遗传算法那样的最优效果，但是不会影响最优分割数目的选择，因此可以采用本实施方式提出的方法进行时间序列的高斯分割。
[0188]
图5为ga、eho和改进eho方法下3种分割数评估标准的结果图；是在遗传算法、象群优化算法和改进象群优化算法下，几种模型参数选择准则的结果图。三个图都是双y轴的图，其中的aic和bic是以左侧的y轴作为纵坐标的，lsc是以右侧的y轴为纵坐标的。从lsc评估值随分割数的变化图可以看出，三种方法下lsc评估值都是先上升再下降的，很明显具有最大值，即lsc这条线上的左上方的实心点，此时分割点数为4，说明此时正则化的对数似然值与分割数目之间具有明显的差距，选择此时的分割数目k更能够体现对数似然值与分割数目之间的矛盾；并且不论eho算法和改进eho算法在分割点数较大时能否达到最优，都可以识别最优分割点数，进而可以很好的分割时间序列数据。
[0189]
图6为bic对应的gesture的第一维数据的时序分割图；
[0190]
图5中另外两条虚线分别是aic准则和bic准则下，相应的值随分割数目k的变化图。这三种方法下aic是单调下降的状态，后面很可能会继续下降，但是当分割数为80时，每一段时间序列片段平均有5个数据点，已经很少了，如果后面随着分割数的增加出现aic准则对应的最优分割数目，时间序列片段的数据点只会更少，因此使用aic准则来确定最优分割数目不是很恰当；而由于eho和改进eho方法在分割点数较大时无法达到最优的效果，因此bic准则的曲线图在不同方法下的最优分割数目是不一致的。ga算法下bic准则在分割点数为38的时候出现了最小值，对应的时间序列分割如图6所示，可以看出，序列分割的很细，相邻的序列片段具有类似的特征，如时间顺序100左右、150左右、200左侧和200右侧等，并且有的片段仅有3个数据点，过于细的分割无法起到模式识别的作用，也不利于后面对数据
处理，因此，相比较而言，lsc准则合适一些。
[0191]
再加上前面对时间序列分割效果的解释说明，对比而言，本实施方式提出的时间序列分割数目的选取准则lsc具有很好的识别分割数目的效果，也进一步证实了本实施方式上一节选择分割点数k＝4是一个不错的决定。
[0192]
pscada数据集的验证
[0193]
改进算法的实验验证
[0194]
pscada数据集源自课题所在的项目，是多维的时序数据，共包括几十种属性数据，基本上都是一些电压、电流、功率等属性的值。相较于gesture数据而言，pscada数据具有一定的周期性，但是也并不是完全的周期性数据，具有进行实验验证的意义。同样，选取其中的一维的属性数据，电流la，对一维时间序列进行实验验证。经后面的实验验证，该时间序列的最优内部分割数目k＝5。
[0195]
表2-3几种算法对pscada中的la数据实验的效果对比
[0196][0197]
图7为pscada中的la数据的分割结果
[0198]
观察表2-3和图7，象群优化算法、遗传算法以及本实施方式提出的基于改进的象群优化算法都可以达到相同的最优分割以及对应的最优适应度函数值，其中最优分割为18，35，52，69，86，最优适应度函数值为386.109707579763，从图可以看出，这个内部分割点，确实将数据给分割开，并且分割后的时间序列数据片段具一定的模式或者形态特征，而对于pscada中数据而言，很好的将数据的周期性表现了出来。同时也说明了使用高斯分割来分割于时间序列，不论是具有一定周期性的数据还是不具有周期性的数据，都能产生好的效果，其性能值得称赞。
[0199]“达到最优的迭代数”包括初始化得到的最优适应性函数值。就这项指标而言，本实施方式提出的改进象群优化算法到达最优迭代次数是最少的，仅仅有13次，更准确的说应该是指进行了12次迭代，就到达了最优分割状态，而原象群优化算法的该项指标值为626，远远高于本实施方式提出的方法，这说明，对于具有一定周期性的数据而言，使用本实施方式提出的方法仍旧可以实现一个不错的时间序列分割。并且，作为使用广泛的遗传算法，其“达到最优的迭代数”都要比本实施方式提出的方法要高，也从另一个方面说明，本实施方式提出方法的适用性。
[0200]
就“运行时间”这一项指标，本实施方式提出的方法的使用时间是最长的，遗传算法的时间是最短的，象群优化算法的时间处于中间位置，因此本实施方式提出的方法在这一项指标的评价上不占据优势，但是由于达到最优分割状态的迭代次数很小，因此“达到最优值的时间”的值相比另外两种方法要小，尤其是比象群优化算法要小的多。如果减少迭代次数，本实施方式提出的方法就能实现总的时间比另外两种方法的要小。
[0201]
图8为几种算法对pscada中的la数据实验的适应度值；表示在分割数目k＝5时，ga算法、eho算法和本实施方式提出的改进eho算法试验下，正则化的对数似然函数图，上面的图表示全局图，下面的图是截取0到200次迭代时的局部放大图。可以看出，最先变慢的是遗传算法，但是由于eho算法陷入了局部极值，遗传算法快于eho算法。象群优化算法多次陷入局部极值，所以导致迭代次数达到600以上才找到最优值；遗传算法也存在陷入局部极值的情况，但是经过20多次迭代很快找到了最优值；而本实施方式提出的改进象群优化算法处于局部极值的时间以及迭代次数都很短，快速的找到了最优值。说明本实施方式提出的方法要优于遗传算法、优于象群优化算法。
[0202]
分割数的实验验证
[0203]
使用具有一定周期性的pscada数据集中la数据对本实施方式提出的时间序列分割数目k的选取准则进行实验验证，分别在遗传算法、象群优化算法和本实施方式提出的改进算法下进行实验，对比说明本实施方式提出的时间序列分割数目k的选取准则是有效的。
[0204]
图2-9表示几种算法下对数似然随分割数的变化图，其中绿色的点表示在这些时间序列分割点数下对应的对数似然值的最大值。从图中可以看出，对于具有一定周期性的数据而言，随着分割数目k的不断增大，对数似然值先增大，达到最大值之后开始逐渐减小，其中的最大对数似然值对应的分割点数，就是由式(2-13)、aic准则和bic准则共同确定的最优分割数目。因此对于周期性数据而言，对数似然函数值可以作为选择分割数目的依据，并且其最大值对应的分割数恰好证实了本实施方式提出的分割数目准则的有效性。
[0205]
图9为对数似然值随分割数的变化图；可以看出，对于不同的分割数目，遗传算法所得到的对数似然函数值都是最优的，没有什么波动性，鲁棒性很强；而象群优化算法并不能够在每个分割点数都达到最优的分割效果，并且其上下波动性很大，说明象群优化算法存在一定的缺陷，鲁棒性较差；而改进的象群优化算法在分割数目少时能够达到最优的分割效果，甚至比遗传算法还要稍好一点，在分割数目较多时，分割效果要稍差于遗传算法，而且其具有很小的波动性，说明其鲁棒性较强。因此，本实施方式提出的方法的分割效果要强于象群优化算法，和遗传算法不差上下。
[0206]
图10是遗传算法下，几种模型参数选择准则的结果图。三个图均是双y轴的图，其中的aic和bic是以左侧的y轴为纵坐标的，lsc是以右侧的y轴为纵坐标的。从ga算法和改进eho算法下lsc评估值随分割数的变化图可以看出，lsc评估值是先上升在下降的，将对数似然值的变化趋势扩大了，具有最大值，即lsc这条线上的实心点，此时分割点数为5，说明此时的正则化对数似然值的变化所带来的影响已经无法与分割数目的变化所带来的影响相提并论，因此此时的分割数目k更能够体现对数似然值与分割数目之间的矛盾，进而可以很好的分割时间序列数据；而eho算法的鲁棒性较差，导致3项评估值的波动性较大，无法为最优分割数目提供一定的依据。
[0207]
图10中的两条虚线分别是aic准则和bic准则下，相应的值随分割数目k的变化图，他们都是先单调下降再单调上升的变化趋势，改进eho算法和ga算法下这两种评估值的最小值对应的最优分割数目都是5，和lsc评估值确定的最优分割数目是一致的，因此可以证明本实施方式提出的lsc评估准则具有其合理性。
[0208]
综合上述的分析，对于具有周期性的数据而言，本实施方式提出的时间序列的分割数目的选取准则lsc具有很好的识别分割数目的效果，也进一步证实了本小节选择分割
点数k＝5是一个不错的决定。
[0209]
结论
[0210]
本实施方式主要提出了改进的象群优化算法，并将其应用到时间序列的高斯分割中，给出了其基本流程以及时间序列分割数目的选取准则，并相应的进行了实验验证。
[0211]
基于改进象群优化算法的时间序列高斯分割与基于遗传算法的和基于象群算法的进行了实验比对，选择gesture数据以及pscada数据进行实验，可以发现本实施方式提出的改进象群优化算法应用于时间序列的高斯分割可以得到一个很好的效果，并且强于象群算法，和遗传算法各有千秋。此外，实验表明，和常用的aic准则和bic准则相比，本实施方式提出的时间序列分割数目的选择准则lsc能得到一个好的结果，说明该准则的适用性。
[0212]
以上通过几个具体实施方式对本发明提供的基于改进象群算法的时间序列高斯分割方法做进一步详细地描述，不过以上所述的几个具体实施方式并不用于作为对本发明的限制，任意基于本发明的精神和原则范围内的，对本发明的修改和改进、实施方式的组合、改进和等同替换等，均应当包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：业务工单处理方法、服务器及存储介质与流程

基于改进象群算法的时间序列高斯分割方法与流程

相关文献

最热文献