一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于动态多视角个性化相似度测度的股票预测方法与流程

2021-10-19 23:45:00 来源:中国专利 TAG: 预测 股票 测度 视角 个性化


1.本发明涉及股票预测技术领域,更具体的涉及一种基于动态多视角个性化相似度测度的股票预测方法。


背景技术:

2.股票市场是一个非常重要的金融市场,对股票的预测也一直是许多投资者的兴趣所在。如今,预测股票的方法有很多,而其最常见的一种预测方法就是通过历史数据寻找相似的股票进行预测。如何充分考虑股票时间序列的特点,准确描述一对时间序列之间的相似性,是构建一种合理相似度测度的关键技术环节,目前仍有待进一步完善。
3.目前现有的相似度测度,在技术方面主要存在以下缺点:
4.(1)不能消除奇异点的影响。奇异点的存在对相似度测量来说,却会极大地影响相似度的计算结果,使得原本极走势相似的两条股票序列在预测结果上显得不相似;
5.(2)不能解决时间错位的匹配问题。两只股票序列走势相同,但是存在时间错位,如果对其进行“一对一”的匹配,则不能准确地使序列最为相似的部分匹配起来,从而导致其相似度计算有较大误差;
6.(3)不能反映时间特性。对于时间序列来说,序列的不同部分对未来值的影响会随着时间的推移而逐渐减小,时间越靠近预测值的数据的影响会越大,大多数的相似度测度并考虑到时间特性对时间序列预测所带来的的影响,而是将时间序列的每个部分都同等的对待,这就容易导致无法找出更具参考价值的相似序列,从而使预测效果不理想。


技术实现要素:

7.本发明实施例提供一种基于动态多视角个性化相似度测度的股票预测方法,用以解决上述背景技术中提出的问题。
8.本发明实施例提供一种基于动态多视角个性化相似度测度的股票预测方法,包括:
9.获取待预测股票序列。
10.采用待预测股票序列与历史股票序列对应元素间的兰氏距离,构造动态时间归整距离矩阵。
11.根据动态时间归整距离矩阵的约束条件,从动态时间归整距离矩阵中找出有效弯曲路径。
12.将有效弯曲路径中的最小累积距离对应的路径作为最优弯曲路径,并将最小累积距离作为待预测序列与历史股票序列之间的最优距离。
13.将待预测序列与多个不同历史股票序列的最优距离进行升序排序,并从历史股票序列中挑选出前m个最优距离对应的m条相似股票序列。
14.根据m条相似股票序列的走势,对待预测股票序列的走势进行预测。
15.进一步,还包括对股票时间序列数据的预处理,预处理的步骤包括:
16.对每只股票时间序列元素归一化处理,计算出每只股票每一日的增长率,计算公式为:
[0017][0018]
其中x'
i
为增长率,x
i
是第i天的收盘价。
[0019]
删除股票时间序列元素中为0的数据。
[0020]
以n天为一组,对归一化化后的股票时间序列元素数据进行分段处理,对已分段的序列进行加权,加权的规则为:
[0021]
对序列x=(x1,x2,

,x
n
)给定一个权重序列w=(ω1,ω2,


n
),使得加权后的序列x'=(ω1x1,ω2x2,


n
x
n
)=(x'1,x'2,

,x'
n
)。其中ω1<ω2<

<ω
n
且ω1 ω2

ω
n
=1。
[0022]
进一步,待预测序列与历史股票序列之间的最优距离计算步骤为:
[0023]
利用兰氏距离构造待预测序列与历史股票序列之间的动态时间归整距离矩阵:
[0024][0025]
其中,兰氏距离x'=(x'1,x'2,

,x'
n
)和y'=(y'1,y'2,

,y'
m
),分别为加权后的历史股票序列和待预测股票序列。
[0026]
找出动态时间归整距离矩阵中的有效弯曲路径。
[0027]
在所有有效弯曲路径中搜寻一条最优弯曲路径,
[0028]
p
best
={p1,p2,

,p
k
}(max(n,m)≤k≤n m

1)
[0029]
p
k
表示该弯曲路径元素在距离矩阵中的位置,即:
[0030]
p
k
=(i,j)
k
,(1≤k≤k)
[0031]
表示x'
i
和y'
j
之间的匹配关系,则
[0032]
d(p
k
)=dis(x'
i
,y'
j
)。
[0033]
进一步,有效弯曲路径满足以下约束条件:
[0034]
边界性:p1=(1,1),p
k
=(n,m)。
[0035]
单调性:给定p
k
=(i,j)和p
k 1
=(i',j'),有i'≥i,j'≥j。
[0036]
连续性:给定p
k
=(i,j)和p
k 1
=(i',j'),有i'≤i 1,j'≤j 1。
[0037]
进一步,最优弯曲路径满足有效距离中累积距离达到最小:
[0038][0039]
进一步,为了得到最优弯曲路径,利用动态规划方法构造一个代价矩阵γ,代价矩阵γ中每个元素通过:
[0040]
[0041]
得到,其中i=1,2,

,n;j=1,2,

,m;γ(0,0)=0,γ(i,0)=γ(0,j)= ∞,
[0042]
d
min
(x',y')=γ(n,m)。
[0043]
当得到最小累积代价之后,再反向以p
k
为起点寻找弯曲路径,寻找公式如下:
[0044][0045]
直到i=j=1以及p
k
=(1,1)时,并最终得到完整的最优弯曲路径。
[0046]
本发明实施例提供一种基于动态多视角个性化相似度测度的股票预测方法,与现有技术相比,其有益效果如下:
[0047]
(1)对时间序列进行加权,反映时间特性;
[0048]
(2)以动态时间归整距离为测度框架,解决时间错位及漂移问题;
[0049]
(3)将兰氏距离嵌入动态时间归整距离中,消除奇异点的影响。
附图说明
[0050]
图1为本发明实施例提供的一种基于动态多视角个性化相似度测度的股票预测方法具体步骤。
具体实施方式
[0051]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052]
参见图1,本发明实施例提供一种基于动态多视角个性化相似度测度的股票预测方法,该方法包括以下步骤:
[0053]
(1)选取并划分数据:本发明选取了上证交易所的285只股票作为实验对象,提取了这285只股票从2016年1月1日至2017年近673天的收盘价作为实验数据,以10天为一组,对数据进行分组。同时,考虑到每只股票的价格不同,有的股票的价格甚至相差很大,所以在实验中需要对数据进行预处理:,具体包括:

归一化处理。由于每只股票的起价均不相同,甚至有的股票之间的起价相差巨大,因此,我们首先将数据进行了归一化处理,即用当日的股票价格减去前一日的股票价格,再除以前一日的股票价格,计算出每只股票的每一日的增长率,其具体计算公式如下:
[0054][0055]
其中x'
i
为增长率,x
i
是第i天的收盘价。

删除无用数据。因为上证交易所只在工作日开盘,周末不开盘,所以周末的收盘价会显示为周五的收盘价。这就导致了每隔5个数据就会出现连续2个为0的现象。为了消除周末未开盘的数据对预测结果造成影响,我们将增长率为0的数据进行了剔除。
[0056]
(2)序列加权:为了体现时间序列的个性化特征,突出时间对股票序列的影响,即时间越近,影响越大,我们需要对已经分段好的序列进行加权。对序列x=(x1,x2,

,x
n
)给
定一个权重序列w=(ω1,ω2,


n
),使得加权后的序列x'=(ω1x1,ω2x2,


n
x
n
)=(x'1,x'2,

,x'
n
)。其中ω1<ω2<

<ω
n
且ω1 ω2

ω
n
=1。
[0057]
(3)构造距离矩阵:我们利用兰氏距离来构造两条序列之间的动态时间归整距离矩阵。对加权后的序列x'=(x'1,x'2,

,x'
n
)和y'=(y'1,y'2,

,y'
m
)构造动态时间归整距离矩阵:
[0058][0059]
(4)搜寻最短路径:在距离矩阵中需要找到一条最优的弯曲路径p
best
={p1,p2,

,p
k
}(max(n,m)≤k≤m m

1)来使得x和y的累计距离值达到最小,并且p
k
表示该弯曲路径元素在距离矩阵中的位置,即p
k
=(i,j)
k
,(1≤k≤k)表示x'
i
和y'
j
之间的匹配关系,则d(p
k
)=dis(x'
i
,y'
j
)。距离矩阵中一般存在着多条弯曲路径,而有效的弯曲路径p必须符合给出的三个要求:
[0060]
边界性:p1=(1,1),p
k
=(n,m);
[0061]
单调性:给定p
k
=(i,j)和p
k 1
=(i',j'),有i'≥i,j'≥j;
[0062]
连续性:给定p
k
=(i,j)和p
k 1
=(i',j'),有i'≤i 1,j'≤j 1;
[0063]
边界性是为了确保p的起点p1=(1,1)与终点p
k
=(n,m)分别在距离矩阵d
n
×
m
的左下角与右上角;而单调性和连续性则是为了保证弯曲路径的下一个点在当前点的上方、右上方或右方,如p
k 1

p
k
∈{(1,0),(1,1),(0,1)}。在众多有效的路径中,找到唯一的最优路径使得累积距离达到最小,
[0064][0065]
上式分母中的k的目的是使得在对照所有不同长度的弯曲路径时,能够得到一个同一标准,类似于标准化过程。为了求解上式,利用动态规划方法来构造一个代价矩阵γ,代价矩阵γ中每个元素通过:
[0066][0067]
得到,其中i=1,2,

,n;j=1,2,

,m;γ(0,0)=0,γ(i,0)=γ(0,j)= ∞,该公式表示当前元素的累积距离为当前距离值加上相邻三个元素距离值的最小值。γ(n,m)就是动态时间归整度量x和y的最小累积代价,可知d
min
(x',y')=γ(n,m)。当得到最小累积代价之后,为了得到最优弯曲路径,再反向以p
k
为起点寻找弯曲路径,寻找公式如下:
[0068][0069]
直到i=j=1以及p
k
=(1,1)时,搜寻过程结束,并最终得到完整的弯曲路径。
[0070]
(5)选出最相似的序列:按照计算出的距离由小到大进行排序,并挑选出最相似的10条序列,即距离最短的10条序列。
[0071]
(6)利用相似序列进行预测:采用股票预测中最常用的自回归及bp神经网络的方
法,构建出4种预测方案,利用挑选出的10条相似序列进行预测:

自回归/bp神经网络预测,即直接建立自回归模型,对待测序列进行自回归预测,或搭建一个多层的神经网络,输入大量股票序列进行训练,学习其数据之间的相关函数关系,输出预测结果,再将其与实际结果相比较,返回神经网络进行再次的参数调整,最后得到一个训练好的神经网络,输入待测序列后输出bp神经网络预测结果;

相似序列平均预测,即利用10只最相似的股票序列,将其第11天的值进行平均,以代表待测股票第11天的预测值;

相似序列自回归/bp神经网络平均预测,即将最为相似的10只股票序列,先分别进行自回归/bp神经网络预测得到10个第11天的预测值,再将这10个值进行平均得到待测股票第11天的预测值;

相似序列平均后自回归/bp神经网络预测,即将最为相似的10只股票序列相加后再平均,得到一条平均序列,再对该序列进行自回归/bp神经网络预测,得到待测股票第11天的预测值。表1显示了不同相似度测度方法和不同预测方案的实验结果。其中mae为平均绝对误差,rmse为均方根误差,二者均为评价指标,且这两者的值越小,说明预测结果越好。列表示相似性测度,行表示预测方案,加粗字体表示评价指标的最小值,即该预测方法下的最佳度量值。“自回归”和“bp”表示方案1,只利用样本序列进行预测;“平均”代表方案2,相似序列平均预测;“自回归

平均”和“bp

平均”代表方案3,相似序列自回归/bp神经网络平均预测;“平均

自回归”和“平均

bp”代表方案4,相似序列平均后自回归/bp神经网络预测。由表可知,不同的评价指标显示了不同的结果。dmpsm代表本发明的方案,dtw代表动态时间规整距离,从表中可知,dmpsm比其他度量方法的误差更小,说明dmpsm有着更好的性能。同时,即使使用相同的预测方法,不同的预测方案也会产生不同的结果。在所有方案中“自回归

平均”的预测性能最好。
[0072][0073]
表1.不同相似度及不同预测方案的结果
[0074]
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献