一种基于多模态融合与动量溢出效应的股票预测方法与流程

2022-12-19 23:54:33 来源：中国专利 TAG：

技术特征：
1.一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，包括如下步骤：1)收集目标股票和n-1只与目标股票相关股票的交易数据和文本数据；2)数据预处理，包括：(2.1)对交易数据以及文本数据进行异常值检测和缺失值补全；(2.2)对文本数据进行特征提取，得到每只股票的每日的文本特征向量；3)构建n只股票之间的关系矩阵，包括：(3.1)使用每只股票的开盘价序列，在大小为t天的滑动窗口下构建n只股票之间的时空动态分层复杂网络；(3.2)分别计算每层单只股票网络的度分布和聚类系数分布，得到层与层之间的度分布互信息和聚类系数分布互信息，分别用来表征股票两两间度相关性和股票两两间聚类系数相关性，从而得到以股票为节点，股票两两间相关性为连边的动态股票关系网络；(3.3)以股票为节点，分别以股票两两间度相关性和股票两两间聚类系数相关性为边构建动态股票关系网络，得到每个滑动窗口下n只股票间的度相关性网络和聚类系数相关性网络，对所述的度相关性网络和聚类系数相关性网络计算均值，得到最终的时空动态分层复杂网络ε，表示为表征从第t-t 1个交易日到第t个交易日跨度内股票之间关系网络，表示为其中e
i,j
表示股票i与股票j之间的相关性；4)对n只股票的文本数据进行特征提取，转化为每个交易日下文本特征向量；5)设定股票预测模型的输入样本；6)建立股票预测模型；7)采用输入样本对所述的股票预测模型进行迭代训练和预测，具体是通过对第i只股票t时刻的未来涨跌预测标签y
i
和未来涨跌预测值计算交叉熵损失值来在训练中更新股票预测模型的可训练参数，其中，当目标股票i的第t 1个交易日的开盘价大于第t个交易日的开盘价时，第i只股票t时刻的未来涨跌预测标签y
i
设置为1否则为0。2.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤1)所述的股票交易数据是指该股票在股市上交易产生的数据信息，包括五种属性：开盘价、收盘价、最高价、最低价和交易量；股票文本数据包括目标股票以及与目标股票相关股票的每日的腾讯新闻以及东方财富论坛中投资者对目标股票以及与目标股票相关股票的讨论信息。3.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤2)第(2.2)步具体包括：(2.2.1)通过jieba停词对每条文本数据进行去停用词；(2.2.2)通过裁剪和补齐的方法将每条文本数据转化为相同长度，即每条文本数据包含的词语个数相同；(2.2.3)通过预训练好的bert模型对去停用词后的每条文本数据进行特征提取，得到每条文本数据的文本特征向量，对每只股票每天的所有文本特征向量做平均池化，得到每只股票每个交易日下的文本特征向量。4.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤3)第(3.1)步具体包括：
(3.1.1)设置有限穿越视距为e；(3.1.2)将每个交易日作为单只股票网络节点；(3.1.3)在两个节点和的直方条之间构建水平连线，连线高度为两个节点的直方条中较低的直方条的高度，即其中，设定节点表示第i只股票在第t
a
天的开盘价为节点表示第i只股票在第t
b
天的开盘价为t
a
,t
b
∈[t-t 1,t]表示从第t-t 1交易日到第t交易日范围内的第t
a
天和t
b
天；规定若所述的两个节点和的水平连线只与e个或者少于e个中间节点相交，则这两个节点和之间存在连边，否则认定在有限穿越视距为e的单只股票网络中节点和节点之间不存在连边；由此，针对每只股票构建一层单只股票网络g
i
，即针对n只股票得到n层单只股票网络5.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤3)第(3.2)步得到层与层之间的度分布互信息用来表征股票两两间的度相关性，具体包括：第i只股票的单只股票网络，即第i层的单只股票网络节点的度值为h
i
，第i层的单只股票网络在节点的度值为该股票网络节点的度分布表示为p(h
i
)；通过计算第i只股票的单只股票网络节点的度值序列和第j只股票的单只股票网络节点的度值序列的互信息来表述第i只股票和第j只股票的度相关性，确定两两通道间相关性大小，第i只股票和第j只股票两两间的度相关性为：其中，p(h
i
)是第i只股票网络节点的度分布，p(h
i
,h
j
)是第i只股票网络和第j只股票网络的节点联合度分布。6.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤3)第(3.2)步得到层与层之间的聚类系数分布互信息用来表征股票两两间聚类系数相关性，具体包括：第i只股票的单只股票网络节点，即第i层的单只股票网络的聚类系数为c
i
，第i层的单只股票网络在节点的聚类系数为其中表示节点的邻居节点的个数，表示节点与邻居节点之间实际存在的边数，表示节点与邻居节点之间最多的边数，进而得到第i只股票的聚类系数分布为p(c
i
)；通过计算第i只股票的单只股票网络节点的聚类系数序列和第j只股票的单只股票网络节点的聚类系数序列的互信息，来表示第i只股票和第j只股票的两两间聚类系数相关性为：
其中，p(c
i
)是第i只股票的聚类系数分布，p(c
i
,c
j
)是第i只股票和第j只股票的联合聚类系数分布。7.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤4)包括：(4.1)使用jieba分词对每条文本数据去停用词，得到词集合；(4.2)采用裁剪和补齐的方法将每条文本数据转化为相同长度，即每条文本数据包含的词语个数相同；(4.3)将处理后的每只股票的每一条文本数据放入预训练好的bert模型进行特征提取，得到对应的文本特征向量；(4.3)每只股票每个交易日下的所有文本特征向量通过平均池化后，得到每只股票每个交易日下融合后的特征向量，即，从第i只股票的第t个交易日内收集到的新闻与论坛评价信息文本中抽取到l维度文本特征向量8.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤5)包括：股票预测模型的每一个输入样本都是由一个交易数据样本、一个文本特征样本、一个股票关系网络矩阵组成；所述的交易数据样本，由于股票交易数据包括五种属性，则第i只股票在第t交易日的l’维属性数据构成该交易日的交易特征向量则一个交易数据样本表示为所述的文本特征样本，第i只股票在第t交易日下的l维度文本特征向量表示为则一个文本特征样本表示为其中n表示股票数目，i＝1,2,
…
,n，t表示交易日的天数，即一个样本使用多少交易日的数据；所述的一个股票关系网络矩阵是由表示，其中e
i,j
∈ε代表归一化后的目标股票i与相关股票j之间的关联程度，同时e
i,j
∈[0,1]，越接近1表示相关性越强烈，越接近0表示相关性越弱。9.根据权利要求1所述的一种基于多模态融合与动量溢出效应的股票预测方法，其特征在于，步骤6)包括：(6.1)将设定的股票预测模型的输入数据中的每只股票的交易数据通过填零的方式转换为和文本特征数据相同维度，即其中n
t
表示第t个交易日的交易数据，n表示共有n只股票，l表示文本特征数据的特征维度；(6.2)在每只股票的文本特征样本中首端引入令牌[class]，表示为(6.2)在每只股票的文本特征样本中首端引入令牌[class]，表示为其中，i表示第i只股票，l表示文本特征数据的特征维度(6.3)对每只股票分别构建股票预测模型的特征交叉融合模块，用于每只股票的交易数据与文本特征数据交叉学习，特征融合，得到每只股票的交易数据与本文特征的融合特征嵌入；特征交叉融合模块是由h个特征交叉融合层组成，每个特征交叉融合层是由3个子层串联组成，所述的3个子层包括：一个双向交叉注意力子层、一个由两个并联的自注意力机制组成的自注意力子层、一个由两个并联的前馈神经网络组成的子层，所述的两个前馈
神经网络均采用两层全连接神经网络和采用tanh函数为激活函数，3个子层的后面分别引入一个残差网络结构和归一化处理；每只股票的交易数据与添加了[class]令牌的文本特征数据输入到特征交叉融合模块中，其中表示第i只股票在第τ个交易日的交易数据，表示第i只股票在第τ个交易日的文本特征数据，τ属于第t-t 1交易日到第t交易日范围内；每只股票的股票数据输入对应的特征交叉融合模块；双向交叉注意力子层包含两个单向交叉注意力模块，分别用来将交易数据融合到文本特征数据域，以及将文本特征数据融合到交易数据域，具体融合公式为：特征数据域，以及将文本特征数据融合到交易数据域，具体融合公式为：特征数据域，以及将文本特征数据融合到交易数据域，具体融合公式为：其中crossatt
w-j
表示将文本特征数据融合到交易数据域，crossatt
j-w
表示将交易数据融合到文本特征数据域；表示融合到文本特征数据域的交易数据序列，表示融合到[class]令牌的交易数据向量，表示融合到交易数据域的文本数据特征序列和[class]令牌，同时和也是第k层交叉特征融合模块中双向交叉注意力子层的输出序列；τ表示从第t-t 1交易日到第t交易日内的一个交易日，共有k层交叉融合模块其中k表示为第k层；将自注意力子层和前馈神经网络子层的输出序列用公式表示为：将自注意力子层和前馈神经网络子层的输出序列用公式表示为：将自注意力子层和前馈神经网络子层的输出序列用公式表示为：将自注意力子层和前馈神经网络子层的输出序列用公式表示为：将自注意力子层和前馈神经网络子层的输出序列用公式表示为：将自注意力子层和前馈神经网络子层的输出序列用公式表示为：τ＝t-t,t-t 1,...,t其中selfatt
w
→
w
表示自注意力子层中文本自注意力机制计算过程，selfatt
j
→
j
表示自注意力子层中交易数据自注意力机制计算过程；和表示第k层自注意力子层的输出序列，和表示第k层交叉特征融合模块中双向交叉注意力子层的输出序列；ffn
w
→
w
表示文本前馈神经网络的计算过程，ffn
j
→
j
表示交易前馈神经网络的计算过程；对第i只股票，特征交叉融合模块的输出包括深度交易特征序列深度文本特征序列以及融合特征嵌入其中τ表示第τ个交易日，所述的融合特征嵌入v
i
就是第t-t
1至t天的交易数据与文本数据的交叉学习后融合的特征表示；(6.4)构建股票预测模型的门控图卷积神经网络：c(v
i
,v
j
)＝tanh(w
c
[v
i
||v
j
] b
c
)其中，e
i,j
∈ε表示标准化后的第i只股票与第j只股票之间的关联程度，同时e
i,j
∈[0,1]，越接近1表示第i只股票与第j只股票之间的相关性越强烈，越接近0表示第i只股票与第j只股票之间的相关性越弱；是所有股票共有的权重矩阵，由神经网络训练得到；代表所有股票的融合特征嵌入集合；σ是sigmoid函数；s
i
代表目标股i与其他n-1只相关股票的关系特征向量，表示为c(
·
)表示门控机制，用于筛选掉相关股票微小的变动，这些变动往往不会影响到目标股票价格变动；是门控机制中的权重矩阵，是偏置；(6.5)构建股票预测模型的输出层：对股票的关系特征向量s
i
应用带有softmax函数的两层前馈神经网络，得到对第i只股票未来涨跌的预测值两层前馈神经网络，得到对第i只股票未来涨跌的预测值其中，是第i只股票的权重矩阵，由神经网络训练得到；c是股票未来涨跌的类别个数；b
i
是第i只股票的偏置，由神经网络训练得到；是对第i只股票的未来涨跌预测值，也是股票预测模型的最终输出。

技术总结
一种基于多模态融合与动量溢出效应的股票预测方法，包括：收集目标股票和N-1只与目标股票相关股票的交易数据和文本数据；数据预处理；构建N只股票之间的关系矩阵；对N只股票的文本数据进行特征提取，转化为每个交易日下文本特征向量；设定股票预测模型的输入样本；建立股票预测模型；采用输入样本对股票预测模型进行迭代训练和预测，在训练中更新股票预测模型的可训练参数。本发明的一种基于多模态融合与动量溢出效应的股票预测方法，主要从多模态数据特征融合和利用市场动量溢出效应两个角度入手设计出适合的、有效的深度学习模块来提升股票预测模型的准确性和可靠性。升股票预测模型的准确性和可靠性。升股票预测模型的准确性和可靠性。

技术研发人员：高忠科郭嘉仪苏静钰田源薄地阔
受保护的技术使用者：上海纯达资产管理有限公司
技术研发日：2022.08.08
技术公布日：2022/12/16

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：二级缓存方法、装置、系统、电子装置和存储介质与流程

一种基于多模态融合与动量溢出效应的股票预测方法与流程

相关文献

最热文献