一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法

2022-05-21 05:21:07 来源：中国专利 TAG：

技术特征：
1.一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述方法包括如下步骤：步骤1：处理数据集：对多变量时间序列数据进行数据处理操作，构建多变量时间序列数据集x；步骤2：位置编码：将历史序列x
t
输入convld层转换为高维空间向量以增强表示能力，并与保持局部上下文信息的位置编码相加构成编码器的输入步骤3：引入概率稀疏自注意力机制：利用kl散度度量自注意力机制原始查询q的稀疏度m(q
i
，k)，提取稀疏度最高的前u个查询形成稀疏查询矩阵通过这种让每个键都只关注主要查询的方式计算注意力分数a(q，k，v)；步骤4：构建基于自适应图学习和扩散图卷积的稀疏自注意力模块：学习一个查询嵌入字典以自适应生成的图结构g，经过扩散图卷积得到利用稀疏注意力机制在上寻找最主要的序列，提取序列之间的空间相关性；步骤5：设计编码器：叠加多头注意力机制，基于图的稀疏自注意力模块及扩展因果卷积-maxpool层，采用传递机制拼接生成的不同尺度的特征图，以获得编码器的隐含表达；步骤6：设计解码器：使用包含有不少于2层的基于图的稀疏自注意力模块的生成式解码器结构，最后使用全连接层获取预测序列步骤7：训练模型：引入梯度中心化技术改进adam优化器，设置所需的参数并训练模型。2.根据权利要求1所述的一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤s1包括如下子步骤：步骤1.1：对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法，构建多变量时间序列数据集x；步骤1.2：对数据集x进行z-score标准化；步骤1.3：根据按照时间顺序，将数据集划分训练集、验证集和测试集，其中训练集占数据集的总量最多。3.根据权利要求1所述的一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤2包括如下子步骤：步骤2.1：使用位置编码技术处理输入序列x
t
：：其中d
model
为模型的维度，l
x
为输入序列的长度，pos为当前数据在输入序列x
t
中的位置；步骤2.2：通过convld操作，投影为特征维数为d的向量步骤2.3：编码器的输入由和位置编码构成：其中i∈{1，...，l
x
}。
4.根据权利要求1所述的一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤3包括如下子步骤：步骤3.1：将输入投影为查询向量q，键向量k和值向量v以计算注意力分数a(x)，使用多头注意力机制从不同的线性子空间中挖掘信息：multihead(x)＝concat(w
k
，a(x)
k
)其中为投影操作的可学习参数，k为头数；步骤3.2：从原始q中随机选择u＝l
k
lnl
q
个点积对计算稀疏度m(q
i
，k)，其中m(q
i
，k)由kl散度进行度量，其计算公式为：其中q
i
，k
i
，v
i
分别表示q，k和v的第i行，d为输入维度；步骤3.3：提取稀疏度最高的前u＝clnl
q
个查询形成稀疏矩阵其中c为固定的采样因子；通过将中剩余对使用0进行填充，替换原始q为相同尺寸的稀疏步骤3.4：让所有的键都只和这u个主要的查询计算点积，再除以并使用softmax函数获取其权重，得到优化后的注意力分数a(q，k，v)：5.根据权利要求1所述的一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：其中步骤4包括如下子步骤：步骤4.1：在稀疏矩阵上随机初始化一个可学习的查询嵌入字典并分配给所有的查询；步骤4.2：将与相乘，自适应地学习出图的邻接矩阵，同时使用非线性激活函数elu，其计算公式为：其中α是用于负部分饱和的可调节参数，然后通过softmax函数对自适应矩阵进行标准化处理，总的计算过程为：其中为直接生成的图结构；步骤4.3：利用一阶切比雪夫多项式拟合卷积核，建立输入为x，输出为z的图卷积层，其计算公式为：其中g
θ
为卷积操作，为图的自环归一化邻接矩阵，w为参数矩阵；步骤4.4：将扩散卷积引入图卷积的形式，其计算公式为：
其中图g为反映自学习的稀疏空间矩阵的图结构，g
m
为图g上的第m步随机游动；对原始稀疏矩阵进行扩散图卷积操作，最终获得包含空间相关性的稀疏查询矩阵总的计算过程为：其中θ为全部可学习的参数；步骤4.5：度量的稀疏度m
g
(q
gi
，k)：其中q
gi
为中的第i个查询，对应的注意力分数a(q，k，v)为：6.根据权利要求1所述的一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤5的具体子步骤为：步骤5.1：将输入进步骤4所设计的基于图的稀疏自注意力模块，获得输出步骤5.2：对进行降采样操作，筛选出具有主导特征的特征图并输出至下一层，对于第i层输入为的基于图的稀疏自注意力模块，进行的降采样操作可以描述为：其中gs为步骤4所设计的基于图的稀疏自注意力模块，convdc为扩展因果卷积层，为模块第i 1层的输入，通过降采样操作减半输入长度后，执行layernorm操作以规范化通道或维度间的输入；步骤5.3：依次叠加基于图的稀疏自注意力模块和降采样层，最后一个基于图的稀疏自注意力模块后不需要添加降采样层，利用传递机制将所有模块生成的长度为l
x
/2
i-1
、维度为d的特征图均等分割为长度为l
x
/2
n-1
的2
n-i
个特征图(i∈{1，2，...，n})，以合并不同尺度的特征图，保持输出尺寸的一致性；步骤5.4：通过一层过渡层，将拼接后特征图的维度从(2
n-1)
×
d降低到d，获得编码器的隐含表达，传入解码器。7.根据权利要求1所述的一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤6的具体子步骤为：步骤6.1：拼接和为生成式解码器的输入为生成式解码器的输入
其中为输入序列x
t
中采样的长度为l
token
的生成式起始标注，为用0填充的预测序列；步骤6.2：将输入进一个2层的基于图的稀疏自注意力模块，第一层模块在使用softmax函数获取权重前，需要将当前时刻之后的点积设置为-∞，以避免自回归现象；步骤6.3：添加一个全连接层，将解码器的输出转换为预测值8.根据权利要求1所述的一种基于transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤7的具体子步骤为：步骤7.1：设置损失函数为mse；步骤7.2：设置优化器为adam，并使用梯度中心化技术对其进行改进，对于一个反向传播得到的梯度为w
i
的梯度向量，梯度中心化操作φ
gc
的计算公式为：其中为梯度矩阵第i列的梯度均值，l为损失函数，通过计算梯度矩阵列向量的均值，并从各个列向量减去其各自的均值，得到中心化后的梯度矩阵，获得中心化的梯度后，直接用其更新权值矩阵，嵌入到adam优化器中；步骤7.3：设置模型参数，训练模型得到预测序列9.一种基于transformer框架的多变量长序列时间序列预测模型，其特征在于：所述预测模型通过权利要求1-8任一所述的权利要求获得。10.一种基于transformer框架的多变量长序列时间序列预测方法，其特征在于：通过权利要求9所述的一种基于transformer框架的多变量长序列时间序列预测模型，组合模型输出与周期性序列为最终的预测值评估预测性能。

技术总结
本发明公开了一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及提供一种基于Transformer框架的多变量长序列时间序列预测方法，以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。视长序列时间序列稳定的周期模式等技术问题。视长序列时间序列稳定的周期模式等技术问题。

技术研发人员：郑林江龙颢
受保护的技术使用者：重庆大学
技术研发日：2022.02.22
技术公布日：2022/5/20

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于iot的车辆里程多维度实时统计方法、系统、设备与流程

一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法

相关文献

最热文献