一种数据库中数据的查询方法与流程

2021-10-20 00:23:00 来源：中国专利 TAG：数据库中数据查询信息检索方法

技术特征：
1.一种数据库中数据的查询方法，其特征在于，该方法包括以下步骤：(1)向数据库输入一个查询集合；(2)将步骤(1)中的查询集合的多个查询语句分别转换为多个查询计划树，将多个查询计划树合并，得到一个查询计划图，从该查询计划图中挖掘出待选物化视图集合；(3)构建一个用于步骤(2)的待选物化视图收益的估计模型，包括以下步骤：(3
‑
1)分别对数据库中的多个查询计划树的节点和步骤(2)的待选物化视图集合的多个查询计划树的节点进行编码；(3
‑
2)构建待选物化视图收益的估计模型中的第一循环神经网络，分别将步骤(3
‑
1)中数据库查询计划树的节点编码输入到该第一循环神经网络中，得到与编码相对应的查询的第一预测查询时间、预测查询结果占用磁盘空间以及该编码的嵌入向量；(3
‑
3)构建待选物化视图收益的估计模型中的第二循环神经网络，将步骤(3
‑
1)中待选物化视图的查询计划树的节点编码和步骤(3
‑
2)中的相应编码的嵌入向量输入第二循环神经网络，得到步骤(3
‑
1)数据库中查询的查询计划树的第二预测查询时间以及查询和待选物化视图的总嵌入向量，将步骤(3
‑
2)中的第一预测查询时间减去第二预测查询时间，得到待选物化视图的收益，得到选物化视图收益的估计模型；(4)构建一个待选物化视图的选择模型，将步骤(3
‑
2)的预测查询结果占用磁盘空间和步骤(3
‑
3)的待选物化视图的收益以及查询和待选物化视图的总嵌入向量输入待选物化视图的选择模型中，输出得到目标物化视图集合；(5)根据步骤(3)的待选物化视图收益估计模型，对步骤(4)的目标物化视图集合中的物化视图的收益进行预测，选择收益最大的物化视图，根据该物化视图对步骤(1)查询集合中的查询语句进行改写，遍历步骤(1)查询集合中的所有查询，重复本步骤，得到查询集合中的所有查询改写后的查询语句；将改写后的查询语句在数据库中进行查询，将对应的查询结果返回给用户，实现数据库中数据的查询。2.如权利要求1所述的数据库中数据的查询方法，其特征在于，步骤(3)所述的第一循环神经网络的构建和训练，包括以下步骤：(1)构建第一循环神经网络，第一循环神经网络由嵌入神经网络、第一门控循环单元网络、第一输出神经网络和第二输出神经网络组成，所述的嵌入神经网络为一个单层神经网络；所述的第一门控循环单元网络包含更新门和重置门两个单层神经网络；所述的第一输出神经网络为两层全连接神经网络；所述的第二输出神经网络为两层全连接神经网络；(2)对步骤(1)的第一循环神经网络进行训练，即，从数据库中划分出80％的查询计划树作为训练集，将训练集的节点编码输入嵌入神经网络，嵌入神经网络输出得到表示向量；将表示向量输入第一门控循环单元网络，第一门控循环单元网络输出得到隐藏向量，将隐藏向量分别输入第一输出神经网络和第二输出神经网络，第一输出神经网络和第二输出神经网络分别输出得到第一预测查询时间和预测查询结果占用磁盘空间，将第一预测查询时间和预测查询结果占用磁盘空间记为y1*；将训练集中的查询计划树在数据库中实际执行所得到的查询时间和查询结果占用磁盘空间作为预测目标，记为y1，用作为平均相对误差，更新网络参数使平均相对误差尽量小，重复本步骤直到平均相对误差小于设定阈值，得到第一循环神经网络的参数；
(3)对步骤(2)训练得到的第一循环神经网络进行验证，即，将数据库中其余20％的查询计划树作为验证集，将验证集的节点编码输入步骤(2)的第一循环神经网络，得到第一预测查询时间和预测查询结果占用磁盘空间，记为y2*，将y2*与验证集的真实查询时间和查询结果占用磁盘空间，记为y2，用作为平均相对误差；(4)重复步骤(2)和步骤(3)，直到平均相对误差小于设定阈值时，得到第一循环神经网络。3.如权利要求1所述的数据库中数据的查询方法，其特征在于，所述的步骤(3)的第二循环神经网络的构建和训练，包括以下步骤：(1)构建第二循环神经网络，第二循环神经网络由嵌入神经网络、线性神经网络、第二门控循环单元网络和第三输出神经网络组成，所述的嵌入神经网络为一个单层神经网络；所述的线性神经网络是单层全连接神经网络；所述的第二门控循环单元网络包含更新门和重置门两个单层神经网络；所述的第三输出神经网络为两层全连接神经网络；(2)对步骤(1)的第二循环神经网络进行训练，即，从数据库中划分出80％的待选物化视图的查询计划树作为训练集，将训练集的节点编码输入嵌入神经网络，嵌入神经网络输出得到表示向量；将该表示向量与数据库查询计划树的节点编码嵌入向量连接后输入线性神经网络，线性神经网络输出得到稠密向量，根据注意力机制算法，计算稠密向量与第一循环神经网络的第一门控循环单元输出的所有隐藏向量之间的余弦距离，将余弦距离的大小归一化为权重系数，根据权重系数对第一循环神经网络的第一门控循环单元输出的所有隐藏向量进行加权求和，将求和结果作为新的表示向量；将新的表示向量输入到第二门控循环单元网络，第二门控循环单元网络输出得到隐藏向量，将该隐藏向量作为查询和待选物化视图的总嵌入向量；将隐藏向量输入第三输出神经网络，第三输出神经网络输出数据库中查询的查询计划树的第二预测查询时间，将第二预测查询时间记为z1*；根据训练集中待选物化视图，对数据库中查询的查询计划树进行改写，得到新查询计划树在数据库中实际执行所得到的查询时间，记为z1，将z1作为预测目标，用作为平均相对误差，更新网络参数使平均相对误差尽量小，重复本步骤，直到平均相对误差小于设定阈值，得到第二循环神经网络的参数；(3)对步骤(2)训练得到的第二循环神经网络进行验证，即，将数据库中其余20％的待选物化视图的查询计划树作为验证集，将验证集的节点编码输入步骤(2)的第二循环神经网络，得到第二预测查询时间，记为z2*，将z2*与验证集的真实查询时间记为z2，用作为平均相对误差；(4)重复步骤(2)和步骤(3)，直到平均相对误差小于设定阈值时，得到第二循环神经网络。4.如权利要求1所述的数据库中数据的查询方法，其特征在于，所述的步骤(4)中待选物化视图的选择模型的构建和训练，包括以下步骤：(1)设定物化视图选择问题为整数规划问题，整数规划的约束条件为目标物化视图的预测查询结果占用磁盘空间之和不超过数据库的总磁盘空间，整数规划的目标为目标物化视图收益之和为最大；
(2)将步骤(1)中的物化视图选择问题转化为马尔可夫决策过程，即，查询集合和待选物化视图组成多个查询
‑
待选物化视图对，记为(q
i
，v
i
)，每个(q
i
，v
i
)的选择状态表示是否选择该待选物化视图改写相应查询，所有(q
i
，v
i
)的选择状态组成马尔可夫决策过程的状态空间，单个(q
i
，v
i
)的选择操作，组成马尔可夫决策过程的决策空间；(3)构建一个回报估计网络，回报估计网络为一个多层全连接神经网络，回报估计网络的输入为马尔可夫决策过程的状态空间中的状态和决策空间中的决策，输出为决策空间中每个决策的回报；(4)对步骤(2)的马尔可夫决策过程求解，使步骤(1)中的待选物化视图收益之和最大，包括以下步骤：(4
‑
1)向待选物化视图收益的估计模型输入数据库中的查询集合和待选物化视图，输出得到预测查询结果占用磁盘空间、待选物化视图的收益、查询和待选物化视图的总嵌入向量以及当前已占用磁盘空间比例，将得到的预测查询结果占用磁盘空间、待选物化视图的收益、查询和待选物化视图的总嵌入向量以及当前已占用磁盘空间比例构建成一个状态表示向量；(4
‑
2)将步骤(4
‑
1)的状态表示向量作为马尔可夫决策过程中的表示状态的状态表示向量，初始化时，所有(q
i
，v
i
)选择状态为不选择，设定迭代次数，将该初始状态的状态表示向量输入步骤(3)的回报估计网络中，输出得到步骤(2)的马尔可夫决策过程的决策空间中各决策的回报，将回报最大的决策应用到状态中，得到相对应的新状态，将该新状态作为当前状态，将当前状态的真实回报作为回报估计网络的预测目标，更新回报估计网络的参数，重复本步骤，直到完成迭代次数，得到待选物化视图的选择模型。

技术总结
本发明属于信息检索技术领域，涉及一种数据库中数据的查询方法。本发明方法，自动根据数据库中的查询集合，挖掘出合适的物化视图，并对查询进行改写以缩短查询时间，将本来需要数据库管理员完成的工作通过算法自动完成，提高了管理员的工作效率。本发明使用的待选物化视图收益估计模型相比传统估计方法估计的更加准确，同时使用注意力机制算法来进一步提高准确度。本发明在选择目标物化视图时使用马尔可夫决策问题进行建模并使用深度学习方法求解，使得到的解更接近于最优解，同时本发明设计的结合嵌入向量的状态表示向量提高了模型泛化性，即模型在迁移到新问题时不需要重复耗时的训练过程，提高了方法的效率。提高了方法的效率。提高了方法的效率。

技术研发人员：李国良韩越
受保护的技术使用者：清华大学
技术研发日：2021.06.02
技术公布日：2021/10/19

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种数据库中数据的查询方法与流程

相关文献

最热文献