一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

高速缓存的可更新TOP-K索引的制作方法

2022-11-23 11:13:00 来源:中国专利 TAG:

技术特征:
1.一种用于存储数据的计算机实现的方法,包括:在辅助存储器中存储索引结构,所述索引结构对于来自文档中包括的字中的每个给定字,包括包含所述给定字的所述文档的文档id的组,其中所述索引结构中的组以其中的文档id的数量的降序列出;将所述索引结构的子集存储在主存储器中,所述主存储器具有比所述辅助存储器更快的访问时间,所述子集中的组中的每一个中的文档id的数量在n
a
和n
b
之间的范围内,其中n
a
>n
b
;从查询中获取关键字;标识包括所述关键字的所述文档中的任何文档;通过以下步骤在所标识的文档中包括的字中查找top-k频繁字:对于以给定组中文档id的数量降序排列的所述组中的每个给定组,标识所述给定组中的所标识的文档的文档id的数量,当所述给定组中的文档id的数量在所述范围内时,从所述主存储器中的所述子集中标识所述给定组中的所标识的文档的文档id的数量,并且当所述给定组中的文档id的数量不在所述范围内时,从所述辅助存储器中的所述索引结构中标识所述给定组中的所标识的文档的文档id的数量;以及呈现具有最大数量的所标识的文档id的top-k组的字。2.根据权利要求1所述的计算机实现的方法,其中,所述主存储器是随机存取存储器(ram),并且所述第二存储器是高速盘驱动器(hdd)。3.根据权利要求1所述的计算机实现的方法,其中,所述索引结构被配置为可更新的。4.根据权利要求1所述的计算机实现的方法,还包括响应于将新文档添加到所述索引结构的请求,通过向所述索引结构或所述索引结构的子集添加新组来选择性地更新所述索引结构或所述索引结构的子集。5.根据权利要求1所述的计算机实现的方法,其中,对于所述组中的每个相应组,n
b
被设置为所述文档的相应之一中的字的数量的值。6.根据权利要求1所述的计算机实现的方法,其中,对于所述组中的每个相应组,通过过去查询的早期输出的平均值来估计n
b
。7.根据权利要求1所述的计算机实现的方法,其中,所述子集中的组排除所述组中具有其中的文档id的数量的最大值的相应之一。8.根据权利要求1所述的计算机实现的方法,还包括将na的值预设为大于所述文档中的字中最常出现的一个字的出现数量。9.根据权利要求1所述的计算机实现的方法,还包括估计满足存储器使用的条件和预期处理时间上限的n
a
和n
b
的值。10.根据权利要求1所述的计算机实现的方法,其中,所述范围被选择为包括相对于所述字中的剩余字具有中等访问出现频率的字。11.一种用于存储数据的计算机程序产品,所述计算机程序产品包括非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质具有随其体现的程序指令,所述程序指令可由计算机执行以使所述计算机执行方法,所述方法包括:在辅助存储器中存储索引结构,所述索引结构对于来自文档中包括的字中的每个给定字,包括包含所述给定字的所述文档的文档id的组,其中所述索引结构中的组以其中的文
档id的数量的降序列出;将所述索引结构的子集存储在主存储器中,所述主存储器具有比所述辅助存储器更快的访问时间,所述子集中的组中的每一个中的文档id的数量在n
a
和n
b
之间的范围内,其中n
a
>n
b
;从查询中获取关键字;标识包括所述关键字的所述文档中的任何文档;通过以下步骤在所标识的文档中包括的字中查找top-k频繁字:对于以给定组中文档id的数量降序排列的所述组中的每个给定组,标识所述给定组中的所标识的文档的文档id的数量,当所述给定组中的文档id的数量在所述范围内时,从所述主存储器中的所述子集中标识所述给定组中的所标识的文档的文档id的数量,并且当所述给定组中的文档id的数量不在所述范围内时,从所述辅助存储器中的所述索引结构中标识所述给定组中的所标识的文档的文档id的数量;以及呈现具有最大数量的所标识的文档id的top-k组的字。12.根据权利要求11所述的计算机程序产品,其中,所述主存储器是随机存取存储器(ram),并且所述第二存储器是硬盘驱动器(hdd)。13.根据权利要求11所述的计算机程序产品,其中所述索引结构被配置为可更新的。14.根据权利要求11所述的计算机程序产品,还包括响应于将新文档添加到所述索引结构的请求,通过向所述索引结构或所述索引结构的子集添加新组来选择性地更新所述索引结构或所述索引结构的子集。15.根据权利要求11所述的计算机程序产品,其中,对于所述组中的每个相应组,n
b
被设置为所述文档的相应之一中的字的数量的值。16.根据权利要求11所述的计算机程序产品,其中,对于所述组中的每个相应组,通过过去查询的早期输出的平均值来估计n
b
。17.根据权利要求11所述的计算机程序产品,其中,所述子集中的组排除所述组中具有其中的文档id的数量的最大值的相应之一。18.根据权利要求11所述的计算机程序产品,还包括将na的值预设为大于所述文档中的字中最常出现的一个字的出现数量。19.根据权利要求11所述的计算机程序产品,还包括估计满足存储器使用的条件和预期处理时间上限的n
a
和n
b
的值。20.一种用于确定命令与进程对应性的计算机处理系统,包括:存储器设备,包括存储在其上的程序代码;硬件处理器,操作地耦合到所述存储器设备,并且被配置为运行存储在所述存储器设备上的程序代码以将索引结构的子集存储在具有比辅助存储器更快的访问时间的主存储器中,所述子集中组中的每一个中的文档id的数量在n
a
和n
b
之间的范围内,其中n
a
>n
b
;从查询中获取关键字;标识包括所述关键字的文档中的任何文档;通过以下步骤在所标识的文档中包括的字中查找top-k频繁字:对于以给定组中文档id的数量降序排列的所述组中的每个给定组,标识所述给定组中
的所标识的文档的文档id的数量,当所述给定组中的文档id的数量在所述范围内时,从所述主存储器中的所述子集中标识所述给定组中的所标识的文档的文档id的数量,并且当所述给定组中的文档id的数量不在所述范围内时,从所述辅助存储器中的所述索引结构中标识所述给定组中的所标识的文档的文档id的数量;以及呈现具有最大数量的所标识的文档id的top-k组的字。

技术总结
提供了一种方法,该方法在第二存储器中存储索引结构,该索引结构对于来自文档中包括的字中的每个给定字,包括包含该给定字的文档的文档ID的组。该方法在比辅助存储器更快的主存储器中存储索引结构子集。该方法获取关键字并标识包括该关键字的任何文档。该方法通过以下方式在包括在所标识的文档中的字中查找top-K频繁字:对于以其中的文档ID的数量降序列出的每个给定组,当给定组中的文档ID的数量在该范围内时,从子集中标识给定组中所标识的文档的文档ID的数量,否则从索引结构中标识;以及呈现具有最大数量的所标识的文档ID的top-K组的字。字。字。


技术研发人员:吉田一星
受保护的技术使用者:国际商业机器公司
技术研发日:2021.03.25
技术公布日:2022/11/22
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献