一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

物流数据管理方法、装置、设备及存储介质与流程

2022-07-31 05:57:13 来源:中国专利 TAG:


1.本发明涉及物流领域,尤其涉及一种物流数据管理方法、装置、设备及 存储介质。


背景技术:

2.在物流过程中,分拨中心对包裹要进行分拣、理货、打包、运输等一系 列操作,为方便管理和追溯,针对每一个包裹的每一个操作都对应生成记录 数据,这些记录数据要么以预设时间为单位进行整理,形成报表存储于数据 库中供分析调用,要么实时提供给数据需求方。
3.经过日积月累,数据越来越多,如果没有对数据进行管理,查找需要的 数据花费的时间会越来越长。
4.在现有的技术中,采用数据管理系统,方便数据的查找,但每一次查找 时都是对数据库进行全盘扫描查询,效率较低。


技术实现要素:

5.本发明的主要目的在于建立一个高频率访问数据库,解决每次查询面向 全体数据的问题,提高查询效率。
6.本发明第一方面提供了一种物流数据管理方法,包括:获取物流分拨中 心的第一目标需求,判断目标库中是否存在与所述第一目标需求相对应的目 标文档元数据,所述第一目标需求为生成离线数据报表;若存在,则根据所 述目标文档元数据获取目标离线文档;若不存在,则根据所述第一目标需求 从存储文件系统hdfs中获取目标文档元数据和目标离线文档,将所述目标 文档元数据添加至所述目标库,并为所述目标文档元数据添加目标查询标识, 所述目标查询标识指示所述目标文档元数据被查询的次数和最近一次被查询 的时间;更新所述目标查询标识,根据所述目标查询标识和预设规则删除所 述目标库中查询频率低的文档元数据;根据所述第一目标需求和所述目标离 线文档生成离线数据报表。
7.可选的,在本发明第一方面的第一种实现方式中,所述获取物流分拨中 心的第一目标需求,判断目标库中是否存在与所述第一目标需求相对应的目 标文档元数据,包括:获取物流分拨中心的第一目标需求;解析所述第一目 标需求,生成目标字段;根据所述目标字段对所述目标库进行扫描,判断是 否存在匹配所述目标字段的目标文档元数据。
8.可选的,在本发明第一方面的第二种实现方式中,所述若不存在,则根 据所述第一目标需求从存储文件系统hdfs中获取目标文档元数据和目标离 线文档,将所述目标文档元数据添加至所述目标库,并为所述目标文档元数 据添加目标查询标识,包括:若不存在与所述第一目标需求相对应的目标文 档元数据,则扫描所述存储文件系统hdfs,得到所述目标文档元数据;根据 所述目标文档元数据进行查询,得到目标离线文档;将所述目标文档元数据 进行复制,将复制的所述目标文档元数据添加至所述目标库;为所述目标文 档元数据添加目标查询标识。
9.可选的,在本发明第一方面的第三种实现方式中,所述更新所述目标查 询标识,根据所述目标查询标识和预设规则删除所述目标库中查询频率低的 文档元数据,包括:将所述目标查询标识进行更新;以预设频率检查所述目 标库中全部文档元数据的查询标识,若存在低频率查询文档元数据,则删除 所述低频率查询文档元数据,所述低频率查询文档元数据为最近一次被查询 时间与当前系统时间之间的时间间隔大于设定值的文档元数据;实时监控所 述目标库的可用存储空间,当所述可用存储空间小于阈值时,筛选出溢出文 档元数据,所述溢出文档元数据为所述目标库中查询标识指示被查询的次数 最少的文档元数据;删除所述溢出文档元数据。
10.可选的,在本发明第一方面的第四种实现方式中,在所述根据第一目标 需求和所述目标离线文档生成离线数据报表之后,所述物流数据管理方法还 包括:获取物流分拨中心的第二目标需求,所述第二目标需求为生成实时数 据报表;根据所述第二目标需求确定需求字段;将所述需求字段输入预置的 索引库中进行查询,得到目标索引集合;根据所述目标索引集合获取目标实 时数据,所述目标实时数据存储于分布式数据库hbase中;根据第二目标需 求和所述目标实时数据生成所述目标动态数据报表。
11.可选的,在本发明第一方面的第五种实现方式中,所述将所述需求字段 输入预置的索引库中进行查询,得到目标索引集合,包括:在所述预置的索 引库中查询与所述需求字段相对应的至少一个目标索引;将所述至少一个目 标索引进行合并,生成目标索引集合。
12.可选的,在本发明第一方面的第六种实现方式中,在所述根据所述第二 目标需求确定需求字段之后,在所述将所述需求字段输入预置的索引库中进 行查询,得到目标索引集合之前,还包括:根据预设规则采集原始数据;对 所述原始数据进行数据处理,得到结构化数据;调用预设的分词器对所述结 构化数据进行分词,生成至少一个索引;将所述至少一个索引存储至所述索 引库。
13.本发明第二方面提供了一种物流数据管理装置,包括:获取判断模块, 用于获取物流分拨中心的第一目标需求,判断目标库中是否存在与所述第一 目标需求相对应的目标文档元数据,所述第一目标需求为生成离线数据报表; 第一获取模块,用于若存在,则根据所述目标文档元数据获取目标离线文档; 获取添加模块,用于若不存在,则根据所述第一目标需求从存储文件系统 hdfs中获取目标文档元数据和目标离线文档,将所述目标文档元数据添加至 所述目标库,并为所述目标文档元数据添加目标查询标识,所述目标查询标 识指示所述目标文档元数据被查询的次数和最近一次被查询的时间;更新删 除模块,用于更新所述目标查询标识,根据所述目标查询标识和预设规则删 除所述目标库中查询频率低的文档元数据;第一生成模块,用于根据所述第 一目标需求和所述目标离线文档生成离线数据报表。
14.可选的,在本发明第二方面的第一种实现方式中,所述获取判断模块具 体用于:获取物流分拨中心的第一目标需求;解析所述第一目标需求,生成 目标字段;根据所述目标字段对所述目标库进行扫描,判断是否存在匹配所 述目标字段的目标文档元数据。
15.可选的,在本发明第二方面的第二种实现方式中,所述获取添加模块具 体用于:若不存在与所述第一目标需求相对应的目标文档元数据,则扫描所 述存储文件系统hdfs,得到所述目标文档元数据;根据所述目标文档元数据 进行查询,得到目标离线文档;将所
述目标文档元数据进行复制,将复制的 所述目标文档元数据添加至所述目标库;为所述目标文档元数据添加目标查 询标识。
16.可选的,在本发明第二方面的第三种实现方式中,所述更新删除模块具 体用于:将所述目标查询标识进行更新;以预设频率检查所述目标库中全部 文档元数据的查询标识,若存在低频率查询文档元数据,则删除所述低频率 查询文档元数据,所述低频率查询文档元数据为最近一次被查询时间与当前 系统时间之间的时间间隔大于设定值的文档元数据;实时监控所述目标库的 可用存储空间,当所述可用存储空间小于阈值时,筛选出溢出文档元数据, 所述溢出文档元数据为所述目标库中查询标识指示被查询的次数最少的文档 元数据;删除所述溢出文档元数据。
17.可选的,在本发明第二方面的第四种实现方式中,在所述获取判断模块 之后,还包括:第二获取模块,用于获取物流分拨中心的第二目标需求,所 述第二目标需求为生成实时数据报表;确定模块,用于根据所述第二目标需 求确定需求字段;查询模块,用于将所述需求字段输入预置的索引库中进行 查询,得到目标索引集合;第三获取模块,用于根据所述目标索引集合获取 目标实时数据,所述目标实时数据存储于分布式数据库hbase中;第二生成 模块,用于根据第二目标需求和所述目标实时数据生成所述目标动态数据报 表。
18.可选的,在本发明第二方面的第五种实现方式中,所述查询模块具体用 于:在所述预置的索引库中查询与所述需求字段相对应的至少一个目标索引; 将所述至少一个目标索引进行合并,生成目标索引集合。
19.可选的,在本发明第二方面的第六种实现方式中,在所述确定模块之后, 在所述查询模块之前还包括创建模块,所述创建模块具体用于:根据预设规 则采集原始数据;对所述原始数据进行数据处理,得到结构化数据;调用预 设的分词器对所述结构化数据进行分词,生成至少一个索引;将所述至少一 个索引存储至所述索引库。
20.本发明第三方面提供了一种物流数据管理设备,包括:存储器和至少一 个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器 中的所述指令,以使得所述物流数据管理设备执行上述的物流数据管理方法。
21.本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存 储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的物流 数据管理方法。
22.本发明提供的技术方案中,获取物流分拨中心的第一目标需求,判断目 标库中是否存在与所述第一目标需求相对应的目标文档元数据,所述第一目 标需求为生成离线数据报表;若存在,则根据所述目标文档元数据获取目标 离线文档;若不存在,则根据所述第一目标需求从存储文件系统hdfs中获 取目标文档元数据和目标离线文档,将所述目标文档元数据添加至所述目标 库,并为所述目标文档元数据添加目标查询标识,所述目标查询标识指示所 述目标文档元数据被查询的次数和最近一次被查询的时间;更新所述目标查 询标识,根据所述目标查询标识和预设规则删除所述目标库中查询频率低的 文档元数据;根据所述第一目标需求和所述目标离线文档生成离线数据报表。 本发明实施例中,动态更新目标库中被高频率访问的文档元数据,当接收到 需求时,先扫描目标库中被高频率访问的文档元数据,若所需数据不存在于 目标库中,则在数据库中进行全盘查找,减少无效数据被重复查询的情况, 提高了查询效率。
附图说明
23.图1为本发明实施例中物流数据管理方法的一个实施例示意图;
24.图2为本发明实施例中物流数据管理方法的另一个实施例示意图;
25.图3为本发明实施例中物流数据管理装置的一个实施例示意图;
26.图4为本发明实施例中物流数据管理装置的另一个实施例示意图;
27.图5为本发明实施例中物流数据管理设备的一个实施例示意图。
具体实施方式
28.本发明实施例提供了一种物流数据管理方法、装置、设备及存储介质, 动态更新目标库中被高频率访问的文档元数据,通过先扫描目标库再全盘扫 描数据库的方式减少无效数据的重复扫描,提高查询效率。
29.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第 三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的 顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这 里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外, 术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含 了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出 的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、 产品或设备固有的其它步骤或单元。
30.为便于理解,下面对本发明实施例的具体流程进行描述,可以理解的是, 本发明的执行主体可以为物流数据管理装置,还可以是终端或者服务器,具 体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
31.请参阅图1,本发明实施例中物流数据管理方法的一个实施例包括:
32.101、获取物流分拨中心的第一目标需求,判断目标库中是否存在与第一 目标需求相对应的目标文档元数据,第一目标需求为生成离线数据报表;
33.其中,物流分拨中心每日产生的数据文档存放于存储文件系统hdfs中, 文档在上传至存储文件系统hdfs时,hdfs先将文档进行切片处理,分成数 据块,数据块大小一般默认为128m,然后将这些数据块存储于hdfs的分 布式存储空间中,同时创建文档元数据来记录文档的数据块信息以及这些数 据块的存储位置。服务器获取物流分拨中心的第一目标需求,解析第一目标 需求得到关键字段,在目标库中查询是否存在与关键字段相对应的目标文档 元数据。
34.例如,分拨中心发出需求:统计2020年3月1日至3月7日分拨中心a 发往分拨中心b的快递包裹数量。解析分拨中心的需求获得以下关键字段, 关键字段1:分拨中心a发往分拨中心b,关键字段2:2020年3月1日至 2020年3月7日、关键字段3:快递包裹数量。服务器在目标库中查询是否 存在与以上3个关键字段相对应的目标文档元数据。
35.102、若存在,则根据目标文档元数据获取目标离线文档;
36.其中,若目标库中存在与关键字段相对应的目标文档元数据,则服务器 根据目标文档元数据找到目标文档的数据块,获得目标离线文档。
37.例如,经查询,目标库中存在与关键字段相对应的分拨中心a发往分拨 中心b的2020年3月1日快递包裹出中转文档元数据、2020年3月2日快 递包裹出中转文档元数据、
2020年3月3日快递包裹出中转文档元数据、2020 年3月4日快递包裹出中转文档元数据、2020年3月5日快递包裹出中转文 档元数据、2020年3月6日快递包裹出中转文档元数据以及2020年3月7日 快递包裹出中转文档元数据,服务器根据上述7个元数据分别查询对应的离 线文档,得到2020年3月1日至2020年3月7日的快递包裹出中转文档。
38.103、若不存在,则根据第一目标需求从存储文件系统hdfs中获取目标 文档元数据和目标离线文档,将目标文档元数据添加至目标库,并为目标文 档元数据添加目标查询标识,目标查询标识指示目标文档元数据被查询的次 数和最近一次被查询的时间;
39.其中,若目标库中不存在与关键字段相对应的目标文档元数据,则服务 器根据关键字段对存储文件系统hdfs进行全盘扫描,得到与关键字段相对 应的目标文档和目标文档元数据。将目标文档元数据添加至目标库中,并为 目标文档元数据配置目标查询标识,目标查询标识指示目标文档元数据被查 询的次数和最近一次被查询的时间,目标查询标识初始值为空。
40.例如,经查询,目标库中不存在与关键字段相对应的文档元数据,服务 器对hdfs进行全盘扫描,找到分拨中心a发往分拨中心b的2020年3月1 日至2020年3月7日的快递包裹出中转文档和快递包裹出中转文档元数据, 将分拨中心a发往分拨中心b的2020年3月1日至2020年3月7日的快递 包裹出中转文档元数据添加至目标库中,并为这7个快递包裹出中转文档元 数据添加查询标识。
41.104、更新目标查询标识,根据目标查询标识和预设规则删除目标库中查 询频率低的文档元数据;
42.其中,服务器每次更新查询标识时,同步更新目标文档元数据的被查询 次数和最近一次被查询的时间,被查询次数第一次更新时数值为1,以后每更 新一次数值加1。服务器定期计算目标库中所有文档元数据的最近一次被查询 的时间与当前系统时间之间的时间间隔,当时间间隔大于设定值时,意味着 文档元数据长时间未被查询,服务器删除设定时间内未被查询的文档元数据。 此外,服务器还实时监控目标库的剩余空间,当剩余空间小于阈值时,对目 标库中文档元数据的被查询次数进行排序,删除被查询次数最小的文档元数 据,删除完成之后再次检测剩余空间,若剩余空间仍小于阈值,则继续对目 标库中文档元数据的被查询次数进行排序,删除被查询次数最小的文档元数 据,直至剩余空间大于或等于阈值。
43.105、根据第一目标需求和目标离线文档生成离线数据报表。
44.其中,服务器从获得的离线数据报表中提取与关键字有关的目标数据, 将目标数据进行处理,得到所需的离线数据报表。
45.例如,根据获得的分拨中心a到分拨中心b的2020年3月1日至2020 年3月7日的快递包裹出中转文档,生成包裹数量记录表,包裹数量记录表 包括2020年3月1日至2020年3月7日每天从分拨中心a发往分拨中心b 的快递包裹数量以及7天的汇总数量。
46.本发明实施例中,建立动态目标库来指示被高频率访问的数据文档,能 够降低存储系统中无效数据被全面扫描的频率,提高查询效率。
47.请参阅图2,本发明实施例中物流数据管理方法的另一个实施例包括:
48.201、获取物流分拨中心的第一目标需求,判断目标库中是否存在与第一 目标需求相对应的目标文档元数据,第一目标需求为生成离线数据报表;
49.其中,物流分拨中心的数据采集端口每日产生大量原始数据文档,例如, 自动线扫描记录表、格口扫描记录表、集包扫描记录表、装车扫描记录表等, 这些原始数据文档统称为物流记录表。为便于对物流记录表进行管理,将物 流记录表存放于存储文件系统hdfs中,数据采集端口将物流记录表上传至 存储文件系统hdfs时,hdfs先将物流记录表进行切片处理,分成数据块, 数据块大小一般默认为128m,然后将这些数据块存储于hdfs的分布式存 储空间中,同时创建物流记录表元数据来记录物流记录表的数据块信息以及 这些数据块的存储位置。服务器获取物流分拨中心的第一目标需求,解析第 一目标需求得到目标字段,根据目标字段对目标库进行扫描,判断是否存在 匹配目标字段的目标文档元数据。
50.例如,服务器获取的第一目标需求为:统计2020年3月1日至3月7日 分拨中心a发现的无订单快递包裹记录表。服务器对需求内容进行分析,得 到目标字段1:2020年3月1日至3月7日、目标字段2:发出站为分拨中心 a、目标字段3:无订单快递包裹。其中无订单快递包裹是无订单号有物流信 息的快递包裹,因此将目标字段3:无订单快递包裹转换为与原始数据相关联 的目标字段4:订单号为空。根据目标字段1:2020年3月1日至3月7日、 目标字段2:发出站为分拨中心a、目标字段4:订单号为空,对目标库进行 扫描,查询是否存在与目标字段相匹配的物流记录表元数据。
51.202、若存在,则根据目标文档元数据获取目标离线文档;
52.其中,服务器根据目标字段扫描目标库中存放的元数据,目标库存放的 是hdfs中被高频率访问的文档对应的元数据,目标库的存储空间大小可根 据hdfs的日常数据吞吐量来设定,目标库保持动态更新。若目标库中存在 与目标字段相对应的目标文档元数据,则根据目标文档元数据找到目标文档 的数据块,获得目标离线文档。例如,经查询,目标库中存在物流记录表元 数据指示分拨中心a在2020年3月1日至3月7日每日发出的快递包裹的记 录表,共计7个物流记录表元数据,根据7个物流记录表元数据获取7份物 流记录表所在的存储位置,读取7份物流记录表。
53.203、若不存在,则根据第一目标需求从存储文件系统hdfs中获取目标 文档元数据和目标离线文档,将目标文档元数据添加至目标库,并为目标文 档元数据添加目标查询标识,目标查询标识指示目标文档元数据被查询的次 数和最近一次被查询的时间;
54.其中,若目标库中不存在与第一目标需求相对应的目标文档元数据,则 扫描存储文件系统hdfs,存储文件系统hdfs包括一个客户节点、一个namenode节点和多个datanode节点,namenode节点中存放hdfs中所有 文档的元数据,datanode节点存储实际文档数据,客户节点将文档进行切片 分成数据块存储到datanode节点。服务器根据第一目标需求从namenode节 点得到目标文档元数据,根据目标文档元数据在datanode节点中进行查询, 得到目标离线文档,服务器将目标文档元数据进行复制,并把复制的目标文 档元数据添加至目标库,为目标文档元数据添加目标查询标识,目标查询标 识指示目标文档元数据被查询的次数和最近一次被查询的时间,目标查询标 识初始值为空。
55.例如,服务器根据目标字段扫描目标库中存放的元数据,发现目标库中 不存在与目标字段相对应的文档元数据,服务器对hdfs进行全盘扫描,在 namenode节点中找到目标物流记录表元数据指示分拨中心a在2020年3月 1日至3月7日每日发出的快递包裹的记录表,共计7份物流记录表元数据, 将这7份物流记录表元数据复制到目标库中,并为7份物流记录表元数据添 加查询标识,查询标识包含两个部分:元数据的被查询次数和元数据最近
一 次被查询的时间,查询标识的初始值为空。服务器根据7份物流记录表元数 据获取对应的7份物流记录表所在的存储位置,读取7份物流记录表。
56.204、更新目标查询标识,根据目标查询标识和预设规则删除目标库中查 询频率低的文档元数据;
57.其中,服务器在目标库或hdfs上读取目标文档元数据后对目标文档元 数据的查询标识进行更新,更新查询标识时,同步更新目标文档元数据的被 查询次数和最近一次被查询的时间,被查询次数第一次更新时数值设置为1, 以后每更新一次数值加1。服务器定期计算目标库中所有文档元数据的最近一 次被查询的时间与当前系统时间之间的时间间隔,当时间间隔大于设定值时, 意味着文档元数据长时间未被查询,服务器删除设定时间内未被查询的文档 元数据。此外,服务器还实时监控目标库的剩余空间,当剩余空间小于阈值 时,对目标库中文档元数据的被查询次数进行排序,删除被查询次数最小的 文档元数据,删除完成之后再次检测剩余空间,若剩余空间仍小于阈值,则 继续对目标库中文档元数据的被查询次数进行排序,删除被查询次数最小的 文档元数据,直至剩余空间大于或等于阈值。
58.例如,服务器在hdfs上获取的第一物流记录表元数据指示分拨中 心a的2020年3月1日的快递包裹记录表,由于第一物流记录表元数据是新 加入目标库的元数据,因此第一次更新查询标识时,将第一物流记录表元数 据的被查询次数设置为1、最近一次被查询时间设置为被查询时的系统时间。 当第一物流记录表元数据在目标库中被再次查询时,将第一物流记录表元数 据的被查询次数设置为2、最近一次被查询时间设置为再次被查询时的系统时 间。服务器每隔7天对目标库中的物流元数据进行检测,若第一物流记录表 元数据的最近一次被查询时间距离当前系统时间超过30天,则删除第一物流 记录表元数据,否则保留第一物流记录表元数据,依次对目标库中的其他物 流元数据采取相同检测方式。此外,服务器还对目标库的剩余空间的大小进 行实时监控,当剩余空间小于1gb时,对目标库中的全部元数据进行排序, 删除被查询次数最小的物流记录表元数据,若剩余空间还小于1gb,则继续 对目标库中的其他物流元数据进行排序,再次删除被查询次数最小的物流记 录表元数据,循环上述排序和删除动作直到目标库的剩余空间大于或等于 1gb。
59.205、根据第一目标需求和目标离线文档生成离线数据报表;
60.其中,服务器通过hive对第一目标需求进行编译,将第一目标需求转变 为mapreduce任务,hive是一个数据仓库,依赖hdfs存储数据,依赖mapreduce处理数据。mapreduce是分布式计算系统,mapreduce任务包含map阶段和reduce阶段,map阶段将任务进行分发和执行,reduce阶段将 计算结果进行汇总。服务器根据mapreduce返回的计算结果生成离线数据报 表。
61.例如,服务器获取的第一目标需求为:统计2020年3月1日至3月7日 分拨中心a发现的无订单快递包裹记录表,通过hive对第一目标需求进行编 译,在namenode节点查询到分拨中心a在2020年3月1日至3月7日每日 发出的快递包裹的记录表元数据,根据第一目标需求分解成7个mapreduce任务,第一任务针对2020年3月1日的快递包裹记录表进行数据计算、第二 任务针对2020年3月2日的快递包裹记录表进行数据计算

以此类推。每个 任务查询并读取对应的快递包裹记录表上的订单号为空的快递包裹信息,汇 总7个任务的任务结果,服务器创建数据表,将汇总结果添至数据表,得到 2020年3月1日至3月7日分拨中心a
发现的无订单快递包裹记录表。
62.206、获取物流分拨中心的第二目标需求,根据第二目标需求确定需求字 段,第二目标需求为生成实时数据报表;
63.服务器获取生成实时数据报表的需求,对需求进行解析得到需求字段。
64.例如,服务器获取的第二目标需求为:监控自动扫描线1扫描的快递包 裹,确定需求字段为自动扫描线1和运单号。
65.207、创建预置的索引库;
66.其中,基于elasticsearch框架建立索引库,服务器根据预设规则采集hbase中的原始数据,对原始数据进行数据处理得到结构化数据,调用预设的分词 器对结构化数据进行分词,生成多个索引,将多个索引存储至索引库,得到 预置的索引库,监听hbase中的数据变动,实时更新预置的索引库,预置的 索引库存储于redis数据库中,可将redis中的数据存入区块链,保障数据的 稳定性和唯一性。
67.例如,基于开源elasticsearch框架创建分拨中心的自动扫描线索引库,自 动扫描线包含扫描线1、扫描线2、逻辑格口1、逻辑格口2等输入端的原始 信息,原始信息存放于hbase中,服务器对原始信息进行格式调整、分词等 数据处理后,生成索引,将索引存储到索引库,索引库存储于redis数据库中。
68.208、将需求字段输入预置的索引库中进行查询,得到目标索引集合;
69.其中,在预置的索引库中查询与需求字段相对应的至少一个目标索引, 将至少一个目标索引进行合并,生成目标索引集合。
70.例如,服务器根据需求字段在索引库中进行查询,得到指示自动扫描线1 的目标索引1、指示运单号的目标索引2,目标索引1和目标索引2合并为索 引集合。
71.209、根据目标索引集合获取目标实时数据,目标实时数据存储于分布式 数据库hbase中;
72.hbase是nosql数据库,可存储大量非关系型数据,hbase中持续进入 实时数据,为方便使用,通常采用辅助工具来使用sql语句操作hbase,在 本实施例中,采取的辅助工具为phoenix,phoenix作为客户端对hbase中的 数据进行低延迟访问,服务器通过phoenix将接收到的需求编译为一系列的查 询条件,查询条件包括需求字段,通过需求字段对应的目标索引集合在hbase中查找完整的数据,最终将查找结果返回给服务器,查找结果即为目标实时 数据。
73.例如,服务器通过phoenix读取目标索引1和目标索引2对应的实时数据, 得到自动扫描线1扫描到的快递包裹的运单号。
74.210、根据第二目标需求和目标实时数据生成目标动态数据报表。
75.服务器根据第二目标需求将目标实时数据进行处理,得到目标动态数据 报表。
76.例如,服务器创建数据表,将获取的自动扫描线1扫描到的快递包裹的 运单号添至数据表,得到自动扫描线1的包裹扫描监控表。
77.本发明实施例中,通过动态更新高频率访问数据库来加快查找离线数据 的速度,通过建立索引库加快查找实时数据的速度,提高查询效率。
78.上面对本发明实施例中物流数据管理方法进行了描述,下面对本发明实 施例中物流数据管理装置进行描述,请参阅图3,本发明实施例中物流数据管 理装置一个实施例
包括:
79.获取判断模块301,用于获取物流分拨中心的第一目标需求,判断目标库 中是否存在与第一目标需求相对应的目标文档元数据,第一目标需求为生成 离线数据报表;
80.第一获取模块302,用于若存在,则根据目标文档元数据获取目标离线文 档;
81.获取添加模块303,用于若不存在,则根据第一目标需求从存储文件系统 hdfs中获取目标文档元数据和目标离线文档,将目标文档元数据添加至目标 库,并为目标文档元数据添加目标查询标识,目标查询标识指示目标文档元 数据被查询的次数和最近一次被查询的时间;
82.更新删除模块304,用于更新目标查询标识,根据目标查询标识和预设规 则删除目标库中查询频率低的文档元数据;
83.第一生成模块305,用于根据第一目标需求和目标离线文档生成离线数据 报表。
84.本发明实施例中,建立动态目标库来指示被高频率访问的数据文档,能 够降低存储系统中无效数据被全面扫描的频率,提高查询效率。
85.请参阅图4,本发明实施例中物流数据管理装置的另一个实施例包括:
86.获取判断模块301,用于获取物流分拨中心的第一目标需求,判断目标库 中是否存在与第一目标需求相对应的目标文档元数据,第一目标需求为生成 离线数据报表;
87.第一获取模块302,用于若存在,则根据目标文档元数据获取目标离线文 档;
88.获取添加模块303,用于若不存在,则根据第一目标需求从存储文件系统 hdfs中获取目标文档元数据和目标离线文档,将目标文档元数据添加至目标 库,并为目标文档元数据添加目标查询标识,目标查询标识指示目标文档元 数据被查询的次数和最近一次被查询的时间;
89.更新删除模块304,用于更新目标查询标识,根据目标查询标识和预设规 则删除目标库中查询频率低的文档元数据;
90.第一生成模块305,用于根据第一目标需求和目标离线文档生成离线数据 报表;
91.第二获取模块306,用于获取物流分拨中心的第二目标需求,第二目标需 求为生成实时数据报表;
92.确定模块307,用于根据第二目标需求确定需求字段;
93.创建模块308,用于创建预置的索引库;
94.查询模块309,用于将需求字段输入预置的索引库中进行查询,得到目标 索引集合;
95.第三获取模块310,用于根据目标索引集合获取目标实时数据,目标实时 数据存储于分布式数据库hbase中;
96.第二生成模块311,用于根据第二目标需求和目标实时数据生成目标动态 数据报表。
97.可选的,获取判断模块301还可以具体用于:
98.获取物流分拨中心的第一目标需求;解析第一目标需求,生成目标字段; 根据目标字段对目标库进行扫描,判断是否存在匹配目标字段的目标文档元 数据。
99.可选的,获取添加模块303还可以具体用于:
100.若不存在与第一目标需求相对应的目标文档元数据,则扫描存储文件系 统hdfs,
得到目标文档元数据;根据目标文档元数据进行查询,得到目标离 线文档;将目标文档元数据进行复制,将复制的目标文档元数据添加至目标 库;为目标文档元数据添加目标查询标识,目标查询标识指示目标文档元数 据被查询的次数和最近一次被查询的时间。
101.可选的,更新删除模块304还可以具体用于:
102.将目标查询标识进行更新;以预设频率检查目标库中全部文档元数据的 查询标识,若存在最近一次被查询时间与当前系统时间之间的时间间隔大于 设定值的文档元数据,则删除最近一次被查询时间与当前系统时间之间的时 间间隔大于设定值的文档元数据;实时监控目标库的可用存储空间,当可用 存储空间小于阈值时,筛选出目标库中查询标识指示被查询的次数最少的文 档元数据;删除查询标识指示被查询的次数最少的文档元数据。
103.可选的,创建模块308还可以具体用于:
104.根据预设规则采集原始数据;对原始数据进行数据处理,得到结构化数 据;调用预设的分词器对结构化数据进行分词,生成至少一个索引;将至少 一个索引存储至索引库。
105.可选的,查询模块309还可以具体用于:
106.在预置的索引库中查询与需求字段相对应的至少一个目标索引;将至少 一个目标索引进行合并,生成目标索引集合。
107.本发明实施例中,通过动态更新高频率访问数据库来加快查找离线数据 的速度,通过建立索引库加快查找实时数据的速度,提高查询效率。
108.上面图3和图4从模块化功能实体的角度对本发明实施例中的物流数据 管理装置进行详细描述,下面从硬件处理的角度对本发明实施例中物流数据 管理设备进行详细描述。
109.图5是本发明实施例提供的一种物流数据管理设备的结构示意图,该物 流数据管理设备500可因配置或性能不同而产生比较大的差异,可以包括一 个或一个以上处理器(central processing units,cpu)510(例如,一个或一个 以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的 存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存 储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包 括一个或一个以上模块(图示没标出),每个模块可以包括对物流数据管理设 备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介 质530通信,在物流数据管理设备500上执行存储介质530中的一系列指令 操作。
110.物流数据管理设备500还可以包括一个或一个以上电源540,一个或一个 以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一 个或一个以上操作系统531,例如windows serve,mac os x,unix,linux, freebsd等等。本领域技术人员可以理解,图5出示的物流数据管理设备结 构并不构成对物流数据管理设备的限定,可以包括比图示更多或更少的部件, 或者组合某些部件,或者不同的部件布置。
111.本发明还提供一种物流数据管理设备,所述计算机设备包括存储器和处 理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时, 使得处理器执行上述各实施例中的所述物流数据管理方法的步骤。
112.发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非 易失性
计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机 可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算 机上运行时,使得计算机执行所述物流数据管理方法的步骤。
113.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。
114.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售 或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本 发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个 存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory, rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等 各种可以存储程序代码的介质。
115.以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制; 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应 当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其 中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案 的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献