一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

相似地址筛选方法、装置、计算设备以及存储介质与流程

2021-11-10 02:51:00 来源:中国专利 TAG:

技术特征:
1.一种相似地址筛选方法,其特征在于,包括:获取多个地址数据,并将所述地址数据按照预设规则进行分区,得到多个地址分区;对于每一个地址分区,基于所述地址分区中的地址数据,生成所述地址分区对应的第一地址向量矩阵;将所述第一地址向量矩阵进行切分,得到多个第一目标向量矩阵;基于所述多个第一目标向量矩阵,确定所述地址分区中各个地址数据之间的相似度;基于所述相似度,筛选出目标相似地址数据。2.根据权利要求1所述的方法,其特征在于,所述将所述地址数据按照预设规则进行分区,包括:将所述地址数据进行切分,得到所述地址数据的行政区字段和具体地址字段;依据所述行政区字段,将所述行政区字段相同的地址数据划分至同一地址分区。3.根据权利要求1所述的方法,其特征在于,所述基于所述地址分区中的地址数据,生成所述地址分区对应的第一地址向量矩阵,包括:在所述地址数据中存在高频字符的情况下,抽取所述地址数据中的高频字符作为目标地址数据;所述高频字符为在所述地址分区中出现频率高于预设频率阈值的地址字符;将所述目标地址数据添加至目标词库中;通过预设向量生成模型,生成所述目标词库中的每个目标地址数据对应的地址向量,得到所述第一地址向量矩阵。4.根据权利要求1所述的方法,其特征在于,所述确定所述地址分区中各个地址数据之间的相似度,包括:复制所述第一地址向量矩阵,得到第二地址向量矩阵;将所述第二地址向量矩阵进行切分,得到多个第二目标向量矩阵;所述第二目标向量矩阵与所述第一目标向量矩阵的行列数相同;对于任意一个所述第一目标向量矩阵与任意一个所述第二目标向量矩阵,确定所述第一目标向量矩阵与所述第二目标向量矩阵的计算结果在结果矩阵中的位置;若所述计算结果在结果矩阵的上三角位置,则将所述第一目标向量矩阵与所述第二目标向量矩阵输入预设相似度模型进行计算,得到结果子矩阵;所述上三角位置为结果矩阵中行数不大于列数的位置;若所述计算结果不在结果矩阵的上三角位置,则不对所述第一目标向量矩阵与所述第二目标向量矩阵进行计算。5.根据权利要求4所述的方法,其特征在于,所述基于所述相似度,筛选出目标相似地址数据,包括:针对每一个结果子矩阵,确定所述结果子矩阵中每个元素是否大于预设相似度阈值;所述结果子矩阵中每个元素均为地址相似度;在所述元素大于预设相似度阈值的情况下,保存所述元素以及所述相似度在结果子矩阵中的行列值;基于所述行列值在第一地址向量矩阵中确定出所述元素对应的目标地址数据,并保存所述目标地址数据以及所述元素,得到目标相似地址数据;在所述元素不大于所述预设相似度阈值的情况下,丢弃所述元素。
6.一种相似地址筛选装置,其特征在于,包括:分区模块,用于获取多个地址数据,并将所述地址数据按照预设规则进行分区,得到多个地址分区;生成模块,用于对于每一个地址分区,基于所述地址分区中的地址数据,生成所述地址分区对应的第一地址向量矩阵;切分模块,用于将所述第一地址向量矩阵进行切分,得到多个第一目标向量矩阵;确定模块,用于基于所述多个第一目标向量矩阵,确定所述地址分区中各个地址数据之间的相似度;筛选模块,用于基于所述相似度,筛选出目标相似地址数据。7.根据权利要求6所述的装置,其特征在于,所述分区模块,具体用于:将所述地址数据进行切分,得到所述地址数据的行政区字段和具体地址字段;依据所述行政区字段,将所述行政区字段相同的地址数据划分至同一地址分区。8.根据权利要求6所述的装置,其特征在于,所述生成模块,具体用于:在所述地址数据中存在高频字符的情况下,抽取所述地址数据中的高频字符作为目标地址数据;所述高频字符为在所述地址分区中所有的地址数据中出现频率高于预设频率阈值的地址字符;将所述目标地址数据添加至目标词库中;通过预设向量生成模型,生成所述目标词库中的每个目标地址数据对应的地址向量,得到所述第一地址向量矩阵。9.一种计算设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5任一项所述的相似地址筛选方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的相似地址筛选方法。

技术总结
本发明实施例提供了一种相似地址筛选方法、装置、计算设备及存储介质,该方法包括:获取多个地址数据,并将该多个地址数据按照预设规则进行分区,得到多个地址分区;对于每一个地址分区,基于地址分区中的地址数据,生成地址分区对应的第一地址向量矩阵;将第一地址向量矩阵进行切分,得到多个第一目标向量矩阵;基于多个第一目标向量矩阵,确定地址分区中的各个地址数据之间的相似度;基于相似度,筛选出目标相似地址数据。这样,通过对地址数据进行分区得到多个地址分区,同时对每个地址分区中的地址向量矩阵进行切分计算,实现了对大量地址的批处理,能够批量筛选出相似度高的地址,对资源占用较小,计算效率较高,节省了运行成本。成本。成本。


技术研发人员:何萧峰 符国辉 何保健 杨晨
受保护的技术使用者:同盾控股有限公司
技术研发日:2021.08.02
技术公布日:2021/11/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献