一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

电商商品的标品库构建方法、数据对齐方法、装置和设备与流程

2023-01-14 12:49:18 来源:中国专利 TAG:

技术特征:
1.一种电商商品的标品库构建方法,其特征在于,包括:从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新。2.如权利要求1所述的电商商品的标品库构建方法,其特征在于,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述匹配策略包括:在与所述品类信息对应的官方数据库中查找与所述官方备案号对应的官方产品;当所述待处理商品的品牌信息与所述官方产品的品牌信息对应时,从所述待处理商品的标题中获取对应的产品名称并写入所述产品总称中;将所述商品信息中的产品名称与所述官方产品的产品标准名称进行相似度匹配;当所述产品名称与所述产品标准名称的相似度值大于预设的第一相似度阈值时,获取所述官方产品的产品标准名称作为所述待处理商品的产品标准名称。3.如权利要求2所述的电商商品的标品库构建方法,其特征在于,当所述产品名称与所述产品标准名称的相似度值小于或等于所述第一相似度阈值时,所述匹配策略还包括:获取处于同一品牌下的待处理商品的产品名称向量;对所述产品名称向量进行社区聚类,并在执行完社区聚类后,将处于同一个簇的产品名称向量所对应的产品名称归类为属于同一待处理商品的候选别称;从所述候选别称中选择符合预设字符长度的产品名称作为当前待处理商品的产品标准名称。4.如权利要求1~3中任一项所述的电商商品的标品库构建方法,其特征在于,当所述品类信息为化妆品类时,所述产品识别信息为官方备案号,所述其余标准数据包括官方备案号、上市信息和品牌标准名称。5.如权利要求1所述的电商商品的标品库构建方法,其特征在于,当所述品类信息为3c类时,所述产品识别信息为3c认证编号,所述匹配策略包括:获取处于同一3c认证编号的所述商品信息,得到第一聚合商品信息;在所述第一聚合商品信息中,筛选出具有相同品牌信息的商品信息,得到至少一个第二聚合商品信息;在所述第二聚合商品信息中,获取含有相同品牌信息数量最多的第二聚合商品信息为目标聚合商品信息;在所述目标聚合商品信息中选择一个符合预设字符长度的产品名称作为所述待处理商品的产品标准名称,并将所述待处理商品对应的标题中的产品名称作为所述产品其他名称。6.如权利要求5所述的电商商品的标品库构建方法,其特征在于,当所述品类信息为3c类时,所述其余标准数据包括3c认证编号、上市信息和品牌标准名称。
7.一种电商商品的数据对齐方法,其特征在于,包括:获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库采用上述权利要求1~6中任一项所述的电商商品的标品库构建方法构建得到;根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称;将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。8.如权利要求7所述的电商商品的数据对齐方法,其特征在于,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,包括:利用bert语言模型将所述产品名称转化为产品名称向量;将所述产品名称向量与所述候选数据的产品总称中的任一候选名称向量进行相似度匹配;当所述产品名称向量与任一候选名称向量的相似度值大于预设的第二相似度阈值时,取所述相似度值中的最大值所对应的候选名称向量的产品标准名称作为目标产品名称。9.如权利要求8所述的电商商品的数据对齐方法,其特征在于,所述根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称,还包括:当所述产品名称向量与所有候选名称向量的相似度值均小于或等于所述第二相似度阈值时,判定当前待对齐商品为特殊商品;检测所述标品库的更新操作;在检测到所述标品库更新完毕后,根据所述电商品台中各商品的收录时间筛选出所述特殊商品的商品信息;根据所述特殊商品的品类信息在更新后的标品库中获取新候选数据,并根据所述产品名称在所述新候选数据中的产品总称中查找目标产品名称。10.如权利要求7所述的电商商品的数据对齐方法,其特征在于,所述实体信息还包括品牌信息;则,所述根据所述品类信息在预设的标品库中获取候选数据,包括:根据所述品类信息和所述品牌信息在预设的标品库中获取候选数据。11.一种电商商品的标品库构建装置,其特征在于,包括:商品信息分类模块,用于从电商平台的商品详情页中获取待处理商品的商品信息,并根据所述商品信息中的品类信息对所述商品信息进行分类;识别信息获取模块,用于对同处于一个品类信息的所述商品信息,获取所述商品信息中的产品识别信息;产品标准名称获取模块,用于获取与当前品类信息对应的匹配策略,并根据所述匹配策略利用所述产品识别信息对所述商品信息进行数据处理,以得到所述待处理商品的产品总称;其中,所述产品总称中包括一个产品标准名称和至少一个产品其他名称;数据写入模块,用于将所述待处理商品的产品总称和其余标准数据作为一条数据信息写入标品库中;其中,所述标品库每间隔预设时间段会进行自动更新。12.一种电商商品的标品库构建设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的电商商品的标品库构建方法。
13.一种电商商品的数据对齐装置,其特征在于,包括:商品标题获取模块,用于获取待对齐商品的标题,并根据所述标题获取所述待对齐商品的实体信息;其中,所述实体信息包括品类信息和产品名称;候选数据获取模块,根据所述品类信息在预设的标品库中获取候选数据;其中,所述标品库由上述权利要求11所述的电商商品的标品库构建装置生成;目标产品标准名称获取模块,用于根据所述产品名称在所述候选数据中的产品总称中查找目标产品名称;对齐模块,用于将所述待对齐商品的数据信息替换为所述目标产品名称对应的数据信息。14.一种电商商品的数据对齐设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求7至10中任意一项所述的电商商品的数据对齐方法。

技术总结
本发明公开了一种电商商品的标品库构建方法、数据对齐方法、装置和设备,基于电商平台的已有数据构建可定期更新的标品库,从而在电商平台的商品上新时,基于标品库对这一商品的数据进行对齐。应用本发明实施例构建得到的标品库,无需前期人工标注大量的训练数据去训练模型也无需耗费大量人工构建同义词数据库,能提高电商商品在数据对齐时的准确率和时效性。另外,标品库中写入的数据除了包括电商商品的产品标准名称外,还包括其余标准数据,比如上市信息和品牌标准名称,提高了电商商品的数据完整性。完整性。完整性。


技术研发人员:牟昊 陈冰凌 何宇轩 徐亚波 李旭日
受保护的技术使用者:广州数说故事信息科技有限公司
技术研发日:2022.12.02
技术公布日:2022/12/30
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献