一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种关键词的类目识别方法以及相关装置与流程

2021-10-29 20:40:00 来源:中国专利 TAG:类目 识别 装置 关键词 计算机

技术特征:
1.一种关键词的类目识别方法,其特征在于,包括:获取第一分类模型,所述第一分类模型基于第一标注数据对第一预设模型训练所得,所述第一标注数据基于对训练数据采样后标注所得,所述第一分类模型用于识别目标关键词的第一类目信息;将所述训练数据输入所述第一分类模型,以得到第一分类结果;对所述第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;根据所述第二标注数据对第二预设模型进行训练,以得到第二分类模型,所述第一分类模型中用于分类预测的第一标签的数量少于所述第二分类模型中用于分类预测的第二标签的数量,所述第一标签包含所述第一类目信息,所述第二标签包含第二类目信息;将所述目标关键词输入所述第二分类模型进行识别,以得到所述第二类目信息,所述第二类目信息为所述第一类目信息的后代类目信息。2.根据权利要求1所述的方法,其特征在于,所述对所述第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据,包括:将所述训练数据输入所述第二预设模型,以得到第二分类结果;确定所述第二分类结果和所述第一分类结果在所述第一类目信息上的识别重合项;基于所述识别重合项确定所述第一待标数据;对所述第一待标数据进行样本扩展,以得到第二标注数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述识别重合项确定所述第一待标数据,包括:确定所述识别重合项在所述第二类目信息上的特征值;基于所述特征值对所述重合项进行排序,以得到识别重合序列;根据所述重合序列确定所述第一待标数据。4.根据权利要求1所述的方法,其特征在于,所述对所述第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据,包括:获取所述第一分类结果中的所述第一待标数据对应的词条数;若所述词条数小于第一阈值,则获取所述第一待标数据对应的后代节点的标记信息;基于所述标记信息进行样本扩展,以得到所述第二标注数据。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述词条数小于第二阈值,则调用语义拓展工具,所述第二阈值大于所述第一阈值;基于所述语义拓展工具确定近义数据;根据所述近义数据进行样本扩展,以得到所述第二标注数据。6.根据权利要求5所述的方法,其特征在于,所述根据所述近义数据进行样本扩展,以得到所述第二标注数据,包括:基于所述近义数据对应的近义词确定种子词条;将所述种子词条输入所述语义拓展工具进行样本扩展,以得到所述第二标注数据。7.根据权利要求1

6任一项所述的方法,其特征在于,所述方法还包括:将所述训练数据输入所述第二分类模型,以得到第三分类结果;对所述第三分类结果中的第二待标数据进行样本扩展,以得到第三标注数据;根据所述第三标注数据对第三预设模型进行训练,以得到第三分类模型,所述第三分
类模型用于识别所述目标关键词的第三类目信息,所述第三类目信息为所述第二类目信息的后代类目信息。8.根据权利要求7所述的方法,其特征在于,所述对所述第三分类结果中的第二待标数据进行样本扩展,以得到第三标注数据,包括:获取目标平台中的类目消耗信息;确定所述类目消耗信息与所述第二待标数据的交集,以得到第三待标数据;基于所述第三待标数据进行样本扩展,以得到所述第三标注数据。9.根据权利要求7所述的方法,其特征在于,所述方法还包括:确定所述第三分类结果中的词条粒度信息;基于所述词条粒度信息确定目标粒度;确定所述目标粒度对应的参考类目,所述参考类目用于指示所述目标粒度对应的类目的后代类目;基于所述参考类目对所述第二待标数据进行更新。10.根据权利要求7所述的方法,其特征在于,所述方法还包括:将所述训练数据输入目标分类器,以得到目标分类结果;基于所述目标分类结果对所述第三分类结果进行校验,以确定校验数据;确定所述校验数据对应的词条得分;根据所述词条得分确定目标词条,以对所述第二待标数据进行更新。11.根据权利要求1所述的方法,其特征在于,所述第一待标数据中包含低频类目,所述第一类目信息为所述目标商品的一级类目,所述第二类目信息为所述目标商品的二级类目,所述一级类目中的低频类目的数量小于所述二级类目中的低频类目的数量。12.一种广告数据的推送方法,其特征在于,包括:响应于目标操作获取目标关键词;基于权利要求1

11任一项所述关键词的类目识别方法对所述目标关键词进行识别,以得到目标类目信息;根据所述目标类目信息确定关联商品,以推送所述关联商品对应的广告数据。13.一种关键词的类目识别装置,其特征在于,包括:获取单元,用于获取第一分类模型,所述第一分类模型基于第一标注数据对第一预设模型训练所得,所述第一标注数据基于对训练数据采样后标注所得,所述第一分类模型用于识别目标关键词的第一类目信息;输入单元,用于将所述训练数据输入所述第一分类模型,以得到第一分类结果;扩展单元,用于对所述第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;识别单元,用于根据所述第二标注数据对第二预设模型进行训练,以得到第二分类模型,所述第一分类模型中用于分类预测的第一标签的数量少于所述第二分类模型中用于分类预测的第二标签的数量,所述第一标签包含所述第一类目信息,所述第二标签包含第二类目信息;所述识别单元,还用于将所述目标关键词输入所述第二分类模型进行识别,以得到所述第二类目信息,所述第二类目信息为所述第一类目信息的后代类目信息。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:所述存储器用于存储程序代码;所述处理器用于根据所述程序代码中的指令执行权利要求1至11任一项所述的关键词的类目识别方法,或权利要求12所述的广告数据的推送方法。15.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述权利要求1至12任一项所述的关键词的类目识别方法,或权利要求12所述的广告数据的推送方法。

技术总结
本申请公开了一种关键词的类目识别方法以及相关装置,应用于人工智能的自然语言处理技术。通过获取第一分类模型;然后将训练数据输入第一分类模型,以得到第一分类结果;并对第一分类结果中的第一待标数据进行样本扩展,以得到第二标注数据;进而根据第二标注数据对第二预设模型进行训练,以得到第二分类模型并识别目标关键词的第二类目信息。从而实现对于分类模型逐级训练的过程,由于用于后代类目的训练数据在前代类目模型输出结果的基础上逐步优化,避免了低频类目的出现,提高了训练数据的有效性,提高了关键词的类目识别准确性。提高了关键词的类目识别准确性。提高了关键词的类目识别准确性。


技术研发人员:鲁源泉 李天时 刘立群
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2021.02.02
技术公布日:2021/10/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜