一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种标注数据的方法及装置与流程

2021-10-23 02:05:00 来源:中国专利 TAG:数据 标注 装置 方法 分析

技术特征:
1.一种标注数据的方法,所述方法包括:获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;利用文本生成模型处理所述查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用户在查询过程中的行为数据,所述行为数据包括用户输入的查询语句以及用户选中的查询目标数据;利用所述行为数据训练所述文本生成模型,其中,所述文本生成模型的输入为查询目标数据,输出为查询语句。3.根据权利要求2所述的方法,其特征在于,所述利用所述行为数据训练所述文本生成模型,包括:将所述行为数据包括所述查询语句与选中的查询目标数据构成的数据对,其中,所述查询目标数据中携带所述标注信息;利用所述数据对训练所述文本生成模型,所述文本生成模型为序列到序列模型。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:设置所述文本生成模型的配置参数,所述配置参数用于控制所述文本生成模型输出具有标注信息的查询语句的数量。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:如果所述查询目标数据中的中心词为多个,且所述配置参数设置的数量为多个,所述文本生成模型得到的每个查询语句中至少含有所述中心词中的一个。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用所述新查询语句训练中心词模型,所述中心词模型用于对用户输入的查询语句标注中心词,输出所述查询语句的标注信息。7.一种标注数据的装置,所述方法包括:获取单元,用于获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;生成单元,用于利用文本生成模型处理所述获取单元得到的查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。8.根据权利要求7所述的装置,其特征在于,所述装置还包括:采集单元,用于获取用户在查询过程中的行为数据,所述行为数据包括用户输入的查询语句以及用户选中的查询目标数据;第一模型训练单元,用于利用所述采集单元得到的行为数据训练所述文本生成模型,其中,所述文本生成模型的输入为查询目标数据,输出为查询语句。9.根据权利要求8所述的装置,其特征在于,所述第一模型训练单元还用于,将所述行为数据转化为由所述查询语句与查询目标数据构成的数据对,其中,所述查询目标数据中携带由所述标注信息;利用所述数据对训练所述文本生成模型,所述文本生成模型为序列到序列模型。10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
设置单元,用于设置所述文本生成模型的配置参数,所述配置参数用于控制所述文本生成模型输出具有标注信息的查询语句的数量。11.根据权利要求10所述的装置,其特征在于,所述生成单元还用于,当所述查询目标数据中的中心词具有多个,且所述配置参数设置的数量为多个时,所述文本生成模型得到的每个查询语句中至少含有所述中心词中的一个。12.根据权利要求7所述的装置,其特征在于,所述装置还包括:第二模型训练单元,用于利用所述新查询语句训练中心词模型,所述中心词模型用于对用户输入的查询语句标注中心词,输出所述查询语句的标注信息。13.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-6中任意一项权利要求所述的标注数据的方法。

技术总结
本发明公开了一种标注数据的方法及装置,涉及数据分析技术领域,本发明的主要目的在于对用户查询语句的自动化标注,提高样本数据的产出效率。本发明主要的技术方案为:获取具有标注信息的查询目标数据,所述标注信息包括至少一个中心词;利用文本生成模型处理所述查询目标数据,得到具有所述标注信息的新查询语句,所述文本生成模型是基于查询过程中的行为数据训练得到的。数据训练得到的。数据训练得到的。


技术研发人员:王涛 蒋勇 黄非 司罗
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2020.04.22
技术公布日:2021/10/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜