一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于模型探索的数据采样的制作方法

2022-02-20 16:13:21 来源:中国专利 TAG:

技术特征:
1.一种方法,包括:获得包括与第一实体标识符(id)的第一id值集合相关联的第一记录集合的训练数据集和包括与所述第一实体id的第二id值集合相关联的第二记录集合的评估数据集;通过一个或多个计算机系统,从所述第二id值集合中选择所述第一实体id的随机id值子集;生成经采样的评估数据集,所述经采样的评估数据集包括所述第二记录集合中的与所述随机id值子集相关联的第一记录子集;生成经采样的训练数据集,所述经采样的训练数据集包括所述第一记录集合中的与所述随机id值子集相关联的第二记录子集;使用所述经采样的训练数据集和第一训练配置来训练所述第一机器学习模型的一个或多个版本;以及使用所述经采样的评估数据集来评估所述第一机器学习模型的所述一个或多个版本的第一性能。2.根据权利要求1所述的方法,其中,所述第一机器学习模型的所述一个或多个版本包括全局版本和针对由所述随机id值子集表示的第一实体集合的第一个性化版本集合。3.根据权利要求2所述的方法,还包括:将所述第一机器学习模型的所述第一性能与使用第二训练配置训练的第二机器学习模型的第二性能进行比较,以识别所述第一机器学习模型和所述第二机器学习模型内性能最高的机器学习模型;以及使用用于所述性能最高的机器学习模型的训练配置和所述训练数据集来训练第三机器学习模型。4.根据权利要求3所述的方法,其中,使用用于所述性能最高的机器学习模型的所述训练配置和所述训练数据集来训练所述第三机器学习模型包括:从所述训练配置中获得与全局版本相关联的正则化超参数;以及通过由所述经采样的训练数据集代表的所述训练数据集的比例的倒数来对所述正则化超参数进行缩放。5.根据权利要求2所述的方法,还包括:在所述第一记录子集中,识别第二实体id的第三id值集合;以及向所述经采样的训练数据集添加所述第一记录集合中的与所述第三id值集合相关联的附加记录。6.根据权利要求5所述的方法,还包括:使用所述经采样的训练数据集和所述第一训练配置,训练所述第一机器学习模型的针对由所述第三id值集合表示的第二实体集合的第二个性化版本集合。7.根据权利要求5所述的方法,其中,所述第二实体id表示职位。8.根据权利要求1所述的方法,其中,所述第一训练配置包括一个或多个特征。9.根据权利要求1所述的方法,其中,所述第一训练配置包括一个或多个超参数。10.根据权利要求1所述的方法,其中,从所述第二id值集合中选择所述随机id值子集包括:生成所述随机id值子集以包括一定比例的所述第二id值集合。
11.根据权利要求1所述的方法,其中,所述第一实体id表示成员。12.一种系统,包括:一个或多个处理器;以及存储指令的存储器,所述指令当由所述一个或多个处理器执行时使所述系统:获得包括与第一实体标识符(id)的第一id值集合相关联的第一记录集合的训练数据集和包括与所述第一实体id的第二id值集合相关联的第二记录集合的评估数据集;从所述第二id值集合中选择所述第一实体id的随机id值子集;生成经采样的评估数据集,所述经采样的评估数据集包括所述第二记录集合中的与所述随机id值子集相关联的第一记录子集;生成经采样的训练数据集,所述经采样的训练数据集包括所述第一记录集合中的与所述随机id值子集相关联的第二记录子集;使用所述经采样的训练数据集和第一训练配置来训练所述第一机器学习模型的一个或多个版本;以及使用所述经采样的评估数据集来评估所述第一机器学习模型的第一性能。13.根据权利要求12所述的系统,其中,所述第一机器学习模型的所述一个或多个版本包括全局版本和针对由所述随机id值子集表示的第一实体集合的第一个性化版本集合。14.根据权利要求13所述的系统,其中,所述存储器还存储当由所述一个或多个处理器执行时使所述系统执行以下操作的指令:将所述第一机器学习模型的所述第一性能与使用第二训练配置训练的第二机器学习模型的第二性能进行比较,以识别所述第一机器学习模型和所述第二机器学习模型内性能最高的机器学习模型;以及使用用于所述性能最高的机器学习模型的训练配置和所述训练数据集来训练第三机器学习模型。15.根据权利要求14所述的系统,其中,使用用于所述性能最高的机器学习模型的所述训练配置和所述训练数据集来训练所述第三机器学习模型包括:从所述训练配置中获得与所述全局版本相关联的正则化超参数;以及通过由所述经采样的训练数据集代表的所述训练数据集的比例的倒数来对所述正则化超参数进行缩放。16.根据权利要求13所述的系统,其中,所述存储器还存储当由所述一个或多个处理器执行时使所述系统执行以下操作的指令:在所述第一记录子集中,识别第二实体id的第三id值集合;以及向所述经采样的训练数据集添加所述第一记录集合中的与所述第三id值集合相关联的附加记录。17.根据权利要求16所述的系统,其中,所述第一实体id表示并且所述第二实体id表示职位。18.根据权利要求12所述的系统,其中,所述第一训练配置包括一个或多个特征。19.一种存储指令的计算机可读存储介质,所述指令当由计算机执行时使所述计算机执行方法,所述方法包括:获得包括与第一实体标识符(id)值集合相关联的第一记录集合的训练数据集和包括
与第二实体id值集合相关联的第二记录集合的评估数据集;从所述第二实体id值集合中选择随机实体id值子集;生成经采样的评估数据集,所述经采样的评估数据集包括所述第二记录集合中的与所述随机实体id值子集相关联的第一记录子集;生成经采样的训练数据集,所述经采样的训练数据集包括所述第一记录集合中的与所述随机id值子集相关联的第二记录子集;使用所述经采样的训练数据集和第一训练配置来训练第一机器学习模型,所述第一机器学习模型包括全局版本和针对由所述随机id值子集表示的第一实体集合的第一个性化版本集合;以及使用所述经采样的评估数据集来评估所述第一机器学习模型的所述全局版本和所述第一个性化版本集合的第一性能。20.根据权利要求19所述的计算机可读存储介质,所述方法还包括:在所述第一记录子集中,识别第二实体id的第三id值集合;向所述经采样的训练数据集添加所述第一记录集合中的与所述第三id值集合相关联的附加记录;以及使用所述经采样的训练数据集和所述第一训练配置,训练所述第一机器学习模型的针对由所述第三id值集合表示的第二实体集合的第二个性化版本集合。

技术总结
所公开的实施例提供了用于处理数据的系统。在操作期间,所述系统获得包含与第一标识符(ID)值集合相关联的第一记录集合的训练数据集和包含与第二ID值集合相关联的第二记录集合的评估数据集。接下来,所述系统从所述第二ID值集合中选择随机ID值子集。所述系统然后生成经采样的评估数据集,所述经采样的评估数据集包括所述第二记录集合中的与所述随机ID值子集相关联的第一记录子集。所述系统还生成经采样的训练数据集,所述经采样的训练数据集包括所述第一记录集合中的与所述随机ID值子集相关联的第二记录子集。最后,所述系统输出所述经采样的训练数据集和所述经采样的评估数据集,以用于训练和评估机器学习模型。以用于训练和评估机器学习模型。以用于训练和评估机器学习模型。


技术研发人员:Y
受保护的技术使用者:微软技术许可有限责任公司
技术研发日:2020.05.11
技术公布日:2022/1/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献