一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于模型探索的数据采样的制作方法

2022-02-20 16:13:21 来源:中国专利 TAG:


1.所公开的实施例涉及机器学习。更具体地说,所公开的实施例涉及用于机器学习中的模型探索的数据采样。


背景技术:

2.分析通常用于发现与大型的复杂、互连和/或多维数据集相关的趋势、模式、关系和/或其他属性。进而,所发现的信息用于获得见解和/或指导与数据相关的决策或动作。例如,业务分析可以用于评估过去的表现、指导业务规划和/或识别可以提高未来表现的动作。
3.为了收集这些见解,使用回归模型、人工神经网络、支持向量机、决策树、朴素贝叶斯分类器和/或其他类型的机器学习模型来分析大型的特征数据集。然后可以使用发现的信息来指导决策和/或执行与数据相关的操作。例如,机器学习模型的输出用于指导营销决策、评估风险、检测欺诈、预测行为和/或定制或优化应用或网站的使用。
4.然而,在用于分析的机器学习模型的创建和训练期间,在特征选择上花费了大量时间、精力和开销。例如,机器学习模型的数据集可能有数千到数百万个特征,包括根据其他特征的组合创建的特征,而只有一小部分特征和/或组合可能与机器学习模型相关和/或对机器学习模型来说是重要的。同时,具有大量特征和/或大型数据集的机器学习模型的训练和/或执行通常比具有较少数量的特征和/或较小数据集的机器学习模型需要更多的存储器、计算资源和时间。使用过多特征的过于复杂的机器学习模型也可能存在过度拟合的风险。
5.因此,可以通过用于改进特征和/或机器学习模型的创建、剖析、管理、共享和重用的机制来促进机器学习和/或分析。
附图说明
6.图1示出了根据所公开的实施例的系统的示意图。
7.图2示出了根据所公开的实施例的用于处理数据的系统。
8.图3a示出了根据所公开的实施例的经采样的训练数据集和经采样的评估数据集的示例生成。
9.图3b示出了根据所公开的实施例的经采样的训练数据集和经采样的评估数据集的示例生成。
10.图4示出了说明根据所公开的实施例的数据的处理的流程图。
11.图5示出了说明根据所公开的实施例的执行模型探索的过程的流程图。
12.图6示出了根据所公开的实施例的计算机系统。
13.在附图中,相似的附图标记指代相同的图形元素。
具体实施方式
14.以下描述被呈现以使本领域任何技术人员能够实现和使用实施例,并被提供在特定申请及其要求的上下文中。对于本领域的技术人员而言,对所公开的实施例的各种修改将是显而易见的,并且本文中定义的一般性原理可以适用于其他实施例和应用,而不背离本公开内容的精神和范围。因此,本发明并不受限于所示出的实施例,而是与本文中公开的原理和特征的最宽范围相一致。
15.概述
16.所公开的实施例提供了用于训练和评估机器学习模型的方法、装置和系统。机器学习模型包括但不限于回归模型、人工神经网络、支持向量机、决策树、随机森林、梯度提升树、朴素贝叶斯分类器、贝叶斯网络、深度学习模型、分层模型和/或集成模型。每个机器学习模型包括一个全局版本和多个个性化版本。例如,机器学习模型用于生成针对用户的职位(或其他内容)的推荐。针对全部用户和职位创建机器学习模型的全局版本,针对每个用户创建机器学习模型的用户特定版本,并且针对每个职位创建机器学习模型的职位特定版本。全局版本、给定用户的用户特定版本和给定职位的职位特定版本的输出被组合以生成用于表示该用户申请该职位、点击该职位和/或以其他方式对该职位的推荐进行积极响应的评分。
17.更具体地,所公开的实施例提供了用于对用于训练和评估包括针对不同实体的个性化版本的机器学习模型的数据进行采样的方法、装置和系统。每个机器学习模型都与用于训练该机器学习模型的完整的训练数据集以及用于在训练完成之后评估该机器学习模型的性能的完整的评估数据集相关联。随着训练数据集和/或评估数据集中的记录和/或特征的数量增加,需要额外数量的处理器和存储器资源来执行该机器学习模型的训练和后续评估。
18.为了利用机器学习模型来加速探索不同的超参数、特征集合和/或其他类型的训练配置,从评估数据集中采样随机实体id子集,并且根据经采样的实体id子集生成经采样的训练数据集和经采样的评估数据集。例如,从评估数据集中随机选择特定百分比或比例的用户id,并且将包含来自评估数据集的用户id的记录包括在经采样的评估数据集中。包含来自训练数据集的相同用户id的记录被类似地包括在经采样的训练数据集中。当训练数据集和评估数据集中的记录包含职位id以及用户id时,从包含评估数据集中经采样的用户id的记录中识别出职位id集合,并且包含训练数据集中的识别出的职位id的记录也被包括在经采样的训练数据集中。因此,出现在经采样的评估数据集中的全部实体id也会出现在经采样的训练数据集中。
19.经采样的评估数据集和经采样的训练数据集的生成也重复多次,并且每个经采样的训练数据集和相应的经采样的评估数据集与不同的训练配置一起使用来训练和评估机器学习模型。例如,每个经采样的评估数据集和相应的经采样的训练数据集都是来自完整的评估数据集的、根据不同的随机实体id子集生成的。经采样的训练数据集与机器学习模型的训练配置中的特征集合和/或一个或多个超参数一起使用,以训练机器学习模型的全局版本和个性化版本,并且经采样的评估数据集随后用于评估经训练的全局版本和个性化版本的性能。该过程被重复以根据特征和/或超参数的不同组合生成机器学习模型的多个全局版本集合和多个个性化版本集合,并且性能最高的机器学习模型被选择用于现场、生
产和/或真实世界设置或环境。然后,使用完整的训练数据集来训练所选择的机器学习模型,并且在将机器学习模型部署到环境中之前使用完整的评估数据集来评估机器学习模型。
20.通过从小于训练数据集的评估数据集中采样实体id并使用经采样的实体id来生成经采样的训练数据集和经采样的评估数据集,所公开的实施例确保机器学习模型的个性化版本是针对经采样的训练数据集中的经采样的实体id创建的,并且随后可以使用与评估数据集中的相同实体id相关联的记录来进行评估。此外,生成比相应的完整的训练数据集和评估数据集小得多的经采样的训练数据集和经采样的评估数据集加速了机器学习模型的训练和评估,这减少了使用多个训练配置来训练多个机器学习模型所需的时间和/或资源的量。训练速度的提高进一步使得能够对机器学习模型的超参数、特征集合和/或训练配置进行更彻底的探索,进而获得更高性能的机器学习模型。
21.相比之下,传统技术使用完整的训练数据集和/或评估数据集对机器学习模型进行训练和/或评估。因此,与使用经采样的训练数据集和经采样的评估数据集进行训练和评估相比,单个机器学习模型的训练和评估需要更多的时间和/或计算资源。与使用完整训练数据集进行训练相关联的增加的开销和/或延迟会额外干扰机器学习模型的超参数、特征集合和/或训练配置的探索和/或优化,这可能导致机器学习模型的性能降低。
22.传统技术还或替代地从训练数据集和/或评估数据集中对个体记录进行采样以减小数据集的大小。然而,这种基于记录的采样会从每个数据集中移除与个体实体相关联的数据,这导致使用相应实体的不完整数据来训练和/或评估机器学习模型的每个个性化版本。因此,个性化版本没有被训练为适合训练数据集中的实体的全部可用行为、偏好和/或其他信号,并且没有针对评估数据集中的实体的附加信号进行全面评估。进而,个性化版本的这种有限的训练和/或评估导致个性化版本的性能降低。因此,所公开的实施例改进了与训练机器学习模型、评估机器学习模型、特征工程和/或超参数优化相关的计算机系统、应用、用户体验、工具和/或技术。
23.用于模型探索的数据采样
24.图1示出了根据所公开的实施例的系统的示意图。如图1中所示,该系统包括在线网络118和/或其他用户社区。例如,在线网络118包括由一组实体(例如,实体1 104、实体x 106)使用以在专业和/或商业上下文中彼此交互的在线专业网络。
25.实体包括使用在线网络118来建立和维持专业连接、列出工作和社区经验、相互认可和/或推荐、搜索和申请职位和/或执行其他动作的用户。实体还或替代地包括使用在线网络118来列出职位、搜索潜在候选者、向用户提供与业务相关的更新、做广告和/或采取其他动作的公司、雇主和/或招聘人员。
26.在线网络118包括简档模块126,其允许实体创建和编辑包含与实体的专业和/或行业背景、经验、摘要、职称、项目、技能等相关的信息的简档。简档模块126还允许实体查看在线网络118中的其他实体的简档。
27.简档模块126还或替代地包括用于协助实体完成简档的机制。例如,简档模块126可以向实体建议行业、技能、公司、学校、出版物、专利、认证和/或其他类型的属性作为对实体的简档的潜在添加。建议可以基于对缺失字段的预测,例如基于实体的简档中的其他信息来预测实体的行业。建议还可以用于更正现有字段,例如更正简档中的公司名称的拼写。
建议还可以用于澄清现有属性,例如基于实体的工作经验将实体的头衔“经理”更改为“工程经理”。
28.在线网络118还包括搜索模块128,其允许实体在在线网络118中搜索人员、公司、职位和/或其他职位或业务相关信息。例如,实体可以将一个或多个关键词输入到搜索栏中以查找包括和/或以其他方式匹配关键词的简档、职位发布、职位候选者、文章和/或其他信息。实体可以另外地使用在线网络118中的“高级搜索”特征来按类别搜索简档、职位和/或信息,例如名字、姓氏、头衔、公司、学校、地点、兴趣、关系、技能、行业、群组、薪资、经验水平等等。
29.在线网络118还包括允许实体在在线网络118上与彼此交互的交互模块130。例如,交互模块130可以允许实体添加其他实体作为连接、关注其他实体、与其他实体发送和接收电子邮件或消息、加入群组、和/或与来自其他实体的发布交互(例如,创建、分享、再分享、喜欢和/或评论来自其他实体的发布)。
30.本领域技术人员将理解,在线网络118可以包括其他组件和/或模块。例如,在线网络118可以包括主页、登陆页面和/或内容馈送,其向实体提供来自实体的连接和/或群组的最新发布、文章和/或更新。类似地,在线网络118可以包括用于向实体推荐连接、职位发布、文章和/或群组的特征或机制。
31.在一个或多个实施例中,与实体的简档和在线网络118上的活动相关的数据(例如,数据1 122、数据x 124)被聚合到数据存储库134中以供后续检索和使用。例如,每次简档更新、简档查看、连接、关注、发布、评论、喜欢、分享、搜索、点击、消息、与群组交互、地址簿交互、对推荐的响应、购买和/或由在线网络118中的实体执行的其他动作被跟踪并存储在数据库、数据仓库、云存储设备和/或提供数据存储库134的其他数据存储机构中。
32.然后,使用数据存储库134中的数据来生成与在线网络118内的职位或机会的列表相关的推荐和/或其他见解。例如,在线网络118的一个或多个组件可以在实体与在线网络118中的职位搜索工具交互期间跟踪搜索、点击、查看、文本输入、转换和/或其他反馈。反馈可以被存储在数据存储库134中,并用作一个或多个机器学习模型的训练数据,并且机器学习模型的输出可以用于显示和/或以其他方式推荐职位、广告、发布、文章、连接、产品、公司、群组和/或其他类型的内容、实体或者对在线网络118的成员的动作。
33.更具体地,数据存储库134中的数据和一个或多个机器学习模型用于产生与在线网络118之内或之外列出的职位或机会相关联的候选者的排名。如图1所示,识别机制108识别与机会相关联的候选者116。例如,识别机制108可以将候选者116识别为在在线网络118之内或之外已经查看、搜索和/或申请了职位、职务、角色和/或机会的用户。识别机制108还可以或替代地将候选者116识别为具有与相应的职位、职务、角色和/或机会匹配的技能、工作经验和/或其他属性或资格的在线网络118的用户和/或成员。
34.在识别出候选者116之后,候选者116的简档和/或活动数据连同相应机会的特征和/或特性(例如,所需要或期望的技能、教育、经验、行业、头衔等等)被输入到机器学习模型中。进而,机器学习模型输出表示候选者116在机会和/或与机会相关的资格(例如,技能、当前职务、先前职务、总体资格等等)方面的优势的评分。例如,机器学习模型基于具有在线网络118的候选者的简档数据与机会的描述之间的相似性来生成评分。模型还基于候选者的简档数据的社会和/或其他验证(例如,对技能、推荐、成就、奖项、专利、出版物、声誉评分
等的认可)来调整评分。然后,通过降序评分对候选者116进行排序来生成排名。
35.进而,基于评分和/或相关联的见解的排名提高了候选者116的质量、对候选者116的机会的推荐和/或对机会的候选者116的推荐。此类排名还可以或替代地增加利用在线网络118的用户活动和/或指导候选者116和/或涉及筛选或安排机会的主持人(例如,招聘经理、招聘人员、人力资源专业人员等)的决策。例如,在线网络118的一个或多个组件可以显示和/或以其他方式输出成员在职位的候选者的排名中的位置(例如,前10%、138名中的前20名等等)以鼓励成员申请成员排名靠前的职位。在第二示例中,组件可以在对职位进行排序期间将候选者在针对职位集合的排名中的相对位置考虑在内,作为响应于候选者进行的职位搜索的搜索结果。在第三示例中,在招聘人员利用作为搜索参数而包括的职位资格执行了搜索之后,组件可以将针对给定的职位资格集合的候选者的排名作为搜索结果输出给招聘人员。在第四示例中,组件可以基于所预测的职位与候选者的相关性或所预测的职位对候选者的吸引力和/或候选者申请职位的可能性来向候选者推荐职位。
36.在一个或多个实施例中,用于生成与在线网络118中的职位和候选者相关联的评分和/或排名的一些或全部机器学习模型针对在线网络118中的职位、候选者和/或其他实体进行个性化。如图2所示,针对包括训练数据集216和评估数据集218的数据202来查询数据存储库134和/或另一个主数据存储装置。
37.训练数据集216包括用于训练多个机器学习模型(例如,机器学习模型1 208、机器学习模型n 210)的记录,并且评估数据集218用于在每个机器学习模型的训练完成之后评估该机器学习模型的性能。例如,训练数据集216包括可以与机器学习模型一起使用的大部分(例如,70%-80%)数据,并且评估数据集218包括数据的其余部分。评估数据集218可选地被划分为用于评估个体机器学习模型的性能的验证数据集和用于评估从机器学习模型中选择的最终模型214的性能的测试数据集。
38.在一个或多个实施例中,训练数据集216、评估数据集218和/或数据存储库134中的其他数据202中的记录包括标准化的、组织的和/或分类的属性。例如,数据202中的技能被组织成被存储在数据存储库134和/或另一个存储库中的层次分类。分类对技能之间的关系进行建模(例如,“java编程”与“软件工程”相关或是其子集)和/或对相同或高度相关的技能进行标准化(例如,“java编程”、“java开发”、“android开发”和“java编程语言”被标准化为“java”)。
39.在另一个示例中,数据存储库134中的位置包括城市、大都市区、州、国家、大陆和/或其他标准化的地理区域。与标准化技能相似,位置可以被组织成层次分类(例如,城市被组织在州之下,州被组织在国家之下,国家被组织在大陆之下等等)。
40.在第三个示例中,数据存储库134包括与成员和/或职位相关联的一组已知和/或经验证的公司的标准化公司名称。在第四示例中,数据存储库134包括在线网络中的各种职位、成员和/或公司的标准化头衔、资历和/或行业。在第五示例中,数据存储库134包括可以用于检索简档数据216、用户活动218和/或由时间段表示的其他数据202(例如,在给定的月份或年份开始职位,五年内从大学毕业,在两周的时段内发布的职位列表等等)的标准化时间段(例如,每天、每周、每月、每季度、每年等等)。在第六示例中,数据存储库134包括标准化的职位职能,例如“会计”、“咨询”、“教育”、“工程”、“金融”、“医疗保健服务”、“信息技术”、“法律”、“运营”、“房地产”、“研究”和/或“销售”。
41.在一些实施例中,数据存储库134中的标准化属性由相应分类中的唯一标识符(id)表示。例如,每个标准化技能由数据存储库134中的数值技能id表示,每个标准化头衔由数据存储库134中的数值头衔id表示,每个标准化位置由数据存储库134中的数值位置id表示,和/或每个标准化公司名称(例如,对于超过特定规模和/或曝光水平的公司)由数据存储库134中的数值公司id表示。
42.在一个或多个实施例中,每个机器学习模型包括与训练数据集216和评估数据集218中的全部实体(例如,成员、职位、公司、内容等等)一起使用的全局版本(例如,全局版本232-234)。每个机器学习模型还包括针对个体实体定制或制定的个性化版本集合(例如,个性化版本236-238)。
43.例如,由探索装置212创建的机器学习模型包括全局版本、个性化用户特定版本集合和个性化职位特定版本集合。全局版本跟踪全部候选者关于数据存储库134中的全部职位的行为或偏好。模型的每个用户特定版本是针对相应候选者关于某些职位特征的个体行为或偏好(例如,候选者对与候选者的技能相匹配的职位的个人偏好)来定制的。每个职位特定的版本识别相应职位与某些候选者特征的相关性或相应职位对某些候选者特征的吸引力(例如,职位吸引偏好技能匹配的候选者的可能性)。
44.全局版本、针对候选者的用户特定版本和/或针对给定职位的职位特定版本的输出被组合以生成表示在用户被展示了职位之后用户申请职位、点击职位和/或以其他方式对职位的印象进行积极响应的预测概率的评分。继续上文的示例,使用以下公式表示用于使用逻辑回归来预测成员m申请职位j的概率的广义线性混合模型:
45.g(e[y
mjt
])=x

mjt
b s
′jαm q
′mβj[0046]
其中,是模型的链接函数,b是表示模型的全局版本的固定效应的系数向量,αm是表示针对成员m的、模型的用户特定版本的随机效应的系数向量,并且βj是表示针对职位j的、模型的职位特定版本的随机效应的系数向量。此外,x
mjt
表示全局版本的特征向量,其包含成员m的成员特征、职位j的职位特征、派生特征和/或与上下文≠相关联的特征。最后,sj表示职位j的特征向量(即,职位特征212),并且qm表示成员m的特征向量(即,成员特征208)。
[0047]
当成员m对不同的职位提供了多个响应时,可以准确估计成员的个性化系数向量αm,并且评分和/或推荐可以针对成员进行个性化。相反,当成员m缺少对职位的先前响应时,αm的后验均值接近于0,并且机器学习模型的输出回落到x

mjt
b的全局固定效应分量。类似地,当职位j包括成员进行的多个响应时,该职位的个性化系数向量βj可以用于针对该职位来调整机器学习模型的输出。另一方面,缺乏对职位的响应会导致βj的后验均值接近于0,并且机器学习模型的全局版本对职位与给定成员之间的评分有压倒性的贡献。
[0048]
上述广义线性混合模型的更通用的公式包括以下表示:
[0049][0050][0051]
关于上述表示,使r表示正在被建模的随机效应类型的集合。还使i(r,n)表示索引函数,其检索第n个训练样本中的随机效应类型r的索引(例如,如果随机效应类型r表示每个职位的随机效应,则i(r,n)返回与样本n相关联的职位id)。给定索引函数,γ
ri(r,n)
表示
第n个训练样本中的随机效应类型r的随机效应系数向量,并且表示第n个训练样本中的随机效应类型r的相应特征向量。
[0052]
在一个或多个实施例中,探索装置212使用不同的训练配置(例如,训练配置1 244、训练配置n 246)来训练每个机器学习模型。每个训练配置包含要输入到相应机器学习模型中的特征集合。
[0053]
继续以上示例,训练配置包括向候选者推荐职位(或向职位推荐候选者)的机器学习模型的全局版本、用户特定版本和职位特定版本的不同特征集合。全局版本使用的特征包括但不限于头衔、技能、教育、资历、行业、位置和/或来自具有在线系统(例如,图1的在线网络118)和/或简历的候选者的简档的其他属性。特征还包括职位的声明或推断的属性,例如职位的头衔、行业、资历、期望的技能和经验、工资范围和/或位置。特征另外地包括候选者对职位的印象的上下文,例如将向候选者展示或推荐职位的时间和地点(例如,地理位置、应用、网站、网页、用于访问在线系统的设备或平台等等)。最后,特征包括根据成员和职位属性计算的派生特征,例如成员和/或职位属性的矢量积、余弦相似度、统计结果和/或其他组合、聚合、缩放和/或变换。
[0054]
由机器学习模型的用户特定版本使用的特征包括候选者最近和/或长期与职位交互的历史、候选者的声明的或推断的职位偏好(例如,偏好的头衔、职能、行业、资历、地点、公司等等)和/或候选者求职行为或偏好的其他表示。这些特征还包括职位的部分或全部职位属性。由机器学习模型的职位特定版本使用的特征包括候选者的属性,其可以用于预测候选者对职位的兴趣。
[0055]
每个训练配置还或替代地包括相应机器学习模型的一个或多个超参数。例如,超参数包括调整机器学习模型收敛速度的收敛参数。在另一个示例中,超参数包括控制聚类技术和/或利用聚类的分类技术中的聚类量(例如,聚类的数量)的聚类参数。在第三示例中,超参数指定输入到机器学习模型中的特征的特征复杂度,例如自然语言处理期间使用的n元组中的主题或项目的数量。在第四示例中,超参数包括控制机器学习模型的训练的模型训练参数,例如梯度下降技术中的步长或动量。在第五示例中,超参数包括指定机器学习模型的类型的模型选择参数(例如,逻辑回归、人工神经网络、支持向量机、决策树、深度学习模型等等)。在第六示例中,超参数包括衰减参数,例如用于确定模拟退火(annealing)中的退火时间表的参数。在第七示例中,超参数包括“超超参数”,例如起始位置、默认值和/或与探索其他超参数的搜索空间相关的其他参数。在第八示例中,超参数包括阈值,例如用于移除人工神经网络中具有低权重的链接的阈值。在第九示例中,超参数包括
[0056]
在一个或多个实施例中,探索装置212用来训练机器学习模型的一些或全部训练配置包括控制机器学习模型的个性化的量的一个或多个超参数。例如,上述广义线性混合模型的通用公式包括以下目标函数:
[0057][0058]
上述目标函数包括模型参数{b,{γr}},其中,b表示全局版本的固定效应系数,并且γr={γ
rl
}表示随机效应类型r的随机效应系数,其中l的范围从1到随机效应类型r的实例的总数(例如,当r表示成员时,为数据集中的成员总数)。在目标函数内,p(si)表示在给
定b和γ的情况下,与训练数据集ω中的样本i相关联的给定响应的似然函数。
[0059]
上述目标函数还包括超参数λb和{λr}。λb表示固定效应系数对目标函数的贡献,并且每个λr表示随机效应类型r的随机效应系数对目标函数的贡献。
[0060]
在探索装置212使用训练数据集216和相应的训练配置来训练了给定机器学习模型的全局版本和个性化版本之后,探索装置212使用评估数据集218来评估该机器学习模型的性能(例如,性能1 240、性能n 242)。例如,探索装置212将机器学习模型的全局版本应用于评估数据集218中的每个记录,并且将机器学习模型的个性化版本应用于评估数据集218中的具有相应实体id的记录。对于评估数据集218中的每个记录,探索装置212将机器学习模型的全局版本和个性化版本的输出聚合为评分,并且将该评分与该记录的相应标注进行比较。探索装置212然后通过基于该比较来计算精确度、召回率、接收机操作特征(roc)曲线下面积(auc)、f1评分、观察/预期(oze)比、平均绝对误差、均方误差和/或另一性能指标来评估机器学习模型的性能。
[0061]
在一个或多个实施例中,探索装置212使用不同的训练配置来训练和评估多个机器学习模型,以探索机器学习模型的不同特征集合和/或超参数。进而,探索装置212识别产生最佳性能的机器学习模型的特征集合和/或超参数。
[0062]
例如,探索装置212首先使用来自训练数据集216的不同特征集合来训练机器学习模型集合。探索装置212使用评估数据集218来评估机器学习模型的性能,识别具有最佳性能的机器学习模型,并且从相应的训练配置中获得输入到该机器学习模型中的特征集合。探索装置212使用相同的特征集合和第一超参数的不同的值来训练第二机器学习模型集合,并且从第二机器学习模型集合中选择具有最高性能的机器学习模型。探索装置212使用该特征集合,来自第二机器学习模型集合中的性能最高的模型的、第一超参数的值,以及第二超参数的不同值来训练第三机器学习模型集合。探索装置212然后获得与第三机器学习模型集合中的性能最高的机器学习模型相关联的、第二超参数的值。探索装置212可选地重复如下过程:改变用于训练机器学习模型的单个属性(例如,特征集合、超参数等),识别产生最佳性能的、属性的值,固定该值,以及探索用于训练机器学习模型的后续属性,直到已经为全部相关属性识别了最优值为止。
[0063]
在一个或多个实施例中,图2的系统包括用于减小用于训练机器学习模型的训练数据和用于评估经训练的机器学习模型的性能的评估数据的规模的功能。较小的数据量减少了训练和评估机器学习模型所需的时间、资源和/或开销的量,这提高了选择超参数、特征集合和/或其他类型的训练配置用于机器学习模型的效率和/或彻底性。
[0064]
更具体地,采样装置204生成包括从训练数据集216采样的记录228的经采样的训练数据集224和包括从评估数据集218采样的记录230的经采样的评估数据集226。例如,经采样的训练数据集224中的记录228表示训练数据集216中的一定比例或百分比的记录。类似地,经采样的评估数据集226中的记录230表示评估数据集218中的一定比例或百分比的记录。
[0065]
在一个或多个实施例中,采样装置204基于与记录228-230相关联的实体id,从训练数据集216和评估数据集218采样记录228-230。在这些实施例中,采样装置204从评估数据集218中选择评估实体id 220的随机子集222,并且利用与来自评估数据集218的所选择实体id相关联的记录230来填充经采样的评估数据集226。采样装置204然后识别训练数据
集216中的与相同实体id相关联的记录228,并且使用所识别的记录228来填充经采样的训练数据集224。
[0066]
因为评估数据集218中的实体id的数量显著小于训练数据集216中的实体id的数量,因此根据评估数据集218中的评估实体id 220的给定随机子集222来生成经采样的训练数据集224和经采样的评估数据集226确保了在经采样的训练数据集224中的实体id在经采样的评估数据集226中也被找到。进而,可以根据经采样的训练数据集224中的与经采样的实体id相关联的记录228来生成机器学习模型的个性化版本(例如,个性化版本236-238),并且可以使用经采样的评估数据集226中的与经采样的实体id相关联的记录230来评估相同的个性化版本。
[0067]
使用图3a中的示例性经采样的训练数据集224、经采样的评估数据集226、训练数据集216和评估数据集218来说明采样装置204的操作。如图3a所示,评估数据集218包括分别分组在成员id 2、3、5和7下的记录302-308。训练数据集216包括分别分组在成员id 1、2、3、4、5、6和7下的更大数量的记录310-322。
[0068]
为了生成经采样的评估数据集226,采样装置204从评估数据集218中随机选择成员id 3和7。采样装置204将评估数据集218中的分组在成员id 3下的记录304复制到经采样的评估数据集226中的相应的记录集合324,并且将评估数据集218中的分组在成员id 7下的记录308复制到经采样的评估数据集226中的相应的记录集合326。
[0069]
为了生成经采样的训练数据集224,采样装置204将经采样的成员id 3与训练数据集216中的记录集合314相匹配,并且将经采样的成员id 7与训练数据集216中的另一记录集合322相匹配。采样装置204然后将训练数据集216中的分组在成员id 3下的记录314复制到经采样的训练数据集224中的相应的记录集合328,并且将训练数据集216中的分组在成员id 7下的记录322复制到经采样的训练数据集224中的相应的记录集合330。因此,经采样的评估数据集226和经采样的训练数据集224二者都包含与经采样的成员id 3和7相关联的记录(例如,记录324-326和328-330)。
[0070]
在一个或多个实施例中,采样装置204包括用于针对包括多种随机效应类型的机器学习模型生成经采样的训练数据集224和经采样的评估数据集226的功能。例如,每个机器学习模型包括适合于成员集合的一个个性化版本集合和适合于职位集合的另一个性化版本集合。因此,训练数据集216和评估数据集218中的记录与以下两个实体id集合相关联:针对成员的第一成员id集合和针对职位的第二实体id集合。
[0071]
为了考虑训练数据集216和评估数据集218中的多种随机效应类型,采样装置204选择在评估数据集218的记录中找到的评估实体id 220的组合以包括在随机子集222中。采样装置204利用与来自评估数据集218的实体id的所选择的组合相关联的记录230来填充经采样的评估数据集226。采样装置204然后识别训练数据集216中的包含所选择的实体id中的一项或多项的记录228,并且使用所识别的记录228来填充经采样的训练数据集224。因此,经采样的训练数据集224包括训练数据集216中的与随机子集222中的全部实体id相关联的全部记录230。
[0072]
使用图3b中的示例性经采样的训练数据集224、经采样的评估数据集226、训练数据集216和评估数据集218来说明在存在多个随机效应的情况下采样装置204在生成经采样的训练数据集224和经采样的评估数据集226时的操作。如图3b所示,评估数据集218包括分
组在成员id和职位id对下的记录332-338。记录332分组在成员id 2和职位id 8下,记录334分组在成员id 3和职位id 5下,记录336分组在成员id 5和职位id 2下,并且记录338分组在成员id 7和职位id 4下。
[0073]
类似地,训练数据集216包括分组在相同和/或不同的成员id和职位id对下的更大数量的记录340-352。记录340分组在成员id 1和职位id 5下,记录342分组在成员id 2和职位id 15下,记录344分组在成员id 3和职位id 10下,记录346分组在成员id 4和职位id 7下,记录348分组在成员id 5和职位id 8下,记录350分组在成员id 6和职位id 4下,并且记录352分组在成员id 7和职位id 4下。
[0074]
在评估数据集218和训练数据集216内,与给定成员id和职位id对相关联的记录包括与相应成员和职位之间的交互和/或兼容性相关的信息。例如,包含成员id和职位id的记录包括相应成员和职位之间的相关性评分、向成员推荐职位的上下文(例如,推荐的时间和地点)和/或成员对推荐的响应。
[0075]
为了生成经采样的评估数据集226,采样装置204从评估数据集218中随机选择成员id 3和7和/或职位id 5和4。采样装置204将评估数据集218中的分组在成员id 3和职位id 5下的记录334复制到经采样的评估数据集226中的相应记录集合354。采样装置204还将评估数据集218中的分组在成员id 7和职位id 4下的记录338复制到经采样的评估数据集226中的相应记录集合356。
[0076]
为了生成经采样的训练数据集224,采样装置204将记录334中的成员id 3与训练数据集216中的记录集合344相匹配,并且将成员id 7与训练数据集216中的另一记录集合352相匹配。采样装置204还将记录334中的职位id 5与训练数据集216中的记录集合340相匹配,并且将职位id 4与训练数据集216中的两个记录集合350和352相匹配。采样装置204然后将记录340复制到经采样的训练数据集224中的相应记录集合358,并且将记录344复制到经采样的训练数据集244中的相应记录集合360。采样装置204还将记录350复制到经采样的训练数据集224中的相应记录集合362,并且将记录352复制到经采样的训练数据集224中的相应记录集合364。因此,经采样的评估数据集226和经采样的训练数据集224二者都包含与经采样的成员id 3和7和/或经采样的职位id 4和5相关联的记录(例如,记录324-326和328-330)。
[0077]
在采样装置204从训练数据集216生成了经采样的训练数据集224并且从经采样的评估数据集226生成了经采样的评估数据集226之后,探索装置212使用经采样的训练数据集224和相应的训练配置来训练机器学习模型。在训练完成之后,探索装置212使用经采样的评估数据集226来评估机器学习模型的性能。
[0078]
为了探索机器学习模型的不同训练配置,采样装置204生成多个经采样的训练数据集和经采样的评估数据集,每个经采样的评估数据集226和相应的经采样的训练数据集224包含与来自评估数据集218的评估实体id220的不同随机子集222相关联的记录(例如,记录228-230)。探索装置212使用经采样的训练数据集、经采样的评估数据集和多个训练配置来训练和评估多个机器学习模型。
[0079]
因为每个经采样的训练数据集224和经采样的评估数据集226包括相应训练数据集216和评估数据集218中的数据的一部分,所以探索装置212能够在时间的相应部分中和/或利用使用完整训练数据集216和评估数据集218来训练和执行每个机器学习模型所需的
资源的相应部分来训练和评估该机器学习模型。例如,探索装置212需要在分配的存储器和处理器资源的集合上连续执行多个小时,以使用训练数据集216和评估数据集218中的数十亿条记录来训练和评估机器学习模型。相反,探索装置212能够使用经采样的训练数据集224和经采样的评估数据集226中的数量少得多的记录(例如,记录228-230)在相同资源集合上并行训练和评估多个机器学习模型。
[0080]
进而,探索装置212使用机器学习模型的加速的训练和评估来探索机器学习模型的训练配置中的各种特征集合和/或超参数。如上所述,探索装置212包括用于训练多个机器学习模型集合的功能。每个机器学习模型集合用于探索训练配置中的一个或多个属性的值,而其余属性是固定的。在机器学习模型集合被训练之后,对该集合中的机器学习模型的性能进行比较,并且在随后的训练配置中使用用于产生该集合中的性能最高的机器学习模型的所探索的属性的一个或多个值。
[0081]
在已经探索了训练配置中的全部属性之后,探索装置212根据训练配置生成性能最佳的属性值组合,并且将属性值集合提供给部署装置206。部署装置206使用所识别的属性值和训练数据集216来训练最终模型214的全局版本和个性化版本。部署装置206然后使用评估数据集218和/或评估数据集218中的测试数据集来评估最终模型214的性能。在验证了最终模型214的性能之后,部署装置206在现场、生产和/或真实世界环境或设置中部署最终模型214。在所部署的环境或设置中,所部署的最终模型214用于补充或执行任务,例如管理应用的执行、个性化用户体验、管理关系、做出临床决策、执行交易、操作自动驾驶车辆或机器、和/或分析指标或测量结果。
[0082]
在一个或多个实施例中,部署装置206使用与每个机器学习模型的全局版本相关联的正则化超参数的经缩放版本来训练最终模型214。在一些实施例中,正则化超参数由上述广义线性混合模型的目标函数中的λb表示。在探索正则化超参数期间,使用经采样的训练数据集224来训练全局版本,经采样的训练数据集224包含记录228,记录228是训练数据集216中的全部数量的记录的一部分。因此,由探索装置212选择的用于最终模型214的正则化超参数的值反映了经采样的训练数据集224中的较少数量的记录。
[0083]
为了确保正则化超参数在最终模型214中获得类似的性能,探索装置212、部署装置206和/或另一组件通过由经采样的训练数据集224代表的训练数据集216的比例的倒数来对正则化超参数进行缩放。例如,如果训练数据集216具有n个记录并且经采样的训练数据集224具有m个记录,其中n》》m,则组件将正则化参数的新值计算为n/m*λb。部署装置206然后使用新值来训练最终模型214。
[0084]
通过从小于训练数据集的评估数据集中采样实体id并且使用经采样的实体id来生成经采样的训练数据集和经采样的评估数据集,所公开的实施例确保机器学习模型的个性化版本是针对来自经采样的训练数据集中的经采样的实体id创建的,并且随后可以使用与评估数据集中的相同实体id关联的记录来进行评估。此外,生成比相应的完整的训练数据集和评估数据集小得多的经采样的训练数据集和经采样的评估数据集加速了机器学习模型的训练和评估,这减少了使用多个训练配置来训练多个机器学习模型所需的时间和/或资源的量。提高的训练速度进一步使得能够对机器学习模型的超参数、特征集合和/或训练配置进行更彻底的探索,这进而获得更高性能的机器学习模型。
[0085]
相比之下,传统技术使用完整的训练数据集和/或评估数据集来执行对机器学习
模型的训练和/或评估。因此,与使用经采样的训练数据集和经采样的评估数据集进行训练和评估相比,单个机器学习模型的训练和评估需要显著更多的时间和/或计算资源。与使用完整训练数据集进行训练相关联的增加的开销和/或延迟额外干扰机器学习模型的超参数、特征集合和/或训练配置的探索和/或优化,这可能导致机器学习模型的性能降低。
[0086]
传统技术还或替代地从训练数据集和/或评估数据集中对个体记录进行采样以减小数据集的大小。然而,这种基于记录的采样从每个数据集中移除与个体实体相关联的数据,这导致使用相应实体的不完整数据来训练和/或评估机器学习模型的每个个性化版本。因此,个性化版本没有被训练为适合训练数据集中的实体的全部可用行为、偏好和/或其他信号,并且没有针对评估数据集中的实体的附加信号进行全面评估。进而,个性化版本的这种有限的训练和/或评估导致个性化版本的性能降低。因此,所公开的实施例改进了与训练机器学习模型、评估机器学习模型、特征工程和/或超参数优化相关的计算机系统、应用、用户体验、工具和/或技术。
[0087]
本领域技术人员将理解,可以用多种方式实现图2的系统。首先,采样装置204、探索装置212、部署装置206和/或数据存储库134可以由单个物理机器、多个计算机系统、一个或多个虚拟机、网格、一个或多个数据库、一个或多个文件系统和/或云计算系统来提供。采样装置204、探索装置212和部署装置206可以另外由一个或多个硬件和/或软件组件和/或层一起和/或分开实施。
[0088]
其次,该系统可以与各种类型的机器学习模型和/或任务一起使用。例如,由探索装置212训练的机器学习模型包括但不限于回归模型、人工神经网络、支持向量机、决策树、随机森林、梯度提升树、朴素贝叶斯分类器、贝叶斯网络、聚类技术、协同过滤技术、深度学习模型、分层模型和/或集成模型。在另一示例中,探索装置212和/或部署装置206包括用于训练、评估和部署机器学习模型以用于执行各种类型的推理、预测、分类、推荐、聚类和/或回归的功能。
[0089]
图4示出了说明根据所公开的实施例的数据的处理的流程图。在一个或多个实施例中,一个或多个步骤可以被省略、重复和/或以不同的顺序执行。因此,图4中所示的步骤的具体布置不应当被解释为限制实施例的范围。
[0090]
首先,获得包含与第一实体id的第一id值集合相关联的第一记录集合的训练数据集和包含与第一实体id的第二id值集合相关联的第二记录集合的评估数据集(操作402)。例如,训练数据集和评估数据集包含与在线系统,例如图1的在线网络118,的成员的成员id相关联的记录。训练数据集包含与评估数据集和/或评估数据集中的成员id的超集相比数量显著更多的记录。
[0091]
从第二id值集合中选择随机id值子集(操作404),并且生成包含第二记录集合中的与随机id值子集相关联的记录子集的经采样的评估数据集(操作406)。例如,生成和/或选择随机id值子集以包括评估数据集中的一定比例(例如,分率、百分比等)的id值。然后,生成经采样的评估数据集以包括评估数据集中的与随机id值子集相关联的记录。
[0092]
在第二记录子集中识别一个或多个附加实体id的第三id值集合(操作408),并且生成包含第一记录集合中的与随机id值子集和第三id值集合相关联的记录子集的经采样的训练数据集(操作410)。例如,第三id值集合包括与经采样的评估数据集中的记录相关联的职位id和/或其他类型的实体id。为了确保经采样的训练数据集包括在经采样的评估数
据集中找到的全部实体id值,将训练数据集中与经采样的评估数据集中的实体id值中的任一项相关联的全部记录添加到经采样的训练数据集中。
[0093]
然后,输出经采样的训练数据集和经采样的评估数据集以用于对包括全局版本和针对由经采样的训练数据集和经采样的评估数据集中的id值表示的实体的个性化版本的机器学习模型进行训练和评估(操作412)。例如,经采样的训练数据集和经采样的评估数据集被存储在数据存储装置中,和/或被发送到执行机器学习模型的训练和评估的组件。该组件然后使用经采样的训练数据集和经采样的评估数据集来探索用于机器学习模型的不同训练配置,如下文针对图5进一步详细描述的。
[0094]
图5示出了说明根据所公开的实施例的执行模型探索的过程的流程图。在一个或多个实施例中,一个或多个步骤可以被省略、重复和/或以不同的顺序执行。因此,图5中所示的步骤的具体布置不应当被解释为限制实施例的范围。
[0095]
首先,获得经采样的训练数据集和经采样的评估数据集(操作502)。如上所述,经采样的训练数据集和经采样的评估数据集被生成,使得与经采样的评估数据集中的记录相关联的全部实体id也包括在经采样的训练数据集中。
[0096]
接下来,使用经采样的训练数据集和训练配置来训练机器学习模型的全局版本和个性化版本(操作504)。例如,训练配置包括机器学习模型的一个或多个特征和/或超参数。使用与训练数据集中的全部实体相关联的记录来训练机器学习模型的全局版本。使用与第一实体id(例如,成员id)的相应id值相关联的记录来训练机器学习模型的第一个性化版本集合中的每个个性化版本,并且使用与第二实体id(例如,职位id)的相应id值相关联的记录来训练机器学习模型的第二个性化版本集合中的每个个性化版本。
[0097]
在机器学习模型的全部版本都被训练之后,使用经采样的评估数据集来评估机器学习模型的性能(操作506)。例如,将机器学习模型应用于经采样的评估数据集中的特征以产生评分集合,并且根据评分集合和经采样的评估数据集中的这些特征的标注来计算一个或多个性能指标。
[0098]
对剩余的训练配置重复操作502-506(操作508)。例如,使用不同的经采样的训练数据集和经采样的评估数据集来训练和评估多个机器学习模型。使用在相应训练配置中指定的不同的特征和/或超参数的集合来对每个机器学习模型进行额外训练。
[0099]
然后,比较机器学习模型的性能,以识别性能最高的机器学习模型(操作510)。例如,性能最高的机器学习模型被识别为具有最佳单个性能指标和/或通过对多个性能指标进行聚合而生成的最佳值。
[0100]
最后,使用用于性能最高的机器学习模型的训练配置和完整训练数据集来训练最终机器学习模型(操作512)。例如,最终机器学习模型是使用在用于性能最高的机器学习模型的训练配置中指定的超参数和/或特征来训练的。还使用完整训练数据集来训练最终机器学习模型,而不是使用根据完整训练数据集中的记录子集生成的小得多的经采样的训练数据集来训练。在最终机器学习模型的训练期间,从训练配置获得与机器学习模型的全局版本相关联的正则化超参数,并且该正则化超参数由经采样的训练数据集代表的训练数据集的比例的倒数来进行缩放。例如,正则化超参数由除以了经采样的训练数据集中的记录的数量的、完整训练数据集中的记录的数量来进行缩放。
[0101]
图6示出了根据所公开的实施例的计算机系统600。计算机系统600包括处理器
602、存储器604、存储设备606和/或电子计算设备中找到的其他组件。处理器602可以支持与计算机系统600中的其他处理器的并行处理和/或多线程操作。计算机系统600还可以包括输入/输出(i/o)设备,例如键盘608、鼠标610和显示器612。
[0102]
计算机系统600可以包括用于执行本文的实施例的各种组件的功能。具体而言,计算机系统600可以包括协调计算机系统600上的硬件和软件资源的使用的操作系统(未示出),以及为用户执行专门任务的一个或多个应用。为了为用户执行任务,应用可以从操作系统获得对计算机系统600上的硬件资源的使用,以及通过由操作系统提供的硬件和/或软件框架与用户交互。
[0103]
在一个或多个实施例中,计算机系统600提供用于处理数据的系统。该系统包括取样装置和探索装置。采样装置获得包含与第一id值集合相关联的第一记录集合的训练数据集和包含与第二id值集合相关联的第二记录集合的评估数据集。接下来,采样装置从第二id值集合中选择随机id值子集。采样装置然后生成经采样的评估数据集,该经采样的评估数据集包括第二记录集合中的与随机id值子集相关联的第一记录子集。采样装置还生成经采样的训练数据集,该经采样的训练数据集包括第一记录集合中的与随机id值子集相关联的第二记录子集。采样装置输出经采样的训练数据集和经采样的评估数据集以用于训练和评估机器学习模型,并且探索装置使用经采样的训练数据集来训练机器学习模型,并且使用经采样的评估数据集来评估机器学习模型。
[0104]
此外,计算机系统600的一个或多个组件可以被远程定位,并且通过网络连接到其他组件。本文的实施例的一些部分(例如,采样装置、探索装置、部署装置、数据存储库、在线网络等)也可以位于实现实施例的分布式系统的不同节点上。例如,本文的实施例可以使用云计算系统来实现,该云计算系统对训练数据集和评估数据集进行采样以便与远程机器学习模型集合一起使用。
[0105]
本详细描述中描述的数据结构和代码通常存储在计算机可读存储介质上,该计算机可读存储介质可以是可以存储代码和/或数据以供计算机系统使用的任何设备或介质。计算机可读存储介质包括但不限于易失性存储器、非易失性存储器、磁和光存储设备,例如磁盘驱动器、磁带、cd(光盘)、dvd(数字多功能光盘或数字视频光盘),或者能够存储现在已知或以后开发的代码和/或数据的其他介质。
[0106]
在详细描述部分中描述的方法和过程可以体现为代码和/或数据,其可以存储在如上所述的计算机可读存储介质中。当计算机系统读取和执行存储在计算机可读存储介质上的代码和/或数据时,计算机系统执行体现为数据结构和代码并存储在计算机可读存储介质内的方法和过程。
[0107]
此外,本文中描述的方法和过程可以包括在硬件模块或装置中。这些模块或装置可以包括但不限于在特定时间执行特定软件模块或一段代码的专用集成电路(asic)芯片、现场可编程门阵列(fpga)、专用或共享处理器(包括专用或共享处理器核),和/或现在已知或将来开发的其他可编程逻辑设备。当硬件模块或装置被激活时,它们执行包括在其内的方法和过程。
[0108]
已经仅出于说明和描述的目的呈现了各种实施例的前述描述。它们并非旨在穷举或将本发明限制于所公开的形式。因此,许多修改和变化对于本领域技术人员来说将是显而易见的。此外,以上公开内容并非意在限制本公开内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献