用于生成在线预测模型的方法、设备、介质及程序产品与流程

2022-06-29 20:13:17 来源：中国专利 TAG：

1.本技术涉及通信领域，尤其涉及一种用于生成在线预测模型的技术。

背景技术：

2.在现有技术中，人工智能(artificial intelligence，ai)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

技术实现要素：

3.本技术的一个目的是提供一种用于生成在线预测模型的方法、设备、介质及程序产品。
4.根据本技术的一个方面，提供了一种用于生成在线预测模型的方法，该方法包括：
5.通过多个在线学习算法分别对特征数据进行在线学习，得到对应的多个模型；
6.基于注意力机制对线上实时回流数据进行学习，获得所述多个模型对应的模型融合策略；
7.根据所述模型融合策略对所述多个模型进行实时动态融合，生成在线预测模型。
8.根据本技术的一个方面，提供了一种用于生成在线预测模型的第一设备，该设备包括：
9.一一模块，用于通过多个在线学习算法分别对特征数据进行在线学习，得到对应的多个模型；
10.一二模块，用于基于注意力机制对线上实时回流数据进行学习，获得所述多个模型对应的模型融合策略；
11.一三模块，用于根据所述模型融合策略对所述多个模型进行实时动态融合，生成在线预测模型。
12.根据本技术的一个方面，提供了一种用于生成在线预测模型的计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其中，所述处理器执行所述计算机程序以实现如上所述任一方法的操作。
13.根据本技术的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如上所述任一方法的操作。
14.根据本技术的一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如上所述任一方法的步骤。
15.与现有技术相比，本技术通过多个在线学习算法分别对特征数据进行在线学习，得到对应的多个模型，基于注意力机制对线上实时回流数据进行学习，获得所述多个模型对应的模型融合策略，根据所述模型融合策略对所述多个模型进行实时动态融合，生成在
线预测模型，本技术实现了一种基于动态自适应的多模型融合的多任务在线学习系统，可汲取各个模型的长处，更好地促进多模型的融合，同时融合了每个模型独特的基于时长、点击率、点赞、收藏等多任务多目标的学习方式，可以起到个性化学习的功效，基于该本技术的在线学习系统，可以将推荐系统的召回、粗排、精排、冷启动等多个环节贯穿打通，做到全链路的统一优化，减少中间环节的误差传导，提高各环节的效率。
附图说明
16.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
17.图1示出根据本技术一个实施例的一种用于生成在线预测模型的方法流程图；
18.图2示出根据本技术一个实施例的一种基于动态自适应的多模型融合的多任务在线学习系统的架构图；
19.图3示出根据本技术一个实施例的一种用于生成在线预测模型的第一设备结构图；
20.图4示出可被用于实施本技术中所述的各个实施例的示例性系统。
21.附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
22.下面结合附图对本技术作进一步详细描述。
23.在本技术一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(例如，中央处理器(central processing unit，cpu))、输入/输出接口、网络接口和内存。
24.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(random access memory，ram)和/或非易失性内存等形式，如只读存储器(read only memory，rom)或闪存(flash memory)。内存是计算机可读介质的示例。
25.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(phase-change memory，pcm)、可编程随机存取存储器(programmable random access memory，pram)、静态随机存取存储器(static random-access memory，sram)、动态随机存取存储器(dynamic random access memory，dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(compact disc read-only memory，cd-rom)、数字多功能光盘(digital versatile disc,dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
26.本技术所指设备包括但不限于终端、网络设备、或终端与网络设备通过网络相集成所构成的设备。所述终端包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品，例如智能手机、平板电脑等，所述移动电子产品可以采用任意操作系统，如android操作系统、ios操作系统等。其中，所述网络设备包括一种能够
按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit，asic)、可编程逻辑器件(programmable logic device，pld)、现场可编程门阵列(field programmable gate array，fpga)、数字信号处理器(digital signal processor，dsp)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算(cloud computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(ad hoc网络)等。优选地，所述设备还可以是运行于所述终端、网络设备、或终端与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
27.当然，本领域技术人员应能理解上述设备仅为举例，其他现有的或今后可能出现的设备如可适用于本技术，也应包含在本技术保护范围以内，并在此以引用方式包含于此。
28.在本技术的描述中，“多个”的含义是两个或者更多，除非另有明确具体的限定。
29.图1示出根据本技术一个实施例的一种用于生成在线预测模型的方法流程图，该方法包括步骤s11、步骤s12和步骤s13。在步骤s11中，第一设备通过多个在线学习算法分别对特征数据进行在线学习，得到对应的多个模型；在步骤s12中，第一设备基于注意力机制对线上实时回流数据进行学习，获得所述多个模型对应的模型融合策略；在步骤s13中，第一设备根据所述模型融合策略对所述多个模型进行实时动态融合，生成在线预测模型。
30.在步骤s11中，第一设备通过多个在线学习算法分别对特征数据进行在线学习，得到对应的多个模型。在一些实施例中，第一设备可以是用户设备，或者，也可以是网络设备。在一些实施例中，在线学习算法是这样一类算法，其使用直到当前时刻的历史数据来作出决定，在线学习算法也被称为流算法，由每个机器应用增量式训练以一次学习一个实例，当新数据变得可用，算法不需要在全部数据上重新训练，因为它们继续增量地改善现有模型。在一些实施例中，在线学习是一种模型的训练方法，在线学习能够根据线上反馈数据，实时快速地进行模型调整，使得模型及时反映线上的变化，提高线上预测的准确率，在线学习的流程包括将模型的预测结果展现给用户、然后收集用户的反馈数据、再用来训练模型、形成闭环的系统。在一些实施例中，传统的学习算法，模型上线后，更新的周期会比较长(一般是一天，效率高的时候为一小时)，这种模型上线后，一般是静态的(一段时间内不会改变)，不会与线上的状况有任何互动，假设预测错了，只能在下一次更新的时候完成更正，在线学习算法不同，会根据线上预测的结果动态调整模型，如果模型预测错误，会及时做出修正，因此，在线学习算法能够更加及时地反映线上变化。在一些实施例中，特征数据是对获取到的各个用户的数据(例如，用户的浏览数据、用户浏览的物品的数据)进行特征提取后获得的，例如，特征数据包括但不限于用户的浏览行为特征、用户浏览的物品特征以及一些上下文的特征等。在一些实施例中，通过每个在线学习算法分别对特征数据进行在线学习，得到每个在线学习算法分别对应的模型。
31.在步骤s12中，第一设备基于注意力机制对线上实时回流数据进行学习，获得所述多个模型对应的模型融合策略。在一些实施例中，注意力机制(attention mechanism)的本质来自于人类视觉注意力机制，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分，而且当人们发现一个场景
经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上，注意力机制(attention mechanism)和人类视觉的注意力机制类似，就是在众多信息中把注意力集中放在重要的点上，选出关键信息，而忽略其他不重要的信息，attention的原理就是计算当前输入序列与输出向量的匹配程度，匹配度高也就是注意力集中点其相对的得分越高，其中attention计算得到的匹配度权重，只限于当前序列对，不是像网络模型权重这样的整体权重。一些实施例中，注意力机制是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，用来自动学习和计算输入数据对输出数据的贡献大小。在一些实施例中，线上实时回流数据包括应用客户端线上实时回流给应用服务器的在线预测模型的预测值及在该应用中使用该预测值(例如，在某个推荐位中呈现用户点击率最高的信息项(例如，某本书籍))后该应用的相关业务指标，该业务指标可以是该应用中的用户对于该推荐位的行为反馈数据，该用户反馈数据包括但不限于用户是否点击推荐位进入了某本推荐书籍的阅读页、该用户是否收藏了该推荐位对应的推荐书籍、该用户已观看该推荐位对应的推荐书籍的章节数、用户在该推荐位对应的推荐书籍内是否通过观看激励视频解锁付费章节等。在一些实施例中，模型融合策略可以是每个模型对应的加权权重系数，或者，还可以是该多个模型对应的模型融合方式以及相关的融合参数等，其中，模型融合方式包括但不限于自助聚合方式、提升方式、堆叠方式以及以上三种方式中的至少两种方式的组合。
32.在步骤s13中，第一设备根据所述模型融合策略对所述多个模型进行实时动态融合，生成在线预测模型。在一些实施例中，可以是根据模型融合策略中的每个模型对应的加权权重系数，采用模型加权的方式对所述多个模型进行实时动态融合。在一些实施例中，还可以是采用模型融合策略中指定的模型融合方式，在模型层面对所述多个模型进行实时动态融合。在一些实施例中，通过对线上实时回流数据(例如，线上以往业务指标效果)进行学习，获得该多个模型对应的模型融合策略，并根据该模型融合策略，对该多个模型进行动态地、自适应地实时融合，可以更好地促进该多个模型的融合。在一些实施例中，通过对多个模型进行实时动态融合，生成在线预测模型，该在线预测模型的输入包括但不限于某个用户的用户信息(例如，用户画像信息)、对用户信息进行特征提取后获得的特征信息、某个信息项(例如，某本推荐书籍)的相关信息(例如，该本推荐书籍的作者信息、分类信息、标题信息、简介信息等)、对该相关信息进行特征提取后获得的特征信息等。在一些实施例中，该在线预测模型的输出包括但不限于预测某个信息项(例如，某本推荐书籍)的用户点击率、预测该信息项的用户阅读平均时长、预测某个用户是否会点击该信息项、预测该用户阅读该信息项的时长等。在一些实施例中，该在线预测模型通过将多个模型相结合，可以相互取长补短，得到指标和性能的平衡。在一些实施例中，可以在模型训练学习端进行融合，或者，还可以在参数服务器端进行融合，其中，参数服务器端用于存储模型所学习到的模型参数，或者，还可以在在线预测模块端进行融合。在一些实施例中，动态自适应模块通过对线上实时回流数据进行学习，获得该多个模型对应的模型融合策略，根据该模型融合策略动态更新专家系统模块，然后通过专家系统模块对该多个模型进行实时动态融合，生成在线预测模型。本技术实现了一种基于动态自适应的多模型融合的多任务在线学习系统，可汲取各个
模型的长处，更好地促进多模型的融合，同时融合了每个模型独特的基于时长、点击率、点赞、收藏等多任务多目标的学习方式，可以起到个性化学习的功效，基于该本技术的在线学习系统，可以将推荐系统的召回、粗排、精排、冷启动等多个环节贯穿打通，做到全链路的统一优化，减少中间环节的误差传导，提高各环节的效率，即推荐系统中的各个环节都会涉及到相关的一些模型，本技术可以让所有环节都使用本技术中的在线学习系统来进行优化，可以节省很多资源和成本。
33.在一些实施例中，所述在线学习算法包括：流式逻辑回归算法；因子分解机算法。在一些实施例中，基于ftrl(follow the regularized leader)算法在线学习的模型，融合了很多专家知识的交叉特征，在保证模型精准的前提下，有不错的在线预测效率。在一些实施例中，基于fm(factorization machine，因子分解机)算法在线学习的模型，学习了隐藏的交叉特征，通过理论的变换，在保证模型精准的前提下，模型预测效率也能保证。在一些实施例中，本技术不仅使用于基于ftrl算法在线学习的模型和基于fm算法在线学习的模型的融合，还适应任何模型的融合，不仅适用于两个模型的融合，还适用于三个模型甚至更多模型的融合。
34.在一些实施例中，所述步骤s11包括：第一设备对于多个在线学习算法中的每个在线学习算法，通过该在线学习算法基于多个视角对所述特征数据进行多个维度的在线学习，得到该在线学习算法对应的模型。在一些实施例中，对于该多个在线学习算法中的每个在线学习算法，基于深度学习领域的多头注意力(multi head attention)机制，通过该在线学习算法开启多个视角(views)对特征数据进行多个不同维度的学习，得到该在线学习算法对应的模型，该模型会从不同维度、不同视角，多方位的去捕捉到更丰富的特征，以达到提升模型范化性、加快模型收敛速度的目的。
35.在一些实施例中，，所述通过该在线学习算法基于多个视角对所述特征数据进行多个维度的在线学习，包括：通过该在线学习算法对多个任务并行进行学习；对于每个任务，基于多个视角对所述特征数据进行多个维度的在线学习。在一些实施例中，多任务学习(multi-task learning)是和单任务学习(single-task learning)相对的一种机器学习方法，在机器学习领域，标准的算法理论是一次学习一个任务，也就是系统的输出为实数的情况，复杂的学习问题先被分解成理论上独立的子问题，然后分别对每个子问题进行学习，最后通过对子问题学习结果的组合建立复杂问题的数学模型，多任务学习是一种联合学习，多个任务并行学习，结果相互影响，所谓多任务学习，就是同时求解多个问题。在一些实施例中，将多个相关的任务放在一起来并行学习，例如该模型同时学习预测用户点击率和预测用户阅读平均时长等多个任务，该模型对于一个输入可以同时输出多个任务对应的预测结果，例如该模型对于一个信息项的输入可以同时输出该信息项对应的用户点击率及用户阅读平均时长，从而使得该模型在兼顾用户点击率的预估的同时，还兼顾用户阅读平均时长的预估，达到多任务学习的效果。
36.在一些实施例中，所述通过该在线学习算法对多个任务并行进行学习，还包括：根据至少一个模型学习目标调整所述多个任务的学习权重。在一些实施例中，需要根据至少一个模型学习目标来调整每个任务在模型学习中的学习权重，即每个任务对应不同的学习权重，需要根据至少一个模型学习目标在模型学习中对每个任务进行学习权重加权，从而在在多任务学习中，使得某些任务尽可能优化，但却不影响其他任务的优化，即某个任务在
多任务学习中的优化程度或优化优先级与该任务的学习权重成正比，该任务的学习权重越高，则该任务在多任务学习中的优化程度或优化优先级越高。在一些实施例中，需要先确定每个任务对于模型学习目标的完成是否存在影响以及存在多大程度的影响，若某个任务对于模型学习目标的完成存在影响或者该任务存在的影响程度大于或等于预定的程度阈值或者该任务存在的影响程度大于其他任务对于模型学习目标所存在的影响程度，则可以适当增大该任务的学习权重，若某个任务对于模型学习目标的完成不存在任何影响或者该任务存在的影响程度小于预定的程度阈值或者该任务存在的影响程度小于其他任务对于模型学习目标所存在的影响程度，则可以适当提高该任务的学习权重，则可以适当减小该任务的学习权重。在一些实施例中，加入了多个模型学习目标对预测用户点击率和预测用户阅读平均时长等多个任务进行学习权重加权，达到多任务多目标学习的效果。
37.在一些实施例中，所述多个任务包括：用户点击率预估；用户阅读平均时长预估。在一些实施例中，该模型同时学习预测用户点击率和预测用户阅读平均时长等多个任务，例如，将某个信息项(例如，某本推荐书籍)的相关信息(例如，该本推荐书籍的作者信息、分类信息、标题信息、简介信息等)或对该相关信息进行特征提取后获得的特征信息输入该模型，可以同时输出得到该信息项对应的预估用户点击率和预估用户阅读平均时长，即预估每个用户点击该信息项的概率及预估每个用户阅读该信息项的平均时长。
38.在一些实施例中，所述至少一个模型学习目标包括以下至少一项：提升用户点击率；提升用户阅读平均时长；提升用户点赞数；提升用户收藏数。在一些实施例中，模型学习目标包括但不限于提升用户点击率和/或具体的提升数值、提升用户阅读平均时长和/或具体的提升数值、提升用户点赞数和/或具体的提升数值、提升用户收藏数和/或具体的提升数值，例如，模型学习目标可以是同时提升用户收藏数和提升用户阅读平均时长，例如，该模型学习目标可以是对于某个推荐位，若呈现该已学习的模型所输出的用户点击率最高的信息项(例如，某本书籍)，可以同时提升该推荐位或该信息项的用户收藏数和提升用户阅读平均时长，且具体的提升数值大于或等于预定的数值阈值。
39.在一些实施例中，所述基于注意力机制对线上实时回流数据进行学习，包括：基于注意力机制采用深度神经网络对线上实时回流数据进行学习。在一些实施例中，可以在动态自适应模块中，基于自注意力机制的原理，采用深度神经网络(dnn，deep neural networks)对线上实时回流数据(例如，线上以往业务指标效果)进行实时的学习计算，计算出下一步进行模型融合的策略。在一些实施例中，动态自适应模块，通过对线上实时回流数据进行实时的学习计算，动态更新专家系统模块，通过专家系统模块将该多个模块进行实时的动态融合，来汲取各个模型的长处。
40.在一些实施例中，所述模型融合策略包括每个模型对应的加权权重系数。在一些实施例中，可以通过对线上实时回流数据(例如，线上以往业务指标效果)进行实时的学习计算，计算出每个模型对应的加权权重系数，动态地调节自适应的专家系统模块，然后后续专家系统模块使用该加权权重系数，采用模型加权的方式对该多个模型进行实时动态融合，从而更好的促进多模型的融合。
41.在一些实施例中，所述基于注意力机制对线上实时回流数据进行学习，包括：基于注意力机制通过贝叶斯网络基于线上实时回流数据构建概率图模型进行学习。在一些实施例中，概率图模型是用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用
图来表示与模型有关的变量的联合概率分布，概率图模型是一类用图形模式表达基于概率相关关系的模型的总称。在一些实施例中，基于贝叶斯网络的专家系统模块通过根据线上实时回流数据(例如，线上以往业务指标效果)所构建的概率图模型来对该线上实时回流数据进行实时的学习计算，计算出下一步进行模型融合的策略。在一些实施例中，融合策略是基于该在线预测模型的线上表现，实时地、动态地更新的。
42.在一些实施例中，所述模型融合策略包括模型融合方式。在一些实施例中，模型融合策略包括模型融合方式以及相关的融合参数，其中，模型融合方式包括但不限于自助聚合方式、提升方式、堆叠方式以及以上三种方式中的至少两种方式的组合。在一些实施例中，可以通过对线上实时回流数据(例如，线上以往业务指标效果)进行实时的学习计算，计算出后续的模型融合方式以及相关的融合参数，动态地调节自适应的专家系统模块，然后后续专家系统模块根据该模型融合方式以及相关的融合参数，采用该模型融合方式对该多个模型进行实时动态融合，从而更好的促进多模型的融合。
43.在一些实施例中，所述根据所述模型融合策略对所述多个模型进行实时动态融合，包括：根据所述模型融合策略中的每个模型对应的加权权重系数，采用模型加权的方式对所述多个模型进行实时动态融合。在一些实施例中，根据每个模型对应的加权权项系数，采用模型加权的方式对该多个模型进行实时动态融合，具体的方式可以是在特征层面即模型的输入层面对该多个模型进行实时动态融合，或者，还可以是在模型结果层面即模型的输出层面对该多个模型进行实时动态融合。
44.在一些实施例中，所述采用模型加权的方式对所述多个模型进行实时动态融合，包括以下任一项：采用模型加权的方式在特征层面对所述多个模型进行实时动态融合；采用模型加权的方式在模型结果层面对所述多个模型进行实时动态融合。在一些实施例中，可以采用模型加权的方式在特征层面即模型的输入层面对该多个模型进行实时动态融合，例如，将特征数据按照每个模型对应的加权权重系数进行切分并分配给该模型作为该模型的输入。在一些实施例中，还可以采用模型加权的方式在模型结果层面即模型的输出层面对该多个模型进行实时动态融合，例如，将每个模型的输出结果按照该模型对应的加权权重系数进行加权，然后根据每个模型对应的加权后的输出结果，得到在线预测模型的输出结果，例如，将各个模型对应的加权后的输出结果之和作为在线预测模型的输出结果。
45.在一些实施例中，所述根据所述模型融合策略对所述多个模型进行实时动态融合，包括：采用所述模型融合策略中的模型融合方式在模型层面对所述多个模型进行实时动态融合；其中，所述模型融合方式包括以下任一项：自助聚合方式；提升方式；堆叠方式；以上三种方式中的至少两种方式的组合。在一些实施例中，采用模型融合策略中所指定的模型融合方式在模型层面对该多个模型进行实时动态融合，其中，模型层面的融合包括但不限于该多个模型的堆叠和设计，例如，基于该多个模型构建多层模型，将一个模型的输出结果作为另一个模型的特征输入。在一些实施例中，模型融合方式包括但不限于自助聚合方式(bagging)、提升方式(boosting)、堆叠方式(stacking)、以上三种方式中的至少两种方式的组合等，其中，bagging通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来，boosting通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器(每个基础模型都依赖于前面的模型)，并按照某种确定性的策略将它们组合起来，stacking通常考虑的是异质弱学习
器，并行地学习它们，并通过训练一个元模型将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。
46.图2示出根据本技术一个实施例的一种基于动态自适应的多模型融合的多任务在线学习系统的架构图。
47.如图2所示，该在线学习系统中的特征服务用于存储各个模型在线学习所需的特征数据，对于多个在线学习算法中的每个在线学习算法，通过该在线学习算法基于多个视角(views)对特征数据进行多个维度的在线学习，得到该在线学习算法对应的模型(多view实时训练模型1、多view实时训练模型2)，参数服务器1、参数服务器2用于分别存储每个模型所学习到的模型参数，然后动态自适应模型通过对线上实时回流数据进行学习，实时/定时更新在线预测模块(即专家系统模块)，通过在线预测模块将该多个模型进行实时动态融合，生成在线预测模型。
48.图3示出根据本技术一个实施例的一种用于生成在线预测模型的第一设备结构图，该设备包括一一模块11、一二模块12和一三模块13。一一模块11，用于通过多个在线学习算法分别对特征数据进行在线学习，得到对应的多个模型；一二模块12，用于基于注意力机制对线上实时回流数据进行学习，获得所述多个模型对应的模型融合策略；一三模块13，用于根据所述模型融合策略对所述多个模型进行实时动态融合，生成在线预测模型。
49.一一模块11，用于通过多个在线学习算法分别对特征数据进行在线学习，得到对应的多个模型。在一些实施例中，第一设备可以是用户设备，或者，也可以是网络设备。在一些实施例中，在线学习算法是这样一类算法，其使用直到当前时刻的历史数据来作出决定，在线学习算法也被称为流算法，由每个机器应用增量式训练以一次学习一个实例，当新数据变得可用，算法不需要在全部数据上重新训练，因为它们继续增量地改善现有模型。在一些实施例中，在线学习是一种模型的训练方法，在线学习能够根据线上反馈数据，实时快速地进行模型调整，使得模型及时反映线上的变化，提高线上预测的准确率，在线学习的流程包括将模型的预测结果展现给用户、然后收集用户的反馈数据、再用来训练模型、形成闭环的系统。在一些实施例中，传统的学习算法，模型上线后，更新的周期会比较长(一般是一天，效率高的时候为一小时)，这种模型上线后，一般是静态的(一段时间内不会改变)，不会与线上的状况有任何互动，假设预测错了，只能在下一次更新的时候完成更正，在线学习算法不同，会根据线上预测的结果动态调整模型，如果模型预测错误，会及时做出修正，因此，在线学习算法能够更加及时地反映线上变化。在一些实施例中，特征数据是对获取到的各个用户的数据(例如，用户的浏览数据、用户浏览的物品的数据)进行特征提取后获得的，例如，特征数据包括但不限于用户的浏览行为特征、用户浏览的物品特征以及一些上下文的特征等。在一些实施例中，通过每个在线学习算法分别对特征数据进行在线学习，得到每个在线学习算法分别对应的模型。
50.一二模块12，用于基于注意力机制对线上实时回流数据进行学习，获得所述多个模型对应的模型融合策略。在一些实施例中，注意力机制(attention mechanism)的本质来自于人类视觉注意力机制，人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看，而往往是根据需求观察注意特定的一部分，而且当人们发现一个场景经常在某部分出现自己想观察的东西时，人们会进行学习在将来再出现类似场景时把注意力放到该部分上，注意力机制(attention mechanism)和人类视觉的注意力机制类似，就是在众
多信息中把注意力集中放在重要的点上，选出关键信息，而忽略其他不重要的信息，attention的原理就是计算当前输入序列与输出向量的匹配程度，匹配度高也就是注意力集中点其相对的得分越高，其中attention计算得到的匹配度权重，只限于当前序列对，不是像网络模型权重这样的整体权重。一些实施例中，注意力机制是机器学习中的一种数据处理方法，广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，用来自动学习和计算输入数据对输出数据的贡献大小。在一些实施例中，线上实时回流数据包括应用客户端线上实时回流给应用服务器的在线预测模型的预测值及在该应用中使用该预测值(例如，在某个推荐位中呈现用户点击率最高的信息项(例如，某本书籍))后该应用的相关业务指标，该业务指标可以是该应用中的用户对于该推荐位的行为反馈数据，该用户反馈数据包括但不限于用户是否点击推荐位进入了某本推荐书籍的阅读页、该用户是否收藏了该推荐位对应的推荐书籍、该用户已观看该推荐位对应的推荐书籍的章节数、用户在该推荐位对应的推荐书籍内是否通过观看激励视频解锁付费章节等。在一些实施例中，模型融合策略可以是每个模型对应的加权权重系数，或者，还可以是该多个模型对应的模型融合方式以及相关的融合参数等，其中，模型融合方式包括但不限于自助聚合方式、提升方式、堆叠方式以及以上三种方式中的至少两种方式的组合。
51.一三模块13，用于根据所述模型融合策略对所述多个模型进行实时动态融合，生成在线预测模型。在一些实施例中，可以是根据模型融合策略中的每个模型对应的加权权重系数，采用模型加权的方式对所述多个模型进行实时动态融合。在一些实施例中，还可以是采用模型融合策略中指定的模型融合方式，在模型层面对所述多个模型进行实时动态融合。在一些实施例中，通过对线上实时回流数据(例如，线上以往业务指标效果)进行学习，获得该多个模型对应的模型融合策略，并根据该模型融合策略，对该多个模型进行动态地、自适应地实时融合，可以更好地促进该多个模型的融合。在一些实施例中，通过对多个模型进行实时动态融合，生成在线预测模型，该在线预测模型的输入包括但不限于某个用户的用户信息(例如，用户画像信息)、对用户信息进行特征提取后获得的特征信息、某个信息项(例如，某本推荐书籍)的相关信息(例如，该本推荐书籍的作者信息、分类信息、标题信息、简介信息等)、对该相关信息进行特征提取后获得的特征信息等。在一些实施例中，该在线预测模型的输出包括但不限于预测某个信息项(例如，某本推荐书籍)的用户点击率、预测该信息项的用户阅读平均时长、预测某个用户是否会点击该信息项、预测该用户阅读该信息项的时长等。在一些实施例中，该在线预测模型通过将多个模型相结合，可以相互取长补短，得到指标和性能的平衡。在一些实施例中，可以在模型训练学习端进行融合，或者，还可以在参数服务器端进行融合，其中，参数服务器端用于存储模型所学习到的模型参数，或者，还可以在在线预测模块端进行融合。在一些实施例中，动态自适应模块通过对线上实时回流数据进行学习，获得该多个模型对应的模型融合策略，根据该模型融合策略动态更新专家系统模块，然后通过专家系统模块对该多个模型进行实时动态融合，生成在线预测模型。本技术实现了一种基于动态自适应的多模型融合的多任务在线学习系统，可汲取各个模型的长处，更好地促进多模型的融合，同时融合了每个模型独特的基于时长、点击率、点赞、收藏等多任务多目标的学习方式，可以起到个性化学习的功效，基于该本技术的在线学
习系统，可以将推荐系统的召回、粗排、精排、冷启动等多个环节贯穿打通，做到全链路的统一优化，减少中间环节的误差传导，提高各环节的效率，即推荐系统中的各个环节都会涉及到相关的一些模型，本技术可以让所有环节都使用本技术中的在线学习系统来进行优化，可以节省很多资源和成本。
52.在一些实施例中，所述在线学习算法包括：流式逻辑回归算法；因子分解机算法。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
53.在一些实施例中，所述一一模块11用于：对于多个在线学习算法中的每个在线学习算法，通过该在线学习算法基于多个视角对所述特征数据进行多个维度的在线学习，得到该在线学习算法对应的模型。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
54.在一些实施例中，所述通过该在线学习算法基于多个视角对所述特征数据进行多个维度的在线学习，包括：通过该在线学习算法对多个任务并行进行学习；对于每个任务，基于多个视角对所述特征数据进行多个维度的在线学习。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
55.在一些实施例中，所述通过该在线学习算法对多个任务并行进行学习，还包括：根据至少一个模型学习目标调整所述多个任务的学习权重。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
56.在一些实施例中，所述多个任务包括：用户点击率预估；用户阅读平均时长预估。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
57.在一些实施例中，所述至少一个模型学习目标包括以下至少一项：提升用户点击率；提升用户阅读平均时长；提升用户点赞数；提升用户收藏数。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
58.在一些实施例中，所述基于注意力机制对线上实时回流数据进行学习，包括：基于注意力机制采用深度神经网络对线上实时回流数据进行学习。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
59.在一些实施例中，所述模型融合策略包括每个模型对应的加权权重系数。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
60.在一些实施例中，所述基于注意力机制对线上实时回流数据进行学习，包括：基于注意力机制通过贝叶斯网络基于线上实时回流数据构建概率图模型进行学习。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
61.在一些实施例中，所述模型融合策略包括模型融合方式。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
62.在一些实施例中，所述根据所述模型融合策略对所述多个模型进行实时动态融合，包括：根据所述模型融合策略中的每个模型对应的加权权重系数，采用模型加权的方式对所述多个模型进行实时动态融合。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
63.在一些实施例中，所述采用模型加权的方式对所述多个模型进行实时动态融合，包括以下任一项：采用模型加权的方式在特征层面对所述多个模型进行实时动态融合；采用模型加权的方式在模型结果层面对所述多个模型进行实时动态融合。在此，相关操作与
图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
64.在一些实施例中，所述根据所述模型融合策略对所述多个模型进行实时动态融合，包括：采用所述模型融合策略中的模型融合方式在模型层面对所述多个模型进行实时动态融合；其中，所述模型融合方式包括以下任一项：自助聚合方式；提升方式；堆叠方式；以上三种方式中的至少两种方式的组合。在此，相关操作与图1所示实施例相同或相近，故不再赘述，在此以引用方式包含于此。
65.除上述各实施例介绍的方法和设备外，本技术还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机代码，当所述计算机代码被执行时，如前任一项所述的方法被执行。
66.本技术还提供了一种计算机程序产品，当所述计算机程序产品被计算机设备执行时，如前任一项所述的方法被执行。
67.本技术还提供了一种计算机设备，所述计算机设备包括：
68.一个或多个处理器；
69.存储器，用于存储一个或多个计算机程序；
70.当所述一个或多个计算机程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前任一项所述的方法。
71.图4示出了可被用于实施本技术中所述的各个实施例的示例性系统；
72.如图4所示在一些实施例中，系统300能够作为各所述实施例中的任意一个设备。在一些实施例中，系统300可包括具有指令的一个或多个计算机可读介质(例如，系统存储器或nvm/存储设备320)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本技术中所述的动作的一个或多个处理器(例如，(一个或多个)处理器305)。
73.对于一个实施例，系统控制模块310可包括任意适当的接口控制器，以向(一个或多个)处理器305中的至少一个和/或与系统控制模块310通信的任意适当的设备或组件提供任意适当的接口。
74.系统控制模块310可包括存储器控制器模块330，以向系统存储器315提供接口。存储器控制器模块330可以是硬件模块、软件模块和/或固件模块。
75.系统存储器315可被用于例如为系统300加载和存储数据和/或指令。对于一个实施例，系统存储器315可包括任意适当的易失性存储器，例如，适当的dram。在一些实施例中，系统存储器315可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。
76.对于一个实施例，系统控制模块310可包括一个或多个输入/输出(i/o)控制器，以向nvm/存储设备320及(一个或多个)通信接口325提供接口。
77.例如，nvm/存储设备320可被用于存储数据和/或指令。nvm/存储设备320可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。
78.nvm/存储设备320可包括在物理上作为系统300被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如，nvm/存储设备320可通过网络经由(一个或多个)通信接口325进行访问。
79.(一个或多个)通信接口325可为系统300提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统300可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
80.对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器(例如，存储器控制器模块330)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器305中的至少一个可与系统控制模块310的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。
81.在各个实施例中，系统300可以但不限于是：服务器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统300可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统300包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。
82.需要注意的是，本技术可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本技术的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本技术的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，ram存储器，磁或光驱动器或软磁盘及类似设备。另外，本技术的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。
83.另外，本技术的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本技术的方法和/或技术方案。本领域技术人员应能理解，计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等，相应地，计算机程序指令被计算机执行的方式包括但不限于：该计算机直接执行该指令，或者该计算机编译该指令后再执行对应的编译后程序，或者该计算机读取并执行该指令，或者该计算机读取并安装该指令后再执行对应的安装后程序。在此，计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
84.通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如，光纤、同轴等))和能传播能量波的无线(未有导的传输)介质，诸如声音、电磁、rf、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
85.作为示例而非限制，计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如，计算机可读存储介质包括，但不限于，易失性存储器，诸如随
机存储器(ram,dram,sram)；以及非易失性存储器，诸如闪存、各种只读存储器(rom,prom,eprom,eeprom)、磁性和铁磁/铁电存储器(mram,feram)；以及磁性和光学存储设备(硬盘、磁带、cd、dvd)；或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
86.在此，根据本技术的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本技术的多个实施例的方法和/或技术方案。
87.对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其他的具体形式实现本技术。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：资源动态调度方法、装置、设备及计算机可读存储介质与流程

用于生成在线预测模型的方法、设备、介质及程序产品与流程

相关文献

最热文献