高效的离策略信用分配的制作方法

2021-10-24 08:00:00 来源：中国专利 TAG：

高效的离策略信用分配1.相关申请2.本技术要求于2019年3月5日提交的美国临时专利申请第62/813,937号，2019年5月16日提交的美国临时专利申请第62/849,007号，以及2019年5月23日提交的美国临时专利申请第62/852,258号，以及于2019年10月15日提交的美国非临时专利申请第16/653,890号的优先权，其全部内容以引用方式并入本文。3.版权声明4.该专利文件的公开内容的一部分包含受版权保护的材料。版权所有者不反对任何人对专利文件或专利公开内容的传真复制，因为它出现在专利商标局专利文件或记录中，但除此之外保留所有版权。
技术领域：
：5.公开文本总体上涉及神经网络和深度学习模型，更具体地，涉及高效的离策略信用分配(efficientoff‑policycreditassignment)。
背景技术：
：：6.
背景技术：
：部分中讨论的主题不应仅仅因为其在
背景技术：
：部分中的提及而被假定为现有技术。类似地，在
背景技术：
：部分中提到的或与
背景技术：
：部分的主题相关联的问题，不应被假定为先前在现有技术中已经认识到。
背景技术：
：部分中的主题仅代表不同的方法，这些方法本身也可能是发明。7.用神经网络和深度学习模型实现的人工智能，作为一种以类似人类的准确度自动分析现实世界信息的技术已显示出巨大的前景。通常，此类神经网络和深度学习模型接收输入信息并基于这些信息进行预测，例如，用于指导参与者或代理的动作。神经网络和深度学习模型可以通过强化学习过程进行学习，其中以奖励(rewards)的形式向神经网络或学习模型提供反馈。奖励允许或使神经网络或学习模型能够衡量或测量其动作的成功或失败。然而，使用稀疏奖励进行学习，对于神经网络或深度学习模型来说可能非常具有挑战性。附图说明8.图1是根据一些实施方案的计算设备的简化图。9.图2是根据一些实施方案的用于具有高效的离策略信用分配的强化学习的框架的简化图。10.图3是根据一些实施方案的用于具有高效的离策略信用分配的强化学习的方法的简化图。11.图4是根据一些实施方案的用于梯度估计的方法的简化图。12.图5是根据一些实施方案的用于更新策略的方法的简化图。13.图6示出了根据一些实施方案的用于具有习得的先验和自适应权重的高效信用分配的算法。14.图7示出了根据一些实施方案的用于系统探索的算法。15.图8示出了根据一些实施方案的用于自适应权重的算法。16.图9示出了根据一些实施方案的用于习得的先验的算法。17.图10示出了任务的示例，针对该任务可以应用用于强化学习的高效的离策略信用分配。18.图11示出了根据一些实施方案的eca模型与其他方法相比的示例结果。19.图12示出了根据一些实施方案的使用以eca或其他方法训练的模型从自然语言查询生成的程序的示例。20.在图中，具有相同名称的元件具有相同或相似的功能。具体实施方式21.说明方面、实施方案、实现方式或应用的本说明书和附图不应被视为限制——权利要求限定了受保护的发明。在不脱离本说明书和权利要求书的精神和范围的情况下，可以进行各种机械、组成、结构、电气和操作的改变。在一些情况下，没有示出或详细描述众所周知的电路、结构或技术，因为这些是本领域技术人员已知的。两个或两个多个图中相同的数字代表相同或相似的元素。22.在本说明书中，阐述了描述与公开文本一致的一些实施方案的具体细节。阐述了许多具体细节以提供对实施方案的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些特定细节中的一些或全部的情况下实践一些实施方案。本文公开的具体实施方案旨在说明而非限制。本领域技术人员可以认识到，尽管这里没有具体描述但在本发明的范围和精神内的其他元素。此外，为了避免不必要的重复，与一个实施方案相关联地显示和描述的一个或多个特征可以合并到其他实施方案中，除非另外具体描述或者如果一个或多个特征将使实施方案不起作用。23.概述24.神经网络和深度学习模型可以例如，通过强化学习的过程进行学习。强化学习试图对与大量状态‑动作对相关的奖励的复杂概率分布进行建模。在强化学习中，代理或参与者(actor)通过状态‑动作对的序列运行。神经网络或模型观察产生的奖励，并根据这些奖励调整或修改其预测，直到它根据当前状态准确预测代理采取的最佳动作。奖励是神经网络或学习模型接收的反馈，用于衡量或测量代理动作的成功或失败。25.策略是神经网络或学习模型用来确定代理的下一步动作的策略。换句话说，策略限定了代理在特定状态下如何动作。每个强化学习算法都必须遵循一些策略，以便决定在每个状态下执行哪些动作。考虑当前策略的学习算法或其部分被视为在策略(on‑policy)的学习者。相比之下，离策略(off‑policy)学习者基于当前策略以外的东西学习。26.例如，在诸如机器人学习、程序合成、架构搜索和对话式对话的设置或应用中，策略优化可用于改进神经网络或学习模型的性能。尽管如此，策略优化仍然经常需要仔细塑造奖励函数来指导策略优化，这意味着需要特定领域的知识。为了缓解这个问题，最近对开发策略优化算法的兴趣激增，该算法可以从指示成功完成任务的二进制信号或各种应用领域中的其他未成形的稀疏奖励信号中学习，包括稀疏奖励机器人控制和弱监督语义解析。虽然利用离策略样本可能有助于学习，但高效利用离策略样本仍然是一个挑战，这会导致样本效率低下并阻碍进一步应用。目前还不清楚现有的信用分配方法如何相互联系。27.根据一些实施方案，公开文本提供了用于强化学习中的高效的离策略信用分配(eca)的系统和方法。eca允许在具有离散动作的确定性环境中对不成功的样本进行原则性的信用分配，从而提高样本效率和渐近性能。在一些实施方案中，一方面是将预期奖励的优化公式化为近似推理，其中训练策略以近似习得的先验分布。通过这种方式，可以在确定性环境中使用离策略样本来近似散度，而不是在进行策略梯度时仅使用成功样本。这提供或导致更高的样品效率。eca可以泛化以前的信用分配方法。28.在一些示例中，eca用于来自自然语言的弱监督语义解析和程序合成的应用中，其中，没有可用的逻辑形式并且只有最终的二进制成功或失败反馈可用作监督。事实证明，在这种上下文中，eca明显优于其他方法。29.如本文所用，术语“网络”可包括任何基于硬件或软件的框架，该框架包括任何人工智能网络或系统、神经网络或系统和/或在其上或与其一起实施的任何训练或学习模型。30.如本文所用，术语“模块”可包括执行一个或多个功能的基于硬件或软件的框架。在一些实施方案中，该模块可以在一个或多个神经网络上实现。31.计算设备32.根据一些实施方案，公开文本的系统——包括各种网络、模型和模块——可以在一个或多个计算设备中实现。33.图1是根据一些实施方案的计算设备100的简化图。如图1所示，计算设备100包括耦合至存储器120的处理器110。计算设备100的操作由处理器110控制。并且尽管计算设备100仅显示为具有一个处理器110，但应理解，处理器110可以代表计算设备100中的一个或多个中央处理单元、多核处理器、微处理器、微控制器、数字信号处理器、现场可编程门阵列(fpga)、专用集成电路(asic)、图形处理单元(gpu)等。计算设备100可以实现为独立子系统、添加到计算设备的板和/或虚拟机。34.存储器120可用于存储由计算设备100执行的软件和/或在计算设备100的操作期间使用的一个或多个数据结构。存储器120可以包括一种或多种类型的机器可读介质。一些常见形式的机器可读介质可能包括软盘、软性盘、硬盘、磁带、任何其他磁介质、cd‑rom、任何其他光学介质、穿孔卡、纸带、具有孔洞图案的任何其他物理介质、ram、prom、eprom、flash‑eprom、任何其他存储芯片或盒式磁带，和/或处理器或计算机适用于读取的任何其他介质。35.处理器110和/或存储器120可以以任何合适的物理布置进行布置。在一些实施方案中，处理器110和/或存储器120可以在同一板、同一封装(例如，系统级封装)、同一芯片(例如，片上系统)和/或类似物上实现。在一些实施方案中，处理器110和/或存储器120可以包括分布式、虚拟化和/或容器化计算资源。与此类实施方案一致，处理器110和/或存储器120可位于一个或多个数据中心和/或云计算设施中。36.如图所示，存储器120包括应用模块130、强化学习模块140和样本数据库150。强化学习模块140包括高效的离策略信用分配(eca)模块145。在一些示例中，存储器120可以包括非暂时性、有形、机器可读介质，其包括当由一个或多个处理器(例如，处理器110)运行时可以使一个或多个处理器执行在此进一步详细描述的方法。在一些示例中，应用模块130、强化学习模块140和样本数据库150可以使用硬件、软件和/或硬件和软件的组合来实现。37.应用模块130可以实现或支持执行应用或任务的代理或参与者，例如，来自自然语言的语义解析和程序合成。语义解析或程序合成——自然语言处理(nlp)的一种形式——是从自然语言话语到可执行程序的映射。对于由应用模块130执行或提供的任务或应用，计算设备100接收输入数据160。例如，对于语义解析的应用，输入数据140可以包括自然语言指令文本。自然语言指令文本可以包括与在计算机上执行的功能、例程或操作相关的自然语言形式的一个或多个话语或文本。在这种情况下，应用模块130可以实现或提供语义解析器，其可以对自然语言指令文本进行操作或处理以映射或生成可以在计算机上执行或运行以执行功能、例程或操作的程序的软件代码、例程、过程。在一些示例中，应用模块130的语义解析器考虑自然语言指令或问题x并将其映射到诸如sql、python或源代码的编程语言中的结构化查询z。由应用模块130的语义解析器生成的软件代码、例程或处理结果被提供为来自计算设备100的输出170。38.在一些示例中，应用模块130的参与者或代理可能受到弱监督；即，模块130不接收来自人类注释者的大量或重要的训练示例或反馈以改进其输出或结果。弱监督语义解析可以表述为具有稀疏奖励的强化学习问题，其中，称为策略π的模型，基于给定的上下文和查询生成程序，并接收关于生成程序的执行是否给出正确答案(即“成功”程序)的稀疏反馈，目标是学习最大化预期奖励并推广到新上下文的策略π。在具有离散动作的确定性环境中使用稀疏奖励学习具有挑战性，但在组合优化和语义解析中很重要。39.强化学习模块140为应用模块130提供或支持学习，包括调整或优化策略π。为了解决弱监督的难题或问题，强化学习模块140在强化学习过程中提供或支持高效的离策略信用分配(eca)。高效的离策略信用分配模块145提供了利用离策略样本的原则方法，将预期奖励的优化公式化为近似推理，其中策略逼近习得的先验分布。这提高了样本效率和渐近性能。高效的离策略信用分配导致严格推广以前的信用分配方法。高效的离策略信用分配方法鼓励模型本身覆盖目标分布并考虑不确定性。在一些示例中，高效的离策略信用分配方法的高效性在自然语言问题的弱监督语义解析和程序合成中得到了证明。40.在一些实施方案中，在语义解析的示例中，高效的离策略信用分配模块145基于模型分布本身与结果的最佳概率分布之间的散度，自动将信用分配给过去经验的成功结果(例如，成功的程序)和不成功的结果(例如，不成功的程序)。先前的结果(成功的和不成功的)是先前习得的经验(过去的经验)，并且被认为是离策略的，因为它们不一定与神经网络或模型的当前策略相关或有关。因此，公开文本的实施方案提供了使用离策略(过去)经验的高效且有原则的方式。过去经验的结果可以存储在样本数据库150中和/或从样本数据库150中检索。研究表明，离策略信用分配模块145既能区分偶然输出正确结果的不正确结果，又能高效地从稀疏奖励中探索大空间。41.在一些实施方案中，高效的离策略信用分配方法或框架考虑或实施具有熵正则化的强化学习。熵正则化通常用于改进强化学习中的策略优化。42.示例应用‑弱监督语义解析43.语义解析或程序合成是从人类用户做出的自然语言话语到可执行程序的映射。语义解析或程序合成考虑学习以将自然语言指令或问题x映射到编程语言(例如sql、python或其他源代码)中的结构化查询z的问题。44.关于语义解析器的统计学习的其他工作利用有监督学习，其中成对的语言话语和程序被提供给解析器作为训练示例。然而，有监督学习可能存在问题，因为它需要从熟悉编程语言和领域知识的专业人工注释者那里大规模收集训练示例。这导致了关于弱监督语义解析的广泛工作。45.根据在此描述的一些实施方案，在弱监督设置中考虑语义解析，其中，在训练期间无法访问真值(ground‑truth)程序并且模型需要从弱反馈或稀疏奖励中学习。也就是说，当生成的完整程序被执行时，唯一的反馈是在事件结束时收到的。即便如此，反馈的范围(只是任务是否成功完成的指示符或二进制信号)也是有限的。高效地利用成功和不成功的过去经验来改进语义解析以及由此获得的结果，一直是一个挑战。46.图10说明了语义解析任务的示例。在此示例中，向代理呈现上下文x，其包括自然语言问题(例如，“哪个运动员排名最高？”)和表格(具有该问题的多个潜在答案)。代理被要求生成程序z＝(z1，z2，...，zn)。如果在相关数据表上执行z导致正确答案y(例如，“尼基·英格利希/nickyenglish”)，则代理将获得1的奖励。模型或代理需要发现可以在给定上下文中生成正确答案并在不可见的上下文中泛化的程序。47.强化学习可以应用于弱监督语义解析的情况或情形。弱监督语义解析可以表述为具有稀疏奖励的强化学习问题，其中，称为策略的模型基于给定的上下文和查询生成程序，并接收关于生成程序的执行是否给出正确答案的稀疏反馈。代理的目标是学习最大化预期奖励并泛华到新环境的策略。48.在由转移概率t(s′|s,z)限定的未知动态环境下，该问题可以表述为对环境状态s∈s和代理动作(程序生成)z∈z的马尔可夫(markov)决策过程。代理在时间步骤t(zt)的动作由称为策略的条件概率分布π(zt|st)选择。在一些实施方案中，可以使用自回归模型作为策略，其中，状态st基于自然语言输入和之前的步骤t生成，[0049][0050]其中z<t＝(z1,...，zt‑1)表示程序z的前缀，x∈x表示包含自然语言输入和程序将在其上执行的解释器的上下文。并且πθ(z|x)满足和∑z∈zπθ(z|x)＝1。奖励函数是稀疏的。例如，很自然地定义一个二元奖励，当输出等于答案时为1，否则为0。这意味着如果代理成功完成任务，它只会在一个事件结束时获得奖励1。因此，通过在解释器或数据库f上运行完整程序z来评估r(z)以查看程序是否给出正确答案：[0051][0052]在策略梯度方法中，考虑由θ参数化的一组候选策略πθ(z|x)。通过最大化预期累积奖励来获得最优策略，其中目标表示为[0053][0054]其中ρ(x)表示x的分布。估计等式3的一种直接方法是从训练数据集中采样(x，y)。等式3的梯度可以使用reinforce(在williams,“simplestatisticalgradient‑followingalgorithmsforconnectionistreinforcementlearning”,machinelearning,8(3‑4):229‑256,(1992)中有更详细的描述，通过引用并入本文)计算并使用蒙特卡罗样本进行估计。[0055][0056]不幸的是，由于程序的搜索空间非常大，大多数样本z具有奖励r(z)＝0，因此对等式4中的梯度估计没有贡献。此外，由于得分函数估计量的方差非常高，用少量成功的程序估计等式4中的梯度具有挑战性。以前的方法建议将梯度估计为成功程序缓冲区内外期望的组合；然而，这些方法仅限于使用成功的程序，并且样本复杂性高。[0057]为了减轻或解决这个挑战，根据一些实施方案，公开文本的系统和方法利用过去经验中成功和不成功的程序。[0058]高效的离策略信用分配[0059]根据一些实施方案，公开文本的系统和方法为神经网络代理或模型提供或实现强化学习，具有高效的离策略信用分配，例如用于弱监督情况中的语义解析。[0060]系统：图2中示出了根据公开文本的用于具有高效的离策略信用分配的强化学习的算法或方法的对应系统或框架200。根据一些实施方案，框架200提供高效的离策略信用分配，例如，用于弱监督语义解析。该框架可以直接应用于组合优化、机器翻译和其他确定性环境。在一些实施方案中，框架200为神经网络模型或代理提供强化学习。在一些示例中，框架200的部分可以在计算设备100中实现，如图1所示。[0061]在一些实施方案中，框架200被实现为参与者‑学习者模型，其中一个或多个参与者210a‑210c中的每一个基于一个或多个策略π执行任务或采取动作，并且应用强化学习使得神经网络模型可以从参与者210的经验(成功的和不成功)中学习。[0062]每个参与者210可以是应用模块130(图1)的实例或实现，执行相关联的任务或动作，例如语义解析。为此，参与者210可以接收自然语言指令文本作为输入数据160。在一些示例中，自然语言指令文本输入160可以由人类操作员提供，并且可以包括与在计算机上执行的功能、例程或操作相关的自然语言形式的一个或多个话语或文本。每个参与者210对自然语言指令文本输入160进行操作以开发、导出或生成可执行程序代码的预测或结果。在一些示例中，每个参与者210(应用模块130)使用自然语言解释文本145来映射或生成软件代码、例程、程序的过程，这些程序可以在计算机上执行或运行以执行功能、例程或操作。一些程序代码可以成功，而其他程序代码则不成功。因此，从一个或多个参与者210接收的样本可以包括成功的程序(其中生成的代码适合于自然语言指令文本)和不成功的程序(其中生成的代码不适合于自然语言指令文本)。[0063]框架200包括一个或多个存储区域或缓冲器，在所示的一些实施方案中，可以包括高奖励程序缓冲器220(缓冲器b)和零奖励程序缓冲器230(缓冲器c)。高奖励程序缓冲器220可以存储成功程序结果的样本，应为其分配或给予高奖励。零奖励程序缓冲器230可以存储不成功的程序结果的样本，对此应该给予零奖励。参考图1，这些缓冲器220、230可以被包括或实现在样本数据库150中。[0064]在一些实施方案中，模型或参与者210可以采用或实现seq2seq模型作为πθ(z|x)，以及两个关键变量存储器作为成功的程序缓冲器220(缓冲器b)和不成功的程序缓冲器230(缓冲器c)，并且可能与特定领域的语言解释器相关联(如在liangetal.,“neuralsymbolicmachines:learningsemanticparsersonfreebasewithweaksupervision”,inproceedingsofthe55thannualmeetingoftheassociationforcomputationallinguistics(volume1:longpapers),pp.23‑33.associationforcomputationallinguistics,2017.doi:10.18653/vl/p17‑1003(2017)中的更详细的描述,其并入本文作为参考)。在一些示例中，代码基于存储器增强策略优化(mapo)的开源实现方式，该实现方式实现了分布式参与者‑学习者架构以加速通过分布式参与者的采样(如在espeholtetal.,“impala:scalabledistributeddeep‑rlwithimportanceweightedactor‑learnerarchitectures”,arxivpreprintarxiv:1802.01561,(2018)中的更详细的描述，其通过引用并入本文)。[0065]参考图2，框架200还包括梯度模块250和学习器模块260。在一些实施方案中，梯度估计模块250和学习器模块260中的一者或两者可在离策略信用分配模块135(图1)中实施或作为其一部分。梯度估计模块250生成或导出一般梯度估计。根据一些实施方案，梯度估计模块250使用来自缓冲器210和220的样本周期性地估计梯度(如下所述)。由此产生的梯度是根据过去经验中成功和不成功的程序估计的梯度的加权总和。权重取决于函数f，当前策略和分层抽样下样本的可能性。证明了这种梯度估计概括了以前语义解析中的方法，例如mapo、最大化边际似然(mml)、迭代最大似然(iml)和奖励增强似然(raml)，每个都可以通过函数f和权重的一些特定选择来减少。基于梯度估计，学习器模块260更新神经网络或模型的策略π。以此方式，为应用模块130(图1)提供或实施强化学习。[0066]方法：图3是根据一些实施方案的用于图2的系统或框架200的相应方法300。方法300的过程310‑340中的一个或多个可以至少部分地以存储在非暂时性、有形、机器可读介质上的可执行代码的形式来实现，当由一个或多个处理器(例如，处理器110)运行时，可以使该一个或多个处理器执行过程310‑340中的一个或多个。在一些实施方案中，方法300可以对应于由离策略信用分配模块145使用或执行的用于应用模块130的强化学习的方法。[0067]在过程310处，可以从一个或多个参与者210(例如，实现应用模块130)接收结果样本。这些样本可以是例如由应用模块130的语义解析器生成或输出的一个或多个可执行程序的软件代码、例程或进程。这些样本中的每一个都可以是成功的(例如，生成的程序产生正确的结果)或不成功的(例如，生成的程序产生错误的结果)。[0068]在过程320，成功程序和不成功程序的样本被存储在存储器中。在一些示例中，成功程序的样本被存储到高奖励程序缓冲器220(缓冲器b)中，并且不成功程序的样本被存储在零奖励程序缓冲器230(缓冲器c)中。先前经验的成功和不成功样本均可用于应用模块130的模型的强化学习。[0069]在过程330，框架200的梯度估计模块250基于成功程序和不成功程序的样本(存储在缓冲器220和230中)周期性地估计梯度。梯度估计模块250应用公开文本的高效的离策略信用分配(eca)，其在一些实施方案中基于来自过去经验的加权样本生成一般梯度估计。下面更详细地描述该梯度估计的生成。梯度估计概括了以前的方法，并经验性地证明了其在语义解析中的高效性。[0070]在过程340，如本文进一步描述的，使用模块250生成的梯度估计，学习器模块260更新神经网络模型或参与者的策略。[0071]计算设备(例如计算设备100)的一些示例可以包括非暂时性、有形、机器可读介质，该介质包括可执行代码，当由一个或多个处理器(例如，处理器110)运行时可执行代码可以使一个或多个处理器执行方法300的过程。可以包括方法300的过程的机器可读介质的一些常见形式是例如软盘、软性盘、硬盘、磁带、任何其他磁介质、cd‑rom、任何其他光学介质、穿孔卡、纸带、具有孔洞图案的任何其他物理介质、ram、prom、eprom、flash‑eprom、任何其他存储芯片或盒式磁带，和/或处理器或计算机适用于读取的任何其他介质。[0072]熵正则化强化学习：在一些实施方案中，公开文本的算法或方法利用或采用熵正则化项来鼓励探索。在这种方法中，熵正则化被视为一般推理问题，其中，学习策略分布以在某个散度度量下近似先验分布。在一些示例中，可以优化先验分布以指导近似推理。[0073]更一般的最大熵目标通过用策略的相对熵增加目标来支持随机策略，[0074][0075]其中λ是正则化权重，是策略πθ(z|x)和先验分布之间的相对熵正则化项。在本描述的其余部分中，为了符号简单，省略了对(x,y)～d的求和。[0076]引理1：等式5等效于最小化以下目标，[0077][0078]v(x)＝λlog∫zexp(r(z)/λ)是值函数的“软版本”，在这里用作归一化常数。从等式6中，分布近似为来自族{πθ(z|x):θ∈θ}的更简单分布，其中，θ是我们要优化的参数，且πθ(z|x)表示作为等式1中的自回归策略。[0079]习得的先验分布：根据一些实施方案，学习先验分布以便优化等式3。在一些实施方案中，习得的先验分布可以被考虑或用作初始估计。目标或目的是熵正则化鼓励策略类似于非均匀分布它为更重要的程序分配更高的概率质量。基本上，这相当于[0080]命题1:给定策略πθ(z|x)，新的先验分布应该更新为，[0081][0082]并将等式7代入等式6得到互信息正则化，[0083][0084]命题1指出优化等效于互信息正则化。或者，优化πθ(z|x)和会导致的复杂混合分布，从而增加了信用分配的先验分布的表达能力。因此，等式3的优化变成或导致最大化互信息正则化预期奖励，由下式给出，[0085][0086]等式9与率失真理论联系起来(如更详细的描述，例如在shannon,“codingtheoremsforadiscretesourcewithafidelitycriterion”,irenat.corn.rec,4(142‑163):1(1959)和coveretal.,elementsofinformationtheory,johnwiley‑sons(2012)，两者均以引用方式并入本文)；直观上，策略πθ(z|x)被鼓励在受限于i(x；z)给出的有限信道容量的上下文x中丢弃与奖励无关的信息。这已在广泛使用的最大化边际似然(mml)方法中观察到。目标是相对于θ最大化jmml，[0087]jmml的梯度具有以下形式，[0088][0089]权重w(z)(与为样本给出的信用关联或相关)基本上是程序空间z上πθ(z|x)的“归一化”似然。用于生成成功(高奖励)和不成功(零奖励)样本或程序的自适应权重或信用的算法(算法3)如图8所示。定理1表明，信息理论先验可能是上下文空间x上πθ(z|x)的类似“归一化”似然。下面描述了更多关于此的经验发现。为了稳定算法，先验分布根据以下等式逐渐改变，[0090][0091]其中η是[0,1]中的变化率。该算法将交替地使用等式6学习策略分布πθ(z|x)并使用等式11更新先验分布接下来描述如何使用等式6学习πθ(z|x)。[0092]根据一些实施方案，在图9中所示的算法(算法4)中提供了关于习得的先验分布的进一步细节。[0093]一般梯度估计：虽然是广泛用于变分推理、自然语言处理和强化学习的典型散度度量，但由于其模式寻求特性，它经常导致模型崩溃。因此，直接优化等式6通常会给出次优模型πθ(z|x)。因此可以考虑替代的散度度量。在一些实施方案中，公开文本的系统和方法通过最小化和πθ(z|x)之间的一般f‑散度来解决这个问题。f‑散度包括大范围的散度(例如，kl和反向kl散度)，并在各种设置中显示出强大的功能，[0094][0095]其中是任何二次可微凸函数。通过jensen的不等式可以表明，对于任何p和q，df(p||q)≥0。此外，如果f(t)在t＝1处是严格凸的，则意味着在一些实施方案中，可以使用随机优化来最小化等式12，然后等式12的梯度由下式给出：[0096]引理2：假设f是一个可微的凸函数，logπθ(z|x)相对于θ是可微的。对于等式12中定义的f‑散度，我们有[0097][0098]其中，ρf(t)＝f′(t)t‑f(t)[0099]等式13表明πθ(z|x)和之间的f‑散度梯度可以通过ρf或f指定。注意，这里的z可以是成功或不成功的样本(例如，程序)，利用程序的搜索空间是可枚举和确定性的这一事实。[0100]梯度估计的算法或方法：根据公开文本的实施方案，成功或不成功的程序的样本(从中可以生成或计算习得的先验分布)均可用于估计该梯度，从而提供一种用于强化学习的高效的离策略信用分配的方法。在一些实施方案中，该方法优化先验分布以指导近似推断。[0101]命题2：等式13的无偏和低方差估计由下式给出[0102][0103]其中[0104][0105]这根据公开文本的实施方案生成梯度估计，如参考图4进一步解释的。图4是梯度估计的方法400的简化图。在一些实施方案中，方法400可以由梯度估计模块250(图2)执行或实施。[0106]在过程402，使用成功程序的样本(例如，从高奖励程序缓冲器220或缓冲器b获得或检索)，模块250计算高奖励程序信用，并且在过程404，模块250生成高奖励得分函数梯度：[0107][0108]在过程406，使用不成功的程序的样本(例如，从零奖励程序缓冲器230或缓冲器c获得或检索)，模块250计算零奖励程序信用，并且在过程408，模块250生成零奖励得分函数梯度：linguisticsandthe7thinternationaljointconferenceonnaturallanguageprocessing(volume1:longpapers),pp.1470‑1480.associationforcomputationallinguistics(2015)doi:10.3115/vl/p15‑1142中,将更详细的描述)包含2,108个表格和18,496个问题‑答案对，这些问题‑答案对是根据从wikipedia中提取的表格构建的。wikisql——在zhong等人2017的文章中更详细地描述，通过引用并入本文——是最近关于为数据库学习自然语言接口的大规模数据集。它包含从wikipedia中提取的24,241个表格和80,654个问题‑程序对。它用程序(sql)注释。在这两个数据集中，问题‑答案分为训练集、评估集和测试集。在一些示例中，数据集的问题‑答案对用于弱监督训练。[0118]在一些实施方案中，遵循构造(如上文参考的pasupat等人(2015)中所述)以将表格转换为可查询的有向图。表格的行和单元格被转换为图形节点，而列名则成为标记的有向边。在一些实施方案中，在训练开始时，具有随机初始化的策略将为成功的程序分配小概率。这导致它们在由梯度估计模型或模块250执行的梯度估计期间被忽略。为了克服稀疏奖励策略梯度中的冷启动问题，缓冲器b中程序的概率被裁剪，如上所述。在一些实施方案中，公开文本的系统和方法使用系统探索，例如，根据如图6所示的算法2，来实施策略以采取导致未探索序列的动作。[0119]在一些实施方案中，adam优化器(如在kingmaetal.,“amethodforstochasticoptimizaiton”,arxivpreprint368arxiv:1412.6980(2014)中更详细地描述，其通过引用并入本文中)用于实验和训练。存储器权重裁剪为0:1。在一些实施方案中，为了训练模型，可以通过随机搜索执行超参数扫描，例如，在学习率的区间(10‑4，10‑2)和区间(10‑4，10‑1)进行熵正则化。所有超参数都可以在评估集上进行调整。[0120]结果[0121]如图11的表格所示，呈现了采用高效的离策略信用分配(eca)进行强化学习的系统和方法的结果，并且可以与其他弱监督语义解析的方法或方式进行比较，例如reinforce、mml、iml、mapo和raml。[0122]图11的表1显示了对于各种方法在wikitablequestions和wikisql基准两者上的结果。在图11中可以看出，eca通过执行更好的信用分配，在样本效率和渐近性能方面基于以前的方法显着改进了。比较表明，自适应权重和习得的先验(lp)都带来了显着的改进。[0123]表2和表3呈现了弱监督语义解析的结果。eca优于以前的弱监督语义解析的方法或途径。表2和表3表明改进是显着的，因为结果是5次试验的平均值。这些结果证明了eca与以前的信用分配方法相比的高效性。[0124]图12示出了使用以eca或mapo训练的模型从wikitable‑questions中的自然语言查询生成的程序的示例。图12显示，在某些示例中，eca能够生成捕获自然语言查询含义的正确程序，而mapo生成错误答案程序或虚假程序。[0125]说明发明方面、实施方案、实现方式或应用的本描述和附图不应被视为限制。在不脱离本说明书和权利要求书的精神和范围的情况下，可以进行各种机械、组成、结构、电气和操作的改变。在一些情况下，为了不混淆公开文本的实施方案，未详细示出或描述众所周知的电路、结构或技术。两个或两个以上图中相同的数字代表相同或相似的元素。[0126]在本说明书中，阐述了描述与公开文本一致的一些实施方案的具体细节。阐述了许多具体细节以提供对实施方案的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些特定细节中的一些或全部的情况下实践一些实施方案。本文公开的具体实施方案旨在说明而非限制。本领域技术人员可以认识到，尽管这里没有具体描述但在本发明的范围和精神内的其他元素。此外，为了避免不必要的重复，与一个实施方案相关联地显示和描述的一个或多个特征可以合并到其他实施方案中，除非另外具体描述或者如果一个或多个特征将使实施方案不起作用。[0127]尽管已经示出和描述了说明性实施方案，但是在前述公开中设想了大范围的修改、改变和替换，并且在一些情况下，可以采用实施方案的一些特征而无需相应地使用其他特征。本领域的普通技术人员将认识到许多变化、替代和修改。因此，本发明的范围应仅由所附权利要求来限制，并且以与本文公开的实施方案的范围一致的方式宽泛地解释权利要求是合适的。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种低计算和存储消耗的双向递归神经网络的制作方法

高效的离策略信用分配的制作方法

相关文献

最热文献