用于机器学习的设备、计算机程序和计算机实现方法与流程

2023-02-15 18:02:25 来源：中国专利 TAG：

技术特征：
1.一种用于机器学习的计算机实现方法，其特征在于，所述方法包括：提供（200）包括多臂老虎机问题或上下文老虎机问题的动作空间和以动作为条件的奖励上的分布的任务；提供（202）超先验，其中所述超先验是所述动作空间上的分布；取决于所述超先验来确定（224）超后验，针对所述超后验，当使用从所述超后验采样的先验时关于未来老虎机任务的期望奖励的下界限具有尽可能大的值，并且其中所述超后验是所述动作空间上的分布。2.根据权利要求1所述的方法，其特征在于，确定（224）所述超后验包括：确定使所述期望奖励的下界限最大化的超后验。3.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括：取决于从所述超后验采样的先验来处理（226）传感器数据、特别是数字图像数据或音频数据，以特别地用于对传感器数据进行分类、检测传感器数据中的对象的存在、或者对传感器数据执行语义分割；或者确定（226）所述机器学习的鲁棒性的度量、特别是当从所述超后验采样先验时关于下一个任务的期望误差不高于预定值的概率；或者取决于从所述超后验采样的先验来检测（226）传感器数据中的异常；或者学习用于控制物理系统的策略，并且取决于从所述超后验采样的先验来确定用于控制物理系统的控制信号。4.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括：在多个迭代中确定（224）所述超后验，并且从先前迭代的所述超后验来采样（208）迭代的先验。5.根据权利要求4所述的方法，其特征在于，所述方法包括：从任务上的分布来采样（206）所述迭代的任务。6.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括：利用所述超先验来初始化（204）所述超后验。7.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括：利用所述先验来初始化（210）后验；从所述任务的行为策略集合中确定（214）与任务后验相关联的行为策略，其中所述行为策略包括具有概率质量的动作上的分布；从所述概率质量来随机地采样（216）或选择动作；取决于所述动作从奖励上的分布来采样（218）奖励；确定（220）包括所述动作和所述奖励的数据集；更新（22）所述后验以包括所述任务数据集。8.根据权利要求7所述的方法，其中提供（200）所述任务包括提供包括状态空间以及初始状态上的分布的任务，其中所述方法进一步包括从初始状态上的分布来随机地采样（218）或选择初始状态，并且其中奖励上的分布以所述状态空间的状态以及动作为条件。9.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括：利用空集来初始化（212）所述数据集，并且然后在预定轮数中更新所述后验。10.根据前述权利要求中的一项所述的方法，其特征在于，确定（224）所述超后验包括：取决于所述超后验和所述超先验的kullback-leibler散度来确定和逼近所述期望奖励。11.一种用于机器学习的设备（100），其特征在于，所述设备（100）被配置用于执行根据权利要求1至10中的一项所述的方法中的步骤。12.一种计算机程序，其特征在于，所述计算机程序包括计算机可读指令，所述计算机可读指令当在计算机上被执行时使得所述计算机执行根据权利要求1至10中的一项所述的方法。

技术总结
用于机器学习的设备、计算机程序和计算机实现方法，其中所述方法包括：提供（200）包括多臂老虎机问题或上下文老虎机问题的动作空间和以动作为条件的奖励上的分布的任务；提供（202）超先验，其中所述超先验是所述动作空间上的分布；取决于所述超先验来确定（224）超后验，针对所述超后验，当使用从所述超后验采样的先验时关于未来老虎机任务的期望奖励的下界限具有尽可能大的值，并且其中所述超后验是所述动作空间上的分布。所述动作空间上的分布。所述动作空间上的分布。

技术研发人员：H
受保护的技术使用者：罗伯特
技术研发日：2022.07.21
技术公布日：2023/2/6

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于神经网络推断的高动态范围（HDR）图像的无损表示的制作方法

用于机器学习的设备、计算机程序和计算机实现方法与流程

相关文献

最热文献