一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种策略推荐方法及装置与流程

2021-11-29 13:44:00 来源:中国专利 TAG:

技术特征:
1.一种策略推荐方法,其特征在于,包括:根据历史上各商家的已执行策略类型及对应奖励,确定若干待选策略类型;针对每个待优化商家,确定该待优化商家分别在各待选策略类型下的策略参数;针对每种待选策略类型下指定范围内的每个待选参数,根据第一特征集,通过预先训练的第一预测模型,预测该待优化商家由所述策略参数转移至该待选参数的转移奖励,作为该待选参数对应的转移奖励,所述第一特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数;和/或针对每种待选策略类型下指定范围内的每个待选参数,根据第二特征集,通过预先训练的第二预测模型,预测该待优化商家由所述策略参数转移至该待选参数的转移概率,作为该待选参数对应的转移概率,所述第二特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数、该待选参数以及历史上各商家由所述策略参数转移至该待选参数的历史转移概率以及历史转移奖励;根据各待选策略类型下,各待选参数对应的转移概率以及转移奖励中的至少一种,确定优化策略,并向该待优化商家推荐所述优化策略,使该待优化商家进行优化。2.如权利要求1所述的方法,其特征在于,根据历史上各商家的已执行策略类型及对应奖励,确定若干待选策略类型,具体包括:根据历史上各商家的已执行策略类型,筛选执行商家占比超出第一预设阈值的若干已执行策略类型;根据确定出的各已执行策略类型的对应奖励,筛选奖励超出第二预设阈值的若干已执行策略类型,作为待选策略类型。3.如权利要求1所述的方法,其特征在于,确定所述待选策略类型下的指定范围,具体包括:确定该待优化商家在所述待选策略类型下的策略参数;针对所述待选策略类型下预设的每个参数选取范围,根据历史上各商家在所述待选策略类型下,由所述策略参数转移至该参数选取范围的历史转移概率,确定所述历史转移概率超出第三预设阈值的各参数选取范围,作为指定范围。4.如权利要求1所述的方法,其特征在于,所述商家特征至少包含商家品类、所处地域以及历史交易信息中的至少一种,所述第一预测模型包含第一子模型以及第二子模型;根据第一特征集,通过预先训练的第一预测模型,预测该待优化商家由所述策略参数转移至该待选参数的转移奖励,作为该待选参数对应的转移奖励,具体包括:根据第一特征集中该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数,通过预先训练的所述第一子模型,预测该待优化商家在该待选策略类型以及所述策略参数下的未来奖励;根据所述第一特征集中该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数,通过预先训练的所述第二子模型,预测该待优化商家在该待选策略类型下由所述策略参数转移至该待选参数的未来奖励;根据该待优化商家在该待选策略类型以及所述策略参数下的未来奖励,以及该待优化商家在该待选策略类型下由所述策略参数转移至该待选参数的未来奖励,确定该待优化商家由所述策略参数转移至该待选参数的转移奖励。
5.如权利要求1所述的方法,其特征在于,根据各待选策略类型下,各待选参数对应的转移概率以及转移奖励中的至少一种,确定优化策略,具体包括:根据各待选策略类型下,各待选参数对应的转移概率,确定转移概率最大的待选参数作为优化参数,以及确定所述优化参数对应的待选策略类型作为优化策略类型,并根据所述优化参数以及优化策略类型,确定优化策略;和/或根据各待选策略类型下,各待选参数对应的转移奖励,确定转移奖励最大的待选参数作为优化参数,并确定所述优化参数对应的待选策略类型作为优化策略类型,并根据所述优化参数以及优化策略类型,确定优化策略;和/或针对每个待选参数,根据该待选参数对应的转移概率以及转移奖励,确定该待选参数的综合得分,并根据各待选参数的综合得分,确定得分最高的待选参数为优化参数,以及确定所述优化参数对应的待选策略类型作为优化策略类型,并根据所述优化参数以及优化策略类型,确定优化策略。6.如权利要求1所述的方法,其特征在于,训练第一预测模型,具体包括:确定历史上在该待选策略类型下已进行参数转移的各商家;获取各商家的商家特征、各商家在该待选策略类型下进行参数转移前的策略参数,以及各商家在该待选策略类型下进行参数转移后的策略参数,作为训练样本;根据各商家在该待选策略类型下进行参数转移所产生的转移奖励,对各训练样本进行标注;针对每个训练样本,将该训练样本输入待训练的第一预测模型,确定该第一预测模型输出的转移奖励;以最小化该第一预测模型输出的转移奖励与各训练样本的标注之间的差异为目标,调整该第一预测模型中的模型参数。7.如权利要求1所述的方法,其特征在于,训练第二预测模型,具体包括:确定历史上推荐在该待选策略类型下进行参数转移的各商家;根据各商家的商家特征、各商家参数转移前后的参数以及历史上各商家进行相同参数转移的历史转移概率以及历史转移奖励,确定训练样本;根据各商家是否在该待选策略类型下进行参数转移,对各训练样本进行标注;针对每个训练样本,将该训练样本输入待训练的第二预测模型,确定该第二预测模型输出的转移概率;以最小化该第二预测模型输出的转移概率与各训练样本的标注之间的差异为目标,调整该第二预测模型中的模型参数。8.一种策略推荐装置,其特征在于,包括:第一确定模块,配置为根据历史上各商家的已执行策略类型及对应奖励,确定若干待选策略类型;第二确定模块,配置为针对每个待优化商家,确定该待优化商家分别在各待选策略类型下的策略参数;预测模块,配置为针对每种待选策略类型下指定范围内的每个待选参数,根据第一特征集,通过预先训练的第一预测模型,预测该待优化商家由所述策略参数转移至该待选参数的转移奖励,作为该待选参数对应的转移奖励,所述第一特征集包含该待优化商家的商
家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数;和/或针对每种待选策略类型下指定范围内的每个待选参数,根据第二特征集,通过预先训练的第二预测模型,预测该待优化商家由所述策略参数转移至该待选参数的转移概率,作为该待选参数对应的转移概率,所述第二特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数、该待选参数以及历史上各商家由所述策略参数转移至该待选参数的历史转移概率以及历史转移奖励;推荐模块,配置为根据各待选策略类型下,各待选参数对应的转移概率以及转移奖励中的至少一种,确定优化策略,并向该待优化商家推荐所述优化策略,使该待优化商家进行优化。9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~7任一所述的方法。10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~7任一所述的方法。

技术总结
本说明书公开了一种策略推荐方法及装置,可基于历史上各商家的已执行策略类型及对应奖励,确定若干待选策略类型。之后,根据各待优化商家的商家特征、在各待选策略类型下的策略参数、各待选参数,以及历史上各商家进行参数转移的历史转移概率和历史转移奖励,预测该待优化商家由该策略参数转移至各待选参数的转移概率以及转移奖励。最后,根据各待选策略类型下各待选参数对应的转移概率以及转移奖励中的至少一种,确定向各待优化商家推荐的优化策略。通过确定各待优化商家在各待选策略类型下,由策略参数转移至各待选参数的转移概率以及转移奖励,并基于转移概率和转移奖励中的至少一种,向商家推荐准确或易行的优化策略,促使商家的完善优化。使商家的完善优化。使商家的完善优化。


技术研发人员:樊洋峰 阳纯飞
受保护的技术使用者:北京三快在线科技有限公司
技术研发日:2021.08.31
技术公布日:2021/11/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献