一种策略推荐方法及装置与流程

2021-11-29 13:44:00 来源：中国专利 TAG：

1.本技术涉及互联网技术领域，尤其涉及一种策略推荐方法及装置。

背景技术：

2.随着互联网的快速发展，网络购物逐渐成为人们的主流消费方式之一，于是越来越多的商户通过电商平台/外卖平台售卖商品。
3.为了提高用户转化率，商家通常会实行一些优惠策略，如，设置包邮、减免配送费或者满减等活动。因此如何设置优惠策略，使得商家收益最大化，是亟需解决的问题。

技术实现要素：

4.本说明书实施例提供一种策略推荐方法及装置，用于部分解决现有技术中的问题。
5.本说明书实施例采用下述技术方案：
6.本说明书提供的一种策略推荐方法，包括：
7.根据历史上各商家的已执行策略类型及对应奖励，确定若干待选策略类型；
8.针对每个待优化商家，确定该待优化商家分别在各待选策略类型下的策略参数；
9.针对每种待选策略类型下指定范围内的每个待选参数，根据第一特征集，通过预先训练的第一预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移奖励，作为该待选参数对应的转移奖励，所述第一特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数；和/或
10.针对每种待选策略类型下指定范围内的每个待选参数，根据第二特征集，通过预先训练的第二预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移概率，作为该待选参数对应的转移概率，所述第二特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数、该待选参数以及历史上各商家由所述策略参数转移至该待选参数的历史转移概率以及历史转移奖励；
11.根据各待选策略类型下，各待选参数对应的转移概率以及转移奖励中的至少一种，确定优化策略，并向该待优化商家推荐所述优化策略，使该待优化商家进行优化。
12.可选地，根据历史上各商家的已执行策略类型及对应奖励，确定若干待选策略类型，具体包括：
13.根据历史上各商家的已执行策略类型，筛选执行商家占比超出第一预设阈值的若干已执行策略类型；
14.根据确定出的各已执行策略类型的对应奖励，筛选奖励超出第二预设阈值的若干已执行策略类型，作为待选策略类型。
15.可选地，确定所述待选策略类型下的指定范围，具体包括：
16.确定该待优化商家在所述待选策略类型下的策略参数；
17.针对所述待选策略类型下预设的每个参数选取范围，根据历史上各商家在所述待
选策略类型下，由所述策略参数转移至该参数选取范围的历史转移概率，确定所述历史转移概率超出第三预设阈值的各参数选取范围，作为指定范围。
18.可选地，所述商家特征至少包含商家品类、所处地域以及历史交易信息中的至少一种，所述第一预测模型包含第一子模型以及第二子模型；
19.根据第一特征集，通过预先训练的第一预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移奖励，作为该待选参数对应的转移奖励，具体包括：
20.根据第一特征集中该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数，通过预先训练的所述第一子模型，预测该待优化商家在该待选策略类型以及所述策略参数下的未来奖励；
21.根据所述第一特征集中该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数，通过预先训练的所述第二子模型，预测该待优化商家在该待选策略类型下由所述策略参数转移至该待选参数的未来奖励；
22.根据该待优化商家在该待选策略类型以及所述策略参数下的未来奖励，以及该待优化商家在该待选策略类型下由所述策略参数转移至该待选参数的未来奖励，确定该待优化商家由所述策略参数转移至该待选参数的转移奖励。
23.可选地，根据各待选策略类型下，各待选参数对应的转移概率以及转移奖励中的至少一种，确定优化策略，具体包括：
24.根据各待选策略类型下，各待选参数对应的转移概率，确定转移概率最大的待选参数作为优化参数，以及确定所述优化参数对应的待选策略类型作为优化策略类型，并根据所述优化参数以及优化策略类型，确定优化策略；和/或
25.根据各待选策略类型下，各待选参数对应的转移奖励，确定转移奖励最大的待选参数作为优化参数，并确定所述优化参数对应的待选策略类型作为优化策略类型，并根据所述优化参数以及优化策略类型，确定优化策略；和/或
26.针对每个待选参数，根据该待选参数对应的转移概率以及转移奖励，确定该待选参数的综合得分，并根据各待选参数的综合得分，确定得分最高的待选参数为优化参数，以及确定所述优化参数对应的待选策略类型作为优化策略类型，并根据所述优化参数以及优化策略类型，确定优化策略。
27.可选地，训练第一预测模型，具体包括：
28.确定历史上在该待选策略类型下已进行参数转移的各商家；
29.获取各商家的商家特征、各商家在该待选策略类型下进行参数转移前的策略参数，以及各商家在该待选策略类型下进行参数转移后的策略参数，作为训练样本；
30.根据各商家在该待选策略类型下进行参数转移所产生的转移奖励，对各训练样本进行标注；
31.针对每个训练样本，将该训练样本输入待训练的第一预测模型，确定该第一预测模型输出的转移奖励；
32.以最小化该第一预测模型输出的转移奖励与各训练样本的标注之间的差异为目标，调整该第一预测模型中的模型参数。
33.可选地，训练第二预测模型，具体包括：
34.确定历史上推荐在该待选策略类型下进行参数转移的各商家；
35.根据各商家的商家特征、各商家参数转移前后的参数以及历史上各商家进行相同参数转移的历史转移概率以及历史转移奖励，确定训练样本；
36.根据各商家是否在该待选策略类型下进行参数转移，对各训练样本进行标注；
37.针对每个训练样本，将该训练样本输入待训练的第二预测模型，确定该第二预测模型输出的转移概率；
38.以最小化该第二预测模型输出的转移概率与各训练样本的标注之间的差异为目标，调整该第二预测模型中的模型参数。
39.本说明书提供一种策略推荐装置，包括：
40.第一确定模块，配置为根据历史上各商家的已执行策略类型及对应奖励，确定若干待选策略类型；
41.第二确定模块，配置为针对每个待优化商家，确定该待优化商家分别在各待选策略类型下的策略参数；
42.第一预测模块，配置为针对每种待选策略类型下指定范围内的每个待选参数，根据第一特征集，通过预先训练的第一预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移奖励，作为该待选参数对应的转移奖励，所述第一特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数；和/或
43.第二预测模块，配置为针对每种待选策略类型下指定范围内的每个待选参数，根据第二特征集，通过预先训练的第二预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移概率，作为该待选参数对应的转移概率，所述第二特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数、该待选参数以及历史上各商家由所述策略参数转移至该待选参数的历史转移概率以及历史转移奖励；
44.推荐模块，配置为根据各待选策略类型下，各待选参数对应的转移概率以及转移奖励中的至少一种，确定优化策略，并向该待优化商家推荐所述优化策略，使该待优化商家进行优化。
45.本说明书提供的一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述策略推荐方法。
46.本说明书提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述策略推荐方法。
47.本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：
48.在本说明书中，可基于历史上各商家的已执行策略类型及对应奖励，确定若干待选策略类型。之后，根据各待优化商家的商家特征、在各待选策略类型下的策略参数、各待选参数，以及历史上各商家进行参数转移的历史转移概率和历史转移奖励，预测该待优化商家由该策略参数转移至各待选参数的转移概率以及转移奖励。最后，根据各待选策略类型下各待选参数对应的转移概率以及转移奖励中的至少一种，确定向各待优化商家推荐的优化策略。通过确定各待优化商家在各待选策略类型下，由策略参数转移至各待选参数的转移概率以及转移奖励，并基于转移概率和转移奖励中的至少一种，向商家推荐准确或易行的优化策略，促使商家的完善优化。
附图说明
49.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
50.图1为本说明书实施例提供的一种策略推荐方法的流程图；
51.图2为本说明书实施例提供的一种策略推荐装置的结构示意图；
52.图3为本说明书实施例提供的实现策略推荐方法的电子设备示意图。
具体实施方式
53.为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
54.目前，为了提高商家在电商平台/外卖平台中的订单转化率，商家通常自主设置一些优惠策略，或者由平台运营人员结合商家当前状态提出策略建议，以促进商家订单量的增长。以外卖平台为例，若该商家设置减免配送费或大量折扣菜品，则用户下单概率较高，商家订单量增长较快。
55.但这种人为基于经验设置的优惠策略往往不够合理，无法使商家收益最大化。
56.本说明书提供一种策略推荐方法，以下结合附图，详细说明本技术各实施例提供的技术方案。
57.图1为本说明书实施例提供的一种策略推荐方法的流程示意图，具体可包括以下步骤：
58.s100：根据历史上各商家的已执行策略类型及对应奖励，确定若干待选策略类型。
59.为了向商家推荐有效的执行策略，使商家执行推荐策略后订单量得到有效增长，可基于历史上该业务平台中各商家执行各策略后的产生的订单增长，筛选有效策略以进行后续推荐。其中，本说明书提供的策略推荐算法可由业务平台的服务器执行，该业务平台可以是电商平台或外卖平台等具有商家运营服务的平台。
60.具体的，该服务器可先获取历史上各商家的已执行策略类型，并根据历史上各商家的已执行策略类型，筛选执行商家占比超出第一预设阈值的若干已执行策略类型。之后，根据确定出的各已执行策略类型的对应奖励，筛选奖励超出第二预设阈值的若干已执行策略类型，作为待选策略类型。其中，第一预设阈值与第二预设阈值均可根据需要设置。
61.以外卖平台为例，则商家的已执行策略类型包括但不限于减免配送金额、设置折扣菜品并设置折扣力度、增加新客立减活动并设置立减金额以及提升营业时长等措施。各已执行策略类型的对应奖励包括但不限于商家执行该策略类型后的订单量的增长、订单转化率的增长、销售总金额的增长以及订单收益的增长等。其中，若减免配送金额的商家占平台中全部商家的比例为20％，则表示执行减免配送金额策略类型的商家占比为20％。若商家采取减免配送金额后，订单量增长12％，则表示该减免配送金额策略类型对应的奖励为订单量增长12％。
62.进一步的，为了保障策略的有效性，通常获取历史上各商家最近一段时间内所执行的策略类型。
63.s102：针对每个待优化商家，确定该待优化商家分别在各待选策略类型下的策略参数。
64.在本说明书一种或多种实施例中，为了向待优化商家推荐更为精细化的优化策略，还可根据各待优化商家的自身情况，向各待优化商家推荐在各待选策略类型下的参数设置。
65.其中，以待选策略类型为减免配送金额为例，则对应的参数设置即为减免的配送金额的金额设置。以待选策略类型为设置新客立减活动为例，则对应的参数设置为新客立减的金额设置。
66.因此在本说明书中，针对每个待优化商家，可确定该待优化商家当前分别在各待选策略类型下的策略参数，以根据该待优化商家当前的策略参数，进行参数调整。
67.s104：针对每种待选策略类型下指定范围内的每个待选参数，根据第一特征集，通过预先训练的第一预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移奖励，作为该待选参数对应的转移奖励。和/或针对每种待选策略类型下指定范围内的每个待选参数，根据第二特征集，通过预先训练的第二预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移概率，作为该待选参数对应的转移概率。
68.在本说明书一种或多种实施例中，为了使该待优化商家执行优化策略后能够达到收益最大，可预测该待优化商家在各待选策略类型下，由当前策略参数调整为各其它参数，所能带来的收益，以确定收益最大的参数值，为该待优化商家在该待选策略类型下最优的参数设置。
69.具体的，针对每种待选策略类型，可先确定该待选策略类型下设置的指定范围。如，若待选策略类型为减免配送金额，则对应的指定范围是配送金额的范围，可以设置为(0，8]。
70.之后，针对该指定范围内的每个待选参数，将第一特征集作为输入，输入预先训练的第一预测模型，预测该待优化商家由当前的策略参数转移至该待选参数所产生的转移奖励，作为该待选参数对应的转移奖励。其中，该第一特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数。该商家特征至少包含商家品类、所处地域以及历史交易信息中的至少一种。转移奖励可以是参数更改后商家的订单增长量、转化率增长量等。
71.假设待选策略类型为增加新客立减活动，对应的新客立减金额的指定范围为(0，5]，则该指定范围内的待选参数为立减金额1～5元。若该待优化商家当前的新客立减金额设置为2元，表示该待优化商家在新客立减活动策略下的策略参数为2元。于是，针对其中的待选参数3元，将该待优化商家的商家特征、当前的策略参数2元以及待选参数3元作为输入，输入第一预测模型，得到该待优化商家由新客立减2元提升至新客立减3元后，所产生的订单增长。
72.进一步的，在训练该待选策略类型下的第一预设模型时，首先可确定历史上业务平台中在该待选策略类型下进行过参数转移的各商家，其中，参数转移指的是商家进行过参数的调整。之后，获取各商家的商家特征、各商家在该待选策略类型下进行参数转移前的策略参数，以及各商家在该待选策略类型下进行参数转移后的策略参数，作为训练样本。并根据各商家在该待选策略类型下进行参数转移所产生的转移奖励，对各训练样本进行标
注。
73.然后，针对每个训练样本，将该训练样本输入待训练的第一预测模型，确定该第一预测模型输出的转移奖励，并以最小化该第一预测模型输出的转移奖励与各训练样本的标注之间的差异为目标，调整该第一预测模型中的模型参数。
74.另外，在本说明书另一种实施例中，该第一预测模型可分为第一子模型以及第二子模型，其中，第一子模型用于预测该待优化商家以当前的策略参数，在未来一段时间内会产生的奖励，第二子模型用于预测该待优化商家由当前的策略参数转移至待选参数后，在未来一段时间内会产生的奖励。其中，由当前的策略参数转移至该待选参数即为将该待优化商家的当前的策略参数调整为待选参数。
75.于是，可将该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数作为输入，输入该第一预测模型的第一子模型中，预测该待优化商家在该待选策略类型以及该策略参数下的未来奖励。并将该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数作为输入，输入该第一预设模型的第二子模型中，预测该待优化商家在该待选策略类型下由当前的策略参数转移至该待选参数的未来奖励。
76.最后，根据该待优化商家在该待选策略类型以及当前的策略参数下的未来奖励，以及该待优化商家在该待选策略类型下由当前的策略参数转移至该待选参数的未来奖励，确定两者的奖励之差，作为该待优化商家由该策略参数转移至该待选参数的转移奖励。
77.更进一步的，在训练该待选策略类型下的第一预测模型时，可分别训练其中的第一子模型以及第二子模型。
78.其中，在训练第一子模型时，首先确定历史上业务平台中在一段连续时间内在该待选策略类型下未发生参数转移的各商家。之后，获取各商家的商家特征、各商家在该待选策略类型下的策略参数，作为训练样本。并根据各商家在指定历史时段内产生的奖励(订单量、转化率等)，对各训练样本进行标注。然后，针对每个训练样本，将该训练样本输入待训练的第一子模型，确定该第一子模型输出的预测奖励，并以最小化该第一子模型输出的预测奖励与各训练样本的标注之间的差异为目标，调整该第一子模型中的模型参数。
79.在训练第二子模型时，首先确定历史上业务平台中在一段连续时间内在该待选策略类型下发生过参数转移的各商家。之后，根据各商家的商家特征、各商家在该待选策略类型下的策略参数以及转移后的参数，作为训练样本。并根据各商家在指定历史时段内产生的奖励(订单量、转化率等)，对各训练样本进行标注。然后，针对每个训练样本，将该训练样本输入待训练的第二子模型，确定该第二子模型输出的预测奖励，并以最小化该第二子模型输出的预测奖励与各训练样本的标注之间的差异为目标，调整该第二子模型中的模型参数。
80.在本说明书一种或多种实施例中，为了便于商家实施，考虑到各优化策略的落地难易性，可先预测执行各优化策略的概率，以向该待优化商家推荐最易实行的优化策略。
81.具体的，针对每种待选策略类型，可先确定该待选策略类型下设置的指定范围。之后，针对该指定范围内的每个待选参数，将第二特征集作为输入，输入预先训练的第二预测模型，预测该待优化商家由当前的策略参数转移至该待选参数的转移概率，作为该待选参数对应的转移概率。其中，该第二特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数、该待选参数以及历史上各商家由该策略参数转移至该待选参
数的历史转移概率以及历史转移奖励。该商家特征至少包含商家品类、所处地域以及历史交易信息中的至少一种。该待选参数对应的转移概率越高，表示该商家在该待选策略类型下，进行参数转移的可实施性越强。
82.进一步的，在确定历史上各商家在该待选策略类型下，由该策略参数转移至该待选参数的历史转移概率以及历史转移奖励时，可统计历史上该业务平台中各商家在该待选策略类型下，由该策略参数转移至该待选参数的商家占比，作为历史转移概率。并确定各商家在待选策略类型下进行参数转移前后所产生的奖励增量，如订单增量、订单转化率增长等，作为历史转移奖励。
83.继续以待选策略类型为增加新客立减活动为例进行说明，若商家当前的新客立减金额为2元，待选的新客立减金额为5元，则统计历史上各商家由新客立减金额2元变更为新客立减金额5元的商家占比，作为新客立减金额范围5元对应的转移概率。并将该商家提升新客立减金额后的订单增量，作为新客立减金额范围5元对应的转移奖励。
84.更进一步的，在训练该待选策略类型下的第二预测模型时，首先可确定历史上推荐在该待选策略类型下进行参数转移的各商家。之后，根据各商家的商家特征、各商家参数转移前后的参数以及历史上各商家进行相同参数转移的历史转移概率以及历史转移奖励，确定训练样本。并根据各商家是否在该待选策略类型下进行参数转移，对各训练样本进行标注。然后，针对每个训练样本，将该训练样本输入待训练的第二预测模型，确定该第二预测模型输出的转移概率。最后。以最小化该第二预测模型输出的转移概率与各训练样本的标注之间的差异为目标，调整该第二预测模型中的模型参数。
85.其中，在确定训练样本时，针对确定出的每个商家，确定该商家进行参数转移前后的参数。并确定历史上各商家进行相同的参数转移的商家占比，作为历史转移概率，以及确定历史上各商家进行参数转移所产生的奖励增长，作为历史转移奖励。根据该商家的商家特征、该商家进行参数转移前后的参数以及历史上与该商家进行相同参数转移的各商家的历史转移概率以及历史转移奖励，确定训练样本。
86.s106：根据各待选策略类型下，各待选参数对应的转移概率以及转移奖励中的至少一种，确定优化策略，并向该待优化商家推荐所述优化策略，使该待优化商家进行优化。
87.在本说明书一种实施例中，为了便于商家实施，考虑到各策略的落地难易性，该服务器可根据确定出的在各待选策略类型下，各待选参数对应的转移概率，从中确定转移概率最大的待选参数作为优化参数，以及确定该优化参数对应的待选策略类型作为优化策略类型。最后，根据确定出的优化策略类型以及优化参数，确定优化策略并向该待优化商家推荐，以使该待优化商家基于该优化策略进行完善。
88.例如，假设由商家当前减免配送金额至目标减免配送金额3元的转移概率为70％，由商家当前减免配送金额至减免配送金额4元的转移概率为50％，由商家当前新客立减金额至新客立减4元的转移概率为50％，由商家当前新客立减金额至新客立减5元的转移概率为40％，则可确定转移概率最大的目标减免配送金额3元为最终优化参数，对应的减免配送金额为优化策略类型。
89.在本说明书另一种实施例中，为了使商家收益最大化，该服务器可根据确定出的在各待选策略下，各待选参数对应的转移奖励，从中确定转移奖励最大的待选参数作为优化参数，并确定该优化参数对应的待选策略类型作为优化策略类型。最后，根据确定出的优
化策略类型以及优化参数，确定优化策略并向该待优化商家推荐，以使该待优化商家基于该优化策略进行完善。
90.例如，假设由商家当前新客立减0元调整至立减5元带来的订单增量为5000单，由商家减免配送金额0元至减免配送金额3元带来的订单增量为10000单，则可确定减免配送金额3元为优化参数，并确定对应的减免配送金额为优化策略类型。
91.在本说明书其它实施例中，为了结合商家收益以及策略落地可行性，该服务器还可针对每个待选参数，根据该待选参数对应的转移概率以及转移奖励，加权确定该待选参数的综合得分，并根据各待选参数的综合得分，确定得分最高的待选参数为优化参数，以及确定该优化参数对应的待选策略类型作为优化策略类型。最后根据该优化参数以及优化策略类型，确定优化策略。
92.基于图1所示的策略推荐方法，可先基于历史上各商家的已执行策略类型及对应奖励，确定若干待选策略类型。之后，根据各待优化商家的商家特征、在各待选策略类型下的策略参数、各待选参数，以及历史上各商家进行参数转移的历史转移概率以及历史转移奖励，预测该待优化商家由该策略参数转移至各待选参数的转移概率以及转移奖励。最后，根据各待选策略类型下各待选参数对应的转移概率以及转移奖励中的至少一种，确定向各待优化商家推荐的优化策略。通过确定各待优化商家在各待选策略类型下，由策略参数转移至各待选参数的转移概率以及转移奖励，并基于转移概率和转移奖励中的至少一种，向商家推荐准确或易行的优化措施，促进商家的完善优化。
93.在本说明书步骤s104中确定该待选策略类型下的指定范围时，为了使推荐策略的可行性较高，便于商家实施，以及出于减少计算量的考量，可针对各待选策略类型，预先设置若干参数选取范围。之后，确定该待优化商家在该待选策略类型下的策略参数。并针对该待选策略类型下预设的每个参数选取范围，根据历史上各商家在该待选策略类型下，由该策略参数转移至该参数选取范围的历史转移概率，从中确定历史转移概率超出第三预设阈值的各参数选取范围，作为指定范围。其中，第三预设阈值可根据需要设置。
94.其中，以待选策略类型为减免配送金额为例，则待选策略类型下预设的参数选取范围指的是减免配送金额的选取范围。假设减免配送金额的参数选取范围分别为(0，3]、(3，5]、(5，8]，该待优化商家的当前减免配送金额为0元，历史上各商家的减免配送金额由0元调整至(0，3]元的商家占比为20％，则确定减免配送金额由0元调整至(0，3]元的历史转移概率为20％。
95.当然，若待选策略类型为提高商家营业时长，则该策略类型下的预设的参数选取范围可以是营业时间的延长范围，如，营业时长延长(0，2]、(2，4]。
96.进一步的，在确定历史上各商家在该待选策略类型下，由该策略参数转移至该参数选取范围的历史转移概率时，可先确定该待优化商家在该待选策略类型下的策略参数所属参数选取范围，作为当前参数范围。之后，确定历史上处于该待选策略类型下当前参数范围内的各商家，并确定各商家由该当前参数范围分别转移至各参数选取范围的历史转移概率。
97.例如，假设该待优化商家当前减免配送金额为2元，减免配送金额预设的各参数选取范围分别为(0，3]、(3，5]、(5，8]，则该待优化商家当前减免配送金额所处的当前参数范围为(0，3]，于是可确定历史上减免配送金额处于(0，3]的各商家，并确定各商家的减免配
送金额由(0，3]分别转移至(3，5]以及(5，8]的商家占比，作为各参数选取范围的历史转移概率。
98.假设第三预设阈值为50％，各商家的减免配送金额由(0，3]转移至(3，5]的历史转移概率为60％，由(0，3]转移至(5，8]的历史转移概率为30％，则表示商家减免配送金额由(0，3]转移至(3，5]的可行性高，因此(3，5]为指定范围。
99.在本说明书中，当待选策略类型为设置满减活动时，如订单金额满20元减5元，则满减活动下预设的参数选取范围可以是满15减3，满20减5，满30减8，满40减10等。若商家当前满减参数为满15减3时，则可分别确定各商家由满15减3，分别变更为满20减5，满30减8，满40减10的历史转移概率，并基于各历史转移概率，从中确定设置满减活动下的指定范围。
100.进一步的，通常商家只有设置更加优惠的策略，才能导致收益出现增长，因此在确定由商家当前的策略参数转移至各参数选取范围的转移概率，以确定指定范围时，可仅确定由商家当前策略参数转移至更加优惠的各参数选取范围的概率，如，假设商家当前的新客立减金额为5元，则可仅确定向新客立减金额大于5元的各参数选取范围的转移概率。
101.更进一步的，通过上述步骤确定出的该待选策略类型下的指定范围也可能是多个，则针对每个指定范围，通过步骤s104所示的方法确定各指定范围下各待选参数对应的转移概率以及转移奖励。
102.另外，在本说明书步骤s106中，为了便于商家根据需要自行选择执行策略，还可按照各转移概率的排序、各转移奖励的排序、各综合得分的排序中的至少一种，向商家展示各待选策略及待选参数的排序，以使商家基于自身情况自主选择。
103.基于图1所示的一种策略推荐方法，本说明书实施例还对应提供一种策略推荐装置的结构示意图，如图2所示。
104.图2为本说明书实施例提供的一种策略推荐装置的结构示意图，包括：
105.第一确定模块200，配置为根据历史上各商家的已执行策略类型及对应奖励，确定若干待选策略类型；
106.第二确定模块202，配置为针对每个待优化商家，确定该待优化商家分别在各待选策略类型下的策略参数；
107.预测模块204，配置为针对每种待选策略类型下指定范围内的每个待选参数，根据第一特征集，通过预先训练的第一预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移奖励，作为该待选参数对应的转移奖励，所述第一特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数；和/或针对每种待选策略类型下指定范围内的每个待选参数，根据第二特征集，通过预先训练的第二预测模型，预测该待优化商家由所述策略参数转移至该待选参数的转移概率，作为该待选参数对应的转移概率，所述第二特征集包含该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数、该待选参数以及历史上各商家由所述策略参数转移至该待选参数的历史转移概率以及历史转移奖励；
108.推荐模块206，配置为根据各待选策略类型下，各待选参数对应的转移概率以及转移奖励中的至少一种，确定优化策略，并向该待优化商家推荐所述优化策略，使该待优化商家进行优化。
109.可选地，所述第一确定模块200具体用于，根据历史上各商家的已执行策略类型，
筛选执行商家占比超出第一预设阈值的若干已执行策略类型，根据确定出的各已执行策略类型的对应奖励，筛选奖励超出第二预设阈值的若干已执行策略类型，作为待选策略类型。
110.可选地，所述预测模块204具体用于，确定该待优化商家在所述待选策略类型下的策略参数，针对所述待选策略类型下预设的每个参数选取范围，根据历史上各商家在所述待选策略类型下，由所述策略参数转移至该参数选取范围的历史转移概率，确定所述历史转移概率超出第三预设阈值的各参数选取范围，作为指定范围。
111.可选地，所述商家特征至少包含商家品类、所处地域以及历史交易信息中的至少一种，所述第一预测模型包含第一子模型以及第二子模型，所述预测模块204具体用于，根据第一特征集中该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数，通过预先训练的所述第一子模型，预测该待优化商家在该待选策略类型以及所述策略参数下的未来奖励，根据所述第一特征集中该待优化商家的商家特征、该待优化商家在该待选策略类型下的策略参数以及该待选参数，通过预先训练的所述第二子模型，预测该待优化商家在该待选策略类型下由所述策略参数转移至该待选参数的未来奖励，根据该待优化商家在该待选策略类型以及所述策略参数下的未来奖励，以及该待优化商家在该待选策略类型下由所述策略参数转移至该待选参数的未来奖励，确定该待优化商家由所述策略参数转移至该待选参数的转移奖励。
112.可选地，所述推荐模块206具体用于，根据各待选策略类型下，各待选参数对应的转移概率，确定转移概率最大的待选参数作为优化参数，以及确定所述优化参数对应的待选策略类型作为优化策略类型，并根据所述优化参数以及优化策略类型，确定优化策略；和/或根据各待选策略类型下，各待选参数对应的转移奖励，确定转移奖励最大的待选参数作为优化参数，并确定所述优化参数对应的待选策略类型作为优化策略类型，并根据所述优化参数以及优化策略类型，确定优化策略；和/或针对每个待选参数，根据该待选参数对应的转移概率以及转移奖励，确定该待选参数的综合得分，并根据各待选参数的综合得分，确定得分最高的待选参数为优化参数，以及确定所述优化参数对应的待选策略类型作为优化策略类型，并根据所述优化参数以及优化策略类型，确定优化策略。
113.可选地，所述策略推荐装置还包含模型训练模块208，所述模型训练模块208具体用于，确定历史上在该待选策略类型下已进行参数转移的各商家，获取各商家的商家特征、各商家在该待选策略类型下进行参数转移前的策略参数，以及各商家在该待选策略类型下进行参数转移后的策略参数，作为训练样本，根据各商家在该待选策略类型下进行参数转移所产生的转移奖励，对各训练样本进行标注，针对每个训练样本，将该训练样本输入待训练的第一预测模型，确定该第一预测模型输出的转移奖励，以最小化该第一预测模型输出的转移奖励与各训练样本的标注之间的差异为目标，调整该第一预测模型中的模型参数。
114.可选地，所述模型训练模块208具体用于，确定历史上推荐在该待选策略类型下进行参数转移的各商家，根据各商家的商家特征、各商家参数转移前后的参数以及历史上各商家进行相同参数转移的历史转移概率以及历史转移奖励，确定训练样本，根据各商家是否在该待选策略类型下进行参数转移，对各训练样本进行标注，针对每个训练样本，将该训练样本输入待训练的第二预测模型，确定该第二预测模型输出的转移概率，以最小化该第二预测模型输出的转移概率与各训练样本的标注之间的差异为目标，调整该第二预测模型中的模型参数。
115.本说明书实施例还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的策略推荐方法。
116.根据图1所示的一种策略推荐方法，本说明书实施例还提出了图3所示的电子设备的示意结构图。如图3，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所示的策略推荐方法。
117.当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。
118.在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和生成专用的集成电路芯片。而且，如今，取代手工地生成集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardware description language，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等，目前最普遍使用的是vhdl(very
‑
high
‑
speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。
119.控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
120.上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
121.为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
122.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
123.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
124.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
125.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
126.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
127.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
128.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd
‑
rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
129.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
130.本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
131.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
132.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
133.以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种BIOS程序的启动方法、系统及相关组件与流程

一种策略推荐方法及装置与流程

相关文献

最热文献