一种基于因果推断的决策方法以及模型训练方法与流程

2022-08-17 06:23:30 来源：中国专利 TAG：

1.本技术涉及因果决策领域，具体而言本技术实施例涉及一种基于因果推断的决策方法以及模型训练方法。

背景技术：

2.在产品营销过程中，对用户实施个性化营销策略对成交结果有正向帮助，研究施加在用户身上的营销策略对成交带来的正向效应是决策过程中的重要评估环节。
3.现在决策是专家经验或者ab测试，这需要一个验证周期；已有的数据中支持做相关决策，但用数据驱动自身无法完成决策。决策就是要采用什么样的动作或者什么样的安排或者什么样的作业模型，并能评估出对成交的效果。现有的策略方法验证周期长，导致根据业绩效果个性化选择用户的服务策略不能实现。

技术实现要素：

4.本技术实施例的目的在于提供一种基于因果推断的决策方法以及模型训练方法，采用本技术实施例的方法可以提升策略方法验证周期的速度，可以实现根据业绩效果个性化选择用户的服务策略。
5.第一方面，本技术的一些实施例提供一种基于因果推断的决策方法，所述决策方法包括：获取目标用户的用户特征、至少一个候选执行策略以及服务目标，其中，所述的用户特征用于表征影响用户成交/服务目标的因素，所述的候选执行策略用于表征可采用的各种促成成交的手段，所述服务目标用于表征在设定成本条件下希望提升或达到的成交率；将所述用户特征、所述候选执行策略以及所述服务目标输入目标因果图量化模块，并通过所述目标因果图量化模块从所述至少一个候选执行策略中选择与所述服务目标匹配的目标策略，其中，所述目标因果量化图模块被配置为通过决策收益公式确定所述目标执行策略，所述决策收益公式与对所述目标用户实施各候选执行策略后的成交概率值相关。
6.本技术的一些实施例通过因果决策模型实现目标策略选择，策略验证周期有效缩短因此可使得本技术的一些实施例根据业绩效果个性化选择用户的服务策略。
7.在一些实施例中，所述候选执行策略包括：选择人工坐席或选择机器人对所述目标用户提供服务，以达成所述服务目标。
8.在一些实施例中，所述决策收益公式还与转化金额、提供服务的时长、单位时间内人工支出成本以及单位时间内机器人支出成本相关。
9.本技术的一些实施例通过定义的决策收益公式量化决策过程，从而可以有效提升因果决策速度和准确度。
10.在一些实施例中，所述决策收益公式为：m
决策收益
＝(p
(y＝成交|do(treatment＝人工坐席)，x)-p
(y＝成交|do(treatment＝机器人)，x)
)*m
件均-(m
人-m
机
)*t
11.其中，p
(y＝成交|do(treatment＝人工坐席)
表示对所述目标用户x实施人工服务干预之后的成交预测，p
(y＝成交|do(treatment＝机器人)，x)
表示对所述目标用户x实施机器人服务干预之后的成交预
测，m
件均
表征转化金额，m
人
表示单位时间内人工支出成本，m
机
表示单位时间内机器人支出成本，t表征服务时长，do算子用于表征假设实施执行策略后的因果逻辑。
12.本技术的一些实施例通过定义的因果决策公式可以选择更合理的目标执行策略，从而可以以最低成本最大概率的促成针对目标用户的交易。
13.在一些实施例中，所述目标因果图量化模块包括量化模型，其中，所述量化模型包括决策树量化模型或者神经网络模型，所述量化模型用于预测所述p
(y＝成交|do(treatment＝人工坐席)
或者p
(y＝成交|do(treatment＝机器人
)的取值。
14.本技术的一些实施例提供一种获取成交预测结果的模型，使得得到的预测结果更加准确客观。
15.在一些实施例中，所述服务目标采用成交率和成本进行表征。
16.第二方面，本技术的一些实施例提供一种用于获取第一方面所涉及的目标因果图量化模块的方法，所述方法包括：构建因果图量化模型；基于历史用户特征、历史执行策略、历史服务目标以及专家刻画的因果图对所述因果图量化模型进行训练得到所述目标因果图量化模块，其中，所述历史用户特征采用用户星级表征对用户的评价等级，所述因果路径图用于表征如下规则：用户星级影响决策者选用执行策略和服务目标的达成，且执行策略影响服务目标的达成。
17.在一些实施例中，所述因果图量化模型包括基于决策树的因果图量化模型或者基于神经网络的因果图量化模型。
18.第三方面，本技术的一些实施例提供一种模型训练方法，所述模型训练方法包括：通过关联分析数据构建因果路径图，其中，所述因果路径图用于表征如下规则：用户星级影响决策者选用执行策略和服务目标的达成，且执行策略影响服务目标的达成；根据所述因果路径图量化因果效应，得到决策收益公式，其中，所述决策收益公式用于表征因果逻辑、用户特征和服务目标之间的运算关系；根据所述决策收益公式求解最值，预测得到在目标业绩情况下对应的预测目标执行策略；根据所述预测目标执行策略与理想目标执行策略之间的差异确定是否重复上述训练过程，直至训练结束得到目标因果图量化模块，其中，所述目标因果图量化模块被配置为获取决策收益公式的计算结果。
19.在一些实施例中，所述决策收益公式与对所述目标用户实施各候选执行策略后的成交概率值相关。
20.第四方面，本技术的一些实施例提供一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机执行时，使得所述一个或多个计算机执行如第一方面或第二方面任意实施例所述的方法。
21.第五方面，本技术的一些实施例提供一种存储指令的一个或多个计算机存储介质，当所述指令由一个或多个计算机执行时，使得所述一个或多个计算机执行如第一方面或第二方面任意实施例所述的方法。
附图说明
22.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以
根据这些附图获得其他相关的附图。
23.图1为本技术实施例提供的基于因果推断的决策系统的组成示意图；
24.图2为本技术实施例提供的训练模型的架构图；
25.图3为本技术实施例提供的因果路径图的示意图；
26.图4为本技术实施例提供的神经网络模型的架构图；
27.图5为本技术实施例提供的基于因果推断的决策方法的流程图；
28.图6为本技术实施例提供的目标因果图量化模块的输入和输出示意图。
29.具体实施方式
30.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。
31.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本技术的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
32.本技术的一些实施例基于结构性因果模型进行建模，并基于用户理解的模型结合决策数据来构建决策过程。通过一些干预手段或者反事实的相关推理，能验证某个决策所带来的效果预期。需要说明的是，干预手段即干预策略，例如，是让人服务还是让机器服务。反事实的相关推理：拿到历史数据实际是人服务的，推理如果当时是机服务的那会是什么效果，目标值会变成什么，从而推理出未来此场景应该使用的策略。例如，在本技术的一些实施例中，根据服务目标(成交率(高成交率)、低成本，高成本加低成交)，结合用户评价星级(作为用户特征的中表达形式)，去从备选的几个候选执行策略中确定那个策略最好。
33.请参看图1，图1为本技术的一些实施例提供的一种基于因果推断的决策系统，该系统包括第一终端21、第二终端22、第三终端23以及服务器10。
34.图1的各终端设备用于获取用户特征(例如，与各用户对应的星级)、候选执行策略(例如，由人提供服务还是由机器人提供服务、多长时间对用户进行跟进等)以及服务目标(例如，该服务目标用成本和成交率进行表征)，之后各终端将获取的这些数据发送至服务器10。
35.服务器10收到来自各终端的相关数据后进行执行策略选择，并分别向各终端设备反馈对应的目标执行策略，以使对应终端设备可以根据目标执行策略对用户进行跟踪服务，以尽可能小的成本和尽可能大的成交概率促成该用户的交易。例如，服务器10至少被配置为设置有目标因果图量化模块，通过将用户特征、候选执行策略以及服务目标输入该目标因果图量化模块该目标因果图量化模块能够从多个候选执行策略中选择出满足服务目标的目标执行策略。
36.需要说明的是，图1仅用于示例性阐述本技术实施例的应用场景，在本技术的另一些实施例中也可以由终端设备自身来从多个候选执行策略中选择出满足服务目标的目标执行策略。可以理解的是，在本技术的一些实施例中，图1的终端或者服务器均包括存储器和处理器。
37.下面结合图2的训练模型示例性阐述对模型进行训练以获取目标因果图量化模块的具体过程。
38.如图2所示，因果图建模模块200被配置为，因果图量化模块101至少被配置为通过关联分析数据构建因果图(即因果建模—数据驱动)，并基于构建的因果图挖掘用于反应因果逻辑的因果效应，并根据因果效应、用户评价星级(用于表征用户特征的一个示例)和服务目标，求解最值在业绩最好的情况下确定执行策略组中那个策略可以作为目标执行策略。
39.由图2的因果图量化模块200所构建的因果路径图如图3所示，输入图2的因果图量化模块200的是输入：历史用户评价星级、历史执行策略、历史服务目标、专家因果图，通过该模块得到如图3所示的“用户-策略-目标”因果路径图，该因果路径图的含义为：用户星级会影响决策者选用服务策略(等级越高的用户越倾向提供人工服务)，用户星级会影响服务目标的达成(等级越高的用户越容易专户)；服务策略会营销服务目标的达成(人工服务比机器人服务更专业)。
40.因果图量化模块200还被配置为根据历史用户评价星级、历史执行策略、历史服务目标以及因果路径图，预测得到因果效应(即输出决策结果)。需要说明的是，训练过程就是调整因果量化图模块的参数并得到目标因果图量化模块100的过程。
41.例如，该因果图量化模块可以采用决策树模型。决策树模型架构为causal ml，因果效应量化模型为basesclassifier，超参数：提升树模型：lightgbm.lgbmclassifier，随机森林中树的数量：400，学习率：0.05且每颗树的叶子节点：32。
42.例如，该因果图量化模块也可以采用如图4所示的神经网络模型，该模块输出的结果是因果效应。神经网络模型包括两个参数共享的双向lstm模块以及一个全连接层模块，例如，将用户特征以及执行策略输入一个双向lstm模型中，之后再将该模块的输出输入至全连接层得到各次训练预测的因果效应。
43.也就是说，本技术的一些实施例提供一种用于获取目标因果图量化模块的方法，所述方法包括：构建因果图量化模型；基于历史用户特征、历史执行策略、历史服务目标以及专家刻画的因果图对所述因果图量化模型进行训练得到所述目标因果图量化模块，其中，所述历史用户特征采用用户星级表征对用户的评价等级，所述因果路径图用于表征如下规则：用户星级影响决策者选用执行策略和服务目标的达成，且执行策略影响服务目标的达成。
44.在一些实施例中，所述因果图量化模型包括基于决策树的因果图量化模型或者基于神经网络的因果图量化模型。
45.可以理解的是，本技术的一些实施例提供一种模型训练方法，所述模型训练方法包括：通过关联分析数据构建因果路径图，其中，所述因果路径图用于表征如下规则：用户星级影响决策者选用执行策略和服务目标的达成，且执行策略影响服务目标的达成；根据所述因果路径图量化因果效应，得到决策收益公式，其中，所述决策收益公式用于表征因果逻辑、用户特征和服务目标之间的运算关系；根据所述决策收益公式求解最值，预测得到在目标业绩情况下对应的预测目标执行策略；根据所述预测目标执行策略与理想目标执行策略之间的差异确定是否重复上述训练过程，直至训练结束得到目标因果图量化模块，其中，所述目标因果图量化模块被配置为获取决策收益公式的计算结果。
46.在一些实施例中，所述决策收益公式与对所述目标用户实施各候选执行策略后的成交概率值相关。
47.假设对图2的网络模型训练结束，得到与因果图量化模块对应的目标因果图量化模块，之后再基于该模块实现本技术实施例的基于因果推断的决策方法。下面结合图5示例性阐述基于训练得到的目标因果图量化模块得到目标策略的过程。
48.如图5所示，本技术的一些实施例提供一种基于因果推断的决策方法，所述决策方法包括：s101，获取目标用户的用户特征、至少一个候选执行策略以及服务目标，其中，所述用户特征用于表征用户的成交概率值，所述的候选执行策略用于表征可采用的各种促成成交的手段，所述服务目标用于表征。s102，将所述用户特征、所述候选执行策略以及所述服务目标输入目标因果图量化模块，并通过所述目标因果图量化模块从所述至少一个候选执行策略中选择与所述服务目标匹配的目标策略，其中，所述目标因果量化图模块被配置为通过决策收益公式确定所述目标执行策略，所述决策收益公式与对所述目标用户实施各候选执行策略后的成交概率值相关。
49.也就是说，如图6所示，将用户特征、至少一个候选执行策略以及服务目标输入目标因果图量化模块，就可以预测得到目标执行策略，这正是由于对模型进行训练后使得模型具备了策略选择能力。
50.本技术的一些实施例通过因果决策模型实现目标策略选择，策略验证周期有效缩短因此可使得本技术的一些实施例根据业绩效果个性化选择用户的服务策略。
51.在本技术的一些实施例中，所述候选执行策略包括：选择人工坐席或选择机器人对所述目标用户提供服务，以达成所述服务目标。服务目标是指在一定的成本下提升用户成交率。例如，可选的服务策略包括：机器人和坐席人工的服务，那么在同样30％的人工服务率下，目标是提升整体的用户成交率(例如，之前是5％的成交率，采用本技术的一些实施例优化后成交率达到10％)。
52.在本技术的一些实施例中，所述决策收益公式还与转化金额、提供服务的时长、单位时间内人工支出成本以及单位时间内机器人支出成本相关。
53.本技术的一些实施例通过定义的决策收益公式量化决策过程，从而可以有效提升因果决策速度和准确度。
54.在本技术的一些实施例中，所述决策收益公式为：m
决策收益
＝(p
(y＝成交|do(treatment＝人工坐席)，x)-p
(y＝成交|do(treatment＝机器人)，x)
)*m
件均-(m
人-m
机
)*t
55.其中，p
(y＝成交|do(treatment＝人工坐席)
表示对所述目标用户x实施人工服务干预之后的成交预测，p
(y＝成交|do(treatment＝机器人)，x)
表示对所述目标用户x实施机器人服务干预之后的成交预测，m
件均
表征转化金额，m
人
表示单位时间内人工支出成本，m
机
表示单位时间内机器人支出成本，t表征服务时长，do算子用于表征假设实施执行策略后的因果逻辑。
56.需要说明的是，m:代表金额(单位：元)，m
决策收益
表征针对用户评价星级所指代的用户执行特定服务策略获得的收益比不执行特定服务策略所获取的收益的差值，例如提供人工服务比不提供人工服务预期能多获取3元服务费，m
收益
用于表征转化某一用户所能获取的收益价值，例如完成一单转化，获取服务费10元；成本率(单位：元/分钟)，a
人
用于表征支出给坐席平均到每分钟的工资，a
机
用于表征机器人每分钟所消费的金额、例如网费、设备租用、购买等费用总和；t用于表征工作时长(单位：分钟)；p用于表征转化概率，其中，p(y|do(服务策略),x)用于表征针对特征用户评价等级x，执行一个服务策略后，用户转化概率，例如对“五星”用户实施人工服务，预期转化概率0.4，p(y|not_do(服务策略),x)用于表征针
对特征用户评价等级x，执行一个服务策略后，用户转化概率，例如不对“五星”用户实施人工服务，预期转化概率0.2。do算子：
do(服务策略)
:假设执行了服务策略后的因果逻辑；
not_do(服务策略)
:假设不执行服务策略后的因果逻辑。
57.本技术的一些实施例通过定义的因果决策公式可以选择更合理的目标执行策略，从而可以以最低成本最大概率的促成针对目标用户的交易。
58.在本技术的一些实施例中，所述目标因果图量化模块包括量化模型，其中，所述量化模型包括决策树量化模型或者神经网络模型，所述量化模型用于预测所述p
(y＝成交|do(treatment＝人工坐席)
或者p
(y＝成交|do(treatment＝机器人
)的取值。
59.本技术的一些实施例提供一种获取成交预测结果的模型，使得得到的预测结果更加准确客观。
60.在一些实施例中，所述服务目标采用成交率和成本进行表征。
61.本技术的一些实施例提供一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机执行时，使得所述一个或多个计算机执行上述任意实施例所述的方法。
62.本技术的一些实施例提供一种存储指令的一个或多个计算机存储介质，当所述指令由一个或多个计算机执行时，使得所述一个或多个计算机执行如上述任意实施例所述的方法。
63.在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
64.另外，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
65.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
66.以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。应注意到：相似的标号和
字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
67.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。
68.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于因果推断的决策方法以及模型训练方法与流程

相关文献

最热文献