将情境博弈器与时间差学习集成，用于运输叫车平台的定价和调度的制作方法

2022-02-22 17:42:13 来源：中国专利 TAG：

1.本发明的实施方式涉及到运输系统。特别是，本发明的实施方式涉及用于运输叫车的平台和方法。

背景技术：

2.在出租车行业，几十年来，出租车供应和出行需求的时空不平衡问题一直是系统效率(以及收入)的主要障碍。随着出租车行业从街头叫车到在线或电子叫车(“e叫车”)平台的快速革命，这种不平衡已经通过减少出租车的巡航时间和更复杂的出租车订单调度技术而得到缓解。然而，即使引入在线叫车平台，需求和供应仍然是高度不平衡的。
3.因此，目前的街头叫车和在线平台和方法未能有效地解决需求和供应问题，同时解决未来需求。此外，目前的街头叫车和在线平台和方法未能解决需求和供应问题，同时优化定价。

技术实现要素：

4.描述有配置为调度运输资源的系统和相关方法。该系统包括一个或多个数字设备，该一个或多个数字设备被配置为接收对运输到目的地的价格的请求；接收目的地信息；以及接收出发地信息。该系统被配置为响应于价格请求，基于价格策略和调度策略来生成报价(price quote)。该系统被配置为响应于所生成的报价，生成对价格请求的响应。并且，该系统被配置为通过网络传输该报价。
5.从附图和下面的详细描述中可以看出各实施方式的其他特点和优点。
附图说明
6.在附图中，通过举例而非限制的方式展示本发明的各实施方式，其中类似的附图标记表示类似的元素，并且在其中：
7.图1展示根据一实施方式的运输叫车平台的框图；
8.图2展示一根据实施方式的实施联合定价和调度策略的方法的流程图；
9.图3展示根据一实施方式的用于实施联合定价和调度策略的方法的伪代码；
10.图4展示根据一实施方式的客户端的实施方式；以及
11.图5展示根据一实施方式的服务器的实施方式。
具体实施方式
12.运输-叫车平台(诸如汽车叫车平台)的实施方式和相关方法被配置为优化定价和优化调度运输。各实施方式实施学习框架，例如，集成的情境博弈器(contextual bandit)和时间差异学习(“inbede”)，以使优化定价和运输调度两者成为可能。根据一些实施方式，叫车平台包括情境博弈器部分，该情境博弈器部分响应于接收价格请求而部署，并动态更
新。叫车平台还包括时间差(“td”)学习部分，以估计定价策略以及调度策略的未来影响。对于一些实施方式，td部分的更新频率低于情境博弈器部分，例如在一天结束的时候。
13.系统和方法的实施方式被配置为生成用于对用于汽车叫车的定价和调度进行联合优化的统一框架的首次尝试。此外，inbede被用来生成定价和调度策略。inbede以相互引导的方式将情境博弈器的训练与时间差异学习结合在一起。此外，该系统实施定价和调度策略，以优化该系统的定价和调度效率。
14.根据本文所述的实施方式的系统和方法与目前的汽车叫车平台和方法相比具有优势，因为定价和调度是被联合优化的。这与独立处理定价和调度的系统形成对比。此外，目前的系统依赖于在先到先得的基础上将驾驶员与乘客相匹配，而没有关于一个或多个地区的未来影响或利润最大化的任何投入。目前的系统还在旅行价格固定的假设下操作。因此，本文描述的系统和方法更有效地使用运输资源，并对运输需求的趋势做出更好的反应。运输资源包括但不限于带有车辆的驾驶员、自动驾驶车辆和其他用于运送乘客的资源。
15.此外，根据本文所述的实施方式的系统和方法与当前的系统和方法相比，随着时间的推移优化净利润。因此，该系统和方法被配置为在长期内比当前的系统和方法更有效地操作。更好地分派运输资源(诸如车辆中的驾驶员)的能力，使系统能够满足当前的需求，同时更好地定位资源，以更有效地满足未来的需求。该系统还使将运输资源分派到将长期增加净利润的区域成为可能。这使这种系统和方法能够为一定数量的运输资源增加收入。
16.图1展示根据一实施方式的运输叫车平台100的框图。运输叫车平台100包括客户端设备102，该客户端设备被配置为与调度系统104通信。调度系统104被配置为基于从一个或多个客户端设备102收到的信息和从一个或多个运输设备112收到的信息来生成订单清单106和运输清单108。运输设备112是数字设备，该数字设备被配置为从调度系统104接收信息并通过通信网络112传输信息。对于一些实施方式，通信网络110和通信网络112是同一个网络。该一个或多个运输设备被配置为向调度系统104传输位置信息、对订单的接受以及其他信息。对于一些实施方式，运输设备112的信息传输和接收是自动的，例如通过使用遥测技术。对于其他实施方式，信息的传输和接收中的至少一些是由驾驶员发起的。
17.调度系统104被配置为例如响应于接收来自客户端设备102的请求，生成用于从出发地到目的地的运输的价格。对于一些实施方式，该请求是在客户端设备102处生成的一个或多个数据包。根据一些实施方式，该数据包包括出发地信息、目的地信息和唯一标识符。对于一些实施方式，客户端设备102响应于接收来自用户(例如来自在客户端设备102上运行的应用程序)的输入而生成请求。对于一些实施方式，出发地信息是基于从客户端设备102接收的位置信息由应用程序生成的。出发地信息是从包括但不限于经度和纬度坐标(例如，从全球导航系统收到的那些)、基站、无线接入点、网络设备和其他具有已知位置的无线发射器的信息生成的。在一些实施方式中，出发地信息是基于由用户输入到客户端设备102中的信息(诸如地址信息)来生成的。对于一些实施方式，目的地信息是由用户输入到客户端设备102的。对于一些实施方式，调度系统104被配置为响应于从客户端设备102接收到价格请求而请求出发地、目的地或其他信息。此外，对信息的请求可以使用从调度系统104传送到客户端设备102的一个或多个对信息的请求来发生。
18.调度系统104被配置为基于定价策略来生成报价。根据一些实施方式，定价策略是基于两个部分，1)基本价格，这是基于旅行距离、旅行时间和其他与满足运输到目的地的请
求有关的成本因素的固定价格，以及2)定价系数，这是在基本价格之上的乘法系数或额外附加费。
19.对于一些实施方式，定价策略被配置为考虑到未来影响。例如，定价策略被配置为鼓励请求(例如，通过降低价格或降低乘法系数)，将用户从运输需求小于供应和/或定价能力的地区(在此称为“冷门地区”)运送到运输需求大于供应和/或定价能力的地区(在此称为“热门地区”)的请求。这有助于将来自出发地在冷门地区、终点在热门地区的用户的请求转化为订单。作为另一个可以单独使用或添附于本文描述的实施例使用的实施例，调度系统104被配置为生成定价策略，该定价策略不鼓励用于从热门地区到冷门地区的运输请求的订单(例如，通过使用增加的价格或更高的乘法系数)。让运输资源将乘客从冷门地区驱赶到热门地区，可以更好地使运输系统100将运输资源定位在近期内将完成另一个订单的地区。这有助于缓解供需不平衡，同时使运输平台(增加利润)和乘客(减少等待时间)两者受益。被配置为在定价策略中考虑到运输资源的未来影响的调度系统104，使驾驶员、运输资源从其在当前时间的原始位置重新定位到乘客在未来时间的目的地的未来影响成为可能。
20.此外，调度系统104被配置为实施调度策略。响应于从一个或多个客户端设备102接收订单，调度系统104生成订单清单106，并被配置为将订单与运输清单104中的运输资源相匹配。调度策略考虑到将订单清单106中的订单与运输清单104中的运输资源相匹配的未来影响。对于一些实施方式，给予对带有更高的即时和未来潜在价值的订单的匹配更高的优先权。调度系统104被配置为联合实施定价策略和调度策略，以实现将订单与运输资源相匹配的未来影响，这可能导致将运输资源从当前区域重新定位到不同区域，以优化满足需求和长期的利润。
21.调度系统104被配置为联合实施定价策略和调度策略。对于一些实施方式，调度平台104分两个阶段实施定价策略和调度策略两者，生成报价(或等同于订单生成)和订单调度。
22.调度系统104被配置为通过生成代表价格请求的d维向量来生成联合定价策略和调度策略。对于一些实施方式，价格请求由i表示，并且d维向量包括情境特征xi＝《x
ij
》，包括由调度系统104收到价格请求的时间ti、代表原始位置li的出发地信息、代表目的地l'i的目的地信息以及估计出的基本价格pi。情境特征可以包括但不限于：行程的出发地的经度、行程的出发地的纬度、行程的目的地的经度、行程的目的地的纬度、行程的开始时间、行程的基本价格、行程的距离、行程的估计出的旅行时间、平均价格请求转化率(在此也称为冒泡转化率(“bcr”))、出发地的平均bcr、行程的出发地-目的地对的平均bcr以及目的地区域的平均bcr。
23.对于一些实施方式，估计出的基本价格是基于估计出的行程距离、时间以及与将乘客从收到的出发地运输到目的地相关联的其他成本，由调度系统104产生的。例如，估计出的行程距离乘以成本系数，以生成估计出的行程距离成本。而且，运输乘客的时间乘以成本系数，生成时间成本。对于一些实施方式，用于估计出的行程距离的成本系数与用于时间的成本系数相同。根据其他实施方式，用于估计出的行程距离的成本系数与用于时间的成本系数不同。调度系统104通过至少将估计出的行程距离成本添加到时间成本来产生基本价格。对于一些实施方式，其他成本被添加到估计出的行程距离成本和时间成本以产生基
本价格。
24.根据一些实施方式，除了基本价格pi外，调度系统104被配置为还使用定价策略ai∈a来生成报价，以影响价格请求(在此也称为“冒泡”)转化为订单的概率f(xi,ai)，称之为冒泡转化率(“bcr”)。这里a是价格因素的可行空间。对于一些实施方式，a是一组离散的价格因素，例如a＝{0.85,0.9,0.95,1,1.05,1.1,1.15}。对于一些实施方式，将价格请求转化为订单的概率f(xi,ai)是定价策略ai的非递增函数。换句话说，当价格增加时，冒泡转化为订单的概率减少，反之亦然。因此，给出冒泡i的定价因素ai，运输平台的预期即时净利润使用等式(1)r(xi,ai)＝f(xi,ai)(p
iai-piβ)产生，其中β是由运输资源(诸如汽车)的驾驶员(如果有的话)分享的收入部分。
25.除了即时净利润外，调度系统被配置为考虑到用于冒泡i的当前定价策略ai的未来影响。冒泡转化为订单，即当用户接受用于运输的报价时，调度系统104将调度运输资源j(诸如驾驶员)到乘客的出发地点以处理订单。对于一些实施方式，调度系统104从客户端设备102接收表示接受对运输价格的报价的传输。调度系统104生成订单清单106以更新该清单，以包括用户，并使用本文所述的技术将订单与运输资源108相匹配。对于一些实施方式，调度系统104被配置为通过通信网络114传输调度通知，该调度通知包括信息，诸如出发地点和目的地地点。
26.在调度之后，运输资源(诸如驾驶员)从运输资源所在的原始位置lj出发，到订单的出发地li(由冒泡i转化而来)去接载乘客。运输资源将乘客运输到目的地l'i。根据一些实施方式，目的地信息使用包括本文所述的那些技术，通过通信网络传输给运输资源114。因此，这导致运输资源j从lj到l'i的重新定位。
27.根据一些实施方式，调度系统104使用价值函数和马尔科夫决策过程(“mdp“)来生成用于运输资源的时空价值，以生成将订单指派给运输资源的未来影响。在mdp中，状态sj＝(tj,lj)代表运输资源j在位置lj和时间tj的状态。注意，运输资源的状态sj与冒泡i的情境特征xi不同。调度系统104对运输资源的调度行动被表示为二进制向量运输资源在同一时间被指派给不超过一个订单的限制，由调度系统表示为
28.当运输清单108中的运输资源被指派给订单清单106中的订单当运输清单108中的运输资源被指派给订单清单106中的订单时，调度系统104被配置为指派b
ji
＝1以更新运输清单108，以指示出运输资源不再可供指派。响应于从调度系统104接收订单信息，运输资源将在地点li处接载乘客，并前往订单的目的地l'i。在这种情况下，调度系统104指派给运输叫车平台p
iai-piβ的奖励，其中ai是价格策略。当运输清单108中的运输资源没有被指派给订单清单106中的任何订单时，调度系统104指派对于这种情况，运输资源是闲置的，调度系统104指派给运输-叫车平台的奖励为零。根据一些实施方式，调度系统104在运输资源未被指派给订单时，对其在原始位置周围的位置使用随机行走。例如，随机行走可以是基于用于运输资源的历史轨迹数据。
29.调度系统104被配置为使用等式(2)来生成运输-叫车平台的奖励。请注意，与之前奖励被单纯地定义为订单的基本价格的工作不同的是，这里的奖励是受到定价策略ai影响的净利润。
30.当调度系统104将运输资源与订单i相匹配时，运输资源的下一个状态是订单的目的地和到达时间，该到达时间是接载乘客时间和服务时间之和。如果运输资源没有被指派给任何订单，则下一个状态是由随机行走决定的。
31.使用π表示通用的联合定价和调度策略，调度系统104被配置为使用等式(3)来生成运输资源在状态s＝(l,t)的通用的累积值，其中s
end
是终端状态。该定义用于生成特定定价策略ai对冒泡i的预期未来净利润(如果冒泡i被使用调度策略的调度系统指派给运输资源j)。调度系统104被配置为使用等式(4)r
π
(xi,ai)＝γf(xi,ai)(v
π
(ti ti,l’i
)-v
π
(ti,lj))来生成未来净利润，其中γ是指示出即时净利润相对应未来净利润的权重的折扣系数，ti是从出发地li到目的地l’i
的估计出的旅行时间，而ti ti是乘客和运输资源的估计出的到达时间。
32.结合上述等式(1)-(4)，定价策略ai的总预期净利润可以表示为u
π
(xi,ai)＝f(xi,ai)[p
iai-piβ γ(v
π
(t ti,l’i
)-v
π
(t,lj))](等式5)。对于一些实施方式，调度系统104被配置为直接使用定价策略ai的总预期净利润，而不是上述等式(1)-(4)。基于上文，调度系统104被配置为使用分布式冒泡定价优化问题，该分布式冒泡定价优化问题被表述为：对于每个冒泡对于所有定价策略ai∈a(等式7)。
[0033]
调度系统104被配置为使用订单调度策略，以将运输清单108中的运输资源指派给订单清单106中的订单，从而使订单得到服务。对于一些实施方式，调度系统104被配置为在离散时间基础上(例如，每2秒)将传入的订单指派给运输资源。每当有冒泡(价格请求)传入时，就会基于特定策略报出价格，冒泡在用户接受报价的情况下被转化为订单，或者被取消。在时间段t内，一组订单(包括上一时间段留下的订单)被调度系统104收集，并且有一组空闲的运输资源j(那些可用但未被乘客使用的资源)分布在由调度系统104服务的a区域(诸如城市或城市的一部分)中。给出运输资源j∈j和订单的匹配，该匹配的长期累积净利润表示为满足订单i的即时净利润和将运输资源j从s＝(t,lj)重新定位到s’＝(t ti,l
i’)的未来影响：v
π
(i,j)＝p
iai-piβ γ(v
π
(t ti,l
i’)-v
π
(t,lj))(等式8)。
[0034]
根据一些实施方式，在每个时间段t中，调度系统的目标是找到最佳调度策略x，从而使所有被调度的运输资源的总价值最大化。如上所述，用于运输资源j∈j的调度策略为让b＝《bj》,j∈j表示订单清单106和运输清单108中的所有订单的调度策略。因此，由调度系统104使用的以下整数线性程序(“ilp”)是：受制于受制于其中和和
[0035]
约束指示出调度系统最多只能为订单指派一个运输资源。根据一些实施方式，约束规定运输资源可以被指派给一个订单。而且，约束指示出决策变量是二元的。
[0036]
可以用kuhn-munkres(“km”)方法来解决该问题。尽管用于分布式冒泡定价(等式(6)-(7))和集中式订单调度(等式(9)-(12))的清晰方程，但由于运输资源的未知时空价值函数v
π
(s)(即上述等式3)以及将价格请求转化为订单的概率f(xi,ai)，这两个问题不能轻易用km方法解决。相互依赖的定价和调度策略使这些数值的学习变得复杂，需要高成本的计算资源和时间。虽然强化学习方法已被证明在解决顺序决策问题上是有效的，但它们通常依赖于统一的mdp定义，然而，其对于上述的联合定价和调度策略而言并不存在。
[0037]
为了解决这些问题，调度系统104被配置为使用集成用于联合定价和调度的时间差学习的情境博弈器(“inbede”)，其集成两个强化学习(“rl”)框架的训练和利用。根据一些实施方式，调度系统104被配置为使用伪情境博弈器方法来学习分布式冒泡定价的长期回报，以及使用时间差学习方法来更新运输资源的时空值。对于一些实施方式，这两个学习过程以相互引导的方式迭代，如本文更详细地描述。
[0038]
根据一些实施方式，调度系统104被配置为以类似于多臂博弈器方法的方式更新定价策略。这使与得目前技术(诸如使用km算法)相比具有益处，以动态地探索和更新定价策略，以优化将报价转化为订单和利润。根据一些实施方式，每个冒泡i被视为试验，调度系统104被配置为以类似于情境博弈器方法的方式对待该试验。在试验i中，冒泡的情境特征xi呈向量的形式，该向量总结冒泡的情境特征，诸如本文所述的那些。将每个价格请求(冒泡)视为试验，假设每个价格请求的报价不会相互影响。虽然，该假设在某些情况下可能不成立(例如，对于来自地理上接近的地区的价格请求)，但该假设对大多数价格请求是有效的。
[0039]
常规的情境博弈器方法寻求选择臂来最大化预期报酬的，其中报酬函数被定义为与特定臂相关联的奖励，每个臂代表定价策略，与常规的情境博弈器方法相反，调度系统104被配置为使用半情境博弈器方法，其中报酬函数是即时奖励和长期奖励的总和，例如在等式(5)中列出。根据一些实施方式，特定情境博弈器算法b的预期报酬函数是等式(5)中列出。根据一些实施方式，特定情境博弈器算法b的预期报酬函数是其中x是一组冒泡，u
π
(xi,ai)是给出情境特征xi选择臂/定价策略ai的报酬(参见等式(5))。
[0040]
调度系统104可以被配置为实施任何类型的旨在解决情境博弈器问题的方法，包括但不限于linucb、thompson sampling、exp4.p和neuralbandit。根据一些实施方式，调度系统104被配置为使用linucb风格的情境博弈器方法，因为其在实施上很简单。与linucb类似，调度系统104被配置为对每个试验i使用，即臂a∈a的预期报酬是其d维情境特征xi中的带有参数θa的线性函数，使得
[0041]
为了估计用于每个臂a的θa，带有对应报酬u
π
(xi,a)的一组情境特征xi由调度系统104收集。在试验i之前用作情境特征的训练输入被表示为m乘d矩阵da，其行对应于在试验i之前观察到的臂a的m个训练输入(情境)，并让ca∈rm为对应的报酬向量。θa可以根据使用岭回归(作为闭合形式的解决方案)进行估计，其中id是d乘d的身份矩阵。
[0042]
根据一些实施方式，当前选择的臂/定价策略ai的未来影响r
π
(xi,ai)不能即时知道，因为调度系统104需要知道指派给订单的运输资源的未来时空值v
π
(t,l)(参见等式
(4))。为了克服这个问题，调度系统104被配置为将半情境博弈器方法与时间差(td)学习集成，其中调度系统104被配置为通过动态编程(dp)的方式生成该值的拟合，而不是使用蒙特卡洛方法获得长期行动值。
[0043]
具体来说，调度系统104使用具体来说，调度系统104使用使用将指派给订单的运输资源重新定位的即时奖励和估计出的未来影响之和，生成当前定价行动值的拟合，其中是运输资源的长期时空价值的拟合。对于一些实施方式，调度系统104被配置为使用包括但不限于表格拟合器和神经拟合器的技术来生成此类拟合。对于一些实施方式，使用神经拟合器是因为其价值表示能力。
[0044]
图2展示实施根据一实施方式的联合定价和调度策略的方法的流程图。该方法包括在202处，例如在调度系统处，使用包括本文所述的那些技术，接收价格请求。在204处，该方法使用包括本文所述的那些技术来确定价格请求的情境特征。在206处，该方法包括使用包括本文所述的那些技术来生成联合定价和调度策略。在208处，该方法包括使用包括本文所述的那些技术，基于联合定价和调度策略来生成报价。该方法包括在210处，例如在调度系统处，使用包括本文所述的那些技术来接收订单。该方法在212处更新订单清单，例如包括收到的新订单，例如追加订单清单，并移除已经使用包括本文所述的那些技术来指派或与运输资源匹配的订单。在214处，该方法使用包括本文所述的那些技术来将订单(诸如订单清单中的订单)与运输资源(诸如运输清单中的运输资源)相匹配/指派。该方法包括更新运输清单，例如指示出运输资源为可用或不可用。对于一些实施方式，更新运输清单包括在运输资源不可用的情况下，从运输清单中移除该运输资源，并且在运输资源可用的情况下，将该运输资源添加/应用到运输清单中。对于一些实施方式，该方法在数字设备(诸如本文所述的调度系统)上实施。该方法的步骤可以按本文具体描述的顺序以外的顺序执行。此外，该方法可以包括比本文所述更少的步骤，但仍在本文所述的精神和范围之内。
[0045]
图3展示用于实施一方法的伪代码，该方法用于实施根据一实施方式的联合定价和调度策略。m是博弈器算法，诸如本文所描述的算法。t是时间段。对于一些实施方式，该时间段被配置为秒级，例如2秒。对于一些实施方式，该时间段包括但不限于，可以在包括毫秒到数分钟的范围内的时间段。
[0046]
对于一些实施方式，联合定价和调度策略是本文所述的inbede方法。inbede以迭代的方式进行，诸如图3所示。inbede以本文所述的参数θ和的初始化开始。然后，其进入第3-17行的迭代训练循环。在这个循环内，其经历所有的订单调度时间档t＝0,...,t。对于每个t，其首先获得更新的订单清单olt和运输清单，诸如如驾驶员清单dlt，然后其采用带有参数θ的当前情境博弈器算法m以对在时间档t内到达的冒泡进行定价(第6-12行)。在时间档t结束时，根据一些实施方式，博弈器参数θ使用本文描述的技术，利用即时奖励r(xi,ai)和估计出的未来奖励更新。对于其他实施方式，在订单调度周期(例如，从t＝0到t＝t)结束时，使用本文描述的技术，利用即时奖励r(xi,ai)和估计出的未来奖励来更新博弈器参数θ。根据一些实施方式，在调度周期(通常是一天)完成后，收集运输轨迹并且利用td学习来更新参数。
[0047]
图4展示被配置为客户端设备或运输设备的客户端、用户设备、客户端机器或数字设备的实施方式，该客户端设备或运输设备包括一个或多个处理单元(例如，cpu)402、一个或多个网络或其他通信接口404、存储器414和一个或多个用于将这些部分互连的通信总线406。客户端可以包括用户界面408，该用户界面包括显示设备410、键盘412、触摸屏413和/或其他输入/输出设备。对于客户端被配置为运输设备的实施方式，当与其他数字设备的通信是自动的时，客户端可以不包括用户界面。存储器414可以包括高速随机存取存储器，也可以包括非易失性存储器，诸如一个或多个磁性或光学储存磁盘。存储器414可以包括远离cpu402的大容量储存器。此外，存储器414，或备选地在存储器414内的一个或多个储存设备(例如，一个或多个非易失性储存设备)，包括计算机可读储存介质。存储器414可以储存以下元素，或此类元素的子集或超集。
[0048]
操作系统416，其包括用于处理各种基本系统服务的程序和用于执行依赖于硬件的任务。
[0049]
网络通信模块418(或指令)，其用于经由该一个或多个通信网络接口404和一个或多个通信网络(诸如互联网、其他广域网、局域网、城域网和其他类型的网络)将客户机与其他计算机、客户机、服务器、系统或设备连接；以及
[0050]
客户端应用程序420，其包括但不限于网络浏览器、运输-叫车应用程序或其他应用程序，客户端应用程序420被配置为接收用户输入，以在网络上与其他计算机或设备通信。
[0051]
根据一实施方式，客户端可以是任何设备，包括但不限于移动电话、智能手表、电脑、平板电脑、个人数字助理(pda)或其他移动设备。
[0052]
图5展示服务器(诸如实施本文所述方法的系统)的实施方式。根据一些实施方式，该系统被配置为调度系统。根据一实施方式，该系统包括一个或多个处理单元(例如，cpu)504、一个或多个通信接口406、存储器408以及一个或多个用于互连这些部分的通信总线510。系统502可以选择性地包括用户界面526，该用户界面包括显示设备528、键盘530、触摸屏532和/或其他输入/输出设备。存储器508可以包括高速随机存取存储器，也可以包括非易失性存储器，诸如一个或多个磁性或光学储存磁盘。存储器508可以包括远离cpu504的大容量储存器。此外，存储器508，或备选地在存储器508内的一个或多个储存设备(例如，一个或多个非易失性储存设备)，包括计算机可读储存介质。存储器508可以储存以下元素，或此类元素的子集或超集：操作系统512、网络通信模块514、情境特征模块516、联合定价和调度策略模块518、报价模块520、订单调度模块522以及运输状态模块524。操作系统512包括用于处理各种基本系统服务的程序和用于执行依赖硬件的任务。网络通信模块514(或指令)用于经由该一个或多个通信网络接口506和一个或多个通信网络(诸如因特网、其他广域网、局域网、城域网和其他类型的网络)将该系统与其他计算机、客户、同行、系统或设备连接。
[0053]
情境特征模块516(或指令)被配置为使用包括本文所述的那些技术来确定对价格的冒泡/请求的情境特征并生成情境特征向量。此外，情境特征模块416被配置为从一个或多个来源接收网络数据。网络数据是在网络上从一个数字设备向另一个数字设备提供的数据，例如数据包。
[0054]
联合定价和调度模块518(或指令)被配置为接收由情境特征模块516生成的情境
特征。联合定价和调度模块518被配置为使用包括本文所述的那些技术，基于报价来生成联合定价和调度策略。对于一些实施方式，联合定价和调度模块被配置为接收来自情境特征模块516的情境特征、用于订单调度模块522的订单信息以及来自运输状态模块524的运输资源状态信息。
[0055]
报价模块520被配置为生成报价。对于一些实施方式，报价模块520被配置为从联合定价和调度模块518接收信息，诸如联合定价和调度策略，以使用包括本文所述的那些技术来生成报价。此外，报价模块520被配置为将信息转化为要传输到数字设备的数据。数字设备可以包括用于转化数据的应用程序，以便由数字设备的用户显示。
[0056]
订单调度模块522被配置为生成订单清单。订单调度模块522被配置为使用包括本文所述的那些技术来更新订单清单，例如响应于接收订单。订单调度模块522被配置为将例如从客户端设备收到的订单与运输资源(诸如运输清单上的运输资源)相匹配。对于一些实施方式，订单调度模块522基于从联合定价和调度策略模块518收到的信息(诸如定价和调度策略)以及从运输状态模块524收到的信息，将订单与运输资源相匹配。对于一些实施方式，订单调度模块522被配置为接收用于运输状态模块524的状态信息和可用性信息。
[0057]
运输状态模块524被配置为使用包括本文描述的那些技术来生成运输清单。运输状态模块524被配置为使用包括本文所述的那些技术来更新运输清单，例如，响应于订单被指派给运输资源。运输状态模块524被配置为接收和维护来自一个或多个运输资源状态信息。状态信息包括但不限于可用性、位置、成本和空闲状态(例如，空闲、繁忙或正在去接乘客的路上)，以及与运输资源有关的其他信息。
[0058]
尽管图5将系统502展示为计算机，但其可以是分布式系统，诸如服务器系统。这些图更多的是作为对可能存在于客户端和一组服务器中的各种特征的功能描述，而不是作为本文描述的实施方式的结构示意图。因此，本领域的普通技术人员会理解，单独显示的项目可以被组合，一些项目可以被分开。例如，图5中作为独立模块展示的一些项目可以在单一服务器或客户端上实施，单一项目可以由一个或多个服务器或客户端实施。用于实施系统502的服务器、客户端或模块的实际数量以及如何在它们之间分派功能将因不同的实施方案而不同，并且可能部分取决于系统在使用高峰期以及在平均使用期必须处理的数据流量的数量。此外，图5中展示的一些模块或模块的功能可以在与实施在图5中展示的其他模块或模块的功能的其他系统相距遥远的一个或多个系统上实施。
[0059]
在上述说明书中，已经描述了本发明的具体示例性实施方式。然而，显而易见，可以对其进行各种修改和变化。因此，本说明书和附图应以说明性而非限制性的意义来看待。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于跨孔雷达和深度学习的地下结构内部缺陷识别方法与流程

将情境博弈器与时间差学习集成，用于运输叫车平台的定价和调度的制作方法

相关文献

最热文献