基于强化学习的量化模型训练方法、系统、终端及介质

2022-11-14 13:05:06 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，尤其涉及的是一种基于强化学习的量化模型训练方法、系统、终端及介质。

背景技术：

2.当前的证券投资交易方式主要包括主观交易和量化交易。其中，量化交易是指以先进的数学模型替代人为的主观判断，并通过程序化交易严格执行量化交易策略。
3.目前，训练量化模型时和训练普通的网络模型一样，训练过程中需要人为根据交易情况以及股市状态设置奖励值指导量化模型更新，而金融环境复杂、影响因子数量多、不易评估，人为设置的奖励值很难真正反应量化策略的价值。也就是说，现有的训练方法获得的量化模型鲁棒性差，量化模型的优化效果不佳。
4.因此，现有技术有待改进和提高。

技术实现要素：

5.本发明的主要目的在于提供一种基于强化学习的量化模型训练方法、系统、智能终端及存储介质，旨在解决现有的量化模型需要人为设定奖励值、量化模型优化效果不佳的问题。
6.为了实现上述目的，本发明第一方面提供一种基于强化学习的量化模型训练方法，所述方法包括：获取历史交易环境数据并输入模拟交易引擎；根据模拟交易引擎获得交易环境特征并输入量化模型，根据设定周期内的量化目标输出当前迭代下的多种交易策略和每种交易策略对应的价值数据；根据所述交易环境特征、所述交易策略和所述价值数据，扩展蒙特卡洛树当前节点的子节点并更新当前节点的搜索路径上中间节点的价值数据；搜索蒙特卡洛树并更新当前节点，获得当前节点对应的交易订单，并将所述交易订单输入所述模拟交易引擎；基于当前节点的搜索路径，获得对所述量化目标完成情况的评估结果，将所述评估结果作为奖励值反向更新所述量化模型；返回所述根据模拟交易引擎获得交易环境特征以进行下一次迭代。
7.可选的，所述根据所述交易环境特征、所述交易策略和所述价值数据，扩展蒙特卡洛树当前节点的子节点，包括：基于所述交易策略和所述交易环境特征，扩展所述当前节点的所有子节点，每个所述子节点用于反映一种交易策略并设定所述子节点的值为对应的价值数据。
8.可选的，所述对量化模型进行训练，还包括：所述设定周期的交易结束时，获得对所述设定周期内的量化目标完成情况的评估结果；
基于所述评估结果，更新蒙特卡洛树当前节点的搜索路径上中间节点对应的价值数据；基于更新后的蒙特卡洛树，对量化模型进行迭代更新。
9.可选的，所述获得对所述设定周期内的量化目标完成情况的评估结果，包括：基于模拟交易引擎，根据基线算法获得第一交易完成率和第一交易价格；基于蒙特卡洛树，获得第二交易完成率和第二交易价格；比较所述第一交易完成率、第二交易完成率以及第一交易价格和第二交易价格，获得所述评估结果。
10.可选的，所述量化模型的收敛条件为所述设定周期内量化模型获得的交易完成率大于或等于基线算法获得的交易完成率且量化模型获得的冲击成本小于基线算法获得的冲击成本。
11.可选的，所述交易环境特征还包括价格波动率，计算价格波动率的表达式为：，其中，q为价格波动率，为t时刻订单簿中交易对方价格一档，为t-1时刻订单簿中交易对方价格一档。
12.可选的，所述根据设定周期内的量化目标输出当前迭代下的多种交易策略和每种交易策略对应的价值数据，包括：基于设定的交易次数，获得平均交易比例；基于设定的比例系数和所述平均交易比例，获得每种交易策略对应的交易比例；基于所述交易比例，获得所述交易策略和所述价值数据。
13.本发明第二方面提供一种基于强化学习的量化模型训练系统，其中，上述系统包括：模拟交易引擎，用于根据历史交易环境数据构建量化模型的交易环境；数据获取模块，用于获取历史交易环境数据并输入模拟交易引擎；交易策略模块，用于根据模拟交易引擎获得交易环境特征并输入量化模型，根据设定周期内的量化目标输出当前迭代下的多种交易策略和每种交易策略对应的价值数据；更新模块，用于根据所述交易环境特征、所述交易策略和所述价值数据，扩展蒙特卡洛树当前节点的子节点并更新当前节点的搜索路径上中间节点的价值数据；搜索蒙特卡洛树并更新当前节点，获得当前节点对应的交易订单，并将所述交易订单输入所述模拟交易引擎；基于当前节点的搜索路径，获得对所述量化目标完成情况的评估结果，将所述评估结果作为奖励值反向更新所述量化模型。
14.本发明第三方面提供一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的基于强化学习的量化模型训练程序，上述基于强化学习的量化模型训练程序被上述处理器执行时实现任意一项上述基于强化学习的量化模型训练方法的步骤。
15.本发明第四方面提供一种计算机可读存储介质，上述计算机可读存储介质上存储有基于强化学习的量化模型训练程序，上述基于强化学习的量化模型训练程序被处理器执行时实现任意一项上述基于强化学习的量化模型训练方法的步骤。
16.由上可见，本发明方案，能够根据交易环境数据动态生成交易策略和交易策略的价值数据从而扩展并更新蒙特卡洛树，再根据蒙特卡洛树搜索路径评估量化目标的完成情
况，将评估结果作为奖励值反向更新训练量化模型。与现有技术相比，不用人为设定奖励值，而是通过蒙特卡洛树来自动生成奖励值以更新量化模型，使得量化模型优化效果好、鲁棒性高。
附图说明
17.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
18.图1是交易风险和冲击成本关系示意图；图2本发明实施例提供的基于强化学习的量化模型训练方法流程示意图；图3是设定周期的交易结束时训练量化模型的具体流程示意图；图4是本发明实施例提供的基于强化学习的量化模型训练装置的结构示意图；图5是本发明实施例提供的一种智能终端的内部结构原理框图。
具体实施方式
19.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况下，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。
20.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
21.还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
22.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
23.如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当
…
时”或“一旦”或“响应于确定”或“响应于检测到”。类似的，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述的条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0024]
下面结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
[0025]
在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。
[0026]
由于因为只有在一天交易结束后，我们才能知道交易行为是否正确，而现有的量化模型训练时人为设定的奖励值很难真正反应交易行为的价值，根据该奖励值优化更新量化模型的效果不好，因此本发明利用蒙特卡洛树来指导量化模型的更新，避免了人为设定奖励值主观性太强、准确性差的问题。
[0027]
示例性方法本实施例的基于强化学习的量化模型训练方法作为功能模块部署在交易装置或设备中，也可以应用在各种电子设备上，如台式机、笔记本电脑、智能手机、平板电脑等。
[0028]
具体的，本实施例以训练量化模型处理大单交易为例进行说明，但是只是以大单交易为例对奖励值的计算和更新进行充分阐述，显然，本发明的量化模型训练方法还可以应用于处理其他类型的量化交易场景中。
[0029]
量化交易时，投资银行、公募基金、私募基金由于每次交易的额度或股票数量很大，会引起市场的波动和跟风，使得交易不合规或者暴露交易意图、降低交易利润。因此，需要将一笔大订单拆分成许多小订单，在一天内分时段进行多次交易，避免上述问题的产生，这个行为称为拆单。自动化拆单是在交易日证券买卖过程中根据市场统计数据和实时信息建立量化模型，将母订单拆分成若干数额较小的子订单。核心目标是又好又快地完成交易订单。
[0030]
当前的量化模型由于按照设定的交易策略进行交易，不能根据市场状况主动选择交易的时机与交易的数量。常会出现撮合交易时订单只能部分交易成功，或者不顾交易价格直接进行交易，这样可能一次性吃掉订单簿上几个价格档位的订单，导致不能完成订单任务或者交易利润较低。
[0031]
经过分析，将大单交易的问题抽象化以后可以发现，大单交易是一个最优化问题，如图1所示，越晚做决策，则可以获得更多当前市场的价格与交易情况的信息以供判断，可以减少冲击成本（大单交易时，订单簿的前几个价格档位被吃下，订单簿的价格后续会产生许多不利的价格的交易）。但时间越少，可以做交易的时间也越少，完不成目标交易的风险可能性也会变大，即交易风险变大。随着时间的流逝冲击成本变小的同时交易风险会变大，如何使这两个关系到交易成本的数据达到最理想的平衡，是量化模型需要解决的问题。
[0032]
本实施例利用历史数据训练量化模型，来学习市场规律，从而训练后的量化模型能根据不同市场环境实时调整交易策略，对大单进行拆分，做出更加符合市场规律的行为，确保完成订单任务，平衡交易风险和冲击成本并提高交易利润。
[0033]
具体地，首先基于现有的深度学习模型（如：dqn：deep q learning、ppo：proximal policy optimization）构建量化模型，然后采用历史交易数据训练该量化模型，使得量化模型具备根据市场环境实时调整交易策略的能力。
[0034]
量化模型训练好后，本实施例从证券交易引擎实时获取目标证券的交易环境数据并输入量化模型中，量化模型就可以分析交易环境数据并在不同时间步生成不同的交易策略，从而在当天分多批次完成设定的订单任务（如当天需要买一百万股目标证券）。其中，交易环境数据主要包括但不限于目标证券的实时订单簿数据，在其他实施例中还可以包括市场状态数据，如市场的成交量、目标证券所属板块的成交数据和波动数据等。
[0035]
量化模型现有的训练过程是随机抽样的，而随机抽样的样本没有连续性，作为量化模型使用时，需要人为根据交易情况以及股市状态设置奖励值指导模型更新，而人为设
置的奖励值很难真正反应交易行为的价值，因为只有在一天交易结束后，我们才能知道交易行为是否正确。
[0036]
本实施例在训练量化模型时，利用交易前后的股市情况对比，结合蒙特卡洛树设计奖励值，指导量化模型更新。量化模型训练后，可以自动发掘合理的市场因子，输出各种交易策略的动作价值指导交易行为。
[0037]
如图2所示，训练量化模型的过程具体包括如下步骤：步骤a100：获取历史交易环境数据并输入模拟交易引擎；具体地，首先基于现有的模拟交易软件搭建模拟交易引擎，该模拟交易引擎主要由两个部分构成，第一个部分就是订单簿部分，模拟股市交易的订单簿功能，当新的买卖订单进入订单簿时，能根据价格优先，时间优先规则自动撮合交易，并生成交易数据，更新订单簿，同时能根据用户各自的用户识别号进行撤单功能，即实现模拟交易的功能；第二个部分是交易平台的载体，提供交易员操作的接口，并随着时间的流逝自动根据历史数据输入新的订单数据给订单簿，撮合交易后将交易数据保存，将交易员行为以及时间都存储下来。模拟交易引擎用来提供量化模型训练用的交易环境数据，并能够输入根据量化模型输出的交易策略所转换成的交易订单。
[0038]
搭建模拟交易引擎后，本实施例从证券交易系统中抽取了100支股票3个月内的订单簿共六千多条数据作为数据集，随机抽样数据集的80%、大概5000条数据作为训练集，剩余数据集将作为测试集来评估量化模型的效率。然后将训练集输入至模拟交易引擎中。
[0039]
步骤a200：根据模拟交易引擎获得交易环境特征并输入量化模型，根据设定周期内的量化目标输出当前迭代下的多种交易策略和每种交易策略对应的价值数据；具体地，先根据模拟交易引擎的接口，获取到设定时间间隔的交易环境数据（如5分钟），提取交易环境数据的交易环境特征后输入量化模型中。
[0040]
本实施例中提取了如下表所述的交易环境特征。
ꢀꢀꢀ
交易环境特征计算公式剩余交易时间比例剩余交易时间/总交易时间剩余交易库存比例剩余交易库存/总交易量当前挂单交易率上一次挂单交易量/上一次挂单总量价格(本方一档价格对方一档价格)/2价格波动率价格趋势五档报价不进行处理五档报价数量报价数量/当天交易量*放缩因子交易量比例需要交易量/当天交易量
[0041]
由于本发明是对大单交易策略的优化，量化目标为完成设定的大单任务，因此提取交易环境特征时，考虑了交易数目占市场比例因素（即交易量比例）；并且基于大单交易需要在一定时间内完成，还提取了剩余交易时间比例以及剩余交易库存比例等环境特征；并用价格波动率来评估市场的波动。其中，q为价格波动率，为t时刻订单簿中对方价格一档，为t-1时刻订单簿中对方价格一档，通过价格一档的变化来
评测交易环境中的价格变化，能够考量市场稳定性。
[0042]
由于在股市交易环境中选取了价格以及报价数量，交易数目占市场比例，剩余交易时间以及剩余交易库存，价格波动率等数据，相比现有的交易策略模型，考虑了更多的交易因子，量化模型训练之后，能综合考虑到交易环境中各因子对于交易策略回报的影响，做出更全面的决定。
[0043]
将交易环境特征后输入量化模型中，量化模型利用深度学习的感知能力提取庞大交易环境特征中的有效信息，再利用强化学习方法进行决策，结合设定周期内的量化目标输出各种交易策略及交易策略对应的q值（即价值数据）。如本实施例中，设定周期为一个交易日，量化目标为买或卖10000股目标证券。
[0044]
步骤a300：根据交易环境特征、交易策略和价值数据，扩展蒙特卡洛树当前节点的子节点并更新当前节点的搜索路径上中间节点的价值数据；具体地，蒙特卡洛树搜索方法是一个深层次的搜索算法，可以利用模拟将交易结束后的结果返回，利用交易结果给中间的交易行为赋值，避免了人为设置奖励值的问题。因此，本发明对量化模型训练时结合蒙特卡洛树搜索方法以及深度强化学习方法，利用了两个方法各自的优点。在蒙特卡洛树搜索方法的扩展阶段，当选择阶段迭代到叶子节点，将蒙特卡洛树原本的随机模拟步骤用深度量化模型输出的结果替换，以深度量化模型的输出更新蒙特卡洛树，当交易结束时，这时对订单任务的完成情况进行最准确估值，反向更新整棵树上路径节点的价值数据，以更新的价值数据和订单任务的评估结果作为目标进行量化模型的迭代更新。
[0045]
本实施例中，在蒙特卡洛树的每个节点保存了交易环境和交易策略两个数据的数据对，每个节点对应于一种交易策略，节点的值为交易策略对应的价值数据，即量化模型输出的动作q值。由于量化模型输出的交易策略中包括多种交易策略，因此根据环境数据、交易策略和价值数据，会一次性扩展蒙特卡洛树当前节点的所有子节点，每个子节点用于反映一种交易策略，子节点的值为对应的价值数据，并向上更新当前节点的搜索路径上中间节点的价值数据。
[0046]
由于连续策略在强化学习算法中不适用，因此，还将交易动作映射为离散的动作。首先基于设定的交易次数n（即将交易任务拆单为n份），获得平均交易比例；基于设定的比例系数和平均交易比例，获得每种交易策略对应的交易比例，基于这些交易比例，量化模型获得订单策略和对应的价值数据。
[0047]
本实施例中，比例系数取0.5、1、2、3，即对应于四种交易数量的交易策略。例如：当日的交易任务是卖出10000股，交易次数为50次，每次的平均交易数量是200股，输出的四种交易策略分别为卖出100股、卖出200股、卖出400股和卖出600股并输出每种交易策略对应的q值。通过设定比例系数，控制交易策略的种类，还可以减少计算工作量，提高处理效率。
[0048]
步骤a400：搜索蒙特卡洛树并更新当前节点，获得当前节点对应的交易订单，并将交易订单输入模拟交易引擎；具体地，根据蒙特卡洛树搜索算法搜索蒙特卡洛树，搜索到叶子节点后，将当前叶子节点对应的交易策略转换为交易订单，并输入模拟交易引擎中，以更新模拟交易引擎中的交易环境。
[0049]
步骤a500：基于当前节点的搜索路径，获得对量化目标完成情况的评估结果，将该
评估结果作为奖励值反向更新量化模型。
[0050]
步骤a600：返回步骤a200进行下一次迭代。
[0051]
具体地，根据蒙特卡洛树搜索到叶子节点时对应的搜索路径，统计汇总当前搜索路径上各个节点的交易策略，并对统计结果进行评估，获得的评估结果作为量化模型反向更新的奖励值，以持续对量化模型进行优化，直至完成了设定的大单任务或者设定周期的交易时间结束。
[0052]
本实施例使用了交易完成率和冲击成本来对设定周期内的量化目标完成情况进行评估，即输出的价值数据中包括交易完成率和冲击成本等因子。其中，，，。目标交易价格是理想中的最优价格，买入时为当日股票成交最低价，卖出时为当日股票成交最高价。将目标交易价格和平均交易价格相减取模后，值越大，证明我们的冲击成本越大，模型效率越低。优化冲击成本时，当进行买入交易时，优化目标是用更低的价格买入股票；当进行卖出交易时，优化的目标是用更高的价格卖出股票。使用交易完成率和冲击成本来持续优化量化模型，直至完成目标交易量或者当天的交易时间结束。
[0053]
由上所述，本实施例将量化模型融入蒙特卡洛树搜索中，蒙特卡洛树搜索使用量化模型的价值数据来估算搜索树中拆分的子单系列的价值。随着进行了越来越多的模拟，搜索树会变得越来越庞大，而子单集合也会变得越来越精确。通过选取价值更高的子树，用于拆分订单的交易策略在搜索的过程中会一直随着时间而有所改进。通过蒙特卡洛树形成量化模型的奖励值，成功的整合了深度学习模型和蒙特卡洛树，实现对量化模型的有效训练。
[0054]
并且通过该模拟交易引擎可以实现对历史交易数据的真实复现，以提取历史交易数据中的相应特征，利用历史数据对量化模型进行训练。相对于直接使用历史数据，本发明采用模拟交易引擎输入量化模型的是市场环境，能优化不同市场状态下的交易策略，以训练量化模型做出更加符合市场规律的行为。
[0055]
进一步地，在一个实施例中，如图3所示，对量化模型进行训练，还包括如下步骤：步骤b100：设定周期的交易结束时，获得对设定周期内的量化目标完成情况的评估结果；步骤b200：基于评估结果，更新蒙特卡洛树当前节点的搜索路径上中间节点对应的价值数据；步骤b300；基于更新后的蒙特卡洛树，对量化模型进行迭代更新。
[0056]
具体地，本实施例对量化任务完成情况进行评估时，以现有的交易引擎中的基线算法获得的结果作为参考，来衡量评估结果。其中，设定周期为一个交易日。当交易日的交易时间结束时，首先在模拟交易引擎中根据基线算法计算第一交易完成率和第一交易价格；然后，基于本实施例采用的蒙特卡洛树，获得第二交易完成率和第二交易价格；比较第一交易完成率、第二交易完成率以及将第一交易价格和第二交易价格转换为冲击成本，获得评估结果。利用交易完成率和冲击成本这两个数据经过计算得出的评估结果是最具有参考价值的数据。也就是说，利用量化模型的输出q值代替本来需要模拟获取的价值数据，再利用一天交易结束的价值数据更新量化模型使其估值一步步更准确。
[0057]
当一天的交易结束时，直接利用当天的交易结果获得评估结果，然后递归反向更新蒙特卡洛树当前节点的搜索路径上中间节点的节点值以后，保存数据用以对量化模型进行迭代更新。
[0058]
本实施例中量化模型的收敛条件为：每日的交易完成率都大于或等于基线算法获得的交易完成率的情况下，量化模型的冲击成本不高于基线算法获得的冲击成本；在测试集中，同样保证每条数据的交易完成率都不低于基线算法，并保证在测试集95%的数据中，冲击成本都低于基线算法。不能收敛时，通过修改量化模型的网络模型参数、奖励设计、损失函数，重新进行训练直至获得量化模型。
[0059]
由上所述，当一日交易结束时，这时对交易成果能进行最准确评估，并反向更新蒙特卡洛树以对量化模型进行迭代训练，使得量化模型在交互中学习,在与交易环境的交互中根据获得的奖励或惩罚不断的学习知识，更加适应交易环境。
[0060]
示例性设备如图4所示，对应于上述基于强化学习的量化模型训练方法，本发明实施例还提供一种基于强化学习的量化模型训练系统，上述基于强化学习的量化模型训练系统包括：模拟交易引擎600，用于根据历史交易环境数据构建量化模型的交易环境；数据获取模块610，用于获取历史交易环境数据并输入模拟交易引擎；交易策略模块620，用于根据模拟交易引擎获得环境特征数据并输入量化模型，根据设定周期内的量化目标输出当前迭代下的多种交易策略和每种交易策略对应的价值数据；更新模块630，用于根据所述环境特征数据、所述交易策略和所述价值数据，扩展蒙特卡洛树当前节点的子节点并更新当前节点的搜索路径上中间节点的价值数据；搜索蒙特卡洛树并更新当前节点，获得当前节点对应的交易订单，并将所述交易订单输入所述模拟交易引擎；基于当前节点的搜索路径，获得对所述量化目标完成情况的评估结果，将所述评估结果作为奖励值反向更新所述量化模型。
[0061]
具体的，本实施例中，上述基于强化学习的量化模型训练系统的各模块的具体功能可以参照上述基于强化学习的量化模型训练方法中的对应描述，在此不再赘述。
[0062]
基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图5所示。上述智能终端包括通过系统总线连接的处理器、存储器、网络接口以及显示屏。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和基于强化学习的量化模型训练程序。该内存储器为非易失性存储介质中的操作系统和基于强化学习的量化模型训练程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该基于强化学习的量化模型训练程序被处理器执行时实现上述任意一种基于强化学习的量化模型训练方法的步骤。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。
[0063]
本领域技术人员可以理解，图5中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0064]
在一个实施例中，提供了一种智能终端，上述智能终端包括存储器、处理器以及存储在上述存储器上并可在上述处理器上运行的基于强化学习的量化模型训练程序，上述基
于强化学习的量化模型训练程序被上述处理器执行时进行以下操作指令：获取历史交易环境数据并输入模拟交易引擎；根据模拟交易引擎获得交易环境特征并输入量化模型，根据设定周期内的量化目标输出当前迭代下的多种交易策略和每种交易策略对应的价值数据；根据所述交易环境特征、所述交易策略和所述价值数据，扩展蒙特卡洛树当前节点的子节点并更新当前节点的搜索路径上中间节点的价值数据；搜索蒙特卡洛树并更新当前节点，获得当前节点对应的交易订单，并将所述交易订单输入所述模拟交易引擎；基于当前节点的搜索路径，获得对所述量化目标完成情况的评估结果，将所述评估结果作为奖励值反向更新所述量化模型；返回所述根据模拟交易引擎获得交易环境特征以进行下一次迭代。
[0065]
可选的，所述根据所述交易环境特征、所述交易策略和所述价值数据，扩展蒙特卡洛树当前节点的子节点，包括：基于所述交易策略和所述交易环境特征，扩展所述当前节点的所有子节点，每个所述子节点用于反映一种交易策略并设定所述子节点的值为对应的价值数据。
[0066]
可选的，所述对量化模型进行训练，还包括：所述设定周期的交易结束时，获得对所述设定周期内的量化目标完成情况的评估结果；基于所述评估结果，更新蒙特卡洛树当前节点的搜索路径上中间节点对应的价值数据；基于更新后的蒙特卡洛树，对量化模型进行迭代更新。
[0067]
可选的，所述获得对所述设定周期内的量化目标完成情况的评估结果，包括：基于模拟交易引擎，根据基线算法获得第一交易完成率和第一交易价格；基于蒙特卡洛树，获得第二交易完成率和第二交易价格；比较所述第一交易完成率、第二交易完成率以及第一交易价格和第二交易价格，获得所述评估结果。
[0068]
可选的，所述量化模型的收敛条件为所述设定周期内量化模型获得的交易完成率大于或等于基线算法获得的交易完成率且量化模型获得的冲击成本小于基线算法获得的冲击成本。
[0069]
可选的，所述交易环境特征还包括价格波动率，计算价格波动率的表达式为：，其中，q为价格波动率，为t时刻订单簿中交易对方价格一档，为t-1时刻订单簿中交易对方价格一档。
[0070]
可选的，所述根据设定周期内的量化目标输出当前迭代下的多种交易策略和每种交易策略对应的价值数据，包括：基于设定的交易次数，获得平均交易比例；基于设定的比例系数和所述平均交易比例，获得每种交易策略对应的交易比例；基于所述交易比例，获得所述交易策略和所述价值数据。
[0071]
本发明实施例还提供一种计算机可读存储介质，上述计算机可读存储介质上存储有基于强化学习的量化模型训练程序，上述基于强化学习的量化模型训练程序被处理器执
行时实现本发明实施例提供的任意一种基于强化学习的量化模型训练方法的步骤。
[0072]
应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0073]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0074]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0075]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0076]
在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以由另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
[0077]
上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
[0078]
以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不是相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：参数配置方法、装置、驱动组件及驱动系统与流程

基于强化学习的量化模型训练方法、系统、终端及介质

相关文献

最热文献