一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度学习的目标产品确定方法、装置、设备和介质与流程

2021-10-24 09:09:00 来源:中国专利 TAG:人工智能 介质 深度 装置 目标


1.本技术涉及人工智能技术领域,特别是涉及一种基于深度学习的目标产品确定方法、装置、设备和介质。


背景技术:

2.随着计算机技术的发展,越来越多的产品可以在网上进行购买,但是在购买的时候。用户希望自己所购买的产品可以实现最大的收益。
3.传统技术中,为了实现所购买的产品的收益最大化,用户需要根据产品数据来进行计算,一般地,用户获取到产品数据,然后根据其中一个规则进行产品收益的估计,最后获取估计的收益最大的产品进行购买,但是这种方式一方面用户所选取的规则是否适用于所要购买的产品并不知道,另外一方面通过该规则进行计算时对应的产品中是否存在对应的计算数据也无法确定,因此最后所得到的目标产品的准确性有待商榷。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高智能化水平的基于深度学习的目标产品确定方法、装置、设备和介质。
5.一种基于深度学习的目标产品确定方法,所述方法包括:
6.获取当前产品数据;
7.将所述当前产品数据输入至深度强化学习模型中得到目标产品和所述目标产品的目标分配结果;
8.获取与所述当前产品数据对应的历史产品数据;
9.根据所述历史产品数据判断所述深度强化学习模型是否符合要求;
10.当所述深度强化学习模型符合要求时,输出所述目标产品和所述目标产品的目标分配结果。
11.在其中一个实施例中,所述根据所述历史产品数据判断所述深度强化学习模型是否符合要求,包括:
12.计算在标准分配下所述历史产品数据对应的标准收益率,以及在所述历史产品数据通过所述深度强化学习模型计算得到的参考分配结果下对应的参考收益率和参考超额收益率;
13.获取待选择分配结果,分别计算所述待选择分配结果下所述历史产品数据对应的对照超额收益率;
14.当所述参考收益率高于所述标准收益率,且所述参考超额收益率高于所述对照超额收益率的中位数时,所述深度强化学习模型符合要求,否则所述深度强化学习模型不符合要求。
15.在其中一个实施例中,所述根据所述历史产品数据判断所述深度强化学习模型是否符合要求之后,还包括:
16.当所述深度强化学习模型不符合要求时,则获取并输出所述超额收益率最高的所述待分配结果。
17.在其中一个实施例中,所述将所述当前产品数据输入至深度强化学习模型中得到目标产品和所述目标产品的目标分配结果,包括:
18.获取时间序列长度,根据所述时间序列长度以及所述当前产品数据计算得到数据序列;
19.将所述数据序列输入至包括用于提取时序特征的第一特征抽取网络中的到第一状态特征;
20.根据所述第一状态特征计算得到目标产品和所述目标产品的目标分配结果。
21.在其中一个实施例中,所述输出所述目标产品和所述目标产品的目标分配结果之后,包括:
22.将所述数据序列、所述目标产品和所述目标产品的目标分配结果输入至包括用于提取时序特征的第二特征抽取网络中得到第二状态特征;
23.根据所述第二状态特征计算得到奖励值,并根据所述奖励值更新所述深度强化学习模型。
24.一种基于深度学习的目标产品确定装置,所述装置包括:
25.产品数据获取模块,用于获取当前产品数据;
26.模型处理模块,用于将所述当前产品数据输入至深度强化学习模型中得到目标产品和所述目标产品的目标分配结果;
27.历史数据获取模块,用于获取与所述当前产品数据对应的历史产品数据;
28.判断模块,用于根据所述历史产品数据判断所述深度强化学习模型是否符合要求;
29.输出模块,用于当所述深度强化学习模型符合要求时,输出所述目标产品和所述目标产品的目标分配结果。
30.在其中一个实施例中,所述判断模块包括:
31.第一计算单元,用于计算在标准分配下所述历史产品数据对应的标准收益率,以及在所述历史产品数据通过所述深度强化学习模型计算得到的参考分配结果下对应的参考收益率和参考超额收益率;
32.第二计算单元,用于获取待选择分配结果,分别计算所述待选择分配结果下所述历史产品数据对应的对照超额收益率;
33.输出单元,用于当所述参考收益率高于所述标准收益率,且所述参考超额收益率高于所述对照超额收益率的中位数时,所述深度强化学习模型符合要求,否则所述深度强化学习模型不符合要求。
34.在其中一个实施例中,所述输出模块还用于当所述深度强化学习模型不符合要求时,则获取并输出所述超额收益率最高的所述待分配结果。
35.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意一个实施例中的方法的步骤。
36.一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
37.上述基于深度学习的目标产品确定方法、装置、设备和介质,先通过深度强化学习模型来智能化地根据当前产品数据计算得到目标产品和目标产品的分配结果,然后再根据历史产品数据来判断深度强化学习模型是否符合要求,只有在深度强化学习模型符合要求时,才会输出目标产品和目标产品的分配结果,这样一方面确保了深度强化学习模型的可信性,从而保证了输出的目标产品和目标产品的分配结果的准确性,另一方面,通过深度强化学习模型进行处理,提高处理效率,不需要等待产品输出出来后再进行产品的选择,可以提高智能化水平。
附图说明
38.图1为一个实施例中基于深度学习的目标产品确定方法的应用场景图;
39.图2为一个实施例中基于深度学习的目标产品确定方法的流程示意图;
40.图3为一个实施例中的深度强化学习模型处理过程的示意图;
41.图4为一个实施例中的更新模块的处理流程的示意图;
42.图5为一个实施例中基于深度学习的目标产品确定装置的结构框图;
43.图6为一个实施例中计算机设备的内部结构图。
具体实施方式
44.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
45.本技术提供的基于深度学习的目标产品确定方法,可以应用于如图1所示的应用环境中。其中,数据库102通过网络与服务器104通过网络进行通信。服务器104可以从数据库102获取到当前产品数据,将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果;获取与当前产品数据对应的历史产品数据;根据历史产品数据判断深度强化学习模型是否符合要求;当深度强化学习模型符合要求时,输出目标产品和目标产品的目标分配结果。这样先通过深度强化学习模型来智能化地根据当前产品数据计算得到目标产品和目标产品的分配结果,然后再根据历史产品数据来判断深度强化学习模型是否符合要求,只有在深度强化学习模型符合要求时,才会输出目标产品和目标产品的分配结果,这样一方面确保了深度强化学习模型的可信性,从而保证了输出的目标产品和目标产品的分配结果的准确性,另一方面,通过深度强化学习模型进行处理,提高处理效率,不需要等待产品输出出来后再进行产品的选择,可以提高智能化水平。其中服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
46.在一个实施例中,如图2所示,提供了一种基于深度学习的目标产品确定方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
47.s202:获取当前产品数据。
48.具体地,当前产品数据可以是预先设置的产品的标准分配下的产品数据,其中在该标准分配的前提下,各个产品的数据即为当前产品数据,其中以基金为例进行说明,用户可以预先设置定投计划,在该定投计划下,各个基金的数据即为当前产品数据,其中可选地,该当前产品数据可以是根据市场数据进行计算得到的多个指标。
49.其中例如以基金产品为例,其可以包括但不限于基金报告中的原始指标、衍生指标,以及市场和宏观指标,比如基金行情数据、持仓行业配置、持股集中度、换手率、市场行业指数、m2增幅等。此外,在一个优选的实施例中,由于各个目标指标之间存在依赖关系,服务器可以先获取到目标指标的依赖关系,然后根据依赖关系确定各个目标指标之间的计算顺序,最后根据该计算顺序依次计算同一个基金所对应的各个目标指标以得到当前产品数据。
50.s204:将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果。
51.具体地,深度强化学习模型是无需人为判断,通过模型直接输出目标产品和目标产品的目标分配结果,且模型的目标是找到收益最大化的目标产品和目标产品的目标分配结果,因此无需再额外判断所输出的目标产品和目标产品的目标分配结果是否优于其他参考分配结果。
52.其中,该深度强化学习模型是采用深度强化学习训练的,其中包括模型计算模块和评价模块,其中模型计算模块用于根据当前产品数据计算得到目标产品和目标产品的目标分配结果,而评价模块则根据实际产品和实际的分配结果、目标产品和目标产品的目标分配结果对目标产品和目标产品的目标分配结果进行评价,在模型计算模块和评价模块均满足要求时,模型训练完成。
53.在实际应用中,服务器仅需要将当前产品数据输入至模型计算模块中以得到目标产品和目标产品的目标分配结果。
54.具体地,服务器根据当前产品数据来进行判断得到目标产品和目标产品的分配结果,然后服务器根据该目标产品以及目标产品的分配结果与当前产品数据交互后得到奖赏结果,通过奖赏结果来反馈模型计算模块和评价模块,直至找到目标产品和目标产品的目标分配结果最优的决策路径。
55.s206:获取与当前产品数据对应的历史产品数据。
56.具体地,历史数据是当前产品数据对应的数据,其可以是某一基金产品所对应的前一时间周期内的数据,具体与当前产品数据类似,在此不做赘述。其中可选地,该历史产品数据可以为前一个周期内的数据,这样保证历史产品数据的时效性。
57.s208:根据历史产品数据判断深度强化学习模型是否符合要求。
58.具体地,深度强化学习模型是否符合要求是根据历史产品数据来判断深度强化学习模型输出的目标产品和目标产品的目标分配结果是否满足要求,其中,服务器可以计算标准分配下的参考数据以及在其他的分配下的参考数据,这样根据目标产品和目标产品的目标分配结果、标准分配下的参考数据以及在其他的分配下的参考数据来判断目标产品和目标产品的目标分配结果是否符合要求。
59.s210:当深度强化学习模型符合要求时,输出目标产品和目标产品的目标分配结果。
60.具体地,当模型符合要求时,服务器才会输出目标产品和目标产品的目标分配结果,否则说明深度强化学习模型的计算结果不满足要求,则可以根据其他的分配结果进行处理。
61.这样根据最近的历史产品数据来判断深度强化学习模型是否满足要求,只有满足
要求才证明目标产品和目标产品的目标分配结果是具有可信性的,进而根据目标产品和目标产品的目标分配结果来进行产品的分配,保证准确性。
62.上述实施例中,先通过深度强化学习模型来智能化地根据当前产品数据计算得到目标产品和目标产品的分配结果,然后再根据历史产品数据来判断深度强化学习模型是否符合要求,只有在深度强化学习模型符合要求时,才会输出目标产品和目标产品的分配结果,这样一方面确保了深度强化学习模型的可信性,从而保证了输出的目标产品和目标产品的分配结果的准确性,另一方面,通过深度强化学习模型进行处理,提高处理效率,不需要等待产品输出出来后再进行产品的选择,可以提高智能化水平。
63.在其中一个实施例中,根据历史产品数据判断深度强化学习模型是否符合要求,包括:计算在标准分配下历史产品数据对应的标准收益率,以及在历史产品数据通过深度强化学习模型计算得到的参考分配结果下对应的参考收益率和参考超额收益率;获取待选择分配结果,分别计算待选择分配结果下历史产品数据对应的对照超额收益率;当参考收益率高于标准收益率,且参考超额收益率高于对照超额收益率的中位数时,深度强化学习模型符合要求,否则深度强化学习模型不符合要求。
64.具体地,用户可以随意设置标准分配,然后在此标准分配环境下训练深度强化学习模型,用历史数据进行回测该深度强化学习模型是否达标,达标输出目标产品和目标产品的分配结果,不达标输出其他的分配结果,执行该分配结果,收集新数据迭代深度强化学习模型,让深度强化学习模型不断适应市场变化并且朝着收益最大化方向演变。
65.具体地,深度强化学习模型达标的判断关系着实际的分配,为了衡量深度强化学习模型的效果需要从历史数据中随机抽取多个样本进行标准分配、不同参数不同分配结果、深度强化学习模型输出的目标产品和分配结果的收益率统计分析。模型达标的标准是符合两个条件,第一个条件是多样本统计分析下深度强化学习模型输出的目标产品和分配结果的收益率表现优于标准分配下的标准收益率,另一个条件是深度强化学习模型输出的目标产品和分配结果的超额收益率高于其他待选择分配结果下的超额收益率的中位数。满足标准即意味着深度强化学习模型输出的目标产品和分配结果可以获取超额收益,且在不同分配结果中排名中上。
66.在其中一个实施例中,根据历史产品数据判断深度强化学习模型是否符合要求之后,还包括:当深度强化学习模型不符合要求时,则获取并输出超额收益率最高的待分配结果。
67.可选地,深度强化学习模型不达标时,选用其他分配结果中超额收益表现最好的分配结果输出,达标时选用深度强化学习模型输出的目标产品和分配结果。执行决策、收集数据并训练模型形成一个闭环,提高模型的自适应能力,更好的应对市场环境的变换。
68.在其中一个实施例中,参见图3所示,图3为一个实施例中的深度强化学习模型处理过程的示意图,在该实施例中,该将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果,包括:获取时间序列长度,根据时间序列长度以及当前产品数据计算得到数据序列;将数据序列输入至包括用于提取时序特征的第一特征抽取网络中的到第一状态特征;根据第一状态特征计算得到目标产品和目标产品的目标分配结果。
69.具体地,由于产品的时间序列较长,一般为一个周、两个周或者是一个月等,因此,深度强化学习模型中的特征提取部分采用用于提取时序特征的第一特征抽取网络,例如可
以采用lstm网络来提取得到第一状态特征,然后将第一状态特征输入至softmax网络中进行分类得到目标产品和所述目标产品的目标分配结果,这样充分利用了产品数据的时序信息可以有效提升模型的效果。
70.其中,长短序列记忆网络,通常被称为lstm网络,通过三个门控逻辑实现(遗忘、输入、输出)。它的提出是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。通过网络结构的设计使得网络可以保留长时间序列的相关特征并且兼顾短时间序列的相关特征。在金融场景下,需要根据长时间的数据变化才能观察到趋势相关特征,采用lstm网络来提取深层特征,避免损失长时间序列才能得到的信息。
71.在其中一个实施例中,参见图4所示,图4为一个实施例中的更新模块的处理流程的示意图;本实施例在输出目标产品和目标产品的目标分配结果之后,包括:将数据序列、目标产品和目标产品的目标分配结果输入至包括用于提取时序特征的第二特征抽取网络中得到第二状态特征;根据第二状态特征计算得到奖励值,并根据奖励值更新深度强化学习模型。
72.具体地,在该实施例中,评价模块根据模型计算模块输出的目标产品和所述目标产品的目标分配结果以及当前产品数据来计算得到第二状态特征,并根据第二状态特征来计算得到该目标产品和所述目标产品的目标分配结果的好坏,即生成奖励值,从而根据该奖励值更新模型计算模块。
73.该模块也是采用用于提取时序特征的第二特征抽取网络,例如可以采用lstm网络来提取得到第二状态特征,其中,该评价模块的输入与模型计算模块的输入不同,其输入还包括了目标产品和所述目标产品的目标分配结果,此外,输出是一个奖励值,该奖励值是根据实际产品和实际产品的分配结果计算得到的。
74.上述实施例中,通过深度强化学习来寻找最优决策,帮助投资者获取更多的超额收益。深度强化学习无需人工标注,无需人为知识判断,可以在历史数据环境下不断交互学习,学习门槛比较低且可以通过学习不断靠近最优决策帮助投资者实现收益最大化。在整体设计下有很多算法可供选择,且强化学习不断发展还会产生更高效的算法不断提升策略的表现。在决策前有模型达标判断环节,增加了决策输出的安全性,避免无效模型结果带来的风险。模型是根据市场数据不断迭代更新的,有十分好的适应性,可以适应不同市场风格,降低投资风险。
75.需要强调的是,为进一步保证上述当前产品数据、深度强化学习模型以及历史产品数据的私密和安全性,上述当前产品数据、深度强化学习模型以及历史产品数据还可以存储于一区块链的节点中。
76.应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
77.在一个实施例中,如图5所示,提供了一种基于深度学习的目标产品确定装置,包括:产品数据获取模块501、模型处理模块502、历史数据获取模块503、判断模块504和输出
模块505,其中:
78.产品数据获取模块501,用于获取当前产品数据;
79.模型处理模块502,用于将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果;
80.历史数据获取模块503,用于获取与当前产品数据对应的历史产品数据;
81.判断模块504,用于根据历史产品数据判断深度强化学习模型是否符合要求;
82.输出模块505,用于当深度强化学习模型符合要求时,输出目标产品和目标产品的目标分配结果。
83.在其中一个实施例中,判断模块504包括:
84.第一计算单元,用于计算在标准分配下历史产品数据对应的标准收益率,以及在历史产品数据通过深度强化学习模型计算得到的参考分配结果下对应的参考收益率和参考超额收益率;
85.第二计算单元,用于获取待选择分配结果,分别计算待选择分配结果下历史产品数据对应的对照超额收益率;
86.输出单元,用于当参考收益率高于标准收益率,且参考超额收益率高于对照超额收益率的中位数时,深度强化学习模型符合要求,否则深度强化学习模型不符合要求。
87.在其中一个实施例中,输出模块505还用于当深度强化学习模型不符合要求时,则获取并输出超额收益率最高的待分配结果。
88.在其中一个实施例中,上述模型处理模块502包括:
89.序列生成单元,用于获取时间序列长度,根据时间序列长度以及当前产品数据计算得到数据序列;
90.特征提取单元,用于将数据序列输入至包括用于提取时序特征的第一特征抽取网络中的到第一状态特征;
91.结果输出单元,用于根据第一状态特征计算得到目标产品和目标产品的目标分配结果。
92.在其中一个实施例中,上述装置还可以包括:
93.特征提取模块,用于将数据序列、目标产品和目标产品的目标分配结果输入至包括用于提取时序特征的第二特征抽取网络中得到第二状态特征;
94.更新模块,用于根据第二状态特征计算得到奖励值,并根据奖励值更新深度强化学习模型。
95.关于基于深度学习的目标产品确定装置的具体限定可以参见上文中对于基于深度学习的目标产品确定方法的限定,在此不再赘述。上述基于深度学习的目标产品确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
96.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据
库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储产品数据和深度强化学习模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的目标产品确定方法。
97.本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
98.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取当前产品数据;将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果;获取与当前产品数据对应的历史产品数据;根据历史产品数据判断深度强化学习模型是否符合要求;当深度强化学习模型符合要求时,输出目标产品和目标产品的目标分配结果。
99.在一个实施例中,处理器执行计算机程序时所实现的根据历史产品数据判断深度强化学习模型是否符合要求,包括:计算在标准分配下历史产品数据对应的标准收益率,以及在历史产品数据通过深度强化学习模型计算得到的参考分配结果下对应的参考收益率和参考超额收益率;获取待选择分配结果,分别计算待选择分配结果下历史产品数据对应的对照超额收益率;当参考收益率高于标准收益率,且参考超额收益率高于对照超额收益率的中位数时,深度强化学习模型符合要求,否则深度强化学习模型不符合要求。
100.在一个实施例中,处理器执行计算机程序时所实现的根据历史产品数据判断深度强化学习模型是否符合要求之后,还包括:当深度强化学习模型不符合要求时,则获取并输出超额收益率最高的待分配结果。
101.在一个实施例中,处理器执行计算机程序时所实现的将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果,包括:获取时间序列长度,根据时间序列长度以及当前产品数据计算得到数据序列;将数据序列输入至包括用于提取时序特征的第一特征抽取网络中的到第一状态特征;根据第一状态特征计算得到目标产品和目标产品的目标分配结果。
102.在一个实施例中,处理器执行计算机程序时所实现的输出目标产品和目标产品的目标分配结果之后,包括:将数据序列、目标产品和目标产品的目标分配结果输入至包括用于提取时序特征的第二特征抽取网络中得到第二状态特征;根据第二状态特征计算得到奖励值,并根据奖励值更新深度强化学习模型。
103.在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取当前产品数据;将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果;获取与当前产品数据对应的历史产品数据;根据历史产品数据判断深度强化学习模型是否符合要求;当深度强化学习模型符合要求时,输出目标产品和目标产品的目标分配结果。
104.在一个实施例中,计算机程序被处理器执行时所实现的根据历史产品数据判断深度强化学习模型是否符合要求,包括:计算在标准分配下历史产品数据对应的标准收益率,以及在历史产品数据通过深度强化学习模型计算得到的参考分配结果下对应的参考收益率和参考超额收益率;获取待选择分配结果,分别计算待选择分配结果下历史产品数据对
应的对照超额收益率;当参考收益率高于标准收益率,且参考超额收益率高于对照超额收益率的中位数时,深度强化学习模型符合要求,否则深度强化学习模型不符合要求。
105.在一个实施例中,计算机程序被处理器执行时所实现的根据历史产品数据判断深度强化学习模型是否符合要求之后,还包括:当深度强化学习模型不符合要求时,则获取并输出超额收益率最高的待分配结果。
106.在一个实施例中,计算机程序被处理器执行时所实现的将当前产品数据输入至深度强化学习模型中得到目标产品和目标产品的目标分配结果,包括:获取时间序列长度,根据时间序列长度以及当前产品数据计算得到数据序列;将数据序列输入至包括用于提取时序特征的第一特征抽取网络中的到第一状态特征;根据第一状态特征计算得到目标产品和目标产品的目标分配结果。
107.在一个实施例中,计算机程序被处理器执行时所实现的输出目标产品和目标产品的目标分配结果之后,包括:将数据序列、目标产品和目标产品的目标分配结果输入至包括用于提取时序特征的第二特征抽取网络中得到第二状态特征;根据第二状态特征计算得到奖励值,并根据奖励值更新深度强化学习模型。
108.本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
109.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
110.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
111.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜