基于深度强化学习的作战体系设计方法及相关设备

2022-09-01 07:39:34 来源：中国专利 TAG：

1.本技术的实施例涉及体系架构设计的技术领域，尤其涉及一种基于深度强化学习的作战体系设计方法及相关设备。

背景技术：

2.在相关的解决系统构建的方式中，多使用遗传算法、差分算法等传统方式进行，但相关的方式往往需要进行多次迭代，在体系设计复杂的问题中，所需时间成本高，难以在大规模的问题中应用；并且传统方式不具备从问题中学习的能力，因此，对于现实中仅仅规模和初始化数据不同的同类型问题，又难以复制解决方案。
3.基于此，需要一种能够实现不需要迭代，缩小时间成本，快速构建体系的方案。

技术实现要素：

4.有鉴于此，本技术的目的在于提出一种基于深度强化学习的作战体系设计方法及相关设备。
5.基于上述目的，本技术提供了一种基于深度强化学习的作战体系的设计方法，包括：
6.利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列；
7.将所述输入序列输入预构建的指针网络的编码器中，所述编码器将所述输入序列映射为特征向量；
8.将所述特征向量输入到预构建的所述指针网络的解码器中，所述解码器采用注意力机制确定输出序列，所述输出序列中包括多个所述作战体系；
9.根据所述组合优化模型计算选择各个所述作战体系的奖励回报，根据所述奖励回报，采用梯度下降的方式更新所述指针网络的参数，并利用更新的参数对指针网络进行训练，响应于达到预设的终止条件，完成训练并利用训练完的所述指针网络实施作战体系的设计。
10.进一步地，利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列，包括：
11.确定所述作战系统的个数、多个所述作战系统各自提供的能力、作战任务的个数、多个所述作战任务各自的能力需求、和多个所述作战系统各自的成本；
12.利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成本构建组合优化模型；
13.利用各个所述作战任务的能力需求、各个所述作战系统提供的能力和各个所述作战系统的成本建立输入序列；
14.其中，所述输入序列的包括有多个节点，每个所述节点包括1个作战系统提供的能力、1个作战任务的能力需求和该作战系统的成本。
15.进一步地，利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成
本构建组合优化模型，包括：
16.利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成本构建体系总成本最小化的目标；
17.将每个所述作战系统约束为最多只用于完成1个作战任务；
18.将完成1个作战任务的多个作战系统各自的能力之和约束为大于等于该作战任务的能力需求。
19.进一步地，编码器将所述输入序列映射为特征向量，包括：
20.将所述输入序列中的每个所述节点编码1个嵌入向量；
21.将全部所述嵌入向量组成为特征向量。
22.进一步地，所述解码器采用注意力机制确定输出序列，包括：
23.采用注意力机制计算选择每个所述嵌入向量的注意力值；
24.对全部所述嵌入向量的注意力值进行概率分布的计算，得到选择各个所述节点的概率；
25.选择所述概率最大的节点，作为当前时刻的输出动作；
26.将所述当前时刻的输出动作与之前全部时刻的输出动作结合为当前时刻的所述输出序列。
27.进一步地，根据所述组合优化模型计算选择各个所述作战体系的奖励回报，包括：
28.对于各个所述作战体系，执行操作：
29.将所述作战体系的所述奖励回报与所述组合优化模型中的所述体系总成本最小化的目标之间建立反比关系。
30.进一步地，指针网络的编码器的预构建，包括：
31.采用一维卷积神经网络构建所述编码器；
32.所述指针网络的解码器的预构建，包括：
33.采用记忆存储功能的循环神经网络构建所述解码器。
34.基于同一发明构思，本技术还提供了一种基于深度强化学习的作战体系的设计装置，包括：组合优化模型构建模块、编码模块、解码模块和训练模块；
35.其中，所述组合优化模型构建模块，被配置为，利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列；
36.所述编码模块，被配置为，将所述输入序列输入预构建的指针网络的编码器中，所述编码器将所述输入序列映射为特征向量；
37.所述解码模块，被配置为，将所述特征向量输入到预构建的所述指针网络的解码器中，所述解码器采用注意力机制确定输出序列，所述输出序列中包括多个所述作战体系；
38.所述训练模块，被配置为，根据所述组合优化模型计算选择各个所述作战体系的奖励回报，根据所述奖励回报，采用梯度下降的方式更新所述指针网络的参数，并利用更新的参数对指针网络进行训练，响应于达到预设的终止条件，完成训练并利用训练完的所述指针网络实施作战体系的设计。
39.基于同一发明构思，本技术还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的基于深度强化学习的作战体系的设计方法。
40.基于同一发明构思，本技术还提供了一种非暂态计算机可读存储介质，其中，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述基于深度强化学习的作战体系的设计方法。
41.从上面所述可以看出，本技术提供的基于深度强化学习的作战体系的设计方法，基于将多个作战系统和多个作战任务构建为组合优化模型，综合考虑了利用编码器生成特征向量，以及利用解码器生成输出序列，来组成特定的指针网络，并在指针网络中引入注意力机制，以根据输入的维度来确定输出的维度，并通过梯度下降的方式结合深度强化学习中的奖励回报，来进行网络参数的训练，使得，从而实现以深度强化学习的方式解决组合优化问题。
附图说明
42.为了更清楚地说明本技术或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
43.图1为本技术实施例的基于深度强化学习的作战体系设计方法的流程图；
44.图2为本技术实施例的基于深度强化学习的作战体系设计装置的结构示意图；
45.图3为本技术实施例的作战体系构建示意图；
46.图4为本技术实施例的指针网络示意图；
47.图5为本技术实施例的输入序列的结构示意图；
48.图6为本技术实施例的电子设备结构示意图。
具体实施方式
49.为使本技术的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本技术进一步详细说明。
50.需要说明的是，除非另外定义，本技术的实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。
51.如背景技术部分所述，相关的其他作战体系设计方法还难以满足体系构建在实际应用中的需要。
52.申请人在实现本技术的过程中发现，相关的其他作战体系设计方法存在的主要问题在于：在大多数的军事场景中，在完成一项任务使命时，经常需要将多个作战系统分配给多个作战任务，也就是说，需要构建一个作战任务和作战系统之间的体系。
53.在体系构建问题中，可以将其作为一种组合优化问题来进行求解，而相关的组合优化问题的求解方式，通常采用遗传算法、差分算法或者分支定界法等传统方式，但这些方式都不具备从当前的组合优化问题中学习的能力，也就是说，无法从历史数据中获取经验，当同类型问题仅仅是变量发生了变化时，便需要从头开始求解。
54.而以上的传统方式在求解的过程中往往又依赖迭代来达到需要的精度，因此消耗
的时间成本很高。
55.申请人在研究中进一步发现，在将上述的系统构建问题抽象为组合优化问题的形式后，可以采用深度强化学习的方式，来摆脱使用迭代的方式，并且，以深度强化学习的方式解决组合优化问题，可以令解决方式本身具备一定程度的学习能力，能够将该解决方式泛化至同类型的相关问题中，并且，可以通过特定的设计，令深度强化学习的神经网络具备一定的鲁棒性，也就是说，原始数据的规模将不会影响其处理组合优化问题的能力。
56.以下，通过具体的实施例，来详细说明本技术的技术方法。
57.参考图1，本技术一个实施例的基于深度强化学习的作战体系设计方法，包括以下步骤：
58.步骤s101、利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列。
59.在本技术的实施例中，将军事场景中的为作战任务配置作战系统作为具体的示例，如图3所示，在一个具体的军事作战任务分配场景中，需要完成的使命为m，该使命m可以分解为4个作战任务(以下简称任务)，例如，情报侦查任务、探测任务、跟踪定位任务和火力打击任务等，并将全部任务的集合表示为t；其中，完成每个任务需要不同的能力，例如，侦查能力、探测能力、指挥能力和打击能力等，每个任务，对于每个任务来说，所需的上述各项能力的能力值各不相同，例如，完成探测任务需要1个能力值的侦查能力、2个能力值的探测能力、3个能力值的指挥能力和3个能力值的火力打击能力。
60.进一步地，由作战系统为该使命m提供各项能力的，在该作战系统的集合中，包括有多个作战系统(以下简称系统)，例如，潜艇系统、战斗机系统、直升机系统、通信卫星系统、战斗舰船系统和通信卫星系统等；其中，每个系统可以为任务提供不同的能力，例如上述的侦查能力、探测能力、智慧能力和打击能力等，并且每个系统所能提供的上述各项能力的能力值均不相同，例如，直升机系统可以提供0.5个能力值的侦查能力、2个能力值的探测能力、0.3个能力值的指挥能力和0.2个能力值的火力打击能力。
61.在本实施例中，所定义的作战体系(以下简称体系)设计是指，在同一时刻下，为例如上述的多项作战任务分别分配适合的作战系统，以为其提供合适的能力来完成各项任务。
62.进一步地，每个系统在参与体系构建时，还需要消耗一定的成本，并且各个系统所消耗的成本均不相同。
63.在一些实施例中，为了简化上述定义，可以基于上述定义做出如下设定：
64.一个系统只能被用来完成一项任务；而一项任务可以由多个不同的系统来完成，其中，一个系统用于完成不同任务所消耗的成本相同；被用于完成同一任务的各个系统的各项能力的能力值，可以分别进行相加，以确定该任务各项所需能力所能得到的能力值；并且，任何一项任务，只有当其各项能力需求均得到满足的情形下，才可以确定该项任务得到满足。
65.在一些实施例中，可以将作战体系所消耗的总成本最低作为构建该作战体系的目标。
66.可以看出，基于上述的设定，本实施例中的作战体系的设计可以看做是组合优化问题，具体的，为了完成使命m，需要完成其中所包含的n个任务，该n个任务可以表示为：t＝
[t1，t2……
tn]。
[0067]
进一步地，对于其中的每一个任务，可以以一个属性组合来表示，具体的，以t1为例，t1＝[r
11
，r
12
…rij
…r1k
]，其中，r
ij
表示任务i对能力j的能力需求，k则表示所涉及能力的类型总数。
[0068]
可以看出，可供选择全部作战系统则可以以集合s表示，其中，s＝[s1，s2…
si…
sm]，si表示第i个系统，可见，全部作战系统的集合中总共包含了m个不同的系统。
[0069]
进一步地，每个系统可以表示为：si＝[c
i1
，c
i2
…cij
…cik
]，其中，c
ij
表示了系统i所能够提供的能力j的能力值。
[0070]
在本实施例中，对于各个系统，在其参与构建体系时，也即参与完成使命任务m时，各个系统所需要消耗的成本则可以表示为：c＝[c1，c2…ci
…cm
]，其中ci为系统i参与完成使命m所需要消耗的成本。
[0071]
可以看出，根据现有的作战任务和作战系统，可以构建如下所示的组合优化模型：
[0072][0073]
其中，s
ij
表示系统i被指定用于完成任务j；约束条件1表示了每个系统最多只能被用于完成1个任务；约束条件2则表示对于完成同一项任务所需的各项能力中的每一个，其能力值之和必须大于等于该项任务的该项能力的能力需求。
[0074]
在本实施例中，基于上述的情况，可以利用各个作战任务的能力需求、各个作战系统所能够提供的能力和各个作战系统的成本来建立输入序列，并将其应用于深度强化学习中，以进行组合优化模型的求解。
[0075]
具体的，如上所述，在任务的数量为n，系统的数量为m时，为各个任务指派不同系统的全部可能的组合形式可以表示为：r＝[rei，i＝1，2...n
×
m]，在本实施例中将r作为实体集合，其中，rei为第i个元组集合，并可表示为rei＝(ri，si，ci)；n
×
m为该生成的实体集合的大小。
[0076]
可以看出，在深度强化学习中，其动作空间的大小也就是实体集合的大小n
×
m。
[0077]
进一步地，可以将实体集合作为1个应用于深度强化学习的输入序列，每一个元组集合rei＝(ri，si，ci)则作为该输入序列中的一个输入向量。
[0078]
步骤s102、将所述输入序列输入预构建的指针网络的编码器中，所述编码器将所述输入序列映射为特征向量。
[0079]
在本技术的实施例中，以构建的指针网络作为深度强化学习的具体示例，来详细说明设计作战体系的方法。
[0080]
如图4所示，本实施例中所构建的指针网络包括了编码网络和解码网络，也即编码
器和解码器。
[0081]
在本实施例中的编码器用于将输入序列映射为一组特征向量，其中，基于本实施例中的作战体系设计问题，该输入序列的顺序不包含任何信息，对其中的每个输入向量的编码顺序也不会影响编码结果。
[0082]
可以确定，在本实施例中，对于指针网络的编码器的构建来说，使用复杂度较高的循环神经网络是没有意义的，因此，本实施例中的编码器选择使用复杂度低的一维卷积神经网络。
[0083]
进一步地，如图4所示，编码器可以将输入序列中的每个输入向量rei映射为一个嵌入向量ei，并最终生成特征向量，该特征向量在本实施例中表示为：e＝{e1，e2…ei
…enm
}。
[0084]
在本实施例中，如图5所示，该输入序列的结构中包括有多个输入向量，每个输入向量作为1个节点，则其中共有n
×
m个节点，因此，每个节点中包含有以下三个方面的内容：1个系统所能提供的能力值，1个任务对各项能力的能力需求，以及该系统的成本。
[0085]
进一步地，通过编码器对该输入序列的编码，可以生成一个维度为(n
×
m)
×dh
的特征向量，其中，n
×
m为输入序列的长度，dh则为目标向量的维度。
[0086]
在本实施例中，由于所有输入序列中的所有输入向量都由一个编码器进行编码，并且每个输入向量共享一组网络参数，因此，编码器对输入序列的长度具有鲁棒性，也就是说，无论系统集合中的系统数量和任务数量如何变化，该编码器都可以对其进行处理。
[0087]
步骤s103、将所述特征向量输入到预构建的所述指针网络的解码器中，所述解码器采用注意力机制确定输出序列，所述输出序列中包括多个所述作战体系。
[0088]
在本技术的实施例中，如图4所示，上述的指针网络中还设计有解码器，该解码器用于将包含了输入序列相关特征的特征向量进行解码得到输出序列，与上述的编码器不同，本实施例的解码器在输入当前时刻(f时刻)的输出序列时，是需要考虑f时刻之前的输出序列，因此，在本实施例中需要采用具有记忆存储功能的rnn(循环神经网络)，来对特征向量进行解码处理。
[0089]
需要注意的是，如图4所示，本实施例中的rnn并不是直接输出上述的输出序列，需要利用rnn在f时刻隐藏层的状态df和特征向量e共同生成f时刻的输出序列；其中，df包含了解码器在f时刻之前的输出序列的相关信息：{y0，y1，
…
，y
f-1
}。
[0090]
在本实施例中，作战体系的设计作为一类组合优化问题，其输出信息的维度是根据输入信息的维度确定的，也即输出序列的维度是根据输入序列的维度确定的，而相关的指针网络模型中，其输出维度是确定的，为了解决该问题，在本实施例的指针网络中引入了注意力机制，如图4所示，对每个输入向量编码后的嵌入向量计算其注意力值，并选择注意力值最大的作为当前时刻的输出。
[0091]
具体的，基于上述生成的特征向量e，可以采用如下公式对e中的各个嵌入向量进行注意力机制的计算：
[0092][0093]
其中，表示第j个嵌入向量ej在f时刻所计算得到的注意力值，v，w1，w2均为可学习的参数均为本实施例指针网络中可学习的参数。
[0094]
进一步地，基于上述得到的各个嵌入向量的注意力值，如下公式所示，通过指针网
络中的softmax操作，计算在当前f时刻，选择各个节点作为动作输出的概率：
[0095]
p(yf|y，
…
，y
f-1
，e)＝softmax(uf)
[0096]
其中，yf表示当前f时刻的动作输出。
[0097]
在本实施例中，在上述计算的各个概率中，可以选择概率最大的作为f时刻的动作输出yf。
[0098]
进一步地，将当前f时刻的动作输出与f时刻之前的输出序列组成当前时刻的输出序列y，也即作战体系的设计方案，并表示为：y＝{y0，y1，...，yf}，可以看出，其中包含了多个作战体系。
[0099]
步骤s104、根据所述组合优化模型计算选择各个所述作战体系的奖励回报，根据所述奖励回报，采用梯度下降的方式更新所述指针网络的参数，并利用更新的参数对指针网络进行训练，响应于达到预设的终止条件，完成训练并利用训练完的所述指针网络实施作战体系的设计。
[0100]
在本技术的实施例中，基于上述所得到的输出序列，可以对指针网络进行训练，以更新编码器和解码器的参数，并确定最终的作战体系。
[0101]
首先，对输出序列中的各个体系，计算其奖励回报。
[0102]
具体的，由于本实施例将体系的最小总成本作为优化目标，因此，可以基于上述的组合优化模型，根据其中的体系总成本最小化的目标来计算奖励回报的计算方式，并表示为如下公式：
[0103][0104]
其中，rk表示输出序列的f个体系中的第k个体系的奖励回报。
[0105]
进一步地，基于计算出的输出序列中的每个体系的奖励回报，并采取如下的梯度下降的方式，对指针网络的参数进行训练：
[0106][0107][0108]
θ
←
θ ηdθ
[0109]
φ
←
φ ηdφ
[0110]
其中，θ和φ代表网络参数，dθ和dφ代表了网络的梯度，η代表了网络的更新幅度。
[0111]
需要说明的是，在训练阶段，在上述确定动作输出yf的过程中，可以以一定的概率选择概率最大的结果作为当前f时刻的动作输出yf，并以的概率随机选择一个节点作为当前f时刻的动作输出，其中，概率可以根据具体需求进行设定，并且，可以根据训练阶段的进行而不断改变。
[0112]
在本实施例中，在训练的开始阶段，为了进行有效充分的探索，可以执行较小的概率的取值，在训练不断进行的过程中，将的取值逐渐增大，并在应用阶段，将的取值固定为1。
[0113]
进一步地，在对网络参数的训练中，可以根据具体情况设定相应的终止条件，例
如，设定梯度下降的阈值作为终止条件，当训练的结果满足该设定的终止条件时，则可以结束训练，并将训练得到的参数应用于所设计的网络中，并以该网络进行作战体系设计。
[0114]
可见，本技术的实施例的基于深度强化学习的作战体系的设计方法，基于将多个作战系统和多个作战任务构建为组合优化模型，综合考虑了利用编码器生成特征向量，以及利用解码器生成输出序列，来组成特定的指针网络，并在指针网络中引入注意力机制，以根据输入的维度来确定输出的维度，并通过梯度下降的方式结合深度强化学习中的奖励回报，来进行网络参数的训练，使得，从而实现以深度强化学习的方式解决组合优化问题。
[0115]
需要说明的是，本技术的实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本技术的实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
[0116]
需要说明的是，上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0117]
基于同一发明构思，与上述任意实施例方法相对应的，本技术的实施例还提供了一种基于深度强化学习的作战体系的设计装置。
[0118]
参考图2，所述基于深度强化学习的作战体系的设计装置，包括：组合优化模型构建模块201、编码模块202、解码模块203和训练模块204。
[0119]
其中，所述组合优化模型构建模块201，被配置为，利用预置的多个作战系统的和多个作战任务构建组合优化模型和输入序列。
[0120]
所述编码模块202，被配置为，将所述输入序列输入预构建的指针网络的编码器中，所述编码器将所述输入序列映射为特征向量。
[0121]
所述解码模块203，被配置为，将所述特征向量输入到预构建的所述指针网络的解码器中，所述解码器采用注意力机制确定输出序列，所述输出序列中包括多个所述作战体系。
[0122]
所述训练模块204，被配置为，根据所述组合优化模型计算选择各个所述作战体系的奖励回报，根据所述奖励回报，采用梯度下降的方式更新所述指针网络的参数，并利用更新的参数对指针网络进行训练，响应于达到预设的终止条件，完成训练并利用训练完的所述指针网络实施作战体系的设计。
[0123]
作为一个可选的实施例，所述组合优化模型构建模块201，具体被配置为：
[0124]
采用一维卷积神经网络构建所述编码器；
[0125]
采用记忆存储功能的循环神经网络构建所述解码器。
[0126]
进一步地，确定所述作战系统的个数、多个所述作战系统各自提供的能力、作战任务的个数、多个所述作战任务各自的能力需求、和多个所述作战系统各自的成本；
[0127]
利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成本构建组合优化模型；
[0128]
利用各个所述作战任务的能力需求、各个所述作战系统提供的能力和各个所述作
战系统的成本建立输入序列；
[0129]
其中，所述输入序列的包括有多个节点，每个所述节点包括1个作战系统提供的能力、1个作战任务的能力需求和该作战系统的成本。
[0130]
具体地，利用各个所述作战系统各自提供的能力和各个所述作战系统各自的成本构建体系总成本最小化的目标；
[0131]
将每个所述作战系统约束为最多只用于完成1个作战任务；
[0132]
将完成1个作战任务的多个作战系统各自的能力之和约束为大于等于该作战任务的能力需求。
[0133]
作为一个可选的实施例，所述编码模块202，具体被配置为：
[0134]
将所述输入序列中的每个所述节点编码1个嵌入向量；
[0135]
将全部所述嵌入向量组成为特征向量。
[0136]
作为一个可选的实施例，所述解码模块203，具体被配置为：
[0137]
采用注意力机制计算选择每个所述嵌入向量的注意力值；
[0138]
对全部所述嵌入向量的注意力值进行概率分布的计算，得到选择各个所述节点的概率；
[0139]
选择所述概率最大的节点，作为当前时刻的输出动作；
[0140]
将所述当前时刻的输出动作与之前全部时刻的输出动作结合为当前时刻的所述输出序列。
[0141]
作为一个可选的实施例，所述训练模块204，具体被配置为：
[0142]
对于各个所述作战体系，执行操作：
[0143]
将所述作战体系的所述奖励回报与所述组合优化模型中的所述体系总成本最小化的目标之间建立反比关系。
[0144]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本技术的实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0145]
上述实施例的装置用于实现前述任一实施例中相应的基于深度强化学习的作战体系的设计方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0146]
基于同一发明构思，与上述任意实施例方法相对应的，本技术的实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的基于深度强化学习的作战体系的设计方法。
[0147]
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0148]
处理器1010可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术实施例所提供的技术方案。
[0149]
存储器1020可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备、动态存储设备等形式实现。存储器1020可以存储
操作系统和其他应用程序，在通过软件或者固件来实现本技术实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
[0150]
输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0151]
通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0152]
总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0153]
需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本技术实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0154]
上述实施例的装置用于实现前述任一实施例中相应的基于深度强化学习的作战体系的设计方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0155]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于深度强化学习的作战体系的设计方法。
[0156]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0157]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于深度强化学习的作战体系的设计方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0158]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本技术的范围(包括权利要求)被限于这些例子；在本技术的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本技术的实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0159]
另外，为简化说明和讨论，并且为了不会使本技术的实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本技术的实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术的实施例
的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本技术的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术的实施例。因此，这些描述应被认为是说明性的而不是限制性的。
[0160]
尽管已经结合了本技术的具体实施例对本技术进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0161]
本技术的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本技术的实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种标定板、角点检测方法、设备及可读存储介质与流程

基于深度强化学习的作战体系设计方法及相关设备

相关文献

最热文献