加钞方法、装置、存储介质及电子设备与流程

2023-10-27 10:09:53 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，特别涉及一种加钞方法、装置、存储介质及电子设备。

背景技术：

2.在各个银行网点中均设置有自助柜员设备，为银行用户提供存款和取款服务，以满足每日的用户对现钞的需求。银行网点的自助柜员设备加钞运营一直是银行网点运营的一项重要内容，一方面银行希望在网点的自助柜员设备机器内存放足够的现钞来满足顾客对取现的需求，另一方面也希望不会存放过多的现钞在自助柜员设备内，以减少现金使用的成本。
3.目前，通常是由人工每天来清查自助柜员设备的现钞使用情况，进而判断是否需要加钞，然而，采用人工的方式依赖于人工的主观经验，无法准确地做出是否加钞的决策。

技术实现要素：

4.本发明所要解决的技术问题是提供一种加钞方法、装置、存储介质及电子设备，能够快速准确地为自助柜员设备加钞。
5.本发明还提供了一种加钞装置，用以保证上述方法在实际中的实现及应用。
6.一种加钞方法，包括：
7.响应于管理指令，确定所述管理指令对应的自助柜员设备；
8.获取所述自助柜员设备当前的状态信息，所述状态信息至少包括位置状态、时间状态、现金余量状态；
9.利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息；
10.在所述动作决策信息指示对所述自助柜员设备加钞的情况下，对所述自助柜员设备进行加钞操作。
11.上述的方法，可选的，所述获取所述自助柜员设备当前的状态信息，包括：
12.确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性；
13.对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码，获得所述自助柜员设备当前的状态信息。
14.上述的方法，可选的，所述深度学习强化模型包括全局网络和多个工作网络；
15.所述利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息，包括：
16.将所述状态信息输入到所述深度强化学习模型的每个所述工作网络，以获得每个所述工作网络中的策略子网络输出的第一向量，以及每个所述工作网络中的价值子网络输出的第二向量；
17.将各个所述第一向量和各个所述第二向量输入到所述全局网络，获得所述自助柜员设备对应的动作决策信息。
18.上述的方法，可选的，所述获得所述自助柜员设备对应的动作决策信息之后，还包括：
19.利用预先构建的奖励函数对所述动作决策信息进行评分；
20.根据评分信息对深度强化学习模型的参数进行调整。
21.上述的方法，可选的，还包括：
22.在所述动作决策信息指示对所述自助柜员设备不加钞的情况下，输出停止加钞指令。
23.一种加钞装置，包括：
24.确定单元，用于响应于管理指令，确定所述管理指令对应的自助柜员设备；
25.获取单元，用于获取所述自助柜员设备当前的状态信息，所述状态信息至少包括位置状态、时间状态、现金余量状态；
26.第一执行单元，用于利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息；
27.第二执行单元，用于在所述动作决策信息指示对所述自助柜员设备加钞的情况下，对所述自助柜员设备进行加钞操作。
28.上述的装置，可选的，所述获取单元，包括：
29.确定子单元，用于确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性；
30.编码子单元，用于对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码，获得所述自助柜员设备当前的状态信息。
31.上述的装置，可选的，所述深度学习强化模型包括全局网络和多个工作网络；相应的，所述第一执行单元，包括：
32.第一执行子单元，用于将所述状态信息输入到所述深度强化学习模型的每个所述工作网络，以获得每个所述工作网络中的策略子网络输出的第一向量，以及每个所述工作网络中的价值子网络输出的第二向量；
33.第二执行子单元，用于将各个所述第一向量和各个所述第二向量输入到所述全局网络，获得所述自助柜员设备对应的动作决策信息。
34.一种存储介质，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的加钞方法。
35.一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的加钞方法。
36.与现有技术相比，本发明包括以下优点：
37.本发明提供了一种加钞方法、装置、存储介质及电子设备，其中，可以响应于管理指令，确定所述管理指令对应的自助柜员设备；
38.获取所述自助柜员设备当前的状态信息，所述状态信息至少包括位置状态、时间状态、现金余量状态；利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息；在所述动作决策信息指示对
所述自助柜员设备加钞的情况下，对所述自助柜员设备进行加钞操作。能够快速准确地对自助柜员设备进行加钞。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
40.图1为本发明提供的一种加钞方法的方法流程图；
41.图2为本发明提供的一种获取自助柜员设备当前的状态信息的过程的流程图；
42.图3为本发明提供的一种获得自助柜员设备对应的动作决策信息的过程的流程图；
43.图4为本发明提供的一种加钞装置的结构示意图；
44.图5为本发明提供的一种电子设备的结构示意图。
具体实施方式
45.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
47.目前，通常是由人工每天来清查自助柜员设备的现钞使用情况，进而判断是否需要加钞，然而，采用人工的方式依赖于人工的主观经验，无法准确地做出是否加钞的决策。
48.为了避免加钞不准确，在一些可行的方式中，可以收集各网点的自助柜员设备的历史取现数据，采用神经网络的方法建模，预测未来几日的取现需求数额，从而为加钞提供加钞数额的指导，这种方法无法运用各网点不同的属性来区别对待加钞需求的地区差异性。
49.基于此，本发明实施例提供了一种加钞方法，该方法可以应用于电子设备，所述方法的方法流程图如图1所示，具体包括：
50.s101：响应于管理指令，确定所述管理指令对应的自助柜员设备。
51.在本实施例中，该管理指令可以是用户具有对加钞需求的情况下触发的指令，也可以是一些应用程序在运行的过程中自动触发的指令。
52.可选的，可以对管理指令进行解析，获得指令信息；指令信息包括设备标识，根据指令信息中的设备标识在各个候选自助柜员设备中确定出管理指令对应的自助柜员设备。
53.在本实施例中，自助柜员设备包括用于存储钞票的钞箱，客户可以通过自助柜员
设备存储钞票，或者提取钞票。
54.s102：获取所述自助柜员设备当前的状态信息，所述状态信息至少包括位置状态、时间状态、现金余量状态。
55.在本实施例中，自助柜员设备当前的状态信息可以为向量形式，该状态信息可以由自助柜员设备的位置状态、时间状态和现金余量状态等组成。该位置状态可以表征自助柜员设备所属区域，该时间状态可以表征当前的时间属性，现金余量状态可以表征自助柜员设备当前的现金余量。
56.s103：利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息。
57.在本实施例中，该深度强化学习模型可以是异步优势行动者-批评者(asynchronous advantage actor-critic)模型。
58.可选的，该动作决策信息可以用于指示对自助柜员设备加钞或不加钞。
59.在一些实施例中，动作决策信息的集合a＝{0,1}，其中动作决策信息0表示不加钞，动作决策信息1表示加钞至满钞。
60.s104：在所述动作决策信息指示对所述自助柜员设备加钞的情况下，对所述自助柜员设备进行加钞操作。
61.在本实施例中，可以对自助柜员设备进行加钞，直至自助柜员设备中的钞票余量达到预设的余量阈值。
62.应用本发明实施例提供的方法，可以获取自助柜员设备当前的状态信息，然后利用预先构建的深度强化学习模型对自助柜员设备当前的状态信息进行处理，获得自助柜员设备对应的动作决策信息；在动作决策信息指示对自助柜员设备加钞的情况下，对自助柜员设备进行加钞操作，能够准确地对自助柜员设备进行加钞。
63.在本发明提供的一实施例中，基于上述的实施过程，可选的，所述获取所述自助柜员设备当前的状态信息的过程，如图2所示，包括：
64.s201：确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性。
65.在本实施例中，当前时间可以是当前的日期，该当前时间的时间属性可以表示当前时间的星期数、是否为工作日以及所属的假期序列等。
66.s202：对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码，获得所述自助柜员设备当前的状态信息。
67.在本实施例中，可以对自助自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行独热编码，分别得到机器码对应的编码、所属区域对应的编码、现金余量对应的编码、当前时间对应的编码以及时间属性对应的编码；将机器码对应的编码、所属区域对应的编码、现金余量对应的编码、当前时间对应的编码以及时间属性对应的编码进行组合，得到状态向量，将该状态向量作为自助柜员设备当前的状态信息。
68.在本发明提供的一实施例中，基于上述的实施过程，可选的，所述深度学习强化模型包括全局网络和多个工作网络；
69.所述利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息的过程，如图3所示，包括：
70.s301：将所述状态信息输入到所述深度强化学习模型的每个所述工作网络，以获得每个所述工作网络中的策略子网络输出的第一向量，以及每个所述工作网络中的价值子网络输出的第二向量。
71.在本实施例中，每个工作网络均包括策略子网络和价值子网络，策略子网络输出的第一向量可以是动作的概率分布，该价值子网络输出的第二向量可以是动作标签，可选的，可以根据策略子网络的选择动作策略信息，根据价值子网络评估策略子网络选择工作策略信息的效果。
72.s302：将各个所述第一向量和各个所述第二向量输入到所述全局网络，获得所述自助柜员设备对应的动作决策信息。
73.在本实施例中，全局网络的网络结构可以与工作网络一致，即，该全局网络也包括策略子网络和价值子网络。
74.可选的，将各个工作网络的输出作为全局网络的输入，使得全局网络可以准确地输出自助柜员设备对应的动作决策信息。
75.在本发明提供的一实施例中，基于上述的实施过程，可选的，所述获得所述自助柜员设备对应的动作决策信息之后，还包括：
76.利用预先构建的奖励函数对所述动作决策信息进行评分；
77.根据评分信息对深度强化学习模型的参数进行调整。
78.在本实施例中，可以根据自助柜员设备的状态信息、动作决策信息以及评分对强化学习模型进行训练。
79.在一些实施例中，可以将历史状态信息输入到工作网络中，获得工作网络输出的第一历史向量和第二历史向量，将第一历史向量和第二历史向量输入到全局网络中，获得全局网络的策略子网络输出的第三历史向量和价值子网络输出的第四历史向量，根据预先构建的损失函数基于第三历史向量和第四历史向量获得该工作网络的损失函数值，利用该工作网络的损失函数值对该全局网络的参数进行调整，直至满足预设的训练条件，第三历史向量可以是历史动作决策信息，第四历史向量可以是历史奖励评分。
80.在本发明提供的一实施例中，基于上述的实施过程，可选的，还包括：
81.在所述动作决策信息指示对所述自助柜员设备不加钞的情况下，输出停止加钞指令。
82.在本实施例中，该停止加钞指令可以用于指示不对该自助柜员设备进行加钞。
83.在一些实施例中，在需要对自助柜员设备进行管理时，可以先收集自助柜员设备的信息，根据收集到的信息构建该自助柜员设备的状态信息。
84.其中，深度强化学习模型的每个时间步的状态信息s是一个向量，由机器编码、机器所属区域、星期数、是否工作日、假期序列、日期、当前余量、历史向量构成。状态信息s表示当前时间步下的所有信息。其中，每个自助柜员设备都有一个独立的机器码，机器码用于表征机器信息。机器所属区域用于表征地域信息。星期数、是否工作日、假期序列、日期四个元素用于表征时间信息。
85.可选的，深度强化学习模型中的智能体根据自助柜员设备的状态输出对应的动作决策信息。动作决策信息集合a＝{0,1}，其中动作决策信息0表示不加钞，动作决策信息1表示加钞至满钞。
86.其中，可以通过预先构建的奖励函数对输出的动作决策信息进行评价。时间步t的奖励函数由当前时间步的加钞成本和当前时间步的缺钞惩罚两部分构成。奖励函数的默认值为0，若产生加钞动作，则当前时间步的奖赏值为负(0减去加钞成本α)，同理，若当前时间步出现缺钞情况，则奖赏值需要减去缺钞惩罚β。其中α和β为常数，如下式：
87.r
t
＝-αif(add_crash)-βif(lack_crash)
88.其中，r
t
为评分，加钞(或缺钞)情况出现时，if(add_cash)或if(lack_cash))的值等于1，否则等于0。
89.与图1所述的方法相对应，本发明实施例还提供了一种加钞装置，用于对图1中方法的具体实现，本发明实施例提供的加钞装置可以应用于电子设备中，其结构示意图如图4所示，具体包括：
90.确定单元401，用于响应于管理指令，确定所述管理指令对应的自助柜员设备；
91.获取单元402，用于获取所述自助柜员设备当前的状态信息，所述状态信息至少包括位置状态、时间状态、现金余量状态；
92.第一执行单元403，用于利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息；
93.第二执行单元404，用于在所述动作决策信息指示对所述自助柜员设备加钞的情况下，对所述自助柜员设备进行加钞操作。
94.在本发明提供的一实施例中，基于上述的装置，可选的，还包括：
95.所述获取单元，包括：
96.确定子单元，用于确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性；
97.编码子单元，用于对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码，获得所述自助柜员设备当前的状态信息。
98.在本发明提供的一实施例中，基于上述的装置，可选的，所述深度学习强化模型包括全局网络和多个工作网络；
99.相应的，所述第一执行单元，包括：
100.第一执行子单元，用于将所述状态信息输入到所述深度强化学习模型的每个所述工作网络，以获得每个所述工作网络中的策略子网络输出的第一向量，以及每个所述工作网络中的价值子网络输出的第二向量；
101.第二执行子单元，用于将各个所述第一向量和各个所述第二向量输入到所述全局网络，获得所述自助柜员设备对应的动作决策信息。
102.在本发明提供的一实施例中，基于上述的装置，可选的，所述加钞装置还包括：
103.评分单元，用于利用预先构建的奖励函数对所述动作决策信息进行评分；
104.调整单元，用于根据评分信息对深度强化学习模型的参数进行调整。
105.在本发明提供的一实施例中，基于上述的装置，可选的，所述加钞装置还包括：
106.第三执行单元，用于在所述动作决策信息指示对所述自助柜员设备不加钞的情况下，输出停止加钞指令。
107.上述本发明实施例公开的加钞装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的加钞方法相同，可参见上述本发明实施例提供的加钞方法中相
应的部分，这里不再进行赘述。
108.本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述加钞方法。
109.本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：
110.响应于管理指令，确定所述管理指令对应的自助柜员设备；
111.获取所述自助柜员设备当前的状态信息，所述状态信息至少包括位置状态、时间状态、现金余量状态；
112.利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理，获得所述自助柜员设备对应的动作决策信息；
113.在所述动作决策信息指示对所述自助柜员设备加钞的情况下，对所述自助柜员设备进行加钞操作。
114.需要说明的是，本发明提供的一种加钞方法、装置、存储介质及电子设备可用于金融领域或人工智能领域。上述仅为示例，并不对本发明提供的一种加钞方法、装置、存储介质及电子设备的应用领域进行限定。
115.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
116.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
117.为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
118.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
119.以上对本发明所提供的一种加钞方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及
应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：加钞方法、装置、存储介质及电子设备与流程

加钞方法、装置、存储介质及电子设备与流程

最热文献