一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

加钞方法、装置、存储介质及电子设备与流程

2023-10-27 12:58:28 来源:中国专利 TAG:

技术特征:
1.一种加钞方法,其特征在于,包括:响应于管理指令,确定所述管理指令对应的自助柜员设备;获取所述自助柜员设备当前的状态信息,所述状态信息至少包括位置状态、时间状态、现金余量状态;利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息;在所述动作决策信息指示对所述自助柜员设备加钞的情况下,对所述自助柜员设备进行加钞操作。2.根据权利要求1所述的方法,其特征在于,所述获取所述自助柜员设备当前的状态信息,包括:确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性;对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码,获得所述自助柜员设备当前的状态信息。3.根据权利要求1所述的方法,其特征在于,所述深度学习强化模型包括全局网络和多个工作网络;所述利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息,包括:将所述状态信息输入到所述深度强化学习模型的每个所述工作网络,以获得每个所述工作网络中的策略子网络输出的第一向量,以及每个所述工作网络中的价值子网络输出的第二向量;将各个所述第一向量和各个所述第二向量输入到所述全局网络,获得所述自助柜员设备对应的动作决策信息。4.根据权利要求1所述的方法,其特征在于,所述获得所述自助柜员设备对应的动作决策信息之后,还包括:利用预先构建的奖励函数对所述动作决策信息进行评分;根据评分信息对深度强化学习模型的参数进行调整。5.根据权利要求1所述的方法,其特征在于,还包括:在所述动作决策信息指示对所述自助柜员设备不加钞的情况下,输出停止加钞指令。6.一种加钞装置,其特征在于,包括:确定单元,用于响应于管理指令,确定所述管理指令对应的自助柜员设备;获取单元,用于获取所述自助柜员设备当前的状态信息,所述状态信息至少包括位置状态、时间状态、现金余量状态;第一执行单元,用于利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息;第二执行单元,用于在所述动作决策信息指示对所述自助柜员设备加钞的情况下,对所述自助柜员设备进行加钞操作。7.根据权利要求6所述的装置,其特征在于,所述获取单元,包括:确定子单元,用于确定所述自助柜员设备的机器码、所属区域、现金余量、当前时间以
及所述当前时间的时间属性;编码子单元,用于对所述自助柜员设备的机器码、所属区域、现金余量、当前时间以及所述当前时间的时间属性进行编码,获得所述自助柜员设备当前的状态信息。8.根据权利要求6所述的装置,其特征在于,所述深度学习强化模型包括全局网络和多个工作网络;相应的,所述第一执行单元,包括:第一执行子单元,用于将所述状态信息输入到所述深度强化学习模型的每个所述工作网络,以获得每个所述工作网络中的策略子网络输出的第一向量,以及每个所述工作网络中的价值子网络输出的第二向量;第二执行子单元,用于将各个所述第一向量和各个所述第二向量输入到所述全局网络,获得所述自助柜员设备对应的动作决策信息。9.一种存储介质,其特征在于,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~5任意一项所述的加钞方法。10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~5任意一项所述的加钞方法。

技术总结
本发明提供了一种加钞方法、装置、存储介质及电子设备,可应用于人工智能领域或金融领域,该方法包括:响应于管理指令,确定所述管理指令对应的自助柜员设备;获取所述自助柜员设备当前的状态信息,所述状态信息至少包括位置状态、时间状态、现金余量状态;利用预先构建的深度强化学习模型对所述自助柜员设备当前的状态信息进行处理,获得所述自助柜员设备对应的动作决策信息;在所述动作决策信息指示对所述自助柜员设备加钞的情况下,对所述自助柜员设备进行加钞操作。应用本发明实施例提高的方法,能够快速准确地为自助柜员设备加钞。能够快速准确地为自助柜员设备加钞。能够快速准确地为自助柜员设备加钞。


技术研发人员:王琼
受保护的技术使用者:中国银行股份有限公司
技术研发日:2023.07.28
技术公布日:2023/10/25
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表