学习装置、生鲜品的收纳装置和程序的制作方法

2022-11-14 16:02:54 来源：中国专利 TAG：

1.本文公开涉及学习装置、生鲜品的收纳装置和程序。

背景技术：

2.在专利文献1中公开了如下内容：对基于过去的保存实绩的最佳保存条件进行规则化，根据经知识化的保存知识库和与气体代谢量有关的环境计测信息，结合希望出货时期推断活化气体的产生量而产生活化气体，由此对该内部环境进行控制。此外，记载了如下内容：在活化气体的产生量的推断中，利用使用了作为机器学习的方法的回归分析的软件处理。
3.现有技术文献
4.专利文献
5.专利文献1：日本特开2019-41601号公报

技术实现要素：

6.发明要解决的课题
7.生鲜品的新鲜度的控制例如需要按照每个生鲜品而不同，或者根据生鲜品收纳于集装箱时的初始的新鲜度而发生变化。因此，即使统一地以相同的控制条件对环境进行控制，也难以进行适当的新鲜度管理。
8.本公开的目的在于使用基于新鲜度传感器的生鲜品的新鲜度的信息对生鲜品的环境的控制条件进行强化学习，对生鲜品的环境自动地进行控制。
9.用于解决课题的手段
10.本文公开的学习装置是一种生鲜品的库内环境的学习装置，其具有：新鲜度信息取得单元，其取得库内收纳的生鲜品的新鲜度的信息；学习单元，其对针对由所述新鲜度信息取得单元取得的生鲜品的新鲜度的所述库内的库内环境执行学习；以及报酬决定单元，其决定所述学习单元使用的报酬，所述报酬决定单元根据基于由所述新鲜度信息取得单元取得的新鲜度决定出的针对该新鲜度的库内环境下的固定期间的新鲜度降低情况，来决定报酬，所述学习单元基于所述报酬决定单元决定出的报酬对针对所述新鲜度的库内环境执行学习。
11.由此，能够使用生鲜品的新鲜度的信息对生鲜品的环境的控制条件执行强化学习，自动地控制生鲜品的环境。
12.在此，也可以是，在所述固定期间的前后的库内环境固定的情况下，所述报酬决定单元根据该固定期间的开始时刻的库内环境来决定所述报酬。
13.由此，能够学习如在固定期间的范围内设为固定的库内环境的环境控制。
14.此外，也可以是，在所述固定期间的前后的库内环境不同的情况下，所述报酬决定单元基于该固定期间内的特定时刻的库内环境来决定所述报酬。
15.由此，当在固定期间内，库内环境发生变化的情况下，能够学习基于特定时刻的库
内环境的环境控制。
16.此外，也可以是，在所述固定期间的前后的库内环境不同的情况下，所述报酬决定单元基于该固定期间的开始时刻的库内环境和结束时刻的库内环境来决定所述报酬。
17.由此，当在固定期间内，库内环境发生变化的情况下，能够学习基于该固定期间的开始时和结束时的库内环境的环境控制。
18.此外，也可以是，在所述固定期间的前后的库内环境不同的情况下，所述报酬决定单元求出表示该固定期间内的多个时刻的库内环境的环境信息的值的代表值，基于该代表值来决定所述报酬。
19.由此，能够学习与固定期间内的库内环境的变化相应的环境控制。
20.此外，本文公开的收纳装置是一种生鲜品的收纳装置，其具有：收纳库，其收纳生鲜品；调整单元，其调整所述收纳库的库内的至少包含温度的库内环境；环境信息取得单元，其取得所述库内的至少包含温度的环境信息；新鲜度测定单元，其测定所述库内收纳的生鲜品的新鲜度；学习单元，其对针对由所述新鲜度测定单元测定出的生鲜品的新鲜度的所述库内的库内环境执行学习；以及报酬决定单元，其决定所述学习单元使用的报酬，所述调整单元基于由所述新鲜度测定单元测定出的新鲜度、所述环境信息取得单元所取得的所述环境信息和所述学习单元的学习结果来进行动作，使得所述收纳库的库内环境为针对该新鲜度的库内环境，所述报酬决定单元基于由所述调整单元调整后的库内环境下的固定期间的新鲜度降低情况来决定报酬，所述学习单元基于所述报酬决定单元决定出的报酬对针对所述新鲜度的库内环境执行学习。
21.由此，能够使用从收纳库得到的生鲜品的新鲜度的信息对库内环境的控制条件执行强化学习，自动地控制生鲜品的环境。
22.在此，也可以是，所述学习单元以如下方式对针对该新鲜度的库内环境执行学习：使得相对于由所述新鲜度测定单元测定出的生鲜品的新鲜度，由所述报酬决定单元决定的报酬最大，所述调整单元调整所述收纳库的库内环境，使得由所述环境信息取得单元取得的所述环境信息成为由所述学习单元学习到的针对所述新鲜度的库内环境。
23.由此，能够学习针对生鲜品的新鲜度的降低优化后的库内环境的控制。
24.此外，也可以是，在所述固定期间的前后的库内环境不同的情况下，所述报酬决定单元基于该固定期间内的一个或多个时刻的库内环境来决定所述报酬。
25.由此，能够学习与固定期间内的库内环境的变化相应的环境控制。
26.此外，也可以是，在所述固定期间内的一个或多个时刻的库内环境中，包含该固定期间的结束时刻的库内环境。
27.由此，能够学习设想了经过固定期间时的库内环境的环境控制。
28.此外，本文公开的程序使计算机实现以下功能：取得库内收纳的生鲜品的新鲜度的信息的功能；对针对所取得的生鲜品的新鲜度的所述库内的库内环境执行学习的功能；以及决定在所述学习中使用的报酬的功能，在所述决定报酬的功能中，根据基于在所述取得新鲜度的信息的功能中所取得的生鲜品的新鲜度决定出的针对该新鲜度的库内环境下的固定期间的新鲜度降低情况来决定报酬，在所述学习功能中，基于在所述决定报酬的功能中决定出的报酬对针对所述新鲜度的库内环境执行学习。
29.根据安装了该程序的计算机，能够使用生鲜品的新鲜度的信息对生鲜品的环境的
控制条件执行强化学习，自动地控制生鲜品的环境。
附图说明
30.图1是示出应用本实施方式的生鲜品管理系统的整体结构的图。
31.图2是示出信息处理装置的功能结构例的图。
32.图3是示出信息处理装置的硬件结构例的图。
33.图4是示出由环境调整装置调整后的固定期间的库内环境(库内温度)的一例的图。
34.图5是示出由环境调整装置调整后的固定期间的库内环境(库内温度)的另一例的图。
35.图6是示出由环境调整装置调整后的固定期间的库内环境(库内温度)的又一例的图。
36.图7是示出由环境调整装置调整后的固定期间的库内环境(库内温度)的又一例的图。
具体实施方式
37.下面，参照附图对实施方式详细地进行说明。
38.《系统结构》
39.图1是示出应用本实施方式的生鲜品管理系统的整体结构的图。本实施方式的生鲜品管理系统具有收纳库100、环境检测装置200、环境调整装置300、新鲜度检测装置400和信息处理装置500。
40.收纳库100是收纳并保管生鲜品的装置。收纳库100具有用于搬入作为收纳物的生鲜品的搬入口(未图示)。收纳库100构成为通过关闭搬入口来对内部的空间进行密封，并与外部环境隔离。收纳库100的内部也可以被划分为多个房间。收纳库100例如是用于生鲜品的搬运的集装箱。作为收纳库100，能够设想在冷藏环境下收纳生鲜品的收纳库、在冷冻环境下收纳生鲜品的收纳库、在常温环境下收纳收纳物的收纳库等。收纳库100是收纳装置的一例。
41.环境检测装置200是设置于收纳库100的内部并检测收纳库100内的环境(库内环境)的装置。环境检测装置200取得表示收纳库100的内部空间的状态的数据(以下，称为“环境数据”)。具体而言，取得表示温度、湿度、气压、充满内部空间的气体的成分等的数据。因此，作为环境检测装置200，可以使用温度传感器、湿度传感器、气压传感器、各种气体成分的传感器等。在收纳库100的内部被划分为多个房间的情况下，也可以构成为按照每个房间单独取得环境数据。环境检测装置200是环境信息取得单元的一例。
42.环境调整装置300是设置于收纳库100并对收纳库100的库内环境进行控制的装置。由环境调整装置300控制的库内环境的要素对应于由环境检测装置200检测的库内环境的要素。因此，环境调整装置300对温度、湿度、气压、充满内部空间的气体的成分等进行控制而调整库内环境。在收纳库100的内部被划分为多个房间的情况下，能够按照每个房间设定不同的环境。环境调整装置300是调整单元的一例。
43.新鲜度检测装置400检测收纳库100中收纳的生鲜品的新鲜度。生鲜品的新鲜度能
够通过各种指标来评价。具体而言，使用“外观(颜色、光泽)”、“香气”、“味道”、“物性(硬度)”、“水分量”、“成分(糖、酸)”等作为新鲜度指标。此外，关于肉、鱼类，通常使用与这些生鲜品中包含的成分的比率有关的“k值”这样的指标作为表示新鲜度的指标。因此，使用能够根据收纳的生鲜品的种类而取得与这些各种指标有关的数据(以下，称为“新鲜度数据”)的新鲜度传感器，作为新鲜度检测装置400。
44.信息处理装置500是对由环境检测装置200和新鲜度检测装置400取得的数据进行处理，根据得到的结果对环境调整装置300的动作进行控制的装置。信息处理装置500例如通过个人计算机、智能手机、设置于收纳库100的嵌入式计算机等来实现。信息处理装置500可以与收纳库100一体地设置，也可以与收纳库100分开设置，也可以构成为使用通信线路来从环境检测装置200和新鲜度检测装置400取得数据。在图1所示的结构例中，示出了与收纳库100一体地设置的信息处理装置500。在与收纳库100分开设置信息处理装置500的情况下，用于收发数据的通信线路可以是有线线路，也可以是无线线路。
45.《信息处理装置500的结构》
46.图2是示出信息处理装置500的功能结构例的图。信息处理装置500具有数据取得部510、新鲜度判断部520、分析部530和控制部540。
47.数据取得部510从环境检测装置200和新鲜度检测装置400取得数据。数据的取得例如是定期地进行的。更详细而言，从环境检测装置200按照每个固定期间定期地发送环境数据，被信息处理装置500的数据取得部510取得。此外，从新鲜度检测装置400按照每个固定期间定期地发送新鲜度数据，被信息处理装置500的数据取得部510取得。从环境检测装置200取得的环境数据被发送给分析部530。从新鲜度检测装置400取得的新鲜度数据被发送给新鲜度判断部520。
48.新鲜度判断部520根据由新鲜度检测装置400得到的新鲜度数据，判断收纳库100中收纳的生鲜品的新鲜度。由此，能够得到生鲜品的新鲜度的信息。如上所述，生鲜品的新鲜度是根据各种新鲜度指标来判断的。因此，新鲜度判断部520通过根据收纳库100中收纳的生鲜品的种类和能够由新鲜度检测装置400得到的新鲜度数据的种类而确定出的方法，判定新鲜度。在新鲜度的判定中，例如可以使用对海鲜、肉类进行的使用k值的方法等现有的判定方法。新鲜度判断部520是新鲜度信息取得单元的一例。此外，新鲜度检测装置400和信息处理装置500的新鲜度判断部520是新鲜度测定单元的一例。
49.分析部530对由数据取得部510取得的库内环境的信息(环境数据)和由新鲜度判断部520判断出的生鲜品的新鲜度信息进行分析，求出适当的库内环境。适当的库内环境根据收纳库100中收纳的生鲜品的种类、状态而不同。当然，适当的库内环境根据生鲜品的种类而不同，但即使是相同种类的生鲜品，适当的库内环境有时也根据该生鲜品的状态而不同。例如，关于番茄，对于完熟番茄和绿熟番茄，被认为适当的温度、湿度的范围不同。此外，完熟番茄的乙烯生成量较多，乙烯敏感性较低，与此相对，绿熟番茄的乙烯生成量较少，乙烯敏感性较高。因此，适当的气体成分也不同。此外，关于马铃薯也是，在未熟的状态和成熟的状态下，被认为适当的温度的范围不同。并且，即使是相同种类的生鲜品，若当前的新鲜度不同，则适当的库内环境也不同。例如，如果是新鲜度较高的状态，则与新鲜度较低的状态相比，能够选择设想了长期储藏的库内环境。这样，分析部530需要考虑作为对象的生鲜品的各种因素来确定库内环境。
50.在本实施方式中，分析部530使用通过强化学习而得到的学习模型来选择由环境调整装置300调整的库内环境。分析部530所使用的学习模型是将库内环境的信息和新鲜度信息设为“状态s”、将用于对环境调整装置300的动作进行控制的控制条件设为“行为a”、关于经过固定期间后的新鲜度的降低程度设定“报酬r”并进行强化学习而得到的模型。“报酬r”被设定为新鲜度的降低程度越小，“报酬r”的值越大。由此，根据该学习模型，基于由环境检测装置200、新鲜度检测装置400和新鲜度判断部520得到的“状态s”对“行为a”进行优化，使得在由“行为a”控制的库内环境中经过固定时间后的新鲜度的降低最小(“报酬r”成为最大)。
51.此外，分析部530也可以通过收纳库100中安装的信息处理装置500实际上对环境调整装置300进行控制，从而一边调整库内环境，一边进行生鲜品的新鲜度管理，使用该结果来推进强化学习。具体而言，也可以根据实际上调整后的库内环境的信息和从环境调整装置300的控制开始起经过固定时间后的生鲜品的新鲜度的降低状态，对上述的学习模型进行更新(变更“报酬r”的设定)。分析部530是学习单元和报酬决定单元的一例。
52.控制部540通过生成针对环境调整装置300的控制命令并向环境调整装置300发送所生成的控制命令，对环境调整装置300的动作进行控制。控制部540对环境调整装置300进行控制，使得成为由分析部530选择出的库内环境。换言之，控制部540对环境调整装置300进行控制，使得由环境检测装置200取得的环境信息成为在分析部530中学习到的针对生鲜品的新鲜度的库内环境(由学习模型选择的库内环境)。库内环境的控制例如是通过按照温度、湿度、气压、气体的成分等每个环境要素对当前的库内环境与由分析部530选择出的库内环境进行比较并按照每个这些环境要素来单独进行的。当着眼于库内温度作为一例时，如果当前的库内温度与由分析部530选择出的库内温度相同，则控制部540对环境调整装置300进行控制，使得维持当前的库内温度。此外，在当前的库内温度与由分析部530选择出的库内温度不同的情况下，控制部540对环境调整装置300进行控制，使得库内温度成为后者的温度。
53.图3是示出信息处理装置500的硬件结构例的图。信息处理装置500通过计算机来实现。实现信息处理装置500的计算机具有作为运算单元的cpu(central processing unit：中央处理器)501、作为存储单元的ram(random access memory：随机存取存储器)502、rom(read only memory：只读存储器)503和存储装置504。ram 502是主存储装置(main memory)，作为cpu 501进行运算处理时的工作存储器来使用。在rom 503保持有程序、预先准备的设定值等数据，cpu 501能够从rom 503直接读入程序、数据而执行处理。存储装置504是程序、数据的保存单元。在存储装置504存储有程序，cpu 501将存储装置504中存储的程序读入主存储装置中并执行。此外，在存储装置504存储保存有cpu 501的处理结果。此外，在存储装置504存储有基于上述的强化学习的学习模型，用于库内环境的选择。例如可使用磁盘装置、ssd(solid state drive：固态硬盘)等，作为存储装置504。
54.在通过图3所示的计算机实现信息处理装置500的情况下，参照图2所说明的数据取得部510、新鲜度判断部520、分析部530和控制部540的各功能通过cpu 501执行程序来实现。cpu 501执行程序而实现上述的各功能的信息处理装置500是学习装置的一例。
55.《库内环境的调整的学习例》
56.如上所述，信息处理装置500的分析部530使用通过强化学习而得到的学习模型来
选择由环境调整装置300调整的库内环境。作为学习模型，对使用将库内环境的信息和新鲜度信息设为“状态s”、将库内环境的控制信息设为“行为a”、关于经过固定期间后的新鲜度的降低程度设定“报酬r”并进行强化学习而得到的模型的情况进行了叙述，进一步说明该“状态s”、“行为a”、“报酬r”。
57.环境调整装置300对库内环境的调整是在固定期间(例如，6小时、12小时、1天、3天、1周等)的范围内进行的。因此，关于作为“状态s”的库内环境，考虑该固定期间内的库内环境。关于“行为a”，该固定期间内的环境调整装置300的动作成为对象。“报酬r”是根据该固定期间的开始时刻的新鲜度与结束时刻的新鲜度的差分来决定的。
58.进一步考察固定期间内的库内环境。当在固定期间内进行了环境调整装置300对库内环境的调整时，在该固定期间的开始时刻和结束时刻，库内环境有时根据调整的方法而不同。此外，该固定期间内的环境调整装置300的动作有时也动态地发生变化。在该情况下，即使开始时刻的库内环境相同，也设想生鲜品的新鲜度降低的程度根据结束时刻、中途的库内环境而不同。因此，不仅考虑固定期间的开始时刻，还考虑结束时刻、中途的库内环境而确定“状态s”。此外，关于作为“行为a”的环境调整装置300的控制，即使固定环境的开始时刻的库内环境相同，也能够设定将该固定期间的结束时、中途的库内环境设为不同环境的多个“行为a”。以下，对几个例子进行具体说明。另外，在以下的例子中，着眼于库内温度作为库内环境的一个具体例。
59.图4是示出由环境调整装置300调整后的固定期间的库内环境(库内温度)的一例的图。在图4所示的例子中，在从开始时刻t0到结束时刻tn的期间t(0-n)内，由环境调整装置300调整为库内温度固定为温度(t0)。在该情况下，由于在整个期间t(0-n)内，库内温度固定，因此强化学习中的“状态s”为温度(t0)。此外，对作为“行为a”的环境调整装置300的动作进行控制，使得该温度(t0)的“状态s”持续固定期间t(0-n)。然后，根据时刻t0时的生鲜品的新鲜度与时刻tn时的生鲜品的新鲜度的差分来设定“报酬r”。
60.图5是示出由环境调整装置300调整后的固定期间的库内环境(库内温度)的另一例的图。在图5所示的例子中，在从开始时刻t0到结束时刻tn的期间t(0-n)内，由环境调整装置300调整为库内温度从温度(t0)变化为温度(tn)。另外，在该例子中，温度的变化被调整为相对于经过时间固定地变化。在该情况下，由于期间t(0-n)的开始时刻t0的温度(t0)与结束时刻tn的温度(tn)不同，因此无法单纯地将开始时刻的温度(t0)设为“状态s”。因此，将期间t(0-n)内的特定时刻的温度设定为“状态s”。例如考虑将时刻t0与时刻tn的中间的时刻t1的温度(t1)设为“状态s”。这意味着，将“行为a”设为对环境调整装置300的动作进行控制使得库内温度在时刻t0为温度(t0)、库内温度在经过期间t(0-n)之后为温度(tn)，将“状态s”等同为在整个期间t(0～n)内为库内温度(t1)。然后，根据时刻t0的新鲜度与时刻tn的新鲜度的差分来设定“报酬r”。在此，在图5所示的例子中，温度的时间变化的程度固定，因此，
61.期间t(0-1)＝期间t(0-n)/2，
62.温度(t1)＝温度(t0) (温度(tn)-温度(t0))/2。
63.图6是示出由环境调整装置300调整后的固定期间的库内环境(库内温度)的又一例的图。在图6所示的例子中，在从开始时刻t0到结束时刻tn的期间t(0-n)内，由环境调整装置300调整为库内温度从温度(t0)变化为温度(tn)。另外，在该例子中，温度的变化被调
整为相对于经过时间固定地变化。在该情况下，由于期间t(0-n)的开始时刻t0的温度(t0)与结束时刻tn的温度(tn)不同，因此无法单纯地将开始时刻的温度(t0)设为“状态s”。以上，与参考图5所说明的例子相同，但在该例子中，将期间t(0-n)的开始时刻t0的温度(t0)和结束时刻tn的温度(tn)双方设定为“状态s”。“行为a”是如实现这样的温度变化的环境调整装置300的动作控制。然后，根据时刻t0的新鲜度与时刻tn的新鲜度的差分来设定“报酬r”。
64.图7是示出由环境调整装置300调整后的固定期间的库内环境(库内温度)的又一例的图。在图7所示的例子中，在从开始时刻t0到结束时刻tn的期间t(0-n)内，由环境调整装置300调整为库内温度从温度(t0)变化为温度(tn)。另外，在图7中，温度的变化相对于经过时间固定地变化，但在该例子中，未特别规定温度变化的方式。例如也可以在期间t(0-n)的前半部分中，使温度急剧地发生变化，在后半部分中，使温度缓慢地发生变化。此外，也可以阶段性地多次使温度发生变化。在图7所示的例子中，在期间t(0-n)内设定一个或多个时刻，根据各时刻的温度来设定“状态s”。例如也可以将对各时刻的温度进行统计性处理而得到的代表值设定为“状态s”。能够选择平均值、中央值等作为代表值，但也可以根据期间t(0-n)内的温度变化的方式来设定代表值。
65.在图7所示的例子中，在开始时刻t0与结束时刻tn之间设定时刻t1～时刻t3这3个时刻，得到温度(t0)、温度(t1)、温度(t2)、温度(t3)、温度(tn)这5个温度。这些时刻和温度可以根据期间t(0-n)内的温度变化的方式来设定。而且，将该5个温度的代表值(例如平均值)设为“状态s”。此外，将在期间t(0-n)内实现上述的温度变化的环境调整装置300的动作控制设为“行为a”。然后，根据时刻t0的新鲜度与时刻tn的新鲜度的差分来设定“报酬r”。另外，在该例子中，由于环境调整装置300以从当前的库内环境起经过了期间t(0-n)时(时刻tn)的库内环境为目标进行控制，因此在得到库内环境的时刻中，也可以必然包含时刻tn。
66.另外，在参照图4至图7所说明的例子中，说明了作为库内环境之一对库内温度进行控制的情况，但针对湿度、气体成分等能够由环境检测装置200检测并由环境调整装置300调整的库内环境的各要素，也能够同样地进行分析。此外，也可以根据生鲜品的种类、状态、分析时的生鲜品的新鲜度等来对库内环境的各要素进行加权，或者附加条件。例如，由于被设为能够储藏于收纳库100的期间根据生鲜品的种类的不同而不同，因此在上述的分析例中示出的期间t(0-n)也被设定为不同的期间。
67.以上，对实施方式进行了说明，但本文公开的技术范围不限于上述实施方式。例如，在上述的实施方式中，将信息处理装置500作为实现对由环境检测装置200和新鲜度检测装置400取得的数据进行处理的功能、根据处理结果来对环境调整装置300的动作进行控制的功能、根据取得数据来实施强化学习的功能的各个功能的装置进行了说明，但也可以通过单独的硬件实现这些功能。负责学习功能的装置也作为使用由多个收纳库100的环境检测装置200和新鲜度检测装置400取得并收集到的数据进行学习的学习装置来实现。
68.此外，在上述的实施方式中，示出了如下情况：信息处理装置500的分析部530进行学习，使得根据生鲜品的种类、状态来得到适当的库内环境。因此，在对生鲜品的新鲜度进行管理时，用户在信息处理装置500中确定作为管理对象的生鲜品，使用与所确定的生鲜品对应的学习模型来进行新鲜度管理。与此相对，也可以在信息处理装置500中，设置确定作为新鲜度管理的对象的生鲜品的种类的单元。由此，在对生鲜品的新鲜度进行管理时，信息
处理装置500能够识别作为管理对象的生鲜品，使用对应的学习模型来进行新鲜度管理。生鲜品的识别例如也可以通过使用了拍摄生鲜品而得到的图像的图像分析来进行。此外，不脱离本文公开的技术构思的范围的各种变更和替代结构包含于本文公开中。
69.这里，上述说明的各实施方式能够如以下那样理解。本文公开的学习装置具有：新鲜度判断部520，其取得库内收纳的生鲜品的新鲜度的信息；以及分析部530，其对针对由新鲜度判断部520取得的生鲜品的新鲜度的库内的库内环境执行学习，并且决定在该学习中使用的报酬。分析部530是如下的生鲜品的库内环境的学习装置：根据基于由新鲜度判断部520取得的新鲜度决定出的针对新鲜度的库内环境下的固定期间的新鲜度降低情况来决定报酬，基于所决定的报酬对针对新鲜度的库内环境执行学习。
70.由此，能够使用生鲜品的新鲜度的信息对生鲜品的环境的控制条件进行强化学习，自动地控制生鲜品的环境。
71.在此，在固定期间的前后的库内环境固定的情况下，分析部530也可以基于该固定期间的开始时刻的库内环境来决定报酬。
72.由此，能够学习如在固定期间内设为固定的库内环境那样的环境控制。
73.此外，在固定期间的前后的库内环境不同的情况下，分析部530也可以基于该固定期间内的特定时刻的库内环境来决定报酬。
74.由此，当在固定期间内，库内环境发生变化的情况下，能够学习基于特定时刻的库内环境的环境控制。
75.此外，在固定期间的前后的库内环境不同的情况下，分析部530也可以基于该固定期间的开始时刻的库内环境和结束时刻的库内环境来决定报酬。
76.由此，当在固定期间内，库内环境发生变化的情况下，能够学习基于该固定期间的开始时刻和结束时刻的库内环境的环境控制。
77.此外，在固定期间的前后的库内环境不同的情况下，分析部530也可以求出表示该固定期间内的多个时刻的库内环境的环境信息的值的代表值，基于该代表值来决定报酬。
78.由此，能够学习与固定期间内的库内环境的变化相应的环境控制。
79.此外，上述中所说明的实施方式能够如下那样理解。本文公开的收纳装置具有：收纳库100，其收纳生鲜品；环境调整装置300，其调整收纳库100的库内的至少包含温度的库内环境；环境检测装置200，其取得库内的至少包含温度的环境信息；新鲜度检测装置400和新鲜度判断部520，它们测定库内收纳的生鲜品的新鲜度；以及分析部530，其对针对由新鲜度检测装置400和新鲜度判断部520测定的生鲜品的新鲜度的库内的库内环境执行学习，决定报酬。环境调整装置300基于由新鲜度检测装置400和新鲜度判断部520测定的新鲜度、环境检测装置200所取得的环境信息和分析部530的学习结果进行动作，使得收纳库100的库内环境为针对该新鲜度的库内环境。分析部530是根据由环境调整装置300调整后的库内环境下的固定期间的新鲜度降低情况来决定报酬并基于所决定的报酬对针对新鲜度的库内环境执行学习的生鲜品的收纳装置。
80.由此，能够使用从收纳库100得到的生鲜品的新鲜度的信息对库内环境的控制条件执行强化学习，自动地控制生鲜品的环境。
81.在此，也可以是，分析部530以如下方式对针对新鲜度的库内环境执行学习：使得相对于由新鲜度检测装置400和新鲜度判断部520测定的生鲜品的新鲜度，由分析部530决
定的报酬最大，环境调整装置300调整收纳库100的库内环境，使得由环境检测装置200取得的环境信息成为由分析部530学习到的针对新鲜度的库内环境。
82.由此，能够学习针对生鲜品的新鲜度的降低优化后的库内环境的控制。
83.此外，也可以是，在固定期间的前后的库内环境不同的情况下，分析部530基于该固定期间内的一个或多个时刻的库内环境来决定报酬。
84.由此，能够学习与固定期间内的库内环境的变化相应的环境控制。
85.此外，也可以是，在固定期间内的一个或多个时刻的库内环境中，包含该固定期间的结束时刻的库内环境。
86.由此，能够学习设想了经过固定期间时的库内环境的环境控制。
87.此外，本文公开的程序使计算机实现以下功能：取得库内收纳的生鲜品的新鲜度的信息的功能；对针对所取得的生鲜品的新鲜度的库内的库内环境执行学习的功能；以及决定在学习中使用的报酬的功能，在决定报酬的功能中，根据基于在取得新鲜度的信息的功能中所取得的生鲜品的新鲜度决定出的针对该新鲜度的库内环境下的固定期间的新鲜度降低情况来决定报酬，在学习功能中，基于在决定报酬的功能中决定出的报酬对针对新鲜度的库内环境执行学习。
88.根据安装了该程序的计算机，能够使用生鲜品的新鲜度的信息对生鲜品的环境的控制条件执行强化学习，自动地控制生鲜品的环境。
89.标号说明
90.100：收纳库；200：环境检测装置；300：环境调整装置；400：新鲜度检测装置；500：信息处理装置；510：数据取得部；520：新鲜度判断部；530：分析部；540：控制部。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：面向安全持久性内存的财务数据协同管理方法、装置

学习装置、生鲜品的收纳装置和程序的制作方法

相关文献

最热文献