信息处理设备、信息处理方法和程序与流程

2022-08-13 15:41:28 来源：中国专利 TAG：

1.本技术涉及信息处理设备、信息处理方法和程序，并且涉及例如能够考虑另一系统的利益而执行评估的信息处理设备、信息处理方法和程序。

背景技术：

2.以从环境中获得的报酬最大化为目标，并且通过试错来学习实现目标的控制方法的机器学习在广义上也被称为强化学习。ptl 1提出了一种即使在达到获得报酬的状态的概率低的环境中也能高效地进行学习的学习方法。
3.[引文列表]
[0004]
[专利文献]
[0005]
[ptl1]
[0006]
jp 2018-198012a

技术实现要素：

[0007]
[技术问题]
[0008]
强化学习是以最大化系统在特定环境(代理；行为实体)中的利益为目标的学习。但是，当单个系统在多个系统混合的环境中采取行动以使单个系统的利益最大化时，一个系统会干扰其它系统的行为。因此，该行为很可能是其中没有一个系统能够获得最大利益的行为。
[0009]
等同于自身利益的行为也可能是不适合道德规范的行为。
[0010]
与其它系统合作操作的系统或考虑道德规范采取行动的系统是优选的。
[0011]
本技术是在这样的情况下设计的，并且使得系统能够与其它系统合作操作或考虑道德规范采取行动。
[0012]
[问题的解决方案]
[0013]
根据本技术的一个方面的信息处理设备是一种信息处理设备，包括：第一评估单元，被配置为从自身视点评估行为；第二评估单元，被配置为从其它方视点评估所述行为；以及确定单元，被配置为根据第一评估单元中的第一评估结果和第二评估单元中的第二评估结果确定是否执行所述行为。
[0014]
根据本技术的另一方面的信息处理方法是一种使信息处理设备执行以下操作的信息处理方法：从自身视点评估行为；从其它方视点评估所述行为；以及根据从自身视点对所述行为的评估结果和从其它方视点对所述行为的评估结果来确定是否执行所述行为。
[0015]
根据本技术的又一方面的程序是使计算机执行以下操作的程序：从自身视点评估行为；从其它方视点评估所述行为；以及根据从自身视点对所述行为的评估结果和从其它方视点对所述行为的评估结果来确定是否执行所述行为。
[0016]
在根据本技术的实施例的信息处理设备、信息处理方法和程序中，从自身视点评估行为；从其它方视点评估所述行为；以及根据从自身视点对行为的评估结果和从其它方
视点对行为的评估结果，确定是否执行所述行为。
[0017]
信息处理设备可以是独立的设备或配置一个设备的内部块。
[0018]
程序可以经由传输介质发送或记录在要提供的记录介质上。
附图说明
[0019]
图1是图示强化学习的图。
[0020]
图2是图示应用本技术的信息处理设备的实施例的构造的图。
[0021]
图3是图示行为评估模块的操作的概述的图。
[0022]
图4是图示行为评估模块的示例性构造的图。
[0023]
图5是图示客观评估模块的示例性构造的图。
[0024]
图6是图示自身视点行为评估模块的示例性构造的图。
[0025]
图7是图示其它方视点行为评估模块的示例性构造的图。
[0026]
图8是图示综合评估模块的示例性构造的图。
[0027]
图9是图示信息处理设备的示例性硬件构造的图。
具体实施方式
[0028]
在下文中，将描述用于执行本技术的模式(在下文中称为实施例)。
[0029]
例如，本技术可以应用于执行机器学习的信息处理设备或使用作为机器学习的结果获得的所学习的模型来执行处理的信息处理设备。作为机器学习，例如，可以使用强化学习。作为强化学习，例如，可以使用长短期记忆(lstm)。这里，以应用于本技术的lstm为例进行描述。也可以应用符合另一方案的机器学习(强化学习)。
[0030]
《lstm》
[0031]
图1是图示一般强化学习网络的图。所学习的模型11例如是使用lstm通过强化学习获得的模型。lstm是其中扩展了循环神经网络(rnn)的用于时间序列数据的模型。lstm具有可以进行长期依赖学习的特征。
[0032]
所学习的模型11具有适当的评估函数，并基于环境状态观察输出其中所预测的报酬量为最大的行为。如图1中所示，状态观察信息被输入到所学习的模型11。所学习的模型11基于输入的状态观察信息确定输出。输出例如是随后执行的行为。
[0033]
当执行从所学习的模型11输出的行为时，识别预测与给予环境的变化(状态观察结果)之间的误差，并将预测误差作为报酬反馈回所学习的模型11。
[0034]
例如，当所学习的模型11是学习以确定机器人的行为的模型时，例如，关于机器人周围环境的信息(例如，诸如图像、声音和温度的信息)被获得作为状态观察信息。所学习的模型11基于状态观察信息输出例如诸如作为机器人行进路线的向右移动之类的行为。机器人通过执行输出行为向右移动。
[0035]
例如，当机器人向右移动并避开障碍物的环境变化发生时，获得这样的环境变化作为状态观察结果。然后，状态观察结果和预测之间的误差作为报酬被反馈回所学习的模型11。例如，当输出诸如向右移动的行为以避开障碍物并且作为向右移动的结果可以避开障碍物时，预测与状态观察结果之间的误差小。当无法避开障碍物时，预测与状态观察结果之间的误差大。
[0036]
接收到这样的反馈的所学习的模型11进行学习，以便在下一次输出减小误差的行为。
[0037]
强化学习可以被定义为对所学习的模型进行反馈的学习，其方式是评估由于由代理(行为实体)执行的行为而发生的环境中的变化，该变化基于预定评估函数作为报酬被转移，并且报酬量被最大化。
[0038]
所学习的模型11是进行学习以使得特定行为实体中(例如当特定机器人、用户(用户组)等为行为实体时)的报酬量最大化的模型。例如，行为实体是机器人a，并且进行学习使得在所学习的模型11中针对机器人a的报酬量最大化。
[0039]
例如，当机器人a基于所学习的模型11采取行动时，行为可能不是对于与机器人a不同的机器人b而言最佳的行为。例如，当机器人a向右改变其路线时，这对于机器人a是最佳行为，但因为机器人a向右改变了其路线，机器人b将与障碍物碰撞，因此机器人a的行为可以说是不适合机器人b的。
[0040]
作为另一示例，将考虑所学习的模型11是生成对话或句子的系统(例如，为聊天机器人学习的模型)的情况。聊天机器人是利用人工智能的自动对话程序并且嵌入人工智能的计算机而不是人说话。当执行与聊天机器人相关的强化学习时，行为是生成对话(句子)或为用户生成的对话(句子)的建议，并且报酬量是向其建议对话(句子)的用户的反应等。
[0041]
即使在呈现报酬量增加的句子的所学习的模型11中，可能使特定用户以外的用户感到不愉快的句子也可能被呈现给特定用户(例如，在特定年龄范围的用户、居住在特定住宅地区的用户等)。可能呈现包括与人类社会的常识或社会接受的观念相比不适当的词语的句子。
[0042]
因此，可以在特定系统中执行适当行为的所学习的模型11很可能是其中在除特定系统之外的系统(在下文中适当地称为其它系统)中执行不适当行为的所学习的模型11。
[0043]
例如，在与多个系统协同操作的系统的情况下，优选地输出针对多个系统中包括的单个系统的最佳行为，而不是输出针对多个系统中的特定系统的最佳行为。例如，优选地不呈现包括与常识相比不适当的词语的句子，换句话说，优选地输出考虑道德规范的行为。
[0044]
在下文中，将描述执行在与多个系统协作操作的系统中给出最佳输出的学习或在考虑道德规范的情况下输出行为的学习的系统。
[0045]
《系统配置》
[0046]
图2是图示应用本技术的信息处理系统的实施例的构造的图。图2中所示的信息处理系统包括两个信息处理设备31和32。
[0047]
信息处理设备31使用通过预定机器学习方法(例如，强化学习)学习的所学习的模型在环境中执行操作。信息处理设备31例如是控制诸如机器人或汽车之类的机器的设备或者是为诸如聊天机器人之类的用户(人)执行处理的设备。
[0048]
例如，信息处理设备31可以是包括在与信息处理设备32协作操作的系统中的设备。协作包括在信息处理设备31和32之间共享处理并且执行工作以实现相同目标的情况。信息处理设备31和32执行单独的工作以实现不同的目标。还包括信息处理设备31考虑信息处理设备32的工作来确定信息处理设备31自己的工作的情况。
[0049]
例如，假设信息处理设备31是控制机器人a的设备，并且假设信息处理设备32是控制机器人b的设备。当机器人a和b共享并执行工作以实现目标a时，信息处理设备31在确定
机器人a的工作时考虑机器人b的工作来确定机器人a的工作。例如，当向右移动被确定为机器人a的行为时，考虑机器人a向右移动是否干扰机器人b的工作。当确定它不干扰机器人b的工作时，输出向右移动的行为。
[0050]
信息处理设备31可以是考虑人类社会、特定地区等中的道德规范、常识等输出行为的设备。例如，当信息处理设备31是应用于聊天机器人并生成句子的设备时，句子是基于所学习的模型而生成的。最终句子是考虑所生成的句子是否包括与一般人类社会的道德或预定地区的道德(常识)相比使人感到不愉快的词语或歧视性用语而生成的。
[0051]
信息处理设备31例如是基于学习使得针对特定用户(称为用户a)执行最佳输出的所学习的模型执行处理的设备，并且还可以被配置为考虑与用户a不同的用户b而确定行为的设备。例如，当由所学习的模型确定作为用户a的行为的行为(例如，向用户a提供的建议)由用户a执行，并且是与用户b特别相关的行为时，信息处理设备31确定用户a的行为是否对于用户b也是最佳的并输出最终行为。
[0052]
信息处理设备31也可以被配置为确定由用户a执行的行为是否是对于用户a最佳的行为并将该行为呈现给用户的设备。在确定时，考虑该行为对于作为用户a的行为的对象的用户b是否也是最佳的行为而输出最终结果。
[0053]
以这种方式，信息处理设备31使用行为是否对自身最佳为参考来确定自身行为，并且还确定该行为对于其它系统、其它用户等是否最佳，确定行为并输出行为。
[0054]
如图2中所示，执行这种处理的信息处理设备31包括识别单元41、候选行为生成单元42、控制单元43和行为评估模块44。这里，将信息处理设备31继续描述为具有这样的功能的一个设备，但是它可以是统一配置单独具有这样的功能的多个设备的信息处理系统。
[0055]
信息处理设备31取决于控制哪个设备而具有不同的配置。例如，虽然未图示，但也可以包括显示单元、声音输出单元、通信单元、电源单元等。
[0056]
在下面的描述中，信息处理设备31将被描述为自身系统，并且与自身系统不同的系统，例如信息处理设备32(参见图2)，将被描述为另一系统。
[0057]
识别单元41识别自身系统的各种状态、自身系统周围的环境状态、环境中存在的或可能存在的其它设备、其它设备的状态等。识别单元41分析从多个传感器获得的信息并执行识别。作为传感器，例如，可以使用图像传感器、麦克风、陀螺仪传感器、加速度传感器、温度传感器、大气压传感器、生物传感器等。
[0058]
例如，识别单元41通过分析由图像传感器捕获的图像来识别是否存在另一系统，或者通过跟踪其它系统来识别其它系统行进的方向。例如，识别单元41可以通过借助通信部件与其它系统或另一用户进行通信来执行识别。
[0059]
例如，识别单元41可以识别用户的存在或者识别用户所在空间的温度或照度，并且例如在后级(rear stage)处理中，可以获得用于当用户所在的空间冷时输出用于加热的行为或当用户所在的空间黑暗时输出用于打开灯的行为的信息。
[0060]
候选行为生成单元42通过使用由识别单元41识别出的信息(例如识别出的自身系统、其它系统和环境的情况)，生成自身系统将控制的后续行为的候选。例如，候选行为生成单元42生成诸如继续当前行为、右转和生成预定语句之类的行为作为候选。
[0061]
候选行为优选地不是动作，而是行为原则或策略，但可以是动作(例如，诸如控制信息或移动路线之类的实现方法)。
[0062]
控制单元43控制包括在自身系统中的每个单元以及与自身系统协调的系统的每个单元。由控制单元43控制的部分取决于由信息处理设备31控制哪个设备而不同。例如，控制单元43控制诸如显示器之类的显示设备、诸如扬声器或耳机之类的声音输出设备、打印机设备等。
[0063]
例如，当输出通过由信息处理设备31执行的各种处理获得的结果时，控制单元43也执行控制。具体而言，控制单元43执行控制，使得显示设备将通过由信息处理设备31执行的各种处理获得的结果显示为文本或图像。控制单元43还执行控制，使得声音输出设备将从经再现的声音数据、声学数据等形成的音频信号转换成模拟信号并输出转换后的模拟信号。
[0064]
当信息处理设备31用作控制车辆或机器人的控制单元的一部分时，控制单元43控制电机、制动器等，将用于移动控制的信息输出到每个单元或执行移动控制。在包括操纵器的设备的情况下，控制单元43也可以被配置为控制操纵器。
[0065]
控制单元43可以被配置为以中央管理的方式控制信息处理设备31的每个单元，并且控制单元也可以设在每个单元中并且以分布式管理的方式控制每个单元。
[0066]
行为评估模块44对是否实际输出由候选行为生成单元42生成的行为的候选(在下文中适当地称为候选行为)执行确定(控制)。例如，当从候选行为生成单元42输出向右移动的行为作为候选行为时，确定是否执行向右移动的行为。
[0067]
行为评估模块44对用户执行的行为进行评估。例如，确定由用户a执行的行为a是否适当，并输出确定的结果。
[0068]
行为评估模块44可以被包括在信息处理设备31中，或者可以被包括在与信息处理设备31不同的设备，例如，经由网络连接的服务器中。
[0069]
《行为评估模块的处理的概述》
[0070]
由行为评估模块44执行的确定被认为是考虑行为是否对其它系统有影响或者是否是道德问题的确定。将参考图3描述与由行为评估模块44执行的确定相关的处理的概述。在图3中，将描述确定是否执行候选行为的情况作为示例。
[0071]
行为评估模块44通过执行客观评估确定单元71的确定、自身报酬量确定单元72的确定，以及其它方报酬量确定单元73的确定，并使比较评估确定单元74比较确定的结果来输出最终行为。
[0072]
候选行为被输入到客观评估确定单元71和自身报酬量确定单元72。
[0073]
客观评估确定单元71例如参考存储社会规范的数据库来确定候选行为是否是偏离社会规范的行为。社会规范例如是一般人类社会、特定地区等中的道德确定标准或常识的因素。客观评估确定单元71确定候选行为是否偏离这样的社会规范。
[0074]
自身报酬量确定单元72是计算用于执行候选行为的设备、人等的报酬量的模块。自身报酬量确定单元72计算并输出根据自身处理的行为和报酬系统预测并由用户获取的报酬量。自身报酬量确定单元72例如使用强化学习系统的网络来预测并输出行为(在这种情况下，候选行为的报酬量)。
[0075]
另一方候选行为被输入到其它方报酬量确定单元73。其它方候选行为是在执行候选行为时由另一设备或另一人接收到的行为。例如，当候选行为是用户a“击打用户b”的行为时，用户b执行用户b“被用户a击打”的行为。“被用户a击打”是另一方的候选行为。
[0076]
作为另一示例，将考虑汽车a和接近汽车a的汽车b的情况。当汽车a的候选行为是“右转”行为时，从迎面而来的汽车b的视点来看，汽车a右转看起来是执行“汽车a向左转”的行为。因而，在这种情况下，“迎面而来的汽车向左转”的行为是另一方的候选行为。
[0077]
诸如此类的另一方的候选行为被输入到其它方报酬量确定单元73。其它方报酬量确定单元73基于其它人的处理和报酬系统来计算并输出根据由另一人接收到的行为而预测的报酬量。其它方报酬量确定单元73例如使用强化学习系统的网络来预测并输出另一方的行为(在这种情况下为另一方的候选行为)的报酬量。其它方报酬量确定单元73可以说是设置如何设置另一方的报酬量以及在代替另一方而不是自己时报酬量如何改变的模拟功能。
[0078]
来自其它方报酬量确定单元73的输出可以涉及输出针对与自己的关系的程度调整的报酬量。例如，可以根据与自己关系的强度的程度、伙伴对自己的重要程度、对伙伴的同情程度等来调整要被输出的报酬量。
[0079]
比较评估确定单元74是综合来自客观评估确定单元71、自身报酬量确定单元72、其它方报酬量确定单元73的输出的模块。确定结果被输入到比较评估确定单元74，并且确定结果被相互比较以确定候选行为被实际执行还是不执行。
[0080]
将通过给出示例来描述由行为评估模块44执行的处理的概述。这里，以行为评估模块44评估由作为评估对象的用户a执行的行为并向用户a推荐行为的情况为例进行描述。
[0081]
当候选行为生成单元42生成诸如“击打用户b的肩膀”之类的候选行为作为由用户a执行的行为的候选时，将该候选行为设置为客观评估确定单元71和自身报酬量确定单元72的处理对象。
[0082]
当在由客观评估确定单元71参考的数据库中存储有诸如“击打不好”、“击打肩膀好”之类的数据时，客观评估确定单元71输出诸如候选行为“击打用户b的肩膀”好的评估，并将该评估输出到比较评估确定单元74。
[0083]
自身报酬量确定单元72包括通过关于由用户a执行的行为的强化学习而获得的所学习的模型。自身报酬量确定单元72使用所学习的模型计算“击打用户b的肩膀”的行为的报酬量。当在所学习的模型中执行指示例如用户a因击打肩膀时筋疲力尽而不喜欢的学习时，输出低值的报酬量作为候选行为“击打用户b的肩膀”的报酬量。
[0084]
通过将候选行为“击打用户b的肩膀”转换成从用户b的视点看时的行为而获得的其它方候选行为被输入到其它方报酬量确定单元73。当用户b看到诸如“用户a击打用户b的肩膀”之类的候选行为时，肩膀被用户a击打。因此，行为“肩膀被用户a击打”作为其它方候选行为被输入到其它方报酬量确定单元73。
[0085]
其它方报酬量确定单元73具有与由用户b执行的行为相关的评估函数。如下面将描述的，例如，当作为与由用户b执行的行为相关的评估函数获得与用户b相关的所学习的模型时，可以使用获得的所学习的模型。当没有获得与用户b相关的所学习的模型时，可以使用用户a的所学习的模型(与由用户a执行的行为相关的评估函数)。
[0086]
其它方报酬量确定单元73使用所学习的模型计算“肩膀被用户a击打”的行为的报酬量。当在所学习的模型中执行指示例如用户b在他或她的肩膀被击打时感觉良好的学习时，输出高值的报酬量作为其它方候选行为“肩膀被用户a击打”的报酬量。
[0087]
比较评估确定单元74确定是否使用户a执行(用户a移动以执行)候选行为“用户a
击打用户b的肩膀”。比较评估确定单元74提供三个输入的确定结果(报酬量)，在这种情况下，来自客观评估确定单元71的指示“好”的确定结果、来自自身报酬量确定单元72的低值报酬量，以及来自其它方报酬量确定单元73的高值报酬量。
[0088]
例如，当比较评估确定单元74通过多数决定确定是否执行候选行为时，在该示例的情况下，输出向用户a推荐指示候选行为“用户a击打用户b的肩膀”的确定结果。以这种方式，考虑自己、其它方和社会规范来执行行为评估模块44的确定。
[0089]
《评估行为模块的构造》
[0090]
图4是图示行为评估模块44的示例性构造的图。行为评估模块44包括行为定义单元101、客观评估模块102、自身视点行为评估模块103、其它方视点行为评估模块104、综合评估模块105和行为评估结果输出单元106。
[0091]
客观评估模块102、自身视点行为评估模块103、其它方视点行为评估模块104、综合评估模块105对应于客观评估确定单元71、自身报酬量确定单元72、其它方报酬量确定单元73和比较评估确定单元74，分别在图3中图示。
[0092]
行为定义单元101定义与上述候选行为(即评估对象行为)对应的信息。行为定义单元101可以被配置为使得输入由另一系统或另一模块指定的评估对象行为。行为是被调度要由自身系统执行的行为(对应于候选行为)或由自身系统执行的行为。
[0093]
例如，输入由候选行为生成单元42生成的候选行为。例如，当控制多个机器人的服务器将“移动路线改变”设置为预定机器人中的候选行为时，服务器可以将候选行为“移动路线改变”提供给预定机器人中包括的行为评估模块44的行为定义单元101。
[0094]
行为评估模块44可以被配置为监视由自身系统调度的行为并执行主动评估或干预控制。例如，观察在自身系统中包括的、作为自身系统的控制对象的机器人的各种控制信息，将后续可以采取的控制行为的候选识别为“移动路线改变”，并且诸如识别出的“移动路线改变”的行为可以被定义为行为定义单元101的评估对象。
[0095]
行为定义单元101获得或识别并定义关于评估对象候选行为的后续信息。行为定义单元101获得或识别关于目标行为的信息，或者将获得或识别出的信息定义为关于目标行为的信息。作为关于目标行为的信息，例如，获得针对诸如移动路线改变之类的行为的目标而分类的信息，并将该信息定义为关于目标行为的信息。
[0096]
行为定义单元101获得或识别关于行为的控制的信息，并将获得或识别出的信息定义为关于行为的控制的信息。作为关于行为的控制的信息，例如，获得诸如自身系统中生成的控制信息或识别信息之类的信息，以实现诸如特定路线或控制信息之类的目标行为，并将该信息定义为关于行为的控制的信息。
[0097]
行为定义单元101获得或识别关于行为的环境信息并将获得或识别出的信息定义为关于行为的环境信息。环境信息例如是通过感测获得的环境感测信息、来自环境的接收信息等。环境信息是关于环境中的其它系统的信息、其它系统识别信息等。行为定义单元101例如获取环境感测信息并将获取的信息定义为关于行为的环境信息。
[0098]
客观评估模块102对应于客观评估确定单元71(参见图3)并且是基于社会规范等评估候选行为的模块。
[0099]
自身视点行为评估模块103对应于自身报酬量确定单元72(参见图3)并且是从自身视点评估候选行为的模块。
[0100]
其它方视点行为评估模块104对应于其它方报酬量确定单元73(参见图3)并且是从其它方视点评估候选行为的模块。
[0101]
综合评估模块105对应于比较评估确定单元74(参见图3)，综合由客观评估模块102、自身视点行为评估模块103和其它方视点行为评估模块104评估的评估结果，确定是否执行评估对象行为，以及输出确定结果。
[0102]
行为评估结果输出单元106将来自综合评估模块105的评估结果输出到对应的单元。例如，当给出指示执行行为的评估时，将被执行的行为信息被输出到控制该行为的控制单元。
[0103]
从综合评估模块105输出的评估结果例如是指示执行行为或不执行行为的信息，例如，指示在执行行为的情况下设置为1并且在不执行行为的情况下设置为0的0/1的信息。评估结果可以是指示执行行为好的概率(％)。可以输出用于抑制候选行为的特定信息作为评估结果。
[0104]
应用本技术的行为评估模块44包括作为评估行为的模块的三个评估模块：客观评估模块102、自身视点行为评估模块103和其它方视点行为评估模块104，如图4中所示。在下文中，将增加对三个评估模块的描述。
[0105]
客观评估模块102、自身视点行为评估模块103和其它方视点行为评估模块104中的每个可以是独立学习的网络。
[0106]
行为评估模块44可以包括客观评估模块102、自身视点行为评估模块103和其它方视点行为评估模块104中的两个评估模块。即使在包括三个评估模块的情况下，取决于将评估的行为，当仅使用其中两个评估模块时，也不一定使用三个评估模块来执行评估。
[0107]
例如，在不需要确定道德规范的环境下操作的系统的情况下，可以不包括客观评估模块102。例如，在预定范围内自主行进的移动物体的情况下，可以不包括客观评估模块102。
[0108]
《客观评估模块的构造和操作》
[0109]
图5是图示客观评估模块102的示例性构造的图。客观评估模块102包括候选行为信息输入单元131、状态观察信息输入单元132、参考单元133、评估结果输出单元134和评估系统135。
[0110]
候选行为信息输入单元131输入从行为定义单元101(参见图4)输出的候选行为(评估对象行为)。状态观察信息输入单元132输入从行为定义单元101(参见图4)输出的状态观察信息。
[0111]
参考单元133参考评估系统135评估候选行为。评估结果输出单元134将来自参考单元133的评估结果提供给综合评估模块105(参见图4)。
[0112]
评估系统135例如包括存储预定环境中的各种行为的评估值的数据库。例如，评估系统135可以是能够评估预定环境中的行为的一般或平均学习网络。
[0113]
评估系统135的数据库或学习网络与“道德确定标准”或“常识”相关。“道德确定标准”或“常识”是在特定环境中用作规范的规则或参考，并且环境中的系统有义务遵守道德确定标准或常识或推荐对其的遵守。
[0114]
特定环境例如是一般人类社会、特定地区、特定社交图谱区域、预定服务的提供环境、由系统定义的区域等。
[0115]
评估系统135的数据库或学习网络的具体示例与适用于特定地区、特定组织或特定当地环境等的人类社会的常识或社会接受的观念、标准或禁止事项(例如，被认为不适当的用语、动作、受限地区)相关。
[0116]
评估系统135的数据库或学习网络与例如法律、社会规范、交通规则等相关。可以使用特定于预定地区或预定用户的规则等。可以使用字典，或者可以使用其中管理最好不要使用的诸如歧视性用语之类的词语的数据库或学习网络。在学习网络的情况下，可以管理所学习的功能。
[0117]
评估系统135可以被包括在客观评估模块102中。评估系统135不被包括在客观评估模块102中，并且可以设在客观评估模块102之外。当评估系统135被提供在客观评估模块102之外时，参考单元133被认为是经由网络来参考评估系统135。
[0118]
评估系统135可以被配置有多个数据库或学习网络，并且参考单元133可以被配置为访问适合评估评估对象候选行为的评估系统135。
[0119]
例如，作为评估系统135，假设针对每个省构建与每个省的风俗习惯相关的数据库(或学习网络：在下文中将以数据库为例进行描述)。在这种情况下，例如，参考单元133根据从状态观察信息输入单元132提供的关于环境的信息指定地区、访问包括与该地区的风俗习惯相关的数据库的评估系统135，并且使评估系统135评估评估对象候选行为。
[0120]
以这种方式，评估系统135被配置有多个数据库以参考适当的数据库执行评估。例如，当由聊天机器人生成句子时，评估被认为是候选的句子的词语是否是对该省的人适当的词语。
[0121]
评估系统135的数据库可以是描述了环境中的禁止事项的数据库。与人类社会的常识或社会接受的观念相比，环境中的禁止事项是例如不适当的事项。例如，使人们不愉快的词语(例如，歧视性用语等)和禁止在对话机器人(诸如聊天机器人)中使用的ng词语对应于环境中的禁止事项。环境中的禁止事项例如是使人们不愉快的行为(手势)。由于禁止事项可能随着时期或情况而改变，因此存储禁止事项的数据库被更新。环境中的禁止事项例如是禁止侵入自主行进车辆的特定区域或禁止在诸如有迎面而来的车辆的情况的特定情况下的转弯移动。
[0122]
例如，当自主行进的汽车在路口右转时(在诸如右转的候选行为的情况下)，向在a省中行进时针对a省优化的评价系统135和在b省中行进时针对b省优化的评价系统135询问多少程度右转行为是适当的(右转时机早或晚的程度，特别是当存在迎面而来的将直行的车辆时，迎面而来的车辆的通行是否作为省的风俗习惯被优先化)。
[0123]
以这种方式，参考单元133参考评估系统135评估经由候选行为信息输入单元131输入的候选行为。参考单元133还根据需要使用来自状态观察信息输入单元132的信息来设置将被参考的评估系统135。
[0124]
客观评估模块102评估候选行为与社会规范、一般常识等相比是否是适当的行为，并将评估结果输出到综合评估模块105。
[0125]
评估结果可以被设置为例如-1或1。例如，在评估结果指示最好抑制候选行为的情况下输出-1，并且在评估结果指示最好执行候选行为的情况下输出1。当然，对于评估结果，可以将指示最好抑制候选行为的程度(百分比)或者推荐执行候选行为的程度的值作为连续值作为评估结果输出。
[0126]
《自身视点行为评估模块的构造和操作》
[0127]
图6是图示自身视点行为评估模块103的示例性构造的图。自身视点行为评估模块103包括候选行为信息输入单元161、状态观察信息输入单元162、所学习的模型163和所预测的报酬量输出单元164。
[0128]
候选行为信息输入单元161输入从行为定义单元101(参见图4)输出的候选行为(评估对象行为)。状态观察信息输入单元162输入从行为定义单元101(参见图4)输出的状态观察信息。状态观察信息例如是自身系统状态信息、关于环境的各种信息、关于环境中的其它系统的信息，以及与其相关的各种信息。
[0129]
所学习的模型163是从强化学习网络学习的所学习的模型，并且是确定使所预测的报酬量最大化的行为的网络。所学习的模型163对应于参考图1进行的描述中的所学习的模型11。所学习的模型163可以是由lstm学习的所学习的模型。
[0130]
这里，以lstm为例进行描述。但是，也可以使用根据另一学习方法学习的所学习的模型163。可以使用根据另一方法构建的模型而不限于强化学习。
[0131]
自身视点行为评估模块103中包括的所学习的模型163是学习以预测使自身系统中的报酬量最大化的行为的所学习的模型。自身视点行为评估模块103将由候选行为信息输入单元161输入的候选行为输入到所学习的模型163，并输出在执行候选行为的情况下所预测的报酬量作为行为评估结果(所预测的报酬量)。
[0132]
可以将所预测的报酬量设置为例如-1到1的值。例如，输出接近-1的值作为在最好抑制候选行为的程度强的情况下的所预测的报酬量。输出接近1的值作为在最好执行候选行为的程度强的情况下的所预测的报酬量。当然，也可以使用离散值作为所预测的报酬量。在最好抑制候选行为的情况下可以输出-1，并且在最好执行候选行为的情况下可以输出1。
[0133]
根据评估对象候选行为，也可以选择适当的模型作为所学习的模型163或用于评估的评估函数。作为评估函数，也可以选择根据自身系统的情况而不同的评估函数。例如，当电池的剩余量大或小时，可以使用不同的评估函数。例如，也可以给出为使得在电池的剩余量小时优先降低电力或保证电力的评估结果。
[0134]
所学习的模型或评估函数不是一种所学习的模型或评估函数。可以选择多个所学习的模型或评估函数用于进行多维评估。在这种情况下，评估结果可以被表达为所预测的报酬的空间。例如，在评估移动路线的情况下，可以执行多个评估，包括从以最高速度到达的视点进行的评估和从以低风险到达的视点进行的评估。
[0135]
在所学习的模型163中，可以连续执行学习，如参考图1所描述的。可以实际执行由所学习的模型163评估的候选行为，可以识别执行行为时发生的环境变化，可以将环境变化作为报酬量反馈回所学习的模型163，并且可以连续执行学习。
[0136]
自身视点行为评估模块103从自身视点评估候选行为，并且评估结果可以输出到综合评估模块105。
[0137]
《其它方视点行为评估模块的构造和操作》
[0138]
图7是图示其它方视点行为评估模块104的示例性构造的图。其它方视点行为评估模块104包括候选行为信息输入单元191、状态观察信息输入单元192、其它方视点候选行为信息生成单元193、其它方视点状态观察信息生成单元194、所学习的模型195以及所预测的报酬量输出单元196。
[0139]
候选行为信息输入单元191输入从行为定义单元101(参见图4)输出的候选行为(评估对象行为)。状态观察信息输入单元192输入从行为定义单元101(参见图4)输出的状态观察信息。
[0140]
其它方视点行为评估模块104的候选行为信息输入单元191和状态观察信息输入单元192具有与自身视点行为评估模块103的候选行为信息输入单元161和状态观察信息输入单元162相同的构造并且是输入类似信息的单元。这些单元可以单独被提供并且也可以被共享。
[0141]
其它方视点行为评估模块104是用从另一系统看到的行为替换自身系统的行为，并在从其它系统看自身系统(例如，在图2中所示的示例中，从作为其它系统的信息处理设备32看作为自身系统的信息处理设备31)时，从其它系统的视点评估从其它系统看到的行为的模块。
[0142]
由于自身系统的行为被替换为从其它系统看时的行为，因此其它方视点行为评估模块104包括其它方视点候选行为信息生成单元193和其它方视点状态观察信息生成单元194。
[0143]
其它方视点候选行为信息生成单元193生成在由自身系统执行候选行为时，关于自身系统的候选行为的从其它系统观察到的行为。其它方视点候选行为信息生成单元193生成作为参考图3进行的描述中的其它方候选行为而描述的行为。例如，当移动和行进的自身系统的候选行为是右转的行为时，迎面而来行进的其它系统可以确定该行为是前方移动物体正在左转的行为。
[0144]
因而，在这个示例的情况下，从候选行为信息输入单元191向其它方视点候选行为信息生成单元193输入右转的候选行为。然后，其它方视点候选行为信息生成单元193生成指示前方的移动物体左转的行为的信息作为其它方候选行为，并将该行为信息输出到所学习的模型195。
[0145]
其它方视点状态观察信息生成单元194将自身系统的环境信息转换成从其它系统看的自身系统的环境信息。其它方视点状态观察信息生成单元194可以被配置为根据需要将自身系统的环境信息转换成其它方视点的环境信息，并且可以被配置为在不需要转换时不执行转换处理。
[0146]
例如，当自身系统和其它系统处于相同环境时，可以省略将自身系统的环境信息转换成其它系统的环境信息的处理。例如，当自身系统的环境信息是指示左侧有栅栏的信息时，从迎面而来的其它系统的视点来看右侧有栅栏。因此，执行将环境信息转换成指示右侧有栅栏的环境信息的处理。
[0147]
其它方视点状态观察信息生成单元194可以将自身系统的环境信息转换成其它系统的环境信息。例如，当自身系统是与居住在a区的人对应的系统，并且其它系统是与居住在与a区不同的b区的人对应的系统时，在环境中存在诸如时间或温度之类的差异，或者在自身系统和其它系统之间存在风俗习惯。因而，在这个示例的情况下，当时间或温度作为状态观察信息被输入时，其它方视点状态观察信息生成单元194将时间或温度转换成b区的时间或温度。
[0148]
其它方视点状态观察信息生成单元194也可以被配置为被提供来自其它系统的由其它系统获取的环境信息。
[0149]
所学习的模型195是从例如强化学习网络学习的所学习的模型，并且是确定使所预测的报酬量最大化的行为的网络。所学习的模型195对应于参考图1进行的描述中的所学习的模型11，并且可以是由lstm学习的所学习的模型，如所学习的模型163(参见图6)。
[0150]
包括在其它方视点行为评估模块104中的所学习的模型195是被学习以预测使其它系统中的报酬量最大化的行为的所学习的模型。其它方视点行为评估模块104将由其它方视点候选行为信息生成单元193生成的其它方候选行为输入到所学习的模型195，并将在执行其它方候选行为的情况下预测的报酬量作为行为评估结果(所预测的报酬量)输出。
[0151]
可以将所预测的报酬量设置为例如-1到1的值。例如，输出接近-1的值作为在最好抑制其它方候选行为的程度强的情况下的所预测的报酬量。输出接近1的值作为在最好执行其它方候选行为的程度强的情况下的所预测的报酬量。当然，也可以使用离散值作为所预测的报酬量。在最好抑制其它方候选行为的情况下可以输出-1，并且在最好执行其它方候选行为的情况下可以输出1。
[0152]
如在所学习的模型195或前述所学习的模型163(参见图6)中，根据评估对象其它方候选行为，也可以选择适当的模型作为所学习的模型195或用于评估的评估函数。作为评估函数，也可以选择根据其它系统的情况而不同的评估函数。
[0153]
所学习的模型或评估函数不是一种所学习的模型或评估函数。可以选择多个所学习的模型或评估函数进行多维评估。所学习的模型195可以进行连续学习，如参考图1所描述的。
[0154]
其它方视点行为评估模块104可以评估作为评估对象的用户(人)。当人作为评估对象被评估时，根据与用户(人)的交互，形成用户(人)的所谓用户模型(在这种情况下，所学习的模型195)，并且其它方视点行为评估模块104可以允许用户随时间变化执行优化。
[0155]
其它方视点行为评估模块104从其它方视点评估候选行为，并将评估结果输出到综合评估模块105。
[0156]
其它方视点行为评估模块104是从其它方视点(其它系统)评估候选行为的模块。因此，使用从其它方视点(其它系统)学习的所学习的模型195。自身系统的其它方视点行为评估模块104可以包括在其它系统中学习的所学习的模型195。可以使用通信部件来获取(下载)所学习的模型195。
[0157]
自身系统的其它方视点行为评估模块104可以不包括所学习的模型195、可以根据需要访问其它系统，并且可以被配置为使用由其它系统管理的所学习的模型195。可以与其它系统共享所学习的模型195。
[0158]
当使用由其它系统管理的所学习的模型195时，可以改变作为对象的其它系统并且可以访问改变目的地的另一系统。可以使用针对其它系统优化的所学习的模型195来评估其它方候选行为。
[0159]
作为被包括在其它方视点行为评估模块104中的所学习的模型195，可以使用被包括在自身视点行为评估模块103中的所学习的模型163(所学习的模型163可以作为所学习的模型195被共享)。在这种情况下，通过使用自身价值观从其它方观点假设其它方利益。
[0160]
例如，当与用户a相关的候选行为是“击打用户b的肩膀”时，从用户b的视点来看，行为是“肩膀被用户a击打”。在所学习的模型195(所学习的模型163)学习使得用户a在他或她的肩膀被击打时感到高兴的情况下，推断用户b在他或她的肩膀被击打时也高兴，并且给
出“高兴”的评估。
[0161]
在这种情况下，当用户a和b具有相同的感觉、价值观、想法等时，可以执行评估而不显著偏离推断。因而，所学习的模型163可以用作所学习的模型195。
[0162]
当其它系统的所学习的模型(评估函数)已知并且可以推断时，可以使用所学习的模型(评估函数)来计算所预测的报酬量。与此相比，这对应于推断朋友的价值观和想象从朋友的观点的利益。
[0163]
已知其它系统的所学习的模型的情况是共享其它系统的所学习的模型的情况或者可以评估其它系统的所学习的模型的情况。可以推断其它系统的所学习的模型的情况是例如通过使用与可以共享或访问的其它系统类似的系统的所学习的模型执行学习而生成，即可以推断其它系统的所学习的模型的情况。
[0164]
例如，当其它系统的所学习的模型被公开时，公开的所学习的模型可以用作所学习的模型195。例如，在与自身系统相似的其它系统的情况下，例如，在同一工厂中操作的机器人，其它系统的所学习的模型可以被假设为与自身系统的所学习的模型类似，并且可以从自身系统的所学习的模型中预测和使用其它系统的所学习的模型。
[0165]
以这种方式，其它方视点行为评估模块104从其它方视点评估候选行为，并将评估结果输出到综合评估模块105。
[0166]
执行这种处理的其它方视点行为评估模块104的数量可以是单个或多个。换句话说，作为其它系统，可以针对一个系统并进行处理，或者可以针对多个系统并进行处理。
[0167]
当针对多个系统并进行处理并且包括多个其它方视点行为评估模块104时，可以配置图7中所示的多个其它方视点行为评估模块104或者可以配置其它方视点行为评估模块104中的多个所学习的模型195。
[0168]
当配置多个其它方视点行为评估模块104并且例如在环境中存在多个其它系统时，可以为其它系统中的每个执行评估并且可以输出每个评估结果。在这种情况下，多个所获得的评估结果可以在不被改变的情况下输出到后级的综合评估模块105。例如，可以计算多个评估结果的平均值或中值，并输出平均值或中值。
[0169]
当针对多个其它系统并且为其它系统中的每个输出评估结果时，对其它系统中的每个执行加权并将每个经加权的评估结果输出到综合评估模块105。替代地，可以计算加权评估结果的平均值或中值，并且可以将其汇总为一个评估结果以被输出到综合评估模块105。
[0170]
例如，当其它系统的数量大于作为其它方视点行为评估模块104的处理对象的其它系统的数量时，从多个其它系统中适当地选择作为评估对象的其它系统。随机样本选择可以作为选择执行，或者可以选择具有代表性的其它系统。
[0171]
可以选择在多个其它系统中具有大影响的其它系统。具有大影响的其它系统例如是与自身系统接近的其它系统，或者从现在开始对自身系统有影响的其它系统。可以选择与自身系统具有强关系的其它系统，例如，与自身系统协作采取行动的其它系统。
[0172]
其它方视点行为评估模块104可以根据作为评估对象的其它系统的状态执行加权，并输出评估结果。例如，也可以以使具有强关系的其它系统的评估结果的权重重，并且具有弱关系的其它系统的评估结果的权重轻的方式执行加权。在这种情况下具有强关系的其它系统例如是从现在开始具有影响的其它系统。
[0173]
可以根据其它系统是否更有同情心来执行加权。例如，当其它系统是与人相关的系统(例如，与聊天机器人相关的系统)时，居住在预定区的人的系统是具有高度同情心的其它系统。
[0174]
可以将优先级给予给其它系统并且可以根据优先级执行加权。可以按照满足预定条件的顺序或者按照系统的用户、管理者等预先设置的顺序来设置优先级。
[0175]
其它方视点行为评估模块104可以根据与作为评估对象的其它系统相关的所学习的模型195(评估模型)的不确定性执行加权，并输出评估结果。对于根据不确定性的权重，当使用高可靠性所学习的模型195时的评估结果的权重被认为是重的，并且当使用低可靠性所学习的模型195时的评估结果的权重被认为是轻的。
[0176]
例如，当确定可靠性高或低时，在众所周知的其它系统，例如与熟人相关的系统的情况下，可靠性被确定为高，并且在众所周知的其它系统，例如与其它方相关的系统的情况下，可靠性被确定为低。
[0177]
当评估结果的可靠性低时(当使用众所周知的其它系统的所学习的模型195时)，可以计算多个系统的所假设的报酬量的平均值并且可以输出该平均值。
[0178]
以这种方式，其它方视点行为评估模块104从其它方视点评估候选行为，并将评估结果输出到综合评估模块105。
[0179]
《综合评估模块105的构造和操作》
[0180]
图8是图示综合评估模块105的示例性构造的图。综合评估模块105包括客观评估结果输入单元211、自身视点行为评估结果输入单元212、其它方视点行为评估结果输入单元213和确定单元214。
[0181]
客观评估结果输入单元211输入来自客观评估模块102的评估结果以将评估结果提供给确定单元214。自身视点行为评估结果输入单元212输入来自自身视点行为评估模块103的评估结果以将评估结果提供给确定单元214。其它方视点行为评估结果输入单元213输入来自其它方视点行为评估模块104的评估结果以将评估结果提供给确定单元214。
[0182]
确定单元214基于来自客观评估模块102的评估结果、来自自身视点行为评估模块103的评估结果和来自其它方视点行为评估模块104的评估结果(在下文中适当地称为三个模块的评估结果)，输出候选行为的最终评估结果。
[0183]
这里，继续以基于三个模块的评估结果输出候选行为的最终评估结果的情况为例进行描述。但是，也可以基于两个模块的评估结果(来自自身视点行为评估模块103的评估结果和来自其它方视点行为评估模块104的评估结果)给出候选行为的最终评估结果。
[0184]
从确定单元214输出的候选行为的最终评估结果例如是指示候选行为是否被抑制的信息。可以使用指示候选行为被推荐的程度的推荐值。
[0185]
当输出推荐值时，确定单元214可以针对多个行为中的每个计算推荐值、将计算出的多个推荐值相互比较，并输出最终确定结果。例如，作为推荐值的比较结果，可以输出具有最高推荐值的行为。
[0186]
确定单元214可以被配置为使用多个方案并通过根据情况切换确定方法来执行确定(输出最终确定结果)。当然，可以使用一种方案来输出最终确定结果。
[0187]
作为由确定单元214执行的确定方法，例如，可以应用and方案。
[0188]
在and方案的情况下，当设置了参考值并且三个模块的所有评估结果都不满足参
考值时，给出指示候选行为被抑制的确定结果。即使当三个模块的评估结果中的两个评估结果不满足参考值时，也可以给出指示候选行为被抑制的确定结果。
[0189]
例如，当三个模块的评估结果中来自客观评估模块102的评估结果不满足参考值时，即使自身视点行为评估模块103的评估结果和其它方视点行为评估模块104的评估结果好，也可以给出指示候选行为被抑制的确定结果。例如，当客观评估模块102的评估是对客观评估模块102的评估遵守道德规范或法律的程度的评估时，来自客观评估模块102的评估结果指示与道德规范、法律等相比行为是否在允许范围内。
[0190]
因而，来自客观评估模块102的评估结果不满足参考值的情况是确定与道德规范、法律等相比，评估对象候选行为不是在允许范围内的行为的情况。当执行这种行为时，有可能违反道德规范、法律等。因此，给出指示该行为被抑制的确定结果。
[0191]
例如，当三个模块的评估结果中来自其它方视点行为评估模块104的评估结果不满足参考值时，即使客观评估模块102的评估结果和自身视点行为评估模块103的评估结果好，也可以给出指示候选行为被抑制的确定结果。
[0192]
当来自其它方视点行为评估模块104的评估结果不满足参考值并且执行候选行为时，存在对其它方(其它系统)不利的可能性。为了抑制可能对其它方不利的行为，可以在来自其它方视点行为评估模块104的评估结果不满足参考值时给出指示候选行为被抑制的确定结果。
[0193]
作为由确定单元214执行的另一确定方法，例如，可以应用综合方案。
[0194]
在综合方案的情况下，对三个模块的评估结果执行平均值、中值等的统计处理，并使用统计处理之后获得的值给出最终确定结果。例如，当统计处理之后获得的值等于或小于参考值时，可以给出指示候选行为被抑制的确定结果。在综合方案的情况下，可以执行良好平衡的确定。
[0195]
当应用综合方案时，可以根据模块对评估结果进行加权。例如，为了在存在违反道德规范、法律等的可能性时容易地给出指示行为被抑制的确定结果，可以将来自客观评估模块102的评估结果的权重设置为重。
[0196]
例如，为了抑制可能对其它方不利的行为，可以将来自其它方视点行为评估模块104的评估结果的权重设置为重。
[0197]
当优先考虑自身系统的利益时，可以将来自自身视点行为评估模块103的评估结果的权重设置为重。
[0198]
作为确定单元214的确定方法，可以使用前述and方案和综合方案中的一种或组合。例如，当按照and方案执行确定，并且确定三个模块的评估结果都满足参考值时，可以进一步按照综合方案执行确定。
[0199]
作为确定单元214的确定方法，本文以and方案和综合方案为例进行描述，但也可以应用其它确定方案。
[0200]
综合评估模块105是强化学习网络的应用，并且可以对评估结果进行加权，使得将行为和结果识别作为报酬量被反馈并优化。
[0201]
综合评估模块105可以被配置为确定候选行为的输出是否被简单地抑制并且还促使次优候选行为的输出的模块。例如，当评估多个候选行为时，可以以推荐顺序输出多个候选行为。例如，当被认为是评估对象的候选行为被确定为被抑制时，可以输出被确定为不被
抑制的其它行为(次优行为)。
[0202]
在没有应用本技术的评估系统的情况下，仅仅停止输出。应用本技术的评估系统可以执行后续候选行为的评估和输出。
[0203]
根据前述实施例，不仅可以考虑环境中的其它系统、用户等的利益，还可以考虑环境中的规范(所谓的常识)而不是最大化自身利益来执行综合确定。
[0204]
通过将其它系统的评估或环境中的规范的评估作为每个独立的模块，即使对于不同模型或具有未知模型或不同环境的其它模型，也可以每次执行最佳确定。
[0205]
根据本技术，如上所述，可以在考虑其它方、道德规范等的情况下执行确定。因此，本技术是应用于需要社交性的系统(诸如，与例如多个机器人共存的移动机器人或与用户交互的系统)的相当合适的技术。
[0206]
因而，将描述可以应用本技术的几个特定示例。
[0207]
《应用示例1》
[0208]
本技术可以应用于自主移动机器人。自主移动机器人是例如自己确定情况和行为的机器人。
[0209]
通过将本技术应用于自主移动机器人的经协调的控制或行为学习，例如，在多个移动机器人共存的环境下考虑其它机器人的利益和环境的约束的协调行为是可能的。因而，可以提高多个机器人的工作效率。
[0210]
当本技术应用于自主移动机器人时，自身视点行为评估模块103选择环境下适当的评估函数，并输出在评估函数中使报酬量最大化的行为。
[0211]
其它方视点行为评估模块104评估已经观察到已知或未知所学习的模型的其它机器人的利益或非利益。评估对象可以不仅包括其它所假设的机器人，而且还包括人或由人操纵的移动物体。
[0212]
客观评估模块102确定环境(特别是本地环境)中的最佳行为。环境例如是应用具体城市或地区或自主移动机器人的服务环境。这里，服务是例如自动车辆分配系统、驾驶支持系统、拥堵监视系统或其它移动即服务(maas)中包括的服务等。
[0213]
《应用示例2》
[0214]
本技术可以应用于一般人际通信系统。
[0215]
如上所述，本技术可以应用于诸如聊天机器人的对话生成系统。当本技术应用于生成与多个用户的对话的系统时，可以生成其中考虑了对话伙伴的状态的对话。例如，可以生成抑制侮辱性词语或攻击性词语的对话。
[0216]
本技术可以应用于游戏人工智能(ai)。在游戏期间，存在叫做非玩家角色(npc)的角色。本技术可以应用于确定npc的行为。在游戏中，存在多个npc和享受游戏的玩家。
[0217]
当在多个npc中确定预定npc的行为时，可以应用本技术来识别其它npc或享受游戏的玩家的行为并设置更自然的行为或更有效的行为。
[0218]
当本技术应用于人际通信系统时，不仅系统中的人，而且无人系统(例如ai机器人等)，都可以被混合。根据本技术，即使当人或人以外的系统在环境中被混合时，也可以向人或人以外的系统输出最佳行为。即，根据本技术，可以采取包括各种环境因素的最佳行为。
[0219]
《应用示例3》
[0220]
本技术可以应用于用户行为的评估系统。例如，通过使应用了本技术的信息处理
设备31处理由用户执行的行为，可以评估该行为是否适当。
[0221]
当本技术应用于用户行为的评估系统时，行为定义单元101(参见图4)以由行为评估模块44可以解释的形式定义所观察和识别出的用户行为。自身视点行为评估模块103评估用户行为是否对用户有益。
[0222]
其它方视点行为评估模块104评估与用户行为相关的其它方的利益/非利益。客观评估模块102使用适合应用于用户行为的评估系统135(参见图5)来评估用户行为。评估系统135可以使用评估数据库(诸如由应用优化的社会信用系统或教练系统)。
[0223]
作为将本技术应用于用户行为的评估系统时的应用，可以考虑以下应用。
[0224]
对用户行为执行道德确定的评估系统(社会信用系统、社会信用评分计算系统等)。
[0225]
针对用户行为的顾问系统(教练系统、教育系统等)。
[0226]
当本技术应用于评估系统时，评估对象不限于人，并且可以是其它系统。也可以评估其它系统的行为。
[0227]
《应用示例4》
[0228]
本技术可以应用于描述自身行为的功能。
[0229]
应用本技术的系统可以呈现通过使用来自客观评估模块102、自身视点行为评估模块103和其它方视点行为评估模块104中的每个的输出自身行为的输出结果来确定自身行为的处理。
[0230]
每个模块的处理(输入候选行为和输出结果之间的关系)可以保留为历史，并且可以呈现历史。
[0231]
例如，通过呈现历史，可以证明由于违反道德规范而没有执行处理对象候选行为，或者由于可能损害其它方利益而没有执行候选行为。呈现的历史可以是作为本技术的公开而描述的各种数据(诸如每个模块的输入和输出、其权重以及值确定的参考值)。
[0232]
此时，当多次执行多个候选行为直到行为确定时，也可以呈现每次执行中的中间输出。可以以人类可以理解的形式给出处理的呈现。例如，可以出于行为目的使用语音或标签而不是数值给出呈现。
[0233]
本文给出的应用示例是示例性的并且不限于描述。本技术可以应用于除前述应用示例之外的应用示例。
[0234]
《硬件构造》
[0235]
接下来，将参考图9详细描述根据本公开的实施例的信息处理设备31的示例性硬件构造。图9是图示根据本公开的实施例的信息处理设备31的示例性硬件构造的功能框图。
[0236]
根据实施例的信息处理设备31主要包括cpu 601、rom 602和ram 603。信息处理设备31还包括主机总线604、桥接器605、外部总线606、接口607、输入设备608、输出设备609、存储设备610、驱动器612、连接端口614和通信设备616。
[0237]
cpu 601用作算术处理设备和控制设备，并根据记录在rom602、ram 603、存储设备610或可移动记录介质613上的各种程序来控制信息处理设备31中的全部或某些操作。rom 602存储由cpu 601使用的程序、算术参数等。ram 603主要存储由cpu 601使用的程序或在程序的执行期间适当被改变的参数等。这些单元通过由诸如cpu总线之类的内部总线构造的主机总线604相互连接。
[0238]
主机总线604经由桥接器605连接到外部总线606(诸如外围组件互连/接口(pci)总线)。输入设备608、输出设备609、存储设备610、驱动器612、连接端口614和通信设备616经由接口607连接到外部总线606。
[0239]
输入设备608例如是由用户操纵的诸如鼠标、键盘、触摸面板、按钮、开关、控制杆、踏板之类的操纵部件。输入设备608例如可以是使用红外光或其它无线电波的远程控制部件(所谓的远程控制器)，或者可以是与信息处理设备31的操纵对应的移动电话或pda之类的外部连接设备615。另外，输入设备608被配置有输入控制电路等，其基于由用户使用操纵部件输入的信息生成输入信号，并将输入信号输出到cpu 601。信息处理设备31的用户可以通过操纵输入设备608来输入各种数据或向信息处理设备31给出处理操作的指令。
[0240]
输出设备609被配置为能够以视觉或听觉方式向用户通知所获取的信息的设备。作为设备，存在诸如crt显示设备、液晶显示设备、等离子显示设备、el显示设备和灯之类的显示设备，诸如扬声器和耳机之类的声音输出设备，或打印机设备。输出设备609输出例如通过信息处理设备31执行的各种处理获得的结果。具体而言，显示设备将通过信息处理设备31执行的各种处理获得的结果显示为文本或图像。另一方面，音频输出设备将由经再现的音频数据、声学数据等形成的音频信号转换成模拟信号并输出转换后的模拟信号。
[0241]
存储设备610是被配置为信息处理设备31的存储单元的示例的数据存储设备。存储设备610被配置有例如磁存储设备，诸如硬盘驱动器(hdd)、半导体存储设备、光存储设备或磁光存储设备。存储设备610存储各种种类的数据或由cpu 601执行的程序。
[0242]
驱动器612是记录介质读取器/写入器，并且被包含或外部附接到信息处理设备31。驱动器612读取记录在诸如磁盘、光盘、磁光盘或半导体存储器之类的安装的可移动记录介质613上的信息，并将信息输出到ram 603。驱动器612还可以将信息记录在诸如磁盘、光盘、磁光盘或半导体存储器之类的安装的可移动记录介质613上。可移动记录介质613是例如dvd介质、hd-dvd介质或蓝光(注册商标)介质。可移动记录介质613可以是compactflash(注册商标)(cf：compactflash)、闪存存储器或安全数字存储卡(sd存储卡)。可移动记录介质613可以是例如其上安装有非接触式ic芯片的集成电路(ic)卡或电子设备。
[0243]
连接端口614是用于直接连接到信息处理设备31的端口。连接端口614的示例包括通用串行总线(usb)端口、ieee1394端口和小型计算机系统接口(scsi)端口。连接端口614的其它示例包括rs-232c端口、光学音频终端和高清多媒体接口(hdmi)(注册商标)端口。当外部连接设备615连接到连接端口614时，信息处理设备31直接从外部连接设备615获取各种种类的数据或将各种种类的数据提供给外部连接设备615。
[0244]
通信设备616例如是配置有用于连接到通信网络(网络)917的通信设备等的通信接口。通信设备616例如是有线或无线局域网(lan)或用于蓝牙(注册商标)或无线usb(wusb)的通信卡。通信设备616可以是用于光通信的路由器、用于非对称数字用户线(adsl)的路由器或各种通信调制解调器中的任何一种。通信设备616可以按照例如诸如tcp/ip之类的预定协议向和从因特网或其它通信设备发送和接收信号等。连接到通信设备616的通信网络617可以配置有以无线或有线方式连接的网络等，并且可以是因特网、家庭lan、或者用于红外线通信、无线电波通信或卫星通信的网络。
[0245]
上面已经描述了能够实现根据本公开的实施例的信息处理设备31的功能的示例
性硬件构造。可以使用通用构件来配置每个构成元件，或者可以使用专用于每个构成元件的功能的硬件来配置每个构成元件。因而，当实现实施例时，可以根据技术水平适当地改变要使用的硬件构造。
[0246]
可以制作用于实现根据上述实施例的信息处理设备31的每个功能的计算机程序并将其安装在个人计算机等上。还可以提供存储计算机程序的计算机可读记录介质。记录介质的示例包括磁盘、光盘、磁光盘和闪存存储器。前述计算机程序可以经由例如网络被递送而不使用记录介质。执行计算机程序的计算机的数量没有特别限制。例如，计算机程序可以由多个计算机(例如，多个服务器)协作执行。
[0247]
由计算机执行的程序可以是按照本说明书中描述的顺序按时间顺序执行处理的程序，或者可以是并行地或在诸如调用时间的必要定时执行处理的程序。
[0248]
在本说明书中，系统是配置有多个系统的一般系统。
[0249]
本说明书中描述的有益效果仅仅是示例性的并且没有限制，并且可以实现其它有益效果。
[0250]
本技术的实施例不限于上述实施例，并且可以在本技术的范围内以各种形式进行修改而不脱离本技术的主旨。
[0251]
本技术可以配置如下。
[0252]
(1)
[0253]
一种信息处理设备，包括：
[0254]
第一评估单元，被配置为从自身视点评估行为；
[0255]
第二评估单元，被配置为从其它方视点评估所述行为；以及
[0256]
确定单元，被配置为根据第一评估单元中的第一评估结果和第二评估单元中的第二评估结果确定是否执行所述行为。
[0257]
(2)
[0258]
根据(1)所述的信息处理设备，还包括：
[0259]
第三评估单元，被配置为从客观视点评估所述行为，
[0260]
其中确定单元使用第三评估单元中的第三评估结果来执行确定。
[0261]
(3)
[0262]
根据(1)或(2)所述的信息处理设备，其中第二评估单元将所述行为转换成在其它方视点的行为并且评估转换后的行为。
[0263]
(4)
[0264]
根据(1)至(3)中的任一项所述的信息处理设备，其中所述行为是由系统作为候选执行的行为或由所述系统执行的行为。
[0265]
(5)
[0266]
根据(1)至(4)中的任一项所述的信息处理设备，其中第一评估单元和第二评估单元使用通过强化学习学习的所学习的模型来执行评估。
[0267]
(6)
[0268]
根据(5)所述的信息处理设备，其中第一评估单元评估在由所述信息处理设备控制的系统执行所述行为时预测的报酬量，以及
[0269]
其中第二评估单元评估在由所述信息处理设备控制的系统执行所述行为时所述
行为对其它系统的影响。
[0270]
(7)
[0271]
根据(5)或(6)所述的信息处理设备，其中第一评估单元和第二评估单元使用相同的所学习的模型来执行评估。
[0272]
(8)
[0273]
根据(5)至(7)中的任一项所述的信息处理设备，其中第二评估单元使用从其它方视点学习的所学习的模型来执行评估。
[0274]
(9)
[0275]
根据(2)至(8)中的任一项所述的信息处理设备，其中第三评估单元参考与社会规范相关的数据库来执行评估。
[0276]
(10)
[0277]
根据(2)至(9)中的任一项所述的信息处理设备，其中所述确定单元使用第一至第三评估结果来确定是否压制所述行为。
[0278]
(11)
[0279]
根据(2)至(10)中的任一项所述的信息处理设备，其中当第一至第三评估结果中的至少两个不满足标准值时，所述确定单元确定压制所述行为。
[0280]
(12)
[0281]
根据(2)至(11)中的任一项所述的信息处理设备，其中所述确定单元对第一至第三评估结果执行统计处理，并使用统计处理的结果来确定是否执行所述行为。
[0282]
(13)
[0283]
根据(1)至(12)中的任一项所述的信息处理设备，其中第一评估单元评估行为是否使自主移动机器人中的报酬量最大化，以及
[0284]
其中第二评估单元评估所述机器人的行为对其它方有益或无益。
[0285]
(14)
[0286]
根据(2)至(12)中的任一项所述的信息处理设备，其中所述行为是生成呈现给用户的句子，以及
[0287]
其中第三评估单元评估所述句子与社会规范相比是否不适当。
[0288]
(15)
[0289]
根据(1)至(12)中的任一项所述的信息处理设备，其中所述行为是用户执行的行为，
[0290]
其中第一评估单元评估所述行为是否对用户有益，以及
[0291]
其中第二评估单元评估所述行为是否对受由用户执行的行为影响的其它方有益。
[0292]
(16)
[0293]
根据(1)至(12)中的任一项所述的信息处理设备，其中使用第一评估单元和第二评估单元中的每个的评估结果来呈现确定所述行为的过程。
[0294]
(17)
[0295]
一种信息处理方法，使信息处理设备执行：
[0296]
从自身视点评估行为；
[0297]
从其它方视点评估所述行为；以及
[0298]
根据从自身视点对所述行为的评估结果和从其它方视点对所述行为的评估结果来确定是否执行所述行为。
[0299]
(18)
[0300]
一种程序，使计算机执行包括以下步骤的处理：
[0301]
从自身视点评估行为；
[0302]
从其它方视点评估所述行为；以及
[0303]
根据从自身视点对所述行为的评估结果和从其它方视点对所述行为的评估结果来确定是否执行所述行为。
[0304]
[参考符号列表]
[0305]
11所学习的模型
[0306]
31，32信息处理设备
[0307]
41识别单元
[0308]
42候选行为生成单元
[0309]
43控制单元
[0310]
44行为评估模块
[0311]
71客观评估确定单元
[0312]
72自身报酬量确定单元
[0313]
73其它方报酬量确定单元
[0314]
74比较评估确定单元
[0315]
101行为定义单元
[0316]
102客观评估模块
[0317]
103自身视点行为评估模块
[0318]
104其它方视点行为评估模块
[0319]
105综合评估模块
[0320]
106行为评估结果输出单元
[0321]
131候选行为信息输入单元
[0322]
132状态观察信息输入单元
[0323]
133参考单元
[0324]
134评估结果输出单元
[0325]
135评估系统
[0326]
161候选行为信息输入单元
[0327]
162状态观察信息输入单元
[0328]
163所学习的模型
[0329]
164所预测的报酬量输出单元
[0330]
191候选行为信息输入单元
[0331]
192状态观察信息输入单元
[0332]
193其它方视点候选行为信息生成单元
[0333]
194其它方视点状态观察信息生成单元
[0334]
195所学习的模型
[0335]
196所预测的报酬量输出单元
[0336]
211客观评估结果输入单元
[0337]
212自身视点行为评估结果输入单元
[0338]
213其它方视点行为评估结果输入单元
[0339]
214确定单元

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于汽车质量问题数据库的问题录入方法及系统与流程

信息处理设备、信息处理方法和程序与流程

相关文献

最热文献