设备场景的更新方法和装置、存储介质及电子装置与流程

2022-11-09 21:47:47 来源：中国专利 TAG：

1.本发明涉及智慧家庭技术领域，具体而言，涉及一种设备场景的更新方法和装置、存储介质及电子装置。

背景技术：

2.现在随着智能家电的快速发展，用户场景的使用也越来越广泛，例如：晚上回家场景，触发打开灯，关闭窗帘。离家场景，关闭灯，关闭电视灯。但是，常规的用户场景定义好后不具备自我更新功能，在用户执行完场景后还需要进行额外的操作，就需要手动去执行。并且多次使用后场景也不会进行自我更新。
3.因此，针对相关技术中，无法实现在现有设备场景的基础上主动进行场景的自我更新的问题，尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种设备场景的更新方法和装置、存储介质及电子装置，以至少解决相关技术中，无法实现在现有设备场景的基础上主动进行场景的自我更新的问题。
5.根据本发明实施例的一个实施例，提供了一种设备场景的更新方法，包括：获取目标对象的行为数据；其中，所述行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除所述第一设备场景对应设备之外的其他设备的操作动作；通过预设的场景自学习模型确定所述行为数据对应的更新参数；其中，所述更新参数用于确定是否对所述第一设备场景执行场景更新；在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到第二设备场景。
6.在一个示例性实施例中，通过预设的场景自学习模型确定所述行为数据对应的更新参数，包括：通过第一计算方式得到所述行为数据对应的当前回报值；基于所述当前回报值对预设值函数进行更新，得到所述行为数据对应的值函数；在确定所述目标对象对应的当前行为状态的情况下，通过所述预设的场景自学习模型结合所述值函数、所述当前行为状态、所述当前回报值对所述行为数据进行策略决策，并基于所述策略决策的结果确定更新参数。
7.在一个示例性实施例中，通过预设第一计算方式得到所述行为数据对应的当前回报值，包括：获取预设的场景自学习模型对应的回报标准数据，其中，所述回报标准数据包括：不同操作动作对应的历史回报值以及回报系数；匹配所述回报标准数据和所述行为数据，确定所述行为数据对应的操作动作的目标历史回报值以及目标回报系数；计算所述目标历史回报值与所述目标回报系数的乘积，以得到所述行为数据对应的当前回报值。
8.在一个示例性实施例中，通过所述预设的场景自学习模型结合所述值函数、所述当前行为状态、所述当前回报值对所述行为数据进行策略决策，包括：在确定所述行为数据包括一个其他设备的操作动作的情况下，确定选择所述行为数据作为设备场景的期望回报
值；比较所述期望回报值与所述当前回报值的回报差值，在所述回报差值小于预设差值的情况下，允许使用所述行为数据生成用于指示其他设备对应场景动作的子场景；或，在确定所述行为数据包括多个其他设备的多组操作动作的情况下，将所述行为数据根据设备类型划分为多个子行为数据；确定在所述当前行为状态下选择每一个子行为数据作为设备场景的期望回报值，得到多个期望回报值；从所述多个期望回报值中确定出最大回报值，使用所述最大回报值对应的目标子行为数据生成子场景。
9.在一个示例性实施例中，在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到更新后的第二设备场景之前，上述方法还包括：在所述目标对象完成执行所述第一设备场景之后保持场景执行状态的情况下，确定存在与所述第一设备场景连续的第三设备场景，并确定所述第三设备场景包含的子场景的场景信息；在所述场景信息中存在所述子场景的情况下，停止将所述第一设备场景更新为所述第二设备场景；在所述场景信息中不存在所述子场景的情况下，将所述第一设备场景更新为所述第二设备场景。
10.在一个示例性实施例中，在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到更新后的第二设备场景之后，包括：在目标对象已执行过所述第二设备场景的情况下，获取所述目标对象的反馈信息；基于所述反馈信息确定将所述第一设备场景更新为所述第二设备场景是否符合所述目标对象的场景需求。
11.根据本发明实施例的另一个实施例，还提供了一种设备场景的更新装置，包括：获取模块，用于获取目标对象的行为数据；其中，所述行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除所述第一设备场景对应设备之外的其他设备的操作动作；第一确定模块，用于通过预设的场景自学习模型确定所述行为数据对应的更新参数；其中，所述更新参数用于确定是否对所述第一设备场景执行场景更新；添加模块，用于在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到第二设备场景。
12.在一个示例性实施例中，上述第一确定模块，还用于通过第一计算方式得到所述行为数据对应的当前回报值；基于所述当前回报值对预设值函数进行更新，得到所述行为数据对应的值函数；在确定所述目标对象对应的当前行为状态的情况下，通过所述预设的场景自学习模型结合所述值函数、所述当前行为状态、所述当前回报值对所述行为数据进行策略决策，并基于所述策略决策的结果确定更新参数。
13.在一个示例性实施例中，上述第一确定模块包括：计算单元，用于获取预设的场景自学习模型对应的回报标准数据，其中，所述回报标准数据包括：不同操作动作对应的历史回报值以及回报系数；匹配所述回报标准数据和所述行为数据，确定所述行为数据对应的操作动作的目标历史回报值以及目标回报系数；计算所述目标历史回报值与所述目标回报系数的乘积，以得到所述行为数据对应的当前回报值。
14.在一个示例性实施例中，上述第一确定模块还包括：决策单元，用于在确定所述行为数据包括一个其他设备的操作动作的情况下，确定在所述当前行为状态下选择所述行为数据作为设备场景的期望回报值；比较所述期望回报值与所述当前回报值的回报差值，在所述回报差值小于预设差值的情况下，允许使用所述行为数据生成用于指示其他设备对应
场景动作的子场景；或，在确定所述行为数据包括多个其他设备的多组操作动作的情况下，将所述行为数据根据设备类型划分为多个子行为数据；确定在所述当前行为状态下选择每一个子行为数据作为设备场景的期望回报值，得到多个期望回报值；从所述多个期望回报值中确定出最大回报值，使用所述最大回报值对应的目标子行为数据生成子场景。
15.在一个示例性实施例中，上述装置还包括：第二确定模块，用于在所述目标对象完成执行所述第一设备场景之后保持场景执行状态的情况下，确定存在与所述第一设备场景连续的第三设备场景，并确定所述第三设备场景包含的子场景的场景信息；在所述场景信息中存在所述子场景的情况下，停止将所述第一设备场景更新为所述第二设备场景；在所述场景信息中不存在所述子场景的情况下，执行将所述第一设备场景更新为所述第二设备场景。
16.在一个示例性实施例中，上述装置还包括：反馈模块，用于在目标对象已执行过所述第二设备场景的情况下，获取所述目标对象的反馈信息；基于所述反馈信息确定将所述第一设备场景更新为所述第二设备场景是否符合所述目标对象的场景需求。
17.根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述设备场景的更新方法。
18.根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的设备场景的更新方法。
19.在本发明实施例中，获取目标对象的行为数据；其中，行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除第一设备场景对应设备之外的其他设备的操作动作；通过预设的场景自学习模型确定行为数据对应的更新参数；其中，更新参数用于确定是否对第一设备场景执行场景更新；在确定更新参数大于预设更新参数的情况下，确定行为数据对应的子场景，并将子场景添加至第一设备场景中，得到第二设备场景。采用上述技术方案，解决了相关技术中，无法实现在现有设备场景的基础上主动进行场景的自我更新的问题，通过主动获取目标对象的行为数据，确定行为数据对应的更新参数，在当前第一设备场景的基础上，进行场景的更新，进而丰富设备场景的内容，使得设备场景与目标对应的行为更加契合，提升了目标对象在对于设备场景的使用体验，避免了对于手动更新设备场景的繁杂操作。
附图说明
20.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
21.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
22.图1是本发明实施例的一种设备场景的更新方法的硬件环境示意图；
23.图2是根据本发明实施例的设备场景的更新方法的流程图；
24.图3是根据本发明实施例的设备场景的更新方法的数据交互示意图；
25.图4是根据本发明实施例的模型学习数据的示意图；
26.图5是根据本发明实施例的设备场景的更新装置的结构框图；
27.图6是根据本发明实施例的一种可选的电子装置的结构框图。
具体实施方式
28.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
29.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.根据本发明实施例的一个方面，提供了一种设备场景的更新方法。该设备场景的更新方法广泛应用于智慧家庭(smart home)、智能家居、智能家用设备生态、智慧住宅(intelligencehouse)生态等全屋智能数字化控制应用场景。可选地，在本实施例中，上述设备场景的更新方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示，服务器104通过网络与终端设备102进行连接，可用于为终端或终端上安装的客户端提供服务(如应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器104提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器104提供数据运算服务。
31.上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：wifi(wireless fidelity，无线保真)，蓝牙。终端设备102可以并不限定于为pc、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
32.在本实施例中提供了一种设备场景的更新方法，应用于上述计算机终端，图2是根据本发明实施例的设备场景的更新方法的流程图，该流程包括如下步骤：
33.步骤s202，获取目标对象的行为数据；其中，所述行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除所述第一设备场景对应设备之外的其他设备的操作动作；
34.需要说明的是，上述第一设备场景为预先配置好的场景，例如，厂商预设或者用户
根据自己的需求设置的设备场景。
35.步骤s204，通过预设的场景自学习模型确定所述行为数据对应的更新参数；其中，所述更新参数用于确定是否对所述第一设备场景执行场景更新；
36.可选的，更新参数的确定流程包括：将所述行为数据输入到场景自学习模型中，以得到所述行为数据对应的更新参数，其中，所述预设的场景自学习模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：预设行为数据，以及所述预设行为数据对应的预设更新参数；
37.所述更新参数至少包括以下之一：行为数据对应的回报值，行为数据对应的值函数、使用预设的策略函数确定的值函数对应的最大回报值的目标操作动作。
38.可以理解的是，上述回报值用于指示目标对象在之后情况相同或者环境相似的条件下执行相同行为数据的概率，即回报值用于体现某个行为的实现价值，上述值函数为在估计某一个状态的价值时，用离开该行为状态的即时奖励与下一状态的预估行为状态值(即回报值)乘以折扣因子组成。上述最大回报值为在目标对象在当前状态下完成某一操作所能得到的最大反馈，进而将该操作对应的操作动作作为后续更细关于操作对应的场景的参考数据，需要说明的是，上述环境指的是目标对象操作的行为和目标对象操作行为时所处的状态。
39.步骤s206，在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到第二设备场景。上述子场景为根据当前行为数据中的操作动作形成的用于进行其他设备控制的场景，该子场景可以灵活添加在现有设备场景的之前或者之后来实现对现有设备场景的扩充，使得更新后的现有场景可以控制更多的设备，为目标对象提供更加丰富的设备控制体验。
40.通过上述步骤，获取目标对象的行为数据；其中，行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除第一设备场景对应设备之外的其他设备的操作动作；通过预设的场景自学习模型确定行为数据对应的更新参数；其中，更新参数用于确定是否对第一设备场景执行场景更新；在确定更新参数大于预设更新参数的情况下，确定行为数据对应的子场景，并将子场景添加至第一设备场景中，得到第二设备场景。采用上述技术方案，解决了相关技术中，无法实现在现有设备场景的基础上主动进行场景的自我更新的问题，通过主动获取目标对象的行为数据，确定行为数据对应的更新参数，在当前第一设备场景的基础上，进行场景的更新，进而丰富设备场景的内容，使得设备场景与目标对应的行为更加契合，提升了目标对象在对于设备场景的使用体验，避免了对于手动更新设备场景的繁杂操作。
41.在一个示例性实施例中，通过预设的场景自学习模型确定所述行为数据对应的更新参数，包括：通过第一计算方式得到所述行为数据对应的当前回报值；基于所述当前回报值对预设值函数进行更新，得到所述行为数据对应的值函数；在确定所述目标对象对应的当前行为状态的情况下，通过所述预设的场景自学习模型结合所述值函数、所述当前行为状态、所述当前回报值对所述行为数据进行策略决策，并基于所述策略决策的结果确定更新参数。
42.即通过对实时收集到的目标对象的行为数据进行分析，确定出目标对象操作的操作动作和目标对象进行操作动作时所处的状态(相当于上述行为状态)，继而判断当前行为
数据是否具有后续的实现价值，并确定出对应的回报值，需要说明的是，上述策略决策为当预设的场景自学习模型同时输出多个更新参数的情况下，为了保证预测更为准确，通过每一个更新参数对应的最大回报值，从多个更新参数中选择最大回报值对应最大的更新参数作为最后用于指示使用行为数据进行设备场景更新的更新参数。
43.在一个示例性实施例中，通过预设第一计算方式得到所述行为数据对应的当前回报值，包括：获取预设的场景自学习模型对应的回报标准数据，其中，所述回报标准数据包括：不同操作动作对应的历史回报值以及回报系数；匹配所述回报标准数据和所述行为数据，确定所述行为数据对应的操作动作的目标历史回报值以及目标回报系数；计算所述目标历史回报值与所述目标回报系数的乘积，以得到所述行为数据对应的当前回报值。
44.通过上述实施方式，当目标对象操作的行为和目标对象操作行为时所处的状态如果执行了这个行为，则给算法模型一个较大的回报，如果目标对象操作的行为和目标对象操作行为时所处的状态没有执行行为，那么则给算法模型一个负向的回报。在算法模型与实际应用不断的交互过程中不断学习，并指示是否对已设置的设备场景进行更新。
45.例如，当前回报计算通过以下公式确定：g＝∑γr，其中，g为当前状态下回报值，γ为回报系数，离现在越远获得回报越低，r为历史回报值。
46.在一个示例性实施例中，通过所述预设的场景自学习模型结合所述值函数、所述当前行为状态、所述当前回报值对所述行为数据进行策略决策，包括：在确定所述行为数据包括一个其他设备的操作动作的情况下，确定在所述当前行为状态下选择所述行为数据作为设备场景的期望回报值；比较所述期望回报值与所述当前回报值的回报差值，在所述回报差值小于预设差值的情况下，允许使用所述行为数据生成用于指示其他设备对应场景动作的子场景；或，在确定所述行为数据包括多个其他设备的多组操作动作的情况下，将所述行为数据根据设备类型划分为多个子行为数据；确定在所述当前行为状态下选择每一个子行为数据作为设备场景的期望回报值，得到多个期望回报值；从所述多个期望回报值中确定出最大回报值，使用所述最大回报值对应的目标子行为数据生成子场景。
47.简单来说，确定用于更新第一设备场景的子场景之时，需要结合目标对象的行为数据对应的其他设备种类以及操作动作的个数进行确定，当仅有一个其他设备被目标对象在执行当前第一设备场景之前或者之后多次通过操作动作进行控制，则可以在该其他设备对应的行为数据符合预设生成条件的情况下，生成该其他设备对应的子场景与第一设备场景进行场景组合，完成第一设备场景的扩充，当存在多个其他设备时，通过筛选确定出后续可能被目标对象大概率执行的操作动作对应的其他设备生成用于更新当前第一设备场景的子场景。
48.在一个示例性实施例中，在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到更新后的第二设备场景之前，上述方法还包括：在所述目标对象完成执行所述第一设备场景之后保持场景执行状态的情况下，确定存在与所述第一设备场景连续的第三设备场景，并确定所述第三设备场景包含的子场景的场景信息；在所述场景信息中存在所述子场景的情况下，停止将所述第一设备场景更新为所述第二设备场景；在所述场景信息中不存在所述子场景的情况下，将所述第一设备场景更新为所述第二设备场景。
49.换句话说，为了确定对第一设备场景的更新效果，在更新完成后，确定目标对象可
以连续执行的设备场景中是否已存在当前其他设备对应操作动作，即其他设备已被纳入设备场景控制中，进而避免在已有场景中对该其他设备的多次添加，避免场景的重复或者冗余。
50.在一个示例性实施例中，在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到更新后的第二设备场景之后，包括：在目标对象已执行过所述第二设备场景的情况下，获取所述目标对象的反馈信息；基于所述反馈信息确定将所述第一设备场景更新为所述第二设备场景是否符合所述目标对象的场景需求。
51.可以理解的是，在对设备场景完成更新之后，通过获取目标对象对已完成场景更新的设备场景的反馈信息，确定当前目标对象对设备场景的更新是否满意，进一步的，可以根据目标对象的反馈信息确定保持对更新的设备场景的持续应用，并在反馈信息指示目标对象对场景更新不满意时，是进行再次进行场景更新，还是将更新后的设备场景退回至之前的设备场景，即将第二设备场景回退至第一设备场景，保证设备场景更新与目标对象对应需求的匹配度，为目标对象提供更好的场景应用体验。
52.为了更好的理解上述设备场景的更新方法的过程，以下再结合可选实施例对上述设备场景的更新的实现方法流程进行说明，但不用于限定本发明实施例的技术方案。
53.在本实施例中提供了一种设备场景的更新方法，利用强化学习实时学习用户行为，并给与用户定制的场景进行个性化更新，使得场景具备自我学习功能，用户在几次操作后，自动将新的动作添加到场景中，将大大提升用户体验。解决了用户定义好的场景不能自我更新的问题，通过人工智能的手段，让场景具有自我学习的能力。
54.作为一种可选的实施例，设备场景的更新方法的实现方式如下：
55.步骤一、用户行为收集。通过用户上报的数据，进行用户行为收集并记录到数据库。例如，在用户授权的情况下，进行行为数据的收集，并采集可供模型进行学习的预设数量的行为数据。
56.步骤二、行为学习。将步骤一)中的数据进行学习，得到离线强化学习算法模型。
57.可选的，图3是根据本发明实施例的设备场景的更新方法的数据交互示意图，如图3所示，具体流程过程如下：
58.步骤1、采集用户的行为和状态上报到分布式消息订阅系统kafka中；
59.步骤2、对上报的行为和状态进行数据落地，具体的，通过hive数据仓库对行为和状态对应的数据信息进行数据提取、转化以及加载，转化成模型可以有效的识别的数据。
60.步骤3、使用转化后的数据对预设的场景自学习模型进行训练，完成模型的处理以及训练；
61.步骤4、完成训练的场景自学习模型进行模型上线；
62.步骤5、从分布式消息订阅系统kafka中获取用户对应的实时状态；
63.步骤6、通过完成训练的场景自学习模型预测当前状态对应的场景，并向分布式消息订阅系统反馈场景对应的行为，保证场景的更新。
64.可选的，离线强化学习算法模型中涉及到用户环境和算法模型的交互如图4，图4是根据本发明实施例的模型学习数据的示意图，主要包括以下几步：
65.第1步，将用户环境下对应的状态信息上传至算法模型；其中状态信息包括用户在
当前环境下执行的场景以及对场景以外设备的操作动作。
66.第2步，将用户环境下对应的行为反馈上传至算法模型；
67.第3步，算法模型结合行为反馈以及状态信息确定最终的行为输出，将行为输出反馈至用户环境下进行执行准备。
68.需要说明的是，在此处用户环境指的是用户操作的行为和用户操作行为时所处的状态。整体训练过程为，算法模型预测用户行为，用户环境如果执行了这个行为，则给算法模型一个较大的回报，如果用户环境没有执行行为，那么则给算法模型一个负向的回报。在算法模型与环境不断的交互过程中不断学习。
69.可选的，当前回报计算通过以下公式确定：g＝∑γr，其中，g为当前状态下回报值，γ为回报系数，离现在越远获得回报越低，r为历史回报值。值函数更新：更新的值函数为，当前的值函数加上当前的回报的部分系数。为了让算法模型的预测更为准确设置策略函数：π(a
t
|s
t
)＝argmaxq(s
t
，a
t
)，其中a为行为，s为用户状态。argmaxq(s
t
，a
t
)为在当前状态下，行为a所获得的最大回报值。通过训练最终会得到策略π，最终将准确率高的策略应用到线上，并在线更新策略。
70.步骤三、实时更新策略。通过用户实时状态，预测用户行为并在线更新算法策略。通过用户反馈计算回报，并更新模型。此处更新算法和离线处理过程一致，通过计算回报，更新值函数，并更新策略。
71.步骤四、场景更新。当模型预测准确率达到90％的时候，用户在执行动作后如果有后续行为则将后续行为则查找相应场景并将后续预测行为更新到场景中。
72.本实施例能够在智能家电的普及性越来越高，用户通过远程控制、语音控制设备的行为也日益频繁的情况下。通过利用强化学习实时学习用户行为，并给与用户定制的场景进行个性化更新，具有更好的用户体验：利用强化学习实时学习用户行为反馈，并在高准确率的情况下向用户更新场景，提高用户体验。更多的经济效益：提高了用户体验，必然增加市场的认可，进而可以提高经济效益。
73.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。
74.图5是根据本发明实施例的一种设备场景的更新装置的结构框图。如图5所示，包括：
75.获取模块52，用于获取目标对象的行为数据；其中，所述行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除所述第一设备场景对应设备之外的其他设备的操作动作；
76.第一确定模块54，用于通过预设的场景自学习模型确定所述行为数据对应的更新参数；其中，所述更新参数用于确定是否对所述第一设备场景执行场景更新；
77.添加模块56，用于在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到第二设备场景。
78.通过上述装置，获取目标对象的行为数据；其中，行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除第一设备场景对应设备之外的其他设备的操作动作；通过预设的场景自学习模型确定行为数据对应的更新参数；其中，更新参数用于确定是否对第一设备场景执行场景更新；在确定更新参数大于预设更新参数的情况下，确定行为数据对应的子场景，并将子场景添加至第一设备场景中，得到第二设备场景。采用上述技术方案，解决了相关技术中，无法实现在现有设备场景的基础上主动进行场景的自我更新的问题，通过主动获取目标对象的行为数据，确定行为数据对应的更新参数，在当前第一设备场景的基础上，进行场景的更新，进而丰富设备场景的内容，使得设备场景与目标对应的行为更加契合，提升了目标对象在对于设备场景的使用体验，避免了对于手动更新设备场景的繁杂操作。
79.在一个示例性实施例中，上述第一确定模块，还用于通过第一计算方式得到所述行为数据对应的当前回报值；基于所述当前回报值对预设值函数进行更新，得到所述行为数据对应的值函数；在确定所述目标对象对应的当前行为状态的情况下，通过所述预设的场景自学习模型结合所述值函数、所述当前行为状态、所述当前回报值对所述行为数据进行策略决策，并基于所述策略决策的结果确定更新参数。
80.在一个示例性实施例中，上述第一确定模块包括：计算单元，用于获取预设的场景自学习模型对应的回报标准数据，其中，所述回报标准数据包括：不同操作动作对应的历史回报值以及回报系数；匹配所述回报标准数据和所述行为数据，确定所述行为数据对应的操作动作的目标历史回报值以及目标回报系数；计算所述目标历史回报值与所述目标回报系数的乘积，以得到所述行为数据对应的当前回报值。
81.在一个示例性实施例中，上述第一确定模块还包括：决策单元，用于在确定所述行为数据包括一个其他设备的操作动作的情况下，确定在所述当前行为状态下选择所述行为数据作为设备场景的期望回报值；比较所述期望回报值与所述当前回报值的回报差值，在所述回报差值小于预设差值的情况下，允许使用所述行为数据生成用于指示其他设备对应场景动作的子场景；或，在确定所述行为数据包括多个其他设备的多组操作动作的情况下，将所述行为数据根据设备类型划分为多个子行为数据；确定在所述当前行为状态下选择每一个子行为数据作为设备场景的期望回报值，得到多个期望回报值；从所述多个期望回报值中确定出最大回报值，使用所述最大回报值对应的目标子行为数据生成子场景。
82.在一个示例性实施例中，上述装置还包括：第二确定模块，用于在所述目标对象完成执行所述第一设备场景之后保持场景执行状态的情况下，确定存在与所述第一设备场景连续的第三设备场景，并确定所述第三设备场景包含的子场景的场景信息；在所述场景信息中存在所述子场景的情况下，停止将所述第一设备场景更新为所述第二设备场景；在所述场景信息中不存在所述子场景的情况下，执行将所述第一设备场景更新为所述第二设备场景。
83.在一个示例性实施例中，上述装置还包括：反馈模块，用于在目标对象已执行过所述第二设备场景的情况下，获取所述目标对象的反馈信息；基于所述反馈信息确定将所述第一设备场景更新为所述第二设备场景是否符合所述目标对象的场景需求。
84.在本发明的描述中，需要理解的是，术语中“中心”、“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发
明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。
85.在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“连接”、“相连”应做广义理解，例如，可以是固定连接，也可以是拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以是通过中间媒介间接相连，可以是两个组件内部的连通。当组件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明的具体含义。
86.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
87.本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。
88.可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：
89.s1，获取目标对象的行为数据；其中，所述行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除所述第一设备场景对应设备之外的其他设备的操作动作；
90.s2，通过预设的场景自学习模型确定所述行为数据对应的更新参数；其中，所述更新参数用于确定是否对所述第一设备场景执行场景更新；
91.s3，在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到第二设备场景。
92.根据本发明实施例的又一个方面，还提供了一种用于实施上述设备场景的更新方法的电子装置，如图6所示，该电子装置包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
93.可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
94.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
95.s1，获取目标对象的行为数据；其中，所述行为数据用于指示目标对象在执行第一设备场景之前或者后主动操作除所述第一设备场景对应设备之外的其他设备的操作动作；
96.s2，通过预设的场景自学习模型确定所述行为数据对应的更新参数；其中，所述更新参数用于确定是否对所述第一设备场景执行场景更新；
97.s3，在确定所述更新参数大于预设更新参数的情况下，确定所述行为数据对应的子场景，并将所述子场景添加至所述第一设备场景中，得到第二设备场景。
98.可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子装置也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices，mid)、pad等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具
有与图6所示不同的配置。
99.其中，存储器702可用于存储软件程序以及模块，如本发明实施例中的语义转换方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语义转换方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图6所示，上述存储器702中可以但不限于包括上述语义转换装置中的获取模块52、第一确定模块54、添加模块56。此外，还可以包括但不限于上述设备场景的更新装置中的其他模块单元，本示例中不再赘述。
100.可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(network interface controller，nic)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频(radio frequency，rf)模块，其用于通过无线方式与互联网进行通讯。
101.此外，上述电子装置还包括：显示器708，用于显示上述设备场景；和连接总线710，用于连接上述电子装置中的各个模块部件。
102.可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
103.可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
104.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
105.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：空调设备的控制方法及装置、存储介质及电子装置与流程

设备场景的更新方法和装置、存储介质及电子装置与流程

相关文献

最热文献