信息处理方法和装置、电子设备、计算机可读介质与流程

2022-10-12 23:30:02 来源：中国专利 TAG：

技术特征：
1.一种信息处理方法，所述方法包括：获取信息竞价平台的当前时刻的当前信息、历史信息以及所述当前信息和所述历史信息的指标信息；基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下一时刻的属性环境状态；基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值；响应于所述信息竞价平台在下一时刻需要调整目标属性的属性值，将所述属性环境状态和预设的属性调整目标发送给智能体，以使所述智能体基于所述属性环境状态和所述属性调整目标，向所述信息竞价平台发送属性值调整策略，所述属性值调整策略用于调整不同信息的目标属性的属性值。2.根据权利要求1所述的方法，在所述智能体向所述信息竞价平台发送所述属性值调整策略之前，所述方法还包括：基于所述属性环境状态和所述属性值调整策略，确定奖励值；向所述智能体发送所述奖励值，以使所述智能体检测是否向所述信息竞价平台发送所述属性值调整策略。3.根据权利要求1所述的方法，在所述基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值之前，所述方法还包括：将所述属性环境状态发送给训练完成的扰动分类模型，得到所述扰动控制模型输出的扰动分类结果，所述扰动分类模型用于判断属性环境状态是否增加扰动；响应于所述扰动分类结果为不需要加扰动，基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值。4.根据权利要求1-3之一所述的方法，其中，所述基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下一时刻的属性环境状态，包括：基于所述当前信息、所述历史信息和所述指标信息，得到多种信息的向量集合，所述向量集合包括所述当前信息的向量、所述历史信息的向量和所述指标信息的向量；基于所述向量集合，得到下一时刻的评估指标；基于所述评估指标、所述向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态。5.根据权利要求4所述的方法，其中，所述基于所述评估指标、所述向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态，包括:基于所述向量集合和所述评估指标，确定下一时刻的目标属性编码；将所述下一时刻的目标属性编码与所述向量集合进行融合，得到下一时刻的属性环境状态；基于所述属性环境图谱，将所述下一时刻的属性环境状态中相关类目的属性环境状态进行关联。6.根据权利要求1-3之一所述的方法，其中，所述当前信息和所述历史信息为多模态信息，所述基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下
一时刻的属性环境状态，包括：基于所述信息竞价平台中不同投放词的分布，对所述当前信息、所述历史信息以及所述指标信息进行分层采样，得到至少一层层信息和各层层信息相应的指标信息；将各层层信息和相应的指标信息分别输入训练完成的多模态融合模型，得到各层层信息的向量集合，所述多模态融合模型用于对多种模态信息进行向量计算，得到各种模态信息的向量；计算各层层信息的向量集合对应的评估指标；基于各层层信息的评估指标、各层层信息的向量集合以及预设的属性环境图谱，得到各层层信息的下一时刻的属性环境状态；组合所有层的层信息的下一时刻的属性环境状态，得到所述信息竞价平台的下一时刻的属性环境状态。7.根据权利要求1所述的方法，其中，所述基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值，包括：基于所述当前信息、所述历史信息以及所述指标信息，预测下一时刻的评估指标；将所述评估指标、所述属性环境状态输入已训练完成的调价判别模型，得到所述调价判断模型输出的是否调整目标属性的属性值的判别结果；基于所述判别结果，确定下一时刻是否需要调整目标属性的属性值。8.根据权利要求1所述的方法，其中，所述属性值调整策略是从多个预置调整策略中选取的一个预置调整策略；所述预置调整策略包括以下至少一项：第一提价策略，用于针对所述信息竞价平台中展示次数大于预设次数且无消费的第一输入信息，在所述第一输入信息对应的目标属性的属性值中增加展示惩罚项；第一降价策略，用于针对所述信息竞价平台中展示等级小于预设等级值的第二输入信息，在所述第二输入信息对应的目标属性的属性值中增加压价项；第二提价策略，用于针对所述信息竞价平台中展示等级小于预设等级值且预定指标满足指标要求的第三输入信息，在所述第三输入信息对应的目标属性的属性值中增加上边界界限，以限制所述第三输入信息的目标属性的属性值；第二降价策略，用于针对所述信息竞价平台中收入规模大于预设规模值的第四输入信息，在所述第四输入信息对应的目标属性的属性值中增加收入奖励因子，以维持所述第一输入信息的输入规模。9.一种信息处理装置，所述装置包括：获取单元，被配置成获取信息竞价平台的当前时刻的当前信息、历史信息以及所述当前信息和所述历史信息的指标信息；确定单元，被配置成基于所述当前信息、所述历史信息以及所述指标信息，确定所述信息竞价平台的下一时刻的属性环境状态；检测单元，被配置成基于所述属性环境状态、所述当前信息、所述历史信息以及所述指标信息，检测所述信息竞价平台在下一时刻是否需要调整目标属性的属性值；调整单元，被配置成响应于所述信息竞价平台在下一时刻需要调整目标属性的属性
值，将所述属性环境状态和预设的属性调整目标发送给智能体，以使所述智能体基于所述属性环境状态和所述属性调整目标，向所述信息竞价平台发送所述属性值调整策略，所述属性值调整策略用于调整不同信息的目标属性的属性值。10.根据权利要求9所述的装置，所述装置还包括：奖励单元，被配置成基于所述属性环境状态和所述属性值调整策略，确定奖励值；向所述智能体发送所述奖励值，以使所述智能体检测是否向所述信息竞价平台发送所述属性值调整策略。11.根据权利要求9所述的装置，所述装置还包括：扰动单元，被配置成将所述属性环境状态发送给训练完成的扰动分类模型，得到所述扰动控制模型输出的扰动分类结果，所述扰动分类模型用于判断属性环境状态是否增加扰动；响应于所述扰动分类结果为不需要加扰动，控制所述检测单元工作。12.根据权利要求9-11之一所述的装置，其中，所述确定单元包括：向量得到模块，被配置成基于所述当前信息、所述历史信息和所述指标信息，得到多种信息的向量集合，所述向量集合包括所述当前信息的向量、所述历史信息的向量和所述指标信息的向量；评估模块，被配置成基于所述向量集合，得到下一时刻的评估指标；状态得到模块，被配置成基于所述评估指标、所述向量集合以及预设的属性环境图谱，得到下一时刻的属性环境状态。13.根据权利要求12所述的装置，其中，所述状态得到模块进一步被配置成：基于所述向量集合和所述评估指标，确定下一时刻的目标属性编码；将所述下一时刻的目标属性编码与所述向量集合进行融合，得到下一时刻的属性环境状态；基于所述属性环境图谱，将所述下一时刻的属性环境状态中相关类目的属性环境状态进行关联。14.根据权利要求9-11之一所述的装置，其中，所述当前信息和所述历史信息为多模态信息，所述确定单元进一步被配置成：基于所述信息竞价平台中不同投放词的分布，对所述当前信息、所述历史信息以及所述指标信息进行分层采样，得到至少一层层信息和各层层信息相应的指标信息；将各层层信息和相应的指标信息分别输入训练完成的多模态融合模型，得到各层层信息的向量集合，所述多模态融合模型用于对多种模态信息进行向量计算，得到各种模态信息的向量；计算各层层信息的向量集合对应的评估指标；基于各层层信息的评估指标、各层层信息的向量集合以及预设的属性环境图谱，得到各层层信息的下一时刻的属性环境状态；组合所有层的层信息的下一时刻的属性环境状态，得到所述信息竞价平台的下一时刻的属性环境状态。15.根据权利要求9所述的装置，其中，所述检测单元进一步被配置成：基于所述当前信息、所述历史信息以及所述指标信息，预测下一时刻的评估指标；将所述评估指标、所述属性环境状态输入已训练完成的调价判别模型，得到所述调价判断模型输出的是否调整目标属性的属性值的判别结果；基于所述判别结果，确定下一时刻是否需要调整目标属性的属性值。16.根据权利要求9所述的装置，其中，所述属性值调整策略是从多个预置调整策略中选取的一个预置调整策略；所述预置调整策略包括以下至少一项：第一提价策略，用于针对所述信息竞价平台中展示次数大于预设次数且无消费的第一
输入信息，在所述第一输入信息对应的目标属性的属性值中增加展示惩罚项；第一降价策略，用于针对所述信息竞价平台中展示等级小于预设等级值的第二输入信息，在所述第二输入信息对应的目标属性的属性值中增加压价项；第二提价策略，用于针对所述信息竞价平台中展示等级小于预设等级值且预定指标满足指标要求的第三输入信息，在所述第三输入信息对应的目标属性的属性值中增加上边界界限，以限制所述第三输入信息的目标属性的属性值；第二降价策略，用于针对所述信息竞价平台中收入规模大于预设规模值的第四输入信息，在所述第四输入信息对应的目标属性的属性值中增加收入奖励因子，以维持所述第一输入信息的输入规模。17.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。

技术总结
本公开提供了一种信息处理方法和装置，涉及深度学习、自然语言处理技术领域。具体实现方案为：获取信息竞价平台的当前时刻的当前信息、历史信息以及当前信息和历史信息的指标信息；基于当前信息、历史信息以及指标信息，确定信息竞价平台的下一时刻的属性环境状态；基于属性环境状态、当前信息、历史信息以及指标信息，检测信息竞价平台在下一时刻是否需要调整目标属性的属性值；响应于信息竞价平台在下一时刻需要调整目标属性的属性值，将属性环境状态和预设的属性调整目标发送给智能体，以使智能体基于属性环境状态和属性调整目标，向信息竞价平台发送属性值调整策略。该实施方式提高了目标属性的属性值调整的可靠性。了目标属性的属性值调整的可靠性。了目标属性的属性值调整的可靠性。

技术研发人员：王琳博崔燕朱景曦黄岳申宇林师敏花
受保护的技术使用者：百度在线网络技术（北京）有限公司
技术研发日：2022.07.15
技术公布日：2022/10/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于半监督视频目标分割的跳绳计数方法

信息处理方法和装置、电子设备、计算机可读介质与流程

相关文献

最热文献