当前位置: 首页 > news >正文

Offline Transition Modeling via Contrastive Energy Learning

ICML 2024
paper
code
学习高质量的动力学模型对于顺序决策任务非常重要,尤其是在离线环境下。然而,真实世界环境中过渡动态的复杂行为给标准前向模型带来了挑战,因为这些模型偏向于平滑回归因子,与过渡的固有特性(如不连续或大曲率)相冲突。在这项工作中,建议通过标量值能量函数对过渡概率进行直观建模,这样不仅可以灵活预判分布,还能捕捉复杂的过渡情况。研究表明,基于能量的过渡模型(ETM)能准确拟合不连续的过渡函数,并能更好地泛化分布外过渡数据。此外,在 DOPE 基准测试中,证明基于能量的过渡模型提高了评估精度,并明显优于其他off-policy评估方法。最后证明了基于能量的过渡模型也有利于强化学习,并在 D4RL Gym-Mujoco 任务中优于先前的RL 算法。

总结:采用能量模型对动力学模型建模,训练能量模型则是采用对比学习(正样本为离线数据集真实转移,负样本为K-1个基于模型的通过Langevin MCMC 采样)

Method

能量模型

在这里插入图片描述

Langevin MCMC 采样

在这里插入图片描述
其中z为高斯噪声

能量模型训练

在这里插入图片描述
在这里插入图片描述

策略训练

采用集成能量模型,使用五个 ETM 的集合来进行策略优化,每一步都随机选择五个模型中的一个来生成过渡。提出的 EMPO 使用 Soft-Actor-Critic (SAC) 作为基础策略优化算法,并采用模型预测下一状态的不确定性估计作为奖励惩罚,实现保守估计:
在这里插入图片描述

Results

在这里插入图片描述
展示能量模型的泛化性,在非平滑和依赖外推法的数据上具有出色的普适性,表明在规避平滑近似值造成的负面干扰的同时,还能巧妙地捕捉到数据模式

在这里插入图片描述

其他

该集成能量模型使用Online的效果(结合MBPO)

http://www.lqws.cn/news/167473.html

相关文章:

  • 6月生效!亚马逊FBA入库运费调整,尺寸不符自动补差
  • springcloud openfeign 偶现 Caused by: java.net.UnknownHostException
  • 图像测试点列表
  • 60天python训练计划----day45
  • 数据分析Agent构建
  • 图简记。。
  • 线段树~~~
  • sockaddr结构体详解
  • graylog收集rsyslog实现搜索解析
  • ubuntu24.04 搭建 java 环境服务,以及mysql数据库
  • Calendar类日期设置进位问题
  • 基于Pandas数据分析的设备巡检计划生成算法设计及实现
  • jdk-8u281-linux-x64.rpm,备用网盘下载,懒得注册官方来看看
  • Unknown key: ‘auto_activate_base‘解决
  • 适用于vue3的移动端Vant4组件库
  • Java编程课(一)
  • 图像分类Image Classification 模型比较 ImageNet Top-1 Accuracy
  • redis实现分布式锁
  • 企业配电系统安全升级,从局放监测开始
  • C语言 标准I/O函数全面指南
  • 深度学习习题3
  • 【深度学习-Day 23】框架实战:模型训练与评估核心环节详解 (MNIST实战)
  • 亲测解决self.transform is not exist
  • Python Day44
  • 设计模式(代理设计模式)
  • NLP学习路线图(二十六):自注意力机制
  • Wireshark使用教程(含安装包和安装教程)
  • JS深入学习 — 循环、函数、数组、字符串、Date对象,Math对象
  • 哈希算法实战全景:安全加密到分布式系统的“核心引擎”
  • 深入理解Java多态性:原理、实现与应用实例