当前位置: 首页 > news >正文

强化学习理论基础:从Q-learning到PPO的算法演进(1)

文章目录

  • 基础概念
  • Q-learning
    • Q表(本例中是个字典)
    • Q表更新(贝尔曼(Bellman)等式)
  • ε-greedy(贪心)探索
  • Q-learning算法不足及后续改进


基础概念

在这里插入图片描述
以强化学习走迷宫这个例子来讲:

  • 智能体(Agent):以A表示,在迷宫中不断移动的虚拟智能
  • 环境(Environment):整个迷宫,入口、出口、墙壁等
  • 状态(State):智能体当前的位置
  • 行动(Action):智能体的运动方向,从上下左右四个方向中选一个
  • 奖励(Reward):如果智能体找到了出口,则奖励100,否则奖励0
    – 也可以自定义其它规则,如走回头路“奖励”-0.1,撞墙“奖励”-0.2等等。

Q-learning

让我们以“走迷宫”为例,揭开强化学习的算法面纱。Q-learning是一种基于价值的无模型算法,其核心是构建一张Q表,存储每个“状态-动作对”的预期累积奖励。

通过迭代学习状态-动作对的Q值(动作价值函数

http://www.lqws.cn/news/524377.html

相关文章:

  • [日志收集]
  • 刷题 | 牛客 - js中等题-下 (更ing)45/54知识点解答
  • 深度学习实战112-基于大模型Qwen+RAG+推荐算法的作业互评管理系统设计与实现
  • Java期末复习题(二)
  • 计算机网络-----详解HTTPS协议
  • 日本生活:日语语言学校-日语作文-沟通无国界(5)-题目:我的一天
  • C# 中 string.Equals 以及 StringComparison 枚举的不同选项
  • SQL进阶:CASE表达式
  • 数组基础知识
  • IBMS 智能化系统:让建筑提前进入 AIoT 智慧纪元​
  • Linux基本指令篇 —— mv指令
  • 时序数据库 TDengine 助力华锐 D5 平台实现“三连降”:查询快了,机器少了,成本也低了
  • 以太坊执行客户端和共识客户端各自的作用及意义
  • java 对接ETH(以太坊) 交易相关资料
  • 区间求最值问题高效解决方法
  • Linux下使用docker nginx部署vue前端项目工程
  • vue2 使用el-form中el-form-item单独绑定rules不生效问题
  • IoT/HCIP实验-5/基于NB-IoT的智慧农业实验(平台侧开发+端侧编码+基础调试分析)
  • LOOP如何让长周期交互LLM代理在复杂环境中实现突破?
  • 正则表达式匹配实现
  • Boosting:从理论到实践——集成学习中的偏差征服者
  • Prompt:面向目标的提示词
  • WeakAuras Lua Script [ICC BOSS 12 - The Lich King]
  • Objective-C面向对象编程:类、对象、方法详解(保姆级教程)
  • 自动驾驶数据特征提取实战:用Python打开智能驾驶的新视角
  • 深入理解残差网络(ResNet):原理与PyTorch实现
  • Mysql数据库操作大全万字详解
  • 【Redis】Redis的下载安装和配置
  • 检查StringBuilder是否包含字符串
  • ARM内核之CMSIS