强化学习理论基础:从Q-learning到PPO的算法演进(1)
文章目录
- 基础概念
- Q-learning
- Q表(本例中是个字典)
- Q表更新(贝尔曼(Bellman)等式)
- ε-greedy(贪心)探索
- Q-learning算法不足及后续改进
基础概念
以强化学习走迷宫这个例子来讲:
- 智能体(Agent):以A表示,在迷宫中不断移动的虚拟智能
- 环境(Environment):整个迷宫,入口、出口、墙壁等
- 状态(State):智能体当前的位置
- 行动(Action):智能体的运动方向,从上下左右四个方向中选一个
- 奖励(Reward):如果智能体找到了出口,则奖励100,否则奖励0
– 也可以自定义其它规则,如走回头路“奖励”-0.1,撞墙“奖励”-0.2等等。
Q-learning
让我们以“走迷宫”为例,揭开强化学习的算法面纱。Q-learning是一种基于价值的无模型算法,其核心是构建一张Q表,存储每个“状态-动作对”的预期累积奖励。
通过迭代学习状态-动作对的Q值(动作价值函数