强化学习基础巩固(十)——SAC 之前的章节提到过同策略算法的采样效率比较低,我们通常更倾向于使用异策略算法。然而,虽然 DDPG 是异策略算法,但是它的训练非常不稳定,收敛性较差,对超参数比较敏感,也难以适应不同的复杂环境。2018 年,一个更加稳定的异策略算法 Soft Actor-Critic(SAC)被提出。SAC 的前身是 Soft Q-learning,它们都属于最大熵强化学习的范畴。Soft Q-learning 不 2025-03-07 科研摘录 #理论学习 #强化学习 #SAC
强化学习基础巩固(九)——深度确定性策略梯度(DDPG) 对于连续的动作,Q学习、DQN等算法是没有办法处理的。那我们怎么输出连续的动作呢? 2025-03-07 科研摘录 #理论学习 #强化学习 #DDPG
强化学习基础巩固(八)——近端策略优化算法(PPO) 上一篇介绍的 TRPO 算法在很多场景上的应用都很成功,但是我们也发现它的计算过程非常复杂,每一步更新的运算量非常大。于是,TRPO 算法的改进版——PPO 算法在 2017 年被提出,PPO 基于 TRPO 的思想,但是其算法实现更加简单。并且大量的实验结果表明,与 TRPO 相比,PPO 能学习得一样好(甚至更快),这使得 PPO 成为非常流行的强化学习算法。如果我们想要尝试在一个新的环境中使 2025-03-05 科研摘录 #理论学习 #强化学习 #PPO
强化学习基础巩固(七)——信任区域策略优化算法(TRPO) 本书之前介绍的基于策略的方法包括策略梯度算法和 Actor-Critic 算法。这些方法虽然简单、直观,但在实际应用过程中会遇到训练不稳定的情况。 2025-03-05 科研摘录 #理论学习 #强化学习 #TRPO
强化学习基础巩固(六)——演员-评论员算法(AC) 之前的章节复习了基于值函数的方法(DQN)和基于策略的方法(REINFORCE),其中基于值函数的方法只学习一个价值函数,而基于策略的方法只学习一个策略函数。那么,一个很自然的问题是,有没有什么方法既学习价值函数,又学习策略函数呢?答案就是 Actor-Critic。Actor-Critic 是囊括一系列算法的整体架构,目前很多高效的前沿算法都属于 Actor-Critic 算法,本章接下来将会介 2025-03-04 科研摘录 #理论学习 #强化学习 #Actor-Critic
强化学习基础巩固(五)——策略梯度 之前介绍的 Q-learning、DQN 及 DQN 改进算法都是基于价值(value-based)的方法,其中 Q-learning 是处理有限状态的算法,而 DQN 可以用来解决连续状态的问题。在强化学习中,除了基于值函数的方法,还有一支非常经典的方法,那就是基于策略(policy-based)的方法。对比两者,基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一 2025-03-04 科研摘录 #理论学习 #强化学习 #策略梯度
强化学习基础巩固(四)——DQN改进算法 DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQN 和 Dueling DQN,这两个算法的实现非常简单,只需要在 DQN 的基础上稍加修改,它们能在一定程度上改善 DQN 的效果。 2025-03-04 科研摘录 #理论学习 #强化学习 #DQN