强化学习基础巩固（十）——SAC

之前的章节提到过同策略算法的采样效率比较低，我们通常更倾向于使用异策略算法。然而，虽然 DDPG 是异策略算法，但是它的训练非常不稳定，收敛性较差，对超参数比较敏感，也难以适应不同的复杂环境。2018 年，一个更加稳定的异策略算法 Soft Actor-Critic（SAC）被提出。SAC 的前身是 Soft Q-learning，它们都属于最大熵强化学习的范畴。Soft Q-learning 不存在一个显式的策略函数，而是使用一个函数的波尔兹曼分布，在连续空间下求解非常麻烦。于是 SAC 提出使用一个 Actor 表示策略函数，从而解决这个问题。目前，在无模型的强化学习算法中，SAC 是一个非常高效的算法，它学习一个随机性策略，在不少标准环境中取得了领先的成绩。

熵（entropy）表示对一个随机变量的随机程度的度量。具体而言，如果是一个随机变量，且它的概率密度函数为，那么它的熵就被定义为

\mathcal{H}(X) = \mathbb{E}_{x\sim p}[-\log p(x)] = - \int p(x)\log p(x) dx

在强化学习中，我们可以使用 $\mathcal{H}(\pi(\cdot|s))$ 来表示策略在状态下的随机程度。
最大熵强化学习（maximum entropy RL）的思想就是除了要最大化累积奖励，还要使得策略更加随机。如此，强化学习的目标中就加入了一项熵的正则项，定义为

\pi^* = \argmax_\pi \mathbb{E}_\pi\left[\sum_t r_t(s_t,a_t)+\alpha\mathcal{H}(\pi(\cdot|s_t))\right]

其中， $\alpha$ 是一个正则化的系数，用来控制熵的重要程度。
熵正则化增加了强化学习算法的探索程度，越大，探索性就越强，有助于加速后续的策略学习，并减少策略陷入较差的局部最优的可能性。传统强化学习和最大熵强化学习的区别如下图所示。

Soft策略迭代

在最大熵强化学习框架中，由于目标函数发生了变化，其他的一些定义也有相应的变化。首先，我们看一下 Soft 贝尔曼方程：

Q(s_t,a_t) = r(s_t,a_t)+\gamma \mathbb{E}_{s_{t+1}}[V(s_{t+1})]

其中，状态价值函数被写为

V(s_t) = \mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)-\alpha\log\pi(a_t|s_t)]=\mathbb{E}_{a_t\sim\pi}[Q(s_t,a_t)]+\mathcal{H}(\pi(\cdot|s_t))

于是，根据该 Soft 贝尔曼方程，在有限的状态和动作空间情况下，Soft 策略评估可以收敛到策略的 Soft 函数。然后，根据如下 Soft 策略提升公式可以改进策略：

\pi_{new} = \argmin_{\pi'}D_{KL}\left(\pi'(\cdot|s),\frac{\exp(\frac{1}{\alpha}Q^{\pi_{old}}(s,\cdot))}{Z^{\pi_{old}}(s,\cdot)}\right)

重复交替使用 Soft 策略评估和 Soft 策略提升，最终策略可以收敛到最大熵强化学习目标中的最优策略。但该 Soft 策略迭代方法只适用于表格型（tabular）设置的情况，即状态空间和动作空间是有限的情况。在连续空间下，我们需要通过参数化函数和策略来近似这样的迭代。

SAC

在 SAC 算法中，我们为两个动作价值函数 $Q$ （参数分别为 $\omega_1$ 和 $\omega_2$ ）和一个策略函数 $\pi$ （参数为 $\theta$ ）建模。基于 Double DQN 的思想，SAC 使用两个 $Q$ 网络，但每次用网络时会挑选一个值小的 $Q$ 网络，从而缓解 $Q$ 值过高估计的问题。任意一个 $Q$ 函数的损失函数为：

L_Q(\omega) = \mathbb{E}\left[\frac{1}{2}\left(Q_\omega(s_t,a_t)-(r_t+\gamma(\min_{j=1,2}Q_{\omega^-_j}(s_{t+1},a_{t+1})-\alpha\log\pi(a_{t+1}|s_{t+1})))\right)^2\right]

因为 SAC 是一种异策略算法。为了让训练更加稳定，这里使用了目标 $Q$ 网络 $Q_{\omega^-}$ ，同样是两个目标 $Q$ 网络，与两个 $Q$ 网络一一对应。SAC 中目标 $Q$ 网络的更新方式与 DDPG 中的更新方式一样。
策略 $\pi$ 的损失函数由 KL 散度得到，化简后为：

L_\pi(\theta) = \mathbb{E}\left[\alpha\log(\pi_\theta(a_t|s_t))-Q_\omega(s_t,a_t)\right]

可以理解为最大化函数 $V$ ，因为有 $V(s_t) = \mathbb{E}[Q(s_t,a_t)-\alpha\log\pi_\theta(a_t|s_t)]$ 。
对连续动作空间的环境，SAC 算法的策略输出高斯分布的均值和标准差，但是根据高斯分布来采样动作的过程是不可导的。因此，我们需要用到重参数化技巧。重参数化的做法是先从一个单位高斯分布 $\mathcal{N}$ 采样，再把采样值乘以标准差后加上均值。这样就可以认为是从策略高斯分布采样，并且这样对于策略函数是可导的。

自动调整熵正则项

在 SAC 算法中，如何选择熵正则项的系数非常重要。在不同的状态下需要不同大小的熵：在最优动作不确定的某个状态下，熵的取值应该大一点；而在某个最优动作比较确定的状态下，熵的取值可以小一点。为了自动调整熵正则项，SAC 将强化学习的目标改写为一个带约束的优化问题：

\max_\pi \mathbb{E}_\pi\left[\sum_t r(s_t,a_t)\right]\quad s.t.\quad \mathbb{E}[-\log\pi(a_t|s_t)]\ge \mathcal{H}_0

也就是最大化期望回报，同时约束熵的均值大于 $\mathcal{H}_0$ 。通过一些数学技巧化简后，得到的损失函数：

L(\alpha) = \mathbb{E}[-\alpha\log\pi(a_t|s_t)-\alpha \mathcal{H}_0]

即当策略的熵低于目标值 $\mathcal{H}_0$ 时，训练目标 $L(\alpha)$ 会使 $\alpha$ 的值增大，进而在上述最小化损失函数 $L_\pi(\theta)$ 的过程中增加了策略熵对应项的重要性；而当策略的熵高于目标值 $\mathcal{H}_0$ 时，训练目标 $L(\alpha)$ 会使 $\alpha$ 的值减小，进而使得策略训练时更专注于价值提升。
至此，我们介绍完了 SAC 算法的整体思想，它的具体算法流程如下：

用随机的网络参数 $\omega_1, \omega_2$ 和 $\theta$ 分别初始化 Critic 网络 $Q_{\omega_1}(s, a)$ , $Q_{\omega_2}(s, a)$ 和 Actor 网络 $\pi_\theta(s)$
复制相同的参数 $\omega_1^-, \omega_2^-$ 为 $\omega_1, \omega_2$ ，分别初始化目标网络 $Q_{\omega_1^-}$ 和 $Q_{\omega_2^-}$
初始化经验回放池 $R$
for 序列 $e = 1 \to E$ $e = 1 \to E$ do
- 获取环境初始状态 $s_1$
- for 时间步 $t = 1 \to T$ $t = 1 \to T$ do
  - 根据当前策略随机选择动作 $a_t \leftarrow \pi_\theta(s_t)$
  - 执行动作 $a_t$ ，获得奖励 $r_t$ ，环境状态变为 $s_{t+1}$
  - 将 $(s_t, a_t, r_t, s_{t+1})$ 存入回放池 $R$
  - for 训练轮数 $k = 1 \to K$ $k = 1 \to K$ do
    - 从 $R$ 中采样 $N$ 个元组 $\{(s_i, a_i, r_i, s_{i+1})\}_{i=1,\dots,N}$
    - 对每个元组，用目标网络计算 $y_i$ ：
      $y_i = r_i + \gamma \min_{j=1,2} Q_{\omega_j^-}(s_{i+1}, a_{i+1}) - \alpha \log \pi_\theta(a_{i+1} | s_{i+1})$
      其中 $a_{i+1} \sim \pi_\theta(\cdot | s_{i+1})$
    - 对两个 Critic 网络都进行如下更新，最小化损失函数： $L = \frac{1}{N} \sum_{i=1}^{N} (y_i - Q_{\omega_j}(s_i, a_i))^2$
    - 用重参数化技巧采样 $\tilde{a}_i$ ，然后用以下损失函数更新当前 Actor 网络： $L_\pi(\theta) = \frac{1}{N} \sum_{i=1}^{N} \left( \alpha \log \pi_\theta(\tilde{a}_i | s_i) - \min_{j=1,2} Q_{\omega_j}(s_i, \tilde{a}_i) \right)$
    - 更新熵正则项的系数 $\alpha$
    - 更新目标网络：
      $\omega_1^- \leftarrow \tau \omega_1 + (1 - \tau) \omega_1^-$
      $\omega_2^- \leftarrow \tau \omega_2 + (1 - \tau) \omega_2^-$
  - end for
- end for
end for

科研摘录

#理论学习 #强化学习 #SAC

强化学习基础巩固（十）——SAC

http://dufolk.github.io/2025/03/07/rl-10/

作者

Dufolk

发布于

2025年3月7日

许可协议

2025.3.7 面试记录上一篇

强化学习基础巩固（九）——深度确定性策略梯度（DDPG）下一篇