随机过程集

强化学习基础巩固（九）——深度确定性策略梯度（DDPG）

对于连续的动作，Q学习、DQN等算法是没有办法处理的。那我们怎么输出连续的动作呢？

2025-03-07

科研摘录

#理论学习 #强化学习 #DDPG

强化学习基础巩固（八）——近端策略优化算法（PPO）

上一篇介绍的 TRPO 算法在很多场景上的应用都很成功，但是我们也发现它的计算过程非常复杂，每一步更新的运算量非常大。于是，TRPO 算法的改进版——PPO 算法在 2017 年被提出，PPO 基于 TRPO 的思想，但是其算法实现更加简单。并且大量的实验结果表明，与 TRPO 相比，PPO 能学习得一样好（甚至更快），这使得 PPO 成为非常流行的强化学习算法。如果我们想要尝试在一个新的环境中使

2025-03-05

科研摘录

#理论学习 #强化学习 #PPO

强化学习基础巩固（七）——信任区域策略优化算法（TRPO）

本书之前介绍的基于策略的方法包括策略梯度算法和 Actor-Critic 算法。这些方法虽然简单、直观，但在实际应用过程中会遇到训练不稳定的情况。

2025-03-05

科研摘录

#理论学习 #强化学习 #TRPO

强化学习基础巩固（六）——演员-评论员算法（AC）

之前的章节复习了基于值函数的方法（DQN）和基于策略的方法（REINFORCE），其中基于值函数的方法只学习一个价值函数，而基于策略的方法只学习一个策略函数。那么，一个很自然的问题是，有没有什么方法既学习价值函数，又学习策略函数呢？答案就是 Actor-Critic。Actor-Critic 是囊括一系列算法的整体架构，目前很多高效的前沿算法都属于 Actor-Critic 算法，本章接下来将会介

2025-03-04

科研摘录

#理论学习 #强化学习 #Actor-Critic

强化学习基础巩固（五）——策略梯度

之前介绍的 Q-learning、DQN 及 DQN 改进算法都是基于价值（value-based）的方法，其中 Q-learning 是处理有限状态的算法，而 DQN 可以用来解决连续状态的问题。在强化学习中，除了基于值函数的方法，还有一支非常经典的方法，那就是基于策略（policy-based）的方法。对比两者，基于值函数的方法主要是学习值函数，然后根据值函数导出一个策略，学习过程中并不存在一

2025-03-04

科研摘录

#理论学习 #强化学习 #策略梯度

强化学习基础巩固（四）——DQN改进算法

DQN 算法敲开了深度强化学习的大门，但是作为先驱性的工作，其本身存在着一些问题以及一些可以改进的地方。于是，在 DQN 之后，学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法：Double DQN 和 Dueling DQN，这两个算法的实现非常简单，只需要在 DQN 的基础上稍加修改，它们能在一定程度上改善 DQN 的效果。

2025-03-04

科研摘录

#理论学习 #强化学习 #DQN

强化学习基础巩固（三）——DQN

本节介绍强化学习经典方法——DQN。

2025-03-04

科研摘录

#理论学习 #强化学习 #DQN

强化学习基础巩固（二）——表格型方法

策略最简单的表示是查找表，即表格型策略。使用查找表的强化学习方法被称为表格型方法，如蒙特卡洛、Q-learning和Sarsa。

2025-03-03

科研摘录

#理论学习 #强化学习 #表格型方法

强化学习基础巩固（一）——马尔可夫决策过程

这个学期需要找实习了，为了巩固一下基础知识，在这个系列中重温强化学习基础。本系列的知识基于Easy RL进行梳理巩固。

2025-02-25

科研摘录

#理论学习 #强化学习 #马尔可夫决策过程

Nvidia Jetson AGX Orin 部署过程全记录——刷机

考虑到目前我们正在参与的重大项目主要使用 Nvidia Jetson AGX Orin 作为边缘计算设备，而Orin可能因为某些未知原因导致系统崩溃，因此对Orin进行刷机并配置环境是一件很频繁的工作。因此，本文将记录Orin的刷机过程，并记录刷机后的一些配置过程，以方便后续的刷机任务。

2025-02-17

技术日记

#技术