随机过程集
  • 首页
  • 归档
  • 分类
  • 标签
  • 本人
  • 友链

强化学习基础巩固(九)——深度确定性策略梯度(DDPG)

对于连续的动作,Q学习、DQN等算法是没有办法处理的。那我们怎么输出连续的动作呢?
2025-03-07
科研摘录
#理论学习 #强化学习 #DDPG

强化学习基础巩固(八)——近端策略优化算法(PPO)

上一篇介绍的 TRPO 算法在很多场景上的应用都很成功,但是我们也发现它的计算过程非常复杂,每一步更新的运算量非常大。于是,TRPO 算法的改进版——PPO 算法在 2017 年被提出,PPO 基于 TRPO 的思想,但是其算法实现更加简单。并且大量的实验结果表明,与 TRPO 相比,PPO 能学习得一样好(甚至更快),这使得 PPO 成为非常流行的强化学习算法。如果我们想要尝试在一个新的环境中使
2025-03-05
科研摘录
#理论学习 #强化学习 #PPO

强化学习基础巩固(七)——信任区域策略优化算法(TRPO)

本书之前介绍的基于策略的方法包括策略梯度算法和 Actor-Critic 算法。这些方法虽然简单、直观,但在实际应用过程中会遇到训练不稳定的情况。
2025-03-05
科研摘录
#理论学习 #强化学习 #TRPO

强化学习基础巩固(六)——演员-评论员算法(AC)

之前的章节复习了基于值函数的方法(DQN)和基于策略的方法(REINFORCE),其中基于值函数的方法只学习一个价值函数,而基于策略的方法只学习一个策略函数。那么,一个很自然的问题是,有没有什么方法既学习价值函数,又学习策略函数呢?答案就是 Actor-Critic。Actor-Critic 是囊括一系列算法的整体架构,目前很多高效的前沿算法都属于 Actor-Critic 算法,本章接下来将会介
2025-03-04
科研摘录
#理论学习 #强化学习 #Actor-Critic

强化学习基础巩固(五)——策略梯度

之前介绍的 Q-learning、DQN 及 DQN 改进算法都是基于价值(value-based)的方法,其中 Q-learning 是处理有限状态的算法,而 DQN 可以用来解决连续状态的问题。在强化学习中,除了基于值函数的方法,还有一支非常经典的方法,那就是基于策略(policy-based)的方法。对比两者,基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一
2025-03-04
科研摘录
#理论学习 #强化学习 #策略梯度

强化学习基础巩固(四)——DQN改进算法

DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQN 和 Dueling DQN,这两个算法的实现非常简单,只需要在 DQN 的基础上稍加修改,它们能在一定程度上改善 DQN 的效果。
2025-03-04
科研摘录
#理论学习 #强化学习 #DQN

强化学习基础巩固(三)——DQN

本节介绍强化学习经典方法——DQN。
2025-03-04
科研摘录
#理论学习 #强化学习 #DQN

强化学习基础巩固(二)——表格型方法

策略最简单的表示是查找表,即表格型策略。使用查找表的强化学习方法被称为表格型方法,如蒙特卡洛、Q-learning和Sarsa。
2025-03-03
科研摘录
#理论学习 #强化学习 #表格型方法

强化学习基础巩固(一)——马尔可夫决策过程

这个学期需要找实习了,为了巩固一下基础知识,在这个系列中重温强化学习基础。本系列的知识基于Easy RL进行梳理巩固。
2025-02-25
科研摘录
#理论学习 #强化学习 #马尔可夫决策过程

Nvidia Jetson AGX Orin 部署过程全记录——刷机

考虑到目前我们正在参与的重大项目主要使用 Nvidia Jetson AGX Orin 作为边缘计算设备,而Orin可能因为某些未知原因导致系统崩溃,因此对Orin进行刷机并配置环境是一件很频繁的工作。因此,本文将记录Orin的刷机过程,并记录刷机后的一些配置过程,以方便后续的刷机任务。
2025-02-17
技术日记
#技术
123

搜索

总访问量 次 总访客数 人