随机过程集
  • 首页
  • 归档
  • 分类
  • 标签
  • 本人
  • 友链

Two Heads are Better than One, Collaboration-Oriented Multi-Agent Exploration System

引言 想象一群机器人被派往一个未知区域执行任务,比如灾后搜救或环境监测。它们需要快速覆盖整个区域,但由于彼此视野有限或缺乏有效协作,常常出现重复探索同一区域的情况,导致时间和能量的浪费。这正是多智能体自主探索领域的核心挑战之一。
2025-05-15
科研摘录
#强化学习 #多智能体 #论文汇报

2025年4月——收获与新的开始

很久没有更新笔者的博客了,今天班大佬给笔者分享了他的博客,有感而发,更新一下本博客。
2025-04-22
生活手札
#随笔 #2025

强化学习基础巩固(十一)——PPO vs SAC

最近面试高频谈到PPO和SAC的区别,在这里做一个总结和复习。
2025-03-12
科研摘录
#理论学习 #强化学习 #SAC #PPO

2025.3.7 面试记录

记录第一次面试
2025-03-08
求职之路
#理论学习 #面经

强化学习基础巩固(十)——SAC

之前的章节提到过同策略算法的采样效率比较低,我们通常更倾向于使用异策略算法。然而,虽然 DDPG 是异策略算法,但是它的训练非常不稳定,收敛性较差,对超参数比较敏感,也难以适应不同的复杂环境。2018 年,一个更加稳定的异策略算法 Soft Actor-Critic(SAC)被提出。SAC 的前身是 Soft Q-learning,它们都属于最大熵强化学习的范畴。Soft Q-learning 不
2025-03-07
科研摘录
#理论学习 #强化学习 #SAC

强化学习基础巩固(九)——深度确定性策略梯度(DDPG)

对于连续的动作,Q学习、DQN等算法是没有办法处理的。那我们怎么输出连续的动作呢?
2025-03-07
科研摘录
#理论学习 #强化学习 #DDPG

强化学习基础巩固(八)——近端策略优化算法(PPO)

上一篇介绍的 TRPO 算法在很多场景上的应用都很成功,但是我们也发现它的计算过程非常复杂,每一步更新的运算量非常大。于是,TRPO 算法的改进版——PPO 算法在 2017 年被提出,PPO 基于 TRPO 的思想,但是其算法实现更加简单。并且大量的实验结果表明,与 TRPO 相比,PPO 能学习得一样好(甚至更快),这使得 PPO 成为非常流行的强化学习算法。如果我们想要尝试在一个新的环境中使
2025-03-05
科研摘录
#理论学习 #强化学习 #PPO

强化学习基础巩固(七)——信任区域策略优化算法(TRPO)

本书之前介绍的基于策略的方法包括策略梯度算法和 Actor-Critic 算法。这些方法虽然简单、直观,但在实际应用过程中会遇到训练不稳定的情况。
2025-03-05
科研摘录
#理论学习 #强化学习 #TRPO

强化学习基础巩固(六)——演员-评论员算法(AC)

之前的章节复习了基于值函数的方法(DQN)和基于策略的方法(REINFORCE),其中基于值函数的方法只学习一个价值函数,而基于策略的方法只学习一个策略函数。那么,一个很自然的问题是,有没有什么方法既学习价值函数,又学习策略函数呢?答案就是 Actor-Critic。Actor-Critic 是囊括一系列算法的整体架构,目前很多高效的前沿算法都属于 Actor-Critic 算法,本章接下来将会介
2025-03-04
科研摘录
#理论学习 #强化学习 #Actor-Critic

强化学习基础巩固(五)——策略梯度

之前介绍的 Q-learning、DQN 及 DQN 改进算法都是基于价值(value-based)的方法,其中 Q-learning 是处理有限状态的算法,而 DQN 可以用来解决连续状态的问题。在强化学习中,除了基于值函数的方法,还有一支非常经典的方法,那就是基于策略(policy-based)的方法。对比两者,基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一
2025-03-04
科研摘录
#理论学习 #强化学习 #策略梯度
123

搜索

总访问量 次 总访客数 人