随机过程集

2025.7.31 面试记录

2025-08-01

求职之路

#理论学习 #面经

强化学习基础巩固（十二）——离线强化学习

本文[1]转载自知乎专栏《硅基进化》，作者为@tomsheep。

2025-07-01

科研摘录

#理论学习 #强化学习 #离线强化学习

使用Docker打包RMUA仓库以方便部署

使用Docker打包RMUA仓库以方便部署

考虑到目前笔者参与的项目常常出现设备损坏等问题，重新刷机并部署RMUA仓库需要花费大量时间，因此考虑使用Docker打包RMUA仓库以方便部署。本文笔者用一个周末时间，将从如何fork原始仓库到打包镜像再到托管到阿里云镜像服务的完整过程记录下来，尽可能保留所有细节以及延伸学习，以供自我学习与备忘。

2025-06-28

技术日记

#技术 #容器技术 #Docker

Linux:管道命令与文本处理三剑客(grep、sed、awk)

工作中经常用到管道技术，这里整体做一个学习和摘要，转载了此博客

2025-06-16

技术日记

#技术 #Linux #管道

SSH免密登录三步走

1. 客户端生成公私钥本地客户端生成公私钥（一路回车默认即可）： 1ssh-keygen 该命令会在用户目录的.ssh文件夹下创建公私钥： 12cd ~/.sshls 将看到两个密钥文件： id_rsa（私钥） id_rsa.pub（公钥） 2. 上传公钥到服务器这里假设：服务器地址：192.168.235.22 用户名：root 执行命令上传公钥： 1ssh-copy-id

2025-06-16

技术日记

#技术 #网络 #SSH

Two Heads are Better than One, Collaboration-Oriented Multi-Agent Exploration System

引言想象一群机器人被派往一个未知区域执行任务，比如灾后搜救或环境监测。它们需要快速覆盖整个区域，但由于彼此视野有限或缺乏有效协作，常常出现重复探索同一区域的情况，导致时间和能量的浪费。这正是多智能体自主探索领域的核心挑战之一。

2025-05-15

科研摘录

#多智能体 #强化学习 #论文汇报

2025年4月——收获与新的开始

很久没有更新笔者的博客了，今天班大佬给笔者分享了他的博客，有感而发，更新一下本博客。

2025-04-22

生活手札

#随笔 #2025

强化学习基础巩固（十一）——PPO vs SAC

最近面试高频谈到PPO和SAC的区别，在这里做一个总结和复习。

2025-03-12

科研摘录

#理论学习 #强化学习 #SAC #PPO

2025.3.7 面试记录

记录第一次面试

2025-03-08

求职之路

#理论学习 #面经

强化学习基础巩固（十）——SAC

之前的章节提到过同策略算法的采样效率比较低，我们通常更倾向于使用异策略算法。然而，虽然 DDPG 是异策略算法，但是它的训练非常不稳定，收敛性较差，对超参数比较敏感，也难以适应不同的复杂环境。2018 年，一个更加稳定的异策略算法 Soft Actor-Critic（SAC）被提出。SAC 的前身是 Soft Q-learning，它们都属于最大熵强化学习的范畴。Soft Q-learning 不

2025-03-07

科研摘录

#理论学习 #强化学习 #SAC