强化学习基础巩固(四)——DQN改进算法 DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQN 和 Dueling DQN,这两个算法的实现非常简单,只需要在 DQN 的基础上稍加修改,它们能在一定程度上改善 DQN 的效果。 2025-03-04 科研摘录 #理论学习 #强化学习 #DQN
强化学习基础巩固(二)——表格型方法 策略最简单的表示是查找表,即表格型策略。使用查找表的强化学习方法被称为表格型方法,如蒙特卡洛、Q-learning和Sarsa。 2025-03-03 科研摘录 #理论学习 #强化学习 #表格型方法
强化学习基础巩固(一)——马尔可夫决策过程 这个学期需要找实习了,为了巩固一下基础知识,在这个系列中重温强化学习基础。本系列的知识基于Easy RL进行梳理巩固。 2025-02-25 科研摘录 #理论学习 #强化学习 #马尔可夫决策过程
Nvidia Jetson AGX Orin 部署过程全记录——刷机 考虑到目前我们正在参与的重大项目主要使用 Nvidia Jetson AGX Orin 作为边缘计算设备,而Orin可能因为某些未知原因导致系统崩溃,因此对Orin进行刷机并配置环境是一件很频繁的工作。因此,本文将记录Orin的刷机过程,并记录刷机后的一些配置过程,以方便后续的刷机任务。 2025-02-17 技术日记 #技术
使用frp通过跳板机实现内网穿透备忘 用很多次frp工具进行内网穿透了,在这里统一记录一下过程。尤其是在ubuntu下写入系统服务并开机自启并非我能独立写出的,我还是得把服务配置记录在此为妙。 2025-01-25 技术日记 #技术 #内网穿透 #frp
呼啸而过的2024年 很多人喜欢把人生定义成一个又一个分叉路口,在每个路口做出选择,然后走向不同的未来。我并不排斥这样的人生观,甚至大多数时候我觉得我处在重大的分叉路,这让我的很多选择都瞻前顾后,难以两全。正如此刻,2024的末尾,我的求学生涯已经来到了硕士二年级,我不得不去考虑我该如何度过这似乎“非常重要”的2025年。 2025-01-24 生活手札 #随笔 #2024
基于强化学习的贪吃蛇游戏(五)——智能体结构优化 在上一篇文章中,我们使用DQN算法实现了一个基于深度神经网络的强化学习智能体。虽然通过神经网络的函数近似突破了Q-learning算法的局限性,但当前的实现仍然存在一些改进空间。本文将从状态建模和网络结构两个角度对智能体进行优化,以进一步提升智能体的学习效果。 2024-12-22 科研摘录 #理论学习 #强化学习
基于强化学习的贪吃蛇游戏(四)——基于DQN算法的智能体 在上一节中,我们通过Q-learning算法实现了一个能够自主学习玩贪吃蛇的强化学习智能体。虽然Q-learning算法在小规模的状态空间中表现良好,但它的局限性也非常明显。由于Q-table的大小随状态空间的增长呈指数级扩展,在面对更复杂或连续的环境时,Q-learning会因存储和计算的限制而难以适用。而贪吃蛇游戏的状态空间虽然经过简化,但仍然存在较大的扩展潜力。 在本章中,我们将基于前文提到 2024-12-19 科研摘录 #理论学习 #强化学习
基于强化学习的贪吃蛇游戏(三)——基于Q-learning算法的智能体 在完成了贪吃蛇游戏的基本功能后,我们将尝试实现一个能自主学习玩贪吃蛇的AI智能体。本节我们通过实现前文提到的Q-learning算法,进一步直接体会强化学习的实现与训练过程。 2024-12-19 科研摘录 #理论学习 #强化学习