强化学习基础巩固(二)——表格型方法 策略最简单的表示是查找表,即表格型策略。使用查找表的强化学习方法被称为表格型方法,如蒙特卡洛、Q-learning和Sarsa。 2025-03-03 科研摘录 #理论学习 #强化学习 #表格型方法
强化学习基础巩固(一)——马尔可夫决策过程 这个学期需要找实习了,为了巩固一下基础知识,在这个系列中重温强化学习基础。本系列的知识基于Easy RL进行梳理巩固。 2025-02-25 科研摘录 #理论学习 #强化学习 #马尔可夫决策过程
Nvidia Jetson AGX Orin 部署过程全记录——刷机 考虑到目前我们正在参与的重大项目主要使用 Nvidia Jetson AGX Orin 作为边缘计算设备,而Orin可能因为某些未知原因导致系统崩溃,因此对Orin进行刷机并配置环境是一件很频繁的工作。因此,本文将记录Orin的刷机过程,并记录刷机后的一些配置过程,以方便后续的刷机任务。 2025-02-17 技术日记 #技术
使用frp通过跳板机实现内网穿透备忘 用很多次frp工具进行内网穿透了,在这里统一记录一下过程。尤其是在ubuntu下写入系统服务并开机自启并非我能独立写出的,我还是得把服务配置记录在此为妙。 2025-01-25 技术日记 #技术 #内网穿透 #frp
呼啸而过的2024年 很多人喜欢把人生定义成一个又一个分叉路口,在每个路口做出选择,然后走向不同的未来。我并不排斥这样的人生观,甚至大多数时候我觉得我处在重大的分叉路,这让我的很多选择都瞻前顾后,难以两全。正如此刻,2024的末尾,我的求学生涯已经来到了硕士二年级,我不得不去考虑我该如何度过这似乎“非常重要”的2025年。 2025-01-24 生活手札 #随笔 #2024
基于强化学习的贪吃蛇游戏(五)——智能体结构优化 在上一篇文章中,我们使用DQN算法实现了一个基于深度神经网络的强化学习智能体。虽然通过神经网络的函数近似突破了Q-learning算法的局限性,但当前的实现仍然存在一些改进空间。本文将从状态建模和网络结构两个角度对智能体进行优化,以进一步提升智能体的学习效果。 2024-12-22 科研摘录 #理论学习 #强化学习
基于强化学习的贪吃蛇游戏(四)——基于DQN算法的智能体 在上一节中,我们通过Q-learning算法实现了一个能够自主学习玩贪吃蛇的强化学习智能体。虽然Q-learning算法在小规模的状态空间中表现良好,但它的局限性也非常明显。由于Q-table的大小随状态空间的增长呈指数级扩展,在面对更复杂或连续的环境时,Q-learning会因存储和计算的限制而难以适用。而贪吃蛇游戏的状态空间虽然经过简化,但仍然存在较大的扩展潜力。 在本章中,我们将基于前文提到 2024-12-19 科研摘录 #理论学习 #强化学习
基于强化学习的贪吃蛇游戏(三)——基于Q-learning算法的智能体 在完成了贪吃蛇游戏的基本功能后,我们将尝试实现一个能自主学习玩贪吃蛇的AI智能体。本节我们通过实现前文提到的Q-learning算法,进一步直接体会强化学习的实现与训练过程。 2024-12-19 科研摘录 #理论学习 #强化学习
基于强化学习的贪吃蛇游戏(二)——贪吃蛇游戏实现 贪吃蛇游戏实现 在本项目中,我们使用PyGame库来实现贪吃蛇游戏的可视化界面和基本交互逻辑。PyGame 是一个基于 Python 的跨平台游戏开发库,专为构建 2D 游戏而设计。它提供了一系列简单易用的工具与模块,用于处理游戏开发中的各种核心功能,如 图形绘制、声音播放、用户输入交互和事件管理等。PyGame 基于 SDL(Simple DirectMedia Layer)库开发,能够高效地管 2024-12-19 科研摘录 #理论学习 #贪吃蛇
基于强化学习的贪吃蛇游戏(一)——强化学习基础 最近在帮导师完成他教材的编纂,其中我的部分是使用强化学习来完成贪吃蛇游戏。在博客里记录下整个过程。 2024-12-19 科研摘录 #理论学习 #强化学习