随机过程集
  • 首页
  • 归档
  • 分类
  • 标签
  • 本人
  • 友链

强化学习基础巩固(四)——DQN改进算法

DQN 算法敲开了深度强化学习的大门,但是作为先驱性的工作,其本身存在着一些问题以及一些可以改进的地方。于是,在 DQN 之后,学术界涌现出了非常多的改进算法。本章将介绍其中两个非常著名的算法:Double DQN 和 Dueling DQN,这两个算法的实现非常简单,只需要在 DQN 的基础上稍加修改,它们能在一定程度上改善 DQN 的效果。
2025-03-04
科研摘录
#理论学习 #强化学习 #DQN

强化学习基础巩固(三)——DQN

本节介绍强化学习经典方法——DQN。
2025-03-04
科研摘录
#理论学习 #强化学习 #DQN

强化学习基础巩固(二)——表格型方法

策略最简单的表示是查找表,即表格型策略。使用查找表的强化学习方法被称为表格型方法,如蒙特卡洛、Q-learning和Sarsa。
2025-03-03
科研摘录
#理论学习 #强化学习 #表格型方法

强化学习基础巩固(一)——马尔可夫决策过程

这个学期需要找实习了,为了巩固一下基础知识,在这个系列中重温强化学习基础。本系列的知识基于Easy RL进行梳理巩固。
2025-02-25
科研摘录
#理论学习 #强化学习 #马尔可夫决策过程

Nvidia Jetson AGX Orin 部署过程全记录——刷机

考虑到目前我们正在参与的重大项目主要使用 Nvidia Jetson AGX Orin 作为边缘计算设备,而Orin可能因为某些未知原因导致系统崩溃,因此对Orin进行刷机并配置环境是一件很频繁的工作。因此,本文将记录Orin的刷机过程,并记录刷机后的一些配置过程,以方便后续的刷机任务。
2025-02-17
技术日记
#技术

使用frp通过跳板机实现内网穿透备忘

用很多次frp工具进行内网穿透了,在这里统一记录一下过程。尤其是在ubuntu下写入系统服务并开机自启并非我能独立写出的,我还是得把服务配置记录在此为妙。
2025-01-25
技术日记
#技术 #内网穿透 #frp

呼啸而过的2024年

很多人喜欢把人生定义成一个又一个分叉路口,在每个路口做出选择,然后走向不同的未来。我并不排斥这样的人生观,甚至大多数时候我觉得我处在重大的分叉路,这让我的很多选择都瞻前顾后,难以两全。正如此刻,2024的末尾,我的求学生涯已经来到了硕士二年级,我不得不去考虑我该如何度过这似乎“非常重要”的2025年。
2025-01-24
生活手札
#随笔 #2024
基于强化学习的贪吃蛇游戏(五)——智能体结构优化

基于强化学习的贪吃蛇游戏(五)——智能体结构优化

在上一篇文章中,我们使用DQN算法实现了一个基于深度神经网络的强化学习智能体。虽然通过神经网络的函数近似突破了Q-learning算法的局限性,但当前的实现仍然存在一些改进空间。本文将从状态建模和网络结构两个角度对智能体进行优化,以进一步提升智能体的学习效果。
2024-12-22
科研摘录
#理论学习 #强化学习

基于强化学习的贪吃蛇游戏(四)——基于DQN算法的智能体

在上一节中,我们通过Q-learning算法实现了一个能够自主学习玩贪吃蛇的强化学习智能体。虽然Q-learning算法在小规模的状态空间中表现良好,但它的局限性也非常明显。由于Q-table的大小随状态空间的增长呈指数级扩展,在面对更复杂或连续的环境时,Q-learning会因存储和计算的限制而难以适用。而贪吃蛇游戏的状态空间虽然经过简化,但仍然存在较大的扩展潜力。 在本章中,我们将基于前文提到
2024-12-19
科研摘录
#理论学习 #强化学习

基于强化学习的贪吃蛇游戏(三)——基于Q-learning算法的智能体

在完成了贪吃蛇游戏的基本功能后,我们将尝试实现一个能自主学习玩贪吃蛇的AI智能体。本节我们通过实现前文提到的Q-learning算法,进一步直接体会强化学习的实现与训练过程。
2024-12-19
科研摘录
#理论学习 #强化学习
123

搜索

总访问量 次 总访客数 人