教育背景
2023.09 - 至今
大连理工大学-计算机科学与技术 硕士在读
研究方向:强化学习、机器人、多智能体。
2019.09 - 2023.06
大连理工大学-人工智能 本科
专业技能
- 编程语言与框架:熟悉 Python;熟悉Pytorch框架;熟悉 Opencv 的常用图像处理方法;掌握Matplotlib数据可视化方法;熟悉机器人框架ROS的基本原理与操作方法。
- 算法技术:熟悉强化学习、马尔可夫决策过程、贝尔曼方程、经验录制与回放、模型训练、微调、导出与推理的流程;熟悉经典深度强化学习算法(如DQN、PPO等);了解分布式训练过程(如Ray框架的使用);熟悉深度学习的基本原理,熟悉常见模型(如CNN、Transformer)等模型原理。
- 开发工具:熟悉Linux 系统、Git。
- 相关证书:工业互联网平台开发工程师中级(能力5级)。
- 语言技能:大学英语四/六级(CET-4/6),良好的听说读写能力,快速浏览英文文献及书籍。
实习经历
2024.08 - 2024.11
中国科学院自动化研究所-算法实习生
- 概述:在真实场景下实现多智能体围捕任务。
- 技术栈:深度学习、强化学习、分布式训练。
- 职责:负责多智能体强化学习的研究工作
- 图结构三对一围捕策略研究
- 针对三对一围捕场景完成环境的构造与图结构建模,在复杂场景中实现全局感知。
- 设计网络模型与训练框架,引入“引导策略”辅助训练。
- 设计序贯决策方案,模型性能提升至接近理论最优算法。
- 开展一系列的方法有效性与泛化性实验验证,完成相关论文。
- 图结构三对三围捕策略研究
- 在三对三场景中,原有的小规模场景下的“引导策略”复杂度无法满足要求。针对三对三围捕问题中的围捕方法,取消传统的Policy Net而设计新颖的Value Net拟合纯策略均衡,并进行充分的理论分析与讨论。
- 新型模型的性能能够拟合较好的围捕策略,在大规模场景与大规模集群中实现普适性。
项目经历
2023.05 - 至今
开放环境多智能体群智对抗博弈理论方法及应用-重大项目-核心成员
- 概述:在复杂场景下完成多智能体感知、规划、博弈。
- 技术栈:ROS、强化学习。
- 职责:完成基于ROS平台智能体建图、感知、行为、决策一体化系统设计与实现。
- 智能体建图问题
- 设计以图结构抽象真实场景的多智能体自主探索算法,实现观测-网络高度耦合的模型,并在实机平台进行验证,撰写并投递相关论文。
- 智能体对抗研究
- 设计并测试智能体自动射击敌方的多种方案,并最终采用以随机森林回归的方式拟合自瞄算法,准确率达99%以上。
- 智能体围捕问题
- 设计图结构表征的多智能体自主围捕方案,并在实机平台进行验证。
- 多智能体通信服务器
- 采用Flask框架实现Web端设计,并通过FFMPEG实现机器人第一人称视角推流。Web端同时具备对局信息展示,语音控制机器人等多种实际功能。
2023.03 - 2023.05
矿洞巡检机器人-成员
- 概述:开发在煤矿洞中自主完成感知与预警的机器人系统
- 职责:在Spring Boot框架下封装卷扬机基本控制协议,通过Modbus协议完成硬件设备控制,实现巡检任务。
- 设计并完成自动巡检任务
- 设计并完成自动巡检任务,并将任务日志保存到数据库中。
研究经历
Two Heads are Better than One: Collaboration-Oriented Multi-Agent Exploration System (IEEE TCDS,Q1)-学生一作
Equilibrium Policy Generalization for Pursuit-Evasion Games via Multi-Agent Reinforcement Learning on Graphs (ICML 2025,CCF-A,在投)-二作
国家级奖项
- 第二十四届中国机器人及人工智能大赛全国总决赛二等奖 2022.08
- 全国大学生智能技术应用大赛二等奖 2022.08
- 第十三届蓝桥杯全国软件和信息技术专业人才大赛全国总决赛Python程序设计二等奖 2022.06
- 2021中国机器人大赛全国一等奖 2022.06
- 第二十三届中国机器人及人工智能大赛全国总决赛三等奖 2021.12
- 第十四届全国大学生创新创业年会“我最喜爱的项目”专项奖 2021.12