avatar
Dufolk
其实最大的难题是一会吃什么

教育背景

2023.09 - 至今

大连理工大学-计算机科学与技术 硕士在读

研究方向:强化学习、机器人、多智能体。

2019.09 - 2023.06

大连理工大学-人工智能 本科

专业技能

  • 编程语言与框架:熟悉 Python;熟悉Pytorch框架;熟悉 Opencv 的常用图像处理方法;掌握Matplotlib数据可视化方法;熟悉机器人框架ROS的基本原理与操作方法。
  • 算法技术:熟悉强化学习、马尔可夫决策过程、贝尔曼方程、经验录制与回放、模型训练、微调、导出与推理的流程;熟悉经典深度强化学习算法(如DQN、PPO等);了解分布式训练过程(如Ray框架的使用);熟悉深度学习的基本原理,熟悉常见模型(如CNN、Transformer)等模型原理。
  • 开发工具:熟悉Linux 系统、Git。
  • 相关证书:工业互联网平台开发工程师中级(能力5级)。
  • 语言技能:大学英语四/六级(CET-4/6),良好的听说读写能力,快速浏览英文文献及书籍。

实习经历

2025.05 - 至今

腾讯科技(深圳)有限公司-应用研究
概述:在《王者荣耀》游戏中,提升5v5对抗环境下的Al bot综合表现与拟人化工作。
工作内容:

  • 数据建模与标签系统优化:基于对行为轨迹与动作标签的动态规划解析,形成高质量训练样本
  • 基于 AWR 离线强化学习的 Al bot 训练框架:完成对离线强化学习的训练与测试,提升 Al bot在 5v5 对抗环境下的拟人化表现。
  • 蒸馏与预训练强化:通过集成多策略教师模型优化统一策略网络,在满足训练稳定性的前提下兼顾拟人化与强度指标。
  • 分布式在线RL训练框架搭建:实现对训练样本流的异步采样与并行调度,支撑大规模RL训练任务
    工作产出:
  • 提出并实现基于轨迹结构的动作建模方法,大幅提升策略输入样本的结构化程度和训练稳定性,为RL算法提供更精确的状态-动作分布。模型已正式上线 5-6月版本,点赞率和被举报率相比上一版模型均有大幅度优化
  • 为离线强化学习调优奖励分布,有效缓解Bot激进问题,提高了多个离线拟人化指标;模型已灰度上线7月版本,点赞率和被举报率均有优化
  • 实现全英雄统一模型实验框架,完成MoE建模。在自对弈情况下完成模型在线RL训练,强度达到最高段位水平
  • 搭建基于分路lane结构的分布式强化学习样本采集系统,重构Actor模块以支持多路并行推送与训练节点解耦,有效支撑多策略并行训练与分布式扩展。该框架已支持高并发分布式模型训练,实现超数千个环境同时交互采样。
2024.08 - 2024.11

中国科学院自动化研究所-算法实习生

  • 概述:负责多智能体强化学习的研究工作,在真实场景下实现多智能体围捕任务。
  • 技术栈:深度学习、强化学习、分布式训练。
  • 图结构三对一围捕策略研究
    • 针对三对一围捕场景完成环境的构造与图结构建模,在复杂场景中实现全局感知。
    • 设计网络模型与训练框架,引入“引导策略”辅助训练。
    • 设计序贯决策方案,模型性能提升至接近理论最优算法。
    • 开展一系列的方法有效性与泛化性实验验证,完成相关论文。
  • 图结构三对三围捕策略研究
    • 在三对三场景中,原有的小规模场景下的“引导策略”复杂度无法满足要求。针对三对三围捕问题中的围捕方法,取消传统的Policy Net而设计新颖的Value Net拟合纯策略均衡,并进行充分的理论分析与讨论。
    • 新型模型的性能能够拟合较好的围捕策略,在大规模场景与大规模集群中实现普适性。

项目经历

2023.05 - 至今

开放环境多智能体群智对抗博弈理论方法及应用-重大项目-核心成员

  • 概述:在复杂场景下完成多智能体感知、规划、博弈。
  • 技术栈:ROS、强化学习。
  • 职责:完成基于ROS平台智能体建图、感知、行为、决策一体化系统设计与实现。
  • 智能体建图问题
    • 设计以图结构抽象真实场景的多智能体自主探索算法,实现观测-网络高度耦合的模型,并在实机平台进行验证,撰写并投递相关论文。
  • 智能体对抗研究
    • 设计并测试智能体自动射击敌方的多种方案,并最终采用以随机森林回归的方式拟合自瞄算法,准确率达99%以上。
  • 智能体围捕问题
    • 设计图结构表征的多智能体自主围捕方案,并在实机平台进行验证。
  • 多智能体通信服务器
    • 采用Flask框架实现Web端构建,并通过FFMPEG实现机器人第一人称视角推流。Web端同时具备对局信息展示,语音控制机器人等多种实际功能。
2023.03 - 2023.05

矿洞巡检机器人-成员

  • 概述:开发在煤矿洞中自主完成感知与预警的机器人系统
  • 职责:在Spring Boot框架下封装卷扬机基本控制协议,通过Modbus协议完成硬件设备控制,实现巡检任务。
  • 设计并完成自动巡检任务
    • 设计并完成自动巡检任务,并将任务日志保存到数据库中。

研究经历

Two Heads are Better than One: Collaboration-Oriented Multi-Agent Exploration System (IEEE TCDS,Q1)-学生一作

Equilibrium Policy Generalization for Pursuit-Evasion Games via Multi-Agent Reinforcement Learning on Graphs (NeurIPS 2025,CCF-A,在投)-二作

Less Repetition, Less Energy Cost: A Multi-agent Energy-saving Autonomous Exploration System (IEEE TCDS,中科院1区,在投)-学生一作

国家级奖项

  • 第二十四届中国机器人及人工智能大赛全国总决赛二等奖
    2022.08
  • 全国大学生智能技术应用大赛二等奖
    2022.08
  • 第十三届蓝桥杯全国软件和信息技术专业人才大赛全国总决赛Python程序设计二等奖
    2022.06
  • 2021中国机器人大赛全国一等奖
    2022.06
  • 第二十三届中国机器人及人工智能大赛全国总决赛三等奖
    2021.12
  • 第十四届全国大学生创新创业年会“我最喜爱的项目”专项奖
    2021.12