关于我 - 随机过程集

2023.09 - 至今

大连理工大学-计算机科学与技术硕士在读

研究方向：强化学习、机器人、多智能体。

2019.09 - 2023.06

大连理工大学-人工智能本科

编程语言与框架：熟悉 Python;熟悉Pytorch框架；熟悉 Opencv 的常用图像处理方法；掌握Matplotlib数据可视化方法；熟悉机器人框架ROS的基本原理与操作方法。
算法技术：熟悉强化学习、马尔可夫决策过程、贝尔曼方程、经验录制与回放、模型训练、微调、导出与推理的流程；熟悉经典深度强化学习算法(如DQN、PPO等)；了解分布式训练过程(如Ray框架的使用)；熟悉深度学习的基本原理，熟悉常见模型(如CNN、Transformer)等模型原理。
开发工具：熟悉Linux 系统、Git。
相关证书：工业互联网平台开发工程师中级(能力5级)。
语言技能：大学英语四/六级(CET-4/6)，良好的听说读写能力，快速浏览英文文献及书籍。

2025.05 - 至今

腾讯科技（深圳）有限公司-应用研究
概述:在《王者荣耀》游戏中，提升5v5对抗环境下的Al bot综合表现与拟人化工作。
工作内容:

数据建模与标签系统优化:基于对行为轨迹与动作标签的动态规划解析，形成高质量训练样本
基于 AWR 离线强化学习的 Al bot 训练框架:完成对离线强化学习的训练与测试，提升 Al bot在 5v5 对抗环境下的拟人化表现。
蒸馏与预训练强化:通过集成多策略教师模型优化统一策略网络，在满足训练稳定性的前提下兼顾拟人化与强度指标。
分布式在线RL训练框架搭建:实现对训练样本流的异步采样与并行调度，支撑大规模RL训练任务
工作产出:
提出并实现基于轨迹结构的动作建模方法，大幅提升策略输入样本的结构化程度和训练稳定性，为RL算法提供更精确的状态-动作分布。模型已正式上线 5-6月版本，点赞率和被举报率相比上一版模型均有大幅度优化
为离线强化学习调优奖励分布，有效缓解Bot激进问题，提高了多个离线拟人化指标;模型已灰度上线7月版本，点赞率和被举报率均有优化
实现全英雄统一模型实验框架，完成MoE建模。在自对弈情况下完成模型在线RL训练，强度达到最高段位水平
搭建基于分路lane结构的分布式强化学习样本采集系统，重构Actor模块以支持多路并行推送与训练节点解耦，有效支撑多策略并行训练与分布式扩展。该框架已支持高并发分布式模型训练，实现超数千个环境同时交互采样。

2024.08 - 2024.11

中国科学院自动化研究所-算法实习生

概述：负责多智能体强化学习的研究工作，在真实场景下实现多智能体围捕任务。
技术栈：深度学习、强化学习、分布式训练。
图结构三对一围捕策略研究
- 针对三对一围捕场景完成环境的构造与图结构建模，在复杂场景中实现全局感知。
- 设计网络模型与训练框架，引入“引导策略”辅助训练。
- 设计序贯决策方案，模型性能提升至接近理论最优算法。
- 开展一系列的方法有效性与泛化性实验验证，完成相关论文。
图结构三对三围捕策略研究
- 在三对三场景中，原有的小规模场景下的“引导策略”复杂度无法满足要求。针对三对三围捕问题中的围捕方法，取消传统的Policy Net而设计新颖的Value Net拟合纯策略均衡，并进行充分的理论分析与讨论。
- 新型模型的性能能够拟合较好的围捕策略，在大规模场景与大规模集群中实现普适性。

2023.05 - 至今

开放环境多智能体群智对抗博弈理论方法及应用-重大项目-核心成员

概述：在复杂场景下完成多智能体感知、规划、博弈。
技术栈：ROS、强化学习。
职责：完成基于ROS平台智能体建图、感知、行为、决策一体化系统设计与实现。
智能体建图问题
- 设计以图结构抽象真实场景的多智能体自主探索算法，实现观测-网络高度耦合的模型，并在实机平台进行验证，撰写并投递相关论文。
智能体对抗研究
- 设计并测试智能体自动射击敌方的多种方案，并最终采用以随机森林回归的方式拟合自瞄算法，准确率达99%以上。
智能体围捕问题
- 设计图结构表征的多智能体自主围捕方案，并在实机平台进行验证。
多智能体通信服务器
- 采用Flask框架实现Web端构建，并通过FFMPEG实现机器人第一人称视角推流。Web端同时具备对局信息展示，语音控制机器人等多种实际功能。

2023.03 - 2023.05

矿洞巡检机器人-成员

Two Heads are Better than One: Collaboration-Oriented Multi-Agent Exploration System （IEEE TCDS，Q1）-学生一作

Equilibrium Policy Generalization for Pursuit-Evasion Games via Multi-Agent Reinforcement Learning on Graphs （NeurIPS 2025，CCF-A，在投）-二作

Less Repetition, Less Energy Cost: A Multi-agent Energy-saving Autonomous Exploration System （IEEE TCDS，中科院1区，在投）-学生一作