工作经历

字节跳动(ByteDance) Seed

2023.12 - 2025.12

大模型训练研究员&&多模态训练框架负责人

上海

作为 Seed 团队最早期成员之一，聚焦于大语言模型与多模态基础模型的 AI Infra 和大规模训练系统，覆盖 pre-train 到 post-train 全链路。从 Seed 第一代模型开始，参与万卡集群训练。带领团队建设字节多模态训练系统 VeOmni，并深度参与 Seed 1.5 到 Seed 2.0 核心模型系列，以及 UI-TARS 系列 GUI Agent 模型的研发。

项目亮点

VeOmni：主导 PyTorch Native 多模态训练系统研发，支持 pre-training / post-training，并服务于 Seed 核心模型与 UI-TARS 等项目。
核心模型研发：参与 Seed 1.5 到 Seed 2.0 核心模型系列研发，覆盖推理模型与多模态模型等主要方向。
UI-TARS 系列：参与 UI-TARS 原生 GUI Agent 模型家族背后的研究与系统基础设施建设。
开源系统：参与 veScale 与 verl，支持分布式 LLM 训练与 RL post-training。

字节跳动(ByteDance) AML

2023.6 - 2023.12

大模型算法实习生

上海

参与 LLM post-training 与 Agent 研究，相关工作直接产出了 Process Reward Model、SFT 数据选择和数据分析 Agent 三个方向的论文成果。

Process Reward Modeling：构建 step-level reward model 的数据处理、训练和评测全流程，产出论文 Let's Reward Step by Step: Step-Level Reward Model as the Navigators for Reasoning。
SFT Data Selection：共同提出 DavIR，通过模型中心的数据选择方法，用 6% 的 Alpaca 数据超过全量训练效果，后发表于 ACL 2025。
Agent for Data Analysis：构建 InfiAgent-DABench，包括 benchmark、agent infra 与评测流水线，后发表于 ICML 2024。

潞晨科技(HPC-AI Technology)

2022.7 - 2023.5

机器学习系统工程师

新加坡

作为早期员工参与公司从 Seed 到 A 轮的发展，负责大模型系统与开源产品研发。

ColossalAI 核心开发者，参与异构显存管理、流水线并行和分布式 checkpoint 等能力建设。
主导 ColossalChat 开发，负责指令数据处理、分布式训练与 Coati 7B/13B 对齐训练。
主导 ColoDiffusion，构建面向大 batch 训练的高效 Diffusion 训练方案。
推动 ColossalAI 从 0 增长到 20k+ GitHub stars，并参与相关开源社区建设。
技术栈: Python, C++, CUDA, PyTorch, Ray, ColossalAI, PyTorch Lightning, TensorRT, DeepSpeed, Hugging Face

商汤科技(SenseTime) 研究院模型训练

2021.12 - 2022.6

见习算法研究员

杭州

参与商汤早期 Megatron 大模型训练框架的开发。

华为2012实验室(Huawei 2012 Lab) 分布式并行实验室

2021.7 - 2021.12

算法工程实习生

杭州

参与 MindSpore 与 MindSpore Lite 端侧 GPU 推理与运行时基础设施开发。

文章

Ma, Qianli, Zheng, Y., Shi, Z., Zhao, Z., Jia, B., et al. (2025). VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo. [Paper]
ByteDance Seed, Chen, J., Fan, T., Liu, X., Lin, Z., et al. (2025). Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning. [Paper]
Qin, Y., Ye, Y., Fang, J., Wang, H., Liang, S., et al. (2025). UI-TARS: Pioneering Automated GUI Interaction with Native Agents. [Paper]
Zhou, H., Liu, T., Ma, Qianli, Zhang, Y., Yuan, J., et al. (2025). DavIR: Data Selection via Implicit Reward for Large Language Models. ACL 2025. [Paper]
Hu, X., Zhao, Z., Wei, S., Chai, Z., Ma, Qianli, et al. (2024). InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks. ICML 2024. [Paper]
Ma, Qianli, Zhou, H., Liu, T., Yuan, J., Liu, P., et al. (2023). Let's reward step by step: Step-Level reward model as the Navigators for Reasoning. [Paper]

比赛和项目经历

PokemonGAI

Pokemon GAI是一个基于生成式AI的AI native应用, 使用了最新的AI native 框架比如Langchain, Huggingface Space, FastAPI

知识储备和专业技能

编程语言:熟悉C、C++,Python;了解go,java,javascript,html等语言
AI全栈

熟悉深度神经网络的常用技术和算法原理, 熟悉Stable Diffusion, InstructGPT, Alphafold, LLama等前沿大模型
熟悉指令微调, RLHF, Prompt Learning, Task Planning等前沿大语言模型技术
精通Pytorch、Mindspore, Pytorch-lightning等深度学习框架
精通ColossalAI,DeepSpeed,Ray, Megatron-LM等大模型分布式训练框架进行显存优化,张量并行,分布式训练,异构计算
精通端侧AI推理框架Mindsporelite及其源码; 了解MNN,TensorRT,OpenVino等推理框架
熟悉使用OpenCL,Cuda进行GPU编程,算子融合;了解AI编译

其他工具:Linux,Git,Vim,Shell,Cmake,Docker
外语水平:雅思6.5,六级573

马千里

教育背景

工作经历

文章

比赛和项目经历

知识储备和专业技能