工作经历
字节跳动(ByteDance)   Seed
2023.12 - 至今
- 打造下一代AGI系统
- 在异构硬件上打造通用多模态大模型超大规模分布式训练系统
字节跳动(ByteDance)  AML
2023.6 - 2023.12
- 参与LLM system, TaskPlanning, SFT data selection相关研究, 致力于解决推理认知, 并通过预训练模型与代码生成/理解构建一个强大的通用问题解决器(AI Agent)
潞晨科技(HPC-AI Technology)
2022.7 - 2023.5
-
完整经历了Startup 从种子轮到A轮各个阶段从0到1的全过程, 包括核心训练框架研发, 大模型算法研究, Ai infa toB 商业化。
-
作为核心开发参与Colossal Chat
-
从0开始调研Instruct GPT, LaMDA, CoT等一系列相关论文, 理清ChatGPT Scaling, Distributed Training,Ability eliciting, Alignment tuning等一系列关键技术点
-
承担了Coati(Colossal AI talking intelligence)大语言模型的训练代码的核心开发工作, 设计了整套训练流水线, 包括指令数据收集, 数据预处理, 模型分布式训练, 模型指令微调和人类反馈微调等, 训练了Coati7B, Coati13B大语言模型,
-
开源Colossal Chat后帮助 ColossalAI连续三天登顶Github trending榜首(三天后被马斯克开源的twitter
The Algorithm夺走榜首),
在社区产生的巨大影响力, 使得ColossalAI star数增长1w+, 成为2023年一季度增长最快的AI开源项目之一
- 参与深度学习大模型训练系统ColossalAI开发
-
参与ColossalAI 异构显存管理,分布式模型保存等核心API重构, 提升ColossalAI API易用性, 降低用户使用门槛
-
参与支持ColossalAI作为Pytorch-lightning分布式后端的开发,使得ColossalAI可以更加方便的与Pytorch-lightning集成
- 主导AIGC大模型ColoDiffusion训练方案研发
-
作为核心开发者搭建了以Pytorch-lightning + ColosaalAI为基础的Diffusion训练框架,支持多种训练模式, 成果得到Pytorch官方Twitter转发
-
使用zero优化器, auto chunk, flash-attention, cpu offload等技术打破显存墙,支持超大bacth加速训练,
-
作为Huggingface 外部开发者, 支持Huggingface Diffusers库 Dreambooth微调
在4G显存的消费级GPU进行Finetone任务,是目前最低显存开销(不考虑LoRA)的Dreambooth加速版本
- 参与蛋白质折叠模型Fastfold(Alphafold 并行加速版本)开发,加速工作
-
使用 Ray支持Fastfold数据前处理并行,加速三倍, 解决MSA特征搜索,预处理时间长的推理训练核心瓶颈
-
支持Fastfold多序列(Mutimer)预测任务, 加速2倍, 解决多序列预测任务的训练瓶颈
- 技术栈:Python,C++,Cuda,Pytorch,Ray,colossal-AI,Pytorch-lightning,TensorRT,DeepSpeed,Huggingface
商汤科技(SenseTime)   研究院   模型训练
2021.12 - 2022.6
- 参与商汤科技大规模分布式机器学习训练框架(Sensetime Spring)开发,参与机器学习系统相关研究
- 推进目标检测大模型落地(Vision Transformer,Swin Transformer等),支持商汤通用目标检测框架POD使用pytorch分布式数据并行训练和混合精度训练,提升训练效率70%以上
- 参与MLops相关工作,机器学习云平台开发,集群训练任务命令行工具开发,支持模型生命周期全流程管理
- 技术栈:Python,C++,Cuda,Pytorch,go,Nebula DB
华为2012实验室(Huawei 2012 Lab)  分布式并行实验室
2021.7 - 2021.12
- 参与华为全场景AI框架 Mindspore 的开发,累计贡献3000+代码,为Mindspore Lite(端侧AI推理框架)开发三个新特性
- 完成Mindspore Lite OpenGL纹理传递核心代码,作为Mindspore Lite 1.6核心特性之一
- 完成Mindspore Lite x86平台OpenCL后端支持
- 使用Glog完善Mindspore Lite日志系统,新增日志管理,自动清除日志等功能
- 技术栈:C++,OpenCL.OpenGL,Cmake,Python