分布式训练之五:GPU入门 分布式训练之五:GPU入门 GPU 架构 如何通过 kernel 提升性能 Fused Kernels 融合内核 Flash Attention Liz大约 9 分钟LLM分布式并行
分布式训练之四:并行策略 分布式训练之四:并行策略 五个维度的并行策略 batch dimension hidden_state dimension sequence dimension model_layer dimension model_expert dimension 最佳训练配置 张量并行 Tensor Parallelism(TP) 序列并行 Sequence Parallelism (SP) 上下文并行 Context Parallelism (CP) 流水线并行 Pipeline parallelism (PP) 专家并行 Expert Parallelism (PP) Liz大约 13 分钟LLM分布式并行
分布式训练之三:数据并行 Data Parallelism 分布式训练之三:数据并行 Data Parallelism Data Parallelism (DP) DP 优化 DP 实践 ZeRO-1 / ZeRO-2 / ZeRO-3 (FSDP) Liz大约 12 分钟LLM分布式并行
分布式训练之二:并行编程 Parallel Programming 分布式训练之二:并行编程 Parallel Programming Broadcast Reduce & AllReduce Gather & AllGather Scatter & ReduceScatter Liz大约 6 分钟LLM分布式并行
分布式训练之一:模型训练的内存占用 分布式训练之一:模型训练的内存占用 模型训练过程和重要超参数 模型训练的内存使用 内存优化建议 激活值重新计算 Activation Recomputation / Gradient Checkpointing 梯度累积 Gradient Accumulation 混合精度训练 Mixed Precision Training Liz大约 15 分钟LLM分布式并行