分布式训练之五：GPU入门

分布式训练之五：GPU入门

GPU 架构
如何通过 kernel 提升性能
Fused Kernels 融合内核
Flash Attention

Liz大约 9 分钟

分布式训练之四：并行策略

分布式训练之四：并行策略

五个维度的并行策略
- batch dimension
- hidden_state dimension
- sequence dimension
- model_layer dimension
- model_expert dimension
最佳训练配置
张量并行 Tensor Parallelism（TP）
序列并行 Sequence Parallelism (SP)
上下文并行 Context Parallelism (CP)
流水线并行 Pipeline parallelism (PP)
专家并行 Expert Parallelism (PP)

Liz大约 13 分钟

分布式训练之三：数据并行 Data Parallelism

分布式训练之三：数据并行 Data Parallelism

Data Parallelism (DP)
DP 优化
DP 实践
ZeRO-1 / ZeRO-2 / ZeRO-3 (FSDP)

Liz大约 12 分钟

分布式训练之二：并行编程 Parallel Programming

分布式训练之二：并行编程 Parallel Programming

Broadcast
Reduce & AllReduce
Gather & AllGather
Scatter & ReduceScatter

Liz大约 6 分钟

分布式训练之一：模型训练的内存占用

分布式训练之一：模型训练的内存占用

模型训练过程和重要超参数
模型训练的内存使用
内存优化建议
- 激活值重新计算 Activation Recomputation / Gradient Checkpointing
- 梯度累积 Gradient Accumulation
- 混合精度训练 Mixed Precision Training

Liz大约 15 分钟