跳至主要內容
分布式训练之五:GPU入门

分布式训练之五:GPU入门

  • GPU 架构
  • 如何通过 kernel 提升性能
  • Fused Kernels 融合内核
  • Flash Attention

Liz大约 9 分钟LLM分布式并行
分布式训练之四:并行策略

分布式训练之四:并行策略

  • 五个维度的并行策略
    • batch dimension
    • hidden_state dimension
    • sequence dimension
    • model_layer dimension
    • model_expert dimension
  • 最佳训练配置
  • 张量并行 Tensor Parallelism(TP)
  • 序列并行 Sequence Parallelism (SP)
  • 上下文并行 Context Parallelism (CP)
  • 流水线并行 Pipeline parallelism (PP)
  • 专家并行 Expert Parallelism (PP)

Liz大约 13 分钟LLM分布式并行
分布式训练之一:模型训练的内存占用

分布式训练之一:模型训练的内存占用

  • 模型训练过程和重要超参数
  • 模型训练的内存使用
  • 内存优化建议
    • 激活值重新计算 Activation Recomputation / Gradient Checkpointing
    • 梯度累积 Gradient Accumulation
    • 混合精度训练 Mixed Precision Training

Liz大约 15 分钟LLM分布式并行