MCP 技术解读 MCP 技术解读 MCP概念、演进与意义 MCP架构、核心组件与功能类型 MCP Client 与 MCP Server 不同角色使用 MCP 的方式和逻辑 Liz大约 13 分钟LLMMCP
EasyR1 + Verl + Ray + QwenVL + GRPO EasyR1 + Verl + Ray + QwenVL + GRPO 背景介绍 GRPO 四个主要步骤 采用 EasyR1 的 GRPO 训练代码实现 实操记录 GRPO 训练细节 Liz大约 6 分钟LLMEasyR1VerlRayQwenVLGRPO
SFTTrainer 源码解读: Prepare Train SFTTrainer 源码解读: Prepare Train Prepare Train 总体逻辑 Prepare Train 代码细节 _inner_training_loop training_step compute_loss PeftModelForCausalLM.forward Linear4bit.forward Liz大约 5 分钟LLMSFTTrainerSource CodePrepare Train
SFTTrainer 源码解读: Prepare Dataset SFTTrainer 源码解读: Prepare Dataset Prepare Dataset 总体逻辑 Prepare Dataset 代码细节 SFTTrainer.init DataCollatorForLanguageModeling _prepare_dataset Liz大约 4 分钟LLMSFTTrainerSource CodePrepare Dataset
SFTTrainer 源码解读: Prepare Model SFTTrainer 源码解读: Prepare Model Prepare Model 总体逻辑 Prepare Model 代码细节 _prepare_peft_model PeftModelForCausalLM.init PeftModel.init LoraModel.init Linear4bit.init LoraLayer.init(self, base_layer) Liz大约 6 分钟LLMSFTTrainerSource CodePrepare Model
QLoRA 代码实现及过程分析 QLoRA 代码实现及过程分析 背景介绍: QLoRA/基础模型/数据集 QLoRA 代码实现 QLoRA 过程分析 QLoRA 应用价值 QLoRA 疑点思考 QLoRA 细节补充 Liz大约 16 分钟LLMQLoRA
GRPO + Unsloth + vLLM GRPO + Unsloth + vLLM GRPO工作原理 GRPO vs PPO GRPO的三个革命性设计 GRPO 代码实现 Liz大约 14 分钟LLMGRPORLUnslothvLLM
分布式训练之五:GPU入门 分布式训练之五:GPU入门 GPU 架构 如何通过 kernel 提升性能 Fused Kernels 融合内核 Flash Attention Liz大约 9 分钟LLM分布式并行
分布式训练之四:并行策略 分布式训练之四:并行策略 五个维度的并行策略 batch dimension hidden_state dimension sequence dimension model_layer dimension model_expert dimension 最佳训练配置 张量并行 Tensor Parallelism(TP) 序列并行 Sequence Parallelism (SP) 上下文并行 Context Parallelism (CP) 流水线并行 Pipeline parallelism (PP) 专家并行 Expert Parallelism (PP) Liz大约 13 分钟LLM分布式并行