跳至主要內容
EasyR1 + Verl + Ray + QwenVL + GRPO

EasyR1 + Verl + Ray + QwenVL + GRPO

  • 背景介绍
  • GRPO 四个主要步骤
  • 采用 EasyR1 的 GRPO 训练代码实现
  • 实操记录 GRPO 训练细节

Liz大约 6 分钟LLMEasyR1VerlRayQwenVLGRPO
GRPO + Unsloth + vLLM

GRPO + Unsloth + vLLM

  • GRPO工作原理
  • GRPO vs PPO
  • GRPO的三个革命性设计
  • GRPO 代码实现

Liz大约 14 分钟LLMGRPORLUnslothvLLM