Ayant travaillé sur le RL chez OpenAI et Anthropic, voici ce que je peux dire sur le GRPO :