Поскольку я занимался RL в OpenAI и Anthropic, вот что я могу сказать о GRPO: