Пройшовши RL в OpenAI та Anthropic, ось що я можу сказати про GRPO: