听说 gpt-5-codex 在 OpenAI 被广泛用于自动化研究工作,并且 OpenAI 的 RL 训练器比 GRPO 好得多。
“让它变得更好。不要犯错误。”
17K