聽說 gpt-5-codex 在 openai 被廣泛用於自動化研究工作,而且 openai 的 RL 訓練器比 GRPO 好得多。
「讓它變得更好。不要犯錯」
45.18K