GPT-5-CodexはOpenAIで研究作業の自動化に多用されており、OpenAIのRLトレーナーはGRPOよりもはるかに優れているという報告を聞いています
「もっと良くしてください。間違いを犯さないでください」
45.17K