Es gibt Berichte, dass gpt-5-codex bei OpenAI intensiv für die Automatisierung von Forschungsarbeiten eingesetzt wird und dass der RL-Trainer von OpenAI viel besser ist als GRPO.
„Mach es besser. Mach keine Fehler.“
45,17K