Audierea raportează că GPT-5-Codex este utilizat intens la OpenAI pentru automatizarea muncii de cercetare și că trainerul RL de la openai este mult mai bun decât GRPO
"Fă-o mai bună. nu face greșeli"
53,12K