nghe báo cáo rằng gpt-5-codex đang được sử dụng nhiều tại openai để tự động hóa công việc nghiên cứu, và rằng huấn luyện viên RL của openai tốt hơn nhiều so với GRPO
“cải thiện nó. đừng mắc sai lầm”
34,37K