Il y a un an, nous avons vérifié un aperçu d'une version non publiée de @OpenAI o3 (Haute) qui a obtenu 88 % sur l'ARC-AGI-1 à environ 4,5 k$/tâche Aujourd'hui, nous avons vérifié un nouveau score SOTA de GPT-5.2 Pro (X-Haut) de 90,5 % à 11,64 $/tâche Cela représente une amélioration d'efficacité d'environ 390X en un an
Nous avons également vérifié que GPT-5.2 Pro (High) est SOTA pour ARC-AGI-2, obtenant un score de 54,2 % pour 15,72 $/tâche (Due aux délais d'attente de l'API, nous n'avons pas pu vérifier de manière fiable GPT 5.2 Pro X-High sur ARC-AGI-2) Tous les scores vérifiés de la famille GPT-5.2 :
ARC-AGI atteint son objectif de 2019 de pousser l'IA au-delà de la mémorisation vers une adaptation efficace en temps réel Les systèmes de raisonnement montrent désormais une véritable intelligence fluide sur des tâches simples
Même avec cette grande amélioration de l'efficacité, il reste un grand écart par rapport aux humains L'objectif du Grand Prix 2025 était de 0,20 $/tâche et les humains sont plusieurs ordres de grandeur plus efficaces sur une base énergétique Il y a encore beaucoup à apprendre de l'ARC-AGI-1 et de l'ARC-AGI-2
ARC-AGI-3 (2026) poussera encore plus loin la capacité et l'efficacité de l'IA Conçu pour mesurer la capacité de l'IA à apprendre et à généraliser efficacement dans des environnements nouveaux, ce sera un benchmark de raisonnement interactif sans précédent Restez à l'écoute
Si expédier des centaines de nouveaux jeux qui testent les limites de l'IA en seulement quelques mois vous semble excitant, rejoignez l'équipe d'ingénierie qui crée ARC-AGI-3
44,59K