Acum un an, am verificat o previzualizare a unei versiuni nelansate a @OpenAI o3 (High) care a obținut un scor de aproximativ 88% la ARC-AGI-1. 4.500$/sarcină Astăzi, am verificat un nou scor SOTA GPT-5.2 Pro (X-High) de 90,5% la 11,64 $ pe sarcină Aceasta reprezintă o îmbunătățire a eficienței de ~390X într-un an
De asemenea, am verificat că GPT-5.2 Pro (High) este SOTA pentru ARC-AGI-2, obținând un scor de 54,2% pentru 15,72 $ pe sarcină (Din cauza timeout-urilor API-ului, nu am putut verifica în mod fiabil GPT 5.2 Pro X-High pe ARC-AGI-2) Toate scorurile verificate ale familiei GPT-5.2:
ARC-AGI își atinge obiectivul pentru 2019 de a împinge AI dincolo de memorare, către o adaptare eficientă în timp real Sistemele de raționament arată acum o inteligență fluidă autentică în sarcini simple
Chiar și cu această îmbunătățire majoră a eficienței, rămâne o diferență mare față de oameni Obiectivul Marele Premiu 2025 a fost de 0,20$ pe sarcină, iar oamenii sunt cu câteva ordine de mărime mai eficienți energetic Mai este încă mult de învățat de la ARC-AGI-1 și ARC-AGI-2
ARC-AGI-3 (2026) va stimula și mai mult capacitatea și eficiența IA Conceput pentru a măsura capacitatea AI de a învăța și generaliza eficient în medii noi, va fi un Benchmark de Raționament Interactiv de prim de acest fel Rămâneți pe aproape
Dacă lansarea a sute de jocuri noi care testează frontiera AI în doar câteva luni ți se pare interesant, alătură-te echipei de ingineri care creează ARC-AGI-3
44,57K