Narațiunea din jurul LLM-urilor este că s-au îmbunătățit pur și simplu prin extinderea *calculului*. În realitate, s-au îmbunătățit prin extinderea *datelor*, în timp ce calculul este doar un mijloc de a înghesui mai multe date în model. Datele sunt blocajul fundamental. Nu puteți scala calculul de pre-antrenament fără mai multe date. Și până acum aceste date au fost generate în principal de oameni - peste 20.000 de oameni au fost angajați cu normă întreagă în ultimii ani pentru a furniza adnotări pentru instruirea LLM-urilor. Chiar și atunci când datele provin de la mediul RL, acestea trebuiau să fie realizate manual în mod intenționat de oameni. Și acesta este blocajul fundamental aici: aceste modele depind complet de producția umană. Sunt o bază de date interpolativă a ceea ce punem în ele.
Între timp, AGI se va îmbunătăți de fapt prin simpla adăugare a mai multor *calcule*. Nu va fi blocat de disponibilitatea textului generat de oameni.
57,97K