La narrazione attorno agli LLM è che siano migliorati esclusivamente aumentando il *calcolo* del pre-addestramento. In realtà, sono migliorati aumentando i *dati* del pre-addestramento, mentre il calcolo è solo un mezzo per inserire più dati nel modello. I dati sono il collo di bottiglia fondamentale. Non puoi aumentare il calcolo del pre-addestramento senza più dati. E finora questi dati sono stati principalmente generati da esseri umani: oltre 20.000 persone sono state impiegate a tempo pieno negli ultimi anni per fornire annotazioni per addestrare gli LLM. Anche quando i dati provengono da ambienti RL, gli ambienti devono comunque essere stati appositamente creati a mano dagli esseri umani. E questo è il collo di bottiglia fondamentale qui: questi modelli dipendono completamente dall'output umano. Sono un database interpolativo di ciò che mettiamo in essi.
Nel frattempo, l'AGI migliorerà semplicemente aggiungendo più *calcolo*. Non sarà limitata dalla disponibilità di testi generati da esseri umani.
57,98K