Narracja wokół LLM-ów głosi, że stały się lepsze wyłącznie dzięki zwiększeniu mocy obliczeniowej wstępnego treningu. W rzeczywistości stały się lepsze dzięki zwiększeniu ilości danych wstępnego treningu, podczas gdy moc obliczeniowa jest tylko środkiem do celu, jakim jest wprowadzenie większej ilości danych do modelu. Dane są fundamentalnym wąskim gardłem. Nie możesz zwiększyć mocy obliczeniowej wstępnego treningu bez większej ilości danych. Jak dotąd te dane były głównie generowane przez ludzi - przez ostatnie kilka lat zatrudniono ponad 20 000 osób na pełny etat, aby dostarczały adnotacje do trenowania LLM-ów. Nawet gdy dane pochodzą z środowisk RL, te środowiska musiały być celowo stworzone przez ludzi. I to jest fundamentalne wąskie gardło: te modele są całkowicie zależne od ludzkiej produkcji. Są interpolacyjną bazą danych tego, co w nie wkładamy.
Tymczasem AGI w rzeczywistości będzie się poprawiać po prostu przez dodanie większej ilości *mocy obliczeniowej*. Nie będzie ograniczone przez dostępność tekstu generowanego przez ludzi.
83,68K