Het verhaal rondom LLM's is dat ze beter zijn geworden puur door het opschalen van de pretraining *compute*. In werkelijkheid zijn ze beter geworden door het opschalen van de pretraining *data*, terwijl compute slechts een middel is om meer data in het model te proppen. Data is de fundamentele bottleneck. Je kunt de pretraining compute niet opschalen zonder meer data. En tot nu toe is deze data voornamelijk door mensen gegenereerd -- meer dan 20.000 mensen zijn de afgelopen jaren fulltime in dienst geweest om annotaties te leveren voor het trainen van LLM's. Zelfs wanneer de data afkomstig is uit RL-omgevingen, moesten de omgevingen nog steeds opzettelijk door mensen worden gemaakt. En dat is de fundamentele bottleneck hier: deze modellen zijn volledig afhankelijk van menselijke output. Ze zijn een interpolatieve database van wat we erin stoppen.
Ondertussen zal AGI in feite beter worden door simpelweg meer *rekenkracht* toe te voegen. Het zal niet worden beperkt door de beschikbaarheid van door mensen gegenereerde tekst.
57,98K