Наратив вокруг LLM заключается в том, что они стали лучше исключительно за счет увеличения вычислительных мощностей при предобучении. На самом деле, они стали лучше благодаря увеличению объема предобучающих *данных*, в то время как вычисления являются лишь средством для того, чтобы втиснуть больше данных в модель. Данные являются основным узким местом. Вы не можете увеличить вычислительные мощности предобучения без дополнительных данных. И до сих пор эти данные в основном генерировались людьми — более 20,000 человек работали на полную ставку в последние несколько лет, чтобы предоставить аннотации для обучения LLM. Даже когда данные поступают из RL-сред, эти среды все равно должны были быть специально созданными людьми. И это основное узкое место здесь: эти модели полностью зависят от человеческого вывода. Они являются интерполяционной базой данных того, что мы в них вложили.
Тем временем, AGI на самом деле будет улучшаться просто за счет добавления большего количества *вычислений*. Он не будет ограничен доступностью текста, созданного человеком.
83,68K