La narrativa en torno a los LLM es que mejoraron simplemente al aumentar el preentrenamiento *compute*. En realidad, mejoraron al escalar los *datos* de preentrenamiento, mientras que la computación es solo un medio para el fin de incluir más datos en el modelo. Los datos son el cuello de botella fundamental. No se puede escalar verticalmente el proceso de preentrenamiento sin más datos. Y hasta ahora, estos datos han sido generados principalmente por humanos: más de 20,000 personas han sido empleadas a tiempo completo durante los últimos años para proporcionar anotaciones para capacitar a los LLM. Incluso cuando los datos provienen de entornos de RL, los entornos aún tenían que ser hechos a mano a propósito por humanos. Y ese es el cuello de botella fundamental aquí: estos modelos dependen completamente de la producción humana. Son una base de datos interpolativa de lo que ponemos en ellos.
Mientras tanto, AGI mejorará simplemente agregando más *cómputo*. No se verá obstaculizado por la disponibilidad de texto generado por humanos.
57.98K