Todas las personas en estado de shock acerca de que Rich Sutton tenga muy malas opiniones sobre los LLM (podría ir tan lejos como para usar el insulto R), solo recuerden que muchos de los físicos más augustos y prestigiosos de principios de siglo descartaron la teoría cuántica como loca y errónea.
El famoso dicho dice que "la ciencia avanza un funeral a la vez" por una razón. De vez en cuando hay un viejo como Kurzweil que lo entiende por completo (o al menos lo hizo hace un par de años), pero en general es difícil para el cerebro anciano revisar radicalmente los antecedentes.
Además, interactúo con múltiples LLM fronterizos durante 12+ horas al día todos los días, al igual que muchos de ustedes. Dudo que Sutton haya utilizado intensamente estos modelos para hacer un trabajo creativo y altamente técnico a ese nivel de intensidad y, por lo tanto, no tiene el tipo de sentido visceral de lo que pueden hacer.
"Una nueva verdad científica no triunfa convenciendo a sus oponentes y haciéndoles ver la luz, sino más bien porque sus oponentes eventualmente mueren y crece una nueva generación que está familiarizada con ella... Una innovación científica importante rara vez se abre camino ganando y convirtiendo gradualmente a sus oponentes: rara vez sucede que Saulo se convierta en Pablo. Lo que sí sucede es que sus oponentes mueren gradualmente, y que la generación en crecimiento se familiariza con las ideas desde el principio: otro ejemplo del hecho de que el futuro está en la juventud". — Max Planck, Autobiografía científica, 1950
Por cierto, parte de la razón por la que Kurzweil entendió todas estas cosas claramente en su vejez es que es prácticamente el único (ok, tal vez el club tenga algunas personas más) que predijo esto consistentemente durante mucho tiempo. Así que realmente no necesitaba revisar mucho sus antecedentes.
Mientras que la mayoría de las "canas" de la IA como Sutton vivieron los primeros días, los limpios contra los desaliñados, el Debate Lighthill, el Invierno de la IA, los Sistemas Expertos, etc. Están acostumbrados a que las cosas parezcan prometedoras pero que no funcionen realmente a pesar de mucha publicidad e inversión. Eso es lo anterior.
Pero la arquitectura Transformer es la primera abstracción completa de Turing totalmente diferenciable de una computadora genérica universal con el nivel adecuado de generalidad y poder expresivo, y finalmente encontramos los trucos para entrenarlos y tener los FLOPS y los datos para hacerlo todo ahora.
Y, como dice Ilya, estos modelos, "solo quieren aprender". Es muy poco probable a priori que todo funcione en la práctica (aunque tal vez no porque estamos rodeados de ejemplos que caminan y hablan diariamente con mucho menos de 300 vatios). Pero en realidad lo hace.
Pero incluso entonces, no es como si esta fuera una observación sin precedentes en la historia de la ciencia. ¿Quién podría haber adivinado a priori que se podría explicar la mayoría de los fenómenos físicos naturales observados ex-gravedad utilizando un producto directo de 3 grupos de Lie (también conocido como el Modelo Estándar de Física)?
Incluso tenemos un nombre para ello: la "efectividad irrazonable" de las matemáticas en las ciencias naturales. En este caso, multiplicación de matrices iteradas, algunas no linealidades simples y la regla de la cadena a la inversa con algunos trucos para ayudar con la estabilidad numérica y el flujo de gradiente.
@goldstein_aa Todo lo que quiere decir es que AGI ya está aquí y es solo debido al incesante movimiento del poste de la portería, las malas habilidades de incitación y las preguntas tontas (que ya se han resuelto en gran medida) que alguien discute eso.
23.23K