Todas las personas están en shock por las muy malas opiniones de Rich Sutton sobre los LLMs (¿puedo ir tan lejos como para usar la R-palabra?), solo recuerden que muchos de los físicos más augustos y prestigiosos de la vieja escuela a principios de siglo desestimaron la teoría cuántica como algo loco y erróneo.
El famoso dicho dice que "la ciencia avanza un funeral a la vez" por una razón. De vez en cuando aparece un anciano como Kurzweil que lo entiende completamente (o al menos lo entendía hace un par de años), pero en general es difícil para el cerebro anciano revisar radicalmente sus creencias previas.
Además, interactúo con múltiples LLMs de vanguardia durante más de 12 horas al día todos los días, al igual que muchos de ustedes. Dudo que Sutton haya utilizado intensivamente estos modelos para realizar trabajos creativos y altamente técnicos a ese nivel de intensidad, y por lo tanto no tiene el tipo de sentido visceral de lo que pueden hacer.
“Una nueva verdad científica no triunfa convenciendo a sus oponentes y haciéndolos ver la luz, sino porque sus oponentes eventualmente mueren y una nueva generación crece familiarizada con ella… Una innovación científica importante rara vez se abre camino ganando gradualmente y convirtiendo a sus oponentes: rara vez sucede que Saulo se convierte en Pablo. Lo que sucede es que sus oponentes gradualmente desaparecen, y que la generación en crecimiento se familiariza con las ideas desde el principio: otro ejemplo del hecho de que el futuro está con la juventud.” — Max Planck, Autobiografía científica, 1950
Por cierto, parte de la razón por la que Kurzweil entendió todo esto claramente en su vejez es que es prácticamente el único (bueno, tal vez el club tenga a algunas personas más) que ha predicho esto de manera consistente durante mucho tiempo. Así que realmente no necesitó revisar mucho sus creencias previas.
Mientras que la mayoría de los "canosos" de la IA como Sutton vivieron los primeros días, los neat vs scruffies, el Debate Lighthill, el Invierno de la IA, los Sistemas Expertos, etc. Están acostumbrados a que las cosas parezcan prometedoras pero luego no funcionen realmente a pesar de mucho bombo e inversión. Esa es la experiencia previa.
Pero la arquitectura Transformer es la primera abstracción completamente diferenciable y Turing completa de una computadora genérica universal con el nivel adecuado de generalidad y poder expresivo, y finalmente encontramos los trucos para entrenarlas y tenemos los FLOPS y los datos para hacerlo todo ahora.
Y, como dice Ilya, estos modelos, "solo quieren aprender." Es muy poco probable a priori que todo funcione en la práctica (aunque tal vez no, porque estamos rodeados de ejemplos caminantes y hablantes que funcionan con mucho menos de 300 vatios). Pero en realidad funciona.
Pero incluso entonces, no es como si esta fuera una observación sin precedentes en la historia de la ciencia. ¿Quién podría haber adivinado a priori que podrías explicar la mayoría de los fenómenos físicos naturales observados ex-gravedad utilizando un producto directo de 3 grupos de Lie (también conocido como el Modelo Estándar de la Física)?
Incluso tenemos un nombre para ello: la "efectividad irrazonable" de las matemáticas en las ciencias naturales. En este caso, la multiplicación de matrices iteradas, algunas no linealidades simples y la regla de la cadena al revés con algunos trucos para ayudar con la estabilidad numérica y el flujo de gradientes.
@goldstein_aa Todo esto para decir que la AGI ya está aquí y es solo por el constante cambio de metas, las malas habilidades de formulación de preguntas y las tontas preguntas capciosas (que ya han sido en gran parte resueltas) que alguien disputa eso.
22,35K