Esta vez es, de hecho, diferente. Descartar los LLM como meros "predictores de tokens de próxima generación" es tan tonto y reductivo como describir un cerebro como una mera "colección de neuronas que realizan señalización electroquímica". La evidencia más convincente es su extrema universalidad en todas las modalidades.
Jeffrey Emanuel
Jeffrey Emanuel27 sept, 22:43
Pero la arquitectura Transformer es la primera abstracción completa de Turing totalmente diferenciable de una computadora genérica universal con el nivel adecuado de generalidad y poder expresivo, y finalmente encontramos los trucos para entrenarlos y tener los FLOPS y los datos para hacerlo todo ahora.
Si alguien te dijera en 2005 que, dentro de 20 años, el estado absoluto del arte en algoritmos de reconocimiento de voz era el mismo sistema básico (redes neuronales profundas con atención) que los mejores algoritmos de reconocimiento de imágenes...
… que también resultó ser lo mismo que la mejor generación de texto en lenguaje natural, la mejor síntesis de voz, la mejor generación de imágenes, etc., probablemente pensarías que eran esquizofrénicos, o al menos que decían tonterías. Porque cada una de esas áreas solía tener sus propias técnicas.
Uno de los conceptos clave en el método científico, y en el pensamiento racional en general, es dar una fuerte preferencia a las explicaciones y teorías que exhiben una parsimonia extrema, donde obtienes mucho más de lo que pones. Como las 4 ecuaciones de Maxwell que explican cientos de cosas diferentes.
Fuera de la física, es difícil pensar en un mejor ejemplo de un solo mecanismo o sistema que pueda hacer tanto con tan poco. Reemplazar toda esta complejidad con una concepción unificadora (que casualmente se parece mucho en forma idealizada a cómo funciona el cerebro humano) ...
5.39K