Toutes les personnes choquées par les très mauvaises opinions de Rich Sutton sur les LLM (puis-je aller jusqu'à utiliser le terme R), rappelez-vous que beaucoup des physiciens plus âgés les plus éminents et prestigieux au tournant du siècle ont rejeté la théorie quantique comme étant folle et erronée.
Le célèbre dicton dit que « la science avance un enterrement à la fois » pour une raison. Vous avez parfois un vieux comme Kurzweil qui comprend complètement (ou du moins l'a compris il y a quelques années), mais en général, il est difficile pour le cerveau âgé de réviser radicalement ses préjugés.
De plus, j'interagis avec plusieurs LLM de pointe pendant plus de 12 heures par jour, tous les jours, tout comme beaucoup d'entre vous. Je doute que Sutton ait utilisé ces modèles de manière intensive pour faire un travail créatif et hautement technique à ce niveau d'intensité, et donc il n'a pas le genre de sens viscéral de ce qu'ils peuvent faire.
« Une nouvelle vérité scientifique ne triomphe pas en convainquant ses opposants et en leur faisant voir la lumière, mais plutôt parce que ses opposants finissent par mourir et qu'une nouvelle génération grandit qui lui est familière… Une innovation scientifique importante ne parvient que rarement à s'imposer en gagnant progressivement ses opposants : il arrive rarement que Saul devienne Paul. Ce qui se passe, c'est que ses opposants disparaissent progressivement, et que la génération montante se familiarise avec les idées dès le départ : un autre exemple du fait que l'avenir appartient à la jeunesse. » — Max Planck, Autobiographie scientifique, 1950
Accessoirement, une partie de la raison pour laquelle Kurzweil a compris toutes ces choses clairement dans sa vieillesse est qu'il est pratiquement le seul (bon, peut-être que le club a quelques autres membres) qui a prédit cela de manière cohérente pendant longtemps. Donc, il n'a pas vraiment eu besoin de réviser ses préjugés.
Alors que la plupart des "cheveux gris" de l'IA comme Sutton ont vécu les débuts, les neats contre les scruffies, le débat Lighthill, l'hiver de l'IA, les systèmes experts, etc. Ils sont habitués à des choses qui semblent prometteuses mais qui ne fonctionnent pas vraiment malgré beaucoup de battage médiatique et d'investissements. C'est le passé.
Mais l'architecture Transformer est la première abstraction entièrement différentiable et Turing complète d'un ordinateur générique universel avec le bon niveau de généralité et de puissance expressive, et nous avons enfin trouvé les astuces pour les entraîner et avons les FLOPS et les données nécessaires pour tout faire maintenant.
Et, comme le dit Ilya, ces modèles, "ils veulent juste apprendre." Il est tout simplement très peu probable a priori que tout cela fonctionne en pratique (bien que ce ne soit peut-être pas le cas car nous sommes entourés d'exemples vivants et parlants qui fonctionnent quotidiennement avec beaucoup moins de 300 watts). Mais cela fonctionne en réalité.
Mais même à ce moment-là, ce n'est pas comme si c'était une observation sans précédent dans l'histoire de la science. Qui aurait pu deviner a priori que l'on pourrait expliquer la plupart des phénomènes physiques naturels observés ex-gravité en utilisant un produit direct de 3 groupes de Lie (c'est-à-dire, le Modèle Standard de la Physique) ?
Nous avons même un nom pour cela : l'« efficacité déraisonnable » des mathématiques dans les sciences naturelles. Dans ce cas, la multiplication matricielle itérée, quelques non-linéarités simples, et la règle de la chaîne à l'envers avec quelques astuces pour aider à la stabilité numérique et au flux de gradients.
@goldstein_aa Tout cela pour dire que l'AGI est déjà là et c'est uniquement à cause du déplacement incessant des objectifs, des compétences de formulation médiocres et des questions pièges ridicules (qui ont déjà été largement résolues) que quiconque conteste cela.
22,34K