Alle mensen die geschokt zijn over Rich Sutton die zeer slechte meningen heeft over LLM's (mag ik zo ver gaan om de R-slur te gebruiken), herinner je je dat veel van de meest vooraanstaande en prestigieuze oudere natuurkundigen aan het begin van de eeuw de kwantumtheorie als gek en fout afwezen.
De beroemde uitspraak luidt: "wetenschap vordert één begrafenis tegelijk" en dat heeft zijn reden. Je hebt af en toe een oude man zoals Kurzweil die het volledig begrijpt (of dat in ieder geval een paar jaar geleden deed), maar over het algemeen is het moeilijk voor de oudere hersenen om radicaal eerdere overtuigingen te herzien.
Ook heb ik elke dag meer dan 12 uur interactie met meerdere frontier LLM's, net als velen van jullie. Ik betwijfel of Sutton deze modellen intensief heeft gebruikt voor creatief, zeer technisch werk op dat niveau van intensiteit, en heeft daardoor niet het soort viscerale gevoel voor wat ze kunnen doen.
"Een nieuwe wetenschappelijke waarheid triomfeert niet door haar tegenstanders te overtuigen en hen het licht te laten zien, maar eerder omdat haar tegenstanders uiteindelijk sterven en een nieuwe generatie opgroeit die ermee vertrouwd is... Een belangrijke wetenschappelijke innovatie vindt zelden zijn weg door geleidelijk zijn tegenstanders te winnen en te bekeren: het gebeurt zelden dat Saul Paulus wordt. Wat wel gebeurt, is dat zijn tegenstanders geleidelijk uitsterven, en dat de opgroeiende generatie vanaf het begin vertrouwd raakt met de ideeën: weer een voorbeeld van het feit dat de toekomst bij de jeugd ligt." — Max Planck, Wetenschappelijke autobiografie, 1950
Overigens is een deel van de reden waarom Kurzweil al deze dingen duidelijk begreep op oudere leeftijd, dat hij praktisch de enige is (oké, misschien heeft de club nog een paar meer leden) die dit al lange tijd consequent heeft voorspeld. Dus hij hoefde zijn eerdere aannames niet veel te herzien.
Terwijl de meeste "grijze haren" in de AI, zoals Sutton, de vroege dagen hebben meegemaakt, de neats versus scruffies, het Lighthill-debat, de AI-winter, expert systemen, enz. Ze zijn gewend aan dingen die veelbelovend lijken maar dan niet echt werken ondanks veel hype en investering. Dat is de achtergrond.
Maar de Transformer-architectuur is de eerste volledig differentieerbare, Turing-complete abstractie van een universele generieke computer met het juiste niveau van generaliteit en expressieve kracht, en we hebben eindelijk de trucs gevonden om ze te trainen en hebben de FLOPS en gegevens om het nu allemaal te doen.
En, zoals Ilya zegt, deze modellen, "ze willen gewoon leren." Het is gewoon zeer onwaarschijnlijk a priori dat het allemaal in de praktijk zou werken (hoewel misschien niet omdat we dagelijks omringd zijn door lopende, pratende voorbeelden die draaien op veel minder dan 300 watt). Maar het werkt eigenlijk wel.
Maar zelfs dan is het niet zo dat dit een ongekende observatie is in de geschiedenis van de wetenschap. Wie had a priori kunnen raden dat je de meeste waargenomen natuurlijke fysieke fenomenen ex-gravity zou kunnen verklaren met een directe product van 3 Lie-groepen (ook wel het Standaardmodel van de Fysica genoemd)?
We hebben er zelfs een naam voor: de "onredelijke effectiviteit" van wiskunde in de natuurwetenschappen. In dit geval, iteratieve matrixvermenigvuldiging, enkele eenvoudige niet-lineariteiten, en de kettingregel achterstevoren met enkele trucs om te helpen met numerieke stabiliteit en gradientflow.
@goldstein_aa Dat wil zeggen, AGI is al hier en het is alleen vanwege het voortdurende verschuiven van de doelpalen, slechte prompting vaardigheden en domme gotcha-vragen (die al grotendeels zijn opgelost) dat iemand dat betwist.
22,34K