Alla människor som är i chock över att Rich Sutton har mycket dåliga uppfattningar om LLM (får jag gå så långt som att använda R-skällsord), kom bara ihåg att många av de mest august och prestigefyllda äldre fysikerna vid sekelskiftet avfärdade kvantteorin som galen och felaktig.
Det berömda talesättet lyder: "Vetenskapen går framåt en begravning i taget" av en anledning. Du får en och annan gammal kille som Kurzweil som förstår det helt (eller åtminstone gjorde det för ett par år sedan), men i allmänhet är det svårt för den äldre hjärnan att revidera tidigare radikalt.
Dessutom interagerar jag med flera frontier LLM:er i 12+ timmar om dagen varje dag, liksom många av er. Jag tvivlar på att Sutton intensivt har använt dessa modeller för att göra kreativt, högteknologiskt arbete på den intensitetsnivån, och därmed inte har den typ av visceral känsla för vad de kan göra.
"En ny vetenskaplig sanning triumferar inte genom att övertyga sina motståndare och få dem att se ljuset, utan snarare för att dess motståndare så småningom dör och en ny generation växer upp som är bekant med den... En viktig vetenskaplig innovation kommer sällan fram genom att den gradvis vinner över och omvänder sina motståndare: det händer sällan att Saulus blir Paulus. Vad som händer är att dess motståndare gradvis dör ut, och att den växande generationen blir bekant med idéerna från början: ytterligare ett exempel på att framtiden ligger hos ungdomen." — Max Planck, Vetenskaplig självbiografi, 1950
En del av anledningen till att Kurzweil förstod allt det här klart på sin ålderdom är att han praktiskt taget är den enda (okej, kanske har klubben några fler personer i sig) som konsekvent förutspådde detta under lång tid. Så han behövde egentligen inte revidera sina tidigare rutiner så mycket.
Medan de flesta av de "gråa håren" som Sutton levde under de tidiga dagarna, de snygga vs tilltufsade, Lighthill Debate, AI Winter, Expert Systems, etc. De är vana vid att saker ser lovande ut men sedan inte riktigt fungerar trots en hel del hype och investeringar. Det är det föregående.
Men Transformer-arkitekturen är den första helt differentierbara, Turing-fullständiga abstraktionen av en universell generisk dator med rätt nivå av allmängiltighet och uttryckskraft, och vi hittade äntligen knepen för att träna dem och har FLOPS och data för att göra allt nu.
Och, som Ilya säger, dessa modeller, "de vill bara lära sig". Det är bara högst osannolikt a priori att allt skulle fungera i praktiken (även om det kanske inte beror på att vi är omgivna av gående, talande exempel dagligen som körs på mycket mindre än 300 watt). Men det gör det faktiskt.
Men även då är det inte så att detta är en observation utan motstycke i vetenskapens historia. Vem kunde ha gissat a priori att man kunde förklara de flesta observerade naturliga fysikaliska fenomen ex-gravitation med hjälp av en direkt produkt av 3 Liegrupper (aka, fysikens standardmodell)?
Vi har till och med ett namn för det: matematikens "orimliga effektivitet" inom naturvetenskapen. I det här fallet, itererad matrismultiplikation, några enkla icke-linjäriteter och kedjeregeln i omvänd ordning med några knep för att hjälpa till med numerisk stabilitet och gradientflöde.
@goldstein_aa Allt detta vill säga, AGI är redan här och det är bara på grund av oavbruten förflyttning av målstolpar, dålig förmåga att förleda arbetet och dumma frågor (som redan i stort sett har lösts) som någon ifrågasätter det.
22,35K