Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alle de som er i sjokk over at Rich Sutton hadde veldig dårlige meninger om LLM-er (kan jeg gå så langt som å bruke R-skjellsordet), bare husk at mange av de mest opphøyde og prestisjefylte eldre fysikerne ved århundreskiftet avfeide kvanteteori som gal og feil.
Det berømte ordtaket sier "vitenskapen fremmer en begravelse om gangen" av en grunn. Du får en og annen gammel fyr som Kurzweil som får det helt (eller i det minste gjorde det for et par år siden), men generelt er det vanskelig for den eldre hjernen å revidere priors radikalt.
Jeg samhandler også med flere grense-LLM-er i 12+ timer om dagen hver dag, det samme gjør mange av dere. Jeg tviler på at Sutton har brukt disse modellene intensivt til å gjøre kreativt, svært teknisk arbeid på det intensitetsnivået, og dermed ikke har den typen visceral sans for hva de kan gjøre.
«En ny vitenskapelig sannhet triumferer ikke ved å overbevise sine motstandere og få dem til å se lyset, men snarere fordi dens motstandere til slutt dør og en ny generasjon vokser opp som er kjent med den ...
En viktig vitenskapelig innovasjon kommer sjelden frem ved gradvis å vinne over og omvende sine motstandere: det hender sjelden at Saulus blir Paulus. Det som skjer er at motstanderne gradvis dør ut, og at den voksende generasjonen blir kjent med ideene fra begynnelsen: nok et eksempel på det faktum at fremtiden ligger hos ungdommen.»
— Max Planck, Vitenskapelig selvbiografi, 1950
Forresten, en del av grunnen til at Kurzweil forsto alle disse tingene klart i sin alderdom er at han praktisk talt er den eneste (ok, kanskje klubben har noen flere folk i seg) som konsekvent spådde dette i lang tid. Så han trengte egentlig ikke å revidere priorene sine mye.
Mens de fleste av AI-"grå hår" som Sutton levde gjennom de første dagene, ryddige vs scruffies, Lighthill-debatten, AI Winter, Expert Systems, etc. De er vant til at ting ser lovende ut, men så fungerer de egentlig ikke til tross for mye hype og investeringer. Det er det forrige.
Men Transformer-arkitekturen er den første fullstendig differensierbare, Turing komplette abstraksjonen av en universell generisk datamaskin med riktig nivå av generalitet og uttrykkskraft, og vi fant endelig triksene for å trene dem og ha FLOPS og data til å gjøre alt nå.
Og, som Ilya sier, disse modellene, "de vil bare lære." Det er bare høyst usannsynlig a priori at det hele ville ordne seg i praksis (men kanskje ikke fordi vi er omgitt av gående, snakkende eksempler daglig som kjører på mye mindre enn 300 watt). Men det gjør det faktisk.
Men selv da er det ikke slik at dette er en enestående observasjon i vitenskapens historie. Hvem kunne ha gjettet a priori at du kunne forklare de fleste observerte naturlige fysiske fenomener eks-gravitasjon ved å bruke et direkte produkt av 3 Lie-grupper (aka, Standard Model of Physics)?
Vi har til og med et navn på det: matematikkens «urimelige effektivitet» i naturvitenskapene. I dette tilfellet iterert matrisemultiplikasjon, noen enkle ikke-lineariteter og kjederegelen i revers med noen triks for å hjelpe med numerisk stabilitet og gradientflyt.

@goldstein_aa Alt dette er å si, AGI er allerede her, og det er bare på grunn av uopphørlig flytting av målstolper, dårlige tilskyndelsesferdigheter og dumme gotcha-spørsmål (som allerede i stor grad er løst) at noen bestrider det.
22,35K
Topp
Rangering
Favoritter