Toți oamenii șocați de faptul că Rich Sutton are păreri foarte proaste despre LLM-uri (aș putea merge atât de departe încât să folosesc insulta R), amintiți-vă doar că mulți dintre cei mai augusti și prestigioși fizicieni mai în vârstă de la începutul secolului au respins teoria cuantică ca fiind nebună și greșită.
Faimoasa zicală spune că "știința avansează o înmormântare la un moment dat" dintr-un motiv. Ai ocazional un bătrân ca Kurzweil care înțelege complet (sau cel puțin a făcut-o acum câțiva ani), dar în general este greu pentru creierul în vârstă să revizuiască radical prioritățile.
De asemenea, interacționez cu mai multe LLM-uri de frontieră timp de 12+ ore pe zi în fiecare zi, la fel ca mulți dintre voi. Mă îndoiesc că Sutton a folosit intens aceste modele pentru a face o muncă creativă, extrem de tehnică la acel nivel de intensitate și, prin urmare, nu are genul de simț visceral pentru ceea ce pot face.
"Un nou adevăr științific nu triumfă prin convingerea adversarilor săi și făcându-i să veadă lumina, ci mai degrabă pentru că adversarii săi mor în cele din urmă și crește o nouă generație care îl cunoaște... O inovație științifică importantă rareori își croiește drum prin câștigarea treptată și convertirea adversarilor săi: rareori se întâmplă ca Saul să devină Pavel. Ceea ce se întâmplă este că oponenții săi dispar treptat și că generația în creștere este familiarizată cu ideile de la început: un alt exemplu al faptului că viitorul este în tinerețe." — Max Planck, Autobiografie științifică, 1950
De altfel, o parte din motivul pentru care Kurzweil a înțeles clar toate aceste lucruri la bătrânețe este că este practic singurul (ok, poate clubul mai are câțiva oameni în el) care a prezis acest lucru în mod constant pentru o lungă perioadă de timp. Așa că nu a avut nevoie să-și revizuiască prea mult prioritățile.
În timp ce majoritatea "firelor de păr cărunți" AI precum Sutton au trăit în primele zile, neats vs scruffies, Lighthill Debate, AI Winter, Expert Systems etc. Sunt obișnuiți cu lucruri care arată promițătoare, dar apoi nu funcționează cu adevărat, în ciuda multor hype și investiții. Acesta este priorul.
Dar arhitectura Transformer este prima abstracție completă Turing complet diferențiabilă a unui computer generic universal cu nivelul potrivit de generalitate și putere expresivă, și am găsit în sfârșit trucurile pentru a-i antrena și a avea FLOPS și date pentru a face totul acum.
Și, după cum spune Ilya, aceste modele "vor doar să învețe". Este foarte puțin probabil a priori ca totul să funcționeze în practică (deși poate nu pentru că suntem înconjurați de exemple de mers pe jos și vorbind zilnic cu mult mai puțin de 300 de wați). Dar de fapt o face.
Dar chiar și atunci, nu este ca și cum aceasta ar fi o observație fără precedent în istoria științei. Cine ar fi putut ghici a priori că ai putea explica majoritatea fenomenelor fizice naturale observate ex-gravitație folosind un produs direct a 3 grupuri Lie (adică Modelul Standard al Fizicii)?
Avem chiar și un nume pentru asta: "eficacitatea nerezonabilă" a matematicii în științele naturii. În acest caz, înmulțirea matricii iterate, unele non-liniarități simple și lanțul rulează invers cu câteva trucuri pentru a ajuta la stabilitatea numerică și fluxul gradientului.
@goldstein_aa Toate acestea, AGI este deja aici și doar din cauza mișcării neîncetate a stâlpilor de poartă, a abilităților proaste de stimulare și a întrebărilor prostești (care au fost deja rezolvate în mare parte) cineva contestă acest lucru.
22,35K