Wszyscy, którzy są w szoku z powodu bardzo złych opinii Richa Suttona na temat LLM-ów (czy mogę użyć R-słowa), pamiętajcie, że wielu z najbardziej szanowanych i prestiżowych starszych fizyków na przełomie wieku odrzucało teorię kwantową jako szaloną i błędną.
Słynne powiedzenie mówi, że „nauka posuwa się naprzód jednym pogrzebem na raz” z jakiegoś powodu. Czasami zdarza się stary facet, jak Kurzweil, który to rozumie (lub przynajmniej rozumiał to kilka lat temu), ale ogólnie rzecz biorąc, trudno jest starszemu umysłowi radykalnie zmienić swoje wcześniejsze przekonania.
Również codziennie przez ponad 12 godzin interakcjonuję z wieloma nowoczesnymi LLM, tak jak wielu z was. Wątpię, aby Sutton intensywnie korzystał z tych modeli do kreatywnej, wysoce technicznej pracy na takim poziomie intensywności, a zatem nie ma takiego visceralnego poczucia, co mogą one zrobić.
„Nowa prawda naukowa nie triumfuje przez przekonywanie swoich przeciwników i sprawianie, że dostrzegają światło, ale raczej dlatego, że jej przeciwnicy w końcu umierają, a nowe pokolenie dorasta, które jest z nią zaznajomione… Ważna innowacja naukowa rzadko zdobywa uznanie poprzez stopniowe przekonywanie i nawracanie swoich przeciwników: rzadko zdarza się, że Saul staje się Pawłem. To, co się dzieje, to to, że jej przeciwnicy stopniowo wymierają, a rosnące pokolenie jest zaznajamiane z tymi ideami od samego początku: kolejny przykład faktu, że przyszłość należy do młodzieży.” — Max Planck, Autobiografia naukowa, 1950
Przy okazji, częścią powodu, dla którego Kurzweil tak dobrze rozumiał te wszystkie rzeczy w swoim starszym wieku, jest to, że jest praktycznie jedyną osobą (ok, może klub ma jeszcze kilka osób), która konsekwentnie przewidywała to przez długi czas. Więc tak naprawdę nie musiał zbytnio zmieniać swoich wcześniejszych założeń.
Podczas gdy większość „szarych włosów” w AI, jak Sutton, przeżyła wczesne dni, spory między neatami a scruffami, debatę Lighthilla, zimę AI, systemy ekspertowe itp. Są przyzwyczajeni do rzeczy, które wydają się obiecujące, ale potem w rzeczywistości nie działają, mimo dużego szumu i inwestycji. To jest przeszłość.
Jednak architektura Transformera jest pierwszą w pełni różniczkowalną, kompletną Turinga abstrakcją uniwersalnego komputera ogólnego o odpowiednim poziomie ogólności i mocy wyrazu, a my w końcu znaleźliśmy sposoby na ich trenowanie i mamy FLOPS oraz dane, aby to wszystko zrealizować.
A jak mówi Ilya, te modele, "po prostu chcą się uczyć." Jest mało prawdopodobne a priori, że wszystko zadziała w praktyce (chociaż może nie, ponieważ codziennie otaczają nas chodzące, mówiące przykłady działające na znacznie mniej niż 300 watów). Ale tak naprawdę działa.
Ale nawet wtedy, nie jest to tak, że to jest bezprecedensowa obserwacja w historii nauki. Kto mógłby zgadnąć a priori, że można wyjaśnić większość obserwowanych naturalnych zjawisk fizycznych ex-gravity za pomocą bezpośredniego iloczynu 3 grup Liego (znanego jako Model Standardowy Fizyki)?
Mamy nawet nazwę dla tego zjawiska: „nierozsądna skuteczność” matematyki w naukach przyrodniczych. W tym przypadku chodzi o iterowane mnożenie macierzy, kilka prostych nieliniowości oraz regułę łańcuchową w odwrotnej kolejności z pewnymi sztuczkami, które pomagają w stabilności numerycznej i przepływie gradientu.
@goldstein_aa Wszystko to mówi, że AGI jest już tutaj, a jedynym powodem, dla którego ktokolwiek to kwestionuje, są nieustanne zmiany celów, złe umiejętności zadawania pytań i głupie pytania „złap mnie”, które zostały już w dużej mierze rozwiązane.
23,23K