Kaikki ihmiset, jotka ovat järkyttyneitä siitä, että Rich Suttonilla oli erittäin huonoja näkemyksiä LLM:istä (saanko mennä niin pitkälle, että käytän R-sluria), muistakaa vain, että monet vuosisadan vaihteen arvostetuimmista ja arvostetuimmista vanhemmista fyysikoista hylkäsivät kvanttiteorian hulluna ja vääränä.
Kuuluisa sanonta kuuluu: "Tiede edistää hautajaisia kerrallaan" syystä. On satunnainen vanha kaveri, kuten Kurzweil, joka ymmärtää sen kokonaan (tai ainakin teki pari vuotta sitten), mutta yleensä iäkkäiden aivojen on vaikea tarkistaa prioreita radikaalisti.
Olen myös vuorovaikutuksessa useiden rajaseudun LLM:ien kanssa 12+ tuntia päivässä joka päivä, kuten monet teistä. Epäilen, että Sutton on käyttänyt näitä malleja intensiivisesti tehdäkseen luovaa, erittäin teknistä työtä tällä intensiteetillä, eikä hänellä siten ole sellaista sisäistä tajua siitä, mitä ne voivat tehdä.
"Uusi tieteellinen totuus ei voita vakuuttamalla vastustajansa ja saamalla heidät näkemään valon, vaan pikemminkin siksi, että sen vastustajat lopulta kuolevat ja kasvaa uusi sukupolvi, joka tuntee sen... Tärkeä tieteellinen innovaatio harvoin voittaa ja käännyttää vastustajansa vähitellen: harvoin käy niin, että Saulista tulee Paavali. Mitä tapahtuu, on se, että sen vastustajat kuolevat vähitellen sukupuuttoon ja että kasvava sukupolvi on tottunut ajatuksiin alusta alkaen: jälleen yksi esimerkki siitä, että tulevaisuus on nuorilla." – Max Planck, tieteellinen omaelämäkerta, 1950
Muuten, osa syystä, miksi Kurzweil ymmärsi kaiken tämän selvästi vanhoilla päivillään, on se, että hän on käytännössä ainoa (okei, ehkä seurassa on muutama ihminen enemmän), joka ennusti tätä johdonmukaisesti pitkään. Joten hänen ei oikeastaan tarvinnut tarkistaa prioriaan paljon.
Suurin osa Suttonin kaltaisista tekoälyn "harmaista hiuksista" eli alkuaikoina, siistit vs. rähjäiset, Lighthill-keskustelu, AI Winter, Expert Systems jne. He ovat tottuneet siihen, että tavarat näyttävät lupaavilta, mutta eivät sitten toimi suuresta hypestä ja investoinneista huolimatta. Se on edellinen.
Mutta Transformer-arkkitehtuuri on ensimmäinen täysin differentioituva, Turingin täydellinen abstraktio universaalista geneerisestä tietokoneesta, jolla on oikea yleisyys ja ilmaisuvoima, ja löysimme vihdoin temput niiden kouluttamiseen ja meillä on FLOPS ja data sen kaiken tekemiseen nyt.
Ja kuten Ilja sanoo, nämä mallit "haluavat vain oppia". On vain erittäin epätodennäköistä, että se kaikki toimisi käytännössä (vaikka ei ehkä siksi, että meitä ympäröivät kävelevät, puhuvat esimerkit päivittäin paljon alle 300 watin teholla). Mutta se itse asiassa tekee.
Mutta silloinkaan tämä ei ole ennennäkemätön havainto tieteen historiassa. Kuka olisi voinut arvata etukäteen, että voisit selittää useimmat havaitut luonnon fysikaaliset ilmiöt gravitaatiosta käyttämällä kolmen Lie-ryhmän suoraa tuloa (alias fysiikan standardimalli)?
Meillä on sille jopa nimi: matematiikan "kohtuuton tehokkuus" luonnontieteissä. Tässä tapauksessa iteroitu matriisikertolasku, joitain yksinkertaisia epälineaarisuuksia ja ketjusääntö käänteisesti muutamalla tempulla, jotka auttavat numeerisessa vakaudessa ja gradienttivirrassa.
@goldstein_aa Kaikki tämä tarkoittaa, että AGI on jo täällä, ja vain jatkuvan maalitolpan liikkumisen, huonojen kehotustaitojen ja typerien gotcha-kysymysten (jotka on jo suurelta osin ratkaistu) vuoksi kukaan kiistää sen.
22,35K