Semua orang yang terkejut tentang Rich Sutton yang memiliki pandangan yang sangat buruk tentang LLM (mungkinkah saya melangkah lebih jauh untuk menggunakan R-slur), ingatlah bahwa banyak fisikawan tua yang paling agustus dan bergengsi pada pergantian abad ini mengabaikan teori kuantum sebagai gila dan salah.
Pepatah terkenal mengatakan "sains memajukan satu pemakaman pada satu waktu" karena suatu alasan. Anda mendapatkan orang tua sesekali seperti Kurzweil yang mendapatkannya sepenuhnya (atau setidaknya melakukannya seperti beberapa tahun yang lalu), tetapi umumnya sulit bagi otak tua untuk merevisi sebelumnya secara radikal.
Juga, saya berinteraksi dengan beberapa LLM perbatasan selama 12+ jam sehari setiap hari, seperti yang dilakukan banyak dari Anda. Saya ragu Sutton secara intensif menggunakan model-model ini untuk melakukan pekerjaan kreatif dan sangat teknis pada tingkat intensitas itu, dan dengan demikian tidak memiliki rasa mendalam untuk apa yang dapat mereka lakukan.
"Kebenaran ilmiah baru tidak menang dengan meyakinkan lawan-lawannya dan membuat mereka melihat cahaya, melainkan karena lawan-lawannya akhirnya mati dan generasi baru tumbuh yang akrab dengannya ... Sebuah inovasi ilmiah yang penting jarang terjadi dengan secara bertahap memenangkan dan mengubah lawan-lawannya: jarang terjadi bahwa Saulus menjadi Paulus. Apa yang terjadi adalah bahwa lawan-lawannya secara bertahap mati, dan bahwa generasi yang sedang tumbuh terbiasa dengan ide-ide sejak awal: contoh lain dari fakta bahwa masa depan terletak pada kaum muda." — Max Planck, Otobiografi ilmiah, 1950
Kebetulan, bagian dari alasan Kurzweil memahami semua hal ini dengan jelas di usia tuanya adalah karena dia praktis satu-satunya (oke, mungkin klub memiliki beberapa orang lagi di dalamnya) yang secara konsisten memprediksi ini untuk waktu yang lama. Jadi dia tidak perlu banyak merevisi sebelumnya.
Sedangkan sebagian besar "uban" AI seperti Sutton hidup melalui hari-hari awal, rapi vs berantakan, Debat Lighthill, Musim Dingin AI, Sistem Ahli, dll. Mereka terbiasa dengan hal-hal yang terlihat menjanjikan tetapi kemudian tidak benar-benar berhasil meskipun ada banyak hype dan investasi. Itu yang sebelumnya.
Tetapi arsitektur Transformer adalah abstraksi lengkap Turing pertama yang sepenuhnya dapat dibedakan dari komputer generik universal dengan tingkat keumuman dan kekuatan ekspresif yang tepat, dan kami akhirnya menemukan trik untuk melatihnya dan memiliki FLOPS dan data untuk melakukan semuanya sekarang.
Dan, seperti yang dikatakan Ilya, model-model ini, "mereka hanya ingin belajar." Sangat tidak mungkin secara apriori bahwa semuanya akan berhasil dalam praktik (meskipun mungkin tidak karena kita dikelilingi oleh berjalan, berbicara contoh setiap hari yang berjalan dengan kurang dari 300 watt). Tapi itu benar-benar terjadi.
Tapi meski begitu, ini tidak seperti pengamatan yang belum pernah terjadi sebelumnya dalam sejarah sains. Siapa yang bisa menebak secara apriori bahwa Anda dapat menjelaskan fenomena fisik alam yang paling banyak diamati ex-gravitasi menggunakan produk langsung dari 3 gugus Lie (alias Model Standar Fisika)?
Kita bahkan memiliki nama untuk itu: "efektivitas matematika yang tidak masuk akal" dalam ilmu alam. Dalam hal ini, perkalian matriks iterasi, beberapa non-linearitas sederhana, dan aturan rantai secara terbalik dengan beberapa trik untuk membantu stabilitas numerik dan aliran gradien.
@goldstein_aa Semua itu, AGI sudah ada di sini dan hanya karena gerakan pos gawang yang tak henti-hentinya, keterampilan mendorong yang buruk, dan pertanyaan konyol (yang sebagian besar telah diselesaikan) siapa pun membantahnya.
23,23K