對於 Rich Sutton 對 LLMs 的非常糟糕看法感到震驚的所有人(我是否可以用 R 這個詞來形容),請記住,許多在世紀之交最受尊敬的老一輩物理學家都曾將量子理論視為瘋狂和錯誤。
著名的諺語說「科學的進步是一步一步來的」,這是有原因的。你確實會遇到像庫茲韋爾這樣的老前輩,他完全理解這一點(或者至少在幾年前是這樣),但一般來說,年長者的思維很難徹底修正先前的觀念。
此外,我每天與多個前沿的 LLM 互動超過 12 小時,許多人也是如此。我懷疑 Sutton 是否在這種強度下深入使用這些模型來進行創造性和高度技術性的工作,因此他對這些模型能做什麼並沒有那種直觀的感受。
「一個新的科學真理並不是通過說服其反對者並使他們看到真理而獲得勝利,而是因為其反對者最終死去,並且一代新的人成長起來,對此熟悉…… 一項重要的科學創新很少通過逐漸贏得和轉變其反對者而取得進展:很少發生掃羅變保羅的情況。實際上發生的是,反對者逐漸消亡,而成長的一代從一開始就熟悉這些思想:這再次證明了未來屬於年輕人。」 — 馬克斯·普朗克,《科學自傳》,1950
順便提一下,庫茲韋爾在晚年能清楚理解這些東西的部分原因是,他幾乎是唯一一個(好吧,也許這個圈子裡還有幾個人)長期以來持續預測這些的人。因此,他並不需要太多地修正自己的先驗知識。
雖然大多數的 AI "灰髮" 像是 Sutton 經歷了早期的日子,整潔派與邋遢派、Lighthill 辯論、AI 冬天、專家系統等等。他們習慣於一些看起來有前景但實際上並不真的有效的東西,儘管有很多炒作和投資。這就是過去。
但 Transformer 架構是第一個完全可微分的、圖靈完備的通用計算機抽象,具備適當的通用性和表達能力,我們終於找到了訓練它們的技巧,並擁有現在所需的 FLOPS 和數據來完成這一切。
而且,正如伊利亞所說,這些模型「它們只是想學習」。在實踐中,這一切能夠成功的可能性是非常小的(雖然也許不是,因為我們每天都被許多運行功率遠低於300瓦的行走和說話的例子所包圍)。但實際上,它確實能做到。
但即便如此,這並不是科學史上前所未有的觀察。誰能事先猜到,你可以用三個李群的直積(即物理標準模型)來解釋大多數觀察到的自然物理現象,超越重力呢?
我們甚至給它起了一個名字:數學在自然科學中的「不合理有效性」。在這種情況下,迭代矩陣乘法、一些簡單的非線性以及反向鏈式法則,還有一些技巧來幫助數值穩定性和梯度流動。
@goldstein_aa 所以說,AGI 已經來了,之所以有人質疑,完全是因為不斷的目標移動、糟糕的提示技巧和愚蠢的抓包問題(這些問題已經在很大程度上得到解決)。
23.23K