Sholto Douglas (Anthropic): "在過去的一年中,強化學習終於讓我們能夠將反饋循環轉化為一個模型,這個模型在特定狹窄領域的表現至少與最優秀的人類相當。你可以在數學和競賽編碼中看到這一點,這兩個領域最容易適應這種方法——模型迅速成為極具競爭力的數學家和編程競賽者。 競賽編碼和數學本質上沒有什麼不同。只是它們比其他領域更容易適應強化學習。但重要的是,它們展示了模型沒有智力上的上限。只要有合適的反饋循環,它們就能進行非常艱難的推理。因此,我們認為這種方法可以推廣到幾乎所有人類智力活動的其他領域,只要有合適的反饋循環,這些模型將至少能與最優秀的人類在某一領域相當。一旦你擁有的東西至少與最優秀的人類相當,你就可以並行運行1000個,或者以100倍的速度運行,這樣你就擁有了在這種條件下比任何人類都要聰明得多的東西。這完全不考慮是否有可能製造出比人類更聰明的東西。 這一點的影響是相當驚人的,對吧?在接下來的2到3年中,給予合適的反饋循環、計算能力等,我們認為整個AI行業有望創造出在大多數面向計算的任務中至少與大多數人類相當的東西,可能在許多我們最優秀的科學家所在的領域中也能達到相當的水平。它會有尖銳的特徵,會有一些它無法做到的例子。但世界將會改變。 ... 我認為這值得從屋頂上大聲呼喊——各位,我們能夠測量的任何東西似乎都在迅速改善。這在2或3年後會把我們帶到哪裡?我不能確定地說。但我認為值得將這納入世界觀中,因為有相當大的機會我們會獲得AGI。"