熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們在檢測和減少“陰謀”這一AI安全問題上取得了進展:
- 創建了評估環境以檢測陰謀
- 在受控環境中觀察到當前模型的陰謀行為
- 發現深思熟慮的對齊()降低了陰謀率
這些是迄今為止一些最令人興奮的長期AI安全成果,仍然有很多工作要做。期待在這個領域看到更多的工作。
與@apolloaievals合作進行的研究:

熱門
排行
收藏