私たちは、「陰謀」を検出して削減するという AI の安全性の問題について進歩を遂げました。 - 陰謀を検知する評価環境を構築 - 制御された設定で計画を企てる現在のモデルを観察 - 熟慮的な調整()が計画率を低下させることが判明した これらは、これまでで最もエキサイティングな長期的な AI 安全性の結果の一部であり、やるべきことはまだたくさん残されています。この分野でのさらなる取り組みを楽しみにしています。 @apolloaievalsと共同で行われた研究: