我们在检测和减少“阴谋”这一AI安全问题上取得了进展: - 创建了评估环境以检测阴谋 - 在受控环境中观察到当前模型的阴谋行为 - 发现深思熟虑的对齐()降低了阴谋率 这些是迄今为止一些最令人兴奋的长期AI安全成果,仍然有很多工作要做。期待在这个领域看到更多的工作。 与@apolloaievals合作进行的研究: