一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我们在检测和减少“阴谋”这一AI安全问题上取得了进展： - 创建了评估环境以检测阴谋 - 在受控环境中观察到当前模型的阴谋行为 - 发现深思熟虑的对齐（）降低了阴谋率这些是迄今为止一些最令人兴奋的长期AI安全成果，仍然有很多工作要做。期待在这个领域看到更多的工作。与@apolloaievals合作进行的研究：