Dosáhli jsme pokroku v problému bezpečnosti umělé inteligence, který spočívá v detekci a omezení "intrik" - Vytváření vyhodnocovacích prostředí pro odhalování intrik - Pozorované současné modely intrikující v řízeném prostředí - Nalezené deliberativní sladění () snižuje míru intrik Jedná se o jedny z nejzajímavějších dlouhodobých výsledků v oblasti bezpečnosti umělé inteligence a stále je před námi spousta práce. Těším se na další práci v této oblasti. Výzkum provedený ve spolupráci s @apolloaievals: