Poczyniliśmy postępy w problemie bezpieczeństwa AI związanym z wykrywaniem i redukcją "spiskowania": - Stworzyliśmy środowiska oceny do wykrywania spiskowania - Obserwowaliśmy obecne modele spiskujące w kontrolowanych warunkach - Stwierdziliśmy, że deliberatywne dostosowanie () zmniejsza wskaźniki spiskowania To jedne z najbardziej ekscytujących długoterminowych wyników w zakresie bezpieczeństwa AI do tej pory, a wciąż jest wiele pracy do wykonania. Z niecierpliwością czekam na dalsze prace w tej dziedzinie. Badania przeprowadzone we współpracy z @apolloaievals: