Fizemos progressos na questão da segurança da IA sobre a deteção e redução do "planeamento": - Criámos ambientes de avaliação para detectar planeamento - Observámos modelos atuais a planejar em ambientes controlados - Descobrimos que o alinhamento deliberativo () diminui as taxas de planeamento Estes são alguns dos resultados mais emocionantes em segurança da IA a longo prazo até à data, e ainda há muito trabalho a fazer. Estou ansioso para ver mais trabalho realizado neste espaço. Pesquisa realizada em colaboração com @apolloaievals: