Hemos avanzado en el problema de seguridad de la IA de detectar y reducir el "planificación": - Creamos entornos de evaluación para detectar la planificación - Observamos modelos actuales planificando en entornos controlados - Encontramos que la alineación deliberativa () disminuye las tasas de planificación Estos son algunos de los resultados más emocionantes en seguridad de IA a largo plazo hasta la fecha, y aún queda mucho trabajo por hacer. Espero ver más trabajo realizado en este ámbito. Investigación realizada en colaboración con @apolloaievals: