Hemos progresado en el problema de seguridad de la IA de detectar y reducir las "intrigas": - Creación de entornos de evaluación para detectar intrigas - Modelos actuales observados en entornos controlados - La alineación deliberativa encontrada () disminuye las tasas de intriga Estos son algunos de los resultados de seguridad de IA a largo plazo más emocionantes hasta la fecha, y todavía queda mucho trabajo por hacer. Espero ver más trabajo realizado en este espacio. Investigación realizada en colaboración con @apolloaievals: