Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hemos progresado en el problema de seguridad de la IA de detectar y reducir las "intrigas":
- Creación de entornos de evaluación para detectar intrigas
- Modelos actuales observados en entornos controlados
- La alineación deliberativa encontrada () disminuye las tasas de intriga
Estos son algunos de los resultados de seguridad de IA a largo plazo más emocionantes hasta la fecha, y todavía queda mucho trabajo por hacer. Espero ver más trabajo realizado en este espacio.
Investigación realizada en colaboración con @apolloaievals:

Populares
Ranking
Favoritas