Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous avons progressé sur le problème de sécurité de l'IA concernant la détection et la réduction de "l'intrigue" :
- Créé des environnements d'évaluation pour détecter l'intrigue
- Observé des modèles actuels intriguer dans des environnements contrôlés
- Découvert que l'alignement délibératif () diminue les taux d'intrigue
Ce sont quelques-uns des résultats les plus passionnants en matière de sécurité de l'IA à long terme à ce jour, et il reste encore beaucoup de travail à faire. J'ai hâte de voir d'autres travaux réalisés dans ce domaine.
Recherche réalisée en collaboration avec @apolloaievals :

Meilleurs
Classement
Favoris