Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Poczyniliśmy postępy w problemie bezpieczeństwa AI związanym z wykrywaniem i redukcją "spiskowania":
- Stworzyliśmy środowiska oceny do wykrywania spiskowania
- Obserwowaliśmy obecne modele spiskujące w kontrolowanych warunkach
- Stwierdziliśmy, że deliberatywne dostosowanie () zmniejsza wskaźniki spiskowania
To jedne z najbardziej ekscytujących długoterminowych wyników w zakresie bezpieczeństwa AI do tej pory, a wciąż jest wiele pracy do wykonania. Z niecierpliwością czekam na dalsze prace w tej dziedzinie.
Badania przeprowadzone we współpracy z @apolloaievals:

Najlepsze
Ranking
Ulubione