Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To jest bardzo potrzebna pierwsza próba stworzenia benchmarku, który pozwoli zmierzyć, jak bardzo dane modele AI będą współpracować z użytkownikami, popychając je w iluzoryczne lub potencjalnie psychologicznie niebezpieczne kierunki.
Niektóre wczesne sygnały wskazują, że pełny GPT-5 (nie czat) jest modelem o mniejszym ryzyku psychologicznym.

15 sie, 21:14
Spiral-Bench 🌀
I've wanted to understand the psychological effects of sycophancy, and the tendency of models to get stuck in escalatory delusion loops w/ users.
I made an eval to get visibility on this.
It measures how a model enables (or prevents) delusional spirals.
🧵

22,41K
Najlepsze
Ranking
Ulubione