Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To jest bardzo potrzebna pierwsza próba stworzenia benchmarku, który pozwoli zmierzyć, jak bardzo dane modele AI będą współpracować z użytkownikami, popychając je w iluzoryczne lub potencjalnie psychologicznie niebezpieczne kierunki.
Niektóre wczesne sygnały wskazują, że GPT-5 jest rzeczywiście modelem znacznie mniej psychologicznie ryzykownym.

15 sie, 21:14
Spiral-Bench 🌀
Chciałem zrozumieć psychologiczne skutki sycofantyzmu oraz tendencję modeli do utkwienia w eskalacyjnych pętlach złudzeń z użytkownikami.
Stworzyłem ocenę, aby uzyskać wgląd w to.
Mierzy, jak model umożliwia (lub zapobiega) złudnym spiralom.
🧵

2,36K
Najlepsze
Ranking
Ulubione