To jest bardzo potrzebna pierwsza próba stworzenia benchmarku, który pozwoli zmierzyć, jak bardzo dane modele AI będą współpracować z użytkownikami, popychając je w iluzoryczne lub potencjalnie psychologicznie niebezpieczne kierunki. Niektóre wczesne sygnały wskazują, że pełny GPT-5 (nie czat) jest modelem o mniejszym ryzyku psychologicznym.
Sam Paech
Sam Paech15 sie, 21:14
Spiral-Bench 🌀 I've wanted to understand the psychological effects of sycophancy, and the tendency of models to get stuck in escalatory delusion loops w/ users. I made an eval to get visibility on this. It measures how a model enables (or prevents) delusional spirals. 🧵
22,41K