Dit is een zeer noodzakelijke eerste poging om een benchmark te creëren om te meten in hoeverre bepaalde AI-modellen meewerken met gebruikers die hen in waanideeën of potentieel psychologisch gevaarlijke richtingen duwen. Een vroeg signaal dat GPT-5 inderdaad een veel minder psychologisch risicovol model is.
Sam Paech
Sam Paech15 aug, 21:14
Spiraal-Bench 🌀 Ik heb willen begrijpen wat de psychologische effecten zijn van vleierij, en de neiging van modellen om vast te komen zitten in escalatoire waanideeën met gebruikers. Ik heb een evaluatie gemaakt om hier zicht op te krijgen. Het meet hoe een model waanideeën mogelijk maakt (of voorkomt). 🧵
2,4K