Questo è un primo tentativo molto necessario di un benchmark per misurare quanto i modelli di intelligenza artificiale dati si comporteranno con gli utenti che li spingono in direzioni illusorie o potenzialmente psicologicamente pericolose. Alcuni segnali iniziali indicano che il GPT-5 completo (non chat) è un modello meno rischioso dal punto di vista psicologico.
Sam Paech
Sam Paech15 ago, 21:14
Spiral-Bench 🌀 Volevo capire gli effetti psicologici della servilità e la tendenza dei modelli a rimanere bloccati in loop di delusione crescente con gli utenti. Ho creato una valutazione per avere visibilità su questo. Misura come un modello abilita (o previene) spirali deliranti. 🧵
22,36K