Tämä on kipeästi kaivattu ensimmäinen yritys vertailuarvoksi, jolla mitataan, kuinka paljon tietyt tekoälymallit pelaavat yhdessä käyttäjien kanssa, jotka työntävät niitä harhaisiin tai mahdollisesti psykologisesti vaarallisiin suuntiin. Jotkut varhaiset viestit osoittavat, että GPT-5 on todellakin psykologisesti paljon vähemmän riskialtis malli.
Sam Paech
Sam Paech15.8. klo 21.14
Spiral-Bench 🌀 I've wanted to understand the psychological effects of sycophancy, and the tendency of models to get stuck in escalatory delusion loops w/ users. I made an eval to get visibility on this. It measures how a model enables (or prevents) delusional spirals. 🧵
2,4K