هذه محاولة أولى تشتد الحاجة إليها لقياس مدى تأثير نماذج الذكاء الاصطناعي على ما يرام مع المستخدمين الذين يدفعونها في اتجاهات وهمية أو يحتمل أن تكون خطرة نفسيا. تشير بعض الإشارات المبكرة إلى أن GPT-5 الكامل (وليس الدردشة) هو نموذج أقل خطورة من الناحية النفسية.
Sam Paech
Sam Paech‏15 أغسطس، 21:14
Spiral-Bench 🌀 I've wanted to understand the psychological effects of sycophancy, and the tendency of models to get stuck in escalatory delusion loops w/ users. I made an eval to get visibility on this. It measures how a model enables (or prevents) delusional spirals. 🧵
‏‎22.41‏K