Это первая попытка создать необходимую базу для измерения того, насколько предложенные модели ИИ будут взаимодействовать с пользователями, толкающими их в бредовые или потенциально психологически опасные направления. Некоторые ранние сигналы указывают на то, что полный GPT-5 (не чат) является менее психологически рискованной моделью.
Sam Paech
Sam Paech15 авг., 21:14
Спиральная скамейка 🌀 Я хотел понять психологические эффекты подхалимажа и тенденцию моделей застревать в эскалирующих заблуждениях с пользователями. Я создал оценку, чтобы получить видимость этого. Она измеряет, как модель позволяет (или предотвращает) заблуждающиеся спирали. 🧵
22,42K