Este es un primer intento muy necesario de un punto de referencia para medir cuánto jugarán los modelos de IA dados junto con los usuarios que los empujan en direcciones delirantes o potencialmente psicológicamente peligrosas. Algunas señales tempranas de que GPT-5 completo (no chat) es un modelo menos riesgoso psicológicamente.
Sam Paech
Sam Paech15 ago, 21:14
Banco 🌀 en espiral He querido entender los efectos psicológicos de la adulación y la tendencia de los modelos a quedarse atrapados en bucles de delirio escalonados con los usuarios. Hice una evaluación para obtener visibilidad sobre esto. Mide cómo un modelo permite (o previene) espirales delirantes. 🧵
22.37K