Este es un primer intento muy necesario de establecer un punto de referencia para medir cuánto los modelos de IA dados se comportarán con los usuarios que los empujan en direcciones delirantes o potencialmente psicológicamente peligrosas. Algunas señales tempranas de que GPT-5 es, de hecho, un modelo mucho menos arriesgado psicológicamente.
Sam Paech
Sam Paech15 ago, 21:14
Banco Espiral 🌀 He querido entender los efectos psicológicos de la adulación y la tendencia de los modelos a quedar atrapados en bucles de ilusión escalatoria con los usuarios. Hice una evaluación para obtener visibilidad sobre esto. Mide cómo un modelo permite (o previene) espirales delirantes. 🧵
2,4K