Los contextos largos permiten horizontes largos. Los horizontes largos permiten una generalización más fuerte del RL. El entrenamiento en tiempo de prueba hará que el horizonte sea efectivamente infinito. ¿Qué sucede con el rendimiento del RL en este régimen?