Contextos longos permitem horizontes longos. Horizontes longos permitem uma generalização mais forte do RL. O treinamento durante o teste tornará o horizonte praticamente infinito. O que acontece com o desempenho da vida real nesse regime?