長期的上下文使得長期的視野成為可能。長期的視野使得強化學習的泛化能力更強。在測試時進行訓練將使得視野有效地變得無限。在這種情況下,強化學習的表現會怎樣呢?