长上下文使得长视野成为可能。长视野使得更强的强化学习泛化成为可能。测试时训练将使视野有效地无限。那么在这种情况下,强化学习的表现会如何呢?