Lange Kontexte ermöglichen lange Horizonte. Lange Horizonte ermöglichen eine stärkere RL-Generalisation. Das Training zur Testzeit wird den Horizont effektiv unendlich machen. Was passiert mit der RL-Leistung in diesem Regime?