Длинные контексты позволяют устанавливать длинные горизонты. Длинные горизонты обеспечивают более сильную обобщаемость RL. Обучение во время тестирования сделает горизонт фактически бесконечным. Что произойдет с производительностью RL в этом режиме?