Nový NanoGPT Speedrun WR na 106,9 (-2,3 s) od @.andrewbriand a @.jrauvola na Githubu. Zjistili, že torch kompilátor spouštěl neefektivní samostatné jádro pro aktivaci Relu(x)^2, a přidali tritonové jádro, které aktivaci sloučilo s předchozí lineární operací.