Nuevo WR NanoGPT Speedrun a 106,9 (-2,3s) de @.andrewbriand y @.jrauvola en Github. Observaron que el compilador Torch ejecutaba un kernel separado ineficiente para la activación de Relu(x)^2, y añadieron un núcleo triton para fusionar la activación con la operación lineal anterior.