Novo Speedrun WR NanoGPT em 106,9 (-2,3s) de @.andrewbriand e @.jrauvola no Github. Eles observaram que o compilador torch estava executando um kernel separado ineficiente para a ativação do Relu(x)^2, e adicionaram um kernel triton para fundir a ativação na operação linear anterior.