Nieuwe NanoGPT Speedrun WR op 106,9 (-2,3s) van @.andrewbriand en @.jrauvola op Github. Ze observeerden dat de torch-compiler een inefficiënte aparte kernel uitvoerde voor de Relu(x)^2-activatie en voegden een triton-kernel toe om de activatie te fuseren met de voorgaande lineaire bewerking.