Nouveau record de vitesse NanoGPT à 106,9 (-2,3s) de @.andrewbriand et @.jrauvola sur Github. Ils ont observé que le compilateur torch exécutait un noyau séparé inefficace pour l'activation Relu(x)^2, et ont ajouté un noyau triton pour fusionner l'activation dans l'opération linéaire précédente.