Neuer NanoGPT Speedrun WR bei 106,9 (-2,3s) von @.andrewbriand und @.jrauvola auf Github. Sie haben festgestellt, dass der Torch-Compiler einen ineffizienten separaten Kernel für die Relu(x)^2-Aktivierung ausgeführt hat und einen Triton-Kernel hinzugefügt, um die Aktivierung in den vorherigen linearen Operator zu fusionieren.