NanoGPT Speedrun WR baru di 106.9 (-2.3 detik) dari @.andrewbriand dan @.jrauvola di Github. Mereka mengamati bahwa kompiler obor sedang menjalankan kernel terpisah yang tidak efisien untuk aktivasi Relu(x)^2, dan menambahkan kernel triton untuk menggabungkan aktivasi ke dalam operasi linier sebelumnya.