Новый рекорд скорости NanoGPT на уровне 106.9 (-2.3с) от @.andrewbriand и @.jrauvola на Github. Они заметили, что компилятор torch выполнял неэффективное отдельное ядро для активации Relu(x)^2 и добавили ядро triton, чтобы объединить активацию с предыдущей линейной операцией.