Githubの@.andrewbriandと@.jrauvolaから、106.9(-2.3秒)の新しいNanoGPT Speedrun WR。彼らはトーチコンパイラがRelu(x)^2の活性化のために非効率な別カーネルを実行していることに気づき、その活性化を前の線形操作に融合させるためにトリトンカーネルを追加しました。