新的 NanoGPT 速度记录在 106.9 秒(减少 2.3 秒),由 @.andrewbriand 和 @.jrauvola 在 Github 上创下。他们观察到 torch 编译器为 Relu(x)^2 激活执行了一个低效的单独内核,并添加了一个 triton 内核将激活与之前的线性操作融合。