新的 NanoGPT 速度跑 WR 在 109.2 (-3.5s),搭配另一個新穎的(?) 注意力升級,稱為配對頭注意力。查詢可以關注相鄰頭的鍵,使每個 Q 能夠在每個目標位置檢索 2 個值,而不是 1。對於零參數的影響為 3%!