新的 NanoGPT 速度记录为 109.2 秒(减少 3.5 秒),并引入了一种名为配对头注意力(Paired Head Attention)的新颖注意力升级。查询可以关注相邻头中的键,使得每个 Q 能够在每个目标位置检索 2 个值,而不是 1 个。对于零参数来说,影响为 3%!