Novo NanoGPT Speedrun WR em 109,2 (-3,5s) com outra atualização inovadora chamada Paired Head Attention. Consultas podem atender chaves na cabeça vizinha, permitindo que cada Q recupere 2 valores por posição alvo em vez de 1. 3% de impacto para zero parámetros!