Novo recorde de velocidade do NanoGPT em 109.2 (-3.5s) com uma nova atualização de atenção (?) chamada Paired Head Attention. As consultas podem atender às chaves na cabeça vizinha, permitindo que cada Q recupere 2 valores por posição alvo em vez de 1. Impacto de 3% para zero parâmetros!