První sada myšlenek po rychlém přečtení:
DSA mi připadá jako malý krok mezi MLA-> a přístupem NSA k výběru. Zatímco řídkost DSA je zajímavá z hlediska účinnosti, mě více zajímá její skutečný čistý výkon. Aktivace pozornosti je něco, co mě zajímá již dlouhou dobu, zejména u aplikací s velmi dlouhým kontextem.
DSA se chová téměř jako vzorník pozornosti. Vytváří komprimované FP8 "vyhledávací klíče/dotazy" (Hadamard mixed, 128-dim), rychle hodnotí všechny minulé tokeny a zachovává (řekněme) nejlepších 2 048. Pouze ti přeživší dosáhnou drahého MLA softmaxu.
TL; DR
> Indexer jako Naučený K-NN
- Prostor pro vkládání: Indexer promítá dotazy do index_n_heads × index_head_dim (64×128) prostřednictvím wq_b a klíče přes wk, přičemž obě strany sdílejí zarovnání RoPE a Hadamardovu transformaci pro dekorrelate funkce. To vytváří kompaktní metrický prostor, kde kosinusové/L2 vzdálenosti mají smysl.
- Kvantovaná paměť: Každý minulý klíč je ukládán do mezipaměti jako bloky FP8 plus měřítka pro každý blok (k_cache, k_scale_cache), takže vyhledávání funguje nad hustou maticí (total_tokens × 128) bez dekvantizace.
- Podobnostní jádro: fp8_index provádí dlaždicový GEMM mezi aktuálním dotazem a všemi klíči uloženými v mezipaměti (QKT), poté omezí negativy na nulu (ReLU) a vynásobí váhami na hlavu a kvantovými měřítky – to je v podstatě výpočet skóre pozitivní podobnosti na token.
- Výběr top-k: Skóre jsou volitelně maskována (kauzální maska) a topk si zachovává nejvyšší index_topk zásahů na dávku/token. Vysílání vynucuje stejný výběr napříč hodnostmi.
- Integrace: Výstupní indexy vytvářejí řídkou masku; plný MLA softmax vidí pouze tyto pozice. Předvyplnit vytvoří masku (sekvence × sekvence); dekódování používá (1 × historii) k oříznutí mezipaměti KV.
Provedl jsem experiment, kde jsem nastavil dev server a GPU k8s cluster 100% s médiem GPT-5-Codex (to bych udělal s Claude Code dříve). Vyhradila jsem si odpoledne a už je skoro hotovo. Dožiji se doby, kdy už nikdy nebudu muset sysadminovat