Bahkan dengan gradien batch penuh, pengoptimal DL menentang teori pengoptimalan klasik, karena mereka beroperasi di *tepi stabilitas.*
Dengan @alex_damian_, kami memperkenalkan "aliran pusat": alat teoretis untuk menganalisis dinamika ini yang membuat prediksi kuantitatif yang akurat pada NN riil.
Seperti yang diharapkan, NSA tidak kompatibel dengan MLA, jadi DeepSeek memilih metode lain: gunakan perhatian yang lebih kecil (d=128) (tanpa nilai o) sebagai pengindeks.
Rasio biaya asimtotik = 128/576.
Selain itu, pengindeks menggunakan FP8 sedangkan MLA utama menggunakan 16-bit, jadi = 64/576 = 1/9.