😅 Kto powiedział, że "używanie k3 w stracie = używanie gradientu ścieżkowego"??? Poprawny sposób użycia k3 w stracie to użycie pełnego gradientu. GRPO użyło k3 bez korekcji IS (= gradient ścieżkowy), co jest błędne. Ale to nie wina k3!!!