😅 谁说过 "在损失中使用 k3 = 使用路径梯度"??? 使用 k3 在损失中的正确方法是使用完整的梯度。 而 GRPO 在没有 IS 校正的情况下使用 k3 (= 路径梯度),这是错误的。但这不是 k3 的错!!!