DeepSeek V3 論文附錄中的有趣評論:他們在激活的量化方面遇到了困難。"這些[與令牌相關的]異常值無法通過塊級量化方法有效管理"。他們的 UE8M0 策略在這裡能有所幫助嗎?
2.59K