DeepSeek V3 论文附录中的有趣评论:他们在激活的量化方面遇到了困难。"这些[与令牌相关的]异常值无法通过块级量化方法有效管理"。他们的 UE8M0 策略在这里能有所帮助吗?
2.59K