跳转至主要内容
行情
扫链
追踪
信号
跟单
兑换
资产
邀请计划
更多
产品
DeFi
市场
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+4.14%
USELESS
-8.06%
IKUN
-9.91%
gib
-1.94%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+3.11%
ALON
+3.36%
LAUNCHCOIN
+1.8%
GOONC
-11.09%
KLED
-4.16%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.02%
Boopa
-5.49%
PORK
-3.82%
主页
You Jiacheng
You Jiacheng
10 小时前
哇,DeepGEMM 为 HyperConnection 添加了代码。
29
You Jiacheng
1月13日 08:18
我喜欢Engram的上下文感知门控设计。它的对称性很美。 它是一个嵌入的混合体,其中路由器也是嵌入。 常规的MoE是“混合FFNs,其中路由器也是FFNs”,但KeyFFNs仅为偏置。 k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=∑_i σ(q·k_i)v_i
82
You Jiacheng
1月4日 17:44
😅 谁说过 "在损失中使用 k3 = 使用路径梯度"??? 使用 k3 在损失中的正确方法是使用完整的梯度。 而 GRPO 在没有 IS 校正的情况下使用 k3 (= 路径梯度),这是错误的。但这不是 k3 的错!!!
147
热门
排行
收藏