メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
セキュリティ
開発者向け
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
ウォレット API
ウォレット API を発見する
API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
DAppでウォレットを連携する
Boost
X Launch
参加してトークンを獲得しよう
X キャンペーン
参加して報酬を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
色の好み
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
Türkçe
戻る
戻る
詳しく知る
サポートセンター
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
-12.74%
USELESS
-5.69%
IKUN
-11.99%
gib
-4.24%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
-2.35%
ALON
+11.64%
LAUNCHCOIN
-10.28%
GOONC
+2.88%
KLED
+38.3%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+0.07%
Boopa
-1.15%
PORK
-4.43%
Profile
You Jiacheng
You Jiacheng
1月13日 08:18
Engramのコンテキスト認識型ゲート設計が大好きです。その対称性は美しい。 これは埋め込みの混合であり、ルーターも埋め込みです。 通常のMoEは「ルーターもFFNであるFFNの混合」ですが、KeyFFNはバイアスのみです。 k_i=KeyFFN_i(x) v_i=ValFFN_i(x) o=sum_i σ(q·k_i)v_i
22
You Jiacheng
1月4日 17:44
😅 「損失にK3を使う=経路面のグラデーションを使う」と言った人はいますか??? 損失でK3を使う正しい方法は、フルグラデーションを使うことです。 元のGRPOではIS補正なしのk3(=経路方向の勾配)を使いましたが、これは誤りです。でもK3のせいじゃない!!
121
You Jiacheng
1月2日 09:55
正直、それは予想していませんでした。 しかし振り返れば、多くの変更点は移し替え可能に見えます。
Larry Dial
1月2日 05:55
過去6か月間で、FineWebでのNanoGPTのスピードランで3.28の損失は33%減少し、2分となりました。最近では、これらの変更の一部がより大規模な2.92ロストラックに一括コピー&ペーストされました。驚くべきことに、未調整のヨロランは2.92の敗北記録を25%更新しました。
147
トップ
ランキング
お気に入り