Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les meilleurs LLMs open source présentent des différences intéressantes en termes d'architecture et de méthodes d'entraînement.
J'ai lu tous les articles en profondeur pour les analyser dans cette vidéo (et ma première sur la chaîne YouTube de YC 😅)
Regardez-la et faites-moi savoir ce que vous en pensez !

29 août 2025
OpenAI a récemment publié son premier modèle à poids ouverts depuis GPT-2, entrant dans un domaine dirigé par DeepSeek et Qwen d'Alibaba.
Ankit (@GuptaAnkitV) décompose ces principaux modèles OSS, y compris ce qui les distingue sous le capot : mélange d'experts, formation sur de longs contextes et techniques de post-formation qui façonnent le raisonnement et l'alignement—et comment différents choix de conception mènent à des performances étonnamment similaires.
00:00 – Lancement OSS d'OpenAI
01:00 – Comparaison des architectures LLM open source
01:46 – Aperçu de GPT OSS
02:37 – Sous le capot de GPT OSS
03:25 – Architecture de Qwen-3
04:17 – Formation de Qwen-3
05:12 – Post-formation de Qwen-3
06:08 – Raisonnement et innovations RL de Qwen-3
06:52 – Aperçu de DeepSeek V3
07:40 – Mises à jour de DeepSeek V3.1
08:39 – Mécanisme d'attention (MLA)
09:39 – Comparaison des tailles de modèles
10:35 – Stratégies de long contexte
11:25 – Réflexions sur les méthodes
12:00 – Points à retenir
52,02K
Meilleurs
Classement
Favoris