Les meilleurs LLMs open source présentent des différences intéressantes en termes d'architecture et de méthodes d'entraînement. J'ai lu tous les articles en profondeur pour les analyser dans cette vidéo (et ma première sur la chaîne YouTube de YC 😅) Regardez-la et faites-moi savoir ce que vous en pensez !
Y Combinator
Y Combinator29 août 2025
OpenAI a récemment publié son premier modèle à poids ouverts depuis GPT-2, entrant dans un domaine dirigé par DeepSeek et Qwen d'Alibaba. Ankit (@GuptaAnkitV) décompose ces principaux modèles OSS, y compris ce qui les distingue sous le capot : mélange d'experts, formation sur de longs contextes et techniques de post-formation qui façonnent le raisonnement et l'alignement—et comment différents choix de conception mènent à des performances étonnamment similaires. 00:00 – Lancement OSS d'OpenAI 01:00 – Comparaison des architectures LLM open source 01:46 – Aperçu de GPT OSS 02:37 – Sous le capot de GPT OSS 03:25 – Architecture de Qwen-3 04:17 – Formation de Qwen-3 05:12 – Post-formation de Qwen-3 06:08 – Raisonnement et innovations RL de Qwen-3 06:52 – Aperçu de DeepSeek V3 07:40 – Mises à jour de DeepSeek V3.1 08:39 – Mécanisme d'attention (MLA) 09:39 – Comparaison des tailles de modèles 10:35 – Stratégies de long contexte 11:25 – Réflexions sur les méthodes 12:00 – Points à retenir
52,02K