Die besten Open-Source-LLMs weisen einige interessante Unterschiede in der Architektur und den Trainingsmethoden auf. Ich habe alle Papiere gründlich gelesen, um sie in diesem Video zu analysieren (und mein Debüt auf dem YC YouTube 😅) Schau es dir an und lass mich wissen, was du denkst!
Y Combinator
Y Combinator29. Aug. 2025
OpenAI hat kürzlich sein erstes Modell mit offenen Gewichten seit GPT-2 veröffentlicht und betritt ein Feld, das von DeepSeek und Alibabas Qwen angeführt wird. Ankit (@GuptaAnkitV) analysiert diese Top-OSS-Modelle, einschließlich der Unterschiede, die sie im Inneren auszeichnen: Mischung von Experten, Training mit langem Kontext und Nachtrainingstechniken, die das Denken und die Ausrichtung prägen – und wie unterschiedliche Designentscheidungen zu überraschend ähnlichen Leistungen führen. 00:00 – OpenAI OSS Launch 01:00 – Vergleich von Open Source LLM-Architekturen 01:46 – GPT OSS Übersicht 02:37 – Unter der Haube von GPT OSS 03:25 – Qwen-3 Architektur 04:17 – Qwen-3 Training 05:12 – Qwen-3 Nachtraining 06:08 – Qwen-3 Denken & RL-Innovationen 06:52 – DeepSeek V3 Übersicht 07:40 – DeepSeek V3.1 Updates 08:39 – Aufmerksamkeitsmechanismus (MLA) 09:39 – Vergleich der Modellgrößen 10:35 – Strategien für langen Kontext 11:25 – Reflexionen über Methoden 12:00 – Erkenntnisse
53,19K