DeepSeek-V3.2 zeigt, wie weit offene KI inzwischen gekommen ist: Die neue Modellfamilie erreicht in vielen Benchmarks das Niveau von GPT‑5 Thinking und sichert sich mit der Variante V3.2‑Speciale goldene Medaillen bei internationalen Mathe- und Informatik-Olympiaden – bei komplett offenen Gewichten.
DeepSeek stellt zwei Hauptvarianten vor:
- V3.2 als „Allrounder“ mit starkem Reasoning-Fokus, der in der Praxis etwa auf Höhe von GPT‑5 Thinking liegt und in der Web‑Version kostenlos sowie per API deutlich günstiger als viele Closed‑Source‑Konkurrenten angeboten wird.
- V3.2‑Speciale, eine Hochleistungsvariante mit offenen Gewichten, die explizit auf Mathematik, Competitive Programming und Agenten ausgelegt ist und in Wettbewerben wie IMO, CMO, IOI und ICPC World Finals Gold‑Niveau erreicht.
Laut Tech-Report vereint das System drei Kernideen: DeepSeek Sparse Attention, extrem konsequentes RL‑Post‑Training mit Spezialisten und ein riesiger Agenten‑Datensatz mit über 1.800 interaktiven Umgebungen und 85.000 Aufgaben.
DeepSeek Sparse Attention: Langkontexte zum Spartarif
Klassische Attention schaut bei jedem Schritt auf jeden Token im Kontext – bei 128k Kontext sind das unhandliche 16+ Milliarden Vergleichsoperationen pro Layer. DeepSeek löst das mit DeepSeek Sparse Attention (DSA):
- Ein „Lightning Indexer“, ein leichter Zusatzblock, bewertet blitzschnell die Wichtigkeit aller 128k Tokens.
- Statt alles zu berücksichtigen, wählt das Modell dann nur die 2048 relevantesten Tokens aus und führt darauf eine feinere Sparse‑Attention aus.
Die Komplexität sinkt von quadratisch auf nahezu linear in der Kontextlänge, was Kosten und Latenz bei langen Prompten massiv reduziert. Interne Benchmarks von DeepSeek zeigen, dass die realen Token‑Kosten für Langkontexte auf H800‑Clustern etwa halbiert werden, ohne wahrnehmbaren Qualitätsverlust bei der Ausgabe.
Aggressives RL-Post-Training mit Spezialisten
Die zweite Säule ist eine ungewohnt teure RL‑Phase: DeepSeek gibt an, inzwischen mehr als 10% der gesamten Pretraining‑Rechenzeit in das Reinforcement Learning im Nachgang zu stecken.
Der Trick:
- Zunächst werden spezialisierte Modelle für Mathematik, Code, logisches Reasoning, Agenten und Sicherheitsaspekte trainiert, die jeweils ein intensives RL‑Programm durchlaufen.
- Dann werden deren Stärken per Distillation in ein gemeinsames Modell überführt.
- Anschließend folgt ein weiterer RL‑Feinschliff auf diesem zusammengeführten System.
Um zu verhindern, dass das Modell bei so viel RL „instabil“ wird, nutzt DeepSeek unter anderem:
- einen unverzerrten KL‑Schätzer im GRPO‑Algorithmus,
- Maskierung von Off‑Policy‑Beispielen,
- konsistente Routing‑ und Sampling‑Masken für die Mixture‑of‑Experts‑Schichten zwischen Training und Inferenz.
1.800 Agentenwelten und 85.000 Aufgaben
Die dritte Komponente zielt auf Agenten‑Fähigkeiten: DeepSeek baut einen synthetischen Datensatz aus 1.827 interaktiven Umgebungen und über 85.000 komplexen Aufgaben, die „schwer zu lösen, aber leicht zu verifizieren“ sind. Dazu gehören:
- echte Umgebungen wie Web‑Suche, GitHub, Jupyter‑Sessions und Code‑Interpreter
- künstliche „Spielwelten“ mit aufwendiger Planung, aber klar überprüfbaren Ergebnissen.
Spannend ist das Kontextmanagement: Anders als bei DeepSeek‑R1 wird die Kette der Gedanken („Chain of Thought“) zwischen Tool‑Aufrufen nicht jedes Mal verworfen, sondern über viele Agenten‑Schritte hinweg fortgeführt und nur beim nächsten User‑Turn zurückgesetzt. Das spart Tokens in Szenarien mit dutzenden Tool‑Calls und erlaubt Agenten, langfristige Strategien über eine Session hinweg aufzubauen.
Performance: Goldmedaillen – aber mit längerem „Denken“
V3.2‑Speciale erreicht laut DeepSeek und unabhängigen Tests Gold‑Niveau bei IMO, IOI, CMO und ICPC World Finals 2025 und schlägt bei anspruchsvollen Reasoning‑Benchmarks teilweise GPT‑5‑Varianten. Auf der AIME‑Prüfung 2025 kommt Speciale auf rund 96%, übertrifft damit GPT‑5 High und liegt in Reichweite von Gemini 3 Pro.
Der Preis dafür: Die Modelle „denken“ länger. Auf AIME benötigt Gemini 3 Pro im Schnitt etwa 15.000 Tokens für seine Lösungen, während V3.2‑Speciale rund 23.000 Tokens verbraucht, um auf vergleichbare oder bessere Ergebnisse zu kommen. Zudem geben die Entwickler offen zu, dass der Pretraining‑Umfang geringer ist als bei geschlossenen Konkurrenzmodellen – Speciale kennt weniger Fakten und kompensiert dies mit ausführlicherem Reasoning.
Bedeutung für die Open-Source-Szene
Dass eine offene, frei verfügbare Modellfamilie mit transparenten Gewichten Gold‑Ergebnisse in Top‑Wettbewerben erreicht, ist ein starkes Signal für das Open‑Source‑Ökosystem. Für Forscher und Start-ups bedeutet das:
- Zugang zu Spitzen‑Reasoning ohne Closed‑Source‑Lock‑in
- die Möglichkeit, auf Basis von DeepSeek‑Architektur, Sparse Attention und RL‑Rezepten eigene Spezialmodelle zu bauen
- und eine kostengünstige API‑Option, vor allem bei Langkontext‑Agenten.
Gleichzeitig bleibt Luft nach oben: DeepSeek selbst kündigt an, in der nächsten Generation mehr in Pretraining und Wissensabdeckung zu investieren – die Community spekuliert bereits über ein mögliches DeepSeek‑V4, das die Lücke zu gemischten Wissens‑ und Reasoning‑Giganten wie Gemini weiter schließen könnte.
