Qwen 3.5: Was hinter Alibabas neuem LLM steckt – jenseits der Benchmarks

Zahlen sind langweilig – was ist technisch anders?

Qwen 3.5 ist seit Mitte Februar 2026 draußen. Die Benchmark-Zahlen kennt man: 397 Milliarden Parameter, nur 17 Milliarden aktiv, Leistung in der Nähe von GPT-5 und Claude. Spannender als die nächste Benchmark-Tabelle sind aber die architektonischen Entscheidungen, die dahinterstecken.

Die Mamba-Transformer-Hybride

Der wichtigste technische Kniff steckt in der Architektur. Qwen hat nicht nur optimiert, was andere LLM-Bauer schon tun (etwa Multi-Head Latent Attention wie DeepSeek), sondern radikaler an der Struktur gedreht. In Qwen 3.5 wird jede zweite Ebene des Transformer-Netzwerks durch einen sogenannten Mamba-Layer ersetzt.

Mamba-Layer funktionieren fundamental anders als herkömmliche Attention-Layer. Während die Attention-Mechanismen in Standard-Transformern quadratisch mit der Kontextlänge skalieren (doppelte Kontextlänge = vierfache Rechenzeit), wachsen Mamba-Layer nur linear. Ergebnis: Längere Kontexte bei gleichem Rechenaufwand, schnellere Token-Generierung.

Das ist kein Qwen-Exotikum – der Mamba-Ansatz (eigentlich: State Space Models) wird in der Forschung seit 2023 intensiv diskutiert. Qwen bringt ihn als erste große Modellfamilie im großen Stil in die Praxis.

Sparse Mixture-of-Experts: 397B, aber nur 17B aktiv

Das Flaggschiff Qwen3.5-397B-A17B nutzt ein sogenanntes Sparse Mixture-of-Experts (SMoE). Die Idee: Viele Parameter existieren, aber bei jeder einzelnen Vorhersage wird nur ein kleiner Bruchteil aktiviert. In diesem Fall 17 von 397 Milliarden.

Vorteil: Die Modellkapazität ist riesig (viel „Wissen" in den Gewichten), aber die Inferenzkosten sind moderat. Nachteil: Braucht trotzdem RAM für alle 397 Milliarden Parameter. Auf Consumer-Hardware läuft nur eine stark quantisierte Variante.

Interessanterweise zeigt das dichte 27B-Modell (ohne MoE) in Tests teilweise bessere Ergebnisse als die SME-Varianten. Das deutet darauf hin, dass MoE-Training noch Optimierungspotenzial hat – nicht jedes Problem lässt sich mit „mehr Parameter" lösen.

Native Multimodalität

Alle Qwen 3.5-Modelle sind von Grund auf multimodal. Bisher gab es separate „VL"-Varianten (Vision Language) bei Qwen-Modellen. Jetzt entfällt das Suffix – Bilder werden im gleichen latenten Raum wie Text verarbeitet, ab den frühen Trainingsphasen.

Das ist ein Unterschied gegenüber Modellen, die nachträglich Vision-Komponenten drangebastelt bekommen. Ob das in der Praxis besser funktioniert, hängt davon ab, wie gut das Training integriert wurde – die Benchmarks (MMMU, MathVision, OmniDocBench) deuten darauf hin.

Die kleinen sind am interessantesten

Die wirklich spannende Story ist nicht das 397B-Monster, sondern die kleinen Modelle:

  • Qwen3.5-9B: Schlägt GPT-OSS-120B bei mehreren Benchmarks – ein Modell mit 13-fach mehr Parametern.
  • Qwen3.5-4B: Läuft auf dem Smartphone und liefert brauchbare Ergebnisse für Zusammenfassungen und RAG-Pipelines.
  • Qwen3.5-0.8B: Minimalgröße, trotzdem nützlich für eingebettete Anwendungen.

Die Modelle lassen sich mit Quantisierung bis 4 Bit ohne spürbare Qualitätseinbußen betreiben. Das bedeutet: Brauchbare KI lokal auf dem Laptop, ohne Cloud-Abhängigkeit.

Ein Wort zur Skepsis

Qwen-Modelle kommen von Alibaba, einem chinesischen Unternehmen. Wer chinesische LLMs nutzt, sollte wissen: Bei politischen Themen (Taiwan, Tiananmen, chinesische Medienzensur) zeigen die Modelle deutliche Einschränkungen. Der Heise-Test dokumentiert, dass Qwen3.5-Modelle bei solchen Fragen antworten, die der offiziellen chinesischen Linie folgen.

Für technische Anwendungen, Codegenerierung und Datenauswertung ist das irrelevant. Für alles, was politische oder historische Einordnung braucht, gilt: Lieber ein Modell ohne staatliche Inhaltsfilterung nehmen.

Für wen sich Qwen 3.5 lohnt

  • Entwickler, die lokal arbeiten wollen und keine API-Kosten brauchen
  • Agenten- und Tool-Use-Szenarien: Das 122B-Modell schlägt GPT-5 mini um 30 % bei Function-Calling
  • Visuelle Aufgaben: Dokumentenverständnis, Chart-Analyse, Diagramme
  • Experimentierfreudige, die Mamba-Architektur in der Praxis testen wollen

Nicht geeignet für: Alles, was politisch sensible Themen umfasst, ohne zusätzliche Prüfung.


Quellen: Heise Developer-Häppchen 14.03.2026, GitHub QwenLM/Qwen3.5, qwen.ai/blog