Ollama auf Apple-Chips: MLX beschleunigt lokale KI

Thomas Kramer enthalten in IT

09.04.2026 600 Wörter (ungefähr) 3 Minuten

Inhalt

Ollama läuft auf Macs mit Apple-Chips jetzt auf Basis von MLX, dem Machine-Learning-Framework von Apple. Das ist noch als Vorschau deklariert, zielt aber auf mehr Tempo für KI-Workflows unter macOS ab. Besonders bei lokalen Assistenten und Coding-Agents wie Claude Code oder OpenClaw.

Was MLX ändert

Der große Hebel: die bessere Nutzung der einheitlichen Speicherarchitektur der M-Chips. MLX ist Apples eigenes ML-Framework, das auf die Besonderheiten der Apple-Silicon-Architektur zugeschnitten ist. Keine Emulationsschicht, kein CUDA-Übersetzung, sondern direkte Nutzung der GPU und Neural Engine.

Auf M5, M5 Pro und M5 Max greift Ollama zusätzlich auf die GPU Neural Accelerators zu. Das wirkt sich sowohl auf die Zeit bis zum ersten Token als auch auf die Tokens pro Sekunde aus.

Die Zahlen

Gegenüber Ollama 0.18 legt Version 0.19 beim Prefill und Decode deutlich zu. In internen Tests mit Qwen3.5-35B-A3B kam die neue Version mit NVFP4-Quantisierung klar schneller ins Ziel als die alte Implementierung mit Q4_K_M. Mit int4 erreicht Ollama 0.19 sogar 1.851 Tokens pro Sekunde beim Prefill und 134 Tokens pro Sekunde beim Decode.

NVFP4 ist NVIDIAs Quantisierungsformat, das die Speicher- und Bandbreitenanforderungen reduziert, während die Genauigkeit erhalten bleibt. Wer lokal mit Ollama arbeitet, kann Ergebnisse bekommen, die näher an dem liegen, was größere Inferenz-Setups liefern. Gleichzeitig öffnet sich Ollama für Modelle, die mit NVIDIAs Optimizer vorbereitet wurden.

Besseres Caching für Agenten-Workflows

Was im Blog-Post etwas untergeht, aber praktisch den größten Unterschied macht: Das Caching wurde komplett überarbeitet. Ollama nutzt den Cache jetzt über Konversationen hinweg, statt ihn bei jedem neuen Prompt wegzuwerfen. Tools wie Claude Code oder OpenClaw, die denselben System-Prompt mit verschiedenen Tool-Aufrufen kombinieren, profitieren massiv davon.

Dazu kommen intelligente Checkpoints: Ollama speichert Snapshots des Caches an sinnvollen Stellen im Prompt, sodass weniger neu berechnet werden muss. Und ältere Cache-Einträge mit geteiltem Prefix überleben länger, selbst wenn neuere Branches verworfen werden. Für Coding-Agents, die ständig zwischen Dateien und Tool-Aufrufen hin- und herspringen, ist das ein spürbarer Geschwindigkeitsgewinn.

Für wen das relevant ist

Zum Start fokussiert sich die Vorschau auf Qwen3.5-35B-A3B, dessen Sampling-Parameter auf Coding-Aufgaben zugeschnitten sind. Empfehlung: Mac mit mehr als 32 GB gemeinsamem Speicher. Mit einem 35B-Modell wird es sonst schnell eng.

Das betrifft vor allem Entwickler, die lokal KI betreiben wollen, ohne Daten an Cloud-Anbieter zu schicken. Gerade im Enterprise-Umfeld, wo Datenschutz und Latenz wichtig sind, wird lokale KI-Verarbeitung immer attraktiver. Apple-Silicon-Nutzer waren bisher auf ONNX Runtime oder eigenständige Lösungen angewiesen. Mit Ollama + MLX gibt es jetzt einen standardisierten Weg.

Was noch fehlt

Die Vorschau hat noch klare Grenzen. Unterstützt wird aktuell nur Qwen3.5-35B-A3B. Wer eigene Fine-Tunes auf unterstützten Architekturen laufen hat, muss auf einen Import-Mechanismus warten, den Ollama ankündigt, aber noch nicht liefert. Und 32 GB Unified Memory als Mindestanforderung schließt die günstigeren MacBook-Air-Konfigurationen aus.

Die Integration mit NVIDIA ist eine interessante Wendung. NVFP4-Support, der Model Optimizer, sogar CUDA-Support für MLX kommen als NVIDIA-Beiträge. Das zeigt: Auch NVIDIA hat ein Interesse daran, dass lokale Inference auf nicht-NVIDIA-Hardware funktioniert, solange ihr Quantisierungsformat zum Standard wird.

Persönliche Perspektive

Wer mich kennt, weiß: Ich setze auf lokale Verarbeitung, wo es geht. Ollama mit MLX auf Apple-Chips ist ein Schritt in die richtige Richtung. Nicht jeder will seine Daten in die Cloud schicken, nur um ein KI-Modell zu nutzen. Besonders für sensible Bereiche wie das Gesundheitswesen oder die öffentliche Verwaltung sind solche lokalen Optionen goldwert.

Der praktische Einstieg ist einfach: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 und los geht’s. Wer einen M5 Mac mit genügend RAM hat, sollte das ausprobieren.

Quellen: