Wichtiger Hinweis für Unternehmen: innFactory AI Consulting aus Rosenheim empfiehlt Moonshot Kimi ausschließlich im Self-Hosting-Betrieb. Bei API-Nutzung werden Daten in China verarbeitet - für den DACH-Raum nur mit eigener Infrastruktur DSGVO-konform einsetzbar.
Neuestes Update: Kimi K2.6 (April 2026)
Am 20. April 2026 hat Moonshot AI Kimi K2.6 als generally available Modell veröffentlicht - acht Tage nach dem K2.6 Code Preview. Die neue Generation übertrifft K2.5 deutlich bei Agentic Coding und Long-Horizon Workflows:
- SWE-Bench Pro: 58.6% (vs. 50.7% bei K2.5) - schlägt GPT-5.4 (57.7%) und Claude Opus 4.6 (53.4%)
- Terminal-Bench 2.0: 66.7% (von 50.8% bei K2.5)
- BrowseComp (Agent Swarm): 86.3% (von 78.4% bei K2.5)
- Toolathlon: 50.0% (von 27.8% bei K2.5)
- Agent Swarm Skalierung: bis zu 300 parallele Sub-Agenten und 4.000 koordinierte Schritte
- Day-0 Verfügbarkeit auf Cloudflare Workers AI (
@cf/moonshotai/kimi-k2.6) - 1T Parameter MoE-Architektur, 32B aktiv, 256K Context, native INT4 Quantization
- Open-Weight verfügbar auf Hugging Face (
moonshotai/Kimi-K2.6)
K2.6 ist damit aktuell unser empfohlenes Kimi-Modell für Self-Hosting und agentische Coding-Pipelines. Ein Nachfolger Kimi K3 (mit angeblich 2.5T+ Parametern und 1M Context) ist für Q3 2026 angekündigt, aber bis Stand Juni 2026 noch nicht veröffentlicht.
Besondere Stärken
Ultralanger Kontext (256K Tokens)
Kimi K2.5 bietet eines der längsten Context Windows im Open-Source-Bereich:
- 256.000 Tokens - entspricht ca. 640 Textseiten
- Ideal für umfangreiche Dokumentenanalyse
- Ermöglicht komplexe Multi-Step Reasoning über lange Konversationen
- Übertrifft die meisten verfügbaren Open-Source LLMs
Mixture-of-Experts Architektur
Innovative MoE-Architektur für maximale Effizienz:
- 1 Trillion Parameter gesamt
- Nur 32 Milliarden Parameter aktiv pro Anfrage
- 384 Experten, 8 werden pro Token aktiviert
- Multi-Head Latent Attention (MLA) für effiziente Verarbeitung
- Stabiles Training durch MuonClip-Optimizer
- MMLU-Pro: 87,1% - Kompetitiv mit führenden proprietären Modellen bei allgemeinem Wissen
Native Multimodalität (K2.5)
Kimi K2.5 ist vollständig multimodal trainiert mit herausragenden Benchmark-Ergebnissen:
- MoonViT Vision Encoder (400M Parameter)
- Verarbeitet Bilder, Videos, PDFs und Text nativ
- ~15 Billionen gemischte visuelle/Text-Tokens im Training
- MMMU-Pro: 78,5% - State-of-the-Art Visual Multimodal Understanding
- MathVision: 84,2% - Mathematik mit visueller Integration
- OCRBench: 92,3% - Beste OCR-Performance aller getesteten Modelle
- OmniDocBench: 88,8% - Exzellentes Dokumentenverständnis
- Code-Generierung aus UI-Designs möglich
State-of-the-Art Coding
Herausragende Performance bei Programmieraufgaben (Stand 2026):
- LiveCodeBench v6: 85,0% pass@1 - höchste Punktzahl unter Open-Source-Modellen
- SWE-Bench Verified: 76,8% Erfolgsrate (agentic coding) - nahe an proprietären Frontier-Modellen
- Full-Stack-Fähigkeiten: Frontend, Backend, DevOps
- Debugging und automatische Code-Optimierung
- Präzise Function/Tool Calling für API-Integration
- AIME 2025: 96,1% (Math Olympiad Level) - exzellente mathematische Problemlösung
Agentic Intelligence
Spezialisiert auf autonome Reasoning-Workflows:
- Native Tool-Calling-Unterstützung
- Multi-Step Task Decomposition (“think → act → re-think”)
- Agent Swarm System: Bis zu 100 parallele Sub-Agenten für komplexe Aufgaben
- Fast 100% Präzision bei API-basierten Tool-Aufrufen
- Kimi K2 Thinking: Transparente Chain-of-Thought Prozesse
- GPQA-Diamond: 87,6% - Graduate-Level Reasoning Performance
Wichtige Hinweise
Datenschutz-Überlegungen
Wichtig für Unternehmen: Moonshot AI ist ein chinesisches Unternehmen. Bei Nutzung der API werden Daten auf Servern in China verarbeitet. Für sensible Unternehmensdaten empfehlen wir dringend Self-Hosting.
- Chinesisches Unternehmen: Serverstandort China (bei API-Nutzung)
- DSGVO: Keine explizite DSGVO-Konformität bei API-Nutzung
- Keine EU-Regionen: Nicht verfügbar über AWS Bedrock, Azure AI oder Vertex AI
- Empfehlung: Self-Hosting in eigener EU-Infrastruktur
Self-Hosting als Lösung
Das Open-Source-Modell kann in der eigenen Infrastruktur betrieben werden:
- Alle Daten bleiben unter Ihrer Kontrolle
- Keine Abhängigkeit von externen APIs
- Volle DSGVO-Konformität möglich
- Hardware-Anforderungen: 8x H100 GPUs für volle 256K Context (INT4)
- Support für vLLM, SGLang, TensorRT-LLM Deployment
Ressourcenanforderungen
Kimi ist ein ressourcenintensives Modell:
- Vollständiger Context (256K): 8x NVIDIA H100 (INT4 Quantization)
- Standard Context (128K): 4-6x High-End GPUs
- INT4, INT8 und FP16 Quantization unterstützt
- Für kleinere Deployments: Kürzere Context Windows nutzen
Technische Highlights
Model-Varianten
Moonshot AI bietet verschiedene Spezialisierungen:
- Kimi-K2.6: Aktuelle Generation, Long-Horizon Coding, 300-Agent Swarm, 256K Context
- Kimi-K2.5: Multimodal, 256K Context, Vorgänger von K2.6
- Kimi-K2-Thinking: Reasoning-Fokus, transparente Denkprozesse
- Kimi-K2-Instruct: General-Purpose Chat, 128K Context
- Kimi-K2-Base: Foundation Model für Custom Fine-Tuning
Open-Source-Lizenzierung
Transparente Open-Source-Verfügbarkeit:
- Modified MIT License - permissive Nutzung
- Vollständige Model Weights auf Hugging Face
- Aktive Community auf GitHub
- Technical Reports und Benchmarks öffentlich verfügbar
Integration mit CompanyGPT
Falls Sie Kimi in Ihrer eigenen Infrastruktur betreiben möchten, unterstützen wir Sie bei der Integration in CompanyGPT - unserer DSGVO-konformen Chat-Plattform für Unternehmen.
Verfügbarkeit
API-Zugang:
- Öffentliche API verfügbar über platform.moonshot.ai
- OpenAI-kompatibles API-Format
- Serverstandort: China
- Nicht empfohlen für sensible EU-Daten
Self-Hosting:
- Model Weights: Hugging Face (moonshotai/Kimi-K2.6, moonshotai/Kimi-K2.5)
- GitHub Repository: MoonshotAI/Kimi-K2
- Deployment über vLLM, SGLang, TensorRT-LLM
- Neu: Kimi K2.6 auf Cloudflare Workers AI mit Day-0 Support (seit 20. April 2026)
- Kimi K2.5 auf Cloudflare Workers AI (seit 19. März 2026)
- NVIDIA NIM Integration verfügbar
- Empfohlen für DSGVO-konforme Nutzung
Unsere Empfehlung
Kimi K2.6 ist technisch beeindruckend und bietet State-of-the-Art Performance bei Agentic Coding (SWE-Bench Pro 58.6%), Long-Horizon Workflows und multimodalen Aufgaben - und schlägt damit aktuell sogar GPT-5.4 und Claude Opus 4.6 auf SWE-Bench Pro. Der ultralange 256K Context ist einzigartig im Open-Source-Bereich.
Für DACH-Unternehmen empfehlen wir jedoch ausschließlich Self-Hosting in eigener EU-Infrastruktur. Bei API-Nutzung über platform.moonshot.ai werden Daten in China verarbeitet, was DSGVO-kritisch ist.
Beste Wahl: Self-Hosted Kimi-K2.6 für agentische Coding-Pipelines und multimodale Anwendungen oder Kimi-K2-Thinking für komplexe Reasoning-Aufgaben - jeweils in eigener Infrastruktur mit voller Datenkontrolle.
Alternative: Für Unternehmen ohne eigene GPU-Infrastruktur empfehlen wir EU-gehostete Alternativen wie Anthropic Claude oder Google Gemini über entsprechende EU-Regionen.
