Wichtiger Hinweis für Unternehmen: innFactory AI Consulting aus Rosenheim empfiehlt Moonshot Kimi ausschließlich im Self-Hosting-Betrieb. Bei API-Nutzung werden Daten in China verarbeitet - für den DACH-Raum nur mit eigener Infrastruktur DSGVO-konform einsetzbar.

Neuestes Update: Kimi K3 (Juli 2026)

Am 16. Juli 2026 hat Moonshot AI Kimi K3 vorgestellt – mit 2,8 Billionen Parametern das bisher größte Modell des Unternehmens und mehr als doppelt so groß wie das bisherige Flaggschiff K2.6. Die MoE-Architektur aktiviert 16 von 896 Experten pro Token, das Context Window wächst auf 1 Million Tokens, Bild-Input wird nativ unterstützt.

Artificial-Analysis-Leaderboard: Debüt auf Platz 3 – hinter Claude Fable 5 und GPT-5.6 Sol, in vielen Einzel-Benchmarks vor Claude Opus 4.8 und GPT-5.5 High
Führend in der Arena.ai Frontend-Code-Arena
Laut Moonshots eigener Long-Horizon-Evaluation Elo 1547 (+732 gegenüber K2.6) – Herstellerangabe, mit der gebotenen Vorsicht zu interpretieren
~21 % weniger Output-Tokens als K2.6, bislang nur eine Reasoning-Stufe („max")
API-Pricing: ~$3,00 / 1M Input, ~$15,00 / 1M Output – deutlich über den K2.x-Preisen

Wichtig für den EU-Einsatz: Die Open Weights sind zum Release noch nicht verfügbar (angekündigt bis 27. Juli 2026). Bis dahin läuft K3 ausschließlich über Website und API mit Datenverarbeitung in China – damit gibt es für K3 aktuell keinen DSGVO-konformen Pfad. Für den produktiven EU-Einsatz bleibt self-hosted Kimi K2.6 unsere Empfehlung, bis die K3-Weights veröffentlicht und die Hardware-Anforderungen für den Eigenbetrieb geklärt sind.

Kimi K2.7 Code (Juni 2026)

Am 12. Juni 2026 hat Moonshot AI Kimi K2.7 Code veröffentlicht - einen coding-fokussierten Nachfolger des Flaggschiffs Kimi K2.6 (vom 20. April 2026). Das Modell ist wie gewohnt als Open Weights unter der Modified MIT License verfügbar und legt den Schwerpunkt klar auf Softwareentwicklung und agentische Coding-Pipelines.

1T Parameter MoE-Architektur, ~32B aktiv, 384 Experten, 256K Context Window
Forcierter Thinking-Mode und OpenAI-kompatible API
Kimi Code Bench v2: 21.8% - eine Verbesserung gegenüber K2.6
Pricing: ~$0,95 / 1M Input-Tokens, ~$4,00 / 1M Output-Tokens

Wichtiger Hinweis zu den Benchmarks: Die genannten Werte stammen aus Moonshots eigenen Evaluations-Suites. Eine unabhängige Drittverifikation lag zum Release-Zeitpunkt noch nicht vor - die Zahlen sind daher mit der gebotenen Vorsicht zu interpretieren.

Für den EU-Einsatz bleibt Self-Hosting auf eigener EU-Infrastruktur über die Open Weights von Hugging Face der sauberste DSGVO-Pfad. Über Managed-Clouds sind aktuell verwandte Modelle verfügbar (AWS Bedrock: Kimi K2 Thinking / K2.5, EU via Frankfurt; Azure Foundry: Kimi K2.6 / K2.5 als Preview), K2.7 Code selbst läuft jedoch derzeit am besten self-hosted. Als generelles Flaggschiff bleibt Kimi K2.6 weiterhin unsere Empfehlung; K2.7 Code adressiert primär Coding-Anwendungsfälle.

Kimi K2.6 (April 2026)

Am 20. April 2026 hat Moonshot AI Kimi K2.6 als generally available Modell veröffentlicht - acht Tage nach dem K2.6 Code Preview. Die neue Generation übertrifft K2.5 deutlich bei Agentic Coding und Long-Horizon Workflows:

SWE-Bench Pro: 58.6% (vs. 50.7% bei K2.5) - schlägt GPT-5.4 (57.7%) und Claude Opus 4.6 (53.4%)
Terminal-Bench 2.0: 66.7% (von 50.8% bei K2.5)
BrowseComp (Agent Swarm): 86.3% (von 78.4% bei K2.5)
Toolathlon: 50.0% (von 27.8% bei K2.5)
Agent Swarm Skalierung: bis zu 300 parallele Sub-Agenten und 4.000 koordinierte Schritte
Day-0 Verfügbarkeit auf Cloudflare Workers AI (@cf/moonshotai/kimi-k2.6)
1T Parameter MoE-Architektur, 32B aktiv, 256K Context, native INT4 Quantization
Open-Weight verfügbar auf Hugging Face (moonshotai/Kimi-K2.6)

K2.6 ist damit aktuell unser empfohlenes Kimi-Modell für Self-Hosting und agentische Coding-Pipelines. Der Nachfolger Kimi K3 ist am 16. Juli 2026 erschienen (siehe oben) – solange dessen Open Weights nicht veröffentlicht sind, bleibt K2.6 die erste Wahl für den EU-Betrieb.

Besondere Stärken

Ultralanger Kontext (256K Tokens)

Kimi K2.5 bietet eines der längsten Context Windows im Open-Source-Bereich:

256.000 Tokens - entspricht ca. 640 Textseiten
Ideal für umfangreiche Dokumentenanalyse
Ermöglicht komplexe Multi-Step Reasoning über lange Konversationen
Übertrifft die meisten verfügbaren Open-Source LLMs

Mixture-of-Experts Architektur

Innovative MoE-Architektur für maximale Effizienz:

1 Trillion Parameter gesamt
Nur 32 Milliarden Parameter aktiv pro Anfrage
384 Experten, 8 werden pro Token aktiviert
Multi-Head Latent Attention (MLA) für effiziente Verarbeitung
Stabiles Training durch MuonClip-Optimizer
MMLU-Pro: 87,1% - Kompetitiv mit führenden proprietären Modellen bei allgemeinem Wissen

Native Multimodalität (K2.5)

Kimi K2.5 ist vollständig multimodal trainiert mit herausragenden Benchmark-Ergebnissen:

MoonViT Vision Encoder (400M Parameter)
Verarbeitet Bilder, Videos, PDFs und Text nativ
~15 Billionen gemischte visuelle/Text-Tokens im Training
MMMU-Pro: 78,5% - State-of-the-Art Visual Multimodal Understanding
MathVision: 84,2% - Mathematik mit visueller Integration
OCRBench: 92,3% - Beste OCR-Performance aller getesteten Modelle
OmniDocBench: 88,8% - Exzellentes Dokumentenverständnis
Code-Generierung aus UI-Designs möglich

State-of-the-Art Coding

Herausragende Performance bei Programmieraufgaben (Stand 2026):

LiveCodeBench v6: 85,0% pass@1 - höchste Punktzahl unter Open-Source-Modellen
SWE-Bench Verified: 76,8% Erfolgsrate (agentic coding) - nahe an proprietären Frontier-Modellen
Full-Stack-Fähigkeiten: Frontend, Backend, DevOps
Debugging und automatische Code-Optimierung
Präzise Function/Tool Calling für API-Integration
AIME 2025: 96,1% (Math Olympiad Level) - exzellente mathematische Problemlösung

Agentic Intelligence

Spezialisiert auf autonome Reasoning-Workflows:

Native Tool-Calling-Unterstützung
Multi-Step Task Decomposition (“think → act → re-think”)
Agent Swarm System: Bis zu 100 parallele Sub-Agenten für komplexe Aufgaben
Fast 100% Präzision bei API-basierten Tool-Aufrufen
Kimi K2 Thinking: Transparente Chain-of-Thought Prozesse
GPQA-Diamond: 87,6% - Graduate-Level Reasoning Performance

Wichtige Hinweise

Datenschutz-Überlegungen

Wichtig für Unternehmen: Moonshot AI ist ein chinesisches Unternehmen. Bei Nutzung der API werden Daten auf Servern in China verarbeitet. Für sensible Unternehmensdaten empfehlen wir dringend Self-Hosting.

Chinesisches Unternehmen: Serverstandort China (bei API-Nutzung)
DSGVO: Keine explizite DSGVO-Konformität bei API-Nutzung
Keine EU-Regionen: Nicht verfügbar über AWS Bedrock, Azure AI oder Vertex AI
Empfehlung: Self-Hosting in eigener EU-Infrastruktur

Self-Hosting als Lösung

Das Open-Source-Modell kann in der eigenen Infrastruktur betrieben werden:

Alle Daten bleiben unter Ihrer Kontrolle
Keine Abhängigkeit von externen APIs
Volle DSGVO-Konformität möglich
Hardware-Anforderungen: 8x H100 GPUs für volle 256K Context (INT4)
Support für vLLM, SGLang, TensorRT-LLM Deployment

Ressourcenanforderungen

Kimi ist ein ressourcenintensives Modell:

Vollständiger Context (256K): 8x NVIDIA H100 (INT4 Quantization)
Standard Context (128K): 4-6x High-End GPUs
INT4, INT8 und FP16 Quantization unterstützt
Für kleinere Deployments: Kürzere Context Windows nutzen

Technische Highlights

Model-Varianten

Moonshot AI bietet verschiedene Spezialisierungen:

Kimi K3: Neues Flaggschiff (Juli 2026), 2,8T Parameter, 1M Context – Open Weights angekündigt (bis 27.07.2026)
Kimi-K2.6: Long-Horizon Coding, 300-Agent Swarm, 256K Context – aktuelle Self-Hosting-Empfehlung
Kimi-K2.5: Multimodal, 256K Context, Vorgänger von K2.6
Kimi-K2-Thinking: Reasoning-Fokus, transparente Denkprozesse
Kimi-K2-Instruct: General-Purpose Chat, 128K Context
Kimi-K2-Base: Foundation Model für Custom Fine-Tuning

Open-Source-Lizenzierung

Transparente Open-Source-Verfügbarkeit:

Modified MIT License - permissive Nutzung
Vollständige Model Weights auf Hugging Face
Aktive Community auf GitHub
Technical Reports und Benchmarks öffentlich verfügbar

Integration mit CompanyGPT

Falls Sie Kimi in Ihrer eigenen Infrastruktur betreiben möchten, unterstützen wir Sie bei der Integration in CompanyGPT - unserer DSGVO-konformen Chat-Plattform für Unternehmen.

Verfügbarkeit

API-Zugang:

Öffentliche API verfügbar über platform.moonshot.ai
Kimi K3 seit 16.07.2026 über Website und API (~$3,00 / 1M Input, ~$15,00 / 1M Output)
OpenAI-kompatibles API-Format
Serverstandort: China
Nicht empfohlen für sensible EU-Daten

Self-Hosting:

Model Weights: Hugging Face (moonshotai/Kimi-K2.6, moonshotai/Kimi-K2.5)
GitHub Repository: MoonshotAI/Kimi-K2
Deployment über vLLM, SGLang, TensorRT-LLM
Neu: Kimi K2.6 auf Cloudflare Workers AI mit Day-0 Support (seit 20. April 2026)
Kimi K2.5 auf Cloudflare Workers AI (seit 19. März 2026)
NVIDIA NIM Integration verfügbar
Empfohlen für DSGVO-konforme Nutzung

Unsere Empfehlung

Kimi K3 markiert einen Sprung für Open-Weight-Modelle: Platz 3 im Artificial-Analysis-Leaderboard, 1M Context und native Multimodalität. Solange die Open Weights aber nicht veröffentlicht sind (angekündigt bis 27.07.2026), führt der einzige Zugang über die China-API – für DACH-Unternehmen damit vorerst nicht nutzbar. Kimi K2.6 bleibt technisch beeindruckend mit State-of-the-Art Performance bei Agentic Coding (SWE-Bench Pro 58.6%), Long-Horizon Workflows und multimodalen Aufgaben.

Für DACH-Unternehmen empfehlen wir jedoch ausschließlich Self-Hosting in eigener EU-Infrastruktur. Bei API-Nutzung über platform.moonshot.ai werden Daten in China verarbeitet, was DSGVO-kritisch ist.

Beste Wahl: Self-Hosted Kimi-K2.6 für agentische Coding-Pipelines und multimodale Anwendungen oder Kimi-K2-Thinking für komplexe Reasoning-Aufgaben - jeweils in eigener Infrastruktur mit voller Datenkontrolle. Sobald die K3-Weights veröffentlicht sind, prüfen wir die Self-Hosting-Tauglichkeit (bei 2,8T Parametern dürften die Hardware-Anforderungen erheblich sein).

Alternative: Für Unternehmen ohne eigene GPU-Infrastruktur empfehlen wir EU-gehostete Alternativen wie Anthropic Claude oder Google Gemini über entsprechende EU-Regionen.

Modell	Release	Stärken	Schwächen	Status
Kimi K3	2026-07-16	2,8T Parameter MoE (16 von 896 Experten aktiv) - größtes Kimi-Modell bisher 1M Token Context Window, multimodaler Input (Text + Bild) Artificial-Analysis-Leaderboard: Debüt auf Platz 3 hinter Claude Fable 5 und GPT-5.6 Sol Führend in der Arena.ai Frontend-Code-Arena ~21% weniger Output-Tokens als K2.6 (laut Moonshot) OpenAI-kompatible API	Open Weights zum Release noch nicht verfügbar (angekündigt bis 27.07.2026) API-Pricing deutlich über K2.x: ~$3,00 / 1M Input, ~$15,00 / 1M Output Nur eine Reasoning-Stufe (max), hohe Time-to-first-Token in ersten Messungen	Aktuell
Kimi K2.7 Code	2026-06-12	Coding-fokussierter Nachfolger des Flaggschiffs K2.6 1T Parameter MoE, ~32B aktiv, 384 Experten, 256K Context Forcierter Thinking-Mode, OpenAI-kompatible API Kimi Code Bench v2: 21.8% (Verbesserung gegenüber K2.6) Open Weights unter Modified MIT License Günstiges Pricing: ~$0,95 / 1M Input, ~$4,00 / 1M Output Tokens	Benchmarks stammen aus Moonshots eigenen Eval-Suites - keine unabhängige Drittverifikation zum Release K2.7 Code selbst noch nicht über EU-Managed-Clouds verfügbar (am besten self-hosted)	Aktuell
Kimi-K2.6 Empfohlen	2026-04-20	Long-Horizon Coding & Agentic Workflows Agent Swarm bis 300 Sub-Agenten / 4.000 koordinierte Schritte SWE-Bench Pro 58.6% - schlägt GPT-5.4 (57.7%) und Claude Opus 4.6 (53.4%) Terminal-Bench 2.0: 66.7% (von 50.8% bei K2.5) 256K Context Window, native INT4 Quantization Day-0 Verfügbarkeit auf Cloudflare Workers AI (April 2026) Open-Weight unter Modified MIT License	Sehr ressourcenintensiv für volles 256K Context Self-Hosting Nur eingeschränkte EU-Cloud-Optionen (keine AWS Bedrock / Azure / Vertex)	Aktuell
Kimi-K2.5	2026-01-27	Native Multimodal (Image, Video, PDF, Text) 256K Context (bis 2M in Long-Context-Eval) MoonViT Vision Encoder State-of-the-art Coding (LiveCodeBench 85.0%) MMLU-Pro 87.1% - Top-Tier Wissen Agent Swarm bis 100 Sub-Agenten / 1.500 Tool-Calls 36M+ monatlich aktive Nutzer Auf Cloudflare Workers AI (März 2026)	Sehr ressourcenintensiv (8x H100 für 256K)	Aktuell
Kimi-K2-Thinking	2025	Chain-of-Thought Reasoning 256K Context Window Agentic Workflows Bestes Open-Source Thinking Model	Ressourcenintensiv	Aktuell
Kimi-K2-Instruct	2025	General-Purpose Chat 128K Context Window Stabil und zuverlässig	—	Aktuell
Kimi-K2-Base	2025	Foundation Model Fine-Tuning möglich	Requires Post-Training	Aktuell

Moonshot Kimi

Versionen

Einsatzbereiche

Technische Details

Hosting & Compliance

Benchmarks