Zum Hauptinhalt springen
9 – 17 UHR +49 8031 3508270 LUITPOLDSTR. 9, 83022 ROSENHEIM
DE / EN
LLM Moonshot AI China

Moonshot Kimi

Moonshot Kimi K2.6 - Open-Source Modell mit 256K Context, Agent Swarm bis 300 Sub-Agenten und SOTA Coding (SWE-Bench Pro 58.6%). Auf Cloudflare Workers AI. Nur Self-Hosting DSGVO-konform!

Lizenz Modified MIT
DSGVO-Hosting Verfügbar
Kontext 256K (Standard), bis 2M (Long-Context Evaluation) Tokens
Modalität Text, Image, PDF, Video, Code → Text, Code

Versionen

Verfügbare Modellvarianten im Überblick

ModellReleaseEUStärkenSchwächenStatus
Kimi-K2.6 Empfohlen
2026-04-20
Long-Horizon Coding & Agentic Workflows Agent Swarm bis 300 Sub-Agenten / 4.000 koordinierte Schritte SWE-Bench Pro 58.6% - schlägt GPT-5.4 (57.7%) und Claude Opus 4.6 (53.4%) Terminal-Bench 2.0: 66.7% (von 50.8% bei K2.5) 256K Context Window, native INT4 Quantization Day-0 Verfügbarkeit auf Cloudflare Workers AI (April 2026) Open-Weight unter Modified MIT License
Sehr ressourcenintensiv für volles 256K Context Self-Hosting Nur eingeschränkte EU-Cloud-Optionen (keine AWS Bedrock / Azure / Vertex)
Aktuell
Kimi-K2.5
2026-01-27
Native Multimodal (Image, Video, PDF, Text) 256K Context (bis 2M in Long-Context-Eval) MoonViT Vision Encoder State-of-the-art Coding (LiveCodeBench 85.0%) MMLU-Pro 87.1% - Top-Tier Wissen Agent Swarm bis 100 Sub-Agenten / 1.500 Tool-Calls 36M+ monatlich aktive Nutzer Auf Cloudflare Workers AI (März 2026)
Sehr ressourcenintensiv (8x H100 für 256K)
Aktuell
Kimi-K2-Thinking
2025
Chain-of-Thought Reasoning 256K Context Window Agentic Workflows Bestes Open-Source Thinking Model
Ressourcenintensiv
Aktuell
Kimi-K2-Instruct
2025
General-Purpose Chat 128K Context Window Stabil und zuverlässig
Aktuell
Kimi-K2-Base
2025
Foundation Model Fine-Tuning möglich
Requires Post-Training
Aktuell

Einsatzbereiche

Typische Anwendungsgebiete für dieses Modell

Coding & Softwareentwicklung
Agentic AI Workflows
Lange Dokument-Analysen
Multimodale Reasoning-Aufgaben
Self-Hosted Enterprise Deployments
Forschung & Entwicklung
Visual Question Answering

Technische Details

API, Features und Capabilities

API & Verfügbarkeit
Verfügbarkeit Public
Latenz (TTFT) ~1200ms
Features & Capabilities
Tool Use Function Calling Structured Output Vision Reasoning Mode Datei-Upload
Training & Wissen
Wissensstand 2025-12
Fine-Tuning Verfügbar (LoRA, Full Fine-Tuning, PEFT)
Sprachunterstützung
Beste Qualität Englisch, Chinesisch
Unterstützt Multilingual
Beste Qualität in Englisch und Chinesisch

Hosting & Compliance

DSGVO-konforme Hosting-Optionen und Lizenzierung

DSGVO-konforme Hosting-Optionen
Self-Hosted
Eigene EU-Infrastruktur
Empfohlen für DSGVO-Konformität
Lizenz & Hosting
Lizenz Modified MIT
Sicherheitsfilter Anpassbar
On-Premise

Benchmarks

Leistungsvergleich mit standardisierten Tests

LiveCodeBench v6
85.0%
SWE-Bench Verified
76.8%
MMLU-Pro
87.1%
AIME 2025
96.1%
GPQA-Diamond
87.6%
MMMU-Pro
78.5%
MathVision
84.2%
OCRBench
92.3%
OmniDocBench
88.8%

Wichtiger Hinweis für Unternehmen: innFactory AI Consulting aus Rosenheim empfiehlt Moonshot Kimi ausschließlich im Self-Hosting-Betrieb. Bei API-Nutzung werden Daten in China verarbeitet - für den DACH-Raum nur mit eigener Infrastruktur DSGVO-konform einsetzbar.

Neuestes Update: Kimi K2.6 (April 2026)

Am 20. April 2026 hat Moonshot AI Kimi K2.6 als generally available Modell veröffentlicht - acht Tage nach dem K2.6 Code Preview. Die neue Generation übertrifft K2.5 deutlich bei Agentic Coding und Long-Horizon Workflows:

  • SWE-Bench Pro: 58.6% (vs. 50.7% bei K2.5) - schlägt GPT-5.4 (57.7%) und Claude Opus 4.6 (53.4%)
  • Terminal-Bench 2.0: 66.7% (von 50.8% bei K2.5)
  • BrowseComp (Agent Swarm): 86.3% (von 78.4% bei K2.5)
  • Toolathlon: 50.0% (von 27.8% bei K2.5)
  • Agent Swarm Skalierung: bis zu 300 parallele Sub-Agenten und 4.000 koordinierte Schritte
  • Day-0 Verfügbarkeit auf Cloudflare Workers AI (@cf/moonshotai/kimi-k2.6)
  • 1T Parameter MoE-Architektur, 32B aktiv, 256K Context, native INT4 Quantization
  • Open-Weight verfügbar auf Hugging Face (moonshotai/Kimi-K2.6)

K2.6 ist damit aktuell unser empfohlenes Kimi-Modell für Self-Hosting und agentische Coding-Pipelines. Ein Nachfolger Kimi K3 (mit angeblich 2.5T+ Parametern und 1M Context) ist für Q3 2026 angekündigt, aber bis Stand Juni 2026 noch nicht veröffentlicht.

Besondere Stärken

Ultralanger Kontext (256K Tokens)

Kimi K2.5 bietet eines der längsten Context Windows im Open-Source-Bereich:

  • 256.000 Tokens - entspricht ca. 640 Textseiten
  • Ideal für umfangreiche Dokumentenanalyse
  • Ermöglicht komplexe Multi-Step Reasoning über lange Konversationen
  • Übertrifft die meisten verfügbaren Open-Source LLMs

Mixture-of-Experts Architektur

Innovative MoE-Architektur für maximale Effizienz:

  • 1 Trillion Parameter gesamt
  • Nur 32 Milliarden Parameter aktiv pro Anfrage
  • 384 Experten, 8 werden pro Token aktiviert
  • Multi-Head Latent Attention (MLA) für effiziente Verarbeitung
  • Stabiles Training durch MuonClip-Optimizer
  • MMLU-Pro: 87,1% - Kompetitiv mit führenden proprietären Modellen bei allgemeinem Wissen

Native Multimodalität (K2.5)

Kimi K2.5 ist vollständig multimodal trainiert mit herausragenden Benchmark-Ergebnissen:

  • MoonViT Vision Encoder (400M Parameter)
  • Verarbeitet Bilder, Videos, PDFs und Text nativ
  • ~15 Billionen gemischte visuelle/Text-Tokens im Training
  • MMMU-Pro: 78,5% - State-of-the-Art Visual Multimodal Understanding
  • MathVision: 84,2% - Mathematik mit visueller Integration
  • OCRBench: 92,3% - Beste OCR-Performance aller getesteten Modelle
  • OmniDocBench: 88,8% - Exzellentes Dokumentenverständnis
  • Code-Generierung aus UI-Designs möglich

State-of-the-Art Coding

Herausragende Performance bei Programmieraufgaben (Stand 2026):

  • LiveCodeBench v6: 85,0% pass@1 - höchste Punktzahl unter Open-Source-Modellen
  • SWE-Bench Verified: 76,8% Erfolgsrate (agentic coding) - nahe an proprietären Frontier-Modellen
  • Full-Stack-Fähigkeiten: Frontend, Backend, DevOps
  • Debugging und automatische Code-Optimierung
  • Präzise Function/Tool Calling für API-Integration
  • AIME 2025: 96,1% (Math Olympiad Level) - exzellente mathematische Problemlösung

Agentic Intelligence

Spezialisiert auf autonome Reasoning-Workflows:

  • Native Tool-Calling-Unterstützung
  • Multi-Step Task Decomposition (“think → act → re-think”)
  • Agent Swarm System: Bis zu 100 parallele Sub-Agenten für komplexe Aufgaben
  • Fast 100% Präzision bei API-basierten Tool-Aufrufen
  • Kimi K2 Thinking: Transparente Chain-of-Thought Prozesse
  • GPQA-Diamond: 87,6% - Graduate-Level Reasoning Performance

Wichtige Hinweise

Datenschutz-Überlegungen

Wichtig für Unternehmen: Moonshot AI ist ein chinesisches Unternehmen. Bei Nutzung der API werden Daten auf Servern in China verarbeitet. Für sensible Unternehmensdaten empfehlen wir dringend Self-Hosting.

  • Chinesisches Unternehmen: Serverstandort China (bei API-Nutzung)
  • DSGVO: Keine explizite DSGVO-Konformität bei API-Nutzung
  • Keine EU-Regionen: Nicht verfügbar über AWS Bedrock, Azure AI oder Vertex AI
  • Empfehlung: Self-Hosting in eigener EU-Infrastruktur

Self-Hosting als Lösung

Das Open-Source-Modell kann in der eigenen Infrastruktur betrieben werden:

  • Alle Daten bleiben unter Ihrer Kontrolle
  • Keine Abhängigkeit von externen APIs
  • Volle DSGVO-Konformität möglich
  • Hardware-Anforderungen: 8x H100 GPUs für volle 256K Context (INT4)
  • Support für vLLM, SGLang, TensorRT-LLM Deployment

Ressourcenanforderungen

Kimi ist ein ressourcenintensives Modell:

  • Vollständiger Context (256K): 8x NVIDIA H100 (INT4 Quantization)
  • Standard Context (128K): 4-6x High-End GPUs
  • INT4, INT8 und FP16 Quantization unterstützt
  • Für kleinere Deployments: Kürzere Context Windows nutzen

Technische Highlights

Model-Varianten

Moonshot AI bietet verschiedene Spezialisierungen:

  • Kimi-K2.6: Aktuelle Generation, Long-Horizon Coding, 300-Agent Swarm, 256K Context
  • Kimi-K2.5: Multimodal, 256K Context, Vorgänger von K2.6
  • Kimi-K2-Thinking: Reasoning-Fokus, transparente Denkprozesse
  • Kimi-K2-Instruct: General-Purpose Chat, 128K Context
  • Kimi-K2-Base: Foundation Model für Custom Fine-Tuning

Open-Source-Lizenzierung

Transparente Open-Source-Verfügbarkeit:

  • Modified MIT License - permissive Nutzung
  • Vollständige Model Weights auf Hugging Face
  • Aktive Community auf GitHub
  • Technical Reports und Benchmarks öffentlich verfügbar

Integration mit CompanyGPT

Falls Sie Kimi in Ihrer eigenen Infrastruktur betreiben möchten, unterstützen wir Sie bei der Integration in CompanyGPT - unserer DSGVO-konformen Chat-Plattform für Unternehmen.

Verfügbarkeit

API-Zugang:

  • Öffentliche API verfügbar über platform.moonshot.ai
  • OpenAI-kompatibles API-Format
  • Serverstandort: China
  • Nicht empfohlen für sensible EU-Daten

Self-Hosting:

  • Model Weights: Hugging Face (moonshotai/Kimi-K2.6, moonshotai/Kimi-K2.5)
  • GitHub Repository: MoonshotAI/Kimi-K2
  • Deployment über vLLM, SGLang, TensorRT-LLM
  • Neu: Kimi K2.6 auf Cloudflare Workers AI mit Day-0 Support (seit 20. April 2026)
  • Kimi K2.5 auf Cloudflare Workers AI (seit 19. März 2026)
  • NVIDIA NIM Integration verfügbar
  • Empfohlen für DSGVO-konforme Nutzung

Unsere Empfehlung

Kimi K2.6 ist technisch beeindruckend und bietet State-of-the-Art Performance bei Agentic Coding (SWE-Bench Pro 58.6%), Long-Horizon Workflows und multimodalen Aufgaben - und schlägt damit aktuell sogar GPT-5.4 und Claude Opus 4.6 auf SWE-Bench Pro. Der ultralange 256K Context ist einzigartig im Open-Source-Bereich.

Für DACH-Unternehmen empfehlen wir jedoch ausschließlich Self-Hosting in eigener EU-Infrastruktur. Bei API-Nutzung über platform.moonshot.ai werden Daten in China verarbeitet, was DSGVO-kritisch ist.

Beste Wahl: Self-Hosted Kimi-K2.6 für agentische Coding-Pipelines und multimodale Anwendungen oder Kimi-K2-Thinking für komplexe Reasoning-Aufgaben - jeweils in eigener Infrastruktur mit voller Datenkontrolle.

Alternative: Für Unternehmen ohne eigene GPU-Infrastruktur empfehlen wir EU-gehostete Alternativen wie Anthropic Claude oder Google Gemini über entsprechende EU-Regionen.

Kostenkalkulation für dieses Modell

Eine aktuelle Übersicht über Token-Preise, Modellvarianten und EU-Verfügbarkeit finden Sie auf unserem Schwesterprojekt ai-prices.eu. Dort lassen sich die laufenden Betriebskosten für Ihren konkreten Anwendungsfall vergleichen und abschätzen.

Preise auf ai-prices.eu vergleichen

ai-prices.eu ist ein Projekt der innFactory AI Consulting GmbH und hilft bei der transparenten Preisabschätzung führender KI-Modelle.

Beratung zu diesem Modell?

Wir helfen Ihnen bei der Auswahl und Integration des richtigen KI-Modells für Ihren Anwendungsfall.