Versionen

Verfügbare Modellvarianten im Überblick

Modell	Release	Stärken	Schwächen	Status
Nemotron 3 Ultra (550B-A55B)	4. Juni 2026	550B Parameter gesamt, ca. 55B aktiv (Hybrid LatentMoE: Mamba-2 + MoE + Attention) Bis zu 1M Token Kontextfenster Frontier-Reasoning über Code, Mathematik und Wissenschaft Open Weights auf Hugging Face Über NVIDIA NIM auf build.nvidia.com verfügbar	Sehr hoher Hardware-Bedarf für Self-Hosting (z. B. 8x B200/GB200, 16x H100 oder 8x H200)	Aktuell
Nemotron 3 Super (120B-A12B) Empfohlen	März 2026 (GTC)	120B Parameter gesamt, ca. 12B aktiv (Hybrid Mamba-Transformer MoE) Starke agentische, Reasoning- und Tool-Calling-Fähigkeiten Optimiert für Multi-Agent-Systeme und hohe Durchsatzlasten Open Weights auf Hugging Face	Mittlerer bis hoher Ressourcenbedarf für Self-Hosting	Aktuell
Nemotron 3 Nano (30B-A3B) Empfohlen	15. Dezember 2025	ca. 31,6B Parameter gesamt, ca. 3,6B aktiv (Hybrid Mamba-Transformer MoE) 1M Token Kontextfenster Sehr effizient – bis zu 4x höherer Durchsatz als Nemotron Nano 2 Auf Consumer-Hardware self-hostbar (vLLM, SGLang, LM Studio, llama.cpp, Ollama) Open Weights auf Hugging Face	Kleinste Variante – für sehr komplexe Reasoning-Aufgaben weniger geeignet	Aktuell
Nemotron 3 Nano Omni (30B-A3B)	28. April 2026	Multimodal: Vereint Vision, Audio und Sprache 256K Token Kontextfenster Optimiert für effiziente, multimodale KI-Agenten	Neueres Modell – Ökosystem-Support noch im Aufbau	Aktuell
Llama Nemotron Ultra (253B)	2025	Auf Llama 3.1 basierende Reasoning-Variante 128K Token Kontext Open Weights, etabliertes Llama-Ökosystem	Vorgängergeneration – durch Nemotron 3 abgelöst	Aktuell

Technische Details

API, Features und Capabilities

API & Verfügbarkeit

Verfügbarkeit Public

Features & Capabilities

Tool Use Function Calling Structured Output Reasoning Mode

Training & Wissen

Wissensstand Mai 2026 (Ultra), Februar 2026 (Super)

Fine-Tuning Verfügbar (LoRA, Full, PEFT)

Sprachunterstützung

Beste Qualität Englisch

Unterstützt Mehrsprachig (u. a. Deutsch, Spanisch, Französisch, Italienisch, Japanisch)

Deutsch wird unterstützt; beste Qualität in Englisch. Ultra unterstützt 10 Sprachen über Englisch hinaus.

Hosting & Compliance

DSGVO-konforme Hosting-Optionen und Lizenzierung

DSGVO-konforme Hosting-Optionen

Lizenz & Hosting

Lizenz NVIDIA Open Model License (permissiv, kommerzielle Nutzung erlaubt)

Sicherheitsfilter Anpassbar (Nemotron Safety / Guard Modelle verfügbar)

Enterprise Support Ja

SLA verfügbar Ja

On-Premise Edge-fähig

Stand Juni 2026: NVIDIA hat seine offene Modellfamilie Nemotron 3 mit den drei Reasoning-Größen Nano, Super und Ultra komplettiert. Mit dem Release von Nemotron 3 Ultra (550B) am 4. Juni 2026 steht erstmals ein Frontier-Modell von NVIDIA mit offenen Gewichten zur Verfügung. Alle Modelle stehen unter der NVIDIA Open Model License und lassen sich frei herunterladen, anpassen und kommerziell betreiben. innFactory AI Consulting aus Rosenheim berät zum DSGVO-konformen Einsatz.

Was ist NVIDIA Nemotron?

Nemotron ist NVIDIAs Familie offener Modelle (Open Weights), die speziell für agentische KI und Reasoning entwickelt wurde. Anders als rein proprietäre Modelle veröffentlicht NVIDIA Gewichte, Trainingsdaten und Trainingstechniken offen – so kann die Community die Modelle selbst betreiben, anpassen und für eigene Zwecke weitertrainieren. Die aktuelle Nemotron-3-Generation nutzt eine effiziente Hybrid Mamba-Transformer Mixture-of-Experts (MoE)-Architektur, bei der pro Anfrage nur ein Bruchteil der Parameter aktiv ist.

Die Nemotron-3-Modellvarianten

NVIDIA bietet drei Reasoning-Größen, die sich nach Aufgabenkomplexität und Hardware skalieren:

Nemotron 3 Nano (30B-A3B)

ca. 31,6B Parameter gesamt, ca. 3,6B aktiv (Hybrid Mamba-Transformer MoE)
1M Token Kontextfenster
Sehr effizient: bis zu 4x höherer Durchsatz als Nemotron Nano 2
Self-hostbar auf moderater Hardware (vLLM, SGLang, LM Studio, llama.cpp, Ollama)
Release: 15. Dezember 2025

Nemotron 3 Super (120B-A12B)

120B Parameter gesamt, ca. 12B aktiv (Hybrid Mamba-Transformer MoE)
Starke agentische, Reasoning- und Tool-Calling-Fähigkeiten
Optimiert für Multi-Agent-Systeme und hohe Durchsatzlasten (z. B. IT-Ticket-Automatisierung)
Release: GTC, März 2026

Nemotron 3 Ultra (550B-A55B)

550B Parameter gesamt, ca. 55B aktiv (Hybrid LatentMoE: Mamba-2 + MoE + Attention, mit Multi-Token Prediction)
Bis zu 1M Token Kontext für Langkontext-Analyse
Frontier-Reasoning über Code, Mathematik und Wissenschaft
Release: 4. Juni 2026 (Computex)

Weitere Modelle: NVIDIA pflegt zusätzlich Nemotron Nano Omni (multimodal, Vision/Audio/Sprache, 256K Kontext), Retriever-/RAG-Modelle, Nemotron Safety/Guard für Content-Sicherheit sowie OCR- und Speech-Modelle. Die ältere Llama-Nemotron-Reihe (Nano 8B, Super 49B, Ultra 253B) basiert auf Llama 3.1 mit 128K Kontext.

Besondere Stärken

Effizienz durch Hybrid-MoE

Die Mamba-Transformer-MoE-Architektur aktiviert pro Token nur einen Bruchteil der Gesamtparameter. Das senkt Inferenzkosten deutlich – Nemotron 3 Nano erreicht laut NVIDIA bis zu 4x höheren Durchsatz als die Vorgängergeneration und reduziert die Anzahl der Reasoning-Tokens.

Agentic & Tool Use

Alle Nemotron-3-Modelle sind auf agentische Workflows ausgelegt: natives Tool Calling, Funktionsaufrufe und strukturierte Ausgaben für Multi-Agent-Systeme.

Open Weights & permissive Lizenz

Die NVIDIA Open Model License ist permissiv und erlaubt Nutzung, Modifikation, Weitergabe und kommerziellen Einsatz – ohne Namensnennungspflicht. NVIDIA veröffentlicht zusätzlich Trainingsdatensätze und Tools (NeMo Gym, NeMo RL, NeMo Evaluator).

Hinweis: Bei einzelnen Modellkarten auf Hugging Face werden teils abweichende Lizenzbezeichnungen (z. B. OpenMDW) geführt. Wir prüfen die konkrete Lizenz pro Modell und Version im Rahmen der Beratung.

EU-Verfügbarkeit & DSGVO-Konformität

Weil Nemotron als Open Weights veröffentlicht wird, ist der sauberste Souveränitätspfad das Self-Hosting auf EU-Infrastruktur – alle Daten bleiben unter Ihrer Kontrolle.

Self-Hosting (empfohlen für Souveränität)

Betrieb auf eigener Hardware oder bei einem EU-Cloud-Anbieter (z. B. in Frankfurt)
Volle DSGVO-Konformität, keine Abhängigkeit von US-APIs
Nano lässt sich bereits auf moderater Hardware betreiben; Ultra benötigt mehrere High-End-GPUs (z. B. 8x B200/GB200, 16x H100 oder 8x H200)

Managed über Hyperscaler (EU-Regionen)

AWS: Amazon Bedrock / AWS Marketplace – Nemotron 3 gelistet (EU-Region jeweils prüfen)
Microsoft Foundry: Nemotron 3 gelistet (EU-Region prüfen)
Google: Gemini Enterprise Agent Platform (vormals Vertex AI – Rebrand im April 2026 auf der Cloud Next) im Model Garden

Direkt über NVIDIA

build.nvidia.com und NVIDIA NIM Microservices für gehostete Endpunkte bzw. containerisierte Self-Service-Deployments
Hosted-Inferenz auch über Anbieter wie Together AI, Fireworks, DeepInfra, OpenRouter, Baseten

Für sensible Daten empfehlen wir Self-Hosting in der EU. Für schnellen Start eignen sich EU-Regionen der Hyperscaler oder NIM-Container in eigener Cloud-Umgebung.

Integration mit CompanyGPT

Dank Open Weights lässt sich Nemotron hervorragend in unsere DSGVO-konforme Lösung CompanyGPT integrieren. So können Sie ein leistungsstarkes Reasoning- und Agenten-Modell vollständig in Ihrer eigenen oder einer EU-gehosteten Umgebung betreiben – ohne dass Unternehmensdaten in Drittländer abfließen. innFactory AI Consulting übernimmt Auswahl, Deployment und Feintuning des passenden Nemotron-Modells.

Unsere Empfehlung

Nemotron ist eine der stärksten offenen Modellfamilien für agentische und Reasoning-Anwendungen – und durch die Open Weights besonders attraktiv für souveräne, DSGVO-konforme Deployments.

Für die meisten Unternehmen empfehlen wir:

Nemotron 3 Nano für effiziente, kostengünstige Agenten und RAG – self-hostbar auf moderater Hardware
Nemotron 3 Super als ausgewogene Wahl für anspruchsvolle Multi-Agent-Systeme
Nemotron 3 Ultra für Frontier-Reasoning bei maximalen Anforderungen (entsprechende GPU-Infrastruktur vorausgesetzt)

Gern beraten wir Sie zur Modellauswahl, zum Self-Hosting in der EU und zur Integration in bestehende Workflows.

Kostenkalkulation für dieses Modell

Eine aktuelle Übersicht über Token-Preise, Modellvarianten und EU-Verfügbarkeit finden Sie auf unserem Schwesterprojekt ai-prices.eu. Dort lassen sich die laufenden Betriebskosten für Ihren konkreten Anwendungsfall vergleichen und abschätzen.

Preise auf ai-prices.eu vergleichen

ai-prices.eu ist ein Projekt der innFactory AI Consulting GmbH und hilft bei der transparenten Preisabschätzung führender KI-Modelle.

NVIDIA Nemotron