Stand Juni 2026: NVIDIA hat seine offene Modellfamilie Nemotron 3 mit den drei Reasoning-Größen Nano, Super und Ultra komplettiert. Mit dem Release von Nemotron 3 Ultra (550B) am 4. Juni 2026 steht erstmals ein Frontier-Modell von NVIDIA mit offenen Gewichten zur Verfügung. Alle Modelle stehen unter der NVIDIA Open Model License und lassen sich frei herunterladen, anpassen und kommerziell betreiben. innFactory AI Consulting aus Rosenheim berät zum DSGVO-konformen Einsatz.
Was ist NVIDIA Nemotron?
Nemotron ist NVIDIAs Familie offener Modelle (Open Weights), die speziell für agentische KI und Reasoning entwickelt wurde. Anders als rein proprietäre Modelle veröffentlicht NVIDIA Gewichte, Trainingsdaten und Trainingstechniken offen – so kann die Community die Modelle selbst betreiben, anpassen und für eigene Zwecke weitertrainieren. Die aktuelle Nemotron-3-Generation nutzt eine effiziente Hybrid Mamba-Transformer Mixture-of-Experts (MoE)-Architektur, bei der pro Anfrage nur ein Bruchteil der Parameter aktiv ist.
Die Nemotron-3-Modellvarianten
NVIDIA bietet drei Reasoning-Größen, die sich nach Aufgabenkomplexität und Hardware skalieren:
Nemotron 3 Nano (30B-A3B)
- ca. 31,6B Parameter gesamt, ca. 3,6B aktiv (Hybrid Mamba-Transformer MoE)
- 1M Token Kontextfenster
- Sehr effizient: bis zu 4x höherer Durchsatz als Nemotron Nano 2
- Self-hostbar auf moderater Hardware (vLLM, SGLang, LM Studio, llama.cpp, Ollama)
- Release: 15. Dezember 2025
Nemotron 3 Super (120B-A12B)
- 120B Parameter gesamt, ca. 12B aktiv (Hybrid Mamba-Transformer MoE)
- Starke agentische, Reasoning- und Tool-Calling-Fähigkeiten
- Optimiert für Multi-Agent-Systeme und hohe Durchsatzlasten (z. B. IT-Ticket-Automatisierung)
- Release: GTC, März 2026
Nemotron 3 Ultra (550B-A55B)
- 550B Parameter gesamt, ca. 55B aktiv (Hybrid LatentMoE: Mamba-2 + MoE + Attention, mit Multi-Token Prediction)
- Bis zu 1M Token Kontext für Langkontext-Analyse
- Frontier-Reasoning über Code, Mathematik und Wissenschaft
- Release: 4. Juni 2026 (Computex)
Weitere Modelle: NVIDIA pflegt zusätzlich Nemotron Nano Omni (multimodal, Vision/Audio/Sprache, 256K Kontext), Retriever-/RAG-Modelle, Nemotron Safety/Guard für Content-Sicherheit sowie OCR- und Speech-Modelle. Die ältere Llama-Nemotron-Reihe (Nano 8B, Super 49B, Ultra 253B) basiert auf Llama 3.1 mit 128K Kontext.
Besondere Stärken
Effizienz durch Hybrid-MoE
Die Mamba-Transformer-MoE-Architektur aktiviert pro Token nur einen Bruchteil der Gesamtparameter. Das senkt Inferenzkosten deutlich – Nemotron 3 Nano erreicht laut NVIDIA bis zu 4x höheren Durchsatz als die Vorgängergeneration und reduziert die Anzahl der Reasoning-Tokens.
Agentic & Tool Use
Alle Nemotron-3-Modelle sind auf agentische Workflows ausgelegt: natives Tool Calling, Funktionsaufrufe und strukturierte Ausgaben für Multi-Agent-Systeme.
Open Weights & permissive Lizenz
Die NVIDIA Open Model License ist permissiv und erlaubt Nutzung, Modifikation, Weitergabe und kommerziellen Einsatz – ohne Namensnennungspflicht. NVIDIA veröffentlicht zusätzlich Trainingsdatensätze und Tools (NeMo Gym, NeMo RL, NeMo Evaluator).
Hinweis: Bei einzelnen Modellkarten auf Hugging Face werden teils abweichende Lizenzbezeichnungen (z. B. OpenMDW) geführt. Wir prüfen die konkrete Lizenz pro Modell und Version im Rahmen der Beratung.
EU-Verfügbarkeit & DSGVO-Konformität
Weil Nemotron als Open Weights veröffentlicht wird, ist der sauberste Souveränitätspfad das Self-Hosting auf EU-Infrastruktur – alle Daten bleiben unter Ihrer Kontrolle.
Self-Hosting (empfohlen für Souveränität)
- Betrieb auf eigener Hardware oder bei einem EU-Cloud-Anbieter (z. B. in Frankfurt)
- Volle DSGVO-Konformität, keine Abhängigkeit von US-APIs
- Nano lässt sich bereits auf moderater Hardware betreiben; Ultra benötigt mehrere High-End-GPUs (z. B. 8x B200/GB200, 16x H100 oder 8x H200)
Managed über Hyperscaler (EU-Regionen)
- AWS: Amazon Bedrock / AWS Marketplace – Nemotron 3 gelistet (EU-Region jeweils prüfen)
- Microsoft Foundry: Nemotron 3 gelistet (EU-Region prüfen)
- Google: Gemini Enterprise Agent Platform (vormals Vertex AI – Rebrand im April 2026 auf der Cloud Next) im Model Garden
Direkt über NVIDIA
- build.nvidia.com und NVIDIA NIM Microservices für gehostete Endpunkte bzw. containerisierte Self-Service-Deployments
- Hosted-Inferenz auch über Anbieter wie Together AI, Fireworks, DeepInfra, OpenRouter, Baseten
Für sensible Daten empfehlen wir Self-Hosting in der EU. Für schnellen Start eignen sich EU-Regionen der Hyperscaler oder NIM-Container in eigener Cloud-Umgebung.
Integration mit CompanyGPT
Dank Open Weights lässt sich Nemotron hervorragend in unsere DSGVO-konforme Lösung CompanyGPT integrieren. So können Sie ein leistungsstarkes Reasoning- und Agenten-Modell vollständig in Ihrer eigenen oder einer EU-gehosteten Umgebung betreiben – ohne dass Unternehmensdaten in Drittländer abfließen. innFactory AI Consulting übernimmt Auswahl, Deployment und Feintuning des passenden Nemotron-Modells.
Unsere Empfehlung
Nemotron ist eine der stärksten offenen Modellfamilien für agentische und Reasoning-Anwendungen – und durch die Open Weights besonders attraktiv für souveräne, DSGVO-konforme Deployments.
Für die meisten Unternehmen empfehlen wir:
- Nemotron 3 Nano für effiziente, kostengünstige Agenten und RAG – self-hostbar auf moderater Hardware
- Nemotron 3 Super als ausgewogene Wahl für anspruchsvolle Multi-Agent-Systeme
- Nemotron 3 Ultra für Frontier-Reasoning bei maximalen Anforderungen (entsprechende GPU-Infrastruktur vorausgesetzt)
Gern beraten wir Sie zur Modellauswahl, zum Self-Hosting in der EU und zur Integration in bestehende Workflows.
