Zum Hauptinhalt springen
9 – 17 UHR +49 8031 3508270 LUITPOLDSTR. 9, 83022 ROSENHEIM
DE / EN
LLM NVIDIA USA

NVIDIA Nemotron

NVIDIA Nemotron 3 (Nano, Super, Ultra) - offene Modelle mit Open Weights für agentische KI. DSGVO-konform durch Self-Hosting. KI-Beratung aus Rosenheim berät zum sicheren Einsatz.

Lizenz NVIDIA Open Model License (permissiv, kommerzielle Nutzung erlaubt)
DSGVO-Hosting Verfügbar
Kontext 128K-1M Tokens
Modalität Text, Code → Text, Code

Versionen

Verfügbare Modellvarianten im Überblick

ModellReleaseEUStärkenSchwächenStatus
Nemotron 3 Ultra (550B-A55B)
4. Juni 2026
550B Parameter gesamt, ca. 55B aktiv (Hybrid LatentMoE: Mamba-2 + MoE + Attention) Bis zu 1M Token Kontextfenster Frontier-Reasoning über Code, Mathematik und Wissenschaft Open Weights auf Hugging Face Über NVIDIA NIM auf build.nvidia.com verfügbar
Sehr hoher Hardware-Bedarf für Self-Hosting (z. B. 8x B200/GB200, 16x H100 oder 8x H200)
Aktuell
Nemotron 3 Super (120B-A12B) Empfohlen
März 2026 (GTC)
120B Parameter gesamt, ca. 12B aktiv (Hybrid Mamba-Transformer MoE) Starke agentische, Reasoning- und Tool-Calling-Fähigkeiten Optimiert für Multi-Agent-Systeme und hohe Durchsatzlasten Open Weights auf Hugging Face
Mittlerer bis hoher Ressourcenbedarf für Self-Hosting
Aktuell
Nemotron 3 Nano (30B-A3B) Empfohlen
15. Dezember 2025
ca. 31,6B Parameter gesamt, ca. 3,6B aktiv (Hybrid Mamba-Transformer MoE) 1M Token Kontextfenster Sehr effizient – bis zu 4x höherer Durchsatz als Nemotron Nano 2 Auf Consumer-Hardware self-hostbar (vLLM, SGLang, LM Studio, llama.cpp, Ollama) Open Weights auf Hugging Face
Kleinste Variante – für sehr komplexe Reasoning-Aufgaben weniger geeignet
Aktuell
Nemotron 3 Nano Omni (30B-A3B)
28. April 2026
Multimodal: Vereint Vision, Audio und Sprache 256K Token Kontextfenster Optimiert für effiziente, multimodale KI-Agenten
Neueres Modell – Ökosystem-Support noch im Aufbau
Aktuell
Llama Nemotron Ultra (253B)
2025
Auf Llama 3.1 basierende Reasoning-Variante 128K Token Kontext Open Weights, etabliertes Llama-Ökosystem
Vorgängergeneration – durch Nemotron 3 abgelöst
Aktuell

Einsatzbereiche

Typische Anwendungsgebiete für dieses Modell

Agentic Workflows & Multi-Agent-Systeme
Reasoning über Code, Mathematik & Wissenschaft
Tool Calling & Funktionsaufrufe
RAG & Wissensabruf
Self-Hosted Deployments auf EU-Infrastruktur
Kosteneffiziente Inferenz (Nano)

Technische Details

API, Features und Capabilities

API & Verfügbarkeit
Verfügbarkeit Public
Features & Capabilities
Tool Use Function Calling Structured Output Reasoning Mode
Training & Wissen
Wissensstand Mai 2026 (Ultra), Februar 2026 (Super)
Fine-Tuning Verfügbar (LoRA, Full, PEFT)
Sprachunterstützung
Beste Qualität Englisch
Unterstützt Mehrsprachig (u. a. Deutsch, Spanisch, Französisch, Italienisch, Japanisch)
Deutsch wird unterstützt; beste Qualität in Englisch. Ultra unterstützt 10 Sprachen über Englisch hinaus.

Hosting & Compliance

DSGVO-konforme Hosting-Optionen und Lizenzierung

DSGVO-konforme Hosting-Optionen
Self-Hosted
Eigene Infrastruktur (EU)
Open Weights - volle Kontrolle, sauberster Souveränitätspfad
AWS
Frankfurt (eu-central-1)
Amazon Bedrock / AWS Marketplace - Nemotron 3 verfügbar (Region prüfen)
Azure
West Europe
Microsoft Foundry - Nemotron 3 gelistet (Region prüfen)
Google Cloud
Frankfurt (europe-west3)
Gemini Enterprise Agent Platform (vormals Vertex AI, Rebrand April 2026) - Model Garden
Lizenz & Hosting
Lizenz NVIDIA Open Model License (permissiv, kommerzielle Nutzung erlaubt)
Sicherheitsfilter Anpassbar (Nemotron Safety / Guard Modelle verfügbar)
Enterprise Support Ja
SLA verfügbar Ja
On-Premise Edge-fähig

Benchmarks

Leistungsvergleich mit standardisierten Tests

AIME (Ultra, ohne Tools)
88,6
GPQA (Ultra)
87,0
SWE-Bench Verified (Ultra)
70,7
LiveCodeBench v6 (Ultra)
89,0
MMLU-Pro (Ultra)
86,8

Stand Juni 2026: NVIDIA hat seine offene Modellfamilie Nemotron 3 mit den drei Reasoning-Größen Nano, Super und Ultra komplettiert. Mit dem Release von Nemotron 3 Ultra (550B) am 4. Juni 2026 steht erstmals ein Frontier-Modell von NVIDIA mit offenen Gewichten zur Verfügung. Alle Modelle stehen unter der NVIDIA Open Model License und lassen sich frei herunterladen, anpassen und kommerziell betreiben. innFactory AI Consulting aus Rosenheim berät zum DSGVO-konformen Einsatz.

Was ist NVIDIA Nemotron?

Nemotron ist NVIDIAs Familie offener Modelle (Open Weights), die speziell für agentische KI und Reasoning entwickelt wurde. Anders als rein proprietäre Modelle veröffentlicht NVIDIA Gewichte, Trainingsdaten und Trainingstechniken offen – so kann die Community die Modelle selbst betreiben, anpassen und für eigene Zwecke weitertrainieren. Die aktuelle Nemotron-3-Generation nutzt eine effiziente Hybrid Mamba-Transformer Mixture-of-Experts (MoE)-Architektur, bei der pro Anfrage nur ein Bruchteil der Parameter aktiv ist.

Die Nemotron-3-Modellvarianten

NVIDIA bietet drei Reasoning-Größen, die sich nach Aufgabenkomplexität und Hardware skalieren:

Nemotron 3 Nano (30B-A3B)

  • ca. 31,6B Parameter gesamt, ca. 3,6B aktiv (Hybrid Mamba-Transformer MoE)
  • 1M Token Kontextfenster
  • Sehr effizient: bis zu 4x höherer Durchsatz als Nemotron Nano 2
  • Self-hostbar auf moderater Hardware (vLLM, SGLang, LM Studio, llama.cpp, Ollama)
  • Release: 15. Dezember 2025

Nemotron 3 Super (120B-A12B)

  • 120B Parameter gesamt, ca. 12B aktiv (Hybrid Mamba-Transformer MoE)
  • Starke agentische, Reasoning- und Tool-Calling-Fähigkeiten
  • Optimiert für Multi-Agent-Systeme und hohe Durchsatzlasten (z. B. IT-Ticket-Automatisierung)
  • Release: GTC, März 2026

Nemotron 3 Ultra (550B-A55B)

  • 550B Parameter gesamt, ca. 55B aktiv (Hybrid LatentMoE: Mamba-2 + MoE + Attention, mit Multi-Token Prediction)
  • Bis zu 1M Token Kontext für Langkontext-Analyse
  • Frontier-Reasoning über Code, Mathematik und Wissenschaft
  • Release: 4. Juni 2026 (Computex)

Weitere Modelle: NVIDIA pflegt zusätzlich Nemotron Nano Omni (multimodal, Vision/Audio/Sprache, 256K Kontext), Retriever-/RAG-Modelle, Nemotron Safety/Guard für Content-Sicherheit sowie OCR- und Speech-Modelle. Die ältere Llama-Nemotron-Reihe (Nano 8B, Super 49B, Ultra 253B) basiert auf Llama 3.1 mit 128K Kontext.

Besondere Stärken

Effizienz durch Hybrid-MoE

Die Mamba-Transformer-MoE-Architektur aktiviert pro Token nur einen Bruchteil der Gesamtparameter. Das senkt Inferenzkosten deutlich – Nemotron 3 Nano erreicht laut NVIDIA bis zu 4x höheren Durchsatz als die Vorgängergeneration und reduziert die Anzahl der Reasoning-Tokens.

Agentic & Tool Use

Alle Nemotron-3-Modelle sind auf agentische Workflows ausgelegt: natives Tool Calling, Funktionsaufrufe und strukturierte Ausgaben für Multi-Agent-Systeme.

Open Weights & permissive Lizenz

Die NVIDIA Open Model License ist permissiv und erlaubt Nutzung, Modifikation, Weitergabe und kommerziellen Einsatz – ohne Namensnennungspflicht. NVIDIA veröffentlicht zusätzlich Trainingsdatensätze und Tools (NeMo Gym, NeMo RL, NeMo Evaluator).

Hinweis: Bei einzelnen Modellkarten auf Hugging Face werden teils abweichende Lizenzbezeichnungen (z. B. OpenMDW) geführt. Wir prüfen die konkrete Lizenz pro Modell und Version im Rahmen der Beratung.

EU-Verfügbarkeit & DSGVO-Konformität

Weil Nemotron als Open Weights veröffentlicht wird, ist der sauberste Souveränitätspfad das Self-Hosting auf EU-Infrastruktur – alle Daten bleiben unter Ihrer Kontrolle.

Self-Hosting (empfohlen für Souveränität)

  • Betrieb auf eigener Hardware oder bei einem EU-Cloud-Anbieter (z. B. in Frankfurt)
  • Volle DSGVO-Konformität, keine Abhängigkeit von US-APIs
  • Nano lässt sich bereits auf moderater Hardware betreiben; Ultra benötigt mehrere High-End-GPUs (z. B. 8x B200/GB200, 16x H100 oder 8x H200)

Managed über Hyperscaler (EU-Regionen)

  • AWS: Amazon Bedrock / AWS Marketplace – Nemotron 3 gelistet (EU-Region jeweils prüfen)
  • Microsoft Foundry: Nemotron 3 gelistet (EU-Region prüfen)
  • Google: Gemini Enterprise Agent Platform (vormals Vertex AI – Rebrand im April 2026 auf der Cloud Next) im Model Garden

Direkt über NVIDIA

  • build.nvidia.com und NVIDIA NIM Microservices für gehostete Endpunkte bzw. containerisierte Self-Service-Deployments
  • Hosted-Inferenz auch über Anbieter wie Together AI, Fireworks, DeepInfra, OpenRouter, Baseten

Für sensible Daten empfehlen wir Self-Hosting in der EU. Für schnellen Start eignen sich EU-Regionen der Hyperscaler oder NIM-Container in eigener Cloud-Umgebung.

Integration mit CompanyGPT

Dank Open Weights lässt sich Nemotron hervorragend in unsere DSGVO-konforme Lösung CompanyGPT integrieren. So können Sie ein leistungsstarkes Reasoning- und Agenten-Modell vollständig in Ihrer eigenen oder einer EU-gehosteten Umgebung betreiben – ohne dass Unternehmensdaten in Drittländer abfließen. innFactory AI Consulting übernimmt Auswahl, Deployment und Feintuning des passenden Nemotron-Modells.

Unsere Empfehlung

Nemotron ist eine der stärksten offenen Modellfamilien für agentische und Reasoning-Anwendungen – und durch die Open Weights besonders attraktiv für souveräne, DSGVO-konforme Deployments.

Für die meisten Unternehmen empfehlen wir:

  • Nemotron 3 Nano für effiziente, kostengünstige Agenten und RAG – self-hostbar auf moderater Hardware
  • Nemotron 3 Super als ausgewogene Wahl für anspruchsvolle Multi-Agent-Systeme
  • Nemotron 3 Ultra für Frontier-Reasoning bei maximalen Anforderungen (entsprechende GPU-Infrastruktur vorausgesetzt)

Gern beraten wir Sie zur Modellauswahl, zum Self-Hosting in der EU und zur Integration in bestehende Workflows.

Kostenkalkulation für dieses Modell

Eine aktuelle Übersicht über Token-Preise, Modellvarianten und EU-Verfügbarkeit finden Sie auf unserem Schwesterprojekt ai-prices.eu. Dort lassen sich die laufenden Betriebskosten für Ihren konkreten Anwendungsfall vergleichen und abschätzen.

Preise auf ai-prices.eu vergleichen

ai-prices.eu ist ein Projekt der innFactory AI Consulting GmbH und hilft bei der transparenten Preisabschätzung führender KI-Modelle.

Beratung zu diesem Modell?

Wir helfen Ihnen bei der Auswahl und Integration des richtigen KI-Modells für Ihren Anwendungsfall.