Zum Hauptinhalt springen
9 – 17 UHR +49 8031 3508270 LUITPOLDSTR. 9, 83022 ROSENHEIM
DE / EN
LLM Meta USA

Meta Llama

Meta Llama und Muse Spark – Open-Source LLMs für Self-Hosting. Muse Spark ersetzt die Llama-Familie (April 2026). Achtung: Llama 4 ist in der EU lizenzrechtlich nicht verfügbar. KI-Beratung Rosenheim für Llama 3.x Deployment.

Lizenz Llama 4 Community License (EU-Nutzung ausgeschlossen), Llama 3.x Community License (EU erlaubt)
DSGVO-Hosting Verfügbar
Kontext 10M (Llama 4 Scout), 1M (Llama 4 Maverick), 128k (Llama 3.x) Tokens
Modalität Text, Image, Video → Text

Versionen

Verfügbare Modellvarianten im Überblick

ModellReleaseEUStärkenSchwächenStatus
Muse Spark
April 2026
Nachfolger der Llama-Familie Von Meta Superintelligence Labs entwickelt
Sehr wenige Details verfügbar EU-Verfügbarkeit und Lizenz noch unklar
Aktuell
Llama 4 Maverick
April 2025
400B Parameter (MoE, 17B aktiv) 1M Token Kontextfenster Nativ multimodal (Text, Bild, Video) Übertrifft GPT-4 in mehreren Benchmarks
In der EU lizenzrechtlich nicht verfügbar Multi-GPU erforderlich (200-400 GB VRAM)
Aktuell
Llama 4 Scout
April 2025
10M Token Kontextfenster – branchenweit einzigartig 109B Parameter (MoE, 17B aktiv) Auf einzelner H100 80GB lauffähig (INT4) Nativ multimodal
In der EU lizenzrechtlich nicht verfügbar
Aktuell
Llama 3.3 70B Empfohlen
Dezember 2024
Bewährt und breit eingesetzt Gute Balance Leistung/Ressourcen
Kein multimodales Input
Aktuell
Llama 3.2 (1B/3B/11B/90B)
September 2024
Breite Größenpalette Kompakte Varianten für Edge
Ältere Generation
Aktuell
Llama 3.1 (405B/70B/8B)
Juli 2024
405B-Variante mit Spitzenleistung 128k Kontextfenster
Hoher Ressourcenbedarf (405B)
Aktuell

Einsatzbereiche

Typische Anwendungsgebiete für dieses Modell

Datensensible Anwendungen
High-Volume ohne API-Kosten
Offline-Szenarien
Custom Models / Fine-Tuning
Embedded AI
Edge Deployment
On-Premise Lösungen

Technische Details

API, Features und Capabilities

API & Verfügbarkeit
Verfügbarkeit Public
Latenz (TTFT) Abhängig von Hosting
Durchsatz Abhängig von Hardware Tokens/Sek
Features & Capabilities
Tool Use Function Calling Structured Output Vision Datei-Upload
Training & Wissen
Wissensstand 2024-08
Fine-Tuning Verfügbar (LoRA, QLoRA, Full Fine-Tuning, PEFT)
Sprachunterstützung
Beste Qualität Englisch, Deutsch, Französisch, Spanisch
Unterstützt 50+ Sprachen
Beste Qualität in Englisch, gute Qualität in westeuropaeischen Sprachen

Hosting & Compliance

DSGVO-konforme Hosting-Optionen und Lizenzierung

DSGVO-konforme Hosting-Optionen
Self-Hosted
Eigene Infrastruktur
Volle Datenkontrolle - empfohlen für sensible Daten
AWS
Frankfurt (eu-central-1)
Amazon Bedrock / SageMaker
Azure
West Europe
Azure AI / ML
Google Cloud
Frankfurt (europe-west3)
Vertex AI
Lizenz & Hosting
Lizenz Llama 4 Community License (EU-Nutzung ausgeschlossen), Llama 3.x Community License (EU erlaubt)
Sicherheitsfilter Anpassbar
On-Premise Edge-fähig

innFactory AI Consulting aus Rosenheim unterstützt Unternehmen im DACH-Raum beim DSGVO-konformen Self-Hosting von Meta Llama. Mit Open Weights haben Sie volle Kontrolle – keine Daten verlassen Ihre Infrastruktur.

Muse Spark: Nachfolger von Llama (April 2026)

Am 9. April 2026 hat Meta über seine neue Abteilung Meta Superintelligence Labs das Modell Muse Spark als Nachfolger der Llama-Familie veröffentlicht. Details zur Architektur, Parameterzahl und Lizenzierung sind bisher nur spärlich verfügbar.

Hinweis: Die EU-Verfügbarkeit und Lizenzierung von Muse Spark sind noch nicht bekannt. Wir empfehlen, Muse Spark vorerst zu beobachten und für produktive EU-Anwendungen weiterhin auf Llama 3.3 70B oder Mistral zu setzen.

Wichtiger Hinweis: EU-Lizenzrestriktion bei Llama 4

Die Llama 4 Community License schließt die Nutzung und Verteilung innerhalb der EU explizit aus. Unternehmen mit Sitz oder Hauptniederlassung in der EU dürfen Llama 4 Scout und Maverick weder nutzen noch hosten. Für EU-Unternehmen empfehlen wir daher Llama 3.3 70B oder alternativ Mistral als europäische Open-Source-Alternative.

Llama 4: Technische Spitzenleistung – ohne EU-Zugang

Llama 4 Maverick (400B MoE)

  • 128 Experten, 17B aktive Parameter pro Token
  • 1M Token Kontextfenster
  • Nativ multimodal (Text, Bild, Video)
  • Übertrifft GPT-4 in Reasoning- und Coding-Benchmarks

Llama 4 Scout (109B MoE)

  • 16 Experten, 17B aktive Parameter
  • 10M Token Kontextfenster – branchenweit einzigartig
  • Auf einer einzelnen H100 80GB (INT4) lauffähig
  • Ideal für massive Dokumentenanalyse und Codebase-Parsing

Llama 4 Behemoth (angekündigt)

  • ~2 Billionen Parameter, 288B aktiv
  • Wurde angekündigt, aber nie veröffentlicht. Durch Muse Spark abgelöst.
  • Positioniert als “Teacher-Modell” für andere Llama-Modelle

Llama 3.x: Empfohlen für EU-Unternehmen

Die Llama 3.x-Serie unterliegt keiner EU-Restriktion und bleibt für europäische Unternehmen die empfohlene Wahl:

Besondere Stärken

  • Volle Kontrolle: Modell läuft in Ihrer Infrastruktur
  • Keine API-Kosten: Nur Hardware-/Cloud-Kosten
  • Anpassbar: Fine-Tuning auf eigene Daten möglich
  • DSGVO-freundlich: Keine Daten verlassen Ihr Unternehmen

Hardware-Anforderungen

ModellVRAMEmpfohlene GPU
Llama 4 Scout80+ GBH100 / A100
Llama 4 Maverick400+ GBMulti-H100
Llama 3.3 70B40+ GBA100 80GB
Llama 3.2 11B24 GBRTX 4090
Llama 3.2 3B8 GBRTX 4070
Llama 3.2 1B4 GBSmartphone

Integration mit CompanyGPT

CompanyGPT unterstützt Llama 3.x-Modelle und ermöglicht den vollständig selbst-gehosteten Betrieb ohne externe Abhängigkeiten.

Unsere Empfehlung

Für EU-Unternehmen ist Llama 3.3 70B die beste Wahl aus der Llama-Familie – bewährt, EU-kompatibel und mit gutem Leistungsprofil. Für Edge-Anwendungen eignen sich die kompakten Llama 3.2 (1B/3B) Modelle. Sollten Sie eine leistungsstarke europäische Open-Source-Alternative suchen, empfehlen wir Mistral als Llama-4-Ersatz für den DACH-Raum.

Beratung zu diesem Modell?

Wir helfen Ihnen bei der Auswahl und Integration des richtigen KI-Modells für Ihren Anwendungsfall.