Zum Hauptinhalt springen
9 – 17 UHR +49 8031 3508270 LUITPOLDSTR. 9, 83022 ROSENHEIM
DE / EN
LLM Stability AI UK

Stability AI StableLM

Stability AI – Stable Diffusion 3.5, Stable Audio 3.0 & Stable Video. Open-Weights-Bild- und Audiogenerierung DSGVO-konform in der EU. KI-Beratung Rosenheim für Stability-AI-Integration.

Lizenz Stability AI Community License (Open Weights, kommerzielle Nutzung möglich)
DSGVO-Hosting Verfügbar
Kontext 77 Token (CLIP) / 256 Token (T5) Tokens
Modalität Text, Bild → Bild, Video, Audio

Versionen

Verfügbare Modellvarianten im Überblick

ModellReleaseEUStärkenSchwächenStatus
Stable Audio 3.0 Large Empfohlen
2026-05-20
Musikgenerierung bis 6:20 Minuten 2,7B Parameter Vollständig auf lizenzierten Daten trainiert (AudioSparx, Freesound CC) Wahrt musikalische Struktur und Melodie über lange Tracks
Nur via API/fal.ai oder Enterprise-Lizenz (keine offenen Gewichte)
Aktuell
Stable Audio 3.0 Medium
2026-05-20
Open Weights auf Hugging Face 1,4B Parameter Vollständige Kompositionen bis 6:20 Minuten Lizenzierte Trainingsdaten
Geringere Qualität als Large-Variante
Aktuell
Stable Audio 3.0 Small / Small SFX
2026-05-20
Sehr kompakt (459M Parameter) Open Weights Spezialvariante für Soundeffekte (Small SFX)
Kürzere Clips als Medium/Large
Aktuell
Stable Diffusion 3.5 Large Empfohlen
2024-10
Höchste Bildqualität der SD-Reihe 8B Parameter Open Weights (Hugging Face) Prompt-Adherence auf Spitzenniveau
Hoher VRAM-Bedarf (~24 GB)
Aktuell
Stable Diffusion 3.5 Medium
2024-10
Gutes Verhältnis Qualität/Geschwindigkeit 2,6B Parameter Geringerer Ressourcenbedarf
Weniger Detail als Large-Variante
Aktuell
Stable Diffusion 3.5 Large Turbo
2024-10
Schnelle Inferenz Wenige Schritte für gute Ergebnisse Ideal für Echtzeit-Anwendungen
Leichte Qualitätseinbußen gegenüber Large
Aktuell
Stable Video Diffusion 2.0
2025
Text-zu-Video-Generierung Bild-zu-Video-Animation
Kurze Clip-Längen
Aktuell
Stable Audio 2.0
April 2024
Musik- und Audiogenerierung Stereo-Output
Abgelöst durch Stable Audio 3.0 (Mai 2026) Maximal ~3 Minuten pro Track
Veraltet
StableLM 2 1.6B
2024
Sehr kompakt Open Source
Keine aktive Weiterentwicklung Begrenzte Fähigkeiten
Veraltet
StableLM Zephyr 3B
2024
Instruktionsfolge Kompakt
Keine aktive Weiterentwicklung
Veraltet
Stable Diffusion 3.0
2024
Gute Bildqualität
Abgelöst durch SD 3.5
Veraltet
SDXL
2023
Breites Ökosystem Viele Community-Modelle
Ältere Generation Schwächere Prompt-Adherence
Veraltet

Einsatzbereiche

Typische Anwendungsgebiete für dieses Modell

Bildgenerierung für Marketing & Design
Produkt-Visualisierung
Video-Content-Erstellung
Musik- und Audioproduktion
Kreativ-Prototyping
Architektur-Visualisierung
E-Commerce-Produktbilder

Technische Details

API, Features und Capabilities

API & Verfügbarkeit
Verfügbarkeit Public
Latenz (TTFT) ~2-10s pro Bild (GPU-abhängig)
Durchsatz Hardwareabhängig Tokens/Sek
Features & Capabilities
Vision Datei-Upload
Training & Wissen
Wissensstand 2024
Fine-Tuning Verfügbar (LoRA, DreamBooth, Textual Inversion, Full Fine-Tuning)
Sprachunterstützung
Beste Qualität Englisch
Unterstützt Primär Englisch
Bildgenerierung versteht englische Prompts am besten; grundlegende Mehrsprachigkeit über T5-Encoder

Hosting & Compliance

DSGVO-konforme Hosting-Optionen und Lizenzierung

DSGVO-konforme Hosting-Optionen
AWS
Frankfurt (eu-central-1)
Stable Diffusion 3.x via Amazon Bedrock
Self-Hosted
Eigene Infrastruktur
Empfohlen – Open Weights auf Hugging Face verfügbar
Lizenz & Hosting
Lizenz Stability AI Community License (Open Weights, kommerzielle Nutzung möglich)
Sicherheitsfilter Integrierte Safety-Filter, anpassbar
On-Premise

Benchmarks

Leistungsvergleich mit standardisierten Tests

GenEval (SD 3.5 Large)
0.82
T2I-CompBench (SD 3.5 Large)
0.67
Human Preference (SD 3.5 Large vs. SDXL)
78

Als KI-Beratung aus Rosenheim empfehlen wir Stability AI für Unternehmen, die hochwertige Bild-, Video- und Audiogenerierung mit Open Weights und voller Datenkontrolle suchen. Mit Stable Diffusion 3.5 und dem neuen Stable Audio 3.0 (Mai 2026) bietet Stability AI eines der leistungsfähigsten Open-Source-Generierungsökosysteme am Markt.

Von StableLM zu Stable Diffusion 3.5

Stability AI hat sich nach einer turbulenten Phase 2023/2024 (Gründer-Rücktritt, Finanzierungsprobleme) neu aufgestellt. Seit Juni 2024 leitet CEO Prem Akkaraju (ehemals Weta Digital) das Unternehmen mit frischem Kapital (~80 Mio. USD). Im November 2025 gewann Stability AI den Urheberrechtsstreit mit Getty Images vor dem High Court of England and Wales. Das Unternehmen konzentriert sich auf seine Kernkompetenz: generative Modelle für Bild, Video und Audio. Die StableLM-Sprachmodelle werden nicht mehr aktiv weiterentwickelt.

Warum Stability AI für Unternehmen?

  • Open Weights: Modelle frei auf Hugging Face verfügbar
  • EU-Hosting: Über AWS Bedrock in Frankfurt oder Self-Hosting
  • Breites Ökosystem: Tausende Community-Erweiterungen und LoRA-Modelle
  • Multimodal: Bild, Video und Audio aus einer Hand
  • DSGVO-konform: Vollständiges Self-Hosting möglich

Stable Diffusion 3.5 – das Flaggschiff

Stable Diffusion 3.5 (Oktober 2024) stellt einen bedeutenden Qualitätssprung gegenüber früheren Versionen dar. Die neue Architektur basiert auf einem Diffusion Transformer (DiT) mit dualem Text-Encoder (CLIP und T5).

Drei Varianten für unterschiedliche Anforderungen

VarianteParameterVRAMStärke
SD 3.5 Large8B~24 GBHöchste Qualität
SD 3.5 Medium2,6B~10 GBAusgewogenes Profil
SD 3.5 Large Turbo8B~24 GBSchnelle Inferenz

SD 3.5 Large liefert branchenführende Prompt-Adherence und Bildqualität. Die Turbo-Variante eignet sich für Anwendungen mit Echtzeitanforderungen, während Medium einen guten Kompromiss zwischen Qualität und Ressourcenbedarf bietet.

Über Bilder hinaus: Video und Audio

Stable Video Diffusion 2.0

Stable Video Diffusion 2.0 (2025) ermöglicht die Generierung kurzer Videoclips aus Text-Prompts oder Einzelbildern. Die Technologie eignet sich für Produktanimationen, Social-Media-Content und kreative Prototypen.

Stable Audio 3.0 – neue Audio-Generation (Mai 2026)

Am 20. Mai 2026 hat Stability AI Stable Audio 3.0 veröffentlicht – eine Familie aus vier Modellen (Small SFX und Small mit je 459M, Medium mit 1,4B und Large mit 2,7B Parametern). Medium und Large erzeugen Kompositionen mit bis zu 6 Minuten und 20 Sekunden Länge und wahren dabei musikalische Struktur und Melodie – mehr als das Doppelte der Länge des Vorgängers Stable Audio 2.0.

Small SFX, Small und Medium sind als Open Weights auf Hugging Face verfügbar und können DSGVO-konform self-gehostet werden. Die Large-Variante läuft ausschließlich über die Stability-AI-API, den Partner fal.ai oder eine Enterprise-Lizenz. Wichtig für Unternehmen: Ab 1 Mio. USD Jahresumsatz ist eine Enterprise-Lizenz erforderlich. Alle Modelle wurden auf vollständig lizenzierten Daten (AudioSparx-Library und Creative-Commons-Aufnahmen von Freesound) trainiert – ein klarer Compliance-Vorteil gegenüber konkurrierenden Audio-Modellen.

StableLM – Einordnung der Sprachmodelle

Die StableLM-Sprachmodelle (StableLM 2 1.6B, StableLM Zephyr 3B) haben den Status deprecated erreicht. Sie werden nicht mehr aktiv gepflegt und sind für produktive Anwendungen nicht mehr empfehlenswert. Für Sprachmodelle verweisen wir auf leistungsfähigere Alternativen wie Meta Llama oder Microsoft Phi.

DSGVO-konformer Einsatz in der EU

Stability AI bietet für europäische Unternehmen mehrere Optionen:

  • AWS Bedrock: Stable Diffusion 3.x in Frankfurt (eu-central-1) verfügbar
  • Self-Hosting: Open Weights über Hugging Face herunterladen und auf eigener Infrastruktur betreiben
  • Azure AI: Eingeschränkte Verfügbarkeit

Durch die offenen Modellgewichte behalten Unternehmen die volle Kontrolle über ihre Daten – ein entscheidender Vorteil für DSGVO-Compliance.

Integration mit CompanyGPT

Stability AI Modelle können in CompanyGPT als Self-Hosted-Option für Bildgenerierung integriert werden – ideal für Marketingteams, die Bildmaterial intern und datenschutzkonform erstellen möchten.

Unsere Empfehlung

Stable Diffusion 3.5 Large ist die erste Wahl für Unternehmen, die qualitativ hochwertige Bildgenerierung mit voller Datenkontrolle benötigen. Für ressourcenbeschränkte Umgebungen bietet SD 3.5 Medium eine überzeugende Alternative.

Wer zusätzlich Video- oder Audiogenerierung benötigt, findet mit Stable Video Diffusion 2.0 und dem neuen Stable Audio 3.0 (Mai 2026) ein wachsendes Ökosystem – inklusive Open-Weights-Optionen für DSGVO-konformes Self-Hosting. Für reine Sprachmodell-Anwendungen empfehlen wir jedoch Alternativen wie Meta Llama oder Mistral.

Kostenkalkulation für dieses Modell

Eine aktuelle Übersicht über Token-Preise, Modellvarianten und EU-Verfügbarkeit finden Sie auf unserem Schwesterprojekt ai-prices.eu. Dort lassen sich die laufenden Betriebskosten für Ihren konkreten Anwendungsfall vergleichen und abschätzen.

Preise auf ai-prices.eu vergleichen

ai-prices.eu ist ein Projekt der innFactory AI Consulting GmbH und hilft bei der transparenten Preisabschätzung führender KI-Modelle.

Beratung zu diesem Modell?

Wir helfen Ihnen bei der Auswahl und Integration des richtigen KI-Modells für Ihren Anwendungsfall.