Versionen

Verfügbare Modellvarianten im Überblick

Modell	Release	Stärken	Schwächen	Status
Stable Audio 3.0 Large Empfohlen	2026-05-20	Musikgenerierung bis 6:20 Minuten 2,7B Parameter Vollständig auf lizenzierten Daten trainiert (AudioSparx, Freesound CC) Wahrt musikalische Struktur und Melodie über lange Tracks	Nur via API/fal.ai oder Enterprise-Lizenz (keine offenen Gewichte)	Aktuell
Stable Audio 3.0 Medium	2026-05-20	Open Weights auf Hugging Face 1,4B Parameter Vollständige Kompositionen bis 6:20 Minuten Lizenzierte Trainingsdaten	Geringere Qualität als Large-Variante	Aktuell
Stable Audio 3.0 Small / Small SFX	2026-05-20	Sehr kompakt (459M Parameter) Open Weights Spezialvariante für Soundeffekte (Small SFX)	Kürzere Clips als Medium/Large	Aktuell
Stable Diffusion 3.5 Large Empfohlen	2024-10	Höchste Bildqualität der SD-Reihe 8B Parameter Open Weights (Hugging Face) Prompt-Adherence auf Spitzenniveau	Hoher VRAM-Bedarf (~24 GB)	Aktuell
Stable Diffusion 3.5 Medium	2024-10	Gutes Verhältnis Qualität/Geschwindigkeit 2,6B Parameter Geringerer Ressourcenbedarf	Weniger Detail als Large-Variante	Aktuell
Stable Diffusion 3.5 Large Turbo	2024-10	Schnelle Inferenz Wenige Schritte für gute Ergebnisse Ideal für Echtzeit-Anwendungen	Leichte Qualitätseinbußen gegenüber Large	Aktuell
Stable Video Diffusion 2.0	2025	Text-zu-Video-Generierung Bild-zu-Video-Animation	Kurze Clip-Längen	Aktuell
Stable Audio 2.0	April 2024	Musik- und Audiogenerierung Stereo-Output	Abgelöst durch Stable Audio 3.0 (Mai 2026) Maximal ~3 Minuten pro Track	Veraltet
StableLM 2 1.6B	2024	Sehr kompakt Open Source	Keine aktive Weiterentwicklung Begrenzte Fähigkeiten	Veraltet
StableLM Zephyr 3B	2024	Instruktionsfolge Kompakt	Keine aktive Weiterentwicklung	Veraltet
Stable Diffusion 3.0	2024	Gute Bildqualität	Abgelöst durch SD 3.5	Veraltet
SDXL	2023	Breites Ökosystem Viele Community-Modelle	Ältere Generation Schwächere Prompt-Adherence	Veraltet

Technische Details

API, Features und Capabilities

API & Verfügbarkeit

Verfügbarkeit Public

Latenz (TTFT) ~2-10s pro Bild (GPU-abhängig)

Durchsatz Hardwareabhängig Tokens/Sek

Features & Capabilities

Vision Datei-Upload

Training & Wissen

Wissensstand 2024

Fine-Tuning Verfügbar (LoRA, DreamBooth, Textual Inversion, Full Fine-Tuning)

Sprachunterstützung

Beste Qualität Englisch

Unterstützt Primär Englisch

Bildgenerierung versteht englische Prompts am besten; grundlegende Mehrsprachigkeit über T5-Encoder

Hosting & Compliance

DSGVO-konforme Hosting-Optionen und Lizenzierung

DSGVO-konforme Hosting-Optionen

Lizenz & Hosting

Lizenz Stability AI Community License (Open Weights, kommerzielle Nutzung möglich)

Sicherheitsfilter Integrierte Safety-Filter, anpassbar

On-Premise

Als KI-Beratung aus Rosenheim empfehlen wir Stability AI für Unternehmen, die hochwertige Bild-, Video- und Audiogenerierung mit Open Weights und voller Datenkontrolle suchen. Mit Stable Diffusion 3.5 und dem neuen Stable Audio 3.0 (Mai 2026) bietet Stability AI eines der leistungsfähigsten Open-Source-Generierungsökosysteme am Markt.

Von StableLM zu Stable Diffusion 3.5

Stability AI hat sich nach einer turbulenten Phase 2023/2024 (Gründer-Rücktritt, Finanzierungsprobleme) neu aufgestellt. Seit Juni 2024 leitet CEO Prem Akkaraju (ehemals Weta Digital) das Unternehmen mit frischem Kapital (~80 Mio. USD). Im November 2025 gewann Stability AI den Urheberrechtsstreit mit Getty Images vor dem High Court of England and Wales. Das Unternehmen konzentriert sich auf seine Kernkompetenz: generative Modelle für Bild, Video und Audio. Die StableLM-Sprachmodelle werden nicht mehr aktiv weiterentwickelt.

Warum Stability AI für Unternehmen?

Open Weights: Modelle frei auf Hugging Face verfügbar
EU-Hosting: Über AWS Bedrock in Frankfurt oder Self-Hosting
Breites Ökosystem: Tausende Community-Erweiterungen und LoRA-Modelle
Multimodal: Bild, Video und Audio aus einer Hand
DSGVO-konform: Vollständiges Self-Hosting möglich

Stable Diffusion 3.5 – das Flaggschiff

Stable Diffusion 3.5 (Oktober 2024) stellt einen bedeutenden Qualitätssprung gegenüber früheren Versionen dar. Die neue Architektur basiert auf einem Diffusion Transformer (DiT) mit dualem Text-Encoder (CLIP und T5).

Drei Varianten für unterschiedliche Anforderungen

Variante	Parameter	VRAM	Stärke
SD 3.5 Large	8B	~24 GB	Höchste Qualität
SD 3.5 Medium	2,6B	~10 GB	Ausgewogenes Profil
SD 3.5 Large Turbo	8B	~24 GB	Schnelle Inferenz

SD 3.5 Large liefert branchenführende Prompt-Adherence und Bildqualität. Die Turbo-Variante eignet sich für Anwendungen mit Echtzeitanforderungen, während Medium einen guten Kompromiss zwischen Qualität und Ressourcenbedarf bietet.

Über Bilder hinaus: Video und Audio

Stable Video Diffusion 2.0

Stable Video Diffusion 2.0 (2025) ermöglicht die Generierung kurzer Videoclips aus Text-Prompts oder Einzelbildern. Die Technologie eignet sich für Produktanimationen, Social-Media-Content und kreative Prototypen.

Stable Audio 3.0 – neue Audio-Generation (Mai 2026)

Am 20. Mai 2026 hat Stability AI Stable Audio 3.0 veröffentlicht – eine Familie aus vier Modellen (Small SFX und Small mit je 459M, Medium mit 1,4B und Large mit 2,7B Parametern). Medium und Large erzeugen Kompositionen mit bis zu 6 Minuten und 20 Sekunden Länge und wahren dabei musikalische Struktur und Melodie – mehr als das Doppelte der Länge des Vorgängers Stable Audio 2.0.

Small SFX, Small und Medium sind als Open Weights auf Hugging Face verfügbar und können DSGVO-konform self-gehostet werden. Die Large-Variante läuft ausschließlich über die Stability-AI-API, den Partner fal.ai oder eine Enterprise-Lizenz. Wichtig für Unternehmen: Ab 1 Mio. USD Jahresumsatz ist eine Enterprise-Lizenz erforderlich. Alle Modelle wurden auf vollständig lizenzierten Daten (AudioSparx-Library und Creative-Commons-Aufnahmen von Freesound) trainiert – ein klarer Compliance-Vorteil gegenüber konkurrierenden Audio-Modellen.

StableLM – Einordnung der Sprachmodelle

Die StableLM-Sprachmodelle (StableLM 2 1.6B, StableLM Zephyr 3B) haben den Status deprecated erreicht. Sie werden nicht mehr aktiv gepflegt und sind für produktive Anwendungen nicht mehr empfehlenswert. Für Sprachmodelle verweisen wir auf leistungsfähigere Alternativen wie Meta Llama oder Microsoft Phi.

DSGVO-konformer Einsatz in der EU

Stability AI bietet für europäische Unternehmen mehrere Optionen:

AWS Bedrock: Stable Diffusion 3.x in Frankfurt (eu-central-1) verfügbar
Self-Hosting: Open Weights über Hugging Face herunterladen und auf eigener Infrastruktur betreiben
Azure AI: Eingeschränkte Verfügbarkeit

Durch die offenen Modellgewichte behalten Unternehmen die volle Kontrolle über ihre Daten – ein entscheidender Vorteil für DSGVO-Compliance.

Integration mit CompanyGPT

Stability AI Modelle können in CompanyGPT als Self-Hosted-Option für Bildgenerierung integriert werden – ideal für Marketingteams, die Bildmaterial intern und datenschutzkonform erstellen möchten.

Unsere Empfehlung

Stable Diffusion 3.5 Large ist die erste Wahl für Unternehmen, die qualitativ hochwertige Bildgenerierung mit voller Datenkontrolle benötigen. Für ressourcenbeschränkte Umgebungen bietet SD 3.5 Medium eine überzeugende Alternative.

Wer zusätzlich Video- oder Audiogenerierung benötigt, findet mit Stable Video Diffusion 2.0 und dem neuen Stable Audio 3.0 (Mai 2026) ein wachsendes Ökosystem – inklusive Open-Weights-Optionen für DSGVO-konformes Self-Hosting. Für reine Sprachmodell-Anwendungen empfehlen wir jedoch Alternativen wie Meta Llama oder Mistral.

Kostenkalkulation für dieses Modell

Eine aktuelle Übersicht über Token-Preise, Modellvarianten und EU-Verfügbarkeit finden Sie auf unserem Schwesterprojekt ai-prices.eu. Dort lassen sich die laufenden Betriebskosten für Ihren konkreten Anwendungsfall vergleichen und abschätzen.

Preise auf ai-prices.eu vergleichen

ai-prices.eu ist ein Projekt der innFactory AI Consulting GmbH und hilft bei der transparenten Preisabschätzung führender KI-Modelle.

Stability AI StableLM

Versionen

Einsatzbereiche