Zum Hauptinhalt springen
9 – 17 UHR +49 8031 3508270 LUITPOLDSTR. 9, 83022 ROSENHEIM
DE / EN
VIDEO Google USA

Google Veo

Veo von Google DeepMind - Video-Generierungsmodellfamilie für Text- und Bild-zu-Video. Verfügbarkeit und Formate variieren je nach Plattform.

Lizenz Proprietär
DSGVO-Hosting Verfügbar
Kontext N/A Tokens
Modalität Text, Image → Video

Versionen

Verfügbare Modellvarianten im Überblick

ModellReleaseEUStärkenSchwächenStatus
Gemini Omni Flash
Mai 2026
Multimodales Modell: Text, Bild, Audio und Video in einem Output Native synchronisierte Audio-Generierung Konversationelle Nachbearbeitung ohne Re-Prompting SynthID-Wasserzeichen auf jeder Generation
Maximal 10 Sekunden pro Clip Enterprise-API (Vertex AI) zum Start noch nicht live Audio-Editing-Features zurückgehalten
Aktuell
Veo 3.1 Empfohlen
Oktober 2025
Native Audio-Generierung mit Synchronisation 4K und 1080p Auflösung (Update Januar 2026) Native vertikale 9:16 Ausgabe (Ingredients to Video) Charakterkonsistenz durch Referenzbilder Scene Extension bis 148 Sekunden Veo 3.1 Lite (Public Preview Q1 2026)
Höhere Kosten bei 4K-Generierung EU: Einschränkungen bei Personenabbildungen API-Limits für Unternehmensnutzung
Aktuell
Veo 3
Juli 2025
Video-Generierung Breite Plattformunterstützung
Kein natives Audio Niedrigere Auflösung als 3.1
Aktuell
Veo 2
Dezember 2024
Bewährtes Modell
Ältere Generation Eingeschränkte Features
Aktuell

Einsatzbereiche

Typische Anwendungsgebiete für dieses Modell

Marketing & Werbung
Social Media Videos
Produktdemos
Erklärvideos
Storyboarding
Film & TV Konzepte

Technische Details

API, Features und Capabilities

API & Verfügbarkeit
Verfügbarkeit Varies
Latenz (TTFT) Varies
Features & Capabilities
Datei-Upload
Training & Wissen
Wissensstand 2025
Fine-Tuning Nicht verfügbar
Sprachunterstützung
Beste Qualität Englisch
Unterstützt Multilinguale Prompts
Beste Ergebnisse mit englischen Prompts

Hosting & Compliance

DSGVO-konforme Hosting-Optionen und Lizenzierung

DSGVO-konforme Hosting-Optionen
Google Cloud
Frankfurt (europe-west3)
Vertex AI
Lizenz & Hosting
Lizenz Proprietary
Sicherheitsfilter SynthID Wasserzeichen
Enterprise Support Ja
Nur Cloud

innFactory AI Consulting aus Rosenheim berät Unternehmen im DACH-Raum zur DSGVO-konformen Integration von Video-KI-Lösungen. Google Veo hat sich mit der Version 3.1 zu einem der leistungsstärksten Video-Generierungsmodelle entwickelt und ist über Vertex AI in EU-Regionen verfügbar. Auf der Google I/O 2026 wurde mit Gemini Omni Flash zusätzlich ein neues multimodales Video-Modell vorgestellt - ein offizielles Veo 4 wurde dagegen nicht angekündigt.

Video-Generierung auf Enterprise-Niveau

Mit Veo 3.1 hat Google im Oktober 2025 bedeutende Verbesserungen eingeführt, die Anfang 2026 nochmals erweitert wurden. Das Modell generiert Videos in 4K- und 1080p-Auflösung (mit State-of-the-Art-Upscaling) und unterstützt sowohl Landscape- (16:9) als auch native Portrait-Formate (9:16), was besonders für Social-Media-Anwendungen wie YouTube Shorts relevant ist. Ein wesentliches Differenzierungsmerkmal ist die native Audio-Generierung: Veo 3.1 erstellt synchronisierte Dialoge, Soundeffekte und Hintergrundmusik, die mit den visuellen Inhalten abgestimmt sind. Dies hebt das Modell deutlich von vielen Wettbewerbern ab, die Audio separat hinzufügen müssen.

Die Videolänge beträgt standardmäßig 4 bis 8 Sekunden pro Generation, mit einer Framerate von 24 FPS. Für professionelle Anwendungen bietet die Scene Extension API die Möglichkeit, Videos in 7-Sekunden-Schritten bis zu 20-mal zu verlängern, was kohärente Sequenzen von bis zu 148 Sekunden ermöglicht.

Charakterkonsistenz und Narrative Kontrolle

Das Feature “Ingredients to Video” erlaubt die Verwendung von bis zu drei Referenzbildern, um Charaktere, Objekte oder Stile über mehrere Szenen hinweg konsistent zu halten. Dies ist besonders wertvoll für narrative Inhalte und Markenkommunikation, wo visuelle Einheitlichkeit entscheidend ist.

Veo 3.1 zeigt verbesserte Prompt-Adherence und versteht komplexe Anweisungen zu Kameraführung, Beleuchtung und cineastischen Stilen besser als vorherige Versionen. Die Kontrolle über erste und letzte Frames ermöglicht nahtlose Übergänge zwischen Szenen, was für professionelle Storytelling-Workflows wichtig ist.

Gemini Omni Flash - das neue Multimodal-Modell

Auf der Google I/O am 19. Mai 2026 hat Google Gemini Omni Flash vorgestellt - ein neues Modell, das Text, Bild, Audio und Video in einem konsistenten Output kombiniert. Anders als die bisherige Veo-Reihe arbeitet Omni Flash konversationell: Nach einer ersten Generation lassen sich Szenen ohne erneutes Prompting anpassen (z.B. “mach den Hintergrund zu einer regnerischen Straße in Tokio”). Die Clip-Länge ist auf 10 Sekunden begrenzt, jede Generation wird mit einem SynthID-Wasserzeichen versehen. Der globale Rollout läuft über die Gemini App, Google Flow und YouTube Shorts; die Verfügbarkeit über die Gemini API und Vertex AI für Entwickler und Enterprise-Kunden hat Google für die folgenden Wochen angekündigt.

Verfügbarkeit und EU-Compliance

Veo 3.1 ist über Vertex AI in EU-Regionen verfügbar, insbesondere in der Region europe-west3 (Frankfurt). Dies stellt einen wichtigen Schritt für deutsche Unternehmen dar, die Wert auf DSGVO-konforme Datenverarbeitung legen. Zu beachten ist, dass in der EU und UK bestimmte Features (insbesondere die Generierung von Personenabbildungen) eingeschränkt sein können.

Dennoch sollten Unternehmen die spezifischen Vertragsbedingungen und Service Level Agreements prüfen, da Google für Veo derzeit keine formellen SLAs anbietet. Die Preisgestaltung erfolgt pro Sekunde generierten Videos (Vertex AI: ca. $0,10 für Veo 3.1 Fast ohne Audio bis $0,75 für Veo 3 mit Audio in höchster Qualität).

Content-Authentifizierung

Alle von Veo generierten Videos enthalten ein SynthID-Wasserzeichen - eine unsichtbare digitale Signatur, die KI-generierte Inhalte verifizierbar macht. Dies unterstützt Unternehmen bei der Einhaltung von Transparenzpflichten und hilft, Deepfakes und Missbrauch zu verhindern.

Integration mit CompanyGPT

Für Unternehmen, die multimodale KI-Workflows aufbauen möchten, kann Veo mit CompanyGPT kombiniert werden, um Text-, Bild- und Video-Generierung in einem DSGVO-konformen Setup zu integrieren.

Unsere Empfehlung

Veo 3.1 ist aktuell (Stand Juni 2026) das produktiv einsatzbereite Flagship-Modell der Veo-Reihe und für professionelle Video-Workflows geeignet, insbesondere für Marketing, Produktdemos und kreative Prototypen. Ein offizielles “Veo 4” hat Google bislang nicht angekündigt; stattdessen wurde mit Gemini Omni Flash ein neues, konversationelles Videomodell ergänzt, dessen API-Zugang über Vertex AI in den kommenden Wochen folgen soll. Die EU-Verfügbarkeit von Veo 3.1 über Vertex AI Frankfurt macht das Modell für deutsche Unternehmen weiter interessant. Für produktive Anwendungen empfehlen wir:

  • Prüfen Sie die API-Limits (10 Requests/Minute) für Ihr Nutzungsszenario
  • Kalkulieren Sie Kosten realistisch, besonders bei 4K-Generierung
  • Dokumentieren Sie Vertragsbedingungen zur Datenresidenz
  • Beachten Sie das Fehlen von SLAs für unternehmenskritische Anwendungen

Für höchste DSGVO-Anforderungen oder On-Premise-Deployment sollten Open-Source-Alternativen evaluiert werden, auch wenn diese aktuell nicht die Qualität von Veo erreichen.

Kostenkalkulation für dieses Modell

Eine aktuelle Übersicht über Token-Preise, Modellvarianten und EU-Verfügbarkeit finden Sie auf unserem Schwesterprojekt ai-prices.eu. Dort lassen sich die laufenden Betriebskosten für Ihren konkreten Anwendungsfall vergleichen und abschätzen.

Preise auf ai-prices.eu vergleichen

ai-prices.eu ist ein Projekt der innFactory AI Consulting GmbH und hilft bei der transparenten Preisabschätzung führender KI-Modelle.

Beratung zu diesem Modell?

Wir helfen Ihnen bei der Auswahl und Integration des richtigen KI-Modells für Ihren Anwendungsfall.