innFactory AI Consulting aus Rosenheim unterstützt Unternehmen in Bayern und dem DACH-Raum bei der Nutzung von Google Gemini. Am 21. Juli 2026 hat Google drei neue Modelle veröffentlicht: Gemini 3.6 Flash (GA) als neues Workhorse-Modell mit besserem Coding und 17 Prozent weniger Output-Token als 3.5 Flash, Gemini 3.5 Flash-Lite (GA) als schnellstes Modell der 3.5-Serie mit 350 Output-Tokens pro Sekunde und Gemini 3.5 Flash Cyber als spezialisiertes Security-Modell im Limited-Access-Pilot für Regierungen und geprüfte Partner. Gemini 3.5 Pro verzögert sich dagegen weiter: Google testet das Orchestrator-Modell noch mit Partnern und nennt keinen GA-Termin mehr. Parallel hat DeepMind bestätigt, dass der Pre-Training-Run für Gemini 4 bereits läuft.

EU-Verfügbarkeit (Stand 24. Juli 2026): Für DSGVO-konforme Workloads bleibt Gemini 3.5 Flash die Referenz – es ist über den EU-Multi-Region-Endpoint der Vertex AI / Gemini Enterprise Agent Platform verfügbar; Anfragen werden ausschließlich innerhalb der EU-Geografie geroutet und sind über das Vertex AI Data Processing Addendum DSGVO-abgedeckt. Für das neue Gemini 3.6 Flash ist die EU-Multi-Region-Verfügbarkeit noch nicht bestätigt – bei 3.5 Flash folgte der EU-Endpoint allerdings nur zwei Tage nach GA; wir prüfen laufend. Ein Single-Region-Endpoint in europe-west3 (Frankfurt) oder europe-west4 (Niederlande) fehlt für die 3.x-Familie weiterhin; wer striktes Pinning auf eine einzelne EU-Region benötigt, bleibt bei Gemini 2.5 Pro und Gemini 2.0 Flash in europe-west4.

Besondere Stärken

Gemini 3.6 Flash – das neue Workhorse (GA seit 21. Juli 2026)

Gemini 3.6 Flash (gemini-3.6-flash) verbessert Coding, Knowledge Work und multimodale Verarbeitung gegenüber 3.5 Flash und ist dabei günstiger: $1,50/1M Input, $7,50/1M Output. Auf dem Coding-Benchmark DeepSWE springt das Modell von 37 auf 49 Prozent, bei OSWorld-Verified (Computer Use) erreicht es 83 Prozent. Gleichzeitig produziert es 17 Prozent weniger Output-Token als 3.5 Flash – Google adressiert damit direkt das Entwickler-Feedback zur Verbosity, was die effektiven Kosten pro Aufgabe zusätzlich senkt. Der Knowledge Cutoff rückt auf März 2026 vor, das Kontextfenster bleibt bei 1 Million Token Input (65.536 Output). Verfügbar ist das Modell über die Gemini API (AI Studio, Android Studio), Antigravity, die Gemini Enterprise Agent Platform und die Gemini App. Migrationshinweis: Die Sampling-Parameter temperature, top_p und top_k sind auf den neuen Modellen deprecated – bestehende Integrationen sollten geprüft werden.

Gemini 3.5 Flash-Lite – Speed für Hochvolumen-Workloads (GA seit 21. Juli 2026)

Gemini 3.5 Flash-Lite (gemini-3.5-flash-lite) ist das schnellste Modell der 3.5-Serie: 350 Output-Tokens pro Sekunde laut Messung von Artificial Analysis, zu Preisen von $0,30/1M Input und $2,50/1M Output. Damit eignet es sich für Hochvolumen-Automatisierung, Klassifikation und latenzkritische Anwendungen – etwa als Sub-Agent in Multi-Agent-Pipelines. Google rollt das Modell zusätzlich in der Google-Suche aus.

Gemini 3.5 Flash Cyber – Security-Modell im Pilotprogramm

Mit Gemini 3.5 Flash Cyber hat Google erstmals ein dediziertes Cybersecurity-Modell angekündigt, gekoppelt an den CodeMender-Security-Agenten. Es bleibt vorerst exklusiv: Zugang erhalten nur Regierungen und geprüfte Partner über ein Limited-Access-Pilotprogramm. Für Unternehmen ist das Modell damit aktuell nicht relevant, zeigt aber Googles Kurs, sicherheitskritische Fähigkeiten kontrolliert auszurollen – ein Muster, das wir bereits von den staatlichen Freigabeprozessen bei OpenAI GPT-5.6 und Anthropic Claude Fable 5 kennen.

Gemini 3.5 Flash – Agentic-first

Mit Gemini 3.5 Flash positioniert Google sein schnellstes Modell erstmals oberhalb des eigenen Pro-Flagships: 3.5 Flash übertrifft Gemini 3.1 Pro auf Terminal-Bench 2.1 (Coding), GDPval-AA Elo (Real-World Agentic) und MCP Atlas (Tool Use). Das Modell ist auf mehrstündige autonome Workflows ausgelegt – etwa Coding-Pipelines, Research-Projekte oder den Aufbau ganzer Systeme. Es pausiert an Entscheidungspunkten und holt menschlichen Input ein. Eine kommende Variante soll bis zu 12× schneller als andere Frontier-Modelle bei gleichbleibender Qualität liefern.

Gemini 3.5 Pro – Orchestrator (weiter verzögert)

Gemini 3.5 Pro bleibt in Partner-Tests: Die ursprünglich für Juni 2026 erwartete GA ist verstrichen, Google formuliert im Release-Blogpost vom 21. Juli nur noch, das Modell werde „breit verfügbar, sobald es fertig ist". Das Modell ist als Orchestrator/Planner konzipiert, der Gemini 3.5/3.6 Flash als Sub-Agenten dirigiert. Angekündigt sind 2M Token Kontextfenster sowie ein Deep-Think-Reasoning-Modus. Damit zielt Google explizit auf Multi-Agent-Architekturen statt klassischer Chatbots.

Gemini Spark – agentischer 24/7-Assistent

Mit Gemini Spark hat Google auf der I/O 2026 einen agentischen Personal-Assistant vorgestellt, der auf Gemini 3.5 und der Antigravity-Plattform basiert. Spark läuft kontinuierlich in Googles Cloud, lässt sich per dedizierter Gmail-Adresse direkt anschreiben und führt Aufgaben über Chrome und Google Workspace im Hintergrund aus. Spark unterstützt das Model Context Protocol (MCP) für die Anbindung externer Dienste und wird zuerst Google-AI-Ultra-Abonnenten zur Verfügung gestellt.

Branchenführendes Kontextfenster

Gemini 3.1 Pro verarbeitet bis zu 2 Millionen Tokens in einem einzigen Kontext. Damit lassen sich umfangreiche Vertragswerke, technische Dokumentationen oder ganze Codebases in einer Anfrage analysieren. Die Flash-Modelle bieten ein Kontextfenster von 1 Million Tokens bei deutlich geringeren Kosten.

Multimodale Verarbeitung

Die Gemini-3.x-Familie verarbeitet Text, Bilder, Audio, Video und PDF-Dokumente nativ. Das ermöglicht Anwendungsfälle wie automatisierte Videoanalyse, Dokumentenextraktion aus gescannten PDFs oder die Auswertung von Meetings mit Audio- und Bildmaterial.

Google-Ökosystem

Vertex AI: Enterprise-Deployment mit SLA (EU-Hosting nur für ältere Modelle)
Antigravity 2.0: Agentische Entwicklungsplattform für Gemini 3.5 und 3.6
Gemini Enterprise: Enterprise-Frontend mit Zugriff auf 3.6 Flash und 3.5 Flash
Google Workspace: Integration in Docs, Sheets, Gmail und weitere Produkte
Search Grounding: Zugriff auf aktuelle Webinformationen
Google AI Studio: Schneller Einstieg und Prototyping

Spezialisierte Varianten

Gemini 3.1 Flash Thinking: Erweitertes Reasoning für komplexe STEM-Aufgaben mit transparentem Denkprozess
Gemini 3.1 Pro Deep Research: Spezialisiert auf mehrstufige Recherchen und lange Analyseaufgaben

Verfügbarkeit in der EU

Stand 24. Juli 2026: Gemini 3.5 Flash ist auf dem EU-Multi-Region-Endpoint der Vertex AI / Gemini Enterprise Agent Platform GA. Anfragen werden ausschließlich innerhalb der EU-Geografie geroutet und das Modell ist durch das Vertex AI Data Processing Addendum DSGVO-abgedeckt. Für die neuen Modelle Gemini 3.6 Flash und Gemini 3.5 Flash-Lite (GA seit 21. Juli) ist die EU-Multi-Region-Verfügbarkeit noch nicht bestätigt. Gemini 3.5 Pro bleibt in Partner-Tests ohne GA-Termin.

Was in der EU heute geht

Gemini 3.5 Flash über den EU-Multi-Region-Endpoint — DSGVO-konformes Routing innerhalb der EU-Geografie, GA auf Vertex AI / Gemini Enterprise Agent Platform.
Gemini 3.6 Flash und 3.5 Flash-Lite über den Global-Endpoint — nutzbar für Workloads ohne Residenz-Pflicht.
Gemini 2.5 Pro und Gemini 2.0 Flash als Single-Region-Endpoints in europe-west4 (Niederlande), eingeschränkt auch europe-west3 (Frankfurt) — für Kunden mit striktem Pinning auf eine einzelne EU-Region.

Was noch fehlt

Bestätigte EU-Multi-Region-Verfügbarkeit für Gemini 3.6 Flash und Gemini 3.5 Flash-Lite — bei 3.5 Flash kam der EU-Endpoint zwei Tage nach GA (19. → 21. Mai 2026); wir erwarten ein ähnliches Muster und prüfen laufend
Single-Region-Endpoints für die 3.x-Familie in europe-west3 (Frankfurt) oder europe-west4 (Niederlande)
Gemini 3.5 Pro (Partner-Tests, GA-Termin offen) — EU-Verfügbarkeit wird zum GA-Launch bestätigt

Wir empfehlen, die Google-Cloud-Dokumentation zur regionalen Verfügbarkeit und die Gemini-Enterprise-Agent-Platform-Release-Notes regelmäßig zu prüfen.

Integration mit CompanyGPT

Gemini-Modelle sind in CompanyGPT integriert. Gemini 3.5 Flash ist über den EU-Multi-Region-Endpoint für DSGVO-konformes Frontier-Reasoning und Agentic-Coding-Workloads angebunden. Gemini 2.5 Pro und Gemini 2.0 Flash stehen weiterhin als Single-Region-Endpoints in europe-west4 zur Verfügung, wenn striktes Pinning auf eine einzelne EU-Region erforderlich ist. Sobald Google Single-Region-3.5-Endpoints in Frankfurt oder den Niederlanden freischaltet, ergänzen wir sie als Default-Option.

Unsere Empfehlung

Gemini 3.6 Flash ist seit dem 21. Juli 2026 das technisch stärkste GA-Modell von Google – für DSGVO-konforme EU-Workloads bleibt bis zur EU-Endpoint-Bestätigung aber Gemini 3.5 Flash die Empfehlung:

Frontier-Reasoning und Agentic Workflows in der EU: Gemini 3.5 Flash über den EU-Multi-Region-Endpoint – wechseln Sie auf 3.6 Flash, sobald Google den EU-Endpoint bestätigt (wir aktualisieren diese Seite)
Workloads ohne EU-Residenz-Pflicht: Gemini 3.6 Flash über den Global-Endpoint – besseres Coding bei niedrigerem Preis als 3.5 Flash
Hochvolumen und Latenz-kritisch: Gemini 3.5 Flash-Lite ($0,30/1M Input, 350 Tokens/s) über den Global-Endpoint
Strikte Single-Country-EU-Residenz: Gemini 2.5 Pro in europe-west4
Cross-Cloud-Alternative: Anthropic Claude Opus 4.8 (Modellseite) oder Claude Sonnet 4.6 über AWS Bedrock (in-region Ireland/Stockholm/Frankfurt) — sinnvoll für Multi-Cloud-Strategien oder wenn der Workload nicht an Google Cloud gebunden ist

Wir beobachten das EU-Rollout von Gemini 3.6 Flash und 3.5 Flash-Lite eng und aktualisieren diese Seite, sobald Google die Endpoints freischaltet.

Modell	Release	Stärken	Schwächen	Status
Gemini 3.6 Flash (GA)	21. Juli 2026	Neues Workhorse-Modell: besseres Coding, Knowledge Work und Multimodalität als 3.5 Flash DeepSWE 49 % (Gemini 3.5 Flash: 37 %), OSWorld-Verified 83 % (Computer Use) 17 % weniger Output-Token als 3.5 Flash – bei niedrigerem Preis ($1,50/1M Input, $7,50/1M Output) 1M Token Input-Kontext (1.048.576), 65.536 Output, Knowledge Cutoff März 2026	EU-Multi-Region-Endpoint noch nicht bestätigt (Stand 24. Juli 2026) Sampling-Parameter temperature/top_p/top_k sind auf 3.6 Flash deprecated – Migration bestehender Prompts prüfen	Aktuell
Gemini 3.5 Flash-Lite (GA)	21. Juli 2026	Schnellstes Modell der 3.5-Serie: 350 Output-Tokens/Sekunde (Messung Artificial Analysis) Sehr günstig: $0,30/1M Input, $2,50/1M Output Ideal für Hochvolumen-Automatisierung mit niedriger Latenz	Geringere Kapazität als 3.6 Flash / 3.5 Flash EU-Multi-Region-Endpoint noch nicht bestätigt	Aktuell
Gemini 3.5 Flash Cyber	Angekündigt 21. Juli 2026 (Limited-Access-Pilot)	Spezialisiertes Cybersecurity-Modell, gekoppelt an Googles CodeMender-Agenten Fokus auf Schwachstellen-Erkennung und -Behebung	Nur für Regierungen und Trusted Partner – nicht kommerziell verfügbar	Preview
Gemini 3.5 Flash (GA) Empfohlen	19. Mai 2026 (Google I/O 2026)	Übertrifft Gemini 3.1 Pro auf Terminal-Bench 2.1, GDPval-AA Elo und MCP Atlas 289 Tokens/Sekunde – ca. 4× schneller als andere Frontier-Modelle Agentic-first: mehrstündige autonome Coding- und Research-Pipelines Standardmodell in Gemini App, AI Mode in Search, Antigravity und Gemini Enterprise EU-Multi-Region-Endpoint für DSGVO-konformes Routing innerhalb der EU-Geografie	Noch kein Single-Region-Endpoint in Frankfurt oder Niederlande — nur EU-Multi-Region	Aktuell
Gemini 3.5 Pro (Limited Preview)	Limited Preview seit Mai 2026, GA-Termin offen	Orchestrator-/Planner-Rolle für Multi-Agent-Workflows Arbeitet mit 3.5/3.6 Flash als Sub-Agenten zusammen 2M Token Kontextfenster und Deep-Think-Reasoning-Modus angekündigt	GA mehrfach verschoben – ursprünglich für Juni 2026 erwartet, Termin jetzt offen EU-Multi-Region-Verfügbarkeit noch nicht bestätigt	Preview
Gemini 3.1 Pro (GA)	Februar 2026	Komplexes Reasoning 2M Token Kontextfenster Multimodal	Auf zentralen Benchmarks von Gemini 3.5 Flash überholt	Aktuell
Gemini 3.1 Flash (GA)	Januar 2026	Starkes Preis-Leistungs-Verhältnis 1M Token Kontextfenster	Abgelöst durch Gemini 3.5 Flash	Aktuell
Gemini 3.1 Flash Thinking	Februar 2026	Erweitertes Reasoning Stark bei STEM-Aufgaben	Höhere Latenz durch Denkprozess	Aktuell
Gemini 3.1 Pro Deep Research	Februar 2026	Multi-Hop-Recherche Lange Analyseaufgaben	Spezialisiert, nicht universell	Aktuell
Gemini 3 Pro (Preview)	Januar 2026	Reasoning-first Multimodal	Abgelöst durch 3.1 Pro GA	Preview
Gemini 3 Flash (Preview)	Januar 2026	Schnell Stark in multimodalen Aufgaben	Abgelöst durch 3.1 Flash GA	Preview
Gemini 2.5 Pro	2025	Bewährt	Abgekündigt	Veraltet
Gemini 2.0 Flash	Dezember 2024	Kosteneffizient	Abgekündigt	Veraltet

Google Gemini

Versionen

Einsatzbereiche

Technische Details

Hosting & Compliance

Benchmarks