innFactory AI Consulting aus Rosenheim berät Unternehmen im DACH-Raum zum DSGVO-konformen Self-Hosting von Google Gemma. Mit Open Weights haben Sie volle Kontrolle über Ihre Daten - keine Information verlässt Ihre Infrastruktur.
Google Gemma - Open Weights von Google
Gemma ist Googles Open-Weights Modellfamilie, entwickelt auf Basis der gleichen Forschung und Technologie wie Gemini. Anders als das proprietäre Gemini können Gemma-Modelle frei heruntergeladen, lokal betrieben und für kommerzielle Zwecke angepasst werden. Mit Gemma 4 hat Google die bisher intelligentesten offenen Modelle veröffentlicht, die auf der Gemini 3 Technologie basieren und maximale Intelligenz pro Parameter bieten.
Gemma 4 - Die neue Generation (2026)
Die Gemma 4 Familie markiert einen erheblichen Leistungssprung gegenüber der Vorgängergeneration. Aufgebaut auf Gemini 3 Forschung, bieten die neuen Modelle erstmals einen integrierten Thinking-Modus für komplexes Reasoning sowie Audio-Verarbeitung als zusätzliche Eingabemodalität.
Wichtigste Neuerungen in Gemma 4
- Thinking-Modus: Integriertes Reasoning für mathematische, wissenschaftliche und komplexe Aufgaben
- Audio-Unterstützung: Neben Text und Bild nun auch Audioverarbeitung
- Agentic Workflows: Optimiert für autonome, mehrstufige Aufgaben
- MoE-Architektur: Gemma 4 26B A4B nutzt Mixture-of-Experts mit nur 4B aktiven Parametern
- Edge-Modelle: Gemma 4 E4B und E2B für mobile und eingebettete Anwendungen
Benchmarks: Gemma 4 31B vs. Gemma 3 27B
| Benchmark | Gemma 4 31B (Thinking) | Gemma 3 27B |
|---|---|---|
| Arena AI (Text) | 1452 | 1365 |
| MMMLU | 85.2% | 67.6% |
| AIME 2026 | 89.2% | 20.8% |
| LiveCodeBench v6 | 80.0% | 29.1% |
| GPQA Diamond | 84.3% | 42.4% |
| MMMU Pro | 76.9% | — |
| τ2-bench (Retail) | 86.4% | 6.6% |
Die Verbesserungen sind besonders im Bereich Reasoning und Code-Generierung massiv: LiveCodeBench steigt von 29.1% auf 80.0%, AIME 2026 von 20.8% auf 89.2%.
Besondere Stärken
Open Weights mit Google-Qualität
- Gemini 3 Technologie: Gemma 4 basiert auf der neuesten Google DeepMind Forschung
- Volle Kontrolle: Modell läuft in Ihrer eigenen Infrastruktur
- Keine API-Kosten: Nur Hardware-/Cloud-Kosten
- Anpassbar: Fine-Tuning auf eigene Daten möglich
Multimodale Fähigkeiten (Gemma 4)
- Text + Bild + Audio: Dreifach-modale Verarbeitung (neu: Audio)
- 128K Kontext: Lange Dokumente in einem Durchgang
- Multilingual: Über 140 Sprachen unterstützt
- Thinking-Modus: Integriertes Reasoning für komplexe Aufgaben
Flexible Deployment-Optionen
- On-Premise: Eigene Server oder Private Cloud
- Edge/Mobile: Gemma 4 E2B und E4B für kompakte Geräte
- Cloud: Vertex AI, AWS, Azure mit eigener Instanz
- Verfügbar auf: HuggingFace, Ollama, Kaggle, LM Studio, Docker
Spezialisierte Varianten
Neben den Hauptmodellen bietet Google spezialisierte Gemma-Varianten für spezifische Anwendungsfälle:
TranslateGemma (Januar 2026)
- Verfügbar in: 4B, 12B und 27B Parametern
- Fokus: State-of-the-art Übersetzungsqualität
- Einsatz: Mehrsprachige Unternehmenskommunikation, Dokumentenlokalisierung
- Vorteil: Optimiert für 140+ Sprachen mit besonderer Stärke in europäischen Sprachen
FunctionGemma (Dezember 2025)
- Modellgröße: 270M Parameter (ultra-kompakt)
- Fokus: Function Calling und strukturierte Ausgaben
- Einsatz: API-Integration, Workflow-Automatisierung, Agentic AI
- Vorteil: Minimaler Ressourcenbedarf bei hoher Präzision
Gemma Scope 2 (Dezember 2025)
- Typ: Interpretability Suite
- Zweck: Transparenz und Debugging von Gemma 3 Modellen
- Nutzen: Nachvollziehbare KI-Entscheidungen für regulierte Branchen
- DACH-Relevanz: Unterstützt Compliance-Anforderungen
Modellübersicht
Gemma 4 Familie (2026)
| Modell | Parameter | Architektur | Empfohlene Hardware | Kontext |
|---|---|---|---|---|
| Gemma 4 31B | 31B | Dense | A100 / H100 | 128K |
| Gemma 4 26B A4B | 26B (4B aktiv) | MoE | RTX 4090 | 128K |
| Gemma 4 E4B | 4B | Dense | Edge / Mobile | 128K |
| Gemma 4 E2B | 2B | Dense | Edge / Mobile | 128K |
Gemma 3 Familie (2025)
| Modell | Parameter | VRAM | Empfohlene GPU | Kontext |
|---|---|---|---|---|
| Gemma 3 27B | 27B | 32+ GB | A100 / H100 | 128K |
| Gemma 3 12B | 12B | 16+ GB | RTX 4090 | 128K |
| Gemma 3 4B | 4B | 8 GB | RTX 4070 | 128K |
| Gemma 3 1B | 1B | 2 GB | Mobile / Edge | 32K |
| Gemma 3 270M | 0.27B | 1 GB | Mobile / Edge | 32K |
Gemma 2 Familie (2024)
| Modell | Parameter | VRAM | Empfohlene GPU | Kontext |
|---|---|---|---|---|
| Gemma 2 27B | 27B | 32+ GB | A100 | 8K |
| Gemma 2 9B | 9B | 12+ GB | RTX 4080 | 8K |
| Gemma 2 2B | 2B | 4 GB | RTX 3060 | 8K |
Vergleich: Gemma vs. Gemini vs. Llama
| Aspekt | Gemma 4 | Gemini 3.1 | Llama 4 |
|---|---|---|---|
| Lizenz | Open Weights | Proprietär | Community License |
| Self-Hosting | Ja | Nein | Ja |
| API-Kosten | Keine (Self-Hosted) | Pay-per-Use | Keine (Self-Hosted) |
| Multimodal | Text + Bild + Audio | Umfassend | Text + Bild |
| Thinking-Modus | Ja | Ja | Ja |
| DSGVO Self-Host | Ideal | Cloud-abhängig | Ideal |
| Fine-Tuning | Möglich | Begrenzt | Möglich |
| Spezialisierte Varianten | TranslateGemma, FunctionGemma | Eingeschränkt | Keine |
Einsatzgebiete
DSGVO-konforme Unternehmens-KI
- Sensible Daten bleiben in Ihrer Infrastruktur
- Keine Datenübertragung an externe Dienste
- Volle Kontrolle über Logging und Audit
- Gemma Scope 2 für nachvollziehbare Entscheidungen
Spezialisierte Anwendungen
- RAG-Systeme: Unternehmenswissen durchsuchbar machen
- Code-Assistenten: Interne Entwicklertools
- Kundenservice: Chatbots ohne Datenweitergabe
- Mehrsprachigkeit: TranslateGemma für internationale Teams
- Workflow-Automation: FunctionGemma für API-Integration
- Agentic Workflows: Gemma 4 für autonome, mehrstufige Aufgaben
Edge und Mobile
- Gemma 4 E2B/E4B: Neue Edge-optimierte Modelle mit Thinking-Modus
- Gemma 3 1B/4B: Bewährte kompakte Varianten
- Offline-fähig: Keine Internetverbindung nötig
- Niedrige Latenz: Lokale Verarbeitung
Verfügbarkeit in der EU
Google Vertex AI (Empfohlen)
- Region: Frankfurt (europe-west3)
- Vorteil: Vollständig verwalteter Service mit EU-Datenresidenz
- DSGVO: Voll konform bei korrekter Konfiguration
Self-Hosted Optionen
- AWS SageMaker: Frankfurt (eu-central-1)
- Azure ML: West Europe
- On-Premise: Eigene Rechenzentren für maximale Kontrolle
Alle Gemma-Modelle können als Open Weights heruntergeladen und in EU-Infrastruktur betrieben werden, was volle Datensouveränität garantiert. Gemma 4 ist zusätzlich über HuggingFace, Ollama, Kaggle, LM Studio und Docker verfügbar.
Integration mit CompanyGPT
Gemma-Modelle können in CompanyGPT als Self-Hosted-Option integriert werden - ideal für Unternehmen, die Google-Qualität mit vollständiger Datenkontrolle kombinieren möchten. Die spezialisierten Varianten wie TranslateGemma eignen sich besonders für mehrsprachige Unternehmensumgebungen.
Unsere Empfehlung
Gemma 4 31B ist die erste Wahl für Unternehmen, die Google-Qualität mit Self-Hosting kombinieren möchten. Mit 85.2% MMMLU, 80% LiveCodeBench und integriertem Thinking-Modus übertrifft es den Vorgänger Gemma 3 27B in allen relevanten Benchmarks deutlich.
Für spezialisierte Anwendungen empfehlen wir:
- Gemma 4 26B A4B für effizientes Deployment dank MoE-Architektur (nur 4B aktive Parameter)
- Gemma 4 E4B/E2B für Edge-Anwendungen und ressourcenbegrenzte Umgebungen
- TranslateGemma für mehrsprachige Unternehmen mit hohen Qualitätsansprüchen
- FunctionGemma für Workflow-Automatisierung und API-Integrationen
Wir unterstützen Sie bei der Auswahl, dem Deployment und dem Fine-Tuning von Gemma-Modellen in Ihrer Infrastruktur. Mit Gemma Scope 2 bieten wir zusätzlich Transparenz-Analysen für regulierte Branchen an.
