Zum Hauptinhalt springen
9 – 17 UHR +49 8031 3508270 LUITPOLDSTR. 9, 83022 ROSENHEIM
DE / EN

OpenAI Privacy Filter: Open-Source PII-Erkennung unter Apache 2.0 -- ein Game-Changer für europäische Unternehmen

Tobias Jonas Tobias Jonas | | 6 min Lesezeit

OpenAI hat ein kompaktes, feintuningfähiges Modell zur Erkennung personenbezogener Daten veröffentlicht – unter Apache 2.0. Warum das für europäische Unternehmen, die Frontier-LLMs nutzen wollen, ohne personenbezogene Daten preiszugeben, ein strategischer Baustein ist.


Was ist der OpenAI Privacy Filter?

Der OpenAI Privacy Filter ist ein bidirektionales Token-Klassifikationsmodell, das personenbezogene Informationen (PII) in Texten erkennt und maskiert. Anders als generative Modelle arbeitet es nicht autoregressive Token für Token, sondern klassifiziert eine gesamte Eingabesequenz in einem einzigen Forward Pass.

Technische Eckdaten

EigenschaftWert
Gesamtparameter1,5 Milliarden
Aktive Parameter50 Millionen (Sparse Mixture-of-Experts)
Kontextfenster128.000 Token
ArchitekturBidirektionaler Token-Klassifizierer mit Banded Attention
LizenzApache 2.0
BasisAutoregressive Pretraining (gpt-oss-Architektur), dann Post-Training als Klassifizierer

Das Modell nutzt eine Sparse-Mixture-of-Experts-Architektur mit 128 Experten (Top-4-Routing pro Token), Grouped-Query Attention mit Rotary Positional Embeddings und eine finale Klassifikations-Head über 33 Label-Klassen. Die Dekodierung erfolgt über ein Constrained-Viterbi-Verfahren, das kohärente BIOES-Spans (Begin, Inside, Outside, End, Single) erzwingt.

Was erkennt das Modell?

Der Privacy Filter klassifiziert acht Kategorien personenbezogener Daten:

  1. account_number – Kontonummern, IBANs, Kreditkartennummern
  2. private_address – Wohnadressen
  3. private_email – E-Mail-Adressen
  4. private_person – Personennamen
  5. private_phone – Telefonnummern
  6. private_url – Persönliche URLs
  7. private_date – Geburtsdaten und andere personenbezogene Datumsangaben
  8. secret – API-Keys, Passwörter, Credentials

Warum Apache 2.0 ein Unterschied macht

Die Lizenzierung unter Apache 2.0 ist der eigentliche strategische Kern dieser Veröffentlichung. Apache 2.0 bedeutet:

  • Kommerzieller Einsatz ohne Einschränkungen
  • Modifikation und Redistribution erlaubt
  • Kein Copyleft – keine Verpflichtung, eigene Anpassungen offenzulegen
  • Patent Grant – expliziter Schutz vor Patentansprüchen des Lizenzgebers

Für Unternehmen heißt das: Man kann das Modell nehmen, auf die eigenen Datenverteilungen feintunen, in die eigene Infrastruktur integrieren und produktiv betreiben – ohne rechtliche Grauzonen, ohne Abhängigkeit von OpenAIs API, ohne Vendor Lock-in.

Vergleich zu bisherigen Alternativen

Bisherige Open-Source-PII-Erkennungstools wie Microsoft Presidio oder spaCy-basierte NER-Pipelines arbeiten oft regelbasiert oder mit deutlich kleineren Modellen. Der Privacy Filter bringt erstmals ein von einem führenden KI-Unternehmen trainiertes, kontextbewusstes Modell in den Open-Source-Bereich – mit einer Architektur, die auf 128k Token Kontext skaliert und durch Finetuning an domänenspezifische Anforderungen anpassbar ist.


Der europäische Use Case: Frontier-LLMs ohne Datenschutzrisiko

Hier wird es für europäische Unternehmen besonders interessant. Die Situation ist bekannt:

Das Dilemma

Die leistungsfähigsten Frontier-LLMs – sei es GPT-5, Claude Opus oder Gemini Ultra – bieten Fähigkeiten, die für viele Geschäftsprozesse transformativ sind. Gleichzeitig stehen europäische Unternehmen vor konkreten Hürden:

  • DSGVO-Compliance: Personenbezogene Daten dürfen nicht ohne Rechtsgrundlage an Drittanbieter übermittelt werden
  • Schrems-II-Problematik: Datenübermittlung in die USA bleibt rechtlich komplex
  • Branchenregulierung: Sektoren wie Gesundheit (§ 203 StGB), Finanzen und öffentliche Verwaltung haben zusätzliche Restriktionen
  • EU AI Act: Transparenzpflichten bei der Verarbeitung personenbezogener Daten durch KI-Systeme

Die Lösung: Privacy Filter als Vorverarbeitungsstufe

Der OpenAI Privacy Filter ermöglicht ein Architekturmuster, das dieses Dilemma auflöst:

[Originaldaten] → [Privacy Filter (on-premises)] → [Maskierte Daten] → [Frontier-LLM API]

Konkret:

  1. Eingangsdaten durchlaufen den Privacy Filter auf der eigenen Infrastruktur
  2. PII wird erkannt und maskiert – Namen werden zu [PERSON], E-Mails zu [EMAIL], etc.
  3. Die maskierten Daten gehen an das Frontier-LLM zur Verarbeitung
  4. Die Antwort wird zurückgemappt – maskierte Platzhalter werden durch die Originaldaten ersetzt

Das Ergebnis: Die volle Leistungsfähigkeit eines Frontier-Modells, ohne dass personenbezogene Daten die eigene Infrastruktur verlassen.

Warum gerade jetzt?

Mehrere Frontier-Modelle sind derzeit in Europa nicht oder nur eingeschränkt verfügbar. Einige Anbieter verzichten bewusst auf einen EU-Launch, weil die regulatorischen Anforderungen zu komplex sind. Der Privacy Filter eröffnet einen pragmatischen Mittelweg: Statt auf den EU-Launch zu warten oder auf die Modelle zu verzichten, können Unternehmen die API-Endpunkte nutzen – aber mit einem vorgeschalteten, selbst betriebenen Datenschutzfilter.


Praktische Nutzung

Installation und erste Schritte

pip install -e .

Danach steht das CLI-Tool opf zur Verfügung:

# Einmalige Redaktion
opf "Max Mustermann wohnt in der Musterstraße 42, 80331 München."

# Datei verarbeiten
opf -f /pfad/zur/datei.txt

# CPU-Modus (kein GPU nötig)
opf --device cpu "Alice wurde am 01.02.1990 geboren."

# Interaktiver Modus
opf

Finetuning auf eigene Daten

Ein entscheidender Vorteil: Das Modell lässt sich auf die eigene Datenverteilung feintunen. In der Praxis bedeutet das:

opf train /pfad/zu/trainingsdaten.jsonl --output-dir /pfad/zum/finetuned-modell

Typische Finetuning-Szenarien:

  • Branchenspezifische PII: Medizinische Befundnummern, Versicherungsnummern, interne Mitarbeiter-IDs
  • Sprachliche Anpassung: Optimierung für deutsche Texte, Schweizer Adressformate, österreichische Sozialversicherungsnummern
  • Policy-Anpassung: Was als PII gilt, ist kontextabhängig – ein Unternehmensname kann in einem Kontext öffentlich sein, in einem anderen vertraulich

Precision/Recall-Steuerung zur Laufzeit

Über die Viterbi-Dekodierungsparameter lässt sich das Verhalten zur Laufzeit steuern:

  • Hoher Recall: Lieber einmal zu viel maskieren – für Szenarien mit hohem Datenschutzrisiko
  • Hohe Precision: Nur bei hoher Konfidenz maskieren – für Szenarien, in denen Kontexterhalt wichtig ist

Limitationen – ehrlich betrachtet

Der Privacy Filter ist kein Allheilmittel. OpenAI selbst dokumentiert die Grenzen transparent:

  • Primär Englisch trainiert: Performance bei deutschen Texten, nicht-lateinischen Schriften oder regionalen Namenskonventionen kann eingeschränkt sein
  • Statische Label-Policy: Die acht Kategorien sind fest – was nicht reinpasst, wird nicht erkannt
  • Kein Anonymisierungsgarant: Das Modell ist ein Hilfsmittel zur Datenminimierung, keine vollständige Anonymisierungslösung
  • False Positives: Öffentliche Entitäten (Firmennamen, Ortsnamen) können fälschlich maskiert werden
  • False Negatives: Ungewöhnliche Namen, regionale Namenskonventionen oder neuartige Credential-Formate können durchrutschen

Unsere Einschätzung: Für den produktiven Einsatz im deutschsprachigen Raum ist Finetuning auf deutsche Daten praktisch Pflicht. Das Modell bietet die Architektur und die Grundfähigkeit – die domänenspezifische Anpassung muss jedes Unternehmen selbst leisten.


Einordnung: Was bedeutet das strategisch?

Für Unternehmen

Der Privacy Filter senkt die Schwelle für den rechtskonformen Einsatz von Frontier-LLMs erheblich. Statt auf einen europäischen LLM-Champion zu warten oder mit deutlich schwächeren lokalen Modellen zu arbeiten, können Unternehmen:

  1. Den Privacy Filter auf eigener Infrastruktur betreiben
  2. Ihn auf die eigene Domäne feintunen
  3. Frontier-LLMs über API nutzen – mit maskierten Daten
  4. Die volle Leistungsfähigkeit der besten verfügbaren Modelle erschließen

Für die KI-Strategie

Dieses Release passt in ein größeres Muster: Die KI-Landschaft bewegt sich in Richtung modularer Architekturen. Nicht ein Modell macht alles, sondern spezialisierte Komponenten – PII-Filter, Guardrails, Routing, Evaluierung – werden zu einem Gesamtsystem orchestriert. Der Privacy Filter ist ein Baustein in dieser Architektur.

Für CompanyGPT-Kunden

Für unsere CompanyGPT-Kunden evaluieren wir bereits die Integration des Privacy Filters als zusätzliche Datenschutzschicht. Die Kombination aus selbst gehosteter KI-Plattform und vorgeschaltetem PII-Filter kann die Datensicherheit weiter erhöhen – insbesondere für Kunden, die externe Frontier-Modelle über API anbinden.


Fazit

OpenAIs Privacy Filter ist kein revolutionäres Forschungsergebnis – es ist ein pragmatisches, gut dokumentiertes Werkzeug, das eine reale Lücke schließt. Die Apache-2.0-Lizenz macht es für Unternehmen nutzbar. Die kompakte Architektur macht es auf Standard-Hardware betreibbar. Das Finetuning macht es anpassbar.

Für europäische Unternehmen, die zwischen Datenschutzanforderungen und dem Wunsch nach Frontier-LLM-Fähigkeiten stehen, ist das ein konkreter, gangbarer Weg nach vorn.


Sie möchten den OpenAI Privacy Filter in Ihrem Unternehmen einsetzen oder in Ihre bestehende KI-Infrastruktur integrieren? Sprechen Sie mit uns – wir beraten Sie bei der Evaluierung, dem Finetuning und der Architektur.


Quellen und weiterführende Links:

Tobias Jonas
Geschrieben von

Tobias Jonas

Co-CEO, M.Sc.

Tobias Jonas, M.Sc. ist Mitgründer und Co-CEO der innFactory AI Consulting GmbH. Er ist ein führender Innovator im Bereich Künstliche Intelligenz und Cloud Computing. Als Co-Founder der innFactory GmbH hat er hunderte KI- und Cloud-Projekte erfolgreich geleitet und das Unternehmen als wichtigen Akteur im deutschen IT-Sektor etabliert. Dabei ist Tobias immer am Puls der Zeit: Er erkannte früh das Potenzial von KI Agenten und veranstaltete dazu eines der ersten Meetups in Deutschland. Zudem wies er bereits im ersten Monat nach Veröffentlichung auf das MCP Protokoll hin und informierte seine Follower am Gründungstag über die Agentic AI Foundation. Neben seinen Geschäftsführerrollen engagiert sich Tobias Jonas in verschiedenen Fach- und Wirtschaftsverbänden, darunter der KI Bundesverband und der Digitalausschuss der IHK München und Oberbayern, und leitet praxisorientierte KI- und Cloudprojekte an der Technischen Hochschule Rosenheim. Als Keynote Speaker teilt er seine Expertise zu KI und vermittelt komplexe technologische Konzepte verständlich.

LinkedIn