Startseite » Software und Branchenlösungen Marktübersicht im SoftGuide Softwareführer

Software und Branchenlösungen Marktübersicht im SoftGuide Softwareführer

Software > Software-Nachrichten > KI?&?Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten
KI?&?Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten

Der Artikel beleuchtet bewährte Strategien, Tools und Technologien, um sensible Daten für KI-Projekte nutzbar und zugleich DSGVO-konform aufzubereiten

Presseartikel eingestellt am 09.09.2025 zur Software Voracity

In Zeiten datengetriebener KI-Systeme entscheidet die Qualität der Eingangsdaten über den Erfolg. Sensible Informationen wie personenbezogene Daten stellen Datenanalysten vor rechtliche und technische Hürden. Eine datenschutzkonforme Vorbereitung ? von Anonymisierung bis Testdatenmanagement ? wird zur Schlüsselkompetenz.

Einleitung

Eine gute Datenqualität bildet das Fundament jeder erfolgreichen KI-Anwendung. Mangelhafte Daten führen unweigerlich zu fehlerhaften Modellen und unzuverlässigen Ergebnissen. Erfahrungswerte zeigen, dass Fachleute noch heute rund 80?% ihrer Zeit mit Datenvorbereitung verbringen und nur 20?% mit Analyse und Entscheidungsfindung [1]. Der Prozess der Datenvorverarbeitung kann umfassend und komplex sein und besteht aus mehreren Schritten.

Durch den Einsatz von KI-gestützten Werkzeugen kann dieser Aufwand drastisch sinken, sodass mehr Zeit für wichtige Analyseaufgaben bleibt. Moderne KI-Pipelines durchlaufen üblicherweise folgende Schritte: Datensammlung, Profilierung, Bereinigung, Harmonisierung sowie Transformation. Typische Aufgaben sind etwa das Sammeln der Rohdaten, das Erkennen und Entfernen von Duplikaten oder fehlerhaften Einträgen und die Vereinheitlichung von Formaten. Jeder dieser Teilprozesse erhöht die Zuverlässigkeit der Daten für Machine Learning-Modelle. Werden diese Schritte konsequent umgesetzt, legt das Unternehmen das Fundament für prädiktive Analysen und KI-gestützte Automatisierung.

Herausforderungen bei der Verarbeitung sensibler Daten: Datenschutz und Datenqualität im Fokus

Bei der Verarbeitung sensibler Daten stehen Unternehmen vor mehreren Herausforderungen aus den Bereichen Datenschutz und Datenqualität. Zum einen bergen personenbezogene Daten (z.B. Name, Adresse, Sozialversicherungsnummer) rechtliche Risiken. Nach DSGVO müssen diese Daten entweder anonymisiert oder mindestens pseudonymisiert werden, um sie noch weiterverarbeiten zu dürfen.

Anonymisierung vs. Pseudonymisierung

Beides sind zwei unterschiedliche Verfahren zur Reduzierung personenbezogener Merkmale in Datensätzen mit jeweils anderen rechtlichen und technischen Implikationen: 

  • Anonymisierung bedeutet, dass personenbezogene Daten so verändert werden, dass eine Identifikation der betroffenen Person dauerhaft ausgeschlossen ist ? weder direkt noch indirekt (z.?B. durch Kombination mit anderen Daten). Nach der DSGVO gelten anonymisierte Daten nicht mehr als personenbezogen und unterliegen somit nicht mehr dem Datenschutzrecht. Eine Rückführung zum ursprünglichen Datensatz ist nicht möglich.
  • Pseudonymisierung hingegen ersetzt identifizierende Merkmale (z.?B. Name, Kundennummer) durch Codes oder Platzhalter, wobei die Zuordnung zu den Originaldaten über einen geheim gehaltenen Schlüssel (z.?B. eine Zuordnungstabelle) möglich bleibt. Pseudonymisierte Daten gelten daher weiterhin als personenbezogen und unterliegen der DSGVO ? sie bieten lediglich einen zusätzlichen Schutz bei der Verarbeitung. Nur anonymisierte Daten sind vollständig vom Datenschutz befreit.


Zum anderen bleibt ein Großteil gesammelter Daten im Unternehmen ungenutzt (Dark Data). Gartner schätzt, dass Informationen, die routinemäßig generiert, aber nicht genutzt werden (z.B. alte Logdateien oder E-Mails), mehr als die Hälfte der Datenbestände ausmachen [2].

Zusätzlich verschlechtert eine mangelhafte Datenqualität die KI-Ergebnisse. Häufige Probleme sind fehlende Werte, Tippfehler oder Format-Inkonsistenzen. Die Sicherstellung konsistenter, vollständiger Datensätze ist daher essenziell. Bei sensiblen Daten müssen Dateningenieure außerdem gewährleisten, dass nachträgliche Zusammenführungen nicht zur Re-Identifikation führen. Insgesamt erfordert der Umgang mit sensiblen Daten besondere Sorgfalt: Neben hohem Aufwand für Datenbereinigung bringt der Datenschutz technische und organisatorische Hürden mit sich.

Strategien zur Datenanonymisierung und -maskierung

Für den Umgang mit sensiblen Daten kommen verschiedenste Anonymisierungsverfahren zum Einsatz. Wichtige Methoden sind zum Beispiel:

  • Pseudonymisierung: Dabei werden direkte Personen-Identifikatoren durch Pseudonyme ersetzt und eine Zuordnungstabelle separat gespeichert. Der ursprüngliche Datensatz bleibt so reproduzierbar. Nachteil: Pseudonymisierte Daten gelten nach DSGVO weiterhin als personenbezogen und sind mit Zusatzaufwand rückführbar.
  • Datenmaskierung: Maskierte Datensätze behalten Struktur und Format der Originaldaten bei, enthalten aber gefälschte Werte. Dabei werden echte Daten durch zufällige Zeichen ersetzt, um Vertraulichkeitsbelange zu wahren. In der Praxis bleibt jedoch die statistische Aussagekraft oft reduziert.
  • Generalisierung/Aggregation: Werte werden auf weniger genaue Kategorien verallgemeinert (z.B. Altersangaben in Fünf-Jahres-Intervalle gruppiert). Dies senkt den Identifizierungsgrad einzelner Datensätze ? zu grob angewandt kann es jedoch die Datenqualität so stark mindern, dass die Datennutzung leidet.
  • Perturbation (Rauschen): Durch Zufallsrauschen werden Originalwerte leicht verändert (z.B. Rundung oder Addition kleiner Zufallskomponenten). Diese Methode stört einzelne Datenpunkte subtil, während die Gesamtdatenmuster weitgehend erhalten bleiben. Allerdings kann eine unzureichende Rauschzugabe Rückschlüsse zulassen.
  • Tokenisierung: Spezifische sensible Felder (z.B. Kreditkartennummern) werden durch nicht rückführbare Tokens ersetzt. So bleiben die strukturellen Eigenschaften (Format, Länge) erhalten, eine Re-Identifizierung wird erschwert.
  • SynthetischeDatenerzeugung: Moderne KI-Tools können komplett neue Datensätze generieren, deren Struktur und statistische Verteilung den Originaldaten ähneln. Diese synthetischen Daten ersetzen personenbezogene Daten vollständig durch fiktive Werte und gewährleisten so Compliance mit Datenschutzgesetzen.
  • HomomorpheVerschlüsselung(fortgeschritten): Hierbei wandelt man Daten in chiffrierte Formate um, die weiterhin Berechnungen erlauben. Rechnungen auf diesen "verschlüsselten" Daten liefern schließlich das richtige Ergebnis, ohne dass jemals echte Klartextdaten bekannt werden. Diese Methode erfordert jedoch spezielles Fachwissen und ist rechenintensiv.

Moderne Anonymisierungstools kombinieren diese Techniken oft, um Datenschutz und Datenqualität zu optimieren. Wichtig ist stets, einen geeigneten Kompromiss zu wählen: Die Daten müssen so stark anonymisiert werden, dass Personen nicht mehr rückführbar sind, aber gleichzeitig für KI-Auswertungen noch aussagekräftig bleiben.

Testdatenmanagement und Datenmaskierung mit IRI Voracity

Für das Testdatenmanagement und die Datenmaskierung greift man am besten auf spezialisierte Tools zurück. Diese bieten darauf ausgelegte Spezialfunktionen und beschleunigen somit die Arbeit. Ein solches Tool ist beispielsweise IRI Voracity (JetSoftware) [3]. Es handelt sich um eine integrierte Datenmanagement-Plattform, die speziell Funktionen für Testdatenmanagement (TDM) und Datenschutz bietet. Sie vereint Daten-Entdeckung (Profiling, Klassifizierung), Datenintegration, Datenmigration, Datenbereinigung, Datengovernance und Analytics in einer Eclipse-basierten Entwicklungsumgebung.

Voracity deckt alle wichtigen Methoden des Testdatenmanagements ab, d.h. von reiner Datensynthese bis hin zum Subsetting und der Datenvirtualisierung. In der Plattform können Entwickler intelligent verteilte Testdatensätze erstellen, ohne auf Originaldaten zugreifen zu müssen. Folgende Einsatzszenarien und Methoden werden unterstützt:

  • Synthetische Testdatenerzeugung: Mit IRI RowGen können komplett neue Datensätze generiert werden, die Struktur- und Beziehungsvorgaben (DDL Constraints) der Ziel-Datenbanken erfüllen. RowGen unterstützt über 100 Datentypen und gängige Dateiformate (z.B. CSV, XML, JSON, HL7, Excel, BLOBs). So lassen sich Testdaten-Tabellen oder -Dateien füllen, die realistische Feldwerte gemäß vorgegebenem Muster und Verteilungen erhalten.

  • Datenbank-Subsetting: Voracity kann Datenbanktabellen auf repräsentative Teilmengen reduzieren. Dabei bleiben Referenzen und Fremdschlüssel erhalten. Das gilt auch, wenn über verschiedene Tabellen hinweg Teilmengen gebildet werden. Die Anwendung von Subsetting spart Speicherplatz und ermöglicht Tests mit kleineren, aber Datenbank-konsistenten Datensammlungen.

  • Maskierung vorhandener Daten: Produktiv- oder Testdaten können mit FieldShield (für relationale Tabellen und strukturierte Dateien), CellShield (für Excel) oder DarkShield (für semi-/unstrukturierte Daten wie Texte, Bilder, BLOBs) anonymisiert werden. Dabei werden sensible Werte (z.B. Namen, Adressen, IDs) per Verschlüsselung, Pseudonymisierung oder durch eine Ersetzung mittels Zufalls- oder Konsistenzwerten datenschutzkonform unkenntlich gemacht, die grundsätzliche Struktur bleibt jedoch erhalten (Tabelle 1).

Mit diesen Mitteln lassen sich Testdatenbanken für Funktionstests, Stresstests oder Continuous Integration-Prozesse sicher und realitätsnah befüllen. Dabei können die Daten aus den unterschiedlichsten Quellen stammen, d.h. Mainframe-Systeme, relationale Datenbanksysteme (Oracle, SQL Server, DB2, PostgreSQL) bis zu modernen Big Data-Formaten (Kafka, NoSQL). Die Anwender nutzen die visuelle IRI Workbench (Eclipse) zum Design der Jobs, die dann ohne Programmierung über die im Hintergrund arbeitenden Engines ausgeführt werden.

RI FieldShieldfür strukturierte Daten (Datenbanken, CSV-/Fixed-File-Tabellen), bietet Profiling, Erkennung und vielfältige Maskierungs-Algorithmen, z.B. Format-erhaltende Verschlüsselung, Pseudonymisierung, Permutation, Zufallswerte)

IRI DarkShieldfür semi- und unstrukturierte Datenquellen (Text, Dokumente, JSON, BLOBs, Bilder), findet personenbezogene Daten (z.B. Namen, Kontonummern) in Dateien und Medien und entfernt oder anonymisiert sie

IRI CellShieldfür Excel-Tabellen, maskiert oder verschlüsselt personenbezogene Spalten und generiert Audit Trails über Änderungen

Die Tools arbeiten über Metadaten und Regeln. Dabei können Felder automatisch durch Scannen und Klassifizieren lokalisiert werden. Anschließend lassen sich für jeden Feldtyp geeignete Transformationen wählen (z.B. Hashing, Ersetzen durch fiktive Daten, Verschleierung). Das Ergebnis sind anonyme Datensätze, die statistisch und strukturell ähnlich den Originaldaten sind, aber keine sensiblen Informationen mehr enthalten. In der Praxis bedeutet dies: Produktivdaten werden z.B. für eine Entwicklungskopie gespiegelt, wobei alle personenbezogenen Datenfelder nach definierten Maskierungsstrategien ersetzt werden. Die anonymisierte Kopie kann dann sicher weitergegeben oder getestet werden. Ein zentrales Merkmal ist die Wahrung der referenziellen Integrität während der Maskierung.

Die Tools arbeiten über Metadaten und Regeln. Dabei können Felder automatisch durch Scannen und Klassifizieren lokalisiert werden. Anschließend lassen sich für jeden Feldtyp geeignete Transformationen wählen (z.B. Hashing, Ersetzen durch fiktive Daten, Verschleierung). Das Ergebnis sind anonyme Datensätze, die statistisch und strukturell ähnlich den Originaldaten sind, aber keine sensiblen Informationen mehr enthalten. In der Praxis bedeutet dies: Produktivdaten werden z.B. für eine Entwicklungskopie gespiegelt, wobei alle personenbezogenen Datenfelder nach definierten Maskierungsstrategien ersetzt werden. Die anonymisierte Kopie kann dann sicher weitergegeben oder getestet werden. Ein zentrales Merkmal ist die Wahrung der referenziellen Integrität während der Maskierung.

Referenzielle Integrität und Datenmaskierung

Referenzielle Integrität bezeichnet im Datenbankkontext die Konsistenz von Beziehungen zwischen Tabellen ? typischerweise über Fremdschlüssel (Foreign Keys). Wenn z.B. eine Kundennummer in einer Bestelltabelle auf einen Eintrag in der Kundentabelle verweist, darf diese Beziehung durch Datenveränderungen nicht ungültig werden. Im Kontext der Datenmaskierung bedeutet das: Wenn sensible Daten (wie Kundennummern, Personalausweisnummern oder Sozialversicherungsnummern) ersetzt, verschlüsselt oder pseudonymisiert werden, müssen diese Transformationen über alle betroffenen Tabellen hinweg konsistent erfolgen. Andernfalls würden Fremdschlüsselbeziehungen "brechen" ? also etwa eine Bestelltabelle auf einen nicht mehr existierenden oder anders maskierten Kundeneintrag verweisen. Ein Beispiel:

  • In Tabelle A (Kunden) steht: Kundennr. `123` ? Name `Müller`

  • In Tabelle B (Bestellungen): Kundennr. `123` ? Bestellung `#A9`

  • Wird nun `123` maskiert, muss in beiden Tabellen derselbe Ersatzwert generiert werden, z.?B. `KX54PZ`.

Referenzielle Integrität bei der Maskierung heißt, dass die Beziehungslogik der Originaldaten auch nach der Anonymisierung erhalten bleibt ? ein entscheidender Aspekt für Testdaten, Migrationen oder Datenanalysen.

Auf diese Weise lassen sich etwa Kunden- oder Sozialversicherungsnummern einheitlich pseudonymisieren, ohne Datenbanken zu ?brechen?. Weitere wichtige Eigenschaften der Datenmaskierung in Voracity sind Auditierung und Compliance-Unterstützung. Die Anwendungen protokollieren, welche Maskierungsregeln angewendet wurden, um Revisionspflichten nachzuweisen.

Datenmaskierung in der Praxis: Aufgaben, Methoden und Umsetzung

In diesem Abschnitt geben wir einen Einblick in die Aufgaben und die typische Vorgehensweise bei der Datenmaskierung. Zum Einsatz kommt hier das Tool IRI FieldShield, typischerweise über die IRI Workbench (Eclipse-basierte Entwicklungsumgebung). Die grafische Benutzeroberfläche ermöglicht es Anwendern, sensible Felder in strukturierten Datenquellen visuell zu identifizieren und gezielt zu transformieren. Über Assistenten und Kontextmenüs lassen sich Maskierungsregeln wie Verschlüsselung, Hashing, Tokenisierung oder Pseudonymisierung feldspezifisch konfigurieren ? ohne dass tiefgreifende Programmierkenntnisse erforderlich sind. Besonders komfortabel ist die automatische Erkennung von personenbezogenen Datenfeldern (z.?B. Namen, Adressen, Kontonummern), die durch regelbasierte Klassifikatoren erkannt und markiert werden. Typische Maskierungsfunktionen sind beispielsweise:

  • Format-erhaltende Verschlüsselung: Verschlüsselung unter Beibehaltung des Originalformats, beispielsweise: DE8937040044... ? FE3729044423?

  • Tokenisierung: ersetzt Werte durch eindeutige, nicht rückführbare Tokens, beispielsweise: 123456 ? KX9FZP

  • Pseudonymisierung: personenbezogene Daten durch realitätsnahe Alternativen ersetzen, beispielsweise: Max Mustermann ? Lukas Becker

  • Maskierung (Teilstring): teilweise Schwärzung sensibler Daten, beispielsweise: Musterstraße 8 ? *****straße 8

  • Hashing (SHA 256 etc..): irreversible Umwandlung von Werten, beispielsweise: 123456 ? 2c1743a...

  • Zufallswert-Ersetzung: Füllung mit fiktiven, nicht realen, aber Format-kompatiblen Werten, beispielsweise: Anna ? Claudia oder 1990-03-02 ? 1979-08-19

  • Konsistenzwahrung: gleiche Eingabewerte ergeben über alle Tabellen hinweg identische Ausgaben, beispielsweise: 123456 ? immer XK23M9

Die erstellten Maskierungsjobs werden als wiederverwendbare Scripts gespeichert und lassen sich direkt aus der Workbench heraus ausführen oder in automatisierte Workflows integrieren.

Ergänzend bietet FieldShield ein Java- und .NET-SDK, über die sich Maskierungsfunktionen in eigene Anwendungen, Microservices oder Middleware einbinden lassen. So lässt sich die Datenmaskierung sowohl manuell über die GUI als auch vollautomatisiert im Rahmen von ETL-Prozessen (ETL = Extract, Transform, Load) oder CI/CD Pipelines realisieren.

Rechtliche Anforderungen an KI-Projekte nach DSGVO: Datenschutz, Einwilligung und Anonymisierung

In der EU regelt die DSGVO den Umgang mit personenbezogenen Daten sehr streng. Für KI-Projekte bedeutet das: Privacy by Design und Privacy by Default. Bereits im Design muss sichergestellt werden, dass möglichst wenig persönliche Informationen verarbeitet werden. Pseudonymisierte Daten gelten weiterhin als personenbezogen ? nur echte Anonymisierung hebt die Datenschutzpflichten auf. Das Bundes-Datenschutzgesetz und die DSGVO verlangen im Entwicklungsprozess eine ausdrückliche Rechtsgrundlage (z.B. Einwilligung oder Vertrag) für jede Datenverwendung.

Besonders bei Softwareentwicklung und Tests unterstreicht die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI)[4], dass hier keine Sonderregeln gelten: Nach Art.25 DSGVO muss die Verarbeitung so gestaltet sein, "dass in der Regel keine oder weniger personenbezogene Daten verarbeitet werden, als bei der Verarbeitung im produktiven Betrieb". Anders ausgedrückt: DevOps-Teams sollen grundsätzlich nur anonymisierte oder entpersonalisierte Daten verwenden. Sämtliche Datenschutzprinzipien (Zweckbindung, Datenminimierung, Speicherbegrenzung etc.) bleiben vollumfänglich anzuwenden. Daher gehört zur Praxis: Identifizieren Sie stets, ob Daten anonymisiert werden können; halten Sie Audit Logs über die Datenherkunft; sichern Sie Testdaten verschlüsselt; und begrenzen Sie Zugriffe auf die Daten. Nur so erfüllen KI-Projekte nicht nur technische, sondern auch rechtliche Vorgaben. Datenschutzbehörden betonen, dass bei Testdaten stets die datenschutzfreundlichste Variante gewählt werden muss. Laut BfDI gilt folgende Prüfreihenfolge: Zuerst soll geprüft werden, ob Tests mit anonymen Daten (vollständig ohne Personenbezug) durchführbar sind. Ist dies nicht möglich, kommen pseudonymisierte Daten zum Einsatz. Nur wenn weder anonymisierte noch pseudonymisierte Daten praktikabel sind, darf im Ausnahmefall mit unveränderten Personendaten gearbeitet werden [4]. In der Praxis heißt das: Es sollten möglichst immer synthetische oder entpersonalisierte Testdaten verwendet werden. 

Als Best Practice empfiehlt sich außerdem ein Testdatenkatalog: Teams definieren einmalig die Felder, die im Test obfuskiert werden müssen, und halten fest, welche Datenaustauschformate (CSV, JSON etc.) verwendet werden. Automatisierte Pipelines erzeugen bei Bedarf Testsets nach gleichem Schema. Durch solche standardisierten Testdatenprozesse lassen sich iterativ CI/CD Pipelines aufbauen, in denen auch automatisiertes Testen datenschutzkonform möglich ist. Eine sorgfältige Verwaltung der Testdaten (Versionierung, Verschlüsselung der Testdatenbank) rundet das Management ab.

Fehlerquellen und Best Practices in der Datenaufbereitung

Unvollständige oder inkonsistente Datensätze verursachen falsche KI-Ergebnisse ("Garbage in, Garbage out"). So führt unzureichende Bereinigung zwangsläufig zu fehlerhaften Modellen und Entscheidungen. Auch scheinbar harmlose Änderungen können kritisch sein: Grobe Anonymisierungsverfahren, die wesentliche Datenpunkte entfernen, schränken die Nützlichkeit der Daten stark ein. Fehlerquellen können entstehen durch Tippfehler, fehlende Attribute, verzögerte Aktualisierungen oder unbemerkte Formatänderungen. Veraltete Metadaten (Dark Data) verstecken häufig Informationen, die in Analysen fehlen. Zudem bergen manuelle Schritte oder unbeachtete Transformationen das Risiko, dass Daten nicht mehr reproduzierbar sind.

Um diese Fehler zu vermeiden, haben sich einige Best Practices etabliert: Zunächst braucht es einen klaren Plan und definierte Ziele für die Datenpflege. Regelmäßige Reviews und kontinuierliche Datenpflege (Monitoring) verhindern, dass inkonsistente Daten ins System gelangen. Automatisierte Cleansing Tools erkennen typische Probleme wie Duplikate oder ungültige Werte und beheben sie routinemäßig. Dabei ist die Pflege von Datenprofilen hilfreich: Analysetools wie die Profilierungsfunktionen in Voracity erfassen statistische Kennzahlen (Min/Max, Null-Anteil usw.) und geben Hinweise bei Ausreißern.

Wichtig ist zudem, die referenzielle Integrität während der Transformation zu wahren (siehe oben). Das vermeidet Verletzungen von Verknüpfungen in Datenschemata. Abschließend sind umfassende Dokumentation und Transparenz essenziell, d.h. alle Datenqualitätsregeln, Anonymisierungsverfahren und Datenflüsse sollten dokumentiert und versioniert werden. Unternehmen profitieren, wenn sie Data Governance Standards implementieren ? damit alle Beteiligten (Entwickler, Data Scientists, Datenschutzbeauftragte) den Zustand der Daten kennen und kontrollieren können.

Fazit

Daten, die sowohl "sauber" als auch anonymisiert sind, bilden den entscheidenden Erfolgsfaktor für KI-Projekte. Nur wer hohen Wert auf Datenqualität legt, kann ihre Potenziale voll ausschöpfen. Der Einsatz von KI in der Datenvorbereitung ermöglicht es, aufwendige Routineaufgaben zu automatisieren ? sodass Entwickler und Data Scientists sich vermehrt auf Analyse, Interpretation und strategische Fragestellungen konzentrieren können. Unternehmen, die schon zu Beginn eines Projekts Data Governance, Datenschutz und Datenpflege ernst nehmen, können ihre KI-Modelle effizienter entwickeln und zugleich gesetzliche Vorgaben einhalten. Kurz: Datenschutz und Datenqualität sind keine Hindernisse, sondern ermöglichen genau die vertrauenswürdigen und leistungsfähigen Daten, auf denen erfolgreiche KI-Initiativen aufbauen.

Counter

Blogverzeichnis - Blog Verzeichnis bloggerei.de Blog Top Liste - by TopBlogs.de