Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

Inhaltsverzeichnis • Vorstellung der Firma Inverso • Datenschutz: Warum? • Techniken zum Schutz von Daten • Erzeugen von Ersatzdaten (klassisch) • Erzeugen von Ersatzdaten (durch Anonymisierung) • Grad der Anonymisierung und Stufen der Sicherheit

Datenschutz: Warum? Zwei Grundanliegen des Datenschutzes: 1. Verantwortungsvoller Umgang mit sensiblen Daten Wahrung von Geheimhaltungspflichten Schutz sensibler Daten (Bsp.: Kontoverbindungsdaten, Kundendaten) 2. Schutz der Persönlichkeitsrechte Jeder hat das Recht auf die freie Entfaltung seiner Persönlichkeit […] Art. 2 Abs. 1 Grundgesetz Erzwungen durch: Bundesdatenschutzgetz, Verträge und innerbetriebliche Regelungen

Techniken zum Schutz sensibler Daten Klassisch: Überwachen des Umgangs mit kritischen Daten Strafen Einschränken der Zugriffe auf kritische Daten Oder: Erzeugen von unkritischen Ersatzdaten

Grundidee der Ersatzdaten • Originaldaten sind (unter anderem) personenbezogene und damit datenschutzrechtlich kritische Daten • Die Daten sind eine Abbildung von verarbeitungsrelevanten und Personen identifizierenden Informationen • Entscheidende Annahme: Merkmale der verarbeitungsrelevanten Informationen lassen sich hinreichend klar von den Merkmalen der identifizierenden Informationen trennen!

Gängiges Vorgehen zur Erzeugung von Entwicklungsdaten Reduktion auf Verarbeitungs- relevante Merkmale

Anonymisierung als weiterer Lösungsansatz Angestrebte Verbesserung • Originaldaten sollen größeren Einfluss bekommen • Testdaten sollen einfacher generierbar sein • Testdaten sollen Konzeptionsmängel früher aufzeigen Lösungsansatz Reduktion um identifizierende Merkmale

Kleines Beispiel Grundidee bisher: • Reduktion der Daten auf die verarbeitungsrelevanten Eigenschaften • Beispiel: graphische Abbildung der Verteilung von Benotungen Grundidee Anonymisierung: • Reduktion der Daten auf die benötigten Informationen (Teil des Konzeptentwurfs) • Reduktion der Daten um die kritischen Informationen

Herstellung des Personenbezugs Primäre Identifikationsmerkmale • Namen, Personalausweisnummer, Vertragsnummern, Mitgliedsnummern Sekundäre Identifikationsmerkmale • Klassiker: Geschlecht, Wohnort, Geburtsdatum Hervorstechende Merkmalswerte • Beispiele: Maximal-, Minimalwerte, seltene Werte, …

Methoden der Anonymisierung (strukturverändernd) Generalisieren / Verringern der Auflösung

Methoden der Anonymisierung (wertverändernd) Überlagern Imputation Mikro- aggregation Überschreiben

Methoden der Anonymisierung (werterhaltend) Zufallsvertauschung Klonen

Kombinierte Methode: k-Anonymität Grundprinzip: Widersprüchliche Zuordnungen Mengenwachstum: Mögliche Lösung: • Reduktion der Originalmenge auf repräsentative Teilmenge • Schwierigkeiten: Bestimmung der repräsentativen Eigenschaften, unkontrollierter Verlust unvermuteter Eigenschaften

Beispiele unzureichender Anonymisierung Anonymisierte Krankenversicherungsdaten herausgegeben durch die GIC (Group Insurance Commission) (2000) • Dr. Latanya Sweeney konnte innerhalb der Datensammlung den Gouverneur von Massachusetts identifizieren und dessen Krankendaten bestimmten und ihm zuschicken • Später konnte sie zeigen, dass sich 87% der Amerikaner anhand der Merkmale Geburtsdatum, Postleitzahl des Wohnortes und Geschlecht eindeutig identifizieren lassen Veröffentlichung der anonymisierten Kundendaten des Videoverleihers Netflix (2006) • Wissenschaftler konnten zeigen, dass anhand einiger weniger Kenntnisse über Vorlieben bestimmter Personen, sich diese in der anonymen Datensammlung leicht identifizieren ließen

Allgemeine Problematik beim Einsatz anonymisierender Methoden Anonymität: • Robustheit der Anonymisierung / Sicherheit der Anonymität • Bestimmung der Identifikatoren • Wahl geeigneter Methoden Wert der anonymen Daten: • Wert der Originaldaten beruht auf möglicher Weise unbeachteten, aber verarbeitungsrelevanten Eigenschaften Resultierendes Problem: • Grauzone Bestimmung der Identifikatoren versus Grauzone Bestimmung der verarbeitungsrelevanten Eigenschaften • Priorisieren der Anonymität führt mit hoher Wahrscheinlichkeit zum Verlust unbeachteter Eigenschaften

Abgeleitetes Vorgehen Grundsätzliche Zielstellung: Der Schutz der sensiblen Daten vor Missbrauch muss gewährleistet werden! Lösungsidee: Grad der Anonymisierung • Zunehmender Sicherheitsgewinn durch schrittweises, aber robustes Anonymisieren • Motivation des Angreifers versus Aufwand für Informationsgewinn und Risiko von Bestrafung • Grundidee schrittweises Bearbeiten von Identifikationsmerkmalen senkt schrittweise den Wert der Daten für Angreifer, bzw. steigert dessen Kosten für die Verwertung der Daten

Sicherheitsstufenmodell Erweitern des bisherigen zweistufigen Modells auf ein fünfstufiges Modell

Bereitstellung von Ersatzdaten • Bestimmen der verarbeitungsrelevanten Eigenschaften • Bestimmen der konkreten Ausprägungen dieser Eigenschaften • Schrittweises Anonymisieren der Identifikationsmerkmale unter Erhalt der zuvor bestimmten Eigenschaften • Verteilen der Daten auf die Systeme der jeweiligen Ebenen

Auslesen der Eigenschaften und Anonymisierung in Stufen

Probleme und Schwierigkeiten Komplexität der Datenstruktur • Abhängigkeiten der Datensätze untereinander • Inhaltlich • Zeitlich • Abhängigkeiten der Merkmale innerhalb eines Datensatzes • Bsp.: Familienstand: • ledig vs. verheiratet (Seit? Angaben zum Ehepartner?) • Umgang mit Primärschlüsseln • Kritisch bei Neusortierung • Kritisch bei nicht stetigen, nicht nummerischen Werten Aber vor Allem: Bestimmung der identifizierenden Eigenschaften!

Vorteile Anpassbarkeit • Auf Infrastrukturen (Kompatibilität zu bestehenden Infrastrukturen) • Anforderungen an die Daten • Aufwand Wiederverwendbarkeit • Je gröber die Methoden, desto besser lassen sich diese wiederverwenden Flexibilität • Austauschbarkeit von Methoden • Ausblenden von Schichten Erweiterbarkeit • Neue Methoden • Neue Sicherheitsschichten Step by Step • Umsetzung als grobe Lösung, dann Verfeinerung zu präziser Lösung Automatisierung • Bereitstellung großer Mengen an Daten

Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

Anonymisierung personenbezogener Daten im Kontext einer verteilten Softwareentwicklung

Presentation Transcript

Krisenmanagement im schulischen Kontext

Seminar L sungsorientierung im klinischen Kontext

Interkulturalität im Kontext der Lehrer/ innenausbildung

Professionalisierung der Ergotherapie im internationalen Kontext

E-lib.ch im europäischen Kontext

Kompetenzen im Kontext KiK

Perspektiven Technischer Bildung im internationalen Kontext –

Anonymisierung

Die Erde im Kontext des Sonnensystems

Datenschutz =Schutz personenbezogener Daten lt. BDSG vor ... Missbrauch

Psychiatrische Krankheiten im transkulturellen Kontext

Medienerziehung im schulischen Kontext

Medienerziehung im schulischen Kontext

Archivierung von Daten aus einer astrophysikalischen Messreihe

Frauen im Kontext Krieg und Frieden

Softwareentwicklung im Team

Sprach- und Kulturmittlung im europäischen Kontext

Katastrophenvorsorge im Kontext des Klimawandels

Integrierte Versorgung im Kontext Gemeindepsychiatrischer Verbünde

Kompetenzbasierte Berufsbildung im kulturellen Kontext

Tourismus im Regionalen Kontext

Akademisches Prüfen im Kontext forschungsorientierter Lehre