Differenzieller Datenschutz soll Datensammlungen ungefährlicher machen

Obwohl sie oft ziemlich komplexe Algorithmen verwendet, ist das Ziel der differenzierten Privatsphäre ziemlich einfach: Es soll sichergestellt werden, dass Personen, deren Daten gesammelt werden, so viel Privatsphäre haben, wie wenn die Daten nie aufgezeichnet worden wären. Sie sollten nie in der Lage sein, jemanden zu identifizieren, nur indem Sie sich eine Reihe von gespeicherten Informationen über ihn ansehen.

Wie der differenzielle Datenschutz funktioniert

Da Daten über uns in einem noch nie dagewesenen Tempo gesammelt werden und die Menschen sich dabei unwohl fühlen, beginnt die Vorstellung, dass Ihre Privatsphäre mathematisch bewiesen werden kann, ziemlich gut auszusehen. Unternehmen wie Microsoft, Google, Apple, Facebook und Uber haben sie entweder in irgendeiner Form implementiert oder prüfen ihre Möglichkeiten, aber schon bevor sich die große Technik dafür interessiert hat, wurde sie für Dinge wie sensible Forschungsdaten, medizinische Aufzeichnungen und sogar Teile der US-Zählung verwendet.

Dies geschieht, indem sie Rauschen hinzufügen, entweder zu den gespeicherten Daten selbst oder zu den Ergebnissen, die zurückgegeben werden, wenn jemand sie abfragt - sie bringen einzelne Datenstücke durcheinander, behalten aber die Gesamtform bei. "Rauschen" ist im Wesentlichen eine Unregelmäßigkeit oder unerklärliche Variabilität der Daten, und das Ziel ist es, Rauschen in einzelne Datenpunkte einzufügen, während die Gesamtmaße wie Mittelwert, Median, Modus und Standardabweichung nahe an der Stelle bleiben, wo sie vorher waren.

Einfacher differenzieller Datenschutz

Stellen wir uns vor, Sie wurden für die Teilnahme an einer bahnbrechenden sozialwissenschaftlichen Studie ausgewählt. Doch der Haken an der Sache ist, dass einige der Fragen für Sie möglicherweise peinlich, belastend oder anderweitig unangenehm sein werden. Sagen wir einfach, dass Sie es vorziehen würden, wenn niemand Ihren Namen neben einem Häkchen in der Spalte mit der Aufschrift "Tatsächlich mochte ich die letzte Staffel von Game of Thrones" sehen würde.

Glücklicherweise haben die Forscher die Studie anonymisiert. Anstelle von Namen erhalten Sie eine Zufallszahl, aber selbst dann können die Leute Ihre Antworten verwenden und sie auf Sie eingrenzen.

Das ist ein Problem, das in der realen Welt schon oft aufgetreten ist, vielleicht am bekanntesten, als die Forscher nicht nur Netflix-Benutzer identifizieren, sondern sogar einige ihrer politischen Präferenzen herausfinden konnten. Aber was wäre, wenn wir diese Daten sowie unsere Umfrage so manipulieren könnten, dass niemand, der die Ergebnisse liest, sicher wissen könnte, was die einzelnen Personen gesagt haben?

Zufällige Verfälschung

Hier ist eine Technik, mit der wir sowohl Ihre Privatsphäre wahren als auch Ergebnisse erzielen können, die insgesamt so aussehen, als ob alle die Wahrheit gesagt hätten:

  1. Wir werden Ihnen eine Ja/Nein-Frage stellen (Hat Ihnen die letzte Saison des Game of Thrones gefallen?). Sie werfen eine Münze.
  2. Wenn die Münze Kopf ist, werfen Sie die Münze erneut. (Es ist egal, was Sie beim zweiten Mal erhalten.) Beantworten Sie die Frage ehrlich. ("Ja.")
  3. Wenn es Zahl ist, werfen Sie die Münze noch einmal. Wenn es Kopf ist, sagen Sie "Ja". Wenn es Zahl ist, sagen Sie "Nein".

Wir werden nicht auf die Münze schauen, also werden wir nicht wissen, ob sie Ihnen gesagt hat, dass Sie lügen sollen oder nicht. Alles, was wir wissen, ist, dass Sie eine 50%ige Chance hatten, die Wahrheit zu sagen, und eine 50%ige Chance, "Ja" oder "Nein" zu sagen.

Ihre Antwort wird dann neben Ihrem Namen oder Ihrer ID-Nummer aufgezeichnet, aber Sie haben jetzt eine plausible Bestreitbarkeit. Wenn Ihnen jemand vorwirft, dass Sie die letzte Saison des Thronspiels genossen haben, haben Sie eine Verteidigung, die durch die Gesetze der Wahrscheinlichkeit unterstützt wird: Der Münzwurf hat Sie dazu gebracht, es zu sagen.

Die tatsächlichen Algorithmen, die die meisten Technologieunternehmen für den differenzierten Datenschutz verwenden, sind viel komplexer als diese (zwei Beispiele unten), aber das Prinzip ist dasselbe. Indem sie unklar machen, ob jede Antwort tatsächlich gültig ist oder nicht, oder sogar die Antworten nach dem Zufallsprinzip ändern, können diese Algorithmen sicherstellen, dass unabhängig davon, wie viele Anfragen jemand an die Datenbank sendet, er niemanden konkret identifizieren kann.

Nicht alle Datenbanken behandeln dies jedoch auf die gleiche Weise. Einige wenden die Algorithmen nur an, wenn die Daten abgefragt werden, d.h. die Daten selbst werden noch immer irgendwo in ihrer ursprünglichen Form gespeichert. Dies ist natürlich nicht das ideale Szenario für den Datenschutz, aber die Anwendung des differenzierten Datenschutzes zu jedem Zeitpunkt ist besser, als die Rohdaten einfach in die Welt hinauszuschicken.

Wie wird es verwendet?

Apple

Apple verwendet den differenzierten Datenschutz, um individuelle Benutzerdaten zu maskieren, bevor sie überhaupt an sie übermittelt werden. Dabei wird die Logik verwendet, dass, wenn viele Personen ihre Daten übermitteln, das Rauschen keine signifikanten Auswirkungen auf die Gesamtdaten hat. Sie verwenden eine Technik namens "Count Mean Sketch", was im Wesentlichen bedeutet, dass die Informationen kodiert werden, zufällige Teile geändert werden und dann die "ungenaue" Version dekodiert und zur Analyse an Apple gesendet wird. Sie informiert über Dinge wie ihre Eingabevorschläge, Nachschlagehinweise und sogar die Emoticons, die auftauchen, wenn Sie ein Wort eingeben.

Google

Googles erster großer Vorstoß in den differenziellen Datenschutz war RAPPOR (Randomized Aggregatable Privacy-Preserving Ordinal Response), bei dem die Daten durch einen Filter laufen und nach dem Zufallsprinzip Teile davon mit einer Version der oben beschriebenen Münzwurfmethode verändert werden. Sie haben ihn zunächst dazu verwendet, Daten zu Sicherheitsfragen im Chrome-Browser zu sammeln, und haben seitdem den differenzierten Datenschutz auch anderswo angewandt, z.B. um herauszufinden, wie viel ein Unternehmen zu einem bestimmten Zeitpunkt beschäftigt ist, ohne die Aktivitäten einzelner Benutzer zu enthüllen. Sie haben dieses Projekt tatsächlich offengelegt, so dass möglicherweise weitere Anwendungen auf der Grundlage ihrer Arbeit entstehen werden.

Warum werden nicht alle Daten auf diese Weise behandelt?

Der differenzierte Datenschutz ist derzeit etwas komplex zu implementieren und bringt einen Kompromiss in Bezug auf die Genauigkeit mit sich, der sich unter Umständen negativ auf kritische Daten auswirken kann. Ein Algorithmus zum maschinellen Lernen, der privatisierte Daten für sensible medizinische Forschung verwendet, könnte zum Beispiel Fehler machen, die groß genug sind, um Menschen zu töten. Dennoch wird er in der technischen Welt bereits wirklich eingesetzt, und angesichts des zunehmenden öffentlichen Bewusstseins für den Datenschutz besteht eine gute Chance, dass der mathematisch belegbare Datenschutz in Zukunft als Verkaufsargument angepriesen wird.