Machine Unlearning: Die Lösung für das Recht auf Vergessenwerden?

5. Februar 2025

Machine Unlearning: Die Lösung für das Recht auf Vergessenwerden?Das Recht auf Vergessenwerden, verankert in der DSGVO, stellt im Zeitalter der Künstlichen Intelligenz (KI) eine zentrale Herausforderung dar. Besonders die Frage, wie personenbezogene Daten aus trainierten KI-Modellen effektiv entfernt werden können, rückt in den Fokus. Machine Unlearning, ein Ansatz zur gezielten Löschung von Daten aus KI-Modellen, erscheint vielversprechend – doch wie realistisch ist diese Technologie?

Das Recht auf Vergessenwerden

Artikel 17 der DSGVO gewährt Betroffenen das Recht, die unverzügliche Löschung ihrer personenbezogenen Daten von Verantwortlichen zu verlangen. Ausnahmen gelten, wenn eine Interessenabwägung zeigt, dass das Recht auf freie Meinungsäußerung, Informationsfreiheit oder Pressefreiheit überwiegt. Der BGH und der EuGH haben diesen Anspruch 2024 in zwei Urteilen im Zusammenhang der auf Löschung von Suchmaschineneinträgen konkretisiert.

Die Anwendung dieses Rechts auf KI-Modelle gestaltet sich jedoch schwierig. Anders als Datenbanken speichern Sprachmodelle (Large-Language-Models) keine Rohdaten, sondern nutzen abstrakte Muster und Verallgemeinerungen. Hier setzt Machine Unlearning an – ein Ansatz, der die gezielte Entfernung von Trainingsdaten ermöglicht. Doch ein aktuelles Forschungspapier unter der Leitung von A. Feder Cooper, Machine Unlearning Doesn’t Do What You Think, beleuchtet die Diskrepanz zwischen den technischen Möglichkeiten und den hohen Erwartungen an diese Technologie.

Was ist Machine Unlearning?

Machine Unlearning (Maschinelles Verlernen) beschreibt die gezielte Entfernung oder Unterdrückung des Einflusses von Trainingsdaten auf KI-Modelle, ohne diese komplett neu trainieren zu müssen. Es verfolgt zwei Hauptansätze: Die Entfernung von Daten, bei der deren Einfluss vollständig aus den Modellparametern eliminiert wird, und die Unterdrückung von Inhalten, die verhindert, dass unerwünschte Informationen in den Ausgaben eines Modells erscheinen.

Entfernung vs. Unterdrückung

Während die Entfernung von Trainingsdaten darauf abzielt, deren Einfluss aus einem Modell zu löschen, konzentriert sich die Unterdrückung darauf, die Ausgaben des Modells gezielt zu kontrollieren. Besonders bei generativen KI-Modellen bleibt die Unterdrückung relevant, da diese trotz gelöschter Trainingsdaten ähnliche Inhalte generieren können. Hierfür sind Mechanismen nötig, die unerwünschte Inhalte aktiv unterdrücken, um das Modellverhalten zu steuern.

Grenzen des maschinellen Vergessens

Es zeigt sich jedoch: Entfernung und Unterdrückung sind keine Ersatzlösungen füreinander. Die Entfernung garantiert nicht, dass das Modell keine ähnlichen Inhalte generiert, da es latente Muster nutzt. Umgekehrt sichert die Unterdrückung nicht, dass die zugrunde liegenden Daten tatsächlich aus dem Modell entfernt wurden. Das Forschungsteam betont daher, dass Machine Unlearning keine allgemeingültige Lösung für die Einhaltung der DSGVO und des Rechts auf Vergessenwerden ist. Modelle können implizites Wissen aus den „vergessenen“ Daten beibehalten, selbst wenn traditionelle Metriken auf ein erfolgreiches Verlernen hindeuten.

Fazit

Machine Unlearning ist ein vielversprechender, aber begrenzter Ansatz, um den Anforderungen des Rechts auf Vergessenwerden zu begegnen. Unternehmen sollten sich der Risiken bewusst sein, die mit der Verwendung personenbezogener Daten für das Training von KI-Modellen verbunden sind. Maschinelles Verlernen kann aber als Teil einer umfassenden Datenschutzstrategie eingesetzt werden. Ergänzende Maßnahmen wie Anonymisierung, Pseudonymisierung und Datenschutz-Folgenabschätzungen sind dabei unverzichtbar. Nur durch die Kombination technischer und organisatorischer Maßnahmen sowie bestenfalls Privacy-by-Design ermöglichen DSGVO-Konformität. Auch die politische und rechtliche Regulierung sollte alternative Ansätze zum Schutz der Privatsphäre erforschen, anstatt sich allein auf Verlernmechanismen oder das Löschen von KI-Modellen zu verlassen.