Personenbezug in LLMs – Erkenntnisse aus dem ULD-Tätigkeitsbericht

13. Mai 2025

ULD: Personenbezug in LLMsKünstliche Intelligenz (KI) und insbesondere Large Language Models (LLMs) stellen neue Herausforderungen für den Datenschutz. Der Landesbeauftragte für Datenschutz Schleswig-Holstein (ULD) thematisiert in seinem aktuellen Tätigkeitsbericht die zentrale Frage, ob LLMs personenbezogene Daten verarbeiten und somit die DSGVO anwendbar ist. Die Erkenntnisse ergänzen die Diskussionspapiere der des HmbBfDI, des LfDI BW sowie auf europäischer Ebene des Europäischen Datenschutzausschuss (EDSA).

Die Perspektive des ULD

Der ULD hat sich im Rahmen seiner deutschlandweiten und internationalen Zusammenarbeit der Datenschutzbeauftragten intensiv mit der datenschutzrechtlichen Einordnung von LLMs befasst. Die Kernfrage dabei ist, ob in trainierten LLMs personenbezogene Daten im Sinne der DSGVO verbleiben und somit ein Personenbezug gegeben ist. Nach eingehender Analyse vertritt der ULD die Position, dass ein Personenbezug in LLMs jedenfalls nicht pauschal ausgeschlossen werden kann. Die Begründung: Bei Modellen, die mit personenbezogenen Daten trainiert wurden, sei nach aktuellem Stand der Wissenschaft davon auszugehen, dass Informationen darüber im trainierten Modell verbleiben. Dies liege an der komplexen Informationsrepräsentation in diesen Systemen sowie den nachgewiesenen Möglichkeiten zur Extraktion von Trainingsdaten.

Herausforderungen für Verantwortliche

Zusätzliche Schutzmaßnahmen wie Alignment-Techniken (die ein KI-Modell an Regeln anpassen) können nach bisherigen Erkenntnissen nicht zuverlässig verhindern, dass personenbezogene Daten nach dem Training verarbeitet oder ausgegeben werden. Der ULD betont daher, dass bei der Bewertung von LLMs nicht nur das Modell selbst betrachtet werden darf, sondern das gesamte KI-System bzw. die KI-Anwendung, in die das Modell eingebettet ist. Filter und andere Maßnahmen auf Systemebene können helfen, datenschutzrechtliche Risiken zu verringern und einen datenschutzkonformen Einsatz zu ermöglichen. Eine besondere Herausforderung für Verantwortliche ist dabei die erforderliche Risikoeinschätzung, da wesentliche Informationen über Trainingsdaten und Modellprozesse oft nur den Anbietern vorliegen. Der Verantwortliche, der das KI-System einsetzt, bleibt jedoch datenschutzrechtlich verantwortlich.

Blickwinkel aus Hamburg und Baden-Württemberg

Die Datenschutzaufsichtsbehörden Hamburg (HmbBfDI) und Baden-Württemberg (LfDI BW) haben die Frage des Personenbezugs bei LLMs diskutiert:

Laut HmbBfDI stellt die bloße Speicherung eines LLM keine Verarbeitung i.S.d. DSGVO dar, da das Modell selbst keine personenbezogenen Daten enthält. Betroffenenrechte beziehen sich daher nur auf die Nutzungsergebnisse. Der Personenbezug gehe durch die Tokenisierung verloren, da Daten in abstrakte numerische Werte umgewandelt werden. Der LfDI BW teilt die Einschätzung grundsätzlich, betont aber, dass ein Personenbezug durch Interaktionen entstehen kann – etwa bei schlecht anonymisierten Trainingsdaten oder „Model Attacks“, mit denen personenbezogene Daten generiert werden. In solchen Fällen könnte das Modell selbst personenbezogen sein. Zudem müsse stets das gesamte KI-System betrachtet werden, nicht nur das Modell.

Beide Behörden unterstreichen, dass die isolierte Betrachtung eines LLMs unzureichend ist. Ein Personenbezug kann aus Trainingsdaten, Nutzereingaben und möglichen Re-Identifikationsrisiken entstehen. Der LfDI BW verweist außerdem auf die Bedeutung des berechtigten Interesses (Art. 6 Abs. 1 lit. f DSGVO) als mögliche Rechtsgrundlage, betont jedoch die Notwendigkeit einer einzelfallabhängigen Abwägung.

Europäische Einordnung durch den EDSA

Die EDSA-Stellungnahme „Opinion 28/2024“ (Dezember 2024) bestätigt die Einschätzungen der Aufsichtsbehörden. Die Anonymität von KI-Modellen muss danach einzelfallbezogen geprüft werden. Es ist zu berücksichtigen, dass personenbezogene Daten durch Abfragen extrahiert oder Betroffene identifiziert werden könnten. Der EDSA betont, dass rechtswidrig verarbeitete Daten im Training auch den späteren Einsatz des Modells rechtlich belasten, falls keine wirksame Anonymisierung nachgewiesen wird. Dies stützt die Annahme des ULD, dass Informationen aus Trainingsdaten im Modell verbleiben und extrahierbar sein können. Dies unterstreicht die Notwendigkeit einer rechtskonformen Datenverarbeitung bereits während der Entwicklungsphase von KI-Modellen.

Fazit

Die Debatte um den Personenbezug in LLMs zeigt: Ein solcher Bezug kann im Kontext der Nutzung entstehen, auch wenn das Modell selbst keine personenbezogenen Daten speichert. Entscheidend sind Trainingsdaten, Nutzereingaben, die Verarbeitung im System und die Möglichkeit der Datenextraktion.

Unternehmen, die LLMs einsetzen oder entwickeln, müssen diese Risiken prüfen und wirksame technische und organisatorische Maßnahmen ergreifen – insbesondere eine wirksame Anonymisierung der Trainingsdaten und eine Risikobewertung der konkreten Anwendung. Die Stellungnahmen von EDSA, HmbBfDI, LfDI BW und ULD bieten wichtige Orientierung für eine datenschutzkonforme Umsetzung, erfordern aber auch eine fortlaufende Überprüfung angesichts der technischen Dynamik.