Wann verarbeiten Large Language Models personenbezogene Daten?
Mit der Frage, wann Large Language Models (LLM) personenbezogene Daten verarbeiten, hat sich der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit (HmbBfDI) kürzlich auseinandergesetzt. Dafür hat er am 15.07.2024 ein Diskussionspapier veröffentlicht. Ziel des Papiers ist es, eine Debatte anzustoßen und Unternehmen sowie Behörden bei der Meisterung datenschutzrechtlicher Probleme im Zusammenhang mit LLM zu helfen.
Was sind Large Language Models?
Large Language Models (LLM), wie beispielsweise GPT-4o, sind KI-Modelle, die große Mengen an Textdaten verarbeiten und darauf basierend menschenähnliche Texte generieren können. Sie beruhen auf tiefen neuronalen Netzen und verwenden große Mengen an Textdaten, um Muster und Strukturen der Sprache zu erlernen. Diese Modelle sind häufig die Grundlage verschiedener Anwendung von KI-Systemen, zu denen auch Programme wie ChatGPT gehören. Bei der Unterscheidung zwischen KI-Modellen und KI-Systemen orientiert sich der HmbBfDI laut seiner Pressemitteilung an der neuen KI-Verordnung.
3 Thesen zum Personenbezug von LLM
Liegt ein Personenbezug beim Einsatz von LLM vor, müssen Verantwortliche die datenschutzrechtlichen Vorgaben beachten. Deshalb stellt der HmbBfDI in seinem Diskussionspapier drei grundlegende Thesen zu der Frage auf, wann LLM personenbezogene Daten verarbeitet.
Zunächst meint der HmbBfDI, dass die bloße Speicherung eines LLM keine Verarbeitung im Sinne der DSGVO darstellt, da keine Speicherung von personenbezogenen Daten stattfinde. Verarbeite ein auf einem LLM basierendes KI-System hingegen personenbezogene Daten, sei für das KI-System der Datenschutz zu beachten. Vor allem sei dies für den “Output“ solcher Anwendungen relevant.
Weiter führt er aus, dass sich die Betroffenenrechte der DSGVO nicht auf das LLM selbst beziehen können. Das liege daran, dass das Modell selbst keine personenbezogenen Daten speichere. Allerdings könnten sich Betroffenenrechte auf die jeweiligen Ergebnisse der KI-Systeme beziehen, die das LLM als Grundlage haben.
Im dritten Punkt erläutert der HmbBfDI, dass das Training von LLM datenschutzkonform ablaufen muss, wenn hierfür auch personenbezogenen Daten verwendet werden. Trotzdem führe ein datenschutzwidriges Training nicht dazu, dass die Verwendung dieses Modells in einem KI-System rechtswidrig wird.
Verlust des Personenbezugs durch Tokens
Laut dem HmbBfDI ist die sogenannte “Tokenisierung” Grund dafür, dass bei LLM häufig kein Personenbezug besteht. Bei der Einspeisung von personenbezogenen Daten in LLM findet nur eine Speicherung von „Tokens“ statt, die in kleinen Portionen als numerische Werte verarbeitet werden. So speichert man nur eine abstrakte mathematische Formel, die keine direkte Verbindung zum ursprünglichen Datum aufweist. Somit würden personenbezogene Daten ihre spezifischen personenbezogenen Charakteristiken verlieren.
Fazit
Das Diskussionspapier liefert wertvolle Einsichten in die technische Funktionsweise und datenschutzrechtliche Bewertung von LLM und deren Einsatz in KI-Systemen. Der HmbBfDI erklärt präzise, wann nach seiner Ansicht LLM personenbezogene Daten verarbeiten. Unternehmen und Behörden sollten die Thesen des Papiers bei der Implementierung und Nutzung von LLM-gestützten Systemen berücksichtigen, um den Anforderungen der DSGVO zu genügen. Hierbei unterstützen wir Sie als KI-Beauftragter.