EDPB zu Datenschutzrisiken und Risikominderung für LLMs
Der Europäische Datenschutzausschuss (EDPB) hat am 10. April 2025 einen Bericht veröffentlicht, der Datenschutzrisiken beim Einsatz von Large Language Models (LLMs) analysiert und konkrete Maßnahmen zur Risikominderung vorschlägt. Der Bericht richtet sich an Unternehmen, Datenschutzbeauftragte und KI-Entwickler, die LLMs einsetzen oder integrieren, und soll dabei helfen, regulatorische Vorgaben der DSGVO und der KI-Verordnung einzuhalten.
Datenschutz und LLMs: Ein wachsendes Spannungsfeld
Large Language Models (LLMs) – KI-Modelle, die auf riesigen Textmengen trainiert wurden, um Sprache zu verstehen und zu generieren – haben in den letzten Jahren ihren Weg aus der Forschung in die Unternehmenspraxis gefunden. Ob Chatbots, Textanalysen oder automatisierte Kommunikation: Die Einsatzmöglichkeiten sind vielfältig und wirtschaftlich attraktiv. Gleichzeitig werfen diese Systeme vor dem Hintergrund der Datenschutz-Grundverordnung (DSGVO) und der KI-Verordnung neue, komplexe Fragen auf: Wie werden personenbezogene Daten verarbeitet? Wie lassen sich Transparenz, Sicherheit und die Rechte Betroffener gewährleisten?
Der EDPB greift diese Problematik in seinem Bericht „AI Privacy Risks & Mitigations Large Language Models (LLMs)“ auf. Er wurde im Rahmen des Support Pool of Experts (SPE) Programms des EDPB auf Anfrage der kroatischen Datenschutzbehörde (DPA) erstellt. Der Bericht legt erstmals eine Methodik vor, um Datenschutzrisiken systematisch zu identifizieren, zu bewerten und durch geeignete Maßnahmen zu kontrollieren. Unternehmen und Datenschutzbeauftragte erhalten damit ein praxisnahes Werkzeug, um LLMs rechtskonform zu entwickeln, zu betreiben und einzusetzen – und das in einem technologischen Umfeld, das regulatorischen Entwicklungen oft einen Schritt voraus ist.
Was sind Large Language Models?
Large Language Models (LLMs) sind Künstlicher Intelligenz Modelle, die darauf trainiert sind, menschenähnlichen Text zu verstehen und zu generieren. Sie basieren auf komplexen Architekturen wie dem Transformer-Modell und werden auf riesigen Datensätzen trainiert, um Muster, Kontext und Strukturen in der Sprache zu lernen. Dies ermöglicht es ihnen, eine Vielzahl von sprachbezogenen Aufgaben durchzuführen. Ihr Entwicklungsprozess durchläuft mehrere Phasen, von der Sammlung und Vorverarbeitung von Trainingsdaten bis hin zum Training, Testen, der Bereitstellung und dem Betrieb, der Überwachung und schließlich der Außerbetriebnahme. Jede dieser Phasen kann potenzielle Datenschutzrisiken mit sich bringen.
Risikomanagement-Methodik für LLMs
Zentrales Element des Berichts ist die vorgeschlagene Methodik zum Risikomanagement. Sie basiert auf einem iterativen Zyklus, der den gesamten Lebenszyklus eines LLM begleitet. Dieser Prozess umfasst vier Hauptschritte:
1. Risikobewertung (Risk Assessment)
In einem ersten Schritt werden potenzielle Risiken identifiziert. Dies kann durch die Analyse von Risikofaktoren geschehen, d. h. Bedingungen, die mit einer höheren Wahrscheinlichkeit unerwünschter Ergebnisse verbunden sind. Der Bericht schlägt vor, dabei rechtliche Grundlagen, etwa aus der DSGVO, ebenso einzubeziehen wie technische und organisatorische Aspekte. Risiken können entstehen, wenn sensible Daten verarbeitet, Daten großflächig gesammelt oder besondere Kategorien personenbezogener Daten betroffen sind.
Die Bewertung der Risiken erfolgt anhand von Eintrittswahrscheinlichkeit und Schwere des potenziellen Schadens. Hierfür bietet der Bericht Kriterien wie die Art der betroffenen Daten, die Anzahl der betroffenen Personen oder deren Schutzbedürftigkeit. Eine Risikomatrix unterstützt die Einordnung in Kategorien wie „niedrig“, „mittel“ oder „hoch“. Wichtig ist eine evidenzbasierte Einschätzung, die sowohl Test- und Monitoringdaten als auch Rückmeldungen von Nutzern berücksichtigt. Die Einbeziehung relevanter Stakeholder wird ausdrücklich empfohlen.
2. Risikokontrolle (Risk Control)
Basierend auf der Risikobewertung werden im zweiten Schritt Minderungsmaßnahmen entwickelt und implementiert, um die identifizierten Risiken zu. Diese können technisch, organisatorisch, prozessual oder vertraglich ausgestaltet sein. Eine Machbarkeitsanalyse hilft bei der Auswahl geeigneter Maßnahmen, wobei Kosten, Nutzen und Auswirkungen auf den Systemzweck abgewogen werden.
3. Bewertung des Restrisikos (Residual Risk Evaluation)
Nach Umsetzung der Minderungsmaßnahmen wird das verbleibende Risiko bewertet, um sicherzustellen, dass es innerhalb akzeptabler Grenzen liegt. Akzeptanzkriterien sind vorab festzulegen und zu dokumentieren.
4. Überprüfung & Überwachung (Review & Monitor)
Der Prozess des Risikomanagements muss kontinuierlich überprüft und die Systeme überwacht werden, um neue Risiken zu erkennen und die Wirksamkeit der Maßnahmen zu bewerten. Der Bericht empfiehlt ein dynamisches Risikoregister und die klare Zuweisung von Verantwortlichkeiten, um flexibel auf neue Risiken reagieren zu können.
Kein Ersatz, sondern Ergänzung: Bezug zu DSFA und FRIA
Die Methodik versteht sich nicht als Ersatz, sondern als Ergänzung zu den bestehenden Instrumenten der Datenschutz-Folgenabschätzung (DSFA, Art. 35 DSGVO) und der Prüfung der Auswirkungen auf Grundrechte (FRIA, Art. 27 KI-Gesetz). Sie soll insbesondere dort ansetzen, wo klassische Verfahren die spezifischen Risiken von LLMs nicht ausreichend abbilden. Unterstützt werden kann die Umsetzung durch sogenannte LLMOps- und LLMSecOps-Tools, die Workflows automatisieren, Risiken dokumentieren und die Governance stärken.
Datenschutzrisiken in LLM-Systemen
Der Bericht analysiert Datenschutzrisiken entlang des Datenflusses und für verschiedene LLM-Modelle (LLM as a Service, LLM ‘off-the-shelf’, Selbstentwickeltes LLM-System, Agentic LLM). Jedes Modell bringt spezifische Herausforderungen mit sich. Zu den besonders relevanten Gefahren zählen (nicht abschließend):
- Offenlegung sensibler Daten: Nutzer geben unbeabsichtigt personenbezogene Daten ein.
- Unbefugter Zugriff: Fehlende Zugangskontrollen gefährden die Sicherheit.
- Adversarielle Angriffe: Methoden wie Prompt Injection oder Data Poisoning können die Integrität des Modells untergraben.
- Mangelnde Transparenz: Nutzer verstehen nicht, wie ihre Daten verarbeitet oder gespeichert werden.
- Unzureichende Umsetzung der Betroffenenrechte: Schwierigkeiten bei Auskunft, Berichtigung oder Löschung.
- Unbeabsichtigte Datenprotokollierung: Speicherung von Nutzer-Inputs und Outputs, möglicherweise ohne Zustimmung oder mit sensiblen Daten.
- Fehler bei der Anonymisierung und Re-Identifizierungsrisiken: Unzureichende Techniken können zur Einbeziehung identifizierbarer Daten in Trainingsdatensätze führen. Ebenso kann aus generierten Outputs unbeabsichtigt Informationen abgeleitet werden, die mit Nutzern verknüpft werden können.
- Verstoß gegen Grundsätze wie Datenminimierung: Erhebung oder Verarbeitung unnötiger Daten.
- Mögliche negative Auswirkungen auf Grundrechte durch voreingenommene oder ungenaue Ausgaben: LLM-Outputs können voreingenommen (Bias) oder falsch sein (Halluzinationen), was zu Fehlinformationen oder unfairer Behandlung führen kann.
Praktische Minderungsmaßnahmen
Für die identifizierten Risiken schlägt der Bericht eine Vielzahl von praktischen Minderungsmaßnahmen vor, die sowohl für Provider (Anbieter, die das Modell entwickeln und anbieten) als auch für Deployer (Betreiber, die das System für Endnutzer implementieren und betreiben) relevant sind. Die Verantwortung hängt dabei vom Grad der Kontrolle über das LLM-System ab, oft liegt eine gemeinsame Verantwortung vor. Es wird in technische, organisatorische, prozessuale und vertragliche Maßnahmen unterschieden:
- Technische Maßnahmen: Implementierung klarer Benutzerhinweise und Eingabebeschränkungen, automatische Erkennung und Anonymisierung sensibler Informationen, Verschlüsselung von Inputs und Outputs, Zugangskontrollen und Protokollierung, Multi-Faktor-Authentifizierung (MFA), menschliche Überprüfung von Outputs, Verwendung vertrauenswürdiger und bereinigter Trainingsdaten, Einsatz von Privacy-Preserving Techniques wie Differential Privacy, unlearning-Techniken zur Löschung, Anonymisierung oder Pseudonymisierung von Daten wo möglich, Einsatz von Bedrohungsmodellen zur Bewertung von Re-Identifikationsrisiken.
- Organisatorische Maßnahmen: Klare und zugängliche Datenschutzrichtlinien, Datenaufbewahrungsrichtlinien, regelmäßige Überprüfung von Trainingsdaten und Fine-Tuning-Prozessen, Schulung von Mitarbeitern und Endnutzern über Risiken (z. B. Phishing), menschliche Aufsicht bei kritischen Entscheidungen.
- Prozessuale Maßnahmen: Minimierung der Datenprotokollierung, Implementierung von Mechanismen zur Gewährung von Betroffenenrechten (Auskunft, Berichtigung, Löschung, Widerspruch), Durchführung von Datenschutz-Folgenabschätzungen (DSFA) und Fundamental Rights Impact Assessments (FRIA), regelmäßige Audits und Überwachung.
- Vertragliche Maßnahmen: Klare Vereinbarungen mit Anbietern bezüglich Datenspeicherung und -verarbeitung, Vertragsklauseln, Data Processing Agreements.
Der Bericht betont dabei auch die Wichtigkeit der Transparenz gegenüber Nutzern. Die Information der Nutzer sollte über die gesetzlichen Anforderungen hinausgehen und z. B. Model Cards oder interaktive FAQs beinhalten.
Anhand von drei Anwendungsbeispielen zeigt der Bericht, wie der Risikomanagement-Rahmen in realen Szenarien eingesetzt werden kann. Als ersten Anwendungsfall wird ein virtueller Assistent vorgestellt, der als Chatbot für Kundenanfragen dient. Als zweites Beispiel wird ein LLM-System beschrieben, das den Studienfortschritt überwacht und unterstützt. Der dritte Anwendungsfall ist ein KI-Assistent, der beim Reise- und Terminmanagement hilft.
Rollenverteilung von Betreiber und Anbieter
Der Bericht differenziert klar zwischen den Verantwortlichkeiten der Anbieter und der Betreiber. Während der Anbieter für die Robustheit und Compliance des Basismodells verantwortlich ist, muss der Betreiber die sichere Nutzung, Integration und Einhaltung der geltenden Vorschriften in seinem spezifischen Kontext sicherstellen. Die Verantwortung kann geteilt sein, je nach Kontroll- und Einflussmöglichkeit. Der Bericht verweist auf die Notwendigkeit, bereits bei der Auswahl und Beschaffung geeigneter Systeme auf Datenschutzaspekte zu achten.
Der EDPB-Bericht bietet Unternehmen und Datenschutzbeauftragten eine praxisnahe Methodik, um die Datenschutzrisiken von Large Language Models (LLMs) systematisch zu bewerten und zu mindern. Er ergänzt bestehende Empfehlungen, etwa der Aufsichtsbehörden aus Hamburg und Baden-Württemberg, und schafft einen aktuellen Orientierungsrahmen. Unternehmen sollten den Bericht als Basis nutzen, um Privacy by Design und Default in die Entwicklung und den Betrieb von KI-Systemen zu integrieren. Betreiber sind gefordert, Risiken ihres konkreten Anwendungsfalls aktiv zu managen und die empfohlenen Schutzmaßnahmen umzusetzen. Eine frühzeitige Auseinandersetzung mit den Empfehlungen ist entscheidend, um regulatorische und ethische Anforderungen zu erfüllen – und das Vertrauen von Kunden und Stakeholdern zu sichern.
Damit Sie KI-Anwendungen wie Microsoft Copilot oder andere generative KI-Lösungen sicher und rechtskonform einsetzen, unterstützt Sie der KINAST KI-Beauftragte bei rechtlicher Prüfung, Vertragsgestaltung und Compliance. Sprechen Sie uns an – wir begleiten Sie auf dem Weg zu einer rechtssicheren und verantwortungsvollen KI-Implementierung.