Die Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI) hat Ende 2025 eine praxisorientierte Handreichung mit dem Titel „KI in Behörden – Datenschutz von Anfang an mitdenken“ veröffentlicht. Dieses Dokument der BfDI richtet sich primär an die öffentliche Verwaltung und Behörden, bietet jedoch auch für Unternehmen und andere Organisationen eine systematische Orientierung beim Einsatz von Künstlicher Intelligenz, insbesondere von Large Language Models (LLMs). Ziel der Handreichung unter der Leitung von Prof. Dr. Louisa Specht-Riemenschneider ist es, Rechtssicherheit in einem Bereich zu schaffen, der durch erhebliche technische und rechtliche Unsicherheiten geprägt ist. Damit wird eine strukturierte Herangehensweise gefördert, um KI-Projekte von der Planung bis zum Betrieb im Einklang mit der DSGVO und der EU-KI-Verordnung umzusetzen.

Rechtsrahmen aus DSGVO und KI-Verordnung

Ein zentraler Aspekt der Handreichung ist das Zusammenspiel zwischen der KI-Verordnung (KI-VO) und der Datenschutz-Grundverordnung (DSGVO). Die KI-VO legt dabei produktsicherheitsrechtliche Anforderungen fest, während die DSGVO die Rechtmäßigkeit und die Grenzen der Verarbeitung personenbezogener Daten bestimmt. Die Bestimmungen der KI-VO lassen die datenschutzrechtlichen Vorgaben unberührt. Dennoch sei eine rechtsaktübergreifende Auslegung der Handreichung zu Folge dort sinnvoll, wo die KI-VO spezifischere Anforderungen normiert. Sobald personenbezogene Daten verarbeitet werden, bleiben die datenschutzrechtlichen Prinzipien stets vollumfänglich anwendbar.

Technische Herausforderungen und Risiken

Große Sprachmodelle stellen Verantwortliche vor besondere Herausforderungen, da sie auf tiefen neuronalen Netzen basieren, die oft als „Black-Box“ fungieren. Ein wesentliches Risiko besteht in der sogenannten Memorisierung, bei der personenbezogene Trainingsdaten in abstrakter Form in den Modellparametern gespeichert und später reproduziert werden können. Dies kann dazu führen, dass das KI-Modell selbst einen Personenbezug aufweist. Die Umsetzung von Betroffenenrechten wie Auskunft oder Löschung ist dadurch technisch erschwert. Zudem können LLMs „halluzinieren“, also inhaltlich falsche Aussagen treffen, was den Grundsatz der Datenrichtigkeit gefährdet. Auch die Gefahr von Bias, also die Diskriminierung durch kognitiven Verzerrungen in den Trainingsdaten, muss bereits bei der Entwicklung adressiert werden.

Die Klärung der datenschutzrechtlichen Verantwortlichkeit

Die Bestimmung des Verantwortlichen nach Art. 4 Nr. 7 DSGVO hängt maßgeblich von der technischen Architektur und den Einflussmöglichkeiten der Behörde oder des Unternehmens ab. Werden Modelle auf eigener Infrastruktur betrieben (on-premise), trägt die nutzende Stelle in der Regel die volle Verantwortung für die im Modell enthaltenen memorisierten Daten. Bei der Nutzung von Cloud-Diensten oder „AI-as-a-Service“-Modellen ist eine differenzierte Betrachtung notwendig. Während die externe Stelle oft als Auftragsverarbeiter für Ein- und Ausgaben fungiert, kann die Verantwortlichkeit für das Modell selbst beim Anbieter verbleiben, sofern die nutzende Stelle keinen Einfluss auf die Modellparameter hat. Die BfDI betont, dass die Rollen der beteiligten Akteure für jeden Verarbeitungsschritt vorab eindeutig festgelegt werden müssen.

Rechtsgrundlagen der DSGVO

Für öffentliche Stellen des Bundes bildet die Verarbeitung zur Erfüllung einer öffentlichen Aufgabe gemäß Art. 6 Abs. 1 lit. e DSGVO i.V.m. § 3 BDSG die zentrale Rechtsgrundlage. Allerdings können über diese Generalklausel nur Verarbeitungen mit geringfügiger Eingriffsintensität gerechtfertigt werden. Daher sind bei schwerwiegenderen Eingriffen spezifische gesetzliche Grundlagen erforderlich. Besondere Sorgfalt ist bei besondereren Kategorien personenbezogener Daten nach Art. 9 DSGVO geboten. Hier unterscheidet die BfDI zwischen zielgerichteter und nicht-zielgerichteter Verarbeitung. Eine nicht-zielgerichtete Verarbeitung beim Training kann unter engen Voraussetzungen zulässig sein. Beispielsweise, wenn keine Eigenschaften sensibler Daten spezifischen Personen zugeordnet werden und umfangreiche mitigierende Maßnahmen wie Filter oder Pseudonymisierung implementiert sind.

Datenschutzberatung

Ihr Weg zur Datenschutz-Compliance

Jetzt Termin vereinbaren

Schlussfolgerungen für die betriebliche Praxis

Um die Risiken beim Einsatz von Large Language Models (LLMs) effektiv zu minimieren, empfiehlt die BfDI eine Vielzahl technischer und organisatorischer Maßnahmen (TOM), die den gesamten Lebenszyklus der KI abdecken müssen.

Planungsphase & Preprocessing

Bereits in der Planungsphase sollte die Auswahl von Anbietern kritisch geprüft werden, wobei die Nutzung europäischer Rechenzentren ein wichtiges Kriterium darstellt. Ein wesentlicher Fokus liegt auf der Datenminimierung im Preprocessing, also vor dem eigentlichen Training oder Fine-Tuning. Hierzu zählen die Anonymisierung mittels Randomisierungstechniken wie Differential Privacy sowie die Pseudonymisierung durch kryptographische Algorithmen. Besonders hervorzuheben ist die Deduplikation, also das Entfernen von Dubletten in den Trainingsdaten, da mehrfach vorkommende Sequenzen deutlich häufiger memorisiert und somit unkontrolliert reproduziert werden.

Als ein technisch besonders vielversprechender Ansatz zur Erhöhung der Datenschutzkonformität gilt bisweilen die Implementierung einer Retrieval Augmented Generation (RAG)-Architektur. Bei diesem System wird das Sprachmodell um eine externe Datenbank erweitert, wodurch Informationen gezielter zugeliefert werden können. Dies hat den entscheidenden Vorteil, dass Daten in der Datenbank wesentlich einfacher gelöscht oder korrigiert werden können als im Sprachmodell selbst, und gleichzeitig die Richtigkeit der Ausgaben erhöht wird. Zudem erlaubt dieser Ansatz oft die Nutzung kleinerer Sprachmodelle mit weniger Parametern, was das Risiko einer ungewollten Datenspeicherung (Memorisierung) strukturell verringert.

Maßnahmen im Produktivbetrieb

Für den sicheren Produktivbetrieb müssen mehrstufige Kontrollmechanismen etabliert werden, um den unbefugten Abfluss personenbezogener Daten zu verhindern. Hierzu zählen Input- und Output-Filter, die entweder regelbasiert (hard-coded) nach Mustern wie E-Mail-Adressen suchen oder KI-basiert sensible Inhalte erkennen und ersetzen. Ergänzend sollten System-Prompts und sogenannte Guardrails eingesetzt werden, die dem Modell auf Systemebene untersagen, personenbezogene Daten zu generieren oder auf manipulative Anfragen zu reagieren. Um die Widerstandsfähigkeit gegen Angriffe wie Prompt Injection oder Membership Inference Attacks sicherzustellen, ist ein regelmäßiges Red Teaming unerlässlich, bei dem das System gezielt auf Schwachstellen und Sicherheitslücken untersucht wird.

Betroffenenrechte & Transparenz

Die Umsetzung von Betroffenenrechten stellt bei KI-Systemen oft eine technische Hürde dar, weshalb neue Verfahren wie das Machine Unlearning an Bedeutung gewinnen. Diese Methoden ermöglichen es, den Einfluss bestimmter Datenpunkte nachträglich anzupassen, ohne das gesamte Modell neu trainieren zu müssen. Zur Förderung der Transparenz und Erfüllung der Informationspflichten empfiehlt die BfDI zudem den Einsatz von Model Cards, die relevante Benchmarks und Modellmerkmale übersichtlich zusammenfassen. Um den „Black-Box“-Charakter zu mildern, können Prompting-Techniken wie Chain-of-Thought genutzt werden, die das Modell anweisen, seine Argumentationsschritte transparent darzulegen und so die Nachvollziehbarkeit der Ergebnisse für den Menschen zu verbessern.

KI-Kompetenz

Abschließend ist die menschliche Komponente für einen rechtskonformen Einsatz entscheidend, was eine kontinuierliche Förderung der KI-Kompetenz auf allen Ebenen erfordert. Verantwortliche müssen sicherstellen, dass das Personal durch Schulungen und klare Dienstvorschriften in die Lage versetzt wird, KI-Ergebnisse kritisch zu prüfen, Verzerrungen (Bias) zu erkennen und Halluzinationen zu identifizieren. Nur durch ein Zusammenspiel aus technischen Sperren, einer datenschutzfreundlichen Systemarchitektur und kompetenter menschlicher Aufsicht lässt sich die Rechenschaftspflicht gemäß DSGVO dauerhaft erfüllen und das Vertrauen der Betroffenen in den Einsatz moderner KI-Technologien sichern.

Fazit für Verantwortliche und Datenschutzbeauftragte

Der Einsatz von KI in Behörden und der Verwaltung bietet enorme Effizienzpotenziale, erfordert aber neben konsequentem Datenschutz eine KI-Kompetenz auf allen Ebenen, um eine wirksame menschliche Aufsicht zu gewährleisten. Menschliche Entscheider dürfen sich nicht blind auf KI-Ergebnisse verlassen, sondern müssen über die Kompetenz verfügen, diese kritisch zu prüfen und gegebenenfalls zu korrigieren. Die Handreichung der BfDI macht deutlich, dass Datenschutz kein Hindernis, sondern eine operative Grundlage für vertrauenswürdige KI ist. Verantwortliche sollten die Handreichung als Checkliste nutzen, um ihre KI-Systeme resilient gegen Angriffe wie Prompt Injections zu machen und die Rechenschaftspflicht gegenüber Aufsichtsbehörden lückenlos erfüllen zu können.