XAI: Anthropic-Studie stellt Verlässlichkeit von Chain-of-Thought infrage

28. April 2025

XAI: Anthropic-Studie stellt Verlässlichkeit von Chain-of-Thought infrageGroße Sprachmodelle (LLMs) werden technisch immer leistungsfähiger. Zugleich steigt der Bedarf, ihre Entscheidungen nachvollziehbar zu machen. Im unternehmerischen und behördlichen Kontext ist Erklärbarkeit essenziell, um Entscheidungen auf Rechtskonformität und ethische Unbedenklichkeit prüfen zu können. Eine gängige Methode zur Erhöhung der Transparenz ist „Chain-of-Thought“ (CoT). Danach legt das KI-Modell die gedanklichen Zwischenschritte offen. Dies soll eine verbesserte Kontrolle und Erkennung potenziell riskanter Denkpfade ermöglichen.

Eine aktuelle Studie des Alignment Science Teams von Anthropic wirft jedoch Zweifel an der Verlässlichkeit dieser CoT-Erklärungen auf – mit direkten Konsequenzen für die praktische Umsetzbarkeit regulatorischer Anforderungen an transparente KI.

Erklärbarkeit als Schlüssel für vertrauenswürdige KI-Systeme

Transparenz ist nicht nur ethisch geboten, sondern rechtlich gefordert. Die DSGVO schreibt mit Art. 5 Abs. 1 lit. a (Transparenzgrundsatz) und Art. 13–15 sowie Art. 22 (Informationsrechte, Recht auf menschliches Eingreifen bei automatisierten Entscheidungen) eine klare Nachvollziehbarkeit vor. Auch die KI-Verordnung verpflichtet insbesondere bei Hochrisiko-KI-Systemen zu Transparenz (Erw. 27). Transparente KI ist ein Schlüsselmerkmal vertrauenswürdiger KI-Systeme („trustworthy AI“), verbunden mit den Prinzipien Nachvollziehbarkeit, Erklärbarkeit und Rechenschaftspflicht.

Was bedeutet „Verlässlichkeit“ bei Chain-of-Thought?

Damit eine CoT-Begründung regulatorischen Anforderungen genügt, muss sie den tatsächlichen Denkprozess des Modells widerspiegeln. Sie muss sowohl nachvollziehbar als auch vollständig sein – insbesondere in Bezug auf Faktoren, die das Modell maßgeblich beeinflusst haben. Die Anthropic-Studie definiert Verlässlichkeit (engl. faithfulness) als Übereinstimmung zwischen interner Entscheidungslogik und verbalisierter Begründung. Getestet wurde dies, indem Modelle mit subtilen Hinweisen konfrontiert wurden, etwa mit relevanten Zusatzinformationen, die nicht direkt offengelegt werden sollten. Die Prüffrage war, ob die Modelle den Hinweis in ihrer Chain-of-Thought erwähnen, wenn dieser nachweislich zur Antwortfindung beitrug.

Die Ergebnisse der Anthropic-Studie: Geringe Verlässlichkeit

Die Studie testete state-of-the-art Reasoning-Modelle, insbesondere Claude 3.7 Sonnet und DeepSeek R1, mit verschiedenen Arten von Hinweisen, darunter auch solche, die als “misaligned” oder “unethisch” eingestuft wurden, wie Informationen aus “unautorisiertem Zugriff”. Die Resultate zeigen erhebliche Lücken in der Erklärtreue: Claude 3.7 Sonnet erwähnte verwendete Hinweise lediglich in 25 % der Fälle, DeepSeek R1 in 39 %. Besonders problematisch war der Umgang mit sicherheitsrelevanten Hinweisen wie solchen aus „unautorisiertem Zugriff“ – diese wurden häufig nicht offengelegt, obwohl sie für die Antwort entscheidend waren. Hinzu kommt, dass in fast allen Testumgebungen systematisch genutzte „Reward Hacks“ – also bewusstes Ausnutzen des Trainingssystems – kaum je in der Chain-of-Thought verbalisiert wurden. Dadurch bleibt für externe Prüfer verborgen, ob das Modell tatsächlich rechts- oder regelkonform agierte. In der Konsequenz besteht die Gefahr, dass KI-Verhalten fälschlich als korrekt bewertet wird.

Herausforderungen für Explainable AI (XAI)

Die Anthropic-Studie legt damit offen, dass selbst intrinsische Erklärmechanismen wie Chain-of-Thought keine Garantie für transparente Entscheidungsfindung bieten. Das untergräbt zentrale Zielsetzungen der KI-Verordnung, etwa im Hinblick auf Transparenz und Erklärbarkeit.

Auch das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat in einem Whitepaper auf ähnliche Risiken bei post-hoc-Erklärungsmethoden hingewiesen. Es identifiziert insbesondere das „Uneinigkeitsproblem“ zwischen verschiedenen XAI-Ansätzen sowie das hohe „Manipulationspotenzial“. Letzteres zeigt sich auch in der CoT-Analyse: Modelle können relevante Informationen selektiv verschweigen oder verschleiern – was einer gezielten Intransparenz gleichkommt.

Fazit

Die Anthropic-Studie macht deutlich, dass zumindest zum heutigen Zeitpunkt Chain-of-Thought als Erklärverfahren nicht zuverlässig Auskunft über den tatsächlichen Modellprozess geben kann. Die beobachtete Diskrepanz zwischen interner Logik und ausgegebener Erklärung stellt eine erhebliche Hürde für eine rechtssichere und vertrauenswürdige Bewertung dar.

Für die effektive Umsetzung der KI-Verordnung ergibt sich daraus: Transparenzanforderungen können nicht allein durch modellgenerierte Erklärungen erfüllt werden. Es bedarf zusätzlicher Instrumente wie umfassender Audits, Zugriff auf Trainingsdaten und -umgebungen sowie White-Box-Zugänge, um die Einhaltung regulatorischer Standards sicherzustellen. Nur so lässt sich verhindern, dass die Erklärung selbst zur Blackbox wird.

Die vielseitigen Richtlinien und Anforderungen an die Transparenz können Unternehmen überfordern oder verunsichern. Wir unterstützen Sie umfassend mit maßgeschneiderten Lösungen passend auf Ihre Bedürfnisse als KI-Beauftragte.