„Reasoning“ – Logische Fähigkeiten von KI?

21. Oktober 2024

Künstliche Intelligenz (KI) und insbesondere große Sprachmodelle (Large Language Models, LLMs) haben in den letzten Jahren große Fortschritte gemacht und finden zunehmend Anwendung in verschiedenen Bereichen. Doch eine Studie vom 07.10.204 aus der Forschungsabteilung von Apple wirft Zweifel dahingehend auf, wie intelligent solche Systeme tatsächlich sind. Die Wissenschaftler kommen zu dem Schluss, dass viele LLMs eher auf fortgeschrittenes Pattern-Matching zurückgreifen, statt echte logische Schlüsse zu ziehen.

Was ist „Reasoning“?

Genau wie die meisten anderen Tech-Konzerne hat auch Apple, dass enorme Potenzial von KI mittlerweile erkannt. Im KI-Wettrennen geht es insbesondere darum, ein möglichst intelligentes System auf den Markt zu bringen. Der Begriff „Reasoning“ wird in diesem Zusammenhang zunehmend verwendet, um die Fähigkeit dieser Modelle zu beschreiben, logische Schlüsse zu ziehen und komplexe Aufgaben zu lösen. Dabei geht es nicht nur um das Wiedergeben von Informationen, sondern darum, wie die KI eigenständig Zusammenhänge erkennt, neue Informationen verknüpft und Entscheidungen auf der Grundlage von logischem Denken trifft. In einer Pressemitteilung von Apple wird erklärt, dass bislang der GSM8K-Benchmark verwendet wurde, um die mathematischen Denkfähigkeiten von LLMs zu bewerten.

Mustererkennung oder wahres Verständnis?

Wie die Studie der Apple-Forscher zeigt, scheint diese Fähigkeit jedoch oft weniger robust zu sein, als sie den Anschein hat. Auch ein dauerhafter Nachweis der Fähigkeit sei teilweise nicht möglich. In der Studie ging es vor allem um die Frage, ob große Sprachmodelle mathematische Konzepte durchblicken oder lediglich durch Mustererkennung Lösungen anbieten, was den Eindruck einer intelligenten und (zumindest meistens) richtigen Antwort vermittelt.

Die Ergebnisse zeigen, dass die Modelle in der Regel auf fortschrittliches Pattern-Matching zum Antworten zurückgreifen. Dies ist eine Methode, bei der das Modell auf Basis von wiederkehrenden Mustern in seinen Trainingsdaten plausible Antworten generiert, ohne jedoch ein tiefes Verständnis für die zugrunde liegenden Konzepte zu entwickeln. Die Apple Forscher kommen deshalb zu der Schlussfolgerung, dass die LLMs „zu echtem logischen Denken [nicht] fähig sind“.

Probleme aufgrund der Fragestellung

Die Studie (abrufbar hier) erklärt, dass sich Schwachstellen in der Regel abhängig von der Art der Fragestellung ergeben. Ist eine Frage unpräzise oder unter Hinzufügung von irrelevanten Informationen formuliert, sinke die Genauigkeit der Antworten erheblich. In einem der Tests sollten LLMs Obststücke sammeln. Als neben den hierfür relevanten Informationen noch Angaben über die Größe der Obststücke gemacht wurden, habe die Antwort um 10 % abgewichen. In manchen Fällen habe das Ergebnis sogar um 65 % daneben gelegen. Dies zeige, dass LLMs nicht in der Lage seien, Probleme wirklich zu analysieren oder innovative Lösungen zu entwickeln, sondern lediglich Muster wiederholen, die sie in ihren Trainingsdaten erkannt haben.

GSM-Symbolic: Neuer Bewertungsmaßstab für Sprachmodelle

Da die Ergebnisse der Studie zeigen würden, dass LLMs nicht so logisch denken würden, wie zunächst nach dem GSM8K-Benchmark angenommen, haben die Apple-Forscher einen neuen Bewertungsmaßstab entwickelt. Der GSM-Symbolic Standard, soll zukünftig die Fähigkeiten von LLMs im Mathematik-Bereich besser bewerten können. Das neue System soll eine präzisere Bewertung der logischen Fähigkeiten der Modelle ermöglichen und dabei helfen, zukünftige Verbesserungen zu messen.

Fazit

Die Studie der Apple-Forscher verdeutlicht die derzeitigen Grenzen von großen Sprachmodellen. Während LLMs beeindruckende Fähigkeiten in der Mustererkennung zeigen, ist ihre logisches Denken teilweise nicht einmal nachweisbar. Die Einführung des neuen GSM-Symbolic-Benchmarks könnte jedoch dazu beitragen, die Forschung in diesem Bereich voranzutreiben und langfristig zu Verbesserungen zu führen.