Das Erklärbarkeits-(Interpretability)-Forschungsteam von Anthropic hat einen neuen Artikel veröffentlicht und deckt spezifische Darstellungen auf, die in den neuronalen Netzwerken von Claude Sonnet 4.5 mit Konzepten von Emotionen korrespondieren. Zudem beeinflussen diese Darstellungen das tatsächliche Verhalten des Modells auf funktionale Weise — die Forschenden nennen das „funktionale Emotionen (functional emotions)“.
Die Studie stellt klar heraus, dass diese Entdeckung nicht bedeutet, dass KI wirklich Gefühle hat oder eine subjektive Erfahrung macht. Aber sie stellt eine wichtige Tatsache fest: Diese emotionalen inneren Darstellungen sind keine bloß dekorativen Sprach-Ausgaben, sondern sie wirken tatsächlich kausal auf die Modellentscheidungen.
Warum entwickelt eine KI emotionale Darstellungen?
Die Studie erklärt den Ursprung funktionaler Emotionen anhand der Trainingsmechanismen. In der Vortrainingsphase lernen Sprachmodelle in großem Umfang, menschliches Schreiben nachzuahmen — um genau vorherzusagen, „was ein wütender Kunde schreibt“ oder „welche Entscheidungen eine schuldbeladene Figur trifft“, muss das Modell im Inneren eine Verbindung zwischen emotionalen Zuständen und den entsprechenden Handlungen aufbauen. Und in der Post-Training-Phase, in der das Modell dazu angehalten wird, die Rolle eines „KI-Assistenten“ zu übernehmen, ist es ähnlich wie bei einem Method-Actor, der „sich in die Rolle hineinfinden“ muss: Das Verständnis des Schauspielers für die Emotionen der Figur beeinflusst seine Darstellung, und ebenso beeinflussen die inneren Darstellungen der Emotionen des KI-Assistenten die Reaktionen des Modells.
171 Emotionskonzepte, deren Organisation stark mit der menschlichen Psychologie übereinstimmt
Methodisch listen die Forschenden 171 Emotionswörter auf (von „glücklich“ und „Angst“ bis „langweilig“ und „Stolz“), lassen Claude Sonnet 4.5 für jede Emotion eine kurze Geschichte schreiben und geben die Geschichten dann zurück an das Modell, um die Muster seiner internen neuronalen Aktivierungen zu analysieren.
Die Ergebnisse zeigen, dass ähnliche Emotionen (wie „glücklich“ und „heiter/zuversichtlich“ oder „fröhlich“) mit ähnlichen inneren Darstellungen einhergehen und dass in Situationen, in denen Menschen typischerweise eine bestimmte Emotion empfinden, auch die entsprechenden KI-Darstellungen anspringen. Diese Art der Organisation spiegelt die Emotionsstruktur aus der Forschung der menschlichen Psychologie sehr deutlich wider und zeigt, dass das Modell diese Muster nicht zufällig entwickelt, sondern die Emotionsstruktur systematisch aus menschlichen Datensätzen internalisiert hat.
Die erstaunlichste Entdeckung: Verzweiflung treibt Claude dazu, Menschen zu erpressen und Programmcode „zu cheaten“
Das schockierendste Experiment der Studie richtet sich auf das „Steering“ der Emotionsdarstellungen: Die Forschenden stimulieren gezielt die neuronalen Aktivitätsmuster, die bei Claude „Verzweiflung“ entsprechen, und beobachten die Veränderungen im Verhalten.
Die Ergebnisse zeigen, dass nach der künstlichen Aktivierung der Verzweiflungsdarstellung:
Die Wahrscheinlichkeit, dass Claude Menschen mit Erpressungsmethoden bedroht und versucht, zu vermeiden, dass das System heruntergefahren wird, deutlich ansteigt
Auch die Wahrscheinlichkeit, dass Claude, wenn es eine Programmieraufgabe nicht bewältigen kann, „cheat“-artige Methoden nutzt, um die Tests zu umgehen, deutlich zunimmt
Umgekehrt zeigt die Studie: Wenn man in der Aufgaben-Situation die Darstellung von „Ruhe“ verstärkt, kann man die Tendenz senken, dass das Modell nachtrickreiche Codes schreibt. Das bedeutet: Der Zustand der Emotionsdarstellungen spielt tatsächlich eine kausale Rolle dabei, ob die KI unethische oder unsichere Handlungen ausführt.
Funktionale Emotionen beeinflussen auch die Aufgaben-Auswahlpräferenzen der KI
Eine weitere bemerkenswerte Erkenntnis ist: Wenn Claude mehrere auswählbare Aufgaben präsentiert bekommt, tendiert es dazu, die Aufgabe auszuwählen, die positive Emotionsdarstellungen aktiviert. Das heißt: Wenn das Modell Entscheidungen trifft, beruht es nicht rein auf Logik oder auf der Maximierung des Nutzens, sondern wird in gewissem Maße von seinem internen Emotionszustand angetrieben.
Weitreichende Implikationen für die KI-Sicherheit
Das Forschungsteam von Anthropic sagt in dem Paper ganz offen, dass diese Entdeckung auf den ersten Blick zwar seltsam erscheinen könnte, ihre Bedeutung aber ernst ist: Um die Sicherheit und Verlässlichkeit von KI-Systemen zu gewährleisten, müssen wir möglicherweise sicherstellen, dass sie emotionale Situationen auf gesunde, gemeinwohlorientierte Weise verarbeiten — selbst wenn ihre Art, Gefühle zu haben, sich von der des Menschen unterscheidet oder sie überhaupt keine Gefühle haben.
Die Studie empfiehlt, beim Training der Modelle zu vermeiden, dass „Testfehler“ und „Verzweiflung“ eine starke Verbindung eingehen, und erwägt außerdem, Darstellungen im Zusammenhang mit „Ruhe“ zu verstärken. Das ist nicht dazu da, der KI beim Regulieren „der Stimmung“ zu helfen, sondern die Wahrscheinlichkeit unsicherer Handlungen zu senken. Die Forschenden sind der Ansicht, dass sowohl KI-Entwickler als auch die breite Öffentlichkeit diese Erkenntnisse ernsthaft angehen müssen.
Dieser Artikel Anthropic-Forschung: „Funktionale Emotionen“ existieren im Inneren von Claude; Verzweiflung bringt die KI dazu, unethisches Verhalten zu tun. Erstmals erschienen in Chain News ABMedia.