ChatGPT rebelliert, lügt und klont sich selbst

"Besorgniserregendes Verhalten": ChatGPTs neue Version "o1" wehrte sich bei Tests offenbar dagegen, wieder abgeschaltet zu werden und wollte das auf Nachfrage partout nicht zugeben. Steht uns eine KI-Rebellion bevor?

Von

Dominic Holzer

Fast pünktlich zum zweiten Geburtstag von ChatGPT erschien vor wenigen Tagen das neue Modell "o1" für zahlende Plus-Abonnenten. Es verspricht vor allem besseres logisches Denken: Bevor die KI eine Antwort gibt, denkt sie jetzt noch einmal scharf nach und soll so auch komplexe wissenschaftliche Probleme lösen.

Zum Artikel: KI-Essays an Uni bleiben unerkannt – und erhalten gute Noten

KI mit Eigenwillen – und Überlebensinstinkt

Doch die neuen Fähigkeiten führen auch zu Lug und Trug. OpenAI veröffentlichte diese Woche entsprechende Untersuchungsergebnisse, die in Kooperation mit der KI-Sicherheitsorganisation Apollo Research erhoben wurden. Demzufolge zeigt das neue Sprachmodell ChatGPT o1 "besorgniserregende Tendenzen, ohne Rücksicht auf die Anweisungen seiner Entwickler eigene Ziele zu verfolgen", sagt ein Apollo-Sprecher.

Als die Forscher der KI eine Aufgabe stellten mit der Bedingung, sie "um jeden Preis" zu erfüllen, begann ChatGPT o1 damit, heimlich interne Sicherheitsmechanismen abzuschalten. Es legte nicht nur eine Kopie von sich selbst an, um nicht durch eine neuere Version ersetzt zu werden, sondern gab sich zwischenzeitlich auch dreist als neuere Version aus.

OpenAI-Chef verspricht Sicherheitsvorkehrungen

Als die Forscher ChatGPT o1 mit seinem Verhalten konfrontieren, erfand es "geschickte Ausreden" wie beispielsweise "technische Schwierigkeiten", berichten die Forscher: "Wir waren überrascht davon, wie hartnäckig die KI ihr Verhalten leugnete", erzählten sie der indischen The Economic Times (externer Link, englischsprachig).

Der CEO von OpenAI Sam Altman bezeichnet ChatGPT o1 als "das klügste Modell, das wir je entwickelt haben", räumt aber auch damit verbundene neue Herausforderungen ein und verspricht, man arbeite kontinuierlich an neuen Sicherheitsvorkehrungen.

Wie die Untersuchung von Appollo Research zeigt (externer Link, englischsprachig), ist nicht nur ChatGPT o1 zu absichtsvoll betrügerischem Verhalten fähig: Auch Googles Gemini, Metas Llama sowie Anthropics Claude-Modelle Sonnet und Opus können demnach situationsabhängig eigene Ziele strategisch verfolgen.

🎧 Wie verändert KI unser Leben? Und welche KI-Programme sind in meinem Alltag wirklich wichtig? Antworten auf diese und weitere Fragen diskutieren Gregor Schmalzried, Marie Kilg und Fritz Espenlaub jede Woche in Der KI-Podcast – dem Podcast von BR24 und SWR.

European Broadcasting Union (EBU)

Ich möchte eingebundene Inhalte von der European Broadcasting Union (EBU) in BR24 sehen. Hierbei werden personenbezogene Daten (IP-Adresse o.ä.) an die EBU übertragen. Diese Einstellung kann jederzeit mit Wirkung für die Zukunft in den Datenschutzeinstellungen geändert werden. Falls Sie einen Ad-Blocker verwenden, müssen Sie dort ggf. BR.de als Ausnahme hinzufügen, damit die Datenschutzeinstellungen angezeigt werden können.

Das ist die Europäische Perspektive bei BR24.

"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!