Wie "denkt" die angeblich schlauste KI der Welt?

OpenAI hat mit o1 ein neues KI-Sprachmodell vorgestellt, das angeblich denkt, bevor es spricht. Doch kann die KI wirklich besser schlussfolgern als ihre Vorgänger? Der KI-Podcast der ARD hat das Modell auf die Probe gestellt.

Von

Fritz Espenlaub

Über dieses Thema berichtet: BR24 im Radio am 29.09.2024 um 13:35 Uhr.

Herkömmliche KI-Sprachmodelle funktionieren wie eine Art hochentwickelter Autokorrektur: Sie reihen Wörter aneinander, basierend auf statistischen Wahrscheinlichkeiten aus ihren Trainingsdaten. Das führt oft zu flüssigen, aber manchmal auch zu unlogischen oder faktisch falschen Antworten. Um dieses Problem zu lösen, investieren die großen KI-Firmen wie Anthropic, OpenAI oder Google Deepmind beträchtliche Ressourcen. Bislang mit gemischtem Erfolg - die bekannten Sprachmodelle wie ChatGPT oder Claude sind im Laufe der Zeit zwar zuverlässiger geworden, aber machen eben immer noch Fehler und kommen bei komplexeren Aufgaben an ihre Grenzen.

Neues KI-Modell simuliert internen Denkprozess

Nun will OpenAI diese Probleme mit einem neuen KI-Modell lösen. Die als "o1" bekannte KI simuliert dafür einen internen Denkprozess, bevor sie antwortet. Diese Methode, bekannt als "Chain of Thought" (Gedankenkette), war bisher nur durch spezielle Anweisungen möglich. Bei o1 ist sie nun direkt in die Grundfunktionalität eingebaut.

🎧Wie verändert KI unser Leben? Und welche KI-Programme sind in meinem Alltag wirklich wichtig? Antworten auf diese und weitere Fragen diskutieren Gregor Schmalzried, Marie Kilg und Fritz Espenlaub jede Woche in Der KI-Podcast – dem Podcast von BR24 und SWR.

In der Praxis sieht das so aus: Nutzer sehen zunächst nur einen Timer, während o1 im Hintergrund verschiedene Lösungsansätze durchspielt. Das Modell kann so Zwischenergebnisse prüfen, bei Bedarf seinen Ansatz ändern und am Ende eine überlegte Antwort präsentieren - ähnlich wie ein Mensch, der beim Lösen einer Aufgabe merkt, dass er neu ansetzen muss. Zusammen mit der Antwort liefert das Modell auch eine kurze Zusammenfassung seines Lösungswegs.

Diese Herangehensweise soll o1 befähigen, komplexere Aufgaben zu lösen und logische Fehler zu vermeiden. Allerdings bringt sie auch neue Probleme mit sich, wie das Team des KI-Podcasts der ARD in der aktuellen Folge zeigen kann.

Verbesserte Leistung bei manchen Aufgaben ...

Die Hosts des KI-Podcasts der ARD haben o1 in ihrer neuen Folge auf Herz und Nieren getestet - mit gemischten Ergebnissen. In einem Experiment konnte o1 eine komplizierte Sitzordnung für eine Hochzeit erstellen, bei der bestimmte Gäste nicht nebeneinander sitzen durften. Während herkömmliche Modelle hier scheiterten, löste o1 die Aufgabe souverän.

Auch bei mathematischen und wissenschaftlichen Fragen zeigte sich o1 deutlich leistungsfähiger als bisherige Modelle. Der renommierte Mathematiker Terence Tao vergleicht o1 mit einem "mittelmäßigen, aber nicht völlig inkompetenten Masterstudenten" - in Taos Augen eine beachtliche Verbesserung gegenüber früheren Versionen, die eher einem "tatsächlich inkompetenten Masterstudenten" ähneln würden.

... und schlechtere Leistung bei anderen

In einem weiteren Test des KI-Podcasts zeigte sich wiederum eine Schwäche von o1: Das Modell wurde zuerst gebeten, eine geheime Nachricht mit einem einfachen Code zu verschlüsseln. Würde man diese Aufgabe einem Menschen stellen und ihn anschließend um die unverschlüsselte Originalnachricht bitten, könnte dieser sie jederzeit mitteilen.

Nicht so die KI: Statt auf Anfrage des Nutzers einfach die Lösung zu nennen, verstrickte sich o1 in komplizierte Überlegungen bei dem Versuch, den eigenen, kurz zuvor selbst erstellten Code zu knacken. Nach 150 Sekunden "Nachdenken" lieferte es ein falsches Ergebnis - während das herkömmliche Modell Claude die Aufgabe problemlos löste.

Die Zusammenfassungen des eigenen "Nachdenkprozesses", die o1 dem Nutzer anzeigt, sind dabei nicht immer nachvollziehbar - mitunter erinnert das Modell an einen Jahrmarkt-Hellseher, der geheime Beschwörungen murmelt, um Eindruck zu schinden.

Was uns o1 über die Zukunft von KI-Sprachmodellen sagt

Trotz der Kinderkrankheiten sieht das Team des KI-Podcasts in o1 einen wichtigen Entwicklungsschritt. Die verbesserte Fehlerkontrolle könnte in Zukunft vor allem für die Verkettung verschiedener KI-Systeme relevant werden. Das Modell zeigt, dass es noch viel Raum für Verbesserungen bei Sprachmodellen gibt - auch jenseits von reiner Skalierung.

Die hohen Kosten und der enorme Ressourcenverbrauch von o1 machen jedoch deutlich, dass der Weg zu einer "denkenden" KI noch weit ist. Ob das neue Modell wirklich den nächsten großen Durchbruch in der KI-Entwicklung darstellt, bleibt abzuwarten.

European Broadcasting Union (EBU)

Ich möchte eingebundene Inhalte von der European Broadcasting Union (EBU) in BR24 sehen. Hierbei werden personenbezogene Daten (IP-Adresse o.ä.) an die EBU übertragen. Diese Einstellung kann jederzeit mit Wirkung für die Zukunft in den Datenschutzeinstellungen geändert werden. Falls Sie einen Ad-Blocker verwenden, müssen Sie dort ggf. BR.de als Ausnahme hinzufügen, damit die Datenschutzeinstellungen angezeigt werden können.

Das ist die Europäische Perspektive bei BR24.

"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!