Friedrich Merz, Angela Merkel und Olaf Scholz fahren grinsend auf Hoverboards durch eine menschenleere Fußgängerzone. Was aussieht wie das Titelbild einer Satirezeitschrift, ist in Wahrheit das Ergebnis eines simplen Prompts in ChatGPT. Möglich macht das die neue Bildfunktion des KI-Systems, die mit erstaunlicher Leichtigkeit Bilder generiert, für die man früher Talent, Zeit – oder zumindest Photoshop gebraucht hätte.
Bilder per Befehl: Die neue Funktion von ChatGPT
OpenAI hat seiner KI ein umfassendes Upgrade verpasst. Statt auf DALL-E 3 basiert die Bildgenerierung nun auf dem neuen multimodalen Modell GPT-4o – mit spürbaren Fortschritten bei Texttreue, Bildkonsistenz und Bearbeitungsmöglichkeiten. Das Ergebnis ist eine überraschend leistungsfähige und niederschwellig bedienbare Alternative zu klassischer Bildbearbeitung.
Für alle, die jemals an den Menüs von Photoshop verzweifelt oder sich mit Ebenenmasken herumgeschlagen haben: GPT-4o braucht keine Vorkenntnisse. Statt Werkzeugkasten genügt eine einfache Anweisung wie: "Merkel ein Stirnband verpassen", "Merz gegen Lindner austauschen" oder "Mach daraus eine Retro-Werbeanzeige im Stil der 80er". Die KI versteht, was gemeint ist – und setzt es oft verblüffend gut um.
Endlich Klartext: GPT-4o schreibt lesbare Buchstaben
Ein besonders sichtbarer Fortschritt: GPT-4o kann endlich lesbaren Text in Bilder integrieren. Während frühere Modelle meist nur krakelige "Hieroglyphen" erzeugten, erscheinen nun klar erkennbare Wörter auf Straßenschildern, T-Shirts oder Notizzetteln. Das macht das Tool besonders nützlich für die Erstellung von Infografiken, Logos oder Social-Media-Grafiken.
Ein Modell, das spricht – und versteht, was gemeint ist
Auch die Bildbearbeitung selbst wurde deutlich verbessert. Anders als bisher, wo jede Veränderung ein komplett neues Bild erzeugte, bleibt GPT-4o bei Modifikationen konsistent. Einzelne Elemente lassen sich gezielt bearbeiten, ohne dass der Rest der Szene verloren geht. Wer Merz, Merkel und Scholz lieber auf Skateboards statt Hoverboards sehen will – kein Problem. Die KI tauscht nur das Nötige aus. Und wer möchte, kann sogar noch weiter gehen – in die Parallelwelt der Popkultur zum Beispiel.
Mit einem weiteren Prompt verwandelt sich das fotorealistische Ausgangsbild in eine Szene im Stil der Zeichentrickserie
Wenn die KI plötzlich gelb sieht
Mit einem einzigen weiteren Befehl verwandelt sich die fotorealistische Szene in eine Folge der Simpsons: gelbe Haut, dicke Umrisslinien, kantige Mimik. Die Leichtigkeit, mit der sich solche Stilwechsel vollziehen lassen, ist das eigentliche Spektakel dieser neuen Funktion. Es ist nicht nur Bildbearbeitung – es ist stilistische Teleportation.
Technisch basiert das neue System nicht mehr auf Diffusionsverfahren wie DALL-E 3, sondern auf einem autoregressiven Ansatz. Dabei wird das Bild zeilenweise erzeugt – von oben nach unten, von links nach rechts. Das dauert etwas länger, liefert aber klarere Strukturen, bessere Textdarstellung und insgesamt realistischere Ergebnisse.
Natürlich ist nicht alles perfekt. OpenAI selbst räumt ein, dass GPT-4o gelegentlich Bildteile abschneidet, Details halluziniert oder mit nicht-lateinischen Schriften hadert. Um Missbrauch vorzubeugen, werden alle generierten Bilder mit C2PA-Metadaten versehen, die ihre KI-Herkunft dokumentieren.
Mehr Freiheit, aber nicht grenzenlos
Trotzdem verfolgt OpenAI mit GPT-4o einen liberaleren Kurs als zuvor. CEO Sam Altman erklärte auf X, es sei "richtig, diese intellektuelle Freiheit und Kontrolle in die Hände der Nutzer zu legen". Der neue Bildgenerator bewegt sich damit näher an Elon Musks Grok-Modell, das schon länger mit weniger Einschränkungen arbeitet. Ganz frei ist GPT-4o aber nicht: Deepfakes, Gewaltfantasien mit realen Personen oder das Entfernen von Wasserzeichen bleiben weiterhin blockiert.
Die neue Funktion ist bereits für Plus-, Pro-, Team- und sogar Gratis-Nutzer verfügbar (mit gewissen Einschränkungen). Enterprise- und Bildungskonten folgen demnächst. Entwickelt wurde das neue System über ein Jahr lang, mit der Hilfe von mehr als 100 menschlichen Trainern, die Fehler kennzeichneten – von schiefen Händen über absurde Gesichter bis zu unsinnigen Texten.
Was bleibt, wenn jeder gestalten kann?
GPT-4o reagiert damit nicht nur auf Googles Gemini-Bildfunktionen, sondern markiert einen Schritt, der weit über Technik hinausgeht. Wenn jeder in Sekunden Bilder erschaffen kann, die wie aus einem Werbestudio wirken – oder aus einer Folge der Simpsons –, wird Kreativität nicht nur demokratischer, sondern auch flüchtiger. Die Grenze zwischen Vorstellung und Visualisierung verschwimmt.
In einer Welt, in der sich sogar Politiker auf Hoverboards durch Fantasien bewegen, stellt sich vor allem eine Frage: Wer steuert hier eigentlich noch – und wer schaut nur noch zu?
🎧 Wie verändert KI unser Leben? Und welche KI-Programme sind in meinem Alltag wirklich wichtig? Antworten auf diese und weitere Fragen diskutieren Gregor Schmalzried, Marie Kilg und Fritz Espenlaub jede Woche in Der KI-Podcast – dem Podcast von BR24 und SWR.
Dieser Artikel ist erstmals am 26. März 2025 auf BR24 erschienen. Das Thema ist weiterhin aktuell. Daher haben wir diesen Artikel erneut publiziert.
Ich möchte eingebundene Inhalte von der European Broadcasting Union (EBU) in BR24 sehen. Hierbei werden personenbezogene Daten (IP-Adresse o.ä.) an die EBU übertragen. Diese Einstellung kann jederzeit mit Wirkung für die Zukunft in den Datenschutzeinstellungen geändert werden. Falls Sie einen Ad-Blocker verwenden, müssen Sie dort ggf. BR.de als Ausnahme hinzufügen, damit die Datenschutzeinstellungen angezeigt werden können.
Das ist die Europäische Perspektive bei BR24.
"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!