Während ChatGPT-Hersteller OpenAI die Welt mit dem Video-Generator Sora verblüfft hat, nimmt auch Google beim Wettlauf um die beste KI weiter Fahrt auf. Nun hat der Konzern Gemini Pro 1.5 vorgestellt – sein bisher bestes KI-Sprachmodell. Dieses kommt bald auf den Markt, und übertrifft in einigen Disziplinen GPT-4 – die Bezahlvariante von ChatGPT. Für viele Anwender könnte Gemini 1.5 damit zur besten KI auf dem Markt werden.
Gemini 1.5 kann Sprachen lernen, ähnlich wie ein Mensch
Laut Google kann Gemini 1.5 auch komplexe Zusammenhänge erfassen und liefert bei einigen Aufgaben Ergebnisse, die auch eine menschliche Intelligenz hervorbringen würde. Das bedeutet nicht, dass die KI tatsächlich die Intelligenz eines Menschen hat – aber, dass es von außen immer schwieriger wird, Ergebnisse von KI und Mensch auseinanderzuhalten.
Die Google-Forscher stellten der KI etwa ein Wörterbuch und einen Grammatikleitfaden für die obskure Sprache "Kalamang" zur Verfügung. Diese Sprache befand sich vorher nicht in den Trainingsdaten der KI. Allein Wörterbuch und Grammatik waren genug für die KI, um sofort Texte von Englisch in Kalamang zu übersetzen. Die Übersetzungen waren ähnlich gut wie die eines Menschen, der die gleichen Materialien zur Verfügung gestellt bekommen hätte.
Gemini 1.5 arbeitet auch mit sehr langen Texten
Die größte Innovation sieht Google aber bei der Verbesserung des sogenannten "Kontext Window". Das ist die Menge an Daten, welche die KI auf einmal verarbeiten kann. Für GPT-3.5, also die Gratisvariante von ChatGPT, sind das etwa 12.000 Wörter, für GPT-4, die Bezahlvariante von ChatGPT, etwa 100.000 Wörter. Gemini 1.5 soll jedoch bis zu 7,5 Millionen Wörter verarbeiten können – ein gigantischer Sprung.
Das bedeutet: Die KI kann sehr viele Daten auf einmal verarbeiten – etwa siebenmal die Länge der gesamten Harry Potter-Reihe. Sie ist dann in der Lage, auch über große Textmengen Details und versteckte Hinweise ausfindig zu machen, oder Informationen miteinander zu verknüpfen.
Bild und Video integriert
Und nicht nur mit Text kann die KI umgehen. Auch auf Filme und stundenlange Audiodateien soll Gemini 1.5 eingehen können. In einem Beispiel zeigen die Google-Forscher, wie die KI einen Buster Keaton-Film analysiert. Anschließend fordern die Forscher die KI auf, die Stelle im Film zu identifizieren, in der eine Figur ein Stück Papier aus einer Tasche nimmt. Gemini 1.5 nennt die korrekte Stelle und beschreibt sogar, was das Stück Papier ist.
Unternehmen sind gespannt
In der Praxis dürften die Anwendungen von KI-Programmen wie Gemini 1.5 weniger mit der Analyse von Buster Keaton-Filmen zu tun haben, dafür aber mehr mit Datenverarbeitung in Unternehmen und anderen Organisationen. Hier könnte KI in Zukunft eine wichtige Rolle spielen – etwa bei der automatischen Durchsuchung von großen Datenbeständen oder bei der Analyse von Videoaufnahmen.
Google hat erst vor Kurzem seinen bisherigen Chatbot "Google Bard" durch "Gemini 1.0" ersetzt. Dass so schnell ein Update folgt, kommt für viele überraschend. Gemini 1.5 ist bislang nur für einige wenige Entwickler freigegeben, und dürfte in einigen Wochen auch für andere Kunden freigeschaltet werden. Gratis wird das wohl nicht – ein Abonnement für Google Gemini kostet um die 20 Euro im Monat.
🎧 Wie schnell entwickelt sich KI weiter? Und welche Programme sind in meinem Alltag wirklich wichtig? Antworten auf diese und weitere Fragen diskutieren Gregor Schmalzried, Marie Kilg und Fritz Espenlaub jede Woche in Der KI-Podcast – dem Podcast von BR24 und SWR.
Das ist die Europäische Perspektive bei BR24.
"Hier ist Bayern": Der BR24 Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!