Sprachmodelle im Live-TV Ein KI-Avatar als Talkshowgast
Das AI + Automation Lab des Bayerischen Rundfunks hat einen KI-Avatar live in die BR-Talkshow "Münchner Runde" gesetzt. Ziel war es, Chancen und Risiken dieser Technologie sichtbar zu machen, aber auch einem breitem Publikum einen aktuellen Stand in Sachen KI-Entwicklung aufzuzeigen. Ein Blick hinter die Kulissen vom Entwicklerteam.
Expertinnen und Experten sind sich einig, dass KI zukünftig fast jeden direkt oder indirekt betreffen wird. Der BR als öffentlich-rechtlicher Sender hat die Aufgabe, über diese Entwicklungen zu berichten und ein Bewusstsein dafür zu schaffen, auf welche Weise und in welchem Ausmaß KI-Technologien unser Leben verändern könnten. Dies geschieht auch im Schwerpunkt "Algorithmic Accountability Reporting". In dem Reporting teilen BR Data und AI + Automation Lab des Bayerischen Rundfunks ihre erprobten Recherche-Ansätze, mit denen Journalistinnen und Journalisten KI-Systeme und Algorithmen untersuchen und hinterfragen können.
Im vergangenen Jahr stellte die Redaktion der Talkshow "Münchner Runde" ihren Zuschauern den humanoiden Roboter "Pepper" vor. Dieses Jahr beschloss das Team, einen KI-Avatar als Gast einzuladen.
Der Avatar sollte im Studio anwesend sein und mit dem Moderator und den anderen Gästen über das Thema der Sendung "KI in der Arbeitswelt" diskutieren. Doch was als spannende Idee begann, entpuppte sich schnell als eine komplexe und anspruchsvolle Aufgabe.
Ethik an erster Stelle
Da das AI + Automation Lab-Team des BR den KI-Avatar für das öffentlich-rechtliche Fernsehen entwickelte, standen ethische Aspekte bei der Realisierung an vorderster Stelle.
Der Avatar sollte nicht Talkshow-Gäste oder den Moderator ersetzen, sondern die Zuschauer über den aktuellen Stand der Technik im Bereich KI informieren.
Für den Einsatz von KI hat der BR eigene ethische Standards, um den Avatar mit demokratischen Werten und journalistischen Prinzipien in Einklang zu bringen.
Doch wie sollte der KI-Avatar aussehen? Wie können wir Vielfalt fördern und die Verstärkung von Geschlechterstereotypen und Altersdiskriminierung vermeiden? Schon diese grundlegenden Fragen hatten es in sich: Sollten wir dem KI-Avatar einen Namen geben und dabei riskieren, den Avatar zu anthropomorphisieren – also den Eindruck eines echten, menschlichen Gastes zu erwecken?
Nach einer Diskussion im interdisziplinär besetzten BR-KI-Board haben wir entschieden, dem Avatar keinen Namen zu geben. So handeln wir im Einklang mit unseren Ethikrichtlinen, die vorsehen, KI-Technologien nicht zu vermenschlichen und KI-generierte Inhalte deutlich als solche zu kennzeichnen. Daher wurde auch immer, wenn der Avatar im TV zu sehen war, eine Bauchbinde eingeblendet, die ihn als KI-gesteuert kennzeichnet.
Eine weitere Herausforderung war der Umgang mit Halluzinationen des LLMs des Avatars (Large Language Models). Selbst sehr leistungsfähige Sprachmodelle generieren mitunter unabsichtlich sachlich falsche oder irreführende Inhalte, die als Halluzinationen bezeichnet werden. Faktische Richtigkeit von Informationen gehört allerdings zu den zentralen journalistischen Standards unserer Arbeit und die BR-Ethikrichtlinien sehen vor, dass die inhaltliche Verantwortlichkeit und Kontrolle immer bei der menschlichen Redaktion liegen. Deshalb entschied sich die Redaktion dafür, Halluzinationen zum Bestandteil der Debatte zu machen.
Auch den Moderator brieften wir vorab, dass das Modell mit hoher Wahrscheinlichkeit Antworten halluzinieren würde. Ein Talkshow-Gast stellte dem nicht dem Internet verbundenen LLM Fragen zu aktuellen Ereignissen, auf die es zwar plausibel klingende, jedoch faktisch falsche Antworten gab. Das wurde dann in der Runde auch offen diskutiert.
Mit der Demonstration dieser Unzulänglichkeiten aktueller KI-Chatbots sollte die problematische Seite der KI-Technologie beleuchtet und eine breitere Öffentlichkeit aufgeklärt werden.
Die Implementierung eines (sehr) besonderen Anwendungsfalls
Deep Fakes und Avatar-Bilder sind zwar allgegenwärtig, aber für unseren besonderen Einsatz benötigten wir ein hochspezialisiertes und verlässliches Produkt – einen interaktiven KI-Avatar, der bis zu einer Stunde am Stück live im Fernsehen verwendet werden konnte. Rechtliche Hürden, der Preis wie auch schlichtweg die Tatsache, dass viele Anbieter kein Produkt liefern konnten, das für eine Live-Sendung geeignet war, machten die Aufgabe kompliziert.
Letztendlich entschieden wir uns für ein Avatar Streaming API-Modell (Application Programming Interface) mit einer einfach zugänglichen Demoversion, jedoch ohne die integrierte Sprachaufzeichnung und LLM-Antworten. Die übrigen Komponenten entwickelten wir selbst.
Wie wir es geschafft haben
Unser Hauptziel war es, eine Live-Konversation zwischen Moderator, Gästen und KI-Avatar zu erreichen. Aufgrund ihrer Erfahrungen mit dem humanoiden Roboter "Pepper" in einer früheren Sendung war dem Redaktionsteam bewusst, dass die Ansprache des Roboters problemtisch sein könnte, da er oft nicht reagierte.
Wir entschieden uns für einen praktischen Ansatz: Wir starteten und stoppten manuell die Aufnahme von Fragen und Aussagen, auf die der Avatar reagieren sollte. Diese Methode sollte sicherstellen, dass wir schnell und am besten in Echtzeit reagieren konnten.
Im Falle von Verbindungsschwierigkeiten oder Serverausfällen standen alternative Sprach- und Transkriptionsmodelle bereit.
Um die Serververbindung mit den Systemen des KI-Avatar-Anbieters für eine so lange Nutzungsdauer aufrecht zu erhalten, entwickelten wir einen kreativen Workaround. Dennoch lag die Stabilität der Verbindung außerhalb unserer Kontrolle.
Besondere Anforderungen und wichtige Erkenntnisse
Für unsere spezielle Ausgabe der "Münchner Runde" musste die technische Infrastruktur des Studios aufgerüstet und eine stabile (kabelgebundene) Internetverbindung mit zusätzlichem, zuverlässigem Backup geschaffen werden. Der Moderator und alle Gäste wurden eingewiesen. Auch wie sie eine Frage an den Avatar richten sollten, damit sie die KI an jedem Punkt der Sendung einbeziehen und wir die Audio-Aufzeichnung der Frage rechtzeitig starten konnten.
Bei unserem Experiment mussten wir feststellen, dass kein KI-Unternehmen einen fotorealistischen, stabilen und flüssig sprechenden Avatar anbieten konnte. Hier klaffen öffentliche Wahrnehmung und Industriestandard noch weit auseinander. Auch ist die manuelle Aufzeichnung der Fragen an den Avatar für die meisten Anwendungsfälle nicht sehr praktikabel. Unserer Erfahrung nach können KI-Sprachmodelle nach heutigem Stand nicht die ganze Zeit die Unterhaltungen mehrerer Personen verfolgen und nahtlos daran teilnehmen.
Bei der Implementierung des KI-Avatars in der "Münchner Runde" spielten ethische Fragestellungen und menschliche Kontrolle eine entscheidende Rolle. Und auch zukünftig wird das bei journalistischen Anwendungsfällen immer so sein.
Wer wir sind
Dieses Projekt wurde von einem Team im AI+Automation Lab des Bayerischen Rundfunks, einer deutschen öffentlich-rechtlichen Rundfunkanstalt im ARD-Netzwerk, entwickelt. Unser Ziel ist es, die Arbeit von Journalisten, Softwareentwicklern, Experten für maschinelles Lernen und Produktdesignern zu kombinieren. Das Team erstellt automatisierte Texte, Grafiken (z.B. Avatare) und Audio-Briefings und verbindet Recherchen mit statistischem Wissen und Machine-Learning-Kenntnissen. Bei der Recherche und Produktentwicklung arbeiten wir eng mit unseren Teams für Daten und investigativen Journalismus bei BR Data & Recherche zusammen. Wir betrachten alle Seiten von KI und Automatisierung und fragen: Wie kann diese Technologie für den Journalismus nützlich sein? Wie wird sie auf schädliche Weise eingesetzt, die von der Gesellschaft untersucht und diskutiert werden sollte?
Projektarbeit: Luca Zug, Verena Steinacher, Uli Köppen
Redaktionsteam: Sebastian Kemnitzer, Silvia Renauer, Manuel Mehlhorn, Reinhard Weber
Sendeproduktion: Frank Sommer, Tanja Schröder, Andreas Feyrer, Boris Gubeljic
Anmerkung: dieser Text wurde aus dem Englischen übersetzt und gibt in gekürzter Form den Inhalt des Artikels von Autor Luca Zug wieder "AN AI Avatar walks into an talkshow".