Künstliche Intelligenz Googles-Stimme soll menschlicher klingen
Googles KI-Abteilung Deep Mind arbeitet an einem Sprachausgabe-System, das nicht nach Computer klingt. Kern der Technologie ist ein neuronales Netz, ein dem menschlichen Gehirn nachempfundenes, lernendes System.
Sie heißen Siri, Cortana und Alexa - und sind doof: die persönlichen Smartphone-Assistentinnen von Apple, Microsoft und Amazon. Man hört es ihnen einfach an. Ein Stück Software halt, das auf einer Maschine, in dem Fall: einem Telefon, läuft. Niemand würde auf die Idee kommen, dass da ein Mensch spricht, der weiß, wovon er redet.
Sprachschnipsel ohne Sinn
Das liegt an den beiden Technologien, derer sich aktuelle Sprachausgabesysteme bedienen. Bei der einen wird die menschliche Sprache aufgezeichnet und dann in winzige Schnipsel zerhackt. Daraus werden wiederum Silben, Wörter und Sätze zusammengebaut. Concatenative TTS nennt sich diese Methode, etwa: Text-Sprach-Wandlung durch Verkettung. Der Sinn des Gesprochenen bleibt dabei auf der Strecke.
Parametrisierte statt lebendige Sprache
Parametrisiert nennt sich das andere Verfahren. Phonetik-Regeln und Grammatik werden in Software gegossen. Das klingt noch unnatürlicher.
Wavenet lernt und spricht
Wavenet schließlich heißt das neue Verfahren von Google. Auch dabei werden menschliche Sprechproben aufgezeichnet, allerdings nicht um sie zu zerhacken und anders zusammenzusetzen, sondern um sie mit einem neuronalen Netz zu analysieren.
Gewaltiger Rechenaufwand
Die Resultate sind beeindruckend. Der einzige Nachteil: Wavenet ist extrem rechenaufwändig und wird deshalb in absehbarer Zeit nicht auf einem Handy laufen. Es handelt sich dabei um ein KI-Projekt, ähnlich Alpha-Go, der Software von Deep Mind, die im März den Go-Großmeister Lee Sedol besiegte.