print logo

Erkennt Ihr den Fehler? KI-generierte Podcasts

KI-Audio ist noch begrenzt nutzbar, braucht exakte Prompts und Nachbearbeitung, während Profis schneller und besser sind.
Ulrich Harraß | 13.02.2025
© Ulrich Harraß

Das Bild zu diesem Beitrag ist natürlich KI-generiert und passt zum Thema in jeder Beziehung. Zwei Männer unterhalten sich. Das könnte wohl eine Podcast-Aufnahme sein. Der Fehler: Leider fehlt einem der Männer das Mikrofon dazu. Technisch völlig unlogisch, was da gezeigt wird. Nun zu KI-Audio, Stand Februar 2025, aus unserer Erfahrung: Text2Speech-Generatoren leisten Erstaunliches. Aber nur mit exakten Prompts und aufwändiger Nachbearbeitung.

Professionelle Sprecher:innen sind immer noch viel schneller und weit wirkungsvoller, als KI-generiertes Audio. KI hilft nur bei kleinen Audios, bei denen es nicht auf spezielle Betonungen oder emotionale Feinheiten ankommt. Von falsch ausgesprochenen Namen und Fachbegriffen abgesehen sind die Ergebnisse schon brauchbar – mehr nicht. Justpodccast benutzt https://elevenlabs.io/.

Schon beeindruckender ist Googles NotebookLM. Mit einem Trick beim Prompt entstehen innerhalb von wenigen Minuten auf Basis von Texten lebendige Unterhaltungen in deutscher Sprache. Anleitungen gibt es auf YouTube. Auch da entstehen im Audio viele Fehler, vom oft hörbaren Akzent der Sprecher:innen mal abgesehen. So haben wir es in einem Piloten bearbeitet: https://justpodcast.de/simplify/KI-Talk/. Wenn dieses Tool, wie ElevenLabs, professionell gesteuert werden könnte, wäre es wohl „in der Zielgeraden“.  Ich wage aber zu bezweifeln, ob dieser Aufwand von Google realisiert wird.

Fazit: KI-Audio ist momentan professionell nur sehr begrenzt einsetzbar. Wo es klappt, wird es sich durchsetzen. Wer sich Sprecherhonorare sparen will, muss eben die Zeit investieren, die es jetzt noch kostet, bis das Audio einigermaßen „stimmt“. Anwender, die zum Beispiel in den Social-Media-Kanälen Videos vertonen, sind mit den häufig gruseligen Ergebnissen zufrieden.