print logo

Google macht Videos aus Bildern

Vlogger von Google: Aus nur einem Bild und einer Audiodatei erstellt Generative KI realistische Sprechvideos mit Körperbewegungen.
26.03.24

- Zweistufige Pipeline erzeugt realistische Sprechvideos mit Körperbewegungen
- Videos in variabler Länge und anpassbaren Gesichtsausdrücken
- Lippenbewegungen wirken teilweise nachsynchronisiert


Die Generative KI namens Vlogger ermöglicht die Erstellung von realistischen Sprechvideos aus nur einem Bild und einer Audiodatei, berichtet Marie-Claire Koch in heise online.


Die Arbeitsweise von Vlogger basiert auf einer zweistufigen Pipeline. In der ersten Stufe werden Körperbewegungen anhand von Audioeingaben und einem Standbild erzeugt, auf dem eine Person mit einer Pose abgebildet ist. In der zweiten Stufe werden diese Bewegungen in Frames übersetzt, um ein realistisches Video zu erstellen. Ein wesentlicher Vorteil von Vlogger ist die Möglichkeit, die erstellten Videos in variabler Länge und mit kontrollierbaren Inhalten zu generieren. Auch ist es möglich, mit Vlogger erstellte Videos in andere Sprachen zu übersetzen. Auch Gesichtsausdrücke lassen sich anpassen.


Trotz der Fortschritte von Vlogger, besteht noch Verbesserungspotenzial. Einige Details wie Lippenbewegungen wirken teilweise nachsynchronisiert und einige Videos können noch künstlich wirken.