Dank künstlicher Intelligenz könnte schlechte Lippensynchronisierung der Vergangenheit angehören

Unter anderem durch den Einsatz von künstlicher Intelligenz haben Informatiker ein Softwarepaket entwickelt, das den Gesichtsausdruck von Schauspielern an eine synchronisierte Filmversion anpassen kann; der Filmindustrie entstehen dadurch erheblich weniger Kosten und Zeitaufwand. Die Software kann auch zur Korrektur von Blick- und Kopfhaltung in Videokonferenzen verwendet werden und eröffnet neue Möglichkeiten der Video-Postproduktion und visuelle Effekte.

Die Technik wurde  von einem internationalen Team unter Leitung einer Gruppe des Max-Planck-Instituts für Informatik, Saarbrücken, entwickelt, daran beteiligt waren Forscher der University of Bath, Technicolor, TU München und Stanford University. Die Arbeit mit dem Titel Deep Video Portraits wird erstmals auf der Konferenz SIGGRAPH 2018 am 16. August in Vancouver vorgestellt. Im Gegensatz zu früheren Methoden, die sich nur auf die Bewegungen des Gesichtsinneren konzentrieren, kann Deep Video Portraits auch das gesamte Gesicht einschließlich Augen, Augenbrauen und Kopfposition in Videos animieren, wobei die aus der Computergrafik bekannten Steuerelemente verwendet werden. Es kann sogar einen plausiblen statischen Videohintergrund synthetisieren, wenn der Kopf bewegt wird.
      Hyeongwoo Kim vom Max-Planck-Institut für Informatik erklärt: „Wir arbeiten mit modellbasierten 3D-Gesichtsaufnahmen, um die detaillierten Bewegungen der Augenbrauen, des Mundes, der Nase und der Kopfposition des Synchronsprechers in einem Video aufzuzeichnen. Das System überträgt diese Bewegungen auf den Ziel-Akteur im Film, um die Lippen und Gesichtsbewegungen exakt mit dem neuen Ton zu synchronisieren.“
      Die Forschung befindet sich derzeit im Proof-of-Concept-Stadium und muss noch in die Praxis umgesetzt werden, doch die Forscher gehen davon aus, dass dieser Ansatz Teile der visuellen Unterhaltungsindustrie massiv verändern könnte.
      Professor Christian Theobalt vom Max-Planck-Institut für Informatik sagt: „Trotz umfangreicher Postproduktionsanstrengungen produziert die Synchronierung von Filmen in Fremdsprachen noch immer ein Missverhältnis zwischen dem Schauspieler auf der Leinwand und der synchronisierten Stimme. Unser neuer Ansatz Deep Video Portraits ermöglicht es uns, das Aussehen des gezeigten Schauspielers realistisch zu verändern, indem wir Kopfhaltung, Mimik und Augenbewegungen übertragen.“
      Dr. Christian Richardt, Co-Autor des Beitrags, vom Motion-Capture-Forschungszentrum CAMERA der University of Bath, fügt hinzu: „Diese Technik könnte auch für die Postproduktion in der Filmindustrie eingesetzt werden, wo die computergrafische Bearbeitung von Gesichtern in den heutigen Spielfilmen bereits weit verbreitet ist.“
      Ein großartiges Beispiel hierfür ist Der seltsame Fall des Benjamin Button, wo das Gesicht von Brad Pitt in fast jedem Frame des Films durch eine modifizierte Computergrafikversion ersetzt wurde. Diese Arbeit bleibt ein sehr zeitaufwendiger Prozess, der oft viele Wochen Arbeit von ausgebildeten Künstlern erfordert.
      „Deep Video Portraits zeigt, wie ein solcher visueller Effekt in Zukunft mit weniger Aufwand erzeugt werden kann. Mit unserem Ansatz können sogar die Platzierung des Kopfes des Schauspielers und sein Gesichtsausdruck problemlos verändert werden, um den Kamerawinkel zu ändern oder den Rahmen einer Szene subtil zu verändern, um die Geschichte besser zu erzählen.“
      Darüber hinaus kann dieser neue Ansatz auch in anderen Anwendungen eingesetzt werden, die die Autoren auf ihrer Projektwebsite zeigen, zum Beispiel in Video- und VR-Telekonferenzen, wo er verwendet werden kann, um Blick und Kopfhaltung so zu korrigieren, dass eine natürlichere Gesprächssituation erreicht wird. Die Software ermöglicht viele neue kreative Anwendungen in der visuellen Medienproduktion, aber die Autoren sind sich auch über das Missbrauchspotenzials moderner Videobearbeitungstechnologie im Klaren.
      Dr. Michael Zollhöfer von der Stanford University erläutert: „Die Medienindustrie hat seit vielen Jahren Fotos mit Bildbearbeitungssoftware nachbearbeitet. Die meisten von uns sind sich dessen bewusst und sehen deshalb publizierte Fotos cum grano salis. Mit der ständigen Verbesserung der Videobearbeitungstechnologie müssen wir auch die Videoinhalte, die wir täglich konsumieren, kritischer betrachten, insbesondere wenn es keinen Herkunftsnachweis gibt. Wir glauben, dass der Bereich der digitalen Forensik in Zukunft viel mehr Aufmerksamkeit erhalten sollte und auch erhalten wird, um Ansätze zu entwickeln, die die Authentizität eines Videoclips automatisch nachweisen können. Das wird zu immer besseren Methoden führen, die auch solche Veränderungen aufdecken, die wir Menschen nicht mit eigenen Augen erkennen können.“
      Parallel dazu entwickelt das Forschungsteam mit derselben Technologie Neuronale Netze, die darauf trainiert sind, synthetisch erzeugte oder bearbeitete Videos mit hoher Präzision zu detektieren; Fälschungen lassen sich dadurch viel leichter erkennen. Die Autoren haben derzeit nicht vor, die Software öffentlich zugänglich zu machen, sondern erklären, dass jede Software, die solche kreativen Anwendungsfälle implementiert, Wasserzeichen enthalten sollte, um Änderungen klar zu kennzeichnen.

 

Web links:

Deep Video Portraits:    http://gvv.mpi-inf.mpg.de/projects/DeepVideoPortraits/
Group webpage:           http://gvv.mpi-inf.mpg.de/
MPI für Informatik:         www.mpi-inf.mpg.de