Bild 1Bild 2Bild 3
max planck institut
informatik
mpii logo Minerva of the Max Planck Society
 

Aktuelles Forschungsthema

Modellbasiertes Austauschen von Gesichtern in Bildern

Volker Blanz, Abteilung 4: Computergraphik

Mehr und mehr Anwendungen in der Computergraphik erfordern digitale Spezialeffekte innerhalb von vorgegebenem, realem Bild- und Filmmaterial, was oft schwieriger zu bewerkstelligen ist als die Generierung vollständig virtueller Szenen. Derzeit werden Effekte wie das Austauschen von Gesichtern in Bildern oder die Animation von Gesichtern meist manuell erzeugt. In mühevoller Arbeit setzen Künstler dazu digitale Bildbearbeitungssoftware ein, die letztlich dem gleichen Prinzip folgt wie konventionelle Fotoretusche: Farbwerte können punktweise verändert und Bildregionen kopiert werden.

Wir haben ein Verfahren entwickelt, das dem Benutzer automatisierte Werkzeuge zum Austausch und zur Animation auf einer neuen Abstraktionsebene bietet: Das neue Paradigma der Bildverarbeitung basiert nicht mehr auf Bildpunkten (Pixels), sondern Beschreibungen wie "Person A", "Person B" und "Lächeln". In praktischer Hinsicht liegt ein entscheidender Fortschritt darin, dass Gesichter zwischen Bildern ausgetauscht werden können, die aus unterschiedlichen Blickwinkeln und bei unterschiedlicher Beleuchtung aufgenommen wurden. Bisherige Verfahren sind auf den seltenen Fall beschränkt, dass beide Bilder unter den gleichen Bedingungen aufgenommen wurden.

Der Algorithmus rekonstruiert zunächst 3D Gesichtsmodelle aus Einzelbildern, vertauscht oder verändert sie in 3D und zeichnet das Ergebnis in Zielbilder. Die neue Orientierung und Beleuchtung wird automatisch aus den Zielbildern berechnet. Der Benutzer muss lediglich einige Merkmalspunkte in den einzelnen Bildern (ca. 7 Punkte) anklicken, zum Beispiel die Augen- und Mundwinkel. Das Verfahren, das im folgenden detailliert vorgestellt wird, realisiert eine Reihe von grundsätzlichen Ansätzen der Computergraphik:

Lernbasierte Computergraphik modelliert die statistischen Eigenschaften einer Objektklasse, zum Beispiel menschlicher Gesichter, automatisch aus einer Menge von Beispieldaten.

Das 3D Morphable Model repäsentiert Gesichter als Punkte in einem hochdimensionalen Gesichtsraum.

Die Verbindung aus 3D Graphik und fotorealistischer Bildbearbeitung eröffnet eine neue Stufe der Flexibilität in Bezug auf die unterschiedliche Ausrichtungen der Köpfe im Raum sowie auf unterschiedliche Beleuchtungssituationen.

Das Prinzip der Analyse durch Synthese nutzt die Tatsache aus, dass es einfacher ist, Bilder aus 3D Daten zu generieren, als diese Abbildung umzukehren. Unser Verfahren zur 3D Rekonstruktion zeichnet bei jedem Optimierungsschritt ein Bild des Gesichtes, vergleicht es mit dem Eingabebild und aktualisiert dann die Modellparameter, bis das synthetische Bild dem Eingabebild möglichst ähnlich geworden ist.

Morphable Model

Das Morphable Model behandelt die Gesichtsform als einen hochdimensionalen Vektor, der sich aus sämtlichen 3D Koordinaten eines dichten Netzes von Oberflächenpunkten zusammensetzt. In der gleichen Weise werden die Rot- Grün- und Blauanteile der Punkte zu einem Texturvektor zusammengefasst. Wie in der nebenstehenden Abbildung angedeutet, kann man sich Gesichter in diesem Vektorraum als Punkte vorstellen. Der Mittelpunkt zwischen zwei Gesichtern ist ein neues Gesicht, in dem sich die ursprünglichen Merkmale vermischen. Im Vektorraum der Gesichter ergibt jede Linearkombination, wie etwa 10% von Gesicht A plus 5% von B plus 85% von C, wieder ein realistisches neues Gesicht. Um dies sicherzustellen, haben wir mit einem automatischen Algorithmus eine Punkt-zu-Punkt Korrespondenz zwischen den Oberflächen aller 200 Beispielgesichter, die unseren Vektorraum aufspannen, hergestellt: Jede Vektorkomponente beschreibt den gleichen Punkt, wie etwa die Nasenspitze, in allen Gesichtsvektoren.

3D Oberflächenrekonstruktion aus einem Eizelbild ist ein unterbestimmtes Problem: dunkle Bildpunkte können sowohl auf Schattierungseffekte zurückzuführen sein, als auch auf dunkle Materialien, die Licht absorbieren. Selbst im Falle von homogenen Materialien, wie etwa Gipsbüsten, haben die Gleichungen des sogenannten shape-from-shading keine eindeutige Lösung. Der Grund, warum es uns Menschen so leicht fällt, Gesichter dreidimensional wahrzunehmen, liegt in unserem Vorwissen über die möglichen Gesichtsformen, die in der Natur auftreten können. Aufgrund dieses Wissens wählen wir die plausibelste Form, die zu dem Bild auf unserer Netzhaut passt. Dies ist genau die Strategie, die unser Gesichtsrekonstruktionsverfahren anwendet.

Das Verfahren berechnet die Linearkombination von Beispielgesichtern und die Szenenparameter, die zu einem minimalen Unterschied zwischen dem synthetischen Bild und dem Eingabebild führen. In einem Analyse-durch-Synthese Verfahren zeichnet der Algorithmus bei jedem Optimierungsschritt ein Bild des gegenwärtig angenommenen Gesichts mit den gegenwärtig angenommenen Bildparametern (Winkel, Beleuchtung, ...), berechnet Punkt für Punkt den Bildunterschied, und aktualisiert die Linearkombination und die Bildparameter. Als Startbedingung muss der Benutzer circa 7 Merkmalspunkte im Bild anklicken, zum Beispiel die Augen und die Nase.

Austausch von Gesichtern

Um ein Gesicht aus einem Bild in ein anderes zu übertragen, wird der 3D Rekonstruktionsalgorithmus auf beide Bilder angewandt. Das Gesicht aus dem ersten Bild wird dann mit den Bildparametern gezeichnet, die bei der Rekonstruktion aus dem zweiten Bild automatisch mitberechnet wurden. Als Hintergrund dient das Zielbild. In diesem Hintergrund werden Bildstrukturen automatisch über die alte Gesichtssilhouette hinweg ins Gesicht weitergezeichnet, um zu verhindern, dass hinter kleineren Gesichtern die alte Silhouette sichtbar bleibt. Haarsträhnen im Vordergrund müssen manuell freigestellt werden, um dann automatisch vor jedes neue Gesicht gezeichnet zu werden.

Das Austauschen von Gesichtern kann als neues Werkzeug in der Bildbearbeitung eingesetzt werden. Der Ablauf ist größtenteils automatisch und eignet sich daher für Anwendungen wie die virtuelle Anprobe von Frisuren. Der Vorteil unseres Ansatzes liegt darin, dass jedes Foto einer neuen Frisur, zusammen mit einem Bild der Kundin oder des Kunden, eine synthetische, fotorealistische Vorabansicht zu generieren erlaubt. Im Gegensatz dazu würden 3D Haarmodelle, wie sie in digital animierten Filmen zum Einsatz kommen, nicht hinreichend realistisch sein und es erforderlich machen, die Frisur digital nachzumodellieren. Eine weitere Anwendung unserer Software liegt in der Filmproduktion. Die dazu erforderliche Erweiterung auf Videodaten ist leicht zu bewerkstelligen.

Ein wichtiges Anwendungsfeld des Verfahrens kann in der automatischen Gesichtserkennung liegen. Änderungen in Orientierung und Beleuchtung stellen für Gesichtserkennungsprogramme noch immer eine enorme Schwierigkeit dar. Für den Herstellertest FRVT2002 des National Insitute of Standards und DARPA haben wir aus Seitansichten von Versuchspersonen Frontalansichten generiert und in ein Standardfoto gezeichnet. Mit unseren synthetischen Frontansichten stieg die Erkennungsrate von 9 der 10 getesteten kommerziellen Verfahren beträchtlich an. Während die besten Verfahren auf den Original-Seitansichten bestenfalls ca 45% der Bilder korrekt klassifizierten, erkannten sie bis zu 85% unserer synthetischen Frontansichten korrekt.

Reanimation von Gesichtern in Bildern

Auf der Grundlage der 3D Gesichtsrekonstruktion können Gesichter in Fotos und Gemälden re-animiert werden. Nach der Rekonstruktion animieren wir die Gesichtsmodelle dreidimensional und zeichnen das Ergebnis zurück in das ursprüngliche Bild. Die Veränderungen im Gesicht, die bei Sprache und Mimik auftreten, wurden aus einer Datenbasis von 3D Scans einer einzelnen Person erlernt. In der Vektorraumrepräsentation ist die Differenz zwischen einem lächelnden und einem neutralen Gesicht ein smile vector, der zu einem anderen, neutralen Gesicht addiert werden kann, um dieses zum lächeln zu bringen. Dieses Verfahren, das wir auch auf Videodaten angewandt haben, kann in einer Vielzahl von Medienanwendungen eingesetzt werden, unter anderem in virtuellen Museen und bei der Sprachsynchronisation von Filmen.

Volker Blanz, Abteilung 4: Computergraphik, in Zusammenarbeit mit T. Vetter, Basel.

Weitere Informationen finden Sie auf der Homepage von Volker Blanz.

Search MPII (type ? for help)

Beispiele

Originalfoto der Person, die in die beiden oben gezeigten Bilder eingesetzt wurde.