Am 13. Januar 2026 verteidigte Mallikarjun BR erfolgreich seine Dissertation mit dem Titel: „Monokulare Gesichtsrekonstruktion und -bearbeitung unter Verwendung von Vorkenntnissen aus 2D-Daten”. Er war Doktorand am MPI für Informatik und der Universität des Saarlandes. Die Doktorarbeit wurde von Prof. Dr. Christian Theobalt, wissenschaftlicher Direktor der Abteilung Visual Computing and Artificial Intelligence, betreut. Der Doktorgrad wurde von der Universität des Saarlandes verliehen.
Zusammenfassung der Dissertationsschrift:
Digitale Gesichtsmodelle mit semantischen Bearbeitungsfunktionen spielen in verschiedenen Bereichen wie Film, Gaming, Telepräsenz und sozialen Medien eine zentrale Rolle. Herkömmlicherweise umfasste die digitale Modellierung sowohl geometrische als auch optische Eigenschaften, mit der Möglichkeit, Ausdrucksformen und Erscheinungsbilder semantisch zu bearbeiten, um auf Änderungen der Beleuchtung und Veränderungen der Gesichtspartien zu reagieren. Um dieses Maß an Genauigkeit zu erreichen, waren bislang kostspielige Aufbauten wie Multiview-Setups und Lichtbühnen erforderlich, was die Zugänglichkeit aufgrund physischer und finanzieller Einschränkungen einschränkte.
Folglich bieten Methoden, die nur ein einziges monokulares Bild erfordern, erhebliche praktische Vorteile, stehen jedoch vor der Herausforderung, dass sie unterbestimmt sind. Um dieser Herausforderung zu begegnen, stützen sich die Methoden häufig auf Vorabmodelle, wie beispielsweise 3D-Morphable-Modelle (3DMM), die aus einer Sammlung von 3D-Scans erstellt werden. Die Erfassung großformatiger 3D-Scans bringt jedoch eine Reihe von Herausforderungen mit sich, wodurch die Qualität des Vorabmodells auf der Grundlage der verfügbaren Daten eingeschränkt wird.
In dieser Arbeit wird ein neuartiger Ansatz vorgestellt, um ein 3DMM-Modell direkt aus umfangreichen, unstrukturierten Video- und Bilddatensätzen zu lernen. Bestehende Methoden approximieren die Haut typischerweise als diffuse Oberfläche und erfassen daher kein fotorealistisches Erscheinungsbild, insbesondere unter komplexen Beleuchtungsbedingungen mit diffusem, spiegelndem Licht, Streuung unter der Oberfläche, Eigenschatten und Mehrfachreflexionen. Um diese Einschränkung zu beheben, wird eine neue neuronale Repräsentation vorgeschlagen, die komplexe Beleuchtungseffekte schätzt. Bei der Modellierung des Gesichtsausdrucks ist es zudem entscheidend, nicht-gesichtsbezogene Bereiche wie Haare und Hals zu berücksichtigen.
Diese Arbeit stellt eine Methode vor, die ein vortrainiertes 2D-Generative Adversarial Network (GAN) nutzt, um neue Ansichten und Beleuchtungen zu synthetisieren und so eine umfassende Modellierung dieser Bereiche zu gewährleisten. Gesichtsstrukturen umfassen verschiedene semantische Teile wie Haare, Augen und Augenbrauen. Bestehende Methoden übersehen oft bestimmte Teile oder verwenden eine einheitliche Darstellung, was bestimmte Teilbearbeitungsaufgaben behindert. Um dies zu überwinden, wird ein kompositorisches generatives Modell vorgeschlagen, das jeden Teil als eigenständige Einheit behandelt. Effiziente und fotorealistische Modelle sind für eine breite Anwendung unerlässlich. Daher schlägt diese Arbeit ein effizientes generatives 3D-Modell vor, das in der Lage ist, in Echtzeit zu samplen und zu rendern. Darüber hinaus bietet dieses Modell dichte 3D-Entsprechungen zwischen den Samples, was seine Nützlichkeit für nachgelagerte Anwendungen erhöht. Abschließend gibt die Arbeit einen Ausblick auf zukünftige Forschungsrichtungen für jedes der hier behandelten Teilprobleme.
![[Translate to Deutsch:] Mallikarjun BR after successfully defending his thesis. Photo: MPI-INF/Bertram Somieski](/fileadmin/inf/news/News/2026/Millikarjun-v.jpg)