Markerlose Rekonstruktion statischer und dynamischer 3D-Szenen

Spotlight: Veröffentlicht Freitag, 03 Mai 2013

Christian Theobalt

Markerlose Rekonstruktion statischer und dynamischer 3D-Szenen

Rekonstruktion dynamischer Szenen aus Multi-Video Daten

Die Entwicklung neuer Algorithmen zur Rekonstruktion der Geometrie und Reflektanz bewegter Szenen aus Videodaten ist eine wichtige Aufgabe der Bilderkennung und Computergrafik. Rekonstruierte Animationsmodelle von Menschen und generellen Szenen sind für die Computeranimation sowie für visuelle Effekte unerlässlich. Zudem ist die Erfassung der bewegten Umgebung aus Sensordaten auch für autonome Systeme, wie Roboter und autonome Fahrzeuge, von immer größerer Bedeutung. Die Rekonstruktion dynamischer Szenenmodelle ist auch die Voraussetzung für die Produktion von 3D-Videos und virtuellen Replayeffekten in Fernsehübertragungen. Speziell die Rekonstruktion menschlicher Bewegungen ist wichtig in den Bereichen Biomechanik und Medizin sowie in den Sportwissen schaften und der Mensch-Maschine Interaktion. Die Entwicklung neuer Sensorik und neuartiger Brillendisplays ermöglicht auch neue Anwendungen im Bereich erweiterter Realität. Um diese Anwendungen zu implementieren, sind allerdings auch Verfahren notwendig, um die bewegte reale Umgebung in Echtzeit zu erfassen.

Das Ziel unserer Forschung ist daher die Entwicklung neuartiger Performance Capture Algorithmen. Dies sind Verfahren, die aus Videodaten detaillierte Modelle der Geometrie, der Bewegung und der Oberflächeneigenschaften von realen bewegten Szenen erfassen. Die Rekonstruktion soll hierbei ohne aktiven Eingriff in die Szene erfolgen, also zum Beispiel ohne die Verwendung von Markern, wie sie bei traditionellen Motion Capture Verfahren verwendet werden. In der Vergangenheit haben wir die ersten Performance Capture Verfahren entwickelt, die detaillierte Szenenmodelle von Personen in genereller Alltagskleidung und von generellen Objekten aus Videodaten rekonsturieren. Allerdings sind alle diese Verfahren auf die Anwendung in kontrollierten Studios mit kontrollierter Beleuchtung und kontrolliertem Hintergrund beschränkt. Im Berichtszeitraum haben wir daher angefangen, die algorithmischen Grundlagen des Performance Capture neu zu definieren, um langfristig in der Lage zu sein, Modelle von Realweltszenen außerhalb des Studios, d. h. Szenen mit komplexer Struktur und Beleuchtung, mit nur wenigen Kameras erfassen zu können.

Im Berichtszeitraum entwickelten wir zum Beispiel die ersten Algorithmen zur hoch detaillierten markerlosen Rekonstruktion der Skelettbewegung von Menschen und Tieren in genereller Umgebung mit nur sehr wenigen (2 – 3) Kameras. Ein weiterer Meilenstein war die Entwicklung neuer inverser Renderingverfahren, um Modelle der Beleuchtung, Reflektanz, und der detaillierten dynamischen Oberflächengeometrie in unkontrollierten Umgebungen zu berechnen. Diese Verfahren bilden die Grundlage für folgende wichtige Ergebnisse: Der ersten Methode zur Rekonstruktion beleuchtbarer Szenemodelle in genereller Umgebung, der ersten Methoden zur Rekonstruktion detaillierter Gesichtsmodelle aus zwei oder sogar nur einem Videostrom, oder der neuen Verfahren zur Rekonstruktion detaillierter Animatonsmodelle von Menschen mit nur zwei Kameras [ siehe Abbildung 1 ] . Ein wichtiger neuer Forschungszweig ist auch die markerlose Rekonstruktion von Handbewegungen in Echtzeit aus wenigen oder gar nur einer Kameraperspektive [ siehe Abbildung 2 ] .

Rekonstruktion statischer und dynamischer Szenen mit Tiefensensoren

Neuartige Tiefenkameras messen 2.5D-Szenengeometrie und Farbinformation in Echtzeit. Diese neuen Sensoren sind kostengünstig und können daher auch wichtige Werkzeuge sein, um einer breiten Gruppe von Anwendern die Rekonstruktion statischer und dynamischer Szenenmodelle zu ermöglichen. Leider sind die Tiefenkameradaten in der Regel sehr verrauscht, besitzen eine sehr geringe Auflösung und weisen systematische Verzerrungen auf. In unserer Forschung haben wir daher Methoden entwickelt, um Tiefensensoren zu kalibrieren, das Rauschen zu eliminieren und die Auflösung der Kameras algorithmisch zu erhöhen. Weiterhin entwickeln wir neue Verfahren, um selbst große statische Szenen in Echtzeit in hohem Detail zu scannen.

Zudem arbeiten wir an neuen Methoden, um die menschliche Skelettbewegung und Körpergeometrie in Echtzeit mit nur einer Tiefenkamera zu messen. In diesem Zusammenhang haben wir auch die ersten Verfahren überhaupt entwickelt, um deformierbare Oberflächenmodelle genereller Objekte in Echtzeit aus Tiefenkameradaten zu messen.

Christian Theobalt ist Professor für Informatik und Leiter der Forschungsgruppe "Graphics, Vision, & Video" am Max-Planck-Institut für Informatik.  Von 2007 bis 2009 war er Gastprofessor am Department of Computer Science der Stanford University. Er erhielt seinen MSc-Abschluss in Künstlicher Intelligenz von der University of Edinburgh, seinen Diplom-Abschluss (MS) in Informatik von der Universität des Saarlandes und seine Promotion in Informatik vom MPI Informatik.

Der größte Teil seiner Forschung beschäftigt sich mit algorithmischen Problemen, die an der Grenze zwischen den Bereichen Computer Vision und Computer Graphics liegen, wie z.B. dynamische 3D-Szenenrekonstruktion und markerlose Bewegungserfassung, Computeranimation, Erscheinungs- und Reflexionsmodellierung, maschinelles Lernen für Grafik und Vision, neue Sensoren für die 3D-Erfassung, erweiterte Videoverarbeitung sowie bild- und physikalisch basiertes Rendering.

Für seine Arbeit erhielt er mehrere Auszeichnungen, darunter die Otto-Hahn-Medaille der Max-Planck-Gesellschaft 2007, den EUROGRAPHICS-Nachwuchspreis 2009 und den Deutschen Mustererkennungspreis 2012. Er ist außerdem Principal Investigator und Mitglied des Steering Committee des Intel Visual Computing Institute in Saarbrücken.

contact: theobalt (at) mpi-inf.mpg.de
resources.mpi-inf.mpg.de/perfcap/