Markerlose Rekonstruktion statischer und dynamischer 3D-Szenen

Spotlight: Veröffentlicht Freitag, 03 Mai 2013

Christian Theobalt

Markerlose Rekonstruktion statischer und dynamischer 3D-Szenen

Rekonstruktion dynamischer Szenen aus Multi-Video Daten

Die Entwicklung neuer Algorithmen zur Rekonstruktion der Geometrie und Reflektanz bewegter Szenen aus Videodaten ist eine wichtige Aufgabe der Bilderkennung und Computergrafik. Rekonstruierte Animationsmodelle von Menschen und generellen Szenen sind für die Computeranimation sowie für visuelle Effekte unerlässlich. Zudem ist die Erfassung der bewegten Umgebung aus Sensordaten auch für autonome Systeme, wie Roboter und autonome Fahrzeuge, von immer größerer Bedeutung. Die Rekonstruktion dynamischer Szenenmodelle ist auch die Voraussetzung für die Produktion von 3D-Videos und virtuellen Replayeffekten in Fernsehübertragungen. Speziell die Rekonstruktion menschlicher Bewegungen ist wichtig in den Bereichen Biomechanik und Medizin sowie in den Sportwissen schaften und der Mensch-Maschine Interaktion. Die Entwicklung neuer Sensorik und neuartiger Brillendisplays ermöglicht auch neue Anwendungen im Bereich erweiterter Realität. Um diese Anwendungen zu implementieren, sind allerdings auch Verfahren notwendig, um die bewegte reale Umgebung in Echtzeit zu erfassen.

Das Ziel unserer Forschung ist daher die Entwicklung neuartiger Performance Capture Algorithmen. Dies sind Verfahren, die aus Videodaten detaillierte Modelle der Geometrie, der Bewegung und der Oberflächeneigenschaften von realen bewegten Szenen erfassen. Die Rekonstruktion soll hierbei ohne aktiven Eingriff in die Szene erfolgen, also zum Beispiel ohne die Verwendung von Markern, wie sie bei traditionellen Motion Capture Verfahren verwendet werden. In der Vergangenheit haben wir die ersten Performance Capture Verfahren entwickelt, die detaillierte Szenenmodelle von Personen in genereller Alltagskleidung und von generellen Objekten aus Videodaten rekonsturieren. Allerdings sind alle diese Verfahren auf die Anwendung in kontrollierten Studios mit kontrollierter Beleuchtung und kontrolliertem Hintergrund beschränkt. Im Berichtszeitraum haben wir daher angefangen, die algorithmischen Grundlagen des Performance Capture neu zu definieren, um langfristig in der Lage zu sein, Modelle von Realweltszenen außerhalb des Studios, d. h. Szenen mit komplexer Struktur und Beleuchtung, mit nur wenigen Kameras erfassen zu können.

Im Berichtszeitraum entwickelten wir zum Beispiel die ersten Algorithmen zur hoch detaillierten markerlosen Rekonstruktion der Skelettbewegung von Menschen und Tieren in genereller Umgebung mit nur sehr wenigen (2 – 3) Kameras. Ein weiterer Meilenstein war die Entwicklung neuer inverser Renderingverfahren, um Modelle der Beleuchtung, Reflektanz, und der detaillierten dynamischen Oberflächengeometrie in unkontrollierten Umgebungen zu berechnen. Diese Verfahren bilden die Grundlage für folgende wichtige Ergebnisse: Der ersten Methode zur Rekonstruktion beleuchtbarer Szenemodelle in genereller Umgebung, der ersten Methoden zur Rekonstruktion detaillierter Gesichtsmodelle aus zwei oder sogar nur einem Videostrom, oder der neuen Verfahren zur Rekonstruktion detaillierter Animatonsmodelle von Menschen mit nur zwei Kameras [ siehe Abbildung 1 ] . Ein wichtiger neuer Forschungszweig ist auch die markerlose Rekonstruktion von Handbewegungen in Echtzeit aus wenigen oder gar nur einer Kameraperspektive [ siehe Abbildung 2 ] .

Rekonstruktion statischer und dynamischer Szenen mit Tiefensensoren

Neuartige Tiefenkameras messen 2.5D-Szenengeometrie und Farbinformation in Echtzeit. Diese neuen Sensoren sind kostengünstig und können daher auch wichtige Werkzeuge sein, um einer breiten Gruppe von Anwendern die Rekonstruktion statischer und dynamischer Szenenmodelle zu ermöglichen. Leider sind die Tiefenkameradaten in der Regel sehr verrauscht, besitzen eine sehr geringe Auflösung und weisen systematische Verzerrungen auf. In unserer Forschung haben wir daher Methoden entwickelt, um Tiefensensoren zu kalibrieren, das Rauschen zu eliminieren und die Auflösung der Kameras algorithmisch zu erhöhen. Weiterhin entwickeln wir neue Verfahren, um selbst große statische Szenen in Echtzeit in hohem Detail zu scannen.

Zudem arbeiten wir an neuen Methoden, um die menschliche Skelettbewegung und Körpergeometrie in Echtzeit mit nur einer Tiefenkamera zu messen. In diesem Zusammenhang haben wir auch die ersten Verfahren überhaupt entwickelt, um deformierbare Oberflächenmodelle genereller Objekte in Echtzeit aus Tiefenkameradaten zu messen.