
Zhi Li nach erfolgreicher Verteidigung ihrer Doktorarbeit
Am Freitag, 08. Mai 2026, Zhi Li verteidigte Zhi Li ihre Dissertation mit dem Titel: “Monokulares 3D-Verständnis von Mensch und Umgebung: Von der Interaktion zur Rekonstruktion" Von Juni 2022 bis November 2025 war sie Doktorand der Informatik am Saarland Informatics Campus in Saarbrücken und am Max-Planck-Institut für Informatik unter der Betreuung von Prof. Bernt Schiele Leiter der Abteilung „Computer Vision and Machine Learning”. Der Doktorgrad wird von der Universität des Saarlandes verliehen.
Zusammenfassung der Dissertationsschrift:
Das Verstehen und Rekonstruieren dreidimensionaler Mensch-Umwelt-Beziehungen aus monokularen Beobachtungen stellt eine grundlegende, jedoch äußerst anspruchsvolle Herausforderung in der Computer Vision dar. Ohne Stereo- oder Multiview-Informationen müssen monokulare Systeme Tiefe, Bewegung und räumliche Struktur aus von Natur aus mehrdeutigen visuellen Hinweisen ableiten. Die allgegenwärtige Verbreitung monokularer Kameras in autonomen Systemen, der Robotik und in Konsumgeräten macht dieses Szenario jedoch nicht nur praktikabel, sondern auch essenziell. Diese Dissertation untersucht ein einheitliches Rahmenwerk zur monokularen 3D-Erfassung von Mensch-Umwelt-Beziehungen, das sich schrittweise durch selbstüberwachte oder schwach überwachende Modelle entwickelt – von der Erfassung menschlicher Bewegung bis hin zur Anpassung an sich verändernde Umgebungen und deren Rekonstruktion.
Im ersten Teil wird untersucht, wie Umweltinformationen genutzt werden können, um das Verständnis menschlicher Bewegungen aus monokularen Eingaben zu verbessern. Insbesondere werden physikalische Einschränkungen – wie Bodenkontakt, Stützflächen und die Nähe zwischen Körper und Umgebung – zur Steuerung der Posenabschätzung herangezogen. Ein auf faktorisierter Korrektur basierendes Framework für die monokulare 3D-Pose-Schätzung mehrerer Personen wird vorgestellt, das eine stabile Optimierung auf Grundlage unvollständiger Anfangsschätzungen ermöglicht. Aufbauend darauf wird eine kontaktgeführte Motion-Capture-Methode eingeführt, die aus Posenmannigfaltigkeiten sampelt und dabei dichte Kontaktkonsistenz mit der Szene durchsetzt. Diese Methoden zeigen, wie auch begrenzte monokulare Informationen durch strukturierte Interaktion mit der Umgebung erweitert werden können.
Über die rein menschzentrierte Modellierung hinaus wird im nächsten Abschnitt untersucht, wie menschliche Bewegungen zur Erfassung von Umweltveränderungen genutzt werden können. In dynamischen oder verformbaren Szenen gelten statische Annahmen nicht mehr. Hierzu wird ein gemeinsames Rekonstruktions-Framework entwickelt, das die 3D-Bewegung des Menschen und Umgebungsverformungen aus monokularem Video gleichzeitig schätzt. Der Ansatz erfasst die wechselseitige Beeinflussung: Menschen passen sich an die Umgebung an, und ihre Bewegungen offenbaren deren Formbarkeit und Entwicklung. Auf Optimierung basierend, ermöglicht dieses Verfahren die Modellierung von Umgebungsverformungen durch menschliche Bewegung und eröffnet einen Weg zu hochpräziser Rekonstruktion dynamischer Szenen.
Da sich Szenen sowohl räumlich als auch domänenübergreifend weiterentwickeln, müssen monokulare Systeme robust gegenüber Verteilungsverschiebungen bleiben. In diesem Kontext wird ein quelldatenfreies Testzeit-Domain-Adaptations-Framework für die monokulare Tiefenschätzung vorgeschlagen. Eine selbstüberwachte Optimierungsstrategie wird eingesetzt, um Tiefenvorher-sagen während der Inferenz an unbekannte Ziel-Domänen anzupassen – ohne Zugang zu Quelldaten oder Beschriftungen. Durch die Nutzung geometrischer Konsistenz und photometrischer Hinweise zur Testzeit kann dieser Ansatz effektiv Domänenverschiebungen kompensieren, wie sie häufig in realen Fahrszenarien auftreten. Im Gegensatz zu früheren Methoden, die Offline-Neutraining oder beschriftete Quelldaten erfordern, ist dieser Ansatz plug-and-play-fähig, effizient und verbessert die Generalisierungsfähigkeit in einem vollständig unbeaufsichtigten Setting.
Die letzte Phase dieser Arbeit widmet sich der vollständigen Rekonstruktion von Szenen aus einer Einzelansicht. Es werden Methoden zur semantischen 3D-Occupancy-Vorhersage auf Basis monokularer Bilder entwickelt, die eine vorwärtsgerichtete Einzelbildinferenz ohne Referenzwerte oder LiDAR-Supervision ermöglichen. Der Ansatz basiert auf einer NeRF-basierten volumetrischen Rendering-Formulierung, bei der 3D-sematische Vorhersagen mittels differentieller Renderingverluste an 2D-Annotationen angepasst werden. Innerhalb dieses Frameworks wird eine Multi-Task-Interaktionsstrategie gezielt entworfen, um die Synergie zwischen semantischer Supervision und geometrischer Rekonstruktion zu verbessern. Durch die Integration semantischer und geometrischer Schlussfolgerungen in einem einheitlichen Modell ermöglicht die Methode ein umfassendes 3D-Szenenverständnis bei minimalem Supervisionsaufwand. Trotz der ausschließlichen Verwendung von 2D-Supervision gelingt es dem System, aus Einzelbildern bedeutungsvolle volumetrische Strukturen zu rekonstruieren – ein praxisnaher Schritt in Richtung selbstüberwachter monokularer 3D-Rekonstruktion.
Insgesamt ergeben die Beiträge dieser Arbeit eine kohärente Entwicklung hin zu robuster, selbstüberwachter 3D-Wahrnehmung aus monokularer visueller Information. Vom Erfassen von Interaktion bis zur Rekonstruktion von Struktur wird ein Framework präsentiert, das Maschinen ermöglicht, die dreidimensionale Welt durch die enge Linse einer einzelnen Kamera zu interpretieren – ohne den Bedarf teurer Sensorik oder aufwendiger Annotation. Dies eröffnet neue Perspektiven für dynamisches Szenenverständnis, menschzentriertes Rechnen und verkörperte künstliche Intelligenz.