Abschätzen der Körperhaltung und -form von Personen in 3D.

3D Rekonstruktion und das Erkennen Personen

Der Mensch ist unglaublich gut darin, andere Menschen anhand von visuellen Daten wahrzunehmen. Ohne überhaupt darüber nachzudenken, nehmen wir schnell die Körperform, die Haltung, die Mimik und die Kleidung anderer Menschen wahr. Unsere Forschung trainiert Maschinen, Personen mit der gleichen Detailgenauigkeit wahrzunehmen wie es Menschen können.

Obwohl die aktuellen Methoden der Bilderkennung 2D-Position und Bildsegmentierung vorhersagen können, weil kommentierte Daten verfügbar sind, ist die Vorhersage von 3D-Menschengeometrie, Bewegung und Kleidung ein offenes Problem, da Trainingsdaten - Bilder und die entsprechende 3D-Geometrie - nicht verfügbar sind.

Unser Ansatz zur Lösung dieses Problems besteht darin, eine aussagekräftige Darstellung von Menschen im 3D-Raum abzuleiten und zu erlernen. eine solche Darstellung kodiert intuitiv das Maschinen-Modell von Menschen. Bei einem Bild sollten die Inferenz-Algorithmen alle Details in 3D dergestalt vorhersagen, dass diese mit den erlernten 3D-Strukturen des Mensch-Modells übereinstimmen und sich die Projektion mit den Bildbeobachtungen deckt, siehe Abb.1. Dies öffnet die Tür für teilüberwachtes Lernen, da allein aus unmarkierten Bildern auf Eigenschaften der 3D-Welt geschlossen werden kann.

Abbildung 1: Selbstüberwachtes Lernframework mit expliziten 3D-Weltdarstellungen.

In Anlehnung an dieses Paradigma stellten wir Methoden vor die zur 3D-Rekonstruktion dienen: von menschlicher Gestalt und Pose aus Bildern, von Gestalt und Kleidung aus Videos, sowie von nicht-starren Verformungen aus Videos.

Menschliche Pose und Formschätzung aus Bildern und Videos: Wir stellten (Neural Body Fitting (NBF)) vor, das ein statistisches 3D-Körpermodell (SMPL) in ein CNN integriert und dabei eine zuverlässige semantische Bottom-Up-Körpersegmentierung und robuste Top-Down-Körpermodellbeschränkungen nutzt, siehe oberer Bildteil. NBF ist vollständig differenzierbar und kann durch Selbstkonsistenz trainiert werden - die 3D-Weltvorhersage muss mit den 2D-Bildern übereinstimmen. Dies ermöglicht es, nur mit Bildern über 3D-Menschen zu lernen, siehe Abb. 2.

Abbildung 2: Algorithmen zur Ableitung von Pose, Form, 3D-Geometrie, Aussehen und Kleidung aus Bildern.

Kleidung: Verständnis von menschlichem Verhalten beschränkt sich nicht auf Bewegung und Körperform. Die Art der Kleidung, die Menschen tragen, ist eine weitere Ausdrucksform. Menschen benutzen Kleidung, um ihre politischen Ansichten, ihr Alter, Geschlecht oder ihren sozialen Status auszudrücken. Anstatt auf Körperhaltung und -form unabhängig von der Kleidung zu schließen, versuchen wir, die menschliche Körperform zusammen mit der Kleidung (Kategorie, Aussehen und Form) aus Bildern zu erfassen und zu beschreiben. Wir haben die ersten Algorithmen zur Rekonstruktion von Menschen einschließlich ihrer 3D-Kleidung aus Videos eingeführt. Unsere jüngsten Arbeiten erlauben es, aus einigen wenigen Bildern Körperform und Kleidung getrennt voneinander vorherzusagen, was eine vollständige Kontrolle über die Vorhersagen ermöglicht, siehe Abb. 3.

Gerard Pons-Moll

DEPT. Computer Vision and Machine Learning
Phone +49.681.9325-2135
Email: gpons@mpi-inf.mpg.de