Artikulierte Posenschätzung

Mykhaylo Andriluka & Leonid Pishchulin

Artikulierte Posenschätzung

Die menschliche Pose enthält vielfältige Informationen über Absicht, Haltung und innere Verfassung einer Person. Im Mittelpunkt unserer Forschung steht die Posenschätzung in realistischen Szenen wie Bildern und Videos, die auf YouTube gezeigt oder die mit einem Mobiltelefon aufgenommen wurden. Wir
möchten Methoden entwickeln, auf denen Anwendungen wie Aktivitätserkennung, markerloses Motion Capturing (Bewegungserfassung) und Augmented Reality (Augmentierte Realität) aufbauen können. Wir stützen uns auf jüngste Fortschritte in der hierarchischen Bilddarstellung mit Convolutional Neural Networks (CNN) und untersuchen zwei neue Forschungsrichtungen: Posenschätzung von mehreren Personen gleichzeitig und 3D-Posenschätzung mit nur einer kleinen Anzahl mobiler Kameras.

Erkennung und Posenschätzung in Szenen mit mehreren Personen

Wir schlagen eine Herangehensweise vor, die die Aufgabenstellung der artikulierten Menschenerkennung und der Posenschätzung gemeinsam löst. Mit unserem Ansatz können wir die Anzahl von Menschen in einer Szene erschließen, verdeckte Körperteile identifizieren und Körperteile verschiedener Menschen, die sich nahe beieinander befinden, eindeutig trennen [ siehe Abbildung ] . Unsere Methode basiert auf der Aufteilung und Markierung einer Reihe von Körperteilhypothesen, die mit einem CNN-basierten Körperteildetektor generiert wurden. Die Aufteilung wird dadurch erreicht, dass ein integer-lineares Programm gelöst wird, das correlation clustering Ansätzen ähnelt, wie sie bisher für die Bild- und Videosegmentierung vorgeschlagen wurden.

Ein Vorteil unserer Methode liegt darin, dass sie implizit Non-Maximum Suppression durchführt und dabei falsche Erkennungen von Körperteilen im Hintergrund entfernt und mehrfache korrekte Erkennungen, die sich auf dieselbe Person beziehen, zusammenführt.

Die Evaluation unseres Ansatzes auf standardisierte Benchmark-Tests zeigt seine Vorteile gegenüber bisherigen Strategien, die zuerst die Menschenerkennung und danach unabhängig die Posenschätzung durchführten.

 

Figure

3D-Posenschätzung in Mehrfachansicht

Wir schlagen eine neue Methode für das exakte markerlose Erfassen artikulierter Skelettbewegungen vor, von mehreren Personen in allgemeinen Szenen, in Gebäuden oder im Freien. Sie ist sogar bei der Eingabe von Daten, die mit nur zwei Kameras gefilmt wurden, anwendbar. Unser Ansatz vereint eine diskriminative bildbasierte gemeinsame Erkennungsmethode mit einem modellbasierten generativen Algorithmus zur Bewegungsverfolgung durch eine kombinierte Posenoptimierungsenergie. Die diskriminative teilbasierte Posenerkennungsmethode wird durch den Einsatz von Convolutional Neural Networks ausgeführt und schätzt unäre Potentiale für jedes Gelenk eines kinematischen Skelettmodells. Mithilfe dieser unären Potentiale werden Einschränkungen der Posen für das Tracking probabilistisch extrahiert, indem gewichtete Stichproben von einer durch das Modell geführten Aposteriori-Wahrscheinlichkeit gezogen werden. Zuletzt werden diese Einschränkungen mit einem auf Erscheinungsbild basierenden Modell-zu-Bild-Term kom- biniert. Aufgrund der Schnelligkeit der CNN-Erkennung können Posen durch die iterative lokale Optimierung sehr effizient berechnet werden, und unsere Methode erbringt eine kombinierte Posenschätzungsenergie mit analytischen Ableitungen. Zusammen ermöglicht dies das Tracking von voll artikulierten Gelenkwinkeln mit einer Geschwindigkeit und einer temporalen Stabilität, die sich auf dem neuesten Stand der Technik befinden, und dies mit nur sehr wenigen Kameras.

Mykhaylo Andriluka

DEPT. 2 Computer Vision and Multimodal Computing
Phone +49 681 9325-2119
Email andriluk@mpi-inf.mpg.de

Leonid Pishchulin

DEPT. 2 Computer Vision and Multimodal Computing
Phone +49 681 9325-1208
Email leonid@mpi-inf.mpg.de