Rodrigo Benenson & Jan Hosang

Zehn Jahre Fußgängerdetektion – was haben wir gelernt?

Die Objektdetektion ist eines der grundlegenden Probleme der Bildverarbeitung. Ein typisches Beispiel dafür ist die Fußgängerdetektion. Aufgrund ihrer vielfältigen Anwendungsmöglichkeiten in Fahrzeugsicherheit, Überwachung und Robotik ist sie ein aktives Forschungsgebiet, auf dem in den letzten zehn Jahren mehr als 1000 Arbeiten veröffentlicht wurden. Zudem profitiert die Fußgängerdetektion mittlerweile von standardisierten Datensätzen, auf denen Methoden evaluiert und verglichen werden können.
Im letzten Jahrzehnt wurden zahlreiche Herangehensweisen entwickelt, um die Fußgängerdetektion zu verbessern. Durch den Einsatz verschiedener Bildmerkmale, Signale und Klassifikatortypen konnte die Detektion stetig ausgebaut werden. Die Entwicklung größerer Systeme, die mehr Komponenten integrieren, ist dabei ein verlässliches Erfolgsrezept zur Steigerung der Qualität geworden („mehr ist mehr“).  

Wir haben unsere Forschung daher darauf konzentriert die grundlegenden Komponenten zu identifi zieren, die eine Fußgängerdetektion hoher Qualität ermöglichen. Indem wir die Stärkung dieser grundlegenden Komponenten in den Mittelpunkt unserer Arbeit stellten, war es uns möglich, eine beständige Spitzenleistung auf bewährten standardisierten Benchmarks zu erhalten („weniger ist mehr“).

Unsere besten Detektoren fußen auf mehrere Jahrzehnte alten Ideen (Gradientenorientierungsmerkmale, Filterbänke und verstärkte Entscheidungsbäume), die sorgfältig instanziiert und unseren neuesten Erkenntnissen angepasst wurden. Im Gegensatz zu bisherigen Arbeiten konnten wir dadurch aufzeigen, dass Spitzenleistungen bei der Fußgängerdetektion durch den Einsatz einer einzelnen rigiden Vorlage (keine Komponenten, keine verformbaren Teile) erzielt werden können. Die Vorlage wird dabei als „sliding window“ angewandt (kein Vorwissen zu Geometrie oder Szene, keine „bottom-up“ Signale). 

Aufgrund seiner Schlichtheit ist unser Ansatz für praktische Anwendungen mit hoher Geschwindigkeit geeignet. Unsere gegenwärtigen Ergebnisse bei der Fußgängerdetektion übertreffen damit die „deep convolutional neural networks“ (faltende neuronale Netzwerke) und Methoden, die komplexere Merkmale wie lokale binäre Muster und Kovarianz benutzen, bei weitem.

In den letzten zehn Jahren hat die Fußgängerdetektion große Fortschritte gemacht.

In den letzten Jahren haben unsere Ergebnisse die Spitzenleistungen, die auf standardisierten Benchmarks erzielt wurden, wiederholt vorangetrieben. Allein in den letzten beiden Jahren haben wir den Stand der Technik mit einer 30 x Fehlerreduktion verbessert (Reduktion von falschen Erkennungen pro Bild bei einer 80 % Erkennungsrate auf dem Caltech Fußgänger-Datensatz).

Unsere zur Fußgängerdetektion entwickelten Herangehensweisen haben auch Spitzenleistungen bei der Erken- nung von Gesichtern und Verkehrsschildern erbracht. Bei der Gesichtserkennung sind unsere Ergebnisse dem Stand der Technik auf allen vier maßgeblichen Benchmark-Datensätzen ebenbürtig.
Obwohl im letzten Jahrzehnt bedeutende Fortschritte erzielt wurden, sind wir noch weit davon entfernt, bei dieser Aufgabe menschliche Leistungsfähigkeit zu erreichen, oder die angestrebte Qualität für automatische Operationen zu erreichen, die über die menschliche Leistungsfähigkeit hinaus geht. Wir erwarten, dass eine Hinwendung zu einem umfassenderen Szenenverständnis zukünftig dazu beitragen wird, die Fehler der gegenwärtigen Methoden zu reduzieren.