Neue Methoden für die komplexe Videobearbeitung

Christian Theobalt

Neue Methoden für die komplexe Videobearbeitung

Bildbearbeitungsmethoden spielen eine wichtige Rolle bei der Nachbearbeitung von Fotografi en. Standardprogramme stellen Algorithmen für übliche Nachbearbeitungsaufgaben zur Verfügung, zum Beispiel spezielle Filter, um Rauschen zu entfernen, oder den Kontrast zu erhöhen. Die Nachbearbeitung von Videos ist eine ungleich schwierigere Aufgabe. Videos sind nicht nur eine zeitliche Abfolge von Einzelbildern. Veränderungen, die an Videos nachträglich vorgenommen werden, müssen daher nicht nur räumlich im Bild konsistent sein, sondern auch über die Zeit, d. h. über mehrere Videobilder hinweg. Viele kommerziell verfügbare Videobearbeitungsprogramme basieren aber auf der Annahme, dass Videos Folgen von Einzelbildern sind. Die Nachbearbeitung, die mit solchen Werkzeugen möglich ist, beschränkt sich daher oft auf die Anwendung einfacher Filter über ein Zeitfenster hinweg.Typische Videobearbeitungsaufgaben in professionellen Film- und Videoproduktionen sind weitaus komplexer. Oftmals müssen ganze Szenenelemente, wie zum Beispiel Personen, nachträglich entfernt, verändert oder neu positioniert werden. Kein existierendes Filterverfahren könnte diese Aufgabe auch nur ansatzweise automatisch lösen. Die Konsequenz ist, dass solche Aufgaben in der Regel durch manuelle Bearbeitung einzelner Pixel gelöst werden, was selbst bei kurzen Videosequenzen mehrere Wochen dauern kann. Zudem sind heutige private Videodatenbanken, sowie Online-Videodatenbanken sehr groß. Das Durchsuchen solcher Datenbanken ist eine algorithmische Herausforderung. Existierende Methoden basieren auf oft fehlerhaften und mehrdeutigen Textannotierungen, die den Videos von Benutzern hinzugefügt wurden. Idealerweise würde man die Videos anhand von räumlichen, zeitlichen, oder inhaltlichen Verknüpfungen durchsuchen. Man würde zum Beispiel Videos, die am gleichen Ort, oder zur gleichen Zeit aufgenommen wurden, oder Videos die ähnliche Szenen und thematische Inhalte zeigen, bei der Suche zusammenfassen. Algorithmen, die automatich solche inhaltlichen Zusammenhänge erkennen, müssen noch erforscht werden. Wir widmen uns daher der algorithmischen Grundlagenforschung in den beiden oben genannten Gebieten.

Videos im Panoramakontext

Kontextbasierte Suche in Videodatenbanken

Insbesondere kontext-basierte Beziehungen zwischen Videos eröffnen neue Möglichkeiten, um Videodatenbanken zu explorieren. Kontext-basierte Relationen erfassen, ob Videos in der gleichen Gegend, der gleichen Stadt, oder, zumindest zum Teil, an exakt dem gleichen Ort gedreht wurden. Wir entwickeln daher Methoden, um solche kontextuellen Beziehungen automatisch aus Videodatenbanken zu errechnen. Eines unserer Verfahren errechnet hierzu einen Graphen, eine so genannte Videoscape, dessen Knoten so genannte Portale sind, also bestimmte Orte, die in einem Video gezeigt werden. Die Kanten des Graphen sind Videos, die mit einem Portal verbunden sind, sofern sie diesen Ort zeigen. Das automatische Errechnen dieses Graphen ist eine komplexe Aufgabe, und wir haben hierzu neue Methoden der Bilderkennung und des maschinellen Lernens entwickelt.

Die Videoscape kann nun interaktiv erkundet werden, zum Beispiel kann man eine virtuelle Tour durch eine Stadt machen, indem man Videos anschaut, und an Portalen, deren 3D-Geometrie aus den Videos extrahiert wird, in ein anderes Video wechselt. Wir haben auch erforscht, wie Videos von einem bestimmten Ort gegen ein Hintergrundpanorama des Ortes registriert werden können. Hierdurch ergeben sich völlig neue Möglichkeiten, um räumliche und zeitliche Zusammenhänge zwischen Videos des gleichen Ortes zu erkunden.

Neue Methoden der Videobearbeitung

Wir haben neue Algorithmen entwickelt, um dichte Korrespondenzen zwischen Bildserien, auch bei starkem Rauschen und stark schwankenden Kameraeinstellungen, zu berechnen. Diese bilden die Grundlage für komplexe Videobearbeitungsschritte, wie das automatische Auffüllen des Szenenhintergrundes. Sie ermöglichen aber auch die Erstellung eines High Dynamic Range Bildes aus Einzelbildern verschiedener Belichtungszeit, selbst wenn sich die Szene während der Aufnahmen stark bewegt. Neu entwickelte maschinelle Lernverfahren ermöglichen es uns auch, Kompressionsartefakte aus Bildern und Videos zu entfernen, und die Bildauflösung algorithmisch zu erhöhen.